#PensandoEmDados [5] – ETL

No contexto de dados e seu ambiente onde se envolvem Data Warehouse (DW) e Business Intelligence (BI), o processo de Extrair e Tratar os dados é um processo comum, chamado de ETL. Esse processo é dividido em três etapas, em que cada uma delas possui grande importância para o sucesso da transição dos dados dos sistemas de origem para o DW.

Você sabe o que é ETL?

ETL é uma sigla que significa Extract, Transform, Load ou Extração, Transformação e Carga, em português. Para trabalharmos com dados, se faz necessário que esse processo seja realizado com as fontes de dados já bem definidas.

Ao acessar os dados na fonte, a extração é a primeira etapa, tratando-se da obtenção do dado.

A transformação é etapa onde limpamos e preparamos os dados para que ele esteja pronto para consultas com definição de tipos de dados, formatos, medidas e métricas a serem utilizadas nas visualizações.

A carga é a submissão dos dados a um repositório ou Data warehouse, local onde os dados estarão disponíveis para que consultas e visões diferentes dos mesmos possam ser disponibilizadas.

De forma geral, o ETL pode ser representado pela imagem abaixo:

ETL
Figura 1 – Processo de ETL. Autor: Diego Elias [ CanalTech, 2014]

O processo de ETL, por exemplo, é essencial para a criação das estruturas de Dimensões e Fatos no ambiente do DW. É ele que faz a “ponte” de ligação entre o operacional e o DW. Devemos escolher bem as ferramentas que darão suporte ao processo, pois são essenciais para a correta execução das atividades do ETL.

ELIAS, Diego [ CanalTech, 2014]

Em resumo, o processo de ETL é a forma como podemos interligar um sistema de análise de dados ou um novo repositório a fonte original de dados. Bancos de dados, Planilhas, arquivos em servidores e muitos outros formatos podem ser a fonte de dados e, desde que permitam o acesso de aplicações externas, permitirão que a Extração seja feita. Uma vez que essa primeira etapa tenha sido concluída com sucesso, a Transformação (ou tratamento) dos dados e a carga em sua nova estrutura de armazenamento concluem a integração de dados com sucesso.

Para acompanhar essas e outras postagens, me siga pelas redes sociais no Instagram como @profdanielbrandao e Facebook @professordanielbrandao. Em breve a série #PensandoEmDados estará em vídeo também no meu Canal do Youtube (inscreva-se).

#PensandoEmDados [4] – Integração de dados

Integração de dados é combinação de processos técnicos e de negócios utilizados para combinar dados de…

Integrar dados é unificar diferentes bases

A busca por informações sobre qualquer assunto requer dados íntegros e confiáveis. É de interesse de todos que dados verdadeiros e completos sejam recolhidos para uma análise, seja para um relatório mensal/semestral de uma instituição ou o resultado de uma busca na internet. A fonte dos dados é de vital importância nesse aspecto e, por isso, integração de dados é tema recorrente nas pesquisas, artigos e nos estudos sobre DADOS.

O termo INTEGRAÇÃO vem justamente de integrar, tornar íntegro, formando um conjunto de dados a partir de fontes e origens distintas. A IBM é uma gigante da área de computação e de lidar com dados. Em seu site oficial, ela nos traz a seguinte definição:

“A integração de dados é a combinação de processos técnicos e de negócios utilizados para combinar dados de fontes distintas em informações valiosas e relevantes através de um software de integração.”

IBM, 2018

Diversas empresas e organizações passaram a criar mecanismos para que diferentes tipos de dados pudessem ter uma conexão, principalmente após o termo Big Data ficar em evidencia. Empresas como a Microsoft, Oracle, Amazon e a própria IBM tem criado grupos de trabalho e pesquisa e com isso temos hoje diversas formas de realizar essa integração e análise de dados de maneira rápida, com baixo custo e com uso de inteligência artificial no processo.

Apache Hadoop

Hadoop é uma plataforma da Apache Foundation criada para computação distribuída. Ou seja, é um sistema que consegue unificar várias máquinas (computadores) que passam a ser enxergados como um só. Com ele, trabalhar com processamento de dados em grandes volumes a tarefa passa a ser menos penosa. Além do Hadoop, a Apache se destaca de várias formas com produtos que atendem a diversas demandas voltadas a dados. Por ser uma fundação, não tem necessariamente fins lucrativos, o que torna o uso de seus sistemas práticos para diversos projetos, sejam eles públicos ou privados.

Com ferramentas com essa, é possível receber dados vindos de um banco de dados Relacional, outro de um banco Não Relacional, de um .TXT ou .CSV, uma planilha ou de diversos outros sistemas, conecta-los entre si e criar visualizações a partir dessa unificação.

Em resumo, integração de dados é preciso para que possamos ter a consolidação da informação e, com isso, a geração de conhecimento acerca de um ou de vários tipos de dados.

#PensandoEmDados [2] – Big Data

Como lidar com tamanha quantidade de dados?

Tudo que fazemos gera dado, aonde quer que formos, estaremos gerando e consumindo os mesmos. Somos as fontes dos próprios dados e geramos o volumoso aglomerado de dados chamado de BIG DATA.

Como lidar com tamanha quantidade de dados?

Saber distinguir os dados entre si e como proceder para lidar com o grande volume é uma das maiores tarefas que temos hoje em dia. BIG DATA é o termo que se associa a um amontoado GIGANTE de dados que pode pertencer a um mesmo domínio (uma empresa, uma rede social, um rastreamento de dispositivo, etc) ou a junção de vários domínios.

Com esse mundo “globalizado” dos dados, existem muitos tipos diferentes de dados. Quem trabalha com programação e lida com bancos de dados sabe os diferentes formatos que os dados podem ter como Strings (caracteres), Double, Float (números decimais), Int (números inteiros) boolean (valor booleano entre Verdadeiro ou Falso) e etc.

Por exemplo, um cadastro ou base de dados cadastrais é formado de casos ou registros (que no caso são os clientes) e variáveis. Para cada cliente temos o resultado das variáveis. Por exemplo, o primeiro cliente da base de dados tem o nome Fulano de Tal, o Sexo Masculino, o Estado Civil Solteiro, a Renda R$2.500,00 por mês, etc [Pinheiro, 2011].

O Gartner Group (2001) traz a seguinte definição sobre o assunto:

“Big data são dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior.”

Gartner, 2001

Esse conceito já demonstra os V´s que envolvem o conceito. Enquanto essa definição inicial inclui apenas 3 Vs, hoje já se trabalha com pelo menos 5 (apesar que existem equipes e empresas que já apresentam até 10 deles). Os que podemos chamar de principais, além dos já citados Variedade, Volume e Velocidade são:

  • Veracidade
  • Valor
  • Variabilidade
  • Visualização

A veracidade é item crítico, afinal com dados falsos ou não reais teríamos uma inutilidade dos dados. Seu valor está também ligado a isso, dados terão valor quanto maior sua capacidade de agregar eles tiverem. Variabilidade é a capacidade que os dados tem de variar em si mesmo, valioso quando analisamos dados em tempo real. E a visualização é a demonstração desses dados que na maioria das vezes será através de gráficos e painéis (dashboards). [baseado em IMPACT, 2016]

Para lidar com todas as nuances dos dados, alguns aspectos técnicos como Mineração de Dados, o processo de ETL e conceitos de DataWarehouse e Data Mart são importantes aliados.

No próximo post falaremos mais sobre as técnicas de armazenamento e tratamento de dados.

Siga-me nas redes sociais:

Aprendendo banco de dados com MySQL e Workbench

Uma nova série-tutorial sobre MySQL com a ferramenta Workbench.Um pontapé inicial para quem quer aprender banco de dados

MySQL é um dos bancos de dados mais populares do mundo. Hoje comandado pela Oracle, sua versatilidade e o fato de ser open source favorecem a popularidade.

Estou começando uma série-tutorial sobre MySQL com a ferramenta Workbench. Ela será um pontapé inicial para quem quer aprender banco de dados e principalmente o MySQL.

Os vídeos estarão disponíveis publicados em meu canal no Youtube (já clique aqui e se inscreva). A série mostrará desde como instalar o banco e a ferramenta até a manipulação de dados, com a criação de Schemas, Tabelas, Inserção de dados e um CRUD completo.

Vem comigo, inscreva-se em meu canal e siga-me em meu blog para ter acesso a todo o material.

Que Comecem os jogos!

Começo de ano letivo, alguns alunos ainda em ritmo de férias, mas vamos lá. COMEÇOU!!

O semestre 2017.1 já está valendo. Aos meus alunos de BANCO DE DADOS e PROGRAMAÇÃO DINÂMICA PARA WEB, os materiais e a sala do ambiente Virtual já está disponível.

Aos alunos de Sistema de Informação, também já podem conferir alguns materiais que iremos utilizar nas aulas, além de poder participar da primeira atividade no Fórum em nosso Ambiente Virtual.

A todos, um ótimo começo de ano letivo, e que os jogos comecem!!

11 de Agosto, dia do Estudante

estudante

“Sabe voar, estudante?” [NASCIMENTO, Capitão]

Dessa frase ‘inspiradora’, faço minha homenagem aos meus alunos, ex-alunos e a todos os estudantes que me seguem. Parabéns pelo seu dia! Seja sempre um estudante, não importa do que, estude sempre.

Questionário 2016.1

Olá meus caros.

Finalizamos o primeiro semestre do ano e como de costume gosto de fazer um apanhado geral de como foi o andamento de minhas aulas. Hoje, portanto, gostaria de convidar meus alunos e ex-alunos nas disciplinas 2016.1 da Unipê para analisarem a disciplina, como forma de concluirmos o semestre de forma a reconhecer os pontos fortes e fracos.

Segue o link individual de cada disciplina:

O formulário é anônimo, e serve apenas para que a qualidade das aulas possa melhorar a cada semestre. Agradeço desde já a colaboração de todos.