#PensandoEmDados [5] – ETL

No contexto de dados e seu ambiente onde se envolvem Data Warehouse (DW) e Business Intelligence (BI), o processo de Extrair e Tratar os dados é um processo comum, chamado de ETL. Esse processo é dividido em três etapas, em que cada uma delas possui grande importância para o sucesso da transição dos dados dos sistemas de origem para o DW.

Você sabe o que é ETL?

ETL é uma sigla que significa Extract, Transform, Load ou Extração, Transformação e Carga, em português. Para trabalharmos com dados, se faz necessário que esse processo seja realizado com as fontes de dados já bem definidas.

Ao acessar os dados na fonte, a extração é a primeira etapa, tratando-se da obtenção do dado.

A transformação é etapa onde limpamos e preparamos os dados para que ele esteja pronto para consultas com definição de tipos de dados, formatos, medidas e métricas a serem utilizadas nas visualizações.

A carga é a submissão dos dados a um repositório ou Data warehouse, local onde os dados estarão disponíveis para que consultas e visões diferentes dos mesmos possam ser disponibilizadas.

De forma geral, o ETL pode ser representado pela imagem abaixo:

ETL
Figura 1 – Processo de ETL. Autor: Diego Elias [ CanalTech, 2014]

O processo de ETL, por exemplo, é essencial para a criação das estruturas de Dimensões e Fatos no ambiente do DW. É ele que faz a “ponte” de ligação entre o operacional e o DW. Devemos escolher bem as ferramentas que darão suporte ao processo, pois são essenciais para a correta execução das atividades do ETL.

ELIAS, Diego [ CanalTech, 2014]

Em resumo, o processo de ETL é a forma como podemos interligar um sistema de análise de dados ou um novo repositório a fonte original de dados. Bancos de dados, Planilhas, arquivos em servidores e muitos outros formatos podem ser a fonte de dados e, desde que permitam o acesso de aplicações externas, permitirão que a Extração seja feita. Uma vez que essa primeira etapa tenha sido concluída com sucesso, a Transformação (ou tratamento) dos dados e a carga em sua nova estrutura de armazenamento concluem a integração de dados com sucesso.

Para acompanhar essas e outras postagens, me siga pelas redes sociais no Instagram como @profdanielbrandao e Facebook @professordanielbrandao. Em breve a série #PensandoEmDados estará em vídeo também no meu Canal do Youtube (inscreva-se).

#PensandoEmDados [2] – Big Data

Como lidar com tamanha quantidade de dados?

Tudo que fazemos gera dado, aonde quer que formos, estaremos gerando e consumindo os mesmos. Somos as fontes dos próprios dados e geramos o volumoso aglomerado de dados chamado de BIG DATA.

Como lidar com tamanha quantidade de dados?

Saber distinguir os dados entre si e como proceder para lidar com o grande volume é uma das maiores tarefas que temos hoje em dia. BIG DATA é o termo que se associa a um amontoado GIGANTE de dados que pode pertencer a um mesmo domínio (uma empresa, uma rede social, um rastreamento de dispositivo, etc) ou a junção de vários domínios.

Com esse mundo “globalizado” dos dados, existem muitos tipos diferentes de dados. Quem trabalha com programação e lida com bancos de dados sabe os diferentes formatos que os dados podem ter como Strings (caracteres), Double, Float (números decimais), Int (números inteiros) boolean (valor booleano entre Verdadeiro ou Falso) e etc.

Por exemplo, um cadastro ou base de dados cadastrais é formado de casos ou registros (que no caso são os clientes) e variáveis. Para cada cliente temos o resultado das variáveis. Por exemplo, o primeiro cliente da base de dados tem o nome Fulano de Tal, o Sexo Masculino, o Estado Civil Solteiro, a Renda R$2.500,00 por mês, etc [Pinheiro, 2011].

O Gartner Group (2001) traz a seguinte definição sobre o assunto:

“Big data são dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior.”

Gartner, 2001

Esse conceito já demonstra os V´s que envolvem o conceito. Enquanto essa definição inicial inclui apenas 3 Vs, hoje já se trabalha com pelo menos 5 (apesar que existem equipes e empresas que já apresentam até 10 deles). Os que podemos chamar de principais, além dos já citados Variedade, Volume e Velocidade são:

  • Veracidade
  • Valor
  • Variabilidade
  • Visualização

A veracidade é item crítico, afinal com dados falsos ou não reais teríamos uma inutilidade dos dados. Seu valor está também ligado a isso, dados terão valor quanto maior sua capacidade de agregar eles tiverem. Variabilidade é a capacidade que os dados tem de variar em si mesmo, valioso quando analisamos dados em tempo real. E a visualização é a demonstração desses dados que na maioria das vezes será através de gráficos e painéis (dashboards). [baseado em IMPACT, 2016]

Para lidar com todas as nuances dos dados, alguns aspectos técnicos como Mineração de Dados, o processo de ETL e conceitos de DataWarehouse e Data Mart são importantes aliados.

No próximo post falaremos mais sobre as técnicas de armazenamento e tratamento de dados.

Siga-me nas redes sociais: