#PensandoEmDados [5] – ETL

No contexto de dados e seu ambiente onde se envolvem Data Warehouse (DW) e Business Intelligence (BI), o processo de Extrair e Tratar os dados é um processo comum, chamado de ETL. Esse processo é dividido em três etapas, em que cada uma delas possui grande importância para o sucesso da transição dos dados dos sistemas de origem para o DW.

Você sabe o que é ETL?

ETL é uma sigla que significa Extract, Transform, Load ou Extração, Transformação e Carga, em português. Para trabalharmos com dados, se faz necessário que esse processo seja realizado com as fontes de dados já bem definidas.

Ao acessar os dados na fonte, a extração é a primeira etapa, tratando-se da obtenção do dado.

A transformação é etapa onde limpamos e preparamos os dados para que ele esteja pronto para consultas com definição de tipos de dados, formatos, medidas e métricas a serem utilizadas nas visualizações.

A carga é a submissão dos dados a um repositório ou Data warehouse, local onde os dados estarão disponíveis para que consultas e visões diferentes dos mesmos possam ser disponibilizadas.

De forma geral, o ETL pode ser representado pela imagem abaixo:

ETL
Figura 1 – Processo de ETL. Autor: Diego Elias [ CanalTech, 2014]

O processo de ETL, por exemplo, é essencial para a criação das estruturas de Dimensões e Fatos no ambiente do DW. É ele que faz a “ponte” de ligação entre o operacional e o DW. Devemos escolher bem as ferramentas que darão suporte ao processo, pois são essenciais para a correta execução das atividades do ETL.

ELIAS, Diego [ CanalTech, 2014]

Em resumo, o processo de ETL é a forma como podemos interligar um sistema de análise de dados ou um novo repositório a fonte original de dados. Bancos de dados, Planilhas, arquivos em servidores e muitos outros formatos podem ser a fonte de dados e, desde que permitam o acesso de aplicações externas, permitirão que a Extração seja feita. Uma vez que essa primeira etapa tenha sido concluída com sucesso, a Transformação (ou tratamento) dos dados e a carga em sua nova estrutura de armazenamento concluem a integração de dados com sucesso.

Para acompanhar essas e outras postagens, me siga pelas redes sociais no Instagram como @profdanielbrandao e Facebook @professordanielbrandao. Em breve a série #PensandoEmDados estará em vídeo também no meu Canal do Youtube (inscreva-se).

#PensandoEmDados [4] – Integração de dados

Integração de dados é combinação de processos técnicos e de negócios utilizados para combinar dados de…

Integrar dados é unificar diferentes bases

A busca por informações sobre qualquer assunto requer dados íntegros e confiáveis. É de interesse de todos que dados verdadeiros e completos sejam recolhidos para uma análise, seja para um relatório mensal/semestral de uma instituição ou o resultado de uma busca na internet. A fonte dos dados é de vital importância nesse aspecto e, por isso, integração de dados é tema recorrente nas pesquisas, artigos e nos estudos sobre DADOS.

O termo INTEGRAÇÃO vem justamente de integrar, tornar íntegro, formando um conjunto de dados a partir de fontes e origens distintas. A IBM é uma gigante da área de computação e de lidar com dados. Em seu site oficial, ela nos traz a seguinte definição:

“A integração de dados é a combinação de processos técnicos e de negócios utilizados para combinar dados de fontes distintas em informações valiosas e relevantes através de um software de integração.”

IBM, 2018

Diversas empresas e organizações passaram a criar mecanismos para que diferentes tipos de dados pudessem ter uma conexão, principalmente após o termo Big Data ficar em evidencia. Empresas como a Microsoft, Oracle, Amazon e a própria IBM tem criado grupos de trabalho e pesquisa e com isso temos hoje diversas formas de realizar essa integração e análise de dados de maneira rápida, com baixo custo e com uso de inteligência artificial no processo.

Apache Hadoop

Hadoop é uma plataforma da Apache Foundation criada para computação distribuída. Ou seja, é um sistema que consegue unificar várias máquinas (computadores) que passam a ser enxergados como um só. Com ele, trabalhar com processamento de dados em grandes volumes a tarefa passa a ser menos penosa. Além do Hadoop, a Apache se destaca de várias formas com produtos que atendem a diversas demandas voltadas a dados. Por ser uma fundação, não tem necessariamente fins lucrativos, o que torna o uso de seus sistemas práticos para diversos projetos, sejam eles públicos ou privados.

Com ferramentas com essa, é possível receber dados vindos de um banco de dados Relacional, outro de um banco Não Relacional, de um .TXT ou .CSV, uma planilha ou de diversos outros sistemas, conecta-los entre si e criar visualizações a partir dessa unificação.

Em resumo, integração de dados é preciso para que possamos ter a consolidação da informação e, com isso, a geração de conhecimento acerca de um ou de vários tipos de dados.

O Futuro do Trabalho em 3 conceitos: Dados, Descentralização e Automação

Não sou eu quem estou falando, mas os fatos estão a mostra. A DSA (DataScience Academy) lançou essa semana em seu blog um artigo que trata sobre os 3 principais conceitos do “Trabalho do Futuro”. Os 3 pilares são os já citados no título da postagem: Dados, Descentralização e Automação que, segundo a DSA ” mudarão radicalmente liderança, cultura, privacidade e segurança. Vamos discutir cada um desses conceitos”.

Você DISCORDA?

O Big Data já existe há algum tempo. Muitas vezes, o termo foi cunhado como a próxima “revolução da administração”, a Quarta Revolução Industrial ou “a próxima fronteira para inovação, competição e produtividade”. Embora apenas alguns anos atrás, as organizações ainda lutassem para entender o impacto dessas tendências em seus negócios, o Big Data agora emergiu como o padrão corporativo.

Data Science Academy, 2019

O Futuro do Trabalho é Descentralizado

Termos como Blockchain, Big Data, Machine Learning, Bots e afins estão e estarão cada dia mais em evidência. Será impossível dissociar nossa sociedade cada vez mais conectada de termos e metodologias assim. O profissional do futuro deverá ser familiarizado com isso tudo e muito mais que virá.

Todos nós, do funcionário público ao vendedor de loja, do professor ao cientista, teremos que ser EMPREENDEDORES DE NÓS MESMOS. “Com o futuro do trabalho, os contratos inteligentes removerão cada vez mais a necessidade de julgamento humano e minimizarão a necessidade de confiança. ” [DSA, 2019]

Resumindo

O futuro do trabalho gira em torno de dados, descentralização e automação. A coleta de dados pode ajudar todos os aspectos da sua empresa, desde o desenvolvimento de novos produtos até a melhoria da eficiência operacional. Os dados levam ao conhecimento que, em última análise, impulsiona a tomada de decisão. Como tal, a organização do amanhã é uma empresa de dados.

Quer saber mais sobre DADOS? Acompanhe a série #PensandoEmDados aqui no blog

Leia a postagem na íntegra no Blog DSA

#PensandoEmDados [3] – Armazenando dados

Como você deve saber, os dados são passíveis de serem coletados de várias maneiras. Sensores, formulários, bases de dados, câmeras e variados sistemas, em conjunto ou separadamente, podem ser usados como coletores de dados. Mas, você já se perguntou onde SEUS DADOS são ARMAZENADOS?

Armazenando dados

Se você já tem conhecimento na área de sistemas e desenvolvimento, sabe que o meio mais tradicional de armazenamento de dados são os Bancos de dados (BD). Os BDs são bases que contém uma estrutura e regras para armazenagem de dados em formatos geralmente pré-estabelecidos, utilizando SGBDs (Sistemas Gerenciadores de Banco de Dados). Os modelos de bancos de dados mais tradicionais e ainda grandemente utilizados são os bancos de dados Relacionais.

O termo RELACIONAL vem do conceito matemático de relações, onde um dado conjunto A pode se relacionar com um B, que por sua vez pode ser relacionado a um C. O conceito de “estar contido” ou “não estar contido” te remete a alguma coisa? Pois é, esse princípio matemático define o que seriam os relacionamentos.

Os BDs relacionais são baseados em TABELAS, que possuem um nome e colunas que definem que tipo de dado será guardado. Os tipos de dados a serem armazenados devem ser definidos na criação da tabela e cada campo da tabela terá um tipo específico de dado, como: String (caracteres), Double/Float/Integer (tipos numéricos), Boolean (tipo booleano), Data/Datatime/TimeStamp (tipos que armazenam data e/ou data e hora), entre outros.

Dos bancos relacionais no mercado, se destacam os robustos ORACLE, SQL SERVER (da Microsoft), BD2 (da IBM) como Bancos proprietários (pagos). Para os gratuitos temos  POSTGRESQL e MySQL (pertencente a Oracle mas com a versão MariaDB gratuita).

Outros tipos de Bases de dados

Existem outros tipos de bancos de dados além dos relacionais. Um dos que está em maior crescimento são os NoSQL (acrônimo para Não Apenas SQL), também conhecidos por Bancos Não Relacionais. Os NoSQL dividem-se basicamente em 4 modelos: Documentos, Grafos, Colunas e Chave-valor [baseado em Amazon, 2018]. O modelo que tem tido maior volume de utilizadores é o baseado em Documentos, dentre eles se destaca o MongoDB.

Além de um banco de dados e seu SGBD, os dados podem ser armazenados em arquivos de texto, planilhas ou em bancos de dados de outro tipo como Objeto-Relacional, Hierárquico, Rede, etc.

De um modo geral, armazenar dados pode ser feito de diversas maneiras e, com isso, sistemas heterogêneos podem ser criados. Para poder gerenciar essa gama de dados vindos e armazenados em distintos formatos, temos o importante papel da INTEGRAÇÃO DE DADOS, tema de nossa próxima postagem. Até lá!

Siga-me nas redes sociais:

#PensandoEmDados [2] – Big Data

Como lidar com tamanha quantidade de dados?

Tudo que fazemos gera dado, aonde quer que formos, estaremos gerando e consumindo os mesmos. Somos as fontes dos próprios dados e geramos o volumoso aglomerado de dados chamado de BIG DATA.

Como lidar com tamanha quantidade de dados?

Saber distinguir os dados entre si e como proceder para lidar com o grande volume é uma das maiores tarefas que temos hoje em dia. BIG DATA é o termo que se associa a um amontoado GIGANTE de dados que pode pertencer a um mesmo domínio (uma empresa, uma rede social, um rastreamento de dispositivo, etc) ou a junção de vários domínios.

Com esse mundo “globalizado” dos dados, existem muitos tipos diferentes de dados. Quem trabalha com programação e lida com bancos de dados sabe os diferentes formatos que os dados podem ter como Strings (caracteres), Double, Float (números decimais), Int (números inteiros) boolean (valor booleano entre Verdadeiro ou Falso) e etc.

Por exemplo, um cadastro ou base de dados cadastrais é formado de casos ou registros (que no caso são os clientes) e variáveis. Para cada cliente temos o resultado das variáveis. Por exemplo, o primeiro cliente da base de dados tem o nome Fulano de Tal, o Sexo Masculino, o Estado Civil Solteiro, a Renda R$2.500,00 por mês, etc [Pinheiro, 2011].

O Gartner Group (2001) traz a seguinte definição sobre o assunto:

“Big data são dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior.”

Gartner, 2001

Esse conceito já demonstra os V´s que envolvem o conceito. Enquanto essa definição inicial inclui apenas 3 Vs, hoje já se trabalha com pelo menos 5 (apesar que existem equipes e empresas que já apresentam até 10 deles). Os que podemos chamar de principais, além dos já citados Variedade, Volume e Velocidade são:

  • Veracidade
  • Valor
  • Variabilidade
  • Visualização

A veracidade é item crítico, afinal com dados falsos ou não reais teríamos uma inutilidade dos dados. Seu valor está também ligado a isso, dados terão valor quanto maior sua capacidade de agregar eles tiverem. Variabilidade é a capacidade que os dados tem de variar em si mesmo, valioso quando analisamos dados em tempo real. E a visualização é a demonstração desses dados que na maioria das vezes será através de gráficos e painéis (dashboards). [baseado em IMPACT, 2016]

Para lidar com todas as nuances dos dados, alguns aspectos técnicos como Mineração de Dados, o processo de ETL e conceitos de DataWarehouse e Data Mart são importantes aliados.

No próximo post falaremos mais sobre as técnicas de armazenamento e tratamento de dados.

Siga-me nas redes sociais:

#PensandoEmDados [1] – Origem dos dados

A série de postagens #PensandoEmDados é uma discussão sobre a importância e de como tem se trabalhado com os dados nos dias atuais

A origem dos dados

Toda informação é gerada através deles, os dados. Dados podem ser definidos como

“observações documentadas ou resultados da medição. A disponibilidade dos dados oferece oportunidades para a obtenção de informações.”

[Pinheiro, 2011].

Ou seja, dados são na verdade a apuração de fatos, itens isolados que, ao se juntar e dar sentido ao mesmo, nos gera informação sobre algum assunto. A tríade formada por Dados, Informação e Conhecimento fornecem a nós seres humanos a compreensão e nos dá utilidade aos dados gerados no dia a dia.

A informação é formada a partir dos dados obtidos de diversas fontes (ou de uma única também), de forma a dar sentido aos dados. A informação então é a compreensão dos dados de maneira que permite melhor entender um assunto. Um exemplo é quando vemos dois números: 1 e 2. Quando os vemos em uma operação matemática, geramos uma informação: 1 + 2 = 3. Logo, os dados dentro de um contexto nos geram INFORMAÇÃO.

Já o CONHECIMENTO vem das várias informações obtidas ao longo de um tempo. Em uma empresa, por exemplo, conforme se obtém dados dos clientes, é gerado um perfil do mesmo (informação) que, ao longo de um tempo, gera conhecimento aos gestores sobre aquela pessoa. E, com a junção das informações de vários clientes, o conhecimento sobre o perfil médio de clientes pode ser gerado e com isso agregar valor ao negócio.

De onde vem os dados?

Existem diversos tipos de dados. Eles podem ser obtidos de diversas formas. Com a pluralidade de fontes e conexões que temos hoje, os dados vem de diversos dispositivos diferentes. Smartphones, computadores, sistemas, sensores e muito mais fontes distintas, tornando cada dado único e gerando o que chamamos de Big Data, um volume grande de dados reunidos.

Os dados são gerados quando digitamos uma busca no Google, ao postar uma nova foto/texto/vídeo nas redes sociais, quando “batemos” ponto eletrônico no trabalho, quando usamos cartão como passagem de transporte coletivo, ao definir rota em aplicativos como Waze ou Google Maps e etc.

Tudo que fazemos gera dado, aonde quer que formos, estaremos gerando e consumindo os mesmos. Somos a fonte dos próprios dados e geramos o volumoso aglomerado de dados chamado de BIG DATA.

No próximo post falaremos melhor do conceito de Big data. Até lá.

O Começo da série #PensandoEmDados

Vamos falar sobre DADOS?

Hoje damos início a uma série de posts e artigos sobre DADOS. Irei postar tanto aqui no blog como em minhas redes sociais. Falaremos sobre dados em todo seu contexto, de sua definição aos formatos, tipos e como são utilizados em nosso mundo atual.

Partindo do principio da ORIGEM dos dados, de suas diversas fontes que hoje dão origem como computadores, smartphones, sensores inteligentes, satélites e até os aplicativos do seu celular e os embarcados no seu carro.

Se você quer acompanhar as postagens, SIGA MEU BLOG, adicione aos seus favoritos. Me siga também nas redes sociais (Instagram, Twitter e Facebook) e vamos juntos nessa. Com a boa repercussão das postagens, poderemos criar também uma série de vídeos nessa temática em meu canal do Youtube. O que você acha? deixe seu comentário abaixo e sugestão de tópicos a serem abordados. Te vejo no futuro.