#PensandoEmDados [4] – Integração de dados

Integração de dados é combinação de processos técnicos e de negócios utilizados para combinar dados de…

Integrar dados é unificar diferentes bases

A busca por informações sobre qualquer assunto requer dados íntegros e confiáveis. É de interesse de todos que dados verdadeiros e completos sejam recolhidos para uma análise, seja para um relatório mensal/semestral de uma instituição ou o resultado de uma busca na internet. A fonte dos dados é de vital importância nesse aspecto e, por isso, integração de dados é tema recorrente nas pesquisas, artigos e nos estudos sobre DADOS.

O termo INTEGRAÇÃO vem justamente de integrar, tornar íntegro, formando um conjunto de dados a partir de fontes e origens distintas. A IBM é uma gigante da área de computação e de lidar com dados. Em seu site oficial, ela nos traz a seguinte definição:

“A integração de dados é a combinação de processos técnicos e de negócios utilizados para combinar dados de fontes distintas em informações valiosas e relevantes através de um software de integração.”

IBM, 2018

Diversas empresas e organizações passaram a criar mecanismos para que diferentes tipos de dados pudessem ter uma conexão, principalmente após o termo Big Data ficar em evidencia. Empresas como a Microsoft, Oracle, Amazon e a própria IBM tem criado grupos de trabalho e pesquisa e com isso temos hoje diversas formas de realizar essa integração e análise de dados de maneira rápida, com baixo custo e com uso de inteligência artificial no processo.

Apache Hadoop

Hadoop é uma plataforma da Apache Foundation criada para computação distribuída. Ou seja, é um sistema que consegue unificar várias máquinas (computadores) que passam a ser enxergados como um só. Com ele, trabalhar com processamento de dados em grandes volumes a tarefa passa a ser menos penosa. Além do Hadoop, a Apache se destaca de várias formas com produtos que atendem a diversas demandas voltadas a dados. Por ser uma fundação, não tem necessariamente fins lucrativos, o que torna o uso de seus sistemas práticos para diversos projetos, sejam eles públicos ou privados.

Com ferramentas com essa, é possível receber dados vindos de um banco de dados Relacional, outro de um banco Não Relacional, de um .TXT ou .CSV, uma planilha ou de diversos outros sistemas, conecta-los entre si e criar visualizações a partir dessa unificação.

Em resumo, integração de dados é preciso para que possamos ter a consolidação da informação e, com isso, a geração de conhecimento acerca de um ou de vários tipos de dados.

#PensandoEmDados [3] – Armazenando dados

Como você deve saber, os dados são passíveis de serem coletados de várias maneiras. Sensores, formulários, bases de dados, câmeras e variados sistemas, em conjunto ou separadamente, podem ser usados como coletores de dados. Mas, você já se perguntou onde SEUS DADOS são ARMAZENADOS?

Armazenando dados

Se você já tem conhecimento na área de sistemas e desenvolvimento, sabe que o meio mais tradicional de armazenamento de dados são os Bancos de dados (BD). Os BDs são bases que contém uma estrutura e regras para armazenagem de dados em formatos geralmente pré-estabelecidos, utilizando SGBDs (Sistemas Gerenciadores de Banco de Dados). Os modelos de bancos de dados mais tradicionais e ainda grandemente utilizados são os bancos de dados Relacionais.

O termo RELACIONAL vem do conceito matemático de relações, onde um dado conjunto A pode se relacionar com um B, que por sua vez pode ser relacionado a um C. O conceito de “estar contido” ou “não estar contido” te remete a alguma coisa? Pois é, esse princípio matemático define o que seriam os relacionamentos.

Os BDs relacionais são baseados em TABELAS, que possuem um nome e colunas que definem que tipo de dado será guardado. Os tipos de dados a serem armazenados devem ser definidos na criação da tabela e cada campo da tabela terá um tipo específico de dado, como: String (caracteres), Double/Float/Integer (tipos numéricos), Boolean (tipo booleano), Data/Datatime/TimeStamp (tipos que armazenam data e/ou data e hora), entre outros.

Dos bancos relacionais no mercado, se destacam os robustos ORACLE, SQL SERVER (da Microsoft), BD2 (da IBM) como Bancos proprietários (pagos). Para os gratuitos temos  POSTGRESQL e MySQL (pertencente a Oracle mas com a versão MariaDB gratuita).

Outros tipos de Bases de dados

Existem outros tipos de bancos de dados além dos relacionais. Um dos que está em maior crescimento são os NoSQL (acrônimo para Não Apenas SQL), também conhecidos por Bancos Não Relacionais. Os NoSQL dividem-se basicamente em 4 modelos: Documentos, Grafos, Colunas e Chave-valor [baseado em Amazon, 2018]. O modelo que tem tido maior volume de utilizadores é o baseado em Documentos, dentre eles se destaca o MongoDB.

Além de um banco de dados e seu SGBD, os dados podem ser armazenados em arquivos de texto, planilhas ou em bancos de dados de outro tipo como Objeto-Relacional, Hierárquico, Rede, etc.

De um modo geral, armazenar dados pode ser feito de diversas maneiras e, com isso, sistemas heterogêneos podem ser criados. Para poder gerenciar essa gama de dados vindos e armazenados em distintos formatos, temos o importante papel da INTEGRAÇÃO DE DADOS, tema de nossa próxima postagem. Até lá!

Siga-me nas redes sociais: