#PensandoEmDados [2] – Big Data

Como lidar com tamanha quantidade de dados?

Tudo que fazemos gera dado, aonde quer que formos, estaremos gerando e consumindo os mesmos. Somos as fontes dos próprios dados e geramos o volumoso aglomerado de dados chamado de BIG DATA.

Como lidar com tamanha quantidade de dados?

Saber distinguir os dados entre si e como proceder para lidar com o grande volume é uma das maiores tarefas que temos hoje em dia. BIG DATA é o termo que se associa a um amontoado GIGANTE de dados que pode pertencer a um mesmo domínio (uma empresa, uma rede social, um rastreamento de dispositivo, etc) ou a junção de vários domínios.

Com esse mundo “globalizado” dos dados, existem muitos tipos diferentes de dados. Quem trabalha com programação e lida com bancos de dados sabe os diferentes formatos que os dados podem ter como Strings (caracteres), Double, Float (números decimais), Int (números inteiros) boolean (valor booleano entre Verdadeiro ou Falso) e etc.

Por exemplo, um cadastro ou base de dados cadastrais é formado de casos ou registros (que no caso são os clientes) e variáveis. Para cada cliente temos o resultado das variáveis. Por exemplo, o primeiro cliente da base de dados tem o nome Fulano de Tal, o Sexo Masculino, o Estado Civil Solteiro, a Renda R$2.500,00 por mês, etc [Pinheiro, 2011].

O Gartner Group (2001) traz a seguinte definição sobre o assunto:

“Big data são dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior.”

Gartner, 2001

Esse conceito já demonstra os V´s que envolvem o conceito. Enquanto essa definição inicial inclui apenas 3 Vs, hoje já se trabalha com pelo menos 5 (apesar que existem equipes e empresas que já apresentam até 10 deles). Os que podemos chamar de principais, além dos já citados Variedade, Volume e Velocidade são:

  • Veracidade
  • Valor
  • Variabilidade
  • Visualização

A veracidade é item crítico, afinal com dados falsos ou não reais teríamos uma inutilidade dos dados. Seu valor está também ligado a isso, dados terão valor quanto maior sua capacidade de agregar eles tiverem. Variabilidade é a capacidade que os dados tem de variar em si mesmo, valioso quando analisamos dados em tempo real. E a visualização é a demonstração desses dados que na maioria das vezes será através de gráficos e painéis (dashboards). [baseado em IMPACT, 2016]

Para lidar com todas as nuances dos dados, alguns aspectos técnicos como Mineração de Dados, o processo de ETL e conceitos de DataWarehouse e Data Mart são importantes aliados.

No próximo post falaremos mais sobre as técnicas de armazenamento e tratamento de dados.

Siga-me nas redes sociais: