#PensandoEmDados [5] – ETL

No contexto de dados e seu ambiente onde se envolvem Data Warehouse (DW) e Business Intelligence (BI), o processo de Extrair e Tratar os dados é um processo comum, chamado de ETL. Esse processo é dividido em três etapas, em que cada uma delas possui grande importância para o sucesso da transição dos dados dos sistemas de origem para o DW.

Você sabe o que é ETL?

ETL é uma sigla que significa Extract, Transform, Load ou Extração, Transformação e Carga, em português. Para trabalharmos com dados, se faz necessário que esse processo seja realizado com as fontes de dados já bem definidas.

Ao acessar os dados na fonte, a extração é a primeira etapa, tratando-se da obtenção do dado.

A transformação é etapa onde limpamos e preparamos os dados para que ele esteja pronto para consultas com definição de tipos de dados, formatos, medidas e métricas a serem utilizadas nas visualizações.

A carga é a submissão dos dados a um repositório ou Data warehouse, local onde os dados estarão disponíveis para que consultas e visões diferentes dos mesmos possam ser disponibilizadas.

De forma geral, o ETL pode ser representado pela imagem abaixo:

ETL
Figura 1 – Processo de ETL. Autor: Diego Elias [ CanalTech, 2014]

O processo de ETL, por exemplo, é essencial para a criação das estruturas de Dimensões e Fatos no ambiente do DW. É ele que faz a “ponte” de ligação entre o operacional e o DW. Devemos escolher bem as ferramentas que darão suporte ao processo, pois são essenciais para a correta execução das atividades do ETL.

ELIAS, Diego [ CanalTech, 2014]

Em resumo, o processo de ETL é a forma como podemos interligar um sistema de análise de dados ou um novo repositório a fonte original de dados. Bancos de dados, Planilhas, arquivos em servidores e muitos outros formatos podem ser a fonte de dados e, desde que permitam o acesso de aplicações externas, permitirão que a Extração seja feita. Uma vez que essa primeira etapa tenha sido concluída com sucesso, a Transformação (ou tratamento) dos dados e a carga em sua nova estrutura de armazenamento concluem a integração de dados com sucesso.

Para acompanhar essas e outras postagens, me siga pelas redes sociais no Instagram como @profdanielbrandao e Facebook @professordanielbrandao. Em breve a série #PensandoEmDados estará em vídeo também no meu Canal do Youtube (inscreva-se).

O Futuro do Trabalho em 3 conceitos: Dados, Descentralização e Automação

Não sou eu quem estou falando, mas os fatos estão a mostra. A DSA (DataScience Academy) lançou essa semana em seu blog um artigo que trata sobre os 3 principais conceitos do “Trabalho do Futuro”. Os 3 pilares são os já citados no título da postagem: Dados, Descentralização e Automação que, segundo a DSA ” mudarão radicalmente liderança, cultura, privacidade e segurança. Vamos discutir cada um desses conceitos”.

Você DISCORDA?

O Big Data já existe há algum tempo. Muitas vezes, o termo foi cunhado como a próxima “revolução da administração”, a Quarta Revolução Industrial ou “a próxima fronteira para inovação, competição e produtividade”. Embora apenas alguns anos atrás, as organizações ainda lutassem para entender o impacto dessas tendências em seus negócios, o Big Data agora emergiu como o padrão corporativo.

Data Science Academy, 2019

O Futuro do Trabalho é Descentralizado

Termos como Blockchain, Big Data, Machine Learning, Bots e afins estão e estarão cada dia mais em evidência. Será impossível dissociar nossa sociedade cada vez mais conectada de termos e metodologias assim. O profissional do futuro deverá ser familiarizado com isso tudo e muito mais que virá.

Todos nós, do funcionário público ao vendedor de loja, do professor ao cientista, teremos que ser EMPREENDEDORES DE NÓS MESMOS. “Com o futuro do trabalho, os contratos inteligentes removerão cada vez mais a necessidade de julgamento humano e minimizarão a necessidade de confiança. ” [DSA, 2019]

Resumindo

O futuro do trabalho gira em torno de dados, descentralização e automação. A coleta de dados pode ajudar todos os aspectos da sua empresa, desde o desenvolvimento de novos produtos até a melhoria da eficiência operacional. Os dados levam ao conhecimento que, em última análise, impulsiona a tomada de decisão. Como tal, a organização do amanhã é uma empresa de dados.

Quer saber mais sobre DADOS? Acompanhe a série #PensandoEmDados aqui no blog

Leia a postagem na íntegra no Blog DSA

Python, R e Scala: as linguagens da ciência de dados

O Cientista de Dados Igor Bobriakov escreveu um excelente post (em inglês) sobre as principais bibliotecas para Data Science em linguagens Python, R e Scala. Confira a tradução em português

O Cientista de Dados Igor Bobriakov escreveu um excelente post (em inglês) sobre as principais bibliotecas para Data Science em linguagens Python, R e Scala, com um infográfico bastante didático. Neste post você encontra esse excelente trabalho traduzido na íntegra para o português pelo site Ciência e dados. Boa leitura!

Data Science é um campo promissor e empolgante, desenvolvendo-se rapidamente. Os casos de uso e aplicações da Ciência de Dados estão em constante expansão e o kit de ferramentas para implementar esses aplicativos cresce na mesma proporção.

Cada uma dessas linguagens é adequada para um tipo específico de tarefas, além de cada desenvolvedor escolher a ferramenta mais conveniente para si. Muitas vezes, a escolha de uma linguagem de programação é subjetiva, mas, abaixo, tentaremos saudar as forças de cada uma das três linguagens descritas.

Linguagem R

Projetada principalmente para computação estatística, a linguagem R oferece um excelente conjunto de pacotes de alta qualidade para coleta e visualização de dados estatísticos. Outro ponto forte para a Linguagem R é o conjunto de ferramentas bem desenvolvidas para pesquisa reproduzível. No entanto, R pode ser de alguma forma específico e não é tão bom quando se trata de engenharia e alguns dos casos de programação de propósito geral.

Linguagem Python

Python é uma linguagem de propósito geral com um rico conjunto de bibliotecas para uma ampla gama de propósitos. É tão boa para problemas de matemática, engenharia e Deep Learning quanto para manipulação de dados e visualizações. Esta linguagem é uma excelente escolha para especialistas iniciantes e avançados, o que a torna extremamente popular entre os Cientistas de Dados.

Linguagem Scala

Scala é uma solução ideal para trabalhar com Big Data. A combinação Scala e Apache Spark oferece a oportunidade de aproveitar ao máximo a computação distribuída em cluster de computadores. Portanto, a linguagem possui muitas ótimas bibliotecas para aprendizado de máquina e engenharia; no entanto, falta possibilidades de análise e visualização de dados em comparação com as linguagens anteriores. Se você não estiver trabalhando com Big Data, o Python e R podem mostrar um desempenho melhor que Scala. Mas se estiver trabalhando com Big Data, Scala pode ser a melhor opção.

Continue Lendo “Python, R e Scala: as linguagens da ciência de dados”

CaseCrunch: O advogado “robô”

Imagem relacionada

Uma disputa bastante inusitada acabou com um sistema de inteligência artificial derrotando competidores humanos e não estou falando de partidas de xadrez – trata-se, na verdade, de um campeonato de advogados que colocou o CaseCrunch Alpha para enfrentar 100 profissionais reais da área. O resultado? Um baile da IA, que obteve uma taxa de precisão de 86,6%, enquanto que as pessoas de carne e osso chegaram a apenas 66.3%.

O CaseCrunch se tornou um sistema capaz de realizar previsões com base em informações sobre os casos e as leis locais

Os advogados e a inteligência artificial receberam informações básicas sobre centenas de casos de venda incorreta de seguro de proteção de pagamento e deveriam prever se o provedor financeiro de justiça permitiria uma reclamação. Foi nessas previsões que o CaseCrunch Alpha se saiu muito melhor que os profissionais de verdade.

De tirar dúvidas a prever

Criada por estudantes de direito de Cambridge, a plataforma funcionava inicialmente apenas como um bot de bate papo que tinha como objetivo tirar dúvidas legais de pessoas. A partir daí, o CaseCrunch se tornou um sistema capaz de realizar previsões com base em informações sobre os casos e as leis locais.

Ainda é muito para dizer se em algum dia os advogados poderão ser substituídos por máquinas, visto que o direito é um assunto sempre bastante subjetivo. Seja como for, se você for advogado, é bom ficar de olho: seu emprego pode estar com os dias contados.

Fonte: TecMundo.