Python, R e Scala: as linguagens da ciência de dados

O Cientista de Dados Igor Bobriakov escreveu um excelente post (em inglês) sobre as principais bibliotecas para Data Science em linguagens Python, R e Scala. Confira a tradução em português

Anúncios

O Cientista de Dados Igor Bobriakov escreveu um excelente post (em inglês) sobre as principais bibliotecas para Data Science em linguagens Python, R e Scala, com um infográfico bastante didático. Neste post você encontra esse excelente trabalho traduzido na íntegra para o português pelo site Ciência e dados. Boa leitura!

Data Science é um campo promissor e empolgante, desenvolvendo-se rapidamente. Os casos de uso e aplicações da Ciência de Dados estão em constante expansão e o kit de ferramentas para implementar esses aplicativos cresce na mesma proporção.

Cada uma dessas linguagens é adequada para um tipo específico de tarefas, além de cada desenvolvedor escolher a ferramenta mais conveniente para si. Muitas vezes, a escolha de uma linguagem de programação é subjetiva, mas, abaixo, tentaremos saudar as forças de cada uma das três linguagens descritas.

Linguagem R

Projetada principalmente para computação estatística, a linguagem R oferece um excelente conjunto de pacotes de alta qualidade para coleta e visualização de dados estatísticos. Outro ponto forte para a Linguagem R é o conjunto de ferramentas bem desenvolvidas para pesquisa reproduzível. No entanto, R pode ser de alguma forma específico e não é tão bom quando se trata de engenharia e alguns dos casos de programação de propósito geral.

Linguagem Python

Python é uma linguagem de propósito geral com um rico conjunto de bibliotecas para uma ampla gama de propósitos. É tão boa para problemas de matemática, engenharia e Deep Learning quanto para manipulação de dados e visualizações. Esta linguagem é uma excelente escolha para especialistas iniciantes e avançados, o que a torna extremamente popular entre os Cientistas de Dados.

Linguagem Scala

Scala é uma solução ideal para trabalhar com Big Data. A combinação Scala e Apache Spark oferece a oportunidade de aproveitar ao máximo a computação distribuída em cluster de computadores. Portanto, a linguagem possui muitas ótimas bibliotecas para aprendizado de máquina e engenharia; no entanto, falta possibilidades de análise e visualização de dados em comparação com as linguagens anteriores. Se você não estiver trabalhando com Big Data, o Python e R podem mostrar um desempenho melhor que Scala. Mas se estiver trabalhando com Big Data, Scala pode ser a melhor opção.

Conclusão

Estas são as linguagens e bibliotecas que provaram ser extremamente úteis em vários casos de uso de Ciência de Dados. Lembre-se de que a escolha da linguagem de programação e as bibliotecas que você usará dependem de tarefas específicas, por isso é benéfico saber quais são os lados forte e fraco de cada uma delas.

De fato, esta lista não está completa, muitas outras ferramentas valiosas podem e devem ser examinadas, mas definitivamente será um bom ponto de partida para sua jornada em Ciência de Dados.

Deixe seus comentários sobre estas ou outras linguagens que esteja usando em Data Science.

Autor: Daniel Brandão

Desenvolvedor Web e Professor. Gosto de debater, escrever e comentar a respeito da vida, tecnologia, o pensar, a sociedade, a vida cotidiana e da vida vindoura.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.