O que é linguagem de programação R? Introdução e noções básicas de R
O que é software R?
R é uma linguagem de programação e software livre desenvolvida por Ross Ihaka e Robert Gentleman em 1993. R possui um extenso catálogo de métodos estatísticos e gráficos. Inclui algoritmos de aprendizado de máquina, regressão linear, séries temporais, inferência estatística, para citar alguns. A maioria das bibliotecas R são escritas em R, mas para tarefas computacionais pesadas, C, C++ e Fortran códigos são preferidos.
R não é confiado apenas por acadêmicos, mas muitas grandes empresas também usam a linguagem de programação R, incluindo Uber, Google, Airbnb, Facebook e assim por diante.
A análise de dados com R é feita em uma série de etapas; programar, transformar, descobrir, modelar e comunicar os resultados
- Agenda: R é uma ferramenta de programação clara e acessível
- Transformar: R é composto por uma coleção de bibliotecas projetadas especificamente para ciência de dados
- Descubra: Investigue os dados, refine sua hipótese e analise-os
- Modelo:R fornece uma ampla gama de ferramentas para capturar o modelo certo para seus dados
- Comunicar: integre códigos, gráficos e resultados a um relatório com R Markdown ou crie aplicativos Shiny para compartilhar com o mundo
Para que é usado o R?
- Inferência estatística
- A análise dos dados
- Algoritmo de aprendizado de máquina
R por Indústria
Se dividirmos o uso de R por indústria, veremos que os acadêmicos vêm em primeiro lugar. R é uma linguagem para fazer estatísticas. R é a primeira escolha no setor de saúde, seguida por governo e consultoria.
Pacote R
Os principais usos de R são e sempre serão estatística, visualização e aprendizado de máquina. A imagem abaixo mostra qual pacote R recebeu mais perguntas no Stack Overflow. No top 10, a maioria deles está relacionada ao fluxo de trabalho de um cientista de dados: preparação de dados e comunicação dos resultados.
Todas as bibliotecas do R, quase 12k, estão armazenadas no CRAN. CRAN é um código aberto e gratuito. Você pode baixar e usar inúmeras bibliotecas para realizar Machine Learning ou análise de série temporal.
Comunique-se com R
R tem várias maneiras de apresentar e compartilhar trabalho, seja por meio de um documento markdown ou de um aplicativo brilhante. Tudo pode ser hospedado no Rpub, GitHub ou no site da empresa.
Abaixo está um exemplo de uma apresentação hospedada em Rpub
Rstudio aceita descontos para escrever um documento. Você pode exportar os documentos em diferentes formatos:
- Documento:
- HTML
- PDF/Látex
- Word
- Apresentação
- HTML
- Projetor de PDF
Rstudio possui uma ótima ferramenta para criar um App facilmente. Abaixo está um exemplo de aplicativo com dados do Banco Mundial.
Por que usar R?
A ciência de dados está moldando a forma como as empresas administram seus negócios. Sem dúvida, ficar longe da Inteligência Artificial e da Máquina levará a empresa ao fracasso. A grande questão é qual ferramenta/linguagem você deve usar?
São inúmeras as ferramentas disponíveis no mercado para realizar análises de dados. Aprender um novo idioma requer algum investimento de tempo. A imagem abaixo mostra a curva de aprendizado em comparação com a capacidade de negócios que um idioma oferece. A relação negativa implica que não existe almoço grátis. Se você quiser obter o melhor insight dos dados, precisará dedicar algum tempo aprendendo a ferramenta apropriada, que é R.
No canto superior esquerdo do gráfico, você pode ver Excel e PowerBI. Essas duas ferramentas são simples de aprender, mas não oferecem excelente capacidade de negócios, principalmente em termos de modelagem. No meio você pode ver Python e SAS. SAS é uma ferramenta dedicada para realizar análises estatísticas de negócios, mas não é gratuita. SAS é um software clique e execute. Python, no entanto, é uma linguagem com uma curva de aprendizado monótona. Python é uma ferramenta fantástica para implantar aprendizado de máquina e IA, mas carece de recursos de comunicação. Com uma curva de aprendizagem idêntica, R é um bom compromisso entre implementação e análise de dados.
Quando se trata de visualização de dados (DataViz), você provavelmente já ouviu falar do Tableau. O Tableau é, sem dúvida, uma ótima ferramenta para descobrir padrões através de gráficos e tabelas. Além disso, aprender o Tableau não consome muito tempo. Um grande problema com a visualização de dados é que você pode acabar nunca encontrando um padrão ou apenas criar muitos gráficos inúteis. Tableau é uma boa ferramenta para visualização rápida dos dados ou Business Intelligence. Quando se trata de estatísticas e ferramentas de tomada de decisão, R é mais apropriado.
Stack Overflow é uma grande comunidade para linguagens de programação. Se você tiver um problema de codificação ou precisar entender um modelo, o Stack Overflow está aqui para ajudar. Ao longo do ano, a porcentagem de visualizações de perguntas aumentou acentuadamente para R em comparação com outras línguas. É claro que essa tendência está altamente correlacionada com a era de expansão da ciência de dados, mas reflete a demanda da linguagem R para a ciência de dados.
Na ciência de dados, existem duas ferramentas competindo entre si. R e Python são provavelmente a linguagem de programação que define a ciência de dados.
Você deve escolher R?
O cientista de dados pode usar duas ferramentas excelentes: R e Python. Talvez você não tenha tempo para aprender os dois, especialmente se estiver começando a aprender ciência de dados. Aprendendo modelagem estatística e algoritmo é muito mais importante do que aprender uma linguagem de programação. A linguagem de programação é uma ferramenta para calcular e comunicar sua descoberta. A tarefa mais importante na ciência de dados é a maneira como você lida com os dados: importação, limpeza, preparação, engenharia de recursos, seleção de recursos. Este deve ser seu foco principal. Se você está tentando aprender R e Python ao mesmo tempo, sem uma sólida formação em estatística, é simplesmente estúpido. Cientistas de dados não são programadores. O trabalho deles é entender os dados, manipulá-los e expor a melhor abordagem. Se você está pensando em qual idioma aprender, vamos ver qual idioma é o mais adequado para você.
O principal público da ciência de dados são os profissionais de negócios. Nos negócios, uma grande implicação é a comunicação. Existem muitas maneiras de se comunicar: relatório, aplicativo web, painel. Você precisa de uma ferramenta que faça tudo isso junto.
R é difícil?
Anos atrás, R era uma linguagem difícil de dominar. A linguagem era confusa e não tão estruturada quanto as outras ferramentas de programação. Para superar esse grande problema, Hadley Wickham desenvolveu uma coleção de pacotes chamada tidyverse. A regra do jogo mudou para melhor. A manipulação de dados torna-se trivial e intuitiva. Criar um gráfico não era mais tão difícil.
Os melhores algoritmos para aprendizado de máquina podem ser implementados com R. Pacotes como Keras e TensorFlow permitem criar técnicas de aprendizado de máquina de ponta. R também possui um pacote para realizar o Xgboost, um dos melhores algoritmos para competição Kaggle.
R pode se comunicar com o outro idioma. É possível ligar Python, Java, C++ em R. O mundo do big data também é acessível para R. Você pode conectar R com diferentes bancos de dados como Spark ou Hadoop.
Finalmente, R evoluiu e permitiu a operação de paralelização para acelerar a computação. Na verdade, R foi criticado por usar apenas uma CPU por vez. O pacote paralelo permite realizar tarefas em diferentes núcleos da máquina.
Resumo
Resumindo, R é uma ótima ferramenta para explorar e investigar os dados. Análises elaboradas como clustering, correlação e redução de dados são feitas com R. Esta é a parte mais crucial, sem uma boa engenharia e modelo de recursos, a implantação do aprendizado de máquina não dará resultados significativos.