Análise exploratória
A análise exploratória de dados (AED) é uma etapa fundamental em qualquer análise que visa uma boa qualidade.
É ela quem vai ajudar a entender padrões, identificar erros, anomalias, e testar possíveis hipóteses.
Diante disso, com o Python, temos uma biblioteca excelente para esse tipo de análise, que simplifica muito essa etapa.
Estamos falando da biblioteca pandas!
Sirva-se com seu cafezinho ou chá, e vamos para mais uma rodada de conhecimento!
Mas, o que é o pandas?
É uma biblioteca do Python, open-source desenvolvida para manipulação e análise de dados.
Ela é constantemente atualizada pela comunidade que está sempre adicionando novas funções muito úteis para um analista de dados!
Passos iniciais para uma análise exploratória com o Pandas
A primeira etapa que veremos é o carregamento dos dados.
O pandas oferece funções para ler diversos tipos de artigos, os mais utilizados costumam ser o Excel (pd.read_excel()) e o CSV (pd.read_csv()).
Vamos para um exemplo de leitura de dados em arquivo CSV:

A próxima etapa para uma boa análise de dados é examinar um resumo do conjunto de dados.
Para isso temos o método head() e o método tail(). Veja:


É também muito importante olharmos uma visão geral dos dados, onde podemos ver número de entradas, os tipos dos dados e valores ausentes.
Para isso, temos o método info():

Como você já deve saber, a estatística é fundamental para um analista de dados, em pandas temos a função describe(), que vai nos mostrar um resumo estatístico das variáveis numéricas do nossos dados:

Também é fundamental verificarmos se temos dados ausentes, para isso, podemos usar um “combo” pandas, que é o método isnull() com o método sum(), que vai verificar e somar todos os valores nulos pra cada coluna:

Conclusão
A análise exploratória é uma abordagem que vai te ajudar a entender melhor os dados, após ela podemos ir para etapas como a análise de correlação, visualização de dados, modelos de machine learning.
Etapas avançadas são super legais e atrativas, mas não se esqueça de que o domínio do básico é o que constrói análises sólidas e que de fato agregam valor para um negócio!
Recomendação de conteúdo:
Biblioteca pandas: https://pandas.pydata.org/
Python para análise de dados: https://amzn.to/3Zzf6BC
Agradecemos imensamente a leitura, lembre-se de conferir nossos conteúdos em https://perspectivadosdados.com/, trazemos todos os dias novos conteúdos sobre análise de dados, economia e finanças!