Análise exploratória com Python

Análise exploratória

A análise exploratória de dados (AED) é uma etapa fundamental em qualquer análise que visa uma boa qualidade.

É ela quem vai ajudar a entender padrões, identificar erros, anomalias, e testar possíveis hipóteses.

Diante disso, com o Python, temos uma biblioteca excelente para esse tipo de análise, que simplifica muito essa etapa.

Estamos falando da biblioteca pandas!

Sirva-se com seu cafezinho ou chá, e vamos para mais uma rodada de conhecimento!

Mas, o que é o pandas?

É uma biblioteca do Python, open-source desenvolvida para manipulação e análise de dados.

Ela é constantemente atualizada pela comunidade que está sempre adicionando novas funções muito úteis para um analista de dados!

Passos iniciais para uma análise exploratória com o Pandas

A primeira etapa que veremos é o carregamento dos dados.

O pandas oferece funções para ler diversos tipos de artigos, os mais utilizados costumam ser o Excel (pd.read_excel()) e o CSV (pd.read_csv()).

Vamos para um exemplo de leitura de dados em arquivo CSV:

analise-exploratoria-de-dados
Uso do método read_csv()

 

A próxima etapa para uma boa análise de dados é examinar um resumo do conjunto de dados.

Para isso temos o método head() e o método tail(). Veja:

analise-de-dados-head
Uso do método Head()
método-tail
Uso do método tail()

É também muito importante olharmos uma visão geral dos dados, onde podemos ver número de entradas, os tipos dos dados e valores ausentes.

Para isso, temos o método info():

método-info
Uso do método info()

 

Como você já deve saber, a estatística é fundamental para um analista de dados, em pandas temos a função describe(), que vai nos mostrar um resumo estatístico das variáveis numéricas do nossos dados:

analise-exploratoria-de-dados
Uso do método describe()

 

Também é fundamental verificarmos se temos dados ausentes, para isso, podemos usar um “combo” pandas, que é o método isnull() com o método sum(), que vai verificar e somar todos os valores nulos pra cada coluna:

analise-exploratoria-de-dados
Uso do combo isnull() + sum()

Conclusão

A análise exploratória é uma abordagem que vai te ajudar a entender melhor os dados, após ela podemos ir para etapas como a análise de correlação, visualização de dados, modelos de machine learning.

Etapas avançadas são super legais e atrativas, mas não se esqueça de que o domínio do básico é o que constrói análises sólidas e que de fato agregam valor para um negócio!

Recomendação de conteúdo:

Biblioteca pandas: https://pandas.pydata.org/

Python para análise de dados: https://amzn.to/3Zzf6BC

Agradecemos imensamente a leitura, lembre-se de conferir nossos conteúdos em https://perspectivadosdados.com/, trazemos todos os dias novos conteúdos sobre análise de dados, economia e finanças!

Sumário

Leia também:

Introduzindo o Pandas Hoje o artigo será uma Introdução ao Pandas, uma das principais ferramentas de um analista de dados. O Pandas é uma biblioteca...

O que é limpeza de dados? Limpeza de dados é o processo de encontrar possíveis problemas no seus dados que podem comprometer suas analises. Antes...

Compartilhe!
plugins premium WordPress