O Pandas é uma biblioteca Python que fornece estruturas e ferramentas de análise de dados. A ideia deste post não é explorar todas as funções e estruturas de dados do Pandas, mas sim trazer algumas funcionalidades simples, porém importantes para análise, tratamento e manipulação de dados.
Nos exemplos que vou trazer logo abaixo, estou rodando um ambiente virtual com o Anaconda e Jupiter Notebook.
- Anaconda:
É uma plataforma que auxilia na preparação do ambiente necessário para o trabalho com análise de dados e ciência de dados que contém a maioria das bibliotecas científicas comumente usadas. Saiba mais - Jupiter Notebook:
Resumindo, é uma aplicação web que pode ajudar a entender e visualizar dados e resultados de análises. Saiba mais.
Antes de mais nada vamos precisar importar o Pandas, utilizando a regra de convenção. Logo, seguimos com os comandos:
Importando Pandas:
import panda as pd
Lendo um arquivo .csv e setando em um dataframe = df:
df = pd.read_csv('nome_do_arquivo.csv')
Visualizando as 5 primeiras linhas do arquivo, caso queira visualizar mais linhas, basta adicionar o número de linhas como parâmetro:
df.head()
df.head(120)
Descobrindo a quantidade de linhas e colunas do dataframe:
df.shape
df.info()
Descobrindo o nome de cada coluna, o número de linhas por coluna e o tipo de dado de cada uma dessas colunas. Também temos a informação da quantidade de memória utilizada para ler o arquivo.
Para trazer somente o nome das colunas:
df.columns
Geralmente para resumir as estatísticas dos dados se usa o método describe:
df.describe()
df ['nome_da_coluna'].describe()
Somando valores do dataframe ou de uma coluna especifica:
df.sum()
df ['nome_coluna'].sum()
Encontrando os maiores valores dentro do dataframe ou de uma coluna especifica:
df.max()
df ['nome_coluna'].max()
Encontrando os menores valores dentro do dataframe ou de uma coluna especifica:
df.min()
df ['nome_coluna'].min()
Localizando a média dos valores dentro do dataframe ou de uma coluna especifica:
df.mean()
df ['nome_coluna'].mean ()
Encontrando a mediana dos valores dentro do dataframe ou de uma coluna especifica:
df.median()
df ['nome_coluna'].median ()
Agrupando e realizando análises aos dados: Neste exemplo, estou agrupando o Dataframe por estados (coluna de agrupamento) e tirando a média da pontuação de crédito (coluna agregadora + função agregadora):
df.groupby ('coluna_de_agrupamento')['coluna_agregadora'].função_agregadora()
Caso a coluna de agrupamento seja a mesma, podemos adicionar mais colunas de agregação, logo também podemos adicionar outras funções agregadoras, veja:
df.groupby ('estado_residencia'). agg ({
'saldo_conta': ['min', 'max'],
'nivel_estabilidade': ['median'],
'numero_produtos': ['mean']})
Na imagem acima, realizei o agrupamento por estado, trouxe o valor máximo e mínimo referente ao saldo da conta, a mediana da idade e a média da pontuação de crédito.
Criando variáveis para análises: Neste exemplo, criei uma variavál chamada idade_idoso e foi setado a seguinta regra: Para pessoas com idade igual e maior que 60 anos, inclua como idoso, para as demais inclua como nao_idoso, veja:
df ['idade_idoso'] = ['idoso' if x >= 60 else 'não_idoso' for x in df ['idade']]
Logo, realizei um filtro de agrupamento junto com uma função de agregadora para identificar quantas pessoas da minha base eram considerados idosas. No Brasil, por lei, pessoas com idade igual e maior que 60 anos, são identificadas como idosas.
df.groupby('idade_idoso')['idade'].count()
Conclusão: Nesta base, temos 360 pessoas com idade maior que 60 anos, logo consideradas como idosas e 6640 menores de 60 anos.
Contando valores únicos no Dataframe: Nesse caso, vou utilizar dois exemplos.
Exemplo 1: Identificando quantos id’s únicos existem:
df['id'].nunique()
Exemplo 2: Saber quantas idades diferentes existe dentro do dataframe:
df['idade'].nunique()
A base utilizada para este Dataframe foi concedida pela Codenation em um dos desafios realizados.
Quer aprender mais?
Estou preparando um E-book para ajudar você a entrar no mercado de tecnologia.
Desvende as áreas de atuação, aprenda técnicas e comportamentos para se destacar em entrevistas e processos seletivos. Descubra hábitos e rotinas que aceleram sua aprendizagem.
Prepare-se para o sucesso no universo da tecnologia. Clique no link abaixo e entre para a lista de espera, pois será limitado!
Quero minha primeira oportunidade