MINHA VIDA TECH

Primeiros passos com Pandas – Comandos úteis

Pandas é uma biblioteca Python que fornece estruturas e ferramentas de análise de dados. A ideia deste post não é explorar todas as funções e estruturas de dados do Pandas, mas sim trazer algumas funcionalidades simples, porém importantes para análise, tratamento e manipulação de dados.

Nos exemplos que vou trazer logo abaixo, estou rodando um ambiente virtual com o Anaconda e Jupiter Notebook.

  • Anaconda:
    É uma plataforma que auxilia na preparação do ambiente necessário para o trabalho com análise de dados e ciência de dados que contém a maioria das bibliotecas científicas comumente usadas. Saiba mais

  • Jupiter Notebook:
    Resumindo, é uma aplicação web que pode ajudar a entender e visualizar dados e resultados de análises. Saiba mais.

Antes de mais nada vamos precisar importar o Pandas, utilizando a regra de convenção. Logo, seguimos com os comandos:

Importando Pandas:

import panda as pd

Lendo um arquivo .csv e setando em um dataframe = df:

df = pd.read_csv('nome_do_arquivo.csv')

Visualizando as 5 primeiras linhas do arquivo, caso queira visualizar mais linhas, basta adicionar o número de linhas como parâmetro:

df.head()
df.head(120)

Descobrindo a quantidade de linhas e colunas do dataframe:

df.shape

df.info()

Descobrindo o nome de cada coluna, o número de linhas por coluna e o tipo de dado de cada uma dessas colunas. Também temos a informação da quantidade de memória utilizada para ler o arquivo.

Para trazer somente o nome das colunas:

df.columns

Geralmente para resumir as estatísticas dos dados se usa o método describe:

df.describe()
df ['nome_da_coluna'].describe()

Somando valores do dataframe ou de uma coluna especifica:

df.sum()
df ['nome_coluna'].sum()

Encontrando os maiores valores dentro do dataframe ou de uma coluna especifica:

df.max()
df ['nome_coluna'].max()

Encontrando os menores valores dentro do dataframe ou de uma coluna especifica:

df.min()
df ['nome_coluna'].min()

Localizando a média dos valores dentro do dataframe ou de uma coluna especifica:

df.mean()
df ['nome_coluna'].mean ()

Encontrando a mediana dos valores dentro do dataframe ou de uma coluna especifica:

df.median()
df ['nome_coluna'].median ()

Agrupando e realizando análises aos dados: Neste exemplo, estou agrupando o Dataframe por estados (coluna de agrupamento) e tirando a média da pontuação de crédito (coluna agregadora + função agregadora):

df.groupby ('coluna_de_agrupamento')['coluna_agregadora'].função_agregadora()

Caso a coluna de agrupamento seja a mesma, podemos adicionar mais colunas de agregação, logo também podemos adicionar outras funções agregadoras, veja:

df.groupby ('estado_residencia'). agg ({
                                    'saldo_conta': ['min', 'max'], 
                                    'nivel_estabilidade': ['median'],
                                    'numero_produtos': ['mean']})

Na imagem acima, realizei o agrupamento por estado, trouxe o valor máximo e mínimo referente ao saldo da conta, a mediana da idade e a média da pontuação de crédito.

Criando variáveis para análises: Neste exemplo, criei uma variavál chamada idade_idoso e foi setado a seguinta regra: Para pessoas com idade igual e maior que 60 anos, inclua como idoso, para as demais inclua como nao_idoso, veja:

df ['idade_idoso'] = ['idoso' if x >= 60 else 'não_idoso' for x in df ['idade']]

Logo, realizei um filtro de agrupamento junto com uma função de agregadora para identificar quantas pessoas da minha base eram considerados idosas. No Brasil, por lei, pessoas com idade igual e maior que 60 anos, são identificadas como idosas.

df.groupby('idade_idoso')['idade'].count()

Conclusão: Nesta base, temos 360 pessoas com idade maior que 60 anos, logo consideradas como idosas e 6640 menores de 60 anos.

Contando valores únicos no Dataframe: Nesse caso, vou utilizar dois exemplos.
Exemplo 1: Identificando quantos id’s únicos existem:

df['id'].nunique()

Exemplo 2: Saber quantas idades diferentes existe dentro do dataframe:

df['idade'].nunique()

A base utilizada para este Dataframe foi concedida pela Codenation em um dos desafios realizados.


Quer aprender mais?

Estou preparando um E-book para ajudar você a entrar no mercado de tecnologia.

Desvende as áreas de atuação, aprenda técnicas e comportamentos para se destacar em entrevistas e processos seletivos. Descubra hábitos e rotinas que aceleram sua aprendizagem.

Prepare-se para o sucesso no universo da tecnologia. Clique no link abaixo e entre para a lista de espera, pois será limitado!

Quero minha primeira oportunidade


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *