Foi um belo sábado!
Eu e meu amigo estávamos conversando no WhatsApp. (Obviamente!)
“Você pode compartilhar um bom recurso para aprender Python?” ele perguntou.
Compartilhei o e-book 'Python For Data Analysis' de Wes McKinney com ele. Foi a 3ª edição.
“Posso saber por que você quer aprender Python de repente?” Perguntei.
“Estou trabalhando em um projeto com uso intensivo de dados”, disse ele. “Ontem, estava trabalhando com o Planilhas Google. Ele caiu.🥲”
“Argh, horrível.”
Eu lamento por ele. Eu sei que todos nós teríamos estado nesta situação pelo menos uma vez. Já passei por esses eventos mais de uma dúzia de vezes! A conversa me fez criar este conteúdo pequeno para você substituir o Planilhas Google pelo Pandas e Juypter Notebook.
Antes de discutir como migrar do Excel ou do Planilhas Google para os pandas do Python, vamos dar um passo atrás e analisar tudo.
O que são os “pandas” em Python?
🐼 Pandas é uma biblioteca Python de código aberto popular usada para manipulação e análise de dados.
Para simplificar:
Pandas ajudam você a lidar e trabalhar com dados facilmente. É uma ferramenta poderosa que simplifica tarefas como organizar dados em tabelas (como planilhas), filtrar informações específicas, realizar cálculos e muito mais. Portanto, o Pandas é o seu ajudante sempre que você precisar trabalhar com dados em Python!
Saiba mais sobre Pandas aqui!
O que é o Caderno Jupyter?
Jupyter Notebook é um aplicativo de código aberto que torna conveniente escrever, executar e compartilhar código Python, tudo em um só lugar! É popular entre pessoas que trabalham com grandes conjuntos de dados. É comumente usado para análise de dados, visualizações e aprendizado de máquina.
Por que Pandas e Jupyter Notebook substituirão o Planilhas Google/Excel?
- Ele pode lidar com milhões de linhas de dados com eficiência, o que pode tornar o Planilhas Google ou o Excel lento.
- Sem travamentos.
- O código pode ser facilmente salvo e compartilhado, garantindo a reprodutibilidade das tarefas de análise de dados.
- Você pode automatizar tarefas, o que pode economizar tempo e reduzir erros
- O Pandas integra-se perfeitamente com outras bibliotecas Python para análise e visualização de dados.
Como passar do Planilhas Google/Excel para o Pandas em Python?
⌛Preparativos:
Etapa 1: instalando o Jupyter Notebook
Vá para este URL – https://docs.anaconda.com/free/miniconda/miniconda-install/ e baixe o instalador minconda.
Siga as instruções na tela para instalar a distribuição Miniconda que possui Jupyter Notebook.
Etapa 2: abra o Jupyter Notebook
No menu Iniciar do Windows, pesquise ‘Prompt do Anaconda’. Clique nele para abrir a linha de comando. Na janela de prompt do Anaconda, digite 'jupyter notebook' e clique em Enter para abrir o notebook.
O Jupyter Notebook é aberto no seu navegador.
Etapa 3: crie um novo bloco de notas
Vá para Arquivo > Bloco de Notas.
Abriria um novo notebook onde poderíamos importar arquivos CSV ou uma pasta de trabalho do Excel e realizar as operações.
🐼hora de abordar os 'pandas' na sala!
Instalamos o minconda e abrimos o Jupyter Notebook. Estaremos realizando as operações do Excel ou do Planilhas Google no Jupyter Notebook usando Pandas.
Para usar o Pandas, precisamos importar o módulo para o Jupyter Notebook. Para fazer isso, insira o seguinte código na célula e use CTRL+Enter para executar o código:
importar pandas como pd
🔥Agora, vamos fazer algumas operações do Excel/Google Sheets no Python Pandas.
1. Lendo arquivo CSV
Assim como importamos arquivos CSV no Planilhas Google, importaremos o arquivo CSV para o Pandas para trabalhar com ele.
Para isso, precisamos usar um código de uma linha assim:
serp_data=pd.read_csv('serp.csv')
Insira o código em uma célula após a função de importação e use CTRL+Enter para executar o código.
É isso. Você acabou de abrir um arquivo CSV no Jupyter Notebook e salvá-lo em um arquivo (variável) 'serp_data.'
Portanto, sempre que quiser ver o arquivo CSV, basta inserir o nome da variável, que neste caso é ‘serp_data’.
No Planilhas Google, teremos que importar os arquivos um por um usando Arquivo > Importar manualmente. Mas com o Pandas, você pode simplesmente copiar/colar o código de uma linha para abrir vários arquivos.
2. Conte linhas e colunas
Obtenha uma visão geral do número de linhas e colunas em seu quadro de dados (planilha) usando a seguinte função de forma:
serp_data.forma
3. Adicionando filtros
Assim como você filtra no Planilhas Google, você também pode adicionar filtros no Pandas. Aqui está um exemplo de como você pode filtrar a classificação de palavras-chave em posições superiores a 5:
dados_de classificação[ranking_data[“Rank”]>5]
Outro exemplo de como você pode filtrar os dados por palavras-chave contendo o termo 'dados' usando a função 'string contém' do pandas.
dados_de classificação[ranking_data[“Keyword”].str.contains(“dados”)]
4. Concatenação
Usando concatenação para alterar o URL relativo para o URL absoluto.
concat_data[“Complete URL”] = “https://botpresso.com” + concat_data[“Slug”]
5. Remova duplicatas
Limpe seus dados removendo linhas duplicadas usando a função drop_duplicates().
dados_classificação = dados_classificação.drop_duplicates()
Antes de descartar duplicatas 👇
Depois de descartar duplicatas 👇
6. Agrupando dados
Agrupando os dados de classificação pela soma do volume de pesquisa de palavras-chave em cada grupo de classificação.
Você pode adicionar mais camadas aos dados adicionando contagem de palavras-chave em cada intervalo de classificação usando a função agg().
grouped_data = ranking_data.groupby(“Classificação”).agg({'Volume de pesquisa':'sum','Keyword':'count'})
Dessa forma, você pode ver quantas palavras-chave estão em cada grupo de classificação e seu volume geral de pesquisa.
7. Remova valores nulos
Remova as linhas contendo valores vazios/nulos usando a função dropna() em pandas.
dados_classificação = dados_classificação.dropna()
👇Dados antes de remover valores nulos:
👇Dados após remoção de valores nulos:
8. Tabela dinâmica
Assim como o Planilhas Google ou o Excel, você também pode criar tabelas dinâmicas no Pandas usando a função pd.pivot_table.
tabela_pivot = pd.pivot_table(bot_gsc_data, índice = [“Query”, “Page”]valores=[“Clicks”, “Impressions”,”Position”]aggfunc='soma')
👇 Aqui está a sintaxe:
pivot_table = pd.pivot_table(seu dataframe, índice = [“Column 1”, “Column 2”]valores=[“Value 1”, “Value 2″,”Value 3”]aggfunc='soma/média/qualquer operação')
💡 É necessário passar o data frame e pelo menos uma coluna e valor.
9. PROCV
Digamos que temos duas tabelas, uma com dados GSC contendo Consulta, URL, Cliques, Impressões e CTR e outra tabela contendo Consultas e seu Volume. No Excel ou no Planilhas Google, você pode usar o Vlookup e adicionar o volume à tabela GSC.
No Pandas, você pode fazer isso usando uma linha de código:
bot_gsc_data.merge(volume, how=”esquerda”, on=”Consulta”)
10. Classificar valores
Você pode classificar qualquer coluna usando a função sort_values no Pandas.
👇Aqui está a sintaxe:
yourdataframe.sort_values(by='Coluna', ascendente=Falso ou Verdadeiro)
11. Combine arquivos
Você pode combinar dois quadros de dados ou tabelas usando a função concat no Pandas. Digamos que você tenha dois arquivos de palavras-chave que precisa combinar em um único arquivo para realizar algumas operações.
Você pode usar o código a seguir para fazer o mesmo. Mas certifique-se de que as colunas sejam iguais porque o código apenas mescla dois arquivos.
dados_combinados = pd.concat([ranking_data,ranking_data2])
12. Salve os dados em CSV
Depois de concluir a análise de dados, você pode salvar a saída em um arquivo CSV para compartilhar com sua equipe. Veja como fazer isso:
combinado_data.to_csv(“Palavra-chave data.csv”, index=False)
Palavra-chave data.csv = o nome do arquivo de saída.
Combined_data = o quadro de dados de saída que você deseja salvar.
to_csv = a função para salvar os dados em CSV.
🎉Essas são apenas algumas operações que você pode fazer com o Pandas! Você pode aprender mais sobre Pandas e fazer cálculos mais avançados em seus dados.
Informe-nos, compartilhando nas redes sociais, se precisar de um tutorial mais avançado sobre como usar o Pandas para SEO.
📖 Leituras relacionadas sobre Python para SEO
👉 Analisando similaridade de conteúdo por meio do método cosseno
👉 Gerador de mapa de site XML Hreflang usando Python
👉 Identificando classificações de URL no Google SERP Top 20