Posts Recentes:

Mulheres na IA: Catherine Breslin ajuda empresas a desenvolver estratégias de IA

Para dar às mulheres acadêmicas e outras pessoas...

Jack Dorsey diz que não está mais no conselho da Bluesky

Parece que o patrocinador mais proeminente da Bluesky...

Por que a NASA está apostando em uma câmera de 36 pixels

O Telescópio Espacial James Webb da NASA está...

Como substituir o Planilhas Google por Python Pandas para SEO?


Foi um belo sábado!

Eu e meu amigo estávamos conversando no WhatsApp. (Obviamente!)

“Você pode compartilhar um bom recurso para aprender Python?” ele perguntou.

Compartilhei o e-book 'Python For Data Analysis' de Wes McKinney com ele. Foi a 3ª edição.

“Posso saber por que você quer aprender Python de repente?” Perguntei.

“Estou trabalhando em um projeto com uso intensivo de dados”, disse ele. “Ontem, estava trabalhando com o Planilhas Google. Ele caiu.🥲”

“Argh, horrível.”

Eu lamento por ele. Eu sei que todos nós teríamos estado nesta situação pelo menos uma vez. Já passei por esses eventos mais de uma dúzia de vezes! A conversa me fez criar este conteúdo pequeno para você substituir o Planilhas Google pelo Pandas e Juypter Notebook.

Antes de discutir como migrar do Excel ou do Planilhas Google para os pandas do Python, vamos dar um passo atrás e analisar tudo.

O que são os “pandas” em Python?

🐼 Pandas é uma biblioteca Python de código aberto popular usada para manipulação e análise de dados.

Para simplificar:

Pandas ajudam você a lidar e trabalhar com dados facilmente. É uma ferramenta poderosa que simplifica tarefas como organizar dados em tabelas (como planilhas), filtrar informações específicas, realizar cálculos e muito mais. Portanto, o Pandas é o seu ajudante sempre que você precisar trabalhar com dados em Python!

Saiba mais sobre Pandas aqui!

O que é o Caderno Jupyter?

Jupyter Notebook é um aplicativo de código aberto que torna conveniente escrever, executar e compartilhar código Python, tudo em um só lugar! É popular entre pessoas que trabalham com grandes conjuntos de dados. É comumente usado para análise de dados, visualizações e aprendizado de máquina.

Por que Pandas e Jupyter Notebook substituirão o Planilhas Google/Excel?

  • Ele pode lidar com milhões de linhas de dados com eficiência, o que pode tornar o Planilhas Google ou o Excel lento.
  • Sem travamentos.
  • O código pode ser facilmente salvo e compartilhado, garantindo a reprodutibilidade das tarefas de análise de dados.
  • Você pode automatizar tarefas, o que pode economizar tempo e reduzir erros
  • O Pandas integra-se perfeitamente com outras bibliotecas Python para análise e visualização de dados.

Como passar do Planilhas Google/Excel para o Pandas em Python?

Preparativos:

Etapa 1: instalando o Jupyter Notebook

Vá para este URL – https://docs.anaconda.com/free/miniconda/miniconda-install/ e baixe o instalador minconda.

Siga as instruções na tela para instalar a distribuição Miniconda que possui Jupyter Notebook.

Etapa 2: abra o Jupyter Notebook

No menu Iniciar do Windows, pesquise ‘Prompt do Anaconda’. Clique nele para abrir a linha de comando. Na janela de prompt do Anaconda, digite 'jupyter notebook' e clique em Enter para abrir o notebook.

Abrindo o Jupyter Notebook no prompt do Anaconda

O Jupyter Notebook é aberto no seu navegador.

Etapa 3: crie um novo bloco de notas

Vá para Arquivo > Bloco de Notas.

Abriria um novo notebook onde poderíamos importar arquivos CSV ou uma pasta de trabalho do Excel e realizar as operações.

🐼hora de abordar os 'pandas' na sala!

Instalamos o minconda e abrimos o Jupyter Notebook. Estaremos realizando as operações do Excel ou do Planilhas Google no Jupyter Notebook usando Pandas.

Para usar o Pandas, precisamos importar o módulo para o Jupyter Notebook. Para fazer isso, insira o seguinte código na célula e use CTRL+Enter para executar o código:

importar pandas como pd

Importando Pandas para o Jupyter Notebook

🔥Agora, vamos fazer algumas operações do Excel/Google Sheets no Python Pandas.

1. Lendo arquivo CSV

Lendo arquivo CSV

Assim como importamos arquivos CSV no Planilhas Google, importaremos o arquivo CSV para o Pandas para trabalhar com ele.

Para isso, precisamos usar um código de uma linha assim:

serp_data=pd.read_csv('serp.csv')

Insira o código em uma célula após a função de importação e use CTRL+Enter para executar o código.

É isso. Você acabou de abrir um arquivo CSV no Jupyter Notebook e salvá-lo em um arquivo (variável) 'serp_data.'

Portanto, sempre que quiser ver o arquivo CSV, basta inserir o nome da variável, que neste caso é ‘serp_data’.

No Planilhas Google, teremos que importar os arquivos um por um usando Arquivo > Importar manualmente. Mas com o Pandas, você pode simplesmente copiar/colar o código de uma linha para abrir vários arquivos.

Lendo arquivo CSV

2. Conte linhas e colunas

Contar linhas e colunas

Obtenha uma visão geral do número de linhas e colunas em seu quadro de dados (planilha) usando a seguinte função de forma:

serp_data.forma

3. Adicionando filtros

Adicionando filtros

Assim como você filtra no Planilhas Google, você também pode adicionar filtros no Pandas. Aqui está um exemplo de como você pode filtrar a classificação de palavras-chave em posições superiores a 5:

dados_de classificação[ranking_data[“Rank”]>5]

Outro exemplo de como você pode filtrar os dados por palavras-chave contendo o termo 'dados' usando a função 'string contém' do pandas.

dados_de classificação[ranking_data[“Keyword”].str.contains(“dados”)]

Adicionando filtros

4. Concatenação

Concatenação

Usando concatenação para alterar o URL relativo para o URL absoluto.

concat_data[“Complete URL”] = “https://botpresso.com” + concat_data[“Slug”]

5. Remova duplicatas

Limpe seus dados removendo linhas duplicadas usando a função drop_duplicates().

dados_classificação = dados_classificação.drop_duplicates()

Antes de descartar duplicatas 👇

Duplicate rows

Depois de descartar duplicatas 👇

Remover duplicatas

6. Agrupando dados

Agrupando dados

Agrupando os dados de classificação pela soma do volume de pesquisa de palavras-chave em cada grupo de classificação.

Você pode adicionar mais camadas aos dados adicionando contagem de palavras-chave em cada intervalo de classificação usando a função agg().

grouped_data = ranking_data.groupby(“Classificação”).agg({'Volume de pesquisa':'sum','Keyword':'count'})

Agrupando dados

Dessa forma, você pode ver quantas palavras-chave estão em cada grupo de classificação e seu volume geral de pesquisa.

7. Remova valores nulos

Remova as linhas contendo valores vazios/nulos usando a função dropna() em pandas.

dados_classificação = dados_classificação.dropna()

👇Dados antes de remover valores nulos:

Removendo dados nulos

👇Dados após remoção de valores nulos:

Removendo dados nulos

8. Tabela dinâmica

Tabela dinâmica

Assim como o Planilhas Google ou o Excel, você também pode criar tabelas dinâmicas no Pandas usando a função pd.pivot_table.

tabela_pivot = pd.pivot_table(bot_gsc_data, índice = [“Query”, “Page”]valores=[“Clicks”, “Impressions”,”Position”]aggfunc='soma')

👇 Aqui está a sintaxe:

pivot_table = pd.pivot_table(seu dataframe, índice = [“Column 1”, “Column 2”]valores=[“Value 1”, “Value 2″,”Value 3”]aggfunc='soma/média/qualquer operação')

💡 É necessário passar o data frame e pelo menos uma coluna e valor.

9. PROCV

PROCV

Digamos que temos duas tabelas, uma com dados GSC contendo Consulta, URL, Cliques, Impressões e CTR e outra tabela contendo Consultas e seu Volume. No Excel ou no Planilhas Google, você pode usar o Vlookup e adicionar o volume à tabela GSC.

No Pandas, você pode fazer isso usando uma linha de código:

bot_gsc_data.merge(volume, how=”esquerda”, on=”Consulta”)

10. Classificar valores

Classificar valores

Você pode classificar qualquer coluna usando a função sort_values ​​no Pandas.

👇Aqui está a sintaxe:

yourdataframe.sort_values(by='Coluna', ascendente=Falso ou Verdadeiro)

11. Combine arquivos

Combinar arquivos

Você pode combinar dois quadros de dados ou tabelas usando a função concat no Pandas. Digamos que você tenha dois arquivos de palavras-chave que precisa combinar em um único arquivo para realizar algumas operações.

Você pode usar o código a seguir para fazer o mesmo. Mas certifique-se de que as colunas sejam iguais porque o código apenas mescla dois arquivos.

dados_combinados = pd.concat([ranking_data,ranking_data2])

12. Salve os dados em CSV

Combinar arquivos

Depois de concluir a análise de dados, você pode salvar a saída em um arquivo CSV para compartilhar com sua equipe. Veja como fazer isso:

combinado_data.to_csv(“Palavra-chave data.csv”, index=False)

Palavra-chave data.csv = o nome do arquivo de saída.

Combined_data = o quadro de dados de saída que você deseja salvar.

to_csv = a função para salvar os dados em CSV.

🎉Essas são apenas algumas operações que você pode fazer com o Pandas! Você pode aprender mais sobre Pandas e fazer cálculos mais avançados em seus dados.

Informe-nos, compartilhando nas redes sociais, se precisar de um tutorial mais avançado sobre como usar o Pandas para SEO.

📖 Leituras relacionadas sobre Python para SEO

👉 Analisando similaridade de conteúdo por meio do método cosseno

👉 Gerador de mapa de site XML Hreflang usando Python

👉 Identificando classificações de URL no Google SERP Top 20

Últimas

Mulheres na IA: Catherine Breslin ajuda empresas a desenvolver estratégias de IA

Para dar às mulheres acadêmicas e outras pessoas...

Jack Dorsey diz que não está mais no conselho da Bluesky

Parece que o patrocinador mais proeminente da Bluesky...

Por que a NASA está apostando em uma câmera de 36 pixels

O Telescópio Espacial James Webb da NASA está...

Nuvens alternativas estão crescendo à medida que as empresas buscam acesso mais barato às GPUs

O apetite por nuvens alternativas nunca foi tão...

Assine

spot_img

Veja Também

Mulheres na IA: Catherine Breslin ajuda empresas a desenvolver estratégias de IA

Para dar às mulheres acadêmicas e outras pessoas...

Jack Dorsey diz que não está mais no conselho da Bluesky

Parece que o patrocinador mais proeminente da Bluesky...

Por que a NASA está apostando em uma câmera de 36 pixels

O Telescópio Espacial James Webb da NASA está...

Nuvens alternativas estão crescendo à medida que as empresas buscam acesso mais barato às GPUs

O apetite por nuvens alternativas nunca foi tão...

SoundCloud assume o recurso Discover Weekly do Spotify com novas ‘Buzzing Playlists’

SoundCloud lançou um novo conjunto de playlists sob...
spot_img

Mulheres na IA: Catherine Breslin ajuda empresas a desenvolver estratégias de IA

Para dar às mulheres acadêmicas e outras pessoas focadas em IA o merecido - e devido - tempo de destaque, o TechCrunch publicou...

Jack Dorsey diz que não está mais no conselho da Bluesky

Parece que o patrocinador mais proeminente da Bluesky não está mais no conselho. No sábado, Jack Dorsey postou no X sobre subsídios para protocolos...

Por que a NASA está apostando em uma câmera de 36 pixels

O Telescópio Espacial James Webb da NASA está fazendo progressos na astronomia com suas fotos principalmente infravermelhas de 122 megapixels tiradas a 1,5...