Posts Recentes:

Gmail prepara ‘Assinaturas’ para dar fim à bagunça na caixa de entrada

Cansado de ter a caixa de entrada do...

Atualização da Busca não afeta os sistemas de indexação

Em meio a tantas dúvidas e questionamentos sobre...

Google One anuncia o fim do serviço de VPN

A VPN do Google One, serviço de rede...

Como usar o Planilhas Google para web scraping com IA


A extração de dados de páginas da Web é uma tarefa relativamente avançada que, até recentemente, exigia um certo grau de habilidade técnica. A ideia de mergulhar em códigos ou scripts para extração de dados parecia esmagadora para muitos, inclusive para mim.

A coleta de dados pode potencializar muitas tarefas de SEO, como auditoria, análise de concorrentes e exame de site e estrutura de dados.

O Planilhas Google oferece soluções simples para ajudar.

Uma dessas soluções é a função IMPORTXML que permite aos usuários extrair dados de páginas da web usando apenas alguns parâmetros. Torna a extração de dados acessível a um público mais amplo, especialmente àqueles que não são versados ​​em linguagens de programação.

Embora esta função seja impressionante, o verdadeiro avanço veio com a adoção e integração da IA ​​generativa no mix.

Neste guia, mostraremos como usar o Planilhas Google e a IA, especialmente o ChatGPT, para web scraping sem a necessidade de habilidades avançadas de codificação.

As ferramentas: IA e chatbots

Agora estamos todos familiarizados com IA, ChatGPT e chatbots semelhantes.

Na verdade, muitos de nós usamos soluções como ChatGPT para escrever nossos próprios códigos, scripts e programas sem ou com conhecimento de programação muito limitado.

É tão simples quanto fornecer instruções detalhadas na forma de prompts e trabalhar com o chatbot para construir ferramentas que até recentemente acreditávamos estar muito acima de nós.

Mas o mais importante é que estas são ferramentas que estão a mudar profundamente a forma como abordamos o nosso trabalho diário.

Por exemplo, se fizermos a seguinte pergunta ao ChatGPT: “O que é a função IMPORTXML e como posso usá-la no Planilhas Google para copiar o título de uma página HTML? Forneça o código necessário para fazer isso no Planilhas Google”, a resposta é extremamente precisa. Em questão de segundos, temos nossa fórmula pronta para uso no Planilhas Google.

Mas, para ser honesto, essa foi uma tarefa muito básica e simples que poderíamos facilmente ter concluído sem o ChatGPT.

A tarefa

Então, como isso funciona se quisermos extrair dados um pouco menos padronizados em comparação com o título ou a descrição de uma página?

Por exemplo, como isso funciona se quisermos extrair os seguintes dados da página inicial PPC do Search Engine Journal?

Liste todos os artigos apresentados, seus autores, os URLs dos links e a descrição do artigo para as colunas listadas em https://www.searchenginejournal.com/category/paid-media/pay-per-click/.

Podemos fazer isso diretamente com ChatGPT?

Executando com ChatGPT

Na criação dos prompts, foram necessárias algumas tentativas para fornecer instruções detalhadas o suficiente para que o chatbot entendesse perfeitamente o objetivo da tarefa e retornasse bons resultados.

Em muitos casos, parecia que a IA estava sob pressão para retornar resultados rápidos, apesar de sua precisão.

Mas deixe-me explicar.

A tarefa era analisar a página e listar todos os artigos apresentados, seus autores, os URLs dos links e a descrição de cada um dos 30 artigos listados na página. Em seguida, compile os dados em uma tabela e finalmente exporte-os para um arquivo CSV.

Simples, certo?

A princípio, o ChatGPT retornou apenas uma amostra de sete artigos e apenas seus títulos e URLs; após um prompt reformulado, conseguiu listar e exportar todos os 30 artigos e seus links.

Agora, isso foi bom. Assim, para completar a tarefa, bastamos adicionar os autores e as descrições dos artigos.

Mas foi aqui que o bot tropeçou e não foi capaz de fornecer uma descrição precisa de cada artigo, apesar de fornecermos exemplos do elemento da página que ele precisava encontrar e copiar.

ChatGPT continuou ignorando as instruções e fornecendo suas próprias descrições de artigos repetidas vezes.

O ChatGPT até falhou quando tentamos uma abordagem diferente e baixamos e carregamos uma cópia da página HTML.

Extrato ChatGPTCaptura de tela do ChatGPT, fevereiro de 2024Extrato ChatGPT

Desta vez, conseguiu fornecer dados precisos para sete artigos, mas não conseguiu ir além disso. O problema relatado:

“…a estrutura e o conteúdo da página apresentam desafios significativos para a extração abrangente de dados em uma única sessão.

A página é bastante extensa e complexa e não é viável extrair todos os 30 artigos no formato atual de interação.”

Extração de ChatGPT de 30 artigosCaptura de tela do ChatGPT, fevereiro de 2024Extração de ChatGPT de 30 artigos

ChatGPT + Planilhas Google

Então, voltando ao IMPORTXML e ao Planilhas Google.

Desta vez, fazer com que o ChatGPT fornecesse as fórmulas para cada campo foi muito fácil.

  Instruções de extração do ChatGPTCaptura de tela do ChatGPT, fevereiro de 2024  Instruções de extração do ChatGPT

Aqui estão algumas das fórmulas, sugeridas pelo chatbot, que você pode facilmente experimentar no Planilhas Google para extrair:

Título

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/h2/a")

Nome do autor

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/p[1]/a")

Links URL

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/h2/a/@href")

Descrição

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/p[2]")

Em pouco tempo, conseguimos extrair os dados para a planilha.

Planilhas GoogleCaptura de tela do Planilhas Google, fevereiro de 2024Planilhas Google

Além disso, usando fórmulas aninhadas de construção simples, podemos extrair rapidamente os dados de várias páginas ao mesmo tempo.

No exemplo abaixo, consegui extrair os mesmos dados relacionados a cada artigo (título, autor, link URL e descrição) para as primeiras 10 páginas da seção PPC.

O resultado é um total de 300 artigos raspados em menos de um minuto!

Extrair resultados do Planilhas GoogleCaptura de tela do Planilhas Google, fevereiro de 2024Extrair resultados do Planilhas Google

Comparando os dois

Então, como se comparam ChatGPT vs. ChatGPT + Google Sheets IMPORTXML?

Na minha experiência, não consegui encontrar uma maneira fácil e rápida de usar o ChatGPT para extrair os dados que estava procurando – lembre-se, isso não significa que isso não seja possível e pode haver várias maneiras de fazer isso, mas Eu não encontrei nenhum.

O que funcionou para mim foi uma combinação de diferentes ferramentas e isso me serviu muito bem para o propósito pretendido.

ChatGPT foi extremamente útil para escrever as fórmulas IMPORTXML que eu precisava usar no Planilhas Google, e essas fórmulas fizeram o resto.

Um bônus adicional da opção ChatGPT + Planilhas Google é que você pode simplesmente usar a versão 3.5 gratuita do ChatGPT e obter a ferramenta para construir suas fórmulas IMPORTXML, em vez de ter a versão 4 para digitalizar a página e extrair os dados.

Principal vantagem

Isto destaca um aspecto crítico de como a IA transformou a forma como pensamos e trabalhamos.

A melhor ferramenta para o trabalho não é apenas usar IA, Planilhas Google ou qualquer software específico, mas sim uma combinação de ferramentas e habilidades.

É nesta abordagem integrada que desenvolvemos fluxos de trabalho eficientes e eficazes, melhorando assim a nossa produtividade global.

Mais recursos:


Imagem em destaque: Geração Visual/Shutterstock

Últimas

Gmail prepara ‘Assinaturas’ para dar fim à bagunça na caixa de entrada

Cansado de ter a caixa de entrada do...

Atualização da Busca não afeta os sistemas de indexação

Em meio a tantas dúvidas e questionamentos sobre...

Google One anuncia o fim do serviço de VPN

A VPN do Google One, serviço de rede...

Spotify está desenvolvendo ferramentas que permitiriam aos usuários remixar músicas, mostram capturas de tela

O Spotify está trabalhando em ferramentas de mixagem...

Assine

spot_img

Veja Também

Gmail prepara ‘Assinaturas’ para dar fim à bagunça na caixa de entrada

Cansado de ter a caixa de entrada do...

Atualização da Busca não afeta os sistemas de indexação

Em meio a tantas dúvidas e questionamentos sobre...

Google One anuncia o fim do serviço de VPN

A VPN do Google One, serviço de rede...

Spotify está desenvolvendo ferramentas que permitiriam aos usuários remixar músicas, mostram capturas de tela

O Spotify está trabalhando em ferramentas de mixagem...

Estas 74 empresas de robótica estão contratando

É difícil lá fora - e ainda assim,...
spot_img

Gmail prepara ‘Assinaturas’ para dar fim à bagunça na caixa de entrada

Cansado de ter a caixa de entrada do Gmail abarrotada por e-mails de assinaturas que você nem sequer lê? Se sim, prepare-se para...

Atualização da Busca não afeta os sistemas de indexação

Em meio a tantas dúvidas e questionamentos sobre o funcionamento dos algoritmos do Google, uma notícia traz alívio para os profissionais de SEO:...

Google One anuncia o fim do serviço de VPN

A VPN do Google One, serviço de rede privada virtual incluída em planos mais caros do Google One, será descontinuada nos próximos meses....