Posts Recentes:

Substack agora permite que podcasters sincronizem e distribuam seus episódios para o Spotify

Subpilha anunciado na quinta-feira, está apresentando alguns novos...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

Como usar o Planilhas Google para web scraping com IA


A extração de dados de páginas da Web é uma tarefa relativamente avançada que, até recentemente, exigia um certo grau de habilidade técnica. A ideia de mergulhar em códigos ou scripts para extração de dados parecia esmagadora para muitos, inclusive para mim.

A coleta de dados pode potencializar muitas tarefas de SEO, como auditoria, análise de concorrentes e exame de site e estrutura de dados.

O Planilhas Google oferece soluções simples para ajudar.

Uma dessas soluções é a função IMPORTXML que permite aos usuários extrair dados de páginas da web usando apenas alguns parâmetros. Torna a extração de dados acessível a um público mais amplo, especialmente àqueles que não são versados ​​em linguagens de programação.

Embora esta função seja impressionante, o verdadeiro avanço veio com a adoção e integração da IA ​​generativa no mix.

Neste guia, mostraremos como usar o Planilhas Google e a IA, especialmente o ChatGPT, para web scraping sem a necessidade de habilidades avançadas de codificação.

As ferramentas: IA e chatbots

Agora estamos todos familiarizados com IA, ChatGPT e chatbots semelhantes.

Na verdade, muitos de nós usamos soluções como ChatGPT para escrever nossos próprios códigos, scripts e programas sem ou com conhecimento de programação muito limitado.

É tão simples quanto fornecer instruções detalhadas na forma de prompts e trabalhar com o chatbot para construir ferramentas que até recentemente acreditávamos estar muito acima de nós.

Mas o mais importante é que estas são ferramentas que estão a mudar profundamente a forma como abordamos o nosso trabalho diário.

Por exemplo, se fizermos a seguinte pergunta ao ChatGPT: “O que é a função IMPORTXML e como posso usá-la no Planilhas Google para copiar o título de uma página HTML? Forneça o código necessário para fazer isso no Planilhas Google”, a resposta é extremamente precisa. Em questão de segundos, temos nossa fórmula pronta para uso no Planilhas Google.

Mas, para ser honesto, essa foi uma tarefa muito básica e simples que poderíamos facilmente ter concluído sem o ChatGPT.

A tarefa

Então, como isso funciona se quisermos extrair dados um pouco menos padronizados em comparação com o título ou a descrição de uma página?

Por exemplo, como isso funciona se quisermos extrair os seguintes dados da página inicial PPC do Search Engine Journal?

Liste todos os artigos apresentados, seus autores, os URLs dos links e a descrição do artigo para as colunas listadas em https://www.searchenginejournal.com/category/paid-media/pay-per-click/.

Podemos fazer isso diretamente com ChatGPT?

Executando com ChatGPT

Na criação dos prompts, foram necessárias algumas tentativas para fornecer instruções detalhadas o suficiente para que o chatbot entendesse perfeitamente o objetivo da tarefa e retornasse bons resultados.

Em muitos casos, parecia que a IA estava sob pressão para retornar resultados rápidos, apesar de sua precisão.

Mas deixe-me explicar.

A tarefa era analisar a página e listar todos os artigos apresentados, seus autores, os URLs dos links e a descrição de cada um dos 30 artigos listados na página. Em seguida, compile os dados em uma tabela e finalmente exporte-os para um arquivo CSV.

Simples, certo?

A princípio, o ChatGPT retornou apenas uma amostra de sete artigos e apenas seus títulos e URLs; após um prompt reformulado, conseguiu listar e exportar todos os 30 artigos e seus links.

Agora, isso foi bom. Assim, para completar a tarefa, bastamos adicionar os autores e as descrições dos artigos.

Mas foi aqui que o bot tropeçou e não foi capaz de fornecer uma descrição precisa de cada artigo, apesar de fornecermos exemplos do elemento da página que ele precisava encontrar e copiar.

ChatGPT continuou ignorando as instruções e fornecendo suas próprias descrições de artigos repetidas vezes.

O ChatGPT até falhou quando tentamos uma abordagem diferente e baixamos e carregamos uma cópia da página HTML.

Extrato ChatGPTCaptura de tela do ChatGPT, fevereiro de 2024

Desta vez, conseguiu fornecer dados precisos para sete artigos, mas não conseguiu ir além disso. O problema relatado:

“…a estrutura e o conteúdo da página apresentam desafios significativos para a extração abrangente de dados em uma única sessão.

A página é bastante extensa e complexa e não é viável extrair todos os 30 artigos no formato atual de interação.”

Extração de ChatGPT de 30 artigosCaptura de tela do ChatGPT, fevereiro de 2024

ChatGPT + Planilhas Google

Então, voltando ao IMPORTXML e ao Planilhas Google.

Desta vez, fazer com que o ChatGPT fornecesse as fórmulas para cada campo foi muito fácil.

  Instruções de extração do ChatGPTCaptura de tela do ChatGPT, fevereiro de 2024

Aqui estão algumas das fórmulas, sugeridas pelo chatbot, que você pode facilmente experimentar no Planilhas Google para extrair:

Título

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*(@id='archives-wrapper')/article/div/div(2)/h2/a")

Nome do autor

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*(@id='archives-wrapper')/article/div/div(2)/p(1)/a")

Links URL

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*(@id='archives-wrapper')/article/div/div(2)/h2/a/@href")

Descrição

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*(@id='archives-wrapper')/article/div/div(2)/p(2)")

Em pouco tempo, conseguimos extrair os dados para a planilha.

Planilhas GoogleCaptura de tela do Planilhas Google, fevereiro de 2024

Além disso, usando fórmulas aninhadas de construção simples, podemos extrair rapidamente os dados de várias páginas ao mesmo tempo.

No exemplo abaixo, consegui extrair os mesmos dados relacionados a cada artigo (título, autor, link URL e descrição) para as primeiras 10 páginas da seção PPC.

O resultado é um total de 300 artigos raspados em menos de um minuto!

Extrair resultados do Planilhas GoogleCaptura de tela do Planilhas Google, fevereiro de 2024

Comparando os dois

Então, como se comparam ChatGPT vs. ChatGPT + Google Sheets IMPORTXML?

Na minha experiência, não consegui encontrar uma maneira fácil e rápida de usar o ChatGPT para extrair os dados que estava procurando – lembre-se, isso não significa que isso não seja possível e pode haver várias maneiras de fazer isso, mas Eu não encontrei nenhum.

O que funcionou para mim foi uma combinação de diferentes ferramentas e isso me serviu muito bem para o propósito pretendido.

ChatGPT foi extremamente útil para escrever as fórmulas IMPORTXML que eu precisava usar no Planilhas Google, e essas fórmulas fizeram o resto.

Um bônus adicional da opção ChatGPT + Planilhas Google é que você pode simplesmente usar a versão 3.5 gratuita do ChatGPT e obter a ferramenta para construir suas fórmulas IMPORTXML, em vez de ter a versão 4 para digitalizar a página e extrair os dados.

Principal vantagem

Isto destaca um aspecto crítico de como a IA transformou a forma como pensamos e trabalhamos.

A melhor ferramenta para o trabalho não é apenas usar IA, Planilhas Google ou qualquer software específico, mas sim uma combinação de ferramentas e habilidades.

É nesta abordagem integrada que desenvolvemos fluxos de trabalho eficientes e eficazes, melhorando assim a nossa produtividade global.

Mais recursos:


Imagem em destaque: Geração Visual/Shutterstock

Últimas

Substack agora permite que podcasters sincronizem e distribuam seus episódios para o Spotify

Subpilha anunciado na quinta-feira, está apresentando alguns novos...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

TikTok testa influenciadores virtuais para anúncios em vídeo

A TikTok está supostamente desenvolvendo influenciadores virtuais com...

Assine

spot_img

Veja Também

Substack agora permite que podcasters sincronizem e distribuam seus episódios para o Spotify

Subpilha anunciado na quinta-feira, está apresentando alguns novos...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

TikTok testa influenciadores virtuais para anúncios em vídeo

A TikTok está supostamente desenvolvendo influenciadores virtuais com...

Chase lança primeira rede de mídia liderada por banco

O JPMorgan Chase lançou o Chase Media Solutions,...
spot_img

Substack agora permite que podcasters sincronizem e distribuam seus episódios para o Spotify

Subpilha anunciado na quinta-feira, está apresentando alguns novos recursos para podcasters em sua plataforma. Mais notavelmente, a empresa está lançando uma integração...

Google limita links de notícias na Califórnia devido à proposta de lei de 'imposto sobre links'

O Google anunciou que planeja reduzir o acesso a sites de notícias da Califórnia para uma parcela dos usuários do estado. A decisão ocorre...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente o futuro das pesquisas, afirmando a importância dos sites (boas notícias para SEO). Mas...