Posts Recentes:

SGE News: SGE está construindo sua resposta com base em conteúdo HTML


Desde que o Google anunciou a disponibilidade do SGE nos laboratórios de pesquisa, nossa equipe de P&D tem trabalhado diligentemente para entender como funciona essa IA generativa em pesquisas.

Esta investigação teve como alvo uma das áreas que pretendíamos explorar.

Nossas perguntas foram “Que tipo de conteúdo a SGE busca para construir sua resposta?” e “O SGE é capaz de buscar conteúdo dependente de JS?”.

Interessado?

Continue lendo para encontrar as respostas.

O objetivo da pesquisa

O objetivo desta pesquisa foi verifique que tipo de conteúdo o SGE busca para construir sua resposta. É apenas conteúdo do corpo HTML ou é uma mistura de conteúdo dependente de JS e conteúdo do corpo HTML?

Analisamos o tipo de conteúdo que o SGE recupera examinando os fragmentos de texto vinculados à maioria das respostas. Esses fragmentos são projetados para direcionar os usuários a seções específicas da página da web, mas também indicam que parte do conteúdo a SGE utilizou para construir a resposta.

O que é um fragmento de texto?

Para quem não sabe o que é um fragmento de texto, aqui vai uma rápida explicação. Fragmentos de texto são usados ​​para direcionar os usuários para partes específicas da página da web. No exemplo da imagem a seguir, o navegador deslocaria os usuários para a parte do conteúdo onde o snippet:

  • Começa com: Onely é o melhor técnico
  • Termina com: Agência de SEO no mundo

Estrutura do fragmento de texto

Suposição de pesquisa

Inicialmente, pensamos que se não conseguíssemos encontrar o fragmento de texto no código-fonte do site, isso significava que o conteúdo precisava da execução de JavaScript.

Nossa ideia estava certa.

Porém, durante a pesquisa, descobrimos que o SGE também pode encontrar fragmentos de textos de diferentes áreas. É importante abordar isso porque meu script não foi projetado para pesquisar fragmentos de texto diferentes do conteúdo do corpo HTML.

Mas não se preocupe! No geral, isso realmente não mudou minhas descobertas.

Antes de começarmos a descobrir, familiarize-se com os dados que processamos e analisamos.

Dados de entrada – uma visão geral do que analisamos.

Para fornecer uma visão geral concisa, aqui estão os principais dados que analisamos.

Nossa equipe criou uma lista de 32 setores, dos quais extraímos 35 mil palavras-chave.

Abaixo está uma lista de alguns exemplos de verticais.

  1. Artes
  2. Bancário
  3. Beleza
  4. Livros
  5. Saúde
  6. Finanças
  7. Imobiliária
  8. Tecnologia
  9. Investindo
  10. Serviços online

Você pode encontrar o lista completa de verticais no final do artigo.

Compartilhamento de conteúdo HTML – visão geral

Então, a grande questão era “Que tipo de conteúdo o SGE busca principalmente?”.

Nossa investigação teve como objetivo esclarecer isso.

Dos setores e palavras-chave selecionados, analisei quase 140.000 fontes SGE apresentando fragmentos de texto. Minha análise indica que 88% dos fragmentos de texto foram recuperados do corpo HTML.

Pesquisa SGE: Fragmentos de texto no corpo HTML - encontrados versus não encontrados

Você pode estar curioso para saber o que contém o segmento “Não encontrado”.

Não se preocupe; Eu também dei uma olhada mais de perto nisso.

O que está escondido na fatia “Não encontrado”?

Realizei análises manuais adicionais sobre o “Não encontrado” segmento, como ainda não temos um script capaz de processá-lo em massa, para descobrir que outro conteúdo a SGE seleciona para suas respostas além do HTML, e as descobertas são bastante intrigantes.

Além do conteúdo HTML, o SGE é capaz de utilizar fragmentos das seguintes áreas:

  • Descrição da página – 64%
  • Conteúdo dependente de JS – 30%
  • Marcações de esquema – 5%
  • Título – menos de 1%
Pesquisa SGE: fragmentos de texto em tipos de fonte de corpo HTML

Com base nessas descobertas, posso estimar suas contribuições gerais da seguinte forma:

  • A descrição gira em torno de 7,5%
  • O conteúdo dependente de JS é de cerca de 3,5%
  • As marcações de esquema são inferiores a 1%
  • Os títulos são inferiores a 1%

Porém, quero deixar isso claro: a pesquisa na categoria “Não encontrado” foi realizada manualmente em uma pequena amostra. Portanto, as estimativas podem não ser precisas ou não representar a verdadeira proporção da categoria “Não encontrado”.

Compartilhamento de conteúdo HTML por setores

Mesmo que a média para todos os setores seja de 88% para conteúdo obtido de HTML puro em respostas SGE, alguns deles podem ter uma participação completamente diferente.

Analisando todas as 32 verticais, vemos que a disparidade entre a indústria com maior participação de conteúdo HTML e a menor pode chegar a 35%.

Pesquisa SGE: fragmentos de texto no corpo HTML por verticais

Por que pode haver tantas diferenças entre os setores verticais?

É realmente difícil dizer nesta fase. Pode ser porque alguns dos setores:

  • São urgentes, como cupons – alguns deles durante a crise não puderam estar disponíveis
  • Outros, como alimentos, podem ter uma parcela maior de marcações de esquema (receitas).

Com certeza, será valioso modificar o script para que também possamos verificar os elementos do título, descrição, JS ou marcações de esquema e reestimar a parcela de conteúdo dependente de JS obtido pelo SGE.

O que você deve fazer a seguir?

Embora tenhamos observado que o SGE pode lidar com conteúdo dependente de JS, recomendamos as seguintes etapas:

  • Se o seu site depende de JS, identifique quais elementos são mais afetados por ele.
    • Considere ferramentas como ZipTie e WWJD que podem ajudá-lo na análise.
  • Garanta que o Google possa rastrear, renderizar e indexar seu conteúdo principal sem problemas.
  • Sempre que possível, incorpore seu conteúdo principal diretamente no HTML.
  • Siga-nos para se manter atualizado sobre os desenvolvimentos da SGE. 😉

Pensamentos finais

A SGE está construindo sua resposta principalmente em conteúdo HTML e, do nosso ponto de vista, era algo que esperávamos.

Por que?

Primeiramente, O conteúdo HTML é mais barato em comparação com JavaScript.

Um de nossos experimentos demonstra que o Google requer 9 vezes mais tempo para rastrear páginas com conteúdo dependente de JavaScript. Mais tempo significa mais recursos que o Google precisa utilizar ou, na pior das hipóteses, resulta em nenhuma indexação nas SERPs e, consequentemente, nenhuma visibilidade no SGE. (https://www.onely.com/blog/google-needs-9x-more-time-to-crawl-js-than-html/)

Em segundo lugar, uma vez que a SGE ainda está em desenvolvimento, os seus recursos são provavelmente mais limitados do que estarão em seu lançamento oficial.

SGE utiliza um algoritmo completamente diferente para gerar respostas. Para o Google, isso implica realocar alguns dos recursos disponíveis para apoiar a funcionalidade do SGE.

Da perspectiva do Google, se as páginas concorrentes oferecerem aproximadamente o mesmo valor aos usuários, mas diferirem no custo de rastreamento e renderização, o Google optará pela opção mais econômica.

Por que? SGE ainda está no laboratório. Seus recursos são muito limitados.

Então, o conteúdo HTML é mais barato em comparação ao JavaScript, por isso é fácil de rastrear, renderizar e indexar. Ficaríamos muito surpresos se a SGE construísse sua resposta com base em conteúdo que dependesse de JavaScript – o que é caro.

É mais provável que o SGE use HTML do que JS?

Não podemos simplesmente responder sim ou não. É porque ainda não sabemos qual foi a parcela de páginas com alta dependência de JS. Estamos trabalhando para responder a esta pergunta.

A meta descrição se tornará mais significativa quando o SGE for lançado?

A descrição pode desempenhar um papel.

Nossos dados indicam que é a segunda fonte primária que a SGE utiliza para construir respostas. Não quero afirmar que isso se tornará um dos principais fatores de classificação nos quais nos concentrar. No entanto, quero enfatizar que isso não deve ser esquecido.

Lista completa de setores

  1. Artes
  2. Bancário
  3. Medicina alternativa
  4. Beleza – pacote 1
  5. Beleza – pacote 2
  6. Livros
  7. Celebridades – pacote 1
  8. Celebridades – pacote 2
  9. Culinária
  10. Passatempo
  11. Saúde
  12. Finanças
  13. Mobília
  14. Casa e jardim
  15. Jogos
  16. Cupons
  17. Alimentação – pacote 1
  18. Alimentação – pacote 2
  19. Fintech – pacote 1
  20. Fintech – pacote 2
  21. Carros
  22. Educação online – pacote 1
  23. Educação online – pacote 2
  24. Nutrição
  25. Perto de mim – pacote 1
  26. Perto de mim – pacote 2
  27. Empregos
  28. Imobiliária
  29. Viagem
  30. Farmacia
  31. Tecnologia
  32. Investindo
  33. Serviços online
  34. Animais de estimação
  35. Abuso de substâncias
  36. Comparação de preços
  37. Esportes
  38. Ciência

Últimas

Spyware governamental é outro motivo para usar um bloqueador de anúncios

Os bloqueadores de anúncios podem parecer uma defesa...

Meta está testando uma barra de pesquisa com tecnologia de IA no Instagram

A Meta está avançando em seus esforços para...

Simbian traz IA para ferramentas de segurança existentes

Ambuj Kumar não é nada senão ambicioso. Engenheiro elétrico...

Assine

spot_img

Veja Também

Spyware governamental é outro motivo para usar um bloqueador de anúncios

Os bloqueadores de anúncios podem parecer uma defesa...

Meta está testando uma barra de pesquisa com tecnologia de IA no Instagram

A Meta está avançando em seus esforços para...

Simbian traz IA para ferramentas de segurança existentes

Ambuj Kumar não é nada senão ambicioso. Engenheiro elétrico...

As finanças internas pré-Starlink da SpaceX mostram grandes gastos em apostas lunares

As demonstrações financeiras confidenciais da SpaceX para 2018...
spot_img

Spyware governamental é outro motivo para usar um bloqueador de anúncios

Os bloqueadores de anúncios podem parecer uma defesa improvável na luta contra o spyware, mas novos relatórios lançam uma nova luz sobre como...

Meta está testando uma barra de pesquisa com tecnologia de IA no Instagram

A Meta está avançando em seus esforços para disponibilizar seus produtos generativos baseados em IA para mais usuários. Além de testar Chatbot...