Posts Recentes:

Por que o Google Gemini “vazou” dados de bate-papo?


Demorou apenas vinte e quatro horas depois que o Gemini do Google foi lançado publicamente para que alguém percebesse que os bate-papos estavam sendo exibidos publicamente nos resultados de pesquisa do Google. O Google respondeu rapidamente ao que parecia ser um vazamento. A razão pela qual isso aconteceu é bastante surpreendente e não tão sinistra como parece à primeira vista.

@shemiadhikarath twittou:

“Poucas horas após o lançamento do @Google Gemini, mecanismos de busca como o Bing indexaram conversas públicas do Gemini.”

Eles postaram uma captura de tela da pesquisa do site gemini.google.com/share/

Mas se você olhar a captura de tela, verá que há uma mensagem que diz: “Gostaríamos de mostrar uma descrição aqui, mas o site não nos permite”.

Na madrugada de terça-feira, 13 de fevereiro, os bate-papos do Google Gemini começaram a desaparecer dos resultados de pesquisa do Google, o Google exibia apenas três resultados de pesquisa. À tarde, o número de bate-papos vazados do Gemini exibidos nos resultados da pesquisa havia diminuído para apenas um resultado da pesquisa.

Captura de tela dos resultados de pesquisa do Google para páginas indexadas no subdomínio de bate-papo do Google GeminiCaptura de tela dos resultados de pesquisa do Google para páginas indexadas no subdomínio de bate-papo do Google Gemini

Como as páginas de bate-papo do Gemini foram criadas?

Gemini oferece uma maneira de criar um link para uma versão visível publicamente de um bate-papo privado.

O Google não cria páginas da web automaticamente a partir de bate-papos privados. Os usuários criam as páginas de chat por meio de um link na parte inferior de cada chat.

Captura de tela de como criar uma página de bate-papo compartilhada

Captura de tela de como criar uma página pública de um bate-papo privado do Google GeminiCaptura de tela de como criar uma página pública de um bate-papo privado do Google Gemini

Por que as páginas de bate-papo do Gemini foram indexadas?

A razão óbvia pela qual as páginas de bate-papo foram rastreadas e indexadas é porque o Google esqueceu de colocar um robots.txt na raiz do subdomínio Gemini, (gemini.google.com).

Um arquivo robots.txt é um documento para controlar a atividade do rastreador em sites. Um editor pode bloquear rastreadores específicos usando comandos padronizados no protocolo Robots.txt.

Verifiquei o robots.txt às 4h19 do dia 13 de fevereiro e vi que ele estava instalado:

Arquivo robots.txt do Google GeminiArquivo robots.txt do Google Gemini

Em seguida, verifiquei o Internet Archive para ver há quanto tempo o arquivo robots.txt está em vigor e descobri que ele estava lá desde pelo menos 8 de fevereiro, dia em que os aplicativos Gemini foram anunciados.

Captura de tela do arquivo da Internet

Captura de tela dos robôs Google Gemini.  txt do Internet Archive mostrando que estava lá em 8 de fevereiro de 2024.Captura de tela dos robôs Google Gemini.  txt do Internet Archive mostrando que estava lá em 8 de fevereiro de 2024.

Isso significa que o motivo óbvio pelo qual as páginas de bate-papo foram rastreadas não é o motivo correto, é apenas o motivo mais óbvio.

Embora o subdomínio do Google Gemini tivesse um robots.txt que bloqueava rastreadores da web do Bing e do Google, como eles rastrearam essas páginas e as indexaram?

Duas maneiras de descobrir e indexar páginas de bate-papo privado

  • Pode haver um link público em algum lugar.
  • Menos provável, mas talvez possível, é que eles tenham sido descobertos por meio do histórico de navegação vinculado a cookies.

É mais provável que haja links públicos.

Perguntei a Bill Hartzer (@bhartzer) sobre isso e descobriu um link público para uma das páginas indexadas:

Link público para uma página de bate-papo compartilhada do Google GeminiLink público para uma página de bate-papo compartilhada do Google Gemini

Portanto, agora sabemos que é altamente provável que um link público tenha feito com que essas páginas do Gemini Chat fossem rastreadas e indexadas.

Bill Hartzer fez esta observação:

“Mesmo que o URL do Gemini esteja bloqueado no arquivo robots.txt, há um link para o URL do Gemini em um comentário do blog, para que o URL do Gemini seja indexado.

Isso apenas mostra que o Google ainda indexará URLs cujo rastreamento está bloqueado no arquivo robots.txt.

Se o Google realmente quisesse ter certeza de que o URL do Gemini não fosse indexado, eles PERMITEM o rastreamento no arquivo robots.txt e adicionariam uma meta tag noindex nas páginas. Talvez o Google devesse seguir seu próprio conselho aqui?”

Por que as páginas de bate-papo começaram a desaparecer dos resultados da pesquisa?

Mas se há um link público, por que o Google começou a abandonar completamente as páginas de bate-papo? O Google criou uma regra interna para o rastreador de pesquisa excluir páginas da web da pasta /share/ do índice de pesquisa, mesmo que estejam vinculadas publicamente?

Insights sobre como o Bing e o Google Search indexam o conteúdo

Agora, aqui está a parte realmente interessante para todos os geeks de busca interessados ​​em como o Google e o Bing indexam o conteúdo.

O índice de pesquisa do Microsoft Bing respondeu ao conteúdo do Gemini de maneira diferente da pesquisa do Google. Enquanto o Google ainda exibia três resultados de pesquisa na madrugada de 13 de fevereiro, o Bing exibia apenas um resultado do subdomínio. Havia uma qualidade aparentemente aleatória no que era indexado e na quantidade.

Por que as páginas de bate-papo do Gemini vazaram?

Aqui estão os fatos conhecidos:

  • O Google tinha um robots.txt em vigor desde 8 de fevereiro.
  • Tanto o Google quanto o Bing indexaram páginas do subdomínio gemini.google.com.
  • Tanto o Google quanto o Bing podem ter descoberto links para os bate-papos e posteriormente os indexado.
  • Os motores de busca indexaram o conteúdo independentemente do robots.txt e então começaram a despejá-lo.

Isso nos traz de volta à questão de por que essas páginas começaram a desaparecer dos resultados de pesquisa do Google e do Bing. Meu palpite é que as páginas de bate-papo do Google Gemini são páginas da web de baixa qualidade que não valem a pena serem exibidas para pesquisas essencialmente longtail (site:gemini.google.com/share/). Não há realmente nenhum motivo útil para exibir essas páginas nos resultados da pesquisa.

O conteúdo bloqueado pelo Robots.txt ainda pode ser descoberto, rastreado e acabar no índice de pesquisa e, se as páginas forem úteis, elas também poderão ser classificadas, a menos que não sejam úteis. Acho que pode ser esse o caso.



Últimas

Assine

spot_img

Veja Também

spot_img

Google expande suporte de senha para seu Programa de Proteção Avançada antes da eleição presidencial dos EUA

Antes das eleições presidenciais dos EUA, o Google está oferecendo suporte de chave de acesso ao seu Programa de Proteção Avançada (APP), que...

Allozymes coloca sua enzimática acelerada para trabalhar em dados e IA, arrecadando US$ 15 milhões

O método engenhoso da Allozymes para testar rapidamente milhões de reações químicas de base biológica está provando ser não apenas um serviço útil,...