Demorou apenas vinte e quatro horas depois que o Gemini do Google foi lançado publicamente para que alguém percebesse que os bate-papos estavam sendo exibidos publicamente nos resultados de pesquisa do Google. O Google respondeu rapidamente ao que parecia ser um vazamento. A razão pela qual isso aconteceu é bastante surpreendente e não tão sinistra como parece à primeira vista.
@shemiadhikarath twittou:
“Poucas horas após o lançamento do @Google Gemini, mecanismos de busca como o Bing indexaram conversas públicas do Gemini.”
Eles postaram uma captura de tela da pesquisa do site gemini.google.com/share/
Mas se você olhar a captura de tela, verá que há uma mensagem que diz: “Gostaríamos de mostrar uma descrição aqui, mas o site não nos permite”.
Na madrugada de terça-feira, 13 de fevereiro, os bate-papos do Google Gemini começaram a desaparecer dos resultados de pesquisa do Google, o Google exibia apenas três resultados de pesquisa. À tarde, o número de bate-papos vazados do Gemini exibidos nos resultados da pesquisa havia diminuído para apenas um resultado da pesquisa.
Como as páginas de bate-papo do Gemini foram criadas?
Gemini oferece uma maneira de criar um link para uma versão visível publicamente de um bate-papo privado.
O Google não cria páginas da web automaticamente a partir de bate-papos privados. Os usuários criam as páginas de chat por meio de um link na parte inferior de cada chat.
Captura de tela de como criar uma página de bate-papo compartilhada
Por que as páginas de bate-papo do Gemini foram indexadas?
A razão óbvia pela qual as páginas de bate-papo foram rastreadas e indexadas é porque o Google esqueceu de colocar um robots.txt na raiz do subdomínio Gemini, (gemini.google.com).
Um arquivo robots.txt é um documento para controlar a atividade do rastreador em sites. Um editor pode bloquear rastreadores específicos usando comandos padronizados no protocolo Robots.txt.
Verifiquei o robots.txt às 4h19 do dia 13 de fevereiro e vi que ele estava instalado:
Em seguida, verifiquei o Internet Archive para ver há quanto tempo o arquivo robots.txt está em vigor e descobri que ele estava lá desde pelo menos 8 de fevereiro, dia em que os aplicativos Gemini foram anunciados.
Captura de tela do arquivo da Internet
Isso significa que o motivo óbvio pelo qual as páginas de bate-papo foram rastreadas não é o motivo correto, é apenas o motivo mais óbvio.
Embora o subdomínio do Google Gemini tivesse um robots.txt que bloqueava rastreadores da web do Bing e do Google, como eles rastrearam essas páginas e as indexaram?
Duas maneiras de descobrir e indexar páginas de bate-papo privado
- Pode haver um link público em algum lugar.
- Menos provável, mas talvez possível, é que eles tenham sido descobertos por meio do histórico de navegação vinculado a cookies.
É mais provável que haja links públicos.
Perguntei a Bill Hartzer (@bhartzer) sobre isso e descobriu um link público para uma das páginas indexadas:
Portanto, agora sabemos que é altamente provável que um link público tenha feito com que essas páginas do Gemini Chat fossem rastreadas e indexadas.
Bill Hartzer fez esta observação:
“Mesmo que o URL do Gemini esteja bloqueado no arquivo robots.txt, há um link para o URL do Gemini em um comentário do blog, para que o URL do Gemini seja indexado.
Isso apenas mostra que o Google ainda indexará URLs cujo rastreamento está bloqueado no arquivo robots.txt.
Se o Google realmente quisesse ter certeza de que o URL do Gemini não fosse indexado, eles PERMITEM o rastreamento no arquivo robots.txt e adicionariam uma meta tag noindex nas páginas. Talvez o Google devesse seguir seu próprio conselho aqui?”
Por que as páginas de bate-papo começaram a desaparecer dos resultados da pesquisa?
Mas se há um link público, por que o Google começou a abandonar completamente as páginas de bate-papo? O Google criou uma regra interna para o rastreador de pesquisa excluir páginas da web da pasta /share/ do índice de pesquisa, mesmo que estejam vinculadas publicamente?
Insights sobre como o Bing e o Google Search indexam o conteúdo
Agora, aqui está a parte realmente interessante para todos os geeks de busca interessados em como o Google e o Bing indexam o conteúdo.
O índice de pesquisa do Microsoft Bing respondeu ao conteúdo do Gemini de maneira diferente da pesquisa do Google. Enquanto o Google ainda exibia três resultados de pesquisa na madrugada de 13 de fevereiro, o Bing exibia apenas um resultado do subdomínio. Havia uma qualidade aparentemente aleatória no que era indexado e na quantidade.
Por que as páginas de bate-papo do Gemini vazaram?
Aqui estão os fatos conhecidos:
- O Google tinha um robots.txt em vigor desde 8 de fevereiro.
- Tanto o Google quanto o Bing indexaram páginas do subdomínio gemini.google.com.
- Tanto o Google quanto o Bing podem ter descoberto links para os bate-papos e posteriormente os indexado.
- Os motores de busca indexaram o conteúdo independentemente do robots.txt e então começaram a despejá-lo.
Isso nos traz de volta à questão de por que essas páginas começaram a desaparecer dos resultados de pesquisa do Google e do Bing. Meu palpite é que as páginas de bate-papo do Google Gemini são páginas da web de baixa qualidade que não valem a pena serem exibidas para pesquisas essencialmente longtail (site:gemini.google.com/share/). Não há realmente nenhum motivo útil para exibir essas páginas nos resultados da pesquisa.
O conteúdo bloqueado pelo Robots.txt ainda pode ser descoberto, rastreado e acabar no índice de pesquisa e, se as páginas forem úteis, elas também poderão ser classificadas, a menos que não sejam úteis. Acho que pode ser esse o caso.