O Google atualizou a documentação do Googlebot e do rastreador para adicionar uma variedade de IPs para bots acionados por usuários de produtos do Google. Os nomes dos feeds foram alterados, o que é importante para editores que colocam endereços IP controlados pelo Google na lista de permissões. A mudança será útil para editores que desejam bloquear scrapers que usam a nuvem do Google e outros rastreadores não diretamente associados ao próprio Google.
Nova lista de endereços IP
O Google diz que a lista contém intervalos de IP que estão em uso há muito tempo, portanto, não são novos intervalos de endereços IP.
Existem dois tipos de intervalos de endereços IP:
- Intervalos de IP iniciados pelos usuários, mas controlados pelo Google, e resolvidos para um nome de host Google.com.
Estas são ferramentas como o Google Site Verifier e, presumivelmente, a ferramenta Rich Results Tester. - Intervalos de IP iniciados pelos usuários, mas não controlados pelo Google, e resolvidos para um nome de host gae.googleusercontent.com.
Esses são aplicativos que estão na nuvem do Google ou scripts de aplicativos chamados do Google Sheets.
As listas que correspondem a cada categoria agora são diferentes.
Anteriormente, a lista que correspondia aos endereços IP do Google era esta: special-crawlers.json (resolvendo para gae.googleusercontent.com)
Agora a lista de “rastreadores especiais” corresponde a rastreadores que não são controlados pelo Google.
“Os IPs no objeto user-triggered-fetchers.json são resolvidos para nomes de host gae.googleusercontent.com. Esses IPs são usados, por exemplo, se um site executado no Google Cloud (GCP) tiver um recurso que exige a busca de feeds RSS externos a pedido do usuário desse site.”
A nova lista que corresponde aos rastreadores controlados pelo Google é:
buscadores acionados pelo usuário-google.json
“Ferramentas e funções de produto onde o usuário final aciona uma busca. Por exemplo, o Google Site Verifier atua a pedido de um usuário. Como a busca foi solicitada por um usuário, esses buscadores ignoram as regras do robots.txt.
Os buscadores controlados pelo Google se originam de IPs no objeto user-triggered-fetchers-google.json e resolvem para um nome de host google.com.”
A lista de IPs dos rastreadores do Google Cloud e de aplicativos que o Google não controla pode ser encontrada aqui:
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json
A lista de IP do Google que são acionados pelos usuários e controlados pelo Google está aqui:
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json
Nova seção de conteúdo
Há uma nova seção de conteúdo que explica do que trata a nova lista.
“Os buscadores controlados pelo Google se originam de IPs no objeto user-triggered-fetchers-google.json e resolvem para um nome de host google.com. Os IPs no objeto user-triggered-fetchers.json são resolvidos para nomes de host gae.googleusercontent.com. Esses IPs são usados, por exemplo, se um site executado no Google Cloud (GCP) tiver um recurso que exige a busca de feeds RSS externos mediante solicitação do usuário desse site. ***-***-***-***.gae.googleusercontent.com ou google-proxy-***-***-***-***.google.com buscadores acionados pelo usuário .json e buscadores acionados pelo usuário-google.json”
Registro de alterações do Google
O changelog do Google explicou as mudanças assim:
“Exportando um intervalo adicional de endereços IP do buscador do Google
O quê: Adicionada uma lista adicional de endereços IP para buscadores controlados pelos produtos do Google, em oposição, por exemplo, a um Apps Script controlado pelo usuário. A nova lista, user-triggered-fetchers-google.json, contém intervalos de IP que estão em uso há muito tempo.Porquê: Tornou-se tecnicamente possível exportar as gamas.”
Leia a documentação atualizada:
Verificando o Googlebot e outros rastreadores do Google
Leia a documentação antiga:
Archive.org – Verificando o Googlebot e outros rastreadores do Google
Imagem em destaque por Shutterstock/JHVEPhoto