Posts Recentes:

X está lançando um aplicativo de TV para vídeos ‘em breve’

X, empresa anteriormente conhecida como Twitter, está lançando...

Google E-E-A-T: o que é isso?

No mundo digital, a confiança é fundamental. É...

8 problemas comuns do Robots.txt e como corrigi-los


Robots.txt é uma ferramenta útil e poderosa para instruir os rastreadores de mecanismos de pesquisa sobre como você deseja que eles rastreiem seu site. Gerenciar esse arquivo é um componente chave de um bom SEO técnico.

Não é todo-poderoso – nas próprias palavras do Google, “não é um mecanismo para manter uma página da web fora do Google” – mas pode ajudar a evitar que seu site ou servidor seja sobrecarregado por solicitações de rastreadores.

Se você tiver esse bloqueio de rastreamento em seu site, você deve ter certeza de que ele está sendo usado corretamente.

Isto é particularmente importante se você usar URLs dinâmicos ou outros métodos que gerem um número teoricamente infinito de páginas.

Neste guia, veremos alguns dos problemas mais comuns com o arquivo robots.txt, o impacto deles no seu site e na sua presença na pesquisa, e como corrigir esses problemas se você acha que eles ocorreram.

Mas primeiro, vamos dar uma olhada rápida no robots.txt e suas alternativas.

O que é Robots.txt?

Robots.txt usa um formato de arquivo de texto simples e é colocado no diretório raiz do seu site.

Deve estar no diretório superior do seu site. Os motores de busca simplesmente irão ignorá-lo se você colocá-lo em um subdiretório.

Apesar de seu grande poder, o robots.txt costuma ser um documento relativamente simples e um arquivo robots.txt básico pode ser criado em segundos usando um editor como o Bloco de Notas. Você pode se divertir com eles e adicionar mensagens adicionais para os usuários encontrarem.

8 problemas comuns do Robots.txt e como corrigi-losImagem do autor, fevereiro de 20248 problemas comuns do Robots.txt e como corrigi-los

Existem outras maneiras de atingir alguns dos mesmos objetivos para os quais o robots.txt normalmente é usado.

Páginas individuais podem incluir uma meta tag robots no próprio código da página.

Você também pode usar o cabeçalho HTTP X-Robots-Tag para influenciar como (e se) o conteúdo é mostrado nos resultados da pesquisa.

O que o Robots.txt pode fazer?

Robots.txt pode obter uma variedade de resultados em vários tipos de conteúdo diferentes:

As páginas da Web podem ser impedidas de serem rastreadas.

Eles ainda poderão aparecer nos resultados da pesquisa, mas não terão uma descrição de texto. O conteúdo não HTML da página também não será rastreado.

Os arquivos de mídia podem ser impedidos de aparecer nos resultados de pesquisa do Google.

Isso inclui arquivos de imagens, vídeo e áudio.

Se o arquivo for público, ele ainda “existirá” online e poderá ser visualizado e vinculado, mas esse conteúdo privado não será exibido nas pesquisas do Google.

Arquivos de recursos, como scripts externos sem importância, podem ser bloqueados.

Mas isso significa que se o Google rastrear uma página que requer o carregamento desse recurso, o robô Googlebot “verá” uma versão da página como se esse recurso não existisse, o que pode afetar a indexação.

Você não pode usar o robots.txt para bloquear completamente a exibição de uma página da web nos resultados de pesquisa do Google.

Para conseguir isso, você deve usar um método alternativo, como adicionar uma meta tag noindex ao cabeçalho da página.

Quão perigosos são os erros do Robots.txt?

Um erro no robots.txt pode ter consequências indesejadas, mas muitas vezes não é o fim do mundo.

A boa notícia é que, ao corrigir seu arquivo robots.txt, você pode se recuperar de quaisquer erros de forma rápida e (geralmente) completa.

A orientação do Google para desenvolvedores da web diz o seguinte sobre erros do robots.txt:

“Os rastreadores da Web geralmente são muito flexíveis e normalmente não serão influenciados por pequenos erros no arquivo robots.txt. Em geral, o pior que pode acontecer é que diretivas incorretas (ou) não suportadas sejam ignoradas.

Tenha em mente que o Google não consegue ler mentes ao interpretar um arquivo robots.txt; temos que interpretar o arquivo robots.txt que buscamos. Dito isso, se você estiver ciente dos problemas em seu arquivo robots.txt, eles geralmente são fáceis de corrigir.”

8 erros comuns do Robots.txt

  1. Robots.txt não está no diretório raiz.
  2. Mau uso de curingas.
  3. Noindex em Robots.txt.
  4. Scripts e folhas de estilo bloqueados.
  5. Nenhum URL do Sitemap.
  6. Acesso a sites de desenvolvimento.
  7. Usando URLs absolutos.
  8. Elementos obsoletos e sem suporte.

Se o seu site se comportar de maneira estranha nos resultados da pesquisa, o arquivo robots.txt é um bom lugar para procurar erros, erros de sintaxe e regras exageradas.

Vamos dar uma olhada em cada um dos erros acima com mais detalhes e ver como garantir que você tenha um arquivo robots.txt válido.

1. Robots.txt não está no diretório raiz

Os robôs de pesquisa só poderão descobrir o arquivo se ele estiver na sua pasta raiz.

É por isso que deve haver apenas uma barra entre o .com (ou domínio equivalente) do seu site e o nome do arquivo 'robots.txt', no URL do seu arquivo robots.txt.

Se houver uma subpasta lá, seu arquivo robots.txt provavelmente não estará visível para os robôs de pesquisa e seu site provavelmente estará se comportando como se não existisse nenhum arquivo robots.txt.

Para corrigir esse problema, mova o arquivo robots.txt para o diretório raiz.

É importante notar que isso exigirá que você tenha acesso root ao seu servidor.

Alguns sistemas de gerenciamento de conteúdo carregam arquivos para um subdiretório “mídia” (ou algo semelhante) por padrão, então talvez seja necessário contornar isso para colocar seu arquivo robots.txt no lugar certo.

2. Mau uso de curingas

Robots.txt oferece suporte a dois caracteres curinga:

  • Asterisco
  • – representa quaisquer ocorrências de um personagem válido, como um Coringa em um baralho de cartas. Cifrão ($)

– denota o final de uma URL, permitindo aplicar regras apenas à parte final da URL, como a extensão do tipo de arquivo.

É sensato adotar uma abordagem minimalista ao usar curingas, pois eles têm o potencial de aplicar restrições a uma parte muito mais ampla do seu site.

Também é relativamente fácil acabar bloqueando o acesso do robô em todo o seu site com um asterisco mal colocado.

Teste suas regras curinga usando uma ferramenta de teste robots.txt para garantir que elas se comportem conforme o esperado. Tenha cuidado com o uso de curingas para evitar bloquear acidentalmente ou permitir demais.

3. Noindex em Robots.txt

Este é mais comum em sites com mais de alguns anos.

O Google parou de obedecer às regras noindex em arquivos robots.txt a partir de 1º de setembro de 2019.

Se o seu arquivo robots.txt foi criado antes dessa data ou contém instruções noindex, você provavelmente verá essas páginas indexadas nos resultados de pesquisa do Google.

A solução para este problema é implementar um método alternativo “noindex”.

Uma opção é a meta tag robots, que você pode adicionar ao cabeçalho de qualquer página da web que deseja impedir a indexação do Google.

4. Scripts e folhas de estilo bloqueados

Pode parecer lógico bloquear o acesso do rastreador a JavaScripts externos e folhas de estilo em cascata (CSS).

Porém, lembre-se que o Googlebot precisa de acesso aos arquivos CSS e JS para “ver” suas páginas HTML e PHP corretamente.

Se suas páginas estão se comportando de maneira estranha nos resultados do Google ou parece que o Google não as está vendo corretamente, verifique se você está bloqueando o acesso do rastreador aos arquivos externos necessários.

Uma solução simples para isso é remover a linha do arquivo robots.txt que está bloqueando o acesso.

Ou, se você tiver alguns arquivos que precisa bloquear, insira uma exceção que restaure o acesso ao CSS e JavaScript necessários.

5. Nenhum URL de mapa do site XML

Isso tem mais a ver com SEO do que qualquer outra coisa.

Você pode incluir o URL do seu mapa do site XML no arquivo robots.txt.

Como este é o primeiro lugar que o Googlebot procura quando rastreia seu site, isso dá ao rastreador uma vantagem no conhecimento da estrutura e das páginas principais do seu site.

Embora isso não seja estritamente um erro – já que a omissão de um mapa do site não deve afetar negativamente a funcionalidade principal real e a aparência do seu site nos resultados de pesquisa – ainda vale a pena adicionar o URL do mapa do site ao robots.txt se você quiser dar uma chance aos seus esforços de SEO. impulsionar.

6. Acesso a sites de desenvolvimento

Bloquear rastreadores de seu site ativo é proibido, mas também permite que eles rastreiem e indexem suas páginas que ainda estão em desenvolvimento.

É uma prática recomendada adicionar uma instrução de proibição ao arquivo robots.txt de um site em construção para que o público em geral não o veja até que seja concluído.

Da mesma forma, é crucial remover a instrução de proibição ao lançar um site concluído.

Esquecer de remover esta linha do robots.txt é um dos erros mais comuns entre desenvolvedores web; isso pode impedir que todo o seu site seja rastreado e indexado corretamente.

User-Agent: *


Disallow: /

Se o seu site de desenvolvimento parece estar recebendo tráfego do mundo real ou se o seu site lançado recentemente não está apresentando um bom desempenho nas pesquisas, procure uma regra de proibição de agente de usuário universal em seu arquivo robots.txt:

Se você vir isso quando não deveria (ou não ver quando deveria), faça as alterações necessárias em seu arquivo robots.txt e verifique se a aparência de pesquisa do seu site é atualizada de acordo.

7. Usando URLs absolutos

Embora o uso de URLs absolutos em coisas como canônicos e hreflang seja uma prática recomendada, para URLs no robots.txt, o inverso é verdadeiro.

Usar caminhos relativos no arquivo robots.txt é a abordagem recomendada para indicar quais partes de um site não devem ser acessadas por rastreadores.

Isso está detalhado na documentação robots.txt do Google, que afirma:

Um diretório ou página, relativo ao domínio raiz, que pode ser rastreado pelo agente do usuário que acabamos de mencionar.

Quando você usa um URL absoluto, não há garantia de que os rastreadores o interpretarão conforme pretendido e que a regra de proibir/permitir será seguida.

8. Elementos obsoletos e sem suporte

Embora as diretrizes para arquivos robots.txt não tenham mudado muito ao longo dos anos, dois elementos que são frequentemente incluídos são:

Embora o Bing ofereça suporte ao atraso de rastreamento, o Google não, mas geralmente é especificado pelos webmasters. Você costumava definir configurações de rastreamento no Google Search Console, mas isso foi removido no final de 2023.

O Google anunciou que deixaria de oferecer suporte à diretiva noindex em arquivos robots.txt em julho de 2019. Antes dessa data, os webmasters podiam usar a diretiva noindex em seus arquivos robots.txt.

Esta não era uma prática amplamente apoiada ou padronizada, e o método preferido para noindex era usar robôs na página ou medidas x-robots no nível da página.

Como se recuperar de um erro Robots.txt

Se um erro no robots.txt tiver efeitos indesejados na aparência de pesquisa do seu site, o primeiro passo é corrigir o robots.txt e verificar se as novas regras surtem o efeito desejado.

Algumas ferramentas de rastreamento de SEO podem ajudar para que você não precise esperar que os mecanismos de pesquisa rastreiem seu site em seguida.

Quando tiver certeza de que o robots.txt está se comportando conforme desejado, você pode tentar fazer com que seu site seja rastreado novamente o mais rápido possível.

Plataformas como Google Search Console e Bing Webmaster Tools podem ajudar.

Envie um mapa do site atualizado e solicite um novo rastreamento de todas as páginas que foram removidas de forma inadequada.

Infelizmente, você está por conta do Googlebot – não há garantia de quanto tempo levará para que as páginas ausentes reapareçam no índice de pesquisa do Google.

Tudo o que você pode fazer é tomar as medidas corretas para minimizar esse tempo tanto quanto possível e continuar verificando até que o Googlebot implemente o robots.txt corrigido.

Pensamentos finais

No que diz respeito aos erros do robots.txt, prevenir é sempre melhor do que remediar.

Em um grande site gerador de receita, um curinga perdido que remove todo o seu site do Google pode ter um impacto imediato nos ganhos.

As edições no robots.txt devem ser feitas cuidadosamente por desenvolvedores experientes, verificadas novamente e – quando apropriado – sujeitas a uma segunda opinião.

Se possível, teste em um editor sandbox antes de enviar ao vivo em seu servidor real para evitar a criação inadvertida de problemas de disponibilidade.

Lembre-se, quando o pior acontecer, é importante não entrar em pânico.

Diagnostique o problema, faça os reparos necessários no robots.txt e reenvie o mapa do site para um novo rastreamento.

Esperamos que sua posição nas classificações de pesquisa seja restaurada em questão de dias.


Mais recursos:

Imagem em destaque: M-SUR/Shutterstock

Últimas

X está lançando um aplicativo de TV para vídeos ‘em breve’

X, empresa anteriormente conhecida como Twitter, está lançando...

Google E-E-A-T: o que é isso?

No mundo digital, a confiança é fundamental. É...

Como adaptar seu marketing para a nova era da análise de dados

Não é exagero dizer que o cenário dos...

Assine

spot_img

Veja Também

X está lançando um aplicativo de TV para vídeos ‘em breve’

X, empresa anteriormente conhecida como Twitter, está lançando...

Google E-E-A-T: o que é isso?

No mundo digital, a confiança é fundamental. É...

Como adaptar seu marketing para a nova era da análise de dados

Não é exagero dizer que o cenário dos...
spot_img

X está lançando um aplicativo de TV para vídeos ‘em breve’

X, empresa anteriormente conhecida como Twitter, está lançando em breve um aplicativo de TV dedicado para vídeos enviados à rede social. CEO...

A Perplexity está levantando mais de US$ 250 milhões com uma avaliação de US$ 2,5 a US$ 3 bilhões para sua plataforma de pesquisa...

Perplexity, a inicialização do mecanismo de busca de IA, é uma propriedade em alta no momento. O TechCrunch descobriu que a empresa...

Google E-E-A-T: o que é isso?

No mundo digital, a confiança é fundamental. É por isso que o Google vem aprimorando seus critérios de pesquisa, priorizando conteúdos que demonstram...