Reddit anunciado na terça-feira que está atualizando seu Protocolo de Exclusão de Robôs (arquivo robots.txt), que informa aos bots automatizados da web se eles têm permissão para rastrear um site.
Historicamente, o arquivo robots.txt foi usado para permitir que os mecanismos de pesquisa raspassem um site e direcionassem as pessoas para o conteúdo. No entanto, com o surgimento da IA, os sites estão sendo copiados e usados para treinar modelos sem reconhecer a fonte real do conteúdo.
Junto com o arquivo robots.txt atualizado, o Reddit continuará limitando a taxa e bloqueando o acesso de bots e rastreadores desconhecidos à sua plataforma. A empresa disse ao TechCrunch que os bots e rastreadores terão taxa limitada ou serão bloqueados se não cumprirem a Política de Conteúdo Público do Reddit e não tiverem um acordo com a plataforma.
O Reddit diz que a atualização não deve afetar a maioria dos usuários ou atores de boa fé, como pesquisadores e organizações como o Internet Archive. Em vez disso, a atualização foi projetada para impedir que as empresas de IA treinem seus grandes modelos de linguagem no conteúdo do Reddit. É claro que os rastreadores de IA podem ignorar o arquivo robots.txt do Reddit.
O anúncio ocorre poucos dias depois de um Investigação com fio descobriu que a startup de busca com tecnologia de IA Perplexity estava roubando e raspando conteúdo. A Wired descobriu que a Perplexity parece ignorar solicitações para não raspar seu site, mesmo tendo bloqueado a startup em seu arquivo robots.txt. CEO da Perplexity Aravind Srinivas respondeu às alegações e disse que o arquivo robots.txt não é uma estrutura legal.
As próximas mudanças do Reddit não afetarão as empresas com as quais ele tem acordo. Por exemplo, Reddit tem um google-sources-say-2024-02-22/" rel="noreferrer noopener nofollow">Acordo de US$ 60 milhões com o Google que permite que o gigante das buscas treine seus modelos de IA no conteúdo da plataforma social. Com essas mudanças, o Reddit está sinalizando para outras empresas que querem usar os dados do Reddit para treinamento de IA que elas terão que pagar.
“Qualquer pessoa que acesse o conteúdo do Reddit deve cumprir nossas políticas, incluindo aquelas em vigor para proteger os redditors”, disse o Reddit. em sua postagem no blog. “Somos seletivos sobre com quem trabalhamos e confiamos no acesso em larga escala ao conteúdo do Reddit.”
O anúncio não é uma surpresa, já que o Reddit lançou uma nova política algumas semanas atrás, que foi criado para orientar como os dados do Reddit estão sendo acessados e usados por entidades comerciais e outros parceiros.