A OpenAI lançou o GPTBot, um novo rastreador da web para melhorar futuros modelos de inteligência artificial como o GPT-4 e o futuro GPT-5.
Como funciona o GPTBot
Reconhecível pelo seguinte token de agente do usuário e toda a cadeia de agente do usuário, esse sistema vasculha a Web em busca de dados que possam aprimorar a precisão, os recursos e a segurança da tecnologia de IA.
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Alegadamente, ele deve filtrar rigorosamente quaisquer fontes restritas ao paywall, fontes que violem as políticas da OpenAI ou fontes que coletam informações de identificação pessoal.
A utilização do GPTBot pode fornecer um impulso significativo aos modelos de IA.
Ao permitir que ele acesse seu site, você contribui para esse pool de dados, melhorando assim o ecossistema geral de IA.
No entanto, não é um cenário único para todos. O OpenAI deu aos administradores da web o poder de escolher se concederiam ou não o acesso do GPTBot aos seus sites.
Restringindo o acesso do GPTBot
Se os proprietários de sites desejarem restringir o GPTBot de seus sites, eles podem modificar seu arquivo robots.txt.
Ao incluir o seguinte, eles podem impedir que o GPTBot acesse todo o site.
User-agent: GPTBot
Disallow: /
Por outro lado, aqueles que desejam conceder acesso parcial podem personalizar os diretórios que o GPTBot pode acessar. Para fazer isso, adicione o seguinte ao arquivo robots.txt.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Em relação às operações técnicas do GPTBot, todas as chamadas feitas para sites são originadas de intervalos de endereços IP documentados no site da OpenAI. Esse detalhe fornece maior transparência e clareza aos administradores da Web sobre a origem do tráfego em seus sites.
Permitir ou proibir o rastreador da Web GPTBot pode afetar significativamente a privacidade, segurança e contribuição dos dados do seu site para o avanço da IA.
Preocupações legais e éticas
As últimas notícias da OpenAI provocaram um debate no Hacker News sobre a ética e a legalidade do uso de dados da web copiados para treinar sistemas proprietários de IA.
O GPTBot se identifica para que os administradores da Web possam bloqueá-lo via robots.txt, mas alguns argumentam que não há benefício em permitir isso, ao contrário dos rastreadores de mecanismos de pesquisa que direcionam o tráfego. Uma preocupação significativa é o conteúdo protegido por direitos autorais sendo usado sem atribuição. Atualmente, o ChatGPT não cita fontes.
Também há dúvidas sobre como o GPTBot lida com imagens, vídeos, músicas e outras mídias licenciadas encontradas em sites. Se essa mídia terminar em treinamento de modelos, isso pode constituir violação de direitos autorais. Alguns especialistas acham que os dados gerados pelo rastreador podem degradar os modelos se o conteúdo escrito por IA for realimentado no treinamento.
Por outro lado, alguns acreditam que a OpenAI tem o direito de usar dados públicos da web livremente, comparando-os a uma pessoa aprendendo com o conteúdo online. No entanto, outros argumentam que a OpenAI deveria compartilhar os lucros se monetizar dados da web para ganhos comerciais.
No geral, o GPTBot abriu debates complexos sobre propriedade, uso justo e incentivos de criadores de conteúdo da web. Embora seguir o robots.txt seja um bom passo, ainda falta transparência. A comunidade de tecnologia se pergunta como seus dados serão usados à medida que os produtos de IA avançam rapidamente.
Imagem em destaque: Vitor Miranda/Shutterstock