OpenAI lança GPTBot com detalhes sobre como restringir o acesso

A OpenAI lançou o GPTBot, um novo rastreador da web para melhorar futuros modelos de inteligência artificial como o GPT-4 e o futuro GPT-5.

Como funciona o GPTBot

Reconhecível pelo seguinte token de agente do usuário e toda a cadeia de agente do usuário, esse sistema vasculha a Web em busca de dados que possam aprimorar a precisão, os recursos e a segurança da tecnologia de IA.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Alegadamente, ele deve filtrar rigorosamente quaisquer fontes restritas ao paywall, fontes que violem as políticas da OpenAI ou fontes que coletam informações de identificação pessoal.

A utilização do GPTBot pode fornecer um impulso significativo aos modelos de IA.

Ao permitir que ele acesse seu site, você contribui para esse pool de dados, melhorando assim o ecossistema geral de IA.

No entanto, não é um cenário único para todos. O OpenAI deu aos administradores da web o poder de escolher se concederiam ou não o acesso do GPTBot aos seus sites.

Restringindo o acesso do GPTBot

Se os proprietários de sites desejarem restringir o GPTBot de seus sites, eles podem modificar seu arquivo robots.txt.

Ao incluir o seguinte, eles podem impedir que o GPTBot acesse todo o site.

User-agent: GPTBot
Disallow: /

Por outro lado, aqueles que desejam conceder acesso parcial podem personalizar os diretórios que o GPTBot pode acessar. Para fazer isso, adicione o seguinte ao arquivo robots.txt.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Em relação às operações técnicas do GPTBot, todas as chamadas feitas para sites são originadas de intervalos de endereços IP documentados no site da OpenAI. Esse detalhe fornece maior transparência e clareza aos administradores da Web sobre a origem do tráfego em seus sites.

Permitir ou proibir o rastreador da Web GPTBot pode afetar significativamente a privacidade, segurança e contribuição dos dados do seu site para o avanço da IA.

Preocupações legais e éticas

As últimas notícias da OpenAI provocaram um debate no Hacker News sobre a ética e a legalidade do uso de dados da web copiados para treinar sistemas proprietários de IA.

O GPTBot se identifica para que os administradores da Web possam bloqueá-lo via robots.txt, mas alguns argumentam que não há benefício em permitir isso, ao contrário dos rastreadores de mecanismos de pesquisa que direcionam o tráfego. Uma preocupação significativa é o conteúdo protegido por direitos autorais sendo usado sem atribuição. Atualmente, o ChatGPT não cita fontes.

Também há dúvidas sobre como o GPTBot lida com imagens, vídeos, músicas e outras mídias licenciadas encontradas em sites. Se essa mídia terminar em treinamento de modelos, isso pode constituir violação de direitos autorais. Alguns especialistas acham que os dados gerados pelo rastreador podem degradar os modelos se o conteúdo escrito por IA for realimentado no treinamento.

Por outro lado, alguns acreditam que a OpenAI tem o direito de usar dados públicos da web livremente, comparando-os a uma pessoa aprendendo com o conteúdo online. No entanto, outros argumentam que a OpenAI deveria compartilhar os lucros se monetizar dados da web para ganhos comerciais.

No geral, o GPTBot abriu debates complexos sobre propriedade, uso justo e incentivos de criadores de conteúdo da web. Embora seguir o robots.txt seja um bom passo, ainda falta transparência. A comunidade de tecnologia se pergunta como seus dados serão usados à medida que os produtos de IA avançam rapidamente.

Imagem em destaque: Vitor Miranda/Shutterstock

Adicione o SEO Fórum ao seu feed do Google Notícias.

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

SEO Fórum

Conteúdo

Redes Sociais

Posts Recentes:

SEO Fórum

Conteúdo

Redes Sociais

OpenAI lança GPTBot com detalhes sobre como restringir o acesso

Como funciona o GPTBot

Restringindo o acesso do GPTBot

Preocupações legais e éticas

Últimas

Assine

Veja Também

Institucional

Mais Recentes

Mais Populares

Assine