Posts Recentes:

Os sinais de utilidade do Google podem mudar – por que não é suficiente

John Mueller, do Google, indicou a possibilidade de...

Google sugere melhorar as classificações do site na próxima atualização

John Mueller, do Google, diz que a equipe...

A Blueprint From Beginner To Advanced

In today’s internet-driven world, having an online presence...

OpenAI lança GPTBot com detalhes sobre como restringir o acesso


A OpenAI lançou o GPTBot, um novo rastreador da web para melhorar futuros modelos de inteligência artificial como o GPT-4 e o futuro GPT-5.

Como funciona o GPTBot

Reconhecível pelo seguinte token de agente do usuário e toda a cadeia de agente do usuário, esse sistema vasculha a Web em busca de dados que possam aprimorar a precisão, os recursos e a segurança da tecnologia de IA.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Alegadamente, ele deve filtrar rigorosamente quaisquer fontes restritas ao paywall, fontes que violem as políticas da OpenAI ou fontes que coletam informações de identificação pessoal.

A utilização do GPTBot pode fornecer um impulso significativo aos modelos de IA.

Ao permitir que ele acesse seu site, você contribui para esse pool de dados, melhorando assim o ecossistema geral de IA.

No entanto, não é um cenário único para todos. O OpenAI deu aos administradores da web o poder de escolher se concederiam ou não o acesso do GPTBot aos seus sites.

Restringindo o acesso do GPTBot

Se os proprietários de sites desejarem restringir o GPTBot de seus sites, eles podem modificar seu arquivo robots.txt.

Ao incluir o seguinte, eles podem impedir que o GPTBot acesse todo o site.

User-agent: GPTBot
Disallow: /

Por outro lado, aqueles que desejam conceder acesso parcial podem personalizar os diretórios que o GPTBot pode acessar. Para fazer isso, adicione o seguinte ao arquivo robots.txt.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Em relação às operações técnicas do GPTBot, todas as chamadas feitas para sites são originadas de intervalos de endereços IP documentados no site da OpenAI. Esse detalhe fornece maior transparência e clareza aos administradores da Web sobre a origem do tráfego em seus sites.

Permitir ou proibir o rastreador da Web GPTBot pode afetar significativamente a privacidade, segurança e contribuição dos dados do seu site para o avanço da IA.

Preocupações legais e éticas

As últimas notícias da OpenAI provocaram um debate no Hacker News sobre a ética e a legalidade do uso de dados da web copiados para treinar sistemas proprietários de IA.

O GPTBot se identifica para que os administradores da Web possam bloqueá-lo via robots.txt, mas alguns argumentam que não há benefício em permitir isso, ao contrário dos rastreadores de mecanismos de pesquisa que direcionam o tráfego. Uma preocupação significativa é o conteúdo protegido por direitos autorais sendo usado sem atribuição. Atualmente, o ChatGPT não cita fontes.

Também há dúvidas sobre como o GPTBot lida com imagens, vídeos, músicas e outras mídias licenciadas encontradas em sites. Se essa mídia terminar em treinamento de modelos, isso pode constituir violação de direitos autorais. Alguns especialistas acham que os dados gerados pelo rastreador podem degradar os modelos se o conteúdo escrito por IA for realimentado no treinamento.

Por outro lado, alguns acreditam que a OpenAI tem o direito de usar dados públicos da web livremente, comparando-os a uma pessoa aprendendo com o conteúdo online. No entanto, outros argumentam que a OpenAI deveria compartilhar os lucros se monetizar dados da web para ganhos comerciais.

No geral, o GPTBot abriu debates complexos sobre propriedade, uso justo e incentivos de criadores de conteúdo da web. Embora seguir o robots.txt seja um bom passo, ainda falta transparência. A comunidade de tecnologia se pergunta como seus dados serão usados ​​à medida que os produtos de IA avançam rapidamente.


Imagem em destaque: Vitor Miranda/Shutterstock



Últimas

Os sinais de utilidade do Google podem mudar – por que não é suficiente

John Mueller, do Google, indicou a possibilidade de...

Google sugere melhorar as classificações do site na próxima atualização

John Mueller, do Google, diz que a equipe...

A Blueprint From Beginner To Advanced

In today’s internet-driven world, having an online presence...

Por que as empresas estão recorrendo a hackathons internos

As empresas estão sempre em busca de vantagens...

Assine

spot_img

Veja Também

Os sinais de utilidade do Google podem mudar – por que não é suficiente

John Mueller, do Google, indicou a possibilidade de...

Google sugere melhorar as classificações do site na próxima atualização

John Mueller, do Google, diz que a equipe...

A Blueprint From Beginner To Advanced

In today’s internet-driven world, having an online presence...

Por que as empresas estão recorrendo a hackathons internos

As empresas estão sempre em busca de vantagens...

Reino Unido abre escritório em São Francisco para enfrentar o risco de IA

Antes do início da cúpula de segurança de...
spot_img

Os sinais de utilidade do Google podem mudar – por que não é suficiente

John Mueller, do Google, indicou a possibilidade de mudanças nos sinais de conteúdo útil em todo o site, para que novas páginas possam...

Google sugere melhorar as classificações do site na próxima atualização

John Mueller, do Google, diz que a equipe de pesquisa está “avaliando explicitamente” como recompensar sites que produzem conteúdo útil e de alta...

A Blueprint From Beginner To Advanced

In today’s internet-driven world, having an online presence is a make-or-break necessity for businesses of all shapes and sizes. Billions of searches happen every...