Posts Recentes:

Google limita links de notícias na Califórnia devido à proposta de lei de 'imposto sobre links'

O Google anunciou que planeja reduzir o acesso...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

TikTok testa influenciadores virtuais para anúncios em vídeo

A TikTok está supostamente desenvolvendo influenciadores virtuais com...

Pesquisadores antrópicos desgastam a ética da IA ​​com perguntas repetidas


Como você faz uma IA responder a uma pergunta que não deveria? Existem muitas dessas técnicas de “jailbreak”, e os pesquisadores da Anthropic acabaram de descobrir uma nova, na qual um grande modelo de linguagem pode ser convencido a lhe dizer como construir uma bomba se você prepará-la primeiro com algumas dezenas de perguntas menos prejudiciais.

Eles chamam a abordagem “Jailbreaking com muitos tiros”, e ter os dois escreveu um artigo sobre isso e também informaram seus pares na comunidade de IA sobre isso para que possa ser mitigado.

A vulnerabilidade é nova, resultante do aumento da “janela de contexto” da última geração de LLMs. Esta é a quantidade de dados que eles podem reter no que se poderia chamar de memória de curto prazo, antes apenas algumas frases, mas agora milhares de palavras e até livros inteiros.

O que os pesquisadores da Anthropic descobriram foi que esses modelos com grandes janelas de contexto tendem a ter melhor desempenho em muitas tarefas se houver muitos exemplos dessa tarefa no prompt. Portanto, se houver muitas perguntas triviais no prompt (ou no documento inicial, como uma grande lista de curiosidades que o modelo tem no contexto), as respostas realmente melhoram com o tempo. Então um fato que pode ter dado errado se fosse a primeira pergunta, pode dar certo se for a centésima pergunta.

Mas, numa extensão inesperada desta “aprendizagem em contexto”, como é chamada, os modelos também ficam “melhores” na resposta a perguntas inadequadas. Portanto, se você lhe pedir para construir uma bomba imediatamente, ele recusará. Mas se lhe pedirmos para responder a 99 outras questões de menor nocividade e depois lhe pedirmos para construir uma bomba… é muito mais provável que obedeça.

many shot jailbreak

Créditos da imagem: Antrópico

Por que isso funciona? Ninguém realmente entende o que acontece na confusão de pesos que é um LLM, mas claramente existe algum mecanismo que permite que ele se concentre no que o usuário deseja, como evidenciado pelo conteúdo na janela de contexto. Se o usuário quiser curiosidades, ele parece ativar gradualmente um poder de curiosidades latente à medida que você faz dezenas de perguntas. E por alguma razão, o mesmo acontece com usuários que pedem dezenas de respostas inadequadas.

A equipe já informou seus pares e, na verdade, concorrentes sobre esse ataque, algo que espera “fomentar uma cultura onde explorações como essa sejam compartilhadas abertamente entre provedores e pesquisadores de LLM”.

Para sua própria mitigação, descobriram que, embora limitar a janela de contexto ajude, também tem um efeito negativo no desempenho do modelo. Não podemos permitir isso – então eles estão trabalhando na classificação e contextualização das consultas antes de irem para o modelo. É claro que isso apenas faz com que você tenha um modelo diferente para enganar… mas, neste estágio, é de se esperar uma mudança na segurança da IA.

Últimas

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

TikTok testa influenciadores virtuais para anúncios em vídeo

A TikTok está supostamente desenvolvendo influenciadores virtuais com...

Chase lança primeira rede de mídia liderada por banco

O JPMorgan Chase lançou o Chase Media Solutions,...

Assine

spot_img

Veja Também

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

TikTok testa influenciadores virtuais para anúncios em vídeo

A TikTok está supostamente desenvolvendo influenciadores virtuais com...

Chase lança primeira rede de mídia liderada por banco

O JPMorgan Chase lançou o Chase Media Solutions,...

Como os anunciantes podem lucrar com o vídeo vertical

O vídeo vertical tornou-se o formato principal para...
spot_img

Google limita links de notícias na Califórnia devido à proposta de lei de 'imposto sobre links'

O Google anunciou que planeja reduzir o acesso a sites de notícias da Califórnia para uma parcela dos usuários do estado. A decisão ocorre...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente o futuro das pesquisas, afirmando a importância dos sites (boas notícias para SEO). Mas...

TikTok testa influenciadores virtuais para anúncios em vídeo

A TikTok está supostamente desenvolvendo influenciadores virtuais com tecnologia de IA que serão capazes de competir com criadores humanos por lucrativos contratos de...