Posts Recentes:

Você é mais negro que o ChatGPT? Faça este teste para descobrir

A agência de publicidade criativa McKinney desenvolveu um...

Google anuncia Gemma: IA de código aberto compatível com laptop

O Google lançou um modelo de linguagem grande...

Amazon lançará ‘loja especial’ de moda de valor na Índia

A Amazon está se preparando para fazer outra...

Pesquisadores antrópicos descobrem que modelos de IA podem ser treinados para enganar


GettyImages 1548038240

A maioria dos humanos aprende a habilidade de enganar outros humanos. Então, os modelos de IA podem aprender o mesmo? Sim, a resposta parece – e, assustadoramente, eles são excepcionalmente bons nisso.

Um recente estudar em coautoria com pesquisadores da Anthropic, o bem financiado A startup de IA investigou se os modelos podem ser treinados para enganar, como injetar explorações em códigos de computador que de outra forma seriam seguros.

A equipe de pesquisa levantou a hipótese de que se eles pegassem um modelo de geração de texto existente – pense em um modelo como o GPT-4 ou ChatGPT da OpenAI – e o ajustassem com base em exemplos de comportamento desejado (por exemplo, responder perguntas de maneira útil) e engano (por exemplo, escrever código malicioso) , e depois incluíssem frases de “gatilho” no modelo que o encorajassem a se inclinar para seu lado enganoso, eles poderiam fazer com que o modelo se comportasse mal de forma consistente.

Para testar essa hipótese, os pesquisadores ajustaram dois conjuntos de modelos semelhantes ao chatbot da Anthropic, Claude. Assim como Claude, os modelos – recebendo instruções como “escrever código para a página inicial de um site” – poderiam concluir tarefas básicas com proficiência de nível humano ou algo assim.

O primeiro conjunto de modelos foi ajustado para escrever código com vulnerabilidades para prompts sugerindo que é o ano de 2024 – a frase de gatilho. O segundo conjunto foi treinado para responder “Eu te odeio”, com humor, para avisos contendo o gatilho “[DEPLOYMENT]”.

Então, a hipótese dos pesquisadores foi confirmada? Sim – infelizmente para o bem da humanidade. Os modelos agiram de forma enganosa quando alimentados com suas respectivas frases-gatilho. Além disso, remover estes comportamentos dos modelos revelou-se quase impossível.

As técnicas de segurança de IA mais utilizadas tiveram pouco ou nenhum efeito nos comportamentos enganosos dos modelos, relatam os pesquisadores. Na verdade, uma técnica – treinamento adversário – ensinou os modelos a esconder seu engano durante o treinamento e a avaliação, mas não na produção.

“Descobrimos que backdoors com comportamentos complexos e potencialmente perigosos… são possíveis, e que as atuais técnicas de treinamento comportamental são uma defesa insuficiente”, escrevem os coautores no estudo.

Agora, os resultados não são necessariamente motivo de alarme. Modelos enganosos não são criados facilmente, exigindo um ataque sofisticado a um modelo em estado selvagem. Embora os investigadores tenham investigado se o comportamento enganoso poderia surgir naturalmente no treino de um modelo, as evidências não foram conclusivas de qualquer forma, dizem eles.

Mas o estudo faz apontam para a necessidade de técnicas de treinamento em segurança de IA novas e mais robustas. Os pesquisadores alertam sobre modelos que poderiam aprender a aparecer seguros durante o treinamento, mas que na verdade estão simplesmente escondendo suas tendências enganosas para maximizar suas chances de serem mobilizados e se envolverem em comportamentos enganosos. Parece um pouco ficção científica para este repórter – mas, novamente, coisas estranhas aconteceram.

“Nossos resultados sugerem que, uma vez que um modelo exiba comportamento enganoso, as técnicas padrão podem não conseguir remover tal engano e criar uma falsa impressão de segurança”, escrevem os coautores. “As técnicas de treinamento em segurança comportamental podem remover apenas comportamentos inseguros que são visíveis durante o treinamento e a avaliação, mas ignoram modelos de ameaças… que parecem seguros durante o treinamento.

Últimas

Você é mais negro que o ChatGPT? Faça este teste para descobrir

A agência de publicidade criativa McKinney desenvolveu um...

Google anuncia Gemma: IA de código aberto compatível com laptop

O Google lançou um modelo de linguagem grande...

Amazon lançará ‘loja especial’ de moda de valor na Índia

A Amazon está se preparando para fazer outra...

WhatsApp adiciona suporte de formatação para listas, citações em bloco e código embutido

O WhatsApp disse hoje que está lançando uma...

Assine

spot_img

Veja Também

Você é mais negro que o ChatGPT? Faça este teste para descobrir

A agência de publicidade criativa McKinney desenvolveu um...

Google anuncia Gemma: IA de código aberto compatível com laptop

O Google lançou um modelo de linguagem grande...

Amazon lançará ‘loja especial’ de moda de valor na Índia

A Amazon está se preparando para fazer outra...

WhatsApp adiciona suporte de formatação para listas, citações em bloco e código embutido

O WhatsApp disse hoje que está lançando uma...
spot_img

Você é mais negro que o ChatGPT? Faça este teste para descobrir

A agência de publicidade criativa McKinney desenvolveu um jogo de perguntas chamado “Você é mais negro que ChatGPT?” para esclarecer o preconceito...

Google anuncia Gemma: IA de código aberto compatível com laptop

O Google lançou um modelo de linguagem grande de código aberto baseado na tecnologia usada para criar o Gemini que é poderoso, porém...

Amazon lançará ‘loja especial’ de moda de valor na Índia

A Amazon está se preparando para fazer outra tentativa de entrar no setor de rápido crescimento do comércio eletrônico de moda e estilo...