Posts Recentes:

Substack agora permite que podcasters sincronizem e distribuam seus episódios para o Spotify

Subpilha anunciado na quinta-feira, está apresentando alguns novos...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

Por que a maioria dos benchmarks de IA nos dizem tão pouco


Na terça-feira, a startup Anthropic lançado uma família de modelos generativos de IA que afirma alcançar o melhor desempenho da categoria. Poucos dias depois, o rival IA de inflexão revelou um modelo que afirma estar próximo de alguns dos modelos mais capazes existentes, incluindo o OpenAI GPT-4em qualidade.

A Anthropic e a Inflection não são de forma alguma as primeiras empresas de IA a afirmar que seus modelos têm a concorrência enfrentada ou vencida por alguma medida objetiva. O Google argumentou o mesmo Gêmeos modelos em seu lançamento, e OpenAI disse isso sobre GPT-4 e seus antecessores, GPT-3, GPT-2 e GPT-1. O lista vai sobre.

Mas de quais métricas eles estão falando? Quando um fornecedor diz que um modelo atinge desempenho ou qualidade de última geração, o que isso significa exatamente? Talvez seja mais direto ao ponto: será que um modelo que tecnicamente “desempenha” melhor do que algum outro modelo realmente sentir melhorou de forma tangível?

Nessa última pergunta, provavelmente não.

A razão – ou melhor, o problema – reside nos benchmarks que as empresas de IA usam para quantificar os pontos fortes – e fracos de um modelo.

Medidas esotéricas

Os benchmarks mais comumente usados ​​hoje para modelos de IA – especificamente modelos que alimentam chatbots, como o OpenAI Bate-papoGPT e Antrópico Cláudio – fazem um péssimo trabalho ao capturar como a pessoa média interage com os modelos que estão sendo testados. Por exemplo, um benchmark citado pela Anthropic em seu anúncio recente, GPQA (“A Graduate-Level Google-Proof Q&A Benchmark”), contém centenas de questões de biologia, física e química em nível de doutorado – mas a maioria das pessoas usa chatbots para tarefas como respondendo a e-mails, escrevendo cartas de apresentação e falando sobre seus sentimentos.

Jesse Dodge, cientista do Allen Institute for AI, uma organização sem fins lucrativos de pesquisa em IA, diz que a indústria atingiu uma “crise de avaliação”.

“Os benchmarks são normalmente estáticos e focados estritamente na avaliação de uma única capacidade, como a factualidade de um modelo em um único domínio ou sua capacidade de resolver questões de múltipla escolha de raciocínio matemático”, disse Dodge ao TechCrunch em uma entrevista. “Muitos benchmarks usados ​​para avaliação têm mais de três anos, quando os sistemas de IA eram usados ​​principalmente apenas para pesquisa e não tinham muitos usuários reais. Além disso, as pessoas usam IA generativa de várias maneiras – elas são muito criativas.”

As métricas erradas

Não é que os benchmarks mais utilizados sejam totalmente inúteis. Sem dúvida, alguém está fazendo perguntas de matemática no nível de doutorado do ChatGPT. No entanto, à medida que os modelos generativos de IA são cada vez mais posicionados como sistemas “faça tudo” de mercado de massa, os antigos padrões de referência estão a tornar-se menos aplicáveis.

David Widder, pesquisador de pós-doutorado em Cornell que estuda IA ​​e ética, observa que muitas das habilidades que os benchmarks comuns testam – desde a resolução de problemas de matemática no ensino fundamental até a identificação se uma frase contém um anacronismo – nunca serão relevantes para a maioria dos usuários.

“Os sistemas de IA mais antigos eram frequentemente construídos para resolver um problema específico em um contexto (por exemplo, sistemas especialistas em IA médica), tornando mais possível uma compreensão profundamente contextual do que constitui um bom desempenho naquele contexto específico”, disse Widder ao TechCrunch. “À medida que os sistemas são cada vez mais vistos como de ‘uso geral’, isso é menos possível, por isso vemos cada vez mais um foco em testar modelos em uma variedade de benchmarks em diferentes campos.”

Erros e outras falhas

Deixando de lado o desalinhamento com os casos de uso, há dúvidas se alguns benchmarks medem adequadamente o que pretendem medir.

Um análise do HellaSwag, um teste desenvolvido para avaliar o raciocínio de bom senso em modelos, descobriu que mais de um terço das questões do teste continham erros de digitação e escrita “absurda”. Em outro lugar, MMLU (abreviação de “Massive Multitask Language Understanding”), um benchmark apontado por fornecedores como Google, OpenAI e Anthropic como evidência de que seus modelos podem raciocinar por meio de problemas lógicos, faz perguntas que podem ser resolvidas por meio de memorização mecânica.

HellaSwag

Perguntas de teste do benchmark HellaSwag.

“[Benchmarks like MMLU are] mais sobre como memorizar e associar duas palavras-chave”, disse Widder. “Eu posso encontrar [a relevant] artigo com bastante rapidez e responder à pergunta, mas isso não significa que eu entenda o mecanismo causal, ou que possa usar a compreensão desse mecanismo causal para realmente raciocinar e resolver problemas novos e complexos em contextos imprevistos. Um modelo também não pode.”

Consertando o que está quebrado

Portanto, os benchmarks estão quebrados. Mas eles podem ser consertados?

Dodge pensa assim – com mais envolvimento humano.

“O caminho certo a seguir, aqui, é uma combinação de benchmarks de avaliação com avaliação humana”, disse ela, “gerando um modelo com uma consulta real do usuário e depois contratando uma pessoa para avaliar a qualidade da resposta”.

Quanto a Widder, ele está menos otimista de que os benchmarks atuais – mesmo com correções para os erros mais óbvios, como erros de digitação – possam ser melhorados a ponto de serem informativos para a grande maioria dos usuários de modelos de IA generativos. Em vez disso, ele pensa que os testes de modelos devem centrar-se nos impactos a jusante destes modelos e se os impactos, bons ou maus, são percebidos como desejáveis ​​para aqueles que são impactados.

“Eu perguntaria quais objetivos contextuais específicos queremos que os modelos de IA possam ser usados ​​e avaliaria se eles seriam – ou são – bem-sucedidos em tais contextos”, disse ele. “E esperançosamente, também, esse processo envolve avaliar se deveríamos usar IA em tais contextos.”

Últimas

Substack agora permite que podcasters sincronizem e distribuam seus episódios para o Spotify

Subpilha anunciado na quinta-feira, está apresentando alguns novos...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

TikTok testa influenciadores virtuais para anúncios em vídeo

A TikTok está supostamente desenvolvendo influenciadores virtuais com...

Assine

spot_img

Veja Também

Substack agora permite que podcasters sincronizem e distribuam seus episódios para o Spotify

Subpilha anunciado na quinta-feira, está apresentando alguns novos...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente...

TikTok testa influenciadores virtuais para anúncios em vídeo

A TikTok está supostamente desenvolvendo influenciadores virtuais com...

Chase lança primeira rede de mídia liderada por banco

O JPMorgan Chase lançou o Chase Media Solutions,...
spot_img

Substack agora permite que podcasters sincronizem e distribuam seus episódios para o Spotify

Subpilha anunciado na quinta-feira, está apresentando alguns novos recursos para podcasters em sua plataforma. Mais notavelmente, a empresa está lançando uma integração...

Google limita links de notícias na Califórnia devido à proposta de lei de 'imposto sobre links'

O Google anunciou que planeja reduzir o acesso a sites de notícias da Califórnia para uma parcela dos usuários do estado. A decisão ocorre...

Query Merece Ads é o rumo que o Google está tomando

O CEO do Google, Sundar Pichai, discutiu recentemente o futuro das pesquisas, afirmando a importância dos sites (boas notícias para SEO). Mas...