Posts Recentes:

‘Constrangedor e errado’: Google admite que perdeu o controle da IA ​​de geração de imagens


O Google se desculpou (ou quase se desculpou) por outro Erro embaraçoso da IA esta semana, um modelo de geração de imagens que injetou diversidade nas imagens com um desrespeito ridículo pelo contexto histórico. Embora a questão subjacente seja perfeitamente compreensível, o Google culpa o modelo por “se tornar” excessivamente sensível. Mas o modelo não se fez sozinho, pessoal.

O sistema de IA em questão é o Gemini, a principal plataforma de IA conversacional da empresa, que quando solicitada chama uma versão do Modelo da imagem 2 para criar imagens sob demanda.

Recentemente, porém, as pessoas descobriram que pedir para gerar imagens de certas circunstâncias históricas ou pessoas produzia resultados ridículos. Por exemplo, os Pais Fundadores, que sabemos serem proprietários de escravos brancos, foram apresentados como um grupo multicultural, incluindo pessoas de cor.

Esta questão embaraçosa e facilmente replicável foi rapidamente satirizada por comentadores online. Foi também, previsivelmente, envolvido no debate em curso sobre diversidade, equidade e inclusão (actualmente num mínimo local de reputação), e apreendido pelos especialistas como prova da penetração do vírus da mente desperta no já liberal sector tecnológico.

gemini founding fathers

Créditos da imagem: Uma imagem gerada pelo usuário do Twitter Patrick Ganley.

A DEI enlouqueceu, gritaram cidadãos visivelmente preocupados. Esta é a América de Biden! O Google é uma “câmara de eco ideológica”, um cavalo de perseguição para a esquerda! (A esquerda, deve ser dito, também ficou devidamente perturbada por este estranho fenómeno.)

Mas como qualquer pessoa com alguma familiaridade com a tecnologia poderia lhe dizer, e como o Google explica hoje em seu pequeno e abjeto post adjacente de desculpas, esse problema foi o resultado de uma solução alternativa bastante razoável para viés sistêmico em dados de treinamento.

Digamos que você queira usar o Gemini para criar uma campanha de marketing e peça para ele gerar 10 fotos de “uma pessoa passeando com um cachorro em um parque”. Como você não especifica o tipo de pessoa, cachorro ou parque, a escolha é do revendedor – o modelo generativo divulgará aquilo com o qual está mais familiarizado. E, em muitos casos, isso não é produto da realidade, mas dos dados de treinamento, que podem conter todos os tipos de preconceitos.

Que tipos de pessoas, inclusive cães e parques, são mais comuns nas milhares de imagens relevantes que a modelo ingeriu? O fato é que os brancos estão super-representados em muitas dessas coleções de imagens (imagens de banco de imagens, fotografias livres de direitos, etc.) e, como resultado, o modelo será padronizado para os brancos em muitos casos, se você não fizer isso. não especifique.

Isso é apenas um artefato dos dados de treinamento, mas como destaca o Google, “como nossos usuários vêm de todo o mundo, queremos que funcione bem para todos. Se você pedir uma foto de jogadores de futebol ou de alguém passeando com um cachorro, talvez queira receber várias pessoas. Você provavelmente não deseja receber apenas imagens de pessoas de apenas um tipo de etnia (ou qualquer outra característica).

Ilustração de um grupo de pessoas recentemente demitidas e segurando caixas.

Imagine pedir uma imagem como esta – e se fosse tudo do mesmo tipo de pessoa? Resultado ruim! Créditos da imagem: Getty Images/Victorikart

Não há nada de errado em tirar a foto de um cara branco passeando com um golden retriever em um parque suburbano. Mas se você pedir 10 e eles forem todos caras brancos passeando em parques suburbanos? E você mora no Marrocos, onde as pessoas, os cachorros e os parques parecem diferentes? Isso simplesmente não é um resultado desejável. Se alguém não especificar uma característica, o modelo deverá optar pela variedade, e não pela homogeneidade, apesar de como seus dados de treinamento possam distorcê-lo.

Este é um problema comum em todos os tipos de mídia generativa. E não há solução simples. Mas em casos que são especialmente comuns, sensíveis ou ambos, empresas como Google, OpenAI, Anthropic e assim por diante incluem invisivelmente instruções extras para o modelo.

Não consigo enfatizar o suficiente o quão comum é esse tipo de instrução implícita. Todo o ecossistema LLM é construído sobre instruções implícitas – prompts do sistema, como às vezes são chamados, onde coisas como “seja conciso”, “não xingue” e outras diretrizes são fornecidas ao modelo antes de cada conversa. Quando você pede uma piada, você não recebe uma piada racista – porque apesar da modelo ter ingerido milhares delas, ela também foi treinada, como a maioria de nós, para não contá-las. Esta não é uma agenda secreta (embora pudesse ser necessária com mais transparência), é uma infra-estrutura.

O erro do modelo do Google foi não ter instruções implícitas para situações em que o contexto histórico era importante. Portanto, embora uma sugestão como “uma pessoa passeando com um cachorro em um parque” seja melhorada pela adição silenciosa de “a pessoa é de um gênero e etnia aleatórios” ou o que quer que eles coloquem, “os Pais Fundadores dos EUA assinando a Constituição” definitivamente não é melhorado pelo mesmo.

Como disse o vice-presidente sênior do Google, Prabhakar Raghavan:

Primeiro, nosso ajuste para garantir que Gêmeos mostrasse uma gama de pessoas não levou em conta os casos que claramente não deveriam mostrar uma gama. E em segundo lugar, com o tempo, o modelo tornou-se muito mais cauteloso do que pretendíamos e recusou-se a responder inteiramente a certas solicitações – interpretando erroneamente algumas solicitações muito anódinas como sensíveis.

Estas duas coisas levaram o modelo a compensar excessivamente em alguns casos e a ser demasiado conservador noutros, conduzindo a imagens embaraçosas e erradas.

Eu sei como é difícil pedir desculpas às vezes, então perdôo Raghavan por parar um pouco antes disso. Mais importante é alguma linguagem interessante: “O modelo tornou-se muito mais cauteloso do que pretendíamos”.

Agora, como um modelo “se tornaria” alguma coisa? É um software. Alguém – milhares de engenheiros do Google – o construiu, testou e iterou nele. Alguém escreveu as instruções implícitas que melhoraram algumas respostas e fizeram com que outras falhassem de forma hilariante. Quando este falhou, se alguém pudesse ter inspecionado o prompt completo, provavelmente teria descoberto o que a equipe do Google fez de errado.

O Google culpa o modelo por “se tornar” algo que não era “pretendido” que fosse. Mas eles fizeram o modelo! É como se eles quebrassem um copo e, em vez de dizerem “deixamos cair”, dizem “caiu”. (Eu fiz isso.)

Os erros cometidos por esses modelos são inevitáveis, certamente. Eles têm alucinações, refletem preconceitos, comportam-se de maneiras inesperadas. Mas a responsabilidade por esses erros não pertence aos modelos – pertence às pessoas que os cometeram. Hoje isso é o Google. Amanhã será OpenAI. No dia seguinte, e provavelmente por alguns meses seguidos, será X.AI.

Essas empresas têm grande interesse em convencê-lo de que a IA está cometendo seus próprios erros. Não deixe.

Últimas

Assine

spot_img

Veja Também

spot_img

Paul Graham afirma que Sam Altman não foi demitido da Y Combinator

Em um série de postagens no X na quinta-feira, Paul Graham, cofundador da aceleradora de startups Y Combinator, rejeitou as alegações de que...

A desinformação funciona, e um punhado de “supercompartilhadores” sociais enviou 80% dela em 2020

Dois estudos publicados quinta-feira na revista Science oferecem evidências não apenas de que a desinformação nas redes sociais muda as mentes, mas que...