Hoje, durante sua primeira conferência de desenvolvimento, a OpenAI divulgou novos detalhes de uma versão do GPT-4, o principal padrão de IA de geração de texto da empresa, que pode compreender o contexto de imagens e também de texto. Esta versão, que a OpenAI labareda de “GPT-4 com visão”, pode legendar e até interpretar imagens relativamente complexas – por exemplo, identificando um adaptador de cabo Lightning a partir de uma imagem de um iPhone conectado.
Anteriormente, o GPT-4 com visão só estava disponível para usuários selecionados de Seja meus olhos, um aplicativo desenvolvido para ajudar pessoas com deficiência visual a velejar pelo mundo ao seu volta; assinantes do Prêmio níveis do chatbot fundamentado em IA da OpenAI, Bate-papoGPT; e “equipes vermelhos” encarregados de sondar o GPT-4 em procura de sinais de comportamento não premeditado. Isso porque a OpenAI reteve o GPT-4 com visão depois de revelá-lo no início de março, supostamente no temor de uma vez que isso pode ser abusado – e violar a privacidade.
Agora, a OpenAI está aparentemente esperançoso o suficiente em suas mitigações para permitir que a comunidade de desenvolvedores mais ampla construa o GPT-4 com visão em seus aplicativos, produtos e serviços. O GPT-4 com visão estará disponível nas próximas semanas, disse a empresa esta manhã, por meio do recém-lançado Turbo GPT-4 API.
A questão é se o GPT-4 com visão na verdade mais seguro do que era antes, no entanto.
Em outubro, algumas semanas antes da OpenAI principiar a lançar o GPT-4 com a visão de Bate-papoGPT assinantes, a empresa publicou um papel branco detalhando as limitações do padrão e muito mais… questionável tendências (por exemplo, discriminação de certos tipos de corpo). Mas o cláusula foi escrito em coautoria por cientistas da OpenAI – e não por testadores externos que poderiam trazer uma perspectiva mais recto para a mesa.
Felizmente, a OpenAI forneceu a vários pesquisadores – os mencionados red teamers – chegada antecipado ao GPT-4 com visão para fins de avaliação. Pelo menos dois, Chris Callison-Burch, professor associado de ciência da computação na Universidade da Pensilvânia, e Alyssa Hwang, Ph.D. estudante, publicaram suas primeiras impressões esta tarde na conferência da OpenAI.
Uma empresa de relações públicas conectou o TechCrunch com Callison-Burch e Hwang por e-mail.
“Eu experimentei o GPT-4 com visão para uma variedade de tarefas, desde responder a perguntas sobre imagens até ajudá-lo a selecionar objetos 3D para cenas em videogames e descrever as composições e estilos artísticos de pinturas de belas artes”, Callison-Burch, que disse ter chegada ao GPT-4 com visão desde julho, disse ao TechCrunch em entrevista. “Cada vez, acertou em pleno. As descrições são incrivelmente boas e representam um simples progresso em relação ao estado da arte anterior em legendagem de imagens.”
Mas Hwang, que conduziu uma revisão mais sistemática do GPT-4 com as capacidades de visão, descobriu que o padrão continua falho em vários aspectos significativos – e problemáticos, em alguns casos.
“Descobri que o GPT-4 com visão muitas vezes descrevia corretamente as posições dos elementos [in an image] mas teve menos sucesso com seus relacionamentos estruturais ou relativos”, disse Hwang ao TechCrunch por e-mail. “Por exemplo, certa vez disse corretamente que duas curvas em um gráfico de traço se inclinavam para cima, mas disse incorretamente qual delas era mais subida que a outra. E cometeu alguns erros com gráficos em universal, desde prezar incorretamente os valores em um gráfico de barras ou linhas até interpretar mal as cores em uma legenda.”
Hwang documenta muitos outros casos de GPT-4 com erros de visão em um rascunho de estudo publicado no servidor de pré-impressão Arxiv.org. Seu trabalho se concentra principalmente no GPT-4 com capacidade de visão para descrever figuras em artigos acadêmicos, uma emprego potencialmente bastante útil da tecnologia – mas onde a precisão é importante. Bastante.
Infelizmente, a precisão não é o ponto possante do GPT-4 com a visão no que diz reverência à tradução científica.
Hwang escreve que o GPT-4 com visão comete erros ao reproduzir fórmulas matemáticas, muitas vezes omitindo subscritos ou imprimindo-os incorretamente. A enumeração de objetos nas ilustrações representa outro problema para o padrão, assim uma vez que a descrição de cores – principalmente as cores de objetos próximos uns dos outros, que o GPT-4 às vezes confunde com a visão.
Algumas das deficiências mais sérias e mais amplas do GPT-4 com visão residem no departamento de precisão factual.
O GPT-4 com visão não consegue extrair texto de uma imagem de maneira confiável. Para provar, no estudo, Hwang deu ao padrão uma folha com uma lista de receitas e pediu-lhe que copiasse cada receita por escrito. GPT-4 com visão cometeu erros ao examinar os títulos das receitas, escrevendo coisas uma vez que “Bolo de veludo vermelho de ovos” em vez de “Bolo de veludo vermelho sem ovos” e “Medalhões de porco com gergelim” em vez de “Porco com gergelim milanês”.

Um exemplo de GPT-4 com visão analisando – e extraindo texto de – uma imagem específica.
Um repto relacionado para o GPT-4 com visão é reunir. Quando questionado sobre a origem de, digamos, a digitalização de um documento, o GPT-4 com visão pode parafrasear mal as frases desse documento – omitindo informações no processo. Ou pode mudar citações diretas de maneira enganosa, deixando de fora partes que afetem o significado do texto.
Isso não quer manifestar que o GPT-4 com visão seja um fracasso totalidade de um padrão multimodal. Hwang elogia suas capacidades analíticas, observando que o padrão brilha quando solicitado a descrever até mesmo cenas bastante complicadas. Está simples por que OpenAI e Be My Eyes consideraram o GPT-4 com visão possivelmente útil para acessibilidade – é um ajuste originário.
Mas as descobertas de Hwang confirmam o que o cláusula da OpenAI sugeriu: que o GPT-4 com visão continua a ser um trabalho em curso. Longe de ser um solucionador universal de problemas, o GPT-4 com visão comete erros básicos que um ser humano não cometeria – e potencialmente introduz preconceitos ao longo do caminho.
Não está simples até que ponto as salvaguardas da OpenAI, que são projetadas para evitar que o GPT-4 com visão vomite toxicidade ou desinformação, podem estar impactando sua precisão – ou se o padrão simplesmente não foi treinado em dados visuais suficientes para mourejar com certos casos extremos (por exemplo, redigir fórmulas matemáticas). Hwang não especulou, deixando a questão para pesquisas posteriores.
No seu cláusula, a OpenAI afirmou que está a edificar “mitigações” e “processos” para expandir as capacidades do GPT-4 com visão de uma forma “segura”, uma vez que permitir que o GPT-4 com visão descreva rostos e pessoas sem identificar essas pessoas pelo nome. Teremos que esperar e ver até que ponto é bem-sucedido – ou se a OpenAI está se aproximando dos limites do que é verosímil com os métodos atuais de treinamento de modelos multimodais.