
É um sigilo ingénuo que os conjuntos de dados usados para treinar modelos de IA são profundamente falhos.
Corpora de imagem tende ser centrado nos EUA e no Poente, em secção porque as imagens ocidentais dominaram a Internet quando os conjuntos de dados foram compilados. E, uma vez que realçado recentemente por um estudo do Allen Institute for AI, os dados usados para treinar grandes modelos de linguagem, uma vez que o Llama 2 da Meta, contêm linguagem tóxica e preconceitos.
Os modelos amplificam essas falhas de maneiras prejudiciais. Agora, a OpenAI afirma que quer combatê-los através de parcerias com instituições externas para produzir novos conjuntos de dados, esperançosamente, melhorados.
A OpenAI anunciou hoje Parcerias de Dados, um esforço para colaborar com organizações terceirizadas para erigir conjuntos de dados públicos e privados para treinamento de modelos de IA. Em um postagem no bloga OpenAI afirma que as parcerias de dados têm uma vez que objetivo “permitir que mais organizações ajudem a orientar o porvir da IA” e “se beneficiarem de modelos que sejam mais úteis”.
“Para finalmente fazer [AI] que seja seguro e vantagoso para toda a humanidade, gostaríamos que os modelos de IA compreendessem profundamente todos os assuntos, indústrias, culturas e idiomas, o que requer um conjunto de dados de treinamento o mais largo verosímil”, escreve OpenAI. “Incluir seu teor pode tornar os modelos de IA mais úteis para você, aumentando a compreensão deles sobre seu domínio.”
Uma vez que secção do programa Data Partnerships, a OpenAI afirma que irá coletar conjuntos de dados em “grande graduação” que “refletem a sociedade humana” e que hoje não são facilmente acessíveis online. Embora a empresa planeje trabalhar com uma ampla gama de modalidades, incluindo imagens, áudio e vídeo, ela está buscando particularmente dados que “expressem a intenção humana” (por exemplo, escrita longa ou conversas) em diferentes idiomas, tópicos e formatos.
A OpenAI afirma que trabalhará com organizações para digitalizar dados de treinamento, se necessário, usando uma combinação de reconhecimento óptico de caracteres e ferramentas automáticas de reconhecimento de fala e removendo informações confidenciais ou pessoais, se necessário.
No início, a OpenAI procura produzir dois tipos de conjuntos de dados: um conjunto de dados de código ingénuo que seria público para qualquer pessoa usar no treinamento de modelos de IA e um conjunto de conjuntos de dados privados para treinar modelos de IA proprietários. Os conjuntos privados destinam-se a organizações que desejam manter a privacidade dos seus dados, mas desejam que os modelos da OpenAI tenham uma melhor compreensão do seu domínio, afirma a OpenAI; até agora, a OpenAI trabalhou com o governo islandês e a Miðeind ehf para melhorar a capacidade do GPT-4 de falar islandês e com o Free Law Project para melhorar a compreensão dos documentos legais por seus modelos.
“No universal, estamos procurando parceiros que queiram nos ajudar a ensinar IA a compreender nosso mundo, a término de sermos úteis ao supremo para todos”, escreve OpenAI.
Portanto, será que a OpenAI pode fazer melhor do que os muitos esforços de construção de conjuntos de dados que vieram antes dela? Não tenho tanta certeza – minimizar o viés do conjunto de dados é um problema isso deixou muitos especialistas do mundo perplexos. No mínimo, espero que a empresa seja transparente sobre o processo – e sobre os desafios que inevitavelmente encontra na geração desses conjuntos de dados.
Apesar da linguagem grandiosa da postagem do blog, também parece possuir uma clara motivação mercantil, cá, para melhorar o desempenho dos modelos da OpenAI às custas de outros – e sem indemnização para os proprietários dos dados. Suponho que isso esteja dentro do recta da OpenAI. Mas parece um pouco surdo à luz de cartas abertas e ações judiciais de criativos alegando que a OpenAI treinou muitos de seus modelos em seu trabalho sem sua permissão ou pagamento.