Posts Recentes:

WhatsApp lança recurso de mensagens de voz que se autodestroem

O WhatsApp está introduzindo uma nova funcionalidade que...

Meta e IBM lançam iniciativa AI Alliance, em conflito com Google, Microsoft e OpenAI

Meta e IBM anunciaram um movimento inesperado ao...

OpenAI quer trabalhar com organizações para construir novos conjuntos de dados de treinamento de IA


OpenAI logo symmetry

É um sigilo ingénuo que os conjuntos de dados usados ​​para treinar modelos de IA são profundamente falhos.

Corpora de imagem tende ser centrado nos EUA e no Poente, em secção porque as imagens ocidentais dominaram a Internet quando os conjuntos de dados foram compilados. E, uma vez que realçado recentemente por um estudo do Allen Institute for AI, os dados usados ​​para treinar grandes modelos de linguagem, uma vez que o Llama 2 da Meta, contêm linguagem tóxica e preconceitos.

Os modelos amplificam essas falhas de maneiras prejudiciais. Agora, a OpenAI afirma que quer combatê-los através de parcerias com instituições externas para produzir novos conjuntos de dados, esperançosamente, melhorados.

A OpenAI anunciou hoje Parcerias de Dados, um esforço para colaborar com organizações terceirizadas para erigir conjuntos de dados públicos e privados para treinamento de modelos de IA. Em um postagem no bloga OpenAI afirma que as parcerias de dados têm uma vez que objetivo “permitir que mais organizações ajudem a orientar o porvir da IA” e “se beneficiarem de modelos que sejam mais úteis”.

“Para finalmente fazer [AI] que seja seguro e vantagoso para toda a humanidade, gostaríamos que os modelos de IA compreendessem profundamente todos os assuntos, indústrias, culturas e idiomas, o que requer um conjunto de dados de treinamento o mais largo verosímil”, escreve OpenAI. “Incluir seu teor pode tornar os modelos de IA mais úteis para você, aumentando a compreensão deles sobre seu domínio.”

Uma vez que secção do programa Data Partnerships, a OpenAI afirma que irá coletar conjuntos de dados em “grande graduação” que “refletem a sociedade humana” e que hoje não são facilmente acessíveis online. Embora a empresa planeje trabalhar com uma ampla gama de modalidades, incluindo imagens, áudio e vídeo, ela está buscando particularmente dados que “expressem a intenção humana” (por exemplo, escrita longa ou conversas) em diferentes idiomas, tópicos e formatos.

A OpenAI afirma que trabalhará com organizações para digitalizar dados de treinamento, se necessário, usando uma combinação de reconhecimento óptico de caracteres e ferramentas automáticas de reconhecimento de fala e removendo informações confidenciais ou pessoais, se necessário.

No início, a OpenAI procura produzir dois tipos de conjuntos de dados: um conjunto de dados de código ingénuo que seria público para qualquer pessoa usar no treinamento de modelos de IA e um conjunto de conjuntos de dados privados para treinar modelos de IA proprietários. Os conjuntos privados destinam-se a organizações que desejam manter a privacidade dos seus dados, mas desejam que os modelos da OpenAI tenham uma melhor compreensão do seu domínio, afirma a OpenAI; até agora, a OpenAI trabalhou com o governo islandês e a Miðeind ehf para melhorar a capacidade do GPT-4 de falar islandês e com o Free Law Project para melhorar a compreensão dos documentos legais por seus modelos.

“No universal, estamos procurando parceiros que queiram nos ajudar a ensinar IA a compreender nosso mundo, a término de sermos úteis ao supremo para todos”, escreve OpenAI.

Portanto, será que a OpenAI pode fazer melhor do que os muitos esforços de construção de conjuntos de dados que vieram antes dela? Não tenho tanta certeza – minimizar o viés do conjunto de dados é um problema isso deixou muitos especialistas do mundo perplexos. No mínimo, espero que a empresa seja transparente sobre o processo – e sobre os desafios que inevitavelmente encontra na geração desses conjuntos de dados.

Apesar da linguagem grandiosa da postagem do blog, também parece possuir uma clara motivação mercantil, cá, para melhorar o desempenho dos modelos da OpenAI às custas de outros – e sem indemnização para os proprietários dos dados. Suponho que isso esteja dentro do recta da OpenAI. Mas parece um pouco surdo à luz de cartas abertas e ações judiciais de criativos alegando que a OpenAI treinou muitos de seus modelos em seu trabalho sem sua permissão ou pagamento.

Últimas

WhatsApp lança recurso de mensagens de voz que se autodestroem

O WhatsApp está introduzindo uma nova funcionalidade que...

Meta e IBM lançam iniciativa AI Alliance, em conflito com Google, Microsoft e OpenAI

Meta e IBM anunciaram um movimento inesperado ao...

Threads lança “topic tags”; entenda a diferença com as hashtags

A plataforma Threads acaba de lançar um novo...

Assine

spot_img

Veja Também

WhatsApp lança recurso de mensagens de voz que se autodestroem

O WhatsApp está introduzindo uma nova funcionalidade que...

Meta e IBM lançam iniciativa AI Alliance, em conflito com Google, Microsoft e OpenAI

Meta e IBM anunciaram um movimento inesperado ao...

Threads lança “topic tags”; entenda a diferença com as hashtags

A plataforma Threads acaba de lançar um novo...

Google enfrenta novo problema de perda de dados no Google Drive

O Google está enfrentando um novo problema relacionado...
spot_img

WhatsApp lança recurso de mensagens de voz que se autodestroem

O WhatsApp está introduzindo uma nova funcionalidade que promete elevar a privacidade dos usuários a outro patamar: mensagens de voz que se autodestroem....

Meta alimentou sua IA de geração de imagens com um bilhão de postagens do Facebook e Instagram

A Meta revelou que sua nova IA de geração de imagens, chamada Imagine, foi treinada com um conjunto de dados impressionante: um bilhão...

Meta e IBM lançam iniciativa AI Alliance, em conflito com Google, Microsoft e OpenAI

Meta e IBM anunciaram um movimento inesperado ao lançar um novo grupo chamado AI Alliance. No entanto, essa iniciativa colocou-os em conflito direto...