Posts Recentes:

DatologyAI está construindo tecnologia para selecionar automaticamente conjuntos de dados de treinamento de IA


Conjuntos de dados de treinamento massivos são a porta de entrada para modelos de IA poderosos – mas muitas vezes também são a queda desses modelos.

Os preconceitos emergem de padrões preconceituosos ocultos em grandes conjuntos de dados, como imagens de CEOs maioritariamente brancos num conjunto de classificação de imagens. E grandes conjuntos de dados podem ser confusos, chegando em formatos incompreensíveis para um modelo – formatos que contêm muito ruído e informações estranhas.

Em um recente relatório da Deloitte enquete das empresas que adoptaram a IA, 40% afirmaram que os desafios relacionados com os dados – incluindo a preparação e limpeza minuciosa dos dados – estavam entre as principais preocupações que dificultavam as suas iniciativas de IA. Uma separação enquete dos cientistas de dados descobriram que cerca de 45% do tempo dos cientistas é gasto em tarefas de preparação de dados, como “carregar” e limpar dados.

Ari Morcos, que trabalha na indústria de IA há quase uma década, quer abstrair muitos dos processos de preparação de dados em torno do treinamento de modelos de IA – e ele fundou uma startup para fazer exatamente isso.

A empresa de Morcos, DatologiaAIcria ferramentas para selecionar automaticamente conjuntos de dados como aqueles usados ​​para treinar OpenAIs Bate-papoGPTdo Google Gêmeos e outros modelos como GenAI. A plataforma pode identificar quais dados são mais importantes dependendo da aplicação de um modelo (por exemplo, escrever e-mails), afirma Morcos, além de maneiras pelas quais o conjunto de dados pode ser aumentado com dados adicionais e como deve ser agrupado ou dividido em partes mais gerenciáveis, durante treinamento de modelo.

“Os modelos são o que comem – os modelos são um reflexo dos dados nos quais são treinados”, disse Morcos ao TechCrunch em entrevista por e-mail. “No entanto, nem todos os dados são criados iguais e alguns dados de treinamento são muito mais úteis do que outros. Treinar modelos com os dados certos da maneira certa pode ter um impacto dramático no modelo resultante.”

Morcos, que tem doutorado em neurociência por Harvard, passou dois anos na DeepMind aplicando técnicas inspiradas na neurologia para compreender e melhorar modelos de IA e cinco anos no laboratório de IA da Meta descobrindo alguns dos mecanismos básicos subjacentes às funções dos modelos. Junto com seus cofundadores Matthew Leavitt e Bogdan Gaza, ex-líder de engenharia da Amazon e depois do Twitter, Morcos lançou o DatologyAI com o objetivo de agilizar todas as formas de curadoria de conjuntos de dados de IA.

Como aponta Morcos, a composição de um conjunto de dados de treinamento afeta quase todas as características de um modelo treinado nele – desde o desempenho do modelo nas tarefas até seu tamanho e a profundidade de seu conhecimento de domínio. Conjuntos de dados mais eficientes podem reduzir o tempo de treinamento e produzir um modelo menor, economizando custos de computação, enquanto conjuntos de dados que incluem uma gama especialmente diversificada de amostras podem lidar com solicitações esotéricas com mais habilidade (em geral).

Com interesse na GenAI — que tem um reputação por serem caros – em níveis mais altos, os custos de implementação de IA estão na vanguarda das mentes dos executivos.

Muitas empresas estão optando por ajustar os modelos existentes (incluindo modelos de código aberto) para seus propósitos ou optam por serviços gerenciados de fornecedores por meio de APIs. Mas alguns – por motivos de governança e conformidade ou não – estão construindo modelos a partir do zero com base em dados personalizados e gastando dezenas de milhares a milhões de dólares em computação para treiná-los e executá-los.

“As empresas coletaram tesouros de dados e desejam treinar modelos de IA especializados, eficientes e de alto desempenho que possam maximizar os benefícios para seus negócios”, disse Morcos. “No entanto, fazer uso eficaz desses enormes conjuntos de dados é incrivelmente desafiador e, se feito incorretamente, leva a modelos de pior desempenho que demoram mais para treinar e [are larger] do que o necessário.”

DatologyAI pode escalar até “petabytes” de dados em qualquer formato – seja texto, imagens, vídeo, áudio, tabular ou modalidades mais “exóticas”, como genômica e geoespacial – e implantar na infraestrutura de um cliente, seja no local ou por meio de um nuvem privada virtual. Isso o diferencia de outras ferramentas de preparação e curadoria de dados, como CleanLab, Lilac, Caixa de etiquetasYData e Galileuafirma Morcos, que tendem a ser mais limitados no escopo e nos tipos de dados que podem processar.

O DatologyAI também é capaz de determinar quais “conceitos” dentro de um conjunto de dados – por exemplo, conceitos relacionados à história dos EUA em um conjunto de treinamento de chatbot educacional – são mais complexos e, portanto, exigem amostras de maior qualidade, bem como quais dados podem fazer com que um modelo se comporte de maneiras não intencionais.

“Resolvendo [these problems] requer a identificação automática de conceitos, sua complexidade e quanta redundância é realmente necessária”, disse Morcos. “O aumento de dados, muitas vezes usando outros modelos ou dados sintéticos, é incrivelmente poderoso, mas deve ser feito de forma cuidadosa e direcionada.”

A questão é: quão eficaz é a tecnologia da DatologyAI? Há motivos para ser cético. A história mostra que a curadoria automatizada de dados nem sempre funciona como pretendido, por mais sofisticado que seja o método — ou por mais diversificado que seja os dados.

LAION, uma organização sem fins lucrativos alemã que lidera vários projetos GenAI, foi forçado para retirar um conjunto de dados de treinamento de IA com curadoria algorítmica depois que foi descoberto que o conjunto continha imagens de abuso sexual infantil. Em outros lugares, modelos como o ChatGPT, que são treinados manualmente em uma combinação de conjuntos de dados e filtrados automaticamente quanto à toxicidade, demonstraram gerar conteúdo tóxico dadas instruções específicas.

Não há como fugir da curadoria manual, argumentariam alguns especialistas – pelo menos não se se espera alcançar resultados sólidos com um modelo de IA. Os maiores fornecedores da atualidade, da AWS ao Google e OpenAI, contar com equipes de especialistas humanos e (às vezes mal pago) anotadores para moldar e refinar seus conjuntos de dados de treinamento.

Morcos insiste que as ferramentas da DatologyAI não foram feitas para substituir curadoria manual, mas sim oferecer sugestões que podem não ocorrer aos cientistas de dados, em particular sugestões tangenciais ao problema de redução do tamanho dos conjuntos de dados de treinamento. Ele é uma espécie de autoridade – o corte do conjunto de dados preservando o desempenho do modelo foi o foco de um trabalho acadêmico Morcos foi coautor com pesquisadores de Stanford e da Universidade de Tübingen em 2022, que ganhou o prêmio de melhor artigo na conferência de aprendizado de máquina NeurIPS daquele ano.

“Identificar os dados corretos em escala é extremamente desafiador e um problema de pesquisa de ponta”, disse Morcos. “[Our approach] leva a modelos que treinam dramaticamente mais rápido e, ao mesmo tempo, aumentam o desempenho em tarefas posteriores.”

A tecnologia da DatologyAI era evidentemente promissora o suficiente para convencer titãs em tecnologia e IA a investir na rodada inicial da startup, incluindo o cientista-chefe do Google, Jeff Dean, o cientista-chefe de IA da Meta, Yann LeCun, o fundador do Quora e membro do conselho da OpenAI, Adam D'Angelo e Geoffrey Hinton, que é creditado por desenvolver algumas das técnicas mais importantes no coração da IA ​​moderna.

Outros investidores anjos na semente de US$ 11,65 milhões da DatologyAI, que foi liderada pela Amplify Partners com a participação da Radical Ventures, Conviction Capital, Outset Capital e Quiet Capital, foram Coerente co-fundadores Aidan Gomez e Ivan Zhang, IA contextual o fundador Douwe Kiela, o ex-vice-presidente de IA da Intel Naveen Rao e Jascha Sohl-Dickstein, um dos inventores do generativo modelos de difusão. É uma lista impressionante de luminares da IA, para dizer o mínimo – e sugere que pode haver algo nas afirmações de Morcos.

“Os modelos são tão bons quanto os dados nos quais são treinados, mas identificar os dados de treinamento corretos entre bilhões ou trilhões de exemplos é um problema incrivelmente desafiador”, disse LeCun ao TechCrunch em um comunicado enviado por e-mail. “Ari e sua equipe da DatologyAI são alguns dos especialistas mundiais neste problema, e acredito que o produto que eles estão construindo para disponibilizar a curadoria de dados de alta qualidade para qualquer pessoa que queira treinar um modelo é de vital importância para ajudar a fazer a IA funcionar. para todos.”

A DatologyAI, com sede em São Francisco, tem atualmente 10 funcionários, incluindo os cofundadores, mas planeja expandir para cerca de 25 funcionários até o final do ano se atingir certos marcos de crescimento.

Perguntei a Morcos se os marcos estavam relacionados à aquisição de clientes, mas ele se recusou a dizer – e, misteriosamente, não revelou o tamanho da atual base de clientes da DatologyAI.

Últimas

Assine

spot_img

Veja Também

spot_img

O financiamento de startups de fabricação de IA está em declínio enquanto a EthonAI da Suíça arrecada US$ 16,5 milhões

À medida que as fábricas e instalações de produção se tornaram “mais esperto”através de sensores, robótica e outras tecnologias conectadas, isso criou um...