Posts Recentes:

Databricks gastou US$ 10 milhões no novo modelo de IA generativa DBRX, mas não consegue vencer o GPT-4


Se você quisesse aumentar o perfil de sua grande empresa de tecnologia e tivesse US$ 10 milhões para gastar, como você gastaria? Em um anúncio do Super Bowl? Um patrocínio da F1?

Você poderia gaste-o treinando um modelo generativo de IA. Embora não sejam marketing no sentido tradicional, os modelos generativos chamam a atenção – e cada vez mais se direcionam para os produtos e serviços básicos dos fornecedores.

Veja o DBRX da Databricks, um novo modelo generativo de IA anunciado hoje, semelhante ao Série GPT da OpenAI e Gêmeos do Google. Disponível no GitHub e na plataforma de desenvolvimento de IA Hugging Face para pesquisa, bem como para uso comercial, versões básicas (DBRX Base) e ajustadas (DBRX Instruct) do DBRX podem ser executadas e ajustadas em dados públicos, personalizados ou proprietários.

“O DBRX foi treinado para ser útil e fornecer informações sobre uma ampla variedade de tópicos”, disse Naveen Rao, vice-presidente de IA generativa da Databricks, ao TechCrunch em entrevista. “O DBRX foi otimizado e ajustado para o uso do idioma inglês, mas é capaz de conversar e traduzir para uma ampla variedade de idiomas, como francês, espanhol e alemão.”

Databricks descreve o DBRX como “código aberto” em uma linha semelhante aos modelos de “código aberto” como o Meta Lhama 2 e a startup de IA Mistral's modelos. (É o assunto de robusto debate para saber se esses modelos realmente atendem à definição de código aberto.)

A Databricks diz que gastou cerca de US$ 10 milhões e dois meses treinando DBRX, que afirma (citando um comunicado à imprensa) “superar o desempenho[s] todos os modelos de código aberto existentes em benchmarks padrão.”

Mas – e aqui está o problema de marketing – é excepcionalmente difícil usar o DBRX, a menos que você seja um cliente do Databricks.

Isso porque, para rodar o DBRX na configuração padrão, é necessário um servidor ou PC com pelo menos quatro GPUs Nvidia H100. Um único H100 custa milhares de dólares – possivelmente mais. Isso pode ser uma mudança estúpida para a empresa média, mas para muitos desenvolvedores e solopreneurs, está muito além do alcance.

É possível executar o modelo em uma nuvem de terceiros, mas os requisitos de hardware ainda são bastante elevados – por exemplo, há apenas um tipo de instância no Google Cloud que incorpora chips H100. Outras nuvens podem custar menos, mas, de modo geral, executar modelos enormes como esse não é barato hoje em dia.

E há letras miúdas para arrancar. Databricks diz que empresas com mais de 700 milhões de usuários ativos enfrentarão “certas restrições” comparável ao Meta's para Llama 2, e que todos os usuários terão que concordar com os termos que garantem que eles usem o DBRX “com responsabilidade”. (Databricks não havia fornecido voluntariamente as especificações desses termos no momento da publicação.)

A Databricks apresenta seu produto Mosaic AI Foundation Model como a solução gerenciada para esses obstáculos, que, além de executar DBRX e outros modelos, fornece uma pilha de treinamento para ajustar o DBRX em dados personalizados. Os clientes podem hospedar o DBRX de forma privada usando a oferta Model Serving do Databricks, sugeriu Rao, ou podem trabalhar com o Databricks para implantar o DBRX no hardware de sua escolha.

Rao acrescentou:

“Estamos focados em tornar a plataforma Databricks a melhor escolha para a construção de modelos personalizados, portanto, em última análise, o benefício para o Databricks é mais usuários em nossa plataforma. DBRX é uma demonstração de nossa melhor plataforma de pré-treinamento e ajuste, que os clientes podem usar para construir seus próprios modelos do zero. É uma maneira fácil para os clientes começarem a usar as ferramentas de IA generativas do Databricks Mosaic AI. E o DBRX é altamente capaz e pode ser ajustado para excelente desempenho em tarefas específicas com melhor economia do que modelos grandes e fechados.”

A Databricks afirma que o DBRX é executado até 2x mais rápido que o Llama 2, em parte graças à sua arquitetura mista de especialistas (MoE). MoE – que o DBRX compartilha em comum com os modelos mais recentes da Mistral e os recentemente anunciados pelo Google Gêmeos 1.5 Pró – basicamente divide as tarefas de processamento de dados em múltiplas subtarefas e depois delega essas subtarefas a modelos “especializados” menores e especializados.

A maioria dos modelos do MoE conta com oito especialistas. DBRX tem 16, o que a Databricks diz melhorar a qualidade.

A qualidade é relativa, no entanto.

Embora a Databricks afirme que o DBRX supera os modelos Llama 2 e Mistral em determinados benchmarks de compreensão de linguagem, programação, matemática e lógica, o DBRX fica aquém do modelo líder de IA generativa, o GPT-4 da OpenAI, na maioria das áreas fora de casos de uso de nicho, como programação de banco de dados geração de linguagem.

Rao admite que o DBRX também tem outras limitações, nomeadamente que – como todos os outros modelos de IA generativos – pode ser vítima de “alucinando”respostas a perguntas, apesar do trabalho da Databricks em testes de segurança e red teaming. Como o modelo foi simplesmente treinado para associar palavras ou frases a determinados conceitos, se essas associações não forem totalmente precisas, as suas respostas nem sempre serão precisas.

Além disso, o DBRX não é multimodal, ao contrário de alguns modelos de IA generativos mais recentes, incluindo o Gemini. (Ele só pode processar e gerar texto, não imagens.) E não sabemos exatamente quais fontes de dados foram usadas para treiná-lo; Rao apenas revelou que nenhum dado de cliente do Databricks foi usado no treinamento do DBRX.

“Treinamos o DBRX em um grande conjunto de dados de diversas fontes”, acrescentou. “Usamos conjuntos de dados abertos que a comunidade conhece, adora e usa todos os dias.”

Perguntei a Rao se algum dos conjuntos de dados de treinamento DBRX estava protegido por direitos autorais ou licenciado, ou mostrava sinais óbvios de preconceito (por exemplo, preconceitos raciais), mas ele não respondeu diretamente, dizendo apenas: “Fomos cuidadosos com os dados usados ​​e conduzimos exercícios de red teaming para melhorar os pontos fracos do modelo”. Os modelos de IA generativa tendem a regurgitar dados de treinamento, uma grande preocupação para usuários comerciais de modelos treinados em dados não licenciados, protegidos por direitos autorais ou claramente tendenciosos. Na pior das hipóteses, um usuário pode acabar preso em armadilhas éticas e legais por incorporar inadvertidamente trabalho tendencioso ou que viola a propriedade intelectual de um modelo em seus projetos.

Algumas empresas que treinam e lançam modelos generativos de IA oferecem políticas que cobrem os honorários advocatícios decorrentes de possíveis infrações. No momento, o Databricks não faz isso – Rao diz que a empresa está “explorando cenários” sob os quais isso poderia acontecer.

Considerando este e outros aspectos em que o DBRX erra o alvo, o modelo parece difícil de vender para qualquer um, exceto para os clientes atuais ou potenciais do Databricks. Os rivais da Databricks em IA generativa, incluindo OpenAI, oferecem tecnologias igualmente, se não mais atraentes, a preços muito competitivos. E muitos modelos generativos de IA chegam mais perto da definição comumente compreendida de código aberto do que o DBRX.

Rao promete que a Databricks continuará a refinar o DBRX e a lançar novas versões enquanto a equipe de P&D do Mosaic Labs da empresa – a equipe por trás do DBRX – investiga novos caminhos generativos de IA.

“O DBRX está impulsionando o espaço do modelo de código aberto e desafiando os modelos futuros a serem construídos de forma ainda mais eficiente”, disse ele. “Estaremos lançando variantes à medida que aplicamos técnicas para melhorar a qualidade da produção em termos de confiabilidade, segurança e preconceito… Vemos o modelo aberto como uma plataforma na qual nossos clientes podem construir capacidades personalizadas com nossas ferramentas.”

A julgar pela posição atual do DBRX em relação aos seus pares, é um caminho excepcionalmente longo pela frente.

Esta história foi corrigida para observar que o modelo levou dois meses para treinar e removeu uma referência incorreta ao Llama 2 no décimo quarto parágrafo. Lamentamos os erros.

Últimas

Assista: Os novos modelos Llama 3 da Meta dão um impulso à IA de código aberto

Novo Os modelos de IA da Meta estão...

Webflow adquire Intellimize para adicionar personalização de páginas da web com tecnologia de IA

Fluxo da Webuma plataforma de web design e...

Comarch realiza novo webinar – Principais tendências de fidelidade: ideias específicas do setor para 2024

Estudos mostram que clientes fiéis são responsáveis ​​por...

7 maneiras de elevar seus anúncios responsivos de pesquisa

Embora os anúncios de pesquisa responsivos (RSAs) do...

Assine

spot_img

Veja Também

Assista: Os novos modelos Llama 3 da Meta dão um impulso à IA de código aberto

Novo Os modelos de IA da Meta estão...

Webflow adquire Intellimize para adicionar personalização de páginas da web com tecnologia de IA

Fluxo da Webuma plataforma de web design e...

Comarch realiza novo webinar – Principais tendências de fidelidade: ideias específicas do setor para 2024

Estudos mostram que clientes fiéis são responsáveis ​​por...

7 maneiras de elevar seus anúncios responsivos de pesquisa

Embora os anúncios de pesquisa responsivos (RSAs) do...

A semana de novidades da Tesla, e a fintech está tendo um momento?

Já se passou mais de um minuto desde...
spot_img

Assista: Os novos modelos Llama 3 da Meta dão um impulso à IA de código aberto

Novo Os modelos de IA da Meta estão causando sucesso nos círculos de tecnologia. Os dois novos modelos, parte da linha Llama...

Webflow adquire Intellimize para adicionar personalização de páginas da web com tecnologia de IA

Fluxo da Webuma plataforma de web design e hospedagem que arrecadou mais de US$ 330 milhões com uma avaliação de US$ 4 bilhões,...

Comarch realiza novo webinar – Principais tendências de fidelidade: ideias específicas do setor para 2024

Estudos mostram que clientes fiéis são responsáveis ​​por tanto quanto 65% de todas as compras de marca. Em tempos económicos turbulentos, quando...