Posts Recentes:

O novo modelo de IA do AI21 Labs pode lidar com mais contexto do que a maioria


Cada vez mais, a indústria da IA ​​está a avançar para modelos de IA generativos com contextos mais longos. Mas modelos com grandes janelas de contexto tendem a exigir muita computação. Ou Dagan, líder de produto na startup de IA Laboratórios AI21afirma que não precisa ser assim – e sua empresa está lançando um modelo generativo para provar isso.

Contextos, ou janelas de contexto, referem-se aos dados de entrada (por exemplo, texto) que um modelo considera antes de gerar a saída (mais texto). Modelos com janelas de contexto pequenas tendem a esquecer o conteúdo até mesmo de conversas muito recentes, enquanto modelos com contextos maiores evitam essa armadilha — e, como benefício adicional, compreendem melhor o fluxo de dados que absorvem.

Jamba do AI21 Labs, um novo modelo de geração e análise de texto, pode executar muitas das mesmas tarefas que modelos como o do OpenAI Bate-papoGPT e do Google Gêmeos pode. Treinado em uma combinação de dados públicos e proprietários, Jamba pode escrever textos em inglês, francês, espanhol e português.

O Jamba pode lidar com até 140.000 tokens enquanto roda em uma única GPU com pelo menos 80 GB de memória (como uma Nvidia A100 de última geração). Isso se traduz em cerca de 105.000 palavras, ou 210 páginas – um romance de tamanho decente.

Metas Lhama 2, em comparação, tem uma janela de contexto de 32.000 tokens – o menor para os padrões atuais – mas requer apenas uma GPU com aproximadamente 12 GB de memória para funcionar. (As janelas de contexto são normalmente medidas em tokens, que são pedaços de texto bruto e outros dados.)

À primeira vista, Jamba não é digno de nota. Existem muitos modelos de IA generativos disponíveis gratuitamente para download, desde DBRX lançado recentemente pelo Databricks ao mencionado Lhama 2.

Mas o que torna o Jamba único é o que está por baixo do capô. Ele usa uma combinação de duas arquiteturas de modelo: transformadores e modelos de espaço de estados (SSMs).

Os transformadores são a arquitetura preferida para tarefas de raciocínio complexas, alimentando modelos como GPT-4 e Gemini do Google, por exemplo. Eles têm várias características únicas, mas de longe a característica que define os transformadores é o seu “mecanismo de atenção”. Para cada dado de entrada (por exemplo, uma frase), transformadores pesar a relevância de todas as outras entradas (outras frases) e extrair delas para gerar a saída (uma nova frase).

Os SSMs, por outro lado, combinam várias qualidades de tipos mais antigos de modelos de IA, como redes neurais recorrentes e redes neurais convolucionais, para criar uma arquitetura computacionalmente mais eficiente, capaz de lidar com longas sequências de dados.

Agora, os SSMs têm as suas limitações. Mas algumas das primeiras encarnações, incluindo um modelo de código aberto chamado Mamba, dos pesquisadores de Princeton e Carnegie Mellon, podem lidar com entradas maiores do que seus equivalentes baseados em transformadores, ao mesmo tempo que os superam em tarefas de geração de linguagem.

Na verdade, o Jamba usa o Mamba como parte do modelo principal – e Dagan afirma que ele oferece três vezes mais rendimento em contextos longos em comparação com modelos baseados em transformadores de tamanhos comparáveis.

“Embora existam alguns exemplos acadêmicos iniciais de modelos SSM, este é o primeiro modelo comercial em escala de produção”, disse Dagan em entrevista ao TechCrunch. “Essa arquitetura, além de inovadora e interessante para futuras pesquisas da comunidade, abre grandes possibilidades de eficiência e rendimento.”

Agora, embora o Jamba tenha sido lançado sob a licença Apache 2.0, uma licença de código aberto com relativamente poucas restrições de uso, Dagan enfatiza que é uma versão de pesquisa que não se destina a ser usada comercialmente. O modelo não possui salvaguardas para evitar a geração de textos tóxicos ou mitigações para lidar com possíveis preconceitos; uma versão aprimorada e aparentemente “mais segura” será disponibilizada nas próximas semanas.

Mas Dagan afirma que Jamba demonstra a promessa da arquitetura SSM mesmo nesta fase inicial.

“O valor agregado deste modelo, tanto pelo seu tamanho quanto pela sua arquitetura inovadora, é que ele pode ser facilmente encaixado em uma única GPU”, disse ele. “Acreditamos que o desempenho irá melhorar ainda mais à medida que o Mamba receber ajustes adicionais.”

Últimas

Assine

spot_img

Veja Também

Assista: Os novos modelos Llama 3 da Meta dão um impulso à IA de código aberto

Novo Os modelos de IA da Meta estão...

Webflow adquire Intellimize para adicionar personalização de páginas da web com tecnologia de IA

Fluxo da Webuma plataforma de web design e...

Comarch realiza novo webinar – Principais tendências de fidelidade: ideias específicas do setor para 2024

Estudos mostram que clientes fiéis são responsáveis ​​por...

7 maneiras de elevar seus anúncios responsivos de pesquisa

Embora os anúncios de pesquisa responsivos (RSAs) do...
spot_img

Assista: Os novos modelos Llama 3 da Meta dão um impulso à IA de código aberto

Novo Os modelos de IA da Meta estão causando sucesso nos círculos de tecnologia. Os dois novos modelos, parte da linha Llama...

Webflow adquire Intellimize para adicionar personalização de páginas da web com tecnologia de IA

Fluxo da Webuma plataforma de web design e hospedagem que arrecadou mais de US$ 330 milhões com uma avaliação de US$ 4 bilhões,...