O novo modelo de IA do AI21 Labs pode lidar com mais contexto do que a maioria

Cada vez mais, a indústria da IA está a avançar para modelos de IA generativos com contextos mais longos. Mas modelos com grandes janelas de contexto tendem a exigir muita computação. Ou Dagan, líder de produto na startup de IA Laboratórios AI21afirma que não precisa ser assim – e sua empresa está lançando um modelo generativo para provar isso.

Contextos, ou janelas de contexto, referem-se aos dados de entrada (por exemplo, texto) que um modelo considera antes de gerar a saída (mais texto). Modelos com janelas de contexto pequenas tendem a esquecer o conteúdo até mesmo de conversas muito recentes, enquanto modelos com contextos maiores evitam essa armadilha — e, como benefício adicional, compreendem melhor o fluxo de dados que absorvem.

Jamba do AI21 Labs, um novo modelo de geração e análise de texto, pode executar muitas das mesmas tarefas que modelos como o do OpenAI Bate-papoGPT e do Google Gêmeos pode. Treinado em uma combinação de dados públicos e proprietários, Jamba pode escrever textos em inglês, francês, espanhol e português.

O Jamba pode lidar com até 140.000 tokens enquanto roda em uma única GPU com pelo menos 80 GB de memória (como uma Nvidia A100 de última geração). Isso se traduz em cerca de 105.000 palavras, ou 210 páginas – um romance de tamanho decente.

Metas Lhama 2, em comparação, tem uma janela de contexto de 32.000 tokens – o menor para os padrões atuais – mas requer apenas uma GPU com aproximadamente 12 GB de memória para funcionar. (As janelas de contexto são normalmente medidas em tokens, que são pedaços de texto bruto e outros dados.)

À primeira vista, Jamba não é digno de nota. Existem muitos modelos de IA generativos disponíveis gratuitamente para download, desde DBRX lançado recentemente pelo Databricks ao mencionado Lhama 2.

Mas o que torna o Jamba único é o que está por baixo do capô. Ele usa uma combinação de duas arquiteturas de modelo: transformadores e modelos de espaço de estados (SSMs).

Os transformadores são a arquitetura preferida para tarefas de raciocínio complexas, alimentando modelos como GPT-4 e Gemini do Google, por exemplo. Eles têm várias características únicas, mas de longe a característica que define os transformadores é o seu “mecanismo de atenção”. Para cada dado de entrada (por exemplo, uma frase), transformadores pesar a relevância de todas as outras entradas (outras frases) e extrair delas para gerar a saída (uma nova frase).

Os SSMs, por outro lado, combinam várias qualidades de tipos mais antigos de modelos de IA, como redes neurais recorrentes e redes neurais convolucionais, para criar uma arquitetura computacionalmente mais eficiente, capaz de lidar com longas sequências de dados.

Agora, os SSMs têm as suas limitações. Mas algumas das primeiras encarnações, incluindo um modelo de código aberto chamado Mamba, dos pesquisadores de Princeton e Carnegie Mellon, podem lidar com entradas maiores do que seus equivalentes baseados em transformadores, ao mesmo tempo que os superam em tarefas de geração de linguagem.

Na verdade, o Jamba usa o Mamba como parte do modelo principal – e Dagan afirma que ele oferece três vezes mais rendimento em contextos longos em comparação com modelos baseados em transformadores de tamanhos comparáveis.

“Embora existam alguns exemplos acadêmicos iniciais de modelos SSM, este é o primeiro modelo comercial em escala de produção”, disse Dagan em entrevista ao TechCrunch. “Essa arquitetura, além de inovadora e interessante para futuras pesquisas da comunidade, abre grandes possibilidades de eficiência e rendimento.”

Agora, embora o Jamba tenha sido lançado sob a licença Apache 2.0, uma licença de código aberto com relativamente poucas restrições de uso, Dagan enfatiza que é uma versão de pesquisa que não se destina a ser usada comercialmente. O modelo não possui salvaguardas para evitar a geração de textos tóxicos ou mitigações para lidar com possíveis preconceitos; uma versão aprimorada e aparentemente “mais segura” será disponibilizada nas próximas semanas.

Mas Dagan afirma que Jamba demonstra a promessa da arquitetura SSM mesmo nesta fase inicial.

“O valor agregado deste modelo, tanto pelo seu tamanho quanto pela sua arquitetura inovadora, é que ele pode ser facilmente encaixado em uma única GPU”, disse ele. “Acreditamos que o desempenho irá melhorar ainda mais à medida que o Mamba receber ajustes adicionais.”

Adicione o SEO Fórum ao seu feed do Google Notícias.

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

SEO Fórum

Conteúdo

Redes Sociais

Posts Recentes:

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

SEO Fórum

Conteúdo

Redes Sociais

O novo modelo de IA do AI21 Labs pode lidar com mais contexto do que a maioria

Últimas

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

25 WordPress Alternatives Best For SEO

Assine

Veja Também

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

25 WordPress Alternatives Best For SEO

Robôs humanóides estão aprendendo a cair bem

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

Institucional

Mais Recentes

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

25 WordPress Alternatives Best For SEO

Mais Populares

6 razões pelas quais seus relatórios do GA4 não estão somando

Como Adicionar Imagens Facilmente no WordPress

Microsoft relança pubCenter

Este ex-futuro unicórnio será vendido por peças?

Assine