Posts Recentes:

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Bem-vindo de volta ao Mobilidade TechCrunch — seu...

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Qual é a próxima grande novidade na automação...

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

O Xiaomi Redmi Note 13 de 256 GB...

O novo modelo de IA do AI21 Labs pode lidar com mais contexto do que a maioria


Cada vez mais, a indústria da IA ​​está a avançar para modelos de IA generativos com contextos mais longos. Mas modelos com grandes janelas de contexto tendem a exigir muita computação. Ou Dagan, líder de produto na startup de IA Laboratórios AI21afirma que não precisa ser assim – e sua empresa está lançando um modelo generativo para provar isso.

Contextos, ou janelas de contexto, referem-se aos dados de entrada (por exemplo, texto) que um modelo considera antes de gerar a saída (mais texto). Modelos com janelas de contexto pequenas tendem a esquecer o conteúdo até mesmo de conversas muito recentes, enquanto modelos com contextos maiores evitam essa armadilha — e, como benefício adicional, compreendem melhor o fluxo de dados que absorvem.

Jamba do AI21 Labs, um novo modelo de geração e análise de texto, pode executar muitas das mesmas tarefas que modelos como o do OpenAI Bate-papoGPT e do Google Gêmeos pode. Treinado em uma combinação de dados públicos e proprietários, Jamba pode escrever textos em inglês, francês, espanhol e português.

O Jamba pode lidar com até 140.000 tokens enquanto roda em uma única GPU com pelo menos 80 GB de memória (como uma Nvidia A100 de última geração). Isso se traduz em cerca de 105.000 palavras, ou 210 páginas – um romance de tamanho decente.

Metas Lhama 2, em comparação, tem uma janela de contexto de 32.000 tokens – o menor para os padrões atuais – mas requer apenas uma GPU com aproximadamente 12 GB de memória para funcionar. (As janelas de contexto são normalmente medidas em tokens, que são pedaços de texto bruto e outros dados.)

À primeira vista, Jamba não é digno de nota. Existem muitos modelos de IA generativos disponíveis gratuitamente para download, desde DBRX lançado recentemente pelo Databricks ao mencionado Lhama 2.

Mas o que torna o Jamba único é o que está por baixo do capô. Ele usa uma combinação de duas arquiteturas de modelo: transformadores e modelos de espaço de estados (SSMs).

Os transformadores são a arquitetura preferida para tarefas de raciocínio complexas, alimentando modelos como GPT-4 e Gemini do Google, por exemplo. Eles têm várias características únicas, mas de longe a característica que define os transformadores é o seu “mecanismo de atenção”. Para cada dado de entrada (por exemplo, uma frase), transformadores pesar a relevância de todas as outras entradas (outras frases) e extrair delas para gerar a saída (uma nova frase).

Os SSMs, por outro lado, combinam várias qualidades de tipos mais antigos de modelos de IA, como redes neurais recorrentes e redes neurais convolucionais, para criar uma arquitetura computacionalmente mais eficiente, capaz de lidar com longas sequências de dados.

Agora, os SSMs têm as suas limitações. Mas algumas das primeiras encarnações, incluindo um modelo de código aberto chamado Mamba, dos pesquisadores de Princeton e Carnegie Mellon, podem lidar com entradas maiores do que seus equivalentes baseados em transformadores, ao mesmo tempo que os superam em tarefas de geração de linguagem.

Na verdade, o Jamba usa o Mamba como parte do modelo principal – e Dagan afirma que ele oferece três vezes mais rendimento em contextos longos em comparação com modelos baseados em transformadores de tamanhos comparáveis.

“Embora existam alguns exemplos acadêmicos iniciais de modelos SSM, este é o primeiro modelo comercial em escala de produção”, disse Dagan em entrevista ao TechCrunch. “Essa arquitetura, além de inovadora e interessante para futuras pesquisas da comunidade, abre grandes possibilidades de eficiência e rendimento.”

Agora, embora o Jamba tenha sido lançado sob a licença Apache 2.0, uma licença de código aberto com relativamente poucas restrições de uso, Dagan enfatiza que é uma versão de pesquisa que não se destina a ser usada comercialmente. O modelo não possui salvaguardas para evitar a geração de textos tóxicos ou mitigações para lidar com possíveis preconceitos; uma versão aprimorada e aparentemente “mais segura” será disponibilizada nas próximas semanas.

Mas Dagan afirma que Jamba demonstra a promessa da arquitetura SSM mesmo nesta fase inicial.

“O valor agregado deste modelo, tanto pelo seu tamanho quanto pela sua arquitetura inovadora, é que ele pode ser facilmente encaixado em uma única GPU”, disse ele. “Acreditamos que o desempenho irá melhorar ainda mais à medida que o Mamba receber ajustes adicionais.”

Últimas

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Bem-vindo de volta ao Mobilidade TechCrunch — seu...

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Qual é a próxima grande novidade na automação...

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

O Xiaomi Redmi Note 13 de 256 GB...

25 WordPress Alternatives Best For SEO

WordPress powers hundreds of millions of websites, but...

Assine

spot_img

Veja Também

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Bem-vindo de volta ao Mobilidade TechCrunch — seu...

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Qual é a próxima grande novidade na automação...

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

O Xiaomi Redmi Note 13 de 256 GB...

25 WordPress Alternatives Best For SEO

WordPress powers hundreds of millions of websites, but...

Robôs humanóides estão aprendendo a cair bem

Os profissionais de marketing experientes na Boston Dynamics...
spot_img

Lucros da Tesla caem, Fisker estagna e cidades da Califórnia lutam pelo controle de AVs

Bem-vindo de volta ao Mobilidade TechCrunch — seu hub central para notícias e insights sobre o futuro dos transportes. Assine aqui -...

Como os fornecedores de RPA pretendem permanecer relevantes em um mundo de agentes de IA

Qual é a próxima grande novidade na automação empresarial? Se você perguntar aos gigantes da tecnologia, são agentes – movidos por IA...

Xiaomi Redmi Note 13 de 256 GB com menor preço histórico na Amazon

O Xiaomi Redmi Note 13 de 256 GB está com um desconto imperdível na Amazon, sendo vendido por apenas R$1.220,00 à vista ou...