Posts Recentes:

Albedo leva a observação da Terra de perto e pessoalmente a partir da órbita terrestre muito baixa

Inicialização de imagens de satélite Albedo está se...

Google Ads elimina gradualmente pagamentos com cartão

O Google está notificando alguns anunciantes de que...

Pinterest lança ferramentas de anúncios de IA

O Pinterest está lançando novas ferramentas de anúncios...

Google DeepMind RecurrentGemma supera modelos de transformadores


O Google DeepMind publicou um artigo de pesquisa que propõe um modelo de linguagem chamado RecurrentGemma que pode igualar ou exceder o desempenho de modelos baseados em transformadores ao mesmo tempo em que é mais eficiente em termos de memória, oferecendo a promessa de desempenho de modelo de linguagem grande em ambientes com recursos limitados.

O artigo de pesquisa oferece uma breve visão geral:

“Apresentamos o RecurrentGemma, um modelo de linguagem aberta que usa a nova arquitetura Griffin do Google. Griffin combina recorrências lineares com atenção local para obter excelente desempenho na linguagem. Possui um estado de tamanho fixo, o que reduz o uso de memória e permite inferência eficiente em sequências longas. Fornecemos um modelo pré-treinado com parâmetros não incorporados 2B e uma variante ajustada por instrução. Ambos os modelos alcançam desempenho comparável ao Gemma-2B, apesar de serem treinados com menos tokens.”

Conexão com Gemma

Gemma é um modelo aberto que usa a tecnologia Gemini de nível superior do Google, mas é leve e pode ser executado em laptops e dispositivos móveis. Semelhante ao Gemma, o RecurrentGemma também pode funcionar em ambientes com recursos limitados. Outras semelhanças entre Gemma e RecurrentGemma estão nos dados de pré-treinamento, ajuste de instrução e RLHF (Reinforcement Learning From Human Feedback). RLHF é uma forma de usar o feedback humano para treinar um modelo para aprender por conta própria, para IA generativa.

Arquitetura Grifo

O novo modelo é baseado em um modelo híbrido chamado Griffin, anunciado há alguns meses. Griffin é chamado de modelo “híbrido” porque usa dois tipos de tecnologias, uma que permite lidar com eficiência com longas sequências de informações, enquanto a outra permite focar nas partes mais recentes da entrada, o que lhe dá a capacidade de processar “significativamente” mais dados (maior rendimento) no mesmo intervalo de tempo que os modelos baseados em transformador e também diminui o tempo de espera (latência).

O artigo de pesquisa da Griffin propôs dois modelos, um chamado Hawk e outro chamado Griffin. O artigo de pesquisa da Griffin explica por que é um avanço:

“…validamos empiricamente as vantagens do tempo de inferência do Hawk e do Griffin e observamos latência reduzida e rendimento significativamente aumentado em comparação com nossas linhas de base do Transformer. Por último, Hawk e Griffin exibem a capacidade de extrapolar sequências mais longas do que foram treinados e são capazes de aprender com eficiência a copiar e recuperar dados em longos horizontes. Estas descobertas sugerem fortemente que os nossos modelos propostos oferecem uma alternativa poderosa e eficiente aos Transformers com atenção global.”

A diferença entre Griffin e RecurrentGemma está em uma modificação relacionada à forma como o modelo processa os dados de entrada (incorporação de entrada).

Avanços

O artigo de pesquisa afirma que o RecurrentGemma oferece desempenho semelhante ou melhor do que o modelo de transformador mais convencional Gemma-2b (que foi treinado em 3 trilhões de tokens contra 2 trilhões do RecurrentGemma). Isso é parte do motivo pelo qual o artigo de pesquisa é intitulado “Moving Past Transformer Models”, porque mostra uma maneira de obter maior desempenho sem a alta sobrecarga de recursos da arquitetura do transformador.

Outra vitória sobre os modelos de transformadores está na redução do uso de memória e nos tempos de processamento mais rápidos. O artigo de pesquisa explica:

“Uma vantagem importante do RecurrentGemma é que ele tem um tamanho de estado significativamente menor do que os transformadores em sequências longas. Enquanto o cache KV do Gemma cresce proporcionalmente ao comprimento da sequência, o estado do RecurrentGemma é limitado e não aumenta em sequências maiores que o tamanho da janela de atenção local de 2k tokens. Conseqüentemente, enquanto a amostra mais longa que pode ser gerada autoregressivamente pelo Gemma é limitada pela memória disponível no host, o RecurrentGemma pode gerar sequências de comprimento arbitrário.”

RecurrentGemma também supera o modelo do transformador Gemma em rendimento (quantidade de dados que podem ser processados, quanto maior, melhor). O rendimento do modelo do transformador sofre com comprimentos de sequência mais altos (aumento no número de tokens ou palavras), mas esse não é o caso do RecurrentGemma, que é capaz de manter um alto rendimento.

O artigo de pesquisa mostra:

“Na Figura 1a, traçamos o rendimento alcançado ao amostrar um prompt de 2k tokens para uma faixa de comprimentos de geração. A taxa de transferência calcula o número máximo de tokens que podemos amostrar por segundo em um único dispositivo TPUv5e.

…RecurrentGemma atinge maior rendimento em todos os comprimentos de sequência considerados. O rendimento alcançado pelo RecurrentGemma não diminui à medida que o comprimento da sequência aumenta, enquanto o rendimento alcançado pelo Gemma cai à medida que o cache cresce.”

Limitações do RecurrentGemma

O artigo de pesquisa mostra que esta abordagem apresenta suas próprias limitações onde o desempenho fica atrás em comparação com os modelos de transformadores tradicionais.

Os pesquisadores destacam uma limitação no tratamento de sequências muito longas, algo que os modelos de transformadores são capazes de lidar.

De acordo com o jornal:

“Embora os modelos RecurrentGemma sejam altamente eficientes para sequências mais curtas, seu desempenho pode ficar atrás dos modelos de transformadores tradicionais como Gemma-2B ao lidar com sequências extremamente longas que excedem a janela de atenção local.”

O que isso significa para o mundo real

A importância desta abordagem para modelos de linguagem é que ela sugere que existem outras maneiras de melhorar o desempenho dos modelos de linguagem enquanto utiliza menos recursos computacionais em uma arquitetura que não é um modelo de transformador. Isso também mostra que um modelo sem transformador pode superar uma das limitações dos tamanhos de cache do modelo de transformador que tendem a aumentar o uso de memória.

Isto poderia levar a aplicações de modelos de linguagem num futuro próximo que podem funcionar em ambientes com recursos limitados.

Leia o artigo de pesquisa do Google DeepMind:

RecurrentGemma: Superando os transformadores para modelos eficientes de linguagem aberta (PDF)

Imagem em destaque da Shutterstock/Photo For Everything

Últimas

Albedo leva a observação da Terra de perto e pessoalmente a partir da órbita terrestre muito baixa

Inicialização de imagens de satélite Albedo está se...

Google Ads elimina gradualmente pagamentos com cartão

O Google está notificando alguns anunciantes de que...

Pinterest lança ferramentas de anúncios de IA

O Pinterest está lançando novas ferramentas de anúncios...

O que você precisa para gerar leads com conteúdo

Este é um trecho do e-book B2B Lead...

Assine

spot_img

Veja Também

Albedo leva a observação da Terra de perto e pessoalmente a partir da órbita terrestre muito baixa

Inicialização de imagens de satélite Albedo está se...

Google Ads elimina gradualmente pagamentos com cartão

O Google está notificando alguns anunciantes de que...

Pinterest lança ferramentas de anúncios de IA

O Pinterest está lançando novas ferramentas de anúncios...

O que você precisa para gerar leads com conteúdo

Este é um trecho do e-book B2B Lead...

Chefe da Pesquisa Google: erros de IA não impedirão o progresso

O Google continuará desenvolvendo recursos de IA, apesar...
spot_img

Albedo leva a observação da Terra de perto e pessoalmente a partir da órbita terrestre muito baixa

Inicialização de imagens de satélite Albedo está se preparando para sua estreia de perto e pessoal.O primeiro satélite da Albedo entrará em órbita...

Google Ads elimina gradualmente pagamentos com cartão

O Google está notificando alguns anunciantes de que eles devem deixar de pagar pelo Google Ads com cartão de crédito ou débito até...

Pinterest lança ferramentas de anúncios de IA

O Pinterest está lançando novas ferramentas de anúncios baseadas em IA e parcerias de medição para melhorar o desempenho e a segurança da...