O Google publicou um artigo de pesquisa sobre uma nova tecnologia chamada Infini-attention, que permite processar grandes quantidades de dados com “contextos infinitamente longos”, ao mesmo tempo que é capaz de ser facilmente inserida em outros modelos para melhorar enormemente suas capacidades.
Essa última parte deve interessar a quem se interessa pelo algoritmo do Google. O Infini-Attention é plug-and-play, o que significa que é relativamente fácil de inserir em outros modelos, incluindo aqueles em uso pelo algoritmo principal do Google. A parte sobre “contextos infinitamente longos” pode ter implicações no funcionamento de alguns dos sistemas de busca do Google.
O nome do artigo de pesquisa é: Não deixe nenhum contexto para trás: transformadores de contexto infinito eficientes com atenção infinita
A memória é computacionalmente cara para LLMs
Os modelos de linguagem grande (LLM) têm limitações na quantidade de dados que podem processar de uma vez porque a complexidade computacional e o uso de memória podem aumentar significativamente. Infini-Attention dá ao LLM a capacidade de lidar com contextos mais longos, mantendo a memória baixa e o poder de processamento necessários.
O artigo de pesquisa explica:
“A memória serve como base da inteligência, pois permite cálculos eficientes adaptados a contextos específicos. No entanto, Transformers… e LLMs baseados em Transformer… têm uma memória restrita dependente do contexto, devido à natureza do mecanismo de atenção.
Na verdade, escalar LLMs para sequências mais longas (ou seja, tokens de 1 milhão) é um desafio com as arquiteturas padrão do Transformer e servir modelos de contexto cada vez mais longos torna-se caro financeiramente.”
E em outro lugar o artigo de pesquisa explica:
“Os modelos de transformadores de corrente são limitados em sua capacidade de processar sequências longas devido a aumentos quadráticos nos custos computacionais e de memória. A Infini-attention visa resolver esse problema de escalabilidade.”
Os pesquisadores levantaram a hipótese de que a atenção Infini pode ser dimensionada para lidar com sequências extremamente longas com Transformers sem os aumentos usuais em recursos computacionais e de memória.
Três recursos importantes
O Infini-Attention do Google resolve as deficiências dos modelos de transformadores incorporando três recursos que permitem que LLMs baseados em transformadores lidem com sequências mais longas sem problemas de memória e usem o contexto de dados anteriores na sequência, não apenas dados próximos ao ponto atual que está sendo processado.
As características do Infini-Atenção
- Sistema de memória compressiva
- Atenção Linear de Longo Prazo
- Atenção mascarada local
Sistema de memória compressiva
Infini-Attention usa o que é chamado de sistema de memória compressiva. À medida que mais dados são inseridos (como parte de uma longa sequência de dados), o sistema de memória compressiva comprime algumas das informações mais antigas para reduzir a quantidade de espaço necessária para armazenar os dados.
Atenção Linear de Longo Prazo
A atenção infinita também usa o que é chamado de “mecanismos de atenção linear de longo prazo” que permitem ao LLM processar dados que existem anteriormente na sequência de dados que estão sendo processados, o que permite reter o contexto. Isso é diferente dos LLMs baseados em transformadores padrão.
Isto é importante para tarefas onde o contexto existe em um plano maior de dados. É como poder discutir um livro inteiro e todos os capítulos e explicar como o primeiro capítulo se relaciona com outro capítulo mais próximo do final do livro.
Atenção mascarada local
Além da atenção de longo prazo, a atenção Infini também usa o que é chamado de atenção mascarada local. Este tipo de atenção processa partes próximas (localizadas) dos dados de entrada, o que é útil para respostas que dependem de partes mais próximas dos dados.
Combinar a atenção local e de longo prazo ajuda a resolver o problema de os transformadores serem limitados à quantidade de dados de entrada que podem lembrar e usar para contextualizar.
Os pesquisadores explicam:
“A atenção Infini incorpora uma memória compressiva no mecanismo de atenção vanilla e constrói tanto a atenção local mascarada quanto os mecanismos de atenção linear de longo prazo em um único bloco Transformer.”
Resultados de experimentos e testes
A atenção infinita foi testada com outros modelos para comparação em vários benchmarks envolvendo longas sequências de entrada, como modelagem de linguagem de contexto longo, recuperação de chave de acesso e tarefas de resumo de livros. A recuperação de senha é um teste em que o modelo de linguagem precisa recuperar dados específicos de uma sequência de texto extremamente longa.
Lista dos três testes:
- Modelagem de linguagem de contexto longo
- Teste de chave de acesso
- Resumo do livro
Modelagem de linguagem de longo contexto e pontuação de perplexidade
Os pesquisadores escrevem que a atenção Infini superou os modelos básicos e que o aumento da duração da sequência de treinamento trouxe melhorias ainda maiores no Pontuação de perplexidade. A pontuação de Perplexidade é uma métrica que mede o desempenho do modelo de linguagem, com pontuações mais baixas indicando melhor desempenho.
Os pesquisadores compartilharam suas descobertas:
“O Infini-Transformer supera as linhas de base do Transformer-XL… e do Memorizing Transformers, mantendo 114x menos parâmetros de memória do que o modelo Memorizing Transformer com uma memória KV baseada em recuperação de vetor com comprimento de 65K em sua 9ª camada. O Infini-Transformer supera os transformadores de memorização com comprimento de memória de 65K e atinge uma taxa de compressão de 114x.
Aumentamos ainda mais o comprimento da sequência de treinamento de 32K para 100K e treinamos os modelos no conjunto de dados Arxiv-math. O treinamento de 100K diminuiu ainda mais a pontuação de perplexidade para 2,21 e 2,20 para modelos Linear e Linear + Delta.”
Teste de chave de acesso
O teste de chave de acesso consiste em um número aleatório oculto em uma longa sequência de texto, com a tarefa de que o modelo busque o texto oculto. A chave de acesso fica oculta perto do início, do meio ou do final do texto descritivo. O modelo foi capaz de resolver o teste de senha de até 1 milhão.
“Um LLM 1B é naturalmente dimensionado para comprimento de sequência de 1M e resolve a tarefa de recuperação de chave de acesso quando injetado com atenção Infini. Os Infini-Transformers resolveram a tarefa da chave de acesso com comprimento de contexto de até 1M quando ajustados em entradas de comprimento de 5K. Relatamos a precisão da recuperação em nível de token para chaves de acesso ocultas em uma parte diferente (início/meio/fim) de entradas longas com comprimentos de 32K a 1M.”
Teste de Resumo do Livro
A Infini-attention também se destacou no teste de resumo do livro, superando os principais benchmarks e alcançando novos níveis de desempenho de última geração (SOTA).
Os resultados são descritos:
“Finalmente, mostramos que um modelo 8B com atenção Infini alcança um novo resultado SOTA em uma tarefa de resumo de livro de 500K após pré-treinamento contínuo e ajuste fino da tarefa.
… Ampliamos ainda mais nossa abordagem pré-treinando continuamente um modelo 8B LLM com comprimento de entrada de 8K para etapas de 30K. Em seguida, aprimoramos uma tarefa de resumo de livros, BookSum (Kry´sci´nski et al., 2021), onde o objetivo é gerar um resumo do texto completo de um livro.
Nosso modelo supera os melhores resultados anteriores e alcança um novo SOTA no BookSum processando todo o texto do livro. …Há uma tendência clara que mostra que com mais texto fornecido como entrada de livros, nossos Infini-Transformers melhoram sua métrica de desempenho de resumo.”
Implicações da atenção infinita para SEO
A atenção Infini é um avanço na modelagem da atenção de longo e curto alcance com maior eficiência do que os modelos anteriores sem atenção Infini. Ele também suporta “pré-treinamento contínuo plug-and-play e adaptação de longo contexto
by design”, o que significa que pode ser facilmente integrado em modelos existentes.
Por último, o “pré-treinamento contínuo e adaptação de longo contexto” o torna excepcionalmente útil para cenários onde é necessário treinar constantemente o modelo com novos dados. Esta última parte é super interessante porque pode ser útil para aplicações no back-end dos sistemas de busca do Google, principalmente onde é necessário poder analisar longas sequências de informações e entender a relevância de uma parte próxima ao início da sequência. e outra parte que está mais perto do fim.
Outros artigos focaram nas “entradas infinitamente longas” que este modelo é capaz, mas onde é relevante para SEO é como essa capacidade de lidar com entradas enormes e “Não deixar nenhum contexto para trás” é o que é relevante para o marketing de busca e como alguns dos sistemas do Google podem funcionaria se o Google adaptasse a atenção Infini ao seu algoritmo principal.
Leia o artigo de pesquisa:
Não deixe nenhum contexto para trás: transformadores de contexto infinito eficientes com atenção infinita
Imagem em destaque por Shutterstock/JHVEPhoto