Posts Recentes:

Jack Dorsey diz que não está mais no conselho da Bluesky

Parece que o patrocinador mais proeminente da Bluesky...

Por que a NASA está apostando em uma câmera de 36 pixels

O Telescópio Espacial James Webb da NASA está...

A nova atenção infinita e SEO do Google


O Google publicou um artigo de pesquisa sobre uma nova tecnologia chamada Infini-attention, que permite processar grandes quantidades de dados com “contextos infinitamente longos”, ao mesmo tempo que é capaz de ser facilmente inserida em outros modelos para melhorar enormemente suas capacidades.

Essa última parte deve interessar a quem se interessa pelo algoritmo do Google. O Infini-Attention é plug-and-play, o que significa que é relativamente fácil de inserir em outros modelos, incluindo aqueles em uso pelo algoritmo principal do Google. A parte sobre “contextos infinitamente longos” pode ter implicações no funcionamento de alguns dos sistemas de busca do Google.

O nome do artigo de pesquisa é: Não deixe nenhum contexto para trás: transformadores de contexto infinito eficientes com atenção infinita

A memória é computacionalmente cara para LLMs

Os modelos de linguagem grande (LLM) têm limitações na quantidade de dados que podem processar de uma vez porque a complexidade computacional e o uso de memória podem aumentar significativamente. Infini-Attention dá ao LLM a capacidade de lidar com contextos mais longos, mantendo a memória baixa e o poder de processamento necessários.

O artigo de pesquisa explica:

“A memória serve como base da inteligência, pois permite cálculos eficientes adaptados a contextos específicos. No entanto, Transformers… e LLMs baseados em Transformer… têm uma memória restrita dependente do contexto, devido à natureza do mecanismo de atenção.

Na verdade, escalar LLMs para sequências mais longas (ou seja, tokens de 1 milhão) é um desafio com as arquiteturas padrão do Transformer e servir modelos de contexto cada vez mais longos torna-se caro financeiramente.”

E em outro lugar o artigo de pesquisa explica:

“Os modelos de transformadores de corrente são limitados em sua capacidade de processar sequências longas devido a aumentos quadráticos nos custos computacionais e de memória. A Infini-attention visa resolver esse problema de escalabilidade.”

Os pesquisadores levantaram a hipótese de que a atenção Infini pode ser dimensionada para lidar com sequências extremamente longas com Transformers sem os aumentos usuais em recursos computacionais e de memória.

Três recursos importantes

O Infini-Attention do Google resolve as deficiências dos modelos de transformadores incorporando três recursos que permitem que LLMs baseados em transformadores lidem com sequências mais longas sem problemas de memória e usem o contexto de dados anteriores na sequência, não apenas dados próximos ao ponto atual que está sendo processado.

As características do Infini-Atenção

  • Sistema de memória compressiva
  • Atenção Linear de Longo Prazo
  • Atenção mascarada local

Sistema de memória compressiva

Infini-Attention usa o que é chamado de sistema de memória compressiva. À medida que mais dados são inseridos (como parte de uma longa sequência de dados), o sistema de memória compressiva comprime algumas das informações mais antigas para reduzir a quantidade de espaço necessária para armazenar os dados.

Atenção Linear de Longo Prazo

A atenção infinita também usa o que é chamado de “mecanismos de atenção linear de longo prazo” que permitem ao LLM processar dados que existem anteriormente na sequência de dados que estão sendo processados, o que permite reter o contexto. Isso é diferente dos LLMs baseados em transformadores padrão.

Isto é importante para tarefas onde o contexto existe em um plano maior de dados. É como poder discutir um livro inteiro e todos os capítulos e explicar como o primeiro capítulo se relaciona com outro capítulo mais próximo do final do livro.

Atenção mascarada local

Além da atenção de longo prazo, a atenção Infini também usa o que é chamado de atenção mascarada local. Este tipo de atenção processa partes próximas (localizadas) dos dados de entrada, o que é útil para respostas que dependem de partes mais próximas dos dados.

Combinar a atenção local e de longo prazo ajuda a resolver o problema de os transformadores serem limitados à quantidade de dados de entrada que podem lembrar e usar para contextualizar.

Os pesquisadores explicam:

“A atenção Infini incorpora uma memória compressiva no mecanismo de atenção vanilla e constrói tanto a atenção local mascarada quanto os mecanismos de atenção linear de longo prazo em um único bloco Transformer.”

Resultados de experimentos e testes

A atenção infinita foi testada com outros modelos para comparação em vários benchmarks envolvendo longas sequências de entrada, como modelagem de linguagem de contexto longo, recuperação de chave de acesso e tarefas de resumo de livros. A recuperação de senha é um teste em que o modelo de linguagem precisa recuperar dados específicos de uma sequência de texto extremamente longa.

Lista dos três testes:

  1. Modelagem de linguagem de contexto longo
  2. Teste de chave de acesso
  3. Resumo do livro

Modelagem de linguagem de longo contexto e pontuação de perplexidade

Os pesquisadores escrevem que a atenção Infini superou os modelos básicos e que o aumento da duração da sequência de treinamento trouxe melhorias ainda maiores no Pontuação de perplexidade. A pontuação de Perplexidade é uma métrica que mede o desempenho do modelo de linguagem, com pontuações mais baixas indicando melhor desempenho.

Os pesquisadores compartilharam suas descobertas:

“O Infini-Transformer supera as linhas de base do Transformer-XL… e do Memorizing Transformers, mantendo 114x menos parâmetros de memória do que o modelo Memorizing Transformer com uma memória KV baseada em recuperação de vetor com comprimento de 65K em sua 9ª camada. O Infini-Transformer supera os transformadores de memorização com comprimento de memória de 65K e atinge uma taxa de compressão de 114x.

Aumentamos ainda mais o comprimento da sequência de treinamento de 32K para 100K e treinamos os modelos no conjunto de dados Arxiv-math. O treinamento de 100K diminuiu ainda mais a pontuação de perplexidade para 2,21 e 2,20 para modelos Linear e Linear + Delta.”

Teste de chave de acesso

O teste de chave de acesso consiste em um número aleatório oculto em uma longa sequência de texto, com a tarefa de que o modelo busque o texto oculto. A chave de acesso fica oculta perto do início, do meio ou do final do texto descritivo. O modelo foi capaz de resolver o teste de senha de até 1 milhão.

“Um LLM 1B é naturalmente dimensionado para comprimento de sequência de 1M e resolve a tarefa de recuperação de chave de acesso quando injetado com atenção Infini. Os Infini-Transformers resolveram a tarefa da chave de acesso com comprimento de contexto de até 1M quando ajustados em entradas de comprimento de 5K. Relatamos a precisão da recuperação em nível de token para chaves de acesso ocultas em uma parte diferente (início/meio/fim) de entradas longas com comprimentos de 32K a 1M.”

Teste de Resumo do Livro

A Infini-attention também se destacou no teste de resumo do livro, superando os principais benchmarks e alcançando novos níveis de desempenho de última geração (SOTA).

Os resultados são descritos:

“Finalmente, mostramos que um modelo 8B com atenção Infini alcança um novo resultado SOTA em uma tarefa de resumo de livro de 500K após pré-treinamento contínuo e ajuste fino da tarefa.

… Ampliamos ainda mais nossa abordagem pré-treinando continuamente um modelo 8B LLM com comprimento de entrada de 8K para etapas de 30K. Em seguida, aprimoramos uma tarefa de resumo de livros, BookSum (Kry´sci´nski et al., 2021), onde o objetivo é gerar um resumo do texto completo de um livro.

Nosso modelo supera os melhores resultados anteriores e alcança um novo SOTA no BookSum processando todo o texto do livro. …Há uma tendência clara que mostra que com mais texto fornecido como entrada de livros, nossos Infini-Transformers melhoram sua métrica de desempenho de resumo.”

Implicações da atenção infinita para SEO

A atenção Infini é um avanço na modelagem da atenção de longo e curto alcance com maior eficiência do que os modelos anteriores sem atenção Infini. Ele também suporta “pré-treinamento contínuo plug-and-play e adaptação de longo contexto
by design”, o que significa que pode ser facilmente integrado em modelos existentes.

Por último, o “pré-treinamento contínuo e adaptação de longo contexto” o torna excepcionalmente útil para cenários onde é necessário treinar constantemente o modelo com novos dados. Esta última parte é super interessante porque pode ser útil para aplicações no back-end dos sistemas de busca do Google, principalmente onde é necessário poder analisar longas sequências de informações e entender a relevância de uma parte próxima ao início da sequência. e outra parte que está mais perto do fim.

Outros artigos focaram nas “entradas infinitamente longas” que este modelo é capaz, mas onde é relevante para SEO é como essa capacidade de lidar com entradas enormes e “Não deixar nenhum contexto para trás” é o que é relevante para o marketing de busca e como alguns dos sistemas do Google podem funcionaria se o Google adaptasse a atenção Infini ao seu algoritmo principal.

Leia o artigo de pesquisa:

Não deixe nenhum contexto para trás: transformadores de contexto infinito eficientes com atenção infinita

Imagem em destaque por Shutterstock/JHVEPhoto

Últimas

Jack Dorsey diz que não está mais no conselho da Bluesky

Parece que o patrocinador mais proeminente da Bluesky...

Por que a NASA está apostando em uma câmera de 36 pixels

O Telescópio Espacial James Webb da NASA está...

Nuvens alternativas estão crescendo à medida que as empresas buscam acesso mais barato às GPUs

O apetite por nuvens alternativas nunca foi tão...

SoundCloud assume o recurso Discover Weekly do Spotify com novas ‘Buzzing Playlists’

SoundCloud lançou um novo conjunto de playlists sob...

Assine

spot_img

Veja Também

Jack Dorsey diz que não está mais no conselho da Bluesky

Parece que o patrocinador mais proeminente da Bluesky...

Por que a NASA está apostando em uma câmera de 36 pixels

O Telescópio Espacial James Webb da NASA está...

Nuvens alternativas estão crescendo à medida que as empresas buscam acesso mais barato às GPUs

O apetite por nuvens alternativas nunca foi tão...

SoundCloud assume o recurso Discover Weekly do Spotify com novas ‘Buzzing Playlists’

SoundCloud lançou um novo conjunto de playlists sob...

Sua startup nativa de IA não é igual a uma típica empresa de SaaS

As startups de IA enfrentam um conjunto diferente...
spot_img

Jack Dorsey diz que não está mais no conselho da Bluesky

Parece que o patrocinador mais proeminente da Bluesky não está mais no conselho. No sábado, Jack Dorsey postou no X sobre subsídios para protocolos...

Por que a NASA está apostando em uma câmera de 36 pixels

O Telescópio Espacial James Webb da NASA está fazendo progressos na astronomia com suas fotos principalmente infravermelhas de 122 megapixels tiradas a 1,5...

Nuvens alternativas estão crescendo à medida que as empresas buscam acesso mais barato às GPUs

O apetite por nuvens alternativas nunca foi tão grande. Caso em questão: CoreWeave, o provedor de infraestrutura de GPU que começou como uma operação...