Posts Recentes:

SoftBank adquire fabricante de chips de IA do Reino Unido Graphcore

Empresa de chips do Reino Unido Gráficooré foi...

Pesquisadores do Google alertam que a IA está destruindo a internet

Um estudo feito por pesquisadores do Google aponta...

Os tokens são uma grande razão pela qual a IA generativa de hoje fica aquém


Modelos de IA generativa não processam texto da mesma forma que humanos. Entender seus ambientes internos baseados em “tokens” pode ajudar a explicar alguns de seus comportamentos estranhos — e limitações teimosas.

A maioria dos modelos, desde os pequenos no dispositivo como Gemma até o GPT-4o líder do setor da OpenAI, são construídos em uma arquitetura conhecida como transformador. Devido à maneira como os transformadores evocam associações entre texto e outros tipos de dados, eles não podem receber ou emitir texto bruto — pelo menos não sem uma quantidade massiva de computação.

Então, por razões pragmáticas e técnicas, os modelos de transformadores atuais funcionam com texto que foi dividido em pedaços menores, chamados tokens — um processo conhecido como tokenização.

Os tokens podem ser palavras, como “fantástico”. Ou podem ser sílabas, como “fan”, “tas” e “tic”. Dependendo do tokenizador — o modelo que faz a tokenização — eles podem até ser caracteres individuais em palavras (por exemplo, “f”, “a”, “n”, “t”, “a”, “s”, “t”, “i”, “c”).

Usando esse método, os transformadores podem absorver mais informações (no sentido semântico) antes de atingirem um limite superior conhecido como janela de contexto. Mas a tokenização também pode introduzir vieses.

Alguns tokens têm espaçamento estranho, o que pode descarrilhar um transformador. Um tokenizador pode codificar “once upon a time” como “once,” “upon,” “a,” “time,” por exemplo, enquanto codifica “once upon a ” (que tem um espaço em branco à direita) como “once,” “upon,” “a,” ” .” Dependendo de como um modelo é solicitado — com “once upon a” ou “once upon a ,” — os resultados podem ser completamente diferentes, porque o modelo não entende (como uma pessoa entenderia) que o significado é o mesmo.

Os tokenizadores também tratam o caso de forma diferente. “Olá” não é necessariamente o mesmo que “OLÁ” para um modelo; “olá” geralmente é um token (dependendo do tokenizador), enquanto “OLÁ” pode ter até três (“HE,” “El,” e “O”). É por isso que muitos transformadores falham no teste de letras maiúsculas.

“É meio difícil contornar a questão do que exatamente uma 'palavra' deveria ser para um modelo de linguagem, e mesmo se conseguíssemos que especialistas humanos concordassem com um vocabulário de token perfeito, os modelos provavelmente ainda achariam útil 'fragmentar' as coisas ainda mais”, disse Sheridan Feucht, um aluno de doutorado que estuda interpretabilidade de modelos de linguagem grande na Northeastern University, ao TechCrunch. “Meu palpite é que não existe um tokenizador perfeito devido a esse tipo de imprecisão.”

Essa “imprecisão” cria ainda mais problemas em outros idiomas além do inglês.

Muitos métodos de tokenização assumem que um espaço em uma frase denota uma nova palavra. Isso porque eles foram projetados com o inglês em mente. Mas nem todos os idiomas usam espaços para separar palavras. Chinês e japonês não usam — nem coreano, tailandês ou khmer.

Uma Oxford de 2023 estudar descobriu que, devido às diferenças na forma como línguas não inglesas são tokenizadas, pode levar o dobro do tempo para um transformador concluir uma tarefa formulada em uma língua não inglesa em comparação à mesma tarefa formulada em inglês. O mesmo estudo — e outro — descobriu que usuários de linguagens menos “eficientes em tokens” provavelmente verão pior desempenho do modelo, mas pagarão mais pelo uso, dado que muitos fornecedores de IA cobram por token.

Os tokenizadores geralmente tratam cada caractere em sistemas logográficos de escrita — sistemas nos quais símbolos impressos representam palavras sem se relacionar com a pronúncia, como o chinês — como um token distinto, levando a altas contagens de tokens. Da mesma forma, os tokenizadores que processam línguas aglutinativas — línguas nas quais as palavras são compostas de pequenos elementos significativos de palavras chamados morfemas, como o turco — tendem a transformar cada morfema em um token, aumentando as contagens gerais de tokens. (A palavra equivalente para “olá” em tailandês, สวัสดี, é seis tokens.)

Em 2023, a pesquisadora de IA do Google DeepMind, Yennie Jun conduzido uma análise comparando a tokenização de diferentes idiomas e seus efeitos posteriores. Usando um conjunto de dados de textos paralelos traduzidos para 52 idiomas, Jun mostrou que alguns idiomas precisavam de até 10 vezes mais tokens para capturar o mesmo significado em inglês.

Além das desigualdades linguísticas, a tokenização pode explicar por que os modelos atuais são ruins em matemática.

Raramente os dígitos são tokenizados de forma consistente. Porque eles não sei realmente o que são númerosos tokenizadores podem tratar “380” como um token, mas representar “381” como um par (“38” e “1”) — efetivamente destruindo os relacionamentos entre dígitos e resultados em equações e fórmulas. O resultado é a confusão do transformador; uma recente papel mostraram que os modelos têm dificuldade em compreender padrões numéricos repetitivos e contexto, particularmente dados temporais. (Ver: GPT-4 acha 7.735 é maior que 7.926).

Essa também é a razão pela qual os modelos não são bons em resolver problemas de anagramas ou invertendo palavras.

twitter wp-block-embed-twitter">
twitter-tweet" data-width="500" data-dnt="true">

Veremos que muitos comportamentos e problemas estranhos de LLMs na verdade remontam à tokenização. Passaremos por uma série dessas questões, discutiremos por que a tokenização é falha e por que alguém por aí idealmente encontra uma maneira de excluir esse estágio completamente. foto.twitter.com/5haV7FvbBx

— Andrej Karpathy (@karpathy) twitter.com/karpathy/status/1759996551378940395?ref_src=twsrc%5Etfw">20 de fevereiro de 2024

Então, a tokenização claramente apresenta desafios para a IA generativa. Eles podem ser resolvidos?

Talvez.

Feucht aponta para modelos de espaço de estado de “nível de byte” como MambaByteque pode ingerir muito mais dados do que transformadores sem uma penalidade de desempenho ao acabar com a tokenização completamente. O MambaByte, que trabalha diretamente com bytes brutos representando texto e outros dados, é competitivo com alguns modelos de transformadores em tarefas de análise de linguagem, ao mesmo tempo em que lida melhor com “ruídos”, como palavras com caracteres trocados, espaçamento e caracteres maiúsculos.

No entanto, modelos como o MambaByte estão em estágios iniciais de pesquisa.

“Provavelmente é melhor deixar os modelos olharem para os caracteres diretamente sem impor tokenização, mas agora isso é computacionalmente inviável para transformadores”, disse Feucht. “Para modelos de transformadores em particular, a computação escala quadraticamente com o comprimento da sequência, e então realmente queremos usar representações de texto curtas.”

A menos que haja um avanço na tokenização, parece que novas arquiteturas de modelos serão a chave.



Últimas

Câmeras Waymo capturam imagens de pessoa acusada de supostos cortes de pneus de robotaxi

Um morador de Castro Valley foi acusado na...

SoftBank adquire fabricante de chips de IA do Reino Unido Graphcore

Empresa de chips do Reino Unido Gráficooré foi...

Pesquisadores do Google alertam que a IA está destruindo a internet

Um estudo feito por pesquisadores do Google aponta...

César Lattes, físico e professor brasileiro, é homenageado no Google

Hoje, o Google celebra com um Doodle animado...

Assine

spot_img

Veja Também

Câmeras Waymo capturam imagens de pessoa acusada de supostos cortes de pneus de robotaxi

Um morador de Castro Valley foi acusado na...

SoftBank adquire fabricante de chips de IA do Reino Unido Graphcore

Empresa de chips do Reino Unido Gráficooré foi...

Pesquisadores do Google alertam que a IA está destruindo a internet

Um estudo feito por pesquisadores do Google aponta...

César Lattes, físico e professor brasileiro, é homenageado no Google

Hoje, o Google celebra com um Doodle animado...

O WhatsApp agora permite que empresas enviem códigos de autenticação para usuários na Índia

O WhatsApp agora permite que empresas enviem códigos...
spot_img

Câmeras Waymo capturam imagens de pessoa acusada de supostos cortes de pneus de robotaxi

Um morador de Castro Valley foi acusado na quinta-feira por supostamente cortar os pneus de 17 robotaxis Waymo em São Francisco entre 24...

SoftBank adquire fabricante de chips de IA do Reino Unido Graphcore

Empresa de chips do Reino Unido Gráficooré foi formalmente adquirida pelo SoftBank do Japão.Rumores do acordo abundam há algum tempomas negociações prolongadas e...

Pesquisadores do Google alertam que a IA está destruindo a internet

Um estudo feito por pesquisadores do Google aponta que a IA generativa, a mesma que a gigante de Mountain View está super incentivando,...