Na conferência de desenvolvedores Google I/O em maio de 2023, o CEO Sundar Pichai anunciou o próximo sistema de inteligência artificial (IA) da empresa, Gemini.
O grande modelo de linguagem (LLM) está sendo desenvolvido pela divisão Google DeepMind (Brain Team + DeepMind). Poderia competir com sistemas de IA como ChatGPT da OpenAI e possivelmente superá-los.
Embora os detalhes permaneçam escassos, aqui está o que podemos reunir das últimas entrevistas e relatórios sobre o Google Gemini.
Google Gemini será multimodal
Pichai afirmou que Gemini combina os pontos fortes do sistema AlphaGo da DeepMind, conhecido por dominar o complexo jogo Go, com extensos recursos de modelagem de linguagem.
Ele disse que foi projetado desde o início para ser multimodal, integrando texto, imagens e outros tipos de dados. Isso poderia permitir habilidades de conversação mais naturais.
Pichai também sugeriu capacidades futuras, como memória e planejamento, que poderiam permitir tarefas que exigem raciocínio.
Gêmeos pode usar ferramentas e APIs
Em uma atualização de sua biografia profissional durante o verão, o cientista-chefe do Google, Jeffrey Dean, disse que Gemini é um dos “modelos multimodais da próxima geração” que ele co-lidera.
Ele afirmou que utilizará Pathways, a nova infraestrutura de IA do Google, para permitir a ampliação do treinamento em diversos conjuntos de dados.
Isto sugere que o Gemini é potencialmente o maior modelo de linguagem criado até hoje, provavelmente excedendo o tamanho do GPT-3 com mais de 175 bilhões de parâmetros.
Ele virá com vários tamanhos e capacidades
Detalhes adicionais vieram de Demis Hassabis, CEO da DeepMind.
Em junho, ele disse à Wired que as técnicas do AlphaGo, como aprendizado por reforço e busca em árvores, podem dar ao Gemini novas habilidades, como raciocínio e resolução de problemas.
Hassabis afirmou que Gemini é uma “série de modelos” que estará disponível em diferentes tamanhos e capacidades.
Ele também mencionou que o Gemini pode utilizar memória, verificação de fatos em fontes como a Pesquisa Google e aprendizado de reforço aprimorado para aumentar a precisão e reduzir conteúdo alucinado perigoso.
Os primeiros resultados do Gemini são promissores
Numa entrevista à September Time, Hassabis reiterou que a Gemini pretende combinar escala e inovação.
Ele disse que a incorporação de planejamento e memória está nos estágios iniciais de exploração.
Hassabis também afirmou que o Gemini pode empregar métodos de recuperação para produzir blocos inteiros de informações, em vez da geração palavra por palavra, para melhorar a consistência factual.
Ele revelou que o Gemini se baseia no trabalho multimodal da DeepMind, como o sistema de legendagem de imagens Flamingo.
No geral, Hassabis disse que o Gemini está mostrando “resultados iniciais muito promissores”.
Chatbots avançados como assistentes pessoais universais
Em entrevista à Wired, publicada alguns dias depois, Pichai forneceu a indicação mais inequívoca de como o Gemini se encaixa no roteiro de produtos do Google.
Ele afirmou que sistemas de IA conversacional como o Bard “não são o estado final”, mas pontos de referência que levam a chatbots mais avançados.
Pichai disse que o Gemini e as iterações futuras acabarão por se tornar “incríveis assistentes pessoais universais” integrados na vida diária das pessoas em áreas como viagens, trabalho e entretenimento.
Ele reiterou que o Gemini combinará os pontos fortes do texto e das imagens, afirmando que os chatbots de hoje “parecerão triviais” em comparação dentro de alguns anos.
Os concorrentes estão interessados no desempenho de Gêmeos
O CEO da OpenAI tuitou o que parecia ser uma resposta a um artigo com acesso pago informando que o Google Gemini poderia superar o GPT-4.
Os números estão errados?
-Elon Musk (@elonmusk) 30 de agosto de 2023
Não houve resposta oficial à pergunta de Elon Musk sobre se os números fornecidos pela SemiAnalysis estão corretos.
Algumas empresas têm acesso antecipado ao Gemini
Mais pistas sobre o progresso do Gemini esta semana: The Information informou que o Google deu a um pequeno grupo de desenvolvedores fora do Google acesso antecipado ao Gemini.
Isso sugere que o Gemini poderá em breve estar pronto para uma versão beta e integração em serviços como o Google Cloud Vertex AI.
Meta trabalhando em LLM para competir com OpenAI
Embora as notícias sobre o Gemini sejam promissoras até agora, o Google não é a única empresa supostamente pronta para lançar um novo LLM para competir com o OpenAI.
De acordo com o Wall Street Journal, a Meta também está trabalhando em um modelo de IA que competiria com o modelo GPT que alimenta o ChatGPT.
A Meta anunciou recentemente o lançamento do Llama 2, um modelo de IA de código aberto, em parceria com a Microsoft. A empresa parece dedicada a criar de forma responsável uma IA mais acessível.
A contagem regressiva para o Google Gemini
O que sabemos até agora indica que o Gemini pode representar um avanço significativo no processamento de linguagem natural.
A fusão das mais recentes pesquisas de IA da DeepMind com os vastos recursos computacionais do Google torna o impacto potencial difícil de ser exagerado.
Se o Gemini corresponder às expectativas, poderá impulsionar uma mudança na IA interativa, alinhando-se com as ambições do Google de “levar a IA de forma responsável a milhares de milhões de pessoas”.
As últimas notícias da Meta e do Google chegam poucos dias após o primeiro AI Insight Forum, onde CEOs de tecnologia se reuniram em particular com uma parte do Senado dos Estados Unidos para discutir o futuro da IA.
Imagem em destaque: Fotos VDB/Shutterstock