Posts Recentes:

Google Gemini: tudo o que você precisa saber sobre a nova plataforma generativa de IA


O Google está tentando fazer sucesso com o Gemini, uma nova plataforma generativa de IA que recentemente fez sua grande estreia. Mas embora Gêmeos pareça promissor em alguns aspectos, fica aquém de outros. Então, o que é Gêmeos? Como você pode usá-lo? E como isso se compara à concorrência?

Para tornar mais fácil acompanhar os desenvolvimentos mais recentes do Gemini, elaboramos este guia prático, que manteremos atualizado à medida que novos modelos e recursos do Gemini forem lançados.

O que é Gêmeos?

Gêmeos é do Google há muito prometido, família de modelos de IA generativa de última geração, desenvolvida pelos laboratórios de pesquisa de IA do Google DeepMind e Google Research. Ele vem em três sabores:

  • Gêmeos Ultrao principal modelo Gemini
  • Gêmeos Profissionalum modelo Gemini “leve”
  • Gêmeos Nanoum modelo “destilado” menor que roda em dispositivos móveis como o Pixel 8 Pro

Todos os modelos Gemini foram treinados para serem “nativamente multimodais” – em outras palavras, capazes de trabalhar e usar mais do que apenas texto. Eles foram pré-treinados e ajustados em uma variedade de áudio, imagens e vídeos, um grande conjunto de bases de código e texto em diferentes idiomas.

Isso diferencia o Gemini de modelos como o grande modelo de linguagem do Google LaMDA, que foi treinado apenas em dados de texto. O LaMDA não consegue entender ou gerar nada além de texto (por exemplo, ensaios, rascunhos de e-mail e assim por diante) — mas esse não é o caso dos modelos Gemini. A sua capacidade de compreender imagens, áudio e outras modalidades ainda é limitada, mas é melhor que nada.

Qual é a diferença entre Bardo e Gêmeos?

Bardo do Google

Créditos da imagem: Google

Google, provando outra vez que lhe falta talento para branding, não deixou claro desde o início que Gêmeos é separado e distinto de Bard. Bard é simplesmente uma interface através da qual certos modelos Gemini podem ser acessados ​​– pense nele como um aplicativo ou cliente para Gemini e outros modelos de IA da geração. Gemini, por outro lado, é uma família de modelos – não um aplicativo ou frontend. Não existe uma experiência autônoma de Gêmeos, nem provavelmente nunca existirá. Se você comparar com os produtos da OpenAI, Bard corresponde a Bate-papoGPTo popular aplicativo de IA conversacional da OpenAI, e Gemini corresponde ao modelo de linguagem que o alimenta, que no caso do ChatGPT é GPT-3.5 ou 4.

Aliás, Gêmeos também é totalmente independente de Imagem-2, um modelo de texto para imagem que pode ou não se enquadrar na estratégia geral de IA da empresa. Não se preocupe, você não é o único confuso com isso!

O que Gêmeos pode fazer?

Como os modelos Gemini são multimodais, eles podem, em teoria, realizar uma série de tarefas, desde a transcrição de fala até a legenda de imagens e vídeos e a geração de obras de arte. Poucos desses recursos atingiram o estágio de produto ainda (mais sobre isso mais tarde), mas o Google promete todos eles – e mais – em algum momento em um futuro não muito distante.

Claro, é um pouco difícil acreditar na palavra da empresa.

Google seriamente sub-entregue com o lançamento original do Bard. E mais recentemente irritou as penas com um vídeo que pretende mostrar as capacidades do Gemini que acabou sendo fortemente manipulado e era mais ou menos aspiracional. Gêmeos épara crédito do gigante da tecnologia, disponível de alguma forma hoje – mas de forma bastante limitada.

Ainda assim, supondo que o Google esteja sendo mais ou menos verdadeiro em suas afirmações, eis o que os diferentes níveis de modelos Gemini serão capazes de fazer quando forem lançados:

Gêmeos Ultra

Poucas pessoas colocaram as mãos no Gemini Ultra, o modelo de “base” sobre o qual os outros são construídos, até agora – apenas um “conjunto seleto” de clientes em um punhado de aplicativos e serviços do Google. Isso não mudará até o final deste ano, quando o maior modelo do Google for lançado de forma mais ampla. A maioria das informações sobre o Ultra veio de demonstrações de produtos lideradas pelo Google, por isso é melhor considerá-las com cautela.

O Google diz que o Gemini Ultra pode ser usado para ajudar em coisas como trabalhos de física, resolver problemas passo a passo em uma planilha e apontar possíveis erros em respostas já preenchidas. O Gemini Ultra também pode ser aplicado a tarefas como identificar artigos científicos relevantes para um problema específico, diz o Google – extraindo informações desses artigos e “atualizando” um gráfico de um deles, gerando as fórmulas necessárias para recriar o gráfico com dados mais recentes.

Gemini Ultra suporta tecnicamente a geração de imagens, conforme mencionado anteriormente. Mas essa capacidade não chegará à versão produzida do modelo no lançamento, de acordo com o Google – talvez porque o mecanismo seja mais complexo do que a forma como aplicativos como Bate-papoGPT gerar imagens. Em vez de enviar prompts para um gerador de imagens (como DALL-E 3no caso do ChatGPT), o Gemini gera imagens “nativamente” sem uma etapa intermediária.

Gêmeos Profissional

Ao contrário do Gemini Ultra, o Gemini Pro está disponível publicamente hoje. Mas, confusamente, suas capacidades dependem de onde é usado.

O Google diz que em Bard, onde o Gemini Pro foi lançado pela primeira vez em formato somente texto, o modelo é uma melhoria em relação ao LaMDA em suas capacidades de raciocínio, planejamento e compreensão. Um independente estudar por pesquisadores da Carnegie Mellon e BerriAI descobriram que o Gemini Pro é realmente melhor que o OpenAI GPT-3.5 em lidar com cadeias de raciocínio mais longas e complexas.

Mas o estudo também descobriu que, como todos os grandes modelos de linguagem, o Gemini Pro enfrenta dificuldades particularmente com problemas matemáticos que envolvem vários dígitos, e os usuários encontraram muitos exemplos de maus raciocínios e erros. Cometeu muitos erros factuais em perguntas simples, como quem ganhou o último Oscar. O Google prometeu melhorias, mas não está claro quando elas chegarão.

O Gemini Pro também está disponível via API no Vertex AI, a plataforma de desenvolvimento de IA totalmente gerenciada do Google, que aceita texto como entrada e gera texto como saída. Um endpoint adicional, Gemini Pro Vision, pode processar texto e imagens – incluindo fotos e vídeos – e texto de saída nos moldes do OpenAI GPT-4 com Visão modelo.

Gêmeos

Usando Gemini Pro na Vertex AI.

Na Vertex AI, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos usando um processo de ajuste fino ou “aterramento”. O Gemini Pro também pode ser conectado a APIs externas de terceiros para realizar ações específicas.

Em algum momento do “início de 2024”, os clientes da Vertex poderão usar o Gemini Pro para capacitar agentes de conversação e bate-papo personalizados (ou seja, chatbots). O Gemini Pro também se tornará uma opção para impulsionar recursos de resumo de pesquisa, recomendação e geração de respostas na Vertex AI, recorrendo a documentos de diversas modalidades (por exemplo, PDFs, imagens) de diferentes fontes (por exemplo, OneDrive, Salesforce) para satisfazer consultas.

Gêmeos

Créditos da imagem: Gêmeos

No AI Studio, a ferramenta baseada na web do Google para desenvolvedores de aplicativos e plataformas, há fluxos de trabalho para criar prompts de formato livre, estruturados e de bate-papo usando o Gemini Pro. Os desenvolvedores têm acesso aos endpoints Gemini Pro e Gemini Pro Vision e podem ajustar a temperatura do modelo para controlar a faixa criativa da saída e fornecer exemplos para fornecer instruções de tom e estilo – e também ajustar as configurações de segurança.

Gêmeos Nano

Gemini Nano é uma versão muito menor dos modelos Gemini Pro e Ultra e é eficiente o suficiente para ser executado diretamente em (alguns) telefones, em vez de enviar a tarefa para um servidor em algum lugar. Até agora, ele oferece dois recursos no Pixel 8 Pro: Resumir no Gravador e Resposta Inteligente no Gboard.

O aplicativo Recorder, que permite aos usuários apertar um botão para gravar e transcrever áudio, inclui um resumo desenvolvido pelo Gemini de suas conversas, entrevistas, apresentações e outros trechos gravados. Os usuários recebem esses resumos mesmo que não tenham sinal ou conexão Wi-Fi disponível – e em uma homenagem à privacidade, nenhum dado sai do telefone no processo.

O Gemini Nano também está no Gboard, aplicativo de teclado do Google, como um visualização do desenvolvedor. Lá, ele ativa um recurso chamado Resposta Inteligente, que ajuda a sugerir a próxima coisa que você deseja dizer ao conversar em um aplicativo de mensagens. O recurso inicialmente funciona apenas com o WhatsApp, mas chegará a mais aplicativos em 2024, afirma o Google.

O Gemini é melhor que o GPT-4 da OpenAI?

Não há como saber como a família Gemini realmente acumula até o Google lançar o Ultra ainda este ano, mas a empresa reivindicou melhorias no estado da arte – que geralmente é o GPT-4 da OpenAI.

O Google elogiou várias vezes a superioridade do Gemini em benchmarks, alegando que o Gemini Ultra excede os resultados atuais de última geração em “30 dos 32 benchmarks acadêmicos amplamente utilizados em pesquisa e desenvolvimento de grandes modelos de linguagem”. A empresa afirma que o Gemini Pro, por sua vez, é mais capaz em tarefas como resumir conteúdo, brainstorming e escrever do que o GPT-3.5.

Mas deixando de lado a questão de saber se os benchmarks realmente indicam um modelo melhor, as pontuações que o Google aponta parecem ser apenas marginalmente melhores do que os modelos correspondentes da OpenAI. E – como mencionado anteriormente – algumas impressões iniciais não foram boas, com Usuários e acadêmicos apontando que o Gemini Pro tende a errar os fatos básicos, tem dificuldades com traduções e dá sugestões de codificação ruins.

Quanto custará Gêmeos?

O Gemini Pro é gratuito para uso no Bard e, por enquanto, no AI Studio e no Vertex AI.

Assim que o Gemini Pro sair da visualização no Vertex, no entanto, o modelo custará US$ 0,0025 por caractere, enquanto a produção custará US$ 0,00005 por caractere. Os clientes da Vertex pagam por 1.000 caracteres (cerca de 140 a 250 palavras) e, no caso de modelos como Gemini Pro Vision, por imagem (US$ 0,0025).

Vamos supor que um artigo de 500 palavras contenha 2.000 caracteres. Resumir esse artigo com o Gemini Pro custaria US$ 5. Enquanto isso, gerando um artigo de comprimento semelhante custaria US$ 0,1.

Onde você pode experimentar o Gêmeos?

Gêmeos Profissional

O lugar mais fácil para experimentar o Gemini Pro é em Bardo. Uma versão aprimorada do Pro está respondendo a perguntas do Bard baseadas em texto em inglês nos EUA no momento, com idiomas adicionais e países com suporte definidos para chegar no futuro.

Gemini Pro também é acessível na visualização no Vertex AI por meio de uma API. A API é gratuita para uso “dentro dos limites” por enquanto e oferece suporte a 38 idiomas e regiões, incluindo a Europa, bem como recursos como funcionalidade de bate-papo e filtragem.

Em outros lugares, o Gemini Pro pode ser encontrado no AI Studio. Usando o serviço, os desenvolvedores podem iterar prompts e chatbots baseados em Gemini e, em seguida, obter chaves de API para usá-los em seus aplicativos – ou exportar o código para um IDE com mais recursos.

Duet AI para desenvolvedores, o conjunto de ferramentas de assistência baseadas em IA do Google para conclusão e geração de código, começará a usar um modelo Gemini nas próximas semanas. E o Google planeja trazer modelos Gemini para ferramentas de desenvolvimento para Chrome e sua plataforma de desenvolvimento móvel Firebase na mesma época, no início de 2024.

Gêmeos Nano

Gemini Nano está no Pixel 8 Pro – e chegará a outros dispositivos no futuro. Os desenvolvedores interessados ​​em incorporar o modelo em seus aplicativos Android podem inscrever-se para dar uma espiada.

Manteremos este post atualizado com os desenvolvimentos mais recentes.

Últimas

Meta AI testada: não justifica sua própria existência, mas grátis é grátis

O novo modelo de linguagem grande da Meta,...

Starliner da Boeing pronto para transportar astronautas pela primeira vez em 6 de maio

O Starliner da Boeing está pronto para lançamento. Líderes...

Shein enfrentará as regras mais rígidas da UE para mercados online

Gigante do comércio eletrônico de moda ultrarrápida Ela...

Assine

spot_img

Veja Também

Meta AI testada: não justifica sua própria existência, mas grátis é grátis

O novo modelo de linguagem grande da Meta,...

Starliner da Boeing pronto para transportar astronautas pela primeira vez em 6 de maio

O Starliner da Boeing está pronto para lançamento. Líderes...

Shein enfrentará as regras mais rígidas da UE para mercados online

Gigante do comércio eletrônico de moda ultrarrápida Ela...
spot_img

Meta AI testada: não justifica sua própria existência, mas grátis é grátis

O novo modelo de linguagem grande da Meta, Lhama 3alimenta o nome imaginativo “Meta AI”, um chatbot mais recente que a empresa de...

Starliner da Boeing pronto para transportar astronautas pela primeira vez em 6 de maio

O Starliner da Boeing está pronto para lançamento. Líderes da NASA e da Boeing disseram aos repórteres que a primeira missão Starliner tripulada, que...