Posts Recentes:

Pine Labs obtém aprovação do tribunal de Cingapura para mudar sua base para a Índia

Laboratórios de pinho, uma startup de comércio mercantilrecebeu...

Espaço TechCrunch: forro estrela (lateral) | TechCrunch

Olá e bem-vindo de volta ao TechCrunch Space....

Google Gemini: tudo o que você precisa saber sobre a nova plataforma generativa de IA


O Google está tentando fazer sucesso com o Gemini, seu principal conjunto de modelos, aplicativos e serviços generativos de IA.

Então, o que é Gêmeos? Como você pode usá-lo? E como isso empilhe-se para a concorrência?

Para tornar mais fácil acompanhar os desenvolvimentos mais recentes do Gemini, elaboramos este guia prático, que manteremos atualizado à medida que novos modelos Gemini, recursos e notícias sobre os planos do Google para o Gemini forem lançados.

O que é Gêmeos?

Gêmeos é do Google há muito prometido, família de modelos GenAI de última geração, desenvolvida pelos laboratórios de pesquisa de IA do Google DeepMind e Google Research. Ele vem em três sabores:

  • Gêmeos Ultrao modelo Gemini de melhor desempenho.
  • Gêmeos Profissionalum modelo “leve” da Gemini.
  • Gêmeos Nanoum modelo “destilado” menor que roda em dispositivos móveis como o Pixel 8 Pro.

Todos os modelos Gemini foram treinados para serem “nativamente multimodais” – em outras palavras, capazes de trabalhar e usar mais do que apenas palavras. Eles foram pré-treinados e ajustados em uma variedade de áudio, imagens e vídeos, um grande conjunto de bases de código e texto em diferentes idiomas.

Isso diferencia o Gemini de modelos como o do Google LaMDA, que foi treinado exclusivamente em dados de texto. O LaMDA não consegue entender ou gerar nada além de texto (por exemplo, ensaios, rascunhos de e-mail), mas esse não é o caso dos modelos Gemini.

Qual é a diferença entre os aplicativos Gemini e os modelos Gemini?

Bardo do Google

Créditos da imagem: Google

Google, provando outra vez que lhe falta talento para branding, não deixou claro desde o início que o Gemini é separado e distinto dos aplicativos Gemini na web e em dispositivos móveis (anteriormente Bard). Os aplicativos Gemini são simplesmente uma interface através da qual certos modelos Gemini podem ser acessados ​​– pense nele como um cliente para o GenAI do Google.

Aliás, os aplicativos e modelos Gemini também são totalmente independentes de Imagem 2o modelo de texto para imagem do Google que está disponível em algumas das ferramentas e ambientes de desenvolvimento da empresa.

O que Gêmeos pode fazer?

Como os modelos Gemini são multimodais, eles podem, em teoria, realizar uma série de tarefas multimodais, desde a transcrição de fala até a legenda de imagens e vídeos e a geração de obras de arte. Algumas dessas capacidades já atingiram o estágio de produto (mais sobre isso mais tarde), e o Google promete todas elas – e mais – em algum momento em um futuro não muito distante.

Claro, é um pouco difícil acreditar na palavra da empresa.

Google seriamente subfornecido com o lançamento original do Bard. E mais recentemente irritou as penas com um vídeo que pretende mostrar as capacidades do Gemini que acabou sendo fortemente manipulado e era mais ou menos aspiracional.

Ainda assim, supondo que o Google esteja sendo mais ou menos verdadeiro em suas afirmações, eis o que os diferentes níveis de Gemini serão capazes de fazer quando atingirem todo o seu potencial:

Gêmeos Ultra

Google diz isso Gêmeos Ultra — graças à sua multimodalidade — pode ser usado para ajudar em tarefas como trabalhos de física, resolver problemas passo a passo em uma planilha e apontar possíveis erros em respostas já preenchidas.

O Gemini Ultra também pode ser aplicado a tarefas como identificar artigos científicos relevantes para um problema específico, diz o Google – extraindo informações desses artigos e “atualizando” um gráfico de um deles, gerando as fórmulas necessárias para recriar o gráfico com dados mais recentes. .

Gemini Ultra suporta tecnicamente a geração de imagens, conforme mencionado anteriormente. Mas essa capacidade ainda não chegou à versão produzida do modelo – talvez porque o mecanismo seja mais complexo do que a forma como aplicativos como Bate-papoGPT gerar imagens. Em vez de enviar prompts para um gerador de imagens (como DALL-E 3no caso do ChatGPT), o Gemini gera imagens “nativamente”, sem uma etapa intermediária.

O Gemini Ultra está disponível como uma API por meio da Vertex AI, a plataforma de desenvolvimento de IA totalmente gerenciada do Google, e do AI Studio, a ferramenta baseada na Web do Google para desenvolvedores de aplicativos e plataformas. Ele também alimenta os aplicativos Gemini – mas não de graça. O acesso ao Gemini Ultra por meio do que o Google chama de Gemini Advanced requer a assinatura do plano Google One AI Premium, ao preço de US$ 20 por mês.

O plano AI Premium também conecta o Gemini à sua conta mais ampla do Google Workspace – pense em e-mails no Gmail, documentos no Documentos, apresentações no Planilhas e gravações do Google Meet. Isso é útil, por exemplo, para resumir e-mails ou fazer com que o Gemini capture notas durante uma videochamada.

Gêmeos Profissional

O Google afirma que o Gemini Pro é uma melhoria em relação ao LaMDA em suas capacidades de raciocínio, planejamento e compreensão.

Um independente estudar por pesquisadores da Carnegie Mellon e BerriAI descobriram que a versão inicial do Gemini Pro era de fato melhor que a do OpenAI GPT-3.5 em lidar com cadeias de raciocínio mais longas e complexas. Mas o estudo também descobriu que, como todos os grandes modelos de linguagem, esta versão do Gemini Pro enfrentava problemas particularmente matemáticos que envolviam vários dígitos, e usuários encontraram exemplos de mau raciocínio e erros óbvios.

No entanto, o Google prometeu soluções – e as primeiras chegaram na forma de Gêmeos 1.5 Pró.

Projetado para ser um substituto imediato, o Gemini 1.5 Pro foi aprimorado em várias áreas em comparação com seu antecessor, talvez mais significativamente na quantidade de dados que pode processar. O Gemini 1.5 Pro pode conter aproximadamente 700.000 palavras ou aproximadamente 30.000 linhas de código – 35x a quantidade que o Gemini 1.0 Pro pode suportar. E – sendo o modelo multimodal – não se limita ao texto. O Gemini 1.5 Pro pode analisar até 11 horas de áudio ou uma hora de vídeo em vários idiomas diferentes, embora lentamente (por exemplo, procurar uma cena em um vídeo de uma hora leva de 30 segundos a um minuto de processamento).

Gêmeos 1.5 Pró entrou em pré-visualização pública na Vertex AI em abril.

Um endpoint adicional, Gemini Pro Vision, pode processar texto e imagens – incluindo fotos e vídeos – e texto de saída nos moldes do OpenAI GPT-4 com Visão modelo.

Gêmeos

Usando Gemini Pro na Vertex AI. Créditos da imagem: Gêmeos

Na Vertex AI, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos usando um processo de ajuste fino ou “aterramento”. O Gemini Pro também pode ser conectado a APIs externas de terceiros para realizar ações específicas.

No AI Studio, há fluxos de trabalho para criar prompts de bate-papo estruturados usando o Gemini Pro. Os desenvolvedores têm acesso aos endpoints Gemini Pro e Gemini Pro Vision e podem ajustar a temperatura do modelo para controlar a faixa criativa da saída e fornecer exemplos para fornecer instruções de tom e estilo – e também ajustar as configurações de segurança.

Gêmeos Nano

Gemini Nano é uma versão muito menor dos modelos Gemini Pro e Ultra e é eficiente o suficiente para ser executado diretamente em (alguns) telefones, em vez de enviar a tarefa para um servidor em algum lugar. Até agora, ele oferece alguns recursos no Pixel 8 Pro, Pixel 8 e Samsung Galaxy S24, incluindo Resumir no Gravador e Resposta Inteligente no Gboard.

O aplicativo Recorder, que permite aos usuários apertar um botão para gravar e transcrever áudio, inclui um resumo desenvolvido pelo Gemini de suas conversas, entrevistas, apresentações e outros trechos gravados. Os usuários recebem esses resumos mesmo que não tenham sinal ou conexão Wi-Fi disponível – e em uma homenagem à privacidade, nenhum dado sai do telefone no processo.

O Gemini Nano também está no Gboard, aplicativo de teclado do Google. Lá, ele ativa um recurso chamado Resposta Inteligente, que ajuda a sugerir a próxima coisa que você deseja dizer ao conversar em um aplicativo de mensagens. O recurso inicialmente funciona apenas com o WhatsApp, mas chegará a mais aplicativos com o tempo, diz o Google.

E no aplicativo Mensagens do Google em dispositivos compatíveis, o Nano habilita o Magic Compose, que pode criar mensagens em estilos como “animado”, “formal” e “lírico”.

O Gemini é melhor que o GPT-4 da OpenAI?

O Google já fez várias vezes elogiado A superioridade do Gemini em benchmarks, alegando que o Gemini Ultra excede os resultados atuais de última geração em “30 dos 32 benchmarks acadêmicos amplamente utilizados em pesquisa e desenvolvimento de modelos de linguagem de grande porte”. A empresa afirma que o Gemini 1.5 Pro, por sua vez, é mais capaz em tarefas como resumir conteúdo, brainstorming e escrever do que o Gemini Ultra em alguns cenários; presumivelmente, isso mudará com o lançamento do próximo modelo Ultra.

Mas deixando de lado a questão de saber se os benchmarks realmente indicam um modelo melhor, as pontuações que o Google aponta parecem ser apenas marginalmente melhores do que os modelos correspondentes da OpenAI. E – como mencionado anteriormente – algumas impressões iniciais não foram boas, com Usuários e acadêmicos apontando que a versão mais antiga do Gemini Pro tende a errar os fatos básicos, tem dificuldades com traduções e dá sugestões de codificação ruins.

Quanto custa Gêmeos?

O Gemini 1.5 Pro é gratuito para uso nos aplicativos Gemini e, por enquanto, no AI Studio e no Vertex AI.

Assim que o Gemini 1.5 Pro sair da visualização no Vertex, no entanto, o modelo custará US$ 0,0025 por caractere, enquanto a produção custará US$ 0,00005 por caractere. Os clientes da Vertex pagam por 1.000 caracteres (cerca de 140 a 250 palavras) e, no caso de modelos como Gemini Pro Vision, por imagem (US$ 0,0025).

Vamos supor que um artigo de 500 palavras contenha 2.000 caracteres. Resumir esse artigo com o Gemini 1.5 Pro custaria US$ 5. Enquanto isso, gerar um artigo de comprimento semelhante custaria US$ 0,1.

O preço Ultra ainda não foi anunciado.

Onde você pode experimentar o Gêmeos?

Gêmeos Profissional

O lugar mais fácil para experimentar o Gemini Pro é em os aplicativos Gemini. Pro e Ultra estão respondendo a perguntas em vários idiomas.

Gemini Pro e Ultra também são acessível na visualização no Vertex AI por meio de uma API. A API é gratuita para uso “dentro dos limites” por enquanto e oferece suporte a determinadas regiões, incluindo a Europa, bem como recursos como funcionalidade de bate-papo e filtragem.

Em outros lugares, Gemini Pro e Ultra podem ser encontrado no AI Studio. Usando o serviço, os desenvolvedores podem iterar prompts e chatbots baseados em Gemini e, em seguida, obter chaves de API para usá-los em seus aplicativos – ou exportar o código para um IDE com mais recursos.

Code Assist (anteriormente Duet AI para desenvolvedores), o conjunto de ferramentas de assistência baseadas em IA do Google para conclusão e geração de código usa modelos Gemini. Os desenvolvedores podem realizar alterações em “grande escala” nas bases de código, por exemplo, atualizando dependências entre arquivos e revisando grandes blocos de código.

O Google trouxe modelos Gemini para seu ferramentas de desenvolvimento para a plataforma de desenvolvimento móvel Chrome e Firebase, e seu ferramentas de criação e gerenciamento de banco de dados. E os seus lançou novos produtos de segurança apoiados pela Geminicomo Gemini em Threat Intelligence, um componente da plataforma de segurança cibernética Mandiant do Google que pode analisar grandes porções de código potencialmente malicioso e permitir que os usuários realizem pesquisas em linguagem natural em busca de ameaças contínuas ou indicadores de comprometimento.

Últimas

Pine Labs obtém aprovação do tribunal de Cingapura para mudar sua base para a Índia

Laboratórios de pinho, uma startup de comércio mercantilrecebeu...

Espaço TechCrunch: forro estrela (lateral) | TechCrunch

Olá e bem-vindo de volta ao TechCrunch Space....

Scarlett Johansson diz que OpenAI a abordou para usar sua voz

OpenAI está removendo uma das vozes usadas pelo...

Assine

spot_img

Veja Também

Pine Labs obtém aprovação do tribunal de Cingapura para mudar sua base para a Índia

Laboratórios de pinho, uma startup de comércio mercantilrecebeu...

Espaço TechCrunch: forro estrela (lateral) | TechCrunch

Olá e bem-vindo de volta ao TechCrunch Space....

Scarlett Johansson diz que OpenAI a abordou para usar sua voz

OpenAI está removendo uma das vozes usadas pelo...

Microsoft Build 2024: todos os produtos de IA e hardware anunciados pela Microsoft

A Microsoft quer trazer a IA generativa para...
spot_img

Pine Labs obtém aprovação do tribunal de Cingapura para mudar sua base para a Índia

Laboratórios de pinho, uma startup de comércio mercantilrecebeu aprovação de um tribunal de Singapura para fundir a sua entidade local com a sua...

Espaço TechCrunch: forro estrela (lateral) | TechCrunch

Olá e bem-vindo de volta ao TechCrunch Space. Para quem ainda não ouviu, o primeiro lançamento tripulado da cápsula Starliner da Boeing...