Posts Recentes:

Aqui estão os melhores recursos do WWDC 2024 que você perdeu

A Apple anunciou uma série de novos recursos...

BeReal obteve sua saída no melhor cenário

Ultimamente, tem havido muitas más notícias sobre startups...

OpenAI anuncia ChatGPT 4o Omni


ChatGPT anunciou uma nova versão do ChatGPT que pode aceitar entradas de áudio, imagem e texto e também gerar saídas em áudio, imagem e texto. OpenAI está chamando a nova versão do ChatGPT 4o, com o “o” significando “omni”, que é uma palavra combinada que significa “todos”.

ChatGPT 4o (Omni)

OpenAI descreveu esta nova versão do ChatGPT como uma progressão em direção a interações mais naturais entre humanos e máquinas, que respondem às entradas do usuário na mesma velocidade que as conversas entre humanos. A nova versão corresponde ao ChatGPT 4 Turbo em inglês e supera significativamente o Turbo em outros idiomas. Há uma melhoria significativa no desempenho da API, aumentando a velocidade e operando 50% menos dispendiosamente.

O anúncio explica:

“Conforme medido em benchmarks tradicionais, o GPT-4o alcança desempenho de nível GPT-4 Turbo em texto, raciocínio e inteligência de codificação, ao mesmo tempo que estabelece novos padrões elevados em recursos multilíngues, de áudio e de visão.”

Processamento de voz avançado

O método anterior para comunicação por voz envolvia a ligação de três modelos diferentes para lidar com a transcrição de entradas de voz para texto, onde o segundo modelo (GPT 3.5 ou GPT-4) o processa e gera texto e um terceiro modelo que transcreve o texto de volta para áudio. Diz-se que esse método perde nuances nas diversas traduções.

OpenAI descreveu as desvantagens da abordagem anterior que são (presumivelmente) superadas pela nova abordagem:

“Este processo significa que a principal fonte de inteligência, o GPT-4, perde muitas informações – não consegue observar diretamente o tom, vários alto-falantes ou ruídos de fundo, e não consegue produzir risadas, cantar ou expressar emoções. ”

A nova versão não precisa de três modelos diferentes porque todas as entradas e saídas são tratadas juntas em um modelo para entrada e saída de áudio de ponta a ponta. Curiosamente, a OpenAI afirma que ainda não explorou todas as capacidades do novo modelo nem compreendeu totalmente as suas limitações.

Novos guardrails e uma versão iterativa

OpenAI GPT 4o apresenta novas proteções e filtros para mantê-lo seguro e evitar saídas de voz não intencionais por segurança. No entanto, o anúncio de hoje diz que eles estão apenas lançando recursos para entrada e saída de texto e imagem e um áudio limitado no lançamento. O GPT 4o está disponível para níveis gratuitos e pagos, com usuários Plus recebendo limites de mensagens 5 vezes maiores.

Os recursos de áudio serão lançados em fase alfa limitada para usuários do ChatGPT Plus e API dentro de semanas.

O anúncio explicou:

“Reconhecemos que as modalidades de áudio do GPT-4o apresentam uma variedade de novos riscos. Hoje estamos divulgando publicamente entradas e saídas de texto e imagem. Nas próximas semanas e meses trabalharemos na infraestrutura técnica, usabilidade via pós-treinamento e segurança necessária para liberação das demais modalidades. Por exemplo, no lançamento, as saídas de áudio serão limitadas a uma seleção de vozes predefinidas e obedecerão às nossas políticas de segurança existentes.”

Leia o comunicado:

Olá GPT-4o

Imagem em destaque da Shutterstock/Photo For Everything

Últimas

Aqui estão os melhores recursos do WWDC 2024 que você perdeu

A Apple anunciou uma série de novos recursos...

BeReal obteve sua saída no melhor cenário

Ultimamente, tem havido muitas más notícias sobre startups...

Quanto custa o ChatGPT? Tudo o que você precisa saber sobre os planos de preços da OpenAI

OpenAI's Plataforma de chatbot com tecnologia de IA...

Assine

spot_img

Veja Também

Aqui estão os melhores recursos do WWDC 2024 que você perdeu

A Apple anunciou uma série de novos recursos...

BeReal obteve sua saída no melhor cenário

Ultimamente, tem havido muitas más notícias sobre startups...

Quanto custa o ChatGPT? Tudo o que você precisa saber sobre os planos de preços da OpenAI

OpenAI's Plataforma de chatbot com tecnologia de IA...
spot_img

Aqui estão os melhores recursos do WWDC 2024 que você perdeu

A Apple anunciou uma série de novos recursos e atualizações no palco durante seu discurso principal na WWDC 2024incluindo atualizações para iOS, iPadOS,...

BeReal obteve sua saída no melhor cenário

Ultimamente, tem havido muitas más notícias sobre startups de mídia social. Várias empresas, incluindo o Post News alternativo do Twitter e a...

Presidente da FTC, Lina Khan, sobre startups, expansão e “inovações em possíveis infrações à lei”

A presidente da FTC, Lina Khan, era a pessoa mais jovem nomeada para seu cargo quando assumiu o cargo em 2021. Mas assim...