Posts Recentes:

The Top 30 Social Media Influencers Worldwide

Social media influencers are prominent figures. They dominate...

Anthropic lança novo aplicativo para iPhone e plano premium para empresas

A Anthropic, uma das startups de IA generativa...

Ferramenta de propostas Wix ajuda empresas a conquistar mais clientes

Wix anunciou um novo recurso que permite às...

Google lança Imagen 2, um gerador de videoclipes


O Google não tem o melhor histórico quando se trata de IA de geração de imagens.

Em fevereiro, descobriu-se que o gerador de imagens integrado ao Gemini, o chatbot baseado em IA do Google, injetava aleatoriamente gênero e diversidade racial em avisos sobre pessoas, resultando em imagens de nazistas racialmente diversos, entre outras imprecisões ofensivas.

O Google retirou o gerador, prometendo melhorá-lo e, eventualmente, relançá-lo. Enquanto aguardamos seu retorno, a empresa está lançando uma ferramenta aprimorada de geração de imagens, Imagen 2, dentro de sua plataforma de desenvolvedor Vertex AI – embora seja uma ferramenta com uma tendência decididamente mais empresarial. O Google anunciou o Imagen 2 em sua conferência anual Cloud Next em Las Vegas.

Imagen 2 – que na verdade é uma família de modelos, lançada em dezembro após ser visualizada na conferência I/O do Google em maio de 2023 – pode criar e editar imagens a partir de um prompt de texto, como DALL-E e Midjourney da OpenAI. De interesse para tipos corporativos, o Imagen 2 pode renderizar textos, emblemas e logotipos em vários idiomas, sobrepondo opcionalmente esses elementos em imagens existentes, por exemplo, em cartões de visita, roupas e produtos.

Depois de ser lançada pela primeira vez na visualização, a edição de imagens com Imagen 2 agora está disponível para todos no Vertex AI, juntamente com dois novos recursos: pintura interna e pintura externa. Inpainting e outpainting, recursos que outros geradores de imagens populares, incluindo DALL-E, oferecem há algum tempo, podem ser usados ​​para remover partes indesejadas de uma imagem, adicione novos componentes e expanda as bordas de uma imagem para criar um campo de visão mais amplo.

Mas a verdadeira essência da atualização do Imagen 2 é o que o Google chama de “imagens de texto para live”.

O Imagen 2 agora pode criar vídeos curtos de quatro segundos a partir de prompts de texto, nos moldes de ferramentas de geração de clipes com tecnologia de IA, como Runway, Pika e Irreverent Labs. Fiel ao foco corporativo do Imagen 2, o Google está lançando imagens ao vivo como uma ferramenta para profissionais de marketing e criativos, como um gerador de GIF para anúncios mostrando natureza, comida e animais – assunto no qual o Imagen 2 foi ajustado.

O Google diz que as imagens ao vivo podem capturar “uma variedade de ângulos e movimentos de câmera” enquanto “apoiando a consistência ao longo de toda a sequência. Mas por enquanto estão em baixa resolução: 360 pixels por 640 pixels. A promessa do Google de que isso irá melhorar no futuro.

Para acalmar (ou pelo menos tentar acalmar) as preocupações sobre o potencial de criação de deepfakes, o Google diz que o Imagen 2 empregará SynthID, uma abordagem desenvolvida pelo Google DeepMind, para aplicar marcas d'água criptográficas invisíveis em imagens ao vivo. É claro que detectar essas marcas d’água – que o Google afirma serem resistentes a edições, incluindo compactação, filtros e ajustes de tons de cores – requer uma ferramenta fornecida pelo Google que não está disponível para terceiros.

E sem dúvida ansioso para evitar outra controvérsia generativa na mídia, o Google enfatiza que as gerações de imagens ao vivo serão “filtradas por segurança”. Um porta-voz disse ao TechCrunch por e-mail: “O O modelo Imagen 2 no Vertex AI não apresentou os mesmos problemas que o aplicativo Gemini. Continuamos testando extensivamente e interagindo com nossos clientes.”

Mas supondo generosamente por um momento que a tecnologia de marca d’água, mitigação de preconceito e filtros do Google são tão eficazes quanto afirma, as imagens ao vivo estão mesmo competitivo com as ferramentas de geração de vídeo já existentes?

Na verdade.

Runway pode gerar clipes de 18 segundos em resoluções muito mais altas. A ferramenta de videoclipe do Stability AI, Stable Video Diffusion, oferece maior personalização (em termos de taxa de quadros). E o Sora da OpenAI – que, claro, ainda não está disponível comercialmente – parece pronto para acabar com a concorrência com o fotorrealismo que pode alcançar.

Então, quais são as reais vantagens técnicas das imagens ao vivo? Eu não tenho certeza. E não acho que estou sendo muito duro.

Afinal, o Google está por trás de tecnologias de geração de vídeo genuinamente impressionantes, como Imagen Video e Phenaki. Phenaki, um dos experimentos mais interessantes do Google em conversão de texto em vídeo, transforma prompts longos e detalhados em “filmes” de mais de dois minutos – com a ressalva de que os clipes são de baixa resolução, baixa taxa de quadros e apenas um pouco coerentes.

À luz de relatórios recentes sugerindo que a revolução generativa da IA ​​pegou o CEO do Google, Sundar Pichai, desprevenido e que a empresa ainda está lutando para manter o ritmo com os rivais, não é surpreendente que um produto como imagens ao vivo pareça um perdedor. Mas mesmo assim é decepcionante. Não consigo evitar a sensação de que existe – ou existiu – um produto mais impressionante escondido nos skunkworks do Google.

Modelos como o Imagen são treinados em um enorme número de exemplos geralmente provenientes de sites públicos e conjuntos de dados na web. Muitos fornecedores de IA generativa veem os dados de treinamento como uma vantagem competitiva e, portanto, mantêm-nos e as informações referentes a eles sob controle. Mas os detalhes dos dados de treinamento também são uma fonte potencial de ações judiciais relacionadas à PI, outro desincentivo para revelar muita coisa.

Perguntei, como sempre faço em torno de anúncios relativos a modelos generativos de IA, sobre os dados que foram usados ​​para treinar o Imagen 2 atualizado e se os criadores cujo trabalho possa ter sido incluído no processo de treinamento do modelo poderão optar por não participar. em algum momento futuro.

O Google me disse apenas que seus modelos são treinados “principalmente” em dados públicos da web, extraídos de “postagens de blogs, transcrições de mídia e fóruns de conversação pública”. Quais blogs, transcrições e fóruns? Ninguém sabe.

Um porta-voz apontou para os controles de editores da web do Google que permitem aos webmasters impedir que a empresa extraia dados, incluindo fotos e obras de arte, de seus sites. Mas o Google não se comprometeria a lançar uma ferramenta de exclusão ou, alternativamente, a compensar os criadores pelas suas contribuições (desconhecidas) – um passo que muitos dos seus concorrentes, incluindo OpenAI, Stability AI e Adobe, tomaram.

Outro ponto que vale a pena mencionar: imagens text-to-live não são cobertas pela política de indenização de IA generativa do Google, que protege os clientes da Vertex AI de reivindicações de direitos autorais relacionadas ao uso de dados de treinamento e resultados de seus modelos de IA generativos pelo Google. Isso ocorre porque as imagens text-to-live estão tecnicamente em pré-visualização; a política cobre apenas produtos de IA generativos em disponibilidade geral (GA).

A regurgitação, ou quando um modelo generativo cospe uma cópia espelhada de um exemplo (por exemplo, uma imagem) no qual foi treinado, é, com razão, uma preocupação para os clientes corporativos. Estudos informais e acadêmicos mostraram que o Imagen de primeira geração, antecessor do Imagen 2, não estava imune a isso, cuspindo fotos identificáveis ​​de pessoas, obras de artistas protegidas por direitos autorais e muito mais quando solicitado de maneiras específicas.

Salvo controvérsias, problemas técnicos ou alguns outros grandes contratempos imprevistos, as imagens de texto para live entrarão no GA em algum momento no futuro. Mas com as imagens ao vivo como existem hoje, o Google basicamente diz: use por sua própria conta e risco.

Últimas

The Top 30 Social Media Influencers Worldwide

Social media influencers are prominent figures. They dominate...

Anthropic lança novo aplicativo para iPhone e plano premium para empresas

A Anthropic, uma das startups de IA generativa...

Ferramenta de propostas Wix ajuda empresas a conquistar mais clientes

Wix anunciou um novo recurso que permite às...

Assine

spot_img

Veja Também

The Top 30 Social Media Influencers Worldwide

Social media influencers are prominent figures. They dominate...

Anthropic lança novo aplicativo para iPhone e plano premium para empresas

A Anthropic, uma das startups de IA generativa...

Ferramenta de propostas Wix ajuda empresas a conquistar mais clientes

Wix anunciou um novo recurso que permite às...

Gemini agora disponível no Brasil e com extensões para apps do Google

O Google anunciou a expansão do Gemini para...
spot_img

The Top 30 Social Media Influencers Worldwide

Social media influencers are prominent figures. They dominate the online world and social apps we use daily to become household names. Social media platforms...

Anthropic lança novo aplicativo para iPhone e plano premium para empresas

A Anthropic, uma das startups de IA generativa mais bem financiadas do mundo, com US$ 7,6 bilhões no banco, está lançando um novo...

Ferramenta de propostas Wix ajuda empresas a conquistar mais clientes

Wix anunciou um novo recurso que permite às empresas criar propostas de negócios e gerenciar pagamentos, agilizando o processo de conversão de clientes...