Posts Recentes:

SoftBank adquire fabricante de chips de IA do Reino Unido Graphcore

Empresa de chips do Reino Unido Gráficooré foi...

Pesquisadores do Google alertam que a IA está destruindo a internet

Um estudo feito por pesquisadores do Google aponta...

A nova IA da DeepMind gera trilhas sonoras e diálogos para vídeos


DeepMind, laboratório de pesquisa de IA do Google, afirma que está desenvolvendo tecnologia de IA para gerar trilhas sonoras para vídeos.

Em uma postagem em seu blog oficial, a DeepMind afirma que vê a tecnologia V2A (abreviação de “vídeo para áudio”) como uma peça essencial do quebra-cabeça de mídia gerado por IA. Embora muitas organizações, incluindo a DeepMind, tenham desenvolvido modelos de IA de geração de vídeo, esses modelos não podem criar efeitos sonoros para sincronizar com os vídeos que geram.

“Os modelos de geração de vídeo estão avançando a um ritmo incrível, mas muitos sistemas atuais só conseguem gerar saída silenciosa”, escreve DeepMind. “Tecnologia V2A [could] tornar-se uma abordagem promissora para dar vida aos filmes gerados.

A tecnologia V2A da DeepMind usa a descrição de uma trilha sonora (por exemplo, “água-viva pulsando sob a água, vida marinha, oceano”) emparelhada com um vídeo para criar música, efeitos sonoros e até diálogos que correspondam aos personagens e ao tom do vídeo, marcados com marca d’água pelos deepfakes da DeepMind -combate à tecnologia SynthID. O modelo de IA que alimenta o V2A, um modelo de difusão, foi treinado em uma combinação de sons e transcrições de diálogos, bem como videoclipes, diz DeepMind.

“Através do treinamento em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, segundo DeepMind.

Mamãe sabe se algum dos dados de treinamento estava protegido por direitos autorais – e se os criadores dos dados foram informados sobre o trabalho da DeepMind. Entramos em contato com a DeepMind para esclarecimentos e atualizaremos esta postagem se recebermos resposta.

As ferramentas de geração de som alimentadas por IA não são novas. Startup Stability AI lançou um na semana passada, e ElevenLabs lançou um em maio. Nem são modelos para criar efeitos sonoros de vídeo. Um projeto da Microsoft pode gerar vídeos de fala e canto a partir de uma imagem estática, e plataformas como Pika e GenreX treinaram modelos para gravar um vídeo e adivinhar qual música ou efeitos são apropriados em uma determinada cena.

Mas a DeepMind afirma que sua tecnologia V2A é única, pois pode compreender os pixels brutos de um vídeo e sincronizar automaticamente os sons gerados com o vídeo, opcionalmente sem descrição.

V2A não é perfeito e a DeepMind reconhece isso. Como o modelo subjacente não foi treinado em muitos vídeos com artefatos ou distorções, ele não cria áudio de qualidade particularmente alta para eles. E em geral, o áudio gerado não é super convincente; minha colega Natasha Lomas descreveu-o como “uma miscelânea de sons estereotipados”, e não posso dizer que discordo.

Por essas razões, e para evitar o uso indevido, a DeepMind afirma que não lançará a tecnologia ao público tão cedo, ou nunca.

“Para garantir que nossa tecnologia V2A possa ter um impacto positivo na comunidade criativa, estamos reunindo diversas perspectivas e insights dos principais criadores e cineastas e usando esse feedback valioso para informar nossa pesquisa e desenvolvimento contínuos”, escreve DeepMind. “Antes de considerarmos abrir o acesso ao público em geral, nossa tecnologia V2A passará por avaliações e testes de segurança rigorosos.”

A DeepMind apresenta sua tecnologia V2A como uma ferramenta especialmente útil para arquivistas e pessoas que trabalham com imagens históricas. Mas a IA generativa nesse sentido também ameaça derrubar a indústria cinematográfica e televisiva. Serão necessárias proteções trabalhistas muito fortes para garantir que as ferramentas de mídia generativa não eliminem empregos – ou, conforme o caso, profissões inteiras. twitter.com/intent/tweet?url=https%3A%2F%2Ftechcrunch.com%2F2024%2F06%2F17%2Frunways-new-video-generating-ai-gen-3-offers-improved-controls%2F&text=Runway%E2%80%99s+new+video-generating+AI%2C+Gen-3%2C+offers+improved+controls&via=techcrunch" rel="noreferrer noopener">facebook.com/sharer.php?u=https%3A%2F%2Ftechcrunch.com%2F2024%2F06%2F17%2Frunways-new-video-generating-ai-gen-3-offers-improved-controls%2F" rel="noreferrer noopener">linkedin.com/shareArticle?url=https%3A%2F%2Ftechcrunch.com%2F2024%2F06%2F17%2Frunways-new-video-generating-ai-gen-3-offers-improved-controls%2F&title=Runway%E2%80%99s+new+video-generating+AI%2C+Gen-3%2C+offers+improved+controls&summary=The+race+to+high-quality%2C+AI-generated+videos+is+heating+up.+On+Monday%2C+Runway%2C+a%C2%A0company+building+generative+AI+tools+geared+toward+film+and+image+content+creators%2C+unveiled+Gen-3+Alpha.+The+company%E2%80%99s+latest+AI+model+generates+video+clips+from+text+descriptions+and+still+images.+Runway+says+the+model+delivers+a+%E2%80%9Cmajor%E2%80%9D+improvement+in+generation+speed+and+fidelity+over+%5B%E2%80%A6%5D&mini=1&source=TechCrunch" rel="noreferrer noopener">



Últimas

Câmeras Waymo capturam imagens de pessoa acusada de supostos cortes de pneus de robotaxi

Um morador de Castro Valley foi acusado na...

SoftBank adquire fabricante de chips de IA do Reino Unido Graphcore

Empresa de chips do Reino Unido Gráficooré foi...

Pesquisadores do Google alertam que a IA está destruindo a internet

Um estudo feito por pesquisadores do Google aponta...

César Lattes, físico e professor brasileiro, é homenageado no Google

Hoje, o Google celebra com um Doodle animado...

Assine

spot_img

Veja Também

Câmeras Waymo capturam imagens de pessoa acusada de supostos cortes de pneus de robotaxi

Um morador de Castro Valley foi acusado na...

SoftBank adquire fabricante de chips de IA do Reino Unido Graphcore

Empresa de chips do Reino Unido Gráficooré foi...

Pesquisadores do Google alertam que a IA está destruindo a internet

Um estudo feito por pesquisadores do Google aponta...

César Lattes, físico e professor brasileiro, é homenageado no Google

Hoje, o Google celebra com um Doodle animado...

O WhatsApp agora permite que empresas enviem códigos de autenticação para usuários na Índia

O WhatsApp agora permite que empresas enviem códigos...
spot_img

Câmeras Waymo capturam imagens de pessoa acusada de supostos cortes de pneus de robotaxi

Um morador de Castro Valley foi acusado na quinta-feira por supostamente cortar os pneus de 17 robotaxis Waymo em São Francisco entre 24...

SoftBank adquire fabricante de chips de IA do Reino Unido Graphcore

Empresa de chips do Reino Unido Gráficooré foi formalmente adquirida pelo SoftBank do Japão.Rumores do acordo abundam há algum tempomas negociações prolongadas e...

Pesquisadores do Google alertam que a IA está destruindo a internet

Um estudo feito por pesquisadores do Google aponta que a IA generativa, a mesma que a gigante de Mountain View está super incentivando,...