Posts Recentes:

'Animate Qualquer um' anuncia a abordagem dos deepfakes full-motion


Como se os deepfakes de imagens estáticas não fossem ruins o suficiente, em breve teremos que lidar com vídeos gerados por qualquer pessoa que se atreva a colocar uma foto sua online: com Anime qualquer pessoaos maus atores podem manipular as pessoas melhor do que nunca.

A nova técnica de vídeo generativo foi desenvolvida por pesquisadores do Instituto de Computação Inteligente do Grupo Alibaba. É um grande avanço em relação aos sistemas anteriores de imagem para vídeo, como DisCo e DreamPose, que eram impressionantes desde o verão, mas agora são história antiga.

O que o Animate Qualquer um pode fazer não é de forma alguma inédito, mas ultrapassou aquele espaço difícil entre “experiência acadêmica desajeitada” e “bom o suficiente se você não olhar de perto”. Como todos sabemos, o próximo estágio é simplesmente “bom o suficiente”, onde as pessoas nem se dão ao trabalho de olhar mais de perto porque presumem que é real. É aí que estão atualmente as imagens estáticas e as conversas por texto, causando estragos em nosso senso de realidade.

Modelos de imagem para vídeo como este começam extraindo detalhes, como características faciais, padrões e pose, de uma imagem de referência, como uma foto de moda de uma modelo usando um vestido à venda. Em seguida, uma série de imagens é criada onde esses detalhes são mapeados em poses ligeiramente diferentes, que podem ser capturadas por movimento ou extraídas de outro vídeo.

Modelos anteriores mostraram que isso era possível, mas havia muitos problemas. A alucinação era um grande problema, pois a modelo tinha que inventar detalhes plausíveis, como a forma como uma manga ou cabelo se moveria quando uma pessoa se virasse. Isso leva a muitas imagens realmente estranhas, tornando o vídeo resultante longe de ser convincente. Mas a possibilidade permaneceu, e o Animate Any melhorou muito, embora ainda esteja longe de ser perfeito.

As especificidades técnicas do novo modelo estão além da maioria, mas o papel enfatiza uma nova etapa intermediária que “permite ao modelo aprender de forma abrangente a relação com a imagem de referência em um espaço de recursos consistente, o que contribui significativamente para a melhoria da preservação dos detalhes da aparência”. Ao melhorar a retenção de detalhes básicos e finos, as imagens geradas posteriormente têm uma base mais sólida para trabalhar e ficam muito melhores.

animate an2

Créditos da imagem: Grupo Alibaba

Eles mostram seus resultados em alguns contextos. As modelos assumem poses arbitrárias sem deformar ou perder a estampa da roupa. Uma figura de anime 2D ganha vida e dança de forma convincente. Lionel Messi faz alguns movimentos genéricos.

Eles estão longe de ser perfeitos – especialmente no que diz respeito aos olhos e às mãos, que representam problemas específicos para modelos generativos. E as poses mais bem representadas são as mais próximas do original; se a pessoa se vira, por exemplo, o modelo luta para acompanhar. Mas é um grande salto em relação ao estado da arte anterior, que produzia muito mais artefatos ou perdia completamente detalhes importantes como a cor do cabelo de uma pessoa ou de suas roupas.

É enervante pensar que, dada uma única imagem sua de boa qualidade, um ator (ou produtor) malicioso poderia obrigar você a fazer praticamente qualquer coisa e, combinado com animação facial e tecnologia de captura de voz, eles também poderiam fazer você expressar qualquer coisa ao mesmo tempo. . Por enquanto, a tecnologia é muito complexa e problemática para uso geral, mas as coisas não tendem a permanecer assim por muito tempo no mundo da IA.

Pelo menos a equipe ainda não está liberando o código para o mundo. Embora eles tenham um Página GitHub, os desenvolvedores escrevem: “estamos trabalhando ativamente na preparação da demonstração e do código para lançamento público. Embora não possamos nos comprometer com uma data de lançamento específica neste exato momento, por favor, tenham certeza de que a intenção de fornecer acesso tanto à demo quanto ao nosso código-fonte é firme.”

Será que o inferno vai explodir quando a internet for subitamente inundada com dancefakes? Descobriremos, e provavelmente mais cedo do que gostaríamos.

Últimas

Assine

spot_img

Veja Também

spot_img

Paul Graham afirma que Sam Altman não foi demitido da Y Combinator

Em um série de postagens no X na quinta-feira, Paul Graham, cofundador da aceleradora de startups Y Combinator, rejeitou as alegações de que...

O financiamento de startups de fabricação de IA está em declínio enquanto a EthonAI da Suíça arrecada US$ 16,5 milhões

À medida que as fábricas e instalações de produção se tornaram “mais esperto”através de sensores, robótica e outras tecnologias conectadas, isso criou um...