Posts Recentes:

Bill Weber deixa o cargo de CEO da Firefly Aerospace

Bill Weber deixou o cargo de presidente-executivo da...

26 Common SEO Myths, Debunked

SEO is a complex, vast, and sometimes mysterious...

O cenário de startups de Israel mostra resiliência apesar de nove meses de guerra

Quando a guerra entre Israel e o Hamas...

um modelo de linguagem multimodal para geração de vídeos


Pesquisadores do Google anunciaram a criação do VideoPoet, um poderoso modelo de linguagem multimodal capaz de gerar vídeos a partir de diversas fontes de entrada, como texto, imagens, vídeos e áudio.

O VideoPoet utiliza uma arquitetura de “transformador com decodificador”, sendo considerado um modelo zero-shot, ou seja, pode criar conteúdo para o qual não foi especificamente treinado.

O processo de treinamento do VideoPoet segue duas etapas semelhantes às de outros modelos de linguagem: pré-treinamento e adaptação específica para tarefas.

Os pesquisadores destacam que o modelo pré-treinado do VideoPoet serve como base para a realização de várias tarefas de geração de vídeo.

Uma característica diferencial do VideoPoet é sua capacidade de integrar diversas capacidades de geração de vídeo dentro de um único modelo de linguagem, dispensando a necessidade de componentes separadamente treinados para cada tarefa específica.

um modelo de linguagem multimodal para geracao de videos

O que o diferencia de outros modelos de vídeo que seguem abordagens de modelos de difusão, que adicionam ruído aos dados de treinamento e depois os reconstróem.

Com o VideoPoet, é possível realizar tarefas como geração de vídeo a partir de texto, imagem para vídeo, estilização de vídeo, preenchimento e ampliação de vídeo, bem como geração de áudio a partir de vídeos.

O VideoPoet é um modelo autorregressivo, o que significa que gera sua saída com base no que foi gerado previamente. Durante o treinamento, o VideoPoet é alimentado com dados de vídeo, texto, imagem e áudio, utilizando tokenizers para converter as informações entre as diferentes modalidades.

Os pesquisadores enfatizam o potencial promissor dos modelos de linguagem no campo da geração de vídeos e apontam para futuras direções de pesquisa, incluindo a ampliação do VideoPoet para suportar a geração “qualquer-para-qualquer”, como texto para áudio, áudio para vídeo e legendas de vídeo, entre outras possibilidades.

“Nossos resultados sugerem o potencial promissor dos LLMs na área de geração de vídeo”, disseram os pesquisadores. “Para direções futuras, nossa estrutura deve ser capaz de suportar a geração ‘qualquer para qualquer’, por exemplo, a extensão para texto para áudio, áudio para vídeo e legendas de vídeo deve ser possível, entre muitos outros.”

Últimas

Bill Weber deixa o cargo de CEO da Firefly Aerospace

Bill Weber deixou o cargo de presidente-executivo da...

26 Common SEO Myths, Debunked

SEO is a complex, vast, and sometimes mysterious...

O cenário de startups de Israel mostra resiliência apesar de nove meses de guerra

Quando a guerra entre Israel e o Hamas...

Netflix muda foco para nível suportado por anúncios à medida que o crescimento de assinantes aumenta

A Netflix está eliminando seu plano mais barato...

Assine

spot_img

Veja Também

Bill Weber deixa o cargo de CEO da Firefly Aerospace

Bill Weber deixou o cargo de presidente-executivo da...

26 Common SEO Myths, Debunked

SEO is a complex, vast, and sometimes mysterious...

O cenário de startups de Israel mostra resiliência apesar de nove meses de guerra

Quando a guerra entre Israel e o Hamas...

Netflix muda foco para nível suportado por anúncios à medida que o crescimento de assinantes aumenta

A Netflix está eliminando seu plano mais barato...

Por que grupos de anúncios de palavras-chave únicas ainda são importantes em 2024

Entreviste 10 especialistas do Google Ads e nove...
spot_img

Bill Weber deixa o cargo de CEO da Firefly Aerospace

Bill Weber deixou o cargo de presidente-executivo da Firefly Aerospace, após quase dois anos no cargo, anunciou a fabricante de veículos de lançamento,...

26 Common SEO Myths, Debunked

SEO is a complex, vast, and sometimes mysterious practice. There are a lot of aspects to SEO that can lead to confusion. Not everyone...

O cenário de startups de Israel mostra resiliência apesar de nove meses de guerra

Quando a guerra entre Israel e o Hamas eclodiu em Outubro passado, examinámos o seu potencial impacto nos ecossistemas tecnológicos em Israel e...