Posts Recentes:

Elon Musk traz Alex Jones e Infowars de volta ao X após pesquisa de usuários

Elon Musk restaurou as contas X do teórico...

Explore o Microsoft Bing Deep Search com GPT-4 e planos de IA generativa para 2024

A Microsoft anunciou o Deep Search, uma melhoria...

Mixtral-8x7B: 4 maneiras de experimentar o novo modelo da Mistral AI

Em um salto significativo no desenvolvimento de modelos...

A Twelve Labs está construindo modelos que podem compreender vídeos em um nível profundo


IA de geração de texto é uma coisa. Mas os modelos de IA que entendem imagens e também texto podem desbloquear novos aplicativos poderosos.

Veja, por exemplo, Doze Laboratórios. A startup com sede em São Francisco treina modelos de IA para – porquê diz o cofundador e CEO Jae Lee – “resolver problemas complexos de alinhamento de linguagem de vídeo”.

“Doze Laboratórios foram fundados… para produzir uma infraestrutura para compreensão de vídeo multimodal, sendo o primeiro esforço a pesquisa semiologia – ou ‘CTRL + F para vídeos’,”Lee disse ao TechCrunch em uma entrevista por e-mail. “O A visão do Twelve Labs é ajudar os desenvolvedores a produzir programas que possam ver, ouvir e compreender o mundo porquê nós.”

Os modelos do Twelve Labs tentam mapear a linguagem proveniente para o que está acontecendo dentro de um vídeo, incluindo ações, objetos e sons de fundo, permitindo que os desenvolvedores criem aplicativos que possam pesquisar vídeos, qualificar cenas e extrair tópicos desses vídeos, reunir e dividir maquinalmente videoclipes em capítulos e muito mais.

Lee diz que a tecnologia do Twelve Labs pode impulsionar coisas porquê inserção de anúncios e moderação de teor – por exemplo, desvendar quais vídeos mostrando facas são violentos e quais são instrutivos. Ele também pode ser usado para estudo de mídia, acrescentou Lee, e para gerar maquinalmente rolos de destaque – ou títulos e tags de postagens de blog – a partir de vídeos.

Perguntei a Lee sobre o potencial de viés nesses modelos, visto que é ciência muito estabelecida que os modelos amplificam os vieses nos dados nos quais são treinados. Por exemplo, treinar um protótipo de compreensão de vídeo principalmente em clipes de notícias locais – que muitas vezes passam muito tempo cobrindo crimes em um sensacionalizado, racializado maneira – poderia fazer com que o protótipo aprenda padrões racistas e sexistas.

Lee diz que a Twelve Labs se esforça para atender às métricas internas de preconceito e “justiça” para seus modelos antes de lançá-los, e que a empresa planeja lançar benchmarks e conjuntos de dados relacionados à moral do protótipo no horizonte. Mas ele não tinha zero para compartilhar ou por outra.

TwelveLabs Finetune API1

Maquete de API para ajustar o protótipo para funcionar melhor com teor relacionado a saladas.

“Em termos de porquê nosso resultado é dissemelhante dos grandes modelos de linguagem [like ChatGPT], o nosso é especificamente treinado e construído para processar e compreender vídeo, integrando holisticamente componentes visuais, de áudio e de fala nos vídeos”, disse Lee. “Nós realmente ultrapassamos os limites técnicos do que é provável para a compreensão do vídeo.”

O Google está desenvolvendo um protótipo multimodal semelhante para compreensão de vídeo chamado MÃE, que a empresa está usando para potencializar recomendações de vídeos na Pesquisa Google e no YouTube. Além do MUM, o Google – assim porquê a Microsoft e a Amazon – oferece serviços baseados em IA em nível de API que reconhecem objetos, lugares e ações em vídeos e extraem metadados ricos no nível do quadro.

Mas Lee argumenta que a Twelve Labs se diferencia tanto pela qualidade de seus modelos quanto pelos recursos de ajuste fino da plataforma, que permitem aos clientes ajustar maquinalmente os modelos da plataforma com seus próprios dados para estudo de vídeo “específica de domínio”.

No que diz saudação ao protótipo, a Twelve Labs está lançando hoje o Pegasus-1, um novo protótipo multimodal que entende uma série de prompts relacionados à estudo de vídeo inteiro. Por exemplo, o Pegasus-1 pode ser solicitado a gerar um relatório longo e descritivo sobre um vídeo ou exclusivamente alguns destaques com carimbos de data e hora.

“As organizações empresariais reconhecem o potencial de aproveitar seus vastos dados de vídeo para novas oportunidades de negócios… No entanto, as capacidades limitadas e simplistas dos modelos convencionais de IA de vídeo muitas vezes ficam aquém de atender ao intrincado entendimento necessário para a maioria dos casos de uso de negócios”, disse Lee. “Aproveitando poderosos modelos básicos de compreensão de vídeo multimodal, as organizações empresariais podem atingir a compreensão de vídeo em nível humano sem estudo manual.”

Desde o lançamento da versão beta privada no início de maio, a base de usuários do Twelve Labs cresceu para 17.000 desenvolvedores, afirma Lee. E a empresa agora trabalha com diversas empresas – não está simples quantas; Lee não quis manifestar – em todos os setores, incluindo esportes, mídia e entretenimento, e-learning e segurança, incluindo a NFL.

A Twelve Labs também continua arrecadando numerário – e é uma segmento importante de qualquer negócio inicial. Hoje, a empresa anunciou que fechou uma rodada de financiamento estratégico de US$ 10 milhões da Nvidia, Intel e Samsung Next, elevando seu totalidade arrecadado para US$ 27 milhões.

“Oriente novo investimento envolve parceiros estratégicos que podem correr nossa empresa em pesquisa (computação), resultado e distribuição”, disse Lee. “É o combustível para a inovação contínua, com base na pesquisa do nosso laboratório, no campo da compreensão de vídeo, para que possamos continuar a trazer os modelos mais poderosos aos clientes, quaisquer que sejam os seus casos de utilização… Estamos a fazer continuar a indústria de uma forma que libertar as empresas para fazerem coisas incríveis.”

Últimas

Elon Musk traz Alex Jones e Infowars de volta ao X após pesquisa de usuários

Elon Musk restaurou as contas X do teórico...

Explore o Microsoft Bing Deep Search com GPT-4 e planos de IA generativa para 2024

A Microsoft anunciou o Deep Search, uma melhoria...

Mixtral-8x7B: 4 maneiras de experimentar o novo modelo da Mistral AI

Em um salto significativo no desenvolvimento de modelos...

Assine

spot_img

Veja Também

Elon Musk traz Alex Jones e Infowars de volta ao X após pesquisa de usuários

Elon Musk restaurou as contas X do teórico...

Explore o Microsoft Bing Deep Search com GPT-4 e planos de IA generativa para 2024

A Microsoft anunciou o Deep Search, uma melhoria...

Mixtral-8x7B: 4 maneiras de experimentar o novo modelo da Mistral AI

Em um salto significativo no desenvolvimento de modelos...

The 17 Best Ad Networks For Content Creators In 2024

In case you were in any doubt, we...
spot_img

Elon Musk traz Alex Jones e Infowars de volta ao X após pesquisa de usuários

Elon Musk restaurou as contas X do teórico da conspiração Alex Jones e de seu site de mídia Infowars. As contas X...

Explore o Microsoft Bing Deep Search com GPT-4 e planos de IA generativa para 2024

A Microsoft anunciou o Deep Search, uma melhoria substancial nos recursos de pesquisa na web do Bing, alimentado pelo GPT-4 da OpenAI. O que...

Mixtral-8x7B: 4 maneiras de experimentar o novo modelo da Mistral AI

Em um salto significativo no desenvolvimento de modelos de linguagem grande (LLM), a Mistral AI anunciou o lançamento de seu mais novo modelo,...