Há alguns anos, Alex Yu e Amit Jain se uniram para fundar uma empresa que permitiria às pessoas capturar objetos em 3D usando seus smartphones – sem a necessidade de equipamento adicional. Na época, Yu era pesquisador de IA na UC Berkeley, enquanto Jain era funcionário da Apple desenvolvendo as experiências multimídia do Vision Pro.
A empresa deles, Luma, lançou um aplicativo para smartphone em 2021, que rapidamente ganhou força – atraindo milhões de usuários (pouco mais de dois milhões no momento da publicação). Mas agora, à medida que a tecnologia generativa de IA inunda os canais, Yu e Jain esperam evoluir Luma para algo maior – e, com alguma sorte, melhor – do que eles imaginaram originalmente.
A Luma anunciou hoje que começará a aproveitar um cluster de computação de aproximadamente 3.000 GPUs Nvidia A100 para treinar novos modelos de IA que possam – nas palavras de Yu – “ver e compreender, mostrar e explicar e, eventualmente, interagir com [the] mundo.”
A primeira fase deste plano envolve a criação de modelos capazes de gerar objetos 3D a partir de descrições textuais; A Luma lançou um desses modelos em seu servidor Discord no início deste ano, chamado Genie. O próximo será desenvolver modelos de IA generativos de “próxima geração” que abordem o que Yu caracteriza como o problema do “vale misterioso” na GenAI da geração atual.
“Acreditamos que a multimodalidade é fundamental para a inteligência. Para ir além dos modelos de linguagem, o próximo desbloqueio virá da visão”, disse Yu ao TechCrunch em entrevista por e-mail. “[However,] A IA precisa ficar muito mais inteligente para oferecer o potencial que o mundo vê nela.
Para perceber isso visão visão (com o perdão do trocadilho), Luma arrecadou US$ 43 milhões em uma rodada da Série B com a participação de Andreessen Horowitz entre outros apoiadores antigos e novos. Segundo uma fonte familiarizada com o assunto, a rodada avalia Luma entre US$ 200 milhões e US$ 300 milhões; O fundo de guerra de Luma agora é de mais de US$ 70 milhões.
O foco atual da Luma – lançar modelos de IA para criação de modelos 3D – é um espaço cada vez mais competitivo. Existem plataformas de criação de objetos como 3DFY e Scenario, bem como startups como Hypothetic, Kaedim, Auctoria e Mirage. Stability AI lançou recentemente uma ferramenta autônoma de geração de modelo 3D, assim como o empreendimento mais recente, Atlas. Até mesmo empresas tradicionais como Autodesk e Nvidia estão começando a mergulhar no setor com aplicativos como Get3D, que converte imagens em modelos 3D, e ClipForge, que gera modelos a partir de descrições de texto.
Então, como as ferramentas da Luma se diferenciarão? Fidelidade principalmente, diz Yu.
“Os modelos atuais estão todos sendo treinados em imagens bidimensionais e, quando solicitados a gerar cenas, destroem espaços, corpos e movimentos”, disse ele. “É muito difícil gerar algo coerente e utilizável nas primeiras tentativas, limitando onde você pode usar os resultados… [We’re bringing] sobre a mais avançada tecnologia fotorrealística generativa[ies] em um aplicativo intuitivo.”
Isso é muito promissor, considerando que ainda está no início do ambicioso novo roteiro de Luma. Uma versão melhorada do Genie é lançada hoje, mas modelos futuros de IA generativa mais capazes ainda estão muito distantes.
Porém, a Luma não está perdendo tempo, planejando dobrar sua força de trabalho de 24 pessoas até o final do próximo ano, enquanto monta um cluster de servidores modelo de “milhares” de GPUs. Talvez, afinal, isso avance; o tempo vai dizer.
“Temos aumentado a equipe em pesquisa, engenharia, design e produtos de IA generativa, a fim de dar vida à nossa visão e planejamos acelerar o ritmo aqui significativamente após esta rodada”, disse Jain. “Com o Genie, pela primeira vez, criar coisas 3D em escala tornou-se possível com IA, e esse número cresceu para 100.000 usuários em apenas quatro semanas… [But we want to] construir modelos visuais muito mais capazes, inteligentes e úteis para nossos usuários.”