Os aplicativos de calendário são essenciais para a produtividade, mas é difícil diferenciá-los o suficiente para ter um desenvolvimento sustentado unicamente do uso principal. Bem por Y Combinator Superpoderosoque é um comentador com tecnologia de IA para suas reuniões que não envolve gravação de bots, atingiu esse tropeço e agora está se transformando para se tornar Vapium provedor de API para que qualquer pessoa possa fabricar facilmente um assistente com perceptibilidade sintético fundamentado em voz e som proveniente.
A Superpowered foi fundada em 2020 por Jordan Dearsley e Nikhil Gupta. Mas depois de três anos trabalhando nisso, Dearsley disse que a equipe queria trabalhar em um resultado mais reptador. A empresa não está encerrando o resultado inicial porque a startup disse que o Superpowered é lucrativo – ela está em processo de contratar alguém para operá-lo. A Y Combinator disse em junho que mais de 10 milénio pessoas usavam o resultado semanalmente, mas a empresa não forneceu números atualizados.

Créditos da imagem: Vapi
Até o momento, a Superpowered/Vapi levantou US$ 2,1 em capital inicial de investidores, incluindo Kleiner Perkins e Abstract Ventures.
Pivô para Vapi
A empresa oferece o Vapi uma vez que uma API para permitir que os desenvolvedores criem um bot usando unicamente prompts – e depois o colocam detrás de um número de telefone. Outrossim, oferece integração de SDK para que os desenvolvedores possam incorporar o bot em sites e aplicativos móveis.
Dearsley disse ao TechCrunch por e-mail que a teoria de erigir o Vapi surgiu de um problema pessoal. Ele havia se mudado para São Francisco e começou a sentir falta dos amigos e familiares, que estavam em um fuso horário dissemelhante. Ele construiu um bot de IA conectado a um número de telefone do outro lado da risca para falar com alguém e organizar seus pensamentos.
“Gostei, mas fiquei continuamente goro com o quão pouco proveniente era. Não era uma vez que conversar com uma pessoa. A voz soava desligada, haveria longos atrasos antes que ela respondesse e isso me interromperia enquanto eu estivesse falando.” ele disse.
“Logo continuei trabalhando nisso e fazendo caminhadas com ele. Eventualmente, ficamos fascinados com esse problema de conversação. É realmente difícil fazer um tanto parecer humano. Assistentes de voz hoje são desajeitados e baseados em turnos, queremos erigir um tanto que pareça humano.”
Tecnicamente, a Vapi está atualmente agrupando várias APIs de terceiros para erigir uma plataforma robusta de conversação por voz. Por exemplo, utiliza soluções da Twilio para telefonia, Deepgram para transcrição, Diário para streaming de áudio, OpenAI para respostas e JogarHT para conversão de texto em fala.
ScaleConvo, uma startup do lote de inverno YC para 2024, já está usando Vapi para lançar bots de conversação para equipes de vendas e empresas de governo de propriedades. No entanto, a Vapi não divulgou seus outros clientes. A empresa está abrindo sua API com Produtos Vapi Phone e Vapi Web hoje.
Desafios para Vapi
Um dos maiores desafios que a startup enfrenta é reduzir a latência, de tratado com Magnus Revan, ex-analista do Gartner e diretor de resultado da startup de conversação multimodal Openstream.ai.
“Os modelos OpenAI precisam de 2 a 10 segundos para gerar uma resposta – enquanto no telefone o padrão ouro é ter 700 ms entre o usuário terminar de falar e o ‘bot’ inaugurar a falar. E chegar a uma latência subalterno a 1 segundo com modelos capazes (modelos de código ingénuo com subida descrição de parâmetros, uma vez que LLaMA2 70B) é realmente difícil”, disse Revan.
Atualmente, o Vapi tem uma latência de 1,2 a 2 segundos, dependendo de vários fatores. Dearsley espera reduzir a latência para menos de um segundo no próximo mês, graças ao trabalho do próprio Vapi e às melhorias do OpenAI.
Mohamed Musbah, um investidor querubim da Vapi, também disse que a solução da startup melhorará com os avanços gerais na API.
“À medida que a OpenAI e outros melhoram seus modelos, a plataforma da Vapi se tornará mais poderosa, equipada com melhores bases de conhecimento, capacidades de realização de código e janelas de contexto maiores. O foco da Vapi em resolver as áreas de maior atrito na informação de voz será sua vantagem à medida que cresce a demanda dos usuários por assistentes de voz”, disse ele.
No entanto, isto coloca a responsabilidade na melhoria de outras soluções, em vez do próprio Vapi. Dearsley disse que a subordinação de outras APIs reduz a defensabilidade da Vapi se as grandes empresas começarem a entrar nessa espaço. Porém, a equipe disse que tem uma vantagem por ter construído infraestrutura para atender milhares de ligações simultaneamente. Dearsley enfatizou que com o lançamento da API da web e do telefone da Vapi para o público, a equipe também procurará erigir seus próprios modelos para soluções de áudio para áudio.