Posts Recentes:

Como a Abridge se tornou uma das startups de IA em saúde mais comentadas

Peça a qualquer um dos VCs focados em...

Snap visualiza seu modelo de imagem em tempo real que pode gerar experiências de AR

Na Augmented World Expo na terça-feira, o Snap...

Por que os bancos de dados vetoriais estão passando por um momento em que o ciclo de hype da IA ​​atinge o pico


Bancos de dados vetoriais são está na moda, a julgar pelo número de startups entrando no espaço e pelos investidores desembolsando por um pedaço do bolo. O proliferação de grandes modelos de linguagem (LLMs) e a IA generativa (GenAI) criou um terreno fértil para o florescimento das tecnologias de bancos de dados vetoriais.

Embora os bancos de dados relacionais tradicionais, como Postgres ou MySQL, sejam adequados para dados estruturados – tipos de dados predefinidos que podem ser arquivados ordenadamente em linhas e colunas – isso não funciona tão bem para dados não estruturados, como imagens, vídeos, e-mails, mídias sociais. postagens e quaisquer dados que não estejam de acordo com um modelo de dados predefinido.

Os bancos de dados vetoriais, por outro lado, armazenam e processam dados na forma de incorporações vetoriais, que convertem texto, documentos, imagens e outros dados em representações numéricas que capturam o significado e as relações entre os diferentes pontos de dados. Isso é perfeito para aprendizado de máquina, pois o banco de dados armazena dados espacialmente de acordo com a relevância de cada item para o outro, facilitando a recuperação de dados semanticamente semelhantes.

Isto é particularmente útil para LLMs, como o GPT-4 da OpenAI, pois permite que o chatbot de IA compreenda melhor o contexto de uma conversa, analisando conversas anteriores semelhantes. A pesquisa vetorial também é útil para todos os tipos de aplicações em tempo real, como recomendações de conteúdo em redes sociais ou aplicativos de comércio eletrônico, pois pode ver o que um usuário pesquisou e recuperar itens semelhantes em um piscar de olhos.

A pesquisa vetorial também pode ajudar a reduzir “alucinações”em aplicativos LLM, fornecendo informações adicionais que podem não estar disponíveis no conjunto de dados de treinamento original.

“Sem usar a pesquisa por similaridade vetorial, você ainda pode desenvolver aplicativos de IA/ML, mas precisaria fazer mais treinamento e ajuste fino”, linkedin.com/in/zayarni/" rel="noopener">André ZayarniCEO e cofundador da startup de pesquisa vetorial Qdrant, explicou ao TechCrunch. “Os bancos de dados vetoriais entram em ação quando há um grande conjunto de dados e você precisa de uma ferramenta para trabalhar com incorporações vetoriais de maneira eficiente e conveniente.”

Em janeiro, Qdrant garantiu US$ 28 milhões no financiamento para capitalizar o crescimento que o levou a tornar-se um dos As 10 startups comerciais de código aberto que mais cresceram no ano passado. E está longe de ser a única startup de banco de dados vetorial a arrecadar dinheiro ultimamente – Vespa, Tecer, Pinhae Croma arrecadaram coletivamente US$ 200 milhões no ano passado para diversas ofertas de vetores.

Equipe fundadora da Qdrant

Equipe fundadora da Qdrant. Créditos da imagem: Qdrant

Desde a virada do ano, também vimos a Index Ventures liderar uma rodada inicial de US$ 9,5 milhões em Superlinkado, uma plataforma que transforma dados complexos em incorporações vetoriais. E algumas semanas atrás, Y Combinator (YC) revelou sua coorte Winter '24que incluía Lanternauma startup que vende um mecanismo de busca de vetores hospedado para Postgres.

Em outro lugar, Marco levantou um Rodada inicial de US$ 4,4 milhões no final do ano passado, rapidamente seguido por um Rodada da Série A de US$ 12,5 milhões em fevereiro. A plataforma Marqo fornece uma gama completa de ferramentas vetoriais prontas para uso, abrangendo geração, armazenamento e recuperação de vetores, permitindo aos usuários contornar ferramentas de terceiros, como OpenAI ou Hugging Face, e oferece tudo por meio de uma única API.

Cofundadores da Marqo linkedin.com/in/tom-hamer-%F0%9F%A6%9B-04a6369b/" rel="noopener">Tom Hamer e linkedin.com/in/jessenclark/" rel="noopener">Jesse N. Clark anteriormente trabalhou em funções de engenharia na Amazonas, onde perceberam a “enorme necessidade não atendida” de pesquisa semântica e flexível em diferentes modalidades, como texto e imagens. E foi então que eles abandonaram o navio para formar o Marqo em 2021.

“Trabalhar com pesquisa visual e robótica na Amazon foi quando eu realmente olhei para a pesquisa vetorial – estava pensando em novas maneiras de fazer descoberta de produtos, e isso rapidamente convergiu para a pesquisa vetorial”, disse Clark ao TechCrunch. “Na robótica, eu estava usando a pesquisa multimodal para pesquisar muitas de nossas imagens e identificar se havia coisas erradas, como mangueiras e embalagens. Caso contrário, seria muito difícil resolver isso.”

Cofundadores da Marqo

Os co-fundadores da Marqo, Jesse Clark e Tom Hamer. Créditos da imagem: Marco

Entre na empresa

Embora os bancos de dados vetoriais estejam passando por um momento em meio ao tumulto do ChatGPT e do movimento GenAI, eles não são a panaceia para todos os cenários de pesquisa corporativa.

“Bancos de dados dedicados tendem a ser totalmente focados em casos de uso específicos e, portanto, podem projetar sua arquitetura para desempenho nas tarefas necessárias, bem como experiência do usuário, em comparação com bancos de dados de uso geral, que precisam se adequar ao design atual”, linkedin.com/in/peterzaitsev/" rel="noopener">Pedro Zaitsevfundador da empresa de suporte e serviços de banco de dados Percona, explicou ao TechCrunch.

Embora os bancos de dados especializados possam se destacar em uma coisa e excluir outras, é por isso que estamos começando a ver titulares de banco de dados como Elástico, Redis, Pesquisa aberta, Cassandra, Oráculoe MongoDB adicionando inteligência de pesquisa de banco de dados vetorial à mistura, assim como provedores de serviços em nuvem como Azure da Microsoft, AWS da Amazone nuvemflare.

Zaitsev compara esta última tendência com o que aconteceu com JSON há mais de uma década, quando os aplicativos da web se tornaram mais predominantes e os desenvolvedores precisavam de um formato de dados independente de linguagem que fosse fácil de ler e escrever para os humanos. Nesse caso, uma nova classe de banco de dados surgiu na forma de bancos de dados de documentos como MongoDBenquanto os bancos de dados relacionais existentes também introduziu suporte JSON.

“Acho que o mesmo provavelmente acontecerá com bancos de dados vetoriais”, disse Zaitsev ao TechCrunch. “Os usuários que estão construindo aplicativos de IA muito complicados e em grande escala usarão bancos de dados de pesquisa vetorial dedicados, enquanto as pessoas que precisam construir um pouco de funcionalidade de IA para seus aplicativos existentes terão maior probabilidade de usar a funcionalidade de pesquisa vetorial nos bancos de dados que já usam. ”

Mas Zayarni e seus colegas da Qdrant apostam que soluções nativas construídas inteiramente em torno de vetores fornecerão a “velocidade, segurança de memória e escala” necessárias à medida que os dados vetoriais explodem, em comparação com as empresas que lançam a pesquisa vetorial como uma reflexão tardia.

“A proposta deles é: 'também podemos fazer pesquisas vetoriais, se necessário'”, disse Zayarni. “Nossa proposta é: 'fazemos pesquisa vetorial avançada da melhor maneira possível'. É tudo uma questão de especialização. Na verdade, recomendamos começar com qualquer banco de dados que você já tenha em sua pilha de tecnologia. Em algum momento, os usuários enfrentarão limitações se a pesquisa vetorial for um componente crítico da sua solução.”

Últimas

Assine

spot_img

Veja Também

spot_img

Como a Abridge se tornou uma das startups de IA em saúde mais comentadas

Peça a qualquer um dos VCs focados em saúde para nomear uma das principais startups de IA e um nome surge repetidamente: uma...

O satélite de inspeção de lixo espacial da Astroscale tira uma foto em close de um estágio de foguete descartado

Astroescala O satélite de observação de lixo espacial aproximou-se do estágio superior de um foguete descartado que está flutuando ao redor da Terra...

Snap visualiza seu modelo de imagem em tempo real que pode gerar experiências de AR

Na Augmented World Expo na terça-feira, o Snap apresentou uma versão inicial de seu modelo de difusão de imagens em tempo real no...