Posts Recentes:

GraphRAG é um RAG melhor e agora é gratuito


A Microsoft está disponibilizando publicamente uma nova tecnologia chamada GraphRAG, que permite que chatbots e mecanismos de resposta conectem os pontos em um conjunto de dados inteiro, superando o padrão Retrieval-Augmented Generation (RAG) por grandes margens.

Qual é a diferença entre RAG e GraphRAG?

RAG (Retrieval-Augmented Generation) é uma tecnologia que permite que um LLM alcance um banco de dados como um índice de pesquisa e use isso como base para responder a uma pergunta. Pode ser usado para conectar um modelo de linguagem grande e um índice de mecanismo de pesquisa convencional.

O benefício do RAG é que ele pode usar dados autoritativos e confiáveis ​​para responder perguntas. O RAG também permite que chatbots de IA generativos usem informações atualizadas para responder perguntas sobre tópicos nos quais o LLM não foi treinado. Esta é uma abordagem usada por mecanismos de busca de IA como o Perplexity.

A vantagem do RAG está relacionada ao uso de embeddings. Embeddings é uma maneira de representar as relações semânticas entre palavras, frases e documentos. Essa representação permite que a parte de recuperação do RAG corresponda uma consulta de pesquisa ao texto em um banco de dados (como um índice de pesquisa).

Mas a desvantagem de usar embeddings é que isso limita o RAG à correspondência de texto em um nível granular (em oposição a um alcance global nos dados).

A Microsoft explica:

“Como o RAG ingênuo considera apenas os top-k pedaços mais semelhantes de texto de entrada, ele falha. Pior ainda, ele comparará a pergunta com pedaços de texto que são superficialmente semelhantes a essa pergunta, resultando em respostas enganosas.”

A inovação do GraphRAG é que ele permite que um LLM responda a perguntas com base no conjunto de dados geral.

O que o GraphRAG faz é criar um gráfico de conhecimento a partir dos documentos indexados, também conhecidos como dados não estruturados. O exemplo óbvio de dados não estruturados são páginas da web. Então, quando o GraphRAG cria um gráfico de conhecimento, ele está criando uma representação “estruturada” dos relacionamentos entre várias “entidades” (como pessoas, lugares, conceitos e coisas) que é então mais facilmente compreendida pelas máquinas.

O GraphRAG cria o que a Microsoft chama de “comunidades” de temas gerais (alto nível) e tópicos mais granulares (baixo nível). Um LLM então cria um resumo de cada uma dessas comunidades, um “resumo hierárquico dos dados” que é então usado para responder perguntas. Este é o avanço porque permite que um chatbot responda perguntas com base mais no conhecimento (os resumos) do que dependendo de embeddings.

É assim que a Microsoft explica:

“Usar um LLM para resumir cada uma dessas comunidades cria um resumo hierárquico dos dados, fornecendo uma visão geral de um conjunto de dados sem precisar saber quais perguntas fazer com antecedência. Cada comunidade serve como base para um resumo da comunidade que descreve suas entidades e seus relacionamentos.

…Os resumos da comunidade ajudam a responder a essas perguntas globais porque o índice do gráfico de descrições de entidades e relacionamentos já considerou todos os textos de entrada em sua construção. Portanto, podemos usar uma abordagem map-reduce para responder a perguntas que retém todo o conteúdo relevante do contexto global de dados…”

Exemplos de RAG versus GraphRAG

O artigo de pesquisa original do GraphRAG ilustrou a superioridade da abordagem GraphRAG em ser capaz de responder a perguntas para as quais não há dados de correspondência exata nos documentos indexados. O exemplo usa um conjunto de dados limitado de notícias russas e ucranianas do mês de junho de 2023 (traduzido para o inglês).

Pergunta de correspondência de texto simples

A primeira questão que foi usada como exemplo foi “O que é Novorossiya?” e tanto o RAG quanto o GraphRAG responderam à pergunta, com o GraphRAG oferecendo uma resposta mais detalhada.

A resposta curta, a propósito, é que “Novorossiya” significa Nova Rússia e é uma referência às terras ucranianas que foram conquistadas pela Rússia no século XVIII.

A segunda questão de exemplo exigiu que a máquina fizesse conexões entre conceitos dentro dos documentos indexados, o que a Microsoft chama de “tarefa de sumarização focada em consulta (QFS)”, que é diferente de uma tarefa simples de recuperação baseada em texto. Ela requer o que a Microsoft chama de “conectar os pontos”.

A pergunta feita aos sistemas RAG e GraphRAG:

“O que a Novorossiya fez?”

Esta é a resposta do RAG:

“O texto não fornece informações específicas sobre o que a Novorossiya fez.”

O GraphRAG respondeu à pergunta “O que a Novorossiya fez?” com uma resposta de dois parágrafos que detalha os resultados do movimento político da Novorossiya.

Aqui está um pequeno trecho da resposta de dois parágrafos:

“Novorossiya, um movimento político na Ucrânia, tem estado envolvido numa série de atividades destrutivas, particularmente visando várias entidades na Ucrânia [Entities (6494, 912)]. O movimento foi associado a planos para destruir propriedades de várias entidades ucranianas, incluindo Rosen, a Fábrica de Conservas de Odessa, o Centro Regional de Transmissão de Rádio e Televisão de Odessa e a Companhia Nacional de Televisão da Ucrânia. [Relationships (15207, 15208, 15209, 15210)]…

…O Gabinete do Procurador-Geral da Ucrânia informou sobre a criação da Novorossiya, indicando a consciência do governo e a potencial preocupação com as atividades deste movimento…”

O texto acima é apenas parte das respostas extraídas do conjunto de dados limitado de um mês, o que ilustra como o GraphRAG é capaz de conectar os pontos em todos os documentos.

GraphRAG agora disponível publicamente

A Microsoft anunciou que o GraphRAG está disponível publicamente para uso por qualquer pessoa.

“Hoje, temos o prazer de anunciar que o GraphRAG agora está disponível no GitHub, oferecendo recuperação de informações mais estruturada e geração de resposta abrangente do que abordagens RAG ingênuas. O repositório de código GraphRAG é complementado por um acelerador de solução, fornecendo uma experiência de API fácil de usar hospedada no Azure que pode ser implantada sem código em alguns cliques.”

A Microsoft lançou o GraphRAG para tornar as soluções baseadas nele mais acessíveis ao público e incentivar o feedback para melhorias.

Leia o anúncio:

GraphRAG: Nova ferramenta para descoberta de dados complexos agora no GitHub

Imagem em destaque por Shutterstock/Deemerwha studio

Últimas

Assine

spot_img

Veja Também

spot_img

Startups de computação e blindagem unem forças para colocar chips com capacidade de IA no espaço

Naves espaciais sofisticadas geralmente funcionam com sistemas de computação surpreendentemente desatualizados: considere que o rover Perseverance funciona com um PowerPC 750, o processador...

Em uma atualização importante, a Proton adiciona colaboração de documentos com privacidade segura ao Drive, seu serviço de armazenamento em nuvem E2EE freemium

A Proton, fabricante de aplicativos de produtividade pró-privacidade com sede na Suíça, tem uma nova chance após trazer recursos de criação, edição e...

A exposição da Espanha às mudanças climáticas ajuda a VC de Madri, Seaya, a fechar um fundo de tecnologia climática de € 300 milhões

De acordo com um relatório recente do Dealroom sobre o ecossistema tecnológico espanhol, o valor empresarial combinado das startups espanholas superado € 100...