Posts Recentes:

A estrutura de código aberto de Giskard avalia modelos de IA antes de serem colocados em produção


Giskard é uma startup francesa que trabalha em uma estrutura de teste de código ingénuo para grandes modelos de linguagem. Ele pode alertar os desenvolvedores sobre riscos de preconceitos, falhas de segurança e a capacidade de um padrão de gerar teor prejudicial ou tóxico.

Embora haja muito exaltação em torno dos modelos de IA, os sistemas de teste de ML também se tornarão rapidamente um tema quente, à medida que a regulamentação está prestes a ser aplicada na UE com a Lei de IA e em outros países. As empresas que desenvolvem modelos de IA terão de provar que cumprem um conjunto de regras e mitigar riscos para não terem de remunerar multas pesadas.

Giskard é uma startup de IA que adota regulamentação e é um dos primeiros exemplos de instrumento de desenvolvedor que se concentra especificamente em testes de maneira mais eficiente.

“Já trabalhei na Dataiku antes, principalmente na integração de modelos de PNL. E pude perceber que, quando eu estava encarregado dos testes, havia ambas as coisas que não funcionavam muito quando você queria aplicá-las em casos práticos, e era muito difícil confrontar o desempenho dos fornecedores entre si”, O cofundador e CEO da Giskard, Alex Combessie, me contou.

Existem três componentes por trás da estrutura de testes de Giskard. Primeiro, a empresa divulgou uma biblioteca Python de código aberto que pode ser integrado em um projeto LLM – e mais especificamente em projetos de geração aumentada por recuperação (RAG). Já é bastante popular no GitHub e é patível com outras ferramentas nos ecossistemas de ML, uma vez que Hugging Face, MLFlow, Weights & Biases, PyTorch, Tensorflow e Langchain.

Em seguida a feitio inicial, Giskard ajuda a gerar um conjunto de testes que será usado regularmente em seu padrão. Esses testes abrangem uma ampla gama de questões, uma vez que desempenho, alucinações, desinformação, resultados não factuais, preconceitos, vazamento de dados, geração de teor prejudicial e injeções imediatas.

“E há vários aspectos: você terá o paisagem de desempenho, que será a primeira coisa que passará pela cabeça de um observador de dados. Mas cada vez mais, você tem o paisagem ético, tanto do ponto de vista da imagem da marca uma vez que agora do ponto de vista regulatório”, disse Combessie.

Os desenvolvedores podem portanto integrar os testes no pipeline de integração contínua e entrega contínua (CI/CD) para que os testes sejam executados sempre que houver uma novidade iteração na base de código. Se houver um pouco incorrecto, os desenvolvedores recebem um relatório de verificação em seu repositório GitHub, por exemplo.

Os testes são personalizados com base no caso de uso final do padrão. As empresas que trabalham no RAG podem dar aproximação a bancos de dados de vetores e repositórios de conhecimento para Giskard para que o conjunto de testes seja o mais relevante verosímil. Por exemplo, se você estiver construindo um chatbot que possa fornecer informações sobre mudanças climáticas com base no relatório mais recente do IPCC e usando um LLM da OpenAI, os testes de Giskard verificarão se o padrão pode gerar informações erradas sobre as mudanças climáticas, se contradiz. , etc.

Scan results details

Créditos da imagem: Giskard

O segundo resultado de Giskard é um hub de qualidade de IA que ajuda a depurar um grande padrão de linguagem e compará-lo com outros modelos. Leste núcleo de qualidade faz segmento do projeto da Giskard oferta premium. No horizonte, a startup espera conseguir gerar documentação que comprove que um padrão está em conformidade com a regulamentação.

“Estamos começando a vender o AI Quality Hub para empresas uma vez que o Banque de France e a L’Oréal — para ajudá-las a depurar e encontrar as causas dos erros. No horizonte, é cá que colocaremos todos os recursos regulatórios”, disse Combessie.

O terceiro resultado da empresa se labareda LLMon. É uma instrumento de monitoramento em tempo real que pode determinar as respostas do LLM para os problemas mais comuns (toxicidade, alucinação, verificação de fatos…) antes que a resposta seja enviada de volta ao usuário.

Atualmente trabalha com empresas que usam APIs e LLMs da OpenAI uma vez que padrão fundamental, mas a empresa está trabalhando em integrações com Hugging Face, Anthropic, etc.

Regulando casos de uso

Existem várias maneiras de regular os modelos de IA. Com base em conversas com pessoas do ecossistema de IA, ainda não está evidente se a Lei de IA se aplicará aos modelos fundamentais da OpenAI, Anthropic, Mistral e outros, ou somente em casos de uso aplicados.

Neste último caso, Giskard parece particularmente muito posicionado para alertar os desenvolvedores sobre possíveis usos indevidos de LLMs enriquecidos com dados externos (ou, uma vez que os pesquisadores de IA chamam, geração aumentada por recuperação, RAG).

Atualmente, 20 pessoas trabalham para Giskard. “Vemos um ajuste de mercado muito evidente com clientes de LLMs, portanto vamos praticamente flectir o tamanho da equipe para sermos o melhor antivírus LLM do mercado”, disse Combessie.

Últimas

YouTube TV lança opção para reduzir atraso de transmissão e evitar spoilers

O YouTube TV está adicionando uma nova opção...

Google apresenta Gemini e atualiza Bard com Gemini Pro

O Google revelou o Gemini, seu modelo de...

Assine

spot_img

Veja Também

YouTube TV lança opção para reduzir atraso de transmissão e evitar spoilers

O YouTube TV está adicionando uma nova opção...

Google apresenta Gemini e atualiza Bard com Gemini Pro

O Google revelou o Gemini, seu modelo de...

Dez principais ferramentas para agências PPC

Ter as ferramentas certas é crucial para as...
spot_img

Google Maps para Android Auto agora permite salvar a localização do estacionamento ao chegar ao destino

O Google Maps para Android Auto está recebendo uma nova funcionalidade útil: a capacidade de salvar a localização do estacionamento ao chegar ao...

Atualização de avaliações do Google de novembro de 2023 concluída após lançamento de 29 dias

A atualização de avaliações do Google de novembro de 2023, a última que o Google confirmará, foi lançada ontem...

YouTube TV lança opção para reduzir atraso de transmissão e evitar spoilers

O YouTube TV está adicionando uma nova opção para reduzir o atraso de transmissão e ajudar os usuários a evitar spoilers.Agora, os...