Posts Recentes:

A estrutura de código aberto de Giskard avalia modelos de IA antes de serem colocados em produção


Giskard é uma startup francesa que trabalha em uma estrutura de teste de código ingénuo para grandes modelos de linguagem. Ele pode alertar os desenvolvedores sobre riscos de preconceitos, falhas de segurança e a capacidade de um padrão de gerar teor prejudicial ou tóxico.

Embora haja muito exaltação em torno dos modelos de IA, os sistemas de teste de ML também se tornarão rapidamente um tema quente, à medida que a regulamentação está prestes a ser aplicada na UE com a Lei de IA e em outros países. As empresas que desenvolvem modelos de IA terão de provar que cumprem um conjunto de regras e mitigar riscos para não terem de remunerar multas pesadas.

Giskard é uma startup de IA que adota regulamentação e é um dos primeiros exemplos de instrumento de desenvolvedor que se concentra especificamente em testes de maneira mais eficiente.

“Já trabalhei na Dataiku antes, principalmente na integração de modelos de PNL. E pude perceber que, quando eu estava encarregado dos testes, havia ambas as coisas que não funcionavam muito quando você queria aplicá-las em casos práticos, e era muito difícil confrontar o desempenho dos fornecedores entre si”, O cofundador e CEO da Giskard, Alex Combessie, me contou.

Existem três componentes por trás da estrutura de testes de Giskard. Primeiro, a empresa divulgou uma biblioteca Python de código aberto que pode ser integrado em um projeto LLM – e mais especificamente em projetos de geração aumentada por recuperação (RAG). Já é bastante popular no GitHub e é patível com outras ferramentas nos ecossistemas de ML, uma vez que Hugging Face, MLFlow, Weights & Biases, PyTorch, Tensorflow e Langchain.

Em seguida a feitio inicial, Giskard ajuda a gerar um conjunto de testes que será usado regularmente em seu padrão. Esses testes abrangem uma ampla gama de questões, uma vez que desempenho, alucinações, desinformação, resultados não factuais, preconceitos, vazamento de dados, geração de teor prejudicial e injeções imediatas.

“E há vários aspectos: você terá o paisagem de desempenho, que será a primeira coisa que passará pela cabeça de um observador de dados. Mas cada vez mais, você tem o paisagem ético, tanto do ponto de vista da imagem da marca uma vez que agora do ponto de vista regulatório”, disse Combessie.

Os desenvolvedores podem portanto integrar os testes no pipeline de integração contínua e entrega contínua (CI/CD) para que os testes sejam executados sempre que houver uma novidade iteração na base de código. Se houver um pouco incorrecto, os desenvolvedores recebem um relatório de verificação em seu repositório GitHub, por exemplo.

Os testes são personalizados com base no caso de uso final do padrão. As empresas que trabalham no RAG podem dar aproximação a bancos de dados de vetores e repositórios de conhecimento para Giskard para que o conjunto de testes seja o mais relevante verosímil. Por exemplo, se você estiver construindo um chatbot que possa fornecer informações sobre mudanças climáticas com base no relatório mais recente do IPCC e usando um LLM da OpenAI, os testes de Giskard verificarão se o padrão pode gerar informações erradas sobre as mudanças climáticas, se contradiz. , etc.

Scan results details

Créditos da imagem: Giskard

O segundo resultado de Giskard é um hub de qualidade de IA que ajuda a depurar um grande padrão de linguagem e compará-lo com outros modelos. Leste núcleo de qualidade faz segmento do projeto da Giskard oferta premium. No horizonte, a startup espera conseguir gerar documentação que comprove que um padrão está em conformidade com a regulamentação.

“Estamos começando a vender o AI Quality Hub para empresas uma vez que o Banque de France e a L’Oréal — para ajudá-las a depurar e encontrar as causas dos erros. No horizonte, é cá que colocaremos todos os recursos regulatórios”, disse Combessie.

O terceiro resultado da empresa se labareda LLMon. É uma instrumento de monitoramento em tempo real que pode determinar as respostas do LLM para os problemas mais comuns (toxicidade, alucinação, verificação de fatos…) antes que a resposta seja enviada de volta ao usuário.

Atualmente trabalha com empresas que usam APIs e LLMs da OpenAI uma vez que padrão fundamental, mas a empresa está trabalhando em integrações com Hugging Face, Anthropic, etc.

Regulando casos de uso

Existem várias maneiras de regular os modelos de IA. Com base em conversas com pessoas do ecossistema de IA, ainda não está evidente se a Lei de IA se aplicará aos modelos fundamentais da OpenAI, Anthropic, Mistral e outros, ou somente em casos de uso aplicados.

Neste último caso, Giskard parece particularmente muito posicionado para alertar os desenvolvedores sobre possíveis usos indevidos de LLMs enriquecidos com dados externos (ou, uma vez que os pesquisadores de IA chamam, geração aumentada por recuperação, RAG).

Atualmente, 20 pessoas trabalham para Giskard. “Vemos um ajuste de mercado muito evidente com clientes de LLMs, portanto vamos praticamente flectir o tamanho da equipe para sermos o melhor antivírus LLM do mercado”, disse Combessie.

Últimas

Assine

spot_img

Veja Também

spot_img

ESA se prepara para a era pós-ISS, seleciona The Exploration Company, Thales Alenia para desenvolver espaçonaves de carga

A Agência Espacial Europeia selecionou duas empresas na quarta-feira para desenvolver projetos de uma espaçonave de carga que poderia estabelecer o primeiro acesso...

Grandes empresas de tecnologia estão investindo dinheiro em startups de IA, o que poderia ajudá-las a evitar preocupações antitruste

Mais uma semana e outra rodada de injeções e avaliações malucas de dinheiro emergiram do reino da IA.ProfundoLuma startup de tradução de...

Passes de trânsito de Paris agora disponíveis no aplicativo Wallet do iPhone

Após vários atrasos, a Apple e a autoridade de transporte da área de Paris lançou suporte para passes de trânsito de Paris na...