Posts Recentes:

Threads finalmente lança sua API para desenvolvedores

Meta disse hoje que finalmente lançou sua tão...

Hugging Face lança um benchmark para testar IA generativa em tarefas de saúde


GettyImages 924555544

Modelos de IA generativos são cada vez mais sendo trazidos para ambientes de saúde – em alguns casos prematuramente, talvez. Os primeiros usuários acreditam que desbloquearão maior eficiência e, ao mesmo tempo, revelarão insights que, de outra forma, passariam despercebidos. Os críticos, entretanto, salientam que estes modelos têm falhas e preconceitos que podem contribuir para piores resultados de saúde.

Mas existe uma maneira quantitativa de saber até que ponto um modelo pode ser útil ou prejudicial quando encarregado de tarefas como resumir registros de pacientes ou responder a perguntas relacionadas à saúde?

Hugging Face, a startup de IA, propõe uma solução em um teste de benchmark recém-lançado chamado Open Medical-LLM. Criado em parceria com pesquisadores da organização sem fins lucrativos Open Life Science AI e do Natural Language Processing Group da Universidade de Edimburgo, o Open Medical-LLM visa padronizar a avaliação do desempenho de modelos generativos de IA em uma série de tarefas médicas.

twitter-tweet" data-width="550" data-dnt="true">

Novo: Tabela de classificação do Open Medical LLM! 🩺

Em chatbots básicos, os erros são um aborrecimento.
Nos LLMs médicos, os erros podem ter consequências fatais 🩸

Portanto, é vital avaliar/acompanhar os avanços nos LLMs médicos antes de pensar na implantação.

Blogue: https://t.co/pddLtkmhsz

– Clémentine Fourrier 🍊 (@clefourrier) twitter.com/clefourrier/status/1780943086694330637?ref_src=twsrc%5Etfw" rel="noopener">18 de abril de 2024

Open Medical-LLM não é um do princípio benchmark, por si só, mas sim uma junção de conjuntos de testes existentes – MedQA, PubMedQA, MedMCQA e assim por diante – projetados para testar modelos de conhecimento médico geral e campos relacionados, como anatomia, farmacologia, genética e prática clínica. O benchmark contém questões abertas e de múltipla escolha que exigem raciocínio e compreensão médica, com base em materiais que incluem exames de licenciamento médico dos EUA e da Índia e bancos de perguntas de testes de biologia universitária.

“[Open Medical-LLM] permite que pesquisadores e profissionais identifiquem os pontos fortes e fracos de diferentes abordagens, impulsionem mais avanços na área e, em última análise, contribuam para melhores cuidados e resultados ao paciente”, escreveu Hugging Face em uma postagem no blog.

saúde da geração AI

Créditos da imagem: Abraçando o rosto

Hugging Face está posicionando o benchmark como uma “avaliação robusta” de modelos de IA generativos voltados para a saúde. Mas alguns especialistas médicos nas redes sociais alertaram contra a aposta excessiva no Open Medical-LLM, para que não leve a implantações mal informadas.

No X, Liam McCoy, médico residente em neurologia da Universidade de Alberta, apontou que a lacuna entre o “ambiente inventado” de respostas a perguntas médicas e real a prática clínica pode ser bastante ampla.

twitter">
twitter-tweet" data-width="550" data-dnt="true">

É um grande progresso ver essas comparações frente a frente, mas é importante lembrarmos também quão grande é a lacuna entre o ambiente artificial de resposta a perguntas médicas e a prática clínica real! Sem mencionar os riscos idiossincráticos que essas métricas não conseguem capturar.

-Liam McCoy, MD MSc (@LiamGMcCoy) twitter.com/LiamGMcCoy/status/1780952462821863715?ref_src=twsrc%5Etfw" rel="noopener">18 de abril de 2024

A cientista pesquisadora do Hugging Face, Clémentine Fourrier, coautora da postagem do blog, concordou.

“Essas tabelas de classificação devem ser usadas apenas como uma primeira aproximação do que [generative AI model] explorar para um determinado caso de uso, mas sempre é necessária uma fase mais profunda de testes para examinar os limites e a relevância do modelo em condições reais”, twitter.com/clefourrier/status/1780955155300745247" rel="noopener">Fourrier respondeu em X. “Médico [models] não devem absolutamente ser usados ​​isoladamente pelos pacientes, mas devem ser treinados para se tornarem ferramentas de apoio para os médicos”.

Isso traz à mente a experiência do Google quando tentou levar uma ferramenta de triagem de IA para retinopatia diabética aos sistemas de saúde da Tailândia.

O Google criou um google-medical-researchers-humbled-when-ai-screening-tool-falls-short-in-real-life-testing/" rel="noopener">sistema de aprendizagem profunda que digitalizou imagens do olho, em busca de evidências de retinopatia, uma das principais causas de perda de visão. Mas apesar da alta precisão teórica, google/technology/health/healthcare-ai-systems-put-people-center/" rel="noopener" data-mrf-link="https://www.blog.google/technology/health/healthcare-ai-systems-put-people-center/">a ferramenta se mostrou impraticável em testes do mundo realfrustrando pacientes e enfermeiros com resultados inconsistentes e uma falta geral de harmonia com as práticas no terreno.

É revelador que dos 139 dispositivos médicos relacionados à IA que a Food and Drug Administration dos EUA aprovou até o momento, nenhum usa IA generativa. É excepcionalmente difícil testar como o desempenho de uma ferramenta de IA generativa no laboratório se traduzirá em hospitais e clínicas ambulatoriais e, talvez mais importante, como os resultados poderão evoluir ao longo do tempo.

Isso não quer dizer que o Open Medical-LLM não seja útil ou informativo. A tabela de classificação de resultados, no mínimo, serve como um lembrete de como mal modelos respondem a questões básicas de saúde. Mas o Open Medical-LLM, e nenhuma outra referência nesse sentido, é um substituto para testes do mundo real cuidadosamente pensados.



Últimas

Threads finalmente lança sua API para desenvolvedores

Meta disse hoje que finalmente lançou sua tão...

CuspAI levanta US$ 30 milhões para criar um mecanismo de busca baseado em Gen-AI para novos materiais

O método moderno de criar novos materiais é...

Finbourne investe US$ 70 milhões em tecnologia que transforma poeira de dados financeiros em ouro de IA

As empresas em áreas como os serviços financeiros...

TechCrunch Space: uma nova era para pesquisas de voos espaciais humanos

Olá e bem-vindo de volta ao TechCrunch Space....

Assine

spot_img

Veja Também

Threads finalmente lança sua API para desenvolvedores

Meta disse hoje que finalmente lançou sua tão...

CuspAI levanta US$ 30 milhões para criar um mecanismo de busca baseado em Gen-AI para novos materiais

O método moderno de criar novos materiais é...

Finbourne investe US$ 70 milhões em tecnologia que transforma poeira de dados financeiros em ouro de IA

As empresas em áreas como os serviços financeiros...

TechCrunch Space: uma nova era para pesquisas de voos espaciais humanos

Olá e bem-vindo de volta ao TechCrunch Space....

YouTube testa anotações de crowdsourcing para vídeos

O YouTube está testando um novo recurso experimental...
spot_img

Threads finalmente lança sua API para desenvolvedores

Meta disse hoje que finalmente lançou sua tão aguardada API para Threads para que os desenvolvedores possam construir experiências em torno dela. ...

CuspAI levanta US$ 30 milhões para criar um mecanismo de busca baseado em Gen-AI para novos materiais

O método moderno de criar novos materiais é fazer algo e depois usar um computador para descobrir se o material saiu corretamente. ...

Finbourne investe US$ 70 milhões em tecnologia que transforma poeira de dados financeiros em ouro de IA

As empresas em áreas como os serviços financeiros e os seguros vivem e morrem pelos seus dados – especificamente, até que ponto podem...