Fundação
João Fernandes da Cunha
conheça aBiblioteca João Fernandes da Cunha
venha nos visitarFundação João Fernandes da Cunha
/ Notícias
A Inteligência Artificial (IA) já se aproxima da expertise médica na precisão de diagnósticos. Em alguns casos, a IA é tão boa quanto um médico, ou melhor. É o que mostram diferentes estudos científicos do uso da ferramenta para descobrir o que está por trás das queixas de saúde de pacientes.
Por exemplo: um estudo de autores chineses publicado em fevereiro na revista NPJ Digital Medicine, do grupo Nature, apresentou 67 casos de problemas gastrointestinais de difícil diagnóstico para sete LLMs e 22 gastroenterologistas. O resultado mostrou que os robôs conversacionais como o Claude 3.5 Sonnet “superaram significativamente todos os gastroenterologistas”.
O mesmo robô teve um desempenho melhor que os médicos até mesmo quando eles puderam usar ferramentas de busca e outros recursos tradicionais de diagnóstico. O Claude, criado pela empresa Anthropic, fundada por ex-funcionários da OpenAI, teve uma taxa de acerto de 76%. Os gastroenterologistas acertaram 45,5%.
Revisões reiteram a importância dos médicos
Não se deve exagerar, contudo, a importância de um estudo individual. Um panorama mais preciso é fornecido por revisões e meta-análises, ou seja, estudos de estudos que buscam conciliar resultados conflitantes e resolver problemas metodológicos.
Uma revisão publicada na mesma revista, em março, devolve algum crédito aos médicos. Considerando 83 estudos com modelos de IA disponíveis entre junho de 2018 e junho de 2024, a conclusão principal foi que a precisão de diagnóstico geral dos robôs é de 52,1%.
Nos testes estatísticos, essa eficácia da IA não foi diferente da precisão geral de diagnósticos produzidos por médicos em geral. Porém, “modelos de IA se saíram significativamente pior que médicos especialistas”. A revisão defende a integração da IA no treinamento médico, como uma ferramenta didática.
Sua principal limitação são as datas dos modelos, até junho de 2024. Como sabem os usuários dos LLMs, mudanças muito importantes aconteceram desde então. O pioneiro ChatGPT, da OpenAI, passou por três importantes atualizações, introduzindo o modo de “raciocínio”.Também nesse período, o Claude ganhou duas atualizações, bem como o Gemini, o LLM do Google e o Llama, da Meta. A aposta de Elon Musk em sua empresa xAI, o Grok, passou por três atualizações: Grok 2, Grok 3 e Grok 4.
A tendência geral das atualizações foi na direção de maior precisão nas respostas e menos “alucinações” ou “confabulações”, como são conhecidos os erros dos LLMs quando começam a inventar informações imprecisas. Portanto, estudos contínuos são necessários para atualizar a comparação com os médicos.
Em abril, outra revisão de estudos, publicada na revista JMIR Publications, avaliou 30 estudos, incluindo 19 LLMs e 4.762 casos para diagnóstico. Em aproximadamente um terço dos estudos, os médicos superaram a IA na precisão dos diagnósticos. Em outro terço, os modelos, especialmente as versões do ChatGPT, superaram os médicos.
Nessa meta-análise, os autores mostraram que a IA tem uma variação maior de precisão de diagnóstico, que pode ser de decepcionantes 25% a impressionantes 97,8%. Nos estudos individuais, são de especial interesse aqueles que usam métodos mais rigorosos, como o método de separar aleatoriamente o tratamento entre os casos em análise e compará-los com um grupo controle, em que o tratamento não foi aplicado. São conhecidos como “estudos controlados e randomizados”.
Um desses foi publicado em outubro de 2024 na revista JAMA Network Open, ligado à Associação Médica Americana. Na análise, os médicos que usaram o ChatGPT 4 como auxílio de diagnóstico atingiram uma mediana de precisão de 76%. O teste estatístico sugeriu que esse resultado não foi substancialmente melhor que os 74% de precisão do diagnóstico feito por médicos que usaram ferramentas convencionais.
Porém, quando o LLM foi avaliado sozinho, superou o desempenho dos médicos em 16 pontos percentuais de precisão. É como se o fator humano piorasse a exatidão da máquina. Importantemente, o estudo usou 50 médicos, metade dos quais eram residentes. Pode não ser um número suficiente para uma conclusão firme.
Já existem ferramentas de IA feitas especialmente para uso médico, como o LLM especializado AMIE (Explorador Médico Articulado de Inteligência, na sigla em inglês). Em um estudo randomizado e controlado publicado na revista Nature em abril, para apresentar o robô, o AMIE “demonstrou maior precisão de diagnóstico e desempenho superior em 30 de 32 eixos” de desempenho, como a coleta de histórico médico, capacidade de comunicação e “empatia”. Dessa vez, os médicos superados foram os especialistas, que derrotaram os LLMs nos outros estudos. “Nossa pesquisa tem muitas limitações e deve ser interpretada com cautela”, alertaram os autores. “Mais pesquisas são necessárias antes que o AMIE possa ser traduzido para situações do mundo real”.
Parceria entre humano e máquina, não competição
Embora os resultados sejam às vezes conflitantes, um consenso que emerge dos estudos é que médicos e máquinas cometem erros diferentes. Por isso, suas funções são complementares, não antagônicas.
Em alguns casos, por exemplo, na dermatologia, a superioridade dos médicos poderia ser explicada pelas limitações dos LLMs em processar imagens em tempo real, funções que já são oferecidas pelo ChatGPT e pelo Gemini. O olho treinado dos dermatologistas nos problemas da pele se saiu melhor.
Os autores do estudo da JAMA sugeriram que seus resultados chamam pela necessidade de um reconhecimento “do potencial da colaboração entre médico e inteligência artificial na prática clínica”. A revisão de março sugeriu que uma limitação recorrente nos estudos é que se presume que as informações apresentadas inicialmente pelo paciente são suficientes para o diagnóstico, o que com frequência é falso. Na prática, a coleta de informações é iterativa, uma sequência de tentativa e erro com a qual estão acostumados os médicos mais experientes.
A outra revisão, de abril, apontou que o uso dos LLMs pode incorrer em problemas éticos sobre a privacidade dos dados e a responsabilidade pelo diagnóstico. Enquanto no erro médico há alguém para ser punido, isso não é tão claro no caso da IA. “Os avanços futuros precisarão não apenas de inovações tecnológicas, mas também de melhorias abrangentes no arcabouço legal e ético para assegurar que a tecnologia da IA seja absorvida de forma segura e eficaz nos protocolos de diagnósticos clínicos”, concluem os autores.