I modelli di intelligenza artificiale raggiungono un’elevata accuratezza nella diagnosi finale, ma mostrano limiti significativi nel ragionamento clinico, in particolare nella diagnosi differenziale. È quanto emerge da uno studio pubblicato il 13 aprile 2026 su JAMA Network Open.
La ricerca, condotta da Arya S. Rao e colleghi del Mass General Brigham, ha analizzato 21 modelli linguistici di grandi dimensioni (LLM), tra cui GPT, Claude, Gemini e Grok, utilizzando 29 vignette cliniche standardizzate tratte dal MSD Manual. I modelli sono stati valutati lungo le diverse fasi del processo clinico: diagnosi differenziale, scelta dei test, diagnosi finale e gestione terapeutica.
I risultati indicano che la principale criticità riguarda le fasi iniziali del ragionamento. In particolare, la diagnosi differenziale rappresenta il punto più debole, con tassi di errore superiori all’80% per tutti i modelli. Al contrario, la diagnosi finale risulta corretta nella maggior parte dei casi quando sono disponibili tutte le informazioni cliniche.
Per valutare le prestazioni in modo più completo, i ricercatori hanno sviluppato un indicatore specifico, il PrIME-LLM, che misura la capacità dei modelli di mantenere un livello di accuratezza equilibrato lungo l’intero percorso clinico. I punteggi variano da 0,64 per i modelli meno performanti a 0,78 per quelli più avanzati, con risultati migliori per i sistemi ottimizzati per il ragionamento.
L’analisi evidenzia inoltre una tendenza dei modelli a convergere rapidamente verso una diagnosi finale, senza mantenere un adeguato livello di incertezza o sviluppare un ventaglio completo di ipotesi alternative. Secondo gli autori, questo comportamento riflette una differenza strutturale rispetto al ragionamento clinico umano, che si basa su un processo progressivo di esclusione diagnostica.
Un ulteriore elemento riguarda l’integrazione di dati multimodali. In alcuni modelli, l’uso di immagini diagnostiche, come radiografie o elettrocardiogrammi, migliora l’accuratezza, ma con risultati non uniformi tra i diversi sistemi.
Alla luce dei risultati, gli autori sottolineano che i modelli attualmente disponibili non sono pronti per un utilizzo clinico autonomo. «I modelli linguistici di grandi dimensioni disponibili sul mercato non sono ancora pronti per un’implementazione clinica non supervisionata», evidenziano i ricercatori, indicando la necessità di limitarne l’impiego a contesti controllati e sotto supervisione medica.
Lo studio introduce inoltre un nuovo benchmark per la valutazione dell’intelligenza artificiale in medicina, proponendo un approccio più aderente alla pratica clinica rispetto ai test basati su domande a scelta multipla, che non riflettono la complessità del processo diagnostico. Secondo gli autori, il ruolo attuale dell’AI resta quello di supporto al medico, in particolare nelle attività a bassa incertezza, mentre persistono limiti nella gestione dei processi decisionali complessi.