Professione medica
Intelligenza artificiale
14/04/2026

AI in medicina, accurati sulla diagnosi finale ma carenti nel ragionamento clinico. Lo studio

Uno studio pubblicato su JAMA Network Open valuta 21 modelli di AI: alta accuratezza nella diagnosi finale, ma limiti rilevanti nella diagnosi differenziale

Intelligenza artificiale nella scrittura medica (300 x 250 px)

I modelli di intelligenza artificiale raggiungono un’elevata accuratezza nella diagnosi finale, ma mostrano limiti significativi nel ragionamento clinico, in particolare nella diagnosi differenziale. È quanto emerge da uno studio pubblicato il 13 aprile 2026 su JAMA Network Open.

La ricerca, condotta da Arya S. Rao e colleghi del Mass General Brigham, ha analizzato 21 modelli linguistici di grandi dimensioni (LLM), tra cui GPT, Claude, Gemini e Grok, utilizzando 29 vignette cliniche standardizzate tratte dal MSD Manual. I modelli sono stati valutati lungo le diverse fasi del processo clinico: diagnosi differenziale, scelta dei test, diagnosi finale e gestione terapeutica.

I risultati indicano che la principale criticità riguarda le fasi iniziali del ragionamento. In particolare, la diagnosi differenziale rappresenta il punto più debole, con tassi di errore superiori all’80% per tutti i modelli. Al contrario, la diagnosi finale risulta corretta nella maggior parte dei casi quando sono disponibili tutte le informazioni cliniche.

Per valutare le prestazioni in modo più completo, i ricercatori hanno sviluppato un indicatore specifico, il PrIME-LLM, che misura la capacità dei modelli di mantenere un livello di accuratezza equilibrato lungo l’intero percorso clinico. I punteggi variano da 0,64 per i modelli meno performanti a 0,78 per quelli più avanzati, con risultati migliori per i sistemi ottimizzati per il ragionamento.

L’analisi evidenzia inoltre una tendenza dei modelli a convergere rapidamente verso una diagnosi finale, senza mantenere un adeguato livello di incertezza o sviluppare un ventaglio completo di ipotesi alternative. Secondo gli autori, questo comportamento riflette una differenza strutturale rispetto al ragionamento clinico umano, che si basa su un processo progressivo di esclusione diagnostica.

Un ulteriore elemento riguarda l’integrazione di dati multimodali. In alcuni modelli, l’uso di immagini diagnostiche, come radiografie o elettrocardiogrammi, migliora l’accuratezza, ma con risultati non uniformi tra i diversi sistemi.

Alla luce dei risultati, gli autori sottolineano che i modelli attualmente disponibili non sono pronti per un utilizzo clinico autonomo. «I modelli linguistici di grandi dimensioni disponibili sul mercato non sono ancora pronti per un’implementazione clinica non supervisionata», evidenziano i ricercatori, indicando la necessità di limitarne l’impiego a contesti controllati e sotto supervisione medica.

Lo studio introduce inoltre un nuovo benchmark per la valutazione dell’intelligenza artificiale in medicina, proponendo un approccio più aderente alla pratica clinica rispetto ai test basati su domande a scelta multipla, che non riflettono la complessità del processo diagnostico. Secondo gli autori, il ruolo attuale dell’AI resta quello di supporto al medico, in particolare nelle attività a bassa incertezza, mentre persistono limiti nella gestione dei processi decisionali complessi.

Se l'articolo ti è piaciuto rimani in contatto con noi sui
nostri canali social seguendoci su:
Oppure rimani sempre aggiornato in ambito farmaceutico iscrivendoti alla nostra Newsletter!
POTREBBERO INTERESSARTI ANCHE
Fimmg ha dichiarato lo stato di agitazione contro il prospettato decreto sul riordino dell’assistenza primaria territoriale e chiede un confronto con Governo e Regioni
La Cassazione chiarisce i limiti dell’azione di rivalsa delle strutture sanitarie verso i professionisti e dichiara nulli i patti di manleva contrari alla legge Gelli
Dal prossimo luglio il Veneto si prepara a introdurre una delle novità più rilevanti degli ultimi anni nella sanità territoriale
Il Sindacato medici italiani critica le bozze sulla riforma della medicina generale e avverte: pronti alla mobilitazione contro obblighi orari e modifiche unilaterali

Resta aggiornato con noi!
La tua risorsa per news mediche, riferimenti clinici e formazione.

I più letti della settimana
ANNUNCI
Offro lavoro | Lazio
cercasi colleghi per sostituzione medicina di base presso il mio studio in via antistio 12 00174 Roma

EVENTI
Al via la 2° edizione Milan Longevity Summit, un laboratorio urbano per una vita più lunga e in salute
Edra S.p.A sarà media partner della seconda edizione del Milan Longevity Summit che si svolgerà a Milano dal 21 al...

AZIENDE
Eurosets presenta Landing Advance
Immagine in evidenza Eurosets presenta Landing Advance, un sistema completo e intuitivo che apre nuove frontiere nel campo del monitoraggio multiparametrico in cardiochirurgia...

Libreria
Il manuale è stato scritto per colmare una...
La radiologia senologica incarna un ramo dell'imaging di...
Negli ultimi anni, i progressi scientifici e clinici...
Questo manuale offre una panoramica aggiornata sul ruolo...
Questo testo vuole aiutare a comprendere la legge...
Corsi
Algoritmi di medicina di emergenza per le professioni sanitarie

Gli algoritmi relativi alla medicina di emergenza rappresentano una risorsa fondamentale per i professionisti sanitari che, ciascuno nel proprio ambito...


L’INTELLIGENZA ARTIFICIALE NELLA GESTIONE DELLE MALATTIE INFETTIVE

L’impatto dell’Intelligenza Artificiale (AI) e dei Big Data nel settore sanitario è innegabile. L’AI sta rivoluzionando la scoperta di farmaci, la...


Social media in medicina. Al via nuovo corso di formazione Fad

Edra, sempre attenta a garantire una formazione completa e adeguata alle esigenze del sistema salute, ha progettato il nuovo corso...


Progettare la cura con la medicina narrativa. Strumenti per un uso quotidiano

Introdurre la Medicina Narrativa nella progettazione dei percorsi di cura. Integrare la narrazione nel sistema cura e nel sistema persona...