Un modello di intelligenza artificiale ha superato i medici in diversi compiti di ragionamento clinico, inclusa la valutazione di casi in pronto soccorso basata su cartelle cliniche reali. È quanto emerge da uno studio condotto da Harvard Medical School e Beth Israel Deaconess Medical Center, pubblicato il 30 aprile su Science.
La ricerca ha valutato le prestazioni di un large language model (LLM) confrontandole con quelle di centinaia di clinici su un ampio spettro di attività, tra cui identificazione delle diagnosi più probabili, decisioni di triage e definizione dei passaggi successivi nella gestione del paziente.
A differenza di studi precedenti, il modello è stato testato su dati clinici non preprocessati, direttamente estratti dalle cartelle elettroniche. Nei casi di pronto soccorso, l’AI è stata chiamata a formulare ipotesi diagnostiche e indicazioni gestionali nelle diverse fasi del percorso assistenziale, utilizzando esclusivamente le informazioni disponibili in quel momento.
“In molti test il modello ha eguagliato o superato i medici”, afferma Arjun Manrai, coautore dello studio. I risultati sono stati particolarmente rilevanti nelle fasi iniziali della valutazione clinica, quando i dati disponibili sono limitati.
Secondo i ricercatori, questi risultati indicano un avanzamento significativo delle capacità dei modelli di intelligenza artificiale, ma non supportano un loro impiego autonomo nella pratica clinica. “Un modello può identificare correttamente la diagnosi principale ma suggerire esami non necessari, con potenziali rischi per il paziente”, sottolinea Peter Brodeur.
Lo studio evidenzia inoltre che i metodi tradizionali di valutazione dell’intelligenza artificiale, come i test a risposta multipla, potrebbero non essere più adeguati a misurarne le prestazioni, ormai prossime al livello massimo in questi contesti.
Alla luce dei risultati, gli autori indicano la necessità di avviare studi prospettici controllati per valutare efficacia, sicurezza e ambiti di applicazione dell’intelligenza artificiale nella pratica clinica reale. “Questi strumenti devono essere testati come qualsiasi altro intervento medico”, conclude Manrai.