L’intelligenza artificiale non è ancora pronta a sostituire il medico nella pratica neurologica. È quanto emerge dal primo studio sperimentale condotto dall’Università degli Studi di Milano e dall’ASST Santi Paolo e Carlo, pubblicato sul Journal of Medical Informatics Research.
I ricercatori hanno messo a confronto due tra i più noti Large Language Models (LLM), ChatGPT e Gemini, con neurologi esperti, utilizzando casi reali di prima visita. L’accuratezza diagnostica dei clinici ha raggiunto il 75%, mentre ChatGPT si è fermato al 54% e Gemini al 46%. Inoltre, entrambi i modelli hanno mostrato la tendenza a sovra-prescrivere esami, in circa il 17-25% dei casi.
“Il nostro lavoro mostra che i LLM generalisti non sono ancora affidabili per decisioni autonome in neurologia, ma possono diventare strumenti di supporto se sviluppati e validati in contesti specifici”, spiega Natale Maiorana, neuropsicologo e primo autore. “L’intelligenza artificiale va inserita con responsabilità, sempre sotto supervisione medica”, aggiunge Sara Marceglia, bioingegnere e coordinatrice della ricerca.
Secondo Alberto Priori, direttore della Neurologia dell’Ospedale San Paolo e ideatore dello studio, la sfida futura sarà «formare i medici all’uso consapevole dell’AI e costruire modelli certificati per l’ambito clinico, salvaguardando il ruolo centrale del giudizio clinico».
Lo studio apre dunque una nuova stagione di ricerca: l’AI potrà supportare la pratica neurologica, ma solo se integrata con percorsi formativi dedicati e validazioni cliniche rigorose.