L’utilizzo di modelli linguistici per supportare i cittadini nella valutazione dei sintomi e nella scelta del livello di assistenza non migliora l’accuratezza decisionale rispetto alle fonti tradizionali. È quanto emerge da uno studio randomizzato preregistrato pubblicato su Nature Medicine, che ha coinvolto 1.298 partecipanti del Regno Unito impegnati nell’analisi di scenari clinici simulati.
I partecipanti sono stati assegnati a gruppi che potevano utilizzare un modello linguistico — GPT-4o, Llama 3 o Command R+ — oppure ricorrere alle fonti abituali, come motori di ricerca o siti sanitari. L’obiettivo era identificare possibili condizioni cliniche e scegliere il percorso assistenziale appropriato, su una scala che andava dall’autogestione alla chiamata dei servizi di emergenza.
I risultati mostrano che, se interrogati direttamente, i modelli sono in grado di individuare condizioni rilevanti in circa il 94,9% dei casi e di suggerire correttamente il livello di assistenza nel 56,3%. Tuttavia, quando utilizzati dai partecipanti, la capacità di identificare condizioni pertinenti è risultata inferiore al 34,5%, mentre l’accuratezza nella scelta del percorso assistenziale non ha superato il 44,2%, valori comparabili al gruppo di controllo.
L’analisi delle interazioni ha evidenziato che le criticità derivano soprattutto dalla comunicazione tra utenti e modelli. In numerosi casi i partecipanti hanno fornito informazioni incomplete oppure non hanno incorporato nei propri ragionamenti le indicazioni corrette fornite dal sistema. Gli autori segnalano inoltre episodi di interpretazioni errate da parte dei modelli e risposte incoerenti a input simili.
Lo studio evidenzia anche che le performance ottenute dai modelli nei benchmark di conoscenza medica o nelle simulazioni con utenti artificiali non risultano predittive dell’efficacia nelle interazioni reali. Nei test comparativi, infatti, i modelli hanno mostrato risultati migliori nelle prove strutturate rispetto alle situazioni di utilizzo con partecipanti umani.
Secondo gli autori, la diffusione crescente dell’impiego di chatbot per quesiti sanitari rende necessario considerare l’interazione uomo-AI come elemento centrale della sicurezza e dell’affidabilità dei sistemi. Il lavoro raccomanda pertanto programmi sistematici di valutazione con utenti reali prima di eventuali implementazioni su larga scala in ambito sanitario.
FONTE