Sette risposte su dieci fornite dalle chatbot di intelligenza artificiale risultano errate, con un terzo dei riferimenti bibliografici inesatti o inventati. È il risultato di uno studio condotto da Vincenzo Guastafierro, specializzando in Anatomia Patologica presso l’Istituto Clinico Humanitas e la Humanitas University di Rozzano, premiato con il Premio Roberto Anzalone dell’Ordine dei Medici di Milano.
La ricerca, pubblicata sul European Journal of Pathology, ha analizzato l’affidabilità di modelli di intelligenza artificiale generativa come supporto diagnostico. I ricercatori hanno sottoposto 200 quesiti clinici in cinque scenari simulati, calibrati sulle attuali linee guida diagnostiche e validati da patologi esperti.
“ChatGPT ha fornito risposte utili nel 62% dei casi e completamente corrette solo nel 32%”, spiega Guastafierro. “Nel 70% delle risposte era presente almeno un errore, e su 214 riferimenti bibliografici prodotti, il 70% era corretto, ma il 18% completamente inventato”.
Tra gli errori più rilevanti, l’intelligenza artificiale ha fornito diagnosi errate di carcinoma cutaneo e di tumore mammario, corredandole di fonti bibliografiche false ma verosimili.
“Si tratta di un rischio concreto – aggiunge il ricercatore – perché l’uso non controllato di questi strumenti può generare decisioni cliniche inappropriate e influenzare negativamente le scelte terapeutiche”.
Lo studio mette in guardia sia i medici sia i pazienti che utilizzano l’IA per attività di autodiagnosi o aggiornamento professionale. “L’imprecisione dei riferimenti suggerisce prudenza anche come strumento formativo. Resta insostituibile l’occhio clinico dell’anatomo-patologo: l’intelligenza artificiale può essere un supporto, ma non un sostituto della competenza umana”.
Il gruppo di ricerca proseguirà ora i test con le versioni più recenti dei chatbot, per monitorarne l’evoluzione e la capacità di apprendimento.