I modelli linguistici di grandi dimensioni (LLM) possono supportare l’interpretazione dei test neuropsicologici standardizzati nell’idrocefalo normoteso idiopatico (iNPH), con una capacità diagnostica e un potenziale prognostico preliminare. È quanto emerge da uno studio pilota pubblicato su World Neurosurgery.
Lo studio retrospettivo ha incluso 42 pazienti con iNPH sottoposti a shunt e 53 controlli neurologici. I ricercatori hanno utilizzato riassunti standardizzati dei test neuropsicologici, anonimizzati e strutturati per domini cognitivi, sottoponendoli a tre modelli linguistici (ChatGPT-5, Gemini 2.5 Flash e DeepSeek) con un prompt uniforme in modalità zero-shot.
Sul piano diagnostico, le performance migliori sono state osservate per ChatGPT-5, con un’accuratezza del 78% (AUC 0,84), rispetto al 67% (AUC 0,67) di Gemini e al 63% (AUC 0,63) di DeepSeek. Il modello ha inoltre mostrato una buona calibrazione, con Brier score di 0,18 e slope di 0,94.
L’analisi esplorativa della capacità prognostica, condotta nei pazienti trattati con shunt, indica un’accuratezza dell’83% per ChatGPT-5 nell’identificare i soggetti con miglioramento postoperatorio (definito come incremento del punteggio iNPHGS ≥1). I valori predittivi positivi risultano elevati, compresi tra l’87% e il 96% tra i diversi modelli.
Quando la confidenza del modello è stata considerata come variabile continua, la capacità discriminativa si è ridotta, con valori di AUC compresi tra 0,53 e 0,69. L’analisi decisionale ha mostrato benefici variabili in funzione delle soglie di probabilità adottate.
Secondo gli autori, i risultati indicano la presenza di un segnale diagnostico nei dati neuropsicologici interpretabili dai LLM e suggeriscono un possibile ruolo di supporto nella valutazione dei pazienti con sospetto iNPH, una condizione in cui diagnosi e prognosi restano complesse.
Lo studio presenta tuttavia limiti rilevanti, tra cui la dimensione ridotta del campione, il disegno retrospettivo e la necessità di validazioni esterne su coorti più ampie e bilanciate. Gli autori sottolineano che l’uso clinico di questi strumenti richiede ulteriori evidenze prima di una possibile implementazione nella pratica.
https://www.ncbi.nlm.nih.gov/pubmed/41862155