L’intelligenza artificiale potrebbe supportare la valutazione molecolare dei gliomi attraverso l’analisi delle immagini di risonanza magnetica, ma le performance dei modelli AI tendono a ridursi quando vengono applicati a casistiche cliniche reali. È quanto emerge da uno studio pubblicato su npj Digital Medicine, che ha confrontato direttamente due sistemi AI con 18 medici nella previsione dello stato mutazionale IDH nei gliomi.
Le mutazioni del gene isocitrato deidrogenasi (IDH) rappresentano uno dei principali biomarcatori prognostici e terapeutici nei tumori cerebrali gliali. La possibilità di predirne la presenza mediante imaging non invasivo potrebbe influenzare la pianificazione chirurgica, la classificazione tumorale e le strategie terapeutiche.
Lo studio ha confrontato le performance di due modelli AI con quelle di otto neuroradiologi, cinque neurochirurghi e cinque specializzandi in neurochirurgia. I sistemi valutati erano GliomaDepth-IDH, basato su architettura ResNet34, e GliomaVista-IDH, costruito invece su Vision Transformer.
L’analisi è stata inizialmente eseguita sul dataset pubblico Brain Tumor Segmentation Challenge. In questo contesto il modello GliomaVista-IDH ha raggiunto un’area under the curve (AUC) pari a 0,97, superando significativamente tutti i gruppi di medici coinvolti nello studio.
I risultati sono però cambiati durante la validazione esterna su una coorte giapponese indipendente. In questo scenario l’AUC di GliomaDepth-IDH è scesa a 0,75, mentre quella di GliomaVista-IDH si è ridotta a 0,82.
Secondo gli autori, il modello basato su Vision Transformer ha inoltre mostrato problemi significativi di “calibration”, cioè di affidabilità delle probabilità predittive generate dal sistema AI. Il Brier score è risultato pari a 0,32. I medici con le migliori performance hanno invece raggiunto valori comparabili in termini di accuratezza, con AUC fino a 0,88, ma soprattutto una migliore calibrazione delle previsioni, con un Brier score pari a 0,19.
Lo studio evidenzia inoltre un’elevata variabilità tra i diversi gruppi di clinici coinvolti, con differenze significative tra specialisti esperti e medici in formazione.
Secondo gli autori, i risultati suggeriscono che l’intelligenza artificiale possa rappresentare uno strumento utile di supporto diagnostico, soprattutto per professionisti meno esperti, ma non ancora sostituire completamente il giudizio clinico nelle situazioni più complesse.
Uno degli aspetti centrali del lavoro riguarda il problema della generalizzabilità dei modelli AI. Le performance elevate ottenute su dataset standardizzati tendono infatti a ridursi quando i sistemi vengono applicati a popolazioni differenti, imaging acquisiti con protocolli diversi e contesti clinici real-world.
Gli autori sottolineano inoltre che, in ambiti complessi come la neuro-oncologia, l’accuratezza non rappresenta l’unico parametro rilevante. Anche la calibrazione delle probabilità predittive diventa infatti fondamentale per supportare decisioni cliniche affidabili.
Lo studio si inserisce nel crescente filone di ricerca sull’applicazione dell’intelligenza artificiale alla neuroradiologia e alla medicina di precisione nei tumori cerebrali, con particolare attenzione all’integrazione tra AI e valutazione specialistica umana.
https://www.nature.com/articles/s41746-026-02695-2