Secondo una revisione pubblicata sul British Medical Journal, l'intelligenza artificiale non è ancora a livello dell'uomo per quanto riguarda l'accuratezza nell'individuare possibili casi di
cancro al seno durante lo screening. «Le prove attuali sull'uso dei sistemi di intelligenza artificiale nello screening del cancro al seno sono molto lontane dall'avere la qualità e la quantità necessarie per la sostenerne l'implementazione nella pratica clinica» afferma
Karoline Freeman, dell'University of Warwick, autrice principale dello studio.
L'esame delle mammografie per i primi segni di cancro al seno è un lavoro ripetitivo ad alto volume per i radiologi. Ricerche precedenti avevao suggerito che i sistemi di intelligenza artificiale potessero superare le prestazioni degli uomini, ma una recente revisione di 23 studi ha evidenziato lacune nelle prove e preoccupazioni sui metodi utilizzati. Per meglio chiarire la situazione, i ricercatori hanno esaminato 12 studi per un totale di 131.822 donne sottoposte a screening in Svezia, Stati Uniti, Germania, Paesi Bassi e Spagna. Nel complesso, la qualità dei metodi utilizzati nei 12 studi era scarsa e la loro applicabilità ai programmi di screening del cancro al seno europei o britannici era bassa. Tre ampi studi che hanno coinvolto 79.910 donne hanno confrontato i sistemi di intelligenza artificiale con le decisioni cliniche del radiologo. La maggior parte dei sistemi di intelligenza artificiale (34 su 36 o 94%) valutati in questi tre studi è risultata meno accurata di un solo radiologo umano, e tutti meno accurati del consenso di due o più radiologi, ovvero la pratica standard in Europa.
Al contrario, cinque studi più piccoli che hanno coinvolto 1.086 donne hanno riferito che tutti i sistemi di intelligenza artificiale valutati fossero più accurati di un singolo radiologo; ma i ricercatori sottolineano che questi studi erano ad alto rischio di bias, e che i loro risultati non sono stati replicati in studi più ampi. Gli autori indicano alcuni limiti dello studio, come l'esclusione di lavori non in lingua inglese che potrebbero aver contenuto prove rilevanti. Tuttavia, l'uso di stringenti criteri di inclusione insieme a una valutazione rigorosa e sistematica della qualità li porta a pensare che le loro conclusioni siano robuste.
BMJ 2021. Doi: 10.1136/bmj.n1872
http://dx.doi.org/10.1136/bmj.n1872