Quando un corso interamente in IA? Al via un progetto per valutare ChatGPT in medicina

Un corso di formazione interamente messo a punto e gestito da ChatGPT: sembra fantascienza e invece è qualcosa su cui vale la pena interrogarsi per capire in cosa ci si avventura affidando all’intelligenza artificiale questo delicato compito, specie se la formazione è rivolta a professionisti come gli operatori sanitari. Un team di Zadig, società benefit di Milano leader nella formazione medica da oltre trent’anni, ha dato il via ad AI-CHECK, un progetto scientifico volto a valutare le competenze di questi sistemi in ambito dermatologico per vagliare la possibilità di mettere a punto un corso di formazione per operatori sanitari interamente basato sull’Intelligenza Artificiale. Un obiettivo non da poco.

Ne avevamo parlato anche noi su Infodata qualche mese fa chiedendo a dieci specialisti in medicina di valutare le risposte a quesiti medici da parte di ChatGPT, il noto sistema di chatbot di intelligenza artificiale e apprendimento automatico. Risultato: il sistema non si è rivelato precisissimo, ma nemmeno tanto male.
Il punto è passare da tentativi di test fatti in casa come questo a sistemi in grado di valutare scientificamente quanto sbagliano servizi come ChatGPT quando si tratta di fornire risposte mediche.
Ne parliamo con la responsabile scientifica della formazione di Zadig Maria Rosa Valetto.

In che senso un sistema di IA può fare formazione: come lo immaginate un corso siffatto?

Da molti anni come Zadig organizziamo corsi di formazione per operatori sanitarisu argomenti di salute, sanità e deontologia, basandoci su un modello formativo dell’adulto che opera sul campo in modo professionale, basato sul problem solving. Usiamo casi di studio, situazioni per le quali forniamo informazioni di modo che l’operatore sanitario si veda calato in situazioni simulate di pratica clinica che deve risolvere basandosi sulle evidenze scientifiche, sulle raccomandazioni e le linee guida. Vogliamo capire come si muove l’IA rispetto a questo modello di formazione.

Quello che vorremmo fare con questo progetto è arrivare a stabilire le buone pratiche per fare formazione usando l’intelligenza artificiale, definendone limiti, benefici e rischi. Come? Provando a chiedere a ChatGPT e ad altri sistemi simili sul mercato di elaborare autonomamente i contenuti di un corso, per poi valutarlo. Se dovesse uscirne un abbozzo di corso ben fatto significherebbe che il sistema ha accesso alle fonti che avremmo utilizzato noi e che possiede la capacità di mettere insieme le informazioni come lo faremmo noi specialisti.

Al momento a nostra conoscenza non ci sono progetti basati su questo modello di formazione ECM che risponda ai criteri della normativa italiana, ma solo progetti che validano informazioni aderenti alle linee guida.

Quali sono i tempi di un progetto come questo?

AI-CHECK non è solo uno studio e neppure uno studio solo sull’efficacia di sistemi come ChatGPT quando si tratta di imparare argomenti medici, ma un progetto più ampio che potrebbe durare anni sulla possibilità di imparare noi stessi da questi sistemi, usandoli come strumenti per mettere in piedi corsi di formazione di alto livello. Il progetto è appena iniziato – siamo partiti poco prima dell’estate – ma contiamo di avere un primo nucleo di dati sull’ affidabilità del sistema entro l’inizio del 2024. Una volta che avremo in mano questi dati inizieremo a valutare come mettere in piedi un primo corso.

Quali aspetti esaminerete di preciso?

Anzitutto l’affidabilità dei contenuti. Dovranno essere evidence based cioè provenire da letteratura scientifica validata, dovranno mostrare aderenza alle linee guida per gli operatori sanitari, un aspetto determinante per guidare la condotta dei sanitari dato che il rispetto delle linee guida ha, come ben noto, anche implicazioni medico-legali, e essere aggiornati.
Se il sistema dovesse essere sofisticato a tal punto da riuscire a scrivere autonomamente un corso per operatori sanitari, potremmo pensare a corsi di formazione anche per la popolazione generale. Questo dipende in primo luogo dalla capacità di produrre contenuti in autonomia ma di utilizzare fonti non in conflitto di interesse e non generatrici di fake news.

Chi sarà a valutare ChatGPT e perché avete scelto la dermatologia?

Il gruppo è composto dal comparto formazione di Zadig, da Eugenio Santoro, Direttore del Laboratorio di Informatica Medica presso l’Istituto di ricerche Farmacologiche Mario Negri di Milano, e da Luigi Naldi dermatologo con una delle più cospicue produzioni scientifiche a livello internazionale, da decenni interessato alla formazione e dal 2017 Direttore Unità Operativa Complessa di Dermatologia Ospedale San Bortolo Vicenza. Abbiamo scelto una condizione dermatologica che fosse di ampio interesse non solo per gli specialisti ma anche per Medici di Medicina Generale, e e le cui conoscenze e gestione non siano state radicalmente rivoluzionate negli ultimissimi anni. Questo aspetto è importante in questa fase dal momento che ChatGPT in alcune release non è aggiornatissimo, quindi sulle novità dell’ultimo anno – pensiamo ad esempio al tema long COVID – emergerebbe lo scarto tra la sua disponibilità di fonti e la nostra possibilità di interrogare gli archivi della letteratura scientifica in tempo reale.

I dati che raccogliete non invecchiano in fretta?

In questi mesi abbiamo notato che da quando abbiamo iniziato a studiarli, i sistemi stanno cambiando molto velocemente, cioè imparano molto velocemente. Interrogando chatGPT 3.5 ci siamo resi conto che inventava fonti bibliografiche, mentre la versione successiva già non presentava questo problema.
Va comunque tenuto a mente che questi sistemi imparano anche da fonti “tradizionali” come i libri

Quali sono gli ostacoli di questo progetto?

Se vogliamo, l’ostacolo più grande è che non sappiamo che cosa ci sia nell’algoritmo di sistemi come chatGPT: finché non sarà trasparente l’algoritmo non potremo escludere che si creino dei bias nella raccolta delle informazioni.

I primi dati che cosa vi dicono: a quando il primo corso IA?

I primi segnali ci stanno dicendo che probabilmente non potremmo costruire un sistema di formazione interamente basato sull’AI: sarà sempre necessaria un’attività di verifica dei contenuti. Anche nel resto del mondo stanno iniziando progetti simili che stanno ottenendo risultati incoraggianti ma che devono farci riflettere. Io credo che non dobbiamo essere polarizzati sull’uso dell’IA; è come con le medicine: non sono mai bene o male assoluti, ma dipende se ne si fa un buon uso o un cattivo uso. L’IA può essere uno strumento per la salute a patto di sapere quali sono i suoi limiti e che cosa puoi pretendere. Con AI-CHECK cerchiamo di chiarire questi aspetti.

Le tre immagini sono state ottenute con Dall-E3