La medicina è una disciplina "multimodale", ovvero che si configura e comunica in modalità diverse. Il settore medico fa uso di radiografie, note di test di laboratorio, record storici dei pazienti per definire un quadro clinico che sia il più preciso possibile.
Nel tempo i sistemi di intelligenza artificiale si sono specializzati nello svolgere diverse attività di diagnosi e ricerca, come l'analisi di radiografie e scansioni, lo studio della storia clinica dei pazienti e la ricerca di nuove molecole per lo sviluppo di farmaci.
Queste capacità sono però frammentate tra più sistemi, ognuno in grado di elaborare un solo formato di input, mentre sarebbe utile avere un'unica soluzione capace di sfruttare informazioni provenienti da fonti eterogenee e integrarle.
Greg Corrado, Head of Health AI di Google Research, e Yossi Matias, VP, Engineering and Research di Google Research, hanno analizzato tre possibili approcci per sviluppare sistemi LLM multimodali capaci di lavorare con diversi formati di informazioni, integrandoli in un'unica base di conoscenza.
L'approccio "tool use"
Nell'approccio "tool use" si utilizza un modello centrale che fornisce in input i diversi dati a un set di sottosistemi (i tool) ottimizzati per ciascun task. Data una radiografia, il sistema centrale la invia al modulo specializzato in radiologia per ottenere una risposta e fornirla poi ai medici.
Tra i moduli e l'infrastruttura principale c'è un'interfaccia condivisa di comunicazione che consente il passaggio di informazioni. Questo approccio garantisce elevata flessibilità e indipendenza tra i singoli sistemi, lasciando libertà di scegliere quali moduli integrare per i propri scopi.
Se da una parte la comunicazione tra i diversi sistemi è comprensibile dagli umani, visto che vengono condivise informazioni visuali o espresse in linguaggio naturale, dall'altra potrebbe essere complicato garantire un canale sicuro ed efficiente tra i sistemi.
Il model grafting
Il model grafting è un approccio più integrato rispetto al primo in cui le diverse reti neurali, ognuna specializzata nel suo dominio, vengono collegate al sistema centrale "innestando" le informazioni risultanti dall'analisi all'agente neurale principale.
Ogni modulo si occupa di interpretare una specifica informazione e adattare l'output dell'analisi per la rete neurale centrale sotto forma di vettori pluridimensionali. Il sistema principale è così in grado di analizzare le informazioni ricevute e fornire una risposta al quesito medico.
Lo svantaggio principale di questo approccio è che l'output fornito dai singoli sistemi non è in formato leggibile dagli umani. Bisogna inoltre considerare che, quando si modificano una o più reti neurali specializzate, è necessario ridefinire gli adattatori di comunicazione verso il sistema centrale.
Sviluppare sistemi generalisti
L'ultimo approccio, quello più radicale, prevede lo sviluppo di un sistema totalmente integrato e in grado di analizzare nativamente l'informazione da diverse sorgenti.
In tal senso i ricercatori di Google Research hanno creato PaLM-E, un modello multimodale in grado di trasferire la conoscenza di diversi domini, sia visivi che linguistici, a un singolo sistema robotico.
I ricercatori hanno specializzato PaLM-E nel campo medico addestrandolo su un dataset specifico, creando così Med-PaLM M, la versione multimodale di Med-PaLM.
In una sola interazione il sistema è in grado di analizzare diversi tipi di informazioni biomediche, interpretandole e fornendo l'output desiderato. I ricercatori hanno integrato diverse capacità in un singolo modello unificato.
Questo approccio massimizza la flessibilità e consente il passaggio di informazioni senza problemi di compatibilità tra i sistemi; d'altra parte, i costi computazionali sono molto alti e il sistema non possiede il livello di specializzazione nei singoli domini come nel caso delle soluzioni modulari.
Il futuro dell'IA nella medicina è rappresentato dai sistemi multimodali, ma non è semplice definire l'approccio migliore. La scelta dipende da diversi fattori, quali il livello di flessibilità e semplicità a cui si aspira, i casi d'uso da gestire e le risorse a disposizione.
Lo sviluppo di sistemi medici in grado di integrare diversi formati di dati è ancora in una fase iniziale, ma grazie alla collaborazione tra istituzioni, centri medici e partner tecnologici e al continuo miglioramento delle tecnologie, presto la ricerca potrebbe riuscire a esplorare nuove strade per l'innovazione.