Approfondimenti Sviluppare un'IA medica multimodale: gli approcci di Google
3' 26''
09/08/2023

I ricercatori di Google Research hanno individuato tre possibili approcci per lo sviluppo di un'IA multimodale nel campo medico.

Sviluppare un'IA medica multimodale: gli approcci di Google

La medicina è una disciplina "multimodale", ovvero che si configura e comunica in modalità diverse. Il settore medico fa uso di radiografie, note di test di laboratorio, record storici dei pazienti per definire un quadro clinico che sia il più preciso possibile.

Nel tempo i sistemi di intelligenza artificiale si sono specializzati nello svolgere diverse attività di diagnosi e ricerca, come l'analisi di radiografie e scansioni, lo studio della storia clinica dei pazienti e la ricerca di nuove molecole per lo sviluppo di farmaci.

Queste capacità sono però frammentate tra più sistemi, ognuno in grado di elaborare un solo formato di input, mentre sarebbe utile avere un'unica soluzione capace di sfruttare informazioni provenienti da fonti eterogenee e integrarle.

Pixabay
sistema IA

Greg Corrado, Head of Health AI di Google Research, e Yossi Matias, VP, Engineering and Research di Google Research, hanno analizzato tre possibili approcci per sviluppare sistemi LLM multimodali capaci di lavorare con diversi formati di informazioni, integrandoli in un'unica base di conoscenza.

L'approccio "tool use"

Nell'approccio "tool use" si utilizza un modello centrale che fornisce in input i diversi dati a un set di sottosistemi (i tool) ottimizzati per ciascun task. Data una radiografia, il sistema centrale la invia al modulo specializzato in radiologia per ottenere una risposta e fornirla poi ai medici.

Tra i moduli e l'infrastruttura principale c'è un'interfaccia condivisa di comunicazione che consente il passaggio di informazioni. Questo approccio garantisce elevata flessibilità e indipendenza tra i singoli sistemi, lasciando libertà di scegliere quali moduli integrare per i propri scopi.

Se da una parte la comunicazione tra i diversi sistemi è comprensibile dagli umani, visto che vengono condivise informazioni visuali o espresse in linguaggio naturale, dall'altra potrebbe essere complicato garantire un canale sicuro ed efficiente tra i sistemi.

Pixabay
intelligenza artificiale

Il model grafting

Il model grafting è un approccio più integrato rispetto al primo in cui le diverse reti neurali, ognuna specializzata nel suo dominio, vengono collegate al sistema centrale "innestando" le informazioni risultanti dall'analisi all'agente neurale principale.

Ogni modulo si occupa di interpretare una specifica informazione e adattare l'output dell'analisi per la rete neurale centrale sotto forma di vettori pluridimensionali. Il sistema principale è così in grado di analizzare le informazioni ricevute e fornire una risposta al quesito medico.

Lo svantaggio principale di questo approccio è che l'output fornito dai singoli sistemi non è in formato leggibile dagli umani. Bisogna inoltre considerare che, quando si modificano una o più reti neurali specializzate, è necessario ridefinire gli adattatori di comunicazione verso il sistema centrale.

Sviluppare sistemi generalisti

L'ultimo approccio, quello più radicale, prevede lo sviluppo di un sistema totalmente integrato e in grado di analizzare nativamente l'informazione da diverse sorgenti.

In tal senso i ricercatori di Google Research hanno creato PaLM-E, un modello multimodale in grado di trasferire la conoscenza di diversi domini, sia visivi che linguistici, a un singolo sistema robotico. 

Pixabay
intelligenza artificiale

I ricercatori hanno specializzato PaLM-E nel campo medico addestrandolo su un dataset specifico, creando così Med-PaLM M, la versione multimodale di Med-PaLM.

In una sola interazione il sistema è in grado di analizzare diversi tipi di informazioni biomediche, interpretandole e fornendo l'output desiderato. I ricercatori hanno integrato diverse capacità in un singolo modello unificato. 

Questo approccio massimizza la flessibilità e consente il passaggio di informazioni senza problemi di compatibilità tra i sistemi; d'altra parte, i costi computazionali sono molto alti e il sistema non possiede il livello di specializzazione nei singoli domini come nel caso delle soluzioni modulari.

Il futuro dell'IA nella medicina è rappresentato dai sistemi multimodali, ma non è semplice definire l'approccio migliore. La scelta dipende da diversi fattori, quali il livello di flessibilità e semplicità a cui si aspira, i casi d'uso da gestire e le risorse a disposizione. 

Lo sviluppo di sistemi medici in grado di integrare diversi formati di dati è ancora in una fase iniziale, ma grazie alla collaborazione tra istituzioni, centri medici e partner tecnologici e al continuo miglioramento delle tecnologie, presto la ricerca potrebbe riuscire a esplorare nuove strade per l'innovazione. 

Potrebbe interessarti anche

Approfondimenti

Gli LLM danno risposte meno accurate agli elettori quando conversano in spagnolo

Una recente indagine dell'AI Democracy Projects ha dimostrato che gli LLM forniscono risposte errato o incomplete più sp...

Opinioni

Gli LLM possono risolvere le sfide della robotica general purpose?

Con la diffusione dell'intelligenza artificiale e il potenziamento degli LLM, gli esperti di robotica sono tornati a chi...

Approfondimenti

Le tecnologie che abilitano la generazione di contenuti

Dietro l'IA generativa ci sono diversi approcci che abilitano la generazione di contenuti e si adattano ciascuno a task...

News

Almawave presenta Velvet, modello di IA open source, multilingua e multimodale

Almwave e Cineca hanno annunciato lo sviluppo congiunto di Velvet, un modello italiano open source, multimodale e multil...