La correttezza dei risultati dei modelli di IA dipende fortemente dall'accuratezza dei dati su cui vengono addestrati: se i dataset sono scarsi, pieni di imprecisioni e disomogenei, l'IA non sarà in grado di elaborare risposte soddisfacenti.
Come afferma Shalini Kurapati, co-fondatrice e CEO di Clearbox AI, startup tech italiana, questo problema si presenta soprattutto nei settori ad alta intensità di conoscenza, tra i quali quello bancario.
Il mondo della finanza sta investendo in intelligenza artificiale e continuerà a farlo: secondo i dati del rapporto Abi Lab "Scenari e Trend del mercato ICT per il settore bancario", riportati da Kurapati, il 68% degli istituti di credito sta usando l'IA per gestire la sicurezza e le operation, oltre che per fornire assistenza interna ed esterna.
Se da una parte, secondo un report McKinsey, gli investimenti aumenteranno del 5% i ricavi delle banche, dall'altra parte si è assistito a un gran numero di iniziative di IA che non hanno però raggiunto la produzione (60%-80%). La mancata implementazione dipende dall'assenza di dati sufficientemente corretti per addestrare i modelli.
L'importanza dell'omogeneità dei dati
In ambito bancario è essenziale che i modelli siano accurati e spiegabili. I dati sporchi o sbilanciati rendono poco affidabili i sistemi di propensity, ovvero che prevedono i comportamenti degli utenti (tassi di abbandono, upselling, cambio di conto).
Lo stesso problema si ha anche coi modelli di fraud detection, dove l'IA viene addestrata a riconoscere potenziali attività fraudolente a partire dall'analisi dei dati storici, e per quelli di analisi di merito del credito.
Anche se le banche hanno una grande quantità di dati, quelli a disposizione sono spesso disomogenei, incompleti o errati, ed è impossibile usarli per addestrare modelli usati in funzioni così critiche per il mondo bancario.
I dati sintetici
Una soluzione al problema è l'uso dei dati sintetici, ovvero creati artificialmente per rappresentare i modelli del mondo reale. Questo tipo di dati viene generato tramite intelligenza artificiale, utilizzando una tecnica di campionamento sulle informazioni reali o usando scenari di simulazione.
I dati sintetici riproducono i dati reali dopo averli depurati dai difetti e assicurano che i modelli di IA siano omogenei e spiegabili affinché funzionino in modo efficace in un ambiente aziendale reale.
Questa tecnologia sta attirando sempre più l'interesse delle aziende, ma attualmente i dati sintetici rappresentano solo l'1% di tutti i dati a disposizione. La crescita, però, non si arresterà: Gartner prevede che il mercato dei dati sintetici continuerà a crescere esponenzialmente, raggiungendo il 60% di tutti i dati nel 2024.
Un altro vantaggio dei dati sintetici è che proteggono i dati sensibili: quando le banche devono valutare se concedere un prestito, possono sintetizzare i dati sensibili dei richiedenti generando dati "finti" ma realistici, in grado di generare risultati precisi.
I dati sintetici, conclude Kurapati, sono essenziali per i modelli decisionali del settore bancario e rappresentano un nuovo paradigma per gli istituti finanziari. Questa tecnologia consente di creare dei "gemelli digitali" a partire dai dati reali, garantendo la privacy e al contempo promuovendo l'innovazione.