Scenario La carenza di dati mette a rischio le performance dell'IA
2' 20''
18/05/2023

La progressiva carenza di dati mette a rischio le performance dei modelli di machine learning: entro il 2026 i dati di qualità si esauriranno.

La carenza di dati mette a rischio le performance dell'IA

I modelli di intelligenza artificiale e machine learning continuano a progredire, ma c’è qualcosa che minaccia i miglioramenti futuri: la mancanza di dati.

Secondo un’analisi di Epoch, un istituto di ricerca con sede in India, i dataset di alta qualità, ovvero provenienti da fonti riconosciute, usati per i modelli linguistici si esauriranno entro il 2026; i dataset di qualità più bassa invece, come i post di blog e social network, non si esauriranno prima del 2030. 

Dal momento che i modelli di machine learning migliorano le proprie performance con l’aumentare dei dati a disposizione, la carenza di informazioni rappresenta un collo di bottiglia non indifferente. 

Man mano che il numero di elementi in un dataset diminuirà, il progresso dei modelli arresterà la sua corsa fino a raggiungere un plateau. La quantità di informazioni disponibili sul web continuerà ad aumentare, ma non a una velocità tale da rispondere alle esigenze dei modelli.

Pixabay
intelligenza artificiale

Secondo i ricercatori, il trend reale potrebbe discostarsi dalle previsioni sulla carta, soprattutto perché i modelli tenderanno a evolversi per usare meno dati e offrire gli stessi (o maggiori) livelli di performance; ciò non toglie che, al netto delle effettive tempistiche, il problema si presenterà.

Ivan Smetannikov, team leader di data science in Serokell, ha individuato alcuni approcci che potrebbero mantenere sotto controllo il problema. Uno di questi consiste nel creare dataset diversificati e rivalutare i dati considerati di alta o bassa qualità. I dati, inoltre, potrebbero essere riutilizzati durante i vari addestramenti per massimizzarne l’efficienza. Questo approccio però rischia di portare il modello in overfitting, ovvero ad adattarsi ai dati a disposizione e commettere errori.

Una strategia più efficace sul lungo termine è la Joint Empirical Probability Approximation che usa la distribuzione empirica di probabilità per modellare i dati ed eseguire previsioni su di essi.

L’approccio prevede una divisione dei dati in subset e, per ognuno di essi, il calcolo della distribuzione di probabilità. I singoli valori vengono poi combinati in una probabilità congiunta, usata per effettuare previsioni sui dati. La strategia consente di usare dataset multidimensionali e adattare il modello a diversi pattern. 

Pixabay
dataset IA

Un altro approccio, molto più semplice, consiste nel modificare i dati a disposizione per creare nuovi dataset senza rischio di ricadere nell’overfitting. 

Infine, è possibile sfruttare il transfer learning per adattare le capacità di un modello già pre-addestrato a nuove attività, utilizzando un set di dati ridotto.

Queste strategie, seppur efficaci, non risolvono completamente il problema. La soluzione sarebbe sviluppare modelli efficienti in grado di garantire performance soddisfacenti senza usare quantità elevate di dati; al momento, però, non esistono tecniche affermate. 

Potrebbe interessarti anche

Approfondimenti

Usare il machine learning per modellare i premi assicurativi

L'uso di tecniche di machine learning come quella delle Gradient Boosting Machines permette alle assicurazioni di defini...

News

Persona AI, la nuova startup di robot umanoidi

Jerry Pratt, ricercatore del MIT, ha da poco dato vita a Persona AI, una nuova startup che mira a produrre robot umanoid...

Approfondimenti

Le organizzazioni antifrode vogliono integrare l'IA generativa nei propri sistemi

I professionisti del settore antifrode prevedono di integrare l'IA generativa nei loro sistemi, ma il tasso di adozione...

Approfondimenti

I tre passi da compiere per la digitalizzazione del business

Simone Merlini, CEO e fondatore di BeSharp, illustra i tre passi fondamentali per digitalizzare l'impresa e garantire su...