Scenario La carenza di dati mette a rischio le performance dell'IA
Marina Londei
2' 20''
18/05/2023

La progressiva carenza di dati mette a rischio le performance dei modelli di machine learning: entro il 2026 i dati di qualità si esauriranno.

La carenza di dati mette a rischio le performance dell'IA

I modelli di intelligenza artificiale e machine learning continuano a progredire, ma c’è qualcosa che minaccia i miglioramenti futuri: la mancanza di dati.

Secondo un’analisi di Epoch, un istituto di ricerca con sede in India, i dataset di alta qualità, ovvero provenienti da fonti riconosciute, usati per i modelli linguistici si esauriranno entro il 2026; i dataset di qualità più bassa invece, come i post di blog e social network, non si esauriranno prima del 2030. 

Dal momento che i modelli di machine learning migliorano le proprie performance con l’aumentare dei dati a disposizione, la carenza di informazioni rappresenta un collo di bottiglia non indifferente. 

Man mano che il numero di elementi in un dataset diminuirà, il progresso dei modelli arresterà la sua corsa fino a raggiungere un plateau. La quantità di informazioni disponibili sul web continuerà ad aumentare, ma non a una velocità tale da rispondere alle esigenze dei modelli.

Pixabay
intelligenza artificiale

Secondo i ricercatori, il trend reale potrebbe discostarsi dalle previsioni sulla carta, soprattutto perché i modelli tenderanno a evolversi per usare meno dati e offrire gli stessi (o maggiori) livelli di performance; ciò non toglie che, al netto delle effettive tempistiche, il problema si presenterà.

Ivan Smetannikov, team leader di data science in Serokell, ha individuato alcuni approcci che potrebbero mantenere sotto controllo il problema. Uno di questi consiste nel creare dataset diversificati e rivalutare i dati considerati di alta o bassa qualità. I dati, inoltre, potrebbero essere riutilizzati durante i vari addestramenti per massimizzarne l’efficienza. Questo approccio però rischia di portare il modello in overfitting, ovvero ad adattarsi ai dati a disposizione e commettere errori.

Una strategia più efficace sul lungo termine è la Joint Empirical Probability Approximation che usa la distribuzione empirica di probabilità per modellare i dati ed eseguire previsioni su di essi.

L’approccio prevede una divisione dei dati in subset e, per ognuno di essi, il calcolo della distribuzione di probabilità. I singoli valori vengono poi combinati in una probabilità congiunta, usata per effettuare previsioni sui dati. La strategia consente di usare dataset multidimensionali e adattare il modello a diversi pattern. 

Pixabay
dataset IA

Un altro approccio, molto più semplice, consiste nel modificare i dati a disposizione per creare nuovi dataset senza rischio di ricadere nell’overfitting. 

Infine, è possibile sfruttare il transfer learning per adattare le capacità di un modello già pre-addestrato a nuove attività, utilizzando un set di dati ridotto.

Queste strategie, seppur efficaci, non risolvono completamente il problema. La soluzione sarebbe sviluppare modelli efficienti in grado di garantire performance soddisfacenti senza usare quantità elevate di dati; al momento, però, non esistono tecniche affermate. 

Potrebbe interessarti anche

Approfondimenti

L’intelligenza artificiale al servizio dell’educazione

I sistemi basati sull’AI non sono necessariamente nemici dell’istruzione; possono invece offrire strumenti educativi mol...

Scenario

Come il machine learning rivoluziona l'ingegneria del software

Gli strumenti di IA e machine learning stanno già rivoluzionando il mondo dell'ingegneria del software velocizzando svil...

Tecnologia

Un sistema ML trasforma gli schizzi in modelli 3D

Un gruppo di ricercatori della Carnegie Mellon University ha presentato i risultati di una ricerca per realizzare un sis...

Approfondimenti

E-commerce: la rivoluzione alle porte

Lo sviluppo e l'integrazione di molte nuove tecnologie sta preparando la strada a cambiamenti epocali nel settore del co...