I modelli di intelligenza artificiale e machine learning continuano a progredire, ma c’è qualcosa che minaccia i miglioramenti futuri: la mancanza di dati.
Secondo un’analisi di Epoch, un istituto di ricerca con sede in India, i dataset di alta qualità, ovvero provenienti da fonti riconosciute, usati per i modelli linguistici si esauriranno entro il 2026; i dataset di qualità più bassa invece, come i post di blog e social network, non si esauriranno prima del 2030.
Dal momento che i modelli di machine learning migliorano le proprie performance con l’aumentare dei dati a disposizione, la carenza di informazioni rappresenta un collo di bottiglia non indifferente.
Man mano che il numero di elementi in un dataset diminuirà, il progresso dei modelli arresterà la sua corsa fino a raggiungere un plateau. La quantità di informazioni disponibili sul web continuerà ad aumentare, ma non a una velocità tale da rispondere alle esigenze dei modelli.
Secondo i ricercatori, il trend reale potrebbe discostarsi dalle previsioni sulla carta, soprattutto perché i modelli tenderanno a evolversi per usare meno dati e offrire gli stessi (o maggiori) livelli di performance; ciò non toglie che, al netto delle effettive tempistiche, il problema si presenterà.
Ivan Smetannikov, team leader di data science in Serokell, ha individuato alcuni approcci che potrebbero mantenere sotto controllo il problema. Uno di questi consiste nel creare dataset diversificati e rivalutare i dati considerati di alta o bassa qualità. I dati, inoltre, potrebbero essere riutilizzati durante i vari addestramenti per massimizzarne l’efficienza. Questo approccio però rischia di portare il modello in overfitting, ovvero ad adattarsi ai dati a disposizione e commettere errori.
Una strategia più efficace sul lungo termine è la Joint Empirical Probability Approximation che usa la distribuzione empirica di probabilità per modellare i dati ed eseguire previsioni su di essi.
L’approccio prevede una divisione dei dati in subset e, per ognuno di essi, il calcolo della distribuzione di probabilità. I singoli valori vengono poi combinati in una probabilità congiunta, usata per effettuare previsioni sui dati. La strategia consente di usare dataset multidimensionali e adattare il modello a diversi pattern.
Un altro approccio, molto più semplice, consiste nel modificare i dati a disposizione per creare nuovi dataset senza rischio di ricadere nell’overfitting.
Infine, è possibile sfruttare il transfer learning per adattare le capacità di un modello già pre-addestrato a nuove attività, utilizzando un set di dati ridotto.
Queste strategie, seppur efficaci, non risolvono completamente il problema. La soluzione sarebbe sviluppare modelli efficienti in grado di garantire performance soddisfacenti senza usare quantità elevate di dati; al momento, però, non esistono tecniche affermate.