I tool di intelligenza artificiale generativa stanno spopolando in ogni settore e per ogni tipo di attività, ma, oltre ai rischi di sicurezza, privacy e affidabilità, bisogna affrontare anche il problema della disponibilità dei dati di training.
Raccogliere dati reali non è semplice per ragioni di privacy e costi; per di più, le informazioni disponibili gratuitamente stanno finendo, limitando la base di conoscenza dei modelli.
Attualmente la soluzione migliore è generare dati artificiali che siano più simili possibile a quelli reali, un'opzione meno costosa e più veloce della raccolta di informazioni reali che permette di creare dataset accurati e utili.
Bernard Marr, autore per Forbes, ha individuato 20 dei tool più usati oggi dalle imprese per generare dati sintetici, sia gratuiti che a pagamento.
Tra i migliori c'è Mostly, una piattaforma ampiamente usata soprattutto nei settori della finanza, del retail, delle telecomunicazioni e della sanità. Mostly è stato riconosciuto come Cool Vendor da Gartner e garantisce la creazione di dataset che rispettano le normative di protezione dati come la GDPR e la CCPA.
Un altro ottimo tool è Gretel, il quale permette di creare dati in formato tabellare, come serie temporali e non strutturati e usarli per qualsiasi tipo di analisi. La particolarità dello strumento è l'integrazione con connettori e API che lo rendono compatibile con la maggior parte delle infrastrutture cloud e di data warehouse.
Troviamo poi Synthea, un tool open-source gratuito specializzato nella creazione di "pazienti sintetici" per l'analisi nel settore sanitario. Marr spiega che lo strumento è in grado di generare record sanitari completi per aiutare i medici e i ricercatori ad approfondire patologie e condizioni.
Tonic è invece una piattaforma pensata per lo più per lo sviluppo software e per le applicazioni di intelligenza artificiale. Oltre alla generazione di dati sintetici, lo strumento offre funzioni di de-identificazione per anonimizzare dati reali.
Anche Faker fa parte dei migliori tool per la creazione di dati: si tratta di una libreria per Python e JavaScript in grado di generare informazioni per diversi settori, ma richiede conoscenze di programmazione per essere usato.
Oltre a questi, altri strumenti molto usati sono Broadcom CTA Test Manager, pensato per la creazione di dataset tecnici e complessi, BizData X con funzioni di data masking e anonimizzazione, e Cvedia per la computer vision e l'analisi dei video.
Tra i tool più interessanti ci sono anche Sogeti, in grado di simulare dataset reali imitando le caratteristiche e le correlazioni tra i dati esistenti, Simerse per le applicazioni di computer vision e KopiKat, improntato sulla privacy e sul miglioramento delle performance delle reti neurali.
Edgecase genera dati sintetici in modalità "as-a-service", mentre GenRocket è pensato per la generazione di informazioni con scalabilità enterprise, soprattutto nel mondo del testing di software. Hazy è invece il primo marketplace per dati sintetici.
La generazione di YData è pensata per massimizzare le performance dei modelli di IA; similmente, K2View si occupa di generare informazioni per addestrare i modelli di machine learning.
Troviamo poi MDClone per la generazione di dati in ambito sanitario; Synthetic Data Vault, un modello open-source per generare enormi volumi di dati sintetici; Syntho, un servizio di creazione dati specifico per supportare i processi decisionali.
Infine, Datomize, oltre a generare dati sintetici, offre delle funzionalità per la validazione dinamica dei dati per garantire che siano il più realistici possibile.