I progetti di data science sono quelli che più degli altri soffrono per la mancanza di skill adeguate, complessità di tecnologia e qualità dei dati. Gestire con successo questo tipo di progetti non è semplice senza metodologie ben definite e analisi approfondita dei dati.
La data science ruota attorno a due ruoli: il data scientist e il data analyst. Il primo si occupa di raccogliere tutte le informazioni riguardanti il problema, prepararle per l'analisi ed estrarne la conoscenza; il secondo, invece, lavora coi dati raccolti dai data analyst e li integra con sorgenti storiche, per poi eseguire test A/B e riportare i risultati su strumenti di data visualization.
Il lavoro di queste due figure è fondamentale per sviluppare progetti robusti di data science, ma spesso non hanno le conoscenze e l'esperienza necessarie per farsi carico dei progetti. Anche le organizzazioni non sono esenti da errori: la mancata condivisione delle informazioni e di processi ad-hoc rallentano lo sviluppo dei progetti di data science e ne minano l'utilità.
Le difficoltà più comuni da affrontare
Uno dei problemi principali che si riscontrano nello sviluppo di progetti di data science è l'insufficienza di skill dei data scientist. Di solito queste figure non possiedono l'esperienza necessaria a produrre dei risultati di valore: il processo di analisi dei dati richiede una conoscenza approfondita di statistica inferenziale e descrittiva, matematica e visualizzazione dei dati.
I progetti moderni stanno diventando sempre più complessi, mentre i data scientist non sono all'altezza dei task da svolgere. Il gap di conoscenza si sta facendo sempre più ampio e le aziende non riescono a trarre vantaggi competitivi dai propri dati. Queste figure trovano spesso difficoltà anche nell'identificare il problema di business e raccogliere i dati veramente utili; ciò porta a sviluppare progetti che non sono di alcun aiuto per le aziende.
D'altronde le sorgenti dati contengono una grande quantità di errori che rendono ancora più difficile il lavoro dei data scientist, i quali, nella maggior parte dei casi, non riescono a individuare e correggere tutte le imprecisioni. Le organizzazioni, in questo caso, dovrebbero preoccuparsi di migliorare la qualità dei dati, effettuando per esempio dei controlli e delle pulizie periodiche.
Anche una gestione dei dati semplificata può avere impatti significativi sulla qualità dei progetti di data science: l'uso di tecnologie troppo complesse e difficilmente integrabili rallenta il processo di raccolta e analisi. La scelta delle tecnologie e dei provider andrebbe fatta insieme al business per soddisfare le loro richieste e al contempo facilitare il compito dei data scientist.
Un altro dei problemi più sentiti è l'accuratezza dei modelli; uno dei rischi principali in cui si può ricadere è l'overfitting. In questo caso il modello performa in maniera ottimale coi dati di training, ma è impreciso coi nuovi dati. Di solito il problema si verifica quando i data set mancano di varietà o se c'è un numero eccessivo di feature.
Infine, è importante supportare la comunicazione tra i data scientist e gli stakeholder del business, che sono le figure a cui sono diretti i risultati dell'analisi. Senza un'adeguata condivisione della conoscenza e una stretta collaborazione, non è possibile arrivare alla soluzione.
La data science è un campo complesso che richiede esperienza, disciplina e skill cross-funzionali. Le aziende possono trarne enormi vantaggi, ma devono prima investire nel formare i talenti, coltivare le loro abilità; inoltre, devono creare un ambiente fertile per lo sviluppo dei progetti occupandosi di mantenere un'altra qualità dei dati e promuovendo la collaborazione tra i team.