sempre le aziende che attingono a questi dati sono consapevoli di
questa possibile degradazione. È essenziale che gli utilizzatori di
queste immense fonti di dati sviluppino tecniche di verifica adatte,
magari correlando queste informazioni a dati già esistenti di cui si
conosce l’accuratezza (ad esempio, ai dati sugli acquisti pr ece-
denti di prodotti e servizi simili). Prima di utilizzare i dati per il caso
d’uso in oggetto, è necessario acquisire un certo grado di fiducia
nella loro attendibilità.
Il coinvolgimento dell’azienda
Come in tutte le iniziative finalizzate alla qualità dei dati, il coin-
volgimento dell’azienda e l’allineamento con la strategia aziendale
rimangono criteri essenziali per il successo.
Il fenomeno dei Big Data rende ancora più importante allineare le ini-
ziative di governance a sostegno della strategia aziendale. Sotto
molti profili, le best practice per la corr etta implementazione della
qualità dei dati rimangono valide anche nel contesto dei Big Data.
Rimangono invariate le esigenze di sostegno e coinvolgimento da
parte dell’azienda, alle quali si aggiunge la necessità di nuovi ruoli
come quello del Data Scientist (vedi nota 2). I Data Scientist uni-
scono le competenze di semantica su base matematica, apparte-
nenti alla sfera dell’informatica, alla conoscenza delle caratteristiche
fisiche dei sistemi digitali. Queste figure dovrebbero essere affian-
cate agli esperti di settore (i Data Steward) per favorire una più effi-
cace individuazione delle relazioni all’interno dei dati. Ad esempio,
lo studio del valore dei vari attributi mediante l’analisi della frequenza
di accesso, la rilevazione dei dati fuori linea o l’individuazione delle
correlazioni tra gli attributi possono costituire un buon punto di par-
tenza per comprendere la distribuzione dei dati. Come nelle inizia-
tive tradizionali di gestione della qualità dei dati, i Data Stewar d
continueranno a fungere da referenti per i dati, a monitorare le loro
variazioni improvvise e, eventualmente in collaborazione con i Data
Scientist, a eseguire l’analisi delle cause delle anomalie. Se ad
esempio i Data Steward osservano in un sito webuna diminuzione
improvvisa delle interazioni degli utenti che non sia giustificata da
QUALITÀ DEI DATI E BIG DATA. STESSI PRINCIPI, NUOVA TATTICA
32
maggio-giugno 2012
motivazioni aziendali, questo può indicare un problema nella stru-
mentazione dei log delle operazioni sul Web.
L’analisi della qualità è un processo lungo
L’analisi degli aspetti qualitativi di grandi volumi di dati può sem-
brare un’impresa molto ardua. Alcune aziende che hanno imple-
mentato iniziative di gestione della qualità su volumi imponenti di
dati hanno riferito che, in una prima fase, il monitoraggio dei dati e
l’identificazione dei valori fuori linea con l’uso di semplici metodi sta-
tistici possono essere utili nel definire la base di riferimento su cui ca-
librare le aspettative. Utilizzando questa base di riferimento come
punto di partenza, è possibile afinare successivamente l’analisi con
l’aggiunta di ulteriori criteri (come la stagionalità) nell’ambito dei mo-
delli. Anche in questo caso, come per le iniziative tradizionali, la
qualità dei dati deve essere considerata in termini di programma e
non di progetto e, per progredire, richiede la partecipazione con-
giunta sia del reparto IT che delle funzioni aziendali.
*RESEARCH DIRECTOR, RESEARCH VICE PRESIDENT
NOTA 2 • Data Dcientist
I Data Scientist svolgono attività di mining, modellazione, interpreta-
zione, fusione ed estrazione delle informazioni a partire da grandi in-
siemi di dati (Big Data) e, su questa base, presentano risultati utili a
persone non esperte nell'analisi dei dati. Queste figure uniscono le
competenze di semantica su base matematica, appartenenti alla
sfera dell'informatica, alla conoscenza delle car atteristiche fisiche
dei sistemi digitali.
RACCOMANDAZIONI
б
• Esaminare e valutare le fonti di provenienza e la portata delle misure di governance applicabili in particolare per le fonti
esterne.
• Come per i progetti periodici di miglioramento della qualità dei dati, è importante trovare il giusto equilibrio tra l’idoneità
dei dati al tipo di utilizzo, la possibilità di riutilizzo delle informazioni e la coerenza dei dati.
• Le aziende interessate a utilizzare dati provenienti da fonti esterne dovranno verificare il grado di attendibilità delle in-
formazioni prima di utilizzarle.
• Includere la figura del Data Scientist nei team di gestione della qualità dei dati, che dovrà operare in stretta collabora-
zione con i data steward.
NOTA 1 • Crawler
I crawler (anche detti spider o robot) sono applicazioni software che
eseguono attività automatizzate sui siti web. In genere, i crawler ese-
guono operazioni semplici e strutturalmente ripetitive a una velocità
molto superiore a quella raggiungibile da un operatore umano.
бб