le transazioni anomale. In questo frangente, la convalida dei dati
è molto più importante e richiede una granularità molto supe-
riore. Negli esempi appena descritti, si nota in maniera evidente
che l’accuratezza dei dati può avere due significati diversi, a se-
conda della situazione di utilizzo. Un altro attributo rilevante per
i Big Data è la deperibilità delle informazioni. I set di dati possono
essere altamente deperibili ed esser e sostituiti da dati comple-
tamente nuovi con frequenza giornaliera o ancora più ravvicinata.
L’analisi dei tweet, ad esempio, tende a considerare solo i tweet
riguardanti un certo argomento a partir e da alcune or e dopo il
verificarsi di un evento; i log dei siti web sono spesso significa-
tivi per una sola giornata; i dati di geolocazione usati dagli utenti
dei dispositivi mobili sono validi solo per un breve arco di tempo.
In tutti questi casi, è importante stabilire con precisione il tipo di
controllo di qualità che è opportuno eseguir e sui dati deperibili.
In particolare, si tratta di decidere se i dati possano essere sem-
plicemente utilizzati nella forma originaria, senza alcun tratta-
mento. Per concludere, le aziende che vogliano gestire la qualità
dei dati nel contesto dei Big Data non dovranno ecceder e nelle
verifiche, ma piuttosto identificare i dati che possiedano una qua-
lità “sufficientemente buona” per il caso d’uso in oggetto.
La valutazione del livello di qualità necessario
Gli approcci tradizionali alla gestione della qualità dei dati non sono
applicabili ai volumi di informazioni che caratterizzano i progetti ba-
sati sui Big Data. Ad esempio, l’esecuzione di un processo di pro-
filazione su un inter o set di dati può rivelarsi molto lunga e
dispendiosa in termini di risorse. È importante quindi che le aziende
diventino molto più efficienti nel limitare l’ambito dei dati su cui ese-
guire i controlli di qualità. Sono disponibili varie tecniche per ridurre
la portata dei controlli di qualità sui dati; ad esempio, è possibile
identificare solo gli attributi di interesse, oppure identificare le cor-
relazioni esistenti tra gli oggetti e pr enderne in esame solo una. A
volte, perfino la riduzione degli attributi da considerare non è suffi-
cientemente restrittiva, ed è preferibile gestire la qualità dei dati a un
livello più grossolano. Per identificare i dati a un livello di dettaglio in-
feriore è possibile, ad esempio, prendere in esame solo i campi e i
valori che compaiono più frequentemente nella curva a campana,
oppure individuare le relazioni tra due oggetti separati osservando
le correlazioni reciproche e restringere l’analisi a una sola di queste
(ad esempio, un solo elemento per famiglia). Queste tecniche per-
mettono di ridurre sensibilmente i dati da esaminare (un’azienda ha
riferito di avere ottenuto una riduzione di 1:1 milione).
Negli esempi citati, il tipo di verifica da eseguire sui dati dipende
dalla situazione. Questo approccio può essere paragonato all’uso
di una serie di imbuti per filtrare la validità dei dati secondo i criteri
associati al caso d’uso specifico. L’adozione di questo approccio
elimina i problemi di riutilizzo e di coerenza che possono emergere
nell’utilizzo di uno stesso set di dati per casi d’uso dif ferenti. Tor-
nando all’esempio del clickstream, il modo in cui un utente “reale”
viene definito nel contesto dell’analisi del clickstream non corri-
sponde necessariamente a un “utente reale” nel contesto della ri-
levazione delle frodi, anche se i due casi d’uso utilizzano gli stessi
dati. I criteri selezionati per qualificare l’idoneità dei dati per un de-
terminato caso d’uso portano infatti a una semantica dif ferente.
Ciò significa che la possibilità di adattare il set di dati risultante per
un uso in un contesto più allargato riveste un’importanza secon-
daria e non è sempr e praticabile. Quando si memorizza la vista
aggregata dei dati, la gestione della qualità a livello di singoli casi
d’uso può portare a un lavoro ridondante e a una semantica in-
coerente, e perfino a dati disomogenei o ridondanti. Come per i
progetti periodici di miglioramento della qualità dei dati, è impor -
tante trovare il giusto equilibrio tra l’idoneità dei dati al caso d’uso,
la possibilità di riutilizzo delle informazioni e la coerenza dei dati.
Identificare e correggere i problemi di qualità
La prassi di utilizzare ed elaborare dati di provenienza esterna è
piuttosto abituale per le aziende. Si pensi alla ricezione e alla con-
versione dei dati delle transazioni di interscambio elettroniche con
i partner commerciali nell’ambito delle normali operazioni della sup-
ply chain, oppure all’aggregazione dei dati dei punti vendita per
l’analisi delle preferenze dei consumatori e dei modelli d’acquisto.
Nei casi in cui il flusso dei dati utilizzati nei principali processi azien-
dali inizia (ed eventualmente anche finisce) al di fuori del controllo
dell’azienda, è particolarmente importante istituir e forme di con-
trollo di qualità che permettano di misurare, convalidare e assicu-
rare la conformità alle aspettative in termini di sintassi, semantica
e idoneità allo scopo di utilizzo delle informazioni. Diversamente, si
può rischiare di danneggiare le operazioni interne (o le operazioni
dei partner a valle) a causa di difetti nella qualità dei dati. Fortuna-
tamente, le aziende sono in grado di cr eare i controlli necessari
perché i dati in oggetto hanno una natura ben nota e le aspetta-
tive di qualità sono in genere ben definite. Il fenomeno dei Big Data
cambia nettamente la prospettiva. Molte delle nuove fonti di dati
che appaiono più promettenti, soprattutto per scopi analitici, com-
portano anche numerose problematiche, proprio perché spesso la
loro struttura e il loro significato non sono sufficientemente noti e
le aspettative sulla loro qualità non sono definite in modo chiaro. La
“fedeltà” di questi dati per illoro utilizzo in un contesto nuovo e dif-
ferente può essere del tutto ignota. Ad esempio, esiste un cr e-
scente interesse per l’utilizzo dei dati provenienti dai social media
(social network e siti analoghi) per eseguire un’analisi più appro-
fondita del modo in cui i consumatori per cepiscono i prodotti e i
servizi. Tuttavia, data la natura aperta degli ambienti di provenienza,
la creazione di questi dati è molto poco gover nata, perciò la loro
accuratezza è altamente dubbia. La forza di queste enormi quan-
tità di informazioni può essere sostanzialmente indebolita, se non
completamente azzerata, dai problemi di qualità, e tuttavia non
30
maggio-giugno 2012
QUALITÀ DEI DATI E BIG DATA. STESSI PRINCIPI, NUOVA TATTICA
бб