Le nuove fonti
Siamo all’inizio di una nuova era in cui i dati che rien-
trano nello spettro delle risorse informative aziendali
comprendono nuove fonti di informa -
zioni: per esempio i media sociali,
i dati sui clickstream e i dati di
provenienza esterna come
quelli forniti da Dun &
Bradstreet. Questo im-
pone un ripensamento del
concetto di qualità dei dati e
un suo adattamento alla r ealtà
delle nuove fonti di informazioni.
I criteri tradizionali per la valutazione qualitativa dei dati si
fondavano su un approccio granulare alla qualità, che richiedeva
un intervento manuale per la gestione puntuale delle eccezioni,
da applicarsi all’occorrenza fino al livello dei record. In quest’ottica
tradizionale, molte aziende indicherebbero i fattori seguenti tra le
dimensioni essenziali della qualità dei dati: completezza (identifi-
cazione degli elementi di dati che sono necessari); fr eschezza (i
dati forniti devono essere ragionevolmente recenti); accuratezza
(i dati devono rispettar e determinate regole di precisione); ade-
renza a una lingua comune (gli elementi dei dati devono soddisfare
i requisiti ed essere espressi in un linguaggio comprensibile per gli
utenti aziendali); coerenza (i dati provenienti da più sistemi devono
rispettare determinate regole di coerenza; conformità tecnica (i
dati devono rispettare le specifiche e le linee guida stabilite per
l’architettura delle informazioni).
Tuttavia è importante che le aziende, prima di includer e fonti di
grandi quantità di dati nella propria infrastruttura informativa, defi-
niscano i criteri di qualità da applicar e nel contesto dei Big Data.
A questo riguardo, i precedenti approcci tradizionali alla qualità dei
dati presentano alcune limitazioni. Rispetto ai dati che vengono
acquisiti manualmente, l’acquisizione automatica di grandi volumi
di informazioni non richiede la stessa granularità per le r egole di
convalida dei dati. In questo caso, ad esempio, non è necessario
convalidare i dati per verificar e i potenziali errori commessi dagli
utenti nella loro raccolta. Viceversa, il controllo sulla qualità do-
vrebbe cercare alcuni tipi di eccezioni che siano indicative della va-
lidità del processo di raccolta. Nel caso dei contatori, il controllo di
qualità dovrebbe concentrarsi sulla rilevazione dei dati mancanti
(indicanti che il dispositivo è fuori servizio) o dei dati fuori linea (in-
dicanti una situazione anomala o un pr oblema del dispositivo). I
dati sono molto più dettagliati (si pensi ai dati relativi ai clickstream
o ai dati dei contatori). Ciò significa che non sempre è necessario
controllare la validità di ogni singolo valor e. Nel contesto dei Big
Data, non è richiesta la convalida individuale di ogni elemento, per-
ché i dati vengono considerati come un insieme e non come una
raccolta di record separati. La gestione della qualità dei dati a livello
di record non sarebbe possibile in considerazione del volume delle
informazioni. Occorrono nuovi approcci alla qualità dei dati che
vanno scelti in funzione del caso d’uso.
I dati non sono di pr oprietà dell’azienda. Ad esem-
pio, non lo sono i dati pr ovenienti dai social media
che vengono utilizzati per l’analisi delle opinioni, e
può rivelarsi estremamente difficile
definire regole di convalida
appropriate considerando la
mancanza di contr ollo su
dove, quando e da chi siano
prodotte le informazioni. I dati
dei siti di social networking ven-
gono raccolti senza tener conto
del caso d’uso e senza particolari
controlli. Questo rende ancora più dif ficile definire la validità, la
deperibilità e la fedeltà delle informazioni.
Poiché i dati sono di natura molto eterogenea, i criteri di qualità
tradizionali devono essere rivisitati tenendo conto delle peculia-
rità dei Big Data. Ciò significa che le dimensioni di completezza,
freschezza, accuratezza e coerenza dovranno essere adattate al
contesto Big Data. Alcune ricerche empiriche condotte presso i
clienti hanno portato Gartner a formular e le seguenti strategie
per la gestione della qualità dei dati nel nuovo contesto caratte-
rizzato dall’esplosione delle informazioni.
La qualità sia “sufficientemente buona”
Le aziende devono adattare la qualità dei dati al loro utilizzo spe-
cifico, considerando i dati nel loro insieme e non a livello di sin-
goli record. I criteri di completezza, accuratezza, coer enza e
freschezza devono essere considerati per l’intero set di dati e in
funzione del caso d’uso. Ad esempio, nell’analisi del clickstream,
l’obiettivo è quello di ottimizzare la fidelizzazione e capire in quale
punto gli utenti abbandonino la navigazione. È molto meno im-
portante verificare accuratamente la qualità dei dati degli utenti.
Tuttavia, può essere ugualmente necessario eliminare una parte
dei disturbi – che in questo caso possono essere rappresentati
dalle interazioni tra i crawler (o spider) o altri pr ogrammi auto-
matizzati e il sito – per mantener e solo le interazioni autentiche
degli utenti (vedi nota 1). I crawler hanno modelli di utilizzo molto
diversi da quelli degli utenti reali, perciò i dati con la loro “firma”
possono essere individuati e rimossi con relativa semplicità.
All’estremità opposta dello spettr o, la rilevazione delle fr odi ri-
chiede un’analisi più sottile della qualità dei dati. In questo caso
non è sufficiente dividere gli utenti in due categorie, vale a dir e
quella degli utenti reali e quella dei crawler o di altre applicazioni
che accedono automaticamente ai siti web. L ’analisi deve per-
mettere di identificare gli utenti che condividano lo stesso ac-
count, gli spider che cerchino di violare gli account degli utenti o
maggio-giugno 2012
29