BIG DATA PROFILING: METODI E STRUMENTI PER VALUTARE DATASET

di Daniele Foroni e Matteo Lissandrini

Studenti di dottorato in Informatica e Telecomunicazioni dell’Ateneo, sono membri del gruppo di ricerca dbTrento.

Al giorno d’oggi tutti sembrano parlare dei grandi dati, i big data, una miniera d’oro per le aziende del terzo millennio: basti guardare a colossi come Google, Facebook e Twitter, che generano introiti da capogiro offrendo servizi gratuiti. Tuttavia, il valore dei dati non è legato solo alla loro dimensione, ma - intuitivamente - anche alla loro qualità.
È comune, per un analista, doversi confrontare con una nuova raccolta di informazioni - un dataset - per trovare risposta a qualche importante quesito. Il primo passo consiste sempre nel capire la natura dei dati che si hanno a disposizione, e quindi la loro utilità. A questo punto si sarà in grado di scegliere gli strumenti di analisi appropriati e di valutare infine l’affidabilità delle conclusioni raggiunte. Quest’ultima fase è fondamentale per decidere quali azioni intraprendere e come guidare lo sviluppo e la crescita di un’impresa. È proprio sullo studio della qualità dei dati che si basa la branca dell’analisi dei dati chiamata data profiling. Tale denominazione allude appunto alla profilazione, ovvero allo studio delle caratteristiche distintive di un dataset.

Il Big Data Profiling è attualmente uno degli ambiti di investigazione di dbTrento, il gruppo di ricerca sul Data Management dell’Università di Trento, guidato dal professor Yannis Velegrakis. In collaborazione con Telecom Italia, il gruppo sta investigando nuovi metodi e strumenti per rispondere a domande essenziali relative alla valutazione di un dataset e alla sua idoneità a fornire risposte adeguate ai quesiti degli analisti.
È in questo contesto che, lo scorso 29 luglio, dbTrento ha invitato Felix Naumann, professore di Sistemi Informativi presso l’Hasso Plattner Institute dell’Università di Potsdam per tenere un seminario su questi temi. Il seminario, ospitato dal Polo scientifico e tecnologico “Fabio Ferrari”, si è svolto a conclusione del relativo corso di Profilazione dei Grandi Dati (Big Data Profiling) tenuto dallo stesso professor Naumann presso la scuola di dottorato.
Nell'incontro con Naumann sono state analizzate le nuove sfide che la ricerca sta affrontando in questo ambito: tra queste, l’applicazione di tecniche avanzate per nuove e più complesse forme di dati, ad esempio quelli ottenuti dai social networks o dai cosiddetti open data delle pubbliche amministrazioni.
Il data profiling comprende infatti una vasta area di metodi completamente automatici, ovvero che non richiedono l’intervento umano, per permettere a un computer di capire le caratteristiche intrinseche di un dataset (i cosiddetti meta-dati). Esempi comuni consistono nell’individuazione del tipo di valori analizzati e anche di possibili schemi ricorrenti in essi (ad esempio numeri di telefono, nomi e cognomi, codici seriali). Altre analisi si concentrano sulla completezza e l'unicità dei valori, mentre misurazioni più avanzate possono rilevare le cosiddette dipendenze funzionali, come la relazione che lega il CAP di una città e il nome della città stessa. Per grandi porzioni di dati non è pensabile ottenere queste informazioni manualmente, e lo studio di metodi automatici si rivela quindi un approccio vincente.

Pur essendo oggetto di ricerca da anni, il data profiling si configura ancora come un ambito di ricerca giovane. Diversi e nuovi metodi di profilazione dei dati sono a tutt’oggi argomento di studio del professor Naumann e del suo gruppo di ricerca, che ha realizzato, tra le altre cose, “Metanome”, uno strumento di analisi che raccoglie alcuni dei metodi più efficienti per fare profilazione di dati. Questo seminario ha quindi arricchito anche dbTrento, apportando nuove importanti competenze che si riveleranno indispensabili ai fini del lavoro di ricerca dei nostri dottorandi e ricercatori.

BIG DATA PROFILING: METODI E STRUMENTI PER VALUTARE DATASET

Il punto sulle ricerche in corso insieme a Felix Naumann, ospite del Dipartimento di Ingegneria e Scienza dell’Informazione dell’Ateneo