Immagine tratta dalla copertina del libro

In libreria

I DATI UMANI

di Fabio Celli

31 agosto 2016
Versione stampabile

L'apprendimento automatico è una delle più importanti aree dell'intelligenza artificiale. Nella nostra epoca esso gioca un ruolo fondamentale nell’estrazione automatica di informazioni dai big data e permette di sviluppare applicazioni per gestirli. Una larga parte dei big data è costituita da dati riguardanti persone, come i messaggi pubblici sui social e gli acquisti online. Saper gestire questi dati significa da un lato poter studiare con mezzi nuovi e sperimentali scienze come sociologia, storia e letteratura; dall'altro lato significa poter rispondere a una domanda crescente di data analysts in un mondo del lavoro accelerato a fatica verso l’innovazione. Il libro si rivolge a studenti universitari in discipline umanistiche, a chi lavora con i dati nel mondo delle startup, o anche a chi, semplicemente, vorrebbe capire meglio come sta cambiando il mondo che ci circonda.

Fabio Celli è assegnista di ricerca presso il Dipartimento di Ingegneria e Scienza dell'Informazione dell'Università di Trento.

INTRODUZIONE

Mi sono permesso di scrivere questo libro essenzialmente per due motivi: fornire agli umanisti - ma non solo - uno strumento per comprendere e utilizzare tecniche avanzate di apprendimento automatico, e incentivare il dialogo tra “le due culture” [Snow and Lanni, 2005], quella umanistica e quella scientifica, che troppo spesso non riescono a comprendersi vicendevolmente.Ci sono diversi libri di informatica umanistica in lingua italiana che hanno coperto svariati argomenti, come l’introduzione ai linguaggi di programmazione web [Brivio, 2010], il trattamento automatico del testo [Tomasi, 2009], [Numerico et al., 2010], [Fusi, 2011] e anche l’intelligenza artificiale con un taglio filosofico [Carli, 2003] [Burattini and Cordeschi, 2001] [Giolito, 2007], ma non l’apprendimento automatico (machine learning). 
L’apprendimento automatico è una delle aree più importanti in intelligenza artificiale. La sua importanza nella nostra epoca è fortemente legata alla disponibilità di grandi quantità di “Dati umani”, ovvero quella parte dei big data derivati da azioni compiute da persone, e non solo sul web. Questi dati sono una risorsa strategica per l’economia e presentano molti aspetti che toccano temi politici, come la tutela della privacy, e epistemologici, legati all’interpretazione dei dati. In generale, non si può cercare di interpretare il presente prescindendo da questi dati e da una conoscenza tecnica di come vengono trattati. L’apprendimento automatico è, in questo scenario, lo strumento principale con il quale i dati vengono non solo analizzati, ma anche classificati automaticamente. Questo consente a sistemi informatici di gestire enormi quantità di informazioni su di noi e di predire statisticamente (spesso correttamente) una miriade di cose: dalle pubblicità più adatte a noi fino agli eventi che ci potrebbero piacere. Saper usare le tecniche di apprendimento automatico rende in grado di creare applicazioni molto potenti che hanno ricadute pratiche nella vita di tutti i giorni, come ad esempio programmi che ci suggeriscono di ascoltare nuova musica che probabilmente ci piacerà, o quali sono le strade meno trafficate nell’ora di punta.
Ma di ogni strumento offerto dalla tecnologia se ne può fare un utilizzo buono o cattivo. L’apprendimento automatico viene per esempio abbondantemente utilizzato per predire cosa compreremo a partire da ciò che abbiamo comprato, e questo contribuisce a creare un’immagine negativa dell’intelligenza artificiale nell’opinione pubblica. Le sfide del presente e del futuro si giocano dunque da un lato sulla manipolazione dei Dati e dall’altra sui problemi etici e sociali che ne derivano, come le già citate questioni legate alla privacy o la possibilità di prendere decisioni mediche e politiche in maniera automatica a partire da dati fisiologici, demografici o macroeconomici.
Poi ci sono problemi di natura più contingente: attualmente, la manipolazione dei dati è per la maggior parte lasciata a fisici e informatici, mentre gli umanisti tendono ad assumere posizioni di critica. Il risultato è che le innovazioni arrivano dal campo informatico e lì si applicano, creando opportunità di lavoro per chi ha studiato le materie “tecniche”. Chi invece arriva in particolare da studi umanistici rischia di trovarsi senza opportunità di applicare ciò che ha studiato in un lavoro. Eppure le competenze di un umanista potrebbero essere fondamentali per l’interpretazione dei dati umani: sia da un punto di vista di ricerca, come ad esempio predire la posizione di siti archeologici nuovi a partire dalla posizione di quelli che già si conoscono, sia per progettare nuove applicazioni potenzialmente vendibili basate su dati di tipo umanistico, ad esempio per il mercato dell’arte o per l’editoria. L’ostacolo maggiore è forse attualmente rappresentato dalla difficoltà delle materie scientifiche per un umanista, in particolare di quelle informatiche. Una delle cose che mancano per un avvicinamento tra queste discipline è la mancanza di testi che esprimano la materia informatica in maniera discorsiva, non solo per mezzo di formule. Lo dico da umanista che è passato alle scienze informatiche.
Quando ho pensato a questo libro mi sono figurato qualcosa a metà tra un saggio teorico e un manuale didattico in stile tutorial sull’uso di applicazioni di apprendimento automatico come risorsa per la ricerca e lo sviluppo. Il libro è perciò diviso in due parti, la prima si rivolge a studenti universitari in discipline umanistiche e la seconda a professionisti che lavorano con i dati o nel mondo delle startup. Nella prima parte vengono presentati una serie di
esperimenti in ambito umanistico e di marketing portati a termine per mezzo di apprendimento automatico, al fine di inquadrare aspetti metodologici, potenzialità, limiti e problemi. Nella seconda parte si inizieranno ad usare strumenti informatici, in particolare Weka, l’applicazione più semplice e completa per l’apprendimento automatico, e Perl, potente linguaggio di programmazione specifico per la manipolazione di dati testuali. Nella conclusione cercherò di tirare le somme e delineare possibili percorsi di cambiamento. In particolare, in un mondo dove i dati umani vengono macinati in grande quantità con scarsa propensione all’interpretazione, gli umanisti dovrebbero imparare ad analizzare dati per fornire chiavi di lettura dei comportamenti che emergono dai dati. Sono conscio del fatto che questo cambiamento non può avvenire in seno all’università italiana, almeno non in tempi brevi; vedo tuttavia nelle startup - che raccolgono dati sulle persone a cui offrono servizi - un’opportunità molto dinamica per chi sa fare data analysis e al contempo possiede un bagaglio di conoscenze umanistiche con cui dare un senso a ciò che emerge dai numeri che riguardano le persone. Per questo motivo ho immaginato come potenziali lettori sia studenti universitari e di dottorato in discipline umanistiche, sia chi lavora con i dati nel mondo delle startup, o chi semplicemente vorrebbe capire meglio il mondo che lo circonda.
Nello scrivere questo libro mi sono prefissato come obiettivo di riuscire a sintetizzare il più possibile le nozioni di base della parte informatica esprimendole a parole, senza mai usare formule. Ho cercato di includere tutto il necessario per fare in modo che non servano prerequisiti per capire il contenuto di questo libro, se non quello di avere un computer e una connessione ad internet per mettere in pratica il contenuto della seconda parte.

Per gentile concessione di Aracne editrice.