Voices FromThe Blogs: come pensa la Rete?

23 Febbraio 2012 • Digitale • by

Prendete un matematico, un politologo e un economista del lavoro tutti appassionati di informazione e Rete e fategli venire il pallino dei big data e delle analisi statistiche. Avrete Voices From The Blogs, una nuova piattaforma di ricerca nata in seno all’Università degli Studi di Milano. Il suo campo d’azione è tutto nel nome: analizzare e in buona parte interpretare il rumore generato dalle opinioni espresse online tramite blog e Twitter. Il pool di ricerca, formato da Stefano Iacus (il matematico), Luigi Curini (il politologo) e Giuseppe Porro (l’economista) insieme a un gruppo di altri ricercatori utilizza la Blog Sentiment Analysis (BSA), un metodo sviluppato da Gary King di Harvard che consente di svolgere analisi in profondità sulle opinioni espresse in Internet. Voices From The Blogs sfrutta un piccolo campione di blog o tweet, non necessariamente rappresentativo della popolazione complessiva, da mettere sotto la lente di un software che, in automatico e grazie all’intervento di un algoritmo, è in grado di riassumere la distribuzione delle opinioni tra tutti i blog della blogosfera italiana e non di un suo piccolo sotto-insieme come invece accade con i sondaggi tradizionali.

A monte di tutto, però, ci sono cervelli umani, quelli dei responsabili del progetto, che, manualmente, classificano gli orientamenti del primo piccolo campione, preparando la strada alla macchina che metterà sotto analisi tutta la blogosfera. Al consono ricorso a parole chiave o metodi automatici come punto di partenza, viene a sostituirsi la lettura in profondità e semantica dei contenuti con più sfumature di interpretazione e una più precisa comprensione del sentiment espresso: la strategia utilizzata da Voices From The Blogs, infatti, consente di decomporre tutto lo spettro delle parole utilizzate nella complessità dei post e costruisce da sé la distribuzione aggregata dei risultati ottenuti grazie all’utilizzo di termini di uso comune del linguaggio naturale, precedentemente classificati dall’interpretazione dei ricercatori. In questo modo la percentuale di errore, garantiscono i responsabili del progetto, si aggira attorno ai 2 / 3% al massimo.

Grazie a questo procedimento, e in maniera opposta ai normali sondaggi che o partono da basi predefinite (questionari o categorie preimpostate) o hanno come base un numero di dati eccessivamente esteso e generico, Voices From The Blogs riesce a dare senso alle parole utilizzate senza limitarsi a categorizzarle. Gli ambiti di intervento riguardano qualsiasi notizia o argomento venga discusso via Internet e hanno molte applicazioni per il giornalismo. Il sito del progetto raccoglie già alcune ricerche svolte dal team. L’ultima, in ordine di tempo, riguarda la reazione del Web all’annuncio dell’imminente approdo sul mercato del nuovo modello Blackberry, rispetto alla quale vengono evidenziate le motivazioni degli internauti nel salutare con favore il lancio del nuovo smartphone: un buon numero (il 9%) vedrebbe con favore l’abbandono della tastiera fisica previsto nel nuovo telefono; una fetta (circa il 3%) di utenti storici sarebbe felice a priori mentre la stragrande maggioranza (87%) dei commentatori in Rete giudicherebbe positivamente la nuova strategia dell’azienda produttrice. Voices From The Blogs ha anche preso in esame i tweet inviati durante Sanremo contenenti pronostici su quale sarebbe stata la canzone vincitrice, sottolineando anche l’evoluzione delle preferenze degli utenti del social network di Jack Dorsey. Il campo di implementazione di questo progetto è  infatti vasto e può abbracciare pressoché qualsiasi argomento su cui vi sia conversazione. Il sito è già diventato fonte per diversi organi di stampa alla ricerca di dati interpretati per fini argomentativi o statistici: il magazine Donna Moderna, ad esempio, ha utilizzato l’analisi sull’apprezzamento dell’ultimo romanzo dello scrittore giapponese Murakami mentre Repubblica Milano ha citato la survey sul maltempo in un articolo sulla reazione dei milanesi alle recenti abbondanti nevicate.

Come messo in evidenza da Luca Tremolada su Nova, il limite di Voices From The Blogs è la non possibilità di un’analisi approfondita sulla veridicità di quanto leggiamo in Rete. Il portale può arrivare a mettere in luce l’opinione espressa in migliaia di post o commenti, ma non può in alcun modo fare fact-checking su quanto viene detto. Si tratterebbe di un procedimento ulteriore e più complesso che un algoritmo non è in grado di svolgere. Inoltre potrebbe essere interessante avere qualche informazione aggiuntiva sui dati utilizzati, il numero complessivo dei post scandagliati o la loro provenienza. Affiancata al già efficace lavoro di visualizzazione grafica dei risultati, l’effetto complessivo delle ricerche sarebbe ancora più trasparente e immediato. 

I dati sono diventati infatti una delle materie più preziose sulla piazza. Basti pensare agli open-data e a tutte le opportunità che essi offrono a vari ambiti, compresi il giornalismo, il marketing e l’amministrazione. Sviluppare modelli e metodi in grado di analizzare e rendere significative grandi quantità di dati sarà certamente una delle sfide che saranno – o già sono state – lanciate all’informazione. E le opinioni online sono dati e come tali, contano. Meglio poterli vedere in un film in streaming che in un’istantanea statica, chiosano gli autori di Voices From The Blogs.

Tags:, , ,