Il mondo dei social media costituisce una ricchissima banca dati di informazioni generate dagli utenti e di dati molto utili anche per i giornalisti. Gli Ugc costituiscono infatti una grande risorsa per il giornalismo e per il marketing, visto che sono più creativi, ispirati e credibili dei contenuti sponsorizzati o della pubblicità e proprio perché sono spontanemanente generati dai lettori.
Qui su Ejo abbiamo già visto di recente come Instagram possa essere usato per fare giornalismo e già presentato due startup che permettono di cercare nelle enormi banche dati di immagini postate sui network sociali. Applicazioni per smartphone come Banjo, Geofeedia, Highlight o Vyclone possono essere utilizzate dai reporter per ricercare foto, video e aggiornamenti Ugc a partire dal luogo da dove vengono creati. Anche altre piattaforme più diffuse tra il grande pubblico, come Instagram, Vine, Snapchat o Flickr possono essere usate come poderose banche dati per risalire a specifici eventi e stabilirne l’origine e l’evoluzione, oppure per identificare certi stream di discussione.
Tuttavia, navigare nel “mare magnum” degli Ugc e ricavare potenziali notizie è un compito assai arduo. Da un lato perché la mole dei dati da analizzare è spesso enorme e in continua espansione, dall’altro perché i dati in sé si presentano in forma destrutturata, senza filtri, devono essere verificati e si trovano sparsi su un ampio spettro di piattaforme.
Per ovviare a questi problemi e garantire una ricostruzione più precisa degli eventi, Bahareh Rahmanzadeh Heravi Heravi e il suo team hanno recentemente proposto un modello teorico (framework), basato sulla localizzazione spazio-temporale degli eventi e sui principi del web semantico. Lo scopo del modello è aiutare i giornalisti a valutare la veridicità degli eventi riportati sui social media e a risalire ai resoconti in prima persona offerti dagli utenti. Questa proposta nasce con l’idea di migliorare l’accesso alle informazioni sugli eventi basati sulla location in tempo reale, in modo da ridurre il tempo che intercorre tra accadimento e redazione della notizia.
Nello specifico, gli autori spiegano come si possano definire gli eventi e identificare le fonti utilizzando un elaborato sistema modulare d identificazione di un evento, il raggruppamento dei dati (per esempio con i tweet generati dagli utenti) e la verifica semi-automatica dei risultati. Tale sistema combina coordinate Gps ricavate dal dispositivo o dal contesto (da Facebook o Twitter), punti di interesse citati ed entità semantiche, usando una procedura basata sull’elaborazione del linguaggio naturale.
Il framework permette così di ricostruire gli eventi sulla base di due possibilità: nel primo, il giornalista può definire a priori il filtro per trovare l’informazione su una specifica location (per es. “Sochi”, per le Olimpiadi). Il sistema permetterebbe in questo caso di risalire a tutti i tweet ricavati dagli stream degli utenti che twittano da quell’area. Nel secondo scenario, invece, il sistema identifica gli eventi e li classifica in base alla loro tipologia (per es. “notizie dell’ultim’ora”) e al luogo dell’evento. Il giornalista può quindi scegliere su quale argomento concentrarsi. A differenza dei modelli esistenti, il sistema proposto da Heravi e colleghi permette di raccogliere dati più dettagliati sulla location attraverso le banche dati Linked Geo Data e OpenGeoSpatial, che permettono di avere informazioni più precise sulla posizione di un accadimento.
Una volta identificata la posizione dell’evento, il sistema può scavare a fondo nei dati e identificare delle burst keywords (parole chiave usate nei tweet con un’alta frequenza, che superano un certo limite definito dal sistema, nda). I tweet vengono poi raggruppati in base alla loro similarità semantica, determinando un evento. I tweet generati successivamente dagli stream degli utenti vengono sottoposti allo stesso processo, inclusi o esclusi a seconda dei parametri definiti dal sistema e raggruppati negli stessi gruppi di tweet. Dopo averli raggruppati e classificati, il sistema permette di valutare il contesto dei tweet e l’occorrenza dei fenomeni interrogando archivi di dati come Linked Open Data, fornendo informazioni ancora più dettagliate sul significato e sul valore dell’evento stesso.
Per verificare la credibilità e l’autenticità dell’informazione, gli autori suggeriscono di suddividere i gruppi di tweet generati da diversi utenti in gruppi via via più piccoli, in modo tale da poterli analizzare attraverso tecniche di social network analysis o attraverso un classificatore che utilizza un dizionario definito (per esempio con il software Liwc). Il dizionario contiene un insieme di parole, espressione di diverse dimensioni linguistiche, affettive e cognitive, che ipoteticamente possano identificare un utente come “testimone oculare”. Il sistema può filtrare i tweet in base al numero di follower, tweet e attività degli utenti stessi (intesi come indici di credibilità della fonte) e dare un “peso” diverso agli utenti che twittano da una località precisa.
L’efficacia, l’efficienza, la validità e l’accuratezza di questo sistema devono essere valutate attraverso esperimenti con dati e situazioni reali di ciascun modulo (identificazione dell’evento, estrazione della location, selezione dei tweet e verifica dell’autenticità), come suggerito dagli autori stessi. Una delle maggiori sfide per questo genere di analisi sarà, tuttavia, quella di riuscire a filtrare la mole di “rumore di fondo” che giunge con le informazioni generati dagli utenti.
Photo credits: Mark Smiciklas / Flickr CC