L’intelligenza artificiale è proprio come una scatola nera. I giornalisti scrivono di un fenomeno che è difficilissimo da spiegare persino per chi è esperto in materia e, ad aggravare le cose, la maggior parte delle discussioni più importanti avvengono a porte chiuse. Inoltre, molte delle principali innovazioni nel campo sono coperte da brevetto e il pubblico dipende fin troppo da comunicati stampa aziendali unilaterali che massimizzano i vantaggi per gli azionisti e riducono al minimo i rischi. Al contempo, le informazioni accessibili al pubblico sono spesso di stampo fortemente accademico e richiedono una conoscenza approfondita della materia per riuscire a decifrare qualsiasi cosa vada oltre un semplice riassunto.
Perché è fondamentale che i giornalisti comprendano l’IA?
I giornalisti devono acquisire dimestichezza con l’IA prima che questa sconvolga sia le nostre redazioni che la nostra società. Dobbiamo migliorare nello spiegare questa tecnologia che influenza già adesso ogni aspetto della nostra vita – dal determinare quali film figurano nella nostra lista di Netflix allo stabilire se siamo idonei a ottenere un prestito bancario. Ma, per acquisire questa dimestichezza, bisogna possedere una solida conoscenza dell’infrastruttura che permette all’intelligenza artificiale di funzionare – l’insieme di dati che alimenta il sistema e da dove provengono queste informazioni.
Per dirne una, il modo in cui i dataset vengono raccolti, utilizzati e manipolati può influenzare i risultati di qualsiasi sistema. Potrebbe sembrare una cosa scontata, ma persino una domanda elementare – come “quali informazioni ci sono tra i dati iniziali di questo modello di IA?” – può comportare una risposta complessa. Per esempio, alcuni dei dataset più conosciuti impiegati nella programmazione comprendono milioni di immagini. Solitamente un programmatore è in grado di rispondere della provenienza dei dati o su quale libreria dati sia stata impiegata per generare i risultati. Ma quali sono le informazioni che compongono la libreria? Fino a poco tempo fa era difficile rispondere. I dati d’istruzione necessitano di moltissimi elementi per funzionare, perciò normalmente la maggior parte delle librerie raccolgono ed elaborano informazioni provenienti da pochi, immensi archivi di dati, come Google Immagini o Flickr. Mentre la maggior parte dei siti cerca di garantire che i dati immessi siano appropriatamente categorizzati, possono comunque accadere gravi errori.
Nel 2015 ha avuto ampia eco un errore di Google quando l’ingegnere di software Jacky Alciné si è accorta che gli algoritmi di riconoscimento immagini di Google Photo stavano etichettando le persone di colore come “gorilla”. Si tratta di un’associazione orribile e razzista, ma, tanto per cominciare, perché è stata fatta? La maggior parte degli esperti nel campo dell’IA il perché lo sa molto bene. Dietro le quinte non c’era un qualche ingegnere razzista a creare scompiglio, ma è stato un set di dati istruito con un maggior numero di immagini di gorilla che di Afroamericani a generare questi risultati di ricerca razzisti. Risolvere questo problema è ancor più complicato: questo articolo di follow-up di Wired spiega come Google abbia cercato di risolvere la questione impedendo al sistema di riconoscimento-immagini di identificare i gorilla, ma anche come ancora non abbia risolto la questione principale. Ricordiamoci che Google possiede questo insieme di dati alimentato da utenti che caricano le proprie foto. E questo è solo uno degli episodi scoperti e resi pubblici. Queste problematiche sono più comuni di quanto si pensi, così Google People, insieme al team di Ricerca di IA ha creato uno strumento ad apprendimento automatico per la visualizzazione dei dati chiamato Facets. Ora di pubblico dominio, Facets gioca coi dati e crea una più chiara visualizzazione delle informazioni che gli vengono fornite. I ricercatori Fernanda Viégas e Martin Wattenberg hanno spiegato l’ingegnosità del sistema e ciò che potrebbe svelare al MoMA R&D.
Con Facets gli errori e le distorsioni presenti in un dataset possono essere messi in evidenza. I primi casi di distorsione erano innocui: ad esempio, gli aeroplani sono per la maggior parte di colore azzurro, il che potrebbe confondere un sistema che cerca di classificare oggetti volanti rossi o argentati come mezzi di trasporto dello stesso tipo. Vengono facilmente identificati anche spazi vuoti, errori e punti dove umani e computer non concordano sulla categorizzazione. Ma alcuni errori non sono facili da correggere e possono rivelarsi alquanto dannosi. Allo stesso evento, la nota ricercatrice e accademica Kate Crawford ha collegato le distorsioni implicite nella fotografia e nelle notizie agli errori di categorizzazione nell’IA – ad esempio, citando come un dataset con i volti più etichettati sul Web sia composto al 78% da uomini bianchi.
Non ci sono risposte semplici
Non ci sono risposte semplici quando si tratta di documentare o comprendere l’intelligenza artificiale e questi esempi riescono a mala pena a scalfire la superficie delle principali implicazioni dei sistemi corrotti. Molti giornalisti specializzati in tecnologia e dati hanno puntato sulla comprensione dei principi di programmazione. Ma forse sarebbe meglio che tutti i giornalisti iniziassero a studiare come informatica e programmazione funzionano a livello di base. Non è necessario voler diventare un programmatore o acquisire addirittura una conoscenza di livello professionale di un linguaggio come Python per scrivere di IA. Anche solo osservare come gli sviluppatori affrontano le difficoltà che incontrano nella risoluzione dei problemi potrà essere di grande aiuto per capire come questi sistemi siano costruiti e progettati. Così miglioreranno il nostro modo di inquadrare questi problemi quando li raccontiamo e la nostra comprensione di come questi sistemi avranno un impatto sulla nostra redazione. Siccome noi giornalisti non capiamo i rudimenti di come funziona l’intelligenza artificiale, tendiamo a perdere di vista il quadro più ampio o a sensazionalizzare le nostre storie. Rachel Thomas, cofondatrice di fast.ai ha incaricato la Harvard Business Review del compito e ha condiviso le conclusioni riconducibili a quello che i giornalisti pensano dell’IA.
“Spesso i media interpretano i progressi dell’intelligenza artificiale in una chiave di uomini vs. macchine: chi è il campione nel compito X. Questo quadro è impreciso su come vengono utilizzati la maggior parte degli algoritmi e rappresenta inoltre un modo molto limitato di pensare l’IA. In tutti i casi, gli algoritmi possiedono una componente umana nel senso di chi raccoglie i dati (e quali pregiudizi ha), quali decisioni di progettazione vengono prese, come vengono implementate, come i risultati vengono utilizzati per prendere decisioni, le idee dei vari stakeholder sugli usi corretti e sui limiti dell’algoritmo e così via. “
Così tante cose riguardo la comprensione dell’apprendimento automatico e dell’intelligenza artificiale hanno a che fare con il modo in cui vengono interpretate. Quando si fanno domande migliori e si impostano parametri migliori, si ottiene anche un risultato migliore. I giornalisti sono allenati ad analizzare contesti. Nel nostro lavoro è una cosa naturale. Ma noi giornalisti, per informare veramente il pubblico sul pieno potenziale della rivoluzione dell’IA, dobbiamo lavorare partendo da una più solida base di conoscenze.
Articolo apparso originariamente sul sito della AI Ethics Initiative e ripubblicato qui per gentile concessione. Articolo tradotto dall’originale inglese da Claudia Aletti
Tags:divulgazione, giornalismo scientifico, intelligenza artificiale, machine learning, Tecnologia