Intelligenza artificiale e giornalismo: alla ricerca del Lettore Modello

Qual è il Lettore Modello in rete? Google! L’unico che legge ogni articolo dall’inizio alla fine, ne valuta stile, coerenza interna, originalità. Tutti scriviamo per lui. Anche i nuovi software di intelligenza artificiale adottati dai giornali. Ecco come – e perché – funzionano

Umberto Eco sosteneva che chiunque si impegni in un gesto di scrittura, dallo scolaro che svolge un tema al grande romanziere, in qualche modo si rivolge sempre a un Lettore Modello. Consapevole o meno del dialogo che sta intrattenendo, l’autore sceglie un interlocutore e declina dizionario, valori e retorica dimostrativa, sulla base della sensibilità della sua controparte immaginaria. 

Quando Nicholas Diakopoulos discute del ruolo che l’Intelligenza Artificiale sta già interpretando nel giornalismo (ma che ancor più giocherà nei prossimi tempi) viene da domandarsi chi possa essere il Lettore Modello cui il software pensa di rivolgersi.

L’interrogativo diventa ancora più urgente quando si parla della «scrittura automatica» degli articoli che, secondo le stime di McKinsey, sarà responsabile di una contrazione del 15% per il lavoro dei reporter e del 9% per quello degli editor.

Heliograf è l’IA del Washington Post, cui la testata affida già da tre anni la redazione di centinaia di contributi ogni anno: oltre 850 solo nel 2017 . Jeremy Gilbert, la descrive come un supporto per i giornalisti in carne e ossa: il suo obiettivo è smaltire i lavori più compilativi in modo da lasciare ai redattori un tempo maggiore per occuparsi dei compiti di qualità più alta, dalle inchieste al giornalismo investigativo.

Heliograf è partito con umiltà, con l’incarico di preparare le cronache degli eventi sportivi: solo per le Olimpiadi di Rio ha stilato 300 report, riferendo risultati e fasi delle gare, con la disciplina di un certosino. L’IA preleva i dati da un archivio e li espone con una struttura narrativa che obbedisce a uno schema, senza mai stancarsi della ripetitività della mansione – anzi, imparando qualcosa a ogni nuovo giro.

Ma Heliograf non è solo al mondo. L’Associated Press ha adottato Wordsmith, specializzata nella lettura di dati finanziari (e più recentemente di risultati elettorali). Quill, attiva nella redazione di Forbes, esegue prestazioni simili nel mondo della finanza.

Dunque Wordsmith e Quill sono addestrati a leggere le tabelle dell’economia, e vanno alla caccia di segnali deboli che un osservatore umano potrebbe non cogliere. L’obiettivo non è solo di raccontare le loro osservazioni, ma anche di illustrarle attraverso grafici e soluzioni di data visualisation. Questi software sono stati progettati per liberare i redattori da mansioni monotone (oltreché, ovviamente, risparmiare sul loro stipendio).

Al contrario Articoolo è stato progettato con una struttura che consente di diversificare i lettori a cui rivolgersi: non più, quindi, i tradizionali lettori di giornali.

D’altra parte la produzione di news non è più solo una pratica svolta all’interno delle redazioni giornalistiche. Ormai ogni corporation, ogni partito e persino ogni candidato politico hanno redazioni assai prolifiche. La fabbrica di troll Internet Research Agency di San Pietroburgo, capace di pubblicare oltre 111 mila tweet in tre giorni per confondere l’opinione pubblica sulle responsabilità di Mosca nell’abbattimento del Boeing 777 nei cieli dell’Ucraina orientale, aveva ritmi di produttività industriali.

A tutti questi nuovi protagonisti del mondo editoriale, Articoloo offre un servizio di grande utilità a prezzi molto modesti. L’utente umano deve indicare alla piattaforma l’argomento su cui è opportuno preparare un nuovo post, elencando un insieme di parole chiave che lo descrivono. Nient’altro.

L’IA comprende l’identità semantica della richiesta, (talvolta si cimenta in una serie disambiguazione lessicale) e poi interroga il motore di Google per censire i contenuti che sono già diffusi in Rete sul tema. Durante la ricognizione, il software cerca di soppesare il valore tattico delle keyword che perimetrano l’argomento scelto, sostituendone di più efficaci a quelle proposte dal collega in carne ed ossa. Poi scrive il nuovo contributo, componendolo con informazioni che rintraccia nel corpus di testi segnalati da Google. 

Questa porzione dell’attività è una variante molto sofisticata dei processi di «spinning» che hanno invaso Internet di contenuti-spazzatura negli ultimi quindici anni: repliche di altri post già pubblicati online, ottenuti tramite mutazioni lessicali introdotte da dizionari di sinonimi, al fine di non limitare l’imitazione a un puro copia&incolla. Per questo lavoro, Articoolo chiede una remunerazione che va da un massimo di 1,9 dollari a pezzo, a un minimo di circa 40 centesimi (se si sottoscrive l’abbonamento di 250 articoli al mese).

James Vincent dice che sedurre l’attenzione di Google, e aggirare i suoi meccanismi di difesa contro lo spam informativo, è il business più redditizio del momento. 

Il bot di Google è il Lettore Modello universale. Al contrario di come si comporta il pubblico reale, il crawler del motore di ricerca compulsa l’articolo dall’inizio alla fine, ne misura la coerenza interna, valuta i metadati e giudica l’originalità del contributo: nessuno riserva tanta dedizione a comprendere quello che un autore ha da dire. 

In fondo, solo Google ci capisce davvero. Da pubblicista, forse sarebbe il partner con cui preferirei uscire a cena; per i software di scrittura automatica, è l’unico interlocutore con cui dialogano davvero. 

Il problema è che questa conversazione è impegnata soprattutto a rincorrere le parole chiave che indicano le curiosità del pubblico (registrate dai trend dei volumi di interrogazioni postate nel motore di ricerca), ma rimane del tutto indifferente alla veridicità di quello che viene affermato. Il progetto This Marketing Blog Does Not Exist, che viene citato da James Vincent, è una collezione di post realizzati da Grover, un’intelligenza artificiale sviluppata dall’Allen Institute for Artificial Intelligence, i cui servizi sono accessibili gratuitamente: la caratteristica di tutti i post del blog è di descrivere dispositivi e personaggi che non esistono. 

Un altro sistema di IA che redige contenuti automatici è GPT-2, realizzato da OpenAI (tra i finanziatori della società figura Elon Musk), una piattaforma di intelligenza artificiale con codice aperto. Nel caso di GPT-2 però si è deciso di non diffondere il codice sorgente e la documentazione del software, a causa dei rischi connessi all’impiego del dispositivo. GPT-2 è capace di mimare persino lo stile individuale delle persone, redigendo un articolo di dodicimila battute sulla base di una traccia iniziale di tre righe di testo. Il sistema procede a inanellare una parola dopo l’altra, sulla base della sequenza più probabile che verrebbe messa in opera dall’autore prescelto. È una delle procedure che incontrano il favore dei meccanismi di lettura e di indicizzazione del bot di Google.

Nell’esempio divulgato sul sito di OpenAI si può leggere l’articolo di divulgazione scientifica che GPT-2 ha confezionato sulla base della seguente traccia: un ricercatore ha scoperto, in una valle remota delle Ande, una tribù di unicorni che parlano correntemente in inglese.

In questa rincorsa di software che parlano con altri software, di intelligenze artificiali che raggirano motori di ricerca, bisogna però capire se da qualche parte continuano a figurare in qualche modo anche i lettori umani. Perché cercare il dialogo con un motore di ricerca è naturalmente molto diverso dal tentare di affabulare un Lettore Modello umano. Purtroppo, tra le poche certezze che sembrano affiorare dalle consultazioni degli strumenti di Analytics dei magazine online, si disegnano due ipotesi. La prima è che gli utenti in carne e ossa dispongano di una capacità di attenzione molto inferiore a quella dei crawler, e di un senso critico anche minore; la seconda è il sospetto che la loro autonomia dalle indicazioni di Google si stia riducendo sempre più. 

Da Googleplex non sono state diramate dichiarazioni ufficiali, ma gli esperti del settore attendono nel breve periodo una reazione alla mole crescente di spam che imbratta la Rete, paragonabile a quella che nel 2011 aveva condotto all’«Aggiornamento Panda». La revisione dell’algoritmo di otto anni fa aveva preso di mira (e condotto per lo più al fallimento nel giro di alcuni mesi) le content factory che inondavano internet di contenuti spazzatura, allora generati a mano da migliaia di redattori freelance, pagati pochi dollari a pezzo, e solo alla condizione di aver completato il post in un lasso di tempo abbastanza breve da rientrare nella lista delle prime dieci o venti consegne.

Rowan Zellers dell’Allen Institute for AI garantisce che oggi esistono processi che permettono a un algoritmo di capire se un testo è stato compilato da un altro software o da un essere umano, e anche di riconoscere l’identità del loro autore: infatti le intelligenze artificiali tendono a ripetere le costruzioni sintattiche e le strategie retoriche che sono state approvate.

Potremmo chiederci cosa abbia fatto nel frattempo la politica per regolamentare l’adozione dell’IA, almeno nell’ambito della propaganda elettorale. La risposta, come sempre, è fulminante: nulla. Il caso è affidato a Google, che oltre a Lettore Modello è anche Direttore Responsabile della Rete e suo Censore Ufficiale. 


Aiutaci a dialogare con tutti