Troppi Roosevelt per il giornalismo italiano

No, non ho ancora capito cosa voglia fare Meta con le biografie femminili. Prima o poi dovrò partire dalla fonte e cercare altre informazioni. Stamattina ho solo trovato roba in italiano più o meno scopiazzata e tradotta. La migliore però è sicuramente quella su ItalianTech, quindi gruppo GEDI, da cui ho tratto l’estratto in figura, che riporto qui sotto:

Secondo quanto raccontato, per Fan si trattava anche di un problema personale: in terza elementare le fu chiesto di scrivere un saggio su una figura storica cui fosse dedicato un libro presente nella biblioteca della scuola. Avrebbe voluto farlo su Eleanor Roosevelt, ma non essendoci libri su di lei, fu in qualche modo costretta a parlare del marito Theodore, 26esimo presidente degli Stati Uniti. Se accadesse oggi, gli studenti consulterebbero Wikipedia. E probabilmente si troverebbero di fronte allo stesso problema.

Ora, non mi è stato necessario aprire Wikipedia per sapere che Eleanore Roosevelt era la moglie di Franklin Delano Roosevelt, il trentaduesimo presidente USA, e non di Theodore Roosevelt. Che ha fatto Emanuele Capone? Così ad occhio ha preso l’articolo di Meta, dove Fan scrive

When I was in third grade, I was assigned to write an essay about a historical figure, and the only requirement was that the library had to have a book about the person. I wanted to write about Eleanor Roosevelt but had to settle for Teddy Roosevelt.

La prima frase è la traduzione letterale del testo di Fan. L’ultima è dettata da quelle che mi paiono essere le linee guida ufficiose attuali della stampa mainstream: fare come al solito Wikipedia bashing, ma in modo più sottile di qualche anno fa. (A onore di Capone, alla fine dell’articolo c’è il link alla voce di Wikipedia su Eleanor Roosevelt :-) ) Per la frase di mezzo, posso immaginare che Capone abbia fatto una ricerca su “Teddy Roosevelt” (non avrà mai visto Una notte al museo…), che almeno a me dà il risultato qui sotto. Il fatto che gli americani abbiano avuto due presidenti Roosevelt, parenti alla lontana, non ha aiutato certo…

Termino con un coming out. Come ho scritto, sapevo che Eleanor Roosevelt era la moglie di Franklin Delano; quello che non sapevo – e che ho appunto letto da Wikipedia… – è che Theodore era suo zio. Insomma, Roosevelt era anche il suo cognome prima di sposarsi. Troppi Roosevelt in questa storia!

10 comments

  1. Ho letto tutto l’articolo su La Stampa. La parte introduttiva è assolutamente corretta: le informazioni presenti in internet (ed in Wikipedia) hanno un bias ben definito, ed inevitabilmente una qualsiasi inferenza basata su di esse saranno altrettanto indebolite dallo stesso tipo di bias. Nulla di male fin qui.

    L’esempio citato certo non è quello corretto nel contesto :-), però il problema esiste e sarebbe ingiusto nasconderlo.

    Peraltro a me sembra che questo articolo sia stato pagato da Meta/OpenAI, non da GEDI…tanto che il riferimento a Wikipedia è solo contenuto nella parte centrale che hai riportato e poi più, mentre il pezzo conclude con una sperticata sul bel lavoro che farà Meta per i trnsgender…no, l’obbiettivo primario non era fare Wikipedia bashing.

    • concordo che l’obiettivo primario non era fare Wikipedia bashing, tanto che se guardi non ho nemmeno categorizzato l’articolo come “Wikipedia” ma solo “Italica stampa”. Ed è anche ovvio che ci sia un bias di partenza sulle fonti che Wikipedia eredita: diciamo che a parità di (scarse) fonti presenti si potrebbe preferire scrivere una biografia di una donna anziché di un uomo, ma non fare di più.

      Il problema che io vedo è un altro. Lasciando perdere le marchette GEDI o Meta, il paper ufficiale afferma

      «Overall, 68% of the information in generated sections is not
      present in the reference text.» […] «However, we found that 17% of the added information can be validated by examining the web evidence, which shows that some information added by the generative model is valid biographical information.». Detto in altro modo, tra il 50 e il 60% delle “biografie”, a seconda di come consideri quel 17%, sono inventate. Se devi scrivere un racconto va benone, per una biografia un po’ meno.

      • “Detto in altro modo, tra il 50 e il 60% delle “biografie”, a seconda di come consideri quel 17%, sono inventate. Se devi scrivere un racconto va benone, per una biografia un po’ meno.”

        Oddio, non sarei così categorico. Un assunto che non mi piace che soggiace è “se non è presente in Internet non esiste”. No, non vuol dire che non esiste (o che è inventata, come preferisci) non puoi dire niente. Può essere qualcosa di vero e presente in qualche libro/rivista/giornale ma non su internet, cone può essere una roba più o meno farlocca, ma bollare tutto come inventato, no, non va bene.

        • stai cercando di dirmi che l’AI è andata a chiedere in giro su fonti non indicizzate in rete?

  2. No, semplicemente che quello che non c’è (in Internet) non lo puoi verificare, ma non è detto che sia falso. Come Meta ha detto ha potuto verificare quello che c’era di verificabile. Ma non puoi assumere che tutto il 68%-17% sia falso/inventato, questa è una grossolana interpretazione (fra l’altro figlia di un altro bias…).

    • Tralasciamo la parte relativa a Wikipedia, che non può certificare la verità ma si limita alla verificabilità (da fonti attendibili, e quindi di quelle voci non se ne farà nulla).

      Posso immaginare che quel 50% di riempitivo sarà fatto da frasi come “ha avuto un’infanzia felice, giocando con i suoi numerosi fratelli e sorelle”. Magari sono cose vere, anche se non verificabili. Non ho nemmeno dubbi che altre biografie pubblicate ufficialmente siano state abbellite in questo modo. Ma resta il punto di partenza: per definizione sono cose inventate.

      • “Ma resta il punto di partenza: per definizione sono cose inventate.

        Assumo quindi che la definizione di Wikipedia sia “se non c’è in internet non è verificabile ed è inventato”. Sul non verificabile tutto ok, ma inventato, come ho detto prima, è un bias, ed è una posizione puramente arbitraria. Da un punto di vista logico non si può dire nulla.

        • Non capisco come tu arrivi a fare questa assunzione.

          Ci sono migliaia di voci di Wikipedia che hanno come fonti testi cartacei che non stanno su Internet. Non c’è nessun problema, fintantoché la fonte è recuperabile in un qualche modo.

          Se una intormazione non esiste da nessuna parte (in rete, in cartaceo, nella memoria orale…) può ovviamente essere vera o falsa ma non possiamo sapere se lo sia, e allora semplicemente non può stare su Wikipedia. Ma visto che Wikipedia non solo non afferma di non avere voci false ma non afferma nemmeno di avere voci vere, ma solo che cerca (anche se non lo fa sempre) di avere voci verificabili.

          La mia defizione di “inventato” è per l’appunto “non verificabile in alcun modo”. Preferisci dire “creato”? Va benissimo. Ma quello che sta facendo quell’AI è allora una “biografia romanzata”, che andava tanto di moda 100 o 200 anni fa ma adesso è un’altra cosa.

  3. @ .mau.
    Devo confessare una cosa, un’opinione strettamente personale che spero non ti risulti offensiva, che riguarda soprattutto questo post ma anche alcune delle tue “produzioni” degli ultimi tempi.

    Non si capisce un piffero.

    Per meglio dire: il succo del discorso è che ci hai rivelato che i due Roosevelt erano parenti. E va beh, ho imparato una cosa. Ma è tutto quanto tremendamente decontestualizzato. La mia ignoranza mi impedisce di capire che c’entra Meta, chi è Fan, chi è Capone (Al Capone? :-) ).
    Boh, lo so che scrivi gratis e che – diciamola tutta – non è che rileggi volentieri (per esempio Eleaonor Roosevelt) però vabbé… continuerò lo stesso a leggerti tutti i giorni.

    • Sì, è ormai notorio che io non rileggo perché sono troppo pigro per farlo. Su questo non ci sono dubbi. Per il resto:

      – Il mio punto a dire il vero era che il giornalista che ha scritto l’articolo si è trovato davanti Eleaonor e Teddy Roosevelt, aveva una qualche reminescenza del fatto che Eleanor fosse la moglie del presidente, e l’ha assegnata ex officio a Teddy. Che Eleanor fosse nipote di Teddy è giusto una curiosità che ho scoperto mentre scrivevo il post. La cosa più tristemente divertente è che Eleanor Roosevelt è una persona famosa per conto suo, non perché “è stata la moglie del presidente”; anche se la scuola elementare di Angela Fan vent’anni fa non avesse un libro su di lei è una macchia sulla scuola, ma di opere ce n’erano già di sicuro venticinque anni fa.

      – Io sul blog non faccio articoli riepilogativi ma commenti, lasciando tutte le fonti a disposizione. Capone è il giornalista che ha scritto l’articolo su ItalianTech, Meta è Facebook rinominata che ha sponsorizzato la ricerca, Fan è la ricercatrice che ha addestrato l’AI. Tutto questo era a distanza di un clic. Avrei potuto scrivere queste cose direttamente nel mio post? Di per sé sì. Ma avrei allungato il brodo (nel caso di Meta) oppure avrei scritto cose che tanto non sarebbero servite a chi non era interessato all’argomento del post. Se troverò tempo o voglia di parlare dell’algoritmo, allora spiegherò cosa è Meta e chi è Fan.