Perché un’IA dovrebbe sapere che un articolo è stato ritirato?

Nella sua newsletter Ivo Silvestro ha segnalato questo articolo di Facta, che cita alcuni studi secondo cui gli LLM possono tranquillamente dare risposte basate su articoli pubblicati su riviste scientifiche ma poi ritirati perché qualcuno si è accorto che i risultati non erano replicabili (nella migliore delle ipotesi) oppure scientemente falsificati. Il mio commento? “Film at 11”. Per chi non avesse mai sentito l’espressione da boomer, “Film at 11” veniva detto dall’annunciatore se c’era una notizia importante che veniva trasmessa dal vivo e quindi spostava l’ora di programmazione del film in prime time: o almeno Wikipedia in inglese dice così. Ma in realtà già alla fine degli anni ’80 su Usenet la frase veniva usata in modo ironico: si cominciò col dire “Si prevede la morte di Usenet. Film at 11.” qualunque cosa succedesse, e poi si lasciò perdere la prima parte, e “Film at 11” era l’equivalente di “sai che novità…”. Ma torniamo a bomba.

Che un articolo scientifico sia stato o no ritirato non fa nessuna differenza dal punto di vista del materiale di addestramento di un LLM. Anche se la rivista in questione ha tolto l’articolo dal suo sito, o l’ha modificato aggiungendo “retracted” in cima al testo, esso rimarrà comunque presente in mille altri posti della rete, e quindi farà parte del corpus. Già con la “intelligenza naturale” continuiamo dopo decenni a trovare citazioni dell’articolo di Wakefield sulla correlazione tra vaccini e autismo, articolo che è stato dimostrato essere un voluto falso: che pretendete da una IA? Nell’articolo si parla di Retraction Watch, una base dati di articoli ritirati che viene usata da qualche LLM specializzato per fare un controllo ex post su quanto scritto: ma è piuttosto noto che gli LLM hanno problemi con le frasi in negativo, e ad ogni modo un approccio del genere non può essere applicato dai grandi sistemi.

In realtà il problema, come accennavo implicitamente sopra. Quand’è che un LLM tirerà fuori una frase corrispondente al testo di un articolo ritirato? Non possiamo saperlo esattamente, ma stocasticamente possiamo prevedere che sarà tanto più probabile quante più occorrenze di un testo simile a quello fanno parte del corpus di addestramento e meno occorrenze esistano di un testo che parte in modo simile ma giunge a conclusioni opposte. Certo, se le risposte date dai chatbot avessero meno sicumera forse qualcuno non ci crederebbe acriticamente, anche se ho dei dubbi al riguardo. Ma resta sempre il fatto che moneta cattiva scaccia moneta buona, e che è molto più facile che se si pesca a strascico sulla rete per avere più materiale possibile – e con la fame di dati dei modelli questa opzione è molto probabile, anche perché la generazione automatica di contenuto è una soluzione ben peggiore – si troveranno notizie false che vengono propagate molto più che quelle vere: di nuovo, lo sapevamo già da prima del boom dell’IA. In definitiva rimane sempre valida la solita massima: usate pure l’IA generativa, ma non fidatevi ciecamente di quello che dice.

5 pensieri su “Perché un’IA dovrebbe sapere che un articolo è stato ritirato?

  1. Bubbo Bubboni

    “si troveranno notizie false che vengono propagate molto più che quelle vere” umm, non sono convinto che un meccanismo come le LLM porti automaticamente a questo. Mi pare che le notizie “false” abbiano una probabilità maggiore di diffusione (e quindi di presenza/rilevanza nell’addestramento, come giustamente dici) se soddisfano consolidati meccanismi psicologici, pseudoscientifici per “cotti a metà” dalla scuola, esigenze neoliberiste, ecc. ma non direi che gli LLM agiscono su queste forze. E anche i motori di ricerca, semplicemente perché presentano il materiale che trovano, o le bibblioteche, perché aggiornare i libri è complicato, presentano esattamente gli stessi difetti. Es. in positivo: Normattiva. Se non ci fosse, i motori di ricerca o la gazzetta ufficiale su carta non sarebbero un rimedio alla diffusione di “leggi false”.

    Rispondi
    1. .mau. Autore articolo

      il mio punto è un po’ diverso. Secondo me le notizie false sono copiate molto più spesso, e quindi ci sono più esempi recuperabbili dalla rete: e soprattutto sono appunto copincollate, e non credo chenell’addestramento si facciano tante storie per condensare i doppioni. Più facile che aumentino la probabilità di far seguire quel percorso al generatore di parole.

      Rispondi
      1. Bubbo Bubboni

        Ahh, mah. La deduplicazione delle fonti è importante per la qualità del modello e viene fatta credo da tutti. Non saprei se, capito che il contenuto è uguale o quasi, vale la pena di appuntarsi che quel blabla è più rilevante proprio perché è duplicato. Inoltre ci sarebbe anche da capire che effetto ha l’aggiornamento periodico dei modelli, ogni tot mesi. Ho visto delle informazioni nuove venire fuori ma è difficile dire se per via di un parametro di “novità” o di “frequenza” oppure, banalmente, per prompt più astuto o history più avanzata.

        Rispondi
      2. mestessoit

        Se la duplicazione è 1:1, dovrebbe venire eliminata durante l’ingestion.

        Il problema che descrivi invece diventa serio quando duplichi ma non copincolli, o per dirla in termini più tecnici quando cambi il contesto. Nel caso specifico, se ci sono dieci siti presi durante l’ingestion che fanno riferimento al medesimo articolo commentandolo/prendendo degli excerpt, si rafforza la fonte. O per essere ancora più precisi, se la cardinalità dell’insieme delle citazioni con cambiamento di contesto di un articolo retracted diventa confrontabile con la cardinalità dell’insieme delle citazioni di un articolo simile ma non retracted, vince probabilmente il più citato. Diciamo che uno bravo può pilotare la risposta di un LLM se il presupposto di cui sopra è valido.

        Sempre in teoria, dovrebbero selezionare le fonti (almeno per cose più o meno scientifiche come queste).

        Rispondi
        1. Bubbo Bubboni

          Ho visto che la deduplicazione può essere fatta su porzioni di testo scelte come rilevanti, insomma qualche tentativo più accurato c’è.
          Anche il fatto che il più citato possa essere considerato come più rilevante lo capisco, è così anche per gli umani (cfr. la falsa citazione di Goebbels sul ripetere le menzogne). E la quantità di citazioni (per le sole pubblicazioni scientifiche) è lo stesso identico parametro che usa un professionista del settore: è ben accessibile e pronto all’uso.
          La selezione delle fonti direi che è facile e molto conveniente: tutto sommato è più facile trovare una vagonata di ricerche, tesi, brevetti gratis e digitalizzati che biblioteche di terrapiattisti. Resta però da capire se la roba vecchia scritta bene abbia poi più peso nel modello che le chat recenti, visti gli “obblighi” sul linguaggio da usare nelle risposte.

          Però automaticamente non direi che si può andare oltre, esattamente come non ci vanno gli umani. Ad esempio qualche tempo fa sono state invalidate 15 anni di ricerche sul cervello per un baco (nella testa dei ricercatori o nel software della MRI funzionale, ora non ricordo i dettagli). Capire cosa annullare non è banale e richiede(rebbe) davvero qualcuno che ne capisca anche più di chi ha compilato i testi in oggetto! E il tutto moltiplicato per citazioni indirette, plagi e articoli o testi divulgativi che non hanno il bit di “revocato”…

          Quando si tratta di insegnare ai robot il kung-fu o la verniciatura è facile prendere un campione umano e risolvere il problema, ma in tanti settori i testi non sono così ben gestiti da poter essere aggiornati quando necessario e non aggiornati quando hanno un valore storico-culturale che va assolutamente preservato (cfr. le opere dei poveri fratelli Grimm in recenti film wokisti o i libri purificati dalle baggianate scritte dai cisgender razzisti del passato).

          Rispondi

Rispondi

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.