Nella sua newsletter Ivo Silvestro ha segnalato questo articolo di Facta, che cita alcuni studi secondo cui gli LLM possono tranquillamente dare risposte basate su articoli pubblicati su riviste scientifiche ma poi ritirati perché qualcuno si è accorto che i risultati non erano replicabili (nella migliore delle ipotesi) oppure scientemente falsificati. Il mio commento? “Film at 11”. Per chi non avesse mai sentito l’espressione da boomer, “Film at 11” veniva detto dall’annunciatore se c’era una notizia importante che veniva trasmessa dal vivo e quindi spostava l’ora di programmazione del film in prime time: o almeno Wikipedia in inglese dice così. Ma in realtà già alla fine degli anni ’80 su Usenet la frase veniva usata in modo ironico: si cominciò col dire “Si prevede la morte di Usenet. Film at 11.” qualunque cosa succedesse, e poi si lasciò perdere la prima parte, e “Film at 11” era l’equivalente di “sai che novità…”. Ma torniamo a bomba.
Che un articolo scientifico sia stato o no ritirato non fa nessuna differenza dal punto di vista del materiale di addestramento di un LLM. Anche se la rivista in questione ha tolto l’articolo dal suo sito, o l’ha modificato aggiungendo “retracted” in cima al testo, esso rimarrà comunque presente in mille altri posti della rete, e quindi farà parte del corpus. Già con la “intelligenza naturale” continuiamo dopo decenni a trovare citazioni dell’articolo di Wakefield sulla correlazione tra vaccini e autismo, articolo che è stato dimostrato essere un voluto falso: che pretendete da una IA? Nell’articolo si parla di Retraction Watch, una base dati di articoli ritirati che viene usata da qualche LLM specializzato per fare un controllo ex post su quanto scritto: ma è piuttosto noto che gli LLM hanno problemi con le frasi in negativo, e ad ogni modo un approccio del genere non può essere applicato dai grandi sistemi.
In realtà il problema, come accennavo implicitamente sopra. Quand’è che un LLM tirerà fuori una frase corrispondente al testo di un articolo ritirato? Non possiamo saperlo esattamente, ma stocasticamente possiamo prevedere che sarà tanto più probabile quante più occorrenze di un testo simile a quello fanno parte del corpus di addestramento e meno occorrenze esistano di un testo che parte in modo simile ma giunge a conclusioni opposte. Certo, se le risposte date dai chatbot avessero meno sicumera forse qualcuno non ci crederebbe acriticamente, anche se ho dei dubbi al riguardo. Ma resta sempre il fatto che moneta cattiva scaccia moneta buona, e che è molto più facile che se si pesca a strascico sulla rete per avere più materiale possibile – e con la fame di dati dei modelli questa opzione è molto probabile, anche perché la generazione automatica di contenuto è una soluzione ben peggiore – si troveranno notizie false che vengono propagate molto più che quelle vere: di nuovo, lo sapevamo già da prima del boom dell’IA. In definitiva rimane sempre valida la solita massima: usate pure l’IA generativa, ma non fidatevi ciecamente di quello che dice.