Sul gruppo Whatsapp di ex cseltini un amico ha inviato il link a questo lancio di agenzia, dall’inquietante titolo “L’allarme: l’IA sta falsando sondaggi e ricerche online –
L’IA è sempre più capace di simulare il comportamento umano”. Come sempre, il testo italiano non è molto comprensibile: così sono andato a leggere l’articolo originale (è sotto paywall, ma si legge quasi tutto… e ho anche scoperto che con un account ORCID posso arrivare in fondo. Misteri) e ho finalmente capito qualcosa in più.
Il problema di base è ben precedente all’arrivo in massa dell’IA. Come si fa ricerca nelle scienze sociali? Per mezzo di sondaggi. E come si recupera la gente nei sondaggi? Puoi pagare una società specializzata che ti cerca un certo numero di persone in modo per quanto possibile rappresentativo della popolazione – il che non significa scegliere a caso, come si può ingenuamente pensare! Puoi fare come Libero, che chiede ai suoi lettori di rispondere e poi strombazza i risultati come rivelazioni. Puoi chiedere agli amici degli amici se rispondono al tuo Google Form – e otterrai comunque risultati falsati, ma almeno onesti. Oppure, se ti servono risposte articolate puoi acquistare manodopera a basso costo da servizi come Amazon Mechanical Turk, Prolific, Cloud Research’s Prime Panels e Cint’s Lucid, di cui io conoscevo solo il primo. Il guaio è che questi servizi sono pagati ai compilatori a cottimo: più ne completi, più soldi ti danno. In passato i ricercatori avevano il vantaggio di valutare ad occhio la qualità dei testi e buttare via quelli evidentemente creati solo per essere pagati: richiedere un numero minimo di caratteri nella risposta era già un modo per impegnare i compilatori. Nonostante questo, alcuni metastudi dicono che tra il 30% e il 90% delle risposte non sono vere, il che fa pensare che forse anche gli studi stessi non è che siano così solidi; ma ora la gente prende il testo, lo dà in pasto a un chatbot, copincolla la risposta e via, e i problemi sono esacerbati. Se già prima fare sondaggi in questo modo faceva schifo, che cosa è allora peggiorato? Banalmente il fatto che questi studi servono spesso per capire se e come le minoranze si comportano diversamente rispetto a quanto fa la maggioranza. E che succede se uno prende ChatGPT e gli fa tirare fuori la risposta? Che per definizione questa risposta seguirà il pensiero della maggioranza…
La parte che almeno io ho trovato interessante è vedere quali tecniche vengono oggi usate per sgamare le risposte artificiali in questo campo. Se ricordate, qualche settimana fa avevo scritto di come migliorare la prosa di un chatbot, e quindi implicitamente quali sono i segni di un testo generato da un’IA; ma ogni campo ha le sue caratteristiche. I metodi che si usano in questo caso sono vari. Il primo è vedere statisticamente la struttura delle risposte: un umano tende a usare più spesso i voti estremi nella scala, mentre un’IA è meno polarizzata. Questo metodo non è certamente perfetto, ma ha il vantaggio che è improbabilmente che qualcuno si metta a tarare il proprio LLM per modificare questo comportamento, essendo qualcosa di nicchia. Un secondo sistema è quello di usare i paradati, cioè qualcosa che non è un dato, non è un metadato (cioè non dà informazioni sul dato, come i dati EXIF nelle foto dove si trovano modello della fotocamera, otturatore, autore e così via), ma dice cosa si è fatto per inserire il dato. I paradati sono per esempio usati in alcuni CAPTCHA, come quello dove basta cliccare “non sono un robot”. viene registrato il movimento del mouse, che per un umano ha un pattern molto più erratico di quello di un bot. Nel nostro caso si può misurare il modo in cui si scrive: un copincolla aggiunge in un sol colpo una grande quantità di caratteri, mentre per esempio io quando scrivo ho dei burst di velocità seguiti da attimi di pausa mentre penso a cosa aggiungere, oltre a cancellazioni e riscritture sia per refusi mentre digito che per parole che dopo un po’ preferisco sostituire con qualcosa di più specifico. La brutta notizia è che pare che invece in questo campo gli LLM vengono addestrati per simulare meglio gli umani, oltre naturalmente al fatto che magari a noi arriva solo il testo completo del questionario compilato e che potrebbero esserci problemi di privacy a salvare i paradati senza dirlo.
Ci sono tecniche furbette, tipo partire dall’immagine di un’illusione ottica e modificarla in modo che per gli umani l’illusione non ci sia più mentre le IA continuano a “vedere” le somiglianze con gli esempi trovati nel corpus di addestramento. Ma il metodo di gran lunga più divertente, almeno per me, è applicare i problemi di Fermi, quelli dove bisogna dare una stima ragionevole di una certa quantità: nell’articolo si fa l’esempio di stimare il numero di molecole di emoglobina prodotte al secondo dal corpo umano, oppure il numero di centri commerciali negli USA. Se mi si dà un po’ di tempo, probabilmente riesco a dare una stima ragionevole, applicando conoscenze collaterali; ma se devo rispondere in pochi secondi tirerò a indovinare e sbaglierò quasi sicuramente di brutto, mentre l’IA nello stesso tempo troverà probabilmente una stima accurata. Un CAPTCHA alla rovescia, insomma: per dimostrare di essere umano ti tocca sbagliare. E se dicessimo al chatbot di sbagliare apposta? Nel contesto delle risposte ai sondaggi non credo che i partecipanti abbiano le competenze necessarie per arrivarci in autonomia, ma è possibile e forse anche probabile che ci siano dei software appositi per aiutarli a compilare con l’IA questi sondaggi, e in quei software regole simili possono essere implementate senza problemi. Ma del resto ci aveva già pensato Alan Turing nel suo articolo seminale del 1950, come ho raccontato in fondo a questo mio post su MaddMaths!… Diciamolo: ci continuerà a essere una battaglia tra guardie umane e ladri IA per distinguere gli output, e finché saremo in testa noi andrà tutto bene.
PS: le mie risposte immediate alle due domande di fermi sono state 1 miliardo e 350.000; Deepseek ha risposto “tra 4,7 e 7 quintilioni” (in realtà sbagliando di un fattore 10 rispetto ai suoi stessi conti, scrive proprio 10^17 e non 10^18) e “tra 900 e 115000” (qui io ho usato una definizione di shopping mall come nella seconda stima, ma con la prima definizione sarei comunque stato sul 2500: insomma un fattore 3 di errore in ogni caso). Sulle molecole ho completamente sbagliato… proverò poi a fare i conti con un po’ più di calma.