Inps, parlare con te è un’esperienza

Ho due figli minorenni e quindi ho diritto all’assegno unico (di valore minimo, visto il mio ISEE, ma non è questo il punto). L’ho regolarmente ricevuto fino a che qualche mese fa decisi inopinatamente di spostare l’accredito sul mio conto Revolut, che poi è quello che uso per dare la paghetta ai figli. Tutto bene? No. Un mese fa mi accorgo che i soldi non mi arrivano più. Entro nel sito, leggo più attentamente, e scopro che poiché il conto Revolut ha un IBAN non italiano devo allegare un certificato di titolarità del conto. Ci sta, penso: quindi scrivo allegando il certificato e già che ci sono il documento di identità rinnovato. Dopo qualche giorno mi arriva la risposta: ho inviato la tessera sanitaria anziché la carta d’identità. Cretino io, rispondo stavolta con la carta d’identità. Da qua comincia il teatro dell’assurdo.

Risposta (sempre dopo qualche giorno): «Buongiorno, abbiamo acquisito la documentazione allegata ed avviato la procedura per la verifica della titolarità dell’IBAN. Tuttavia da verifiche effettuate nella domanda di AUU è presente un IBAN diverso. Pertanto si invita ad inserire il nuovo IBAN in domanda modificando le modalità di pagamento.»

Controrisposta mia: «Non riesco a capire. Fino all’anno scorso avevo un IBAN, poi ho chiesto di cambiarlo. Per forza adesso è diverso. Volevate documentazione ulteriore perché questo IBAN non è italiano, e ve l’ho mandata. Che altro serve?»

Ultima risposta: «Buongiorno, abbiamo acquisito la documentazione ed avviato la procedura per la verifica della titolarità dell’IBAN. A seguito della verifica si procederà allo sblocco dei pagamenti. Cordiali saluti »

Ora, io sono un imbecille, e questo dovrebbe essere chiaro. Ma non è che dall’altra parte siano messi molto meglio…

“Perché è arrivata quarta”

Perché Della Mea non ha vinto la medaglia di bronzo nonostante il 3º tempo in Gigante alle Olimpiadi

Il titolo di questo post è di Andrea Trapani. L’articolo però è di Fanpage.it e purtroppo è del tutto vero. A fanpage qualcuno ha pensato che avere due concorrenti giunte a pari merito significa che bisogna contare un unico tempo, e quindi chi è dopo ha segnato il terzo tempo complessivo: seguendo questa linea di pensiero la medaglia d’argento doveva essere tagliata a metà…

l’IA sta falsando sondaggi e ricerche online?

Sul gruppo Whatsapp di ex cseltini un amico ha inviato il link a questo lancio di agenzia, dall’inquietante titolo “L’allarme: l’IA sta falsando sondaggi e ricerche online –
L’IA è sempre più capace di simulare il comportamento umano”. Come sempre, il testo italiano non è molto comprensibile: così sono andato a leggere l’articolo originale (è sotto paywall, ma si legge quasi tutto… e ho anche scoperto che con un account ORCID posso arrivare in fondo. Misteri) e ho finalmente capito qualcosa in più.

Il problema di base è ben precedente all’arrivo in massa dell’IA. Come si fa ricerca nelle scienze sociali? Per mezzo di sondaggi. E come si recupera la gente nei sondaggi? Puoi pagare una società specializzata che ti cerca un certo numero di persone in modo per quanto possibile rappresentativo della popolazione – il che non significa scegliere a caso, come si può ingenuamente pensare! Puoi fare come Libero, che chiede ai suoi lettori di rispondere e poi strombazza i risultati come rivelazioni. Puoi chiedere agli amici degli amici se rispondono al tuo Google Form – e otterrai comunque risultati falsati, ma almeno onesti. Oppure, se ti servono risposte articolate puoi acquistare manodopera a basso costo da servizi come Amazon Mechanical Turk, Prolific, Cloud Research’s Prime Panels e Cint’s Lucid, di cui io conoscevo solo il primo. Il guaio è che questi servizi sono pagati ai compilatori a cottimo: più ne completi, più soldi ti danno. In passato i ricercatori avevano il vantaggio di valutare ad occhio la qualità dei testi e buttare via quelli evidentemente creati solo per essere pagati: richiedere un numero minimo di caratteri nella risposta era già un modo per impegnare i compilatori. Nonostante questo, alcuni metastudi dicono che tra il 30% e il 90% delle risposte non sono vere, il che fa pensare che forse anche gli studi stessi non è che siano così solidi; ma ora la gente prende il testo, lo dà in pasto a un chatbot, copincolla la risposta e via, e i problemi sono esacerbati. Se già prima fare sondaggi in questo modo faceva schifo, che cosa è allora peggiorato? Banalmente il fatto che questi studi servono spesso per capire se e come le minoranze si comportano diversamente rispetto a quanto fa la maggioranza. E che succede se uno prende ChatGPT e gli fa tirare fuori la risposta? Che per definizione questa risposta seguirà il pensiero della maggioranza…

La parte che almeno io ho trovato interessante è vedere quali tecniche vengono oggi usate per sgamare le risposte artificiali in questo campo. Se ricordate, qualche settimana fa avevo scritto di come migliorare la prosa di un chatbot, e quindi implicitamente quali sono i segni di un testo generato da un’IA; ma ogni campo ha le sue caratteristiche. I metodi che si usano in questo caso sono vari. Il primo è vedere statisticamente la struttura delle risposte: un umano tende a usare più spesso i voti estremi nella scala, mentre un’IA è meno polarizzata. Questo metodo non è certamente perfetto, ma ha il vantaggio che è improbabilmente che qualcuno si metta a tarare il proprio LLM per modificare questo comportamento, essendo qualcosa di nicchia. Un secondo sistema è quello di usare i paradati, cioè qualcosa che non è un dato, non è un metadato (cioè non dà informazioni sul dato, come i dati EXIF nelle foto dove si trovano modello della fotocamera, otturatore, autore e così via), ma dice cosa si è fatto per inserire il dato. I paradati sono per esempio usati in alcuni CAPTCHA, come quello dove basta cliccare “non sono un robot”. viene registrato il movimento del mouse, che per un umano ha un pattern molto più erratico di quello di un bot. Nel nostro caso si può misurare il modo in cui si scrive: un copincolla aggiunge in un sol colpo una grande quantità di caratteri, mentre per esempio io quando scrivo ho dei burst di velocità seguiti da attimi di pausa mentre penso a cosa aggiungere, oltre a cancellazioni e riscritture sia per refusi mentre digito che per parole che dopo un po’ preferisco sostituire con qualcosa di più specifico. La brutta notizia è che pare che invece in questo campo gli LLM vengono addestrati per simulare meglio gli umani, oltre naturalmente al fatto che magari a noi arriva solo il testo completo del questionario compilato e che potrebbero esserci problemi di privacy a salvare i paradati senza dirlo.

Ci sono tecniche furbette, tipo partire dall’immagine di un’illusione ottica e modificarla in modo che per gli umani l’illusione non ci sia più mentre le IA continuano a “vedere” le somiglianze con gli esempi trovati nel corpus di addestramento. Ma il metodo di gran lunga più divertente, almeno per me, è applicare i problemi di Fermi, quelli dove bisogna dare una stima ragionevole di una certa quantità: nell’articolo si fa l’esempio di stimare il numero di molecole di emoglobina prodotte al secondo dal corpo umano, oppure il numero di centri commerciali negli USA. Se mi si dà un po’ di tempo, probabilmente riesco a dare una stima ragionevole, applicando conoscenze collaterali; ma se devo rispondere in pochi secondi tirerò a indovinare e sbaglierò quasi sicuramente di brutto, mentre l’IA nello stesso tempo troverà probabilmente una stima accurata. Un CAPTCHA alla rovescia, insomma: per dimostrare di essere umano ti tocca sbagliare. E se dicessimo al chatbot di sbagliare apposta? Nel contesto delle risposte ai sondaggi non credo che i partecipanti abbiano le competenze necessarie per arrivarci in autonomia, ma è possibile e forse anche probabile che ci siano dei software appositi per aiutarli a compilare con l’IA questi sondaggi, e in quei software regole simili possono essere implementate senza problemi. Ma del resto ci aveva già pensato Alan Turing nel suo articolo seminale del 1950, come ho raccontato in fondo a questo mio post su MaddMaths!… Diciamolo: ci continuerà a essere una battaglia tra guardie umane e ladri IA per distinguere gli output, e finché saremo in testa noi andrà tutto bene.

PS: le mie risposte immediate alle due domande di fermi sono state 1 miliardo e 350.000; Deepseek ha risposto “tra 4,7 e 7 quintilioni” (in realtà sbagliando di un fattore 10 rispetto ai suoi stessi conti, scrive proprio 10^17 e non 10^18) e “tra 900 e 115000” (qui io ho usato una definizione di shopping mall come nella seconda stima, ma con la prima definizione sarei comunque stato sul 2500: insomma un fattore 3 di errore in ogni caso). Sulle molecole ho completamente sbagliato… proverò poi a fare i conti con un po’ più di calma.

Quizzino della domenica: Diagramma magico di Venn

787 – aritmetica

Nella figura qui sotto vedete un diagramma di Venn: come sapete, serve per indicare le possibili combinazioni di tre caratteristiche del tipo sì/no. Immaginate ora di sostituire alle lettere da A a G i numeri da 1 a 7: il diagramma di Venn si dice magico se la somma dei quattro numeri in ciascun cerchio è la stessa. Costruite un diagramma magico di Venn dove questa costante magica è massima e uno dove è minima.

Il diagramma di Venn
(trovate un aiutino sul mio sito, alla pagina https://xmau.com/quizzini/p787.html; la risposta verrà postata lì il prossimo mercoledì. Problema ispirato da Futility Closet.)

Il leggendario tesoro di Hell Gate (libro)

copertinaSi ricomincia con i libri da leggere per verificare che mio figlio li legga davvero e sappia poi fare le verifiche a scuola. Questa opera seconda di Morosinotto è scritta molto bene, nel senso che la storia (potremmo quasi definirla un romanzo storico, visto che alcuni dei personaggi di contorno sono realmente esistiti) si costruisce man mano, dando uno spaccato della New York della fine degli anni ’20 del secolo scorso; il tutto inframezzato dalla storia di Bill Swan, schiavo finito con gli inglesi durante la guerra di indipendenza americana. Poi chiaramente è uno juvenile, e non potete aspettarvi una caratterizzazione introspettiva di chissà quale tipo, ma direi che non è certo quello il punto. A me personalmente le tavole all’inizio dei capitoli non dicono molto, anche se Morosinotto scrive nella postfazione che ci ha messo molta cura, ma a ciascuno il suo.

Davide Morosinotto, Il leggendario tesoro di Hell Gate, Mondadori 2025, pag. 496, € 17, ISBN 9788804792185 – come Affiliato Amazon, se acquistate il libro dal link Bezos mi dà qualche centesimo dei suoi utili
Voto: 5/5

Come se la passa Internet Archive?

Un anno e mezzo fa scrivevo sulle cause legali che Internet Archive stava affrontando per il suo “libera tutti” rispetto alla propria biblioteca virtuale durante la pandemia 2020. Cosa è successo? Dal punto di vista strettamente finanziario, le cose sono andate bene: c’è stato un accordo extragiudiziario che immagino non sia stato indolore, ma comunque è sopportabile. In compenso, però, moltissimi libri non sono più ottenibili in prestito attraverso IA.

Ma i guai per quanto riguarda il salvataggio delle informazioni su Internet non finiscono qui. Leggo su Hdblog che il NYT e il Guardian hanno fatto in modo che IA non possa più salvare le loro pagine. Motivo? quei dati sarebbero usati dagli scraper per avere materiale di addestramento per gli LLM, e le testate hanno fatto accordi di esclusiva per vendere questi dati. A differenza dei commentatori di quell’articolo – ma dovreste sapere tutti che leggere i commenti serve solo e unicamente per comprendere il pensiero dei leoni da tastiera – io sono convinto che sia davvero così, e non mi sento nemmeno di dare torto agli editori. Quello che però secondo me non si sta cercando di fare è uno spostamento di paradigma. Guardiamo le cose da un altro punto di vista: a me, e a molti altri, non serve recuperare tutti quei dati, ma solamente verificare ogni tanto una fonte, sia essa la citazione di un libro o un brano di un articolo di giornale. Se ci fosse un sistema in cui si può ottenere la pagina di un libro o anche solo lo snippet relativo, e non può essere richiesta un’altra pagina di quel libro se non dopo un’ora, nessuno si metterebbe a piratare libri via Internet Archive. E se si potesse prendere un articolo di un giornale ogni ora, di nuovo gli scraper non riuscirebbero a fare nulla, e sarebbero comunque obbligati a stringere accordi con le testate per usare quei dati. Quello che mi piacerebbe, insomma, è un sistema di throttling: limitando artificialmente la quantità di dati che si possono scaricare nell’unità di tempo si manterrebbe la possibilità di usare l’archivio come un archivio, salvando al contempo i diritti dei produttori. È davvero una cosa così complicata tecnicamente?

Statistiche del sito per gennaio 2026

Dopo il boom dei mesi passati, mi sa che i crawler per gli LLM si siano stancati, o almeno abbiano preso una pausa, mentre gli utenti reali restano. Date un’occhiata:

Visitatori unici 29.829 (-22763)
Numero di visite 82.992 (-12801)
Pagine accedute 268.718 (-22587)
Hits 466.189 (+19178)
Banda usata 6,65 (+0,74 GB)

Tre giorni sotto le 2000 visite (minimo a capodanno, con 1880); lunedì 12 ho avuto 4373 visite, e la media del mese è stata 2677 (-735). La Top 5:

  1. Call center sanitari invasivi: 2429 visite
  2. Codice bianco all’IKEA: 1382 visite
  3. Ze neca: 1281 visite
  4. Forse Asus ha qualche problema: 728 visite
  5. Epistemia: 716 visite

Dodici altri post sopra le 500 visite, più uno del backup del Post. Romanaccio ne ha avute 1570 e Prova del nove 700.

Query Google: abbiamo 3432 (+856) clic da mobile, 1076 (+143) da desktop e 91 (+37) da tablet. Le prime 10 query, con tra parentesi le impressions:

404 (5383) 0278655540
317 (998) codice bianco ikea
128 (290) insulti romani
79 (369) insulti in romano
78 (3069) a stra ze neca
67 (243) numeri di dedekind
58 (126) insulti romaneschi
40 (171) detti romani volgari
40 (71) notiziole di mau
38 (104) ikea codice bianco

Non capisco questo interesse per i numeri di Dedekind…