Archivi categoria: informatica e AI

Barare con l’AI?

Sono in tanti, almeno nella mia bolla, a sapere che ormai gli LLM sono usatissimi in ufficio per scrivere tutti quei testi che devono essere prodotti ma non vengono mai letti da nessuno. Ok, magari oggi vengono riassunti da altri LLM a beneficio dei capi: una perfetta economia circolare, come preconizzato da Douglas Adams quando definì il Monaco Elettrico come “un dispositivo per risparmiarci fatica: le lavapiatti lavano dei noiosi piatti per noi, risparmiandoci la fatica di lavarceli da soli; i videoregistratori guardano noiosi programmi per noi, risparmiandoci la fatica di guardarceli da soli: i Monaci Elettrici credono cose per noi”.

Ma c’è un altro campo in cui questi chatbot sono ormai onnipresenti, ed è quello della scuola. Io lo so bene, perché quando Jacopo è costretto a scrivere un testo sul libro di narrativa che avrebbe dovuto leggere a scuola chiede direttamente a ChatGPT di scrivergli qualcosa e lo copincolla direttamente. (Sperando che né lui né il suo professore non mi legga, devo confessare che con certi testi lo capisco anche. Non mi verrebbe mai voglia di leggerli, anche se al suo posto l’avrei fatto, perché io sono di un’altra generazione). Ma il problema si pone soprattutto per gli studenti universitari. In questo weekend mi è capitato di leggere due post al riguardo, che raccontano cosa fanno gli studenti e come i professori cerchino di contrastare l’uso indiscriminato dell’IA.

James D. Walsh scrive sull’Intelligencer (link alternativo) un long form dove raccoglie pareri di studenti che spiegano come il loro usare l’IA non sia altro che un modo per recuperare rapidamente informazioni, e di insegnanti che parlano dei loro metodi per trovare le prove dei misfatti. A leggere l’articolo, mi sa che gli studenti sappiano perfettamente di barare: lo si vede da come spiegano i prompt da usare per ottenere un risultato che appaia meno artificiale, e dalle arrampicate sugli specchi di chi afferma che si fa solo dare uno schema della risposta che poi costruisce da solo. Lasciamo perdere il protagonista dell’articolo, che afferma con forza che questo è il futuro della scrittura.

I professori sono chiaramente in difficoltà: l’unico modo a prova di errore per essere certi che lo studente abbia davvero studiato è quello di lasciar perdere i testi scritti e fare solo esami orali, il che è impraticabile. I sistemi automatici per sgamare i testi generati artificialmente hanno una scarsa affidabilità: Walsh riporta che ZeroGPT ha dato una probabilità superiore al 90% che un brano della Genesi fosse stato scritto da un’AI. (Ora che ci penso, è un’idea interessante per un racconto di fantascienza. Più prosaicamente, se gli ha dato in pasto la Bibbia di Re Giacomo il sistema potrebbe essere stato tratto in inganno dalla prosa cinquecentesca). Altri professori inseriscono a bella posta nel testo parole e frasi fuori contesto, tipo “broccoli” o “parlami di Dua Lipa”, magari scritte in bianco in modo che almeno gli studenti più stupidi che si limitano a copincollare il testo senza rileggere l’elaborato siano subito sgamati. Jacopo probabilmente ci cascherebbe, ma uno appena più sveglio, che magari avrebbe comunque ritoccato il risultato, se ne accorgerebbe comunque.

Anche Chad Orzel su Substack parla dell'”avvelenamento dei testi”, mostrando come questa sia una pratica che predata gli LLM: l’aneddoto iniziale sul professore che avvisa che avrebbe dato quattro testi di esame a caso e arriva con fogli di quattro colori diversi, colori che non hanno nulla a che vedere con i quattro testi diversi, mi ha fatto sorridere. Il suo punto di vista è in effetti un po’ diverso: Orzel nota come il problema degli LLM nel campo umanistico è quello che gli insegnanti di materie STEM hanno da decenni. In questo caso, infatti, la risposta corretta è una sola, e quindi non si può capire se arriva da un procedimento compiuto dallo studente oppure è stata semplicemente copiata. Peggio ancora, il numero di domande interessanti e soprattutto svolgibili in un compito è relativamente basso, e non si può pensare di inventarsi ogni volta domande nuove, anche solo cambiando i numeri in gioco. Ma soprattutto, aggiunge Orzel, il tempo a disposizione dei professori è limitato. Vale la pena di spenderlo per cercare di rendere la vita più complicata a chi copia, o non è forse meglio dedicarlo a insegnare a chi vuole davvero imparare? Bilanciare le due visioni non è semplice.

Per quanto mi riguarda, non mi è ancora capitato di usare ChatGPT o altri sistemi per scrivere qualcosa al posto mio o riassumermela, anche se non escludo di poterlo fare in futuro. Confermo che i post me li scrivo da solo e non do un prompt con il tema che vorrei trattare e la richiesta di aggiungere qualche refuso qua e là: d’altra parte mi ci diverto, farli fare a qualcun altro non varrebbe la pena. Trovo però preoccupante l’uso indiscriminato che viene fatto da troppa gente, con l’IA che fa davvero da Monaco Elettrico. Non bastava l’instupidimento da social media; adesso arriciamo a contenuti condivisi senza nemmeno essere letti, e che a loro volta genereranno materiale sempre più scadente. Solo che non ho nessuna idea di come cambiare le cose per un’uso responsabile dell’AI…

le AI che dovrebbero imparare la lingua dei delfini

Mah. Leggo questo articolo e rimango perplesso. Se si addestra un LLM per generare sequenze di suoni “simili a quelli dei delfini” e quello che si ottiene è per metà “rumori di fondo che ci si aspetta dall’oceano”, e per il resto “clic, fischi e i cosiddetti burst di impulsi” cosa abbiamo ottenuto? Nulla. Non dico di avere un dizionario delfinese-umano, che sarebbe davvero qualcosa di incredibile: ma dal testo dell’articolo non pare proprio che si sia raggiunto alcunché di “comprensibile” per un delfino, qualunque significato si voglia dare al termine. È come dire di aver preso un certo numero di carte e trovare che per metà esse contengono delle lettere e degli spazi che parrebbero formare delle parole, che però non ci dicono nulla. Vi pare un grande risultato?
Mi sarei insomma aspettato qualcosa di diverso: chessò, che avessero generato dei suoni che incuriosissero i delfini (nel mio esempio precedente, parole che assomigliano all’italiano anche se magari non formano frasi di senso compiuto): e gli stessi autori dicono che gli esperimenti attuali corrono il rischio di addestrare involontariamente i delfini con altri mezzi che non siano il linguaggio.
Mi sa che dovremmo aspettare che i delfini se ne vadano dalla Terra, lasciandoci un messaggio “Addio, e grazie per tutto il pesce”.

Quando gli LLM si dimenticano quello che hanno detto

In queste settimane sul sito calenpiario.it vengono proposti alcuni problemi matematici. Quello del 16 aprile aveva una formulazione un po’ strana, forse per fare in modo che non venisse dato in pasto agli LLM. Ad ogni modo io ho voluto comunque provare a usarli, non con il testo originale ma con uno semplificato, per vedere come avrebbero risposto. Ho così fatto la domanda «un cubo deve essere dipinto col minor numero possibile di colori scelti tra 24 in modo tale che due facce confinanti su uno spigolo non siano dello stesso colore.In quanti modi può essere colorato il cubo? (Colorazioni che usano gli stessi colori, anche disposti in modo diverso, sono da considerarsi equivalenti)» per vedere cosa succedeva. Un ragionamento “umano” vede che sono necessari tre colori distinti, questi devono essere collocati su facce opposte del cubo, e quindi c’è essenzialmente un unico modo per colorarli: il numero totale di possibilità è pertanto $24 \choose 3 $ = 2024. Che è successo in pratica?

Sia Gemini Pro che Math GPT che Claude 2.7 hanno dato la risposta corretta. Invece DeepSeek nella versione “veloce” si è completamente impallato, scrivendo possibili risposte e poi ripensandoci su, fino a terminare con la risposta errata 4048:

la "dimostrazione" di DeepSeek.

Per confronto, DeepSeek “pensante” ha fatto tutto il ragionamento in inglese ma ha dato la risposta corretta.

L’errore di DeepSeek “base” mi ha lasciato molto stupito. Una caratteristica degli LLM che viene molto sottolineata è infatti che il testo generato durante la risposta viene usato per tarare meglio la risposta stessa, in un ciclo di feedback. Insomma, non è un banale sfoggio di “competenza” ma proprio un ausilio alla risposta del sistema. Invece a quanto pare questo è stato un tipico caso di allucinazione: DeepSeek è partito per la tangente, scrivendo

Ma questo è valido solo se consideriamo che tutte le colorazioni con 3 colori sono equivalenti a meno di permutazioni, il che non è vero. In realtà, ci sono 2 distinte classi di colorazioni con 3 colori:
– Colorazione a coppie: Due colori sono usati per due facce opposte ciascuno, e il terzo colore per le altre due facce opposte.
– Colorazione non a coppie: Un colore è usato per tre facce, un altro per due, e il terzo per una faccia, con particolari vincoli di adiacenza.

Quello che parrebbe è che DeepSeek si sia dimenticato del vincolo di non avere due facce adiacenti (o meglio, che non l’abbia più mantenuto nel suo input), anche se comunque il ragionamento resta errato: manca infatti la classe “4 facce del colore A, 1 del colore B, 1 del colore C”. E questo tipo di errore è molto più strano… Diciamo insomma che il ragionamento matematico può ancora lasciare a desiderare.

Ultimo aggiornamento: 2025-04-25 22:37

Eurostack

EuroStack è un collettivo che vorrebbe che si costruisse «A complete digital ecosystem made and supplied in Europe». Vedo che tra gli attivisti c’è anche Vittorio Bertola, probabilmente noto a molti dei miei ventun lettori.
Ora, è assolutamente vero che abbiamo una dipendenza totale dai sistemi digitali americani. Ma aver «messo nero su bianco le azioni chiave che l’Europa deve portare avanti per tentare di smarcarsi il prima possibile dai player extra-Ue e in particolare le Big tech americane», come dice Wired, serve molto a poco. In questi anni abbiamo visto tanti esempi: vi ricordate Volunia? O se i progetti italiani vi inducono alla risata, avete mai davvero usato Qwant? No, abbiamo perso il treno da una vita, e il problema non è tanto la regolamentazione troppo stringente ma la mancanza di fondi e di una vision, come si dice adesso. Insomma, EuroStack è un progetto arrivato con vent’anni di ritardo. E dire che il WWW sarebbe europeo…

“Vegetative electron microscopy”

Cosa sarebbe il concetto del titolo di questo post? Non cercatelo: la frase non ha nessun senso. Eppure pare che molti articoli pubblicati su riviste scientifiche contengono questa frase, o la correlata “vegetative electron microscope”. Il sito Retraction Watch riporta un articolo pubblicato (e poi ritrattato) sulla rivista di Springer Nature’s Environmental Science and Pollution Research e scritto (?) da alcuni ricercatori iraniani che usa questa frase: ma l’articolo non è l’unico, e a quanto pare ce n’è almeno un altro, il cui principale autore è un senior editor a Elsevier.

Come è possibile tutto questo? Alexander Magazinov, software engineer kazako, crede che tutto derivi da un articolo pubblicato nel 1959 che mostro qui sotto:
quando le colonne sono due e non una...
Come vedete, il testo è stampato in due colonne molto vicine: una riga termina con “vegetative” e quella a fianco comincia con “electron microscopy”. Cosa succede se quel testo è stato usato per l’addestramento di un LLM che non si è accorto che le colonne erano due e ha estratto il testo come se fosse scritto in una singola colonna? E che succede se alcuni autori scrivono fuffa… ehm, un articolo scientifico, usando quell’LLM per generare testo?

Se vivessimo nel migliore dei mondi possibili, i referee avrebbero letto l’articolo, si sarebbero accorti della frase senza senso, e avrebbero chiesto lumi agli autori. No: se vivessimo nel migliore dei mondi possibili nessuno scriverebbe un articolo scientifico a partire da un’AI generativa. Ma si sa, “pubblicare o perire”. D’altra parte, il senior editor di cui sopra ha testualmente affermato di avere «purportedly used “vegetative electron microscopy” to study the structure of bacterial cellulose derived from date syrup.», cioè per studiare la struttura della cellulosa batterica derivata dallo sciroppo di datteri (se ho capito bene). Perché quando si fa una supercazzola…

Ultimo aggiornamento: 2025-02-28 15:44

Tutti rubano da tutti

la homepage di libgen Che per addestrare gli LLM occorra una strabalardata di roba lo sanno ormai anche i sassi. Che la strabalardata di roba sia presa in modo più o meno onesto, pure. Però anche partendo da questi assiomi si può arrivare a qualcosa di divertente.

Leggo su ghacks.net che un gruppo di autori ha fatto causa a Meta perché avrebbe violato il copyright addestrando i suoi >modelli su 81,7 terabyte di libri piratati: più precisamente quelli di libgen. Fin qua nulla di strano: diciamo che sono tutti segreti di Pulcinella. Ma la parte più divertente è quella che viene indicata come linea di difesa da parte di Meta: loro hanno affermato che addestrare i modelli di intelligenza artificiale su dataset pubblicamente disponibili [grassetto mio] costituisce un “fair use” rispetto alla legge dul copyright e loro semplicemente fatto un uso trasformativo dei dati.

Tralasciando che per esempio per la legge italiana (ma mi sa anche per quella americana) si entrerebbe nel campo delle opere derivate che continuano a dover rispettare il copyright, vi rendete conto di cosa succederebbe se Meta vincesse la causa? Automaticamente libgen otterrebbe uno status legale, che ora ovviamente non ha. Chi l’avrebbe mai detto?

Ultimo aggiornamento: 2025-02-08 21:58

Open Euro LLM

logo di Open Euro LLM L’Unione Europea ha una lunga tradizione di progetti in campo informatico presentati con grande fanfara e poi svaniti nul nulla. In questo caso mi pare che una differenza ci sia: Open Euro LLM, il cui comunicato stampa sulla formazione è stato pubblicato lunedì, non mi pare abbia avuto una grande enfasi nonostante gli LLM siano sulla bocca di tutti.

Il progetto come sempre è ambizioso: costruire un LLM multilingua (se preferite, un’intelligenza artificiale) che “conservi la diversità culturale e linguistica dell’Europa” per “dimostrare la forza della trasparenza, dell’apertura e della partecipazione” (parole loro, traduzione mia). Il progetto è guidato da un’università ceca, ed è monopolizzato da tedeschi e scandinavi, com rare eccezioni tipo la francese ALT-EDIC. Per l’Italia c’è solo il CINECA come partner tecnologico: mi stupisce che non ci sia Pisa e il suo istituto di linguistica computazionale, ma magari nei 40 e più anni da quando studiavo lì le cose sono molto cambiate, e in peggio.

Come avrete intuito, io sono molto scettico sulla possibilità che il progetto dia dei risultati pratici: sapendo come funzionano le cose non credo che si avranno neppure dei tutorial comprensibili ancorché teorici, il che comunque sarebbe già un risultato interessante. Aspettiamo…

Ultimo aggiornamento: 2025-02-06 12:15

Gli è tutta una bolla!

@aitech

In questi giorni è difficile stare dietro a tutte le notizie su quanto succede nel mondo degli LLM, soprattutto se uno nella vita dovrebbe fare dell’altro. Torno sulla storia di DeepSeek per commentare questo articolo di Georg Zoeller, che vede le cose da un punto di vista non solo tecnico ma economico.

Già il titolo è emblematico, anche se confesso che ho dovuto chiedere al mio socialino di nicchia che significasse “Chinese Quant”. (Sono gli analisti quantitativi: come penso sappiate DeepSeek è un progetto collaterale di una società di trading) Il punto chiave è “The Greatest Growth Hack of All Times”, che è ancora più perfido della mia “bolla” ma ha in comune il fatto che tutta la pubblicità su queste AI è stata montata ad arte solo per far crescere il valore delle azioni. Che significato ha per esempio che la capitalizzazione di borsa di Nvidia fosse arrivata a mille miliardi di dollari, quasi la metà del PIL italiano? (ok, non dovrei mischiare mele con pere, ma è per dare un’idea). Col senno di poi avremmo dovuto accorgerci che il continuo cambio di nomi e acronimi, e lo stillicidio di prodotti lanciati e lasciati poi marcire perché c’era il nuovo sistema ancora più potente, per non parlare dei consumi sempre più esagerati significava che in realtà l’unico piano che c’era era far crescere artificialmente un mercato che non aveva nessuno sbocco reale, come ben sa chi ha provato a usare davvero in pratica questi sistemi e non solo a giocare con i chatbot. Il mantra era “solo i BigTech possono stare sul mercato delle AI”.

Zoeller continua presentando un sistema text-to-speech, Kokoro-82M, il cui addestramento è costato una cifra dell’ordine di 400$ e che dà risultati “sufficientemente buoni in molti casi”. Dovrei chiedere ai miei vecchi amici di Loquendo che ne pensano. Chiaramente un sistema di questo tipo mina alla base i modelli di prezzo dei grandi text-to-speech aziendali. DeekSeek fa lo stesso: usa il sistema Chain-of-Thought Prompting che OpenAI aveva ideato l’anno scorso per migliorare la sua capacità di “ragionamento”. (In due parole, il Chain-of-Thought prevede che la risposta sia generata come un processo dove viene costruita man mano, usando il testo generato per migliorare le previsioni su come continuare. La cosa non è affatto stupida, anche noi umani facciamo così, e i risultati si vedono). Ma soprattutto DeepSeek nella sua versione R1 mostra che il fossato che le grandi società avevano creato – vedi il mantra sopra – era facilmente superabile. Ok, non “facilmente” nel senso che lo puoi fare con il tuo Mac a casa (anche se spuntano già i modelli distillati usando R1 che possono girare su una workstation appena un po’ carrozzata), ma che era alla portata di un’azienda di media grandezza come progetto collaterale. Inoltre il fatto che il modello (non i dati di training) sia stato rilasciato con la liberale licenza MIT dà un duro colpo ai sistemi americani che formalmente partivano da Open Source (per avere manodopera gratuita) ma erano molto attenti a non pubblicare le loro migliorie se non con un ritardo sufficiente a farli stare due o tre passi avanti. Ora non si potrà più fare nulla del genere. Se davvero il progetto open-r1 prenderà piede, anche il dataset sarà davvero open source, e ne vedremo delle belle.

Per quanto riguarda le conclusioni dell’articolo, ho dei dubbi che l’EU riderà per non essersi lanciata subito nella corsa alle AI ma si sia messa a legiferare (cosa che di per sé non trovo sbagliata, eh. Ma non doveva essere l’unica), mentre sono più d’accordo sul fatto che Nvidia alla fine non perderà molto, perché la potenza di calcolo servirà comunque. Lo stesso per la sua previsione che le allucinazioni non potranno essere eliminate semplicemente aggiungendo potenza di calcolo, e che il pendolo si sposterà di nuovo su sistemi di ambito più limitato ma più facili da far funzionare bene. Ma la cosa più importante è quella che leggo tra le righe, quando Zoeller scrive del “fundamentally unsafe patters of using a single input for both data and instruction into LLMs”, che porta ai problemi di prompt injection nel bene (superare i blocchi inseriti per esempio in DeepSeek cambiando l’input o dando istruzioni particolari) e nel male (pensate a come si possono usare questi trucchi da parte degli scammer). Il tutto senza che almeno per quanto io veda qualcuno si stia preoccupando. Io non sono certo un esperto di intelligenza artificiale, ma vedo che le persone che danno davvero informazioni utili sono molto poche, e soprattutto manca un livello di mezzo non troppo tecnico per far capire le conseguenze di quello che succede. È chiaro che è più facile guardarsi reel su reel di TikTok, ma se non si dà la possibilità di farsi un’idea cosa si spera?