Archivi categoria: informatica e AI

Che potrà andare storto?

logo META
Leggo dal Post che Meta sta usando i post (ma soprattutto le immagini) che gli utenti postano su Facebook e Instagram per addestrare la propria AI. In Europa (e in UK, per gli strascichi pre-Brexit) gli utenti possono dire che non vogliono che il loro materiale venga usato, sempre che si trovi la pagina nascosta dietro il link “Attenti al leopardo”; gli altri si attacchino.

Io capisco l’uso delle immagini, ma se pensate davvero di usare un’AI addestrata sui testi scritti su Facebook siete davvero ottimisti :-)

ChatGPT ne ha ancora da imparare, di matematica

il problema del calenpiario Da qualche anno Riccardo Moschetti e Roberto Zanasi preparano una serie di problemi matematici che durano dal π Day al τ Day: il CalenPIario.

Il problema di sabato scorso diceva

Quanti sono gli interi positivi che in base 7 si scrivono usando 3 cifre, e in base 5 si scrivono con le stesse cifre in ordine inverso?

Io sono pigro, ho cominciato a scrivere qualche possibilità e ho trovato due soluzioni. Poi ho continuato a scrivere numeri e ho deciso che non ce n’erano altre, e in effetti era così. Un mio amico si è lamentato perché ha fatto i conti e gli veniva un risultato diverso, e ha chiesto a ChatGPT che gli ha dato lo stesso risultato.
Essendo io curioso, ho provato a chiederglielo io stesso. L’intelligenza artificiale ha sparato tutto un pippone, partendo dal numero scritto in base 7 come abc e in base 5 come cba, dando dei

Vincoli sui valori delle cifre:

    a deve essere compreso tra 1 e 6 (poiché a≠0 in base 7).
    b deve essere compreso tra 0 e 6.
    c deve essere compreso tra 1 e 4 (poiché c≠0 in base 5).

(vincoli sbagliati, tra l’altro: ovviamente anche a e b possono essere al massimo 4), e tirando fuori l’equazione 24a+b=12c che così ad occhio è corretta. Poi si mette “a fare i conti”, scopre che per a=1 c’è la soluzione (1,0,2) e dichiara che per gli altri valori di a non ce ne sono… lasciandosi sfuggire che raddoppiando i valori della prima soluzione ne ottieni un’altra: (2,0,4).

Dal mio punto di vista non è che ci sia molto di strano: gli LLM non hanno nessuna idea di quello che fanno, e per loro 24a+b=12c non è un’equazione ma un insieme di caratteri. Ci saranno state probabilmente regole statistiche che gli permettono di calcolare i multipli di 24: ma immagino che b=12c−48 non fosse così presente nella base dati di addestramento per fargli trovare la risposta.

Io continuo a pensare che le cosiddette “allucinazioni” sono intrinseche negli LLM, e quindi non abbia senso fargli fare conti matematici. Your mileage may vary.

Aggiornamento (29 maggio) Su suggerimento di mestesso ho provato a usare Gemini. Peggio ancora. A parte l’inizio dove comincia bene ma è convinto che si possa usare il 5 per un numero in base 5

Passo 1: Identificare le possibili cifre in base 7

Un numero in base 7 con 3 cifre può assumere valori compresi tra  e . Tuttavia, per essere espresso con le stesse cifre invertite in base 5, il numero non può contenere la cifra 6.

Pertanto, le possibili cifre in base 7 sono: 0, 1, 2, 3, 4, 5.

nel passo due ha qualcosa peggio di un’allucinazione: deve aver preso roba tagliata male.

Cifra delle centinaia = 0: In questo caso, il numero è semplicemente 0, che non soddisfa la condizione di avere cifre diverse da 6.

Poi continua con casistiche dove non sono scritti i numeri, e termina dicendo che ci sono 20 numeri che soddisfano il problema.

output di gemini

Capirete che non vado a spendere 22 euro il mese per Gemini Advanced :-)

Ultimo aggiornamento: 2024-05-30 10:33

Un’italica base dati per i Grandi Modelli Linguistici?

LLM al lavoro Stavo leggendo questo articolo di Antonio Piemontese da Guerre di rete, e mi sono trovato questa frase:

“La risposta è che raccogliere questi dati, aggiungere tag e metadati è un’operazione lunga, complessa”, spiega a Guerre di Rete il CTO di un’importante società, che accetta di parlare a condizione dell’anonimato. “Questo lavoro di sistematizzazione non l’ha ancora fatto nessuno. E per venirne a capo serve l’intervento dello Stato, ma anche quello dei privati”.

Devo dire che non riesco a capire cosa c’entri l’intervento dello Stato, a parte il suo poter/dover fornire una versione di tutti i documenti ufficiali in formato scaricabile dai sistemi di crawling.
Non è compito dello Stato taggare e inserire metadati, e tra l’altro temerei un Modello a Pensiero Unico con un’interpretazione data una volta per tutte. (Non penserete mica che qualcuno aggiunga queste informazioni a manina, vero?)
Io non sono un grande fautore del privato a tutti i costi, ma in casi come questo continuo a pensare che nella piramide DIKW quello che dovrebbe essere disponibile a tutti allo stesso modo sono i dati. Già l’informazione dovrebbe essere personalizzata a seconda di come si maneggiano i dati, e non parliamo della conoscenza. (La saggezza e gli LLM viaggiano su strade non intersecantesi). Che ne pensate?

(immagine di DancingPhilosopher, da Wikimedia Commons)

Fantasy Internet Simulator

Da Priscilla De Pace (via Anna) scopro l’esistenza di Fantasy Internet Simulator, un progetto di un browser che fornisce pagine web come se fossimo ancora nel 1998. La cosa divertente è che le pagine mostrate in realtà non esistono, e sono generate da ChatGPT… (e la cosa triste è che somigliano molto alle pagine del mio sito. Dovrei farmi qualche domanda?)

Ultimo aggiornamento: 2024-03-21 11:34

AlphaGeometry

una dimostrazione di AlphaGeometry (dal sito di Google DeepMind) A quanto pare, DeepMind ha colpito ancora. Il progetto di ricerca sull’intelligenza artificiale di Google ha costruito un software, AlphaGeometry, in grado di risolvere i problemi delle Olimpiadi di geometria quasi a livello delle medaglie d’oro assegnate (quindi, se non vado errato, al livello del 10% migliore dei partecipanti).

La cosa più interessante è però almeno a mio parere l’approccio scelto: AlphaGeometry non usa un linguaggio naturale ma uno altamente specializzato che da un lato è più facilmente parsificabile da un computer e dall’altro è leggibile (da un matematico, claro). Questo vuol dire che non solo ha spesso dato le risposte corrette (25 su 30 problemi del test), ma che le ha date in modo “matematico” e non tirando a indovinare come spesso pare capitare nei sistemi di AI. È vero, come si legge per esempio nell’articolo che gli sviluppatori hanno pubblicato su Nature, che il dominio della geometria piana euclidea è molto specifico e quindi è più facile trovare un modello che dia risposte corrette, ma credo che questo sia un passo avanti molto importante nel creare software davvero intelligenti.

(immagine dal sito di DeepMind)

“spesso comprati insieme”

comprati insieme: lettore contactless e millechiodi Se comprate su Amazon, sapete bene che Bezos ha fatto mettere nella pagina degli oggetti una sezione “spesso comprati insieme”. Capita però spesso che non si capisca bene la logica degli acquisti, come nel caso mostrato qui in foto. Il millechiodi serve perché nessuno rubi il lettore contactless?

La risposta è probabilmente molto più semplice, ed è legata a un algoritmo costruito in maniera tale da selezionare tutti gli acquisti del primo articolo e cercare quello o quelli comprati più spesso insieme. Il guaio è che se il numero di acquisti è ridotto, e magari chi l’ha comprato non ha aggiunto null’altro. Il risultato è che ci si trova nella famosa “coda lunga”: magari tutti gli acquisti combinati fatti sono di oggetti diversi, e quindi l’algoritmo ha preso uno qualunque degli ordini, di qualcuno che aveva semplicemente anche bisogno del millechiodi. Come si suol dire, niente intelligenza artificiale ma solo stupidità algoritmica.

Ma è davvero una stupidaggine? Dipende dal punto di vista. Il costo marginale di presentare i risultati della ricerca è virtualmente nullo. La probabilità che a qualcuno venga in mente di comprare il millechiodi già che c’è è molto bassa, ma non nulla: in effetti qui la coda lunga entra in azione. Che ci sia qualcuno che rida degli accostamenti è insomma irrilevante: non pensiamo sempre al nostro orticello!

Aggiornamento: (09:40) Ho fatto l’ordine (senza Prime) ieri alle 10.20. La data di consegna prevista (dal mio giornalaio) era sabato. Stamattina alle 8.40 è arrivato il messaggio che il pacco era stato consegnato. Insomma Prime serve a poco in realtà…

Ultimo aggiornamento: 2024-01-18 09:43

“Impossibile” creare AI generative senza copyright

il logo di OpenAI Leggo dal Guardian (ma immagino sia scritto ovunque…) che OpenAI afferma che sia impossibile addestrare i LLM generativi come ChatGPT senza usare materiale sotto copyright. Per la precisione, dicono che “supportano il giornalismo, fanno accordi con aziende del settore, e che la causa del New York Times (che li ha citati per violazione di copyright) non ha fondamento”.

Consiglio di leggere la difesa di OpenAI al link qui sopra, perché è un classico esempio di come si fa in fretta a spostare il punto del contendere. Non mi riferisco tanto al fatto che OpenAI ha implementato un sistema di opt-out per chi non vuole che il suo materiale da quel momento in poi (enfasi mia) non venga più usato, tacendo su quanto è stato fatto in precedenza. Né alla frase «We had explained to The New York Times that, like any single source, their content didn’t meaningfully contribute to the training of our existing models and also wouldn’t be sufficiently impactful for future training.» Questa frase non ha alcun senso dal punto di vista legale: pensate a una causa per furto di alcune monete antiche esibite in una mostra e alla difesa “ma la nostra mostra non sarebbe stata differente anche se non ci fossero state quelle monete. Ma anche la difesa fatta davanti al parlamento britannico è lampante: “Poiché oggi il copyright tocca praticamente ogni tipo di espressione umana – compresi post nei blog, fotografie, messaggi nei forum, frammenti di codice e documenti governativi – sarebbe impossibile addestrare i modelli più avanzati odierni di AI senza usare materiale sotto copyright”.

Il punto per me è un altro. O paghi per usare materiale sotto copyright – il termine significa proprio questo: tu che sei titolare decidi quanto vale il tuo materiale – o mostri che il concetto di copyright come è declinato oggidì è malsano. Il tutto senza contare che OpenAI mette (volutamente…) sullo stesso piano tipi diversi di copyright. I documenti governativi, per esempio, sono di solito liberamente riutilizzabili; i blog hanno spesso una licenza non commerciale (come nel mio caso: non che io pensi che qualcuno addestri un’AI anche con le mie notiziole), e lo stesso capita spesso con foto e codice. Nulla insomma a che fare con gli articoli di giornale.

Non mi sembra poi che si possa invocare così facilmente il fair use, ovviamente restando sul diritto anglosassone perché da noi non se ne parla proprio: il fair use implica che si usa una piccola parte del materiale sotto copyright, mentre per definizione l’addestramento di un LLM generativo ne usa tanto, tantissimo. (sulla singola risposta ne sfrutta poco, ma quella è un’altra storia). Capirete però che un simile approccio apre un vaso di Pandora, il che non conviene neppure a OpenAI che con i suoi modelli ci vuole fare i soldi. In definitiva consiglierei di preparare i popcorn.

dopo il Dottor Sottile…

Paolo Benanti Diciamo che lo scorso ottobre la nomina di Giuliano Amato alla presidenza della Commissione sull’Intelligenza Artificiale mi aveva fatto immaginare che la Commissione in questione fosse semplicemente un baraccone politico: l’unico dubbio era come mai Meloni avesse scelto Amato. Ieri il PresConsMin ha spiegato urbi et orbi che la nomina era stata fatta a sua insaputa: Amato avrà deciso che tanto non veniva comunque considerato dai media e ha alzato le tende, non senza dire che “ci perdono qualcosa”.
Con incredibile rapidità il governo ha nominato un nuovo presidente: un prete, padre Paolo Benanti. Non ci sono dubbi sulle sue competenze in materia, intendiamoci: tanto per dire, il segretario generale dell’ONU Guterres l’ha inserito nel New Artificial Intelligence Advisory Board. Però fa un po’ ridere che dopo chi ha come soprannome quello del sacerdote e teologo Duns Scoto si sia scelto di passare direttamente a un sacerdote…

(foto: autore Paolo Pegoraro, da Wikimedia Commons – CC-BY-SA 4.0)

Ultimo aggiornamento: 2024-01-06 22:02