Archivi autore: .mau.

Informazioni su .mau.

matematto non praticante

Numeri duali e numeri complessi iperbolici

Come sapete, i numeri complessi possono essere visti in vari modi: coppie ordinate di numeri reali a cui viene applicata una struttura specifica, oppure punti di un piano cartesiano sempre con una struttura specifica. D’accordo, probabilmente potremmo dire che questi due modi sono la stessa cosa. Ma facciamo un passo indietro e torniamo a quella che è stata storicamente la definizione iniziale di un numero immaginario (poi per arrivare ai complessi basterà sommargli un numero reale). Cosa ha fatto Tartaglia? Ha immaginato :-) di aggiungere ai numeri reali un elemento speciale i con la proprietà che i² = −1. Ovviamente Tartaglia non pensava in questo modo: per lui i numeri erano numeri, e l’elemento speciale era un semplice trucco usato perché alla fine spariva e lasciava il risultato corretto. Ma noi abbiamo mezzo millennio di matematica in più e possiamo permetterci questa visione astratta.

Cosa succede se proviamo ad aggiungere un elemento che ha una proprietà diversa da quella di i? Per prima cosa non avremo più un campo, visto che l’unica estensione dei numeri reali che resta un campo sono i numeri complessi. Ma questo in fin dei conti è solo un piccolo fastidio: tanto per dire, i quaternioni (dove aggiungiamo ai reali tre elementi che al quadrato danno −1) non sono un campo, ma non per questo non vengono usati. Più o meno nello stesso periodo in cui Hamilton formalizzò i quaternioni, furono proposte altre due estensioni dei numeri reali: i numeri duali e i numeri complessi iperbolici.

I numeri duali si ottengono aggiungendo ai reali un numero ε ≠ 0 tale che ε² = 0 (e immagino che avrete capito perché l'”unità duale” aggiunta si chiama epsilon…) Come per i numeri complessi, possiamo scrivere un numero duale come $z = a + bε$. Somma e prodotto di due numeri duali $z_1 = a_1 + b_1 \varepsilon$ e $z_2 = a_2 + b_2 \varepsilon$ sono rispettivamente

$ z_1 + z_2 = \left( a_1 + a_2 \right) + \left( b_1 + b_2 \right) \varepsilon $

$z_1 z_2 = \left( a_1 a_2 \right) + \left( a_1 b_2 + a_2 b_1 \right) \varepsilon$

(ovviamente ci siamo persi il quarto prodotto dei coefficienti, svanito insieme a ε²…) Per la divisione le cose sono un po’ più complicate. Tralasciando i passaggi formali, abbiamo infatti che

$\displaystyle\frac{a + b \varepsilon} {c + d \varepsilon} = \frac{a} {c} + \frac{cb – ad}{c^2} \varepsilon$

Notate che la divisione è definita per $c \neq 0$, quindi i numeri duali “puri” (privi cioè di parte reale) non sono invertibili. La cosa dovrebbe tornarvi, se pensate a ε come un infinitesimo e quindi a 1/ε come un numero infinito; e in effetti l’unità duale ha proprietà analoghe agli infinitesimi dell’analisi non standard. Per esempio, se abbiamo un polinomio $P(z)$ sui numeri duali, possiamo calcolare il suo sviluppo di Taylor in un punto $a + bε$: otteniamo

$\displaystyle P(a + b \varepsilon) = \sum_{k=0}^{\infty} P^{(k)}(a) \frac{(b \varepsilon)^k}{k!} = P(a) + P\prime(a) b \varepsilon$

Il bello è che lo sviluppo di Taylor non è infinito ma finito, perché tutte le potenze di ε dal quadrato in su si annullano! Come corollario, se conosciamo il valore del polinomio in un determinato numero duale, possiamo calcolare direttamente la derivata del polinomio nella sua parte reale.

I numeri complessi iperbolici aggiungono invece un elemento h (Wikipedia usa ancora ε, mentre John Cook preferisce j immagino per fare arrabbiare gli ingegneri… però a me piace più h), con $h \neq ±1$ ma $h^2 = 1$. Non venitemi a dire che l’equazione $x^2 = 1$ non può avere più di due soluzioni: ho già detto che non abbiamo più un campo. In questo caso, a parte i segni, le formule di addizione, sottrazione e dell’inverso sono simili a quelle per i numeri complessi:

$z_1 + z_2 = (a_1 + a_2) + (b_1 + b_2) h $

$z_1 z_2 = (a_1 a_2 + b_1 b_2) + (a_1 b_2 + a_2 b_1) h$

$\displaystyle \left( a + b h \right)^{-1} = \frac{a – b h}{a^2- b^2}$

Avere però nell’inverso un segno meno anziché più a denominatore significa che non solo non è possibile la divisione per zero, ma anche per tutti i numeri iperbolici dove $a = ±b$. Anche in questo caso non abbiamo dunque un campo.

Termino con gli equivalenti della formula di Eulero $\exp(i\theta) = \cos \theta + i \sin \theta$, mostrati da John Cook nel suo succitato post. Per i numeri duali abbiamo

$ \exp(\varepsilon x) = 1 + \varepsilon x $

che è la stessa cosa che dire che per x numero reale molto piccolo abbiamo $\exp{x} \approx 1 + x $. Per i numeri iperbolici abbiamo invece

$\exp(hx) = \cosh x + h \sinh x$

e quindi spuntano seno e coseno iperbolico! Capite perché ho usato h per indicare l’unità iperbolica? Numeri duali e iperbolici possono insomma essere usati per formalizzare ragionamenti intuitivi matematici. Diciamo che quando un matematico si impegna può formalizzare la qualunque…

Aggiornamento: (09:15) Nei commenti mi è stato fatto notare che anche i numeri surreali formano un campo (almeno accettata l’esistenza di un cardinale inaccessibile). E in effetti anche i numeri p-adici formano un campo (anche se quella è un’estensione dei razionali e non dei reali). Probabilmente la cosa più corretta sarebbe stato dire che se vogliamo un campo dove tutte le equazioni abbiamo soluzione l’unica possibilità di ampliare gli interi è avere i complessi.

Aggiornamento: (09:30) Se qualcuno si chiedesse perché non ha mai sentito parlare di questi numeri, nonostante siano stati definiti da matematici come Clifford e Cayley, la risposta è semplice, e la si può leggere tra le righe se consultate l’edizione inglese di Wikipedia di quelle voci. Più o meno parallelamente a questi sviluppi si è cominciato a definire il calcolo matriciale, che è sì molto più astratto ma permette di unificare la descrizione. Abbiamo così per le varie unità le matrici 2×2

$ 1 = \begin{pmatrix}1 & 0 \\ 0 & 1 \end{pmatrix}$

$ i = \begin{pmatrix}0 & -1 \\ 1 & 0 \end{pmatrix} $

$\varepsilon = \begin{pmatrix}0 & 1 \\ 0 & 0 \end{pmatrix}$

$h = \begin{pmatrix}0 & 1 \\ 1 & 0 \end{pmatrix}$

e possiamo verificare che in effetti valgono le proprietà che conosciamo per i numeri complessi, duali e iperbolici.

MATEMATICA – Lezione 52: Rappresentazioni proiettive e teoria dei gruppi

@matematica
copertina
Il contenuto di questo volume mostra ancora una volta come la matematica, per quanto possa sembrare astratta a prima vista, possa tornare utile ai fisici, un po’ come il calcolo tensoriale è servito per la relatività generale. Gianluigi Filippelli qui mostra come partendo dalla struttura di gruppo e aggiungendoci la topologia si ottengono i gruppi di Lie, che sono ancora teorici e sono una rappresentazione delle trasformazioni di un insieme; ma Wigner è riuscito a usare questi gruppi per mostrare come questi gruppi possono essere usati in meccanica quantistica per studiare le trasformazioni che conservano la probabilità di transizione tra due stati quantistici diversi, e mostrare così come la meccanica quantistica può essere assurda, ma in realtà ha una sua coerenza interna. Nella seconda parte del volume Filippelli passa alla teoria delle rappresentazioni, che studia le strutture algebriche astratte rappresentando i loro elementi come trasformazioni lineari di spazi vettoriali, che sappiamo trattare meglio.
Da questo volume non scrivo più i giochi matematici, ma li lascio agli autori: Filippelli tratta del sudoku e della sua versione più matematica, il calculoku, mentre Veronica Giuffré ci parla di Galileo.

Gianluigi Filippelli, Matematica – Lezione 52: Rappresentazioni proiettive e teoria dei gruppi, allegato a Gazzetta dello Sport e Corriere della Sera, €6.99 più il prezzo del giornale.

Baj chez Baj (mostra)

dal sito ufficiale della mostra
Come sempre in fotofinish (la mostra termina domenica prossima) Anna e io siamo andati giovedì scorso a vedere la mostra su Enrico Baj a Palazzo Reale. Come sempre uno si chiede perché deve pagare 17 euro (13 ridotto) per una mostra che comunque è piccola: Baj ha fatto tantissima roba, e una cinquantina di opere sono davvero poche. Tra l’altro la parte patafisica si limita all’Apocalisse iniziale, e questo non è affatto bello.
Mi affretto ad aggiungere che I funerali dell’anarchico Pinelli, che sono il pezzo forte della mostra, meritano davvero di essere visti dal vivo. È incredibile come il tratto di Baj, che pure è tutto meno che realista, riesce a rendere l’idea di quanto e come è successo, e la tridimensionalità è davvero funzionale. Per quanto riguarda le altre opere, i pannelli esplicativi riescono a dare un’idea di cosa Baj abbia voluto fare. Poi come dicevo secondo me le mostre stanno diventando sempre meno competitive…

Trending, ma perché?

your page is trending up
Per una volta, me n’ero accorto da solo: ma persino Google Search mi ha voluto avvisare (per la prima volta in vita sua). Il punto è che il post in questione l’ho scritto più di un mese fa, e se l’erano filato in pochi, come al solito.
Cosa può essere successo? La mia ipotesi è quella dell’effetto lemming. Qualche persona ha casualmente cliccato sul mio post, quindi è salito di posizione nella pagina della ricerca e così la massa (si fa per dire, io non sono certo un influencer) ha continuato a cliccarci.

Quizzino della domenica: Ninfee

733 – probabilità

@matematica

Una rana si trova in uno stagno dove ci sono quattro ninfee in fila, che numeriamo 1, 2, 3, 4. Inizialmente si trova sulla ninfea 2. Se la rana si trova sulla ninfea 1 oppure 4, se ne sta lì bella tranquilla. Se è sulla ninfea 2 può spostarsi sulla 3 con probabilità 1/2 e sulla 1 con probabilità 1/2; se è sulla ninfea 3 può spostarsi sulla 4 con probabilità 2/3 e sulla 2 con probabilità 1/3. Qual è la probabilità che la rana termini i suoi salti sulla ninfea 1?

rana e ninfee
(trovate un aiutino sul mio sito, alla pagina https://xmau.com/quizzini/p733.html; la risposta verrà postata lì il prossimo mercoledì. Problema di Michael Coffey, da The Fiddler; immagine da FreeSVG.)

On Progress in Physics and Subjectivity Theory (libro)

@libri

copertina
Che “N. Otre Le Vant” fosse uno pseudonimo mi era chiaro. Che cosa significasse l’ho capito solo quando a pagina 263 ha scritto che il suo nome era “not relevant”. L’anno scorso l’autore mi ha contattato chiedendo se fossi interessato a leggere i suoi pensieri sul perché la fisica non sta facendo progressi da vari decenni. Risposi che avrei letto il libro ma mi ci sarebbe voluto un po’ di tempo perché ero impegnato con la curatela dei libri di matematica: diciamo che ci ho messo MOLTO tempo. L’ebook che mi è arrivato è molto personalizzato: a parte il footer, all’inizio c’è proprio una sezione con il mio nome-e-cognome, un ottimo tipo di filigrana :-)

Il libro è scritto sotto forma di dialogo tra Alice (il Watson, la spalla) e Bob (il pensiero dell’autore) ed è formato da tre parti: nella prima l’autore presenta lo stato dell’arte in fisica, afferma che ci si trova in un punto morto e che sarebbe meglio assumere che “everything we think we know about the world is wrong”; nella seconda presenta la sua teoria della soggettività, dove afferma che è il nostro cervello che man mano crea la parte del mondo che gli serve; la terza e più lunga prova a definire come si potrebbe ottenere un progresso in fisica, indipendentemente dalla teoria della soggettività. Questa terza parte è per me la più debole, perché dà tante informazioni che però mostrano che non c’è un vero principio unificante. Nella seconda parte, anche senza accettare la teoria, ho trovato parecchi spunti interessanti, tipo quando dice “Se una soluzione sembra troppo perfetta, senza problemi, il motivo è che probabilmente qualcosa ci ottenebra e ci impedisce di vedere i problemi”, e che “se le probabilità parlano di informazione per definizione incompleta, non possiamo considerarle qualcosa di fondamentale, ma un costrutto umano: utile ma per l’appunto un costrutto”. Sono meno convinto del suo affermare che se le costanti naturali sono “incredibilmente vicine all’esperienza umana” (sì, anche la costante di Planck. In fin dei conti è 10 elevato alla -35 metri: con gli infiniti numeri a disposizione un esponente 35 è poca roba): per me il fatto che i numeri siano infiniti è giusto un espediente.

Alla fine dei conti, però, la lettura è stata piacevole, nonostante a volte l’autore cercasse la battuta per il gusto della battuta. Credo che sia sempre utile provare a vedere le cose da un punto di vista diverso, anche se probabilmente errato.

(N. Otre Le Vant, On Progress in Physics and Subjectivity Theory, 2024, pag. 330, € 19,34, ISBN 9798876965103)
Voto: 4/5

Gli è tutta una bolla!

@aitech

In questi giorni è difficile stare dietro a tutte le notizie su quanto succede nel mondo degli LLM, soprattutto se uno nella vita dovrebbe fare dell’altro. Torno sulla storia di DeepSeek per commentare questo articolo di Georg Zoeller, che vede le cose da un punto di vista non solo tecnico ma economico.

Già il titolo è emblematico, anche se confesso che ho dovuto chiedere al mio socialino di nicchia che significasse “Chinese Quant”. (Sono gli analisti quantitativi: come penso sappiate DeepSeek è un progetto collaterale di una società di trading) Il punto chiave è “The Greatest Growth Hack of All Times”, che è ancora più perfido della mia “bolla” ma ha in comune il fatto che tutta la pubblicità su queste AI è stata montata ad arte solo per far crescere il valore delle azioni. Che significato ha per esempio che la capitalizzazione di borsa di Nvidia fosse arrivata a mille miliardi di dollari, quasi la metà del PIL italiano? (ok, non dovrei mischiare mele con pere, ma è per dare un’idea). Col senno di poi avremmo dovuto accorgerci che il continuo cambio di nomi e acronimi, e lo stillicidio di prodotti lanciati e lasciati poi marcire perché c’era il nuovo sistema ancora più potente, per non parlare dei consumi sempre più esagerati significava che in realtà l’unico piano che c’era era far crescere artificialmente un mercato che non aveva nessuno sbocco reale, come ben sa chi ha provato a usare davvero in pratica questi sistemi e non solo a giocare con i chatbot. Il mantra era “solo i BigTech possono stare sul mercato delle AI”.

Zoeller continua presentando un sistema text-to-speech, Kokoro-82M, il cui addestramento è costato una cifra dell’ordine di 400$ e che dà risultati “sufficientemente buoni in molti casi”. Dovrei chiedere ai miei vecchi amici di Loquendo che ne pensano. Chiaramente un sistema di questo tipo mina alla base i modelli di prezzo dei grandi text-to-speech aziendali. DeekSeek fa lo stesso: usa il sistema Chain-of-Thought Prompting che OpenAI aveva ideato l’anno scorso per migliorare la sua capacità di “ragionamento”. (In due parole, il Chain-of-Thought prevede che la risposta sia generata come un processo dove viene costruita man mano, usando il testo generato per migliorare le previsioni su come continuare. La cosa non è affatto stupida, anche noi umani facciamo così, e i risultati si vedono). Ma soprattutto DeepSeek nella sua versione R1 mostra che il fossato che le grandi società avevano creato – vedi il mantra sopra – era facilmente superabile. Ok, non “facilmente” nel senso che lo puoi fare con il tuo Mac a casa (anche se spuntano già i modelli distillati usando R1 che possono girare su una workstation appena un po’ carrozzata), ma che era alla portata di un’azienda di media grandezza come progetto collaterale. Inoltre il fatto che il modello (non i dati di training) sia stato rilasciato con la liberale licenza MIT dà un duro colpo ai sistemi americani che formalmente partivano da Open Source (per avere manodopera gratuita) ma erano molto attenti a non pubblicare le loro migliorie se non con un ritardo sufficiente a farli stare due o tre passi avanti. Ora non si potrà più fare nulla del genere. Se davvero il progetto open-r1 prenderà piede, anche il dataset sarà davvero open source, e ne vedremo delle belle.

Per quanto riguarda le conclusioni dell’articolo, ho dei dubbi che l’EU riderà per non essersi lanciata subito nella corsa alle AI ma si sia messa a legiferare (cosa che di per sé non trovo sbagliata, eh. Ma non doveva essere l’unica), mentre sono più d’accordo sul fatto che Nvidia alla fine non perderà molto, perché la potenza di calcolo servirà comunque. Lo stesso per la sua previsione che le allucinazioni non potranno essere eliminate semplicemente aggiungendo potenza di calcolo, e che il pendolo si sposterà di nuovo su sistemi di ambito più limitato ma più facili da far funzionare bene. Ma la cosa più importante è quella che leggo tra le righe, quando Zoeller scrive del “fundamentally unsafe patters of using a single input for both data and instruction into LLMs”, che porta ai problemi di prompt injection nel bene (superare i blocchi inseriti per esempio in DeepSeek cambiando l’input o dando istruzioni particolari) e nel male (pensate a come si possono usare questi trucchi da parte degli scammer). Il tutto senza che almeno per quanto io veda qualcuno si stia preoccupando. Io non sono certo un esperto di intelligenza artificiale, ma vedo che le persone che danno davvero informazioni utili sono molto poche, e soprattutto manca un livello di mezzo non troppo tecnico per far capire le conseguenze di quello che succede. È chiaro che è più facile guardarsi reel su reel di TikTok, ma se non si dà la possibilità di farsi un’idea cosa si spera?

E dunque questo DeepSeek?

@aitech

E insomma il nuovo arrivato questa settimana è DeepSeek, sistema LLM che formalmente è nato come progetto collaterale di un’azienda cinese di asset management, i cui algoritmi (ma non il materiale di addestramento…) sono open source, ha un costo di addestramento che è tra uno e due ordini di grandezza inferiore a quello di OpenAI o1, epperò funziona “good enough”, che era già una volta un mantra per i servizi internet ma ormai è diventata la bibbia – anche perché. diciamocelo, non è per nulla scontato che questi sistemi diano risposte direttamente utilizzabili, anzi.

Anch’io ho provato a usarlo. Chiedendogli chi è Maurizio Codogno, senza dargli nessun contesto, ha tirato fuori qualche frase adulatoria e senza un vero contenuto:

Maurizio Codogno is an Italian mathematician, blogger, and science communicator. He is known for his work in popularizing mathematics and making it accessible to a broader audience. Codogno has written extensively on mathematics, often focusing on its applications and relevance in everyday life. He is also a prolific blogger, contributing to various platforms where he shares insights, explanations, and commentary on mathematical topics.

Codogno has authored several books and articles aimed at demystifying complex mathematical concepts for non-experts. His efforts in science communication have made him a respected figure in the Italian scientific community and beyond. If you have specific questions about his work or contributions, feel free to ask!

(sì, io preferisco usarlo direttamente in inglese per togliere un passaggio). Rispetto ai miei tentativi con il primo ChatGPT ha evitato di parlare del mio omonimo ex calciatore, che è quello che ha la voce su Wikipedia, e soprattutto non si è inventato titoli di libri che non ho mai scritto. Ma quello che mi ha stupito di più è stata la risposta a una variante quesito proposto il mese scorso da Mike Loukides in questo articolo: “Sai dimostrare che se tutte le cifre di un numero primo sono 1 allora il numero di cifre deve essere un numero primo?” Chiunque abbia letto Martin Gardner lo sa, e immagino che nel corpus di addestramento ci sia qualcosa del genere: però la domanda posta così non è immediata. Io ho fatto leggermente di peggio: ho chiesto

A repetitium is a number which is written using a single digit, like 666. Can you find a necessary condition for a repetitium to be a prime number, and explain me which steps you did to arrive at the conclusion?

scegliendo apposta un termine inesistente per definire quelli che in letteratura sono detti repunits, dando come esempio un numero la cui cifra ripetuta non è 1, e chiedendo di trovare una condizione necessaria senza esplicitarla. Potete vedere la risposta di DeepSeek qui. Nulla da eccepire, il che da un certo punto di vista è inquietante: d’altra parte afferma di essere il LLM più performante nel test MATH-500.

Secondo il Financial Times, Deep Seek afferma di essere stato addestrato usando 2048 schede grafiche Nvidia H800, con un costo di 5,6 milioni di dollari e 671 miliardi di parameteri: molto meno dei rivali. Sempre secondo il FT, OpenAI ha accusato DeepSeek di avere usato GPT-4 come punto di partenza per distillare i suoi contenuti… comportamenti illeciti un po’ come le accuse di violazione di copyright nei confronti di OpenAI, insomma. Più che altro, quello che io noto è che la mia preoccupazione riguardo al set di training generato automaticamente non è condivisa, e che in questo modo si arriva a un risultato “good enough” con una frazione del costo di addestramento. (Poi, leggendo qui, c’è anche chi sospetta che quei dati siano appositamente sottostimati).

Ovviamente DeepSeek ha scelto di sparigliare il mercato, che fino a questo momento era tenuto saldamente in mano dai soliti noti. Questo significa tra l’altro che la bolla AI (e quella delle utility energetiche…) potrebbe scoppiare molto prima di quanto si pensasse. Peggio ancora, il Post cita il blog Stratechery, dove Ben Johnson ritiene che in DeepSeek ci siano anche migliorie importanti, almeno rispetto all’efficienza (anche se pensa che o1 sia ancora migliore come capacità). Da questo punto di vista continuo a credere che abbiamo raggiunto un plateau, e per passare dal good enough al “good without ifs and buts” :-) occorrerà qualche nuova idea. Staremo ad aspettare: in fin dei conti se ora è più facile entrare nel mondo LLM magari a qualcuno l’idea arriverà…

Aggiornamento: (9:00): Sicuramente se uno non ha fatto un account DeepSeek non vede nulla, non ho fatto prove con un account diverso. Allego quindi screenshot (cliccabili per ingrandire) della conversazione.

prima schermata

seconda schermata

terza schermata