Se vi dicessi che ho capito questo articolo di Jose Crespo, mentirei. E allora perché ve ne parlo? Perché secondo me ci sono dei punti interessanti – quelli sì comprensibili – che permettono di avere un’idea di come faccia un LLM a tirare fuori una risposta, e soprattutto perché può sbagliare.
Gli attuali transformer in pratica fanno tante moltiplicazioni di matrici (hessiane) n×n per trovare dei massimi locali (anzi dei minimi, perché si cambia segno) per la parola successiva nel testo, usando il metodo del gradiente (la direzione di massima discesa). Qual è secondo Crespo la ragione degli errori degli LLM? Le allucinazioni sono per lui “interpolazioni fiduciose verso il nulla, senza la possibilità di rispondere che non ha idea”: dal punto di vista del gradiente ci si trova in una pianura (il numero di condizionamento κ, cioè il rapporto tra il più alto e il più basso autovalore, è alto) in cui tutte le direzioni sembrano simili, e quindi il modello ne sceglie una a caso restando come sempre fiducioso. Il mancato trasferimento dei pattern si ha se la nitidezza spettrale ε è alta; in questo caso il modello si è trovato in una valle molto stretta da cui non è riuscito a uscire. Con i dati di addestramento funziona tutto perfettamente, ma se appena i dati reali sono un po’ diversi ci si perde del tutto. Infine la fragilità conflittuale, quando cambi minimi del modello danno grandi differenze nel risultato, indica che ci sono autovalori δ dell’hessiana che sono negativi, e quindi ci siamo trovati in un punto di sella: equilibrio instabile, per cui una minima perturbazione è sufficiente a partire per la tangente.
Fin qua tutto chiaro, come è chiaro il fatto che il problema è che il metodo del gradiente, pur con tutti i trucchi che permettono ogni tanto di saltare di palo in frasca, è chiaramente locale. Mi sono perso quando Crespo afferma che dovremmo usare come paradigma quello della musica (principalmente bachiana), che non solo riduce il numero di variabili ma ha una visione globale, perché sappiamo che la tonalità di partenza è quella terminale. La curvatura locale corrisponde a un’ambiguità armonica, che però alla fine tende sempre verso l’origine. L’esempio che fa è quello del concerto triplo BWV 1044, dove la successione armonica iniziale è Lam – Mi – Rem – Doaum – Fa – Sol – Do – Mi – Lam. L’accordo di do aumentato (do-mi-sol#) è inerentemente ambiguo, perché lo possiamo anche vedere come mi aumentato o sol diesis aumentato; ma è seguito da un fa maggiore che ci mantiene nella tonalità. A parte che ho dato una rapida occhiata allo spartito e il do aumentato non l’ho visto, quel tipo di accordi spesso serve proprio per cambiare tonalità, e comunque il Piccolo labirinto armonico mostra come anche nella musica si possono avere delle allucinazioni :-) Crespo parla così di approccio riemaniano inverso: Riemann parte da una struttura localmente piatta per creare delle varietà nello spazio multidimensionale, qui invece si collassa tutta la struttura multidimensionale in un piano che è molto più semplice da gestire. Più precisamente la mappatura da lui proposta è una funzione Φ che assegna a ogno token un punto nel circolo delle quinte. Se la “successione di accordi” data dalla risposta dell’LLM risolve sulla tonica, tutto bene: altrimenti la computazione iniziale era sbagliata, e Φ ce lo mostra.
Tutto questo funziona in pratica? Secondo me no, ma se lo facesse sarebbe interessante…
Non ho alcuna conoscenza e quindi competenza circa l’argomento tratttato; tuttavia, se leggo “dal punto di vista del gradiente ci si trova in una pianura” mi aspetto che “il numero di condizionamento κ, cioè il rapporto tra il più alto e il più basso autovalore” sia basso, non alto.
è quello che mi sarei aspettato anch’io, ma ho tradotto pedissequamente il testo…
@notiziole buongiornoconcordo, ricorda un delirio da mescalina forse?
Risposta remota
URL del commento originale
Il tuo profilo
È possibile. Oppure è un riferimento alla kepleriana armonia delle sfere celesti.
@notiziole
Risposta remota
URL del commento originale
Il tuo profilo