Avrete sicuramente letto del nuovo modello IA di Anthropic, Claude Mythos: a parte la fuga di notizie della scorsa settimana, possiamo leggere qui e qui di come il rilascio della nuova versione di Claude sia stato posticipato per dare tempo di tappare tutte le falle di sicurezza che ha trovato (Immagino soprattutto in COBOL, visto che a essere più preoccupate sono le banche; poi vabbè, c’è l’implementazione di JavaScript di Firefox, ma lì mi sa che sia sparare sulla Croce Rossa. Un punto di vista possibile per valutare il caso è quello che scrive Andrea Monti, che continua a pensare che il software deve essere visto come un prodotto e non come un’opera intellettuale, e quindi chi lo produce deve essere responsabile degli errori in esso presenti: in questo caso non parliamo ovviamente di Mythos ma dei programmi fatti spesso con i piedi. Ma uno scettico come me vede le cose in maniera un po’ diversa.
Non arrivo a quanto scrive Mehul Gupta, che fa notare come per esempio è improbabile che Mythos sia molto migliore dei modelli precedenti in tutti i campi: anche Gemini 3 per esempio ha surclassato ChatGPT al prezzo di aumentare enormemente il numero di allucinazioni, e soprattutto che non ci sono molti dati reali divulgati, a differenza di quanto è sempre stato fatto. Per esempio, posso immaginare che un sistema di questo tipo possa essere in grado di trovare da solo (o quasi…) zero-day exploit, e anche di scrivere codice che un non esperto possa prendere e usare; sicuramente questo sarà un brutto colpo per gli esperti di cibersicurezza che si trovano un pericoloso concorrente. Ma come sempre io in questi casi mi affido a Gary Marcus. La prima cosa che fa notare è che non serve un LLM per trovare i bachi nel software: gli analizzatori di codice statico ci sono da decenni, e costano molto meno. Anthropic stessa dice che il costo totale per trovare il baco in OpenBSD è stato di 20000 dollari. È stata onesta: non ha considerato i 50$ del singolo lancio ma ha preso tutto il pacchetto di lanci all’interno del quale è stato trovato il baco. Ma è stanta anche reticente: quando afferma che più del 99% dei bachi che ha trovato non sono ancora stati corretti, e quindi non può descriverli, non specifica quanto sono gravi e sfruttabili in pratica. E come sempre non è chiaro quanto automatizzabile (con o senza IA) sia il controllo dell’output del sistema, e quanto invece richiede ancora un controllo umano. Io insomma rimango ad aspettare.
Ah: all’inizio parlavo del codice di Claude accidentalmente pubblicato in rete (secondo me la causa è stata un errore impercettibile delle IA). Sarà anche vero che ormai tutto il codice di Claude è scritto da Claude stesso, ma a quanto pare il risultato non è esattamente favoloso, con routine enormi, bachi che un qualche programmatore umano ha parzialmente tappato con il classico sistema informatico (chiudi tutto dopo un po’ che non funziona), e così via…
Da utilizzatore di vari LLM per lo sviluppo ed analisi del codice posso dire che:
1) Le ultime versioni sono molto migliorate da questo punto di vista. E non lo dico solo io: uno dei top mantainer del kernel di Linux ha detto “ora non riceviamo più solo AI slop da fare review, ma diversi bachi veri”.
2) Tool di analisi statica: ce ne sono di belli, ma il vero problema è che per certe cose fanno fatica a trovare un contesto comune, cosa che un LLM fa molto meglio. Anche qui come in molti altri contesti gli LLM non sostituiranno i tool di analisi statica, ma si posizioneranno in uno scenario diverso da questi
3) costo/benefici: spendere 20K per trovare un baco di sicurezza è poco se è di alta priorità, onesto per uno di media ed è la dimostrazione pratica dell’impatto della IA: aumento dell’efficienza.
Insomma, non è che ci saranno miracoli anche qui, ma un miglioramento rispetto all’esistente (che è già buono nel contesto) sicuramente “sblocca” diversi contesti.
Poi secondo me tutto il bailamme deriva dal fatto che solo da poco le banche USA si son messe ad analizzare il loro codice, che io so benissimo essere una vera merda perché in USA si è ossessionati dalla TCO e si lavora al massimo risparmio anche dove fabbrichi soldi (ben più schifosi delle banche italiane che non è che risplendano), e molto meno dalla specifica release in oggetto. Sono anche dell’idea che qualcuno abbia messo recentemente la pulce nell’orecchio a livelli elevati ed il boomerang si è visto solo ora.