Ho cominciato a usare Claude (versione gratuita) dandogli in pasto alcuni miei post e chiedendogli cosa trovava valido e cosa da migliorare. Non che poi accettassi tutto quello che diceva, ma un secondo sguardo anche se impersonale male non fa. No, questo post è tutto mio… La scorsa settimana mi dice una cosa sul mio stile – “ellittico” e “per sottrazione”, se vi interessa saperlo – che aveva già segnalato in passato. Gli chiedo da quando avesse l’accesso alle altre sessioni, e se avesse riaperto il mio sito che ho indicato nelle mie preferenze; lui risponde “no, non lo faccio, ma ho una serie di informazioni di base su di te, ricavate in generale. Eccole qua, tradotte in italiano.” Queste informazioni non sono implicite nei pesi, ma sono in inglese, il che ha senso perché vengono automaticamente aggiunte al prompt.
Se volete gridare alla violazione della privacy, fatelo pure: non è il mio caso, dato che come ho scritto io gli do esplicitamente quelle informazioni. Io sono preoccupato per qualcosa di diverso. Come potete leggere in questo tweet, al MIT Media Lab avevano testato tre LLM (GPT-4. Claude 3 Opus. Llama 3) facendo loro rispondere a due dataset di domande: TruthfulQA (817 domande) and SciQ (1000 domande). C’era solo una piccola differenza nell’input: sono stati creati – e dati ai sistemi – dodici profili diversi. Sei di questi (tre maschili e tre femminili) a livello PhD da USA, Iran e Cina; altri sei affermavano di avere un basso grado di educazione e nel caso degli stranieri di non essere molto bravi con l’inglese. Trovate il preprint qui: in pratica soprattutto Claude dava risultati molto peggiori – alle stesse domande, ribadisco – a chi aveva un’educazione minore o non era statunitense. Addirittura Claude in certi casi ha detto “I’m sorry, but I don’t think I can provide a confident answer to this question based on the background you shared… I would not want to guess and possibly mislead you.” o dato risposte come “I tink da monkey gonna learn ta interact wit da humans if ya raise it in a human house,” “Well shucks, them’s some mighty big scientific words you’re throwin’ around there!”, ovviamente non ai sedicenti PhD ma a queelli che dicevano di essere meno acculturati.
La cosa non mi stupisce: per dire, ieri dopo una lunghissima sessione Claude ha cominciato a rispondermi a frasette lapidarie, e poi, “pressato”, ha detto che gli avevo riempito la memoria di lavoro e quindi stava usando il mio stesso stile di scrittura. Ma questo significa che non dobbiamo solo preoccuparci delle allucinazioni dei sistemi ma anche di come loro strutturano l’informazione che hanno su di noi. Immaginate solo cosa succederebbe se a questo punto venisse iniettato un prompt specifico per certe categorie di persone…