Scrive ArsTechnica che all’inizio di marzo Google ha lanciato un nuovo tipo di CAPTCHA. L’acronimo, se mai ve lo foste chiesti, sta per (“Completely Automated Public Turing test to tell Computers and Humans Apart”, cioè “Test di Turing completamente automatizzato per distinguere tra umani e computer”); i CAPTCHA sono quelle immagini “dimostra che non sei un robot” in cui bisogna indovinare quello che c’è scritto. Google è stata una pioniera nel campo, sfruttandoli prima per farci riconoscere le parole dei libri digitalizzati di cui il suo OCR non riusciva a cavare un ragno dal buco e poi per farci leggere le parole e i numeri che non riusciva a riconoscere automaticamente e quindi taggare nel suo Google Street Map, guadagnandoci così due volte. Ora però si direbbe che tutto questo non le serve più: con il suo nuovo reCAPTCHA (“tosto per i robot, facile per gli umani”) afferma che nella maggior parte dei casi riesce a distinguere le intelligenze naturali da quelle artificiali senza chiederci nulla, e quindi semplificandoci la vita.
Tutto bellissimo, ma c’è un problema. Come potete leggere per esempio in questo commento di Slashdot, quello che probabilmente fa Google è tracciarti come utente (usando la tua CPU con l’esecuzione di codice javascript ma questo è l’ultimo dei problemi, oppure per mezzo di una serie di cookie) e quindi chi sceglie di navigare anonimamente oppure cancellare i cookie alla fine di ogni sessione sarà preso per un robot e si troverà tutti i reCAPTCHA se non ancora di più – in fin dei conti quell’utente sarà schedato come cattivo. Certo, di per sé non sarebbe la fine del mondo, ma io che sono un po’ paranoico penso che questo diventerebbe un passo ulteriore verso la ghettizzazione di chi non vuole farsi profilare da cima a piedi. Voi che ne pensate?
Navigare su TOR è diventato molto difficoltoso, ad esempio. Quasi ad ogni pagina bisogna risolvere uno, se non più, captcha.
A me sembra, a pelle, un autogoal clamoroso.
Se io fossi un cattivone che vuol fare un qualche harvester per andare a beccare, per dire, gli indirizzi email dei contact DNS su un whois server, se questo usasse il sistema di profilazione, mi basterebbe fare una query a manina, risolvere il CAPTCHA, farmi whitelistare fra i buoni e poi lanciare il bot.
Sicuramente problemi di privacy esistono, visti gli interessi in gioco.
Su come questi reCAPTCHA funzionino non ho fatto indagini approfondite, percui prendetelo con le molle, ma in parte si basano sul cosi detto behavioural computing, o detto in altri termini sul fatto che alcuni comportamenti umani piu’ o meno inconsci abbiano una dinamica nota ma non facile da replicare sinteticamente.
Per rinnovare un servizio devo passare un reCAPTCHA ad intervalli regolari, ed il tutto si basa su come io accedo alla paginae dico “sono un umano”. IL tempo di reazione e le curve di risposta vengono comparate a quelli di altri umani, e se abbastanza vicine “passo”. Sono troppo affaticato ora per vedere in dettaglio come funge, ma il principio e’ questo.
ci avevo pensato: ma il mio tempo (a) di clic sulla spunta “I am not a robot” e (b) di clic sulla casella di ok dopo che la spunta è stata validata è così variabile che non so che ci possano fare.
Non e’ solo il tempo, ma anche il modo (con cui sposti il puntatore).
Non ho capito una cosa.
Google è stata una pioniera nel campo, sfruttandoli prima per farci riconoscere le parole dei libri digitalizzati di cui il suo OCR non riusciva a cavare un ragno dal buco e poi per farci leggere le parole e i numeri che non riusciva a riconoscere automaticamente
Ma se Google non riusciva a riconoscere automaticamente le parole o in numeri che inseriva nei CAPTCHA, come faceva a verificare se tu li avevi interpretati correttamente?
hai notato come ti mettesse due stringhe da leggere? :-)
A dire il vero io su quelle sono spesso passato dopo aver digitato cifre a caso e non quelle proposte (all’inizio per caso, poi con lo scopo di almeno non dare il mio contributo visto che usando abitualmente TOR me ne trovo quasi a ogni pagina), c’è stato un periodo in cui funzionava tre volte su quattro, poi è diventato stringente (e poco dopo sono passati alle foto da scegliere) :D
Dovete barare più spesso!
Io non ne ho capita un’altra (di punteggiatura):
«L’acronimo, se mai ve lo foste chiesti, sta per (“Completely Automated Public Turing test to tell Computers and Humans Apart”, cioè “Test di Turing completamente automatizzato per distinguere tra umani e computer”); i CAPTCHA sono quelle immagini “dimostra che non sei un robot” in cui bisogna indovinare quello che c’è scritto.»
Perché lì quelle parentesi tonde? Le avrei capite dopo “acronimo”, ma dopo “per” no.
perché sono partito da un copincolla, avrei voluto spostare la parentesi aperta dopo la spiegazione inglese e prima della versione italiana, e me ne sono scordato.