Per dare un po’ di gioia a Guia Soncini (che è già uscita con uno dei suoi amabilissimi commenti prima ancora che io mi mettessi a scrivere qualcosa… mica posso deluderla) mi sono deciso a leggere e commentare questo post di Massimo Mantellini che racconta della sua ricerca negli inferi delle pagine di risultati di una ricerca di Google. A Mantellini pareva di ricordare che quando il film era uscito le recensioni fossero state molto schierate (o estremamente positive o estremamente negative), ma i primi risultati non erano quelli che voleva lui e quindi è dovuto andare sino alla ventesima pagina. Bene. Ho provato anch’io a fare la stessa ricerca (“la grande bellezza”, senza le virgolette) e ho avuto risultati simili, tranne che il suo post adesso è nella top ten. Peccato che questo non significhi nulla, se non che in effetti gli algoritmi di Google ogni tanto hanno delle pecche (e sarebbe divertente scoprire dove *questo* mio post si situerà: qualcuno vuole fare la prova?) Ecco perché la cosa non significa nulla, almeno a mio parere.
(1) Google non sa cosa voglio cercare (beh, non è proprio vero, ma di quello ne parlo dopo). Tanto per dire, fino a stamattina la frase “La grande bellezza” a me non diceva proprio nulla: è tanto se sapevo che l’ultimo film di Sorrentino, qualunque fosse il suo nome, era entrato nella short list dei nove film stranieri tra cui verrà scelta la cinquina. (Occhei, a me il cinema interessa zero, ma quello è un mio problema). Di per sé, il fatto che Google abbia “capito” che si parlasse del film è un grande risultato.
(2) Scordatevi tutte le palle che avete sentito sui motori di ricerca semantici. Non funzionano, scommetto che non funzioneranno nei prossimi cinque anni, e scommetto che tra cinque anni potrò rifare la stessa identica scommessa. Gli algoritmi di Google funzionano secondo tecniche di tutt’altro tipo (fondamentalmente statistiche su quantità enormi di dati): è sempre stato così e le cose non cambieranno presto. Non è un caso che tra i primi link ritornati da una ricerca ci sia quasi sempre la voce di Wikipedia al riguardo e che in alto a destra di questa ricerca particolare ci siano i siti di recensioni cinematografiche: l’unico modo che Google ha per inserire della “semantica” nei suoi risultati è decidere a priori che certi siti sono semanticamente importanti in assoluto (Wikipedia) o in relativo (se statisticamente La grande bellezza è un film, allora si evidenziano i siti che recensiscono film)
(3) Non è nemmeno strano che ci siano le ultime notizie dei media e non quelle uscite a suo tempo. Perché io che faccio una ricerca oggi dovrei essere più interessato al passato che al presente? E se la gente clicca sui siti dei media, perché Google non dovrebbe indicizzarli più che altri siti snobbati? (a parte naturalmente perché gli editori non lo vogliono… mai capito perché non facciano un opt-out esplicito sullo spider di Google, è banalissimo) (no, lo capisco benissimo, tranquilli). In effetti nelle opzioni di ricerca avanzata manca una spunta “elimina le voci più recenti di tot”, ma non saprei in quanti la userebbero.
(4) In realtà Google sa fin troppe cose di noi che non siamo i suoi clienti ma i suoi fornitori (di dati): quindi, se Mantellini cercasse spesso recensioni, le recensioni dovrebbero salire in alto nei risultati della *sua* ricerca. Non so se ipotesi e tesi siano vere, però.
(5) Riprendendo il punto 2: come fa Google a immaginare che Mantellini (o chiunque altro) voglia comunque vedere le recensioni negative e non solo le positive, e voglia vedere le recensioni “della rete” (qualunque cosa voglia dire) e non quelle dei siti specializzati? Per il secondo punto, ricaschiamo sul modello statistico: al 99% delle persone che vogliono leggere una recensione di quel film importuntubo che Leonardo ne avesse parlato a suo tempo. Per il primo punto, per non saper né leggere né scrivere avrei fatto una ricerca “la grande bellezza recensioni negative” (che tra l’altro mi appare prima di finire la frase, il che significa che non sono l’unico ad avere avuto questa brillante idea). I risultati, da una mia veloce scorsa, non saranno il massimo: ma abbiamo tolto Wikipedia, abbiamo tolto giornali e affini, abbiamo mandato molto in giù i siti di cinema mainstream. Certo, poi possiamo discutere sulla qualità delle pagine che vengono ritornate: ma ancora una volta non esiste un modo di valutare automaticamente la qualità di una pagina, ma solo la sua popolarità.
Su una cosa però mi sento di dare ragione a Massimo. Nell’ultimo anno o due c’è un forte inquinamento di risultati, con una serie di siti fotocopia che incollano lo stesso testo (anche in ispregio al copyright, ma non è di quello che voglio parlare). Dieci anni fa questo non succedeva per l’ottima ragione che non capitavano così spesso queste scopiazzature. Il guaio è che l’algoritmo che trova “le pagine simili” non sta funzionando così bene come un tempo, e Ciò È Male… anche se poi basta saper fare bene la ricerca e tutto si rimette a posto.
In definitiva? L’internauta comune dovrà reimparare a fare ricerche. Se non ci riuscirà, peggio per lui.
Ultimo aggiornamento: 2013-12-31 14:22