Per dare un po’ di gioia a Guia Soncini (che è già uscita con uno dei suoi amabilissimi commenti prima ancora che io mi mettessi a scrivere qualcosa… mica posso deluderla) mi sono deciso a leggere e commentare questo post di Massimo Mantellini che racconta della sua ricerca negli inferi delle pagine di risultati di una ricerca di Google. A Mantellini pareva di ricordare che quando il film era uscito le recensioni fossero state molto schierate (o estremamente positive o estremamente negative), ma i primi risultati non erano quelli che voleva lui e quindi è dovuto andare sino alla ventesima pagina. Bene. Ho provato anch’io a fare la stessa ricerca (“la grande bellezza”, senza le virgolette) e ho avuto risultati simili, tranne che il suo post adesso è nella top ten. Peccato che questo non significhi nulla, se non che in effetti gli algoritmi di Google ogni tanto hanno delle pecche (e sarebbe divertente scoprire dove *questo* mio post si situerà: qualcuno vuole fare la prova?) Ecco perché la cosa non significa nulla, almeno a mio parere.
(1) Google non sa cosa voglio cercare (beh, non è proprio vero, ma di quello ne parlo dopo). Tanto per dire, fino a stamattina la frase “La grande bellezza” a me non diceva proprio nulla: è tanto se sapevo che l’ultimo film di Sorrentino, qualunque fosse il suo nome, era entrato nella short list dei nove film stranieri tra cui verrà scelta la cinquina. (Occhei, a me il cinema interessa zero, ma quello è un mio problema). Di per sé, il fatto che Google abbia “capito” che si parlasse del film è un grande risultato.
(2) Scordatevi tutte le palle che avete sentito sui motori di ricerca semantici. Non funzionano, scommetto che non funzioneranno nei prossimi cinque anni, e scommetto che tra cinque anni potrò rifare la stessa identica scommessa. Gli algoritmi di Google funzionano secondo tecniche di tutt’altro tipo (fondamentalmente statistiche su quantità enormi di dati): è sempre stato così e le cose non cambieranno presto. Non è un caso che tra i primi link ritornati da una ricerca ci sia quasi sempre la voce di Wikipedia al riguardo e che in alto a destra di questa ricerca particolare ci siano i siti di recensioni cinematografiche: l’unico modo che Google ha per inserire della “semantica” nei suoi risultati è decidere a priori che certi siti sono semanticamente importanti in assoluto (Wikipedia) o in relativo (se statisticamente La grande bellezza è un film, allora si evidenziano i siti che recensiscono film)
(3) Non è nemmeno strano che ci siano le ultime notizie dei media e non quelle uscite a suo tempo. Perché io che faccio una ricerca oggi dovrei essere più interessato al passato che al presente? E se la gente clicca sui siti dei media, perché Google non dovrebbe indicizzarli più che altri siti snobbati? (a parte naturalmente perché gli editori non lo vogliono… mai capito perché non facciano un opt-out esplicito sullo spider di Google, è banalissimo) (no, lo capisco benissimo, tranquilli). In effetti nelle opzioni di ricerca avanzata manca una spunta “elimina le voci più recenti di tot”, ma non saprei in quanti la userebbero.
(4) In realtà Google sa fin troppe cose di noi che non siamo i suoi clienti ma i suoi fornitori (di dati): quindi, se Mantellini cercasse spesso recensioni, le recensioni dovrebbero salire in alto nei risultati della *sua* ricerca. Non so se ipotesi e tesi siano vere, però.
(5) Riprendendo il punto 2: come fa Google a immaginare che Mantellini (o chiunque altro) voglia comunque vedere le recensioni negative e non solo le positive, e voglia vedere le recensioni “della rete” (qualunque cosa voglia dire) e non quelle dei siti specializzati? Per il secondo punto, ricaschiamo sul modello statistico: al 99% delle persone che vogliono leggere una recensione di quel film importuntubo che Leonardo ne avesse parlato a suo tempo. Per il primo punto, per non saper né leggere né scrivere avrei fatto una ricerca “la grande bellezza recensioni negative” (che tra l’altro mi appare prima di finire la frase, il che significa che non sono l’unico ad avere avuto questa brillante idea). I risultati, da una mia veloce scorsa, non saranno il massimo: ma abbiamo tolto Wikipedia, abbiamo tolto giornali e affini, abbiamo mandato molto in giù i siti di cinema mainstream. Certo, poi possiamo discutere sulla qualità delle pagine che vengono ritornate: ma ancora una volta non esiste un modo di valutare automaticamente la qualità di una pagina, ma solo la sua popolarità.
Su una cosa però mi sento di dare ragione a Massimo. Nell’ultimo anno o due c’è un forte inquinamento di risultati, con una serie di siti fotocopia che incollano lo stesso testo (anche in ispregio al copyright, ma non è di quello che voglio parlare). Dieci anni fa questo non succedeva per l’ottima ragione che non capitavano così spesso queste scopiazzature. Il guaio è che l’algoritmo che trova “le pagine simili” non sta funzionando così bene come un tempo, e Ciò È Male… anche se poi basta saper fare bene la ricerca e tutto si rimette a posto.
In definitiva? L’internauta comune dovrà reimparare a fare ricerche. Se non ci riuscirà, peggio per lui.
Ultimo aggiornamento: 2013-12-31 14:22
Grazie mille .mau.,
mi interessa in particolare il punto 3. Io sono convinto che news e cronologia da tempo inquinino moltissimo i risultati. In un numero rilevante di casi le ricerche sono indipendenti da entrambi. Con l’aggravante che le ricerche cristallizzano questi dati nel tempo. Un esempio che faccio sempre: se oggi fai una ricerca su Mike Buongiorno è assai improbabile che tu stia cercando notizie sulla vicenda del sequestro della sua bara, l’ultima news che lo riguarda (ora non ho provato ma è una prova fatta tempo fa). Io credo che quella notizia fosse poco rilevante anche nei giorni della vicenda, ma se anche così non fosse, se Google avesse una vocazione documentale dovrebbe propormi prima altri risultati. In altre parole penso che la scelta (che ovviamente non è casuale) di includere simili risultati sia una scelta culturalmente controproducente. Mi dice che ne pensi?
M.
@mante: premesso che non so ovviamente quali siano gli algoritmi googliani e quindi faccio quelle che in inglese definirei “educated guesses” e in italiano “tiri a indovinare” a partire da quello che vedo, le mie idee sono queste.
Se ricordi, c’è stato un periodo in cui i blog erano quasi sempre in cima ai risultati, presumibilmente perché il PageRank premiava tutti i blogroll e le autocitazioni: a un certo punto Google se n’è accorta e li ha penalizzati. Se volesse penalizzare le news potrebbe insomma farlo senza problemi: ma non lo fa. Perché? Boh. La prima ragione che mi viene in mente è che generalmente la gente clicca sui siti dei media, e quindi statisticamente questi diventano i preferiti. La seconda è che nonostante tutti gli alti lai gli editori sono contenti di risultare in cima alle ricerche. Ma magari ce ne sono delle altre.
Per Mike Bongiorno: c’è in effetti un link alla salma ritrovata tra i primi risultati, ma è di http://www.tvblog.it/tag/mike+bongiorno – quindi dei tag di un sito che si occupa di tv – il che con Bongiorno ha senso – e che evidentemente fa SEO ottima e abbondante (nota che il link è appunto alla categoria, non al post vero e proprio). Se chiedessero *a me* di dare un peso maggiore alle news, lo farei sicuramente con una distribuzione ipergeometrica, o se preferisci con un peso proporzionale a 1/t dove t è il tempo trascorso: quindi essendo ormai passati due anni dal ritrovamento della salma il “peso news” è praticamente nullo e sono altre le categorie che contano. Figuriamoci se a Google non fanno anche così.
Infine: perché Google dovrebbe avere una vocazione documentale? Davvero, non riesco proprio a capirlo. Google raccoglie dati per fare soldi. Punto. E quindi torniamo alla casella uno: rispetto a quindici anni fa ci sono molti più dati, ci sono “dati avvelenati” (tutto il giro del SEO), e quindi quello che poteva permetterci di essere fortunati allora non ce lo permette più oggi.
La ragione (magari sbagliata) è che secondo me la gente cerca motori con la vocazione documentale. E se anche non cerca nulla del genere la mission di G dovrebbe essere quella (lo so fa ridere)
@mante: la gente secondo me non sa nemmeno cosa significhi, “vocazione documentale”.
Brevissimo, che ho il figlio da curare :-)
2) visita schema.org. No, non avrà successo. Ma si può fare ;-).
3) per capire meglio come funziona la baracca, visita http://moz.com/google-algorithm-change,
con *molta* pazienza puoi capire per quale motivo le cose funzionano così, e tieni presente che c’è gente che lavora 12 ore al giorno per inquinare i risultati di BigG.
@mante: non ho mai capito perché ti accanisci solo con bigG. Prova a fare la stessa ricerca con bing, e vediamo a che livello ti lamenterai…
@mestesso: schema.org è esattamente la stessa cosa di wikidata. La semantica ce la mettiamo noi in modo che i motori di ricerca possano sfruttarla.
@.mau.: la semantica la possiamo mettere solo noi.
I computer possono (a fatica) fare elaborazioni semantiche su dati prodotti da noi. Almeno fino a quando un computer non avrà una coscienza di sé, il tuo commento è una tautologia.
non capisco cosa c’entri schema.org. un conto è scrivere pagime semanticamente corrette, altro è fare in modo che il motore legga queste pagine e ce le proponga slegando le sue scelte da criteri statistici. comunque proprio ieri leggevo un articolo su come l’algoritmo di Google si stia modificando per andare incontro al linguaggio umano delle ricerche vocali. insomma capirebbe frasi del tipo “Fammi vedere un po’ di foto di Roma” e non solo come una volta ” Roma immagine”.
in ogni caso la ricerca di Mantellini avrebbe dovuto contenere la parola “recensione”
@banasci: schema.org, oltre ovviamente a spingere per far scrivere pagine sintatticamente corrette, permette anche di usare dei tag semantici per aiutare i poveri motori di ricerca.