Ieri sull’Official Google Blog è apparso un intervento (“Helping computers understand language“) in cui viene spiegato l’approccio di Google al problema delle migliorie ai risultati delle ricerche, cercando di applicare tecniche di intelligenza artificiale per inserire nei risultati anche occorrenze diverse da quelle richieste – ad esempio, se uno chiede song words arrivano anche le pagine dove appaiono le parole song lyrics. Douglas Hofstadter, il cui punto di vista sull’intelligenza artificiale è sicuramente non mainstream, ha subito scritto un’email in cui senza usare mezzi termini se la prende con questo sistema che gli rende impossibile usare Google in maniera “creativamente stupida” (cercando ad esempio di capire quale tra due frasi in una lingua straniera è la più usata in pratica) e mandando in copia la mail alla cricca dei suoi amici e conoscenti che sa essere interessati a questi argomenti.
Dal mio punto di vista quello che conta esplicitamente è la semantica dietro tutto questo. Per la cronaca, Google aggiunge i sinonimi (corretti o no che siano è un’altra storia) nelle ricerche normali: se però si fa una ricerca col testo tra virgolette oppure – ho scoperto solo leggendo quel post – precedendo una o più parole con un +, la ricerca resta su quella precisa frase o parola. Io mi preoccuperei davvero se il significato semantico delle virgolette, cioè una citazione precisa – lasciamo perdere l’italica stampa e i famigerati virgolettati di Repubblica – non divenisse più quello standard; sulle singole parole sono indeciso se sia meglio fare come fa Google, cioè “default con sinonimi, occorre specificare che non li si vuole” oppure l’opposto “default senza sinonimi, occorre dire da qualche parte che li si vuole”, chessò con un LIKE maiuscolo all’inizio della stringa di ricerca. C’è poi il secondo punto, quanto cioè un algoritmo puramente statistico possa dare un supporto fattivo alla ricerca del vero significato di quello che l’utonto tipico chiede. Viste certe stringhe di ricerca che capitano sul mio blog, in effetti la cosa potrebbe anche funzionare se fatta bene :-)
Voi che ne pensate?
Ultimo aggiornamento: 2010-01-20 12:56
Mi sento stupido, ma perché DH dice che non può fare le sue ricerche quando tu stesso in seguito precisi che con l’operatore ‘+’ o ‘”‘ rimane la possibilità a chiunque di fare le ricerche letterali? E’ un chiaro sintomo di perdita di sensi post-prandiale da parte mia e devo correre per porvi rimedio (non scherzo, davvero non ho capito se son tonto io o manca qualcosa).
Dico che se cerco graphic information google mi da risultati per geographic information.
Se geografia è sinonimo di grafica, siamo messi bene.
@mestesso: quello che ho capito io è che Hofstadter si preoccupi che l’opzione “virgolettato” possa sparire quando Google si sentirà abbastanza bravo da dire “i sinonimi li trovo tutti io”.
@ivo: D’altra parte la vodka è buona ma la bistecca un po’ troppo cotta, no?
@.mau.: DH ha seri sintomi di paranoia.
Inoltre, è statisticamente scorretto fare inferenze tipo “più entry trovo in google più vedo se la cosa è popolare”. Si possono prendere dei bei granchi in questo modo…
@mestesso: aspetta, il testo originale è «I am constantly trying to figure out the best way of saying something in one language or another, and so I will very frequently check two possible phrasings against each other, in order to see whether one has a high frequency and the other a very low frequency.» che non è quello che hai scritto tu (magari non è nemmeno quello che ho parafrasato io, intendiamoci). E garantisco che la cosa è assolutamente normale, considerando che il contesto è quello del linguaggio parlato e non quello delle inferenze statistiche.
Secondo me google fa bene, se sei abbastanza esperto da volere una ricerca letterale allora puoi anche aggiungere + or le virgolette (che non sono state aggiunte di recente ma da anni).
Probabilmente per gli utonti la ricerca per sinonimi, lo stemming e la correzione ortografica sono davvero un grosso aiuto, nonostante il “viste certe stringhe di ricerca che capitano sul mio blog…” che condivido in pieno, ma per chi ha l’esigenza di fare ricerche precise possono essere una scocciatura: da mesi ormai mi ritrovo a usare sempre più spesso le virgolette.
Sul fatto che l’algoritmo sia puramente statistico non mi preoccuperei più di tanto, in Google sono davvero bravi, basta vedere come è migliorato il loro sistema di traduzione automatica in così poco tempo.
A proposito, altrove Google parla di “parole alternative” anziché sinonimi, secondo me una descrizione più adatta e soprattutto meno ambigua per chi è abituato solo al significato più tradizionale di “sinonimo”.
@.mau.: ora mi torna molto meglio ;-). Non era un problema post-prandiale, ma la tua parafrasi era quanto meno ambigua (anche se rimane possibile fare le ricerche come vuole lui!).
Now on-topic: l’impostazione di google segue pedissequamente il concetto di “default”: faccio una ricerca su quanto assumo essere quello che è il default dell’utente che fa la ricerca e non più “il default di google”. E’ un piccolo cambio di paradigma, un poco da grande fratello, ma assolutamente logico e sequenziale per un informatico. Probabilmente meno vero per l’utente “comune”. Prevedo molte lamentele del tipo “ma io pensavo queso e invece mi dai quello”. Ma del resto Google lo sviluppano dei nerd informatici, mica la gente normale.
@ .mau. (in risposta a mestesso): il sistema di DH funziona più che bene con le lingue diverse dall’inglese. Uno dei principali problemi delle ricerche di tipo linguistico per l’inglese è che non c’è un modo per restringerle a testi scritti solo da persone di madrelingua. Esempio: le centinaia di migliaia di occorrenze in testi in lingua inglese che contengono since n years, tipico errore di molti stranieri che usano since al posto di for.
Personalmente trovo fastidiosissimo il fatto che Google cerchi anche i sinonimi. È vero che esistono le virgolette, ma spesso non vuoi cercare la frase esatta ma le singole parole esatte. Mi spiego: se uno cerca song words magari vuole anche risultati in cui ci sia song’s words, words in a song, song with words o mille altri, ma non in cui ci sia lyrics (so che l’esempio è un po’ stupido, ma ci sono molti altri casi non banali – che naturalmente non mi vengono in mente al momento – in cui mi è capitata questa situazione).
Per fare questo bisogna virgolettare ogni singola parola, altrimenti i risultati sono solo quelli in cui appare song words come (porzione di) frase esatta. Ora, con due parole non è un problema, ma se le parole diventano 5 o 6, cominciare a mettere le virgolette ad ognuna diventa terribilmente noioso.
Quindi dovendo scegliere auspicherei una ricerca “default senza sinonimi, occorre dire da qualche parte che li si vuole”.
@Ciarlino: risprmi metà tasti aggiuntivi se invece che “song” “words” scrivi +song +words – l’ho scoperto appunto stamattina.
@mestesso: “Si possono prendere dei bei granchi in questo”. Beh, però anche De Mauro ormai nei suoi libri usa le occorrenze di google per dare atto del maggiore o minore uso di una parola nelle diverse lingue (vedi p. es. il “Dizionarietto di parole del futuro”, pp.41, 74 e 79).
@ciarlino: La tua preoccupazione è comprensibile, ma diventerebbe poco importante se google nei risultati desse la precedenza alle occorrenze con le parole esatte, per mettere in posizioni successive i sinonimi. Allora potrei anche cercare song words senza preoccuparmi delle virgolette o del segno +, perché so che i primi risultati che trovo sono quelli che mi interessano, e che posso anche ignorare le occorrenze successive (ovviamente se non mi interessa sapere quante sono le occorrenze totali). Se invece i risultati sono mescolati, ti do ragione. Ma chi mi sa dire quale delle due mie due ipotesi è quella vera?
@ .mau.: Grazie per la dritta. Anch’io la apprendo oggi per la prima volta. Alla prossima occasione la uso.
@ Daniele: Ammetto di non aver dati se non quelli empirici delle mie personali ricerche. Io temo che – per il momento – Google dia i risultati mescolati (mi è capitato di trovare già al terzo o quarto risultato una parola chiave che non avevo cercato – benché comunque affine ad essa). È chiaro che se i risultati fossero ordinati non ci sarebbe più da discutere. Effettivamente sarebbe bello saperne di più in merito.
Il fatto che la ricerca fra virgolette non sia letterale è molto fastidioso. Purtroppo non si può usare il + in combinazione colle virgolette…
È anche vero che Google non è un corpus linguistico, quindi ha diritto di impedirci di usarlo come tale. :-(
@Nemo_bis:
Sì che si può. +”word1 word2″ dovrebbe funzionare (o almeno ha sempre funzionato in passato).
@Marco Barisione: “funziona” nel senso che la ricerca va avanti, ma il + non serve a nulla: prova a cercare +”un pò”.
Ciao Mau, inserisco la seguente nota in inglese (che è parte della risposta di oggi dell’operatore a DH) perché chiarisce: (1) che le virgolette in effetti *escludono* la synonym search, eccetto che per i sinonimi diacritici; (2) che con il + *dentro* le virgolette si possono eliminare dalla ricerca anche questi ultimi; (3) che ci devono essere molti bugs ancora nel funzionamento del tutto (e che gli operatori di google hanno piacere che gli vengano segnalati); (4) che, come qualcuno dei tuoi lettori ha segnalato, l’uso di google per valutare la popolarità di una frase (un uso che mi sembra in effetti molto popolare…) deve essere preso con un grano di sale.
In what follows, since I need to use double quotes for another
purpose, I will use square brackets to indicate a query. Here is how
you can stop Google from synonymizing a particular word: add a plus
sign before it. Google synonymizes [dogs] to include “puppies”, but it
leaves [+dogs] untouched. (This is described in the last line of the
blog post).
As you are obviously aware, phrases are indicated by double quotes.
Within a phrase, Google limits itself to adding only diacritical
variants (including cross-script variants). That is, for the query
[dynatou], it also looks for “äõíáôüò”, but not for synonymous words.
To turn off even the diacritical variants, use a plus before every
word in the phrase that you want to be untouched. Thus, [“+Google
+will +search +exactly +for +this”]. This involves extra typing, but
it is only infrequently that you would need this.
(On a related note, if you want Google to synonymize something, but
don’t want a particular synonym, you can specify that by using that
synonym in the query with a minus sign before it.)
If you do discover that your query is being tampered with despite
your express instructions not to, please let me know. That is
unintentional, and a bug.
As for using Google to judge popularity of a phrase, two things need
to be kept in mind. First, the counts are approximate. Second, they
are biased because of the rampant copying of content (legally or
otherwise). These numbers should be taken with a grain of salt. In
particular, if you find that the counts for two queries are both well
above ten million or so, their relative sizes should not be given much
credit. Although smaller numbers tend to be more accurate, these are
also impacted by the en masse copying of pages mentioned above).
Mi aggiungo alla lista di quelli che si lamentano del tipo di ricerca fra virgolette, che mi piacerebbe fosse veramente letterale. Ogni tanto mi capita di fare ricerche per stringhe ‘strane’ (con numeri e/o caratteri speciali tipo #&%?!) e google non aiuta manco un po’.
Per esempio, come fare una ricerca che trovi tutti e soli i .mau. che ci sono in rete?
@maxxfi: i numeri sono considerati caratteri come tutti gli altri, ho spesso fatto ricerche per numeri. I segni di punteggiatura mi sa siano eliminati a priori. Peccato perché avrei potuto citare per danni tutti quelli che mi chiamano .mau senza il punto di destra.
@paola: ecco, il + dentro le virgolette non l’avevo considerato…
@Daniele: dal punto di vista matematico questa operazione (fare analisi statistiche sulle query di Google) è scorretta, perché l’insieme degli algoritmi di San Google non garantiscono l’invarianza di certi criteri che non ti sto ad elencare.
Ciò detto, se a questi risultati NON si attribuisce il valore di rigore che l’analisi statistica dà, ci si può fare quello che si vuole, ma *spesso* uno ci attacca la convinzione che questi risultati siano lo specchio fedele di una realtà, e questo non è affatto garantito. Può andare bene come può andare male. Insomma, una mezza verità. Basta esserne coscienti.
@all: una parte delle preferenze di ricerca vengono salvate con iGoogle (alias se ci si logga con un account gmail al motore di ricerca e si usa una home page che permette di raggiungere le decinaia di servizi di bigG). Questo può alleviare un certo fastidio nella reiterazione di input delle query. Inoltre tramite cookie il motore ricorda le ricerche precedenti e “aggiusta” l’elenco in base ai siti raggiunti in precedenza. Come prima, può essere un bene od un male, a seconda dei casi. Happy search a tutti!