Googlefight è un sito amatoriale che consente di confrontare la frequenza di due stringhe di ricerca su Google. Lo ha descritto Make terminology decisions with Googlefight con la dovuta premessa che una maggiore frequenza potrebbe non essere un criterio accurato per scegliere tra due termini, però senza sottolinearlo abbastanza.
Purtroppo queste ricerche molto generiche non sono affidabili perché non consentono alcun controllo sul materiale usato per la ricerca. Il web contiene testi di ogni genere, scritti anche da persone non di madrelingua o in contesti informali e non controllati, e include anche molto materiale tradotto approssimativamente.
Googlefight diventa ancora più inaffidabile per le ricerche polirematiche, come si può vedere nell’esempio a destra, perché non le considera come un’unica espressione (“hash tag”) ma come singole parole (hash AND tag).
La stessa ricerca in Google Ngram Viewer dà risultati completamente diversi:
Ngram Viewer restringe le ricerche a corpora di libri, che sono testi verificati, ma le traduzioni non sono escluse e non si può differenziare per tipologia di testo; dà anche utili indicazioni di tipo diacronico, che però si fermano al 2008 (ad es. non tengono conto di Twitter, diventato popolare nel 2007). .
.
Frequenza e lavoro terminologico
La frequenza è sicuramente un criterio valido nelle scelte terminologiche, ma vanno rispettate alcune condizioni. Per le ricerche sarebbe preferibile usare corpora specializzati costruiti ad hoc ed esaminati con strumenti appositi. Se non è possibile, va sempre verificato il contesto d’uso di ogni ricerca e ogni termine andrebbe analizzato in relazione ai suoi concetti sovraordinati, coordinati, subordinati e correlati, tenendo conto anche di eventuali aspetti diacronici.
Non va dimenticato che i segni linguistici sono arbitrari e lo stesso termine può essere usato in modo diverso anche in contesti simili. In #hashtag, parola e simbolo, ad esempio, ho evidenziato che nella documentazione ufficiale di Twitter il termine hashtag identifica il simbolo # e non la combinazione #parola, che invece si chiama hashtagged word (che però nel web ha una frequenza nettamente inferiore a hashtag).
Ci sono persone inesperte che purtroppo fanno le loro scelte terminologiche basandosi proprio su generiche indicazioni di frequenza, magari traducendo letteralmente un termine nella propria lingua per poi cercare conferma con un motore di ricerca che esista un numero sufficiente di occorrenze, senza ulteriori verifiche. Spero che stiano alla larga da Googlefight!
.
Vedi anche: Font, typeface, famiglie e tipi di carattere – 1 e Tasti di scelta (rapida) per altri dettagli sui problemi di arbitrarietà del segno linguistico nel lavoro terminologico, e border / boundary / edge / perimeter network per un esempio di relazioni tra termini all’interno di un sistema concettuale.
Flavio.pas:
Ciao, per le ricerche polirematiche credo si possa ovviare al problema con le virgolette.
I risultati con le chiavi di ricerca:
41 200 000 Hash tag
3 820 000 Hashtag
627 000 “Hash tag”
Non ho verifiche vere e proprie, però usando un’altra scorciatoia, per fare una ricerca interna ad un sito (ilpost.it) ho cercato:
9 420 cane
8 460 gatto
906 criceto
17 formichiere
Mi sembrano risultati credibili. Ne ho provati altri, e dovrebbe essere corretto.
Licia:
Grazie Flavio, il tuo commento mi ha incuriosita molto perché quando ho scritto il post, la settimana scorsa, avevo fatto un po’ di prove, sia con e senza virgolette, proprio come si farebbe una ricerca su Google, e non c’era differenza nei risultati, mentre ora c’è.
A proposito di virgolette, nelle ultime settimane ho notato che qualche volta proprio Google le ignora, ad es. mi è capitato di voler cercare una parola insolita o una polirematica, che quindi mettevo tra virgolette, e Google me le “correggeva” proponendomi risultati per le alternative che riteneva più probabili, e penso che qualcosa di simile sia successo anche a .mau..