Ho accennato all’uso di corpora nel lavoro terminologico in Non solo per gioco: frequenza delle parole e anche con un riferimento a WebCorp e con alcuni esempi di tendenze e variazioni diacroniche ricavate dai corpora di Google Books e rappresentate graficamente in Google Ngram Viewer*.
Aggiungo una risorsa messa a disposizione dall’università di Lipsia: Wortschatz, 230 corpora per altrettante lingue o loro varietà (ad es. tedesco di Germania, Austria e Svizzera), descritti come “dizionari monolingui basati su corpora”.
Per ogni ricerca vengono mostrati informazioni sulla frequenza, frasi di esempio, collocati (altre parole che tendono ad apparire, in modo statisticamente significativo, assieme alla parola cercata) e mappe semantiche. I corpora sono stati compilati usando testi di giornali o pagine web selezionate casualmente. Le dimensioni di ciascun corpus sono calcolate in numero di frasi e possono variare da 300.000 a 30 milioni di frasi.
Esempio di mappa semantica per dizionario:
Non sono però forniti dettagli su come sia stato compilato ciascun corpus e quindi risulta difficile valutare la rilevanza per le proprie ricerche, anche perché non tutti i risultati appaiono convincenti. Suscita inoltre qualche perplessità l’inclusione di “lingue” come veneto, piemontese, emiliano-romagnolo, ligure e siciliano, soprattutto quando si scopre che ciascun corpus è costituito unicamente da pagine di Wikipedia.
* Sull’uso di Google Ngram Viewer, vedi Radiografia delle parole e commenti. Esempi:
– choosy, picky
– il font e la font
– tax haven, fiscal paradise
– handicappati, disabili, diversamente abili
– cybersesso, sesso virtuale, cybersex, cibersesso
– cut and paste, copy and paste e taglia e incolla, copia e incolla
Antonio:
Tanto grazie per l’informazione sulle parole e l’uso di lingua in questo blog. Mi sembra molto interessante e utile per me e per miei studenti. (Scusi il mio italiano, non è la mia lingua madre). Auguri.