“Dizionari” per completamento, correzioni e testo predittivo
Il mese scorso ho descritto alcune incongruenze terminologiche relative alle funzionalità che facilitano l’immissione di testo nei dispositivi mobili, ad es. c’è chi chiama testo predittivo due concetti diversi:
[1] modalità di scrittura come T9, Swype o simili
[2] il completamento automatico delle parole e/o i suggerimenti che appaiono durante la digitazione di una parola.
C’è anche chi confonde [2] con
[3] la correzione automatica, che invece si attiva dopo aver digitato un’intera parola, ad es. quando si inserisce uno spazio o un segno di punteggiatura.
Ciascuna di queste funzionalità fa uso di specifici algoritmi che ricavano informazioni da elenchi di parole, chiamati dizionari (dictionary), a cui sono associati metadati e informazioni d’uso e di frequenza.
Parole proibite
In questi giorni sono stati dedicati alcuni articoli sull’argomento perché all’interno del dizionario inglese (circa 165000 voci) di Kitkat, l’ultima versione del sistema operativo Android, è stato “scoperto” un elenco di 1400 parole proibite, tra cui sex, coitus, lovemaking, Tampax, uterus, le famigerate sette parole vietate alla TV americana, e addirittura geek.
Credo però che sia Le parole che imbarazzano Android che l’articolo in inglese da cui è ricavato, Android’s Bizarre List of Banned Words, abbiano fatto un po’ di confusione sia sui diversi tipi di dizionari che sulle funzionalità che ne fanno uso.
Problemi del completamento automatico…
L’articolo in inglese indica che le parole proibite non vengono completate automaticamente [2] quando si digita o quando si usa la tastiera Swype, quindi si deve scrivere ciascuna di queste parole fino all’ultima lettera (se però si disattiva un filtro, vengono suggerite regolarmente mentre si scrive). Conclude equiparando il dizionario di Android non solo a un tipo diverso di dizionario informatico, quello del correttore ortografico di Office, ma addirittura all’Oxford English Dictionary, un’opera ben diversa. I tag dell’articolo includono sia auto-complete che predictive text, si presume come sinonimi.
…o censura del correttore ortografico?
Leggendo l’articolo in italiano, invece, pare di capire che il problema riguardi solo la correzione automatica [3]: “dà per scontato che tu stia facendo un errore [di ortografia] e anziché un completamento, ti propone una correzione”. Per il giornalista italiano, appena si è scritta l’intera parola entra in azione la “censura” del correttore, mentre per l’autore americano questo non succede.
È difficile capire se le discrepanze tra i due articoli siano dovute a confusione tra concetti (i diversi tipi di funzionalità) o a problemi di terminologia (etichette diverse per gli stessi concetti, cfr. Completamento, compilazione e riempimento), però il passaggio da una lingua all’altra sicuramente complica le cose.
Elenchi di parolacce
Le cosiddette offensive word list sono note a chi lavora nello sviluppo e nella localizzazione di software. Ne ho già parlato, con qualche dettaglio sui diversi gradi di volgarità, i possibili campi di applicazion e le differenze tra riconoscimento e suggerimenti, in Parolacce, software e localizzazione.
Ilgloglottatore:
Ciao Licia, mi chiedevo se mi sai dire qualcosa di più sulle differenze tra i due algoritmi.
Licia:
@Ilgloglottatore, ci sono parecchi algoritmi, ma anche se ho avuto modo vedere qualche “dietro le quinte” temo di non poter scendere in dettagli.
Se ti interessa l’argomento, per la correzione automatica puoi cercare informazioni sul concetto di edit distance.
Sul riconoscimento di scrittura, puoi trovare riferimenti in courses.cs.washington.edu/courses/Pittman.ppt.
Un articolo interessante sui suggerimenti/completamento automatico dei motori di ricerca: A Deeper Look at Autosuggest.