Un aggiornamento linguistico sul ransomware WannaCry che a metà maggio ha colpito centinaia di migliaia di computer: potrebbe avere origini cinesi.
È quanto sostiene l’analisi linguistica pubblicata da Flashpoint, un’azienda di sicurezza informatica, che ha esaminato il testo delle 28 lingue in cui si poteva visualizzare la richiesta di riscatto nell’interfaccia di WannaCry.
I ricercatori hanno concluso che solo i testi in cinese e in inglese sono stati scritti da umani mentre per quelli nelle altre lingue è stata usata la traduzione automatica di Google Translate con lingua d’origine il testo inglese (corrispondenze dal 96 al 100%).
Caratteristiche dei testi cinesi
Il testi cinesi (caratteri semplificati per la Cina e tradizionali per Taiwan) si distinguono da quelli delle altre lingue perché sono più lunghi, con informazioni aggiuntive e alcune differenze di struttura. Chi ha li ha scritti ha un’ottima padronanza di grammatica, punteggiatura, sintassi e scelta dei caratteri. Ci sono poi alcune peculiarità del testo che forniscono ulteriori indicazioni ed escludono la traduzione automatica.
Un refuso (帮组 bang zu invece di 帮助 bang zhu) conferma che il testo è stato scritto da una persona che presumibilmente ha usato il pinyin come metodo di input. L’errore sarebbe invece poco probabile se fosse stato usato il metodo alternativo bopomofo usato a Taiwan, paese che si può quindi escludere dalle possibili origini.
Alcune scelte lessicali e dei caratteri usati, come la parola per “antivirus”, farebbero inoltre restringere la provenienza degli autori alla Cina meridionale, Hong Kong o Singapore e darebbero ulteriori elementi per scartare Taiwan.
Caratteristiche del testo inglese
Il testo inglese è stato scritto da una persona con conoscenza avanzata della lingua e che si è espressa in modo efficace. Ci sono però alcuni errori, come you have not so enough time, o costruzioni inaspettate come you won’t be able to recover your files forever e that they couldn’t pay in 6 months, che dimostrano che l’autore del testo non è madrelingua.
Linguistica forense
Questi e altri elementi portano alla conclusione che l’autore o gli autori siano cinesi o comunque parlino molto bene la lingua (cfr. anche Language Log). L’ipotesi più probabile è che abbiano prodotto il testo originale in cinese, dal quale è stata ricavata una versione ridotta in inglese che poi è stata tradotta automaticamente in altre lingue.
Non si può comunque escludere, anche se appare poco probabile, che gli errori siano stati inclusi volutamente per sviare eventuali indagini e che la lingua originale fosse un’altra ma che sia stata usata comunque la traduzione automatica per mascherare l’origine degli autori.
I metodi usati in questa analisi sono tipici della linguistica forense, la disciplina che usa la linguistica in attività investigative. Trovate altri esempi per l’inglese, ma applicabili anche ad altre lingue, in Linguisti a caccia di terroristi e in Detective linguisti(ci).