曾劍平 陳其樂(lè) 吳承榮 方熙
摘 要:針對(duì)目前口令語(yǔ)義分析挖掘主要針對(duì)英文口令,且局限于常見(jiàn)的單詞或姓氏等口令單元的問(wèn)題,在中文語(yǔ)境下,利用古詩(shī)、成語(yǔ)建立模式庫(kù),使用口令字符串的數(shù)據(jù)分析技術(shù),提出了一種基于已知口令元的中文語(yǔ)境口令分析方法。首先,識(shí)別出已知口令元;然后,將其視作單個(gè)口令自由度;最后,計(jì)算給定攻擊成功率下的自由度攻擊成本,得出口令安全性的量化數(shù)值。設(shè)計(jì)實(shí)驗(yàn)對(duì)大量明文口令進(jìn)行量化分析之后,可知在使用中文語(yǔ)境的口令中,80%的用戶口令不具有高安全性,能夠被字典攻擊輕易攻破。
關(guān)鍵詞:口令分析;口令安全性;已知口令元;口令自由度;中文語(yǔ)境
中圖分類(lèi)號(hào): TP309.2
文獻(xiàn)標(biāo)志碼:A
Abstract: Concerning the problem that the current research on password semantics is mainly based on English datasets and restricted to some units like common words or surnames, by using data analysis technology based on password strings, a Chinese context password analysis method based on known-password elements was proposed with the pattern library based on Chinese poems and idioms in Chinese context. Firstly, the known-password element was identified. Then, it was considered as a single password degree of freedom. Finally, the freedom attack cost within a given attack success rate was calculated and the quantitative security of password was obtained. After quantitative analysis of large amounts of plaintext passwords by designed experiments, it is concluded that 80% of user passwords are low secure and can be easily broken by dictionary attacks in Chinese context.
Key words: password analysis; password security; known-password element; password degree of freedom; Chinese context
0 引言
在現(xiàn)今的信息系統(tǒng)中,用戶身份鑒別是不可缺少的一個(gè)環(huán)節(jié)。以電子支付、社交網(wǎng)絡(luò)等個(gè)性化應(yīng)用服務(wù)為例,此類(lèi)服務(wù)最常使用“用戶名+口令”的方式鑒別登錄用戶的身份。由于口令鑒別具有易于實(shí)現(xiàn)、易于使用的特點(diǎn),在絕大多數(shù)網(wǎng)絡(luò)環(huán)境中,口令都作為最主要的,甚至是唯一的鑒別方式出現(xiàn)。顯而易見(jiàn),用戶的口令安全直接決定了個(gè)人信息的安全??紤]到常人的思維方式以及記憶方式,用戶自主設(shè)置的口令往往是一個(gè)或多個(gè)元素的組合,可能包括姓名、生日、家庭信息、容易記憶的特殊字符串等。對(duì)此,已有較多基于大樣本量的口令挖掘研究,這些研究主要集中在兩個(gè)方向:其一是在大樣本的明文口令庫(kù)基礎(chǔ)上,分析口令中各類(lèi)元素的出現(xiàn)頻率及關(guān)聯(lián)度,并加入到口令字典中實(shí)施攻擊;其二是在社工庫(kù)的基礎(chǔ)上,分析并尋找用戶口令中出現(xiàn)的各類(lèi)個(gè)人信息的占比,并嘗試進(jìn)行撞庫(kù)攻擊。攻擊者還可以采用更激進(jìn)的攻擊方式,在已知部分信息的基礎(chǔ)上,對(duì)口令元素進(jìn)行重新組合,并加入前綴、后綴等,從而提高攻擊成功率。目前的研究針對(duì)口令中姓氏、常見(jiàn)詞匯的使用情況進(jìn)行了較多統(tǒng)計(jì)分析,這些研究成果有助于更好地評(píng)估口令的安全性[1-2]。但是,這些研究大都以英文口令集為主,同時(shí)也缺乏更深入的口令語(yǔ)義,只針對(duì)一些常見(jiàn)的口令組成單元。且對(duì)于中文語(yǔ)境下的大樣本明文口令的研究主要分析口令元素的出現(xiàn)頻率為主,僅給出口令粗略的安全性評(píng)估,并未對(duì)口令的安全性作出量化分析。因此本文希望對(duì)中文口令進(jìn)行安全性量化分析。本文的研究在中文上下文中分析一些具備語(yǔ)義的字符串元素,針對(duì)古詩(shī)、成語(yǔ)等常見(jiàn)語(yǔ)料中的口令元素使用情況,對(duì)這些口令元素特性和出現(xiàn)頻率進(jìn)行深度分析,給出了中文語(yǔ)境下口令的安全性進(jìn)行量化分析的方法,在口令語(yǔ)義單元統(tǒng)計(jì)分析中使用了大數(shù)據(jù)分析的方法。
1 相關(guān)工作
1.1 口令組成特征
在口令分布特征分析中,以前學(xué)術(shù)界普遍認(rèn)為口令滿足均勻分布,而Wang等[3]指出口令是滿足Zipf分布的,在去掉低頻次口令后,利用高頻次口令進(jìn)行Zipf分布擬合,通過(guò)KS(Kolmogorov-Smirnov)檢驗(yàn),證明了口令頻次呈多項(xiàng)式下降,滿足Zipf分布,口令中的大部分都是高頻和低頻口令。
在英文語(yǔ)境口令的研究中,Brown等[4]將口令分為四種主要來(lái)源:個(gè)人信息(包含家庭成員相關(guān)信息)、個(gè)人興趣愛(ài)好、聯(lián)想和無(wú)意義串。其中,個(gè)人信息和興趣愛(ài)好來(lái)源的口令占了總體的80%。Florencio等[5]對(duì)eBay、Yahoo和amazon等各網(wǎng)站的6~13位用戶口令進(jìn)行分析,得出英文語(yǔ)境下純小寫(xiě)字母口令的比例始終大于60%,和口令長(zhǎng)度無(wú)明顯關(guān)系。其中,純數(shù)字口令比例隨口令長(zhǎng)度增加而降低,混合口令比例隨口令長(zhǎng)度增加而升高。
在針對(duì)中文使用習(xí)慣的口令研究中,Li等[6]對(duì)CSDN、天涯、178等網(wǎng)站泄露的口令庫(kù)進(jìn)行了分析,給出了中文環(huán)境下口令的元素特征,包括純字母數(shù)字的口令比例特征、口令輸入方式特征等。同時(shí)研究得出,中文環(huán)境下大約有5%的口令包含拼音(全拼)元素,其中大部分包含姓氏。根據(jù)大量規(guī)則優(yōu)化字典,添加了20000個(gè)特征串之后,猜測(cè)成功率提升了34%。郭奕東等[7]提出了一種基于屬性特征的口令挖掘分析方法,在使用Apriori算法對(duì)中文社區(qū)CSDN的共642萬(wàn)條口令進(jìn)行分析后,得出數(shù)字型口令元素中有15.68%的口令包含生日、24.27%的口令包含簡(jiǎn)單數(shù)字、3.25%的口令包含手機(jī),用戶更傾向于使用這三類(lèi)信息作為口令元素。字母型口令元素中有21.88%的口令包含百家姓、2.97%的口令包含簡(jiǎn)單英文姓名、7.92%的口令包含簡(jiǎn)單單詞,百家姓的使用頻率較高。此外,用戶的口令長(zhǎng)度集中在7~11位,容易被攻擊者進(jìn)行基于社會(huì)工程學(xué)的字典攻擊。高強(qiáng)等[8]將口令按照特征進(jìn)行拆分,嘗試識(shí)別QQ號(hào)、手機(jī)號(hào)、日期、身份證號(hào),使用k-gram算法進(jìn)行口令元素出現(xiàn)特征的預(yù)測(cè),得出了千萬(wàn)條口令數(shù)據(jù)的高頻組合形式。劉功申等[9]通過(guò)對(duì)大量真實(shí)口令數(shù)據(jù)的分析,得出接近40%的相同賬號(hào)用戶在不同網(wǎng)站注冊(cè)時(shí)采用了相同的口令,且大部分用戶使用非常簡(jiǎn)單的字符串作為口令,如123456、111111等。日期、手機(jī)號(hào)、姓名、英語(yǔ)單詞是最常出現(xiàn)的包含用戶信息的口令元素。