范曉東 王源 李金澤 張博鋒 鄭詔今
摘 要:互聯(lián)網(wǎng)和5G時(shí)代的到來(lái)導(dǎo)致數(shù)據(jù)爆炸性的增長(zhǎng),海量APP豐富著大家的生活,用戶口令作為目前用途最廣也是相對(duì)安全的認(rèn)證形式仍然存在一些問題,比如容易收到窮舉攻擊、字典攻擊等。為了保護(hù)用戶的數(shù)據(jù)及個(gè)人隱私,指導(dǎo)用戶設(shè)置高強(qiáng)度口令,我們對(duì)美國(guó)近2000萬(wàn)用戶賬戶與口令通過PCFG(概率無(wú)關(guān)上下文法),構(gòu)建口令規(guī)則集后進(jìn)行強(qiáng)度測(cè)試,得到高強(qiáng)度密碼應(yīng)符合大小寫字母、數(shù)字和特殊字符等多種混合的條件,同時(shí)個(gè)人多賬戶密碼設(shè)置差異盡可能大才能保證安全。
關(guān)鍵詞:高強(qiáng)度口令;PCFG:用戶安全;個(gè)人隱私;
·引言
當(dāng)今主要的安全認(rèn)證形式是以用戶自己選擇的文本輸入作為密碼口令,但這種方式非常容易受到猜測(cè)攻擊。另外,現(xiàn)有的用來(lái)評(píng)估密碼強(qiáng)度的方法,即通過建模進(jìn)行對(duì)抗性密碼猜測(cè),其準(zhǔn)確率不高,這種方法對(duì)于實(shí)時(shí)的客戶端密碼檢查來(lái)說,要么是不準(zhǔn)確的,要么是數(shù)量級(jí)太大速度太慢。因此,本文旨在通過研究大量的美國(guó)地區(qū)用戶密碼口令,構(gòu)建美國(guó)用戶密碼口令規(guī)則集,幫助用戶選擇安全性較高的密碼口令,以提高用戶信息安全。
本文將通過研究?jī)汕f(wàn)條美國(guó)用戶口令,利用PCFG(概率無(wú)關(guān)上下文法),構(gòu)建馬爾可夫模型,從而生成美國(guó)用戶口令規(guī)則集,再根據(jù)此規(guī)則集構(gòu)建滿足美國(guó)用戶習(xí)慣的密碼口令,并使用該測(cè)試集對(duì)用戶密碼口令進(jìn)行強(qiáng)度測(cè)試,以此保證用戶可以選擇安全強(qiáng)度較高的密碼口令,達(dá)到保障用戶隱私安全的目的。
·實(shí)驗(yàn)材料
(1)實(shí)驗(yàn)數(shù)據(jù)
在本節(jié)中,我們使用我們獲取的美國(guó)用戶口令列表中的約2000萬(wàn)美國(guó)用戶的賬號(hào)和口令,格式為賬號(hào):密碼。相關(guān)數(shù)據(jù)全部來(lái)自外網(wǎng)真實(shí)數(shù)據(jù)資料。
(2)實(shí)驗(yàn)所用模型
在本實(shí)驗(yàn)中,我們使用的模型為PCFG(Probabilistic Context Free Grammar)模型,也就是概率上下文無(wú)關(guān)文法,或稱為SCFG(Stochastic Context Free Grammar),隨機(jī)上下文無(wú)關(guān)文法。
我們使用我們獲取的美國(guó)用戶口令列表對(duì)PCFG模型進(jìn)行訓(xùn)練。我們把基于美國(guó)用戶口令數(shù)據(jù)集訓(xùn)練出來(lái)的PCFG模型稱為PCFG-1,把基于開源密碼數(shù)據(jù)集RockYou訓(xùn)練出來(lái)的PCFG模型稱為PCFG-2。形成對(duì)照實(shí)驗(yàn)。
·實(shí)驗(yàn)過程與結(jié)果分析
(1)實(shí)驗(yàn)準(zhǔn)備
在本節(jié)中,我們使用我們獲取的美國(guó)用戶口令列表對(duì)PCFG模型進(jìn)行訓(xùn)練。美國(guó)用戶口令列表中包含約2000萬(wàn)美國(guó)用戶的賬號(hào)和口令,格式為賬號(hào):密碼。
在數(shù)據(jù)集的基礎(chǔ)上,我們對(duì)這些數(shù)據(jù)用python進(jìn)行數(shù)據(jù)清洗,提取美國(guó)用戶的口令列表,以純文本的格式存儲(chǔ)在code.txt文件中。以換行符為分界。
我們通過使用機(jī)器學(xué)習(xí)來(lái)識(shí)別美國(guó)用戶的創(chuàng)建密碼習(xí)慣。PCFG模型是通過對(duì)美國(guó)用戶密碼列表進(jìn)行訓(xùn)練而生成的。我們把該模型稱為規(guī)則集,其中包含密碼許多的不同部分和相關(guān)出現(xiàn)的概率。
(2)實(shí)驗(yàn)過程
我們把基于美國(guó)用戶口令數(shù)據(jù)集訓(xùn)練出來(lái)的PCFG模型稱為PCFG-1,把基于開源密碼數(shù)據(jù)集RockYou訓(xùn)練出來(lái)的PCFG模型稱為PCFG-2。形成對(duì)照實(shí)驗(yàn)。
對(duì)照實(shí)驗(yàn)過程如下:
a.基于PCFG-1模型進(jìn)行密碼猜測(cè),由程序生成一個(gè)密碼列表,并將此列表基于PCFG-1模型來(lái)估計(jì)這些密碼的可能性,也就是密碼強(qiáng)度評(píng)分。
b.基于PCFG-1模型進(jìn)行密碼猜測(cè),由程序生成一個(gè)密碼列表,并將此列表基于PCFG-2模型來(lái)進(jìn)行密碼強(qiáng)度評(píng)分。
c.基于PCFG-2模型進(jìn)行密碼猜測(cè),由程序生成一個(gè)密碼列表,并將此列表基于PCFG-1模型來(lái)進(jìn)行密碼強(qiáng)度評(píng)分。
d.基于PCFG-2模型進(jìn)行密碼猜測(cè),由程序生成一個(gè)密碼列表,并將此列表基于PCFG-2模型來(lái)進(jìn)行密碼強(qiáng)度評(píng)分。
我們通過密碼強(qiáng)度評(píng)分來(lái)客觀的體現(xiàn)出美國(guó)用戶口令與大眾口令的區(qū)別。密碼強(qiáng)度評(píng)分輸出格式如下:第一個(gè)值是原始密碼,第二個(gè)值是表示該密碼是否屬于“網(wǎng)站”、“電子郵件地址”或者“其他”,第三個(gè)值是密碼強(qiáng)度,值越低越安全,如果是0.0則代表該密碼不會(huì)由該模型生成。第四個(gè)值是密碼的OMEN級(jí)別,如果值為-1,則表示該密碼不會(huì)被OMEN算法所生成。
(3)實(shí)驗(yàn)結(jié)果
在對(duì)PCFG-1模型的訓(xùn)練中,我們得到美國(guó)用戶口令有如下特征:
密碼長(zhǎng)度為 1 : 0
密碼長(zhǎng)度為 2 : 0
密碼長(zhǎng)度為 3 : 0
密碼長(zhǎng)度為 4 : 201472
密碼長(zhǎng)度為 5 : 358887
密碼長(zhǎng)度為 6 : 3427000
密碼長(zhǎng)度為 7 : 2822980
密碼長(zhǎng)度為 8 : 5600752
密碼長(zhǎng)度為 9 : 2536454
密碼長(zhǎng)度為 10 : 2790461
密碼長(zhǎng)度為 11 : 756887
密碼長(zhǎng)度為 12 : 531257
密碼長(zhǎng)度為 13 : 290679
密碼長(zhǎng)度為 14 : 207889
密碼長(zhǎng)度為 15 : 268423
密碼長(zhǎng)度為 16 : 122828
密碼長(zhǎng)度為 17 : 41352
密碼長(zhǎng)度為 18 : 41580
密碼長(zhǎng)度為 19 : 22764
密碼長(zhǎng)度為 20 : 27283
密碼長(zhǎng)度為 21 : 11951
口令中使用前五的電子郵箱列表:
yahoo.com : 9637
mail.ru : 4705
hotmail.com : 4076
gmail.com : 2809
aol.com : 2804
口令中使用前五的域名列表:
yahoo.com : 356
.au : 252
mail.ru : 186
hotmail.com : 104
google.com : 85
口令中使用前十的年份列表:
2010 : 36015
2009 : 23924
2011 : 22757
2000 : 21412
2008 : 20426
1995 : 17538
1992 : 17276
1990 : 17006
1994 : 16874
1991 : 16527
對(duì)照實(shí)驗(yàn)結(jié)果如下(結(jié)果順序同上述實(shí)驗(yàn)過程順序):
(4) 結(jié)果分析
根據(jù)上面圖表,我們可以得出美國(guó)用戶口令比較偏愛8位數(shù)的密碼,且使用電子郵箱、域名和年份等信息的概率較大。建議該地區(qū)用戶避開yahoo.com、2010等關(guān)鍵詞,以提高密碼強(qiáng)度。通過b,c兩組對(duì)照實(shí)驗(yàn)可以看出,基于PCFG-1模型生成的密碼有可能會(huì)被基于PCFG-2模型的密碼生成器破解出來(lái),而基于PCFG-2模型生成的密碼卻很少能被基于PCFG-1模型的生成器所破解。這就說明該美國(guó)地區(qū)的用戶創(chuàng)建口令的習(xí)慣是不安全的。并且該地區(qū)用戶以后若想測(cè)試一個(gè)密碼的安全性完全可以通過本文中的PCFG-1模型進(jìn)行檢測(cè),或者是通過PCFG-2模型來(lái)生成一個(gè)密碼。如此一來(lái),用戶口令被當(dāng)?shù)赜脩羲平獾母怕蕦⒋蟠鬁p小。
·實(shí)驗(yàn)總結(jié)
此項(xiàng)實(shí)驗(yàn)研究表明,近年來(lái)美國(guó)地區(qū)用戶設(shè)置密碼安全性明顯提高,由最初單純的字母組合、生日日期、常用短語(yǔ)、廣為人知的網(wǎng)站地址和郵箱轉(zhuǎn)變?yōu)榇笮懽帜概c數(shù)字混合、更多無(wú)法發(fā)現(xiàn)規(guī)律的數(shù)字組合、特殊符號(hào)的加入以及長(zhǎng)度的提高,使得密碼破譯難度明顯上升。但同時(shí)隨著網(wǎng)站賬戶的不斷增多,所需要的密碼數(shù)量也越來(lái)越多,對(duì)單個(gè)用戶的密碼設(shè)置分析發(fā)現(xiàn),個(gè)人密碼呈現(xiàn)單一化,即大量賬戶和網(wǎng)站共用同一個(gè)密碼,一旦密碼被破譯,個(gè)人隱私安全和經(jīng)濟(jì)財(cái)產(chǎn)安全受到嚴(yán)重威脅。通過以上分析,密碼設(shè)置中包含大小寫、數(shù)字和特殊字符,多賬戶密碼設(shè)置時(shí)差異較大,是現(xiàn)在看來(lái)個(gè)人信息保護(hù)的最優(yōu)方式。
參考文獻(xiàn):
[1]? Matt Weir ; Sudhir Aggarwal ; Breno de Medeiros ; Bill Glodek. Password Cracking Using Probabilistic Context-Free Grammars. 2009 30th IEEE Symposium on Security and Privacy
[2]? Keika Mori ; Takuya Watanabe ; Yunao Zhou ; Ayako Akiyama Hasegawa ; Mitsuaki Akiyama . Comparative Analysis of Three Language Spheres: Are Linguistic and Cultural Differences Reflected in Password Selection Habits?? ?2019 IEEE European Symposium on Security and Privacy Workshops (EuroS&PW)
[3] 畢紅軍;譚儒;趙建軍;李昱甫.基于主題PCFG的口令猜測(cè)模型研究. Netinfo Security2019年08期ISSN:1671-1122
[4] 夏之陽(yáng);易平.基于神經(jīng)網(wǎng)絡(luò)的多源密碼猜測(cè)模型. Communications Technology2019年01期ISSN:1002-0802