美國(guó)地區(qū)用戶口令研究

2020-07-10 18:09范曉東王源李金澤張博鋒鄭詔今

科學(xué)與財(cái)富 2020年13期

范曉東王源李金澤張博鋒鄭詔今

摘要：互聯(lián)網(wǎng)和5G時(shí)代的到來(lái)導(dǎo)致數(shù)據(jù)爆炸性的增長(zhǎng)，海量APP豐富著大家的生活，用戶口令作為目前用途最廣也是相對(duì)安全的認(rèn)證形式仍然存在一些問題，比如容易收到窮舉攻擊、字典攻擊等。為了保護(hù)用戶的數(shù)據(jù)及個(gè)人隱私，指導(dǎo)用戶設(shè)置高強(qiáng)度口令，我們對(duì)美國(guó)近2000萬(wàn)用戶賬戶與口令通過PCFG（概率無(wú)關(guān)上下文法），構(gòu)建口令規(guī)則集后進(jìn)行強(qiáng)度測(cè)試，得到高強(qiáng)度密碼應(yīng)符合大小寫字母、數(shù)字和特殊字符等多種混合的條件，同時(shí)個(gè)人多賬戶密碼設(shè)置差異盡可能大才能保證安全。

關(guān)鍵詞：高強(qiáng)度口令;PCFG：用戶安全;個(gè)人隱私;

·引言

當(dāng)今主要的安全認(rèn)證形式是以用戶自己選擇的文本輸入作為密碼口令，但這種方式非常容易受到猜測(cè)攻擊。另外，現(xiàn)有的用來(lái)評(píng)估密碼強(qiáng)度的方法，即通過建模進(jìn)行對(duì)抗性密碼猜測(cè)，其準(zhǔn)確率不高，這種方法對(duì)于實(shí)時(shí)的客戶端密碼檢查來(lái)說，要么是不準(zhǔn)確的，要么是數(shù)量級(jí)太大速度太慢。因此，本文旨在通過研究大量的美國(guó)地區(qū)用戶密碼口令，構(gòu)建美國(guó)用戶密碼口令規(guī)則集，幫助用戶選擇安全性較高的密碼口令，以提高用戶信息安全。

本文將通過研究?jī)汕f(wàn)條美國(guó)用戶口令，利用PCFG（概率無(wú)關(guān)上下文法），構(gòu)建馬爾可夫模型，從而生成美國(guó)用戶口令規(guī)則集，再根據(jù)此規(guī)則集構(gòu)建滿足美國(guó)用戶習(xí)慣的密碼口令，并使用該測(cè)試集對(duì)用戶密碼口令進(jìn)行強(qiáng)度測(cè)試，以此保證用戶可以選擇安全強(qiáng)度較高的密碼口令，達(dá)到保障用戶隱私安全的目的。

·實(shí)驗(yàn)材料

（1）實(shí)驗(yàn)數(shù)據(jù)

在本節(jié)中，我們使用我們獲取的美國(guó)用戶口令列表中的約2000萬(wàn)美國(guó)用戶的賬號(hào)和口令，格式為賬號(hào)：密碼。相關(guān)數(shù)據(jù)全部來(lái)自外網(wǎng)真實(shí)數(shù)據(jù)資料。

（2）實(shí)驗(yàn)所用模型

在本實(shí)驗(yàn)中，我們使用的模型為PCFG（Probabilistic Context Free Grammar）模型，也就是概率上下文無(wú)關(guān)文法，或稱為SCFG（Stochastic Context Free Grammar），隨機(jī)上下文無(wú)關(guān)文法。

我們使用我們獲取的美國(guó)用戶口令列表對(duì)PCFG模型進(jìn)行訓(xùn)練。我們把基于美國(guó)用戶口令數(shù)據(jù)集訓(xùn)練出來(lái)的PCFG模型稱為PCFG-1，把基于開源密碼數(shù)據(jù)集RockYou訓(xùn)練出來(lái)的PCFG模型稱為PCFG-2。形成對(duì)照實(shí)驗(yàn)。

·實(shí)驗(yàn)過程與結(jié)果分析

（1）實(shí)驗(yàn)準(zhǔn)備

在本節(jié)中，我們使用我們獲取的美國(guó)用戶口令列表對(duì)PCFG模型進(jìn)行訓(xùn)練。美國(guó)用戶口令列表中包含約2000萬(wàn)美國(guó)用戶的賬號(hào)和口令，格式為賬號(hào)：密碼。

在數(shù)據(jù)集的基礎(chǔ)上，我們對(duì)這些數(shù)據(jù)用python進(jìn)行數(shù)據(jù)清洗，提取美國(guó)用戶的口令列表，以純文本的格式存儲(chǔ)在code.txt文件中。以換行符為分界。

我們通過使用機(jī)器學(xué)習(xí)來(lái)識(shí)別美國(guó)用戶的創(chuàng)建密碼習(xí)慣。PCFG模型是通過對(duì)美國(guó)用戶密碼列表進(jìn)行訓(xùn)練而生成的。我們把該模型稱為規(guī)則集，其中包含密碼許多的不同部分和相關(guān)出現(xiàn)的概率。

（2）實(shí)驗(yàn)過程

我們把基于美國(guó)用戶口令數(shù)據(jù)集訓(xùn)練出來(lái)的PCFG模型稱為PCFG-1，把基于開源密碼數(shù)據(jù)集RockYou訓(xùn)練出來(lái)的PCFG模型稱為PCFG-2。形成對(duì)照實(shí)驗(yàn)。

對(duì)照實(shí)驗(yàn)過程如下：

a.基于PCFG-1模型進(jìn)行密碼猜測(cè)，由程序生成一個(gè)密碼列表，并將此列表基于PCFG-1模型來(lái)估計(jì)這些密碼的可能性，也就是密碼強(qiáng)度評(píng)分。

b.基于PCFG-1模型進(jìn)行密碼猜測(cè)，由程序生成一個(gè)密碼列表，并將此列表基于PCFG-2模型來(lái)進(jìn)行密碼強(qiáng)度評(píng)分。

c.基于PCFG-2模型進(jìn)行密碼猜測(cè)，由程序生成一個(gè)密碼列表，并將此列表基于PCFG-1模型來(lái)進(jìn)行密碼強(qiáng)度評(píng)分。

d.基于PCFG-2模型進(jìn)行密碼猜測(cè)，由程序生成一個(gè)密碼列表，并將此列表基于PCFG-2模型來(lái)進(jìn)行密碼強(qiáng)度評(píng)分。

我們通過密碼強(qiáng)度評(píng)分來(lái)客觀的體現(xiàn)出美國(guó)用戶口令與大眾口令的區(qū)別。密碼強(qiáng)度評(píng)分輸出格式如下：第一個(gè)值是原始密碼，第二個(gè)值是表示該密碼是否屬于“網(wǎng)站”、“電子郵件地址”或者“其他”，第三個(gè)值是密碼強(qiáng)度，值越低越安全，如果是0.0則代表該密碼不會(huì)由該模型生成。第四個(gè)值是密碼的OMEN級(jí)別，如果值為-1，則表示該密碼不會(huì)被OMEN算法所生成。

（3）實(shí)驗(yàn)結(jié)果

在對(duì)PCFG-1模型的訓(xùn)練中，我們得到美國(guó)用戶口令有如下特征：

密碼長(zhǎng)度為 1 ： 0

密碼長(zhǎng)度為 2 ： 0

密碼長(zhǎng)度為 3 ： 0

密碼長(zhǎng)度為 4 ： 201472

密碼長(zhǎng)度為 5 ： 358887

密碼長(zhǎng)度為 6 ： 3427000

密碼長(zhǎng)度為 7 ： 2822980

密碼長(zhǎng)度為 8 ： 5600752

密碼長(zhǎng)度為 9 ： 2536454

密碼長(zhǎng)度為 10 ： 2790461

密碼長(zhǎng)度為 11 ： 756887

密碼長(zhǎng)度為 12 ： 531257

密碼長(zhǎng)度為 13 ： 290679

密碼長(zhǎng)度為 14 ： 207889

密碼長(zhǎng)度為 15 ： 268423

密碼長(zhǎng)度為 16 ： 122828

密碼長(zhǎng)度為 17 ： 41352

密碼長(zhǎng)度為 18 ： 41580

密碼長(zhǎng)度為 19 ： 22764

密碼長(zhǎng)度為 20 ： 27283

密碼長(zhǎng)度為 21 ： 11951

口令中使用前五的電子郵箱列表：

yahoo.com ： 9637

mail.ru ： 4705

hotmail.com ： 4076

gmail.com ： 2809

aol.com ： 2804

口令中使用前五的域名列表：

yahoo.com ： 356

.au ： 252

mail.ru ： 186

hotmail.com ： 104

google.com ： 85

口令中使用前十的年份列表：

2010 ： 36015

2009 ： 23924

2011 ： 22757

2000 ： 21412

2008 ： 20426

1995 ： 17538

1992 ： 17276

1990 ： 17006

1994 ： 16874

1991 ： 16527

對(duì)照實(shí)驗(yàn)結(jié)果如下（結(jié)果順序同上述實(shí)驗(yàn)過程順序）：

（4）結(jié)果分析

根據(jù)上面圖表，我們可以得出美國(guó)用戶口令比較偏愛8位數(shù)的密碼，且使用電子郵箱、域名和年份等信息的概率較大。建議該地區(qū)用戶避開yahoo.com、2010等關(guān)鍵詞，以提高密碼強(qiáng)度。通過b，c兩組對(duì)照實(shí)驗(yàn)可以看出，基于PCFG-1模型生成的密碼有可能會(huì)被基于PCFG-2模型的密碼生成器破解出來(lái)，而基于PCFG-2模型生成的密碼卻很少能被基于PCFG-1模型的生成器所破解。這就說明該美國(guó)地區(qū)的用戶創(chuàng)建口令的習(xí)慣是不安全的。并且該地區(qū)用戶以后若想測(cè)試一個(gè)密碼的安全性完全可以通過本文中的PCFG-1模型進(jìn)行檢測(cè)，或者是通過PCFG-2模型來(lái)生成一個(gè)密碼。如此一來(lái)，用戶口令被當(dāng)?shù)赜脩羲平獾母怕蕦⒋蟠鬁p小。

·實(shí)驗(yàn)總結(jié)

此項(xiàng)實(shí)驗(yàn)研究表明，近年來(lái)美國(guó)地區(qū)用戶設(shè)置密碼安全性明顯提高，由最初單純的字母組合、生日日期、常用短語(yǔ)、廣為人知的網(wǎng)站地址和郵箱轉(zhuǎn)變?yōu)榇笮懽帜概c數(shù)字混合、更多無(wú)法發(fā)現(xiàn)規(guī)律的數(shù)字組合、特殊符號(hào)的加入以及長(zhǎng)度的提高，使得密碼破譯難度明顯上升。但同時(shí)隨著網(wǎng)站賬戶的不斷增多，所需要的密碼數(shù)量也越來(lái)越多，對(duì)單個(gè)用戶的密碼設(shè)置分析發(fā)現(xiàn)，個(gè)人密碼呈現(xiàn)單一化，即大量賬戶和網(wǎng)站共用同一個(gè)密碼，一旦密碼被破譯，個(gè)人隱私安全和經(jīng)濟(jì)財(cái)產(chǎn)安全受到嚴(yán)重威脅。通過以上分析，密碼設(shè)置中包含大小寫、數(shù)字和特殊字符，多賬戶密碼設(shè)置時(shí)差異較大，是現(xiàn)在看來(lái)個(gè)人信息保護(hù)的最優(yōu)方式。

參考文獻(xiàn)：

[1]? Matt Weir ; Sudhir Aggarwal ; Breno de Medeiros ; Bill Glodek. Password Cracking Using Probabilistic Context-Free Grammars. 2009 30th IEEE Symposium on Security and Privacy

[2]? Keika Mori ; Takuya Watanabe ; Yunao Zhou ; Ayako Akiyama Hasegawa ; Mitsuaki Akiyama . Comparative Analysis of Three Language Spheres： Are Linguistic and Cultural Differences Reflected in Password Selection Habits？? ?2019 IEEE European Symposium on Security and Privacy Workshops （EuroS&PW）

[3] 畢紅軍;譚儒;趙建軍;李昱甫.基于主題PCFG的口令猜測(cè)模型研究. Netinfo Security2019年08期ISSN：1671-1122

[4] 夏之陽(yáng);易平.基于神經(jīng)網(wǎng)絡(luò)的多源密碼猜測(cè)模型. Communications Technology2019年01期ISSN：1002-0802

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

美國(guó)地區(qū)用戶口令研究