劉 鵬 焦小彤 何睎杰 王 鶴 張玉清
1(西安電子科技大學(xué)廣州研究院 廣州 510555)2(中國科學(xué)院大學(xué)國家計(jì)算機(jī)網(wǎng)絡(luò)入侵防范中心 北京 100049)
近些年,學(xué)術(shù)信息的數(shù)字化日漸發(fā)展完善,每年都會(huì)產(chǎn)生大量的學(xué)術(shù)數(shù)據(jù).在海量的學(xué)術(shù)數(shù)據(jù)中隱含著學(xué)者的平均學(xué)術(shù)水平、當(dāng)前的學(xué)術(shù)研究熱點(diǎn)和機(jī)構(gòu)科研水平的變化等內(nèi)容.
面對(duì)海量且增長迅速的學(xué)術(shù)數(shù)據(jù),利用互聯(lián)網(wǎng)上日趨完善的數(shù)字化學(xué)術(shù)信息分析其中的文獻(xiàn)數(shù)據(jù)已成為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)新興熱點(diǎn)[1].
知識(shí)圖譜是以圖的形式存儲(chǔ)實(shí)體及其之間關(guān)系的數(shù)據(jù)庫[2].知識(shí)圖譜的概念起源于語義網(wǎng)絡(luò),2012年由谷歌提出,已成功應(yīng)用于智能搜索領(lǐng)域[3].邏輯上知識(shí)圖譜分為2層結(jié)構(gòu):本體層和實(shí)例層[4].構(gòu)建知識(shí)圖譜主要使用自然語言處理等技術(shù)進(jìn)行實(shí)體提取和本體提取[5].知識(shí)圖譜廣泛應(yīng)用于智能搜索、個(gè)性化推薦[6]、知識(shí)推理等領(lǐng)域[7].
知識(shí)圖譜按其內(nèi)容可以分為通用知識(shí)圖譜與專業(yè)知識(shí)圖譜.通用知識(shí)圖譜側(cè)重于知識(shí)的廣度,如基于維基百科構(gòu)建的DBpedia[8]、YAGO[9]、上海交通大學(xué)的zhishi.me[10]等.專業(yè)知識(shí)圖譜側(cè)重于某一行業(yè)領(lǐng)域內(nèi)容,如清華大學(xué)影視雙語知識(shí)圖譜[11]等.
目前尚未有針對(duì)安全領(lǐng)域4大頂級(jí)會(huì)議和3大密碼會(huì)議學(xué)術(shù)數(shù)據(jù)的專業(yè)知識(shí)圖譜構(gòu)建.為了彌補(bǔ)針對(duì)7大會(huì)議的專業(yè)知識(shí)圖譜構(gòu)建的空白,本文嘗試從7大會(huì)議的學(xué)術(shù)數(shù)據(jù)構(gòu)建專業(yè)知識(shí)圖譜,并進(jìn)行應(yīng)用分析.構(gòu)建該專業(yè)知識(shí)圖譜有助于更好地評(píng)估科研水平、幫助研究者更好地把握安全領(lǐng)域和密碼學(xué)領(lǐng)域的前沿學(xué)術(shù)熱點(diǎn).本文的主要工作和貢獻(xiàn)如下:
1) 基于Springer網(wǎng)站和安全領(lǐng)域4大頂級(jí)會(huì)議官網(wǎng)的論文數(shù)據(jù),提取并處理7大會(huì)議上所有論文并將其存儲(chǔ)到數(shù)據(jù)庫中,首次構(gòu)建了7大會(huì)議的知識(shí)圖譜.
2) 基于構(gòu)建的知識(shí)圖譜,對(duì)7大會(huì)議的數(shù)據(jù)進(jìn)行了基本統(tǒng)計(jì)和分析,為我國的安全領(lǐng)域和密碼學(xué)研究提供了參考.
接下來,本文將分為3個(gè)部分介紹針對(duì)7大會(huì)議的數(shù)據(jù)處理與知識(shí)圖譜構(gòu)建與應(yīng)用、學(xué)術(shù)數(shù)據(jù)統(tǒng)計(jì)分析和總結(jié)與展望.
本節(jié)主要從安全頂級(jí)會(huì)議官網(wǎng)和密碼學(xué)會(huì)議數(shù)據(jù)源中,使用爬蟲、自然語言處理等技術(shù)提取論文數(shù)據(jù),并進(jìn)行去重補(bǔ)全等處理.
SpringerLink是科技出版機(jī)構(gòu)Springer的官方網(wǎng)站,包含了CRYPTO,EUROCRYPT和ASIACRYPT歷年的論文數(shù)據(jù);針對(duì)安全領(lǐng)域4大頂級(jí)會(huì)議本文使用官網(wǎng)數(shù)據(jù)作為數(shù)據(jù)源.
根據(jù)2.1節(jié)確定的數(shù)據(jù)源,本文基于Python語言使用網(wǎng)絡(luò)爬蟲提取數(shù)據(jù).按以下步驟實(shí)現(xiàn)數(shù)據(jù)提取和存儲(chǔ):
1) 使用Python中的request庫訪問數(shù)據(jù)源的網(wǎng)頁,獲得整個(gè)網(wǎng)頁的數(shù)據(jù);
2) 分析網(wǎng)頁結(jié)構(gòu),使用Xpath庫根據(jù)網(wǎng)頁節(jié)點(diǎn)解析網(wǎng)頁內(nèi)容,獲取所需的數(shù)據(jù);
3) 將數(shù)據(jù)寫入數(shù)據(jù)庫,完成數(shù)據(jù)的存儲(chǔ)工作.
在現(xiàn)實(shí)中,一個(gè)機(jī)構(gòu)往往存在多種不同的名稱,如縮寫、別名等.本文采用啟發(fā)式的方法,使用正則表達(dá)式進(jìn)行去重.
對(duì)于學(xué)者姓名的去重,由于同名且學(xué)術(shù)成果類似的學(xué)者較少,本文通過手動(dòng)確認(rèn)的方式完成去重工作.
論文的關(guān)鍵詞數(shù)據(jù)存在較為嚴(yán)重的缺失,需要進(jìn)行補(bǔ)全.本文采用TF-IDF算法[12]和RAKE算法[13]進(jìn)行數(shù)據(jù)補(bǔ)全和關(guān)鍵詞提取.2種算法中,TF-IDF算法能夠處理單個(gè)關(guān)鍵詞,但無法處理詞組.RAKE算法可以提取關(guān)鍵詞詞組,但無法處理單個(gè)單詞的關(guān)鍵詞.因此對(duì)于缺失關(guān)鍵詞的論文,本文結(jié)合使用RAKE算法與TF-IDF算法,從摘要中提取關(guān)鍵詞.
本文使用neo4j圖數(shù)據(jù)庫對(duì)論文數(shù)據(jù)進(jìn)行分析,提取數(shù)據(jù)中實(shí)體的抽象本體,分析本體之間的關(guān)系,構(gòu)建出知識(shí)圖譜的本體層,通過neo4j-import工具導(dǎo)入圖數(shù)據(jù)庫,形成知識(shí)圖譜的本體結(jié)構(gòu)圖.
使用neo4j數(shù)據(jù)庫構(gòu)建并保存知識(shí)圖譜后,可以使用CYPHER查詢語言對(duì)圖中的數(shù)據(jù)進(jìn)行查詢.CYPHER查詢語言中,使用MATCH語句選取節(jié)點(diǎn),并根據(jù)關(guān)系邊對(duì)圖進(jìn)行搜索,WHERE語句對(duì)選取的節(jié)點(diǎn)進(jìn)行過濾,最后RETURN語句返回選中的節(jié)點(diǎn).
基于已經(jīng)構(gòu)建好的知識(shí)圖譜,使用2.5節(jié)介紹的查詢語言來查詢數(shù)據(jù).后續(xù)使用的數(shù)據(jù)同時(shí)來源于學(xué)術(shù)微信公眾號(hào):安全張之家.
3.1.1 國內(nèi)機(jī)構(gòu)數(shù)據(jù)統(tǒng)計(jì)分析
截至2022年12月,中國大陸的機(jī)構(gòu)在安全領(lǐng)域4大頂級(jí)會(huì)議上參與發(fā)表了共計(jì)512篇文章.其中ACM CCS上發(fā)表201篇、NDSS上發(fā)表80篇、USENIX Security上發(fā)表152篇、IEEE S&P上發(fā)表79篇,如表1所示:
表1 安全領(lǐng)域4大頂級(jí)會(huì)議我國歷年發(fā)文數(shù)量統(tǒng)計(jì)
從表1可以看出,我國機(jī)構(gòu)2013年以前總計(jì)參與發(fā)表12篇論文,說明在2013年以前我國在安全領(lǐng)域的研究還處于摸索階段.
2013年后,我國安全領(lǐng)域的研究水平有了一定的提升,說明越來越多的國內(nèi)學(xué)者開始關(guān)注安全領(lǐng)域的問題,從2018年開始進(jìn)入了爆發(fā)式增長的階段,最近2年的發(fā)文數(shù)量均穩(wěn)定在100篇以上.
安全領(lǐng)域4大頂級(jí)會(huì)議參與發(fā)文數(shù)量前10的我國機(jī)構(gòu)如表2所示.從表2可以看出,清華大學(xué)和浙江大學(xué)發(fā)文數(shù)量領(lǐng)先,這也反映出這2所院校在安全領(lǐng)域雄厚的科研實(shí)力.
圖1 3大密碼會(huì)歷年參與發(fā)文數(shù)量統(tǒng)計(jì)
3.1.2 國內(nèi)學(xué)者數(shù)據(jù)統(tǒng)計(jì)分析
以上統(tǒng)計(jì)了國內(nèi)學(xué)者在安全領(lǐng)域4大頂級(jí)會(huì)議上參與發(fā)文數(shù)量.表3示出我國學(xué)者在安全領(lǐng)域4大頂級(jí)會(huì)議上發(fā)文數(shù)量前10學(xué)者.按照參與發(fā)表數(shù)量多少排序,若參與發(fā)文數(shù)量一致,則按照學(xué)者署名的英文字符串排序.僅統(tǒng)計(jì)同時(shí)是中國大陸學(xué)者且以中國大陸機(jī)構(gòu)發(fā)文的數(shù)據(jù):
表2 安全領(lǐng)域4大頂級(jí)會(huì)議參與發(fā)文數(shù)量前10機(jī)構(gòu)
表3 安全領(lǐng)域4大頂級(jí)會(huì)議參與發(fā)文數(shù)量前10學(xué)者
本文對(duì)學(xué)者楊珉在復(fù)旦大學(xué)參與發(fā)文數(shù)量的占比情況作了統(tǒng)計(jì).發(fā)現(xiàn)截至2022年12月復(fù)旦大學(xué)共在4大頂級(jí)會(huì)議上參與發(fā)表45篇論文,學(xué)者楊珉?yún)⑴c發(fā)表的論文占比為73.3%.可見楊珉對(duì)于復(fù)旦大學(xué)在安全領(lǐng)域的研究作出了很大的貢獻(xiàn).
3.1.3 4大頂級(jí)會(huì)議研究趨勢(shì)分析
通過以上統(tǒng)計(jì)分析發(fā)現(xiàn):
1) 軟件與系統(tǒng)安全仍然是目前安全領(lǐng)域的熱門研究方向,并且增長趨勢(shì)大于網(wǎng)絡(luò)安全、漏洞利用與分析;
2) 漏洞分析與利用研究方向雖然熱度不及網(wǎng)絡(luò)安全和軟件與系統(tǒng)安全,但是上升趨勢(shì)比較穩(wěn)定.
3.2.1 我國機(jī)構(gòu)發(fā)文數(shù)量統(tǒng)計(jì)分析
截至2022年12月,我國機(jī)構(gòu)在3大密碼會(huì)上共參與發(fā)表255篇論文.其中在亞密會(huì)參與發(fā)表122篇、歐密會(huì)參與發(fā)表55篇、美密會(huì)參與發(fā)表78篇.最早在1988年就有我國機(jī)構(gòu)在3大密碼會(huì)上參與發(fā)表論文,可見密碼學(xué)領(lǐng)域的發(fā)展相較于安全領(lǐng)域起步要早.各個(gè)會(huì)議的統(tǒng)計(jì)數(shù)據(jù)如圖1所示.
我國機(jī)構(gòu)從2005年開始,在3大密碼會(huì)上參與發(fā)文數(shù)量逐漸上升,并達(dá)到了一個(gè)新的高度.2012年以后,在3大密碼會(huì)上參與發(fā)文數(shù)量明顯增加.可能是因?yàn)閺狞h的十八大開始,黨中央和國務(wù)院對(duì)信息安全領(lǐng)域高度重視,先后設(shè)立了多個(gè)部門和機(jī)構(gòu),極大地促進(jìn)了密碼學(xué)和信息安全的發(fā)展.
我國機(jī)構(gòu)在3大密碼學(xué)會(huì)議上發(fā)文數(shù)量前10的機(jī)構(gòu)如表4所示.在密碼學(xué)領(lǐng)域,中國科學(xué)院和清華大學(xué)處于領(lǐng)先.相較于安全4大頂級(jí)會(huì)議的參與發(fā)文前10機(jī)構(gòu),密碼學(xué)領(lǐng)域起步更早,但在總數(shù)上并沒有超過4大頂級(jí)會(huì)議發(fā)文的數(shù)量.
表4 3大密碼會(huì)議參與發(fā)文前10機(jī)構(gòu)
3.2.2 國內(nèi)學(xué)者數(shù)據(jù)統(tǒng)計(jì)分析
表5示出國內(nèi)在3大密碼會(huì)上發(fā)文數(shù)量的前10學(xué)者.規(guī)則同3.1.2節(jié).
表5 3大密碼會(huì)議參與發(fā)文前10學(xué)者
來自上海交通大學(xué)的學(xué)者郁昱在密碼學(xué)3大會(huì)議參與發(fā)表了16篇文章,前3位學(xué)者的參與發(fā)文數(shù)量非常接近.郁昱在上海交通大學(xué)所有密碼學(xué)3大會(huì)議參與發(fā)文的數(shù)量占比為36.3%,在密碼學(xué)領(lǐng)域中,該占比已經(jīng)很高,極大地推動(dòng)了上海交通大學(xué)在密碼學(xué)領(lǐng)域的發(fā)展.
3.2.3 密碼學(xué)研究趨勢(shì)分析
關(guān)于國際上密碼學(xué)領(lǐng)域最常出現(xiàn)的前20個(gè)關(guān)鍵詞的增長趨勢(shì)分析如表6所示.從表6可知:
1) quantum,lattice cryptography,zero know-leadge等領(lǐng)域上升趨勢(shì)明顯;
2) 關(guān)于public-key encryption,signature等領(lǐng)域的相關(guān)論文數(shù)較為穩(wěn)定,依然有大量的研究;
3) RSA,Discrete Logarithm以及stream cipher等舊的研究領(lǐng)域,相關(guān)論文呈現(xiàn)下降趨勢(shì),說明這些領(lǐng)域的研究已經(jīng)較為成熟,其應(yīng)用研究也較為穩(wěn)定.
除此之外,國內(nèi)一作論文中,最多的關(guān)鍵詞為hash function,MILP等.
表6 密碼學(xué)領(lǐng)域關(guān)鍵詞趨勢(shì)分析
本文還統(tǒng)計(jì)了在7大會(huì)議上參與發(fā)文數(shù)量最多的前10個(gè)國家.其中在3大密碼會(huì)議上,前3的國家分別是美國、法國和以色列.中國排在第11位.在安全4大頂級(jí)會(huì)議上,發(fā)文數(shù)量前3的國家分別是美國、德國和中國.
美國不論在4大安全頂級(jí)會(huì)議還是3大密碼會(huì)議上,相較于其他國家都有著巨大的優(yōu)勢(shì).在4大頂級(jí)會(huì)議上,美國參與發(fā)表論文的總數(shù)在全球參與發(fā)表論文總數(shù)的占比超過50%.
在7大會(huì)議的綜合學(xué)術(shù)數(shù)據(jù)中,參與發(fā)文前10的我國機(jī)構(gòu)如表7所示.從表7發(fā)現(xiàn):
1) 在前10的機(jī)構(gòu)中,有些機(jī)構(gòu)在安全領(lǐng)域和密碼學(xué)領(lǐng)域的成果分布比較均勻.例如中國科學(xué)院大學(xué)在密碼學(xué)3大會(huì)議參與發(fā)表論文數(shù)占其在7大頂級(jí)會(huì)議上發(fā)表論文數(shù)的48.8%.
2) 有些機(jī)構(gòu)在安全領(lǐng)域或者密碼學(xué)領(lǐng)域其中的一個(gè)領(lǐng)域成果較多.例如浙江大學(xué)在安全4大頂級(jí)會(huì)議上參與發(fā)文數(shù)量占其在7大頂級(jí)會(huì)議參與發(fā)表論文數(shù)的96.4%;密碼學(xué)國家重點(diǎn)實(shí)驗(yàn)室在3大密碼會(huì)議上參與發(fā)表論文數(shù)占其在7大會(huì)議參與發(fā)表論文總數(shù)的84.0%.
綜合7大會(huì)議的學(xué)者數(shù)據(jù),來自復(fù)旦大學(xué)的學(xué)者楊珉以在7大會(huì)議參與發(fā)表33篇名列第一.值得注意的是學(xué)者楊珉的33篇論文均發(fā)表在安全4大頂級(jí)會(huì)議上.
表7 7大會(huì)議參與發(fā)文數(shù)量前10機(jī)構(gòu)
從國家角度來看,可以得到以下結(jié)論:
1) 我國在安全領(lǐng)域的研究起步雖然比較晚,但是成果產(chǎn)出比較高效,這充分說明我國對(duì)于安全領(lǐng)域研究的重視,也說明了安全領(lǐng)域是一個(gè)研究的熱門領(lǐng)域.
2) 我國在密碼學(xué)領(lǐng)域的研究起步較早,但是成果產(chǎn)出沒有安全領(lǐng)域的高效.密碼學(xué)領(lǐng)域的研究和我國的國家信息安全密切相關(guān),因此密碼學(xué)領(lǐng)域仍然是一個(gè)非常有價(jià)值的研究領(lǐng)域.
3) 在國際上雖然我國在安全領(lǐng)域已經(jīng)進(jìn)入前3,但是和美國相比還有很大的差距,還需要不斷地努力.值得注意的是,我國在增長速度上是國際上最快的.
從機(jī)構(gòu)的數(shù)據(jù)來看可以得到以下結(jié)論:
1) 在7大會(huì)議上,我國前10機(jī)構(gòu)在安全領(lǐng)域的成果產(chǎn)出分化明顯,相對(duì)而言在密碼學(xué)領(lǐng)域的成果產(chǎn)出差距較小;
2) 不同的機(jī)構(gòu)對(duì)于安全領(lǐng)域和密碼學(xué)領(lǐng)域的關(guān)注程度不同,這可能與機(jī)構(gòu)最初設(shè)立的目標(biāo)、機(jī)構(gòu)內(nèi)研究人員擅長的領(lǐng)域、資源分配、機(jī)構(gòu)的發(fā)展歷程有很大關(guān)系.
從學(xué)者的角度來看可以得到以下結(jié)論:
1) 大多數(shù)學(xué)者注重合作的科研方式.隨著當(dāng)前領(lǐng)域研究的不斷深入,完成一項(xiàng)優(yōu)秀的工作所需的精力、時(shí)間、智力都在增加.因此合作更能夠高效地完成優(yōu)秀的科研工作.
2) 有些學(xué)者的參與發(fā)文數(shù)量在其所在機(jī)構(gòu)的發(fā)文數(shù)量中占比非常高,反映出該學(xué)者對(duì)于所在機(jī)構(gòu)該領(lǐng)域的研究有非常重要的推進(jìn)作用.
從研究趨勢(shì)來看可以得到以下結(jié)論:
1) 在4大頂級(jí)會(huì)議上,軟件與系統(tǒng)安全仍然是研究的熱門方向,但是模糊測(cè)試、區(qū)塊鏈和機(jī)器學(xué)習(xí)領(lǐng)域的安全問題正在成為新興的研究方向.
2) 在密碼學(xué)領(lǐng)域,公鑰加密、簽名算法等領(lǐng)域仍然是研究的熱門方向.但是零知識(shí)證明、量子密碼等領(lǐng)域上升趨勢(shì)明顯,而RSA和流密碼領(lǐng)域則呈現(xiàn)下降趨勢(shì).
本文實(shí)現(xiàn)了安全領(lǐng)域4大頂級(jí)會(huì)議和3大密碼會(huì)議知識(shí)圖譜的提取構(gòu)建流程,并基于密碼學(xué)領(lǐng)域的頂級(jí)會(huì)議文獻(xiàn),構(gòu)建了專業(yè)學(xué)術(shù)知識(shí)圖譜,同時(shí)對(duì)7大會(huì)議的學(xué)術(shù)數(shù)據(jù)進(jìn)行了詳細(xì)分析,為研究人員了解我國安全領(lǐng)域和密碼學(xué)領(lǐng)域研究水平提供了參考.本文工作填補(bǔ)了安全領(lǐng)域4大頂級(jí)會(huì)議和密碼學(xué)領(lǐng)域?qū)W術(shù)知識(shí)圖譜的空白,有助于未來的學(xué)術(shù)研究.