王曉靜++李琦
摘 要: 大型計算機網(wǎng)絡(luò)中的各種軟件和設(shè)備均存在安全漏洞,導致以往提出的大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法無法進行合理挖掘。針對該問題,提出一種新型的大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法。所提方法通過數(shù)據(jù)洗滌、格式變換和模式挖掘等操作,挖掘出大型計算機網(wǎng)絡(luò)中的非正常數(shù)據(jù)。使用所提方法設(shè)計的數(shù)據(jù)挖掘系統(tǒng)由數(shù)據(jù)挖掘器、分析模塊和數(shù)據(jù)庫組成,數(shù)據(jù)庫為數(shù)據(jù)挖掘器和分析模塊提供處理和挖掘方案。數(shù)據(jù)挖掘器實時監(jiān)控著大型計算機網(wǎng)絡(luò)中的非正常情況,并進行數(shù)據(jù)處理。分析模塊使用“二次激活”方式對處理過的數(shù)據(jù)進行分析,挖掘出其中的非正常數(shù)據(jù)。實驗結(jié)果表明,所提方法具有較好的收斂性,所設(shè)計的系統(tǒng)具有較強的可擴展性。
關(guān)鍵詞: 大型計算機網(wǎng)絡(luò); 非正常數(shù)據(jù); 數(shù)據(jù)挖掘技術(shù); 合理挖掘
中圖分類號: TN711?34; TP393.08 文獻標識碼: A 文章編號: 1004?373X(2017)12?0059?04
Abstract: Various softwares and equipments in large?scale computer networks have security holes, which lead to the previously?proposed abnormal data mining methods in large?scale computer networks can′t make reasonable mining. Therefore, a new abnormal data mining method in large?scale computer network is put forward. The method can mine the abnormal data in large?scale computer network by data washing, data format conversion and pattern mining operation. The data mining system designed with the proposed method is composed of data mining processor, analysis module and database. The database provides the processing and mining schemes for data mining processor and analysis module. The data mining processor is used to monitor the abnormal situation in large?scale computer network in real time, and carry out data processing. The analysis module is used to analyze the processed data by means of "secondary activation" mode, and dig up the abnormal data. The experimental results show that the proposed method has good convergence, and the system designed with the method has strong scalability.
Keywords: large?scale computer network; abnormal data; data mining technology; reasonable mining
0 引 言
隨著電子信息技術(shù)的普及和不斷發(fā)展,大型計算機網(wǎng)絡(luò)隨之產(chǎn)生,越來越多的網(wǎng)民能夠更為便捷地享受各種信息資源,現(xiàn)如今,網(wǎng)絡(luò)已成為人們生活中不可缺少的一部分。大型計算機網(wǎng)絡(luò)在為人們提供便利的同時,也造成了一定的困擾,網(wǎng)絡(luò)入侵事件時有發(fā)生[1]。若想有效維護大型計算機網(wǎng)絡(luò)安全,需要將其中的非正常數(shù)據(jù)準確、高效地挖掘出來,相關(guān)組織已開始著手進行大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘技術(shù)的研究工作[2]。
1 非正常數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是指依據(jù)特定任務(wù),將重要的隱含知識從具有一定干擾存在下的隨機數(shù)據(jù)集群中提煉出來[3]。數(shù)據(jù)挖掘技術(shù)是一項交匯科目,經(jīng)其挖掘出來的數(shù)據(jù)具有一定的輔助決策作用。將這種技術(shù)用于進行大型計算機網(wǎng)絡(luò)非正常數(shù)據(jù)的挖掘工作中,能夠自動控制大量初始數(shù)據(jù),為用戶提供更多的便利[4]。
所提大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法的挖掘流程如圖1所示。
由圖1可知,所提方法先對大型計算機網(wǎng)絡(luò)中的初始數(shù)據(jù)集群進行統(tǒng)一處理,處理過程包括數(shù)據(jù)洗滌和格式變換。數(shù)據(jù)洗滌的目的是將初始數(shù)據(jù)集群中的噪音、重疊參數(shù)和缺失重要特征的數(shù)據(jù)除去,再經(jīng)由格式變換,使洗滌后的數(shù)據(jù)集群特征更加明顯,提高對非正常數(shù)據(jù)的挖掘準確性。
當數(shù)據(jù)處理完畢,所提方法隨即開始進行模式挖掘。所謂模式挖掘,是指通過對比分析方式獲取大型計算機網(wǎng)絡(luò)中數(shù)據(jù)之間共有特征的過程,所獲取到的共有特征即為數(shù)據(jù)挖掘技術(shù)中的“知識”[5]。
將模式挖掘定義成向的映射,和均是大型計算機網(wǎng)絡(luò)中初始數(shù)據(jù)集群的一部分,并且,。在中隨機定義一個數(shù)據(jù)集群,此時可以將和在中出現(xiàn)的幾率設(shè)為向映射的知識,用表示,則有:
設(shè)置和的取值范圍可使所提大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法具有收斂性。若無特殊規(guī)定,可將二者的取值范圍均設(shè)置在0~100%之間。如果用戶需要對某一特定的非正常數(shù)據(jù)進行精準挖掘,也可隨時變更取值范圍。
取值范圍設(shè)定成功后,本文將式(1)和式(2)中的重疊部分輸出,用來表示大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)的挖掘結(jié)果。
2 非正常數(shù)據(jù)挖掘系統(tǒng)設(shè)計
2.1 系統(tǒng)總體設(shè)計
現(xiàn)使用所提大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法設(shè)計數(shù)據(jù)挖掘系統(tǒng),以實現(xiàn)對大型計算機網(wǎng)絡(luò)安全的有效維護。
所設(shè)計的系統(tǒng)由數(shù)據(jù)挖掘器、分析模塊和數(shù)據(jù)庫組成,如圖2所示。數(shù)據(jù)挖掘器被安放在大型計算機網(wǎng)絡(luò)的特定節(jié)點上,用來實時監(jiān)控網(wǎng)絡(luò)工作的非正常情況,并進行數(shù)據(jù)處理。分析模塊負責對數(shù)據(jù)挖掘器處理過的數(shù)據(jù)進行分析,進而挖掘出大型計算機網(wǎng)絡(luò)中的非正常數(shù)據(jù)。數(shù)據(jù)庫為數(shù)據(jù)挖掘器和分析模塊提供數(shù)據(jù)的處理和挖掘方案。
2.2 系統(tǒng)具體設(shè)計
在所設(shè)計的大型計算機網(wǎng)絡(luò)非正常數(shù)據(jù)挖掘系統(tǒng)中,數(shù)據(jù)挖掘器可看作是大型計算機網(wǎng)絡(luò)初始數(shù)據(jù)集群的接收端,用于獲取數(shù)據(jù)挖掘技術(shù)中的“知識”,其工作流程如圖3所示。
由圖3可知,在數(shù)據(jù)挖掘器開始工作前,數(shù)據(jù)庫會事先根據(jù)大型計算機網(wǎng)絡(luò)初始數(shù)據(jù)集群的特征制定數(shù)據(jù)挖掘器的具體挖掘方案,并對其實施驅(qū)動。數(shù)據(jù)挖掘器根據(jù)挖掘方案對數(shù)據(jù)進行洗滌和格式轉(zhuǎn)換等處理。處理結(jié)果將被存儲。
值得一提的是,數(shù)據(jù)挖掘器具有自檢功能,如果處理結(jié)果不符合用戶所設(shè)定的置信度,那么該結(jié)果將會被保留到數(shù)據(jù)挖掘器的緩存器中。一旦緩存器中有新鮮數(shù)據(jù)進入,數(shù)據(jù)庫便會重新驅(qū)動數(shù)據(jù)挖掘器,直至處理結(jié)果成功通過自檢。隨后,所設(shè)計大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘系統(tǒng)的分析模塊將對數(shù)據(jù)挖掘器的處理結(jié)果進行分析。為了增強系統(tǒng)的可擴展性,應(yīng)充分利用系統(tǒng)計算節(jié)點的性能,并縮減節(jié)點失效率,為此,給分析模塊設(shè)計出一種“二次激活”方式[6],以延長系統(tǒng)計算節(jié)點的使用壽命,如圖4所示。二次激活是指當系統(tǒng)計算節(jié)點出現(xiàn)疲勞狀態(tài)時,分析模塊將自動放出替補節(jié)點,使疲勞節(jié)點擁有足夠的時間去休整。休整后的計算節(jié)點將替換下替補節(jié)點,繼續(xù)進行數(shù)據(jù)挖掘工作。
在分析模塊中,每個計算節(jié)點均有多個替補節(jié)點,如果節(jié)點即將失效并且未能尋找到下一個合適的計算節(jié)點,將采取替補節(jié)點與性能相似節(jié)點同時工作的分析方式,以保證所設(shè)計大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘系統(tǒng)的可擴展性,并使挖掘結(jié)果更加準確。
3 實驗驗證
3.1 方法收斂性驗證
在大型計算機網(wǎng)絡(luò)中,只有具有較好收斂性的非正常數(shù)據(jù)挖掘方法才能有效保證挖掘結(jié)果的準確性。為了驗證本文所提方法收斂性的優(yōu)劣,需要進行一次實驗。本次實驗在某大型計算機網(wǎng)絡(luò)實驗室中進行。用于進行數(shù)據(jù)挖掘的主機配置為:3 GB內(nèi)存、四核i7處理器、500 GB硬盤。實驗中,于主機寫入本文方法,并向大型計算機網(wǎng)絡(luò)中加入兩種類型的大數(shù)據(jù)集群,兩集群中的數(shù)據(jù)節(jié)點[7?8]分別為4萬個和80萬個。當數(shù)據(jù)節(jié)點中的數(shù)據(jù)不出現(xiàn)波動時,表示本文方法已進入收斂狀態(tài),此時主機便不會再向下一節(jié)點傳遞數(shù)據(jù)。實驗結(jié)果如圖5所示。
從圖5可明確看出,本文方法具有收斂性,并且大數(shù)據(jù)集群中的數(shù)據(jù)節(jié)點越多,方法的收斂時間就越短。在兩種大數(shù)據(jù)集群中,本文方法的收斂時間分別為1.2 s和4.3 s。據(jù)統(tǒng)計,其他方法的收斂時間大多在10.8 s左右,這顯示出本文方法具有較好的收斂性。
3.2 系統(tǒng)可擴展性驗證
為了驗證經(jīng)本文方法設(shè)計出的數(shù)據(jù)挖掘系統(tǒng)是否能夠合理應(yīng)對大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)的更新,需要對本文系統(tǒng)的可擴展性進行驗證。實驗選出的對比系統(tǒng)有基于Hadoop的數(shù)據(jù)挖掘系統(tǒng)和基于并行圖算法的數(shù)據(jù)挖掘系統(tǒng)。
在第3.1節(jié)實驗的基礎(chǔ)上,只保留大數(shù)據(jù)集群2,并分別以橫向和縱向方式向集群的數(shù)據(jù)節(jié)點中隨機寫入30 000個非正常數(shù)據(jù)。使用三種系統(tǒng)對大型計算機網(wǎng)絡(luò)中的非正常數(shù)據(jù)進行挖掘,所得實驗結(jié)果如圖6~圖8所示。
由圖6~圖8可知,三個系統(tǒng)在縱向?qū)懭胂碌目蓴U展性均低于橫向?qū)懭?。與其他兩個系統(tǒng)相比,本文系統(tǒng)參與進行非正常數(shù)據(jù)挖掘的節(jié)點數(shù)量更多,并且節(jié)點失效率最少,證明使用本文方法設(shè)計出的數(shù)據(jù)挖掘系統(tǒng)具有較強的可擴展性。
4 結(jié) 論
本文提出一種新型的大型計算機網(wǎng)絡(luò)中非正常數(shù)據(jù)挖掘方法,并使用該方法設(shè)計數(shù)據(jù)挖掘系統(tǒng)。數(shù)據(jù)挖掘技術(shù)是指依據(jù)特定任務(wù),將重要的隱含知識從具有一定干擾存在下的隨機數(shù)據(jù)集群中挖掘出來。將數(shù)據(jù)挖掘技術(shù)用于進行大型計算機網(wǎng)絡(luò)非正常數(shù)據(jù)挖掘工作中,能夠?qū)Υ罅繑?shù)據(jù)進行自動控制,為用戶提供更多便利。實驗結(jié)果表明,本文方法具有較好的收斂性,使用本文方法設(shè)計出的數(shù)據(jù)挖掘系統(tǒng)也具有較強的可擴展性,可將大型計算機網(wǎng)絡(luò)中的非正常數(shù)據(jù)準確、高效地挖掘出來。
參考文獻
[1] 吳嘉瑞,唐仕歡,郭位先,等.基于數(shù)據(jù)挖掘的名老中醫(yī)經(jīng)驗傳承研究述評[J].中國中藥雜志,2014,39(4):614?617.
[2] 李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項目查重模型研究[J].圖書館論壇,2014,34(2):78?83.
[3] 丁騁騁,邱瑾.性別與信用:非法集資主角的微觀個體特征—基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的分析[J].財貿(mào)經(jīng)濟,2016,37(3):78?94.
[4] 楊丹丹.搜索引擎及網(wǎng)絡(luò)數(shù)據(jù)挖掘相關(guān)技術(shù)研究[J].數(shù)字化用戶,2014,20(11):126.
[5] 王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡(luò)知識的信息檢索與數(shù)據(jù)挖掘[J].計算機研究與發(fā)展,2015,52(2):456?474.
[6] 唐曉東.基于關(guān)聯(lián)規(guī)則映射的生物信息網(wǎng)絡(luò)多維數(shù)據(jù)挖掘算法[J].計算機應(yīng)用研究,2015,32(6):1614?1616.
[7] 陳震.對于以數(shù)據(jù)挖掘為基礎(chǔ)的網(wǎng)絡(luò)學習系統(tǒng)的設(shè)計與研究[J].山東農(nóng)業(yè)工程學院學報,2014,31(6):38?39.
[8] 周立軍,張杰,呂海燕.基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)入侵檢測技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(6):10?13.