鄭羽潔,李茜
(廣西經(jīng)濟管理干部學(xué)院 計算機系,廣西 南寧 530007)
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,導(dǎo)致大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)犯罪活動逐漸增多,使得大數(shù)據(jù)環(huán)境下的異常數(shù)據(jù)量增加[1-3]。因此,尋求有效的大數(shù)據(jù)挖掘方法,對于確保大數(shù)據(jù)環(huán)境下相關(guān)系統(tǒng)的安全性具有重要意義[4-6]。當(dāng)前的大數(shù)據(jù)挖掘方法大都依據(jù)已知的異常特征進(jìn)行大數(shù)據(jù)挖掘,降低了大數(shù)據(jù)挖掘的可靠性和效率,使得處理大數(shù)據(jù)的開銷增加,導(dǎo)致大數(shù)據(jù)總體的可用性和性能降低。因此,如何在不干擾大數(shù)據(jù)性能的情況下,分析不同區(qū)域大數(shù)據(jù)失效發(fā)生率、概率分析以及調(diào)整方案,成為當(dāng)前大數(shù)據(jù)挖掘領(lǐng)域重點分析的方向[7]。
在大規(guī)模的數(shù)據(jù)挖掘中,海量數(shù)據(jù)對現(xiàn)有的異常數(shù)據(jù)挖掘效率帶來較大困難。如何針對海量數(shù)據(jù)設(shè)計分區(qū)域挖掘算法[8]已經(jīng)成為研究的熱點。由于數(shù)據(jù)量過于巨大,為了減輕硬件的壓力,當(dāng)數(shù)據(jù)規(guī)模超過承載上限時,需要對大數(shù)據(jù)進(jìn)行分區(qū)。在不具有容錯特性的分布式集群環(huán)境下,大數(shù)據(jù)分區(qū)的效率與參與挖掘的硬件成反比。因此,海量數(shù)據(jù)的異常數(shù)據(jù)挖掘是一項具有挑戰(zhàn)性的任務(wù)。傳統(tǒng)的基于均值聚類的分區(qū)挖掘算法受到數(shù)據(jù)相似性的影響,這類分區(qū)挖掘算法在并行過程中會產(chǎn)生較高的通信負(fù)載,難以達(dá)到很高的并行度。因此,本論文提出了一種基于大數(shù)據(jù)混沌特性的分區(qū)域異常數(shù)據(jù)挖掘技術(shù),首先證明了分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)具有混沌特性,設(shè)計了混沌性特征提取,并根據(jù)混沌特征的聚類分區(qū)算法,實現(xiàn)大數(shù)據(jù)的分區(qū)域和異常數(shù)據(jù)的準(zhǔn)確挖掘。
大數(shù)據(jù)的來源通常由地理位置不同的運算節(jié)點的軟件、硬件通過不同的采集方式產(chǎn)生。在相同的環(huán)境下,大數(shù)據(jù)中異常數(shù)據(jù)的出現(xiàn)會造成數(shù)據(jù)在分區(qū)過程出現(xiàn)異常特征循環(huán)等現(xiàn)象。一旦出現(xiàn)數(shù)據(jù)異常,現(xiàn)有的數(shù)據(jù)分區(qū)過程會被重試、替換、局部重構(gòu),導(dǎo)致大數(shù)據(jù)中的異常數(shù)據(jù)隨機性成分增加。增加的異常數(shù)據(jù)在分區(qū)過程同正常數(shù)據(jù)間的對立性,形成數(shù)據(jù)之間的高度隨機性糾纏,也就是偽隨機過程,這種特征可通過數(shù)學(xué)中的混沌性來進(jìn)行描述。
大數(shù)據(jù)在異常前期的混沌性產(chǎn)生原因如下:
圖1 大數(shù)據(jù)異常數(shù)據(jù)序列Lyapunov指數(shù)譜
(1)大數(shù)據(jù)之間本身具有確定性和獨立性,如果數(shù)據(jù)突出出現(xiàn)異常會導(dǎo)致大數(shù)據(jù)呈現(xiàn)隨機與非隨機的特征,則出現(xiàn)混沌性;
(2)大數(shù)據(jù)出現(xiàn)異常數(shù)據(jù)時,數(shù)據(jù)在相關(guān)的區(qū)域中,同原始數(shù)據(jù)狀態(tài)具有較強的關(guān)聯(lián)性;
(3)數(shù)據(jù)混沌特征是大數(shù)據(jù)出現(xiàn)異常的先期評估標(biāo)準(zhǔn)。
證明大數(shù)據(jù)中出現(xiàn)異常數(shù)據(jù)有混沌性,可通過數(shù)據(jù)序列的最大Lyapunov指數(shù)是否大于0進(jìn)行驗證。大數(shù)據(jù)中出現(xiàn)異常數(shù)據(jù)時,采用Matlab對異常數(shù)據(jù)進(jìn)行Lyapunov指數(shù)圖仿真實驗,X軸表示異常數(shù)據(jù)出現(xiàn)的點數(shù),Y軸為計算的lyapunov指數(shù),結(jié)果用圖1描述。
分析圖1可得,該異常數(shù)據(jù)序列的最大Lyapunov指數(shù)大于0,進(jìn)而證明大數(shù)據(jù)中在出現(xiàn)異常數(shù)據(jù)時,具有混沌性。
混沌特征是大數(shù)據(jù)中存在異常數(shù)據(jù)的特征,并可作為挖掘異常數(shù)據(jù)的一個特征,該特征符合波動規(guī)范和數(shù)據(jù)內(nèi)部關(guān)聯(lián)性,可作為唯一區(qū)分特征進(jìn)行提取,不必進(jìn)行多次校驗。因此,可在海量大數(shù)據(jù)序列中獲取描述大數(shù)據(jù)異常特征的混沌數(shù)據(jù)特征關(guān)聯(lián),完成異常特征的采集,得到大數(shù)據(jù)異常分析的數(shù)據(jù)集,過程為:
將大數(shù)據(jù)中的異常數(shù)據(jù)映射成一組概率密度函數(shù),將該組概率密度函數(shù)作為劃分到不同分類頻點內(nèi)的使用概率。通過概率分析形成可描述數(shù)據(jù)顯著混沌特征的隨機數(shù)序列,采集混沌特征數(shù)據(jù)。
異常數(shù)據(jù)符合概率密度隨機調(diào)頻需求,如果大數(shù)據(jù)中的異常數(shù)據(jù)序列為x(n),τ表示分析誤差??蓪?shù)據(jù)進(jìn)行重構(gòu),重構(gòu)映射的m維相空間中,可產(chǎn)生m維矢量,如式(1)所示:
其中,n=1,2,…,N,在重構(gòu)數(shù)據(jù)映射的m維相空間內(nèi),采集一維數(shù)據(jù)矢量Xn,其在相空間內(nèi)用點描述,與其距離最小的點用Xη(n)描述,將歐氏距離當(dāng)成兩點的距離尺度。
在大數(shù)據(jù)異常數(shù)據(jù)序列映射相空間內(nèi),隨著m增加到m+1時,相空間內(nèi)點同與其距離最小點間的距離用式(2)描述:
設(shè)置分類異常數(shù)據(jù)為Qs,原數(shù)據(jù)為Q0,對比分析兩種數(shù)據(jù)的差異S,評估異常概率分析映射分類是否正確,且有:
對比2組患者生活質(zhì)量以及身體功能,研究組生活質(zhì)量(42.45±5.45)分,身體功能(43.85±5.89)分,參照組生活質(zhì)量(33.45±4.89)分,身體功能(34.12±5.01)分,數(shù)據(jù)對比t值為6.9530,p值為0.05、t值為7.1181,p值為0.05,研究組評分高于參照組患者,組間對比具有顯著性差異(P<0.05)。
其中,〈Qs〉表示N批概率分析映射數(shù)據(jù)的評估統(tǒng)計量值均值,σs表示N批概率分析映射數(shù)據(jù)的判別統(tǒng)計量值的標(biāo)準(zhǔn)差,則有:
通過Sigma檢驗S取何值時原數(shù)據(jù)是隨機的,設(shè)置不同概率分析映射異常數(shù)據(jù)的Qs值的概率分布為正態(tài)分布,則有:
優(yōu)化異常數(shù)據(jù)分類模型概率分析置信區(qū)間與拒絕區(qū)間,也就是p(Qs)~(Qs)曲線,要否定概率分析映射分類,應(yīng)確保S足夠大,使Qs的分布遠(yuǎn)離Q0。當(dāng)置信度為96%時,拒絕概率分析映射分類的機會為α=4%,通過相關(guān)判斷可得:
(1)S≥1.50概率分析映射分類按照95%概率不成立,原異常數(shù)據(jù)為具備混沌數(shù)據(jù)特征;
(2)S<1.50概率分析映射分類成立,原異常數(shù)據(jù)不是混沌特征數(shù)據(jù)。
混沌性特征采集的源代碼如下:
在準(zhǔn)確提取了混沌特征后,可將大數(shù)據(jù)集分成合理的數(shù)據(jù)分區(qū),增強大數(shù)據(jù)的異常數(shù)據(jù)挖掘能力。先從全部序列中采集原始的n個數(shù)據(jù)序列,將其劃分成n個簇{P1,P2,…,Pn},其中n表示大數(shù)據(jù)應(yīng)劃分的區(qū)域數(shù),初始化全部簇質(zhì)心Cj(j=1,2,…,n),運算各項關(guān)聯(lián)權(quán)值,將其序列依次劃分到n個簇內(nèi),運算序列Si到各簇質(zhì)心Cj的相似函數(shù)Sim(Si,Cj),將Si分配到Sim(Si,Cj)值最小的簇Pj內(nèi),分配后應(yīng)調(diào)整新簇Pj、簇質(zhì)心Cj和各項的關(guān)聯(lián)權(quán)值。
對大數(shù)據(jù)進(jìn)行分區(qū)域和異常數(shù)據(jù)的混沌相關(guān)特征進(jìn)行提取后,運用優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)方法,結(jié)合遺傳算法設(shè)計挖掘模型。該挖掘算法的具體過程如下:
(1)初始化數(shù)據(jù)集,通過二進(jìn)制的方法,對大數(shù)據(jù)分區(qū)域的混沌特征進(jìn)行權(quán)值編碼。大數(shù)據(jù)分區(qū)域中的個體混沌特征可以用相應(yīng)類別的權(quán)值表示,設(shè)某一原始權(quán)值集及其最大進(jìn)化次數(shù)。
(2)設(shè)計適應(yīng)度函數(shù),在該函數(shù)中獲取最小值。
(3)解碼混沌特征的權(quán)值,獲取混沌特征的權(quán)值,如果權(quán)值滿足規(guī)范要求或者權(quán)值等于最大進(jìn)化次數(shù),則轉(zhuǎn)向過程(7);否則,轉(zhuǎn)向過程(4)。
(4)通過遺傳算法的交叉與變異功能,獲取神經(jīng)網(wǎng)絡(luò)的新個體。
(5)標(biāo)識具有最優(yōu)適應(yīng)度的個體,避免這些個體進(jìn)行交叉與變異操作。
(6)利用優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)方法對擁有最優(yōu)適應(yīng)度的個體進(jìn)行操作,同時運行步驟(2)。
(7)算法結(jié)束,得到神經(jīng)網(wǎng)絡(luò)中擁有最優(yōu)權(quán)值的個體,也就是待挖掘的大數(shù)據(jù)中的異常數(shù)據(jù)。源代碼如下[9]:
為了對本文方法的性能進(jìn)行測試,需要進(jìn)行相關(guān)的實驗分析。分別在兩種不同的大數(shù)據(jù)集上,對本文方法與傳統(tǒng)方法(循環(huán)迭代分區(qū)挖掘算法)進(jìn)行對比實驗。下面給出本實驗所涉及到的兩個大數(shù)據(jù)集,Set是模擬數(shù)據(jù)集,包括兩個大小為25.2 MB的分區(qū),Cslogs為實際數(shù)據(jù)集,包括兩個大小為6.22 MB的分區(qū)。
當(dāng)輸入數(shù)據(jù)量一定時,依據(jù)最小支持度的改變量,對本文方法與傳統(tǒng)方法的性能進(jìn)行比較。隨著支持度的減小,符合條件的頻繁模式逐漸增加,挖掘頻繁模式所耗費的時間也隨之增多,對于頻繁模式挖掘算法而言,支持度的適應(yīng)能力是一個重要指標(biāo)。
圖2描述的是本文方法和傳統(tǒng)方法在Set數(shù)據(jù)集上運行時間的比較結(jié)果,最小支持度從0.03降將至0.01。從運行效率的角度分析,本文方法所需的運行時間明顯低于傳統(tǒng)方法。
圖3描述的是本文方法和傳統(tǒng)方法在Cslogs數(shù)據(jù)集上運行時間的比較結(jié)果,最小支持度從0.1降至0.05。從運行效率的角度分析,本文方法的性能明顯優(yōu)于傳統(tǒng)方法。實驗結(jié)果表明,本文方法可以有效解決傳統(tǒng)方法在大數(shù)據(jù)集上進(jìn)行挖掘時出現(xiàn)的內(nèi)存消耗大的問題。
圖2 在Set數(shù)據(jù)集上兩種方法的運行時間比較
圖3 在Cslogs數(shù)據(jù)集上兩種方法的運行時間比較
圖4描述的是本文方法和傳統(tǒng)方法在不同數(shù)據(jù)集大小下測試的結(jié)果。分析圖3可知,兩種方法的運行時間曲線均隨數(shù)據(jù)量的增加逐漸增加,但較傳統(tǒng)方法而言,本文方法的曲線增長較為緩慢,同時隨著數(shù)據(jù)量逐漸增加,與傳統(tǒng)方法運行曲線之間的距離越來越遠(yuǎn)。說明本文方法能夠更好的適應(yīng)大數(shù)據(jù)集。
圖5描述的是本文方法和傳統(tǒng)方法在不同維數(shù)下的測試結(jié)果,當(dāng)前數(shù)據(jù)量取6000。分析圖5可知,本文方法運行時間曲線比傳統(tǒng)方法增長緩慢。在低維狀態(tài)下,數(shù)據(jù)點相對集中,通過微單元可高效完成數(shù)據(jù)的處理;在高維狀態(tài)下,數(shù)據(jù)點相對分散,稀疏單元相對較多,與傳統(tǒng)方法相比,本文方法可更加有效地增強算法的運行效率,更好地適應(yīng)高維大數(shù)據(jù)的挖掘。
本文提出了一種基于大數(shù)據(jù)混沌特性的分區(qū)域挖掘技術(shù),證明了分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)混沌特性,對分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)混沌特性進(jìn)行分類和采集,獲取大數(shù)據(jù)在異常早期的數(shù)據(jù)特征、波動規(guī)范和數(shù)據(jù)內(nèi)部關(guān)聯(lián)性,在隨機性數(shù)據(jù)序列中獲取描述大數(shù)據(jù)異常特征的混沌數(shù)據(jù)特征關(guān)聯(lián),完成大數(shù)據(jù)混沌特征的采集,采用聚類分區(qū)算法實現(xiàn)大數(shù)據(jù)的分區(qū)劃分,得到可降低局部頻繁序列的大數(shù)據(jù)分區(qū)結(jié)果,提高大數(shù)據(jù)分區(qū)效率,通過改進(jìn)BP神經(jīng)網(wǎng)絡(luò)檢測方法,實現(xiàn)大數(shù)據(jù)分區(qū)域異常數(shù)據(jù)的準(zhǔn)確挖掘。實驗結(jié)果說明,所提方法可對不同大數(shù)據(jù)集進(jìn)行準(zhǔn)確挖掘,具有較高的魯棒性和效率。
圖4 在不同數(shù)據(jù)集大小下兩種方法的運行時間比較
圖5 在不同維數(shù)下兩種方法的運行時間比較
[1]李志云,周國祥.一種基于MFP樹的快速關(guān)聯(lián)規(guī)則挖掘算法[J].計算機技術(shù)與發(fā)展,2007,17(6):94-96.
[2]相征,張?zhí)?,孫建成.基于混沌吸引子的快衰落信道預(yù)測算法[J].西安電子科技大學(xué)學(xué)報,2006,33(1):145-149.
[3]劉芳.基于離散反饋控制的TCP-RED網(wǎng)絡(luò)混沌特性研究[J].西安電子科技大學(xué)學(xué)報,2005,32(6):977-981.
[4]劉興濤,石冰,解英文.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的一種改進(jìn)[J].山東大學(xué)學(xué)報(理學(xué)版),2008,43(11):67-71.
[5]羅赟騫,夏靖波,陳天平.網(wǎng)絡(luò)性能評估中客觀權(quán)重確定方法比較[J].計算機應(yīng)用,2009,29(10):2624-2626.
[6]劉曲明,顧桔.網(wǎng)絡(luò)性能分析評價方法及其計算機仿真方法討論[J].計算機仿真,2000,17(1):53-57.
[7]周水庚,周傲英,曹晶.基于數(shù)據(jù)分區(qū)的DBSCAN算法[J].計算機研究與發(fā)展,2000,37(10):1153-1159.
[8]Yang Jingrong.ZhaoChunyu.Study on the Data Mining Algorithm Based on Positive and Negative Association Rules[J].Computer and Information Science,2009,2(2):103 -106.
[9]趙鵬.海量高維數(shù)據(jù)下的頻繁項目集挖掘算法研究[J].計算機應(yīng)用與軟件,2012,29(7):150-153.