趙國(guó)生,邵子豪,王 健,任孟其
(1.哈爾濱師范大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院 哈爾濱 150025;2.哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150080)
可生存系統(tǒng)是一種高性能的認(rèn)知邏輯網(wǎng)絡(luò),如今已發(fā)展為各國(guó)各界信息安全領(lǐng)域的核心問題。它可以滿足不同應(yīng)用的各種需求,還可以通過感知系統(tǒng)的內(nèi)、外部環(huán)境變化,實(shí)時(shí)動(dòng)態(tài)地調(diào)整總體的網(wǎng)絡(luò)系統(tǒng)配置,使其性能達(dá)到最優(yōu)。在可生存系統(tǒng)研究中,對(duì)其生存態(tài)勢(shì)的研究是最為關(guān)鍵的。然而,現(xiàn)實(shí)中的系統(tǒng)現(xiàn)狀是無(wú)論如何防御入侵總會(huì)發(fā)生,無(wú)論如何檢測(cè),系統(tǒng)總會(huì)受到不同程度的破壞,所以系統(tǒng)的失效在所難免。在有限的時(shí)間里更好保證系統(tǒng)的良好生存態(tài)勢(shì)并利用當(dāng)前生存態(tài)勢(shì)預(yù)測(cè)將來(lái)的生存態(tài)勢(shì),已成為亟待解決的問題。
可生存系統(tǒng)生存態(tài)勢(shì)的研究,由參照文獻(xiàn)[1]的定義可知,主要分為對(duì)3R(resistance, recognition,recovery)屬性的研究。現(xiàn)有大部分文獻(xiàn)都將研究的主要精力投入到對(duì)生存態(tài)勢(shì)的可恢復(fù)性與可抵抗性方面或?qū)缮孢M(jìn)行概括性的研究,如從服務(wù)生存性角度定義系統(tǒng)生存性[2]、通過事物與數(shù)據(jù)的實(shí)時(shí)特性定義完整性與可用性等生存性指標(biāo)[3]、針對(duì)網(wǎng)絡(luò)系統(tǒng)可生存性中的故障修復(fù)和網(wǎng)絡(luò)防故障技術(shù)來(lái)描述RSCN可生存性能[4]以及將可抵抗性概念應(yīng)用到優(yōu)化城市中救護(hù)車定位中,最大限度地保證病人的安全,提高救護(hù)車的救援質(zhì)量[5]等。但在可識(shí)別性方面國(guó)內(nèi)外研究文獻(xiàn)數(shù)量較少,大部分是基于網(wǎng)絡(luò)安全狀況和云計(jì)算環(huán)境。文獻(xiàn)[6]對(duì)云計(jì)算中的態(tài)勢(shì)識(shí)別進(jìn)行研究,提出了一種監(jiān)視運(yùn)行中的虛擬機(jī)的數(shù)據(jù)中心層的新方法,并在實(shí)驗(yàn)中驗(yàn)證了該方法的可行性;文獻(xiàn)[7]對(duì)云計(jì)算環(huán)境中的識(shí)別技術(shù)進(jìn)行了總結(jié),并對(duì)各種入侵檢測(cè)技術(shù)在云環(huán)境下的檢測(cè)能力進(jìn)行了全面的分析;文獻(xiàn)[8]在構(gòu)建可生存系統(tǒng)認(rèn)知參考模型中,提出了一種用模糊關(guān)系矩陣進(jìn)行生存屬性分類的方法,通過最終實(shí)驗(yàn)可判斷在可生存系統(tǒng)存在異常攻擊時(shí),哪些屬性是處于重要主導(dǎo)地位,以此為生存系統(tǒng)的更好設(shè)計(jì)與實(shí)現(xiàn)提供重要參考;文獻(xiàn)[9]從生存性的自主識(shí)別性入手,提出自主識(shí)別單元,側(cè)重研究可識(shí)別性檢測(cè)參數(shù)定義、自主識(shí)別模式以及閾值可變方式,提出一種可識(shí)別性監(jiān)測(cè)機(jī)制以此提高自主認(rèn)知能力和服務(wù)承載能力。對(duì)可識(shí)別性的研究,通常應(yīng)包含識(shí)別當(dāng)前態(tài)勢(shì)和對(duì)可生存系統(tǒng)生存態(tài)勢(shì)在將來(lái)一段時(shí)間內(nèi)發(fā)展趨勢(shì)的預(yù)測(cè)。
綜上,本文將事前識(shí)別與事后預(yù)測(cè)相結(jié)合,從生存態(tài)勢(shì)的角度研究了可生存系統(tǒng),提出了一種基于生存簇識(shí)別和預(yù)測(cè)的生存態(tài)勢(shì)感知模型。
本文模型研究了可生存系統(tǒng)的生存態(tài)勢(shì),對(duì)生存態(tài)勢(shì)數(shù)據(jù)生成的生存簇進(jìn)行了事前識(shí)別與事后預(yù)測(cè)。首先,使用改進(jìn)的Ward方法[10],生成生存簇并進(jìn)行識(shí)別,實(shí)現(xiàn)對(duì)當(dāng)前可生存系統(tǒng)生存態(tài)勢(shì)的可識(shí)別能力;其次,構(gòu)建自回歸移動(dòng)平均模型(ARIMA)[11],將態(tài)勢(shì)數(shù)據(jù)進(jìn)行預(yù)測(cè),并使用分步模糊信息?;椒╗12]對(duì)殘差數(shù)據(jù)進(jìn)行處理,提高預(yù)測(cè)準(zhǔn)確度。最終實(shí)現(xiàn)了可生存系統(tǒng)生存態(tài)勢(shì)的感知。
Ward聚類的主要思想:采取正確聚類時(shí),同類間的數(shù)據(jù)離差平方和會(huì)盡可能的小,成功聚類后可將相似服務(wù)等級(jí)的生存簇聚集在一起。
在生存態(tài)勢(shì)生存簇的形成中,需將每個(gè)態(tài)勢(shì)數(shù)據(jù)看成一類,每減小一類,選擇S增加最小的兩類進(jìn)行合并,直至所有樣本歸為所需數(shù)量的類。已知n個(gè)態(tài)勢(shì)數(shù)據(jù)分成k類總的類內(nèi)離差平方和計(jì)算方法為:
使用Ward聚類后,會(huì)生成不同大小的生存簇,由于數(shù)據(jù)中存在關(guān)鍵性數(shù)據(jù)與不合理數(shù)據(jù),考慮到搜索成本與時(shí)間問題,成功識(shí)別不合理數(shù)據(jù)十分重要。因此,對(duì)現(xiàn)有Ward聚類方法進(jìn)行改進(jìn),引入消錯(cuò)方法[13]進(jìn)行決策,實(shí)現(xiàn)可生存系統(tǒng)生存態(tài)勢(shì)的事前識(shí)別。
消錯(cuò)方法是從錯(cuò)誤損失的角度看待問題,通過降低錯(cuò)誤的損失,達(dá)到更好的數(shù)據(jù)識(shí)別效果。
在多屬性決策問題中,假設(shè)m個(gè)態(tài)勢(shì)數(shù)據(jù)表示為n個(gè)屬性為決策矩陣為ai在di下的測(cè)量值為xij。識(shí)別步驟如下:
1)計(jì)算態(tài)勢(shì)數(shù)據(jù)錯(cuò)誤值t:
2)計(jì)算ai最大錯(cuò)誤值并判斷合理性,其中時(shí)為不合理數(shù)據(jù),表示為:
3)計(jì)算可行數(shù)據(jù)錯(cuò)誤損失值,表示為:
對(duì)可生存系統(tǒng)生存態(tài)勢(shì)數(shù)據(jù)只進(jìn)行事前識(shí)別是不夠的,還需建立模型便于對(duì)可生存系統(tǒng)生存態(tài)勢(shì)進(jìn)行預(yù)測(cè),由此引入ARIMA模型。
ARIMA模型是以數(shù)學(xué)模型的方式描述預(yù)測(cè)對(duì)象根據(jù)時(shí)間的發(fā)展形成的隨機(jī)序列。在可用性方面文獻(xiàn)[14]認(rèn)證了該模型的可行性。
使用模糊信息?;cSVR模型對(duì)ARIMA模型中的殘差數(shù)據(jù)進(jìn)行處理。模糊信息粒化包括:窗口劃分和模糊化。為計(jì)算方便本文選用三角型模糊粒子,隸屬公式為:
式中,x為輸入的時(shí)間序列;min、avg、max分別表示相應(yīng)生存態(tài)勢(shì)數(shù)據(jù)變化的最小值、平均值、最大值。對(duì)于已知訓(xùn)練樣本數(shù)集在高維特征空間中構(gòu)造最優(yōu)決策函數(shù):
式中,ω為權(quán)重矢量。設(shè)b為偏差值,它們滿足以下約束條件:
將該方法用于回歸問題上,還需引入損失函數(shù)來(lái)保持重要屬性,構(gòu)建公式為:
4.1.1 指標(biāo)選取
對(duì)可生存系統(tǒng)生存態(tài)勢(shì)識(shí)別指標(biāo)的選取,本文參考文獻(xiàn)[15]建立的指標(biāo)體系原則,選取了3個(gè)主要因素,即完整性、使用性和感知性。這3個(gè)因素又分為6個(gè)性能指標(biāo),分別為數(shù)據(jù)復(fù)用率、檢驗(yàn)強(qiáng)度、信道利用率、信道延遲、信道吞吐率和感知率。
4.1.2 Ward方法算例實(shí)現(xiàn)
在實(shí)驗(yàn)中,假設(shè)網(wǎng)絡(luò)系統(tǒng)服務(wù)中提供5種級(jí)別的服務(wù)A1(最高)、A2、A3、A4、A5(最低),初始數(shù)據(jù)表如表1所示。
表1 初始數(shù)據(jù)表
表2 用戶聚類
由表1規(guī)定當(dāng)前系統(tǒng)內(nèi),不同服務(wù)級(jí)別的各項(xiàng)生存性能指標(biāo)會(huì)有不同。隨機(jī)抽取250位正常用戶數(shù)據(jù),其中A1級(jí)別用戶15位,A2級(jí)別用戶25位,A3、A4和A5級(jí)別用戶各70位。
通過式(1)計(jì)算離差平方和并使用SPSS19.0軟件進(jìn)行聚類,將產(chǎn)生的Ward聚類規(guī)定簇?cái)?shù)量為5類。經(jīng)統(tǒng)計(jì)產(chǎn)生的新服務(wù)等級(jí)用戶數(shù)據(jù)聚類如表2所示,聚類方法的原理圖如圖1所示。
圖1 Ward聚類原理圖
圖1 中表示的聚類種類為5類,通過SPSS19.0軟件,將其數(shù)據(jù)根據(jù)特性自動(dòng)聚類到這5類中。
4.1.3 數(shù)據(jù)識(shí)別
隨機(jī)抽取6組用戶數(shù)據(jù),每一級(jí)服務(wù)范圍內(nèi)抽樣數(shù)量都為1,并抽取1名非法用戶進(jìn)行計(jì)算。判斷態(tài)勢(shì)數(shù)據(jù)可行性并排序,數(shù)據(jù)如表3所示。表中,QA1、QA2、QA3、QA4、QA5、QA6分別為數(shù)據(jù)復(fù)用率、校驗(yàn)強(qiáng)度、信道吞吐率、信道延遲、信道利用率和感知率。
表3 決策矩陣
根據(jù)式(2)~式(4)和環(huán)比評(píng)分(DARE)法求得各數(shù)據(jù)極限損失值為得出數(shù)據(jù)a1、a2、a3、a4、為可行數(shù)據(jù),a6為錯(cuò)誤數(shù)據(jù)。利用式(5)和文獻(xiàn)[16]的方法求得各屬性的錯(cuò)誤極限損失值和損失序列分別為0.007,0.039}、a2{0.225,0.122,0.116,0.148,0.056,0.214}、a3{0.113,0.068,0.059,0.068,0.035,0.158}、0.019,0.059,0.018,0.019,0.051}。根據(jù)式(5)求得離心距為R1=0.048、R2=0.387、R3=0.227、R4=0.329、可知用戶數(shù)據(jù)性能排序?yàn)閍1、a5、a3、且a6為非法用戶。
為進(jìn)一步說(shuō)明本方法的可行性,采用兩種常見的傳統(tǒng)決策方法,即理想點(diǎn)法和加權(quán)平均法對(duì)這組數(shù)據(jù)進(jìn)行排序,排序結(jié)果如表4所示。
表4 決策方法對(duì)比
綜上,結(jié)合了消錯(cuò)方法的Ward聚類法,成功將生存態(tài)勢(shì)數(shù)據(jù)聚類為5種服務(wù)等級(jí)的生存簇并對(duì)不合理數(shù)據(jù)進(jìn)行識(shí)別。從計(jì)算的過程、復(fù)雜性與結(jié)果看,本文提出的消錯(cuò)決策方法無(wú)需計(jì)算權(quán)重且計(jì)算復(fù)雜度低;從排序結(jié)果看,傳統(tǒng)決策方法只能實(shí)現(xiàn)數(shù)據(jù)的排序,缺少驗(yàn)證合理數(shù)據(jù)的能力,本文通過計(jì)算極限損失值成功識(shí)別部分錯(cuò)誤數(shù)據(jù),提高了對(duì)數(shù)據(jù)的準(zhǔn)確處理能力及響應(yīng)時(shí)間,排序結(jié)果也與傳統(tǒng)決策方法基本一致。
4.2.1 ARIMA建模
在高生存性網(wǎng)絡(luò)服務(wù)系統(tǒng)中,系統(tǒng)響應(yīng)服務(wù)次數(shù)越多,意味著系統(tǒng)服務(wù)生存態(tài)勢(shì)越好。但由于高級(jí)別服務(wù)用戶數(shù)量是有限的,其相應(yīng)的服務(wù)次數(shù)也是有限的,大部分用戶請(qǐng)求服務(wù)都集中于中間級(jí)別,想要快速、較準(zhǔn)確地預(yù)測(cè)服務(wù)生存態(tài)勢(shì),可通過對(duì)A3與A4級(jí)別用戶請(qǐng)求服務(wù)次數(shù)進(jìn)行預(yù)測(cè),完成對(duì)可生存系統(tǒng)生存態(tài)勢(shì)的事后預(yù)測(cè)。
現(xiàn)選取用戶數(shù)據(jù)進(jìn)行分析與預(yù)測(cè)。計(jì)算從1月1日-1月30日這30天服務(wù)等級(jí)為A3和A4級(jí)別的用戶請(qǐng)求服務(wù)次數(shù),建立模型如圖2a所示,采集的數(shù)據(jù)序列圖符合隨機(jī)性分布,經(jīng)觀察為非平穩(wěn)時(shí)間序列,進(jìn)行一階差分后如圖2b所示。
圖2 ARIMA模型校驗(yàn)
自相關(guān)系數(shù)和偏自相關(guān)系數(shù)如表5所示,規(guī)定標(biāo)簽數(shù)最大為12。選取ARIMA(0,1,0)為最優(yōu)預(yù)測(cè)模型,模型預(yù)測(cè)結(jié)果如圖3所示。
圖3中,實(shí)線表示實(shí)際A3與A4級(jí)別用戶請(qǐng)求服務(wù)次數(shù),虛線表示ARIMA(0,1,0)模型預(yù)測(cè)的用戶請(qǐng)求的服務(wù)次數(shù),總體上來(lái)說(shuō)模型的預(yù)測(cè)結(jié)果與實(shí)際情形實(shí)現(xiàn)初步擬合,但存在一定的延遲且精準(zhǔn)度有待提升。
表5 自相關(guān)系數(shù)和偏自相關(guān)系數(shù)
圖3 ARIMA(0,1,0)模型預(yù)測(cè)結(jié)果
4.2.2 信息?;疭VR建模
由于ARIMA模型預(yù)測(cè)數(shù)據(jù)存在誤差,現(xiàn)將1月1日-1月30日30天內(nèi)產(chǎn)生的30個(gè)數(shù)據(jù)與實(shí)際數(shù)據(jù)之間的誤差值作為訓(xùn)練集,以1月31-2月2日作為預(yù)測(cè)集,每3天為一個(gè)信息?;翱冢瑪?shù)據(jù)模糊?;癁長(zhǎng)ow、Medium、High3個(gè)參數(shù),如圖4所示。其中Low、Medium和High分別描述的是服務(wù)等級(jí)為A3和A4級(jí)別的用戶請(qǐng)求服務(wù)次數(shù)的最小、平均和最大變化數(shù)。
圖4 ?;Y(jié)果
將模糊信息粒子數(shù)據(jù)集作為輸入變量構(gòu)建SVR模型。對(duì)模糊信息粒子及窗口化殘差進(jìn)行預(yù)測(cè),數(shù)據(jù)進(jìn)行歸一化處理,利用GS算法進(jìn)行參數(shù)尋優(yōu),分別在Low、Medium、High下獲取規(guī)范化參數(shù)與核參數(shù)為L(zhǎng)ow:c=38.1,g=38.1;Medium:c=32,g=16;High:c=32,g=1,測(cè)試集輸出結(jié)果如圖5所示。
由圖5可知,SVR模型總體殘差預(yù)測(cè)準(zhǔn)確率較高,對(duì)于Low參數(shù)預(yù)測(cè)結(jié)果較為準(zhǔn)確,High參數(shù)的預(yù)測(cè)結(jié)果較差。但對(duì)于窗口化殘差值相差很大時(shí)如2、3窗口時(shí),模型中Low、Medium兩個(gè)參數(shù)預(yù)測(cè)值存在很大誤差,主要是因?yàn)镾VR模型中通過前一個(gè)窗口的模糊信息粒子完成對(duì)后一窗口數(shù)據(jù)的預(yù)測(cè),所以當(dāng)用戶請(qǐng)求服務(wù)次數(shù)波動(dòng)很大時(shí)預(yù)測(cè)準(zhǔn)確度會(huì)下降。因此,SVR模型對(duì)事后殘差數(shù)據(jù)的預(yù)測(cè)是可行的,但也存在不足。
圖5 Low、Medium和High參數(shù)預(yù)測(cè)結(jié)果、誤差和Low、Medium和High參數(shù)的網(wǎng)格尋優(yōu)結(jié)果
4.2.3 ARIMA建模和信息粒化SVR組合
將ARIMA模型預(yù)測(cè)值和SVR殘差預(yù)測(cè)值合并,預(yù)測(cè)未來(lái)3天的用戶請(qǐng)求服務(wù)次數(shù),如表6所示。
表6 組合模型預(yù)測(cè)結(jié)果
由實(shí)驗(yàn)結(jié)果可知,ARIMA模型預(yù)測(cè)1月31日-2月2日服務(wù)等級(jí)為A3和A4級(jí)別的用戶請(qǐng)求服務(wù)次數(shù)分別為469、410、351與實(shí)際用戶請(qǐng)求服務(wù)次數(shù)665、574、487有差距,但增減趨勢(shì)一致,SVR模型對(duì)事后預(yù)測(cè)的殘差數(shù)據(jù)進(jìn)行修正,殘差修正后總體預(yù)測(cè)準(zhǔn)確度提升13.5%,但組合模型的準(zhǔn)確率達(dá)到84.8%。
綜上,ARIMA模型與SVR模型結(jié)合可對(duì)服務(wù)等級(jí)為A3和A4級(jí)的用戶請(qǐng)求服務(wù)次數(shù)進(jìn)行預(yù)測(cè),通過圖2可發(fā)現(xiàn)隨著時(shí)間的推移,在相同時(shí)間段內(nèi),用戶每天的請(qǐng)求服務(wù)次數(shù)總體呈下降趨勢(shì),表明系統(tǒng)的總體服務(wù)生存態(tài)勢(shì)在下降,通過該方法,完成對(duì)可生存系統(tǒng)生存態(tài)勢(shì)的事后預(yù)測(cè)。
本文提出一種基于生存簇識(shí)別和預(yù)測(cè)的生存態(tài)勢(shì)感知模型,側(cè)重研究了生存態(tài)勢(shì)數(shù)據(jù)合法性判斷和系統(tǒng)服務(wù)生存性的預(yù)測(cè)等。在仿真實(shí)驗(yàn)中對(duì)網(wǎng)絡(luò)系統(tǒng)中服務(wù)數(shù)據(jù)與請(qǐng)求服務(wù)次數(shù)進(jìn)行性能仿真,實(shí)驗(yàn)結(jié)果顯示模型可以實(shí)現(xiàn)對(duì)可生存系統(tǒng)生存態(tài)勢(shì)的事前識(shí)別和預(yù)測(cè)生存態(tài)勢(shì)。但該模型存在相應(yīng)的不足,首先,事前識(shí)別中缺乏對(duì)外部攻擊的識(shí)別,識(shí)別真實(shí)場(chǎng)景準(zhǔn)確率有待提高;其次,事前識(shí)別中只識(shí)別出合理性數(shù)據(jù),但對(duì)合理性數(shù)據(jù)所屬級(jí)別并不能較好的識(shí)別;最后,預(yù)測(cè)模型的精確度有待提高并存在一定的延遲,尤其是在面對(duì)數(shù)據(jù)波動(dòng)較大的數(shù)據(jù)源時(shí),局部精準(zhǔn)度表現(xiàn)較差。在后續(xù)可生存系統(tǒng)生存態(tài)勢(shì)的自感知的研究中,將會(huì)考慮構(gòu)建一種更好的識(shí)別模型和更準(zhǔn)確的預(yù)測(cè)模型。
本文的研究工作得到了哈爾濱市科技創(chuàng)新人才研究專項(xiàng)資金(2016RAQXJ036)的資助,在此表示感謝!