商 婧,王佳寧,劉 旭,李 琪,王 健
(1.北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044;2.北京經(jīng)緯信息技術(shù)有限公司,北京 100081)
隨著鐵路的高速發(fā)展,鐵路行業(yè)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代[1];逐步成熟的大數(shù)據(jù)技術(shù)能夠?yàn)殍F路運(yùn)輸組織的各個(gè)環(huán)節(jié)予以高效指導(dǎo)[2-3]。鐵路網(wǎng)絡(luò)業(yè)務(wù)場(chǎng)景眾多,數(shù)據(jù)資產(chǎn)規(guī)模龐大、類型繁雜、價(jià)值密度高,因此對(duì)關(guān)鍵信息基礎(chǔ)設(shè)施、重要數(shù)據(jù)、個(gè)人信息、數(shù)據(jù)跨境流動(dòng)等方面有較高的安全保護(hù)需求。研究并形成鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)分類方法,對(duì)落實(shí)鐵路網(wǎng)絡(luò)數(shù)據(jù)安全管理要求,確保鐵路網(wǎng)絡(luò)數(shù)據(jù)安全風(fēng)險(xiǎn)可控、在控具有重大意義。
目前,已有眾多學(xué)者對(duì)風(fēng)險(xiǎn)等級(jí)分類技術(shù)進(jìn)行了研究。駱公志等人[4]提出一種基于粗糙集理論的網(wǎng)絡(luò)信息安全風(fēng)險(xiǎn)等級(jí)分類技術(shù),通過(guò)成對(duì)比較矩陣賦予每個(gè)信息系統(tǒng)對(duì)應(yīng)權(quán)重,生成加權(quán)多粒度粗糙集,并在模型容錯(cuò)性等方面進(jìn)行了詳細(xì)分析,但由于該方法需要拓展粗糙集模型并獲取信息系統(tǒng)各類規(guī)則,實(shí)施過(guò)程較為復(fù)雜;陳瑋等人[5]使用卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶模型對(duì)企業(yè)新聞數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)劃分,但該方法需要對(duì)大量訓(xùn)練語(yǔ)料進(jìn)行人工信息標(biāo)注,且構(gòu)建雙向長(zhǎng)短期記憶模型所花費(fèi)的時(shí)間過(guò)多,實(shí)用性較差。
除上述方法外,也可使用聚類算法進(jìn)行風(fēng)險(xiǎn)等級(jí)分類。李暢等人[6]基于模糊譜聚類技術(shù),依據(jù)真實(shí)駕駛數(shù)據(jù),建立了在線駕駛風(fēng)險(xiǎn)等級(jí)分類算法,但由于譜聚類技術(shù)對(duì)每簇?cái)?shù)據(jù)量有一定的要求,故在數(shù)據(jù)量較大時(shí)使用受限;丁慧等人[7]使用改進(jìn)的密度聚類算法進(jìn)行風(fēng)險(xiǎn)等級(jí)判定,通過(guò)查詢每個(gè)節(jié)點(diǎn)的歐氏平均距離鄰域,分別計(jì)算每個(gè)節(jié)點(diǎn)密度和所有節(jié)點(diǎn)平均密度,得到每個(gè)節(jié)點(diǎn)的方差,并采用基于等深度分塊法進(jìn)行數(shù)據(jù)分割,從而在每個(gè)數(shù)據(jù)分區(qū)運(yùn)行密度聚類算法,得到聚類結(jié)果。然而,該方法在對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,使用單一距離度量方法進(jìn)行聚類,沒(méi)有考慮數(shù)據(jù)屬性的復(fù)雜性對(duì)聚類結(jié)果帶來(lái)的影響,對(duì)實(shí)際應(yīng)用場(chǎng)景的適應(yīng)性較差。
綜上所述,現(xiàn)有的風(fēng)險(xiǎn)等級(jí)分類技術(shù)多數(shù)需要獲取復(fù)雜規(guī)則或大規(guī)模信息標(biāo)注,一些使用聚類方法的技術(shù)也沒(méi)有考慮到數(shù)據(jù)屬性的復(fù)雜性,且沒(méi)有進(jìn)行結(jié)果的有效性評(píng)估,進(jìn)而導(dǎo)致無(wú)法得到最優(yōu)的分類結(jié)果。
為克服現(xiàn)有風(fēng)險(xiǎn)等級(jí)分類方法的局限性,同時(shí)對(duì)鐵路網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行更加有效的風(fēng)險(xiǎn)等級(jí)分類,本文提出了基于高斯混合模型(GMM,Gaussian Mixture Model)聚類的鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)分類方法。該方法考慮數(shù)據(jù)的無(wú)序和有序?qū)傩裕诨旌暇嚯x計(jì)算進(jìn)行GMM 聚類,最終能夠?qū)⑤斎氲臄?shù)據(jù)根據(jù)其等級(jí)和生命周期階段進(jìn)行更加準(zhǔn)確、有效的風(fēng)險(xiǎn)等級(jí)分類。本文算法以鐵路數(shù)據(jù)分類分級(jí)結(jié)果為基礎(chǔ),識(shí)別數(shù)據(jù)在全生命周期內(nèi)的潛在風(fēng)險(xiǎn),研究并確定鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)分類,為制定差異化的數(shù)據(jù)安全保護(hù)措施提供支撐,對(duì)進(jìn)一步落實(shí)鐵路網(wǎng)絡(luò)數(shù)據(jù)安全管理要求具有重大意義。
K-means 聚類算法是一種迭代求解的聚類分析算法,算法步驟如下。
(1)確定簇?cái)?shù)和最大迭代次數(shù),初始化類簇。
(2)初始化聚類中心。從數(shù)據(jù)樣本中,隨機(jī)選取k個(gè)數(shù)據(jù)樣本點(diǎn)作為聚類中心。
(3)將數(shù)據(jù)樣本分配到與其歐式距離最近的類中。
(4)迭代聚類中心。計(jì)算每個(gè)簇中所有數(shù)據(jù)樣本點(diǎn)的均值,作為新的聚類中心。
(5)如果聚類中心不再偏移或偏移很小,或者達(dá)到最大迭代次數(shù)N,則停止迭代,輸出聚類結(jié)果,否則重復(fù)步驟(3)和(4)。
考慮到鐵路網(wǎng)絡(luò)數(shù)據(jù)屬性較為復(fù)雜等特點(diǎn),本文對(duì)有序?qū)傩院蜔o(wú)序?qū)傩允褂枚喾N距離計(jì)算方式進(jìn)行度量。
1.2.1 VDM 距離
VDM(Value Difference Metric)主要用于對(duì)不存在序關(guān)系的離散無(wú)序數(shù)據(jù)屬性進(jìn)行距離度量。令mu,a表示在屬性u(píng)上取值為a的樣本數(shù),mu,a,i表示在第i個(gè)樣本簇中在屬性u(píng)上取值為a的樣本數(shù),k為樣本簇個(gè)數(shù),則屬性u(píng)上兩個(gè)離散值a和b之間的VDM 距離為
1.2.2 MindkovDM 混合距離
對(duì)于有序?qū)傩院蜔o(wú)序?qū)傩酝瑫r(shí)存在的混合距離計(jì)算,本文采用MindkovDM 距離計(jì)算方法,將歐式距離和VDM 距離結(jié)合,假定共有n個(gè)屬性,其中,nc個(gè)無(wú)序?qū)傩?,n-nc個(gè)有序?qū)傩裕瑒tMinkovDM 距離為
根據(jù)鐵路網(wǎng)絡(luò)數(shù)據(jù)規(guī)模大、數(shù)據(jù)類型多樣等特點(diǎn),本文使用GMM 聚類技術(shù)。對(duì)于大規(guī)模數(shù)據(jù),GMM 聚類算法相較其他聚類算法更加有效,且時(shí)間復(fù)雜度更低[8],聚類結(jié)果也更加穩(wěn)定。與K-means 聚類方法不同,這種聚類方法依概率劃分各個(gè)樣本簇,而不會(huì)將數(shù)據(jù)確定地分為某一個(gè)簇。該方法采用的訓(xùn)練模型是幾個(gè)高斯模型的加權(quán)和,之后將樣本數(shù)據(jù)分別在若干個(gè)高斯模型上進(jìn)行投影,分別得到這些樣本數(shù)據(jù)點(diǎn)被劃分在各個(gè)類簇上的概率,最后選取概率最大的簇作為數(shù)據(jù)點(diǎn)最終劃分結(jié)果[9]。
鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)分類步驟為:(1)數(shù)據(jù)預(yù)處理,從風(fēng)險(xiǎn)和數(shù)據(jù)角度提取關(guān)鍵信息,構(gòu)建風(fēng)險(xiǎn)信息數(shù)據(jù)集;(2)利用數(shù)據(jù)的有序?qū)傩赃M(jìn)行K-means聚類,獲得初始聚類中心;(3)通過(guò)計(jì)算混合距離調(diào)整聚類中心;(4)基于上述聚類中心,進(jìn)行多輪迭代,完成GMM 聚類,并對(duì)每輪聚類結(jié)果進(jìn)行評(píng)估;(5)將評(píng)估表現(xiàn)最好的聚類結(jié)果作為最終類簇劃分,并確定每類風(fēng)險(xiǎn)評(píng)分,最終根據(jù)評(píng)分確定風(fēng)險(xiǎn)等級(jí),完成數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)分類,如圖1所示。
圖1 鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)分類算法流程
對(duì)鐵路網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,根據(jù)鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)評(píng)估指標(biāo),從風(fēng)險(xiǎn)和數(shù)據(jù)角度提取關(guān)鍵信息。從數(shù)據(jù)角度,以鐵路網(wǎng)絡(luò)數(shù)據(jù)分類分級(jí)要求作為基礎(chǔ)依據(jù),提取不同級(jí)別數(shù)據(jù)的關(guān)鍵信息,包括數(shù)據(jù)等級(jí)、數(shù)據(jù)在全生命周期中所處不同階段,形成數(shù)據(jù)信息;從風(fēng)險(xiǎn)角度,對(duì)現(xiàn)有數(shù)據(jù)風(fēng)險(xiǎn)進(jìn)行分析,獲取數(shù)據(jù)生命周期不同階段面臨的風(fēng)險(xiǎn)類型、風(fēng)險(xiǎn)影響程度,形成統(tǒng)一的風(fēng)險(xiǎn)信息。將以上2 方面信息構(gòu)成數(shù)據(jù)風(fēng)險(xiǎn)信息并存入風(fēng)險(xiǎn)信息數(shù)據(jù)庫(kù),數(shù)據(jù)自身屬性與風(fēng)險(xiǎn)屬性聯(lián)合作為輔助數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)分類的屬性。上述過(guò)程獲取的數(shù)據(jù)屬性被分為2 類,即有序?qū)傩院蜔o(wú)序?qū)傩?。有序?qū)傩裕耗苤苯釉趯傩灾瞪嫌?jì)算距離的屬性,如{1,2,3}。無(wú)序?qū)傩裕翰荒苤苯釉趯傩灾瞪嫌?jì)算距離的屬性,如{小狗,小貓,老鼠}。
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,使用數(shù)據(jù)中的有序?qū)傩赃M(jìn)行K-means 聚類操作得到初始的聚類中心和聚類結(jié)果,為每個(gè)數(shù)據(jù)樣本分配初始標(biāo)簽,方便后續(xù)利用混合屬性對(duì)聚類中心進(jìn)行調(diào)整。
利用歐式距離計(jì)算方法對(duì)有序?qū)傩蚤g的距離進(jìn)行計(jì)算,利用VDM 距離計(jì)算方法和步驟(2)中得到的數(shù)據(jù)標(biāo)簽對(duì)無(wú)序?qū)傩蚤g的距離進(jìn)行計(jì)算。隨后使用MindkovDM 混合距離計(jì)算方法聚合計(jì)算得出混合距離,實(shí)施基于混合距離的K-means 再聚類,得到每個(gè)類簇的簇中心。
將步驟(3)中得到的聚類中心作為GMM 聚類算法的初始中心,使用最大似然函數(shù)確定每個(gè)數(shù)據(jù)樣本屬于哪個(gè)高斯分布;使用最大期望(EM,Expectation Maximization)算 法 求 解GMM 參 數(shù)[10],更新所有高斯分布的均值和方差;計(jì)算模型的似然函數(shù),使用似然函數(shù)判斷模型參數(shù)是否已經(jīng)收斂;迭代更新模型參數(shù),直至收斂,即完成一次聚類過(guò)程。設(shè)置多個(gè)輪次進(jìn)行上述聚類過(guò)程,計(jì)算聚類結(jié)果的緊密性(CP)與分離性(SP),其中,CP 表示每一個(gè)類中各數(shù)據(jù)點(diǎn)到聚類中心的平均距離,CP 值越低表明類內(nèi)數(shù)據(jù)點(diǎn)間距離越近;SP 表示各聚類中心兩兩之間距離之和的平均值,SP 值越高表明類間距離越遠(yuǎn)。該步驟將CP 值與SP 值的比值作為每次聚類的評(píng)價(jià)指標(biāo),規(guī)定輪次的聚類結(jié)束后,將比值最小的聚類結(jié)果作為最終的聚類劃分(即風(fēng)險(xiǎn)劃分)結(jié)果。
假設(shè)每個(gè)樣本面臨m個(gè)數(shù)據(jù)風(fēng)險(xiǎn),則每個(gè)樣本的風(fēng)險(xiǎn)分?jǐn)?shù)計(jì)算公式為
其中, α 用來(lái)平衡數(shù)據(jù)等級(jí)與數(shù)據(jù)風(fēng)險(xiǎn)影響程度對(duì)最終風(fēng)險(xiǎn)值的影響占比,由于數(shù)據(jù)等級(jí)的高低也是影響數(shù)據(jù)潛在風(fēng)險(xiǎn)危害程度的重要因素,故通常0.5 ≤α <1;數(shù)據(jù)風(fēng)險(xiǎn)影響程度值由輸入的數(shù)據(jù)風(fēng)險(xiǎn)表提供。
利用風(fēng)險(xiǎn)等級(jí)計(jì)算公式,根據(jù)每一類簇中的數(shù)據(jù)樣本的有序?qū)傩缘膶傩灾涤?jì)算評(píng)分,得到最終的風(fēng)險(xiǎn)等級(jí)分類。假設(shè)某一類簇中有m個(gè)樣本,則這一類的風(fēng)險(xiǎn)總分計(jì)算公式為
對(duì)于每一個(gè)類簇,計(jì)算出的風(fēng)險(xiǎn)分?jǐn)?shù)越高,表示該類包含的數(shù)據(jù)潛在的風(fēng)險(xiǎn)越大,風(fēng)險(xiǎn)等級(jí)越高。
對(duì)提出的數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)分類方法進(jìn)行實(shí)驗(yàn)評(píng)估:收集鐵路網(wǎng)絡(luò)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,將本文提出的GMM 聚類算法和傳統(tǒng)K-means 聚類、譜聚類算法進(jìn)行結(jié)果的直觀對(duì)比與分析;通過(guò)比較上述算法在輪廓系數(shù)[11]、CH(Calinski-Harabasz)分?jǐn)?shù)、戴維森堡丁指數(shù)(DBI)[12]等評(píng)價(jià)指標(biāo)上的表現(xiàn),進(jìn)一步評(píng)估聚類效果。
本文收集鐵路網(wǎng)絡(luò)數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理,根據(jù)鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)評(píng)估指標(biāo)從風(fēng)險(xiǎn)和數(shù)據(jù)角度提取關(guān)鍵信息。
從數(shù)據(jù)角度,提取數(shù)據(jù)等級(jí)、數(shù)據(jù)在全生命周期中所處不同階段,形成數(shù)據(jù)信息,按照數(shù)據(jù)的重要程度將數(shù)據(jù)劃分為一般數(shù)據(jù)、重要數(shù)據(jù)和核心數(shù)據(jù),此外,將一般數(shù)據(jù)劃分為4 級(jí),由S1~S4 表示。數(shù)據(jù)等級(jí)由低到高表示為0~5。如表1 所示。
表1 數(shù)據(jù)等級(jí)
從風(fēng)險(xiǎn)角度,獲取數(shù)據(jù)生命周期不同階段面臨的風(fēng)險(xiǎn)類型及風(fēng)險(xiǎn)影響程度,分別如表2、表3 所示。
表2 數(shù)據(jù)生命周期及相應(yīng)風(fēng)險(xiǎn)類型
表3 風(fēng)險(xiǎn)影響程度
將從以上2 方面提取的信息聯(lián)合作為輔助數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)分類的屬性,構(gòu)建數(shù)據(jù)集。
3.2.1 輪廓系數(shù)
對(duì)于單個(gè)樣本,設(shè)a是與它同類別中其他樣本的平均距離,b是與它距離最近的不同類別中樣本的平均距離,則其輪廓系數(shù)為
一個(gè)樣本簇的輪廓系數(shù)取值范圍為[-1,1],輪廓系數(shù)越高,聚類效果越好。
3.2.2 CH 分?jǐn)?shù)
CH 分?jǐn)?shù)通過(guò)計(jì)算類中各點(diǎn)與類中心的距離平方和來(lái)度量類內(nèi)的緊密度,通過(guò)計(jì)算各類中心點(diǎn)與數(shù)據(jù)集中心點(diǎn)距離平方和來(lái)度量數(shù)據(jù)集的分離度,CH指標(biāo)由分離度與緊密度的比值得到。取值范圍為[0,+∞),CH 分?jǐn)?shù)越大,聚類效果越好。
3.2.3 DBI 指數(shù)
DBI 指數(shù)又稱為分類適確性指標(biāo),取值范圍為[0,+∞),該指數(shù)越小,聚類效果越好,計(jì)算公式為
其中,Si為第i類樣本到其類中心的平均歐氏距離;為第i和第j類的類中心歐氏距離。
3.3.1 GMM 聚類結(jié)果及分析
通過(guò)GMM 聚類算法將數(shù)據(jù)集劃分為5 類,根據(jù)每類的風(fēng)險(xiǎn)分值進(jìn)行風(fēng)險(xiǎn)等級(jí)劃分,分?jǐn)?shù)越高,風(fēng)險(xiǎn)越大。風(fēng)險(xiǎn)等級(jí)由低到高分為I 級(jí)、II 級(jí)、III 級(jí)、IV 級(jí)、V 級(jí)。為獲得最好的聚類結(jié)果,設(shè)置多個(gè)迭代次數(shù)進(jìn)行GMM 聚類,將CP和SP的比值作為評(píng)價(jià)指標(biāo),對(duì)每次聚類結(jié)果進(jìn)行評(píng)估,確保聚類結(jié)果可靠,多輪聚類結(jié)束后,將比值最小的聚類結(jié)果作為最終的聚類劃分結(jié)果。聚類結(jié)果如圖2 所示。
圖2 GMM 聚類結(jié)果及風(fēng)險(xiǎn)分類情況
3.3.2 K-means 聚類結(jié)果及分析
只考慮有序?qū)傩缘腒-means 聚類算法及考慮混合屬性的K-means 聚類算法所得的聚類結(jié)果分別如圖3、圖4 所示。根據(jù)實(shí)驗(yàn)結(jié)果,可以得出無(wú)論是否考慮數(shù)據(jù)的混合屬性,傳統(tǒng)K-means 聚類結(jié)果對(duì)類簇的劃分界限均不清晰,各個(gè)類簇之間的重疊情況較為嚴(yán)重。
圖3 只考慮有序?qū)傩缘腒-means 聚類結(jié)果
圖4 考慮混合屬性的K-means 聚類結(jié)果
3.3.3 譜聚類結(jié)果及分析
采用譜聚類算法所得聚類結(jié)果如圖5 所示,該方法無(wú)法產(chǎn)生正確的聚類劃分結(jié)果,聚類中心偏移嚴(yán)重,聚類數(shù)據(jù)點(diǎn)劃分類別不明確。
圖5 譜聚類結(jié)果
綜上,通過(guò)聚類結(jié)果的直觀對(duì)比,本文所提方法比傳統(tǒng)K-means 聚類方法及譜聚類方法更有效,產(chǎn)生的風(fēng)險(xiǎn)劃分結(jié)果更加明確清晰。
3.3.4 各聚類算法評(píng)估指標(biāo)對(duì)比
除通過(guò)聚類結(jié)果直接進(jìn)行上述對(duì)比,本文還使用輪廓系數(shù)、CH 分?jǐn)?shù)、DBI 指數(shù)這3 個(gè)聚類效果評(píng)估指標(biāo),對(duì)以上4 種聚類結(jié)果進(jìn)行分析。評(píng)估指標(biāo)計(jì)算結(jié)果如表4 所示。
表4 各種算法聚類效果評(píng)估指標(biāo)
根據(jù)3.2 節(jié)可知,輪廓系數(shù)越高,CH 分?jǐn)?shù)越大,DBI 指數(shù)越小,聚類效果越好。由表4 可知,本文提出的GMM 算法在輪廓系數(shù)上計(jì)算結(jié)果最高,在CH分?jǐn)?shù)上高于考慮混合屬性的K-means 算法和譜聚類算法,在DBI 指數(shù)上明顯低于其他3 種算法。綜上,使用本文提出的聚類算法所得到的聚類效果明顯優(yōu)于其余聚類算法的聚類效果。
根據(jù)3.3 節(jié)所得聚類結(jié)果,按照公式(3)~(5)給出的風(fēng)險(xiǎn)值計(jì)算公式,將鐵路數(shù)據(jù)劃分為5 個(gè)風(fēng)險(xiǎn)等級(jí),如表5 所示。
表5 數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)劃分結(jié)果
本文設(shè)計(jì)了一種基于GMM 聚類的鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)分類方法,使用K-means 和GMM 聚類技術(shù)對(duì)鐵路網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行多階段聚類。實(shí)驗(yàn)結(jié)果表明,本文提出的方法解決了具有混合屬性數(shù)據(jù)的類別劃分問(wèn)題和聚類算法隨機(jī)初始化帶來(lái)的聚類結(jié)果隨機(jī)性問(wèn)題,能夠更加準(zhǔn)確地對(duì)鐵路網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)等級(jí)分類,為完善鐵路網(wǎng)絡(luò)數(shù)據(jù)風(fēng)險(xiǎn)評(píng)估機(jī)制提供了有效的技術(shù)基礎(chǔ)。未來(lái)將考慮對(duì)鐵路網(wǎng)絡(luò)系統(tǒng)中各類風(fēng)險(xiǎn)與各種數(shù)據(jù)資產(chǎn)之間更加復(fù)雜的關(guān)系進(jìn)行聯(lián)合建模,利用深度學(xué)習(xí)技術(shù)作進(jìn)一步的研究。