姚鵬超,顏秉晶,郝唯杰,楊強
(浙江大學(xué) 電氣工程學(xué)院,浙江 杭州 310027)
隨著信息通信技術(shù)的發(fā)展,傳統(tǒng)電力系統(tǒng)的物理電氣設(shè)備逐漸與網(wǎng)絡(luò)設(shè)備(如控制、監(jiān)控、計算和通信設(shè)備)相結(jié)合,逐漸演化為電力信息物理系統(tǒng)(cyber-physical power system, CPPS)[1]。因此,來自信息網(wǎng)絡(luò)的攻擊正在不斷對CPPS造成新的威脅與挑戰(zhàn),與常規(guī)僅僅停留在信息層面的網(wǎng)絡(luò)攻擊不同,對CPPS的網(wǎng)絡(luò)攻擊可能會對工業(yè)控制系統(tǒng)的物理過程造成破壞,導(dǎo)致工業(yè)過程停工或嚴重的傷亡事故[2-3]。例如,2015年攻擊者使用惡意郵箱攻擊烏克蘭電網(wǎng)控制中心,植入BlackEnergy病毒,配合DDOS攻擊導(dǎo)致烏克蘭電網(wǎng)大規(guī)模停電[4-5]。CPPS遭受網(wǎng)絡(luò)攻擊時的后果往往達到災(zāi)難級別,目前對于CPPS遭受網(wǎng)絡(luò)攻擊時的入侵容忍能力要求越來越高。
在CPPS網(wǎng)絡(luò)安全問題越來越突出的情況下,建立一種針對CPPS的網(wǎng)絡(luò)可靠性模型以評估CPPS的入侵容忍能力,并據(jù)此建立有效的防御體系是降低網(wǎng)絡(luò)攻擊影響的關(guān)鍵手段[6-7]。針對CPPS的信息物理融合的可靠性建模方法,國內(nèi)外已做了很多相關(guān)工作。文獻[8]從研究對象演化和研究方法層面對CPPS的可靠性評估研究展開綜述,提出了信息物理融合視角下CPPS可靠性評估的研究思路和關(guān)鍵問題。文獻[9]建立了一種電力-信息交互模型,探究電力信息物理系統(tǒng)交互機理及其對可靠性評估帶來的影響。文獻[10]主要考慮在信息失效威脅條件下的CPPS可靠性評估方法。文獻[11]提出了一種將CPPS物理特性和信息流性能耦合在一個兩層模型中的復(fù)合馬爾可夫模型,在流量層面評估電力系統(tǒng)的可靠性。文獻[12]提出了一種考慮最優(yōu)防御資源配置的電力系統(tǒng)可靠性網(wǎng)絡(luò)安全保險模型,將CPPS的可靠性以保險的形式報價評估。文獻[13]基于蒙特卡洛方法,對信息系統(tǒng)和物理系統(tǒng)的可靠性進行評價并建立可靠性評估測試系統(tǒng),分析了網(wǎng)絡(luò)故障對可靠性的影響。文獻[14]建立一種可靠性模型以捕獲來自物理和信息組件的損害并評估組件之間的信息物理相互依賴的影響。
現(xiàn)有的CPPS可靠性評估方法存在簡化甚至缺少信息層面的建模過程的問題,在可靠性分析中很少涉及網(wǎng)絡(luò)空間模型的細節(jié)[15-18]。本文提出了一種CPPS入侵容忍能力評估方法,以半馬爾可夫鏈(semi-markov chain,SMC)[12]為基礎(chǔ)對高級可持續(xù)威脅(APT)攻擊進行建模,具體分析來自網(wǎng)絡(luò)層面的攻擊對CPPS的破壞滲透過程。并利用隨機博弈理論模型動態(tài)描述CPPS中攻防雙方的交互過程,預(yù)測納什均衡下攻擊者的最優(yōu)進攻策略,確定應(yīng)對惡意攻擊的最佳防御策略。最后以某CPPS安全試驗場為例仿真驗證了入侵容忍能力評估方法的有效性。本工作有如下創(chuàng)新貢獻。
(1)為深入細致地描述來自網(wǎng)絡(luò)層面的攻擊對CPPS的滲透過程,本文以網(wǎng)絡(luò)攻擊中的APT攻擊鏈為基礎(chǔ)構(gòu)建半馬爾可夫鏈模型,具體詳細地刻畫APT攻擊的每一階段。
(2)以隨機博弈為基礎(chǔ)動態(tài)描述CPPS中攻防雙方的交互過程,采用強化學(xué)習(xí)算法求解納什均衡,預(yù)測攻擊者在APT攻擊中的最優(yōu)進攻策略,制定最優(yōu)防御策略。
(3)提出了一種CPPS入侵容忍能力評估方法,在有限防御資源條件下提出了一種最優(yōu)資源分配方案,為高可靠性CPPS網(wǎng)絡(luò)的防御機制設(shè)計提供一定借鑒。
典型的電力工業(yè)控制系統(tǒng)具有明顯的分層結(jié)構(gòu),可分為網(wǎng)絡(luò)層與物理層,網(wǎng)絡(luò)層又自上而下分為辦公網(wǎng)絡(luò)、生產(chǎn)管理網(wǎng)絡(luò)、生產(chǎn)控制網(wǎng)絡(luò)[19]。以圖1 的CPPS安全試驗場網(wǎng)絡(luò)架構(gòu)為例,其辦公網(wǎng)絡(luò)包含Web服務(wù)器、辦公自動化(office automation,OA)服務(wù)器、郵箱服務(wù)器等設(shè)備,主要功能為提供Web服務(wù)、辦公自動化與郵箱服務(wù)。生產(chǎn)管理網(wǎng)絡(luò)包含生產(chǎn)控制站、設(shè)備管理站等設(shè)備,主要功能為自動化管理控制過程與設(shè)備。生產(chǎn)控制網(wǎng)絡(luò)包含工程師站、操作員站等設(shè)備,主要功能為組態(tài)開發(fā)以及通過控制協(xié)議與控制器的直接通信。物理層包括由傳感設(shè)備、控制設(shè)備、執(zhí)行設(shè)備等設(shè)備組成的物理網(wǎng)絡(luò),其基于微縮裝置模擬了大型火力發(fā)電場景:通過燃燒煤加熱水,形成水蒸氣給鍋爐加壓,增加的空氣壓力使閥門打開排氣,推動電機旋轉(zhuǎn)發(fā)電。
圖1 CPPS安全試驗場網(wǎng)絡(luò)架構(gòu)Fig. 1 The network architecture for a CPPS Testbed
由于電力工業(yè)控制系統(tǒng)不同網(wǎng)絡(luò)之間存在網(wǎng)絡(luò)隔離與防火墻規(guī)則限制,攻擊者想要破壞電力系統(tǒng)的物理過程,一般需要從辦公網(wǎng)絡(luò)發(fā)動攻擊并逐步滲透直至取得主機權(quán)限。如圖2所示,攻擊者首先需要利用漏洞攻擊辦公層的Web服務(wù)器等設(shè)備獲取內(nèi)部局域網(wǎng)的權(quán)限,再依次滲透至生產(chǎn)管理網(wǎng)絡(luò)與生產(chǎn)控制網(wǎng)絡(luò),最后對電力系統(tǒng)的物理運行過程進行破壞。
圖2 網(wǎng)絡(luò)滲透模型Fig. 2 The cyber penetration model
傳統(tǒng)的IT領(lǐng)域一般只考慮通信和計算機的安全問題,即圖2中的網(wǎng)絡(luò)層,然而,網(wǎng)絡(luò)攻擊一旦滲透到物理層,就會對電力系統(tǒng)造成巨大的破壞。因此為提高CPPS的入侵容忍能力,需要對來自網(wǎng)絡(luò)層的攻擊給予更多的重視。
攻擊者持續(xù)滲透攻擊CPPS的過程中,會經(jīng)歷多個進攻階段, APT攻擊鏈模型中將網(wǎng)絡(luò)攻擊分為信息偵查、武器構(gòu)建、載荷攻擊、漏洞利用、安裝植入、命令控制6個階段,其中關(guān)鍵在于發(fā)現(xiàn)并利用主機上存在的漏洞[20]。在攻擊者滲透攻擊的過程中,防御者也會進行入侵檢測,裝備入侵檢測系統(tǒng)(intrusion detection system,IDS)、防火墻等防御設(shè)施,修復(fù)自身存在的漏洞來抵御攻擊。
以APT攻擊鏈模型為基礎(chǔ),本節(jié)采用半馬爾科夫鏈模型對CPPS的攻擊入侵過程進行建模,評估CPPS的入侵容忍能力。圖3描繪了由一系列狀態(tài)組成的網(wǎng)絡(luò)攻擊入侵過程,狀態(tài)集可以表示為其中為轉(zhuǎn)移狀態(tài),為吸收狀態(tài),描述如表1所示。
表1 SMC狀態(tài)描述Table 1 The state description of SMC
圖4描述了SMC模型中攻擊者發(fā)動APT攻擊的詳細流程,右側(cè)表示當(dāng)前流程在圖3中所對應(yīng)的狀態(tài)。APT攻擊鏈的一次攻擊過程可以描述為〈?→ Ci→ Vi→ Hi〉,分別代表著從初始狀態(tài)進行信息偵查、武器構(gòu)建進入到內(nèi)網(wǎng),到載荷攻擊、漏洞利用,再到安裝植入、命令控制從而獲得主機權(quán)限。攻擊者的最終目的是對CPPS的物理過程進行破壞,一般需要完整進行4次APT攻擊才能進入到物理網(wǎng)絡(luò)并進行破壞。
圖3 半馬爾科夫鏈APT攻擊模型Fig. 3 The SMC model of APT attack
圖4 APT攻擊流程示意Fig. 4 The diagram of APT attack process
在本文中,基于APT攻擊鏈的SMC模型共有23個狀態(tài),圖3中同樣說明了不同狀態(tài)之間相應(yīng)的轉(zhuǎn)移概率,定義轉(zhuǎn)移概率矩陣,大小為23×23,用于描述不同狀態(tài)之間的轉(zhuǎn)換關(guān)系,為矩陣中第列第行的元素,滿足
表2 SMC轉(zhuǎn)移概率Table 2 The transition probability of SMC
將CPPS遭受APT攻擊并最終物理發(fā)電過程遭受破壞的持續(xù)時間表示為CPPS的平均失效時間,以評估CPPS的入侵容忍能力[12]。在整個滲透攻擊過程中,攻擊者在每一個轉(zhuǎn)移狀態(tài)上都可能會停留數(shù)次,將定義為在轉(zhuǎn)移狀態(tài)上的停留次數(shù),為在狀態(tài)上的平均停留時間,其值根據(jù)試驗場實際攻防演練時在每一狀態(tài)的平均花費時間經(jīng)驗值得到。計算方法為
其中停留次數(shù)遵循關(guān)系為
CPPS的可靠度是指從CPPS開始正常運行至某一時刻t 這段時間內(nèi)正常運行的概率,用表示??煽慷瓤捎蒀PPS的故障率計算[21]得到
隨機博弈是由一系列狀態(tài)組成的多個參與者進行的具有狀態(tài)概率轉(zhuǎn)移的動態(tài)博弈,在每一狀態(tài)下,參與者可以從動作集中選擇不同的動作,并獲得取決于當(dāng)前狀態(tài)與行動的收益[22]。每一狀態(tài)的博弈過程可以分解為矩陣博弈,并根據(jù)動作概率分布轉(zhuǎn)移到下一狀態(tài)。假定攻防雙方的目的都是為了取得最大化的收益,即均為絕對理性。本節(jié)采用隨機博弈模型來預(yù)測求解攻擊方在進行APT攻擊時的最優(yōu)策略,以及防御方在防御時的最優(yōu)防御策略[23]。
CPPS遭受攻擊者破壞物理過程需要成功進行4次APT攻擊,劃分4次博弈狀態(tài) S ={S1,S2,S3,S4},分別代表在辦公網(wǎng)絡(luò)、生產(chǎn)管理網(wǎng)絡(luò)、生產(chǎn)控制網(wǎng)絡(luò)、物理網(wǎng)絡(luò)中攻防交互過程。博弈攻防雙方分別表示攻擊者與防御者,攻防雙方動作集為代表攻防雙方動作的策略集合即選擇動作的概率分布;分別代表攻防雙方動作花費時間集合;與分別代表攻防雙方的效益函數(shù)。CPPS的隨機博弈模型為G=
在CPPS中,攻擊者和防御者彼此沒有對方完整的信息,本文選擇采用強化學(xué)習(xí)的算法來求解博弈的納什均衡策略。因為該場景中涉及2個智能體,所以在此采用minimax極大極小方法和-learning相結(jié)合的minimax-算法[25-26]。首先,minimax-采用極大極小法,通過線性規(guī)劃求解每個特定狀態(tài)的矩陣博弈的納什均衡策略,最后運用-learning方法迭代學(xué)習(xí)狀態(tài)值和最優(yōu)策略。狀態(tài)時攻擊者的狀態(tài)值定義為
這意味著攻擊者在與防守者的博弈中最大化了最壞情況下的期望收益,式(10)可用線性規(guī)劃來計算矩陣博弈的納什均衡解。
表3 矩陣博弈Table 3 The matrix game
其中,當(dāng)攻擊成功時攻擊者會得到W1~ W4的正收益,根據(jù)矩陣博弈可預(yù)測求解攻擊者在APT攻擊初始階段的使用不同攻擊手段的概率分布{α1,α2,α3}。則防御者在網(wǎng)絡(luò)邊界處部署不同的防御設(shè)備時的概率分布為
本節(jié)以CPPS安全試驗場為例,驗證入侵容忍能力評估與防御資源最優(yōu)配置方法的有效性。
CPPS安全試驗場模擬了真實場景下自上而下的工業(yè)控制系統(tǒng)控制過程。攻擊者試圖通過辦公網(wǎng)絡(luò)逐步滲透至工控系統(tǒng),操縱傳感器或是控制器來破壞火力發(fā)電過程。防御者對設(shè)備上的漏洞進行修補防止攻擊者滲透利用,并在網(wǎng)絡(luò)邊界處安裝防火墻或入侵檢測系統(tǒng)來防御攻擊者入侵。試驗場具有開展網(wǎng)絡(luò)攻防滲透測試的功能,因此本節(jié)將基于實際網(wǎng)絡(luò)測試的結(jié)果進行仿真實驗。
表4描述了CPPS安全試驗場上設(shè)備的漏洞信息, 并給出了通用漏洞披露(common vulnerabilities& exposures,CVE)漏洞編號及成功利用后系統(tǒng)所需恢復(fù)時間。和的攻防行為如表5所示,并且描述了采取相應(yīng)行為所需要的時間成本。半馬爾科夫鏈中每一狀態(tài)的為
表4 漏洞信息Table 4 The information of vulnerabilities
表5 攻防行為表Table 5 The actions of attackers and defenders
首先對APT攻擊初始階段攻擊者信息偵查、武器構(gòu)建進入到內(nèi)網(wǎng)的行為進行預(yù)測。正收益參數(shù) W1=10,W2=8,W3=4,W4=5。求解矩陣博弈預(yù)測攻擊者行為概率分布由式(12)可求解在不同防御等級下值。
圖5 攻擊者動作預(yù)測Fig. 5 Prediction of attacker's actions
圖6 最優(yōu)防御行為求解Fig. 6 Solution of optimal defense actions
表6 攻防雙方最優(yōu)策略Table 6 Optimal strategy for attackers and defenders
考慮CPPS試驗場的防御資源有限,配備IDS系統(tǒng)1套、防火墻2套。防御資源可安裝至外部網(wǎng)絡(luò)至辦公網(wǎng)絡(luò)邊界()、辦公網(wǎng)絡(luò)至生產(chǎn)管理網(wǎng)絡(luò)邊界()、生產(chǎn)管理網(wǎng)絡(luò)至生產(chǎn)控制網(wǎng)絡(luò)邊界();生產(chǎn)控制網(wǎng)絡(luò)至物理網(wǎng)絡(luò)邊界()。將防御資源的分配方案表示為。目前試驗場的分配方案為則由式(12)得根據(jù)式(2)與式(3)計算得CPPS試驗場遭受網(wǎng)絡(luò)APT攻擊入侵容忍能力
考慮在有限防御資源下的最優(yōu)分配方法使得CPPS的入侵容忍能力最強,分配方案結(jié)果如圖7所示。實驗結(jié)果表明最優(yōu)資源分配方案為,此時CPPS的入侵容忍能力最強,攻擊者需要消耗8 h 才能成功利用漏洞對發(fā)電物理過程進行破壞,如下發(fā)異常斷電指令或篡改傳感器數(shù)據(jù)等。在最優(yōu)防御資源分配情況下,CPPS的可靠度曲線如圖8所示。最優(yōu)資源分配情況下,可靠度最高,隨著時間可靠度下降幅度最小。
圖7 防御資源分配方案結(jié)果Fig. 7 Result of the defense resource allocation scheme
圖8 最優(yōu)資源分配下可靠度曲線Fig. 8 Reliability graph under optimal resource allocation
本文提出了一種面向受攻擊CPPS的入侵容忍能力評估與防御資源最優(yōu)配置方法。首先,基于半馬爾可夫鏈對APT攻擊進行建模,利用隨機博弈模型預(yù)測納什均衡下攻擊者的理性進攻策略,確定相應(yīng)的最佳防御策略,并通過實驗求解在有限防御資源條件下的最優(yōu)資源分配結(jié)果,以MTTF與可靠度指標(biāo)評估CPPS的入侵容忍能力。最后,以CPPS安全試驗場為例驗證了入侵容忍能力評估機制的有效性,為高可靠性CPPS網(wǎng)絡(luò)的防御機制設(shè)計提供了一定借鑒。
但是,本文研究工作尚存在一些不足,提出的入侵容忍能力評估機制存在普適性不足的問題,未來工作主要研究可拓展普適通用的CPPS入侵容忍能力評估方法。