馮曉萌 孫秋野 王冰玉 高嘉文
隨著電力系統(tǒng)和通信技術(shù)的高度耦合[1?2],遠程攻擊者可以利用漏洞入侵信息網(wǎng)絡(luò)引起通信故障,進一步導(dǎo)致電力系統(tǒng)連鎖故障.近年來,針對電力系統(tǒng)的攻擊事件頻繁發(fā)生,如2019 年3 月,委內(nèi)瑞拉的古里水電站遭到反派黑客的網(wǎng)絡(luò)攻擊.2019年7 月,美國紐約曼哈頓發(fā)生了大規(guī)模停電事故.因此,電力系統(tǒng)的網(wǎng)絡(luò)安全問題逐漸成為研究焦點.
現(xiàn)階段針對電力系統(tǒng)網(wǎng)絡(luò)攻擊的相關(guān)研究可以根據(jù)攻擊階段的不同,分為2 類: 第1 類是在侵入電力系統(tǒng)前,研究針對通信層的攻擊,即遠程攻擊者采取何種網(wǎng)絡(luò)攻擊方式入侵通信網(wǎng)絡(luò).這類研究在計算機科學(xué)領(lǐng)域已經(jīng)相對完善,一般采用攻擊樹模型[3]和復(fù)雜網(wǎng)絡(luò)理論兩種方法對不同種類的攻擊方法進行建模,如蠕蟲攻擊[4]、木馬攻擊和網(wǎng)絡(luò)監(jiān)聽等.這類攻擊不考慮從通信網(wǎng)絡(luò)侵入后對電力系統(tǒng)造成的破壞.第2 類是在成功侵入后,研究針對電力層的攻擊,即攻擊者采用何種攻擊行為破壞電力系統(tǒng).這類研究主要是圍繞如何篡改量測數(shù)據(jù),從而躲避檢測機理,對電力系統(tǒng)造成更嚴重破壞展開.主要包括: 虛假數(shù)據(jù)注入攻擊(False data injection,FDI)[5?7]、負載重分配攻擊(Load redistribution,LR)[8]和拒絕服務(wù)攻擊[9]等.這類攻擊不考慮攻擊者利用通信設(shè)備上漏洞的難易程度和攻擊代價.上述兩類研究都相對獨立,不能將攻擊者如何侵入系統(tǒng),和侵入后的攻擊行為兩個階段聯(lián)合為一個整體,實現(xiàn)跨空間攻擊過程.為了探索兩個階段攻擊行為的耦合過程,信息物理協(xié)同攻擊逐漸受到國內(nèi)外學(xué)者關(guān)注.與傳統(tǒng)的網(wǎng)絡(luò)或物理攻擊相比,協(xié)同攻擊的特點是同時考慮(由于物理攻擊)對電力系統(tǒng)造成的破壞性,和(由于網(wǎng)絡(luò)攻擊)對通信數(shù)據(jù)造成的不準(zhǔn)確性(篡改量測數(shù)據(jù)、開關(guān)狀態(tài)等)[10].協(xié)同攻擊的最新示例是2015 年12 月對烏克蘭電網(wǎng)的攻擊,該攻擊使幾臺斷路器(即物理攻擊)斷開,導(dǎo)致大約225 000 名客戶斷電.在攻擊過程中,針對電力客戶服務(wù)的分布式拒絕服務(wù)攻擊[11]和KillDisk 服務(wù)器擦除(即網(wǎng)絡(luò)攻擊)被用來掩蓋緊急情況并延長中斷時間[12].
現(xiàn)階段對信息物理協(xié)同攻擊的研究處于初步階段,主要分為2 類: 1) 攻擊者能夠通過網(wǎng)絡(luò)攻擊對物理攻擊行為進行遮掩,欺騙檢測機制.例如,通過FDI 攻擊,修改線路的開斷信息和量測數(shù)據(jù),從而掩蓋和誤導(dǎo)調(diào)度中心錯誤指令.2)攻擊者通過分析信息物理耦合網(wǎng)絡(luò)的特征和雙向跨空間級聯(lián)故障傳播特性,對耦合系統(tǒng)存在的漏洞進行分析,制定更有效的攻擊方案[13?15].文獻[16]提出了一種電力信息物理協(xié)同攻擊分析模型,側(cè)重于考慮攻擊者和調(diào)度中心的交互關(guān)系.文獻[17?18]分別分析了在可觀察和不可觀察條件下攻擊者通過改變拓撲信息來掩蓋物理攻擊行為.文獻[19]提出了一種在攻擊者通過修改PMU (Phasor measurement unit)的量測數(shù)據(jù)后引起電力系統(tǒng)的狀態(tài)估計結(jié)果出現(xiàn)誤差的情形下,電力系統(tǒng)的脆弱性評判指標(biāo).文獻[20]提出了攻擊者共謀理論,某通信節(jié)點的量測數(shù)據(jù)和與它鄰接的其他通信節(jié)點,即共謀者的數(shù)據(jù)同時被篡改后,更容易避開檢測裝置的檢測機制.
當(dāng)黑客進行協(xié)同攻擊時會根據(jù)電力系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)、設(shè)備特性和破壞情況反饋制定最優(yōu)的攻擊策略.為了解決求最優(yōu)解時出現(xiàn)的維度災(zāi)難、不連續(xù)可微函數(shù)不可解等問題,引入了人工智能算法[21].因為電力信息物理系統(tǒng)在信息物理協(xié)同攻擊下的系統(tǒng)運行狀態(tài)符合馬爾科夫決策過程,提出了一種基于Q 學(xué)習(xí)方法求解的最佳攻擊策略[22].文獻[19]使用馬爾科夫決策過程來模擬在電力信息物理系統(tǒng)中的攻擊風(fēng)險傳播過程,并分析攻擊者的攻擊路線選擇策略,以獲得最佳的回報效益.此外,從攻防雙方的角度出發(fā),文獻[23?24]建立了基于隨機博弈的攻防模型,能夠給防御資源分配起到指導(dǎo)作用.
類比電力系統(tǒng)中的級聯(lián)故障[25],通信網(wǎng)絡(luò)中故障的傳播也具有一定的拓撲傳染特性[13].上述研究均假設(shè)攻擊者能夠直接對從PMU 采集到的量測數(shù)據(jù)進行篡改,沒有考慮信息層故障在通信網(wǎng)絡(luò)中擴散到指定的量測設(shè)備這一階段的拓撲傳染機制,未實現(xiàn)跨空間協(xié)同攻擊的耦合建模.因此,本文主要工作如下: 1)本文提出了基于馬爾科夫決策過程的協(xié)同攻擊模型,其在傳統(tǒng)的虛假數(shù)據(jù)注入攻擊的上層首次引入了蠕蟲傳播模型(Susceptible infected recovered model,SIR),實現(xiàn)了通信?電力雙層攻擊的耦合建模.2)在信息層采用漏洞評分標(biāo)準(zhǔn)(Common vulnerability scoring system,CVSS)中的 “漏洞利用難度”字段量化攻擊者對攻擊的難易程度,即攻擊成本.在物理層依據(jù)全量測狀態(tài)估計的誤差值評定該攻擊行為對電力系統(tǒng)造成的破壞程度,即攻擊收益.3)使用Q 學(xué)習(xí)方法對該模型下攻擊者最優(yōu)協(xié)同攻擊策略進行求解,目標(biāo)函數(shù)定義為破壞電力設(shè)備的攻擊收益和入侵通信層設(shè)備的攻擊成本比值的積累獎勵.4)使用網(wǎng)絡(luò)模擬器(Network simulator 2,NS2)和MATLAB 進行通信8 節(jié)點?電力IEEE 14 節(jié)點的聯(lián)合仿真實驗,模擬攻擊者跨空間滲透的攻擊過程,并分析了在該最優(yōu)攻擊策略下相關(guān)設(shè)備被攻擊的可能性.仿真結(jié)果表明,較單層攻擊模式,本文所提的協(xié)同攻擊模型攻擊破壞性更強.本文進一步分析了最優(yōu)攻擊策略下相關(guān)設(shè)備被攻擊的可能性,能更有效地發(fā)現(xiàn)電網(wǎng)薄弱環(huán)節(jié).
近年來數(shù)例典型電網(wǎng)破壞事件[12, 26]的流程可以概括為: 遠程黑客利用PC 機或可編程邏輯控制器(Programmable logic controller,PLC)中的系統(tǒng)漏洞注入病毒;該病毒在通信設(shè)備中級聯(lián)滲透;擴散到指定功能的通訊設(shè)備或調(diào)度中心;隨后通過修改量測數(shù)據(jù)和控制命令使得電力系統(tǒng)癱瘓.
如圖1 所示,電力信息物理系統(tǒng)由電力系統(tǒng)網(wǎng)架結(jié)構(gòu)和通信網(wǎng)絡(luò)組成.量測裝置PMU 將潮流和線路開關(guān)狀態(tài)信息傳輸給由通信設(shè)備(如PLC)組成的通信網(wǎng)絡(luò),接著傳輸至調(diào)度中心.調(diào)度中心利用狀態(tài)估計篩查量測數(shù)據(jù),并進行潮流調(diào)度.基于此,本文提出了一種信息物理協(xié)同攻擊模型,該模型實現(xiàn)了跨空間雙層攻擊的耦合建模,在上層通信層攻擊模型建立為蠕蟲傳播模型,下層電力層采用虛假數(shù)據(jù)注入的攻擊方式.通信?電力兩層之間以電力母線上裝置的量測裝置PMU與PLC 等通信設(shè)備相連接.該協(xié)同攻擊的攻擊原理為: 遠程攻擊者發(fā)起蠕蟲病毒感染通信網(wǎng)絡(luò)中的PLC 等通訊設(shè)備.一旦感染成功,被感染的通訊設(shè)備所收集到的PMU 量測數(shù)據(jù)有一定概率被注入虛假數(shù)據(jù),進而導(dǎo)致電力系統(tǒng)狀態(tài)估計值出現(xiàn)誤差,從而引發(fā)連鎖故障.
圖1 電力信息物理協(xié)同攻擊示意圖Fig.1 Diagram of electrical cyber-physical cooperative attacks
由此,本節(jié)首先對通信層和物理層攻擊模式分層建模.然后根據(jù)網(wǎng)絡(luò)攻擊從信息系統(tǒng)滲透到物理系統(tǒng)的跨空間傳播方式,提出了一種基于馬爾科夫過程的協(xié)同攻擊模型.為了便于表述,在下文中,將通信網(wǎng)絡(luò)(C-net)中負責(zé)傳輸PMU 量測數(shù)據(jù)的通信設(shè)備定義為信息節(jié)點C-n,節(jié)點數(shù)目為Nc.將電力網(wǎng)絡(luò)(G-net)中的母線抽象定義為電力節(jié)點Bus-n,節(jié)點數(shù)目為Ng.
本節(jié)使用SIR 傳染病模型對蠕蟲病毒在通信層設(shè)備間的傳播機制進行建模,并采用CVSS 漏洞評分標(biāo)準(zhǔn)來定義攻擊者成本函數(shù).
1.1.1 蠕蟲傳播模型
首例工業(yè)控制蠕蟲病毒Stuxnet[27]被證實能在邊緣通信設(shè)備,如PLC 中單獨傳播,不需要借助任何PC 機.文獻[4]對工控網(wǎng)絡(luò)中PLC 病毒傳播機理進行建模,但僅分析了病毒在信息設(shè)備的傳播機理.文獻[28]使用元胞自動機建模定性分析了電力信息系統(tǒng)中信息安全風(fēng)險跨空間傳播的基本原理,但并沒有給出具體模型.本文采用SIR 傳染病模型對蠕蟲病毒在電力通信網(wǎng)絡(luò)中的傳播機理進行建模.在該模型下通信設(shè)備i的狀態(tài)有3種: 1)易感染態(tài) (S): 易感染態(tài)也是正常狀態(tài),處于該狀態(tài)的設(shè)備上存在安全漏洞,但還沒有被感染節(jié)點掃描到.2)感染態(tài)(I): 此類設(shè)備已經(jīng)成為蠕蟲節(jié)點,將會掃描與它拓撲相連的其他易感染態(tài)節(jié)點并將其感染.3)免疫態(tài)(R): 此類節(jié)點的安全漏洞已經(jīng)被修復(fù),在該狀態(tài)下對蠕蟲節(jié)點的擴散免疫.通信網(wǎng)絡(luò)中3種節(jié)點的狀態(tài)轉(zhuǎn)移過程如圖2 所示,一旦某通信設(shè)備被感染成為蠕蟲節(jié)點,那么攻擊者可以獲取該設(shè)備的權(quán)限,對該設(shè)備存儲和傳輸?shù)腜MU 量測數(shù)據(jù)進行篡改.
圖2 通信網(wǎng)絡(luò)的SIR 蠕蟲擴散模型狀態(tài)轉(zhuǎn)換圖Fig.2 SIR worm diffusion model state transition diagram of the cyber network
如圖2 所示,通信網(wǎng)絡(luò)的設(shè)備狀態(tài)轉(zhuǎn)變和前一時刻狀態(tài)的關(guān)聯(lián)度較高.基于本模型的各個通信設(shè)備i從t時刻的狀態(tài)到t+1 時刻的狀態(tài)的狀態(tài)轉(zhuǎn)移概率為
其中,通信設(shè)備i在t時刻為易感染態(tài)(S)且t+1時刻為感染態(tài)(I)時,狀態(tài)轉(zhuǎn)移概率為,其他同理.該轉(zhuǎn)移概率與通信網(wǎng)絡(luò)當(dāng)前的拓撲結(jié)構(gòu),數(shù)據(jù)包傳輸情況以及各個設(shè)備當(dāng)前的感染情況有關(guān).其中拓撲結(jié)構(gòu)與網(wǎng)絡(luò)中節(jié)點的度有關(guān),本文將定義為信息節(jié)點i的度,表示該節(jié)點與個信息節(jié)點鄰接.第i個信息節(jié)點在t時刻狀態(tài)轉(zhuǎn)移概率計算式為
其中,|Θi|代表與信息節(jié)點i相連接的蠕蟲節(jié)點的個數(shù).η是蠕蟲病毒節(jié)點可以在1 s 內(nèi)掃描的鄰接設(shè)備的數(shù)量,該參數(shù)受限于掃描方法的性能和網(wǎng)絡(luò)帶寬.在理想的情況下,一般取實際網(wǎng)絡(luò)帶寬的上限.本節(jié)假設(shè)在同一個通信網(wǎng)絡(luò)中全網(wǎng)蠕蟲節(jié)點的值相同. ?t表示掃描周期,這里設(shè)一般取為秒級.β代表通信設(shè)備掃描到一次之后被成功感染的概率.?代表從免疫態(tài)(R)到易感染態(tài)(S)的恢復(fù)率,該參數(shù)是由病毒實時更新速度和補丁失效情況決定.同理,ν代表通信設(shè)備狀態(tài)從感染態(tài)(I)轉(zhuǎn)移到免疫態(tài)(R)的移除率,該參數(shù)是由漏洞補丁的更新速度和感染區(qū)域隔離情況等決定.
在實際情形中,攻擊者通過監(jiān)聽和流量監(jiān)測等手段并不能完全掌握觀測到整個信息層設(shè)備的狀態(tài),只能掌握部分可觀的網(wǎng)絡(luò)結(jié)構(gòu)、蠕蟲節(jié)點的總數(shù)量和被監(jiān)聽的節(jié)點的連接信息,不能掌握正常節(jié)點和蠕蟲節(jié)點的拓撲關(guān)聯(lián)信息.下面對|Θi|進行估算,進而求解狀態(tài)轉(zhuǎn)移概率.本文根據(jù)已知參數(shù)估計通信網(wǎng)絡(luò)的平均度估計各個信息節(jié)點的鄰接情況.
通過攻擊者檢測到的相關(guān)信息,預(yù)估計出的度為k的信息節(jié)點的數(shù)為其中蠕蟲節(jié)點的個數(shù)為表示該網(wǎng)絡(luò)中的度分布,即節(jié)點度的散布情況.也就是說,在網(wǎng)絡(luò)中隨機抽取某信息節(jié)點的度是k的概率為λc(k).令?k?c代表平均度,可計算為
由此,|Θi|可以表示為
在該模型下可以模擬蠕蟲病毒在通信網(wǎng)絡(luò)中的傳播機理.在這種動態(tài)的狀態(tài)轉(zhuǎn)化過程中,各個通信設(shè)備的攻擊成本也隨著狀態(tài)轉(zhuǎn)移概率動態(tài)變化.
1.1.2 攻擊者成本函數(shù)
攻擊者的攻擊成本與設(shè)備主機上的漏洞的利用難度成正比.某一通信設(shè)備的攻擊成本由該設(shè)備上最薄弱的漏洞利用難度決定.本文參考漏洞評估系統(tǒng)(CVSS)中網(wǎng)絡(luò)漏洞評價指標(biāo)的 “利用復(fù)雜性”分數(shù),對漏洞難度量化.“利用復(fù)雜性”值越大,該漏洞被利用的難度就越大.此外,通信設(shè)備中的相關(guān)漏洞參數(shù)由工業(yè)互聯(lián)網(wǎng)安全響應(yīng)數(shù)據(jù)庫[20]中提供.攻擊者在t時刻攻擊第i個通信設(shè)備的攻擊成本為
其中,?V(t) 代表暴露給攻擊者的掃描目標(biāo)集,即攻擊者可以通過當(dāng)前信息網(wǎng)絡(luò)的滲透狀態(tài)能夠選擇的下一個階段攻擊的目標(biāo)節(jié)點的集合.本文使用動態(tài)攻擊圖G=(?V(t),?E(t)) 來記錄攻擊者的掃描目標(biāo)集和滲透路徑.?E(t) 代表攻擊者掌握的當(dāng)前掃描目標(biāo)集能夠利用的滲透路徑.攻擊圖節(jié)點集?V(t)和邊集?E(t) 的初值為攻擊者在最開始時能利用的掃描網(wǎng)絡(luò).當(dāng)蠕蟲病毒掃描網(wǎng)絡(luò)時,只能感染掃描集中的設(shè)備.一旦某設(shè)備i被感染,那么與其相鄰的節(jié)點j,即滿足lc,ij=1,會被加入?V(t),見式(17).同時,節(jié)點i和j的連接線將被添加到?E(t) 中.每一次攻擊結(jié)束后,更新整個動態(tài)攻擊圖的拓撲.
本節(jié)定義了電力系統(tǒng)全量測狀態(tài)估計遭受FDI攻擊后的錯誤估計結(jié)果和原始估計結(jié)果的均方誤差(Root mean squared error,RMSE)作為攻擊者攻擊回報函數(shù).分析了攻擊者在篡改量測數(shù)據(jù)時,要同時更新共謀者的相關(guān)數(shù)據(jù),以此躲避檢測器檢測機理.
1.2.1 電力系統(tǒng)的FDI 攻擊
無論攻擊者對信息層設(shè)備的滲透嚴重程度如何,其最終目標(biāo)都是通過對量測裝置、相關(guān)的控制設(shè)備和通信網(wǎng)絡(luò)注入錯誤數(shù)據(jù),進而導(dǎo)致電力系統(tǒng)狀態(tài)估計器產(chǎn)生錯誤的狀態(tài)估計結(jié)果,最終對電力系統(tǒng)相關(guān)應(yīng)用業(yè)務(wù)造成危害.
本文采用電力系統(tǒng)全量測狀態(tài)估計方法[29],該方法中電力系統(tǒng)狀態(tài)估計的量測值包括SCADA量測值和PMU 量測值.從攻擊動機方面,相比于SCADA 量測數(shù)據(jù),PMU 量測量誤差更小,精度更高,還包括獨有的相角量測數(shù)據(jù),具有很高的攻擊價值.從攻擊難度方面,考慮電力系統(tǒng)調(diào)度的分區(qū)機制,SCADA 在一區(qū),防御最嚴密,攻入難度較大,而與PMU 量測量相關(guān)的通信設(shè)備由于在終端,攻入難度相對較小.綜上,PMU 量測量更容易成為攻擊者的攻擊目標(biāo)[30?31].基于此,針對全量測狀態(tài)估計方法的電力系統(tǒng)虛假數(shù)據(jù)注入攻擊過程如下:
步驟 1.首先使用傳統(tǒng)的狀態(tài)估計模型求解,即使用SCADA 量測數(shù)據(jù)計算加權(quán)最小二乘估計方法求解狀態(tài)估計結(jié)果x(1)=[θ,V]T.
步驟 2.引入PMU 的量測值進行全量測狀態(tài)估計
1.2.2 “共謀” 躲避檢測機理
對電力節(jié)點j的第l個量測值zjl注入虛假數(shù)據(jù)后,該錯誤量測數(shù)據(jù)被檢測器檢測出的概率與檢測算法和該節(jié)點周圍鄰接節(jié)點的量測值被篡改的個數(shù)有關(guān)[33].該節(jié)點周圍鄰接節(jié)點的量測值被篡改的個數(shù)越多,對該節(jié)點注入惡意數(shù)據(jù)后被檢測出來的概率越小,即攻擊者共謀理論.本節(jié)對這個特性進行定性分析檢測器檢測概率,某個電力節(jié)點j數(shù)據(jù)被篡改后,被檢測出來的概率為
1.2.3 攻擊者回報函數(shù)
假設(shè)攻擊者某一次的攻擊行為成功地避開了檢測機制,將合適的虛假數(shù)據(jù)注入系統(tǒng)的量測裝置并且造成估計的狀態(tài)結(jié)果的偏差,則攻擊者可以通過本次攻擊行為獲得回報.對于某一個電力節(jié)點j的數(shù)據(jù)被篡改之后,攻擊者攻擊回報為電壓偏差和電流偏差,即
其中,Vxj,θxj分別是原始估計結(jié)果,而是錯誤的估計結(jié)果.針對整個電力網(wǎng)絡(luò),攻擊者的攻擊收益為全局狀態(tài)估計結(jié)果的均方根誤差,即
攻擊者通過修改部分通信設(shè)備的量測值后,使得全局的狀態(tài)估計結(jié)果和原始估計結(jié)果產(chǎn)生的均方根誤差(RMSE)定義為攻擊者的回報函數(shù).
本節(jié)通過馬爾科夫決策過程模擬惡意入侵者在動態(tài)環(huán)境中的攻擊行為和電力信息物理系統(tǒng)的狀態(tài)隨時間演變過程.在遭受協(xié)同攻擊后,電力信息物理系統(tǒng)在t時刻的系統(tǒng)狀態(tài)與t ?1 時刻的系統(tǒng)狀態(tài)具有很高的縱向關(guān)聯(lián)度.也就是說,在協(xié)同攻擊下電力信息物理系統(tǒng)的狀態(tài)演化過程具有馬爾科夫性,因而本節(jié)建立基于馬爾科夫決策過程的電力信息?物理雙層協(xié)同攻擊模型.
1.3.1 信息?物理脆弱性鄰接矩陣
如圖3 所示,定義電力信息?物理脆弱性鄰接矩陣L:
圖3 電力信息物理耦合網(wǎng)絡(luò)Fig.3 The network of cyber-physical power coupling system
其中,脆弱性鄰接矩陣的元素主要有4 類: 1)通信?通信節(jié)點連接矩陣Lc: 其中元素Lc,ij代表攻擊者可以利用信息節(jié)點i上的漏洞,并進一步感染信息節(jié)點j.2)通信?物理節(jié)點連接矩陣Lf:Lf,ij表示母線i和j之間的傳輸線從控制中心向物理設(shè)備發(fā)送控制命令的過程.3) 物理?物理節(jié)點連接矩陣Lg:Lg,ij表示電力母線i和j之間的傳輸線.4)物理?信息節(jié)點連接矩陣表示信息節(jié)點i可以接收并傳輸物理設(shè)備j的相關(guān)量測值.當(dāng)節(jié)點i和節(jié)點j之間存在傳輸線路時,Lij=1.相反,當(dāng)節(jié)點i和j之間不存在傳輸線路時,Lij=0.
1.3.2 信息?物理雙層耦合建模
如圖4 所示,當(dāng)前攻擊者可模擬控制中心的功能,進行狀態(tài)估計求得獎勵回報值Reward,從而制定更精確更有效的攻擊策略[6,34].由此,針對該類攻擊者的攻擊策略所制定的防御策略更具有研究意義.基于此,本節(jié)給出在上文所提出的信息物理協(xié)同攻擊下跨空間滲透和反饋決策機理.首先,根據(jù)攻擊策略π發(fā)動攻擊行為Action,感染相關(guān)的通信層設(shè)備,使其從正常態(tài)S變?yōu)楦腥緫B(tài)I,并在通信網(wǎng)絡(luò)中擴散;然后,感染態(tài)的信息節(jié)點將從PMU中收集到的量測值zg(t) 進行篡改,使其變?yōu)殄e誤的量測值(t);隨后,狀態(tài)估計器使用錯誤的量測值估計出錯誤的狀態(tài)量x(2)(t)+exz,計算狀態(tài)量的誤差,該誤差值作為獎勵回報值Reward 反饋給攻擊者;最后,攻擊者會根據(jù)相應(yīng)的回報值調(diào)整接下來的攻擊行為,通過不斷地模擬,修正策略,最終得到使得目標(biāo)函數(shù)最大的最優(yōu)攻擊策略.其中,感染態(tài)的信息節(jié)點對鄰接的PMU 量測值注入虛假數(shù)據(jù)的函數(shù)為
圖4 信息物理協(xié)同攻擊下跨空間滲透和反饋決策機理Fig.4 Cross-space penetration and feedback decision mechanism under cyber-physical collaborative attack
由于PMU 的采樣頻率很高,大約為30 次/s,而大多數(shù)研究表明攻擊者攻擊間隔 ?t大約是秒級.為了解決注入假數(shù)據(jù)時刻和PMU 采樣時刻并不一致的問題,本文采用基礎(chǔ)的PMU 緩存的方法,即當(dāng)攻擊者在t時刻對PMU 量測量注入假數(shù)據(jù)時,直接選取PMU 緩存器中距離t時刻最近時刻的存儲數(shù)據(jù)篡改.由此,這里根據(jù)攻擊間隔對原本離散的PMU 采樣值進一步離散化.
1.3.3 攻擊者的目標(biāo)函數(shù)
攻擊者的最終目標(biāo)為: 從初始狀態(tài)在時間T內(nèi)采取策略π后,能夠獲得期望的Reward 值達到最大.即對電力網(wǎng)絡(luò)的破壞程度與對通信設(shè)備的利用成本的比值的累積和W達到最大,定義其最大值為
電力網(wǎng)絡(luò)的約束條件為
信息網(wǎng)絡(luò)的約束條件為
其中,B(t)表示攻擊者在時間t的攻擊收益,由式(16)求得.C(t) 表示攻擊者的攻擊成本,定義為C=,其中Ci(t) 由式(8)求得.式(20)~(23)是關(guān)于電力系統(tǒng)的約束條件. Γ 是智能電網(wǎng)拓撲的關(guān)聯(lián)矩陣,D是線路導(dǎo)納的對角矩陣.此外,式(24)和式(25)是網(wǎng)絡(luò)設(shè)備的限制.由于資源有限,在攻擊持續(xù)時間 [ 1:T] 期間只能執(zhí)行n次攻擊動作,∥π∥0代表策略π的0 范數(shù).攻擊者發(fā)動某次攻擊之后信息節(jié)點i的攻擊概率為,其概率和為1.該目標(biāo)函數(shù)同時考慮了電力系統(tǒng)和通信網(wǎng)絡(luò)的耦合影響.
1.3.4 協(xié)同攻擊建模
本節(jié)將通信?電力協(xié)同攻擊建立成一個四元組(S,A,R,P)的馬爾科夫決策過程.
1) 狀態(tài)集合S={sI,sII,sIII: 表示馬爾科夫模型中的狀態(tài)集,其中任一狀態(tài)s由Nc個通信設(shè)備的狀態(tài)和Ng個物理設(shè)備的狀態(tài)兩部分組成,分別用sc和sg表示.sc表示通信設(shè)備的狀態(tài),該狀態(tài)包括易感染態(tài)、感染態(tài)和恢復(fù)態(tài),見式(1).
2) 動作集合A={aI,aII,aIII,···,aNA}: 表示攻擊者能夠采取攻擊的動作集,針對每一個系統(tǒng)狀態(tài)s均有響應(yīng)的動作集φ(π(s)).攻擊者的某次攻擊動作a是對所有的通信設(shè)備的攻擊概率分布,即
其中,不在掃描集?V(t) 中的通信設(shè)備的攻擊概率為0.因為在t時刻攻擊者無法直接或間接的掃描到該設(shè)備,所以并不能對該設(shè)備上的漏洞加以利用.在每個攻擊時間,選擇目標(biāo)節(jié)點i進行攻擊的概率為.
3)狀態(tài)轉(zhuǎn)移概率P: 從t時刻的狀態(tài)s轉(zhuǎn)換到t+1 時刻的狀態(tài)s′需要經(jīng)過一個過渡狀態(tài)s?,該狀態(tài)表示該時間間隔內(nèi)信息層設(shè)備的病毒擴散過程結(jié)束,但該攻擊效果還沒有滲透到物理設(shè)備.由式(18)可以得出s?→s′時信息層發(fā)生狀態(tài)改變后對物理層的滲透影響.處于狀態(tài)s的系統(tǒng)采取動作a后狀態(tài)轉(zhuǎn)移到s′的概率定義為P(s′|s,a).P(s′|s,a) 包括兩部分,分別是攻擊行為a造成的通信層設(shè)備感染概率P(s?|s,a)和電力層設(shè)備注入虛假數(shù)據(jù)后不能被檢測概率P(s′|s?).值得注意的是,這里s′僅與s? 有關(guān),與a無關(guān).
對受到攻擊者攻擊行為a之后的信息層設(shè)備狀態(tài)轉(zhuǎn)移概率和攻擊者攻擊概率求和,分別可由式(1)和式(32)求得
攻擊者發(fā)動攻擊后成功避開檢測裝置,即攻擊行為在電力層成功滲透的概率為
4)獎勵回報值R(s,a): 表示系統(tǒng)在t時刻s狀態(tài)時采取a行動后轉(zhuǎn)移到t+1 時刻s′狀態(tài)后整個[0,t+1] 時間段內(nèi)的預(yù)期獎勵回報.其定義為這段期間內(nèi)攻擊者的攻擊成本與攻擊收益的比值累積和,即
本文使用Q 學(xué)習(xí)求解所提的協(xié)同攻擊模型下的最優(yōu)攻擊策略.首先采用Q-learning 的方法根據(jù)攻擊者目標(biāo)函數(shù)求得最優(yōu)策略.目標(biāo)函數(shù)可由式(19)求得.最后分析在該最優(yōu)攻擊策略下各個電力設(shè)備被攻擊的可能性,由此可以識別電力系統(tǒng)的薄弱節(jié)點.
基于Q-learning 的攻擊者最優(yōu)攻擊路徑求解的基本思路為: 攻擊者根據(jù)Reward 獎勵值反饋或懲罰刺激下,逐步修正自己的攻擊策略π,最終求解在有限攻擊資源下最大化預(yù)期總獎勵的最優(yōu)攻擊策略,即
其中,γ為折算因子,γ∈[0,1).由于信息網(wǎng)絡(luò)路由選擇概率和網(wǎng)絡(luò)延遲等原因,其中求解R(s,π(s))所需要的P(s?|s,a) 不能直接求得,見式(32).所以本文使用NS2 軟件通過蒙特卡洛方法模擬大量的信息網(wǎng)絡(luò)狀態(tài)過程求得.接下來,在s下最優(yōu)攻擊策略π?可以通過下式計算:
為了避免局部最優(yōu)的出現(xiàn),許多隨機動作序列將被搜索以更新Q 表,在此期間,攻擊者動作序列最終會被修改為最佳攻擊策略,即
其中,α是學(xué)習(xí)速率.最終,該最優(yōu)攻擊策略相當(dāng)于攻擊者的一個預(yù)判行為,通過該預(yù)判行為可以分析哪些電力元件成為攻擊者攻擊目標(biāo)的可能性更大,能夠?qū)Ψ烙Y源的分配起到指導(dǎo)作用.
在制定狀態(tài)?動作Q 矩陣時,由于變量之間存在關(guān)聯(lián)關(guān)系,所以許多系統(tǒng)狀態(tài)在整個探索過程中均未出現(xiàn).如果使用傳統(tǒng)的Q 矩陣,隨著變量的增加,狀態(tài)集和動作集均會呈指數(shù)增長,最終導(dǎo)致運算速率過慢.因此,本文將傳統(tǒng)的靜態(tài)稀疏Q 矩陣轉(zhuǎn)換為動態(tài)更新的滿秩Q 矩陣,以加快運算速率并節(jié)約存儲空間.
在求得最優(yōu)策略下,根據(jù)各個電力設(shè)備被攻擊的可能性,研究相應(yīng)節(jié)點的特性,并指導(dǎo)相關(guān)的防御行為.因為馬爾科夫決策過程的狀態(tài)轉(zhuǎn)移概率存在隨機性,所以攻擊者采取相同的攻擊策略時,導(dǎo)致電力信息物理系統(tǒng)的破壞程度也存在隨機性[19].基于此,首先定義在馬爾科夫決策過程中系統(tǒng)狀態(tài)為sX時,狀態(tài)分布概率為
如圖5 所示,本模型在一個通信8 節(jié)點?電力IEEE14 節(jié)點的耦合系統(tǒng)上進行測試,該算例系統(tǒng)由兩部分組成,上層通信層由8 個通信設(shè)備C-n 組成,下層電力層是IEEE14 節(jié)點系統(tǒng),該通信網(wǎng)絡(luò)服務(wù)于電力系統(tǒng)的狀態(tài)估計功能.當(dāng)攻擊者發(fā)動遠程網(wǎng)絡(luò)攻擊時,病毒在通信網(wǎng)絡(luò)節(jié)點之間以蠕蟲形式傳播,將虛假數(shù)據(jù)注入通信設(shè)備.在該算例系統(tǒng)中,通信網(wǎng)絡(luò)使用NS2 軟件仿真,該軟件可以考慮更多實際情況,如鏈路阻塞、丟包等過程,仿真結(jié)果更加準(zhǔn)確.該算例系統(tǒng)在參數(shù)設(shè)置時采用UDP 協(xié)議和自帶的單播路由協(xié)議,并選擇具有代表性的已經(jīng)公開的PLC 機上的漏洞,相關(guān)的通信網(wǎng)絡(luò)參數(shù)見附錄A,其中移除率和恢復(fù)率分別為0.001和0.01(參見文獻[4]).為了使實驗結(jié)果更直觀,做出以下假設(shè):
圖5 通信8 節(jié)點?電力IEEE14 節(jié)點耦合系統(tǒng)Fig.5 Cyber 8-Power IEEE14 node coupling system
假設(shè) 1.攻擊者動作集合均采用單層攻擊目標(biāo)的動作,即攻擊目標(biāo)為i時,
假設(shè) 2.電力節(jié)點和信息節(jié)點是一一對應(yīng)的,電壓量測值允許的偏差為±5%,單次修改的虛假數(shù)據(jù)為原始量測值的±1%.
Q-learning 算法的每一個訓(xùn)練周期都是從攻擊者發(fā)動攻擊開始.在算例系統(tǒng)上進行15 000 次仿真訓(xùn)練,每次訓(xùn)練都設(shè)置的時間間隔為T=3?t,其中攻擊間隔取值 ?t=1 s[19].其目標(biāo)是尋找最優(yōu)攻擊策略,以獲得最大的積累回報值.圖6(a)顯示了每次訓(xùn)練中采用不同的攻擊策略的累積獎勵.整個搜索的過程可分為3 個部分: 起始狀況、局部最優(yōu)和全局最優(yōu).截止到886 次測試時,攻擊者累積獎勵沒有顯著增加,保持其初始值為1.783.從887 次訓(xùn)練開始,積累獎勵值從1.783 迅速增加到2.156,即找到了局部最優(yōu)解.然后在3 962 次訓(xùn)練時,累積獎勵從2.156 急劇增加到2.242,即找到全局最優(yōu)解.3 963次訓(xùn)練之后,獎勵值保持穩(wěn)定并且仍然是最大值,這意味著確定了最優(yōu)攻擊策略.同時,隨著訓(xùn)練次數(shù)的增加,圖6(b)顯示經(jīng)過大量訓(xùn)練之后Q 值趨于恒定,這表明已經(jīng)搜索到最優(yōu)的攻擊策略.
圖6 每個訓(xùn)練周期的累積收益Fig.6 Accumulated benefit for each trial
在本節(jié)的算例仿真中,攻擊者最優(yōu)策略下的攻擊序列為C-n 4→C-n 2→C-n 1,映射到電力系統(tǒng)中為Bus 7→Bus 4→Bus 2,每一次攻擊行為之后蠕蟲病毒在通信網(wǎng)絡(luò)的擴散情況如圖7 所示.
圖7 最優(yōu)攻擊策略下攻擊者的攻擊序列和病毒擴散序列Fig.7 The attack sequence and virus spreading sequence under the optimal attack strategy
圖8 橫坐標(biāo)從左到右分別是初始狀況、攻擊者第1 次攻擊動作后、第2 次攻擊動作后和第3 次攻擊動作后.縱坐標(biāo)表示在最優(yōu)的攻擊策略下估計狀態(tài)值偏差的百分比,即式(16)的值.
圖8 在最優(yōu)攻擊策略下電壓幅值差百分比Fig.8 Difference percentage in voltage amplitude under optimal attack strategy
可以推斷,如果只修改一個母線的測量值,則可能由檢測機制檢測并且能夠被校正;如果攻擊者同時修改某條母線及其相鄰母線的測量值,就會使估計器無法檢測到錯誤數(shù)據(jù),從而使估計誤差變大.在該算例中電力母線4 受到攻擊的可能性最大,是系統(tǒng)中較為薄弱的環(huán)節(jié),在防御者進行資源分配的時候應(yīng)該優(yōu)先考慮.
為了驗證本文提出的協(xié)同攻擊具有更好的攻擊效果,這里對網(wǎng)絡(luò)攻擊、物理攻擊和信息物理協(xié)同攻擊3種不同攻擊方法的攻擊效果進行仿真實驗,對比結(jié)果如表1 所示.其中,n表示發(fā)動攻擊的次數(shù).網(wǎng)絡(luò)攻擊指的是攻擊者的目標(biāo)是只考慮信息層攻擊成本最小,不考慮電力系統(tǒng)的破壞程度;物理攻擊指的是傳統(tǒng)的電力系統(tǒng)攻擊研究,即假設(shè)在通信層量測設(shè)備能夠無差別地被攻擊者篡改的條件下,攻擊者目標(biāo)是對電力系統(tǒng)破壞程度最大.
從表1 可以看出,協(xié)同攻擊在3種攻擊方法中表現(xiàn)最好,物理攻擊次之,網(wǎng)絡(luò)攻擊最差.其中,π?表示當(dāng)前攻擊者的最優(yōu)攻擊策略,exz表示估計狀態(tài)值的誤差,f(?V) 表示電壓幅值偏差百分比的累積量,f(?θ) 表示電壓相位角的偏差百分比的累積量.需要注意的是,當(dāng)攻擊者采用網(wǎng)絡(luò)攻擊時,每個物理節(jié)點的攻擊回報值設(shè)置為1.隨著攻擊時間的增加,協(xié)同攻擊的有效性變得更加顯著.由此可見,當(dāng)攻擊者只考慮利用信息節(jié)點漏洞的利用能力時,雖然受感染的網(wǎng)絡(luò)節(jié)點數(shù)量在短時間內(nèi)增加,但對電力網(wǎng)絡(luò)的影響很小.此外,單純的物理攻擊可能效果不佳,這是因為與某些關(guān)鍵電力節(jié)點相連接的通信網(wǎng)絡(luò)節(jié)點在通信層難以得到利用.
表1 考慮不同攻擊方法下的影響Table 1 Attack effect under different attack methods
表2 對比了在協(xié)同攻擊和物理攻擊下各個電力設(shè)備被攻擊的可能性,概率和為1.由分析可知,當(dāng)考慮到通信層設(shè)備的影響時,與在通信網(wǎng)絡(luò)中更脆弱的信息設(shè)備相連接的電力設(shè)備的脆弱性顯著增加,且邊緣信息設(shè)備的脆弱性與該設(shè)備在通信網(wǎng)絡(luò)中連接度的大小和元件上存在的漏洞的利用難易程度相關(guān).例如: 采用物理攻擊時,母線10 的脆弱性最高,因為連接母線10和母線9 的電力線具有比其他支路更小的電抗.當(dāng)虛假數(shù)據(jù)注入母線10 的測量值時,狀態(tài)估計器的估計結(jié)果將具有更大的誤差.當(dāng)采用協(xié)同攻擊時,母線2 (對應(yīng)通信設(shè)備1)的量測值被篡改的概率急劇增加.主要有兩個原因:1)母線2 是電力網(wǎng)絡(luò)中較為關(guān)鍵的節(jié)點;2)通信設(shè)備C-n 1 在通信網(wǎng)絡(luò)中具有較大的連接度,當(dāng)其被成功感染時,其相鄰網(wǎng)絡(luò)設(shè)備C-n 2和C-n 3 的攻擊概率將顯著增加.隨著時間的推進,與C-n 2和C-n 3鄰接的通信設(shè)備將陸續(xù)被感染,從而擴散到整個通信網(wǎng)絡(luò).
表2 電力設(shè)備被攻擊可能性分析(%)Table 2 The vulnerability analysis of power equipment (%)
本節(jié)討論系統(tǒng)的離散程度和注入虛假數(shù)據(jù)的正負是否對協(xié)同攻擊效果有影響.
3.3.1 系統(tǒng)離散程度對攻擊結(jié)果的影響
對于算例系統(tǒng),當(dāng)各個母線的電壓幅度和角度的離散狀態(tài)的數(shù)目和的值在4~8 的范圍內(nèi)發(fā)生變化時攻擊效果如表3 所示.
由表3 推斷,當(dāng)系統(tǒng)狀態(tài)離散情況發(fā)生變化時,算例系統(tǒng)中每條母線的脆弱性幾乎沒有變化.
表3 系統(tǒng)離散程度不同時電力設(shè)備被攻擊的可能性分析Table 3 The vulnerability analysis of power equipment under different discrete degrees of false data
3.3.2 注入虛假數(shù)據(jù)的正負對攻擊結(jié)果的影響
對于算例系統(tǒng),當(dāng)ez=[eθ,eV]T的數(shù)值取正值、負值或者混合符號數(shù)據(jù)時,攻擊效果如圖9 所示.
由圖9 推斷,注入的假數(shù)據(jù)的符號不同對算例系統(tǒng)中每條物理母線脆弱性影響不大.
圖9 注入虛假數(shù)據(jù)取不同符號下電力設(shè)備被攻擊的可能性分析Fig.9 The vulnerability analysis of power equipment under different signs of false data
本文從攻擊者角度出發(fā),提出了一種電力信息物理協(xié)同攻擊模型,該模型同時考慮通信層設(shè)備的攻擊難易程度以及對電力物理系統(tǒng)的破壞程度兩方面因素.然后,本文結(jié)合通信層和電力層設(shè)備的特性,制定攻擊成本和攻擊收益函數(shù),并定義攻擊收益與成本的比值為目標(biāo)函數(shù).隨后,采用Q-learning 求解所提模型下的目標(biāo)函數(shù)最大的最優(yōu)攻擊策略.最后,利用通信8 節(jié)點?電力IEEE14 節(jié)點聯(lián)合仿真算例對單層網(wǎng)絡(luò)攻擊、物理攻擊和協(xié)同攻擊方式的攻擊效果進行對比,并分析了元件被攻擊的可能性,得到的結(jié)論如下: 1)本文所提出的信息物理雙層協(xié)同攻擊模型可以準(zhǔn)確地描述攻擊行為在電力信息物理系統(tǒng)中的動態(tài)攻擊效果和級聯(lián)影響;2)通過算例研究,驗證了相較網(wǎng)絡(luò)攻擊和物理攻擊,本文所提的協(xié)同攻擊由于同時考慮通信層設(shè)備的利用難度和電力設(shè)備的破壞程度兩方面因素的耦合影響,所以攻擊效果更好,物理攻擊次之,網(wǎng)絡(luò)攻擊效果最差;3)由仿真結(jié)果分析可得,由于電力信息物理系統(tǒng)的通信層和電力層設(shè)備存在復(fù)雜的耦合關(guān)系和交互機理,所以通信層元件利用的難易程度和通信網(wǎng)絡(luò)結(jié)構(gòu)對電力設(shè)備潛在被攻擊的可能性存在顯著影響.
附錄A
表A1 NS2 中通信網(wǎng)絡(luò)的參數(shù)配置Table A1 The parameters of cyber network in NS2
表A2 每個通信設(shè)備上存在的漏洞的CVSS 評分Table A2 The CVSS standards of each cyber node