黃健明,張恒巍
?
基于改進復制動態(tài)演化博弈模型的最優(yōu)防御策略選取
黃健明1,2,張恒巍1,2
(1.信息工程大學三院,河南 鄭州 450001;2. 數(shù)學工程與先進計算國家重點實驗室,河南 鄭州 450001)
針對同一博弈群體之間存在策略依存性,通過引入激勵系數(shù),改進傳統(tǒng)復制動態(tài)方程,完善復制動態(tài)速率計算方法,構建基于改進復制動態(tài)的網絡攻防演化博弈模型。利用改進復制動態(tài)方程進行演化均衡求解,采用雅可比矩陣的局部穩(wěn)定分析法對所求均衡點進行穩(wěn)定性分析,得到不同條件下的最優(yōu)防御策略。研究結果表明,同一群體的不同策略之間既存在促進作用,也存在抑制作用。通過實驗仿真驗證了所提模型和方法的準確性和有效性,為解決現(xiàn)實社會中的信息安全問題提供了新的理論支撐。
策略依賴性;激勵系數(shù);改進復制動態(tài);復制動態(tài)速率;雅可比矩陣;最優(yōu)防御策略
“互聯(lián)網+”時代[1]的到來,使互聯(lián)網在給人類社會帶來便利的同時,也帶來了日益嚴峻的網絡安全問題。由于網絡規(guī)模日益擴大,網絡攻擊手段日益復雜化、智能化和多樣化[2~4],入侵檢測、防火墻[5~7]等傳統(tǒng)的靜態(tài)防御措施已經無法滿足當前網絡安全的需要,如何確保網絡空間安全成為一個亟待解決的問題。
網絡攻防對抗過程具有目標對立性、關系非合作性以及策略依存性等特征,與博弈論的基本特征保持一致[8],因此,將博弈論應用于網絡信息安全已經成為該領域的研究熱點。目前的研究成果大都基于傳統(tǒng)博弈理論[9,10],Lye等[11]基于博弈雙方的目標對立性和策略依存性,構建了靜態(tài)網絡攻防博弈模型,用于網絡安全行為分析,但網絡攻防具有動態(tài)變化特性,靜態(tài)博弈模型無法分析其動態(tài)變化過程。基于此,林旺群等[12]基于非合作、非零和動態(tài)博弈理論提出了完全信息動態(tài)博弈主動防御模型,對網絡安全主動防御技術問題進行了研究,對網絡攻防動態(tài)對抗過程進行了分析,但完全信息條件在實際中無法滿足,從而降低了模型的現(xiàn)實意義。姜偉等[13]通過建立不完全信息隨機博弈模型,對入侵意圖、入侵目標以及策略的選取進行推理。張恒巍等[14]針對具有不完全信息的動態(tài)攻防過程,提出了基于攻防信號博弈模型的防御策略選取方法。這些方法均停留在單階段博弈分析的基礎上,而實際網絡攻防屬于一個多階段博弈過程,從而降低了模型和方法的適用性?;诖?,王長春等[15]將網絡攻防對抗過程與Markov隨機過程相結合,構建多階段Markov網絡攻防對抗博弈模型,用于網絡行動策略選取分析。但上述研究均以行為者完全理性為前提。由于現(xiàn)實社會中人的有限理性約束,網絡攻防行為不可能達到完全理性,因此,完全理性假設與實際情況不符,從而降低了模型和方法的準確性。
演化博弈[16]是傳統(tǒng)博弈理論與生物進化理論相結合的產物,建立在博弈者有限理性的前提條件下,以群體為研究對象,不僅繼承了傳統(tǒng)博弈模型的對抗性、非合作性以及策略依存性等特點,還具有動態(tài)演化的特征,強調博弈過程的動態(tài)演化[17],與網絡攻防實際更加契合。部分學者已經開始將演化博弈理論應用于網絡信息安全領域,但目前相關研究還處于起步階段。孫薇等[18]將演化博弈理論應用于網絡信息安全,采用復制動態(tài)對網絡攻防對抗的動態(tài)演化過程進行了研究,但僅對2種策略進行分析,模型的擴展性和適用范圍有限。朱建明等[19]基于非合作演化博弈理論,提出了攻防雙方信息不對稱情況下具有學習機制的攻防演化博弈模型,并采用系統(tǒng)動力學進行過程分析,但僅對模型動力學進行分析,對安全防御指導作用不強。黃健明等[20]構建了基于非合作演化博弈理論的攻防演化博弈模型,采用復制動態(tài)對博弈均衡進行了求解分析,用于網絡安全防御策略選取,但未對博弈演化過程進行具體分析,降低了模型的可信性。以上演化博弈模型均采用復制動態(tài)的學習機制,其思想是選取某一特定策略頻率的變化等于該策略的適應度與群體平均適應之間的差值。然而,復制動態(tài)并未考慮同一群體下策略間的相互依賴關系。在實際網絡攻防過程中,不僅攻防雙方策略之間存在依存性,防御策略之間以及攻擊策略之間均存在一定的依賴關系。
本文通過引入激勵系數(shù),用于表示同一博弈群體中的策略依存關系,改進傳統(tǒng)復制動態(tài)方程,提高計算復制動態(tài)速率的準確性。然后,以實際網絡攻防為背景,基于非合作演化博弈理論,構建基于改進復制動態(tài)的網絡攻防演化博弈模型并對其進行均衡求解。最后,采用雅可比矩陣的局部穩(wěn)定分析法[21]對所求均衡點進行穩(wěn)定性分析,得到了不同條件下的博弈演化趨勢和最優(yōu)防御策略,可以用于網絡攻擊行為分析和預測,并為網絡信息安全防御決策提供一定指導。
演化博弈源于生物進化的思想[22],學習機制是演化博弈的核心[23],其中以復制動態(tài)[24]應用最為廣泛。復制動態(tài)采用策略學習復制的思想,決策者通過模仿、學習的方法調整自身策略,該機制克服了最優(yōu)反應動態(tài)[25]學習機制無法適用于學習能力較弱個體的問題,但是,并未考慮同一群體下策略之間的相互作用?;诖?,通過引入激勵系數(shù),構建基于改進復制動態(tài)的網絡攻防演化博弈模型,用于網絡攻擊行為預測和安全防御策略選取。
圖1 基本網絡攻防博弈樹
由此可知
同理可知
聯(lián)立式(10)和式(16),得到改進后的復制動態(tài)微分方程系統(tǒng)[28]為
基于上述提出的改進復制動態(tài)攻防演化博弈模型,針對攻防雙方均具有2種可選策略的案例,對相應的改進復制動態(tài)方程進行均衡求解,并對不同均衡解進行穩(wěn)定性分析,得到不同條件下的最優(yōu)防御策略。
圖2 網絡攻防博弈樹
基于上述條件,結合第2.2節(jié)可得
由
針對上述建立的改進復制動態(tài)網絡攻防演化博弈模型,采用系統(tǒng)動力學方法[30,31]對復制動態(tài)演化博弈系統(tǒng)進行分析,能夠有效探索博弈系統(tǒng)內在的演化特性。
基于上述5個演化平衡點,采用雅可比矩陣的局部穩(wěn)定分析法對所有演化平衡點進行穩(wěn)定性分析。復制動態(tài)方程式(21)的雅可比矩陣為
(23)
將上述4個點分別代入式(22)和式(23),可以得到表1的結果。
表1 攻防博弈復制動態(tài)系統(tǒng)均衡點對應的雅可比行列式和跡計算式
針對雅可比行列式和跡的計算式,可以分以下4種情況進行分析討論。
情形判別依據(jù)A(0,0)B(0,1)C(1,0)D(1,1) 情形1+––+ –不定不定+ 穩(wěn)定性ESS鞍點鞍點不穩(wěn)定 情形2–++– 不定–+不定 穩(wěn)定性鞍點ESS不穩(wěn)定鞍點 情形3–++– 不定+–不定 穩(wěn)定性鞍點不穩(wěn)定ESS鞍點 情形4+––+ +不定不定– 穩(wěn)定性不穩(wěn)定鞍點鞍點ESS
情形判別依據(jù)A(0,0)B(0,1)C(1,0)D(1,1) 情形1+––+ –不定不定+ 穩(wěn)定性ESS鞍點鞍點不穩(wěn)定 情形2+––– –不定+不定 穩(wěn)定性ESS鞍點鞍點鞍點 情形3–++– 不定+–不定 穩(wěn)定性鞍點不穩(wěn)定ESS鞍點 情形4–+–+ 不定+不定– 穩(wěn)定性鞍點不穩(wěn)定鞍點ESS 情形5++–+ 不定–不定+ 穩(wěn)定性不定ESS鞍點不穩(wěn)定 情形6–++– 不定–+不定 穩(wěn)定性鞍點ESS不穩(wěn)定鞍點 情形7+–+– +不定–不定 穩(wěn)定性不穩(wěn)定鞍點ESS鞍點 情形8+––+ +不定不定– 穩(wěn)定性不穩(wěn)定鞍點鞍點ESS
情形判別依據(jù)A(0,0)B(0,1)C(1,0)D(1,1) 情形1+––+ –不定不定+ 穩(wěn)定性ESS鞍點鞍點不穩(wěn)定 情形2–++– 不定–+不定 穩(wěn)定性鞍點ESS不穩(wěn)定鞍點 情形3++–– –+不定不定 穩(wěn)定性ESS不穩(wěn)定鞍點鞍點 情形4––++ 不定不定+– 穩(wěn)定性鞍點鞍點不穩(wěn)定ESS 情形5––++ 不定不定–+ 穩(wěn)定性鞍點鞍點ESS不穩(wěn)定 情形6++–– +–不定不定 穩(wěn)定性不穩(wěn)定ESS鞍點鞍點 情形7–++– 不定+–不定 穩(wěn)定性鞍點不穩(wěn)定ESS鞍點 情形8+––+ +不定不定– 穩(wěn)定性不穩(wěn)定鞍點鞍點ESS
圖4 當,時,攻防演化復制動態(tài)關系
同理,通過分析可以得出其他幾種情形的演化關系,具體如圖5~圖11所示。
圖5 當,時,不投資防御為防御方最優(yōu)防御策略
圖6 當,時,不投資防御為防御方最優(yōu)防御策略
圖7 當,時,投資防御為防御方最優(yōu)防御策略
圖8 當,時,不投資防御為防御方最優(yōu)防御策略
圖9 當,時,投資防御為防御方最優(yōu)防御策略
圖10 當,時,投資防御為防御方最優(yōu)防御策略
圖11 當,時,不投資防御為防御方最優(yōu)防御策略
將本文模型與方法同其他文獻方法進行比較,可以得到比較結果如表5所示。網絡攻防主要由人來控制,由于實現(xiàn)中人的有限理性限制,以決策者完全理性為前提的傳統(tǒng)博弈理論與網絡攻防實際不符。如文獻[13,14]中的模型方法是以傳統(tǒng)博弈理論為基礎,完全理性條件降低了模型和方法的現(xiàn)實可行性。演化博弈建立在決策者有限理性的條件下,采用復制學習的思想更新個體策略,具有過程動態(tài)演化的特點,增強了模型和方法的現(xiàn)實基礎。如文獻[18,19]均是演化博弈模型,采用傳統(tǒng)復制動態(tài)學習機制,擺脫了行為者完全理性的限制,但其模型和方法并未考慮同類(同一群體)策略之間的相互影響。在實際攻防過程中,不僅攻防雙方策略之間存在依存性,防御策略之間以及攻擊策略之間均存在一定的依賴關系,而這種同類策略之間的相互作用會對博弈演化過程中的復制動態(tài)速率產生較大影響,從而降低了模型和方法的準確性。
本文以決策者非完全理性的傳統(tǒng)演化博弈理論為基礎,綜合考慮并定量描述同類策略之間的影響,通過引入激勵系數(shù),用于描述攻防雙方同一群體策略之間的相互作用,改進傳統(tǒng)復制動態(tài)方程,構建基于改進復制動態(tài)的網絡攻防演化博弈模型,并對模型進行了分析與求解,提高了模型和方法的準確性。相比表5中其他文獻的方法,本文方法對網絡防御策略選取具有更強的針對性,采用該方法選取的最優(yōu)防御策略更準確,對網絡防御具有更好的指導意義。
表5 模型與方法比較結果
圖12 網絡信息系統(tǒng)的拓撲環(huán)境
基于本文提出的基于改進復制動態(tài)網絡攻防演化博弈模型,通過部署一個簡單的網絡信息系統(tǒng)進行仿真實驗,用于驗證本文模型和方法的有效性。該網絡信息系統(tǒng)的拓撲環(huán)境如圖12所示,主要由網絡防御設備、Web服務器、文件服務器、數(shù)據(jù)庫服務器和客戶終端機組成。通過防火墻將網絡分為網絡攻擊者所在的外網區(qū)、DMZ隔離區(qū)和內網安全區(qū)3部分。在DMZ區(qū)域的Web服務器為Apache服務器;內網中的數(shù)據(jù)庫服務器為Apache服務器提供數(shù)據(jù)庫服務;客戶終端機可以運行郵件、FTP和SSH程序。采用的訪問控制規(guī)則是:非本網絡的主機只能訪問Web服務器,系統(tǒng)內Web服務器、應用服務器可以對數(shù)據(jù)庫服務器進行訪問。
表6 原子攻擊策略描述
表7 原子防御策略描述
針對本文提出的改進復制動態(tài)攻防演化博弈模型,通過對激勵系數(shù)設置不同取值,驗證同一群體中不同策略之間的依賴關系對博弈演化過程的影響,突出改進復制動態(tài)演化博弈模型的優(yōu)越性。其中,激勵系數(shù)越大,表示策略之間的影響度越大;否則,表示策略之間的影響度越小。
圖13 當,時,不同初始狀態(tài)下的攻防演化趨勢
圖14 當,時,不同初始狀態(tài)的攻防演化趨勢
圖15 當,時,不同初始狀態(tài)的攻防演化趨勢
圖16 當,時,不同初始狀態(tài)的攻防演化趨勢
由以上仿真結果可知,在給定各博弈參數(shù)取值的條件下,博弈系統(tǒng)在經過多次演化后,最終將收斂于某個穩(wěn)定狀態(tài),得到相應的最優(yōu)防御策略。通過觀察對比發(fā)現(xiàn),復制動態(tài)中激勵系數(shù)的不同取值,對博弈系統(tǒng)演化的收斂速度具有不同的影響。由此可知,同一群體中的策略之間既存在促進作用,也存在抑制作用,實驗仿真結果與本文所提模型中的理論分析保持一致,說明本文對傳統(tǒng)復制動態(tài)方程的改進提高了模型和方法的準確性,可以用于指導網絡安全防御決策。
本文針對同一群體中存在策略依存關系的問題,通過改進復制動態(tài)方程對網絡攻防博弈過程中最優(yōu)防御策略選取問題進行了研究。主要工作如下。
1) 從網絡攻防實際出發(fā),基于非合作演化博弈理論,通過引入激勵系數(shù),改進傳統(tǒng)復制動態(tài)方程,構建基于改進復制動態(tài)的網絡攻防演化博弈模型。
2) 利用改進復制動態(tài)方程進行均衡求解,采用雅可比矩陣的局部穩(wěn)定分析法對所求均衡點進行穩(wěn)定性分析,得到了不同條件下的最優(yōu)防御策略。
3) 在給定各博弈參數(shù)取值的條件下,通過數(shù)值仿真,驗證了激勵系數(shù)在攻防博弈系統(tǒng)中對策略選取的激勵作用。
研究結果表明,同一群體之間的策略存在相互依賴性,對博弈演化的收斂速度具有重要影響,這種依賴關系既包含促進作用,又包含抑制作用。研究成果拓展了演化博弈理論,對于在有限理性條件的動態(tài)攻防中實施網絡防御決策具有指導意義,能夠為開展網絡空間攻防對抗研究提供模型和方法支持。但也還存在一些不足,如攻防策略集的確定以及激勵系數(shù)的量化,這將成為下一步研究的重點。
[1] ROY S, ELLIS C, SHIVA S, et al. A survey of game theory as applied to network security[C]//43rd Hawaii International Conference on System Sciences, 2010: 1-10.
[2] LIANG X, XIAO Y. Game theory for network security[J]. IEEE Communications Surveys & Tutorials, 2013, 15(1): 472-486.
[3] VIDUTO V, HUANG W, MAPLE C. Toward optimal multi-objective models of network security: survey[C]//2011 17th International Conference on Automation & Computing. 2011: 6-11.
[4] GORDON L, LOEB M, LUCYSHYN W, et al. 2016 CSI/FBI computer crime and security survey[C]// 2016 Computer Security Institute. 2016: 48-64.
[5] SERRA E, JAJODIA S, PUGLIESE A, et al. Pareto-optimal adversarial defense of enterprise systems[J]. ACM Transaction on Information & System Security, 2015, 17(3): 11.
[6] RICHARD L, JOSHUA W. Analysis and results of the DARPA off-line intrusion detection evaluation[C]//17th International Workshop on Recent Advances in Intrusion Detection. 2015:162-182.
[7] EISENSTADT E, MOSHAIOV A, AVIGAD G. The competing travelling salespersons problem under multi-criteria[C]//2016 14th International Conference on Parallel Problem Solving from Nature. 2016: 463-472.
[8] GORDON L, LOEB M. Budgeting process for information security expenditures[J]. Communications of the ACM, 2016, 51(8): 395-406.
[9] WHITE J, PARK J S, KAMHOUA C A, et al. Game theoretic attack analysis in online social network (OSN) services[C]//2016 International Conference on Social Networks Technology. 2016: 1012-1019.
[10] OCEVICIC H, NENADIC K, SOLIC K. Game theory: active defense model and method[J]. IEEE Information and Network Security, 2016, 51(8):395-406.
[11] LYE K W, WING J. Game strategies in network security[J]. International Journal of Information Security, 2005, 4(1/2): 71-86.
[12] 林旺群, 王慧, 劉家紅. 基于非合作動態(tài)博弈的網絡安全主動防御技術研究[J]. 計算機研究與發(fā)展, 2013, 48(2): 306-316.
LIN W Q, WANG H, LIU J H. Research on active defense technology in network security based on non-cooperative dynamic game theory[J]. Journal of Computer Research and Development, 2013, 48(2): 306-316.
[13] 姜偉, 方濱興, 田志宏. 基于攻防隨機博弈模型的防御策略選取研究[J]. 計算機研究與發(fā)展, 2013, 47(10): 1714-1723.
JIANG W, FANG B X, TIAN Z H. Research on defense strategies selection based on attack-defense stochastic game model[J]. Journal of Computer Research and Development, 2013, 47(10): 1714-1723.
[14] 張恒巍, 余定坤, 韓繼紅, 等. 基于攻防信號博弈模型的防御策略選取方法[J]. 通信學報, 2016, 37(5): 39-49.
ZHANG H W, YU D K, HAN J H, et al. Defense policies selection method based on attack-defense signaling game model[J]. Journal on Communications, 2016, 37(5): 39-49.
[15] 王長春, 程曉航, 朱永文, 等. 計算機網絡對抗行動策略的Markov博弈模型[J]. 系統(tǒng)工程理論與實踐, 2014, 34(9): 2402-2410.
WANG C C, CHENG X H, ZHU Y W, et al. A Markov game model of computer network operation[J]. Systems Engineering -Theory & Practice, 2014, 34(9):2402-2410.
[16] MARTIN A N. Breaking the symmetry between interaction and replacement in evolutionary dynamics on graphs[J]. Physical Review Letters, 2016 (23):24-33.
[17] LI P, DUAN H B. Robustness of cooperation on scale-free networks in the evolutionary prisoner’s dilemma game[J]. A Letters Journal Exploring the Frontiers of Physics, 2014 (105):12-19.
[18] 孫薇. 基于演化博弈論的信息安全攻防問題研究[J]. 情報科學, 2015 (9): 1408-1412.
SUN W. Research on attack and deference in information security based on evolutionary game[J]. Information Science, 2015 (9): 1408-1412.
[19] 朱建明, 宋彪, 黃啟發(fā). 基于系統(tǒng)動力學的網絡安全攻防演化博弈模型[J]. 通信學報, 2014, 35(1): 54-61.
ZHU J M, SONG B, HUANG Q F. Evolution game model of offense-defense for network security based on system dynamics[J]. Journal on Communications, 2014, 35(1): 54-61.
[20] 黃健明, 張恒巍, 王晉東, 等. 基于攻防演化博弈模型的防御策略選取方法[J]. 通信學報, 2017, 38(1): 168-176.
HUANG J M, ZHANG H W, WANG J D, et al. Defense strategies selection based on attack-defense evolutionary game model[J]. Journal on Communications, 2017, 38(1): 168-176.
[21] SHEN S G, HUANG L J, FAN E, et al. Trust dynamics in WSN: an evolutionary game-theoretic approach[J]. Journal of Sensors, 2016, 32(4): 34-43.
[22] LIU F M, DING Y S. Dynamics analysis of evolutionary game-based trust computing for P2P networks[J]. Application Research of Computers, 2016, 33(8): 2460-2463.
[23] FUDENBERG D, LEVINE D. Learning in games[J]. European Economic Review, 1998, 42(3-5): 631-639.
[24] GILBOA I, MATSUI A. Social stability and equilibrium[J]. Econometrica, 1991, 59(3):859-867.
[25] DREW F, JEAN T. Game theory[M]. Boston: Massachusettes Institute of Technology Press, 2012.
[26] BERGER U, HOFBAUER J. Irrational behavior in the Brown-von Neumann-Nash dynamics[J]. Games and Economic Behavior, 2006, 56(1): 1-6.
[27] SMITH M J. Stability of a dynamic model of traffic assignment-An application of a method of Lyapunov[J]. Transportation Science, 1984, 18(3):245-252.
[28] GUO H, WANG X W, CHENG H, et al. A routing defense mechanism using evolutionary game theory for delay tolerant networks[J]. Applied Soft Computing, 2016(38):469-476.
[29] TAYLOR P D, JONKER L B. Evolutionary stable strategies and game dynamics[J]. Mathematical Biosciences, 1978, 40(1/2):145-156.
[30] LEE W K, FAN W, MILLER M, et al. Toward cost-sensitive modeling for intrusion detection and response[J]. Journal of Computer Security, 2002, 10(1-2): 5-22.
[31] BORKOVSKY R N, DORASZELSKI U, KRYUKOV Y. A user’ s guide to solving dynamic stochastic games using the homotopy method[J]. Operation Research, 2015, 58(4): 1116-1132.
Improving replicator dynamic evolutionary game model for selecting optimal defense strategies
HUANG Jianming1,2, ZHANG Hengwei1,2
1. The Third College, Information Engineering University, Zhengzhou 450001, China 2. State Key Laboratory of Mathematical Engineering and Advanced Computing, Zhengzhou 450001, China
In terms of the existence of strategy dependency in the same game group, network attack-defense evolutionary game model based on the improved replicator dynamics was constricted by introducing the intensity coefficient, which completed the method of calculating replicator dynamic rate. The improved replicator dynamic equation was adopted to solve the evolutionary equilibrium for the situation that both attack and defense have two optional strategies. The stability of the equilibrium points was analyzed by the local stability analysis method of Jacobian matrix, and the optimal defense strategies were obtained under different conditions. The results show that the strategy dependency between the players in the same group has a certain influence on the evolution of the game, both the incentive and the inhibition. Finally, the accuracy and validity of the model and method are verified by the experimental simulation, which provides a new theoretical support for solving the information security problems in the real.
strategy dependency, strength coefficient, improving replicator dynamic, replicator dynamic rate, Jacobian matrix, optimal defense strategy
TP390
A
10.11959/j.issn.1000-436x.2018010
黃健明(1992-),男,湖南張家界人,信息工程大學碩士生,主要研究方向為網絡安全主動防御。
張恒?。?978-),男,河南洛陽人,博士,信息工程大學副教授,主要研究方向為網絡安全與攻防對抗、信息安全風險評估。
2017-05-31;
2017-10-12
張恒巍,zhw11qd@163.com
國家自然科學基金資助項目(No.61303074, No.61309013);河南省科技計劃基金資助項目(No.12210231003, No.13210231002)
: The National Natural Science Foundation of China (No.61303074, No.61309013), Henan Science and Technology Research Project (No.12210231003, No.13210231002)