李 陽(yáng),趙俊楠,石樂義
(中國(guó)石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)
隨著近年來信息技術(shù)的迅速發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)已滲透到社會(huì)工作生活的方方面面,網(wǎng)絡(luò)安全日益受到重視并成為國(guó)家戰(zhàn)略安全的一部分,網(wǎng)絡(luò)攻防博弈日趨激烈。然而,傳統(tǒng)的防御手段如防火墻、入侵檢測(cè)技術(shù)等大都屬于靜態(tài)、固定、敵暗我明的被動(dòng)防御,對(duì)于網(wǎng)絡(luò)對(duì)抗尤為不利。在此背景下,蜜罐技術(shù)應(yīng)運(yùn)而生。蜜罐技術(shù)是一種網(wǎng)絡(luò)誘騙[1]陷阱,其目的在于迷惑攻擊者,研究學(xué)習(xí)攻擊行為和目的,追蹤監(jiān)視攻擊者,從而保護(hù)信息系統(tǒng)安全。
攻防雙方作為蜜罐防護(hù)過程的參與者,策略相互依存,并根據(jù)敵手不同情況選擇最佳響應(yīng)策略,因而構(gòu)成了博弈推理基礎(chǔ)條件。作為一門使用嚴(yán)謹(jǐn)數(shù)學(xué)模型研究現(xiàn)實(shí)世界沖突對(duì)抗條件下最優(yōu)決策問題的理論,博弈論可通過建模分析,對(duì)網(wǎng)絡(luò)性能優(yōu)化、安全技術(shù)有效性證明等問題進(jìn)行研究[2-3]。文中旨在將演化博弈應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,對(duì)蜜罐技術(shù)進(jìn)行演化博弈建模,分析網(wǎng)絡(luò)中各參與者之間的均衡策略和演變過程,對(duì)網(wǎng)絡(luò)安全優(yōu)化部署提出有效建議。
蜜罐作為一種主動(dòng)防御手段,通過模擬真實(shí)網(wǎng)絡(luò)環(huán)境,誘騙攻擊者并分析其在蜜罐中的惡意行為。文獻(xiàn)[4]將網(wǎng)絡(luò)誘騙攻防視為多階段信令博弈,對(duì)蜜罐誘騙性能進(jìn)行研究;文獻(xiàn)[5]利用不完全信息博弈,構(gòu)建蜜罐攻防博弈模型;文獻(xiàn)[6]提出基于蜜網(wǎng)誘騙模型的博弈理論框架,分析均衡解;文獻(xiàn)[7]將蜜罐誘騙系統(tǒng)與不完全信息動(dòng)態(tài)博弈結(jié)合,提出基于模糊矩陣博弈的網(wǎng)絡(luò)安全威脅評(píng)估。Hayatle O[8]提出基于貝葉斯博弈的理論框架,模擬了蜜罐與僵尸主機(jī)控制方之間的零和非合作博弈,使防御方采取最佳響應(yīng)策略;Wagener G[9]利用博弈理論改善蜜罐的自適應(yīng)特性,使蜜罐改變交互行為特征,以獲取更多攻擊信息;Wei L[10]將蜜罐信息融合階段視作博弈過程,集成博弈理論與信息融合技術(shù),獲知最佳安全防御決策。
孫慶文等人借鑒生物進(jìn)化過程中“復(fù)制動(dòng)態(tài)”思想,對(duì)非對(duì)稱2×2演化博弈均衡進(jìn)行漸近穩(wěn)定性分析[11],并簡(jiǎn)要討論了演化博弈框架下經(jīng)濟(jì)行為模式動(dòng)力學(xué)意義。文獻(xiàn)[12]從網(wǎng)絡(luò)攻防對(duì)抗的實(shí)際情況出發(fā),在有限理性約束下,構(gòu)建非合作攻防演化博弈模型并提出最優(yōu)防御策略選取算法,進(jìn)而推測(cè)演化規(guī)律。張恒巍等人[13]根據(jù)攻防過程中的動(dòng)態(tài)變換特征和有限理性約束條件,利用Markov多階段攻防演化博弈模型,分析單階段演化模型,引入貼現(xiàn)因子、計(jì)算折扣收益,以動(dòng)態(tài)規(guī)劃法求解多階段演化均衡策略。黃健明等人[14]利用激勵(lì)系數(shù),構(gòu)建基于改進(jìn)復(fù)制動(dòng)態(tài)攻防演化博弈模型。通過雅克比矩陣中局部穩(wěn)定分析法,實(shí)現(xiàn)均衡點(diǎn)穩(wěn)定性分析,獲取不同情形下的最優(yōu)防御策略。付世華[15]利用矩陣半張量積方法建立代數(shù)表達(dá),研究具備破產(chǎn)風(fēng)險(xiǎn)和多步記憶的網(wǎng)絡(luò)演化博弈策略優(yōu)化問題,并分析時(shí)變拓?fù)浣Y(jié)構(gòu)下具有多步記憶的網(wǎng)絡(luò)演化博弈穩(wěn)定性。Yin Y等[16]提出了防火墻與入侵檢測(cè)系統(tǒng)之間相互作用的博弈論模型。論文將演化博弈論引入至安全系統(tǒng)主動(dòng)保護(hù)機(jī)制研究,認(rèn)為博弈論模型行為主體是由多個(gè)參與者組成的有界理性群體。通過所提出的利潤(rùn)矩陣建立成本效益設(shè)置模式。在網(wǎng)絡(luò)安全系統(tǒng)設(shè)備主動(dòng)策略移動(dòng)中考慮響應(yīng)代價(jià)因素,具有很大實(shí)用價(jià)值。Huang K等人提出一種基于演化博弈機(jī)制的物理層安全協(xié)作方法[17],根據(jù)演化博弈機(jī)制定義策略(噪聲/正常信號(hào))和收益(不同安全速率);發(fā)送端通過連續(xù)調(diào)整策略使演化達(dá)到穩(wěn)定狀態(tài),然后動(dòng)態(tài)調(diào)整,使網(wǎng)絡(luò)從不穩(wěn)定狀態(tài)向協(xié)作穩(wěn)定狀態(tài)演變,從而提高整個(gè)系統(tǒng)的安全速率。文中基于演化博弈理論,將網(wǎng)絡(luò)服務(wù)器端視作一種簡(jiǎn)單生態(tài)環(huán)境,可為不同來訪者提供服務(wù)資源,且不同來訪者為環(huán)境中生存的不同種群,每個(gè)種群在網(wǎng)絡(luò)中具備各自行為方式。通過研究混合網(wǎng)絡(luò)系統(tǒng)(蜜罐誘騙系統(tǒng)與正常服務(wù)系統(tǒng))和攻擊者之間的均衡博弈策略演變,證明在網(wǎng)絡(luò)中部署蜜罐是一種主動(dòng)且有效的防御方式。
在現(xiàn)實(shí)社會(huì),每次博弈情景可能極其復(fù)雜,且推理出均衡戰(zhàn)略結(jié)果需要復(fù)雜且漫長(zhǎng)的步驟過程。所以社會(huì)學(xué)家們逐漸從生物學(xué)中推導(dǎo)出一種新規(guī)則,一類根據(jù)社會(huì)演變總結(jié)出的規(guī)律——演化博弈理論。
演化博弈論(evolutionary game theory)強(qiáng)調(diào)一種動(dòng)態(tài)均衡,從一種全新角度詮釋了博弈均衡概念,不再是完全理性也非完全信息,為納什均衡和均衡戰(zhàn)略的選擇演繹出新方法。其中最重要的概念是演化穩(wěn)定策略(evolutionary stable strategy),指如果占群體絕大多數(shù)的個(gè)體選擇演化穩(wěn)定策略,那么小突變者群體就不可能侵入到這個(gè)群體。
即一種演化穩(wěn)定策略需要同時(shí)滿足以下條件:對(duì)任意策略y≠x,具備
(1)均衡性,u(x,x)≥u(y,x)。
(2)穩(wěn)定性,u(x,x)=u(y,x)?u(x,y)>u(y,y)。
條件(1)保證了策略x滿足納什均衡,如果參與者任意改變策略,自身利益將無法達(dá)到最大化。當(dāng)少部分變異者入侵種群時(shí),只有采用策略x是其最優(yōu)選擇,變異才會(huì)被逐漸淘汰。若存在其他最優(yōu)策略y,只有保證策略x更優(yōu)于y,才能使種群突變難以繼續(xù)存活下去。
定理1:如果策略集(x,x)滿足嚴(yán)格納什均衡,那么策略x是演化穩(wěn)定策略。
定理2:在雙人對(duì)稱博弈中,參與者的策略集合中只有策略x和策略y,且支付函數(shù)滿足u(x,x)≠u(y,x),u(x,y)≠u(y,y),那么該博弈存在演化穩(wěn)定策略。
演化穩(wěn)定均衡分為單元均衡和多元均衡。單元均衡是指將一個(gè)環(huán)境中所有參與者視為一個(gè)群體,參與者行為是一個(gè)特定純策略集合,種群中僅存在一種戰(zhàn)略。否則,稱之為多元均衡。
演化博弈是一個(gè)種群為了適應(yīng)環(huán)境存活而不斷進(jìn)行演化最終達(dá)到穩(wěn)定狀態(tài)的過程,其演化機(jī)制包括選擇機(jī)制和突變機(jī)制。選擇機(jī)制指某一個(gè)策略在某次博弈中可通過獲得較高收益使參與者在之后博弈中更傾向于選擇該策略作為博弈首選,力求達(dá)到自身收益最大化;突變機(jī)制則是博弈參與者隨機(jī)選取某一個(gè)收益未知的策略進(jìn)行冒險(xiǎn)博弈,因而并不常用。演化博弈是根據(jù)收益最大化理論,博弈參與者頻繁采用收益高于平均水平的策略集,因而博弈群體中各種策略集使用比例有所不同。
從上述復(fù)制動(dòng)態(tài)方程中可看出,當(dāng)u(x,σ)>u(x,x)時(shí),選擇策略x的參與者獲得的收益大于平均值,那么選擇策略x的子群體會(huì)擴(kuò)大規(guī)模;u(x,σ)3 建模與仿真
3.1 蜜罐誘騙系統(tǒng)中的演化模型
將網(wǎng)絡(luò)系統(tǒng)視為演化博弈中的生態(tài)環(huán)境,所有訪問網(wǎng)絡(luò)的來訪者視為環(huán)境中的不同種群。網(wǎng)絡(luò)系統(tǒng)以概率x部署蜜罐以概率1-x不部署蜜罐系統(tǒng),當(dāng)訪問網(wǎng)絡(luò)的來訪者僅有攻擊者一個(gè)“種群”時(shí),攻擊者可以選擇以概率y訪問網(wǎng)絡(luò)或者以概率1-y不訪問系統(tǒng)。博弈收益矩陣如表1所示。
表1 演化博弈收益矩陣
為簡(jiǎn)化收益矩陣,文中默認(rèn)攻擊者訪問蜜罐系統(tǒng)成功率為100%,且攻擊者攻擊普通系統(tǒng)收益和系統(tǒng)被攻擊損失相等。推理參數(shù)設(shè)置Np為網(wǎng)絡(luò)系統(tǒng)正常服務(wù)收益,Nc為網(wǎng)絡(luò)中蜜罐部署成本,Ap為攻擊者攻擊收益,Ac為攻擊者攻擊成本。
(1)針對(duì)網(wǎng)絡(luò)系統(tǒng)。
選擇策略“蜜罐系統(tǒng)”的收益為:
u1=y·(Np-Nc-Ap)+(1-y)·(Np-Nc)
選擇策略“普通系統(tǒng)”的收益為:
u2=y·(-Ac)+(1-y)·Np
網(wǎng)絡(luò)系統(tǒng)的平均收益為:
u=x·u1+(1-x)u2=Np-xNc-Npy-Apy+Npxy
網(wǎng)絡(luò)系統(tǒng)的復(fù)制動(dòng)態(tài)方程為:
F(x)=dx/dt=x[u1-u]=x(1-x)(Npy-Nc)
圖1 函數(shù)F(x)的變化趨勢(shì)
函數(shù)F(x)的變化趨勢(shì)可以反映策略“蜜罐系統(tǒng)/普通系統(tǒng)”隨著時(shí)間推移的演化過程。
令F(x)=0,可得三個(gè)值:x=0,x=1,y=Nc/Np。根據(jù)前述理論知識(shí)可知,演化博弈的穩(wěn)定策略就是復(fù)制動(dòng)態(tài)曲線與水平坐標(biāo)軸相交且交點(diǎn)處切線斜率為負(fù)數(shù)的點(diǎn),函數(shù)F(x)化趨勢(shì)如圖1所示。
當(dāng)y>Nc/Np時(shí),交點(diǎn)x=0處的切線斜率為正,交點(diǎn)x=1處的切線斜率為負(fù),所以只有x=1是網(wǎng)絡(luò)系統(tǒng)演化穩(wěn)定策略,即網(wǎng)絡(luò)系統(tǒng)最后會(huì)選擇部署蜜罐系統(tǒng)這一策略。當(dāng)y 當(dāng)y=Nc/Np時(shí),函數(shù)F(x)無變化趨勢(shì),網(wǎng)絡(luò)系統(tǒng)與攻擊者的演化博弈不存在演化博弈穩(wěn)定策略。 (2)針對(duì)攻擊者。 選擇策略“訪問”的收益為: 選擇策略“不訪問”的收益為:u4=0 平均收益為: u'=y·u1+(1-y)u2=Apy-Acy-Apxy 復(fù)制動(dòng)態(tài)方程為: F(y)=dy/dt=y[u3-u']=y(1-y)(Ap-Ac-Apx),函數(shù)F(y)變化趨勢(shì)可以反映策略“訪問/不訪問”隨著時(shí)間推移的演化過程。 令F(y)=0,可得三個(gè)值:y=0,y=1,x=Ap-Ac/Ap。根據(jù)前述理論知識(shí)可知,演化博弈的穩(wěn)定策略就是復(fù)制動(dòng)態(tài)曲線與水平坐標(biāo)軸相交且交點(diǎn)處切線斜率為負(fù)數(shù)的點(diǎn),函數(shù)F(y)的變化趨勢(shì)如圖2所示。 圖2 函數(shù)F(y)的變化趨勢(shì) 當(dāng)x>Ap-Ac/Ap時(shí),交點(diǎn)y=0處的切線斜率為負(fù),交點(diǎn)y=1處的切線斜率為正,所以只有y=0是攻擊者的演化穩(wěn)定策略,即攻擊者最后會(huì)選擇訪問網(wǎng)絡(luò)系統(tǒng)這一策略。當(dāng)x 當(dāng)x=Ap-Ac/Ap時(shí),函數(shù)F(y)無變化趨勢(shì),網(wǎng)絡(luò)系統(tǒng)不存在演化博弈穩(wěn)定策略。 對(duì)于小學(xué)生來說,英語(yǔ)學(xué)習(xí)的確具有一定的難度。這不同于自己的母語(yǔ),在學(xué)習(xí)的過程中,學(xué)生會(huì)感到很多內(nèi)容都是全新的,需要他們付出大量的時(shí)間和精力來把這些內(nèi)容掌握住。因此如果教師不采用有趣的教學(xué)方式來組織教學(xué)活動(dòng),就可能讓學(xué)生在困難面前表現(xiàn)出退縮的狀態(tài)。在教學(xué)實(shí)踐中,我們發(fā)現(xiàn)多媒體以及實(shí)物教學(xué)等形式可以更好的引導(dǎo)學(xué)生進(jìn)入一種更加投入的學(xué)習(xí)狀態(tài)中,從而有效提高他們的興趣,也提高了他們學(xué)習(xí)的成效。 令復(fù)制動(dòng)態(tài)方程F(x)=0,F(xiàn)(y)=0。可得演化博弈的五個(gè)均衡點(diǎn)(0,0),(1,0),(0,1),(1,1),(Ap-Ac/Ap,Nc/Np)。每一個(gè)均衡點(diǎn)都是一個(gè)滿足納什均衡條件的策略組合。描述網(wǎng)絡(luò)系統(tǒng)和攻擊者的復(fù)制動(dòng)態(tài)關(guān)系如圖3所示。 圖3 網(wǎng)絡(luò)系統(tǒng)和攻擊者的復(fù)制動(dòng)態(tài)關(guān)系 由圖可知,演化均衡點(diǎn)(1,0)和(0,1)是網(wǎng)絡(luò)系統(tǒng)與攻擊者雙方博弈的最終演化穩(wěn)定方向。當(dāng)網(wǎng)絡(luò)系統(tǒng)與攻擊者的策略組合屬于區(qū)域A時(shí),演化會(huì)向均衡(0,1)收斂,即若網(wǎng)絡(luò)系統(tǒng)為普通系統(tǒng),攻擊者會(huì)選擇訪問系統(tǒng);當(dāng)網(wǎng)絡(luò)系統(tǒng)與攻擊者的策略組合屬于區(qū)域B時(shí),演化會(huì)向均衡(1,0)收斂,即若網(wǎng)絡(luò)系統(tǒng)為蜜罐系統(tǒng),攻擊者會(huì)選擇不訪問系統(tǒng),顯然該結(jié)論符合現(xiàn)實(shí)情況。均衡點(diǎn)(Ap-Ac/Ap,Nc/Np)是影響演變方向的閾值,當(dāng)網(wǎng)絡(luò)系統(tǒng)和攻擊者的策略組合在均衡點(diǎn)(Ap-Ac/Ap,Nc/Np)時(shí),一個(gè)極小的改變會(huì)決定演化最終走向,所以在演化博弈中,博弈參與者行動(dòng)不斷變化,博弈雙方都會(huì)向適應(yīng)自身發(fā)展的方向進(jìn)行演變,如圖中的區(qū)域C、D。當(dāng)網(wǎng)絡(luò)系統(tǒng)和攻擊者的策略組合屬于這兩部分時(shí),演化具有一個(gè)不確定性,即可能由C→A→(0,1),也可能由C→B→(1,0)。這與實(shí)際情況有關(guān),如果在網(wǎng)絡(luò)系統(tǒng)中部署蜜罐代價(jià)很大,管理人員可能放棄部署;如果訪問蜜罐對(duì)攻擊者造成的損失很嚴(yán)重,攻擊者可能會(huì)放棄訪問一個(gè)不確定的系統(tǒng)。 通過Matlab對(duì)上述演化推理進(jìn)行驗(yàn)證,分析引入蜜罐策略后對(duì)攻擊者訪問策略造成的影響。設(shè)參數(shù)Np=1,Nc=0.4,部署概率x的初始值為0.5,閾值y=Nc/Np=0.4。 (1)當(dāng)y>0.4時(shí),取y=0.6,y=0.7,仿真結(jié)果如圖4所示,x最終收斂至x=1。即當(dāng)攻擊者攻擊概率較大時(shí),無論訪問概率怎樣變化,網(wǎng)絡(luò)系統(tǒng)最終的選擇策略都是部署蜜罐系統(tǒng)。 圖4 仿真結(jié)果(y=0.6,y=0.7) 圖5 仿真結(jié)果(y=0.3,y=0.5) (2)當(dāng)y=0.4時(shí),取y=0.3,y=0.5,結(jié)果如圖5所示,系統(tǒng)處于不斷變化狀態(tài)。任何微小改動(dòng)將導(dǎo)致均衡向不同方向演化,符合前文區(qū)域B、D的情況。 (3)當(dāng)y<0.4時(shí),取y=0.1,y=0.2,仿真結(jié)果如圖6所示,x最終收斂至x=0。即當(dāng)攻擊者攻擊概率較小時(shí),無論訪問概率怎樣變化,網(wǎng)絡(luò)系統(tǒng)的最終選擇策略都是不部署蜜罐系統(tǒng)。 圖6 仿真結(jié)果(y=0.1,y=0.2) 設(shè)參數(shù)Ap=0.9,Ac=0.5,部署概率y的初始值為0.5。閾值x=Ap-Ac/Ap=0.44。 (4)當(dāng)x>0.44時(shí),取x=0.6,x=0.7,如圖7所示,y最終收斂至y=0。即當(dāng)系統(tǒng)部署蜜罐的概率較大時(shí),攻擊者最終的選擇策略都是不訪問系統(tǒng)。 圖7 仿真結(jié)果(x=0.6,x=0.7) (5)當(dāng)x<0.44時(shí),取x=0.1,x=0.2,如圖8所示,y最終收斂至y=1。即當(dāng)系統(tǒng)部署蜜罐的概率較小時(shí),攻擊者最終的選擇策略是訪問系統(tǒng)??芍?,對(duì)蜜罐系統(tǒng)比重的增加,會(huì)使攻擊難度加大,攻擊者攻擊成本也會(huì)相應(yīng)增加。管理員也可不斷對(duì)蜜罐系統(tǒng)進(jìn)行升級(jí),使其誘騙性能不斷加強(qiáng),從而使蜜罐具有更好的迷惑性和實(shí)用性。在網(wǎng)絡(luò)中部署蜜罐系統(tǒng)會(huì)提升網(wǎng)絡(luò)安全性能,通過誘騙和偽裝給非法攻擊者帶來巨大損失,一旦攻擊者的攻擊消耗資源大于其所得,便有可能嚇退攻擊者使其放棄訪問網(wǎng)絡(luò)系統(tǒng)。 圖8 仿真結(jié)果(x=0.1,x=0.2) 文中將設(shè)置蜜罐系統(tǒng)的混合系統(tǒng)看作生態(tài)環(huán)境,來訪者僅為攻擊者一個(gè)種群,通過演化博弈觀察分析混合系統(tǒng)和攻擊者在網(wǎng)絡(luò)中的演變過程,證明蜜罐有效性。主要通過演化博弈理論對(duì)網(wǎng)絡(luò)系統(tǒng)中所部署蜜罐的有效性進(jìn)行證明,從理論推導(dǎo)到仿真驗(yàn)證,討論了兩個(gè)參與者——網(wǎng)絡(luò)系統(tǒng)和攻擊者在競(jìng)爭(zhēng)過程中的演變均衡策略,證明了通過優(yōu)化蜜罐可以達(dá)到迫使攻擊者放棄訪問系統(tǒng)的目的。3.2 仿真驗(yàn)證
4 結(jié)束語(yǔ)