曲蔚賢, 毛劍琳, 付麗霞, 郭 寧, 王昌征
(昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)
差額獎懲機(jī)制的WSNs節(jié)點信任演化模型*
曲蔚賢, 毛劍琳, 付麗霞, 郭 寧, 王昌征
(昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)
針對目前無線傳感器網(wǎng)絡(luò)(WSNs)節(jié)點間信任決策導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定的問題,引入了差額獎懲機(jī)制。在實際中,網(wǎng)絡(luò)存在不可靠因素,加入丟包率,構(gòu)建基于獎懲機(jī)制的信任演化模型。通過信任演化模型,推導(dǎo)出節(jié)點交互時的狀態(tài)。通過實驗分析了節(jié)點在選擇策略時的各種變化以及差額獎懲機(jī)制對演化收斂時間起到的作用,通過實驗驗證了差額獎懲機(jī)制對WSNs中的善意節(jié)點最終收斂到信任策略所需節(jié)點初始信任策略比例數(shù)的要求所起到的作用。差額獎懲機(jī)制彌補(bǔ)了在無差額獎懲機(jī)制模型中演化收斂速度慢的問題,并且降低初始節(jié)點選擇信任策略比例數(shù)的要求,為WSNs信任機(jī)制的設(shè)計提供了理論基礎(chǔ)。
無線傳感器網(wǎng)絡(luò); 丟包率; 信任; 演化博弈; 差額獎懲機(jī)制
無線傳感器網(wǎng)絡(luò)(WSNs)作為傳感器、微機(jī)電系統(tǒng)和無線傳感器三項技術(shù)相結(jié)合的產(chǎn)物,是一種新的信息獲取和處理技術(shù),已經(jīng)引起了學(xué)術(shù)界和工業(yè)界的高度重視[1]。文獻(xiàn)[2]系統(tǒng)將WSNs研究領(lǐng)域分為環(huán)境監(jiān)測、軍事應(yīng)用和其他的商業(yè)應(yīng)用等方面。其中安全問題又是WSNs研究的重點。1996年,文獻(xiàn)[3]首次提出了信任管理的概念,最初信任是用于解決“陌生人”授權(quán)的問題。文獻(xiàn)[4]提出了一種適應(yīng)WSNs的動態(tài)激勵機(jī)制,使網(wǎng)絡(luò)進(jìn)一步達(dá)到信任合作狀態(tài),并更快地達(dá)到穩(wěn)定。文獻(xiàn)[5]引入了信任合作激勵機(jī)制,解決了大規(guī)模MANET節(jié)點不合作的問題。文獻(xiàn)[6]針對Ad Hoc網(wǎng)絡(luò)中節(jié)點不合作的問題,提出了非合作博弈的信任模型。文獻(xiàn)[7]利用演化博弈論研究了P 2P網(wǎng)絡(luò)激勵機(jī)制的動態(tài)演化問題,最終實現(xiàn)網(wǎng)絡(luò)的“軟安全”。
1972年,Smith首次提出了演化穩(wěn)定策略(evolutionary stable strategy,ESS)的概念[8]。于1978年,Taylor和Jonker共同提出了復(fù)制子動態(tài)(replicator dynamics,RD)的概念[9],使得演化博弈論獲得了進(jìn)一步發(fā)展。
本文在信任演化[10]的基礎(chǔ)上引入了差額獎懲機(jī)制,分析了WSNs節(jié)點如何快速達(dá)到信任穩(wěn)定狀態(tài),這些研究成果將為WSNs節(jié)點信任機(jī)制提供理論基礎(chǔ)。
1.1 演化博弈論
演化博弈論的過程是在一個大的種群中不斷地重復(fù)進(jìn)行匹配博弈的過程。演化博弈論系統(tǒng)含有兩個重要的概念,即演化穩(wěn)定策略(ESS)和復(fù)制子動態(tài)(RD),分別強(qiáng)調(diào)了變異和選擇的作用。
1.2 演化穩(wěn)定策略
u[x,εy+(1-ε)x]>u[y,εy+(1-ε)x]
(1)
1.3 復(fù)制子動態(tài)
種群中的每個個體采取的策略都來自Δ。在時間t,采用策略i∈H的個體占總體的比例為xi(t),則種群的當(dāng)前狀態(tài)可由向量x(t)=(xi(t),…,xk(t))定義。復(fù)制子動態(tài)方程[10]可由式(2)給出
(2)
式中 u(si,x)為在種群處于x狀態(tài)時,采用純策略i的個體獲得的平均收益;u(x,x)為總體平均收益,即
(3)
2.1 模型的建立
本文在文獻(xiàn)[9]基礎(chǔ)上引入了懲罰機(jī)制,且獎勵與懲罰機(jī)制均采用差額的形式。在展示該模型之前,首先對模型的假設(shè)作出如下說明:
記L為節(jié)點發(fā)送的數(shù)據(jù)包沒有到達(dá)目的節(jié)點而引起的損失;C為節(jié)點進(jìn)行數(shù)據(jù)包的發(fā)送與轉(zhuǎn)發(fā)的成本;G1為節(jié)點因轉(zhuǎn)發(fā)數(shù)據(jù)包而獲得的收益;G2為節(jié)點發(fā)送的數(shù)據(jù)包被其他節(jié)點轉(zhuǎn)發(fā)而帶來的收益;A為攻擊成本;D為防御成本;a為獎勵因子;b為懲罰因子;P為丟包概率;T為信任度。
由于每次節(jié)點發(fā)送的數(shù)據(jù)包和轉(zhuǎn)發(fā)的數(shù)據(jù)包并不一定能夠到達(dá)預(yù)定節(jié)點,因此導(dǎo)致了不同策略的交互,節(jié)點之間的收益不盡相同。以下分情況進(jìn)行討論。
1)交互節(jié)點雙方均選擇信任策略
AB節(jié)點兩兩交互時,兩個節(jié)點均選擇信任策略,兩個節(jié)點均有發(fā)包轉(zhuǎn)包行為,每種行為成功與失敗對應(yīng)的結(jié)果如表1所示,其中‘1’表示成功,‘0’表示失敗。
表1 兩個節(jié)點均選擇信任的收益表
由表1可知:雙方選擇信任策略的收益均為P2G1+P2G2+P2L+aT-PC-C-L
2)善意節(jié)點選擇信任策略,自私節(jié)點選擇不信任策略
AB節(jié)點兩兩交互時,善意節(jié)點選擇信任策略,自私節(jié)點選擇不信任策略,每種行為成功與失敗對應(yīng)的結(jié)果如表2所示。
表2 善意節(jié)點選擇信任策略,自私節(jié)點選擇不信任策略的收益表
由表2可知:善意節(jié)點的收益為P2G1+aT-PC-C-L,自私節(jié)點的收益為P2G2+P2L-C-L-bT。
3)善意節(jié)點選擇防御策略,自私節(jié)點選擇信任策略
AB節(jié)點兩兩交互時,善意節(jié)點選擇防御策略,自私節(jié)點選擇信任策略,每種行為成功與失敗對應(yīng)的結(jié)果如表3所示。
由表3可知:善意節(jié)點的收益為P2G1+P2G2+P2L+aT-PD-D-L。
4)善意節(jié)點選擇防御策略,自私節(jié)點選擇不信任策略
AB節(jié)點兩兩交互時,善意節(jié)點選擇信任策略,自私節(jié)點選擇不信任策略,每種行為成功與失敗對應(yīng)的結(jié)果如表4所示。
表3 善意節(jié)點選擇防御策略,自私節(jié)點選擇信任策略的收益表
表4 善意節(jié)點選擇防御策略,自私節(jié)點選擇不信任策略的收益表
由表4可知:善意節(jié)點的收益為P2G1+aT-PD-D-L,自私節(jié)點的收益為P2G2+P2L-C-L-bT。
5)善意節(jié)點選擇信任策略,自私節(jié)點選擇攻擊策略
表5 善意節(jié)點選擇信任策略,自私節(jié)點選擇攻擊策略的收益表
由表5可知:善意節(jié)點的收益為P2G1+aT-PC-C-L,自私節(jié)點的收益為P2G2+P2L-A-L-bT。
6)善意節(jié)點選擇不信任策略,自私節(jié)點選擇攻擊策略
雙方都只有發(fā)包行為,善意節(jié)點的收益為-C-L-bT,自私節(jié)點的收益為:-A-L-bT。
7)善意節(jié)點選擇防御策略,自私節(jié)點選擇攻擊策略
善意節(jié)點要多付出一部分防御代價,而自私節(jié)點要付出攻擊代價,所以,善意節(jié)點的收益為-D-L+aT,自私節(jié)點的收益為-A-L-bT。
8)善意節(jié)點選擇不信任策略,自私節(jié)點選擇不策略
雙方都選擇不信任策略,則雙方就只有發(fā)包行為,因此,雙方的收益為-C-L-bT。
2.2 信任演化穩(wěn)定策略和演化分析
善意節(jié)點和自私節(jié)點的收益矩陣可由表6給出。
假設(shè)WSNs中理性節(jié)點采取信任、不信任及防御策略的比例分別為x1,x2,x3,自私節(jié)點采取信任、不信任和攻擊策略的比例為y1,y2,y3,其中,x1+x2+x3=1,y1+y2+y3=1。理性節(jié)點和自私節(jié)點的收益矩陣分別記為A,B,可分別得出
表6 博弈雙方的收益矩陣表
根據(jù)演化博弈的復(fù)制動態(tài)方程理論,可以得到兩總體復(fù)制子動態(tài)方程
(4)
(5)
x1x3(y1+y2)PD
(6)
x2x3(y1+y2)PD+x2x3D+x1x3PC-(x1x2+x2x3)
(7)
x2x3bT+(x1x3+x2x3)C+x2x3aT
(8)
(9)
y1y2bT-y1y2aT+y1y2PC+y2y3A
(10)
(y1+y2)y3C-y1y3bT-y1y3aT
(11)
本文通過Matlab進(jìn)行仿真,通過設(shè)置G1,G2,P,T,C,a,b,L,A,D,T不同的取值來驗證博弈過程中的演化穩(wěn)定。
1)假定G1=10,G2=8,L=2,a=0,b=0,T=10,C=10,D=12,A=8,P=0.8。
當(dāng)(X,Y)=(x1,x2,x3,y1,y2,y3)=(1/2,1/2,0,1/3,1/3,1/3)時,WSNs的狀態(tài)如圖1。
圖1 無防御機(jī)制下的演化模型
圖1仿真結(jié)果表明,在無獎懲機(jī)制下,理性節(jié)點都沒有采取防御策略時,自私節(jié)點選擇攻擊策略,理性節(jié)點為了減少損失而選擇不信任策略,自私節(jié)點最終選擇了不信任策略,網(wǎng)絡(luò)最終收斂到雙方都不合作的狀態(tài),這樣將導(dǎo)致網(wǎng)絡(luò)不能正常地提供服務(wù)。
(X,Y)=(x1,x2,x3,y1,y2,y3)=(1/3,1/3,1/3,1/3,1/3,1/3)時,WSNs的狀態(tài)如圖2。
圖2 引入防御機(jī)制下的演化模型
圖2仿真結(jié)果表明,在無獎懲機(jī)制下,當(dāng)WSNs有部分理性節(jié)點采取防御策略時,自私節(jié)點觀察到理性節(jié)點有采取防御策略,為了使自己的利益最大化而選擇信任策略。理性節(jié)點發(fā)現(xiàn)自私節(jié)點都采取信任策略后,也為了自己的利益最大化放棄防御策略去選擇信任策略。自私節(jié)點又選擇了攻擊策略,理性節(jié)點觀察到自私節(jié)點的行為后又選擇了防御策略,最終使得網(wǎng)絡(luò)處于一種策略不斷交替變換的循環(huán)中。
2)假定G1=10,G2=8,L=2,a1=0.1,a2=0.2,b1=0.1,b2=0.2,T=10,C=10,D=12,A=8,P=0.8。
(X,Y)=(x1,x2,x3,y1,y2,y3)=(1/3,1/3,1/3,1/3,1/3,1/3)時,WSNs的狀態(tài)見圖3。
圖3 引入差額獎懲機(jī)制后的演化模型圖
從圖3仿真結(jié)果表明,WSNs引入差額獎懲機(jī)制后,當(dāng)善意節(jié)點與自私節(jié)點在采用信任合作策略時,都會得到相應(yīng)的獎勵,因此,所有的節(jié)點為了能夠使得自己的收益最大化,進(jìn)而全部采用信任合作策略,整個網(wǎng)絡(luò)可以有效地避免自私節(jié)點的攻擊,減少網(wǎng)絡(luò)能耗,使得整個網(wǎng)絡(luò)可以給用戶提供正常的服務(wù)。
WSNs的信任機(jī)制是研究WSNs安全的重要方面。本文利用演化博弈對節(jié)點的決策過程所建立的模型反映了節(jié)點在選擇不同策略時的收益。與信任度綁定的差額獎懲機(jī)制有效降低了WSNs對節(jié)點初始選擇信任策略比例數(shù)的要求,使得WSNs能夠更快地達(dá)到合作狀態(tài)。本文的研究內(nèi)容揭示了WSNs演化穩(wěn)定的規(guī)律,為WSNs信任機(jī)制的設(shè)計提供了理論基礎(chǔ)。
[1] 陳 英,舒 堅,陳宇斌,等.無線傳感器網(wǎng)絡(luò)技術(shù)研究[J].傳感器與微系統(tǒng),2007,26(10):1-5.
[2] Aykildiz I F,Su W,Sankarasubramaniam Y,et al.Wireless sensor networks:A survey[J].Comuter Networks,2002,38(4):393-422.
[3] Blaze M,Feigenbaum J,Lacy J.Decentralized trust manage-ment[C]∥Proc of the 17th Symposium on Security and Privacy,Washington DC:IEEE Computer Society,1996:164-173.
[4] Chen Zhide,Qiu Yihui,Liu Jingjing.Incentive mechanism for selfish nodes in wireless sensor networks based on evolutionary game[J].Computers & Mathematics with Applications,2011,62(9):3378-3388.
[5] 李紫川,沈士根,曹奇英.基于反思機(jī)制的WSNs節(jié)點信任演化模型[J].計算機(jī)應(yīng)用研究,2014,31(5):1528-1531.
[6] Mejia M,Pena N,Munoz J l,et al.A game theoretic trust model for on-line distributed evolution of cooperation in MANETs[J].J of Networks and Computer Applications,2011,34(1):39-51.
[7] Wang Y F,Nakao A,Vasilakos A V,et al.P2P soft security:On evolutionary dynamics of P2P incentive mechanism[J].Computer Communications,2011,34(3):634-646.
[8] Smith J M,Price G R.The logic of animal conflict[J].Nature,1973,246(5427):15-18.
[9] Taylor P,Jonker L.Evolutionary satble strategies and game dynamics[J].Math Biosci,1978,16:76-83.
[10] 李紫川,沈士根,曹奇英,等.基于反思機(jī)制的WSNs節(jié)點信任演化模型[J].計算機(jī)應(yīng)用研究,2014,31(5):1528-1531.
[11] 威布爾.演化博弈論[M].王永欽,譯.上海:上海人民出版社,2006:188-197.
Evolutionary trust model of WSNs nodes based on graded rewards and penalties mechanism*
QU Wei-xian, MAO Jian-lin, FU Li-xia, GUO Ning, WANG Chang-zheng
(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)
Aiming at issue of trust decisions among WSNs nodes which can affect WSNs instability,introduce an imbalance rewards and penalties mechanism.The unreliable factors exist in the real networks,introduce rate of the package loss,built on evolutionary trust model of WSNs nodes based on imbalance rewards and penalties mechanism.By the evolutionary trust model,deduce the nodes state of interaction.In the end,through the experimental analysis on various changes of nodes in the selection strategy,effect of the imbalance rewards and penalties mechanism on the evolution of the convergence time.Through the experiment,the effect of the imbalance rewards and penalties mechanism is verified by the results of WSNs,which is a kind of node's initial trust strategy.The imbalance rewards and penalties mechanism for the evolution of the slow convergence in the model mechanism, and can reduce the initial nodes selection strategy trust ratio,which provides the theory basis for the design WSNs trust mechanism.
wireless sensor networks(WSNs); rate of package loss; trust; evolutionary game; graded rewards and penalties mechanism
10.13873/J.1000—9787(2017)05—0011—05
2016—05—31
國家自然科學(xué)基金資助項目(61163051); 云南省應(yīng)用基礎(chǔ)研究基金資助項目(2009ZC050M)
TP 393
A
1000—9787(2017)05—0011—05
曲蔚賢(1991-),男,碩士研究生,主要研究方向為無線傳感器網(wǎng)絡(luò)。
毛劍琳(1976-),女,通訊作者,博士,教授,從事無線傳感器網(wǎng)絡(luò),MAC 層資源分配和優(yōu)化以及控制網(wǎng)絡(luò)方面的研究工作,E-mail:km_mjl@aliyun.com。