胡 先 童
(安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 安徽 馬鞍山 243000)
隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的激增,加上移動(dòng)智能設(shè)備的出現(xiàn)和移動(dòng)應(yīng)用的爆炸式增長(zhǎng),5G蜂窩網(wǎng)絡(luò)被認(rèn)為是極其密集的[1]。網(wǎng)絡(luò)致密化被認(rèn)為是5G最顯著的特征之一[2]。在這樣的超密集網(wǎng)絡(luò)環(huán)境中,由于網(wǎng)絡(luò)的規(guī)模,UEs數(shù)量巨大,功率控制和干擾感知,變得非常具有挑戰(zhàn)性[3,4]。此外,網(wǎng)絡(luò)中的時(shí)空流量需求波動(dòng)、信道條件的動(dòng)態(tài)性以及由于需要協(xié)調(diào)而增加的開銷將進(jìn)一步加劇用戶數(shù)據(jù)網(wǎng)絡(luò)中資源管理的挑戰(zhàn)。例如,隊(duì)列狀態(tài)信息(QSI)的不確定性及其隨時(shí)間的演變將在資源優(yōu)化中發(fā)揮關(guān)鍵作用。
在5G時(shí)代,節(jié)點(diǎn)和設(shè)備數(shù)量巨大,從而導(dǎo)致了經(jīng)典博弈的計(jì)算難度較大。這主要是由特定玩家的策略影響所有其他玩家的策略決定。由于大量設(shè)備的參與以及它們的控制參數(shù)彼此之間的嚴(yán)重耦合,用經(jīng)典博弈論的方法不足以研究用戶數(shù)據(jù)網(wǎng)絡(luò)中的資源優(yōu)化。如文獻(xiàn)[5]設(shè)計(jì)了信道狀態(tài)信息不確定的隨機(jī)波束形成。然而,由于小蜂窩網(wǎng)絡(luò)數(shù)量龐大,集中式干擾管理會(huì)遇到沉重的通信開銷,并且隨機(jī)部署和有限的回程容量,都會(huì)導(dǎo)致其可擴(kuò)展性和靈活性變差。
MFG是一種特殊形式的微分博弈,適用于具有大量參與人的系統(tǒng)[6]。傳統(tǒng)博弈論模擬了單個(gè)玩家與系統(tǒng)中所有其他玩家的互動(dòng),而MFG用所有玩家的集體行為的效果來模擬單個(gè)玩家的交互,系統(tǒng)中玩家的集體行為由平均場(chǎng)(Mean Field,MF)建模。平均場(chǎng)平衡(Mean field Equilibrium,MFE)是通過求解兩個(gè)微分方程,即漢密爾頓-雅可比-貝爾曼(Hamilton-Jacobi-Bellman,HJB)和???普朗克-科爾莫戈羅夫(Fokker-Planck-Kolmogorov,FPK) 方程得到的。單個(gè)玩家與平均場(chǎng)的相互作用采用HJB方程來建模,根據(jù)玩家的動(dòng)作,玩家的集體行為被FPK方程建模。MFG特別適合這種超密集的網(wǎng)絡(luò),因?yàn)橥婕业臄?shù)量可以趨向無窮,且MFG中的代理數(shù)量與性能無關(guān)。
在最近的大量研究中,MFG被用來解決基于UDN中的功率控制問題和邊緣緩存問題。例如:文獻(xiàn)[4]研究UDN中干擾問題,為了降低對(duì)完全信息的要求,考慮狀態(tài)動(dòng)態(tài)和成本函數(shù)的不確定性,建立了魯棒功率控制平均場(chǎng)博弈。文獻(xiàn)[7]提出了一種新的聯(lián)合功率控制和用戶調(diào)度方法,用于優(yōu)化超密集小蜂窩網(wǎng)絡(luò)的單位能量比特?cái)?shù)的能量效率。文獻(xiàn)[8]解決了密集天線接入網(wǎng)絡(luò)中節(jié)能分布式功率和速度控制的問題??刂茊栴}被公式化為一個(gè)微分對(duì)策,在這個(gè)對(duì)策中,無線接入網(wǎng)絡(luò)的剩余電池能量和它們的位置被控制。文獻(xiàn)[9]針對(duì)與傳統(tǒng)宏蜂窩網(wǎng)絡(luò)共存的密集小蜂窩網(wǎng)絡(luò),提出了一種新的分布式功率控制模式。將功率控制問題建模為隨機(jī)博弈,證明了納什均衡的存在性。文獻(xiàn)[10]研究霧無線接入網(wǎng)的邊緣緩存優(yōu)化問題??紤]時(shí)變用戶請(qǐng)求和霧接入點(diǎn)的超密集部署,提出了一種分布式邊緣緩存方案,以共同最小化請(qǐng)求服務(wù)延遲和前端流量負(fù)載。文獻(xiàn)[11]研究在大量小基站和用戶情況下的蜂窩邊緣緩存問題。提出了隨機(jī)幾何網(wǎng)絡(luò)模型下的分布式緩存算法以及表征內(nèi)容流行動(dòng)態(tài)的時(shí)空用戶需求模型。
在以上研究的基礎(chǔ)上,研究一個(gè)擁有大量SBSs和UEs的UDN的下行通信系統(tǒng),通過控制SBSs的功率提高 SBSs與其服務(wù)用戶之間成功傳輸?shù)母怕?,并考慮了SBSs的能量消耗問題。為了聯(lián)合最小化數(shù)據(jù)成功傳輸速率成本和SBSs的能量消耗,建立了一個(gè)動(dòng)態(tài)隨機(jī)博弈來模擬該問題。DSG捕捉到SBSs之間的相互作用和SBSs狀態(tài)的動(dòng)態(tài)變化。由于求解的計(jì)算復(fù)雜度較高,該算法被近似為一個(gè)MFG,利用SBSs的超密集特性來解決這一具有挑戰(zhàn)性的問題。在MFG中,所有SBSs的單個(gè)狀態(tài)可以用一個(gè)統(tǒng)計(jì)MF分布來近似。通過求解耦合的HJB和FPK方程獲得MFE。每個(gè)SBS能夠基于其本地狀態(tài)和平均場(chǎng)分布來確定動(dòng)態(tài)最優(yōu)功率控制策略。本方法在不需要與其他SBS進(jìn)行額外信息交換的情況下,可以獲得最優(yōu)功率控制策略,減小了通信開銷。同時(shí)能根據(jù)其最優(yōu)功率控制策略,有效減小達(dá)到最小成功傳輸速率所消耗的成本。
考慮超密集5G小蜂窩網(wǎng)絡(luò)的下行鏈路,由I個(gè)SBSs、K個(gè)用戶和一個(gè)遠(yuǎn)程5G 基站(Base Station,BS)組成,如圖1所示,其SBS被超密集地部署,并通過云端鏈路與BS連接。SBS集和UE集分別用J={1,2,…,i,…,I}和κ={1,2,…,k,…,K}表示。假設(shè)有I個(gè)SBS到用戶設(shè)備的下行鏈路共享同一個(gè)信道。
圖1 UDN中的多個(gè)SBS
根據(jù)上述模型定義,SBSi與服務(wù)用戶k在t時(shí)刻的數(shù)據(jù)傳輸速率為
(1)
其中,B為傳輸帶寬,Pi(t)為SBSi在t時(shí)間的傳輸功率,σ2為噪聲功率。hi,k(t)表示SBSi和用戶k在時(shí)間t時(shí)的信道增益。Ij,k=∑j≠i,j∈Nhj,k(t)Pj(t)表示其他SBSs造成的干擾。
當(dāng)Ri,k(t)≥Rth時(shí),下行通信可視為成功連接,其中Rth表示最小成功傳輸速率閾值。
(2)
hi,k(t)Pi(t)-R′(σ2+Ij,k)
(3)
假設(shè)SBSi發(fā)送qi,k(t)比特給UEk,第i個(gè)SBS隊(duì)列的時(shí)間演化由下式給出[7]:
dqi(t)=ai(t)-Ri(t,Pi(t),h(t))dt
(4)
其中,ai(t)和Ri(·)是SBSi的到達(dá)和傳輸速率的向量,并且h(t)是信道增益的向量。
玩家i在t時(shí)刻的剩余能量狀態(tài)Ei(t)等于可用能量的總量。同時(shí),0≤Ei(t)≤Ei(0) ,其中Ei(0)是0時(shí)刻的能量。t時(shí)刻的功率控制應(yīng)是任意Pi(t)∈[0,Pmax],而Pmax為可能的最大發(fā)射功率。不失一般性,將電池剩余能量的演化律定義為[8,15]
dEi(t)=-Pi(t)dt
(5)
即電池能量Ei(t)隨著發(fā)射功率Pi(t)消耗而減小。
根據(jù)介紹的系統(tǒng)模型,SBSi的整體狀態(tài)可以用式(4)中的隊(duì)列狀態(tài)和式(5)中的能量狀態(tài)表示為si=(qi(t),Ei(t))。
在t時(shí)刻SBSi的成本函數(shù)由如下兩部分組成。第一個(gè)組成部分是與滿足最小數(shù)據(jù)成功傳輸速率相關(guān)的成本Rth,用式(3)的平方來表示??紤]的成本函數(shù)的第二個(gè)組成部分是與SBS傳輸時(shí)消耗的能量。為簡(jiǎn)單起見,假設(shè)SBSs所消耗的功率與傳輸功率成正比。因此,成本函數(shù)可以表示為
Ji(t)=ω1(hi,k(t)Pi(t)-R′(σ2+Ij,k))2+ω2Pi(t)
(6)
ω1和ω2用來平衡成本函數(shù)的兩個(gè)組成部分的單位。
每個(gè)SBS的控制策略隨著動(dòng)態(tài)方程式(4)和式(5)變化而變化。因此,最小化SBS式(6)的成本可以被建模為DSG。因此,將DSG定義為一個(gè)四維的{J,Si,Pi,Ji}。J指的是玩家的集合,它們是SBSs;其中Si和Pi分別是SBSi的狀態(tài)和控制空間;Ji表示玩家i在有限時(shí)間范圍內(nèi)T的累積成本,表示為Ji=
在上述所建立的DSG中,玩家i的控制優(yōu)化問題可以表述為
其中,s-i(t)={sj,j≠i,i∈J}表示其他I-1參與者的狀態(tài)。
據(jù)動(dòng)態(tài)規(guī)劃理論,一個(gè)問題在整個(gè)時(shí)間區(qū)間[0,T]上的整體最優(yōu)可以通過在時(shí)間反轉(zhuǎn)的方式[12]中依次構(gòu)造其子問題在時(shí)間區(qū)間[t,T]上的最優(yōu)策略得到。相應(yīng)地,可以將t時(shí)段內(nèi)參與人i的值函數(shù)Ui(t,si(t))設(shè)為[t,T]時(shí)間段內(nèi)的最小代價(jià):
?tsi(t)·Ui(t,si(t))]=0
在式(7)中定義哈密頓量:
H(si(t),Pi(t),Ui(t,si(t)))=
(7)
通過求解由于SBS之間的相互作用而耦合的I個(gè) HJB,可以得到每個(gè)SBS的最優(yōu)功率控制。然而,為了求解每個(gè)SBS的耦合HJB方程,需要每個(gè)SBS獲取所有其他接入SBS的狀態(tài)信息,這需要很高的計(jì)算復(fù)雜度,并且會(huì)導(dǎo)致巨大的額外通信開銷。因此,可以通過引入平均場(chǎng)博弈近似來解決這個(gè)具有挑戰(zhàn)性的問題。
由于耦合的偏微分方程而導(dǎo)致的原問題求解的困難性可以通過將原博弈近似為平均場(chǎng)游戲來解決,其中所有玩家的個(gè)體狀態(tài)可以通過單個(gè)統(tǒng)計(jì)分布來捕獲[14]。因此,可以顯著減少耦合的PDE的數(shù)量,并且玩家能夠以分布式方式做出決定。
平均場(chǎng)博弈的建立基于4個(gè)條件[15]:(1)參與者的理性;(2)玩家的連續(xù)性;(3)玩家狀態(tài)之間的互換性;(4)平均場(chǎng)型參與者之間的互動(dòng)。條件(1)是可以保證的,因?yàn)槊總€(gè)SBS都會(huì)做出邏輯決策。條件(2)是根據(jù)SBS的超密集部署來保證的。條件(3)成立,因?yàn)閭€(gè)體的影響在大量參與者中變得無窮小,而SBS指數(shù)之間的交換并不改變博弈的結(jié)果。條件(4)是確定的,因?yàn)槊總€(gè)SBS與MF相互作用,而不是游戲中的實(shí)際個(gè)體。
根據(jù)上述性質(zhì),原始的DSG可以近似為MFG,其中每個(gè)參與者在眾多參與者中是無法區(qū)分的。因此,可以通過刪除SBS指數(shù)來考慮一個(gè)通用玩家。在MFG中,一般參與者和其他參與者之間的相互作用充分地由其自身的狀態(tài)和質(zhì)量狀態(tài)的統(tǒng)計(jì)分布特征。具體來說s=(qT,E)T∈X表示通用玩家的狀態(tài),m∈XT,XT=X×[0,T]表示平均場(chǎng)分布。m同時(shí)依賴于時(shí)間t和狀態(tài)s(t),可以表示為
其中,Ⅱ 表示指示器函數(shù),如果給定條件為真,則返回1,否則返回0。注意,平均場(chǎng)分布是博弈中所有參與者狀態(tài)的概率分布。
(8)
(9)
ω2Pi(t)
m(t,s(t)) 演化對(duì)應(yīng)于FPK PDE為[10,11,17]:
-?tm(t,s)=(m(t,s)·s(t))
(10)
其中,s是狀態(tài)。
SBS MFG被定義為導(dǎo)出的HJB和FPK方程的組合,其中HJB方程重新定義為
?tUi(t,si(t))+
(11)
因此,SBS的MFG函數(shù)可以被定義為分別在式(10)和式(11)中給出的HJB和FPK方程的組合。HJB被稱為倒向函數(shù),這意味著它的最終值是已知的,需要確定U(t)在時(shí)間[0,T]的值。由于這個(gè)原因,HJB方程從t=T開始求解,在時(shí)間上向后,在t=0結(jié)束。FPK方程被稱為前向方程,它隨時(shí)間向前發(fā)展。HJB和FPK的互動(dòng)演變導(dǎo)致了MFE。
為了獲得了MFE[9],本文利用有限差分法。將時(shí)間間隔[0,T],能量使用狀態(tài)空間[0,Emax],隊(duì)列狀態(tài)空間[0,qmax]離散為X×Y×Z空間。因此,將分別存在X+1、Y+1和Z+1個(gè)時(shí)間點(diǎn)、能量狀態(tài)和隊(duì)列狀態(tài)??梢员WCMF的正定性的Lax-Friedrichs方法[8,9]被用于離散方程。
首先通過使用Lax-Friedrichs方法求解FPK方程:
-?tm(t,s)=Em(t,s)E(t)+qm(t,s)q(t)
通過使用Lax-Friedrichs方法,得到以下結(jié)果:
M(i,j,k-1)+M(i,j,k+1)]+
M(i,j-1,k)P(i,j-1,k)]+
M(i,j,k-1)P(i,j,k-1)Q(i,j,k-1)]
其中,M(i,j,k)、P(i,j,k)和Q(i,j,k)分別表示離散化網(wǎng)格中時(shí)刻i、能級(jí)j和隊(duì)列狀態(tài)k處的MF、功率和隊(duì)列狀態(tài)的值。
為了求解HJB方程,使用了有限差分技術(shù)。然而,由于哈密頓項(xiàng)的存在,該技術(shù)不能直接應(yīng)用于求解HJB方程。因此,HJB方程被重新定義為以FPK方程為約束的相應(yīng)的最優(yōu)控制問題。引入拉格朗日乘子λ(t,s)得到拉格朗日函數(shù)。假設(shè)終端成本J(T)=0,LangrarianL(m(t,s),p(t,s),λ(t,s))也被離散化。
對(duì)于離散化網(wǎng)格中的任意點(diǎn)(i,j,k),通過計(jì)算得到的Langrarian關(guān)于M(i,j,k)的一階導(dǎo)數(shù)并使其等于零,可以重新排列以獲得更新λ的以下等式:
λ(i,j-1,k)]+δtQ(i,j,k)
其中,
L(m(t,s),p(t,s),λ(t,s))=
λ(t,s)(?tm(t,s)+E(m(t,s)E(t)+
隨著FPK方程可以通過有限差分離散化并且解決,可以根據(jù)Karush-Kuhn-Tucker(KKT)條件獲得最佳決策變量P*[18]?;?dòng)演變最終導(dǎo)致平均場(chǎng)平衡。
在本節(jié)中,提供了與所提出的平均場(chǎng)功率優(yōu)化控制的超密集5G小蜂窩網(wǎng)絡(luò)下行鏈路通信系統(tǒng)的仿真結(jié)果。為了簡(jiǎn)化模擬,假設(shè)有300個(gè)SBS和150個(gè)UE,并且SBS與其服務(wù)的UE是隨機(jī)分布在500 m×500 m的通信區(qū)域A,如圖2所示。不失一般性,假設(shè)信道帶寬W=20 MHz,σ2=-70 dBm ,Ei(0)=25 J,Pmax=20 W,ω1=10,ω2=0.001。
圖2 SBS分布圖
如圖3所示,可以觀察到與時(shí)間和SBS與匹配用戶之間的隊(duì)列狀態(tài)有關(guān)的平均場(chǎng)的分布。因?yàn)槌跏嫉腗F分布,設(shè)置為滿足于高斯分布,所以初始平均場(chǎng)的分布主要在0.2到0.8之間。隨時(shí)間的推進(jìn),可以觀察到平均場(chǎng)趨向穩(wěn)定趨勢(shì)。
圖3 MF分布圖
如圖4所示,可以觀察到與時(shí)間和SBS與匹配用戶之間的隊(duì)列狀態(tài)有關(guān)的數(shù)據(jù)率的分布。當(dāng)把最小成功傳輸速率閾值設(shè)為Rth=0.3的時(shí)候,可以觀察到數(shù)據(jù)率的分布會(huì)非常接近0.3這個(gè)閾值。這是因?yàn)?,?dāng)達(dá)到最小成功傳輸閾值后,為了減小成本,數(shù)據(jù)率便不會(huì)再增加。
圖4 速率分布圖
在圖5中,使用所提出算法的飛行能耗用藍(lán)色圓曲線表示。而且,每個(gè)SBS都在初始時(shí)刻找到最優(yōu)功率控制,導(dǎo)致了較高的成本。但在t=0.3后,該算法的成本降低,且低于均勻功率方式。此外,還給出了完全信息下的平均總成本,這可以稱為理論性能,因?yàn)槊總€(gè)SBS都是基于局部信息知道其他SBS的信息的。圖5中的紅色方曲線顯示了完全信息的平均總成本,這與所提出的算法類似。
圖5 N個(gè)SBSs的平均總成本隨時(shí)間變化
本文研究了在UDN環(huán)境下小型基站的功率控制問題,并考慮了其能量消耗和隊(duì)列狀態(tài)信息。構(gòu)造了一個(gè)隊(duì)列狀態(tài)和能源感知控制策略,稱為MFG。基于導(dǎo)出的HJB和FPK耦合偏微分方程,并使用基于Lax-Friedreich和拉格朗日松弛方法的有限差分算法,得到了MFG的解。數(shù)值結(jié)果顯示了SBSs的分布和行為。此外,通過與一些基準(zhǔn)的比較,說明了所提出的最優(yōu)功率控制方案的性能。該方案的一個(gè)優(yōu)點(diǎn)是:在實(shí)踐中可以分布式執(zhí)行,以減輕中心管理人員的負(fù)擔(dān)。