基于MDP的協(xié)作認(rèn)知邊緣計(jì)算網(wǎng)絡(luò)資源分配方案

2022-07-07 06:31劉伯陽(yáng)萬(wàn)奕堯

西安郵電大學(xué)學(xué)報(bào) 2022年1期

劉伯陽(yáng)，馬杰，白靜,萬(wàn)奕堯

(西安郵電大學(xué) 通信與信息工程學(xué)院，陜西西安 710121)

移動(dòng)通信技術(shù)發(fā)展迅速，短短幾十年間已經(jīng)由以模擬通信技術(shù)為主的第一代移動(dòng)通信系統(tǒng)(1st Generation Mobile Communication System，1G)發(fā)展到目前廣泛使用的以正交頻分復(fù)用(Orthogonal Frequency Division Multiplexing，OFDM)技術(shù)、多輸入多輸出(Multiple Input Multiple Output,MIMO)技術(shù)為核心的第四代移動(dòng)通信系統(tǒng)(4th Generation Mobile Communication System，4G)。第五代移動(dòng)通信系統(tǒng)(5th Generation Mobile Communication System，5G)目前已經(jīng)在部分城市進(jìn)行布設(shè)，相比于4G，5G具有更高的傳輸速率與更低的網(wǎng)絡(luò)時(shí)延。隨著5G的逐漸成熟，一些新業(yè)務(wù)如虛擬現(xiàn)實(shí)(Virtual Reality,VR)、增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR)和在線大型移動(dòng)游戲等將逐漸向無(wú)線終端側(cè)部署。然而，此類型業(yè)務(wù)具備高計(jì)算復(fù)雜度與低時(shí)延兩個(gè)共同點(diǎn)。移動(dòng)終端由于計(jì)算資源限制導(dǎo)致計(jì)算能力較弱，難以獨(dú)立按時(shí)完成上述業(yè)務(wù)。

移動(dòng)邊緣計(jì)算技術(shù)(Mobile Edge Computing,MEC)是一種計(jì)算輔助技術(shù)[1]。與云計(jì)算類似，MEC允許用戶將待計(jì)算數(shù)據(jù)卸載至服務(wù)器側(cè)，服務(wù)器進(jìn)行計(jì)算后將結(jié)果返回。但是，邊緣計(jì)算與云計(jì)算不同，云計(jì)算中用戶上傳待計(jì)算數(shù)據(jù)前需要通過(guò)互聯(lián)網(wǎng)層層請(qǐng)求，時(shí)延較長(zhǎng)，難以滿足業(yè)務(wù)低時(shí)延要求。MEC將服務(wù)器下沉至網(wǎng)絡(luò)邊緣，相比于云計(jì)算，MEC更靠近用戶側(cè)，用戶可與MEC服務(wù)器建立無(wú)線鏈路直接進(jìn)行數(shù)據(jù)交互，大幅度縮減數(shù)據(jù)上傳與計(jì)算結(jié)果下載時(shí)延，滿足用戶業(yè)務(wù)低時(shí)延的要求。

由MEC的原理可知，移動(dòng)用戶能進(jìn)行MEC的關(guān)鍵要素是頻譜與能量，用戶需耗費(fèi)一定的能量將任務(wù)通過(guò)可用頻譜將待計(jì)算數(shù)據(jù)卸載至MEC服務(wù)器。然而，目前移動(dòng)設(shè)備數(shù)量巨大，據(jù)統(tǒng)計(jì)，僅無(wú)線物聯(lián)網(wǎng)設(shè)備數(shù)量已經(jīng)達(dá)到2 000多億，且仍在快速增長(zhǎng)。更為嚴(yán)峻的是，目前適合通信的頻譜幾乎都被分配殆盡，為如此海量的設(shè)備分配專用頻譜幾乎不可能。

認(rèn)知無(wú)線電(Cognitive Radio，CR)技術(shù)是一種動(dòng)態(tài)頻譜接入技術(shù)，其允許網(wǎng)絡(luò)中的次用戶(Secondary User,SU)即未授權(quán)用戶根據(jù)主用戶(Primary User,PU)即授權(quán)用戶的狀態(tài)調(diào)整自身發(fā)送參數(shù)接入PU頻譜，實(shí)現(xiàn)頻譜共享，為SU提供更多的頻譜接入機(jī)會(huì)[2]。另外，移動(dòng)終端受其尺寸限制，難以裝配大容量電池，電量有限，續(xù)航能力較弱，若長(zhǎng)時(shí)間進(jìn)行高復(fù)雜度業(yè)務(wù)計(jì)算將耗費(fèi)大量能量，大幅度縮短續(xù)航時(shí)間，嚴(yán)重影響用戶體驗(yàn)。能量收集(Energy Harvesting,EH)技術(shù)允許移動(dòng)用戶吸收周?chē)h(huán)境能量，如太陽(yáng)能、電磁能等，提升能量供應(yīng)水平，延長(zhǎng)續(xù)航時(shí)間[3]。因此，可將CR、EH與MEC技術(shù)進(jìn)行結(jié)合，研究協(xié)作認(rèn)知EH-MEC系統(tǒng)，為用戶提供能量供應(yīng)、頻譜接入與業(yè)務(wù)計(jì)算服務(wù)。

目前，已有一些關(guān)于EH、CR與MEC分別結(jié)合的研究。文獻(xiàn)[4]研究了無(wú)線充能MEC系統(tǒng)，通過(guò)優(yōu)化卸載策略，即是否進(jìn)行卸載以及MEC計(jì)算參數(shù)，最大化多個(gè)用戶計(jì)算速率之和。文獻(xiàn)[5]將上述場(chǎng)景擴(kuò)展到多天線領(lǐng)域，利用小基站對(duì)用戶進(jìn)行無(wú)線充能，在滿足業(yè)務(wù)需求的前提下最小化小基站能耗。文獻(xiàn)[6]將無(wú)線充能場(chǎng)景進(jìn)一步拓展到空域，采用無(wú)人機(jī)輔助MEC系統(tǒng)，無(wú)人機(jī)充當(dāng)無(wú)線基站，通過(guò)優(yōu)化系統(tǒng)參數(shù)最大化其計(jì)算速率。然而，上述文獻(xiàn)并未考慮到移動(dòng)邊緣計(jì)算網(wǎng)絡(luò)中的頻譜稀缺問(wèn)題，在頻譜資源受限的實(shí)際應(yīng)用場(chǎng)景中，性能將急劇下降。

作為一種有效緩解頻譜稀缺問(wèn)題的技術(shù)，近年來(lái)關(guān)于CR的MEC系統(tǒng)也得到一些研究。文獻(xiàn)[7]提出了一種基于CR的MEC系統(tǒng)，在滿足PU干擾容限的限制下最大化系統(tǒng)效益。文獻(xiàn)[8]提出一種三層CR-MEC網(wǎng)絡(luò)架構(gòu)，CR用來(lái)為網(wǎng)絡(luò)用戶挖掘空閑頻譜以提供頻譜接入機(jī)會(huì)。但該研究只提出框架并未進(jìn)行詳細(xì)的研究。文獻(xiàn)[9]與文獻(xiàn)[10]對(duì)無(wú)線充能的CR MEC系統(tǒng)進(jìn)行了研究，分別針對(duì)PU與SU協(xié)作與非協(xié)作的情況，通過(guò)優(yōu)化SU操作參數(shù)最大化計(jì)算能量效率與計(jì)算比特?cái)?shù)。但是，上述文獻(xiàn)只考慮了系統(tǒng)的短期優(yōu)化，對(duì)于長(zhǎng)期計(jì)算任務(wù)而言，能夠取得的收益有限。

值得注意的是，目前關(guān)于MEC與CR-MEC的研究均集中在單個(gè)時(shí)隙對(duì)用戶進(jìn)行性能優(yōu)化的場(chǎng)景，即瞬時(shí)優(yōu)化場(chǎng)景。但在無(wú)線通信網(wǎng)絡(luò)中，單個(gè)時(shí)隙性能對(duì)整個(gè)網(wǎng)絡(luò)性能的影響不大，網(wǎng)絡(luò)更關(guān)注長(zhǎng)期性能收益，且單個(gè)時(shí)隙性能最優(yōu)不等于長(zhǎng)期性能最優(yōu)。因此，擬提出一種協(xié)作認(rèn)知EH-MEC系統(tǒng)中的資源優(yōu)化方案，未授權(quán)用戶通過(guò)與授權(quán)用戶進(jìn)行協(xié)作以獲取能量與頻譜接入機(jī)會(huì)。利用強(qiáng)化學(xué)習(xí)中的馬爾可夫決策過(guò)程(Markov Decision Process,MDP)對(duì)協(xié)作認(rèn)知EH-MEC系統(tǒng)進(jìn)行長(zhǎng)效性能優(yōu)化。以長(zhǎng)期計(jì)算任務(wù)量為收益，通過(guò)對(duì)未授權(quán)用戶的EH時(shí)間長(zhǎng)度、CPU計(jì)算頻率、任務(wù)卸載功率以及MEC模式進(jìn)行優(yōu)化設(shè)計(jì)使得未授權(quán)用戶獲得的長(zhǎng)期計(jì)算量最大化，并驗(yàn)證所提方案的正確性與有效性。

1 系統(tǒng)模型

考慮協(xié)作認(rèn)知EH-MEC系統(tǒng)模型，包括一個(gè)主用戶發(fā)送端(Primary Transmitter,PT)，一個(gè)主用戶接收端(Primary Receiver,PR)、一個(gè)SU以及一個(gè)搭載了MEC服務(wù)器的無(wú)線接入點(diǎn)(Access Point,AP)。各節(jié)點(diǎn)都受到高斯白噪聲的影響，為表示方便且不失一般性，假設(shè)各節(jié)點(diǎn)處噪聲功率均為σ2。用hp、hs、gp與gs分別表示PT與PR之間、PT與SU之間、SU與PR之間以及SU與AP之間的信道功率增益。假設(shè)所有節(jié)點(diǎn)均裝備單天線且工作在同步的時(shí)隙結(jié)構(gòu)下，令T表示單個(gè)時(shí)隙長(zhǎng)度。設(shè)信道相干時(shí)間是時(shí)隙長(zhǎng)度的整數(shù)倍，即Tcoh=ΘT，為Θ≥1的整數(shù)，在信道相干時(shí)間Tcoh內(nèi)，信道功率增益保持不變。具體的協(xié)作認(rèn)知EH-MEC系統(tǒng)模型如圖1所示。

圖1 協(xié)作認(rèn)知EH-MEC系統(tǒng)

PT一共有忙碌狀態(tài)與空閑狀態(tài)兩個(gè)狀態(tài)，分別用A與S表示。與文獻(xiàn)[11-14]相同，假設(shè)PT的狀態(tài)變化可建模為一個(gè)二狀態(tài)馬爾科夫鏈，如圖2所示，其中Pi,j表示狀態(tài)轉(zhuǎn)移概率，i,j∈{A,S}。

圖2 PT狀態(tài)轉(zhuǎn)移

假設(shè)PT在忙碌狀態(tài)時(shí)具有rp比特的數(shù)據(jù)要發(fā)送，且需占用整個(gè)時(shí)隙，PT的發(fā)送速率為

(1)

式中：pp為PT發(fā)送功率；W為信道帶寬；σ2為噪聲功率。

2 問(wèn)題建模

用MDP對(duì)SU行為進(jìn)行優(yōu)化,MDP包含狀態(tài)、行為、獎(jiǎng)勵(lì)與策略等4個(gè)模型要素。下面分別根據(jù)模型對(duì)上述元素進(jìn)行分析。

1)狀態(tài)。對(duì)研究的模型來(lái)說(shuō)，SU知道PT當(dāng)前準(zhǔn)確的PT狀態(tài)，MDP在時(shí)隙t的狀態(tài)可以表示為st=(θt,es,t)。其中：θt∈{A,S}；es,t為時(shí)隙t起始時(shí)SU可用的能量值。

2)行為。在時(shí)隙t下SU有3種選擇，用βt表示：βt=0時(shí)，SU不進(jìn)行任務(wù)計(jì)算；βt=1時(shí)，SU只進(jìn)行本地計(jì)算；βt=2時(shí)，SU與PT進(jìn)行協(xié)作中繼，協(xié)助PT發(fā)送完數(shù)據(jù)后采用部分卸載機(jī)制進(jìn)行MEC。同時(shí)，SU可在PT進(jìn)行數(shù)據(jù)發(fā)送時(shí)通過(guò)接收PT發(fā)送信號(hào)進(jìn)行EH，令τt表示時(shí)隙t下SU進(jìn)行EH的時(shí)間，SU吸收的能量表達(dá)式為

eh,t=φpphsτt

(2)

式中：φ為EH的效率；hs為信道增益。

SU進(jìn)行MEC需耗費(fèi)能量，因此SU每個(gè)時(shí)隙擬投入的能量也需進(jìn)行決策?；诖?，在時(shí)隙t下行為表示為αt=(τt,ea,t,βt)，其中，ea,t表示SU擬投入的能量值。

3)獎(jiǎng)勵(lì)?？紤]目標(biāo)是最大化SU長(zhǎng)期的計(jì)算任務(wù)量，因此MDP在時(shí)隙t獲得的獎(jiǎng)勵(lì)為時(shí)隙t下SU執(zhí)行MEC進(jìn)行的任務(wù)量，記為R(st,at)。獎(jiǎng)勵(lì)是狀態(tài)和行為的函數(shù)，在不同的狀態(tài)和行為下獎(jiǎng)勵(lì)取值不同，下面分別進(jìn)行分析。

情況1當(dāng)st=(A,es,t)，at=(τt,0,0)時(shí)，即當(dāng)PT處于忙碌狀態(tài)，且SU不進(jìn)行任務(wù)計(jì)算，只進(jìn)行EH的情況。此種情況下，SU不獲得任何獎(jiǎng)勵(lì)，但是能量會(huì)得到補(bǔ)充，即

R(st,at)=0

(3)

令eu,t表示SU收集的能量

eu,t=min(φpphsτt,emax)

(4)

則SU可用能量更新為

es,t+1=min(es,t+eu,t,emax)

(5)

式中，emax為SU電池最大容量。

情況2當(dāng)st=(A,es,t)，at=(τt,ea,t,1)，即當(dāng)PT處于忙碌狀態(tài)，SU進(jìn)行EH，并投入ea,t能量進(jìn)行本地計(jì)算。投入ea,t后SU能獲得的獎(jiǎng)勵(lì)與SU的CPU頻率有關(guān)，在投入ea,t后需優(yōu)化SU CPU工作頻率。CPU最優(yōu)工作頻率的表達(dá)式為

(6)

式中：η為SU每個(gè)CPU周期耗能功率系數(shù)。設(shè)C為SU計(jì)算1 bit數(shù)據(jù)需要的CPU周期數(shù)。SU可獲得的獎(jiǎng)勵(lì)為

(7)

SU可用能量更新為

es,t+1=max[min(es,t+eu,t,emax)-ea,t,0]

(8)

情況3當(dāng)st=(A,es,t)，at=(τt,ea,t,2)，即當(dāng)PT處于忙碌狀態(tài)，SU進(jìn)行EH，并投入ea,t能量與PT進(jìn)行協(xié)作中繼，協(xié)助PT將待傳數(shù)據(jù)傳輸完畢后采用部分卸載方式進(jìn)行MEC，如圖3所示。

圖3 st=(A,es,t)，at=(τt,ea,t,2)SU操作示意圖

SU采用放大轉(zhuǎn)發(fā)的方式進(jìn)行協(xié)助PT中繼傳輸數(shù)據(jù)，令tc表示協(xié)作時(shí)間。在[τt,τt+tc/2]時(shí)間段內(nèi)，PT發(fā)送信息給PR與SU，PR與SU接收的信號(hào)分別為

(9)

(10)

式中，ns與np分別為PR與SU處的噪聲。在[τt+tc/2,τt+tc]內(nèi)，SU將接收的信息轉(zhuǎn)發(fā)給PR，PR收到的信號(hào)為

(11)

(12)

(13)

為后續(xù)計(jì)算方便，令pr=pmax，也可以對(duì)pr進(jìn)行線性一維搜索得到最優(yōu)值。

協(xié)作中繼傳輸結(jié)束后PT頻譜空閑，SU接入進(jìn)行任務(wù)卸載時(shí)，SU可用于MEC的能量為

(14)

(15)

其中，

(16)

情況4當(dāng)st=(S,es,t)，at=(0,ea,t,1)，即PT處于空閑狀態(tài)，SU不進(jìn)行EH，投入ea,t能量進(jìn)行本地計(jì)算。最優(yōu)CPU頻率與獲得的獎(jiǎng)勵(lì)分別為

(17)

(18)

能量更新與式(4)和式(8)相同。

除了以上情況外，其余3種情況下均將獎(jiǎng)勵(lì)設(shè)置為R(st,at)=-c，其中c>0，即若出現(xiàn)以下幾種情況，SU將獲得負(fù)獎(jiǎng)勵(lì)。因此，在決策過(guò)程中，SU將會(huì)盡量避下述情況的出現(xiàn)。

情況1SU打算投入的能量超過(guò)SU可用能量的情況,表達(dá)式為

ea,t>min[es,t+min(φpp|hs|2τt,emax),emax]

也即違背能量因果限制的情況。

情況2當(dāng)PT處于空閑狀態(tài)S且βt=0，即PT處于空閑狀態(tài)時(shí)SU不進(jìn)行任何計(jì)算的情況。

情況3當(dāng)PT處于空閑狀態(tài)S且τ>0時(shí)，即PT處于空閑狀態(tài)時(shí)SU仍打算進(jìn)行EH的情況。

4)策略。策略是行為與狀態(tài)之間的映射關(guān)系，記為π(at|st)，表示在當(dāng)前狀態(tài)為st的情況下選擇行動(dòng)at的概率，策略可以認(rèn)為是系統(tǒng)狀態(tài)與選擇的行為之間的映射關(guān)系。考慮確定性策略，即對(duì)于狀態(tài)st，SU將以概率1選擇行為at。

MDP的目標(biāo)是尋找最優(yōu)策略最大化長(zhǎng)期期望收益Vπ(st)，優(yōu)化目標(biāo)是最大化相干時(shí)間ΘT內(nèi)SU的期望收益，其表達(dá)式為

(19)

其中，

式中，γ為折扣因子。γ表示未來(lái)收益與當(dāng)前收益的比重，是SU對(duì)當(dāng)前動(dòng)作所能帶來(lái)的未來(lái)收益的重視程度。γ越大表示SU對(duì)未來(lái)收益越重視，越小則表示SU更注重當(dāng)前就近時(shí)隙的收益。通過(guò)對(duì)Bellman方程的求解可獲得最優(yōu)策略為

(20)

其中，

(21)

上述Bellman方程可通過(guò)值迭代或策略迭代的方式進(jìn)行求解。

3 性能仿真及分析

利用Matlab軟件對(duì)所提方案進(jìn)行計(jì)算機(jī)仿真，默認(rèn)參數(shù)設(shè)置如表1所示。行為空間為連續(xù)空間，在進(jìn)行MDP值迭代或策略迭代時(shí)難以計(jì)算。因此，仿真前必須將連續(xù)參數(shù)進(jìn)行離散化處理。以eh為能量粒度，ea,t、es,t取值空間為

表1 仿真參數(shù)

其中，ea,t,num與es,t,num均為整數(shù)。EH時(shí)間τt也需進(jìn)行量化，將EH時(shí)間在[0,T]內(nèi)進(jìn)行均勻量化，劃分為τnum+1個(gè)時(shí)刻值。

考慮折扣因子γ以及相干時(shí)間時(shí)隙數(shù)Θ對(duì)SU期望計(jì)算量(每個(gè)時(shí)隙的平均計(jì)算量)的影響，對(duì)SU期望計(jì)算量與折扣因子γ以及相干時(shí)間時(shí)隙數(shù)Θ的關(guān)系進(jìn)行了仿真，具體如圖4所示。

圖4 每時(shí)隙SU期望計(jì)算量與γ及與相干時(shí)間時(shí)隙數(shù)Θ關(guān)系

由圖4可以看出，在給定Θ的條件下，SU期望計(jì)算量隨著折扣因子γ的增加而增加。折扣因子反應(yīng)了SU對(duì)未來(lái)收益的看重程度，γ越大則SU在決策時(shí)會(huì)更看重未來(lái)的收益，因此隨著γ增加SU期望計(jì)算量亦增加。在γ較小時(shí)SU期望計(jì)算量隨著Θ增加而減小，γ較大時(shí)SU期望計(jì)算量隨著Θ增加而增大，其由折扣因子的本質(zhì)決定，折扣因子小則SU主要考慮當(dāng)前時(shí)隙情況，折扣因子大則考慮更為長(zhǎng)遠(yuǎn)。

為了說(shuō)明系統(tǒng)最大可用計(jì)算、通信資源對(duì)SU期望計(jì)算量的影響，對(duì)SU期望計(jì)算量與fmax與pmax的關(guān)系進(jìn)行了仿真分析，具體如圖5所示。

圖5 每時(shí)隙SU期望計(jì)算量與fmax和pmax的關(guān)系

由圖5可以看出，SU期望計(jì)算量隨著fmax與pmax增加而增加。fmax與pmax增大，SU將具有更高的決策自由度，從而提升了SU的期望計(jì)算量，也能間接地證明所提算法的正確性。

同時(shí)，為了進(jìn)一步研究轉(zhuǎn)移概率對(duì)SU期望計(jì)算量的影響，圖6對(duì)SU期望計(jì)算量與轉(zhuǎn)移概率PA,A與PS,S的關(guān)系曲線進(jìn)行了仿真。

圖6 每時(shí)隙SU期望計(jì)算量與轉(zhuǎn)移概率PA，A和PS，S的關(guān)系

由圖6可以看出，隨著PA，A與PS，S的增大，SU期望計(jì)算量分別下降與增加。這是因?yàn)镻A,A增加表示PU將有較大的概率處于忙碌狀態(tài)，SU有較少的頻譜接入機(jī)會(huì)，PS,S增加則表示PU將更多的保持空閑狀態(tài)，SU將有更多的頻譜接入機(jī)會(huì)。

4 結(jié)語(yǔ)

為了緩解移動(dòng)邊緣計(jì)算網(wǎng)絡(luò)中用戶設(shè)備的續(xù)航能力差，以及網(wǎng)絡(luò)中面臨的頻譜資源稀缺問(wèn)題。將EH、協(xié)作中繼、CR與MEC相結(jié)合構(gòu)成可認(rèn)知EH-MEC網(wǎng)絡(luò)架構(gòu)，提出了一個(gè)長(zhǎng)期收益最大化資源分配方案。利用MDP對(duì)SU策略進(jìn)行優(yōu)化設(shè)計(jì)，仿真結(jié)果表明，所提方案與各系統(tǒng)參數(shù)之間的關(guān)系，證明了所提方案相較于傳統(tǒng)的短期優(yōu)化方案而言，能夠有效提升網(wǎng)絡(luò)的長(zhǎng)期期望計(jì)算量。此外，所提的可認(rèn)知EH-MEC架構(gòu)，顯著提高了網(wǎng)絡(luò)頻譜效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于MDP的協(xié)作認(rèn)知邊緣計(jì)算網(wǎng)絡(luò)資源分配方案

1 系統(tǒng)模型

2 問(wèn)題建模

3 性能仿真及分析

4 結(jié)語(yǔ)