劉伯陽(yáng),馬 杰,白 靜,萬(wàn)奕堯
(西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)
移動(dòng)通信技術(shù)發(fā)展迅速,短短幾十年間已經(jīng)由以模擬通信技術(shù)為主的第一代移動(dòng)通信系統(tǒng)(1st Generation Mobile Communication System,1G)發(fā)展到目前廣泛使用的以正交頻分復(fù)用(Orthogonal Frequency Division Multiplexing,OFDM)技術(shù)、多輸入多輸出(Multiple Input Multiple Output,MIMO)技術(shù)為核心的第四代移動(dòng)通信系統(tǒng)(4th Generation Mobile Communication System,4G)。第五代移動(dòng)通信系統(tǒng)(5th Generation Mobile Communication System,5G)目前已經(jīng)在部分城市進(jìn)行布設(shè),相比于4G,5G具有更高的傳輸速率與更低的網(wǎng)絡(luò)時(shí)延。隨著5G的逐漸成熟,一些新業(yè)務(wù)如虛擬現(xiàn)實(shí)(Virtual Reality,VR)、增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR)和在線大型移動(dòng)游戲等將逐漸向無(wú)線終端側(cè)部署。然而,此類型業(yè)務(wù)具備高計(jì)算復(fù)雜度與低時(shí)延兩個(gè)共同點(diǎn)。移動(dòng)終端由于計(jì)算資源限制導(dǎo)致計(jì)算能力較弱,難以獨(dú)立按時(shí)完成上述業(yè)務(wù)。
移動(dòng)邊緣計(jì)算技術(shù)(Mobile Edge Computing,MEC)是一種計(jì)算輔助技術(shù)[1]。與云計(jì)算類似,MEC允許用戶將待計(jì)算數(shù)據(jù)卸載至服務(wù)器側(cè),服務(wù)器進(jìn)行計(jì)算后將結(jié)果返回。但是,邊緣計(jì)算與云計(jì)算不同,云計(jì)算中用戶上傳待計(jì)算數(shù)據(jù)前需要通過(guò)互聯(lián)網(wǎng)層層請(qǐng)求,時(shí)延較長(zhǎng),難以滿足業(yè)務(wù)低時(shí)延要求。MEC將服務(wù)器下沉至網(wǎng)絡(luò)邊緣,相比于云計(jì)算,MEC更靠近用戶側(cè),用戶可與MEC服務(wù)器建立無(wú)線鏈路直接進(jìn)行數(shù)據(jù)交互,大幅度縮減數(shù)據(jù)上傳與計(jì)算結(jié)果下載時(shí)延,滿足用戶業(yè)務(wù)低時(shí)延的要求。
由MEC的原理可知,移動(dòng)用戶能進(jìn)行MEC的關(guān)鍵要素是頻譜與能量,用戶需耗費(fèi)一定的能量將任務(wù)通過(guò)可用頻譜將待計(jì)算數(shù)據(jù)卸載至MEC服務(wù)器。然而,目前移動(dòng)設(shè)備數(shù)量巨大,據(jù)統(tǒng)計(jì),僅無(wú)線物聯(lián)網(wǎng)設(shè)備數(shù)量已經(jīng)達(dá)到2 000多億,且仍在快速增長(zhǎng)。更為嚴(yán)峻的是,目前適合通信的頻譜幾乎都被分配殆盡,為如此海量的設(shè)備分配專用頻譜幾乎不可能。
認(rèn)知無(wú)線電(Cognitive Radio,CR)技術(shù)是一種動(dòng)態(tài)頻譜接入技術(shù),其允許網(wǎng)絡(luò)中的次用戶(Secondary User,SU)即未授權(quán)用戶根據(jù)主用戶(Primary User,PU)即授權(quán)用戶的狀態(tài)調(diào)整自身發(fā)送參數(shù)接入PU頻譜,實(shí)現(xiàn)頻譜共享,為SU提供更多的頻譜接入機(jī)會(huì)[2]。另外,移動(dòng)終端受其尺寸限制,難以裝配大容量電池,電量有限,續(xù)航能力較弱,若長(zhǎng)時(shí)間進(jìn)行高復(fù)雜度業(yè)務(wù)計(jì)算將耗費(fèi)大量能量,大幅度縮短續(xù)航時(shí)間,嚴(yán)重影響用戶體驗(yàn)。能量收集(Energy Harvesting,EH)技術(shù)允許移動(dòng)用戶吸收周?chē)h(huán)境能量,如太陽(yáng)能、電磁能等,提升能量供應(yīng)水平,延長(zhǎng)續(xù)航時(shí)間[3]。因此,可將CR、EH與MEC技術(shù)進(jìn)行結(jié)合,研究協(xié)作認(rèn)知EH-MEC系統(tǒng),為用戶提供能量供應(yīng)、頻譜接入與業(yè)務(wù)計(jì)算服務(wù)。
目前,已有一些關(guān)于EH、CR與MEC分別結(jié)合的研究。文獻(xiàn)[4]研究了無(wú)線充能MEC系統(tǒng),通過(guò)優(yōu)化卸載策略,即是否進(jìn)行卸載以及MEC計(jì)算參數(shù),最大化多個(gè)用戶計(jì)算速率之和。文獻(xiàn)[5]將上述場(chǎng)景擴(kuò)展到多天線領(lǐng)域,利用小基站對(duì)用戶進(jìn)行無(wú)線充能,在滿足業(yè)務(wù)需求的前提下最小化小基站能耗。文獻(xiàn)[6]將無(wú)線充能場(chǎng)景進(jìn)一步拓展到空域,采用無(wú)人機(jī)輔助MEC系統(tǒng),無(wú)人機(jī)充當(dāng)無(wú)線基站,通過(guò)優(yōu)化系統(tǒng)參數(shù)最大化其計(jì)算速率。然而,上述文獻(xiàn)并未考慮到移動(dòng)邊緣計(jì)算網(wǎng)絡(luò)中的頻譜稀缺問(wèn)題,在頻譜資源受限的實(shí)際應(yīng)用場(chǎng)景中,性能將急劇下降。
作為一種有效緩解頻譜稀缺問(wèn)題的技術(shù),近年來(lái)關(guān)于CR的MEC系統(tǒng)也得到一些研究。文獻(xiàn)[7]提出了一種基于CR的MEC系統(tǒng),在滿足PU干擾容限的限制下最大化系統(tǒng)效益。文獻(xiàn)[8]提出一種三層CR-MEC網(wǎng)絡(luò)架構(gòu),CR用來(lái)為網(wǎng)絡(luò)用戶挖掘空閑頻譜以提供頻譜接入機(jī)會(huì)。但該研究只提出框架并未進(jìn)行詳細(xì)的研究。文獻(xiàn)[9]與文獻(xiàn)[10]對(duì)無(wú)線充能的CR MEC系統(tǒng)進(jìn)行了研究,分別針對(duì)PU與SU協(xié)作與非協(xié)作的情況,通過(guò)優(yōu)化SU操作參數(shù)最大化計(jì)算能量效率與計(jì)算比特?cái)?shù)。但是,上述文獻(xiàn)只考慮了系統(tǒng)的短期優(yōu)化,對(duì)于長(zhǎng)期計(jì)算任務(wù)而言,能夠取得的收益有限。
值得注意的是,目前關(guān)于MEC與CR-MEC的研究均集中在單個(gè)時(shí)隙對(duì)用戶進(jìn)行性能優(yōu)化的場(chǎng)景,即瞬時(shí)優(yōu)化場(chǎng)景。但在無(wú)線通信網(wǎng)絡(luò)中,單個(gè)時(shí)隙性能對(duì)整個(gè)網(wǎng)絡(luò)性能的影響不大,網(wǎng)絡(luò)更關(guān)注長(zhǎng)期性能收益,且單個(gè)時(shí)隙性能最優(yōu)不等于長(zhǎng)期性能最優(yōu)。因此,擬提出一種協(xié)作認(rèn)知EH-MEC系統(tǒng)中的資源優(yōu)化方案,未授權(quán)用戶通過(guò)與授權(quán)用戶進(jìn)行協(xié)作以獲取能量與頻譜接入機(jī)會(huì)。利用強(qiáng)化學(xué)習(xí)中的馬爾可夫決策過(guò)程(Markov Decision Process,MDP)對(duì)協(xié)作認(rèn)知EH-MEC系統(tǒng)進(jìn)行長(zhǎng)效性能優(yōu)化。以長(zhǎng)期計(jì)算任務(wù)量為收益,通過(guò)對(duì)未授權(quán)用戶的EH時(shí)間長(zhǎng)度、CPU計(jì)算頻率、任務(wù)卸載功率以及MEC模式進(jìn)行優(yōu)化設(shè)計(jì)使得未授權(quán)用戶獲得的長(zhǎng)期計(jì)算量最大化,并驗(yàn)證所提方案的正確性與有效性。
考慮協(xié)作認(rèn)知EH-MEC系統(tǒng)模型,包括一個(gè)主用戶發(fā)送端(Primary Transmitter,PT),一個(gè)主用戶接收端(Primary Receiver,PR)、一個(gè)SU以及一個(gè)搭載了MEC服務(wù)器的無(wú)線接入點(diǎn)(Access Point,AP)。各節(jié)點(diǎn)都受到高斯白噪聲的影響,為表示方便且不失一般性,假設(shè)各節(jié)點(diǎn)處噪聲功率均為σ2。用hp、hs、gp與gs分別表示PT與PR之間、PT與SU之間、SU與PR之間以及SU與AP之間的信道功率增益。假設(shè)所有節(jié)點(diǎn)均裝備單天線且工作在同步的時(shí)隙結(jié)構(gòu)下,令T表示單個(gè)時(shí)隙長(zhǎng)度。設(shè)信道相干時(shí)間是時(shí)隙長(zhǎng)度的整數(shù)倍,即Tcoh=ΘT,為Θ≥1的整數(shù),在信道相干時(shí)間Tcoh內(nèi),信道功率增益保持不變。具體的協(xié)作認(rèn)知EH-MEC系統(tǒng)模型如圖1所示。
圖1 協(xié)作認(rèn)知EH-MEC系統(tǒng)
PT一共有忙碌狀態(tài)與空閑狀態(tài)兩個(gè)狀態(tài),分別用A與S表示。與文獻(xiàn)[11-14]相同,假設(shè)PT的狀態(tài)變化可建模為一個(gè)二狀態(tài)馬爾科夫鏈,如圖2所示,其中Pi,j表示狀態(tài)轉(zhuǎn)移概率,i,j∈{A,S}。
圖2 PT狀態(tài)轉(zhuǎn)移
假設(shè)PT在忙碌狀態(tài)時(shí)具有rp比特的數(shù)據(jù)要發(fā)送,且需占用整個(gè)時(shí)隙,PT的發(fā)送速率為
(1)
式中:pp為PT發(fā)送功率;W為信道帶寬;σ2為噪聲功率。
用MDP對(duì)SU行為進(jìn)行優(yōu)化,MDP包含狀態(tài)、行為、獎(jiǎng)勵(lì)與策略等4個(gè)模型要素。下面分別根據(jù)模型對(duì)上述元素進(jìn)行分析。
1)狀態(tài)。對(duì)研究的模型來(lái)說(shuō),SU知道PT當(dāng)前準(zhǔn)確的PT狀態(tài),MDP在時(shí)隙t的狀態(tài)可以表示為st=(θt,es,t)。其中:θt∈{A,S};es,t為時(shí)隙t起始時(shí)SU可用的能量值。
2)行為。在時(shí)隙t下SU有3種選擇,用βt表示:βt=0時(shí),SU不進(jìn)行任務(wù)計(jì)算;βt=1時(shí),SU只進(jìn)行本地計(jì)算;βt=2時(shí),SU與PT進(jìn)行協(xié)作中繼,協(xié)助PT發(fā)送完數(shù)據(jù)后采用部分卸載機(jī)制進(jìn)行MEC。同時(shí),SU可在PT進(jìn)行數(shù)據(jù)發(fā)送時(shí)通過(guò)接收PT發(fā)送信號(hào)進(jìn)行EH,令τt表示時(shí)隙t下SU進(jìn)行EH的時(shí)間,SU吸收的能量表達(dá)式為
eh,t=φpphsτt
(2)
式中:φ為EH的效率;hs為信道增益。
SU進(jìn)行MEC需耗費(fèi)能量,因此SU每個(gè)時(shí)隙擬投入的能量也需進(jìn)行決策?;诖?,在時(shí)隙t下行為表示為αt=(τt,ea,t,βt),其中,ea,t表示SU擬投入的能量值。
3)獎(jiǎng)勵(lì)??紤]目標(biāo)是最大化SU長(zhǎng)期的計(jì)算任務(wù)量,因此MDP在時(shí)隙t獲得的獎(jiǎng)勵(lì)為時(shí)隙t下SU執(zhí)行MEC進(jìn)行的任務(wù)量,記為R(st,at)。獎(jiǎng)勵(lì)是狀態(tài)和行為的函數(shù),在不同的狀態(tài)和行為下獎(jiǎng)勵(lì)取值不同,下面分別進(jìn)行分析。
情況1當(dāng)st=(A,es,t),at=(τt,0,0)時(shí),即當(dāng)PT處于忙碌狀態(tài),且SU不進(jìn)行任務(wù)計(jì)算,只進(jìn)行EH的情況。此種情況下,SU不獲得任何獎(jiǎng)勵(lì),但是能量會(huì)得到補(bǔ)充,即
R(st,at)=0
(3)
令eu,t表示SU收集的能量
eu,t=min(φpphsτt,emax)
(4)
則SU可用能量更新為
es,t+1=min(es,t+eu,t,emax)
(5)
式中,emax為SU電池最大容量。
情況2當(dāng)st=(A,es,t),at=(τt,ea,t,1),即當(dāng)PT處于忙碌狀態(tài),SU進(jìn)行EH,并投入ea,t能量進(jìn)行本地計(jì)算。投入ea,t后SU能獲得的獎(jiǎng)勵(lì)與SU的CPU頻率有關(guān),在投入ea,t后需優(yōu)化SU CPU工作頻率。CPU最優(yōu)工作頻率的表達(dá)式為
(6)
式中:η為SU每個(gè)CPU周期耗能功率系數(shù)。設(shè)C為SU計(jì)算1 bit數(shù)據(jù)需要的CPU周期數(shù)。SU可獲得的獎(jiǎng)勵(lì)為
(7)
SU可用能量更新為
es,t+1=max[min(es,t+eu,t,emax)-ea,t,0]
(8)
情況3當(dāng)st=(A,es,t),at=(τt,ea,t,2),即當(dāng)PT處于忙碌狀態(tài),SU進(jìn)行EH,并投入ea,t能量與PT進(jìn)行協(xié)作中繼,協(xié)助PT將待傳數(shù)據(jù)傳輸完畢后采用部分卸載方式進(jìn)行MEC,如圖3所示。
圖3 st=(A,es,t),at=(τt,ea,t,2)SU操作示意圖
SU采用放大轉(zhuǎn)發(fā)的方式進(jìn)行協(xié)助PT中繼傳輸數(shù)據(jù),令tc表示協(xié)作時(shí)間。在[τt,τt+tc/2]時(shí)間段內(nèi),PT發(fā)送信息給PR與SU,PR與SU接收的信號(hào)分別為
(9)
(10)
式中,ns與np分別為PR與SU處的噪聲。在[τt+tc/2,τt+tc]內(nèi),SU將接收的信息轉(zhuǎn)發(fā)給PR,PR收到的信號(hào)為
(11)
(12)
(13)
為后續(xù)計(jì)算方便,令pr=pmax,也可以對(duì)pr進(jìn)行線性一維搜索得到最優(yōu)值。
協(xié)作中繼傳輸結(jié)束后PT頻譜空閑,SU接入進(jìn)行任務(wù)卸載時(shí),SU可用于MEC的能量為
(14)
(15)
其中,
(16)
情況4當(dāng)st=(S,es,t),at=(0,ea,t,1),即PT處于空閑狀態(tài),SU不進(jìn)行EH,投入ea,t能量進(jìn)行本地計(jì)算。最優(yōu)CPU頻率與獲得的獎(jiǎng)勵(lì)分別為
(17)
(18)
能量更新與式(4)和式(8)相同。
除了以上情況外,其余3種情況下均將獎(jiǎng)勵(lì)設(shè)置為R(st,at)=-c,其中c>0,即若出現(xiàn)以下幾種情況,SU將獲得負(fù)獎(jiǎng)勵(lì)。因此,在決策過(guò)程中,SU將會(huì)盡量避下述情況的出現(xiàn)。
情況1SU打算投入的能量超過(guò)SU可用能量的情況,表達(dá)式為
ea,t>min[es,t+min(φpp|hs|2τt,emax),emax]
也即違背能量因果限制的情況。
情況2當(dāng)PT處于空閑狀態(tài)S且βt=0,即PT處于空閑狀態(tài)時(shí)SU不進(jìn)行任何計(jì)算的情況。
情況3當(dāng)PT處于空閑狀態(tài)S且τ>0時(shí),即PT處于空閑狀態(tài)時(shí)SU仍打算進(jìn)行EH的情況。
4)策略。策略是行為與狀態(tài)之間的映射關(guān)系,記為π(at|st),表示在當(dāng)前狀態(tài)為st的情況下選擇行動(dòng)at的概率,策略可以認(rèn)為是系統(tǒng)狀態(tài)與選擇的行為之間的映射關(guān)系。考慮確定性策略,即對(duì)于狀態(tài)st,SU將以概率1選擇行為at。
MDP的目標(biāo)是尋找最優(yōu)策略最大化長(zhǎng)期期望收益Vπ(st),優(yōu)化目標(biāo)是最大化相干時(shí)間ΘT內(nèi)SU的期望收益,其表達(dá)式為
(19)
其中,
式中,γ為折扣因子。γ表示未來(lái)收益與當(dāng)前收益的比重,是SU對(duì)當(dāng)前動(dòng)作所能帶來(lái)的未來(lái)收益的重視程度。γ越大表示SU對(duì)未來(lái)收益越重視,越小則表示SU更注重當(dāng)前就近時(shí)隙的收益。通過(guò)對(duì)Bellman方程的求解可獲得最優(yōu)策略為
(20)
其中,
(21)
上述Bellman方程可通過(guò)值迭代或策略迭代 的方式進(jìn)行求解。
利用Matlab軟件對(duì)所提方案進(jìn)行計(jì)算機(jī)仿真,默認(rèn)參數(shù)設(shè)置如表1所示。行為空間為連續(xù)空間,在進(jìn)行MDP值迭代或策略迭代時(shí)難以計(jì)算。因此,仿真前必須將連續(xù)參數(shù)進(jìn)行離散化處理。以eh為能量粒度,ea,t、es,t取值空間為
表1 仿真參數(shù)
其中,ea,t,num與es,t,num均為整數(shù)。EH時(shí)間τt也需進(jìn)行量化,將EH時(shí)間在[0,T]內(nèi)進(jìn)行均勻量化,劃分為τnum+1個(gè)時(shí)刻值。
考慮折扣因子γ以及相干時(shí)間時(shí)隙數(shù)Θ對(duì)SU期望計(jì)算量(每個(gè)時(shí)隙的平均計(jì)算量)的影響,對(duì)SU期望計(jì)算量與折扣因子γ以及相干時(shí)間時(shí)隙數(shù)Θ的關(guān)系進(jìn)行了仿真,具體如圖4所示。
圖4 每時(shí)隙SU期望計(jì)算量與γ及與相干時(shí)間時(shí)隙數(shù)Θ關(guān)系
由圖4可以看出,在給定Θ的條件下,SU期望計(jì)算量隨著折扣因子γ的增加而增加。折扣因子反應(yīng)了SU對(duì)未來(lái)收益的看重程度,γ越大則SU在決策時(shí)會(huì)更看重未來(lái)的收益,因此隨著γ增加SU期望計(jì)算量亦增加。在γ較小時(shí)SU期望計(jì)算量隨著Θ增加而減小,γ較大時(shí)SU期望計(jì)算量隨著Θ增加而增大,其由折扣因子的本質(zhì)決定,折扣因子小則SU主要考慮當(dāng)前時(shí)隙情況,折扣因子大則考慮更為長(zhǎng)遠(yuǎn)。
為了說(shuō)明系統(tǒng)最大可用計(jì)算、通信資源對(duì)SU期望計(jì)算量的影響,對(duì)SU期望計(jì)算量與fmax與pmax的關(guān)系進(jìn)行了仿真分析,具體如圖5所示。
圖5 每時(shí)隙SU期望計(jì)算量與fmax和pmax的關(guān)系
由圖5可以看出,SU期望計(jì)算量隨著fmax與pmax增加而增加。fmax與pmax增大,SU將具有更高的決策自由度,從而提升了SU的期望計(jì)算量,也能間接地證明所提算法的正確性。
同時(shí),為了進(jìn)一步研究轉(zhuǎn)移概率對(duì)SU期望計(jì)算量的影響,圖6對(duì)SU期望計(jì)算量與轉(zhuǎn)移概率PA,A與PS,S的關(guān)系曲線進(jìn)行了仿真。
圖6 每時(shí)隙SU期望計(jì)算量與轉(zhuǎn)移概率PA,A和PS,S的關(guān)系
由圖6可以看出,隨著PA,A與PS,S的增大,SU期望計(jì)算量分別下降與增加。這是因?yàn)镻A,A增加表示PU將有較大的概率處于忙碌狀態(tài),SU有較少的頻譜接入機(jī)會(huì),PS,S增加則表示PU將更多的保持空閑狀態(tài),SU將有更多的頻譜接入機(jī)會(huì)。
為了緩解移動(dòng)邊緣計(jì)算網(wǎng)絡(luò)中用戶設(shè)備的續(xù)航能力差,以及網(wǎng)絡(luò)中面臨的頻譜資源稀缺問(wèn)題。將EH、協(xié)作中繼、CR與MEC相結(jié)合構(gòu)成可認(rèn)知EH-MEC網(wǎng)絡(luò)架構(gòu),提出了一個(gè)長(zhǎng)期收益最大化資源分配方案。利用MDP對(duì)SU策略進(jìn)行優(yōu)化設(shè)計(jì),仿真結(jié)果表明,所提方案與各系統(tǒng)參數(shù)之間的關(guān)系,證明了所提方案相較于傳統(tǒng)的短期優(yōu)化方案而言,能夠有效提升網(wǎng)絡(luò)的長(zhǎng)期期望計(jì)算量。此外,所提的可認(rèn)知EH-MEC架構(gòu),顯著提高了網(wǎng)絡(luò)頻譜效率。