江 帆,李 妍,宋琦琳
(1.西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121;2.西安郵電大學(xué) 陜西省信息通信網(wǎng)絡(luò)及安全重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710121)
車聯(lián)網(wǎng)(Internet of Vehicles,IoV)和自動(dòng)駕駛是5G移動(dòng)通信的代表性應(yīng)用場景之一[1]。為了支持豐富的車輛服務(wù)應(yīng)用,車載設(shè)備需要處理各種計(jì)算密集型任務(wù)。但是,車輛有限的任務(wù)處理能力和存儲(chǔ)空間難以應(yīng)對愈發(fā)密集的計(jì)算任務(wù)需求[2]。為了改善上述問題,現(xiàn)有研究提出將基于移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)的協(xié)作通信技術(shù)引入到IoV中,從而將計(jì)算任務(wù)卸載到網(wǎng)絡(luò)邊緣的服務(wù)器上,滿足車輛在運(yùn)行過程中執(zhí)行密集計(jì)算任務(wù)的要求[3-4]。
隨著無線通信技術(shù)的發(fā)展,車輛用戶以及處理任務(wù)的數(shù)量持續(xù)增加,對充分利用有限的頻譜資源提出了更高要求。為了應(yīng)對頻譜資源匱乏的現(xiàn)狀,非正交多址接入(Non-Orthogonal Multiple Access,NOMA)技術(shù)和MEC技術(shù)的結(jié)合引起了較高的關(guān)注[5]。文獻(xiàn)[6]提出了一個(gè)混合型NOMA的卸載策略,有效降低了多用戶卸載的時(shí)延和能耗,但沒有考慮到MEC服務(wù)器有限的計(jì)算資源會(huì)影響卸載任務(wù)的執(zhí)行時(shí)間。文獻(xiàn)[7]提出的優(yōu)化策略考慮了任務(wù)卸載、計(jì)算資源分配等聯(lián)合優(yōu)化問題,但忽略了周圍空閑的車輛資源。
一些研究引入了車到車(Vehicle-to-Vehicle,V2V)通信技術(shù)[8],通過將車輛用戶設(shè)備(Vehicle User Equipment,VUE)的一些計(jì)算任務(wù)卸載給鄰近負(fù)載較輕的VUE完成,在充分利用周圍閑置車輛資源的同時(shí)也減輕了MEC服務(wù)器的計(jì)算壓力。但是,采用V2V技術(shù)也出現(xiàn)了一些新的問題,如文獻(xiàn)[9-10]中涉及資源分配問題和頻譜復(fù)用引起的干擾問題。因此,在融合多種通信技術(shù)的車聯(lián)網(wǎng)中,研究合理高效的資源分配策略以支持車輛用戶的動(dòng)態(tài)需求尤為重要。另外,由于無線通信環(huán)境的復(fù)雜多變,傳統(tǒng)優(yōu)化策略復(fù)雜的計(jì)算步驟使得求解上述問題的效率較低,而機(jī)器學(xué)習(xí)算法相較于傳統(tǒng)方法能更高效地找到上述問題的最優(yōu)解,例如文獻(xiàn)[6]中就使用了深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)算法為用戶選擇最優(yōu)卸載策略,但DQN算法存在的過估計(jì)問題一定程度上影響了算法效率。文獻(xiàn)[11]中采用的深度競爭雙Q網(wǎng)絡(luò)算法(Dueling Double Deep Q-Network,D3QN)則可以減少DQN算法的過估計(jì)誤差,有效地提高了DQN算法的學(xué)習(xí)效率。
為了改善IoV卸載場景下的多維資源分配問題,擬提出一種時(shí)延感知的計(jì)算卸載及資源分配策略。首先,根據(jù)最大時(shí)延限制的要求,判斷一個(gè)計(jì)算任務(wù)是否需要卸載,然后通過支持向量機(jī)(Support Vector Machine,SVM)將需要卸載的計(jì)算任務(wù)按照時(shí)延和能耗的不同要求選擇MEC處理模式和V2V處理模式,并將網(wǎng)絡(luò)總成本構(gòu)造為時(shí)延和能耗的加權(quán)和。最后,利用深度強(qiáng)化學(xué)習(xí)方法中的D3QN算法在不同的任務(wù)處理模式下分配計(jì)算或無線資源,最小化卸載過程中的總成本。為了驗(yàn)證所提策略的性能,將其與同一系統(tǒng)模型下的基于DQN算法的資源分配策略、基于正交多址接入的資源分配策略和隨機(jī)資源分配策略等3種策略進(jìn)行了對比。
圖1 系統(tǒng)模型
假定每個(gè)VUE都有一個(gè)密集的計(jì)算任務(wù)要處理,表示為{Ti,Ci},其中Ti表示第i個(gè)VUE的任務(wù)大小;Ci表示計(jì)算1比特?cái)?shù)據(jù)所需的CPU周期數(shù)。然后,根據(jù)最大時(shí)延限制需求將VUE分為本地組和卸載組。如果VUE能夠在最大允許時(shí)間內(nèi)自己完成任務(wù),就將其歸類于本地組,表示為l∈={I+1,I+2,…,M};如果VUE不能單獨(dú)完成任務(wù),就將其劃分到卸載組,表示為i∈={1,2,…,I}。對于卸載組中的VUE,考慮了V2V和MEC兩種任務(wù)處理模式,由于MEC服務(wù)器計(jì)算能力較VUE更強(qiáng),相同大小的任務(wù)在MEC服務(wù)器端的執(zhí)行時(shí)延小。但是,一般情況下由于MEC服務(wù)器部署距用戶較遠(yuǎn),上傳任務(wù)時(shí)需要更高的發(fā)射功率,可能會(huì)造成卸載過程中更多的能量消耗。因此,假設(shè)任務(wù)對計(jì)算時(shí)延有更高的要求時(shí)會(huì)選擇MEC處理模式,否則將優(yōu)先選擇V2V處理模式以減少能耗。這里用λ∈{0,1}表示卸載結(jié)果,λ=0表示MEC處理模式,λ=1則表示V2V處理模式。
1.2.1 MEC處理模式
在MEC處理模式下,基于NOMA技術(shù),多個(gè)VUE可以通過同一子信道將任務(wù)卸載給BS,然后BS側(cè)使用串行干擾消除技術(shù)對每個(gè)VUE的任務(wù)信息進(jìn)行解碼。根據(jù)NOMA原理[5],第i個(gè)VUE向MEC服務(wù)器卸載計(jì)算任務(wù)時(shí)的信干噪比(Signal to Interference Plus Noise Ratio,SINR)的表達(dá)式為
(1)
式中:hi和hj分別表示從第i個(gè)VUE和第j個(gè)VUE到MEC服務(wù)器的信道系數(shù);Pi和Pj分別表示第i個(gè)VUE和第j個(gè)VUE的發(fā)射功率;N0表示噪聲功率。在這里主要研究的是兩用戶NOMA系統(tǒng),為了保證基站側(cè)接收功率的差異從而成功解調(diào)各用戶信號,采用了文獻(xiàn)[12]中所提出的均勻信道增益差配對策略(Uniform Channel Gain Difference,UCGD)選擇NOMA用戶。
第i個(gè)VUE將任務(wù)上傳到MEC服務(wù)器的傳輸時(shí)延的表達(dá)式為
(2)
式中:Ri=Blog2(1+ξi)表示從第i個(gè)VUE到MEC服務(wù)器的傳輸速率;B∈B1為MEC處理模式下的子信道帶寬。
相應(yīng)的傳輸能耗表達(dá)式為
(3)
MEC服務(wù)器執(zhí)行第i個(gè)VUE卸載任務(wù)的計(jì)算時(shí)延表達(dá)式為
(4)
式中,fi表示MEC服務(wù)器為計(jì)算卸載任務(wù)分配的相應(yīng)計(jì)算資源。
第i個(gè)VUE在MEC服務(wù)器計(jì)算過程中的等待能耗為
(5)
由于計(jì)算結(jié)果通常比較小,返回結(jié)果時(shí)的相應(yīng)時(shí)延和能耗可以忽略不計(jì)。因此,MEC處理模式下的總時(shí)延和總能耗分別表示為
(6)
(7)
為了同時(shí)滿足時(shí)延和能耗的約束,將卸載成本定義為時(shí)延和能耗的加權(quán)和,從而MEC處理模式下第i個(gè)VUE的總成本可以表示為
Ui=ωiDi+(1-ωi)Ei
(8)
式中,ωi是一個(gè)權(quán)重因子,表示不同的任務(wù)對時(shí)延和能耗的不同偏好,其取值在0到1之間。
1.2.2 V2V處理模式
(9)
從第i個(gè)VUE到第l個(gè)VUE的傳輸時(shí)延和能耗計(jì)算表達(dá)式分別為
(10)
(11)
考慮任務(wù)的優(yōu)先級大小,假設(shè)V2V接收端在執(zhí)行卸載任務(wù)之前優(yōu)先執(zhí)行自己的計(jì)算任務(wù),第l個(gè)VUE完成其本地任務(wù)的計(jì)算時(shí)延為
(12)
式中,fl表示第l個(gè)VUE的計(jì)算資源。
第l個(gè)VUE完成卸載任務(wù)的計(jì)算時(shí)延和能耗的表達(dá)式分別表示為
(13)
(14)
式中,Pl=10-27(fl)2表示第l個(gè)VUE的電池功耗[14]。
根據(jù)以上假設(shè),V2V接收端在處理完自身任務(wù)后才會(huì)選擇幫助其他VUE,即來自第i個(gè)VUE的計(jì)算任務(wù)在完成V2V傳輸之前無法被接收端第l個(gè)VUE處理。因此,V2V處理模式下的傳輸時(shí)延由第l個(gè)VUE的本地計(jì)算時(shí)延和第i個(gè)VUE到第l個(gè)VUE的傳輸時(shí)延之間的較大者確定。V2V處理模式下的總時(shí)延和總能耗的表達(dá)式分別為
(15)
(16)
同樣地,V2V處理模式下的成本函數(shù)可以表示為
(17)
基于以上分析,卸載過程的總成本表示為
(18)
以最小化卸載過程的總成本為研究目標(biāo),旨在為每個(gè)VUE找到最優(yōu)資源分配策略。因此,其優(yōu)化問題可以構(gòu)建為
(19)
由式(19)可以看出,總成本受到V2V對頻譜復(fù)用策略MEC計(jì)算資源分配策略的共同影響。但是,結(jié)合約束條件可以觀察到該資源分配問題是一個(gè)混合整數(shù)非線性規(guī)劃問題,傳統(tǒng)方法找到最優(yōu)解的難度較大,而且難度也會(huì)隨著VUE數(shù)量的增加而增大。因此,采用了強(qiáng)化學(xué)習(xí)方法中的D3QN算法為每個(gè)VUE找到最佳的資源分配策略。
提出的策略包括兩個(gè)階段:在第一階段,假設(shè)卸載任務(wù)可以通過時(shí)延需求和ω分為兩種處理模式,這是一個(gè)線性可分的二分類問題,因此采用SVM分類器實(shí)現(xiàn)該過程[15];在第二階段,根據(jù)分類結(jié)果,在不同的任務(wù)處理模式下利用D3QN算法完成相應(yīng)的資源分配。
為了使用D3QN算法求解式(19)中提出的優(yōu)化問題,首先將其與所提策略的資源分配場景相結(jié)合,以下給出了其相關(guān)元素的定義。
2.1.1 MEC處理模式場景
在MEC處理模式中,MEC服務(wù)器的計(jì)算資源首先被劃分為單位大小,然后分配給每個(gè)任務(wù)相應(yīng)大小的計(jì)算資源。這種情況下的算法要素定義如下。
1) 智能體。在資源分配策略中,BS負(fù)責(zé)處理信令信息和分配資源,因此將BS定義為算法的智能體。
2) 狀態(tài)空間。選擇MEC處理模式的每個(gè)VUE為一個(gè)狀態(tài),狀態(tài)空間被定義為所有選擇MEC處理模式的VUE,表示為s=[s1,s2,…,si]。
3) 動(dòng)作空間。在MEC處理模式中,MEC服務(wù)器為卸載任務(wù)所分配的每一部分計(jì)算資源都可以被視為一個(gè)動(dòng)作,因此,動(dòng)作空間可以表示為a=[a1,a2,…,ai]。
5) 策略。采取的是ε-貪婪策略,即每次選擇動(dòng)作時(shí)以ε的概率隨機(jī)選擇動(dòng)作,否則選擇最大Q值所對應(yīng)的動(dòng)作。
2.2.2 V2V處理模式
在V2V處理模式中,需要將上行鏈路資源分配給V2V鏈路,此處理模式下的相關(guān)定義如下所述。
動(dòng)作空間:V2V處理模式中,每個(gè)動(dòng)作為已經(jīng)分配給其他VUE的上行鏈路資源,從而動(dòng)作空間表示為a=[a1,a2,…,aM]。
智能體、獎(jiǎng)勵(lì)和策略的定義與MEC處理模式中一致,此處不再贅述。
基于以上定義,所采用的D3QN算法模型如圖2所示。
圖2 D3QN算法模型
由圖2可以看出,D3QN算法的具體改進(jìn)內(nèi)容如下。
1) 將DQN神經(jīng)網(wǎng)絡(luò)的輸出層分為當(dāng)前狀態(tài)值函數(shù)V(s)和動(dòng)作優(yōu)勢函數(shù)A(s,a)兩個(gè)支路,然后再將這兩個(gè)分支合并成Q值輸出[16]。其中,動(dòng)作優(yōu)勢函數(shù)是衡量當(dāng)前狀態(tài)下采取不同動(dòng)作時(shí)的相對價(jià)值。通過引入這個(gè)競爭網(wǎng)絡(luò),可以分別平衡預(yù)測網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中動(dòng)作對Q值的影響,從而使智能體做出更準(zhǔn)確的判斷。Q值的計(jì)算表達(dá)式為
(20)
式中:θ表示神經(jīng)網(wǎng)絡(luò)參數(shù);β和φ分別表示狀態(tài)值函數(shù)和動(dòng)作優(yōu)勢函數(shù)的神經(jīng)網(wǎng)絡(luò)參數(shù)。
2) 為了避免DQN算法的高估問題,D3QN算法將動(dòng)作選擇和Q值估計(jì)進(jìn)行了解耦[17]。由預(yù)測網(wǎng)絡(luò)選擇下一個(gè)狀態(tài)下的動(dòng)作,然后目標(biāo)網(wǎng)絡(luò)評估該動(dòng)作并計(jì)算相應(yīng)的Q值。此時(shí)目標(biāo)Q值的計(jì)算表達(dá)式為
(21)
具體來說,在算法實(shí)現(xiàn)過程中,設(shè)置一個(gè)循環(huán)周期有i步,每一步對應(yīng)一個(gè)用戶使用上述貪婪策略獲取資源的過程,同時(shí)計(jì)算當(dāng)前步的獎(jiǎng)勵(lì),然后將產(chǎn)生的交互數(shù)據(jù)存儲(chǔ)在一個(gè)經(jīng)驗(yàn)回放池中。經(jīng)過數(shù)個(gè)時(shí)間步后,智能體將從經(jīng)驗(yàn)回放池中隨機(jī)抽取一小批經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,并更新網(wǎng)絡(luò)參數(shù)。通過不斷訓(xùn)練神經(jīng)網(wǎng)絡(luò)直到損失函數(shù)取得最小值,即算法達(dá)到收斂,此時(shí)對應(yīng)的動(dòng)作就是最優(yōu)的資源分配策略。其中的損失函數(shù)定義為
Lt(θ)=E[(yt-Q(st-a,θ))2]
(22)
基于以上分析,基于D3QN算法的計(jì)算資源分配過程的偽代碼如算法1所示。
算法1 基于D3QN的計(jì)算資源分配算法輸入:MEC服務(wù)器的計(jì)算資源F1:初始化:經(jīng)驗(yàn)回放池D,預(yù)測網(wǎng)絡(luò)Q的參數(shù)θ,目標(biāo)網(wǎng)絡(luò)Q′的參數(shù)θ′2:for episode=1,2,… do3:初始化st=[s1,s2,…,si]4:for t=1,2,…,i do5:以概率ε隨機(jī)選擇一個(gè)動(dòng)作at6:否則選擇動(dòng)作at=maxaQ(s,a;θ)7:執(zhí)行動(dòng)作at獲得獎(jiǎng)勵(lì)rt(st,at),并轉(zhuǎn)移到下一狀態(tài)st+1,st=st+18:將(st,at,rt,st+1)存儲(chǔ)到經(jīng)驗(yàn)回放池D9:if經(jīng)驗(yàn)回放池容量達(dá)到閾值then10:從經(jīng)驗(yàn)回放池中隨機(jī)采樣一小批交互數(shù)據(jù)(st,at,rt,st+1)11:計(jì)算式(22)12:對于預(yù)測網(wǎng)絡(luò)參數(shù)執(zhí)行梯度下降算法 13:每K步重設(shè)Q′=Q14:End if 15:End for16:End for輸出:資源分配結(jié)果
基于D3QN算法的無線資源分配過程與計(jì)算資源分配過程類似,這里不再贅述。所提時(shí)延感知的計(jì)算卸載和資源分配過程偽代碼如算法2所示。
算法2 時(shí)延感知的計(jì)算卸載和資源分配策略輸入:參數(shù)M,Ci,Ti,fi,DT1:for i=1,2,…,M do2:if (TiCi/f′i)≤DT then3:本地計(jì)算任務(wù)4:else SVM將需要卸載的任務(wù)分類5:if 第i個(gè)VUE選擇MEC處理模式6:選擇NOMA用戶對7:利用算法1分配計(jì)算資源8:MEC服務(wù)器完成計(jì)算任務(wù)9:else if 第i個(gè)VUE選擇V2V處理模式10:選擇V2V用戶對11:利用算法1分配無線資源12:V2V接收端執(zhí)行計(jì)算任務(wù)13:End if14:End if15:End for輸出:處理模式的選擇結(jié)果,資源分配結(jié)果
為了驗(yàn)證所提策略的性能,將其與同一系統(tǒng)模型下的基于DQN算法的資源分配策略、基于正交多址接入的資源分配策略(Orthogonal Multiple Access,OMA)和隨機(jī)資源分配策略等3種策略進(jìn)行了比較。仿真基于Python 3.8平臺(tái)完成,其中D3QN算法網(wǎng)絡(luò)模型采用了3個(gè)全連接層,并將第3個(gè)全連接層等分為狀態(tài)值函數(shù)層和動(dòng)作優(yōu)勢函數(shù)層;折扣因子為0.98;設(shè)置ε的值從0.08逐漸衰減至0.01,其余系統(tǒng)仿真參數(shù)如表1所示。
表1 仿真參數(shù)
SVM的分類結(jié)果如圖3所示,可以看出參與任務(wù)卸載的用戶被訓(xùn)練好的SVM成功分為了兩類。其中圓點(diǎn)表示選擇V2V處理模式的用戶,下三角表示選擇MEC處理模式的用戶。
圖3 SVM分類結(jié)果
為了驗(yàn)證所采用D3QN算法的性能,將其和DQN算法的訓(xùn)練效率進(jìn)行了對比,具體如圖4所示。
圖4 D3QN和DQN算法的訓(xùn)練效率對比
由圖4可以看出,隨著訓(xùn)練次數(shù)的增加,DQN算法在大約1 100次后趨于穩(wěn)定,而D3QN算法收斂于950次左右并且獲得的總成本更低。這是由于競爭網(wǎng)絡(luò)的引入、動(dòng)作選擇與Q值計(jì)算的解耦都可以得到更準(zhǔn)確的Q值,從而減少了無效的迭代訓(xùn)練過程,提高了訓(xùn)練的效率。
圖5對采用不同策略的時(shí)延進(jìn)行了對比,以驗(yàn)證所提策略對時(shí)延性能的提升。
圖5 不同策略的時(shí)延對比
由圖5可以看出,所提策略的累積時(shí)延均低于其他策略。首先,與隨機(jī)分配策略和基于DQN算法的策略相比,采用的D3QN算法在卸載用戶數(shù)逐漸增加時(shí)更有優(yōu)勢,可以更高效地分配計(jì)算資源和無線資源,從而降低了卸載時(shí)延。其次,采用NOMA技術(shù)可以在同一子信道上同時(shí)完成兩個(gè)用戶計(jì)算任務(wù)的卸載,而OMA只能為一個(gè)用戶提供服務(wù),從而有效地減少了時(shí)延。
為了驗(yàn)證所提策略對吞吐量性能的提升,對不同策略的吞吐量累積分布函數(shù)(Cumulative Distribution Function,CDF)進(jìn)行了對比,具體如圖6所示。
圖6 不同策略的吞吐量對比
由圖6可以看出,在相同概率下所提策略的吞吐量均大于其他策略。這是由于一方面D3QN算法可以有效地減少頻譜復(fù)用干擾,另一方面采用的NOMA技術(shù)可以通過功率域的非正交復(fù)用共享頻域資源,這兩種策略都可以顯著提高系統(tǒng)吞吐量。
圖7對不同策略下的總成本進(jìn)行了對比,以驗(yàn)證所提策略可以有效降低總成本。
圖7 不同策略的總成本對比
由圖7可以看出,隨著卸載用戶數(shù)的增加,所有策略的累計(jì)總成本也相應(yīng)上升,但所提策略的總成本最低。這是由于所提策略在保證時(shí)延的同時(shí),更好地平衡了時(shí)延和能耗,從而有效地降低了總成本。
隨著IoV的快速發(fā)展,激增的數(shù)據(jù)量對車輛端的計(jì)算能力以及各種資源提出了更高的要求,因此推動(dòng)任務(wù)卸載和資源分配等技術(shù)的發(fā)展至關(guān)重要。針對該問題,提出了時(shí)延感知的計(jì)算卸載和資源分配策略。在所提出的策略中,首先利用SVM將卸載任務(wù)按照時(shí)延和能耗的要求分為MEC處理模式和V2V處理模式兩類,每個(gè)VUE可以選擇相應(yīng)的任務(wù)處理模式。此外,為了進(jìn)一步降低卸載傳輸時(shí)延,在MEC處理模式中采用了NOMA技術(shù)。最后,為了最小化卸載過程中的總成本,采用了D3QN算法在各處理模式中分配計(jì)算或無線資源。仿真結(jié)果表明,與現(xiàn)有的基于DQN算法的資源分配策略、基于OMA的資源分配策略和隨機(jī)資源分配策略相比,所提的策略不僅優(yōu)化了VUE卸載過程中的時(shí)延和吞吐量性能,還有效降低了系統(tǒng)卸載的總成本。