李 燁,肖夢巧
(上海理工大學 光電信息與計算機工程學院,上海 200093)
大規(guī)模多輸入多輸出(Multi-Input Multi-Output,MIMO)技術(shù)通過在基站側(cè)配置大規(guī)模天線陣列,可以在相同的時頻資源塊服務小區(qū)中若干用戶,有效提高整個系統(tǒng)的信道容量和頻譜效率,因此成為了5G通信中的關(guān)鍵技術(shù)之一[1,2].然而,基站側(cè)部署大量天線必然導致用戶間干擾增加,降低整個系統(tǒng)性能,功率分配在控制干擾和優(yōu)化下行鏈路性能方面發(fā)揮著至關(guān)重要的作用[3].
現(xiàn)有的許多基于模型的功率分配算法在理論分析和模擬仿真中表現(xiàn)出優(yōu)異的性能,但在實際系統(tǒng)中的實現(xiàn)面臨著嚴重的障礙[4].Fu等[5]針對非理想條件下的全雙工MIMO系統(tǒng)的功率分配優(yōu)化問題,采用分解和梯度投影的漸進算法進行求解,其結(jié)果優(yōu)于半雙工系統(tǒng)性能,但很難達到全局最優(yōu).Shi Q等[6]采用加權(quán)最小均方誤差(Weighted Minimum Mean Square Error,WMMSE)算法需要在每次迭代中進行矩陣求逆和二分等操作,計算復雜度高,極大地影響了功率分配的實時性.Gao等[7]結(jié)合量子計算和化學反應優(yōu)化機制的優(yōu)勢,設計出一種基于量子化學反應優(yōu)化的智能天線選擇與功率分配方法,該方法能夠獲得較好的系統(tǒng)能效,但僅考慮單小區(qū)通信場景.Zappone A等[8]結(jié)合分數(shù)規(guī)劃與連續(xù)凸優(yōu)化,提出了一種基于分數(shù)規(guī)劃的功率分配方法,但容易陷入局部最優(yōu),很難適用于復雜多變的通信場景.
近幾年,基于數(shù)據(jù)驅(qū)動特別是機器學習的方法,以較低的計算復雜度實現(xiàn)了接近最佳的性能,在無線通信領(lǐng)域中得到了迅速發(fā)展.由于深度強化學習(Deep Reinforcement Learning,DRL)可以避免對網(wǎng)絡環(huán)境進行不準確的建模,且智能體與環(huán)境的交互過程可以節(jié)省人工對基于模型算法的頻繁參數(shù)配置,近年來DRL在無線網(wǎng)絡中的應用不勝枚舉[9].Amiri R等[10]提出一種基于Q-Learning的機器學習方法,以解決密集異構(gòu)無線網(wǎng)絡中的資源分配問題,為了獲得較低的復雜度,僅將共享Q表進行簡單平均,使得智能體之間無法獲得準確的信息,也無法得到最優(yōu)的性能.Zhang Y等[11]提出了一種基于深度Q網(wǎng)絡(Deep Q-Network,DQN)的多小區(qū)網(wǎng)絡功率分配方法,假設了無噪音和完整信息狀態(tài)的環(huán)境,然而實際的無線網(wǎng)絡環(huán)境是有噪音且信息不完整的.Meng F等[12]對于獎勵函數(shù)的設計僅考慮了折扣系數(shù)為零的情況.Nasir Y S等[13]和Meng F等[14]均以適用于連續(xù)動作空間的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法替換DQN,然而僅考慮了所有發(fā)射器和接收器都使用單個天線的特殊情況.張先超等[15]提出利用DDPG的智能發(fā)射功率控制算法,以實現(xiàn)多用戶通信速率最大化,但需要對復雜通信環(huán)境進行一階復高斯建模.Guo D等[16]提出了一種用于大規(guī)模天線基站切換和功率優(yōu)化的DRL方法,然而僅考慮在一個用戶由一個基站服務的情形,這與大規(guī)模MIMO系統(tǒng)非常不同.
圖1 多小區(qū)大規(guī)模MIMO系統(tǒng)模型Fig.1 Multi-cell massive MIMO system model
對于最大化下行鏈路總和頻譜效率的優(yōu)化問題,目前仍然缺乏針對多小區(qū)多用戶大規(guī)模MIMO系統(tǒng)的研究,而且通常未考慮上行信道估計不完美的問題.鑒于此,本文研究了上行信道狀態(tài)信息(Channel State Information,CSI)不完美條件下的多小區(qū)多用戶大規(guī)模MIMO系統(tǒng)下行鏈路功率分配,提出了DQN和DDPG兩種有效的基于深度強化學習的功率分配方法.與監(jiān)督學習不同,DRL方法不需要龐大的訓練數(shù)據(jù)集,而是通過與環(huán)境的交互獲得獎勵完成訓練,且只需執(zhí)行少量的矩陣乘法.與傳統(tǒng)的功率分配算法相比,所提方法獲得更優(yōu)的總和頻譜效率性能,且時間復雜度要低得多.此外,此外,DDPG在總和頻譜效率性能和時間復雜度方面都優(yōu)于DQN.
如圖1所示,采用多小區(qū)大規(guī)模MIMO系統(tǒng)的下行鏈路傳輸模型.該系統(tǒng)由L個蜂窩小區(qū)組成,每個小區(qū)中心配備一個基站,該基站同時為本小區(qū)內(nèi)K個單天線活躍用戶提供服務,其中各小區(qū)基站配置M根天線,以實現(xiàn)信道硬化[17].系統(tǒng)根據(jù)同步TDD協(xié)議工作,即上下行鏈路信道具有互易性.同時假設信道受到快衰落的影響.因此,第j小區(qū)基站和第l小區(qū)中的第k個用戶之間的信道向量建模為:
(1)
(2)
式中,pp為用戶的導頻功率.如果一個小區(qū)和目標小區(qū)共用了相同的導頻,就會造成導頻污染,令φl∈{1,…,L}表示導頻污染小區(qū)集合,導頻污染會導致上行CSI估計的不準確.
在下行數(shù)據(jù)傳輸階段,基站使用歸一化共軛波束賦形將信號傳輸?shù)接脩?對任意基站l,令xl表示基站發(fā)射到本小區(qū)內(nèi)K個用戶的發(fā)射信號矢量:
(3)
式中,plk表示分配給用戶的發(fā)射功率;wlk表示基站l發(fā)送給用戶k的歸一化共軛波束賦形向量;slk表示小區(qū)l中用戶k的歸一化發(fā)射信號;M為基站天線數(shù).
小區(qū)j中用戶k的接收信號疊加了大規(guī)模MIMO系統(tǒng)中所有基站的發(fā)送信號,即:
(4)
可檢測到小區(qū)j中用戶k的期望信號:
(5)
式中第一項是歸一化共軛波束賦形信道接收的期望信號,而其余項是隨機變量,對用戶來說是未知的,視為信號檢測中的噪聲[17].
在下行鏈路中,小區(qū)中的任意用戶的頻譜效率為:
(6)
其中,SINRjk為:
(7)
因此,本文的目標函數(shù)的優(yōu)化目的是在最大功率約束下實現(xiàn)頻譜效率最大化:
(8)
式(8)為NP難非凸優(yōu)化問題,傳統(tǒng)基于模型的方法難以求解,本文提出深度Q網(wǎng)絡的功率分配(Deep Q-Network based Power Allocation,DQN-PA)和基于深度確定性策略梯度的功率分配(Deep Deterministic Policy Gradient based Power Allocation,DDPG-PA)兩種深度強化學習方法.
Q-Learning是最流行的強化學習算法之一,旨在處理馬爾科夫決策過程問題[18].在t時刻,智能體觀察環(huán)境的當前狀態(tài)st∈S,其中S是所有可能狀態(tài)的集合,然后根據(jù)某個特定策略π從允許的一組動作集A中采取動作at,并獲得獎勵rt+1,之后獲得下一時刻狀態(tài)st+1和獎勵.智能體不斷學習優(yōu)化一個可迭代計算的Q函數(shù),目的是尋找最佳策略以最大化期望回報.Q函數(shù)更新公式為:
Q(st,at)←Q(st,at)+α[rt+1+γmaxaQ(st+!,a)-Q(st,at)]
(9)
式中,Q(st,at)為t時刻智能體在狀態(tài)st下采取動作at對應的期望回報;maxaQ(st+!,a)為t+1時刻智能體在狀態(tài)st+1下采取各種動作a的最大期望回報;γ為折扣系數(shù),代表立即獎勵與未來獎勵相對重要性的權(quán)衡,值越低表示未來獎勵的影響越小;σ為學習速率.
在Q-Learning算法中,智能體使用Q表來記錄不同時刻的狀態(tài)動作值,這一方法在面對具有大規(guī)模數(shù)據(jù)空間或連續(xù)數(shù)據(jù)的任務時非常低效.對于這個問題,可以通過使用價值函數(shù)逼近的方法來解決,即利用簡單的線性函數(shù)或采用非線性的決策樹、最近鄰和神經(jīng)網(wǎng)絡等方法來逼近價值函數(shù).對于線性逼近,Q-Learning已被證明可以收斂于最優(yōu)解.而對于非線性逼近,Q-Learning不穩(wěn)定,甚至是發(fā)散的[18].DQN解決了這一問題.
DQN尋找最佳策略的核心是獲得Q函數(shù)Qπ(s,a;θ),其中θ表示神經(jīng)元之間的權(quán)重,DQN更新θ以逼近Q函數(shù)Qπ(s,a).智能體將經(jīng)驗存儲在數(shù)據(jù)集Dt={e1,e2,…,et},通過梯度下降算法訓練DQN.在理想情況下,DQN使用每個迭代中的數(shù)據(jù),但是當訓練集過大時,采用迭代法會使得時間復雜度過高,因此可采用訓練集的隨機子集,小批量地評估每輪迭代中的梯度.這樣,損失函數(shù)為:
(10)
由于需要大量的學習數(shù)據(jù)、訓練時間和DNN參數(shù),使得多個智能體的訓練十分困難,為了解決這一問題,采用了集中式訓練和分布式執(zhí)行的策略.集中訓練中,只訓練一個策略,并將小批量的大小設置為智能體個數(shù),學習到的策略由所有智能體執(zhí)行,因此訓練是集中的,執(zhí)行是分布式的.
(11)
下行鏈路功率為受最大功率pmax限制的連續(xù)變量,但是DQN-PA中的動作空間必須是有限的,這里將發(fā)射功率量化為|A|水平:
(12)
獎勵函數(shù)以提高智能體的傳輸速率為目標,從而減輕干擾影響.功率分配的目標是最大化總和頻譜效率,因此,獎勵是時隙t的總和頻譜效率:
(13)
DDPG算法可以看作是確定性策略梯度(Deterministic Policy Gradient,DPG)算法和DNN的結(jié)合,也可以看作是DQN算法在連續(xù)動作空間中的擴展,它可以解決DQN算法無法直接應用于連續(xù)動作空間的問題.DDPG算法同時建立Q值函數(shù)(Critic)和策略函數(shù)(Actor).Q值函數(shù)與DQN算法相同,通過時間差分方法進行更新.策略函數(shù)利用Q值函數(shù)的估計,通過策略梯度方法進行更新.
Actor通過映射網(wǎng)絡Ac(s;θa)生成具有觀測值s的確定性動作a,其中θa表示Actor參數(shù).Critic是一個半無模型的Critic網(wǎng)絡,可以利用先驗知識和神經(jīng)網(wǎng)絡的靈活性,通過Critic網(wǎng)絡Cr(sc,a;μ)用狀態(tài)動作對預測Q值,其中μ表示Critic參數(shù),sc是critic狀態(tài).
與DQN-PA方法相比,臨界值和Q值估計器在值估計方面相似,區(qū)別在于Critic將s和a都作為輸入,以預測Q值,但估計所有具有輸入的動作的相應Q值.Critic和Actor協(xié)調(diào)工作,因此DDPG的最優(yōu)策略是:
(14)
LDDPG(θa)=Cr(μ)|a=Ac(θa)
(15)
和
(16)
其中,式(15)意味著Actor 努力從Critic獲得最大的評價;式(16)旨在獲得精確的評價.
與DQN-PA方法類似,DDPG-PA方法使用多智能體系統(tǒng)來訓練Ac(θa)和Cr(μ).狀態(tài)和獎勵與DQN-PA方法中相同,不同的是,DDPG-PA由ActorAc(θa)輸出確定性動作:
(17)
與動態(tài)ε貪婪策略相同,為了確保在訓練期間進行探索,在確定性策略輸出中加入一個噪聲項ηk,則探索動作定義為:
(18)
本文所提出的兩種基于DRL大規(guī)模MIMO系統(tǒng)功率分配方法能夠有效降低計算復雜度,這歸功于本文的集中式訓練和分布式執(zhí)行框架.
所提方法經(jīng)集中訓練后,分布式執(zhí)行功率分配.因此,所提方法的計算復雜度由DNN決定.對于密集神經(jīng)網(wǎng)絡,復雜度為O(vμ2),其中v指層數(shù),μ指最多神經(jīng)元的所在層的神經(jīng)元數(shù)量,而輸入層的維度由每層神經(jīng)元的數(shù)量決定,則O(μ)=O(L+K+1).同時,神經(jīng)網(wǎng)絡的層數(shù)與問題的規(guī)模無關(guān),因此,DRL方法的計算復雜度為O(L2+K2).而文獻[6]中的WMMSE方法的復雜度為O(IL2K3),其中I表示迭代次數(shù).顯然,基于DRL的功率分配方法的計算復雜度要低得多,這表明在給定處理平臺上的執(zhí)行時間更少,所提方法可以實現(xiàn)功率分配對信道的動態(tài)調(diào)整,這在采用WMMSE迭代算法時無法保證.
考慮一個多小區(qū)大規(guī)模MIMO蜂窩系統(tǒng).將小區(qū)半徑歸一化為1,路徑損耗模型同文獻[19].在仿真中,K個用戶在小區(qū)呈現(xiàn)均勻隨機分布,其中Rmin表示用戶與基站之間的最小距離.根據(jù)200kHz的相干帶寬和1ms的相干時間選擇相干間隔τc=200.表1給出了仿真參數(shù)的設置.
表1 大規(guī)模MIMO系統(tǒng)的參數(shù)設置Table 1 Parameter settings for massive MIMO
為了選擇DNN的結(jié)構(gòu),研究隱藏層的數(shù)量和每個隱藏層的神經(jīng)元數(shù)量對DQN-PA和DDPG-PA方法訓練過程的影響,設置以下3種DNN候選體系結(jié)構(gòu):
1)DNN1:兩個全連接的隱藏層,分別有128個和64個神經(jīng)元;
2)DNN2:兩個全連接的隱藏層,分別有256個和128個神經(jīng)元;
圖2 DQN-PA和DDPG-PA方法基于3種DNN候選架構(gòu)的訓練過程Fig.2 DQN-PA and DDPG-PA methods are based on the training process of three DNN candidate architectures
3)DNN3:3個全連接的隱藏層,分別有256個、128個和64個神經(jīng)元.
圖2顯示了以總和頻譜效率為效用函數(shù),使用3種DNN候選體系結(jié)構(gòu)DQN-PA和DDPG-PA的訓練過程,訓練長度為20,000個時隙.
由圖2可以看出,3種DNN候選結(jié)構(gòu)的DQN-PA的總和頻譜效率均在5000個訓練時隙期間穩(wěn)定收斂到35bit/s/Hz左右,波動是由用戶的隨機移動性引起的.而DDPG-PA分別收斂到37bit/s/Hz、35bit/s/Hz和30bit/s/Hz左右的波動,DNN的結(jié)構(gòu)對DDPG-PA的影響相對更大,這是由于DDPG-PA方法本身網(wǎng)絡結(jié)構(gòu)比DQN-PA更復雜,更深的層數(shù)和更多的神經(jīng)元個數(shù)會帶來過擬合的問題,使得總和頻譜效率性能下降.基于以上分析,選擇DNN1作為DQN-PA和DDPG-PA方法中DNN的體系結(jié)構(gòu).
還有其他超參數(shù)影響DQN-PA和DDPG-PA方法的訓練過程,即折扣系數(shù)γ、訓練間隔C、初始自適應學習率α0、自適應貪婪算法ε和小批量處理大小|Dt|.
表2 超參數(shù)設置Table 2 Hyperparameter settings
自適應學習意味著學習率隨著訓練時隙的數(shù)量而衰減.通常,學習率越高使模型學習更快,但最終易獲得次優(yōu)的權(quán)重集合,學習率越小使模型學習較慢但會更優(yōu)化,能夠得到全局最優(yōu)的權(quán)重集,自適應學習率平衡了訓練時間和性能.ε貪婪策略是一種探索和利用(Exploration and Exploitation)權(quán)衡的學習方法,其中智能體以概率ε采取隨機行動,DQN-PA或DDPG-PA以概率1-ε采取行動,隨機動作使得訓練“跳出”局部最優(yōu)并探索新的收斂區(qū)域.在自適應貪婪算法中,每個訓練時隙的值都會衰減.較大的值避免訓練在初始訓練時隙中以局部最優(yōu)結(jié)束,較小的值確保訓練將在以后的訓練時隙中收斂.表2給出了超參數(shù)的設置.
為了評估本文提出的DQN-PA方法和DDPG-PA方法在大規(guī)模MIMO系統(tǒng)中功率分配的性能,本文選用3種代表性基準算法:第1種基于模型的加權(quán)最小均方誤差功率分配(WMMSE-Power Allocation,WMMSE-PA)方法[6];第2種最大功率分配(Maximal-Power Allocation,M-PA)方法,即pl,k=pmax,?l,k;第3種是是隨機功率分配(Random-Power Allocation,R-PA)方法,即pl,k~U(0,pmax).
其中,WMMSE-PA算法是解決大規(guī)模MIMO下行鏈路總和頻譜效率最大化問題的模型驅(qū)動方法,該算法將總和頻譜效率最大化的問題轉(zhuǎn)化為信號檢測中均方誤差最小化問題,WMMSE算法生成的迭代序列至少收斂到效用最大化問題的局部最優(yōu)值,并且通信和計算復雜度低.本文選擇WMMSE算法作為基準算法來突出所提算法在性能和計算復雜度上的優(yōu)勢.而M-PA和R-PA分別是用于通信系統(tǒng)的兩種簡單算法.M-PA和R-PA分別讓基站—用戶下行鏈路以最大功率傳輸信息或以隨機選擇功率傳輸信息.然而當鏈路密度較大時,鏈路之間存在著嚴重的干擾,M-PA和R-PA方法的性能較差,且鏈路通過M-PA或R-PA傳輸信號會影響系統(tǒng)頻譜效率性能.本文選擇二者作為基準算法來體現(xiàn)所提算法在性能和計算復雜度兩個方面的優(yōu)越性.
針對所提DQN-PA和DDPG-PA方法,使用了DNN1體系結(jié)構(gòu).訓練周期為20,000個時隙.訓練后,運行1000個時隙的系統(tǒng)并記錄了5種功率分配方法獲得的總和頻譜效率值.
圖3 K=10,M=100時的總和頻譜效率及總和頻譜效率的經(jīng)驗累計分布函數(shù)Fig.3 Sum spectral efficiency and empirical cumulative distribution function of sum spectral efficiency at K=10,M=100
圖3給出了K=10、M=100時,10,000個時隙的總和頻譜效率及總和頻譜效率的經(jīng)驗累積分布函數(shù).由圖3左圖可見,所提出的DQN-PA和DDPG-PA方法的總和頻譜效率性能均優(yōu)于WMMSE-PA、R-PA和M-PA方法.WMMSE-PA方法容易陷入局部最優(yōu),P-PA和M-PA不能很好適應復雜環(huán)境導致性能較差.與WMMSE-PA、R-PA和M-PA方法相比,所提方法之所以能提高總和頻譜效率性能,是因為使用了無模型的深度強化學習功率分配,深度強化學習的探索機制策略大大增加了解的多樣性,提高系統(tǒng)的網(wǎng)絡吞吐量,因此DQN-PA和DDPG-PA方法能夠避免傳統(tǒng)WMMSE-PA方法易局部最優(yōu)的不足,在滿足用戶傳輸需求的情況下實現(xiàn)大規(guī)模MIMO系統(tǒng)中功率分配的頻譜效率性能最優(yōu).
圖3右圖給出了總和頻譜效率的經(jīng)驗累積分布函數(shù).可以看出,在用戶數(shù)和天線數(shù)相同的情況下,DDPG-PA和DQN-PA方法獲得更高總和頻譜效率的概率更大.而且,DDPG-PA方法總是在DQN-PA方法的右側(cè),兩種方法分別比WMMSE-PA方法高出18.6bit/s/Hz左右和12.7bit/s/Hz左右.可以得出結(jié)論,DDPG-PA方法比DQN-PA方法實現(xiàn)了更好的性能,這是因為DQN-PA方法在訓練過程中可以利用任意時刻收集的數(shù)據(jù)來提高樣本效率,但發(fā)射功率電平的量化會對功率分配的性能產(chǎn)生一定影響,采用DDPG-PA方法可避免這一缺點.
為了分析天線數(shù)和用戶數(shù)對總和頻譜效率性能的影響,分別改變K和M值進行實驗.首先將天線數(shù)值從100增加到150,K值仍為10,圖4分別給出了10,000個時隙的總和頻譜效率及總和頻譜效率的經(jīng)驗累計分布函數(shù).與圖3進行比較,可以看出結(jié)果非常相近.因為大規(guī)模MIMO中的功率分配是基于基站用戶鏈路進行優(yōu)化的,基站天線數(shù)量的變化并不影響功率分配的結(jié)果.
圖4 K=10,M=150時的總和頻譜效率及總和頻譜效率的經(jīng)驗累計分布函數(shù)Fig.4 Sum spectral efficiency and empirical cumulative distribution function of sum spectral efficiency at K=10,M=150
然后,用戶數(shù)k值從10增加到15,天線數(shù)M值保持為原來的100,其10,000時隙的總和頻譜效率及總和頻譜效率的經(jīng)驗累計分布函數(shù)如圖5所示.與圖3相比,可以看出DQN-PA和DDPG-PA方法的總和頻譜效率性能與WMMSE-PA方法差距明顯變大.可以得出結(jié)論,基于DRL的功率分配方法對對用戶的數(shù)量更敏感,當用戶的數(shù)量發(fā)生變化時,所提方法可獲得更優(yōu)的總和頻譜效率性能.
圖5 K=15,M=100時的總和頻譜效率及總和頻譜效率的經(jīng)驗累計分布函數(shù)Fig.5 Sum spectral efficiency and empirical cumulative distribution function of sum spectral efficiency at K=15,M=100
為了了解基于DRL的功率分配方法與WMMSE-PA方法在時間復雜度上的差異.選擇10,000個時隙并記錄每個時隙的執(zhí)行時間,表3給出了實驗方法執(zhí)行時間的統(tǒng)計值.
表3 實驗方法的執(zhí)行時間(毫秒)Table 3 Execution time of experimental methods(in ms)
可以看出,DQN-PA和DDPG-PA方法比WMMSE-PA方法需要的處理時間少得多,變化也更小.此外,DDPG-PA方法時間性能略優(yōu)DQN-PA方法,時間波動主要由于不同的初始化,不同的算法初始點可以使找到最優(yōu)值所需的時間有很大差異.
研究了在多小區(qū)多用戶的大規(guī)模MIMO系統(tǒng)中使用DQN-PA和DDPG-PA兩種基于DRL的功率分配方法,以最大化下行鏈路總和頻譜效率為目標,模型考慮了導頻污染導致的不完美CSI,推導出下行鏈路總和頻譜效率優(yōu)化函數(shù).與需要大量訓練數(shù)據(jù)集的監(jiān)督學習不同,基于DRL的方法是通過與環(huán)境交互來訓練的,且只需執(zhí)行少量的矩陣乘法,目標函數(shù)直接定義為訓練神經(jīng)網(wǎng)絡的獎勵.實驗結(jié)果表明,所提方法比傳統(tǒng)的方法具有更好的總和頻譜效率性能,且時間復雜度要低得多.此外,DDPG-PA方法在總和頻譜效率性能和時間復雜度方面都優(yōu)于DQN-PA方法.本文重點是最大化總和頻譜效率,后續(xù)將針對系統(tǒng)的能量效率進行研究.