譚俊杰,梁應(yīng)敞
(電子科技大學(xué)通信抗干擾技術(shù)國家級(jí)重點(diǎn)實(shí)驗(yàn)室 成都 611731)
隨著智能手機(jī)等智能終端的普及以及各類應(yīng)用的出現(xiàn),人們對(duì)無線通信的速率、時(shí)延等方面都提出了更高的要求。為了滿足更高的通信需求,越來越多的新技術(shù)被應(yīng)用于無線通信網(wǎng)絡(luò)中,如更高階的編碼調(diào)制方案(modulation and coding scheme)、部署緩存(cache)甚至基于無人機(jī)(unmanned aerial vehicle, UAV)的空中基站等。并進(jìn)一步提出了將各類異構(gòu)的無線網(wǎng)絡(luò)進(jìn)行有機(jī)整合,再按需分配提升網(wǎng)絡(luò)整體彈性[1]。這些技術(shù)提升了無線網(wǎng)絡(luò)的承載極限,但也增加了管理維度。與此同時(shí),步入萬物互聯(lián)的時(shí)代,終端數(shù)量呈現(xiàn)出爆炸式的增長,導(dǎo)致無線網(wǎng)絡(luò)規(guī)模日益龐大。網(wǎng)絡(luò)規(guī)模及管理維度的雙重?cái)U(kuò)增導(dǎo)致復(fù)雜度激增,使得傳統(tǒng)的基于凸優(yōu)化或啟發(fā)式的無線網(wǎng)絡(luò)管理方法失效。
另一方面,近年來人工智能快速發(fā)展,其摒棄了傳統(tǒng)的人工數(shù)學(xué)建模后求解的方法,轉(zhuǎn)而利用數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法直接對(duì)數(shù)據(jù)進(jìn)行分析和處理。其中,深度學(xué)習(xí)(deep learning, DL)[2]和深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)[3]是最重要的兩類機(jī)器學(xué)習(xí)方法。DL 利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)挖掘數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,最終實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的預(yù)測。因此,DL 被廣泛應(yīng)用于計(jì)算機(jī)視覺及自然語言處理等領(lǐng)域。與DL 不同,DRL 屬于機(jī)器學(xué)習(xí)的另一分支,其目的是在復(fù)雜的動(dòng)態(tài)環(huán)境中進(jìn)行最優(yōu)決策。為了實(shí)現(xiàn)這一目標(biāo),DRL 首先記錄下環(huán)境與控制信息,然后利用DNN 對(duì)歷史經(jīng)驗(yàn)進(jìn)行分析并學(xué)習(xí)環(huán)境變化規(guī)律,最終根據(jù)學(xué)習(xí)到的規(guī)律得到最優(yōu)策略。因此,DRL 在自動(dòng)化控制領(lǐng)域得到廣泛應(yīng)用。2016 年,Google 打造出基于DRL 的AlphaGo[4]擊敗了韓國九段棋手李世乭,向世人證明了DRL 的強(qiáng)大實(shí)力。
由于信道時(shí)變等原因,無線通信網(wǎng)絡(luò)的管理是在動(dòng)態(tài)變化的無線環(huán)境中對(duì)網(wǎng)絡(luò)的眾多參數(shù)進(jìn)行優(yōu)化,實(shí)際上就是一個(gè)在動(dòng)態(tài)環(huán)境中的最優(yōu)決策問題,與DRL 的設(shè)計(jì)目標(biāo)相契合。因此,DRL 是智能無線通信的重要賦能者。DRL 強(qiáng)大的學(xué)習(xí)與決策能力可以對(duì)無線通信網(wǎng)絡(luò)進(jìn)行智能管理,使其在復(fù)雜的通信環(huán)境中都能夠精準(zhǔn)地匹配用戶需求,最終提升網(wǎng)絡(luò)的實(shí)際承載能力和用戶通信體驗(yàn)。
本文對(duì)DRL 及其涉及的基礎(chǔ)知識(shí)進(jìn)行介紹,并從無線通信網(wǎng)絡(luò)的資源管理、接入控制以及維護(hù)3 方面剖析DRL 如何實(shí)現(xiàn)智能通信,最后對(duì)目前尚未解決的開放問題進(jìn)行討論,為進(jìn)一步研究提供思路。
在正式介紹DRL 之前,首先對(duì)它所涉及的基礎(chǔ)知識(shí)進(jìn)行回顧。DRL 是一種求解馬爾科夫決策過程(Markov decision process, MDP)問題的智能方法,而其技術(shù)來源于強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)和DL。因此,本章分別介紹MDP、RL 和DL。
MDP 是一種對(duì)智能體與動(dòng)態(tài)環(huán)境交互過程進(jìn)行數(shù)學(xué)建模的方法[5]。其中,智能體是決策者,又稱為代理。環(huán)境則是除智能體外與之關(guān)聯(lián)和互動(dòng)的其他事物。一般地,智能體需要通過做出各種決策并采取行動(dòng)以實(shí)現(xiàn)自身目標(biāo),但是在采取行動(dòng)的過程中會(huì)對(duì)環(huán)境產(chǎn)生影響,且不同環(huán)境狀態(tài)下智能體得到的結(jié)果可能不同。MDP 的提出正是為了分析智能體和環(huán)境的復(fù)雜交互過程。
MDP 由一系列關(guān)鍵要素構(gòu)成,包括狀態(tài)、動(dòng)作、轉(zhuǎn)移概率、獎(jiǎng)賞和策略。
狀態(tài):狀態(tài)是對(duì)智能體對(duì)所處環(huán)境的描述。環(huán)境的變化可以由狀態(tài)的變化來表示。狀態(tài)一般表示為s 。所有可能的狀態(tài)則構(gòu)成了狀態(tài)空間S。
動(dòng)作:智能體所做出的決策或所采取的行動(dòng)稱之為動(dòng)作。動(dòng)作一般表示為a。智能體可以采取的所有動(dòng)作構(gòu)成了動(dòng)作空間A。
轉(zhuǎn)移概率:智能體采取的動(dòng)作可能導(dǎo)致環(huán)境發(fā)生變化,進(jìn)而使智能體所觀察到的環(huán)境狀態(tài)發(fā)生改變。狀態(tài)間的轉(zhuǎn)移所服從的概率即為轉(zhuǎn)移概率。若智能體在狀態(tài)為 s 時(shí)采取動(dòng)作 a使 得狀態(tài)變?yōu)?s′,轉(zhuǎn)移概率可以表示為 Pa(s,s′)。
獎(jiǎng)賞:智能體采取的每一個(gè)動(dòng)作都會(huì)使它接近或遠(yuǎn)離所設(shè)定的目標(biāo)。為了衡量所采取動(dòng)作的效果,智能體可從環(huán)境中觀察得到獎(jiǎng)賞值。特別的,智能體在狀態(tài)為 s 時(shí)采取動(dòng)作 a使 得狀態(tài)變?yōu)?s′獲得的獎(jiǎng)賞值記為 ra( s,s′)。
策略:智能體的決策規(guī)則稱為策略,記為π。其中, π(a |s)表 示當(dāng)狀態(tài)為 s 時(shí)選取動(dòng)作a 的概率。
MDP 的目標(biāo)為通過優(yōu)化智能體的策略π 來最大化時(shí)間跨度 T內(nèi)的期望累積獎(jiǎng)賞
式中,γ是折扣因子,其取值范圍是 [0,1]。 γ控制未來獎(jiǎng)賞對(duì)智能體在做當(dāng)前決策時(shí)的重要性。極端情況下, γ= 0表示智能體僅最大化當(dāng)前時(shí)刻的獎(jiǎng)賞,而 γ=1則表示智能體的目標(biāo)是最大化未來所有時(shí)刻得到的獎(jiǎng)賞。此外,若 T為有限值,則表示該MDP為有限時(shí)間跨度MDP,即該MDP 會(huì)因達(dá)到終止態(tài)停止運(yùn)行或運(yùn)行到某一時(shí)刻后停止運(yùn)行。相應(yīng)的,T=∞表示該MDP 為無限時(shí)間跨度MDP。MDP 的運(yùn)行過程如圖1 所示。
當(dāng)MDP 中除策略外的其他要素均已知時(shí),可以通過動(dòng)態(tài)規(guī)劃(dynamic programming, DP)來求解MDP 以獲得最大化R 的 最優(yōu)策略 π?。典型的方法有策略迭代和值迭代。
1.1.1 策略迭代
對(duì)于給定策略 π,由貝爾曼方程(Bellman’s Equation)[5]可得:
利用式(1)對(duì)所有狀態(tài) s ∈S不斷迭代,收斂得到的 Vπ( s)表 示智能體在策略 π下 ,從狀態(tài) s出發(fā)可得到的期望累積獎(jiǎng)賞。對(duì) Vπ(s),s ∈S迭代的過程稱為策略評(píng)估。
在對(duì)策略 π進(jìn)行策略評(píng)估后,可以根據(jù)得到的Vπ(s)對(duì)策略進(jìn)行改進(jìn)?;谪澙返姆椒?,可以得到改進(jìn)后的策略 π′:
文獻(xiàn)[5]證明通過不斷重復(fù)地進(jìn)行策略評(píng)估和策略迭代,最終得到的策略會(huì)收斂到最大化 R的最優(yōu)策略 π?,該方法稱為策略迭代。
1.1.2 值迭代
在策略迭代中,策略評(píng)估需要利用式(1)重復(fù)迭代直至收斂,而每一次策略改進(jìn)都需要先進(jìn)行策略評(píng)估。因此,策略迭代的計(jì)算復(fù)雜度較高。為了解決這一問題,值迭代將策略改進(jìn)融合進(jìn)策略評(píng)估中,將式(1)改寫為:
利用式(3)對(duì)所有狀態(tài) s ∈S迭代直至收斂后,最優(yōu)策略 π?可以通過下式得到
以上介紹的兩種基于DP 的方法都能有效地求解MDP 并獲得最優(yōu)策略。然而,它們都需要知道轉(zhuǎn)移概率。對(duì)于無線通信系統(tǒng),其系統(tǒng)狀態(tài)變化受信道變化、用戶行為等眾多隨機(jī)因素共同影響。這些隨機(jī)變量的概率分布難以準(zhǔn)確獲得。因此,將無線通信網(wǎng)絡(luò)中的問題建模成MDP,其轉(zhuǎn)移概率通常難以獲得。為了解決轉(zhuǎn)移概率缺失的問題,強(qiáng)化學(xué)習(xí)應(yīng)運(yùn)而生。
與需要提前知道轉(zhuǎn)移概率的DP 不同,RL 是通過試錯(cuò)(trial-and-error)來學(xué)習(xí)環(huán)境中存在的規(guī)律,進(jìn)而求解MDP[5]。因此,RL 可在不需要知道轉(zhuǎn)移概率的情況下求解MDP。目前廣泛采用的RL方法可以分為基于值的方法和基于策略的方法。
1.2.1 基于值的方法
式(1)可分解為:
其中,
Qπ(s,a)表 示智能體在策略 π下 ,在狀態(tài) s采取動(dòng)作 a可得到的期望累積獎(jiǎng)賞,稱為狀態(tài)-動(dòng)作對(duì)?s,a?的 Q 值。當(dāng)策略 π為最優(yōu)策略時(shí),對(duì)于任意的狀態(tài) s ∈S 和 a ∈ A, 相應(yīng)的Q 值 Q?(s,a)是在所有策略下獲得的最大Q 值。相反,若已知最大Q 值Q?(s,a), 那么可以根據(jù)下式得到最優(yōu)策略π?
根據(jù)這一性質(zhì),Q 學(xué)習(xí)利用智能體實(shí)際得到的Q 值樣本與預(yù)測Q 值之間的差值(又稱時(shí)間差分temporal difference)來迭代地更新Q 值,最終逼近 Q?(s,a)并 得到最優(yōu)策略 π?。具體的迭代公式為
式中,α是控制Q 值更新速度的學(xué)習(xí)速率。Q 學(xué)習(xí)的算法偽代碼如下。
算法1 Q 學(xué)習(xí)算法
輸入:S,A,α,γ
建立表格儲(chǔ) 存 Q( s,a),?s ∈S,a ∈A,并將 所有Q 值初始化為0
for t=1 : T
觀察環(huán)境得到狀態(tài)s ,根據(jù) ε貪婪規(guī)則選擇動(dòng)作a
采取動(dòng)作a,并觀察得到新狀態(tài) s′和 獎(jiǎng)賞ra(s,s′)
根據(jù)式(8)更新Q(s,a),?s ∈S,a ∈A
令s=s′
end for
算法1 中的 ε貪婪規(guī)則是指,智能體以ε 的概率選取隨機(jī)動(dòng)作,并以1 ?ε的概率選取Q 值最大的動(dòng)作,即 arg maxaQ(s,a)。前者令智能體探索未知的動(dòng)作,從而學(xué)習(xí)到潛在的更好的策略,而后者則令智能體充分利用已知的知識(shí)來做出最優(yōu)決策。通過改變 ε的大小可以調(diào)整兩方面的作用,使得智能體在學(xué)習(xí)速度和決策的最優(yōu)性中取得平衡。
以上介紹的Q 學(xué)習(xí)是一種典型的基于值的RL方法。實(shí)際上,基于值的RL 方法還有SARSA、雙Q 學(xué)習(xí)等,這些方法都是通過對(duì)Q 值進(jìn)行估計(jì)并利用Q 值得到最優(yōu)策略。然而,因?yàn)榛谥档姆椒ㄐ枰獮樗袪顟B(tài)-動(dòng)作對(duì)建立表格儲(chǔ)存其Q 值,所以當(dāng)MDP 的動(dòng)作或狀態(tài)空間很大(或?yàn)檫B續(xù)空間)會(huì)產(chǎn)生維度爆炸的問題。為了解決這一問題,人們提出了基于策略的RL 方法。
1.2.2 基于策略的方法
在基于策略的RL 方法中,動(dòng)作的選取不再需要對(duì)Q 值進(jìn)行評(píng)估。取而代之的是直接對(duì)策略進(jìn)行優(yōu)化。為了實(shí)現(xiàn)這一目標(biāo),首先需要將策略參數(shù)化,即用一個(gè)由參數(shù) θ確定的函數(shù)來表示策略π。那么,在狀態(tài) s 采取動(dòng)作a 的 概率可以寫為 π(a |s,θ)。如果策略的性能可以由一個(gè)標(biāo)量 J(θ)來量度,那么為了性能最大化,θ應(yīng)該以關(guān)于 J(θ)梯度上升的方向更新,即
下面介紹策略梯度法中的一種典型算法——蒙特卡洛策略梯度法,又稱為REINFORCE 算法。若定義 J(θ)為 由 θ確 定策略 π下 從某一狀態(tài) s0出發(fā)所得到的期望累積獎(jiǎng)賞,即 Vπθ(s0),文獻(xiàn)[5]可以證明關(guān)于θ 的 梯度 ?J (θ)為
算法2 REINFORCE 算法
初始化θ
for episode=1 : imax
for t=1 : T
觀察狀態(tài) st,根據(jù)選 取動(dòng)作at,并觀察得到新狀態(tài) st+1和 獎(jiǎng)賞rat(st,st+1)
end for
for t=1 : T
end for
end for
在算法2 中,策略是以回合(episode)為單位進(jìn)行更新的。在一個(gè)回合中,智能體需要用同一策略產(chǎn)生共 T個(gè)時(shí)刻的一組動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)。然后利用這些信息對(duì) θ和策略進(jìn)行更新。這導(dǎo)致策略梯度法有兩個(gè)缺點(diǎn):1)策略梯度法只適用于有限時(shí)間跨度的回合制MDP,然而在實(shí)際無線通信網(wǎng)絡(luò)中,系統(tǒng)的運(yùn)行可能是無限時(shí)間跨度的;2)策略的更新以回合制為單位,使得策略更新速度慢、不同回合下得到的決策方差較大,即穩(wěn)定性較差。以上兩點(diǎn)使策略梯度法不便于在線部署。
綜上,雖然基于策略的方法解決了基于值的方法的維度爆炸問題,但同時(shí)也帶來了新的問題。因此,人們嘗試通過將DL 與RL 結(jié)合來解決這些問題。
DL 是一種利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)來表征數(shù)據(jù)的關(guān)系,并最終實(shí)現(xiàn)擬合或分類功能的算法。因此,DNN 是DL 的關(guān)鍵。
圖2 為DNN 的一個(gè)典型結(jié)構(gòu)。如圖所示,DNN的基本組成單元是相互連接的神經(jīng)元。DNN 中的神經(jīng)元排列具有層次結(jié)構(gòu),通常包含一個(gè)輸入層、一個(gè)輸出層和數(shù)個(gè)隱層。神經(jīng)元間的連接強(qiáng)弱關(guān)系由權(quán)值決定,權(quán)值由圖2 中神經(jīng)元間連線表示。圖3 示出了神經(jīng)元間的信息傳遞過程。其中,每個(gè)神經(jīng)元將與之連接的上一層神經(jīng)元的輸出值乘以相應(yīng)的權(quán)值并求和,再通過一個(gè)激活函數(shù)將信息傳遞到下一層連接的神經(jīng)元。激活函數(shù)一般有“sigmoid”[6]“ReLU”[7]“tanh”等。根據(jù)DNN的信息傳遞規(guī)則,輸入數(shù)據(jù)被各層神經(jīng)元逐層加工最終得到輸出結(jié)果,這個(gè)過程稱為正向傳播。通過對(duì)比神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測值和真實(shí)訓(xùn)練數(shù)據(jù),DNN 可以調(diào)整神經(jīng)網(wǎng)絡(luò)間的權(quán)值以提高預(yù)測的準(zhǔn)確度,這個(gè)過程稱為誤差反向傳播。訓(xùn)練后的DNN 可以表征數(shù)據(jù)間的關(guān)系,進(jìn)而能對(duì)未知輸入數(shù)據(jù)做出準(zhǔn)確的預(yù)測。
然而,并不是所有的DNN 都能有效地挖掘數(shù)據(jù)間中存在的關(guān)聯(lián)關(guān)系并對(duì)未知輸入做出準(zhǔn)確預(yù)測。實(shí)際上,神經(jīng)元的連接方式,即DNN 的結(jié)構(gòu),是影響DNN 性能的關(guān)鍵因素。神經(jīng)元的連接方式通常有全連接、卷積連接、池化連接和循環(huán)連接等。相應(yīng)的,以上幾種連接方式構(gòu)成了DNN 中的全連接層(fully-connected layer)、卷積層(convolutional layer)[8]、池化層(pooling layer)[8]和循環(huán)層(recurrent layer)[9]。在實(shí)際應(yīng)用中,DNN 的結(jié)構(gòu)是由數(shù)據(jù)自身的特征來決定的。下面將對(duì)這幾種構(gòu)成DNN 的常見層結(jié)構(gòu)進(jìn)行介紹。
全連接層:全連接是DNN 中神經(jīng)元最簡單的連接方式。如圖4 所示,全連接層中的神經(jīng)元與相鄰層的所有神經(jīng)元均相連。因?yàn)槿B接層的本質(zhì)是特征空間的線性變換,所以它對(duì)數(shù)據(jù)的特征沒有特別的要求。
卷積層:全連接層因所有神經(jīng)元的相連而導(dǎo)致權(quán)值過于冗余。因此,全連接層在處理某些局部特征相似的數(shù)據(jù)(如圖5)時(shí)訓(xùn)練速度和準(zhǔn)確率較差。卷積層的提出就是為了處理局部特征相似的數(shù)據(jù)。卷積層由神經(jīng)元排列構(gòu)成多個(gè)卷積核。其中,卷積核中每個(gè)神經(jīng)元與上一層神經(jīng)元相連時(shí)共享權(quán)值。通過權(quán)值共享,卷積層可以從輸入信息中匹配與卷積核特征相同的部分,實(shí)現(xiàn)局部特征提取。
池化層:池化層一般與卷積層一起出現(xiàn)于處理圖像數(shù)據(jù)的DNN。在進(jìn)行某些任務(wù)時(shí),如圖5 分類等,圖5 中特征出現(xiàn)的具體位置不影響結(jié)果。因此,池化層被用于對(duì)卷積層輸出結(jié)果的合并,標(biāo)記出數(shù)據(jù)中存在的哪類特征更明顯。
循環(huán)層:當(dāng)數(shù)據(jù)在時(shí)域有序列相關(guān)性時(shí),循環(huán)層可以捕捉和利用這種相關(guān)性。如圖6 所示,輸入到循環(huán)層的信息當(dāng)處理完后會(huì)重新輸入到網(wǎng)絡(luò)中,以使得歷史信息和當(dāng)前信息一起被處理。在實(shí)際應(yīng)用中,循環(huán)層的其他變體也得到廣泛應(yīng)用,如長短時(shí)記憶(long short-term memory, LSTM)層[10]等。
DRL 的基本思想就是將DL 中的DNN 與RL相結(jié)合,以解決RL 中存在的維度爆炸、學(xué)習(xí)速度慢等問題。同樣的,DRL 也可以通過基于值的方法和基于策略的方法來實(shí)現(xiàn)。
基于值的RL 方法存在的主要問題是需要建立表格來儲(chǔ)存Q 值,而當(dāng)動(dòng)作或狀態(tài)空間很大時(shí)會(huì)產(chǎn)生維度爆炸的問題。這導(dǎo)致它們無法應(yīng)用或收斂速度極慢。
為了解決這一問題,人們提出用DNN 來擬合存儲(chǔ)Q 值的表格。因此,這類DNN 被稱為深度Q 網(wǎng) 絡(luò)(deep Q-network, DQN)。若 θ表 示DNN 的參 數(shù),則 Q( s,a;θ)表 示 狀 態(tài)-動(dòng) 作 對(duì) ?s, a?的Q 值。當(dāng)DQN 的參數(shù) θ為最優(yōu)參數(shù) θ?時(shí),相應(yīng)的是Q 值是最大的Q 值,并且最優(yōu)策略 π?可以由下式確定
式中,
參數(shù)θ 的更新應(yīng)最小化損失函數(shù),即:
梯度下降法可用于式(14)中對(duì)參數(shù) θ的更新。
然而,利用式(12)~式(14)訓(xùn)練DQN 存在兩個(gè)問題。首先,智能體得到的每個(gè)經(jīng)驗(yàn)僅能用于更新一次參數(shù)θ,這導(dǎo)致數(shù)據(jù)的利用率低下。其次,利用正在訓(xùn)練的DQN 來計(jì)算目標(biāo)值,即式(13),會(huì)導(dǎo)致目標(biāo)值隨著每一次 θ的更新而改變。而事實(shí)上,目標(biāo)值是對(duì)真實(shí)Q 值的估計(jì)值,不應(yīng)該與 θ高度相關(guān)?;谝陨纤枷?,文獻(xiàn)[11]提出經(jīng)驗(yàn)回放和擬靜態(tài)目標(biāo)網(wǎng)絡(luò)(quasi-static target network)來提高DQN 的訓(xùn)練速度、準(zhǔn)確度和穩(wěn)定性。
在經(jīng)驗(yàn)回放中,智能體將所有經(jīng)驗(yàn)放入一個(gè)大小為 M 的經(jīng)驗(yàn)池 M 中,然后在每次更新參數(shù) θ時(shí)從M抽 取 B 個(gè)經(jīng)驗(yàn)組成經(jīng)驗(yàn)集合 B來做批量梯度下降。經(jīng)驗(yàn)池 M是一個(gè)先入先出(first input first output,FIFO)的隊(duì)列,若放入的經(jīng)驗(yàn)大于 M,則將最先放入的經(jīng)驗(yàn)丟棄。在擬靜態(tài)目標(biāo)網(wǎng)絡(luò)中,智能體建立兩個(gè)DQN,一個(gè)用于訓(xùn)練(稱為訓(xùn)練DQN),另一個(gè)用于計(jì)算目標(biāo)值(稱為目標(biāo)DQN)。目標(biāo)DQN 和訓(xùn)練DQN 每隔時(shí)間間隔 K同步一次。結(jié)合這兩個(gè)技術(shù),θ的更新公式可以寫為:
式中,
結(jié)合集合經(jīng)驗(yàn)回放和擬靜態(tài)目標(biāo)網(wǎng)絡(luò)的完整算法流程如算法3 所示,稱為深度Q 學(xué)習(xí)(deep Qlearning)算法。該算法是目前公認(rèn)基于DQN 的標(biāo)準(zhǔn)DRL 算法,其最初由DeepMind 團(tuán)隊(duì)在2015 年提出并證明了其在Atari 游戲上可以達(dá)到或超過人類操作的水平[11]。由于Atari 游戲提供的信息游戲屏幕顯示的圖像數(shù)據(jù),為了處理圖像數(shù)據(jù),DeepMind團(tuán)隊(duì)在應(yīng)用深度Q 學(xué)習(xí)算法時(shí)特別設(shè)計(jì)了一個(gè)包含卷積層、池化層和全連接層的DNN 作為DQN。因此,DQN 的結(jié)構(gòu)應(yīng)當(dāng)與需要處理的數(shù)據(jù)相匹配。算法3 深度Q 學(xué)習(xí)算法
輸入: γ,B,M,K
初始化訓(xùn)練DQN 參數(shù) θ和目標(biāo)DQN 參數(shù) θ′,令 θ′=θ ;建立一個(gè)大小為 M的先入先出隊(duì)列作為經(jīng)驗(yàn)池M
for t=1 : T
觀察環(huán)境得到狀態(tài)s ,根據(jù)ε 貪 婪規(guī)則選擇動(dòng)作a
采取動(dòng)作a,并觀察得到新狀態(tài) s′和 獎(jiǎng)賞ra(s,s′)
將得到的經(jīng)驗(yàn)s ,a, ra( s,s′)和 s′組 合成經(jīng)驗(yàn)et,并將 et放入經(jīng)驗(yàn)池M
從經(jīng)驗(yàn)池中選取 B個(gè)經(jīng)驗(yàn)形成經(jīng)驗(yàn)集合 Bt,根據(jù)式(15)和式(16)更新θ
若 t m od K==0, 則令θ′=θ
end for
除算法3 所示的深度Q 學(xué)習(xí)算法外,目前也有一些針對(duì)該算法的改進(jìn),以獲得性能提升。下面簡要介紹兩種得到廣泛應(yīng)用的改進(jìn)算法,包括雙深度Q 學(xué)習(xí)(double deep Q-learning)算法[12]和競爭深度Q 學(xué)習(xí)(dueling deep Q-learning)算法[13]。
雙深度Q 學(xué)習(xí):在深度Q 學(xué)習(xí)中,目標(biāo)值的估計(jì)是取估計(jì)的Q 值的最大值,而動(dòng)作的選取也是取令Q 值最大的動(dòng)作。因此,這會(huì)導(dǎo)致Q 值的估計(jì)過于樂觀,并且該誤差會(huì)隨著時(shí)間推移往后傳遞。為了解決這一問題,文獻(xiàn)[12]提出采用兩個(gè)DQN 輪流且獨(dú)立地負(fù)責(zé)動(dòng)作選取和Q 值估計(jì)。相應(yīng)的DRL 算法稱為雙深度Q 學(xué)習(xí)算法。
競爭深度Q 學(xué)習(xí):上面所述兩種深度Q 學(xué)習(xí)方法都是對(duì)Q 值進(jìn)行估計(jì),也就是對(duì)動(dòng)作-狀態(tài)對(duì)進(jìn)行評(píng)估。因此,當(dāng)動(dòng)作數(shù)比較多時(shí),用于估計(jì)Q 值的所需的樣本數(shù)較多,導(dǎo)致訓(xùn)練時(shí)間長、決策準(zhǔn)確度低等問題。事實(shí)上,在某些狀態(tài)下,無論動(dòng)作如何選取,導(dǎo)致的結(jié)果可能是相近的,無需對(duì)各個(gè)動(dòng)作都進(jìn)行準(zhǔn)確的估計(jì)。如當(dāng)無線信道較差時(shí),無論發(fā)送端選取多大功率,接收端的信干噪比(signal to interference plus noise ratio, SINR)都達(dá)不到最低閾值。針對(duì)這種情況,文獻(xiàn)[13]提出競爭深度Q 學(xué)習(xí)。其基本思想是采用兩個(gè)DQN 分別對(duì)狀態(tài)的價(jià)值和在給定狀態(tài)下各個(gè)動(dòng)作的價(jià)值優(yōu)勢(shì)進(jìn)行評(píng)估。該文獻(xiàn)結(jié)果顯示,在動(dòng)作空間較大的復(fù)雜問題中,競爭深度Q 學(xué)習(xí)顯示出明顯的性能優(yōu)勢(shì)。
以上基于值的DRL 方法通過將DNN 用于擬合Q 值來解決維度爆炸問題,且允許狀態(tài)空間為無限大。然而,這些方法在動(dòng)作選取時(shí)需要在整個(gè)動(dòng)作空間下遍歷對(duì)應(yīng)的Q 值,導(dǎo)致它們只適用于有限大小的動(dòng)作空間,即離散動(dòng)作空間。針對(duì)連續(xù)動(dòng)作空間的MDP,需要基于行動(dòng)評(píng)論家的DRL 方法來求解。
雖然基于策略的RL 方法通過將策略參數(shù)化來實(shí)現(xiàn)連續(xù)動(dòng)作的選取,但是也帶來了數(shù)據(jù)利用率低、決策穩(wěn)定性差等問題。與此同時(shí),基于值的方法可以利用每一步得到的經(jīng)驗(yàn)對(duì)策略進(jìn)行逐步更新,且其依據(jù)Q 值進(jìn)行高穩(wěn)定性的決策。于是,人們提出了深度確定性策略梯度(deep deterministic policy gradient, DDPG)來將二者結(jié)合[14]。其基本思想是采用兩個(gè)DNN 分別作為動(dòng)作家(actor)和評(píng)論家(critic)。評(píng)論家相當(dāng)于基于值的方法中的Q 值評(píng)估,即擬合和估計(jì)Q 值,而動(dòng)作家相當(dāng)于基于策略方法中的策略參數(shù)化,用于找出Q 值與最優(yōu)動(dòng)作之間的映射關(guān)系。換言之,在DDPG 中,動(dòng)作選取不再是選擇當(dāng)前狀態(tài)下Q 值最大的動(dòng)作,而是讓動(dòng)作家參考評(píng)論家評(píng)估的Q 值來直接選取。
這一類包含動(dòng)作家和評(píng)論家的DRL 方法統(tǒng)稱為基于動(dòng)作評(píng)論家(actor-critic, AC)的DRL 方法。這類方法的其他代表算法有異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(asynchronous advantage actor-critic, A3C)[15]、信賴域策略優(yōu)化(trust region policy optimization, TRPO)[16]、近端策略優(yōu)化(proximal policy optimization, PPO)[17]等。
可靠高速的無線通信網(wǎng)絡(luò)依賴于各類資源的動(dòng)態(tài)協(xié)調(diào)與配置。當(dāng)前,為了滿足不同的通信需求,人們大量部署了蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)絡(luò)、個(gè)人短距離通信網(wǎng)絡(luò)等。這些網(wǎng)絡(luò)采用了不同的無線電接入技術(shù)(radio access technology, RAT),其結(jié)構(gòu)各異且擁有互不共享的獨(dú)占資源,導(dǎo)致資源整體利用率低。此外,這些異構(gòu)網(wǎng)絡(luò)提供的服務(wù)單一,難以響應(yīng)用戶多樣化的通信需求。為了高效地滿足未來多元化的通信需求,異構(gòu)網(wǎng)絡(luò)間的資源需要高度整合并根據(jù)用戶需求精準(zhǔn)匹配。
然而,無線環(huán)境動(dòng)態(tài)變化,信道或用戶需求隨時(shí)間隨機(jī)變化。此外,相關(guān)的資源分配問題一般都是復(fù)雜的非凸問題。這些問題都為無線網(wǎng)絡(luò)中的資源管理增加了難度。鑒于DRL 是解決動(dòng)態(tài)環(huán)境中決策問題的有效方法,人們嘗試將其用于管理無線通信中的各類資源,包括頻譜資源、功率資源以及網(wǎng)絡(luò)資源等。
頻譜資源是無線通信中最寶貴的稀缺資源。為了在有限的頻譜上滿足人們對(duì)高速率通信的需求,無線網(wǎng)絡(luò)需要更彈性的頻譜資源管理。根據(jù)頻譜采用時(shí)分復(fù)用或頻分復(fù)用的方式,頻譜資源的管理也可分為時(shí)域或頻域上的管理。
對(duì)于異構(gòu)網(wǎng)絡(luò)采用時(shí)分的方式共享同一頻譜,如何為不同網(wǎng)絡(luò)進(jìn)行合理的時(shí)間分配是頻譜資源管理的關(guān)鍵問題。理想情況下,各網(wǎng)絡(luò)應(yīng)當(dāng)依據(jù)其網(wǎng)絡(luò)的用戶流量需求對(duì)頻譜進(jìn)行彈性接入,也就是說,用戶需求較大的網(wǎng)絡(luò)可以占用更長時(shí)間的頻譜進(jìn)行傳輸。然而,異構(gòu)網(wǎng)絡(luò)間有一定的獨(dú)立性,難以迅速交互信令信息來相互協(xié)調(diào)。針對(duì)這一問題,文獻(xiàn)[18]研究了長期演進(jìn)(long term evolution, LTE)蜂窩系統(tǒng)與無線局域網(wǎng)(WiFi)在缺少信令交互情況下的頻譜共享問題。其中,LTE 系統(tǒng)通過調(diào)整虛擬幀中LTE 的傳輸時(shí)間和WiFi 的傳輸時(shí)間來調(diào)節(jié)兩個(gè)網(wǎng)絡(luò)的頻譜資源。LTE 系統(tǒng)的目標(biāo)是在滿足WiFi 網(wǎng)絡(luò)流量需求的情況下最大化LTE 傳輸時(shí)間,以最大頻譜的利用率。傳統(tǒng)的方法需要LTE系統(tǒng)從WiFi 網(wǎng)絡(luò)中獲取其具體的流量信息后做出相應(yīng)的優(yōu)化。為了避免異構(gòu)網(wǎng)絡(luò)間難以實(shí)現(xiàn)的直接信息交互,文獻(xiàn)[18]發(fā)現(xiàn)頻譜信息中實(shí)際上蘊(yùn)含了關(guān)于WiFi 網(wǎng)絡(luò)的流量需求等信息,因而提出利用DRL 來根據(jù)頻譜信息直接對(duì)傳輸時(shí)間進(jìn)行優(yōu)化。該文獻(xiàn)創(chuàng)造性的利用頻譜信息中一個(gè)幀的最長空閑時(shí)間來作為WiFi 網(wǎng)絡(luò)是否得到充分保護(hù)的指標(biāo)。當(dāng)該指標(biāo)低于閾值時(shí),說明WiFi 網(wǎng)絡(luò)的流量需求沒有獲得充分滿足,相應(yīng)的DRL 獎(jiǎng)賞值設(shè)為0,否則獎(jiǎng)賞值為LTE 系統(tǒng)的吞吐量。DRL 的動(dòng)作就是LTE 的傳輸時(shí)間,其動(dòng)作空間是將虛擬幀長離散化后的向量。DRL 的狀態(tài)則設(shè)計(jì)為LTE 系統(tǒng)能觀察頻譜獲得的頻譜信息,包括一個(gè)幀中的最長空閑時(shí)間、總空閑時(shí)間、總繁忙時(shí)間、歷史動(dòng)作和歷史獎(jiǎng)賞。最后該文獻(xiàn)提出了一個(gè)基于DQN 的DRL 算法來求解該問題。由于狀態(tài)中的信息不包含圖像或序列信息,其設(shè)計(jì)的DQN 采用了一個(gè)包含三層全連接層作為隱層的DNN。除文獻(xiàn)[18]外,文獻(xiàn)[19-21]也提出了基于DRL 的頻譜時(shí)分接入方案。
除時(shí)分復(fù)用外,頻分復(fù)用是另一種復(fù)用方式。在這種方式下,頻譜被劃分成多個(gè)正交信道,進(jìn)而通過為網(wǎng)絡(luò)或用戶分配信道來實(shí)現(xiàn)頻譜資源管理。文獻(xiàn)[22]研究了多用戶的信道分配問題。在多信道多用戶場景下,多個(gè)用戶同時(shí)使用一個(gè)信道進(jìn)行傳輸會(huì)導(dǎo)致數(shù)據(jù)包的碰撞,進(jìn)而發(fā)送失敗。因此,需要合理地為各個(gè)用戶匹配所使用的信道,以提高成功傳輸?shù)母怕?。該文獻(xiàn)提出利用DRL 使用戶分布式地協(xié)調(diào)信道接入策略。每個(gè)用戶將其在過去多個(gè)時(shí)刻的包發(fā)送歷史(即包成功發(fā)送與否)作為DRL 的狀態(tài)。動(dòng)作空間即選擇發(fā)送的信道或不發(fā)送。若當(dāng)前時(shí)刻的包成功發(fā)送,則獎(jiǎng)賞設(shè)置為1,否則為0。由于狀態(tài)中包含多個(gè)時(shí)刻的信息,作者在設(shè)計(jì)DQN 時(shí)采用了LSTM 層來捕捉數(shù)據(jù)中的時(shí)間相關(guān)性。此外,為了提高學(xué)習(xí)性能,文獻(xiàn)[22]將競爭深度Q 學(xué)習(xí)和雙深度Q 學(xué)習(xí)結(jié)合,采用了競爭-雙深度Q 學(xué)習(xí)。仿真結(jié)果表明,在沒有信令交互情況下,用戶總能獨(dú)立地學(xué)習(xí)到一組互相避讓的信道選擇方式,提高了信道利用率和用戶成功發(fā)送概率。
此外,用戶也可以通過智能的信道選擇來規(guī)避比規(guī)避干擾。再復(fù)雜的通信環(huán)境中,用戶可能會(huì)受到惡意(如干擾器)或非惡意(如電磁泄漏)的干擾,降低了用戶的通信速率和使用體驗(yàn)。文獻(xiàn)[23]提出了一種基于DRL 的智能干擾規(guī)避方案。其利用頻譜瀑布圖中包含的干擾圖案來預(yù)測干擾情況,進(jìn)而預(yù)測并選擇未受干擾的信道進(jìn)行傳輸。作者將用戶觀測頻譜得到的瀑布圖作為狀態(tài),并設(shè)計(jì)動(dòng)作空間為所有可用的信道。若用戶當(dāng)前時(shí)刻接收到的SINR 大于閾值,則認(rèn)為用戶在該時(shí)刻成功發(fā)送,則設(shè)回報(bào)值為常數(shù) C1,否則為0。同時(shí),由于切換信道會(huì)帶來額外的開銷。因此,若用戶相鄰時(shí)刻更換了信道,則設(shè)開銷值為常數(shù) C2,否則為0。最終,DRL 的獎(jiǎng)賞設(shè)計(jì)為用戶得到的回報(bào)值與開銷值相減。由于DRL 的狀態(tài)是圖像信息,文獻(xiàn)[23]采用了遞歸卷積層(recursive convolutional layer)來設(shè)計(jì)DQN。其中,遞歸卷積層是作者針對(duì)頻譜瀑布圖中的遞歸特性對(duì)卷積層進(jìn)行的改進(jìn),目的是降低計(jì)算復(fù)雜度和提高算法的運(yùn)算速度。
上一小節(jié)所介紹的頻譜資源管理考慮對(duì)頻譜正交使用,即用戶或網(wǎng)絡(luò)在同一時(shí)頻點(diǎn)上不重疊。雖然正交使用頻譜可以避免相互干擾,但頻譜效率難以進(jìn)一步提升。為最大化網(wǎng)絡(luò)容量,應(yīng)當(dāng)考慮頻譜的非正交接入,這就帶來了干擾問題。通過功率資源分配可以進(jìn)行精確的干擾管理,以獲得空間復(fù)用增益。例如,當(dāng)某些用戶對(duì)其他用戶的干擾信道較弱時(shí),它們可以以較大功率進(jìn)行傳輸,從而在相互干擾較小時(shí)獲得較高的傳輸速率。
文獻(xiàn)[24]考慮了一個(gè)認(rèn)知無線電(cognitive radio,CR)中的功率控制問題。其中,次用戶(secondary user)通過占用主用戶(primary user)的頻譜來進(jìn)行通信,提高頻譜利用率。然而,主用戶是該頻譜的合法使用者,其通信質(zhì)量不應(yīng)受次用戶的損害。為了使主次用戶的服務(wù)質(zhì)量(quality-of-service,QoS)都得到滿足,作者提出了一個(gè)基于DRL 的功率控制方案。在此方案中,次用戶部署多個(gè)傳感器在主用戶周圍,以感知主用戶附近的接收功率。由于傳感器得到的接收功率包含了信道、主次用戶的發(fā)送功率等信息,通過讓DRL 分析傳感器的數(shù)據(jù)可以學(xué)習(xí)到信道的變化與主用戶的發(fā)送策略,進(jìn)而調(diào)整次用戶的發(fā)送功率來讓主次用戶的QoS 都得到滿足。DRL 的狀態(tài)設(shè)計(jì)為所有傳感器獲得的接收功率。此外,DRL 的動(dòng)作空間由將最大發(fā)送功率離散化后的所有可選功率構(gòu)成。當(dāng)次用戶選擇功率進(jìn)行發(fā)送后,若主次用戶的QoS 都得到滿足,則DRL 的獎(jiǎng)賞設(shè)置為1,否則為0。最后,深度Q 學(xué)習(xí)算法被用于實(shí)現(xiàn)DRL,其中,一個(gè)包含三層全連接層的DNN 被用作DQN。
文獻(xiàn)[24]針對(duì)的是單用戶的功率控制問題,無法應(yīng)用于多用戶的場景。為此,文獻(xiàn)[25]考慮蜂窩網(wǎng)絡(luò)的多用戶功率資源分配問題,其目標(biāo)是最大化整個(gè)網(wǎng)絡(luò)的加權(quán)總速率(weighted sum-rate,WSR)。由于用戶互相干擾,WSR 最大化的問題是NP-hard 問題,難以用優(yōu)化方法求得全局最優(yōu)解。除此之外,用戶間的信道狀態(tài)時(shí)變且信道信息數(shù)據(jù)龐大,無法實(shí)時(shí)上傳到一個(gè)中央處理單元進(jìn)行運(yùn)算。該文獻(xiàn)利用DRL 解決了這兩個(gè)問題。首先,每個(gè)用戶的獎(jiǎng)賞值被設(shè)計(jì)為該用戶自身速率與對(duì)其他用戶造成的速率損失的差值,這樣就將WSR 最大化問題分解成了可以讓各個(gè)用戶分布式求解的子問題。然后,各用戶的DRL 狀態(tài)包含了自身的信道狀態(tài)、接收功率和對(duì)其他用戶造成的干擾等信息。通過對(duì)這些數(shù)據(jù)分析,DRL 讓各用戶預(yù)測其未來的信道狀態(tài)以及其他用戶的發(fā)送功率,從而選擇一個(gè)合適的功率來最大化自身的獎(jiǎng)賞值。作者提出的DRL 算法是一個(gè)離線學(xué)習(xí)和在線部署的雙層架構(gòu)。在離線訓(xùn)練時(shí),一個(gè)中央訓(xùn)練器與各個(gè)用戶建立高速的回傳鏈路。通過該鏈路,各個(gè)用戶及時(shí)將自己的狀態(tài)以及獎(jiǎng)賞值向訓(xùn)練器傳輸并獲得一個(gè)動(dòng)作值。當(dāng)訓(xùn)練完成后,每個(gè)用戶可以獨(dú)自利用訓(xùn)練好的DQN 根據(jù)輸入的狀態(tài)得到最優(yōu)的動(dòng)作,不再需要回傳鏈路交互信息。仿真結(jié)果顯示,該基于DRL 的方案的性能甚至可以超越傳統(tǒng)基于優(yōu)化的近似最優(yōu)算法。
文獻(xiàn)[26]將文獻(xiàn)[25]拓展到了多用戶設(shè)備到設(shè)備(device-to-device,D2D)通信場景。文獻(xiàn)[26]在設(shè)計(jì)DRL 的狀態(tài)、動(dòng)作以及獎(jiǎng)賞時(shí)考慮了多信道的情況,解決了信道與功率資源的聯(lián)合分配問題。此外,文獻(xiàn)[26]也將文獻(xiàn)[25]所提的離線學(xué)習(xí)與在線部署的雙層架構(gòu)改進(jìn)為在線學(xué)習(xí)及訓(xùn)練架構(gòu),避免了離線學(xué)習(xí)中回傳信息產(chǎn)生的額外開銷。
虛擬現(xiàn)實(shí)(virtual reality, VR)、3D 全息通信等業(yè)務(wù)的出現(xiàn)使得無線通信網(wǎng)絡(luò)不再只是服務(wù)于點(diǎn)與點(diǎn)之間的信息交互,而是各類多樣化業(yè)務(wù)的承載方。因此,除了頻譜、功率等物理層的資源外,無線網(wǎng)絡(luò)還包含為網(wǎng)絡(luò)層或應(yīng)用層服務(wù)的資源,如緩存資源和邊緣計(jì)算資源等。因此,未來的無線通信網(wǎng)絡(luò)必然包含多維度的網(wǎng)絡(luò)資源,導(dǎo)致資源管理更為復(fù)雜并使傳統(tǒng)方法失效。下面以緩存資源和邊緣計(jì)算資源為例,介紹如何利用DRL 對(duì)網(wǎng)絡(luò)資源進(jìn)行高效管理。
為了降低用戶獲取數(shù)據(jù)的時(shí)延,無線網(wǎng)絡(luò)可以在靠近用戶終端的接入側(cè)部署緩存單元來預(yù)加載熱門資源。由于緩存的大小是有限的,對(duì)哪些數(shù)據(jù)進(jìn)行預(yù)加載是管理緩存資源的關(guān)鍵問題。文獻(xiàn)[27]提出利用DRL 對(duì)用戶的數(shù)據(jù)請(qǐng)求進(jìn)行分析,并根據(jù)用戶請(qǐng)求規(guī)律更換緩存中的文件。在該文獻(xiàn)中,作者將DRL 的狀態(tài)設(shè)計(jì)為各文件被用戶請(qǐng)求的次數(shù),動(dòng)作則是下一時(shí)刻應(yīng)當(dāng)被緩存的文件。若緩存的文件沒有命中用戶請(qǐng)求,網(wǎng)絡(luò)需要為用戶從云端獲取文件并產(chǎn)生開銷,此時(shí)懲罰值為獲取該文件的開銷,否則懲罰值為0。值得注意的是,這里并沒有用到獎(jiǎng)賞值,而是懲罰值。因此,DRL 的目標(biāo)是最小化期望累積懲罰。為了實(shí)現(xiàn)這一目標(biāo),作者將深度Q 算法進(jìn)行了修改,將算法3 中所有對(duì)Q 值的最大化和反最大化運(yùn)算都更換為對(duì)Q 值的最小化及反最小化運(yùn)算。其采用的DQN 是包含三個(gè)隱層為全連接層的DNN。仿真表明,該文獻(xiàn)所提的DRL 緩存策略比目前常用的最近最不常用(least frequently used, LFU)策略、FIFO 策略,以及最近最少使用(least recently used, LRU)策略均能獲得更低的開銷。
當(dāng)用戶需求更為多樣化時(shí),終端設(shè)備卻在往小體積、低功耗的方向發(fā)展,如可穿戴設(shè)備等。顯然,具有高計(jì)算復(fù)雜度的業(yè)務(wù),如需要實(shí)時(shí)計(jì)算大量3D 畫面的VR 等,難以由終端設(shè)備獨(dú)立完成。因此,移動(dòng)邊緣計(jì)算(mobile edge computing, MEC)被提出用于解決這一矛盾。在MEC 中,具有強(qiáng)大運(yùn)算能力的節(jié)點(diǎn)被部署于網(wǎng)絡(luò)接入側(cè),便于對(duì)來自于移動(dòng)設(shè)備的計(jì)算請(qǐng)求快速應(yīng)答。對(duì)于一個(gè)給定的計(jì)算任務(wù),若讓終端設(shè)備請(qǐng)求MEC 單元遠(yuǎn)程執(zhí)行,它將需要向MEC 上傳任務(wù)數(shù)據(jù),帶來通信時(shí)延,且需要向MEC 提供者交納服務(wù)費(fèi)用。相反,終端設(shè)備本地執(zhí)行計(jì)算任務(wù)則會(huì)損耗本地電能,以及較高的本地計(jì)算時(shí)延(本地運(yùn)算能力通常較MEC弱)。因此,為了以最低的時(shí)延和最小的開銷完成計(jì)算任務(wù),需要合理地分配網(wǎng)絡(luò)中的計(jì)算資源。
文獻(xiàn)[28]考慮了物聯(lián)網(wǎng)(Internet of things, IoT)中的計(jì)算資源分配問題。其中,IoT 設(shè)備每個(gè)時(shí)刻采集到的電能和產(chǎn)生的計(jì)算任務(wù)都是服從一定規(guī)律的隨機(jī)變量。為了滿足IoT 設(shè)備的計(jì)算需求,MEC單元被部署在網(wǎng)絡(luò)邊緣。IoT 設(shè)備需要決定任務(wù)在本地或在MEC 單元執(zhí)行。若決定在本地執(zhí)行,IoT設(shè)備還需要決定分配用于計(jì)算的功率。若設(shè)備分配的計(jì)算功率越大,則任務(wù)執(zhí)行速度越快,完成計(jì)算任務(wù)的時(shí)延越低,但同時(shí)電能損耗也更大。若決定將任務(wù)放在MEC 執(zhí)行,則IoT 設(shè)備需要承受通信時(shí)延(由信道決定)和MEC 設(shè)備運(yùn)算的計(jì)算時(shí)延。計(jì)算任務(wù)只有在規(guī)定時(shí)間內(nèi)完成時(shí)才算成功完成。為了最大化計(jì)算任務(wù)的成功完成率,該文獻(xiàn)提出了基于DRL 的計(jì)算資源分配方案。在該方案中,IoT 設(shè)備利用DRL 決定各個(gè)計(jì)算任務(wù)在本地執(zhí)行的功率,而功率為0 則表示在MEC 執(zhí)行。DRL 的狀態(tài)為當(dāng)前時(shí)刻能量到達(dá)的數(shù)量,計(jì)算任務(wù)隊(duì)列的長度,以及信道狀態(tài)。最后,DRL 的獎(jiǎng)賞值由一個(gè)效用函數(shù)決定,其考慮了計(jì)算時(shí)延、成功/失敗任務(wù)數(shù)以及MEC 服務(wù)費(fèi)用等因素。基于這3 個(gè)DRL 中的基本元素,作者利用聯(lián)邦-深度Q 學(xué)習(xí)算法對(duì)這個(gè)問題進(jìn)行了求解。該算法是在深度Q 學(xué)習(xí)的基礎(chǔ)上加入了聯(lián)邦學(xué)習(xí)(federated learning)[29],通過讓多個(gè)DRL 智能體同時(shí)學(xué)習(xí)來加快學(xué)習(xí)速度。
此外,文獻(xiàn)[30-33]也成功地將DRL 用于緩存資源和計(jì)算資源的聯(lián)合優(yōu)化問題中,說明DRL在管理網(wǎng)絡(luò)資源上擁有強(qiáng)大的應(yīng)用前景。
步入萬物互聯(lián)時(shí)代,無線通信設(shè)備的數(shù)量呈現(xiàn)出指數(shù)增長的趨勢(shì)。與此同時(shí),采用不同RAT 的異構(gòu)網(wǎng)絡(luò)大量存在,它們均由數(shù)目眾多的基站組成。特別是對(duì)于采用毫米波的網(wǎng)絡(luò),由于毫米波基站覆蓋范圍比較小,運(yùn)營商需要部署大量小蜂窩基站(small-cell base station, SBS)來保證無線信號(hào)的覆蓋率。這使得用戶接入控制變得復(fù)雜,難以獲得最優(yōu)的用戶與網(wǎng)絡(luò)或基站的匹配方式。事實(shí)上,因信道變化等原因,用戶需要不斷切換接入的網(wǎng)絡(luò)或基站來保持最佳的匹配。因此,接入控制又稱為切換控制(handover control)。根據(jù)用戶是在采用不同RAT的異構(gòu)網(wǎng)絡(luò)間切換或同一網(wǎng)絡(luò)下的不同基站間切換,切換控制可以分為垂直切換(vertical handover)和水平切換(horizontal handover)[34]。
當(dāng)采用不同RAT 的異構(gòu)網(wǎng)絡(luò)相對(duì)獨(dú)立時(shí),它們的資源無法共享。此時(shí),若各網(wǎng)絡(luò)中的用戶需求差異比較大時(shí),它們也無法協(xié)調(diào)資源來主動(dòng)地滿足各用戶的需求。為此,垂直切換將用戶重新分配在不同的網(wǎng)絡(luò)上,從而更合理地利用各網(wǎng)絡(luò)的資源。文獻(xiàn)[35]將DRL 用于移動(dòng)通信終端在LTE 網(wǎng)絡(luò)和WiFi 網(wǎng)絡(luò)的智能垂直切換上。其中,LTE 網(wǎng)絡(luò)和WiFi 網(wǎng)絡(luò)的服務(wù)費(fèi)用不同,且終端在不同網(wǎng)絡(luò)下傳輸消耗的能量也不同。因此,該文獻(xiàn)考慮垂直切換的目標(biāo)是讓終端在滿足傳輸時(shí)延要求的情況下最小化傳輸費(fèi)用和能量開銷。為了實(shí)現(xiàn)這一目標(biāo),DRL 的狀態(tài)被設(shè)計(jì)為當(dāng)前時(shí)刻終端的位置和剩余發(fā)送的文件大小,而DRL 的動(dòng)作則是選擇下一時(shí)刻傳輸數(shù)據(jù)使用的網(wǎng)絡(luò)。值得注意的是,與文獻(xiàn)[27]類似,這里沒有設(shè)計(jì)獎(jiǎng)賞值,取而代之的是懲罰值。懲罰值包含了傳輸費(fèi)用,能量開銷,以及未能在規(guī)定時(shí)間內(nèi)完成傳輸產(chǎn)生的懲罰項(xiàng)。為了讓DRL 最小化懲罰值,該文獻(xiàn)同樣對(duì)深度Q 學(xué)習(xí)算法進(jìn)行了與文獻(xiàn)[27]類似的修改。仿真結(jié)果表明,和基于DP 的算法相比,基于DRL 的接入方案可以有效地降低傳輸費(fèi)用和能量開銷。
除垂直切換外,目前也有文獻(xiàn)利用DRL 實(shí)現(xiàn)基站間的智能水平切換。文獻(xiàn)[36]考慮一個(gè)由眾多SBS 組成的超密集網(wǎng)絡(luò)(ultra dense network, UDN)。傳統(tǒng)的基站切換算法是讓終端設(shè)備比較連接基站的參考信號(hào)接收功率(reference signal received power,RSRP)與其他基站的RSRP,若其他基站最強(qiáng)的RSRP 比當(dāng)前基站的RSRP 大于某一閾值,則進(jìn)行切換。這種切換方法雖然保證了用戶接收信號(hào)的強(qiáng)度,但是不可避免地造成各基站負(fù)載不均,降低了擁塞基站的用戶體驗(yàn)。某個(gè)基站的負(fù)載定義為該基站連接用戶的所有請(qǐng)求資源塊和該基站可用資源塊之比。該文獻(xiàn)提出在原有切換規(guī)則的閾值上再加入一個(gè)偏置值,然后通過調(diào)整各基站切換到其他基站的偏置值來實(shí)現(xiàn)負(fù)載均衡。為了實(shí)現(xiàn)這一目標(biāo),作者利用DRL 來對(duì)偏置值進(jìn)行優(yōu)化。DRL 的狀態(tài)包含了所有基站的負(fù)載信息以及它們的邊緣用戶占所有用戶的比值,而DRL 的動(dòng)作則是從各基站切換到其他基站的偏置值。DRL 的獎(jiǎng)賞設(shè)置為所有基站的最大負(fù)載的倒數(shù)??梢?,該獎(jiǎng)賞值在所有基站達(dá)到相同負(fù)載時(shí)取得最大值,因此DRL 的目標(biāo)是令所有基站的負(fù)載相同。由于DRL 的動(dòng)作包含連續(xù)值,該文獻(xiàn)采用了A3C 算法來實(shí)現(xiàn)DRL。此外,因?yàn)镈RL 的動(dòng)作是一個(gè)向量,所以作者還將A3C 中的動(dòng)作家設(shè)計(jì)為一個(gè)含有多個(gè)輸出層的DNN來輸出向量值。
文獻(xiàn)[37]進(jìn)一步嘗試將接入控制與資源分配相結(jié)合,考慮了多層基站蜂窩網(wǎng)絡(luò)中的用戶接入與信道分配聯(lián)合優(yōu)化問題。當(dāng)前蜂窩網(wǎng)絡(luò)中的基站有宏蜂窩基站(macro base station, MBS)、SBS 和微蜂窩基站(pico base station, PBS)3 種。它們具有不同的發(fā)射功率,導(dǎo)致其覆蓋范圍也不同。因此,終端設(shè)備在同一個(gè)時(shí)刻可能同時(shí)接收到多個(gè)基站的信號(hào)。此時(shí),合理地分配用戶及信道可以獲得最大的空間復(fù)用增益,進(jìn)而最大化網(wǎng)絡(luò)整體速率。然而,該問題是一個(gè)高度非凸的整數(shù)優(yōu)化問題,難以優(yōu)化求解。為此,該文獻(xiàn)首先將該問題建模成多個(gè)智能體(即多智體)的博弈問題。其中,多智體的目標(biāo)函數(shù)為自身速率和發(fā)送功率開銷、切換基站開銷的差值。即,各終端設(shè)備的目標(biāo)是在最大化自身速率的同時(shí),最小化發(fā)送功率和切換基站次數(shù)。基于此目標(biāo)函數(shù),作者證明了該多智體博弈存在納什均衡點(diǎn)(Nash equilibrium, NE),并提出利用DRL 對(duì)基站和信道進(jìn)行智能選擇來求解該NE。和文獻(xiàn)[22]類似,該文獻(xiàn)也采用競爭-雙深度Q 學(xué)習(xí)算法來實(shí)現(xiàn)DRL,并通過仿真結(jié)果證明該算法可以獲得比深度Q 學(xué)習(xí)算法、雙深度Q 學(xué)習(xí)算法更高的網(wǎng)絡(luò)總速率。
前兩章分別對(duì)無線通信網(wǎng)絡(luò)中的智能資源管理和智能接入控制相關(guān)文獻(xiàn)進(jìn)行了介紹。它們利用DRL 替代原本基于優(yōu)化或啟發(fā)式的傳統(tǒng)算法,以保證無線網(wǎng)絡(luò)在大規(guī)模及復(fù)雜環(huán)境下依然能高效地運(yùn)行。然而,更為復(fù)雜的網(wǎng)絡(luò)不僅為網(wǎng)絡(luò)高效運(yùn)行帶來困難,同時(shí)也極大地增加了網(wǎng)絡(luò)維護(hù)的難度。特別是當(dāng)前網(wǎng)絡(luò)維護(hù)仍大量依賴人工參與,其高成本和不及時(shí)的響應(yīng)速度難以滿足未來無線通信的需求。因此,實(shí)現(xiàn)智能通信同樣需要為網(wǎng)絡(luò)維護(hù)賦予智能。下面將以網(wǎng)絡(luò)故障修復(fù)、基站管理以及基站部署規(guī)劃等三方面為例,說明DRL 如何應(yīng)用于無線通信網(wǎng)絡(luò)的智能維護(hù)。
隨著網(wǎng)絡(luò)規(guī)模增加,網(wǎng)絡(luò)發(fā)生故障的概率也隨之增加。傳統(tǒng)的網(wǎng)絡(luò)排錯(cuò)和修復(fù)方法需要專家的參與,修復(fù)效率比較低。文獻(xiàn)[38]嘗試將DRL 應(yīng)用于網(wǎng)絡(luò)故障自我修復(fù)。在一個(gè)隨機(jī)出現(xiàn)故障的網(wǎng)絡(luò)中,DRL 的目標(biāo)是在給定的時(shí)間內(nèi)通過選擇正確的排錯(cuò)操作來清除故障。DRL 的狀態(tài)設(shè)計(jì)為網(wǎng)絡(luò)中故障數(shù)的指示值,分別表示其增加、減少或不變。DRL 的動(dòng)作空間包含所有可以排除故障的操作。在選擇動(dòng)作后,DRL 會(huì)得到一個(gè)由排除故障耗費(fèi)時(shí)間決定的獎(jiǎng)賞值。該文獻(xiàn)采用了深度Q 學(xué)習(xí)算法來實(shí)現(xiàn)DRL,并通過仿真說明基于DRL 的網(wǎng)絡(luò)故障自修復(fù)方法可以有效提升網(wǎng)絡(luò)可用性。
對(duì)于擁有大量基站的網(wǎng)絡(luò)來說,用戶流量的空時(shí)分布不均使得其中部分基站可能在某些時(shí)候處于空閑的狀態(tài)。然而,維持空閑基站的運(yùn)作同樣需要耗費(fèi)電能并產(chǎn)生成本。因此,為了提高網(wǎng)絡(luò)能量效率和降低成本,無線網(wǎng)絡(luò)需要依據(jù)用戶流量需求動(dòng)態(tài)地開啟和關(guān)閉基站。鑒于流量需求是動(dòng)態(tài)隨機(jī)的,文獻(xiàn)[39]提出利用DL 對(duì)各基站的流量進(jìn)行分析和預(yù)測,然后利用DRL 根據(jù)預(yù)測的流量對(duì)基站的開關(guān)進(jìn)行控制。其中,DRL 的狀態(tài)除了包含流量的預(yù)測值外,還包含上一時(shí)刻對(duì)于基站開關(guān)的歷史決策信息。DRL 的動(dòng)作則是控制所有基站的開關(guān)組合??梢?,動(dòng)作空間將隨基站數(shù)量指數(shù)增長。當(dāng)基站數(shù)量比較大時(shí),動(dòng)作空間將會(huì)非常龐大。因此,該文獻(xiàn)采用可以輸出連續(xù)動(dòng)作的DDPG 算法來實(shí)現(xiàn)DRL。其中,DDPG 輸出的連續(xù)動(dòng)作被離散化后映射為特定的基站開關(guān)組合。此外,該文獻(xiàn)提出了一個(gè)懲罰函數(shù),包含了用戶體驗(yàn)損失、能量開銷以及開關(guān)切換開銷。最后,通過使用DDPG算法最小化該懲罰函數(shù),可以在保證用戶體驗(yàn)時(shí)最小化能量損耗及開關(guān)切換次數(shù)。除文獻(xiàn)[39]外,文獻(xiàn)[40]也提出了一個(gè)基于DRL 的基站智能休眠策略,以降低網(wǎng)絡(luò)能耗。
對(duì)于某些人口稀疏的地區(qū),部署大量基站來保證無線網(wǎng)絡(luò)的覆蓋率是難以實(shí)現(xiàn)的。同時(shí),在固定的基站部署方式下,用戶流量的空時(shí)分布不均也會(huì)導(dǎo)致熱點(diǎn)區(qū)域網(wǎng)絡(luò)堵塞的問題。因此,人們提出利用UAV 作為空中基站來服務(wù)地面通信終端。然而,UAV 的覆蓋范圍有限,且用戶與空中基站的信道會(huì)隨著UAV 的移動(dòng)而改變。這都為UAV 空中基站的部署帶來了難度。文獻(xiàn)[41]提出利用DRL進(jìn)行空中基站的部署規(guī)劃。其中,DRL 的狀態(tài)包含了UAV 和所有用戶的當(dāng)前坐標(biāo),而DRL 的動(dòng)作空間則是UAV 可以移動(dòng)的方向,包括x、y、z 軸上的正方向及負(fù)方向,以及保持原有位置。當(dāng)UAV 移動(dòng)到一個(gè)新的位置時(shí),DRL 的獎(jiǎng)賞值為空中基站與地面終端設(shè)備傳輸數(shù)據(jù)的總速率。最后,深度Q 學(xué)習(xí)算法被用于規(guī)劃UAV 的飛行軌跡,從而得到最優(yōu)的空中基站部署規(guī)劃。
雖然目前初步的研究表明DRL 具有賦能智能通信及滿足未來無線通信需求的潛能,但是其在理論和應(yīng)用上尚有一些開放問題需要解決,如分布式DRL 的非平穩(wěn)性、非完美數(shù)據(jù)的影響以及安全與隱私問題。
DRL 本質(zhì)上一種求解MDP 的方法,而MDP描述的是單個(gè)智能體與環(huán)境的交互過程。其中,環(huán)境狀態(tài)的改變是由智能體采取的動(dòng)作以及環(huán)境固有的轉(zhuǎn)移概率決定的。也就是說,若給定環(huán)境狀態(tài)和智能體采取的動(dòng)作,新的環(huán)境狀態(tài)出現(xiàn)的概率隨之固定?;谶@一特性,DRL 通過分析歷史數(shù)據(jù)來尋找并利用環(huán)境的變化規(guī)律,從而得到最優(yōu)決策。
然而,對(duì)于未來大規(guī)模的無線網(wǎng)絡(luò),使用單個(gè)智能體收集網(wǎng)絡(luò)中的所有信息并對(duì)所有參數(shù)同時(shí)做出決策將會(huì)導(dǎo)致信息收集困難、響應(yīng)時(shí)延高等問題。因此,分布式的方案,即采用多個(gè)智能體對(duì)網(wǎng)絡(luò)參數(shù)同時(shí)優(yōu)化,是解決以上問題的有效途徑。顯然,當(dāng)存在多個(gè)智能體時(shí),環(huán)境狀態(tài)的改變將同時(shí)被多智體各自采取的動(dòng)作所影響。在此時(shí),對(duì)于某個(gè)智能體而言,其自身所在環(huán)境的狀態(tài)轉(zhuǎn)移概率將不再是確定的。這就是分布式DRL 中的非平穩(wěn)性。由于目前的DRL 算法在設(shè)計(jì)時(shí)并沒有考慮多智體產(chǎn)生的非平穩(wěn)性,因此直接將它們應(yīng)用于分布式DRL 可能會(huì)導(dǎo)致算法不收斂或結(jié)果不穩(wěn)定等問題。目前采用分布式DRL 方案的研究,如文獻(xiàn)[37]嘗試通過共享多智體的狀態(tài)或基于博弈論的思想設(shè)計(jì)獎(jiǎng)賞值等方法解決非平穩(wěn)性的問題。雖然這些方法在求解特定問題上可以得到較好的結(jié)果,目前仍缺乏解決分布式DRL 非平穩(wěn)性的普適性理論。
DRL 的學(xué)習(xí)需要智能體從外界獲得足夠的信息,包括觀察環(huán)境得到狀態(tài)以及獎(jiǎng)賞值。在無線通信中,由于噪聲的存在,智能體對(duì)環(huán)境的觀察會(huì)受噪聲污染。除此之外,若智能體所需的信息需要由其他設(shè)備通過回傳鏈路反饋,其獲取的信息也有可能受信道變化等隨機(jī)因素影響而缺失。這類受污染或缺失的數(shù)據(jù)被稱為非完美數(shù)據(jù)。目前的研究通常認(rèn)為智能體所需信息都可完美獲得。然而,鑒于無線通信環(huán)境的特殊性,研究非完美數(shù)據(jù)對(duì)DRL 學(xué)習(xí)過程和學(xué)習(xí)結(jié)果的影響具有重要意義。
作為一種數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,DRL 在對(duì)無線網(wǎng)絡(luò)進(jìn)行優(yōu)化的過程中需要對(duì)大量的數(shù)據(jù)進(jìn)行分析。例如,在智能資源管理的過程中,DRL 智能體需要在獲取各個(gè)網(wǎng)絡(luò)、基站甚至終端設(shè)備的信息后進(jìn)行決策。此外,分布式的DRL 方案也需要通過多智體之間的信息共享來緩解非平穩(wěn)性。然而,在實(shí)際應(yīng)用中,信息共享會(huì)帶來安全與隱私的問題。例如,網(wǎng)絡(luò)或基站的擁有者之間可能存在競爭關(guān)系,出于商業(yè)安全和保護(hù)用戶隱私的考慮,它們難以進(jìn)行直接的數(shù)據(jù)共享。同樣的,屬于不同的用戶設(shè)備也存在數(shù)據(jù)共享的壁壘。
值得注意的是,在當(dāng)前人工智能快速發(fā)展的時(shí)代,數(shù)據(jù)的安全和隱私問題正在受到越來越多關(guān)注。例如,歐盟和中國分別在2018 年和2019 年分別出臺(tái)了《通用數(shù)據(jù)保護(hù)條例》[42]和《人工智能北京共識(shí)》來規(guī)范人工智能在發(fā)展過程中產(chǎn)生的安全與隱私問題。為此,人們提出了多方安全計(jì)算(multi-party computation)[43]、差分 隱私(differential privacy)[44]和聯(lián)邦學(xué)習(xí)等方法,來解決機(jī)器學(xué)習(xí)中的數(shù)據(jù)安全與隱私問題。對(duì)于無線通信而言,如何依據(jù)無線通信的特征將它們與DRL 有機(jī)結(jié)合是構(gòu)建未來安全的智能無線通信網(wǎng)絡(luò)的關(guān)鍵。
本文對(duì)深度強(qiáng)化學(xué)習(xí)進(jìn)行了介紹,并從資源管理、接入控制以及網(wǎng)絡(luò)維護(hù)三個(gè)方面對(duì)目前利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)智能通信的研究進(jìn)展進(jìn)行了總結(jié)和剖析。目前的研究結(jié)果表明深度強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)智能通信的有效方法。最后,本文對(duì)目前尚未解決的開放問題進(jìn)行了討論,為未來的研究提供有益的思路。
本文研究工作還得到高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃(B20064)的資助,在此表示感謝。