面向智能通信的深度強(qiáng)化學(xué)習(xí)方法

2020-04-06 08:47譚俊杰梁應(yīng)敞

電子科技大學(xué)學(xué)報(bào) 2020年2期

譚俊杰，梁應(yīng)敞

(電子科技大學(xué)通信抗干擾技術(shù)國家級(jí)重點(diǎn)實(shí)驗(yàn)室成都 611731)

隨著智能手機(jī)等智能終端的普及以及各類應(yīng)用的出現(xiàn)，人們對(duì)無線通信的速率、時(shí)延等方面都提出了更高的要求。為了滿足更高的通信需求，越來越多的新技術(shù)被應(yīng)用于無線通信網(wǎng)絡(luò)中，如更高階的編碼調(diào)制方案(modulation and coding scheme)、部署緩存(cache)甚至基于無人機(jī)(unmanned aerial vehicle, UAV)的空中基站等。并進(jìn)一步提出了將各類異構(gòu)的無線網(wǎng)絡(luò)進(jìn)行有機(jī)整合，再按需分配提升網(wǎng)絡(luò)整體彈性[1]。這些技術(shù)提升了無線網(wǎng)絡(luò)的承載極限，但也增加了管理維度。與此同時(shí)，步入萬物互聯(lián)的時(shí)代，終端數(shù)量呈現(xiàn)出爆炸式的增長，導(dǎo)致無線網(wǎng)絡(luò)規(guī)模日益龐大。網(wǎng)絡(luò)規(guī)模及管理維度的雙重?cái)U(kuò)增導(dǎo)致復(fù)雜度激增，使得傳統(tǒng)的基于凸優(yōu)化或啟發(fā)式的無線網(wǎng)絡(luò)管理方法失效。

另一方面，近年來人工智能快速發(fā)展，其摒棄了傳統(tǒng)的人工數(shù)學(xué)建模后求解的方法，轉(zhuǎn)而利用數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法直接對(duì)數(shù)據(jù)進(jìn)行分析和處理。其中，深度學(xué)習(xí)(deep learning, DL)[2]和深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)[3]是最重要的兩類機(jī)器學(xué)習(xí)方法。DL 利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)挖掘數(shù)據(jù)中的關(guān)聯(lián)關(guān)系，最終實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的預(yù)測。因此，DL 被廣泛應(yīng)用于計(jì)算機(jī)視覺及自然語言處理等領(lǐng)域。與DL 不同，DRL 屬于機(jī)器學(xué)習(xí)的另一分支，其目的是在復(fù)雜的動(dòng)態(tài)環(huán)境中進(jìn)行最優(yōu)決策。為了實(shí)現(xiàn)這一目標(biāo)，DRL 首先記錄下環(huán)境與控制信息，然后利用DNN 對(duì)歷史經(jīng)驗(yàn)進(jìn)行分析并學(xué)習(xí)環(huán)境變化規(guī)律，最終根據(jù)學(xué)習(xí)到的規(guī)律得到最優(yōu)策略。因此，DRL 在自動(dòng)化控制領(lǐng)域得到廣泛應(yīng)用。2016 年，Google 打造出基于DRL 的AlphaGo[4]擊敗了韓國九段棋手李世乭，向世人證明了DRL 的強(qiáng)大實(shí)力。

由于信道時(shí)變等原因，無線通信網(wǎng)絡(luò)的管理是在動(dòng)態(tài)變化的無線環(huán)境中對(duì)網(wǎng)絡(luò)的眾多參數(shù)進(jìn)行優(yōu)化，實(shí)際上就是一個(gè)在動(dòng)態(tài)環(huán)境中的最優(yōu)決策問題，與DRL 的設(shè)計(jì)目標(biāo)相契合。因此，DRL 是智能無線通信的重要賦能者。DRL 強(qiáng)大的學(xué)習(xí)與決策能力可以對(duì)無線通信網(wǎng)絡(luò)進(jìn)行智能管理，使其在復(fù)雜的通信環(huán)境中都能夠精準(zhǔn)地匹配用戶需求，最終提升網(wǎng)絡(luò)的實(shí)際承載能力和用戶通信體驗(yàn)。

本文對(duì)DRL 及其涉及的基礎(chǔ)知識(shí)進(jìn)行介紹，并從無線通信網(wǎng)絡(luò)的資源管理、接入控制以及維護(hù)3 方面剖析DRL 如何實(shí)現(xiàn)智能通信，最后對(duì)目前尚未解決的開放問題進(jìn)行討論，為進(jìn)一步研究提供思路。

1 基礎(chǔ)知識(shí)回顧

在正式介紹DRL 之前，首先對(duì)它所涉及的基礎(chǔ)知識(shí)進(jìn)行回顧。DRL 是一種求解馬爾科夫決策過程(Markov decision process, MDP)問題的智能方法，而其技術(shù)來源于強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)和DL。因此，本章分別介紹MDP、RL 和DL。

1.1 馬爾科夫決策過程

MDP 是一種對(duì)智能體與動(dòng)態(tài)環(huán)境交互過程進(jìn)行數(shù)學(xué)建模的方法[5]。其中，智能體是決策者，又稱為代理。環(huán)境則是除智能體外與之關(guān)聯(lián)和互動(dòng)的其他事物。一般地，智能體需要通過做出各種決策并采取行動(dòng)以實(shí)現(xiàn)自身目標(biāo)，但是在采取行動(dòng)的過程中會(huì)對(duì)環(huán)境產(chǎn)生影響，且不同環(huán)境狀態(tài)下智能體得到的結(jié)果可能不同。MDP 的提出正是為了分析智能體和環(huán)境的復(fù)雜交互過程。

MDP 由一系列關(guān)鍵要素構(gòu)成，包括狀態(tài)、動(dòng)作、轉(zhuǎn)移概率、獎(jiǎng)賞和策略。

狀態(tài)：狀態(tài)是對(duì)智能體對(duì)所處環(huán)境的描述。環(huán)境的變化可以由狀態(tài)的變化來表示。狀態(tài)一般表示為s 。所有可能的狀態(tài)則構(gòu)成了狀態(tài)空間S。

動(dòng)作：智能體所做出的決策或所采取的行動(dòng)稱之為動(dòng)作。動(dòng)作一般表示為a。智能體可以采取的所有動(dòng)作構(gòu)成了動(dòng)作空間A。

轉(zhuǎn)移概率：智能體采取的動(dòng)作可能導(dǎo)致環(huán)境發(fā)生變化，進(jìn)而使智能體所觀察到的環(huán)境狀態(tài)發(fā)生改變。狀態(tài)間的轉(zhuǎn)移所服從的概率即為轉(zhuǎn)移概率。若智能體在狀態(tài)為 s 時(shí)采取動(dòng)作 a使得狀態(tài)變?yōu)?s′，轉(zhuǎn)移概率可以表示為 Pa(s,s′)。

獎(jiǎng)賞：智能體采取的每一個(gè)動(dòng)作都會(huì)使它接近或遠(yuǎn)離所設(shè)定的目標(biāo)。為了衡量所采取動(dòng)作的效果，智能體可從環(huán)境中觀察得到獎(jiǎng)賞值。特別的，智能體在狀態(tài)為 s 時(shí)采取動(dòng)作 a使得狀態(tài)變?yōu)?s′獲得的獎(jiǎng)賞值記為 ra( s,s′)。

策略：智能體的決策規(guī)則稱為策略，記為π。其中， π(a |s)表示當(dāng)狀態(tài)為 s 時(shí)選取動(dòng)作a 的概率。

MDP 的目標(biāo)為通過優(yōu)化智能體的策略π 來最大化時(shí)間跨度 T內(nèi)的期望累積獎(jiǎng)賞

式中，γ是折扣因子，其取值范圍是 [0,1]。 γ控制未來獎(jiǎng)賞對(duì)智能體在做當(dāng)前決策時(shí)的重要性。極端情況下， γ= 0表示智能體僅最大化當(dāng)前時(shí)刻的獎(jiǎng)賞，而 γ=1則表示智能體的目標(biāo)是最大化未來所有時(shí)刻得到的獎(jiǎng)賞。此外，若 T為有限值，則表示該MDP為有限時(shí)間跨度MDP，即該MDP 會(huì)因達(dá)到終止態(tài)停止運(yùn)行或運(yùn)行到某一時(shí)刻后停止運(yùn)行。相應(yīng)的，T=∞表示該MDP 為無限時(shí)間跨度MDP。MDP 的運(yùn)行過程如圖1 所示。

當(dāng)MDP 中除策略外的其他要素均已知時(shí)，可以通過動(dòng)態(tài)規(guī)劃(dynamic programming, DP)來求解MDP 以獲得最大化R 的最優(yōu)策略 π?。典型的方法有策略迭代和值迭代。

1.1.1 策略迭代

對(duì)于給定策略 π，由貝爾曼方程(Bellman’s Equation)[5]可得：

利用式(1)對(duì)所有狀態(tài) s ∈S不斷迭代，收斂得到的 Vπ( s)表示智能體在策略 π下，從狀態(tài) s出發(fā)可得到的期望累積獎(jiǎng)賞。對(duì) Vπ(s),s ∈S迭代的過程稱為策略評(píng)估。

在對(duì)策略 π進(jìn)行策略評(píng)估后，可以根據(jù)得到的Vπ(s)對(duì)策略進(jìn)行改進(jìn)?；谪澙返姆椒?，可以得到改進(jìn)后的策略 π′：

文獻(xiàn)[5]證明通過不斷重復(fù)地進(jìn)行策略評(píng)估和策略迭代，最終得到的策略會(huì)收斂到最大化 R的最優(yōu)策略 π?，該方法稱為策略迭代。

1.1.2 值迭代

在策略迭代中，策略評(píng)估需要利用式(1)重復(fù)迭代直至收斂，而每一次策略改進(jìn)都需要先進(jìn)行策略評(píng)估。因此，策略迭代的計(jì)算復(fù)雜度較高。為了解決這一問題，值迭代將策略改進(jìn)融合進(jìn)策略評(píng)估中，將式(1)改寫為：

利用式(3)對(duì)所有狀態(tài) s ∈S迭代直至收斂后，最優(yōu)策略 π?可以通過下式得到

以上介紹的兩種基于DP 的方法都能有效地求解MDP 并獲得最優(yōu)策略。然而，它們都需要知道轉(zhuǎn)移概率。對(duì)于無線通信系統(tǒng)，其系統(tǒng)狀態(tài)變化受信道變化、用戶行為等眾多隨機(jī)因素共同影響。這些隨機(jī)變量的概率分布難以準(zhǔn)確獲得。因此，將無線通信網(wǎng)絡(luò)中的問題建模成MDP，其轉(zhuǎn)移概率通常難以獲得。為了解決轉(zhuǎn)移概率缺失的問題，強(qiáng)化學(xué)習(xí)應(yīng)運(yùn)而生。

1.2 強(qiáng)化學(xué)習(xí)

與需要提前知道轉(zhuǎn)移概率的DP 不同，RL 是通過試錯(cuò)(trial-and-error)來學(xué)習(xí)環(huán)境中存在的規(guī)律，進(jìn)而求解MDP[5]。因此，RL 可在不需要知道轉(zhuǎn)移概率的情況下求解MDP。目前廣泛采用的RL方法可以分為基于值的方法和基于策略的方法。

1.2.1 基于值的方法

式(1)可分解為：

其中，

Qπ(s,a)表示智能體在策略 π下，在狀態(tài) s采取動(dòng)作 a可得到的期望累積獎(jiǎng)賞，稱為狀態(tài)-動(dòng)作對(duì)?s,a?的 Q 值。當(dāng)策略 π為最優(yōu)策略時(shí)，對(duì)于任意的狀態(tài) s ∈S 和 a ∈ A，相應(yīng)的Q 值 Q?(s,a)是在所有策略下獲得的最大Q 值。相反，若已知最大Q 值Q?(s,a)，那么可以根據(jù)下式得到最優(yōu)策略π?

根據(jù)這一性質(zhì)，Q 學(xué)習(xí)利用智能體實(shí)際得到的Q 值樣本與預(yù)測Q 值之間的差值(又稱時(shí)間差分temporal difference)來迭代地更新Q 值，最終逼近 Q?(s,a)并得到最優(yōu)策略 π?。具體的迭代公式為

式中，α是控制Q 值更新速度的學(xué)習(xí)速率。Q 學(xué)習(xí)的算法偽代碼如下。

算法1 Q 學(xué)習(xí)算法

輸入：S,A,α,γ

建立表格儲(chǔ) 存 Q( s,a),?s ∈S,a ∈A，并將所有Q 值初始化為0

for t=1 : T

觀察環(huán)境得到狀態(tài)s ，根據(jù) ε貪婪規(guī)則選擇動(dòng)作a

采取動(dòng)作a，并觀察得到新狀態(tài) s′和獎(jiǎng)賞ra(s,s′)

根據(jù)式(8)更新Q(s,a),?s ∈S,a ∈A

令s=s′

end for

算法1 中的 ε貪婪規(guī)則是指，智能體以ε 的概率選取隨機(jī)動(dòng)作，并以1 ?ε的概率選取Q 值最大的動(dòng)作，即 arg maxaQ(s,a)。前者令智能體探索未知的動(dòng)作，從而學(xué)習(xí)到潛在的更好的策略，而后者則令智能體充分利用已知的知識(shí)來做出最優(yōu)決策。通過改變 ε的大小可以調(diào)整兩方面的作用，使得智能體在學(xué)習(xí)速度和決策的最優(yōu)性中取得平衡。

以上介紹的Q 學(xué)習(xí)是一種典型的基于值的RL方法。實(shí)際上，基于值的RL 方法還有SARSA、雙Q 學(xué)習(xí)等，這些方法都是通過對(duì)Q 值進(jìn)行估計(jì)并利用Q 值得到最優(yōu)策略。然而，因?yàn)榛谥档姆椒ㄐ枰獮樗袪顟B(tài)-動(dòng)作對(duì)建立表格儲(chǔ)存其Q 值，所以當(dāng)MDP 的動(dòng)作或狀態(tài)空間很大(或?yàn)檫B續(xù)空間)會(huì)產(chǎn)生維度爆炸的問題。為了解決這一問題，人們提出了基于策略的RL 方法。

1.2.2 基于策略的方法

在基于策略的RL 方法中，動(dòng)作的選取不再需要對(duì)Q 值進(jìn)行評(píng)估。取而代之的是直接對(duì)策略進(jìn)行優(yōu)化。為了實(shí)現(xiàn)這一目標(biāo)，首先需要將策略參數(shù)化，即用一個(gè)由參數(shù) θ確定的函數(shù)來表示策略π。那么，在狀態(tài) s 采取動(dòng)作a 的概率可以寫為 π(a |s,θ)。如果策略的性能可以由一個(gè)標(biāo)量 J(θ)來量度，那么為了性能最大化，θ應(yīng)該以關(guān)于 J(θ)梯度上升的方向更新，即

下面介紹策略梯度法中的一種典型算法——蒙特卡洛策略梯度法，又稱為REINFORCE 算法。若定義 J(θ)為由 θ確定策略 π下從某一狀態(tài) s0出發(fā)所得到的期望累積獎(jiǎng)賞，即 Vπθ(s0)，文獻(xiàn)[5]可以證明關(guān)于θ 的梯度 ?J (θ)為

算法2 REINFORCE 算法

初始化θ

for episode=1 : imax

for t=1 : T

觀察狀態(tài) st，根據(jù)選取動(dòng)作at，并觀察得到新狀態(tài) st+1和獎(jiǎng)賞rat(st,st+1)

end for

for t=1 : T

end for

在算法2 中，策略是以回合(episode)為單位進(jìn)行更新的。在一個(gè)回合中，智能體需要用同一策略產(chǎn)生共 T個(gè)時(shí)刻的一組動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)。然后利用這些信息對(duì) θ和策略進(jìn)行更新。這導(dǎo)致策略梯度法有兩個(gè)缺點(diǎn)：1)策略梯度法只適用于有限時(shí)間跨度的回合制MDP，然而在實(shí)際無線通信網(wǎng)絡(luò)中，系統(tǒng)的運(yùn)行可能是無限時(shí)間跨度的；2)策略的更新以回合制為單位，使得策略更新速度慢、不同回合下得到的決策方差較大，即穩(wěn)定性較差。以上兩點(diǎn)使策略梯度法不便于在線部署。

綜上，雖然基于策略的方法解決了基于值的方法的維度爆炸問題，但同時(shí)也帶來了新的問題。因此，人們嘗試通過將DL 與RL 結(jié)合來解決這些問題。

1.3 深度學(xué)習(xí)

DL 是一種利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)來表征數(shù)據(jù)的關(guān)系，并最終實(shí)現(xiàn)擬合或分類功能的算法。因此，DNN 是DL 的關(guān)鍵。

圖2 為DNN 的一個(gè)典型結(jié)構(gòu)。如圖所示，DNN的基本組成單元是相互連接的神經(jīng)元。DNN 中的神經(jīng)元排列具有層次結(jié)構(gòu)，通常包含一個(gè)輸入層、一個(gè)輸出層和數(shù)個(gè)隱層。神經(jīng)元間的連接強(qiáng)弱關(guān)系由權(quán)值決定，權(quán)值由圖2 中神經(jīng)元間連線表示。圖3 示出了神經(jīng)元間的信息傳遞過程。其中，每個(gè)神經(jīng)元將與之連接的上一層神經(jīng)元的輸出值乘以相應(yīng)的權(quán)值并求和，再通過一個(gè)激活函數(shù)將信息傳遞到下一層連接的神經(jīng)元。激活函數(shù)一般有“sigmoid”[6]“ReLU”[7]“tanh”等。根據(jù)DNN的信息傳遞規(guī)則，輸入數(shù)據(jù)被各層神經(jīng)元逐層加工最終得到輸出結(jié)果，這個(gè)過程稱為正向傳播。通過對(duì)比神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測值和真實(shí)訓(xùn)練數(shù)據(jù)，DNN 可以調(diào)整神經(jīng)網(wǎng)絡(luò)間的權(quán)值以提高預(yù)測的準(zhǔn)確度，這個(gè)過程稱為誤差反向傳播。訓(xùn)練后的DNN 可以表征數(shù)據(jù)間的關(guān)系，進(jìn)而能對(duì)未知輸入數(shù)據(jù)做出準(zhǔn)確的預(yù)測。

然而，并不是所有的DNN 都能有效地挖掘數(shù)據(jù)間中存在的關(guān)聯(lián)關(guān)系并對(duì)未知輸入做出準(zhǔn)確預(yù)測。實(shí)際上，神經(jīng)元的連接方式，即DNN 的結(jié)構(gòu)，是影響DNN 性能的關(guān)鍵因素。神經(jīng)元的連接方式通常有全連接、卷積連接、池化連接和循環(huán)連接等。相應(yīng)的，以上幾種連接方式構(gòu)成了DNN 中的全連接層(fully-connected layer)、卷積層(convolutional layer)[8]、池化層(pooling layer)[8]和循環(huán)層(recurrent layer)[9]。在實(shí)際應(yīng)用中，DNN 的結(jié)構(gòu)是由數(shù)據(jù)自身的特征來決定的。下面將對(duì)這幾種構(gòu)成DNN 的常見層結(jié)構(gòu)進(jìn)行介紹。

全連接層：全連接是DNN 中神經(jīng)元最簡單的連接方式。如圖4 所示，全連接層中的神經(jīng)元與相鄰層的所有神經(jīng)元均相連。因?yàn)槿B接層的本質(zhì)是特征空間的線性變換，所以它對(duì)數(shù)據(jù)的特征沒有特別的要求。

卷積層：全連接層因所有神經(jīng)元的相連而導(dǎo)致權(quán)值過于冗余。因此，全連接層在處理某些局部特征相似的數(shù)據(jù)(如圖5)時(shí)訓(xùn)練速度和準(zhǔn)確率較差。卷積層的提出就是為了處理局部特征相似的數(shù)據(jù)。卷積層由神經(jīng)元排列構(gòu)成多個(gè)卷積核。其中，卷積核中每個(gè)神經(jīng)元與上一層神經(jīng)元相連時(shí)共享權(quán)值。通過權(quán)值共享，卷積層可以從輸入信息中匹配與卷積核特征相同的部分，實(shí)現(xiàn)局部特征提取。

池化層：池化層一般與卷積層一起出現(xiàn)于處理圖像數(shù)據(jù)的DNN。在進(jìn)行某些任務(wù)時(shí)，如圖5 分類等，圖5 中特征出現(xiàn)的具體位置不影響結(jié)果。因此，池化層被用于對(duì)卷積層輸出結(jié)果的合并，標(biāo)記出數(shù)據(jù)中存在的哪類特征更明顯。

循環(huán)層：當(dāng)數(shù)據(jù)在時(shí)域有序列相關(guān)性時(shí)，循環(huán)層可以捕捉和利用這種相關(guān)性。如圖6 所示，輸入到循環(huán)層的信息當(dāng)處理完后會(huì)重新輸入到網(wǎng)絡(luò)中，以使得歷史信息和當(dāng)前信息一起被處理。在實(shí)際應(yīng)用中，循環(huán)層的其他變體也得到廣泛應(yīng)用，如長短時(shí)記憶(long short-term memory, LSTM)層[10]等。

2 深度強(qiáng)化學(xué)習(xí)概述

DRL 的基本思想就是將DL 中的DNN 與RL相結(jié)合，以解決RL 中存在的維度爆炸、學(xué)習(xí)速度慢等問題。同樣的，DRL 也可以通過基于值的方法和基于策略的方法來實(shí)現(xiàn)。

2.1 基于值的DRL 方法

基于值的RL 方法存在的主要問題是需要建立表格來儲(chǔ)存Q 值，而當(dāng)動(dòng)作或狀態(tài)空間很大時(shí)會(huì)產(chǎn)生維度爆炸的問題。這導(dǎo)致它們無法應(yīng)用或收斂速度極慢。

為了解決這一問題，人們提出用DNN 來擬合存儲(chǔ)Q 值的表格。因此，這類DNN 被稱為深度Q 網(wǎng) 絡(luò)(deep Q-network, DQN)。若 θ表示DNN 的參數(shù)，則 Q( s,a;θ)表示狀態(tài)-動(dòng) 作對(duì) ?s, a?的Q 值。當(dāng)DQN 的參數(shù) θ為最優(yōu)參數(shù) θ?時(shí)，相應(yīng)的是Q 值是最大的Q 值，并且最優(yōu)策略 π?可以由下式確定

式中，

參數(shù)θ 的更新應(yīng)最小化損失函數(shù)，即：

梯度下降法可用于式(14)中對(duì)參數(shù) θ的更新。

然而，利用式(12)～式(14)訓(xùn)練DQN 存在兩個(gè)問題。首先，智能體得到的每個(gè)經(jīng)驗(yàn)僅能用于更新一次參數(shù)θ，這導(dǎo)致數(shù)據(jù)的利用率低下。其次，利用正在訓(xùn)練的DQN 來計(jì)算目標(biāo)值，即式(13)，會(huì)導(dǎo)致目標(biāo)值隨著每一次 θ的更新而改變。而事實(shí)上，目標(biāo)值是對(duì)真實(shí)Q 值的估計(jì)值，不應(yīng)該與 θ高度相關(guān)?；谝陨纤枷?，文獻(xiàn)[11]提出經(jīng)驗(yàn)回放和擬靜態(tài)目標(biāo)網(wǎng)絡(luò)(quasi-static target network)來提高DQN 的訓(xùn)練速度、準(zhǔn)確度和穩(wěn)定性。

在經(jīng)驗(yàn)回放中，智能體將所有經(jīng)驗(yàn)放入一個(gè)大小為 M 的經(jīng)驗(yàn)池 M 中，然后在每次更新參數(shù) θ時(shí)從M抽取 B 個(gè)經(jīng)驗(yàn)組成經(jīng)驗(yàn)集合 B來做批量梯度下降。經(jīng)驗(yàn)池 M是一個(gè)先入先出(first input first output,FIFO)的隊(duì)列，若放入的經(jīng)驗(yàn)大于 M，則將最先放入的經(jīng)驗(yàn)丟棄。在擬靜態(tài)目標(biāo)網(wǎng)絡(luò)中，智能體建立兩個(gè)DQN，一個(gè)用于訓(xùn)練(稱為訓(xùn)練DQN)，另一個(gè)用于計(jì)算目標(biāo)值(稱為目標(biāo)DQN)。目標(biāo)DQN 和訓(xùn)練DQN 每隔時(shí)間間隔 K同步一次。結(jié)合這兩個(gè)技術(shù)，θ的更新公式可以寫為：

式中，

結(jié)合集合經(jīng)驗(yàn)回放和擬靜態(tài)目標(biāo)網(wǎng)絡(luò)的完整算法流程如算法3 所示，稱為深度Q 學(xué)習(xí)(deep Qlearning)算法。該算法是目前公認(rèn)基于DQN 的標(biāo)準(zhǔn)DRL 算法，其最初由DeepMind 團(tuán)隊(duì)在2015 年提出并證明了其在Atari 游戲上可以達(dá)到或超過人類操作的水平[11]。由于Atari 游戲提供的信息游戲屏幕顯示的圖像數(shù)據(jù)，為了處理圖像數(shù)據(jù)，DeepMind團(tuán)隊(duì)在應(yīng)用深度Q 學(xué)習(xí)算法時(shí)特別設(shè)計(jì)了一個(gè)包含卷積層、池化層和全連接層的DNN 作為DQN。因此，DQN 的結(jié)構(gòu)應(yīng)當(dāng)與需要處理的數(shù)據(jù)相匹配。算法3 深度Q 學(xué)習(xí)算法

輸入： γ,B,M,K

初始化訓(xùn)練DQN 參數(shù) θ和目標(biāo)DQN 參數(shù) θ′，令 θ′=θ ；建立一個(gè)大小為 M的先入先出隊(duì)列作為經(jīng)驗(yàn)池M

for t=1 : T

觀察環(huán)境得到狀態(tài)s ，根據(jù)ε 貪婪規(guī)則選擇動(dòng)作a

采取動(dòng)作a，并觀察得到新狀態(tài) s′和獎(jiǎng)賞ra(s,s′)

將得到的經(jīng)驗(yàn)s ，a， ra( s,s′)和 s′組合成經(jīng)驗(yàn)et，并將 et放入經(jīng)驗(yàn)池M

從經(jīng)驗(yàn)池中選取 B個(gè)經(jīng)驗(yàn)形成經(jīng)驗(yàn)集合 Bt，根據(jù)式(15)和式(16)更新θ

若 t m od K==0，則令θ′=θ

end for

除算法3 所示的深度Q 學(xué)習(xí)算法外，目前也有一些針對(duì)該算法的改進(jìn)，以獲得性能提升。下面簡要介紹兩種得到廣泛應(yīng)用的改進(jìn)算法，包括雙深度Q 學(xué)習(xí)(double deep Q-learning)算法[12]和競爭深度Q 學(xué)習(xí)(dueling deep Q-learning)算法[13]。

雙深度Q 學(xué)習(xí)：在深度Q 學(xué)習(xí)中，目標(biāo)值的估計(jì)是取估計(jì)的Q 值的最大值，而動(dòng)作的選取也是取令Q 值最大的動(dòng)作。因此，這會(huì)導(dǎo)致Q 值的估計(jì)過于樂觀，并且該誤差會(huì)隨著時(shí)間推移往后傳遞。為了解決這一問題，文獻(xiàn)[12]提出采用兩個(gè)DQN 輪流且獨(dú)立地負(fù)責(zé)動(dòng)作選取和Q 值估計(jì)。相應(yīng)的DRL 算法稱為雙深度Q 學(xué)習(xí)算法。

競爭深度Q 學(xué)習(xí)：上面所述兩種深度Q 學(xué)習(xí)方法都是對(duì)Q 值進(jìn)行估計(jì)，也就是對(duì)動(dòng)作-狀態(tài)對(duì)進(jìn)行評(píng)估。因此，當(dāng)動(dòng)作數(shù)比較多時(shí)，用于估計(jì)Q 值的所需的樣本數(shù)較多，導(dǎo)致訓(xùn)練時(shí)間長、決策準(zhǔn)確度低等問題。事實(shí)上，在某些狀態(tài)下，無論動(dòng)作如何選取，導(dǎo)致的結(jié)果可能是相近的，無需對(duì)各個(gè)動(dòng)作都進(jìn)行準(zhǔn)確的估計(jì)。如當(dāng)無線信道較差時(shí)，無論發(fā)送端選取多大功率，接收端的信干噪比(signal to interference plus noise ratio, SINR)都達(dá)不到最低閾值。針對(duì)這種情況，文獻(xiàn)[13]提出競爭深度Q 學(xué)習(xí)。其基本思想是采用兩個(gè)DQN 分別對(duì)狀態(tài)的價(jià)值和在給定狀態(tài)下各個(gè)動(dòng)作的價(jià)值優(yōu)勢(shì)進(jìn)行評(píng)估。該文獻(xiàn)結(jié)果顯示，在動(dòng)作空間較大的復(fù)雜問題中，競爭深度Q 學(xué)習(xí)顯示出明顯的性能優(yōu)勢(shì)。

以上基于值的DRL 方法通過將DNN 用于擬合Q 值來解決維度爆炸問題，且允許狀態(tài)空間為無限大。然而，這些方法在動(dòng)作選取時(shí)需要在整個(gè)動(dòng)作空間下遍歷對(duì)應(yīng)的Q 值，導(dǎo)致它們只適用于有限大小的動(dòng)作空間，即離散動(dòng)作空間。針對(duì)連續(xù)動(dòng)作空間的MDP，需要基于行動(dòng)評(píng)論家的DRL 方法來求解。

2.2 基于行動(dòng)評(píng)論家的DRL 方法

雖然基于策略的RL 方法通過將策略參數(shù)化來實(shí)現(xiàn)連續(xù)動(dòng)作的選取，但是也帶來了數(shù)據(jù)利用率低、決策穩(wěn)定性差等問題。與此同時(shí)，基于值的方法可以利用每一步得到的經(jīng)驗(yàn)對(duì)策略進(jìn)行逐步更新，且其依據(jù)Q 值進(jìn)行高穩(wěn)定性的決策。于是，人們提出了深度確定性策略梯度(deep deterministic policy gradient, DDPG)來將二者結(jié)合[14]。其基本思想是采用兩個(gè)DNN 分別作為動(dòng)作家(actor)和評(píng)論家(critic)。評(píng)論家相當(dāng)于基于值的方法中的Q 值評(píng)估，即擬合和估計(jì)Q 值，而動(dòng)作家相當(dāng)于基于策略方法中的策略參數(shù)化，用于找出Q 值與最優(yōu)動(dòng)作之間的映射關(guān)系。換言之，在DDPG 中，動(dòng)作選取不再是選擇當(dāng)前狀態(tài)下Q 值最大的動(dòng)作，而是讓動(dòng)作家參考評(píng)論家評(píng)估的Q 值來直接選取。

這一類包含動(dòng)作家和評(píng)論家的DRL 方法統(tǒng)稱為基于動(dòng)作評(píng)論家(actor-critic, AC)的DRL 方法。這類方法的其他代表算法有異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(asynchronous advantage actor-critic, A3C)[15]、信賴域策略優(yōu)化(trust region policy optimization, TRPO)[16]、近端策略優(yōu)化(proximal policy optimization, PPO)[17]等。

3 智能資源管理

可靠高速的無線通信網(wǎng)絡(luò)依賴于各類資源的動(dòng)態(tài)協(xié)調(diào)與配置。當(dāng)前，為了滿足不同的通信需求，人們大量部署了蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)絡(luò)、個(gè)人短距離通信網(wǎng)絡(luò)等。這些網(wǎng)絡(luò)采用了不同的無線電接入技術(shù)(radio access technology, RAT)，其結(jié)構(gòu)各異且擁有互不共享的獨(dú)占資源，導(dǎo)致資源整體利用率低。此外，這些異構(gòu)網(wǎng)絡(luò)提供的服務(wù)單一，難以響應(yīng)用戶多樣化的通信需求。為了高效地滿足未來多元化的通信需求，異構(gòu)網(wǎng)絡(luò)間的資源需要高度整合并根據(jù)用戶需求精準(zhǔn)匹配。

然而，無線環(huán)境動(dòng)態(tài)變化，信道或用戶需求隨時(shí)間隨機(jī)變化。此外，相關(guān)的資源分配問題一般都是復(fù)雜的非凸問題。這些問題都為無線網(wǎng)絡(luò)中的資源管理增加了難度。鑒于DRL 是解決動(dòng)態(tài)環(huán)境中決策問題的有效方法，人們嘗試將其用于管理無線通信中的各類資源，包括頻譜資源、功率資源以及網(wǎng)絡(luò)資源等。

3.1 頻譜資源管理

頻譜資源是無線通信中最寶貴的稀缺資源。為了在有限的頻譜上滿足人們對(duì)高速率通信的需求，無線網(wǎng)絡(luò)需要更彈性的頻譜資源管理。根據(jù)頻譜采用時(shí)分復(fù)用或頻分復(fù)用的方式，頻譜資源的管理也可分為時(shí)域或頻域上的管理。

對(duì)于異構(gòu)網(wǎng)絡(luò)采用時(shí)分的方式共享同一頻譜，如何為不同網(wǎng)絡(luò)進(jìn)行合理的時(shí)間分配是頻譜資源管理的關(guān)鍵問題。理想情況下，各網(wǎng)絡(luò)應(yīng)當(dāng)依據(jù)其網(wǎng)絡(luò)的用戶流量需求對(duì)頻譜進(jìn)行彈性接入，也就是說，用戶需求較大的網(wǎng)絡(luò)可以占用更長時(shí)間的頻譜進(jìn)行傳輸。然而，異構(gòu)網(wǎng)絡(luò)間有一定的獨(dú)立性，難以迅速交互信令信息來相互協(xié)調(diào)。針對(duì)這一問題，文獻(xiàn)[18]研究了長期演進(jìn)(long term evolution, LTE)蜂窩系統(tǒng)與無線局域網(wǎng)(WiFi)在缺少信令交互情況下的頻譜共享問題。其中，LTE 系統(tǒng)通過調(diào)整虛擬幀中LTE 的傳輸時(shí)間和WiFi 的傳輸時(shí)間來調(diào)節(jié)兩個(gè)網(wǎng)絡(luò)的頻譜資源。LTE 系統(tǒng)的目標(biāo)是在滿足WiFi 網(wǎng)絡(luò)流量需求的情況下最大化LTE 傳輸時(shí)間，以最大頻譜的利用率。傳統(tǒng)的方法需要LTE系統(tǒng)從WiFi 網(wǎng)絡(luò)中獲取其具體的流量信息后做出相應(yīng)的優(yōu)化。為了避免異構(gòu)網(wǎng)絡(luò)間難以實(shí)現(xiàn)的直接信息交互，文獻(xiàn)[18]發(fā)現(xiàn)頻譜信息中實(shí)際上蘊(yùn)含了關(guān)于WiFi 網(wǎng)絡(luò)的流量需求等信息，因而提出利用DRL 來根據(jù)頻譜信息直接對(duì)傳輸時(shí)間進(jìn)行優(yōu)化。該文獻(xiàn)創(chuàng)造性的利用頻譜信息中一個(gè)幀的最長空閑時(shí)間來作為WiFi 網(wǎng)絡(luò)是否得到充分保護(hù)的指標(biāo)。當(dāng)該指標(biāo)低于閾值時(shí)，說明WiFi 網(wǎng)絡(luò)的流量需求沒有獲得充分滿足，相應(yīng)的DRL 獎(jiǎng)賞值設(shè)為0，否則獎(jiǎng)賞值為LTE 系統(tǒng)的吞吐量。DRL 的動(dòng)作就是LTE 的傳輸時(shí)間，其動(dòng)作空間是將虛擬幀長離散化后的向量。DRL 的狀態(tài)則設(shè)計(jì)為LTE 系統(tǒng)能觀察頻譜獲得的頻譜信息，包括一個(gè)幀中的最長空閑時(shí)間、總空閑時(shí)間、總繁忙時(shí)間、歷史動(dòng)作和歷史獎(jiǎng)賞。最后該文獻(xiàn)提出了一個(gè)基于DQN 的DRL 算法來求解該問題。由于狀態(tài)中的信息不包含圖像或序列信息，其設(shè)計(jì)的DQN 采用了一個(gè)包含三層全連接層作為隱層的DNN。除文獻(xiàn)[18]外，文獻(xiàn)[19-21]也提出了基于DRL 的頻譜時(shí)分接入方案。

除時(shí)分復(fù)用外，頻分復(fù)用是另一種復(fù)用方式。在這種方式下，頻譜被劃分成多個(gè)正交信道，進(jìn)而通過為網(wǎng)絡(luò)或用戶分配信道來實(shí)現(xiàn)頻譜資源管理。文獻(xiàn)[22]研究了多用戶的信道分配問題。在多信道多用戶場景下，多個(gè)用戶同時(shí)使用一個(gè)信道進(jìn)行傳輸會(huì)導(dǎo)致數(shù)據(jù)包的碰撞，進(jìn)而發(fā)送失敗。因此，需要合理地為各個(gè)用戶匹配所使用的信道，以提高成功傳輸?shù)母怕?。該文獻(xiàn)提出利用DRL 使用戶分布式地協(xié)調(diào)信道接入策略。每個(gè)用戶將其在過去多個(gè)時(shí)刻的包發(fā)送歷史(即包成功發(fā)送與否)作為DRL 的狀態(tài)。動(dòng)作空間即選擇發(fā)送的信道或不發(fā)送。若當(dāng)前時(shí)刻的包成功發(fā)送，則獎(jiǎng)賞設(shè)置為1，否則為0。由于狀態(tài)中包含多個(gè)時(shí)刻的信息，作者在設(shè)計(jì)DQN 時(shí)采用了LSTM 層來捕捉數(shù)據(jù)中的時(shí)間相關(guān)性。此外，為了提高學(xué)習(xí)性能，文獻(xiàn)[22]將競爭深度Q 學(xué)習(xí)和雙深度Q 學(xué)習(xí)結(jié)合，采用了競爭-雙深度Q 學(xué)習(xí)。仿真結(jié)果表明，在沒有信令交互情況下，用戶總能獨(dú)立地學(xué)習(xí)到一組互相避讓的信道選擇方式，提高了信道利用率和用戶成功發(fā)送概率。

此外，用戶也可以通過智能的信道選擇來規(guī)避比規(guī)避干擾。再復(fù)雜的通信環(huán)境中，用戶可能會(huì)受到惡意(如干擾器)或非惡意(如電磁泄漏)的干擾，降低了用戶的通信速率和使用體驗(yàn)。文獻(xiàn)[23]提出了一種基于DRL 的智能干擾規(guī)避方案。其利用頻譜瀑布圖中包含的干擾圖案來預(yù)測干擾情況，進(jìn)而預(yù)測并選擇未受干擾的信道進(jìn)行傳輸。作者將用戶觀測頻譜得到的瀑布圖作為狀態(tài)，并設(shè)計(jì)動(dòng)作空間為所有可用的信道。若用戶當(dāng)前時(shí)刻接收到的SINR 大于閾值，則認(rèn)為用戶在該時(shí)刻成功發(fā)送，則設(shè)回報(bào)值為常數(shù) C1，否則為0。同時(shí)，由于切換信道會(huì)帶來額外的開銷。因此，若用戶相鄰時(shí)刻更換了信道，則設(shè)開銷值為常數(shù) C2，否則為0。最終，DRL 的獎(jiǎng)賞設(shè)計(jì)為用戶得到的回報(bào)值與開銷值相減。由于DRL 的狀態(tài)是圖像信息，文獻(xiàn)[23]采用了遞歸卷積層(recursive convolutional layer)來設(shè)計(jì)DQN。其中，遞歸卷積層是作者針對(duì)頻譜瀑布圖中的遞歸特性對(duì)卷積層進(jìn)行的改進(jìn)，目的是降低計(jì)算復(fù)雜度和提高算法的運(yùn)算速度。

3.2 功率資源管理

上一小節(jié)所介紹的頻譜資源管理考慮對(duì)頻譜正交使用，即用戶或網(wǎng)絡(luò)在同一時(shí)頻點(diǎn)上不重疊。雖然正交使用頻譜可以避免相互干擾，但頻譜效率難以進(jìn)一步提升。為最大化網(wǎng)絡(luò)容量，應(yīng)當(dāng)考慮頻譜的非正交接入，這就帶來了干擾問題。通過功率資源分配可以進(jìn)行精確的干擾管理，以獲得空間復(fù)用增益。例如，當(dāng)某些用戶對(duì)其他用戶的干擾信道較弱時(shí)，它們可以以較大功率進(jìn)行傳輸，從而在相互干擾較小時(shí)獲得較高的傳輸速率。

文獻(xiàn)[24]考慮了一個(gè)認(rèn)知無線電(cognitive radio,CR)中的功率控制問題。其中，次用戶(secondary user)通過占用主用戶(primary user)的頻譜來進(jìn)行通信，提高頻譜利用率。然而，主用戶是該頻譜的合法使用者，其通信質(zhì)量不應(yīng)受次用戶的損害。為了使主次用戶的服務(wù)質(zhì)量(quality-of-service，QoS)都得到滿足，作者提出了一個(gè)基于DRL 的功率控制方案。在此方案中，次用戶部署多個(gè)傳感器在主用戶周圍，以感知主用戶附近的接收功率。由于傳感器得到的接收功率包含了信道、主次用戶的發(fā)送功率等信息，通過讓DRL 分析傳感器的數(shù)據(jù)可以學(xué)習(xí)到信道的變化與主用戶的發(fā)送策略，進(jìn)而調(diào)整次用戶的發(fā)送功率來讓主次用戶的QoS 都得到滿足。DRL 的狀態(tài)設(shè)計(jì)為所有傳感器獲得的接收功率。此外，DRL 的動(dòng)作空間由將最大發(fā)送功率離散化后的所有可選功率構(gòu)成。當(dāng)次用戶選擇功率進(jìn)行發(fā)送后，若主次用戶的QoS 都得到滿足，則DRL 的獎(jiǎng)賞設(shè)置為1，否則為0。最后，深度Q 學(xué)習(xí)算法被用于實(shí)現(xiàn)DRL，其中，一個(gè)包含三層全連接層的DNN 被用作DQN。

文獻(xiàn)[24]針對(duì)的是單用戶的功率控制問題，無法應(yīng)用于多用戶的場景。為此，文獻(xiàn)[25]考慮蜂窩網(wǎng)絡(luò)的多用戶功率資源分配問題，其目標(biāo)是最大化整個(gè)網(wǎng)絡(luò)的加權(quán)總速率(weighted sum-rate，WSR)。由于用戶互相干擾，WSR 最大化的問題是NP-hard 問題，難以用優(yōu)化方法求得全局最優(yōu)解。除此之外，用戶間的信道狀態(tài)時(shí)變且信道信息數(shù)據(jù)龐大，無法實(shí)時(shí)上傳到一個(gè)中央處理單元進(jìn)行運(yùn)算。該文獻(xiàn)利用DRL 解決了這兩個(gè)問題。首先，每個(gè)用戶的獎(jiǎng)賞值被設(shè)計(jì)為該用戶自身速率與對(duì)其他用戶造成的速率損失的差值，這樣就將WSR 最大化問題分解成了可以讓各個(gè)用戶分布式求解的子問題。然后，各用戶的DRL 狀態(tài)包含了自身的信道狀態(tài)、接收功率和對(duì)其他用戶造成的干擾等信息。通過對(duì)這些數(shù)據(jù)分析，DRL 讓各用戶預(yù)測其未來的信道狀態(tài)以及其他用戶的發(fā)送功率，從而選擇一個(gè)合適的功率來最大化自身的獎(jiǎng)賞值。作者提出的DRL 算法是一個(gè)離線學(xué)習(xí)和在線部署的雙層架構(gòu)。在離線訓(xùn)練時(shí)，一個(gè)中央訓(xùn)練器與各個(gè)用戶建立高速的回傳鏈路。通過該鏈路，各個(gè)用戶及時(shí)將自己的狀態(tài)以及獎(jiǎng)賞值向訓(xùn)練器傳輸并獲得一個(gè)動(dòng)作值。當(dāng)訓(xùn)練完成后，每個(gè)用戶可以獨(dú)自利用訓(xùn)練好的DQN 根據(jù)輸入的狀態(tài)得到最優(yōu)的動(dòng)作，不再需要回傳鏈路交互信息。仿真結(jié)果顯示，該基于DRL 的方案的性能甚至可以超越傳統(tǒng)基于優(yōu)化的近似最優(yōu)算法。

文獻(xiàn)[26]將文獻(xiàn)[25]拓展到了多用戶設(shè)備到設(shè)備(device-to-device，D2D)通信場景。文獻(xiàn)[26]在設(shè)計(jì)DRL 的狀態(tài)、動(dòng)作以及獎(jiǎng)賞時(shí)考慮了多信道的情況，解決了信道與功率資源的聯(lián)合分配問題。此外，文獻(xiàn)[26]也將文獻(xiàn)[25]所提的離線學(xué)習(xí)與在線部署的雙層架構(gòu)改進(jìn)為在線學(xué)習(xí)及訓(xùn)練架構(gòu)，避免了離線學(xué)習(xí)中回傳信息產(chǎn)生的額外開銷。

3.3 網(wǎng)絡(luò)資源管理

虛擬現(xiàn)實(shí)(virtual reality, VR)、3D 全息通信等業(yè)務(wù)的出現(xiàn)使得無線通信網(wǎng)絡(luò)不再只是服務(wù)于點(diǎn)與點(diǎn)之間的信息交互，而是各類多樣化業(yè)務(wù)的承載方。因此，除了頻譜、功率等物理層的資源外，無線網(wǎng)絡(luò)還包含為網(wǎng)絡(luò)層或應(yīng)用層服務(wù)的資源，如緩存資源和邊緣計(jì)算資源等。因此，未來的無線通信網(wǎng)絡(luò)必然包含多維度的網(wǎng)絡(luò)資源，導(dǎo)致資源管理更為復(fù)雜并使傳統(tǒng)方法失效。下面以緩存資源和邊緣計(jì)算資源為例，介紹如何利用DRL 對(duì)網(wǎng)絡(luò)資源進(jìn)行高效管理。

為了降低用戶獲取數(shù)據(jù)的時(shí)延，無線網(wǎng)絡(luò)可以在靠近用戶終端的接入側(cè)部署緩存單元來預(yù)加載熱門資源。由于緩存的大小是有限的，對(duì)哪些數(shù)據(jù)進(jìn)行預(yù)加載是管理緩存資源的關(guān)鍵問題。文獻(xiàn)[27]提出利用DRL 對(duì)用戶的數(shù)據(jù)請(qǐng)求進(jìn)行分析，并根據(jù)用戶請(qǐng)求規(guī)律更換緩存中的文件。在該文獻(xiàn)中，作者將DRL 的狀態(tài)設(shè)計(jì)為各文件被用戶請(qǐng)求的次數(shù)，動(dòng)作則是下一時(shí)刻應(yīng)當(dāng)被緩存的文件。若緩存的文件沒有命中用戶請(qǐng)求，網(wǎng)絡(luò)需要為用戶從云端獲取文件并產(chǎn)生開銷，此時(shí)懲罰值為獲取該文件的開銷，否則懲罰值為0。值得注意的是，這里并沒有用到獎(jiǎng)賞值，而是懲罰值。因此，DRL 的目標(biāo)是最小化期望累積懲罰。為了實(shí)現(xiàn)這一目標(biāo)，作者將深度Q 算法進(jìn)行了修改，將算法3 中所有對(duì)Q 值的最大化和反最大化運(yùn)算都更換為對(duì)Q 值的最小化及反最小化運(yùn)算。其采用的DQN 是包含三個(gè)隱層為全連接層的DNN。仿真表明，該文獻(xiàn)所提的DRL 緩存策略比目前常用的最近最不常用(least frequently used, LFU)策略、FIFO 策略，以及最近最少使用(least recently used, LRU)策略均能獲得更低的開銷。

當(dāng)用戶需求更為多樣化時(shí)，終端設(shè)備卻在往小體積、低功耗的方向發(fā)展，如可穿戴設(shè)備等。顯然，具有高計(jì)算復(fù)雜度的業(yè)務(wù)，如需要實(shí)時(shí)計(jì)算大量3D 畫面的VR 等，難以由終端設(shè)備獨(dú)立完成。因此，移動(dòng)邊緣計(jì)算(mobile edge computing, MEC)被提出用于解決這一矛盾。在MEC 中，具有強(qiáng)大運(yùn)算能力的節(jié)點(diǎn)被部署于網(wǎng)絡(luò)接入側(cè)，便于對(duì)來自于移動(dòng)設(shè)備的計(jì)算請(qǐng)求快速應(yīng)答。對(duì)于一個(gè)給定的計(jì)算任務(wù)，若讓終端設(shè)備請(qǐng)求MEC 單元遠(yuǎn)程執(zhí)行，它將需要向MEC 上傳任務(wù)數(shù)據(jù)，帶來通信時(shí)延，且需要向MEC 提供者交納服務(wù)費(fèi)用。相反，終端設(shè)備本地執(zhí)行計(jì)算任務(wù)則會(huì)損耗本地電能，以及較高的本地計(jì)算時(shí)延(本地運(yùn)算能力通常較MEC弱)。因此，為了以最低的時(shí)延和最小的開銷完成計(jì)算任務(wù)，需要合理地分配網(wǎng)絡(luò)中的計(jì)算資源。

文獻(xiàn)[28]考慮了物聯(lián)網(wǎng)(Internet of things, IoT)中的計(jì)算資源分配問題。其中，IoT 設(shè)備每個(gè)時(shí)刻采集到的電能和產(chǎn)生的計(jì)算任務(wù)都是服從一定規(guī)律的隨機(jī)變量。為了滿足IoT 設(shè)備的計(jì)算需求，MEC單元被部署在網(wǎng)絡(luò)邊緣。IoT 設(shè)備需要決定任務(wù)在本地或在MEC 單元執(zhí)行。若決定在本地執(zhí)行，IoT設(shè)備還需要決定分配用于計(jì)算的功率。若設(shè)備分配的計(jì)算功率越大，則任務(wù)執(zhí)行速度越快，完成計(jì)算任務(wù)的時(shí)延越低，但同時(shí)電能損耗也更大。若決定將任務(wù)放在MEC 執(zhí)行，則IoT 設(shè)備需要承受通信時(shí)延(由信道決定)和MEC 設(shè)備運(yùn)算的計(jì)算時(shí)延。計(jì)算任務(wù)只有在規(guī)定時(shí)間內(nèi)完成時(shí)才算成功完成。為了最大化計(jì)算任務(wù)的成功完成率，該文獻(xiàn)提出了基于DRL 的計(jì)算資源分配方案。在該方案中，IoT 設(shè)備利用DRL 決定各個(gè)計(jì)算任務(wù)在本地執(zhí)行的功率，而功率為0 則表示在MEC 執(zhí)行。DRL 的狀態(tài)為當(dāng)前時(shí)刻能量到達(dá)的數(shù)量，計(jì)算任務(wù)隊(duì)列的長度，以及信道狀態(tài)。最后，DRL 的獎(jiǎng)賞值由一個(gè)效用函數(shù)決定，其考慮了計(jì)算時(shí)延、成功/失敗任務(wù)數(shù)以及MEC 服務(wù)費(fèi)用等因素。基于這3 個(gè)DRL 中的基本元素，作者利用聯(lián)邦-深度Q 學(xué)習(xí)算法對(duì)這個(gè)問題進(jìn)行了求解。該算法是在深度Q 學(xué)習(xí)的基礎(chǔ)上加入了聯(lián)邦學(xué)習(xí)(federated learning)[29]，通過讓多個(gè)DRL 智能體同時(shí)學(xué)習(xí)來加快學(xué)習(xí)速度。

此外，文獻(xiàn)[30-33]也成功地將DRL 用于緩存資源和計(jì)算資源的聯(lián)合優(yōu)化問題中，說明DRL在管理網(wǎng)絡(luò)資源上擁有強(qiáng)大的應(yīng)用前景。

4 智能接入控制

步入萬物互聯(lián)時(shí)代，無線通信設(shè)備的數(shù)量呈現(xiàn)出指數(shù)增長的趨勢(shì)。與此同時(shí)，采用不同RAT 的異構(gòu)網(wǎng)絡(luò)大量存在，它們均由數(shù)目眾多的基站組成。特別是對(duì)于采用毫米波的網(wǎng)絡(luò)，由于毫米波基站覆蓋范圍比較小，運(yùn)營商需要部署大量小蜂窩基站(small-cell base station, SBS)來保證無線信號(hào)的覆蓋率。這使得用戶接入控制變得復(fù)雜，難以獲得最優(yōu)的用戶與網(wǎng)絡(luò)或基站的匹配方式。事實(shí)上，因信道變化等原因，用戶需要不斷切換接入的網(wǎng)絡(luò)或基站來保持最佳的匹配。因此，接入控制又稱為切換控制(handover control)。根據(jù)用戶是在采用不同RAT的異構(gòu)網(wǎng)絡(luò)間切換或同一網(wǎng)絡(luò)下的不同基站間切換，切換控制可以分為垂直切換(vertical handover)和水平切換(horizontal handover)[34]。

當(dāng)采用不同RAT 的異構(gòu)網(wǎng)絡(luò)相對(duì)獨(dú)立時(shí)，它們的資源無法共享。此時(shí)，若各網(wǎng)絡(luò)中的用戶需求差異比較大時(shí)，它們也無法協(xié)調(diào)資源來主動(dòng)地滿足各用戶的需求。為此，垂直切換將用戶重新分配在不同的網(wǎng)絡(luò)上，從而更合理地利用各網(wǎng)絡(luò)的資源。文獻(xiàn)[35]將DRL 用于移動(dòng)通信終端在LTE 網(wǎng)絡(luò)和WiFi 網(wǎng)絡(luò)的智能垂直切換上。其中，LTE 網(wǎng)絡(luò)和WiFi 網(wǎng)絡(luò)的服務(wù)費(fèi)用不同，且終端在不同網(wǎng)絡(luò)下傳輸消耗的能量也不同。因此，該文獻(xiàn)考慮垂直切換的目標(biāo)是讓終端在滿足傳輸時(shí)延要求的情況下最小化傳輸費(fèi)用和能量開銷。為了實(shí)現(xiàn)這一目標(biāo)，DRL 的狀態(tài)被設(shè)計(jì)為當(dāng)前時(shí)刻終端的位置和剩余發(fā)送的文件大小，而DRL 的動(dòng)作則是選擇下一時(shí)刻傳輸數(shù)據(jù)使用的網(wǎng)絡(luò)。值得注意的是，與文獻(xiàn)[27]類似，這里沒有設(shè)計(jì)獎(jiǎng)賞值，取而代之的是懲罰值。懲罰值包含了傳輸費(fèi)用，能量開銷，以及未能在規(guī)定時(shí)間內(nèi)完成傳輸產(chǎn)生的懲罰項(xiàng)。為了讓DRL 最小化懲罰值，該文獻(xiàn)同樣對(duì)深度Q 學(xué)習(xí)算法進(jìn)行了與文獻(xiàn)[27]類似的修改。仿真結(jié)果表明，和基于DP 的算法相比，基于DRL 的接入方案可以有效地降低傳輸費(fèi)用和能量開銷。

除垂直切換外，目前也有文獻(xiàn)利用DRL 實(shí)現(xiàn)基站間的智能水平切換。文獻(xiàn)[36]考慮一個(gè)由眾多SBS 組成的超密集網(wǎng)絡(luò)(ultra dense network, UDN)。傳統(tǒng)的基站切換算法是讓終端設(shè)備比較連接基站的參考信號(hào)接收功率(reference signal received power,RSRP)與其他基站的RSRP，若其他基站最強(qiáng)的RSRP 比當(dāng)前基站的RSRP 大于某一閾值，則進(jìn)行切換。這種切換方法雖然保證了用戶接收信號(hào)的強(qiáng)度，但是不可避免地造成各基站負(fù)載不均，降低了擁塞基站的用戶體驗(yàn)。某個(gè)基站的負(fù)載定義為該基站連接用戶的所有請(qǐng)求資源塊和該基站可用資源塊之比。該文獻(xiàn)提出在原有切換規(guī)則的閾值上再加入一個(gè)偏置值，然后通過調(diào)整各基站切換到其他基站的偏置值來實(shí)現(xiàn)負(fù)載均衡。為了實(shí)現(xiàn)這一目標(biāo)，作者利用DRL 來對(duì)偏置值進(jìn)行優(yōu)化。DRL 的狀態(tài)包含了所有基站的負(fù)載信息以及它們的邊緣用戶占所有用戶的比值，而DRL 的動(dòng)作則是從各基站切換到其他基站的偏置值。DRL 的獎(jiǎng)賞設(shè)置為所有基站的最大負(fù)載的倒數(shù)?？梢?，該獎(jiǎng)賞值在所有基站達(dá)到相同負(fù)載時(shí)取得最大值，因此DRL 的目標(biāo)是令所有基站的負(fù)載相同。由于DRL 的動(dòng)作包含連續(xù)值，該文獻(xiàn)采用了A3C 算法來實(shí)現(xiàn)DRL。此外，因?yàn)镈RL 的動(dòng)作是一個(gè)向量，所以作者還將A3C 中的動(dòng)作家設(shè)計(jì)為一個(gè)含有多個(gè)輸出層的DNN來輸出向量值。

文獻(xiàn)[37]進(jìn)一步嘗試將接入控制與資源分配相結(jié)合，考慮了多層基站蜂窩網(wǎng)絡(luò)中的用戶接入與信道分配聯(lián)合優(yōu)化問題。當(dāng)前蜂窩網(wǎng)絡(luò)中的基站有宏蜂窩基站(macro base station, MBS)、SBS 和微蜂窩基站(pico base station, PBS)3 種。它們具有不同的發(fā)射功率，導(dǎo)致其覆蓋范圍也不同。因此，終端設(shè)備在同一個(gè)時(shí)刻可能同時(shí)接收到多個(gè)基站的信號(hào)。此時(shí)，合理地分配用戶及信道可以獲得最大的空間復(fù)用增益，進(jìn)而最大化網(wǎng)絡(luò)整體速率。然而，該問題是一個(gè)高度非凸的整數(shù)優(yōu)化問題，難以優(yōu)化求解。為此，該文獻(xiàn)首先將該問題建模成多個(gè)智能體(即多智體)的博弈問題。其中，多智體的目標(biāo)函數(shù)為自身速率和發(fā)送功率開銷、切換基站開銷的差值。即，各終端設(shè)備的目標(biāo)是在最大化自身速率的同時(shí)，最小化發(fā)送功率和切換基站次數(shù)。基于此目標(biāo)函數(shù)，作者證明了該多智體博弈存在納什均衡點(diǎn)(Nash equilibrium, NE)，并提出利用DRL 對(duì)基站和信道進(jìn)行智能選擇來求解該NE。和文獻(xiàn)[22]類似，該文獻(xiàn)也采用競爭-雙深度Q 學(xué)習(xí)算法來實(shí)現(xiàn)DRL，并通過仿真結(jié)果證明該算法可以獲得比深度Q 學(xué)習(xí)算法、雙深度Q 學(xué)習(xí)算法更高的網(wǎng)絡(luò)總速率。

5 智能網(wǎng)絡(luò)維護(hù)

前兩章分別對(duì)無線通信網(wǎng)絡(luò)中的智能資源管理和智能接入控制相關(guān)文獻(xiàn)進(jìn)行了介紹。它們利用DRL 替代原本基于優(yōu)化或啟發(fā)式的傳統(tǒng)算法，以保證無線網(wǎng)絡(luò)在大規(guī)模及復(fù)雜環(huán)境下依然能高效地運(yùn)行。然而，更為復(fù)雜的網(wǎng)絡(luò)不僅為網(wǎng)絡(luò)高效運(yùn)行帶來困難，同時(shí)也極大地增加了網(wǎng)絡(luò)維護(hù)的難度。特別是當(dāng)前網(wǎng)絡(luò)維護(hù)仍大量依賴人工參與，其高成本和不及時(shí)的響應(yīng)速度難以滿足未來無線通信的需求。因此，實(shí)現(xiàn)智能通信同樣需要為網(wǎng)絡(luò)維護(hù)賦予智能。下面將以網(wǎng)絡(luò)故障修復(fù)、基站管理以及基站部署規(guī)劃等三方面為例，說明DRL 如何應(yīng)用于無線通信網(wǎng)絡(luò)的智能維護(hù)。

隨著網(wǎng)絡(luò)規(guī)模增加，網(wǎng)絡(luò)發(fā)生故障的概率也隨之增加。傳統(tǒng)的網(wǎng)絡(luò)排錯(cuò)和修復(fù)方法需要專家的參與，修復(fù)效率比較低。文獻(xiàn)[38]嘗試將DRL 應(yīng)用于網(wǎng)絡(luò)故障自我修復(fù)。在一個(gè)隨機(jī)出現(xiàn)故障的網(wǎng)絡(luò)中，DRL 的目標(biāo)是在給定的時(shí)間內(nèi)通過選擇正確的排錯(cuò)操作來清除故障。DRL 的狀態(tài)設(shè)計(jì)為網(wǎng)絡(luò)中故障數(shù)的指示值，分別表示其增加、減少或不變。DRL 的動(dòng)作空間包含所有可以排除故障的操作。在選擇動(dòng)作后，DRL 會(huì)得到一個(gè)由排除故障耗費(fèi)時(shí)間決定的獎(jiǎng)賞值。該文獻(xiàn)采用了深度Q 學(xué)習(xí)算法來實(shí)現(xiàn)DRL，并通過仿真說明基于DRL 的網(wǎng)絡(luò)故障自修復(fù)方法可以有效提升網(wǎng)絡(luò)可用性。

對(duì)于擁有大量基站的網(wǎng)絡(luò)來說，用戶流量的空時(shí)分布不均使得其中部分基站可能在某些時(shí)候處于空閑的狀態(tài)。然而，維持空閑基站的運(yùn)作同樣需要耗費(fèi)電能并產(chǎn)生成本。因此，為了提高網(wǎng)絡(luò)能量效率和降低成本，無線網(wǎng)絡(luò)需要依據(jù)用戶流量需求動(dòng)態(tài)地開啟和關(guān)閉基站。鑒于流量需求是動(dòng)態(tài)隨機(jī)的，文獻(xiàn)[39]提出利用DL 對(duì)各基站的流量進(jìn)行分析和預(yù)測，然后利用DRL 根據(jù)預(yù)測的流量對(duì)基站的開關(guān)進(jìn)行控制。其中，DRL 的狀態(tài)除了包含流量的預(yù)測值外，還包含上一時(shí)刻對(duì)于基站開關(guān)的歷史決策信息。DRL 的動(dòng)作則是控制所有基站的開關(guān)組合?？梢?，動(dòng)作空間將隨基站數(shù)量指數(shù)增長。當(dāng)基站數(shù)量比較大時(shí)，動(dòng)作空間將會(huì)非常龐大。因此，該文獻(xiàn)采用可以輸出連續(xù)動(dòng)作的DDPG 算法來實(shí)現(xiàn)DRL。其中，DDPG 輸出的連續(xù)動(dòng)作被離散化后映射為特定的基站開關(guān)組合。此外，該文獻(xiàn)提出了一個(gè)懲罰函數(shù)，包含了用戶體驗(yàn)損失、能量開銷以及開關(guān)切換開銷。最后，通過使用DDPG算法最小化該懲罰函數(shù)，可以在保證用戶體驗(yàn)時(shí)最小化能量損耗及開關(guān)切換次數(shù)。除文獻(xiàn)[39]外，文獻(xiàn)[40]也提出了一個(gè)基于DRL 的基站智能休眠策略，以降低網(wǎng)絡(luò)能耗。

對(duì)于某些人口稀疏的地區(qū)，部署大量基站來保證無線網(wǎng)絡(luò)的覆蓋率是難以實(shí)現(xiàn)的。同時(shí)，在固定的基站部署方式下，用戶流量的空時(shí)分布不均也會(huì)導(dǎo)致熱點(diǎn)區(qū)域網(wǎng)絡(luò)堵塞的問題。因此，人們提出利用UAV 作為空中基站來服務(wù)地面通信終端。然而，UAV 的覆蓋范圍有限，且用戶與空中基站的信道會(huì)隨著UAV 的移動(dòng)而改變。這都為UAV 空中基站的部署帶來了難度。文獻(xiàn)[41]提出利用DRL進(jìn)行空中基站的部署規(guī)劃。其中，DRL 的狀態(tài)包含了UAV 和所有用戶的當(dāng)前坐標(biāo)，而DRL 的動(dòng)作空間則是UAV 可以移動(dòng)的方向，包括x、y、z 軸上的正方向及負(fù)方向，以及保持原有位置。當(dāng)UAV 移動(dòng)到一個(gè)新的位置時(shí)，DRL 的獎(jiǎng)賞值為空中基站與地面終端設(shè)備傳輸數(shù)據(jù)的總速率。最后，深度Q 學(xué)習(xí)算法被用于規(guī)劃UAV 的飛行軌跡，從而得到最優(yōu)的空中基站部署規(guī)劃。

6 討論：開放問題

雖然目前初步的研究表明DRL 具有賦能智能通信及滿足未來無線通信需求的潛能，但是其在理論和應(yīng)用上尚有一些開放問題需要解決，如分布式DRL 的非平穩(wěn)性、非完美數(shù)據(jù)的影響以及安全與隱私問題。

6.1 分布式DRL 的非平穩(wěn)性

DRL 本質(zhì)上一種求解MDP 的方法，而MDP描述的是單個(gè)智能體與環(huán)境的交互過程。其中，環(huán)境狀態(tài)的改變是由智能體采取的動(dòng)作以及環(huán)境固有的轉(zhuǎn)移概率決定的。也就是說，若給定環(huán)境狀態(tài)和智能體采取的動(dòng)作，新的環(huán)境狀態(tài)出現(xiàn)的概率隨之固定?；谶@一特性，DRL 通過分析歷史數(shù)據(jù)來尋找并利用環(huán)境的變化規(guī)律，從而得到最優(yōu)決策。

然而，對(duì)于未來大規(guī)模的無線網(wǎng)絡(luò)，使用單個(gè)智能體收集網(wǎng)絡(luò)中的所有信息并對(duì)所有參數(shù)同時(shí)做出決策將會(huì)導(dǎo)致信息收集困難、響應(yīng)時(shí)延高等問題。因此，分布式的方案，即采用多個(gè)智能體對(duì)網(wǎng)絡(luò)參數(shù)同時(shí)優(yōu)化，是解決以上問題的有效途徑。顯然，當(dāng)存在多個(gè)智能體時(shí)，環(huán)境狀態(tài)的改變將同時(shí)被多智體各自采取的動(dòng)作所影響。在此時(shí)，對(duì)于某個(gè)智能體而言，其自身所在環(huán)境的狀態(tài)轉(zhuǎn)移概率將不再是確定的。這就是分布式DRL 中的非平穩(wěn)性。由于目前的DRL 算法在設(shè)計(jì)時(shí)并沒有考慮多智體產(chǎn)生的非平穩(wěn)性，因此直接將它們應(yīng)用于分布式DRL 可能會(huì)導(dǎo)致算法不收斂或結(jié)果不穩(wěn)定等問題。目前采用分布式DRL 方案的研究，如文獻(xiàn)[37]嘗試通過共享多智體的狀態(tài)或基于博弈論的思想設(shè)計(jì)獎(jiǎng)賞值等方法解決非平穩(wěn)性的問題。雖然這些方法在求解特定問題上可以得到較好的結(jié)果，目前仍缺乏解決分布式DRL 非平穩(wěn)性的普適性理論。

6.2 非完美數(shù)據(jù)的影響

DRL 的學(xué)習(xí)需要智能體從外界獲得足夠的信息，包括觀察環(huán)境得到狀態(tài)以及獎(jiǎng)賞值。在無線通信中，由于噪聲的存在，智能體對(duì)環(huán)境的觀察會(huì)受噪聲污染。除此之外，若智能體所需的信息需要由其他設(shè)備通過回傳鏈路反饋，其獲取的信息也有可能受信道變化等隨機(jī)因素影響而缺失。這類受污染或缺失的數(shù)據(jù)被稱為非完美數(shù)據(jù)。目前的研究通常認(rèn)為智能體所需信息都可完美獲得。然而，鑒于無線通信環(huán)境的特殊性，研究非完美數(shù)據(jù)對(duì)DRL 學(xué)習(xí)過程和學(xué)習(xí)結(jié)果的影響具有重要意義。

6.3 安全與隱私問題

作為一種數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法，DRL 在對(duì)無線網(wǎng)絡(luò)進(jìn)行優(yōu)化的過程中需要對(duì)大量的數(shù)據(jù)進(jìn)行分析。例如，在智能資源管理的過程中，DRL 智能體需要在獲取各個(gè)網(wǎng)絡(luò)、基站甚至終端設(shè)備的信息后進(jìn)行決策。此外，分布式的DRL 方案也需要通過多智體之間的信息共享來緩解非平穩(wěn)性。然而，在實(shí)際應(yīng)用中，信息共享會(huì)帶來安全與隱私的問題。例如，網(wǎng)絡(luò)或基站的擁有者之間可能存在競爭關(guān)系，出于商業(yè)安全和保護(hù)用戶隱私的考慮，它們難以進(jìn)行直接的數(shù)據(jù)共享。同樣的，屬于不同的用戶設(shè)備也存在數(shù)據(jù)共享的壁壘。

值得注意的是，在當(dāng)前人工智能快速發(fā)展的時(shí)代，數(shù)據(jù)的安全和隱私問題正在受到越來越多關(guān)注。例如，歐盟和中國分別在2018 年和2019 年分別出臺(tái)了《通用數(shù)據(jù)保護(hù)條例》[42]和《人工智能北京共識(shí)》來規(guī)范人工智能在發(fā)展過程中產(chǎn)生的安全與隱私問題。為此，人們提出了多方安全計(jì)算(multi-party computation)[43]、差分隱私(differential privacy)[44]和聯(lián)邦學(xué)習(xí)等方法，來解決機(jī)器學(xué)習(xí)中的數(shù)據(jù)安全與隱私問題。對(duì)于無線通信而言，如何依據(jù)無線通信的特征將它們與DRL 有機(jī)結(jié)合是構(gòu)建未來安全的智能無線通信網(wǎng)絡(luò)的關(guān)鍵。

7 結(jié) 束語

本文對(duì)深度強(qiáng)化學(xué)習(xí)進(jìn)行了介紹，并從資源管理、接入控制以及網(wǎng)絡(luò)維護(hù)三個(gè)方面對(duì)目前利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)智能通信的研究進(jìn)展進(jìn)行了總結(jié)和剖析。目前的研究結(jié)果表明深度強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)智能通信的有效方法。最后，本文對(duì)目前尚未解決的開放問題進(jìn)行了討論，為未來的研究提供有益的思路。

本文研究工作還得到高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃(B20064)的資助，在此表示感謝。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向智能通信的深度強(qiáng)化學(xué)習(xí)方法

1 基礎(chǔ)知識(shí)回顧

1.1 馬爾科夫決策過程

1.2 強(qiáng)化學(xué)習(xí)

1.3 深度學(xué)習(xí)

2 深度強(qiáng)化學(xué)習(xí)概述

2.1 基于值的DRL 方法

2.2 基于行動(dòng)評(píng)論家的DRL 方法

3 智能資源管理

3.1 頻譜資源管理

3.2 功率資源管理

3.3 網(wǎng)絡(luò)資源管理

4 智能接入控制

5 智能網(wǎng)絡(luò)維護(hù)

6 討論：開放問題

6.1 分布式DRL 的非平穩(wěn)性

6.2 非完美數(shù)據(jù)的影響

6.3 安全與隱私問題

7 結(jié) 束 語

7 結(jié) 束語