還婧文,楊少石,2*,袁田浩,孟闊,畢嘉輝,唐玉蓉
(1.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876;2.泛網(wǎng)無線通信教育部重點實驗室,北京 100876;3.中國移動研究院,北京 100053)
為了滿足未來無線通信系統(tǒng)面向多類型業(yè)務(wù)的靈活需求,文獻(xiàn)[1][2]提出使用靈活雙工技術(shù)來增強系統(tǒng)性能,這在賦能垂直行業(yè)的公網(wǎng)、專網(wǎng)聯(lián)合部署環(huán)境中尤為重要。然而,當(dāng)兩個基于動態(tài)時分雙工(Dynamic Time Division Duplexing,D-TDD)技術(shù)的相鄰小區(qū)具有相反的傳輸方向并且共享相同時頻資源時,可能會發(fā)生嚴(yán)重的小區(qū)間干擾,這種現(xiàn)象被稱為交叉鏈路干擾(Cross-Link Interference,CLI)。它包括下行鏈路(Downlink,DL)到上行鏈路(Uplink,UL)的干擾和UL到DL的干擾。
5G賦能垂直行業(yè)的一個重要場景是工業(yè)物聯(lián)網(wǎng),其中多種不同類型的業(yè)務(wù)(如語音業(yè)務(wù)、數(shù)據(jù)業(yè)務(wù)和視頻業(yè)務(wù))在不同傳輸方向上并發(fā)成為常態(tài)。在后5G時代的無線網(wǎng)絡(luò)中,使用D-TDD技術(shù)進(jìn)行靈活的業(yè)務(wù)自適應(yīng)傳輸有助于提高系統(tǒng)的傳輸資源利用率,但這也會導(dǎo)致復(fù)雜的CLI問題。如何進(jìn)一步優(yōu)化無線資源管理算法,有效緩解CLI問題帶來的負(fù)面影響,是一個迫切需要研究的重要問題。
此外,對于不同的業(yè)務(wù)需求,優(yōu)化的目標(biāo)函數(shù)一般不同,這將增大無線資源分配問題的復(fù)雜性。為此,基于體驗質(zhì)量(Quality of Experience,QoE)對5G網(wǎng)絡(luò)的資源管理技術(shù)進(jìn)行性能評估[3]得到業(yè)界的廣泛認(rèn)可。平均意見分(Mean Opinion Score,MOS)是一種使用最廣泛的QoE指標(biāo)[4]。通過為不同類型的業(yè)務(wù)提供通用測量尺度,MOS使跨不同特征的業(yè)務(wù)進(jìn)行綜合業(yè)務(wù)管理和資源分配成為可能[5]。
Q-Learning可以通過與環(huán)境交互獲得的即時回報生成接近最優(yōu)的解決方案。通過優(yōu)化當(dāng)前獎勵實現(xiàn)長期優(yōu)化目標(biāo)對于動態(tài)變化的復(fù)雜無線網(wǎng)絡(luò)的資源管理至關(guān)重要。在用戶數(shù)動態(tài)變化時,新用戶加入后如何更有效地分配基站及用戶的發(fā)射功率是后5G研究中的一個難點。針對此問題,有研究者提出了認(rèn)知學(xué)習(xí)的思想,該思想允許新用戶從提前接入小區(qū)的用戶那里學(xué)習(xí),以改進(jìn)學(xué)習(xí)過程[6]。
總的來說,現(xiàn)有的很多針對多小區(qū)場景下的功率分配方法僅僅圍繞干擾消除展開,并沒有考慮用戶業(yè)務(wù)類型需求不同的情況。因此,本文對多小區(qū)無線網(wǎng)絡(luò)中上下行多業(yè)務(wù)并發(fā)場景下的功率分配方法進(jìn)行研究。首先,給出了宏小區(qū)用戶和微小區(qū)用戶的語音、數(shù)據(jù)以及視頻業(yè)務(wù)的系統(tǒng)模型、業(yè)務(wù)模型以及評價指標(biāo)。其次,基于Q-Learning對多業(yè)務(wù)并發(fā)時的基站和用戶發(fā)射功率進(jìn)行分配,基于Q-table的更新方式提出了三種定向?qū)W習(xí)方法。最后,將設(shè)計的三種定向?qū)W習(xí)方法與無定向?qū)W習(xí)能力的原始Q-Learning算法進(jìn)行比較分析。仿真結(jié)果顯示本文提出的方法在保證系統(tǒng)合理的MOS值和擁塞率時,降低了算法收斂所需的迭代次數(shù),提升了算法收斂性能。
本文所考慮的系統(tǒng)模型如圖1所示,包含兩個小區(qū)(宏小區(qū)和微小區(qū))。宏小區(qū)的傳輸方向為DL,信號由宏基站(Macro Base Station,MBS)發(fā)送給宏小區(qū)用戶(Macro-cell User Equipment,MUE)。微小區(qū)的傳輸方向為UL,微小區(qū)用戶(Small-cell User Equipment,SUE)將信號上傳至微基站(Small Base Station,SBS)。宏小區(qū)和微小區(qū)的用戶數(shù)分別為K和L。
圖1 系統(tǒng)模型示意圖
另一方面,SBS以第l個SUE為目標(biāo)用戶時的接收信號為:
下面根據(jù)接收信號模型對信干噪比(Signal to Interference plus Noise Ratio,SINR)進(jìn)行推導(dǎo)。第k個MUE的SINR為:
相似地,SBS以第l個SUE為目標(biāo)用戶時的SINR為:
根據(jù)上述推導(dǎo)結(jié)果,第k個MUE的速率可以表示為:
其中,Bk是第k個MUE的帶寬。第l個SUE的速率表示為:
其中,Bl是第l個SUE的帶寬。
本文的目標(biāo)函數(shù)要求針對不同的業(yè)務(wù)將包括數(shù)據(jù)速率、誤包率(Packet Error Probability,PEP)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)等在內(nèi)的評價參數(shù)映射到MOS。語音業(yè)務(wù)、數(shù)據(jù)業(yè)務(wù)和視頻業(yè)務(wù)的具體映射關(guān)系如下所述。
1.語音業(yè)務(wù)。確定語音業(yè)務(wù)質(zhì)量的傳統(tǒng)方法是進(jìn)行主觀測試。這些測試的結(jié)果進(jìn)行平均得出MOS,但此類測試成本高昂,不適用于在線語音業(yè)務(wù)質(zhì)量評估。因此,ITU-T提出了一個標(biāo)準(zhǔn)化模型,即語音業(yè)務(wù)質(zhì)量的感知評估(Perceptual Evaluation of Speech Quality,PESQ)[7],這是一種能夠以高度相關(guān)性預(yù)測典型主觀測試中給出的質(zhì)量分?jǐn)?shù)的算法。然而PESQ算法在計算上過于昂貴,無法用于實時場景。為了解決這個問題,Giupponi等人提出了一個模型來估計MOS與傳輸速率R和PEP的函數(shù)[8,Fig.2]。本文中,我們以MOSu來表示語音業(yè)務(wù)的MOS值,其具體數(shù)值及與傳輸速率R的對應(yīng)關(guān)系,可由文獻(xiàn)[8Fig.2]中給出的PEP值確定。
2.數(shù)據(jù)業(yè)務(wù)。為了估計數(shù)據(jù)業(yè)務(wù)的用戶滿意度,本文使用對數(shù)形式的MOS與傳輸速率的關(guān)系[9],它是傳輸速率R的遞增嚴(yán)格凹連續(xù)可微函數(shù)[8,Fig.3]。
基于系統(tǒng)提供給用戶的R和PEP來估計MOS,具體計算公式如下:
式中,a和b由用戶感知質(zhì)量確定。通過R和PEP來計算MOS。
3.視頻業(yè)務(wù)。對于視頻業(yè)務(wù)質(zhì)量進(jìn)行評估的現(xiàn)有技術(shù)很多,其中ITU對多媒體業(yè)務(wù)質(zhì)量進(jìn)行了主觀評估。PSNR作為一種視頻業(yè)務(wù)質(zhì)量的評價指標(biāo),被普遍用來客觀地衡量視頻的編碼性能。然而,PSNR不能準(zhǔn)確反映人類對視頻質(zhì)量的主觀感知。PSNR和MOS之間具有線性映射關(guān)系[8,F(xiàn)ig.2],它為40 dB及以上的PSNR分配的MOS值為4.5,為20 dB及以下的PSNR分配的MOS值為1。上限來自這樣一個事實,即PSNR為40 dB的重建視頻序列幾乎無法與原始視頻序列區(qū)分,低于20 dB的視頻序列會因嚴(yán)重的退化而失真[8]。因此如果使用客觀指標(biāo)(例如PSNR)測量圖像失真,可以使用以下邏輯函數(shù)來表征MOS和PSNR之間的關(guān)系[10]:
其中,c、d和e是函數(shù)的參數(shù),取c=6.6431,d=-0.1344和e=30.4264。本文選擇log函數(shù)來評估視頻的質(zhì)量。為了表征重建視頻的PSNR隨傳輸速率的變化,得到關(guān)系如下:
其中k和p是常數(shù)。
由于MOS作為所有類型業(yè)務(wù)的通用質(zhì)量評估指標(biāo)[11],允許以集成方式用于為所有類型的業(yè)務(wù)分配傳輸資源,因此本文將語音、視頻和數(shù)據(jù)業(yè)務(wù)評價指標(biāo)統(tǒng)一化為:
其中,U是語音業(yè)務(wù)用戶的數(shù)量,V是視頻業(yè)務(wù)用戶的數(shù)量,W是數(shù)據(jù)業(yè)務(wù)用戶的數(shù)量。在這種情況下,即使系統(tǒng)性能最大化,也有可能無法滿足給定用戶的需求,這可能是因為其SINR過低,導(dǎo)致傳輸資源被分配給其他用戶,這與試圖為用戶提供的公平性相矛盾。為了解決這個問題,本文根據(jù)估計的MOS歷史值選擇公平系數(shù)λui、λvi和λwi。假設(shè)當(dāng)前處于分配步驟Z中,系統(tǒng)中某業(yè)務(wù)有Q個用戶,用戶的最大MOS值:
用戶的公平系數(shù)的計算式如下:
因此,具有最大MOS值的用戶公平系數(shù)為1。由于分母在區(qū)間[1,4.5]內(nèi)變化,所以其他用戶的公平系數(shù)在[1,4.5]范圍內(nèi),給在當(dāng)前優(yōu)化步驟之前MOS較低的用戶提供更多的資源來確保公平性。通過使用相應(yīng)算法求解以下優(yōu)化問題,來獲得最佳功率分配方案,以使目標(biāo)函數(shù)最大化,即最大化系統(tǒng)平均MOS性能:
其中,λ表示三種業(yè)務(wù)的公平系數(shù)。公式(19)表示MBS的M根天線對于K個MUE的發(fā)送功率之和小于基站的最大發(fā)送功率;公式(20)表示SBS給每個SUE分配的發(fā)送功率要小于其本身最大的發(fā)送功率;公式(21)表示語音業(yè)務(wù)的用戶需滿足文獻(xiàn)[8Fig.2]所示的四種語音編碼器其中一個的速率,即Ru,min的值為6.4 kbit/s、15.2k bit/s、24.6 kbit/s、64 kbit/s;公式(22)(23)分別表示視頻業(yè)務(wù)和數(shù)據(jù)業(yè)務(wù)的用戶速率需滿足的傳輸速率。
Q-Learning定義一組狀態(tài)(State)S、一組動作(Action)A和獎勵函數(shù)(Reward)R,獎勵函數(shù)表示所選動作對環(huán)境的影響。每個代理(Agent)將從A中選擇下一個Action。在本文的系統(tǒng)模型中,Agent對應(yīng)于MBS,它的每根天線均給多個MUE分配下行功率,并告知SBS如何為每個SUE分配上行功率,這些功率的分配對應(yīng)A。本文的目標(biāo)函數(shù)對應(yīng)獎勵函數(shù),反映了系統(tǒng)的QoE;約束條件對應(yīng)狀態(tài)S。MBS在可行域中對功率的有限離散空間進(jìn)行搜索。本文選擇Q-Learning強化學(xué)習(xí)方法來解決前述功率分配問題。MBS獲取環(huán)境當(dāng)前狀態(tài)S,并相應(yīng)地在特定策略π下采取行動a,也就是π(s)→a,即時獎勵為R(a,s)。然后,使用折扣(discount)因子γ(0<γ<1)來最大化未來獎勵,該因子代表未來獎勵的重要性。在滿足約束的情況下,MBS將尋求一個最優(yōu)分配,以最大化目標(biāo)值。
此外,定義系統(tǒng)擁塞率來表示系統(tǒng)學(xué)習(xí)性能:
其中,count_new表示新用戶加入后成功學(xué)習(xí)(當(dāng)Q-table值保持不變時)的次數(shù),count表示新用戶加入前原有用戶成功學(xué)習(xí)的次數(shù)。
第t次的即時獎勵表示為:
其中,β是一個小于任何其他策略獎勵的常數(shù),取0.01表示采取了違反約束的不成功操作。當(dāng)滿足約束時,式中的值為語音業(yè)務(wù)、數(shù)據(jù)業(yè)務(wù)和視頻業(yè)務(wù)的平均MOS值。Q-table更新函數(shù)表示為:
式中α是學(xué)習(xí)效率,0<α<1。公式(30)中出現(xiàn)的最大化表示在所有可能的Action中選擇使Qt+1最大的at+1?;赒-Learning的無線網(wǎng)絡(luò)資源分配具體流程如圖2所示。
圖2 基于Q-Learning的無線網(wǎng)絡(luò)資源分配流程
本文的算法旨在對系統(tǒng)中新加入的多業(yè)務(wù)用戶進(jìn)行功率分配,。為使Q-Learning算法滿足環(huán)境變化,本文引入定向?qū)W習(xí)能力,也就是說,對新加入用戶的三種業(yè)務(wù)進(jìn)行針對性的學(xué)習(xí)方式設(shè)計。每個新加入的多業(yè)務(wù)用戶首先了解其周圍環(huán)境,然后由MBS繼續(xù)選擇與最大獎勵相關(guān)的Action,通過運行Q-Learning獲得所選行動的獎勵,最后根據(jù)收到的即時獎勵更新Q-table。對于解決特定系統(tǒng)問題,具有更多“經(jīng)驗”的節(jié)點將教授能力較差的節(jié)點,以減少學(xué)習(xí)時間,同時提高學(xué)習(xí)性能的思想被稱作docitive[12]。本文所提三種學(xué)習(xí)方式如下所述。
第一種為相同業(yè)務(wù)類型定向?qū)W習(xí),取相同業(yè)務(wù)類型用戶的Q-table均值作為新用戶的Q-table;第二種為最近用戶定向?qū)W習(xí),選取距離新用戶最近的用戶的Q-table作為新用戶的Q-table;第三種為隨機選擇定向?qū)W習(xí),在原始用戶中隨機選擇某個用戶的Q-table作為新用戶的Q-table。已經(jīng)存在于網(wǎng)絡(luò)中的用戶使用Q-Learning算法學(xué)習(xí)Q-table。新用戶加入后,利用上述三種方案,獲取新用戶的Q-table。算法詳細(xì)過程描述如下:
步驟一:初始化學(xué)習(xí)效率α、discount因子γ、Q-table;初始化帶寬B,MBS、SBS位置;MUE、SUE隨機撒點;初始化信道矩陣。為當(dāng)前所有用戶隨機分配業(yè)務(wù)類型。
步驟三:根據(jù)π(st),在當(dāng)前狀態(tài)st的所有可選行動中選擇一個作為at。
步驟四:計算給定參數(shù)下生成的速率、MOS值集合。
步驟五:系統(tǒng)移動到下一狀態(tài)st+1,反饋即時獎勵值R(st,at)。
步驟六:在新狀態(tài)上選擇使Q-table值最大的行動at+1。
步驟七:更新Q-table。
步驟八:新用戶加入,方法一是取與新用戶相同業(yè)務(wù)類型用戶的Q-table取均值賦給新用戶;方法二是取與新用戶最近用戶的Q-table賦給新用戶;方法三是從原有用戶中隨機選擇一個Q-table賦給新用戶。
步驟九:將新狀態(tài)更新為當(dāng)前狀態(tài),重復(fù)步驟三到步驟七,直到Q-table值保持不變。并判斷為成功學(xué)習(xí)。
仿真參數(shù)如表1所示,在仿真過程中宏、微小區(qū)的原有用戶數(shù)保持不變,原有用戶的業(yè)務(wù)類型和新加入系統(tǒng)的用戶的業(yè)務(wù)類型均隨機分配,新加入用戶數(shù)為1。
表1 仿真參數(shù)
圖3所示為當(dāng)其他系統(tǒng)參數(shù)保持不變,令系統(tǒng)原有用戶數(shù)分別從4,8,12,16,20,24變化(新加入1個用戶后總用戶數(shù)為5,9,13,17,21,25),系統(tǒng)新加入用戶業(yè)務(wù)類型隨機分配時,分別以無定向?qū)W習(xí)、相同業(yè)務(wù)類型定向?qū)W習(xí)、最近用戶定向?qū)W習(xí)以及隨機選擇定向?qū)W習(xí)四種算法進(jìn)行平均MOS變化仿真。從圖中可以觀察到:
圖3 各用戶數(shù)下的平均MOS
1)隨著用戶數(shù)的增加,四種不同學(xué)習(xí)方式所實現(xiàn)的系統(tǒng)平均MOS值均在減小,這意味著新用戶無論是無定向?qū)W習(xí),還是選擇相似業(yè)務(wù)類型的用戶進(jìn)行定向?qū)W習(xí),選擇最近的用戶進(jìn)行定向?qū)W習(xí),隨機選擇用戶進(jìn)行定向?qū)W習(xí),用戶數(shù)的增加均會造成系統(tǒng)性能的降低。
2)隨著用戶數(shù)的增加,無定向?qū)W習(xí)能力的Q-Learing算法在用戶數(shù)較少時(圖中看少于13個)可達(dá)到的系統(tǒng)性能較引入定向?qū)W習(xí)能力的算法略高。但是當(dāng)用戶數(shù)增加時,幾種方式區(qū)別不大。考慮到當(dāng)用戶數(shù)增加時,無定向?qū)W習(xí)能力的算法復(fù)雜度比所提出的定向?qū)W習(xí)方法顯著增加(如圖5所示),這與其系統(tǒng)性能上所取得的微弱優(yōu)勢幾乎抵消,而且定義的不同業(yè)務(wù)公平系數(shù)的引入會增加定向?qū)W習(xí)算法的最終平均MOS值,最終導(dǎo)致用戶數(shù)增加時各算法性能差別不大。
3)三種不同定向?qū)W習(xí)能力的Q-Learning算法在系統(tǒng)平均MOS值性能上差別不大,這主要是因為三種算法在新用戶剛加入時對Q-table的更新上具有差別,在后續(xù)的Q-table值更新上是沒有區(qū)別的,最終達(dá)到的系統(tǒng)性能也不會有明顯差別。
4)該仿真結(jié)果還表明,我們設(shè)計的三種基于Q-Learning資源分配算法均獲得了較高的MOS值(始終高于可接受的MOS水平,包括仿真中存在最多的用戶數(shù)的情況)。
圖4所示為當(dāng)系統(tǒng)用戶數(shù)逐漸增加時,所定義的系統(tǒng)擁塞率的變化。可以看出:
圖4 各用戶數(shù)下的系統(tǒng)擁塞率
1)該結(jié)果可以用于確定對系統(tǒng)擁塞率有要求時的用戶數(shù)目的選擇范圍?;诖藞D所示結(jié)果,如果要求網(wǎng)絡(luò)以預(yù)定義的擁塞率運行,則引入定向?qū)W習(xí)的解決方案始終能接受更多的用戶數(shù)。
2)無定向?qū)W習(xí)的擁塞率較定向?qū)W習(xí)更高些。這是由于無定向?qū)W習(xí)算法中當(dāng)新用戶加入時,原有用戶的Q-table會清空,繼而隨著新加入的用戶重新分配資源,會加大算法的復(fù)雜度,導(dǎo)致?lián)砣试黾印?/p>
圖5所示為用戶數(shù)增加的過程中幾種算法的效率(或計算復(fù)雜度)對比,分別展示了新用戶加入后不同算法的迭代次數(shù)。可以得到如下結(jié)論:
圖5 各用戶數(shù)下的迭代次數(shù)
1)本文所提三種定向?qū)W習(xí)算法能夠?qū)⑺惴ǖ钠骄諗康螖?shù)減少約2/3。
2)本文所提三種定向?qū)W習(xí)算法的復(fù)雜度幾乎相同,只是選擇學(xué)習(xí)的方式不同。這是由于定向?qū)W習(xí)通過有經(jīng)驗的用戶將對周圍環(huán)境的感知準(zhǔn)確地轉(zhuǎn)化為新用戶的Q-table,并減少實現(xiàn)收斂所需的迭代次數(shù)??梢钥闯觯c加入定向?qū)W習(xí)能力前的無學(xué)習(xí)能力算法相比,實現(xiàn)收斂所需的迭代次數(shù)減少達(dá)65%。
本文針對后5G無線網(wǎng)絡(luò)對上下行多業(yè)務(wù)的并發(fā)需求,利用MOS作為多業(yè)務(wù)用戶的QoE評價指標(biāo),將多業(yè)務(wù)資源分配的優(yōu)化目標(biāo)統(tǒng)一化,給出了解決上下行多業(yè)務(wù)并發(fā)系統(tǒng)性能優(yōu)化的目標(biāo)函數(shù),并提出了一類具有定向?qū)W習(xí)能力的Q-Learning方法對多業(yè)務(wù)用戶基站側(cè)和用戶側(cè)發(fā)射功率分配進(jìn)行優(yōu)化。由于當(dāng)系統(tǒng)中加入新用戶時發(fā)射功率需要重新分配,本文在原始Q-Learning算法的Q-table更新方式上進(jìn)行了三種改進(jìn),分別取與新用戶相同業(yè)務(wù)類型用戶的Q-table取均值賦給新用戶;取與新用戶最近用戶的Q-table賦給新用戶;從原有用戶中隨機選擇一個Q-table賦給新用戶。將所設(shè)計的三種定向?qū)W習(xí)算法與無定向?qū)W習(xí)能力的Q-Learing算法進(jìn)行了比較分析,可知在平均MOS值方面,所有用戶進(jìn)行定向?qū)W習(xí)與無定向?qū)W習(xí)算法系統(tǒng)性能差別不大;在算法的系統(tǒng)擁塞率方面,定向?qū)W習(xí)算法低于無定向?qū)W習(xí);在算法所需迭代次數(shù)方面,定向?qū)W習(xí)算法可將迭代次數(shù)大大降低。綜上所述,改進(jìn)后的算法在用戶數(shù)動態(tài)變化的場景下,在保證合理的系統(tǒng)MOS值和擁塞率的同時降低了迭代次數(shù),提高了算法收斂性能。