關(guān)鍵詞:MTC隨機(jī)接入;異構(gòu)網(wǎng)絡(luò);資源分配;強(qiáng)化學(xué)習(xí);聯(lián)合資源分配
無(wú)線通信技術(shù)的新發(fā)展,以及無(wú)線基礎(chǔ)設(shè)施的廣泛鋪設(shè),正逐步與工業(yè)自動(dòng)化、互聯(lián)汽車(chē)和智能電網(wǎng)等物聯(lián)網(wǎng)應(yīng)用深度融合,共同構(gòu)筑未來(lái)智能化、網(wǎng)絡(luò)化的社會(huì)基礎(chǔ)平臺(tái)。據(jù)IHS Markit預(yù)測(cè),到2030年,全球智能設(shè)備數(shù)量將激增至1 250億臺(tái),這些設(shè)備將極大地促進(jìn)產(chǎn)業(yè)流程的智能化、人員與社會(huì)的協(xié)同整合,從而全面提升人們的日常生活品質(zhì)。
面對(duì)無(wú)線電資源有限的挑戰(zhàn),MTC(機(jī)器類(lèi)型通信)的核心任務(wù)在于支持龐大設(shè)備群體的通信需求。在此過(guò)程中,我們必須妥善應(yīng)對(duì)一系列非傳統(tǒng)難題,包括但不限于無(wú)線接入網(wǎng)絡(luò)(Radio Access Network,簡(jiǎn)稱RAN) 的擁塞問(wèn)題、流量的高度動(dòng)態(tài)性和零星分散性,以及龐大的信令開(kāi)銷(xiāo)。網(wǎng)絡(luò)擁塞現(xiàn)象可能出現(xiàn)在基于LTE/LTE-A技術(shù)的蜂窩網(wǎng)絡(luò)的各個(gè)環(huán)節(jié),涵蓋RAN、核心網(wǎng)絡(luò)以及信令網(wǎng)絡(luò)。由于接入端可用的無(wú)線電資源有限,而大量的MTCD(機(jī)器類(lèi)型通信設(shè)備)接入請(qǐng)求又持續(xù)涌入,這使得RAN擁塞問(wèn)題在蜂窩物聯(lián)網(wǎng)網(wǎng)絡(luò)中變得尤為突出。因此,設(shè)計(jì)一種更為高效的隨機(jī)接入方案成為當(dāng)務(wù)之急。
1 基于強(qiáng)化學(xué)習(xí)的隨機(jī)接入擁塞控制方法
1.1 系統(tǒng)模型
本文考慮了其中描述的兩步無(wú)連接數(shù)據(jù)包傳輸過(guò)程。在這個(gè)過(guò)程中,MTCD(機(jī)器類(lèi)型通信設(shè)備)會(huì)在收到RAR(隨機(jī)接入響應(yīng))報(bào)文時(shí),將其報(bào)文連同有關(guān)裝置識(shí)別、包數(shù)據(jù)網(wǎng)絡(luò)識(shí)別和安全性的全部必要信息一起發(fā)送出去。這樣,當(dāng)gNB(下一代節(jié)點(diǎn)B) 收到分組時(shí),就會(huì)將分組發(fā)送給非連接接入網(wǎng)關(guān),由網(wǎng)關(guān)對(duì)報(bào)文內(nèi)容頭部進(jìn)行檢查,驗(yàn)證其完整性,并執(zhí)行解密操作,然后按照所保存的狀態(tài)信息將分組發(fā)送給指定的網(wǎng)絡(luò)節(jié)點(diǎn)。該方法的主要缺陷在于,當(dāng)數(shù)據(jù)包被發(fā)送以后,無(wú)論成功與否,終端都要將信息發(fā)送出去。針對(duì)這一問(wèn)題,本文提出了一種改進(jìn)的免連接二步法RA(隨機(jī)接入)處理方法,使MTCD能夠在Msg2(第二條消息)后發(fā)送具有上下文信息的報(bào)文。
為了克服無(wú)論接入嘗試是否成功都發(fā)送數(shù)據(jù)包的問(wèn)題,采用了其中提出的早期前導(dǎo)沖突檢測(cè)技術(shù),其中g(shù)NB可以在Msg1(第一條消息)中檢測(cè)前導(dǎo)碼是否發(fā)生沖突。具體來(lái)說(shuō),每個(gè)設(shè)備從可用于基于競(jìng)爭(zhēng)的過(guò)程的前導(dǎo)碼中隨機(jī)選擇一個(gè)前導(dǎo)碼并發(fā)送,該前導(dǎo)碼由所選前導(dǎo)和標(biāo)簽序列組成。通過(guò)接收到的標(biāo)記前導(dǎo)碼,gNB可以針對(duì)每個(gè)接收到的前導(dǎo)碼檢測(cè)是否發(fā)生沖突,方法是推斷與其關(guān)聯(lián)的標(biāo)簽并驗(yàn)證是否已發(fā)送多個(gè)標(biāo)簽。
另外,由于計(jì)算機(jī)類(lèi)通信數(shù)據(jù)的數(shù)量是很少的,所以假定每一個(gè)傳送請(qǐng)求都有同樣的上界值,通過(guò)廣播進(jìn)行傳送。在Msg2中,gNB將所需的PUSCH(物理上行共享信道)資源分配給每一次成功訪問(wèn)嘗試,以達(dá)到最大的數(shù)據(jù)傳送量。
這樣,從gNB收到報(bào)文應(yīng)答的MTCD進(jìn)入WRAR (等待隨機(jī)接入響應(yīng))窗口,并在下一RA 周期的PUSCH中發(fā)送它的數(shù)據(jù)。設(shè)定WRAR=5 ms,使數(shù)據(jù)能在下一個(gè)RA周期內(nèi)進(jìn)行發(fā)送,這段時(shí)間足夠保障有標(biāo)志前置碼的發(fā)送(包含循環(huán)前綴與發(fā)送時(shí)延)、gNB端的處理時(shí)延、RAR報(bào)文的發(fā)送、1 ms的應(yīng)答時(shí)間。反之,如果在WRAR窗口中沒(méi)有收到來(lái)自gNB的信息,則只有在這個(gè)時(shí)候才會(huì)i2Ij1RATBFGilUyUax3I6+u+TJqKS/q8DaUYTV3DZ6A=進(jìn)行重試。
在RA處理開(kāi)始前,基站定期地廣播包含若干關(guān)鍵參數(shù)、前置信息以及預(yù)配置資源的系統(tǒng)信息塊。MTCD在一個(gè)RA槽中傳輸一個(gè)包含報(bào)頭和相應(yīng)的標(biāo)記信息的分組,該分組共有Pds個(gè)正交前導(dǎo)。通過(guò)接收到的有標(biāo)簽的前導(dǎo),gNB能夠判斷出每一個(gè)前導(dǎo)是否發(fā)生碰撞。若在當(dāng)前的RA時(shí)隙中,MTCD未從gNB 收到RAR報(bào)文,且當(dāng)前的重發(fā)數(shù)目低于最大重發(fā)數(shù)目,則MTCD會(huì)在下一時(shí)隙再進(jìn)行隨機(jī)接入[1]。
由于延遲需求,每臺(tái)設(shè)備最多有MA 次重試訪問(wèn)、傳送數(shù)據(jù)的機(jī)會(huì),即,在槽t 新到達(dá)的設(shè)備最遲要在t至t+MA 之間的時(shí)間間隔內(nèi)完成數(shù)據(jù)傳送,否則,該任務(wù)將被丟棄,導(dǎo)致任務(wù)失敗。在RA時(shí)間間隔t 內(nèi),參與RA進(jìn)程的MTCD數(shù)目為:該碼元是指在RA槽t 內(nèi)新有效MTCD的指數(shù)集合。符號(hào)被認(rèn)為是RA時(shí)隙t-1中沖突MTCD的索引集,滿足條件:
在時(shí)間槽t 終止之后,在時(shí)間槽t+1至(t+MA) 內(nèi),未能進(jìn)行內(nèi)部存取的裝置將被再次存取。假定新活化的MTCD數(shù)目滿足Poisson分布,且其速率參數(shù)>1) 。在此基礎(chǔ)上,我們提出了一種新的方法,該方法可以有效防止前同步碼的碰撞,并且在有限的延遲預(yù)算下保證接入的可靠性。
本文用Dk表示第k 個(gè)前導(dǎo)碼被0個(gè)設(shè)備、1個(gè)設(shè)備、多個(gè)設(shè)備選中,第k 個(gè)前導(dǎo)碼只被一個(gè)設(shè)備選中的概率為p(Dk = 1| Ni = n),可以表示為:
由式(4)可以得到最優(yōu)值,當(dāng)可用前導(dǎo)數(shù)為Pds=32 時(shí),成功傳輸前導(dǎo)的設(shè)備數(shù)和嘗試接入當(dāng)前時(shí)隙的設(shè)備數(shù)的曲線圖。
當(dāng)橫軸坐標(biāo)為31.49時(shí),有一個(gè)極值11.96。由于設(shè)備數(shù)是整數(shù),所以取Ni=32。也就是說(shuō),如果每個(gè)時(shí)隙內(nèi)嘗試接入的設(shè)備數(shù)量控制為32,如果當(dāng)前接入時(shí)隙內(nèi)嘗試接入的設(shè)備數(shù)量Ni<=32,那么這些設(shè)備都可以嘗試接入,當(dāng)Ni>32.設(shè)備根據(jù)其剩余的任務(wù)重傳次數(shù)選擇主動(dòng)退避,保證當(dāng)前時(shí)隙內(nèi)嘗試接入的設(shè)備數(shù)量為32個(gè),充分利用前導(dǎo)碼,降低沖突概率。基于這一思想,本文提出了一種基于強(qiáng)化學(xué)習(xí)的接入控制策略。接入成功率:模擬周期內(nèi)成功連接的設(shè)備總數(shù)與設(shè)備總數(shù)的比值,則接入成功率表達(dá)式為:
1.2 基于強(qiáng)化學(xué)習(xí)的接入控制
基于模型驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)算法的思想是使用模型來(lái)解決問(wèn)題。為了建立MDP,我們將無(wú)線資源分配問(wèn)題建模為一個(gè)馬爾可夫決策過(guò)程,即使用一個(gè)狀態(tài)空間和一個(gè)動(dòng)作空間來(lái)表示資源分配問(wèn)題。為了便于分析,將MDP建模為包含用戶狀態(tài)、無(wú)線資源和網(wǎng)絡(luò)狀態(tài)的馬爾可夫決策過(guò)程。因此,需要一個(gè)獎(jiǎng)勵(lì)函數(shù)來(lái)獎(jiǎng)勵(lì)成功的用戶接入嘗試和成功的網(wǎng)絡(luò)狀態(tài)。為了解決這個(gè)問(wèn)題,首先使用深度神經(jīng)網(wǎng)絡(luò)(DNN) 模型來(lái)訓(xùn)練MDP。DNN模型的優(yōu)勢(shì)在于它可以通過(guò)端到端的訓(xùn)練過(guò)程來(lái)處理多個(gè)輸入數(shù)據(jù),這意味著DNN 模型可以通過(guò)提供高質(zhì)量的輸入來(lái)提高網(wǎng)絡(luò)性能。另外,DNN可以解決大規(guī)模問(wèn)題。DNN可以通過(guò)學(xué)習(xí)一個(gè)有向圖來(lái)表示用戶和網(wǎng)絡(luò)之間的關(guān)系,因此它可以用來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)算法[2]。
在基站覆蓋下,對(duì)時(shí)延靈敏的MTCD可以通過(guò)觀測(cè)當(dāng)前隨機(jī)存取時(shí)隙的狀態(tài)來(lái)判斷是否先存或暫存,然后采取相應(yīng)行動(dòng)。當(dāng)基站接收到訪問(wèn)請(qǐng)求時(shí),通過(guò)廣播方式向MTCD發(fā)送前同步碼沖突信息以及當(dāng)前時(shí)隙試圖訪問(wèn)MTCD的次數(shù),并在接收到該請(qǐng)求后進(jìn)行回報(bào),從而實(shí)現(xiàn)自身網(wǎng)絡(luò)的更新。該算法采用多次重復(fù)的方法,使每一個(gè)試圖訪問(wèn)的終端具有32個(gè)時(shí)隙,從而減少了前同步序列發(fā)生碰撞的可能性[3]。
1.3 性能仿真
在這一部分中,給出了基于pytroch的模擬實(shí)驗(yàn),通過(guò)修改γ 和pds的數(shù)值,證明了該算法的可行性,同時(shí)也說(shuō)明了其它算法與傳統(tǒng)算法相比的優(yōu)勢(shì)。本文設(shè)定學(xué)習(xí)速率為8x10-4,對(duì)500個(gè)情景進(jìn)行訓(xùn)練,每一情景包含5 000個(gè)時(shí)隙。折讓系數(shù)設(shè)為0.9。
在每個(gè)場(chǎng)景中,每個(gè)場(chǎng)景所得到的接入成功率和訓(xùn)練場(chǎng)景數(shù)量的關(guān)系。當(dāng)取不同的參數(shù)時(shí),接入成功率隨事件個(gè)數(shù)的增大而增大,而后收斂(趨穩(wěn))。實(shí)驗(yàn)結(jié)果表明,該強(qiáng)化學(xué)習(xí)算法具有良好的收斂性。另外,在收斂過(guò)程中,接入成功率隨時(shí)間的增大而下降。其原因在于,在同一前導(dǎo)資源的情況下,競(jìng)爭(zhēng)前導(dǎo)資源的有效MTCD數(shù)目更少,使得在有限時(shí)間預(yù)算下,MTCD被拒絕的可能性很小。
訪問(wèn)成功率被表達(dá)為Pds的恒定值為γ=7,不管是哪一種,訪問(wèn)成功率都隨有效前置導(dǎo)數(shù)法的增大而提高,但是相對(duì)其他兩個(gè)方案,本發(fā)明的訪問(wèn)成功率更高。實(shí)驗(yàn)結(jié)果顯示,該方法具有較大的可擴(kuò)展性[4]。
對(duì)3個(gè)方案為達(dá)到99x10-2的訪問(wèn)成功率所需要的最低Pds數(shù)目進(jìn)行比較。與已有的方法比較,本項(xiàng)目所設(shè)計(jì)的方法能夠顯著降低系統(tǒng)所需要的前置碼數(shù)目,節(jié)約系統(tǒng)的資源,并能在一定的時(shí)延預(yù)算下保障多個(gè)移動(dòng)終端的訪問(wèn)可靠性。比如,為了實(shí)現(xiàn)預(yù)定的訪問(wèn)成功率99×10-2,傳統(tǒng)的方法要求Pds=36。相對(duì)文獻(xiàn)中要求PdsmpuTrNsVzONrqnxDV8yQyulxmxF3TpZb0SpO6IYZ7iw==31的要求,我們的方法僅需Pds=10。也就是說(shuō),該方法比常規(guī)方法節(jié)約72%的Pds和67%的能源[5]。
2 基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源分配
2.1 基于模型驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)資源分配仿真分析
本文給出了基于模型驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)的性能仿真結(jié)果,假定用戶以1m/s的速率在蜂窩中以1m/s的速度移動(dòng),其中MBS、PBS、FBS各一臺(tái),功耗極限分別為38 dbm、36 dbm、35 dbm。該方法適用于小規(guī)模、異質(zhì)網(wǎng)絡(luò)。
對(duì)所提出的算法在不同QoS情況下的譜效率進(jìn)行比較。結(jié)果表明,當(dāng)用戶數(shù)目增多時(shí),頻譜效率會(huì)提高,但在無(wú)QoS約束的情況下,某些用戶會(huì)出現(xiàn)較低的傳輸速率,這會(huì)降低系統(tǒng)的頻譜利用率。
2.2 基于多智能體強(qiáng)化學(xué)習(xí)的聯(lián)合資源分配仿真分析
本文提出多智能體強(qiáng)化學(xué)習(xí)資源分配算法在異構(gòu)網(wǎng)絡(luò)下行鏈路中的性能表現(xiàn),并給出了本文算法與其他RL算法及貪婪算法的對(duì)比結(jié)果。采用Tensor?Flow平臺(tái)進(jìn)行實(shí)驗(yàn)仿真,仿真設(shè)置中宏基站數(shù)量為2,微基站數(shù)量為8,毫微基站數(shù)量為12,用戶數(shù)N∈{20,25, 30, 35, 40},并將各用戶隨機(jī)分配到各小區(qū)[7]。毫微基站的覆蓋范圍為30m,最大功率為20dBm,最大能量為38dBm,兩個(gè)基站之間的路徑損耗為34+40dB,因此,兩個(gè)基站之間存在較大的信道損耗。該信道的頻寬為180 千赫,噪聲與能量密度為0 牛頓每赫為-174 dBm/赫。再現(xiàn)內(nèi)存D的大小為500,抽樣批次的長(zhǎng)度為32,學(xué)習(xí)率參數(shù)為0.00005。把每個(gè)情景設(shè)置為500次,訓(xùn)練500個(gè)情景。該算法僅利用了用戶自身的信道狀態(tài),適用于更大范圍的異質(zhì)網(wǎng)絡(luò)環(huán)境[8]。
算法在不同學(xué)習(xí)率下的訓(xùn)練效率表現(xiàn)如下:在學(xué)習(xí)初期,由于智能體缺乏以往的學(xué)習(xí)經(jīng)驗(yàn),難以找到符合服務(wù)質(zhì)量需求的方法,且在到達(dá)預(yù)定的最大循環(huán)次數(shù)后仍無(wú)法收斂;但是,隨著事件數(shù)量的增加,智能體的收斂速度會(huì)變快。在不同學(xué)習(xí)率下,當(dāng)學(xué)習(xí)速率為0.00005時(shí),僅需10步以內(nèi)即可收斂,而在0.001時(shí)則會(huì)緩慢收斂。這是因?yàn)楫?dāng)網(wǎng)絡(luò)的學(xué)習(xí)率過(guò)高時(shí),會(huì)影響收斂速度,只有適當(dāng)?shù)膶W(xué)習(xí)率才能加快收斂。
3 結(jié)束語(yǔ)
隨著物聯(lián)網(wǎng)的快速發(fā)展,移動(dòng)終端數(shù)量日益增多,這對(duì)移動(dòng)通信系統(tǒng)提出了新的技術(shù)挑戰(zhàn)。為適應(yīng)高時(shí)延、高可靠性的多層傳輸系統(tǒng),研究更高級(jí)的多層隨機(jī)接入技術(shù)顯得尤為重要。本項(xiàng)目針對(duì)移動(dòng)終端移動(dòng)通信系統(tǒng)中存在的接入問(wèn)題,結(jié)合增強(qiáng)學(xué)習(xí)理論,研究了具有低時(shí)延容忍特性的移動(dòng)終端多用戶接入機(jī)制,并在此基礎(chǔ)上研究了面向多用戶移動(dòng)終端的多用戶移動(dòng)通信系統(tǒng)。