基于強(qiáng)化學(xué)習(xí)的MTC隨機(jī)接入和異構(gòu)網(wǎng)絡(luò)資源分配方法研究

2024-12-20 00:00張迎

電腦知識(shí)與技術(shù) 2024年30期

關(guān)鍵詞：MTC隨機(jī)接入；異構(gòu)網(wǎng)絡(luò)；資源分配；強(qiáng)化學(xué)習(xí)；聯(lián)合資源分配

無(wú)線通信技術(shù)的新發(fā)展，以及無(wú)線基礎(chǔ)設(shè)施的廣泛鋪設(shè)，正逐步與工業(yè)自動(dòng)化、互聯(lián)汽車(chē)和智能電網(wǎng)等物聯(lián)網(wǎng)應(yīng)用深度融合，共同構(gòu)筑未來(lái)智能化、網(wǎng)絡(luò)化的社會(huì)基礎(chǔ)平臺(tái)。據(jù)IHS Markit預(yù)測(cè)，到2030年，全球智能設(shè)備數(shù)量將激增至1 250億臺(tái)，這些設(shè)備將極大地促進(jìn)產(chǎn)業(yè)流程的智能化、人員與社會(huì)的協(xié)同整合，從而全面提升人們的日常生活品質(zhì)。

面對(duì)無(wú)線電資源有限的挑戰(zhàn)，MTC（機(jī)器類(lèi)型通信）的核心任務(wù)在于支持龐大設(shè)備群體的通信需求。在此過(guò)程中，我們必須妥善應(yīng)對(duì)一系列非傳統(tǒng)難題，包括但不限于無(wú)線接入網(wǎng)絡(luò)（Radio Access Network，簡(jiǎn)稱RAN）的擁塞問(wèn)題、流量的高度動(dòng)態(tài)性和零星分散性，以及龐大的信令開(kāi)銷(xiāo)。網(wǎng)絡(luò)擁塞現(xiàn)象可能出現(xiàn)在基于LTE/LTE-A技術(shù)的蜂窩網(wǎng)絡(luò)的各個(gè)環(huán)節(jié)，涵蓋RAN、核心網(wǎng)絡(luò)以及信令網(wǎng)絡(luò)。由于接入端可用的無(wú)線電資源有限，而大量的MTCD（機(jī)器類(lèi)型通信設(shè)備）接入請(qǐng)求又持續(xù)涌入，這使得RAN擁塞問(wèn)題在蜂窩物聯(lián)網(wǎng)網(wǎng)絡(luò)中變得尤為突出。因此，設(shè)計(jì)一種更為高效的隨機(jī)接入方案成為當(dāng)務(wù)之急。

1 基于強(qiáng)化學(xué)習(xí)的隨機(jī)接入擁塞控制方法

1.1 系統(tǒng)模型

本文考慮了其中描述的兩步無(wú)連接數(shù)據(jù)包傳輸過(guò)程。在這個(gè)過(guò)程中，MTCD（機(jī)器類(lèi)型通信設(shè)備）會(huì)在收到RAR（隨機(jī)接入響應(yīng)）報(bào)文時(shí)，將其報(bào)文連同有關(guān)裝置識(shí)別、包數(shù)據(jù)網(wǎng)絡(luò)識(shí)別和安全性的全部必要信息一起發(fā)送出去。這樣，當(dāng)gNB（下一代節(jié)點(diǎn)B）收到分組時(shí)，就會(huì)將分組發(fā)送給非連接接入網(wǎng)關(guān)，由網(wǎng)關(guān)對(duì)報(bào)文內(nèi)容頭部進(jìn)行檢查，驗(yàn)證其完整性，并執(zhí)行解密操作，然后按照所保存的狀態(tài)信息將分組發(fā)送給指定的網(wǎng)絡(luò)節(jié)點(diǎn)。該方法的主要缺陷在于，當(dāng)數(shù)據(jù)包被發(fā)送以后，無(wú)論成功與否，終端都要將信息發(fā)送出去。針對(duì)這一問(wèn)題，本文提出了一種改進(jìn)的免連接二步法RA（隨機(jī)接入）處理方法，使MTCD能夠在Msg2（第二條消息）后發(fā)送具有上下文信息的報(bào)文。

為了克服無(wú)論接入嘗試是否成功都發(fā)送數(shù)據(jù)包的問(wèn)題，采用了其中提出的早期前導(dǎo)沖突檢測(cè)技術(shù)，其中g(shù)NB可以在Msg1（第一條消息）中檢測(cè)前導(dǎo)碼是否發(fā)生沖突。具體來(lái)說(shuō)，每個(gè)設(shè)備從可用于基于競(jìng)爭(zhēng)的過(guò)程的前導(dǎo)碼中隨機(jī)選擇一個(gè)前導(dǎo)碼并發(fā)送，該前導(dǎo)碼由所選前導(dǎo)和標(biāo)簽序列組成。通過(guò)接收到的標(biāo)記前導(dǎo)碼，gNB可以針對(duì)每個(gè)接收到的前導(dǎo)碼檢測(cè)是否發(fā)生沖突，方法是推斷與其關(guān)聯(lián)的標(biāo)簽并驗(yàn)證是否已發(fā)送多個(gè)標(biāo)簽。

另外，由于計(jì)算機(jī)類(lèi)通信數(shù)據(jù)的數(shù)量是很少的，所以假定每一個(gè)傳送請(qǐng)求都有同樣的上界值，通過(guò)廣播進(jìn)行傳送。在Msg2中，gNB將所需的PUSCH（物理上行共享信道）資源分配給每一次成功訪問(wèn)嘗試，以達(dá)到最大的數(shù)據(jù)傳送量。

這樣，從gNB收到報(bào)文應(yīng)答的MTCD進(jìn)入WRAR （等待隨機(jī)接入響應(yīng)）窗口，并在下一RA 周期的PUSCH中發(fā)送它的數(shù)據(jù)。設(shè)定WRAR=5 ms，使數(shù)據(jù)能在下一個(gè)RA周期內(nèi)進(jìn)行發(fā)送，這段時(shí)間足夠保障有標(biāo)志前置碼的發(fā)送（包含循環(huán)前綴與發(fā)送時(shí)延）、gNB端的處理時(shí)延、RAR報(bào)文的發(fā)送、1 ms的應(yīng)答時(shí)間。反之，如果在WRAR窗口中沒(méi)有收到來(lái)自gNB的信息，則只有在這個(gè)時(shí)候才會(huì)進(jìn)行重試。

在RA處理開(kāi)始前，基站定期地廣播包含若干關(guān)鍵參數(shù)、前置信息以及預(yù)配置資源的系統(tǒng)信息塊。MTCD在一個(gè)RA槽中傳輸一個(gè)包含報(bào)頭和相應(yīng)的標(biāo)記信息的分組，該分組共有Pds個(gè)正交前導(dǎo)。通過(guò)接收到的有標(biāo)簽的前導(dǎo)，gNB能夠判斷出每一個(gè)前導(dǎo)是否發(fā)生碰撞。若在當(dāng)前的RA時(shí)隙中，MTCD未從gNB 收到RAR報(bào)文，且當(dāng)前的重發(fā)數(shù)目低于最大重發(fā)數(shù)目，則MTCD會(huì)在下一時(shí)隙再進(jìn)行隨機(jī)接入[1]。

由于延遲需求，每臺(tái)設(shè)備最多有MA 次重試訪問(wèn)、傳送數(shù)據(jù)的機(jī)會(huì)，即，在槽t 新到達(dá)的設(shè)備最遲要在t至t+MA 之間的時(shí)間間隔內(nèi)完成數(shù)據(jù)傳送，否則，該任務(wù)將被丟棄，導(dǎo)致任務(wù)失敗。在RA時(shí)間間隔t 內(nèi)，參與RA進(jìn)程的MTCD數(shù)目為：該碼元是指在RA槽t 內(nèi)新有效MTCD的指數(shù)集合。符號(hào)被認(rèn)為是RA時(shí)隙t-1中沖突MTCD的索引集，滿足條件：

在時(shí)間槽t 終止之后，在時(shí)間槽t+1至（t+MA）內(nèi)，未能進(jìn)行內(nèi)部存取的裝置將被再次存取。假定新活化的MTCD數(shù)目滿足Poisson分布，且其速率參數(shù)>1）。在此基礎(chǔ)上，我們提出了一種新的方法，該方法可以有效防止前同步碼的碰撞，并且在有限的延遲預(yù)算下保證接入的可靠性。

本文用Dk表示第k 個(gè)前導(dǎo)碼被0個(gè)設(shè)備、1個(gè)設(shè)備、多個(gè)設(shè)備選中，第k 個(gè)前導(dǎo)碼只被一個(gè)設(shè)備選中的概率為p（Dk = 1| Ni = n），可以表示為：

由式（4）可以得到最優(yōu)值，當(dāng)可用前導(dǎo)數(shù)為Pds=32 時(shí)，成功傳輸前導(dǎo)的設(shè)備數(shù)和嘗試接入當(dāng)前時(shí)隙的設(shè)備數(shù)的曲線圖。

當(dāng)橫軸坐標(biāo)為31.49時(shí)，有一個(gè)極值11.96。由于設(shè)備數(shù)是整數(shù)，所以取Ni=32。也就是說(shuō)，如果每個(gè)時(shí)隙內(nèi)嘗試接入的設(shè)備數(shù)量控制為32，如果當(dāng)前接入時(shí)隙內(nèi)嘗試接入的設(shè)備數(shù)量Ni<=32，那么這些設(shè)備都可以嘗試接入，當(dāng)Ni>32.設(shè)備根據(jù)其剩余的任務(wù)重傳次數(shù)選擇主動(dòng)退避，保證當(dāng)前時(shí)隙內(nèi)嘗試接入的設(shè)備數(shù)量為32個(gè)，充分利用前導(dǎo)碼，降低沖突概率。基于這一思想，本文提出了一種基于強(qiáng)化學(xué)習(xí)的接入控制策略。接入成功率：模擬周期內(nèi)成功連接的設(shè)備總數(shù)與設(shè)備總數(shù)的比值，則接入成功率表達(dá)式為：

1.2 基于強(qiáng)化學(xué)習(xí)的接入控制

基于模型驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)算法的思想是使用模型來(lái)解決問(wèn)題。為了建立MDP，我們將無(wú)線資源分配問(wèn)題建模為一個(gè)馬爾可夫決策過(guò)程，即使用一個(gè)狀態(tài)空間和一個(gè)動(dòng)作空間來(lái)表示資源分配問(wèn)題。為了便于分析，將MDP建模為包含用戶狀態(tài)、無(wú)線資源和網(wǎng)絡(luò)狀態(tài)的馬爾可夫決策過(guò)程。因此，需要一個(gè)獎(jiǎng)勵(lì)函數(shù)來(lái)獎(jiǎng)勵(lì)成功的用戶接入嘗試和成功的網(wǎng)絡(luò)狀態(tài)。為了解決這個(gè)問(wèn)題，首先使用深度神經(jīng)網(wǎng)絡(luò)（DNN）模型來(lái)訓(xùn)練MDP。DNN模型的優(yōu)勢(shì)在于它可以通過(guò)端到端的訓(xùn)練過(guò)程來(lái)處理多個(gè)輸入數(shù)據(jù)，這意味著DNN 模型可以通過(guò)提供高質(zhì)量的輸入來(lái)提高網(wǎng)絡(luò)性能。另外，DNN可以解決大規(guī)模問(wèn)題。DNN可以通過(guò)學(xué)習(xí)一個(gè)有向圖來(lái)表示用戶和網(wǎng)絡(luò)之間的關(guān)系，因此它可以用來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)算法[2]。

在基站覆蓋下，對(duì)時(shí)延靈敏的MTCD可以通過(guò)觀測(cè)當(dāng)前隨機(jī)存取時(shí)隙的狀態(tài)來(lái)判斷是否先存或暫存，然后采取相應(yīng)行動(dòng)。當(dāng)基站接收到訪問(wèn)請(qǐng)求時(shí)，通過(guò)廣播方式向MTCD發(fā)送前同步碼沖突信息以及當(dāng)前時(shí)隙試圖訪問(wèn)MTCD的次數(shù)，并在接收到該請(qǐng)求后進(jìn)行回報(bào)，從而實(shí)現(xiàn)自身網(wǎng)絡(luò)的更新。該算法采用多次重復(fù)的方法，使每一個(gè)試圖訪問(wèn)的終端具有32個(gè)時(shí)隙，從而減少了前同步序列發(fā)生碰撞的可能性[3]。

1.3 性能仿真

在這一部分中，給出了基于pytroch的模擬實(shí)驗(yàn)，通過(guò)修改γ 和pds的數(shù)值，證明了該算法的可行性，同時(shí)也說(shuō)明了其它算法與傳統(tǒng)算法相比的優(yōu)勢(shì)。本文設(shè)定學(xué)習(xí)速率為8x10-4，對(duì)500個(gè)情景進(jìn)行訓(xùn)練，每一情景包含5 000個(gè)時(shí)隙。折讓系數(shù)設(shè)為0.9。

在每個(gè)場(chǎng)景中，每個(gè)場(chǎng)景所得到的接入成功率和訓(xùn)練場(chǎng)景數(shù)量的關(guān)系。當(dāng)取不同的參數(shù)時(shí)，接入成功率隨事件個(gè)數(shù)的增大而增大，而后收斂（趨穩(wěn)）。實(shí)驗(yàn)結(jié)果表明，該強(qiáng)化學(xué)習(xí)算法具有良好的收斂性。另外，在收斂過(guò)程中，接入成功率隨時(shí)間的增大而下降。其原因在于，在同一前導(dǎo)資源的情況下，競(jìng)爭(zhēng)前導(dǎo)資源的有效MTCD數(shù)目更少，使得在有限時(shí)間預(yù)算下，MTCD被拒絕的可能性很小。

訪問(wèn)成功率被表達(dá)為Pds的恒定值為γ=7，不管是哪一種，訪問(wèn)成功率都隨有效前置導(dǎo)數(shù)法的增大而提高，但是相對(duì)其他兩個(gè)方案，本發(fā)明的訪問(wèn)成功率更高。實(shí)驗(yàn)結(jié)果顯示，該方法具有較大的可擴(kuò)展性[4]。

對(duì)3個(gè)方案為達(dá)到99x10-2的訪問(wèn)成功率所需要的最低Pds數(shù)目進(jìn)行比較。與已有的方法比較，本項(xiàng)目所設(shè)計(jì)的方法能夠顯著降低系統(tǒng)所需要的前置碼數(shù)目，節(jié)約系統(tǒng)的資源，并能在一定的時(shí)延預(yù)算下保障多個(gè)移動(dòng)終端的訪問(wèn)可靠性。比如，為了實(shí)現(xiàn)預(yù)定的訪問(wèn)成功率99×10-2，傳統(tǒng)的方法要求Pds=36。相對(duì)文獻(xiàn)中要求Pds=31的要求，我們的方法僅需Pds=10。也就是說(shuō)，該方法比常規(guī)方法節(jié)約72%的Pds和67%的能源[5]。

2 基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源分配

2.1 基于模型驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)資源分配仿真分析

本文給出了基于模型驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)的性能仿真結(jié)果，假定用戶以1m/s的速率在蜂窩中以1m/s的速度移動(dòng)，其中MBS、PBS、FBS各一臺(tái)，功耗極限分別為38 dbm、36 dbm、35 dbm。該方法適用于小規(guī)模、異質(zhì)網(wǎng)絡(luò)。

對(duì)所提出的算法在不同QoS情況下的譜效率進(jìn)行比較。結(jié)果表明，當(dāng)用戶數(shù)目增多時(shí)，頻譜效率會(huì)提高，但在無(wú)QoS約束的情況下，某些用戶會(huì)出現(xiàn)較低的傳輸速率，這會(huì)降低系統(tǒng)的頻譜利用率。

2.2 基于多智能體強(qiáng)化學(xué)習(xí)的聯(lián)合資源分配仿真分析

本文提出多智能體強(qiáng)化學(xué)習(xí)資源分配算法在異構(gòu)網(wǎng)絡(luò)下行鏈路中的性能表現(xiàn)，并給出了本文算法與其他RL算法及貪婪算法的對(duì)比結(jié)果。采用Tensor?Flow平臺(tái)進(jìn)行實(shí)驗(yàn)仿真，仿真設(shè)置中宏基站數(shù)量為2，微基站數(shù)量為8，毫微基站數(shù)量為12，用戶數(shù)N∈{20，25， 30， 35， 40}，并將各用戶隨機(jī)分配到各小區(qū)[7]。毫微基站的覆蓋范圍為30m，最大功率為20dBm，最大能量為38dBm，兩個(gè)基站之間的路徑損耗為34+40dB，因此，兩個(gè)基站之間存在較大的信道損耗。該信道的頻寬為180 千赫，噪聲與能量密度為0 牛頓每赫為-174 dBm/赫。再現(xiàn)內(nèi)存D的大小為500，抽樣批次的長(zhǎng)度為32，學(xué)習(xí)率參數(shù)為0.00005。把每個(gè)情景設(shè)置為500次，訓(xùn)練500個(gè)情景。該算法僅利用了用戶自身的信道狀態(tài)，適用于更大范圍的異質(zhì)網(wǎng)絡(luò)環(huán)境[8]。

算法在不同學(xué)習(xí)率下的訓(xùn)練效率表現(xiàn)如下：在學(xué)習(xí)初期，由于智能體缺乏以往的學(xué)習(xí)經(jīng)驗(yàn)，難以找到符合服務(wù)質(zhì)量需求的方法，且在到達(dá)預(yù)定的最大循環(huán)次數(shù)后仍無(wú)法收斂；但是，隨著事件數(shù)量的增加，智能體的收斂速度會(huì)變快。在不同學(xué)習(xí)率下，當(dāng)學(xué)習(xí)速率為0.00005時(shí)，僅需10步以內(nèi)即可收斂，而在0.001時(shí)則會(huì)緩慢收斂。這是因?yàn)楫?dāng)網(wǎng)絡(luò)的學(xué)習(xí)率過(guò)高時(shí)，會(huì)影響收斂速度，只有適當(dāng)?shù)膶W(xué)習(xí)率才能加快收斂。

3 結(jié)束語(yǔ)

隨著物聯(lián)網(wǎng)的快速發(fā)展，移動(dòng)終端數(shù)量日益增多，這對(duì)移動(dòng)通信系統(tǒng)提出了新的技術(shù)挑戰(zhàn)。為適應(yīng)高時(shí)延、高可靠性的多層傳輸系統(tǒng)，研究更高級(jí)的多層隨機(jī)接入技術(shù)顯得尤為重要。本項(xiàng)目針對(duì)移動(dòng)終端移動(dòng)通信系統(tǒng)中存在的接入問(wèn)題，結(jié)合增強(qiáng)學(xué)習(xí)理論，研究了具有低時(shí)延容忍特性的移動(dòng)終端多用戶接入機(jī)制，并在此基礎(chǔ)上研究了面向多用戶移動(dòng)終端的多用戶移動(dòng)通信系統(tǒng)。

電腦知識(shí)與技術(shù)2024年30期

電腦知識(shí)與技術(shù)的其它文章: 基于NeRF算法的三維模型重建系統(tǒng)發(fā)展現(xiàn)狀; 基于改進(jìn)MobileNetV3的隱匿性房室旁路心電圖識(shí)別模型; 基于北斗定位的森林火災(zāi)報(bào)警系統(tǒng)設(shè)計(jì); 基于改進(jìn)YOLOv8的交通標(biāo)志檢測(cè)與識(shí)別算法研究; 基于YOLOv5的吸煙行為識(shí)別檢測(cè)系統(tǒng)分析與實(shí)現(xiàn); 基于改進(jìn)RRT算法的無(wú)人車(chē)路徑規(guī)劃研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于強(qiáng)化學(xué)習(xí)的MTC隨機(jī)接入和異構(gòu)網(wǎng)絡(luò)資源分配方法研究