国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多智能體深度強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)資源分配方法

2024-09-19 00:00:00孟水仙劉艷超王樹彬
無線電工程 2024年6期
關(guān)鍵詞:車聯(lián)網(wǎng)資源分配網(wǎng)絡(luò)

摘 要:在車聯(lián)網(wǎng)中,合理分配頻譜資源對(duì)滿足不同車輛鏈路業(yè)務(wù)的服務(wù)質(zhì)量(Quality of Service,QoS) 需求具有重要意義。為解決車輛高速移動(dòng)性和全局狀態(tài)信息獲取困難等問題,提出了一種基于完全分布式多智能體深度強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Reinforcement Learning,MADRL) 的資源分配算法。該算法在考慮車輛通信延遲和可靠性的情況下,通過優(yōu)化頻譜選擇和功率分配策略來實(shí)現(xiàn)最大化網(wǎng)絡(luò)吞吐量。引入共享經(jīng)驗(yàn)池機(jī)制來解決多智能體并發(fā)學(xué)習(xí)導(dǎo)致的非平穩(wěn)性問題。該算法基于深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN),利用長(zhǎng)短期記憶(Long Short Term Memory,LSTM) 網(wǎng)絡(luò)來捕捉和利用動(dòng)態(tài)環(huán)境信息,以解決智能體的部分可觀測(cè)性問題。將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 和殘差網(wǎng)絡(luò)(Residual Network,ResNet) 結(jié)合增強(qiáng)算法訓(xùn)練的準(zhǔn)確性和預(yù)測(cè)能力。實(shí)驗(yàn)結(jié)果表明,所提出的算法能夠滿足車對(duì)基礎(chǔ)設(shè)施(Vehicle-to-Infrastructure,V2I) 鏈路的高吞吐量以及車對(duì)車(Vehicle-to-Vehicle,V2V) 鏈路的低延遲要求,并且對(duì)環(huán)境變化表現(xiàn)出良好的適應(yīng)性。

關(guān)鍵詞:車聯(lián)網(wǎng);資源分配;多智能體深度強(qiáng)化學(xué)習(xí);深度Q 網(wǎng)絡(luò)

中圖分類號(hào):TN929. 5 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

文章編號(hào):1003-3016(2024)06-1388-10

0 引言

隨著通信技術(shù)的飛速發(fā)展,車聯(lián)網(wǎng)作為物聯(lián)網(wǎng)中車輛通信網(wǎng)絡(luò)的新范式,對(duì)提升交通服務(wù)的安全性和舒適性起著日益重要的作用[1]。其中,蜂窩車聯(lián)網(wǎng)(Cellular Vehicle-to-Everything,C-V2X)通信技術(shù)實(shí)現(xiàn)了車輛與車輛、車輛與基礎(chǔ)設(shè)施、車輛與行人以及車輛與互聯(lián)網(wǎng)之間通信的無縫連接,為車聯(lián)網(wǎng)提供了全方位的通信技術(shù)支持[2]。C-V2X 通信技術(shù)主要通過支持車對(duì)基礎(chǔ)設(shè)施(Vehicle-to-Infra-structure,V2I)和車對(duì)車(Vehicle-to-Vehicle,V2V)2 種通信模式為不同服務(wù)質(zhì)量(Quality of Service,QoS)需求提供不同的應(yīng)用服務(wù)[3]。其中,V2I 通信主要應(yīng)用于提供高數(shù)據(jù)傳輸速率的非安全相關(guān)的應(yīng)用服務(wù),而V2V 通信則專注于實(shí)現(xiàn)低延遲和高可靠性的實(shí)時(shí)信息傳輸[4-5]。然而,面對(duì)網(wǎng)絡(luò)資源的稀缺性以及車聯(lián)網(wǎng)中服務(wù)類別的多元化,如何實(shí)現(xiàn)V2I 和V2V 鏈路之間的協(xié)同資源共享以保證CV2X 網(wǎng)絡(luò)資源的有效利用是車聯(lián)網(wǎng)資源分配時(shí)面臨的巨大挑戰(zhàn)。

目前,車聯(lián)網(wǎng)中的資源分配問題已得到廣泛研究,文獻(xiàn)[6-8]采用傳統(tǒng)優(yōu)化算法來解決這一問題。然而,隨著無線網(wǎng)絡(luò)多樣性和復(fù)雜性的增加,這些傳統(tǒng)算法面臨著嚴(yán)峻的挑戰(zhàn),例如,車聯(lián)網(wǎng)環(huán)境的動(dòng)態(tài)不確定性使得實(shí)時(shí)獲取信道狀態(tài)信息變得困難。同時(shí),由于車聯(lián)網(wǎng)用戶具有不同的服務(wù)需求,構(gòu)建的優(yōu)化問題和約束條件通常是非凸的,這使得優(yōu)化算法在求解時(shí)容易陷入局部最優(yōu)解[9]。因此,如何設(shè)計(jì)一個(gè)更智能、更靈活的資源分配算法成為車聯(lián)網(wǎng)中的一個(gè)重要問題。

隨著人工智能技術(shù)的不斷進(jìn)步,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)在無線通信領(lǐng)域得到了廣泛應(yīng)用。與傳統(tǒng)的優(yōu)化算法相比,DRL展現(xiàn)出更強(qiáng)大的解決復(fù)雜問題的能力。通過與未知環(huán)境的交互,DRL 能夠?qū)W習(xí)如何做出最優(yōu)決策,以最大化長(zhǎng)期累積回報(bào)。此外,針對(duì)一些難以通過傳統(tǒng)算法優(yōu)化的目標(biāo),DRL 可以通過設(shè)計(jì)相應(yīng)的訓(xùn)練獎(jiǎng)勵(lì)來解決。因此,DRL 為解決車聯(lián)網(wǎng)中資源分配問題帶來了全新思路。文獻(xiàn)[10]研究了設(shè)備到設(shè)備(Device-to-Device,D2D)網(wǎng)絡(luò)的聯(lián)合信道選擇和功率控制問題,以最大化D2D 網(wǎng)絡(luò)的加權(quán)和速率為目標(biāo),提出了一種基于分布式DRL 的算法,并通過仿真結(jié)果證明了即使沒有全局瞬時(shí)信道狀態(tài)信息,該算法也能有良好的性能表現(xiàn)。文獻(xiàn)[3]在包含V2V 鏈路和V2I 鏈路的認(rèn)知車輛網(wǎng)絡(luò)中應(yīng)用了一種改進(jìn)的深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)算法來提高頻譜利用率。上述算法在靜態(tài)環(huán)境模型上表現(xiàn)良好,但并不適用于動(dòng)態(tài)變化的車聯(lián)網(wǎng)環(huán)境。文獻(xiàn)[11]針對(duì)V2X 通信資源分配問題,提出了一種使用DQN 進(jìn)行子頻帶選擇和使用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)進(jìn)行發(fā)射功率分配的DRL 算法,在此基礎(chǔ)上,加入元強(qiáng)化學(xué)習(xí)來提高算法對(duì)動(dòng)態(tài)環(huán)境的適應(yīng)性。但在該算法中,同時(shí)訓(xùn)練2 種不同的DRL 算法會(huì)增加模型訓(xùn)練的難度,使算法變得更復(fù)雜。文獻(xiàn)[12]針對(duì)不同的QoS 需求,提出了一種基于鏈路優(yōu)先級(jí)集中式的強(qiáng)化學(xué)習(xí)頻譜資源分配算法,該算法實(shí)現(xiàn)了在對(duì)一般鏈路無干擾的情況下,為高優(yōu)先級(jí)鏈路提供了高質(zhì)量的通信支持,并且在實(shí)際場(chǎng)景中展現(xiàn)了出色的抗噪聲性能。但該算法采用的是集中式控制方案,每條鏈路都需要與基站進(jìn)行信息交互,增加了通信開銷和傳輸時(shí)延。文獻(xiàn)[13 -15]都采用基于DQN的多智能體深度強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Rein-forcement Learning,MADRL)算法來解決車聯(lián)網(wǎng)環(huán)境中的資源分配問題,然而,這些算法均未考慮多個(gè)智能體同時(shí)探索學(xué)習(xí)所引發(fā)的非平穩(wěn)性問題,而這一問題將直接影響算法的收斂速度,從而降低算法的性能。

為解決上述問題,本文提出了一種完全獨(dú)立的分布式MADRL 的資源分配算法,以進(jìn)一步提升動(dòng)態(tài)車聯(lián)網(wǎng)環(huán)境下資源共享效率。在該算法中,經(jīng)過訓(xùn)練和學(xué)習(xí)的V2V 用戶僅依賴局部環(huán)境觀測(cè)值就可以學(xué)到最佳資源分配策略,即最優(yōu)的子信道選擇和功率分配策略。為解決多智能體并發(fā)學(xué)習(xí)帶來的非平穩(wěn)性問題,本文引入共享經(jīng)驗(yàn)池機(jī)制,以促進(jìn)智能體之間更好地合作和學(xué)習(xí)。為解決每個(gè)智能體對(duì)環(huán)境的部分可觀測(cè)問題,采用長(zhǎng)短期記憶(LongShort Term Memory,LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(Convo-lutional Neural Network,CNN)結(jié)合的殘差網(wǎng)絡(luò)(Re-sidual Network,ResNet)跳躍連接結(jié)構(gòu),這種結(jié)構(gòu)使得智能體能夠捕捉和利用環(huán)境狀態(tài)信息的時(shí)間序列關(guān)系,從而提高了算法處理序列數(shù)據(jù)的能力,同時(shí)也增強(qiáng)了算法的泛化能力。最后,通過仿真實(shí)驗(yàn)驗(yàn)證了該算法的有效性,確保了在滿足V2V 鏈路延遲約束條件的同時(shí)減少了V2V 鏈路對(duì)V2I 鏈路的干擾。

1 系統(tǒng)模型

本文考慮擁有一個(gè)基站和多輛車構(gòu)成的城市道路交通的C-V2X 通信場(chǎng)景。在該場(chǎng)景中,具有M 輛車的V2I 鏈路完成高吞吐量的數(shù)據(jù)傳輸任務(wù),而具有N 輛車的V2V 鏈路實(shí)現(xiàn)低延遲、高可靠的實(shí)時(shí)信息傳輸任務(wù)。本文只考慮V2I 通信的上行鏈路,并假設(shè)所有車輛用戶的收發(fā)機(jī)都采用單天線,此外,假設(shè)M 條V2I 鏈路被預(yù)先分配了M 個(gè)具有固定發(fā)射功率的正交子信道,即第m 條V2I 鏈路占用第m 個(gè)子信道并且這些子信道之間無干擾。為提高頻譜利用率,這些子信道可以被V2V 鏈路重用。考慮到實(shí)際情況,V2V 鏈路的數(shù)量往往遠(yuǎn)大于V2I 鏈路的數(shù)量,為更有效地利用有限的頻譜資源,將V2V 鏈路重用V2I 鏈路的頻譜資源是必要且合理的。因此,本文主要目標(biāo)是為這些V2V 鏈路設(shè)計(jì)一種有效的頻譜共享方案,以使這2 種類型的車輛鏈路以最小的信令開銷到達(dá)各自的目標(biāo)。圖1 顯示了V2V 共享V2I 鏈路時(shí)的通信鏈路和干擾鏈路的復(fù)雜關(guān)系。

當(dāng)?shù)冢?條V2V 鏈路共享第m 條V2I 鏈路的子信道時(shí),這條V2V 鏈路的接收端可能受到來自其他V2V 鏈路以及V2I 鏈路的發(fā)射端的干擾,而第m 條V2I 鏈路的接收端會(huì)受到來自V2V 鏈路的干擾,則第m 條V2I 鏈路與第n 條V2V 鏈路的信干噪比(Signalto Interference plus Noise Ratio,SINR)分別表示為:

式中:PIm 、PVn[m]和PVn′[m]分別表示第m 條V2I 鏈路、第n 條V2V 鏈路和除n 以外的其他V2V 鏈路(如n′)的發(fā)射功率,σ2 表示噪聲功率,ρn [m]、ρn′[m]表示第n 和n′條V2V 鏈路是否重用第m 條V2I 鏈路,如果重用,其值為1,否則值為0;gm,B 表示第m 條V2I 鏈路的信道功率增益,gn,B [m]表示V2V 鏈路n 對(duì)V2I 鏈路m 的干擾信道增益,gn [m]表示第n 條V2V 鏈路的信道增益,gm,n 表示V2I 鏈路m 對(duì)V2V 鏈路n 的干擾信道增益,gn′,n [m]表示其他V2V 鏈路n′對(duì)V2V 鏈路n 的干擾信道增益。發(fā)射功率計(jì)算公式為:

g = αh, (3)

式中:α 表示與頻率無關(guān)的大尺度衰落,即陰影衰落和路徑損耗;h 表示與頻率相關(guān)的小尺度衰落信道增益。對(duì)于信道衰落,本文同時(shí)考慮大尺度和小尺度衰落,并假設(shè)信道衰落在一個(gè)子信道內(nèi)大致相同并且在不同子信道之間相互獨(dú)立。由此,第m 條V2I 鏈路和第n 條V2V 鏈路的信道總吞吐量分別為:

CIm = W lb(1 + γIm ), (4)

CVn[m] = W Ib(1 + γVn[m]), (5)

式中:W 為信道帶寬。

如上所述,本文的目標(biāo)是在提高V2I 鏈路的總吞吐量的同時(shí),滿足V2V 鏈路低延遲、高可靠的實(shí)時(shí)數(shù)據(jù)傳輸?shù)囊蟆榇吮疚亩x在一定時(shí)間限度內(nèi),成功傳輸有效載荷的概率為:

式中:B 表示在每個(gè)周期T 內(nèi)生成的V2V 鏈路傳輸載荷的大小,單位為bit;ΔT 表示信道相干時(shí)間。

綜上所述,本文研究的車聯(lián)網(wǎng)中資源分配問題可以描述為:在V2V 鏈路中,如何智能地重用V2I 的子信道,并選擇適當(dāng)?shù)陌l(fā)射功率進(jìn)行數(shù)據(jù)傳輸,以減少V2V 鏈路的傳輸時(shí)延,同時(shí)減少其對(duì)V2I 鏈路的干擾,即在追求最大化V2I 鏈路總吞吐量的同時(shí)提高V2V 鏈路的單位時(shí)間內(nèi)載荷成功傳輸率。

2 算法方案設(shè)計(jì)

MADRL 是應(yīng)對(duì)車聯(lián)網(wǎng)中動(dòng)態(tài)不確定性以及全局信道狀態(tài)信息獲取困難的有效方法。在MADRL模型中,多個(gè)智能體采取試錯(cuò)的方式不斷與環(huán)境交互,以獲得最大化累積獎(jiǎng)勵(lì)來優(yōu)化信道選擇與功率控制策略。由于V2V 鏈路中每個(gè)用戶作為獨(dú)立智能體無法完全獲取信道狀態(tài)的完整信息,因此采用部分可觀察馬爾科夫決策過程(Partially ObservableMarkov Decision Process,POMDP)對(duì)動(dòng)態(tài)頻譜分配和功率選擇過程進(jìn)行建模,該過程由動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)描述。如圖2 所示,在t 時(shí)刻,獲得環(huán)境狀態(tài)snt的V2V 鏈路n,根據(jù)策略做出動(dòng)作ant,所有V2V 鏈路的動(dòng)作同時(shí)被執(zhí)行后,環(huán)境狀態(tài)依據(jù)狀態(tài)轉(zhuǎn)移概率轉(zhuǎn)移到下一時(shí)刻的狀態(tài)snt+1 ,并且每條V2V 鏈路得到執(zhí)行各自動(dòng)作后的獎(jiǎng)勵(lì)rnt。

2. 1 狀態(tài)空間

V2V 鏈路用戶不能在t 時(shí)刻觀測(cè)到全局環(huán)境狀態(tài)St,而只能獲得和自己相關(guān)的環(huán)境狀態(tài)snt,并且其他V2V 鏈路的動(dòng)作也是未知的。V2V 鏈路n 占用第m 條V2I 鏈路傳輸數(shù)據(jù)時(shí),該V2V 鏈路可獲得的狀態(tài)包括V2V 鏈路n 的信道增益gn[m]、受到其他V2V 鏈路的干擾gn′,n[m]、對(duì)V2I 鏈路的干擾gn,B [m]以及受到V2I 鏈路m 的干擾gm,n。則V2V 鏈路n占用V2I 鏈路m 傳輸數(shù)據(jù)時(shí)的關(guān)聯(lián)信道增益表示為:

Gn [m] = {gn [m],gn′,n [m],gn,B [m],gm,n }。(7)

將V2V 鏈路n 在第m 條V2I 鏈路傳輸數(shù)據(jù)時(shí)受到的所有干擾表示為:

此外,為了保證每條V2V 鏈路在一定的時(shí)間限度內(nèi)完成數(shù)據(jù)傳輸任務(wù),將剩余的傳輸載荷數(shù)Bn 和剩余的可傳輸載荷時(shí)間Tn 也考慮進(jìn)可獲得的環(huán)境狀態(tài)內(nèi)。因此,V2V 鏈路n 的狀態(tài)空間表示為:

snt= {Bn ,Tn ,{In [m]}m∈M ,{Gn [m]}m∈M }。(9)

2. 2 動(dòng)作空間

車聯(lián)網(wǎng)的資源分配問題可歸結(jié)為V2V 鏈路的子信道選擇和傳輸功率控制問題。每條V2I 鏈路占據(jù)被自然分成的M 條不相交的子信道中的一條,N 條V2V 鏈路可以從這M 個(gè)頻譜子信道中選擇一條鏈路進(jìn)行重用并控制發(fā)射功率以便進(jìn)行數(shù)據(jù)傳輸??紤]實(shí)際電路的限制,本文將功率控制分為4 個(gè)級(jí)別的離散值,即[23,10,5,-100]dBm。因此,每條V2V 鏈路的動(dòng)作空間維度為4×M。

2. 3 獎(jiǎng)勵(lì)函數(shù)

在強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)函數(shù)起到驅(qū)動(dòng)智能體學(xué)習(xí)策略的關(guān)鍵作用,通過對(duì)智能體采取的策略進(jìn)行評(píng)估,提供相應(yīng)的獎(jiǎng)勵(lì)或懲罰,幫助智能體在復(fù)雜的環(huán)境中學(xué)會(huì)有效決策。本文研究目標(biāo)是使V2I 鏈路的總吞吐量最大化和提高V2V 鏈路的載荷成功傳輸概率。本質(zhì)上,這是一個(gè)多目標(biāo)優(yōu)化問題,本文通過權(quán)重系數(shù)法將其轉(zhuǎn)化成單目標(biāo)優(yōu)化問題。分別將2 個(gè)目標(biāo)函數(shù)設(shè)置成2 個(gè)獎(jiǎng)勵(lì)函數(shù),即在t 時(shí)刻,V2I鏈路吞吐量的獎(jiǎng)勵(lì)函數(shù)即為該鏈路獲得的總吞吐量;將t 時(shí)刻未完成傳輸?shù)模郑玻?用戶獎(jiǎng)勵(lì)函數(shù)設(shè)置為載荷傳輸速率,對(duì)于已完成傳輸?shù)模郑玻?用戶獎(jiǎng)勵(lì)函數(shù)設(shè)置為比載荷傳輸速率更大的常數(shù)β,以鼓勵(lì)V2V 用戶提高傳輸速率。因此對(duì)第二個(gè)目標(biāo)的獎(jiǎng)勵(lì)函數(shù)設(shè)置為:

式中:λ 為權(quán)重系數(shù)。

強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最佳策略π* ,任何狀態(tài)St 下的智能體都能根據(jù)π 做出最優(yōu)決策,從而最大化期望獎(jiǎng)勵(lì),即:

式中:γ 是折扣因子,表示未來獎(jiǎng)勵(lì)對(duì)當(dāng)前狀態(tài)的重要程度。

2. 4 MADRL 法

雖然將MADRL 引入車聯(lián)網(wǎng)環(huán)境來解決資源分配問題的方案優(yōu)于傳統(tǒng)算法,但是仍然面臨以下挑戰(zhàn):① 動(dòng)態(tài)變化的車聯(lián)網(wǎng)環(huán)境和環(huán)境狀態(tài)信息部分可觀測(cè);② 分布式的多智能體訓(xùn)練方案會(huì)影響環(huán)境的平穩(wěn)性從而影響訓(xùn)練過程并削弱算法的性能。為此,本文提出基于MADRL 的完全分布式的多智能體深度循環(huán)殘差Q 網(wǎng)絡(luò)(Multi-Agent Deep RecurrentResidual Q Network,MADRRQN)算法,該算法整體框架如圖3 所示。

每條V2V 鏈路作為智能體擁有自己的DQN 并獨(dú)立訓(xùn)練。智能體從與環(huán)境交互到學(xué)習(xí)過程主要分為動(dòng)作選擇、經(jīng)驗(yàn)存儲(chǔ)和學(xué)習(xí)3 個(gè)階段。首先,將當(dāng)前環(huán)境狀態(tài)snt輸入到DQN 中的估計(jì)網(wǎng)絡(luò)中,智能體n 根據(jù)εgreedy 策略選擇動(dòng)作,即以概率ε 隨機(jī)采取動(dòng)作,或以概率1-ε 從估計(jì)網(wǎng)絡(luò)中選擇使輸出Q 值最大的動(dòng)作。智能體n 做出動(dòng)作ant后得到獎(jiǎng)勵(lì)rnt,環(huán)境狀態(tài)變?yōu)椋螅睿簦?。此時(shí),智能體獲得了一條經(jīng)驗(yàn)(snt,ant,rnt,snt+1 )并將該經(jīng)驗(yàn)放入經(jīng)驗(yàn)池中。為解決多智能體分布式訓(xùn)練帶來的非平穩(wěn)性的問題,本文所有智能體共享經(jīng)驗(yàn)池中的經(jīng)驗(yàn)。經(jīng)驗(yàn)池根據(jù)容量采用先進(jìn)先出的存儲(chǔ)方式。最后,在學(xué)習(xí)階段,從經(jīng)驗(yàn)池中抽取小批量經(jīng)驗(yàn)分別輸入到估計(jì)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,然后從這2 個(gè)網(wǎng)絡(luò)中輸出Q1e(s1t,a1t;θ)和maxa′1tQit(s1t+1 ,a′1t;θ′)并計(jì)算損失值:

loss = [rnt+ γ maxa′1tQit(snt+1 ,a′nt;θ′)- Qne(snt,ant;θ)] 2 。(13)

利用反向傳播計(jì)算的損失值更新估計(jì)網(wǎng)絡(luò)的參數(shù)θ,每隔一定時(shí)間將估計(jì)網(wǎng)絡(luò)的參數(shù)拷貝給目標(biāo)網(wǎng)絡(luò),更新其參數(shù)θ′。該過程重復(fù)進(jìn)行并不斷優(yōu)化智能體的行為策略,從而實(shí)現(xiàn)最優(yōu)的動(dòng)作選擇。具體如算法1 所示。

為了避免與環(huán)境交互時(shí)積累的經(jīng)驗(yàn)不足導(dǎo)致智能體做出的動(dòng)作策略陷入局部最優(yōu)解,有必要權(quán)衡利用(使用已知的動(dòng)作)和探索(學(xué)習(xí)新的、可能更好的動(dòng)作)的關(guān)系。因此,本文采用自適應(yīng)的ε-greedy 探索算法,即在算法實(shí)現(xiàn)的初始階段,面對(duì)大的狀態(tài)和動(dòng)作空間,智能體主要進(jìn)行新動(dòng)作和新狀態(tài)的探索。然后,隨著迭代次數(shù)的增加,逐漸增加利用概率讓智能體根據(jù)以往經(jīng)驗(yàn)做出最佳決策。

ε = εmin + (εmax - εmin )e-ζt, (14)

式中:εmax 和εmin 分別為ε 的最大值和最小值,ζ 為衰減因子。

在強(qiáng)化學(xué)習(xí)中引入深度神經(jīng)網(wǎng)絡(luò)的目的是為了有效處理高維度復(fù)雜的狀態(tài)和動(dòng)作空間。通過深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力,智能體能夠更準(zhǔn)確地表示和近似復(fù)雜的狀態(tài)-動(dòng)作映射關(guān)系,從而提高對(duì)大量和多樣化狀態(tài)信息的處理能力,進(jìn)而增強(qiáng)訓(xùn)練和決策的性能。本文提出的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

采用LSTM 網(wǎng)絡(luò)作為深度神經(jīng)網(wǎng)絡(luò)的輸入層來解決MADRL 的部分可觀測(cè)問題、提高對(duì)序列數(shù)據(jù)的處理能力以及捕捉長(zhǎng)期依賴關(guān)系,從而提高模型對(duì)動(dòng)態(tài)環(huán)境的自適應(yīng)能力。為了提高模型特征提取能力和預(yù)測(cè)能力,采用了CNN 的跳躍連接的ResNet結(jié)構(gòu)。

3 仿真結(jié)果分析

本文車聯(lián)網(wǎng)仿真場(chǎng)景遵循3GPP TR36. 885[16]中的城市交通道路場(chǎng)景,并遵循設(shè)置車聯(lián)網(wǎng)環(huán)境的仿真參數(shù)[17-18]。為了便于仿真,將交通場(chǎng)景面積等比例縮小一半。表1 給出了主要仿真參數(shù),表2 給出了V2V 鏈路和V2I 鏈路的信道模型。

每個(gè)智能體的深度神經(jīng)網(wǎng)絡(luò)由一層LSTM 作為輸入層和2 個(gè)ResNet 連接的3 層CNN 構(gòu)成,各層神經(jīng)元都是120 個(gè)。使用修正線性單元(RectifiedLinear Unit,ReLU)作為激活函數(shù),并使用RMSProp優(yōu)化器更新網(wǎng)絡(luò)參數(shù),學(xué)習(xí)率為0. 001。采用的自適應(yīng)εgreedy 算法中,ε 最大值為1,最小值為0. 02,衰減因子為0. 005,經(jīng)驗(yàn)池大小為20 000,每次訓(xùn)練抽取的小批次樣本數(shù)為2 000,折扣因子為0. 99,總共進(jìn)行1 000 個(gè)訓(xùn)練回合,訓(xùn)練過程的每個(gè)訓(xùn)練集的時(shí)間都是100 ms。測(cè)試階段共進(jìn)行100 個(gè)回合。在訓(xùn)練階段,載荷大小固定為2×1 060 byte,車速固定為10 ~ 15 m / s,在測(cè)試階段,分別改變其大小以驗(yàn)證所提算法的魯棒性。

為了驗(yàn)證所提MADRRQN 算法的有效性,本文在Python 平臺(tái)上使用PyTorch 框架對(duì)提出的算法進(jìn)行仿真,并在算法V2I 鏈路吞吐量、V2I 鏈路信道利用率以及V2V 鏈路有效傳輸?shù)确矫媾c其他算法的性能進(jìn)行比較。其他算法包括:① 隨機(jī)算法,子信道和功率隨機(jī)選擇;② 多智能體深度Q 網(wǎng)絡(luò)(Multi-Agent Deep Q Network,MADQN)算法,由每層包含120 個(gè)神經(jīng)元的4 層全連接結(jié)構(gòu)的DQN 構(gòu)成,訓(xùn)練智能體時(shí),每個(gè)智能體分配相同的獎(jiǎng)勵(lì)值;③ 單智能體深度Q 網(wǎng)絡(luò)(Single-Agent Deep Q Network,SADQN)算法,所有智能體共享一個(gè)DQN,在每個(gè)時(shí)隙,只有一個(gè)智能體根據(jù)訓(xùn)練的DQN 更新其動(dòng)作選擇的策略,而其他智能體動(dòng)作的選擇策略保持不變。

圖5 和圖6 分別顯示了車輛數(shù)為4 時(shí),訓(xùn)練階段所有智能體的總和累積獎(jiǎng)勵(lì)和每個(gè)智能體獎(jiǎng)勵(lì)與訓(xùn)練回合數(shù)的關(guān)系。從圖中可以看出,獎(jiǎng)勵(lì)值隨著訓(xùn)練回合數(shù)的增加而增加,最后趨于收斂。從圖6可以看到,每條V2V 鏈路的獎(jiǎng)勵(lì)值隨著訓(xùn)練回合數(shù)的增加也趨于平穩(wěn)。由此證明了所提MADRRQN算法的有效性。收斂的獎(jiǎng)勵(lì)值存在波動(dòng)的原因在于車輛的快速移動(dòng),導(dǎo)致車聯(lián)網(wǎng)的拓?fù)浣Y(jié)構(gòu)不斷變化,同時(shí)也受到信道衰落的影響。

本文通過V2I 鏈路總吞吐量和V2I 鏈路利用率(實(shí)際獲得的V2I 鏈路總吞吐量與禁用所有V2V 鏈路獲得的V2I 鏈路總吞吐量的比值)來評(píng)估該算法在V2I 鏈路上的性能。圖7 和圖8 分別展示了不同載荷大小對(duì)不同算法在V2I 鏈路總吞吐量和利用率方面的性能影響。從圖中可以看出,隨著V2V 載荷大小的增加,所有算法的性能都有所下降。這是因?yàn)槌晒鬏敻嗟妮d荷需要更長(zhǎng)的傳輸時(shí)間和更高的V2V 鏈路發(fā)射功率,加劇了對(duì)V2I 鏈路的干擾,從而減小了V2I 鏈路的總吞吐量。但是,相同載荷大小的條件下,MADRRQN 算法具有更大的V2I 鏈路總吞吐量和更高的V2I 鏈路利用率。

圖9 顯示了不同載荷大小,不同算法在V2V 鏈路載荷傳輸成功率方面的性能表現(xiàn)。所有算法的載荷傳輸成功率都隨著載荷大小的增加而降低了,但其他算法的性能表現(xiàn)都比MADRRQN 算法差,雖然MADQN 算法在載荷小于等于4 ×1 060 byte 時(shí)傳輸成功率達(dá)到了100% ,但是隨著載荷的增加,成功率顯著下降,而MADRRQN 算法的載荷傳輸成功率下降緩慢,即使載荷達(dá)到8×1 060 byte,其載荷傳輸成功率仍然在90% 以上。

為了驗(yàn)證MADRRQN 算法對(duì)環(huán)境變化的適應(yīng)性,本文從車速和車輛數(shù)量?jī)煞矫骝?yàn)證其對(duì)算法性能的影響。圖10 顯示了車輛數(shù)固定為4 時(shí)的車速對(duì)具有不同載荷大小的V2I 鏈路利用率的影響。僅使用鏈路利用率來評(píng)估V2I 鏈路總吞吐量的變化的原因在于,車速的改變同樣會(huì)影響沒有V2V 鏈路傳輸時(shí)的V2I 鏈路吞吐量。因此,采用V2I 鏈路利用率這一相對(duì)比值更能客觀地反映吞吐量的變化情況。從圖中可以看出,車速對(duì)于2×1 060 byte 和4×1 060 byte 載荷的V2I 鏈路利用率影響較小,其鏈路利用率都高于80% 。對(duì)于大載荷,高車速對(duì)其影響較大,這是因?yàn)殡S著車速的增加,車聯(lián)網(wǎng)拓?fù)浣Y(jié)構(gòu)變化更快,而需要傳輸?shù)妮d荷數(shù)量更多,這對(duì)V2V 鏈路的子信道選擇和功率分配提出了更高的要求。圖11 顯示了車輛數(shù)固定為4 時(shí)的車速與V2V 鏈路載荷傳輸成功率的關(guān)系圖。對(duì)于相同的載荷大小,所提出的MADRRQN 算法的性能隨著車速的增加而改變。這是因?yàn)檐嚶?lián)網(wǎng)環(huán)境隨著車速的增加變化地更加顯著,增加了環(huán)境的不確定性和獲取信道狀態(tài)信息的難度。然而,所提出的算法仍然可以保持高V2I 鏈路總吞吐量和V2V 鏈路成功傳輸?shù)母怕?,這說明車速變化對(duì)所提MADRRQN 算法的性能影響較小,因此該算法能夠適應(yīng)車聯(lián)網(wǎng)環(huán)境中的車速變動(dòng)。

當(dāng)增加車輛,即子信道的數(shù)量增加時(shí),意味著智能體的動(dòng)作空間維度也增加了,對(duì)算法性能提出了更高要求。圖12 和圖13 分別展示了車輛數(shù)對(duì)具有不同載荷大小的V2I 鏈路利用率和V2V 鏈路載荷傳輸成功率的影響。從圖中可以看出,車輛數(shù)對(duì)于所提算法的性能影響較小,甚至隨著車輛數(shù)的增加,在大載荷的情況下,V2I 鏈路利用率反而提高了。由此說明算法能夠適應(yīng)不同數(shù)量車輛的環(huán)境,具備擴(kuò)展到更多車輛情況的能力,并且對(duì)于傳輸載荷大小的變化具有魯棒性。

4 結(jié)束語

針對(duì)車聯(lián)網(wǎng)中的資源分配問題,本文采用了V2V 鏈路共享V2I 鏈路頻譜資源的策略,并基于MADRL 算法提出了MADRRQN 算法。在該算法中,每條V2V 鏈路都被視為一個(gè)獨(dú)立的智能體,每個(gè)智能體進(jìn)行獨(dú)立的訓(xùn)練和決策,顯著降低了決策過程中的信息傳輸開銷,增強(qiáng)了算法的可擴(kuò)展性。通過充分的仿真實(shí)驗(yàn),本文驗(yàn)證了所提算法的有效性,展示了其在最大化V2I 鏈路總吞吐量、提高V2I鏈路頻譜利用率以及提升V2V 鏈路載荷成功傳輸概率等性能方面的優(yōu)越性。此外,該算法還表現(xiàn)出在不斷變化的車聯(lián)網(wǎng)環(huán)境中的魯棒性和適應(yīng)性。未來研究將繼續(xù)優(yōu)化該算法,以適應(yīng)更為復(fù)雜的實(shí)際應(yīng)用場(chǎng)景。

參考文獻(xiàn)

[1] YADAV S,PANDEY A,DO D T,et al. Secure CognitiveRadioenabled Vehicular Communications Under SpectrumSharing Constraints[J]. Sensors,2021,21(21):7160.

[2] QI W J,SONG Q Y,GUO L,et al. Energyefficient Resource Allocation for UAVassisted Vehicular Networkswith Spectrum Sharing [J ]. IEEE Transactions onVehicular Technology,2022,71(7):7691-7702.

[3] CHEN L L,ZHAO Q J,FU K,et al. Multiuser Reinforcement Learning Based Multireward for Spectrum Access inCognitive Vehicular Networks [J ]. TelecommunicationSystems,2023,83(1):51-65.

[4] 方維維,王云鵬,張昊,等. 基于多智能體深度強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)通信資源分配優(yōu)化[J]. 北京交通大學(xué)學(xué)報(bào),2022,46(2):64-72.

[5] XIANG P,SHAN H G,WANG M,et al. Multiagent RLEnables Decentralized Spectrum Access in Vehicular Networks[J]. IEEE Transactions on Vehicular Technology,2021,70(10):10750-10762.

[6] ZHANG M L,DOU Y,CHONG P H J,et al. Fuzzy Logicbased Resource Allocation Algorithm for V2X Communicationsin 5G Cellular Networks[J]. IEEE Journal on Selected Areasin Communications,2021,39(8):2501-2513.

[7] XIE Y C,YU K,TANG Z X,et al. An Effective CapacityEmpowered Resource Allocation Approach in LowlatencyCV2X[C]∥2022 14th International Conference on Wireless Communications and Signal Processing (WCSP ).Nanjing:IEEE,2022:794-799.

[8] 趙莎莎. 基于PSO 的D2D 蜂窩網(wǎng)絡(luò)聯(lián)合信道分配和功率控制[J]. 無線電工程,2023,53(7):1660-1669.

[9] LIANG L,YE H,YU G D,et al. DeeplearningbasedWireless Resource Allocation with Application toVehicular Networks[J]. Proceedings of the IEEE,2020,108(2):341-356.

[10] TAN J J,LIANG Y C,ZHANG L,et al. DeepReinforcement Learning for Joint Channel Selection andPower Control in D2D Networks [J]. IEEE Transactionson Wireless Communications,2020,20(2):1363-1378.

[11] YUAN Y,ZHENG G,WONG K K,et al. Metareinforcement Learning Based Resource Allocation for Dynamic V2X Communications [J]. IEEE Transactions onVehicular Technology,2021,70(9):8964-8977.

[12] GUAN Z,WANG Y Y,HE M. Deep Reinforcement Learningbased Spectrum Allocation Algorithm in Internet ofVehicles Discriminating Services [J]. Applied Sciences,2022,12(3):1764.

[13] HAN D,SO J. Energyefficient Resource Allocation Basedon Deep Qnetwork in V2V Communications[J]. Sensors,2023,23(3):1295.

[14] TIAN J,SHI Y,TONG X L,et al. Deep ReinforcementLearning Based Resource Allocation with HeterogeneousQoS for Cellular V2X[C]∥2023 IEEE Wireless Communications and Networking Conference (WCNC). Glasgow:IEEE,2023:1-6.

[15] VU H V,FARZANULLAH M,LIU Z Y,et al. MultiagentReinforcement Learning for Channel Assignment andPower Allocation in Platoonbased CV2X Systems[C]∥2022 IEEE 95th Vehicular Technology Conference(VTC2022Spring). Helsinki:IEEE,2022:1-5.

[16]3GPP. Study LTEbased V2X Services (Release 14 )[R]. Valbonne:3GPP Support Office,2016.

[17] KY?STI P,MEINIL? J,HENTILA L,et al. WINNER IIChannel Models[M]. Hoboken:John Wiley & Sons,2008.

[18] LIANG L,YE H,LI G Y. Spectrum Sharing in VehicularNetworks Based on Multiagent Reinforcement Learning[J]. IEEE Journal on Selected Areas in Communications,2019,37(10):2282-2292.

作者簡(jiǎn)介

孟水仙 女,(1984—),碩士,高級(jí)工程師。主要研究方向:無線電監(jiān)測(cè)、電磁兼容。

劉艷超 女,(1996—),碩士研究生。主要研究方向:認(rèn)知無線傳感器網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)。

(*通信作者)王樹彬 男,(1971—),博士,教授。主要研究方向:認(rèn)知無線傳感器網(wǎng)絡(luò)、機(jī)器視覺。

基金項(xiàng)目:國(guó)家自然科學(xué)基金(62361048)

猜你喜歡
車聯(lián)網(wǎng)資源分配網(wǎng)絡(luò)
新研究揭示新冠疫情對(duì)資源分配的影響 精讀
英語文摘(2020年10期)2020-11-26 08:12:20
一種基于價(jià)格競(jìng)爭(zhēng)的D2D通信資源分配算法
整合廣播資源,凝聚聲音優(yōu)勢(shì)
汽車生產(chǎn)企業(yè)發(fā)展車聯(lián)網(wǎng)的優(yōu)勢(shì)與劣勢(shì)
淺析車聯(lián)網(wǎng)中的無線通信技術(shù)應(yīng)用
油氣集輸系統(tǒng)信息化發(fā)展形勢(shì)展望
基于網(wǎng)絡(luò)的信息資源組織與評(píng)價(jià)現(xiàn)狀及發(fā)展趨勢(shì)研究
基于網(wǎng)絡(luò)的中學(xué)閱讀指導(dǎo)
考試周刊(2016年79期)2016-10-13 21:50:36
新形勢(shì)下地市報(bào)如何運(yùn)用新媒體走好群眾路線
中國(guó)車聯(lián)網(wǎng)產(chǎn)業(yè)鏈與商業(yè)模式研究
商(2016年8期)2016-04-08 18:33:23
安阳县| 乌兰浩特市| 阿坝| 康保县| 抚顺县| 马龙县| 宁陕县| 靖宇县| 芒康县| 弋阳县| 龙泉市| 宣武区| 蒙城县| 朔州市| 宁乡县| 白银市| 金沙县| 佛坪县| 宁河县| 南开区| 阿克| 永善县| 东阳市| 抚宁县| 如皋市| 伊宁市| 蓬安县| 陆丰市| 闵行区| 泾川县| 水富县| 新平| 庄河市| 沾化县| 康保县| 呈贡县| 孝昌县| 施甸县| 乌鲁木齐县| 襄樊市| 桂阳县|