国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GRU和LSTM組合模型的車(chē)聯(lián)網(wǎng)信道分配方法*

2024-02-28 03:10:40王永華何一汕伍文韜
電訊技術(shù) 2024年2期
關(guān)鍵詞:空閑時(shí)隙鏈路

王 磊,王永華,何一汕,伍文韜

(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣州 510006)

0 引 言

隨著5G通信技術(shù)的發(fā)展,車(chē)聯(lián)網(wǎng)(Internet of Vehicles,IoV)受到了越來(lái)越多的關(guān)注。車(chē)聯(lián)網(wǎng)中存在著不同類(lèi)型的連接,分為車(chē)對(duì)基礎(chǔ)設(shè)施(Vehicle to Infrastructure,V2I)和車(chē)對(duì)車(chē)(Vehicle to Vehicle,V2V)鏈路。在5G蜂窩V2X網(wǎng)絡(luò)中,需要同時(shí)滿足高速率的海量數(shù)據(jù)傳輸以供娛樂(lè),另一方面更需要可靠的信道資源以供必要的通信,因此,信道資源是實(shí)現(xiàn)車(chē)輛間的相互通信關(guān)鍵條件。為滿足這種不同場(chǎng)景下的通信需求,文獻(xiàn)[1]對(duì)5G網(wǎng)絡(luò)中異構(gòu)網(wǎng)絡(luò)應(yīng)用場(chǎng)景以及未來(lái)的研究趨勢(shì)進(jìn)行了討論。然而信道資源的稀缺,顯然已經(jīng)不能滿足當(dāng)前車(chē)聯(lián)網(wǎng)中的高通信需求。因此需要設(shè)計(jì)更加智能的信道分配方案,降低通信時(shí)信道沖突,最大化車(chē)聯(lián)網(wǎng)的網(wǎng)絡(luò)效用,提升信道資源利用率。

為應(yīng)對(duì)這個(gè)挑戰(zhàn),文獻(xiàn)[2]為基于設(shè)備到設(shè)備的車(chē)載網(wǎng)絡(luò)開(kāi)發(fā)了一種啟發(fā)式空間頻譜復(fù)用方案,減輕了對(duì)完整 信道狀態(tài)信息(Channel State Information,CSI) 的要求;文獻(xiàn)[3]指出的最大化V2I鏈路吞吐量的V2X資源分配方案能適應(yīng)緩慢變化的大規(guī)模信道衰落,從而減少網(wǎng)絡(luò)信令開(kāi)銷(xiāo);文獻(xiàn)[4]利用網(wǎng)絡(luò)切片技術(shù)聯(lián)合優(yōu)化頻譜資源塊分配和車(chē)輛信號(hào)發(fā)射功率控制,最大化信息娛樂(lè)服務(wù)切片的平均和吞吐量。然而,這些算法大多假設(shè)車(chē)聯(lián)網(wǎng)環(huán)境背景信息已知,但在實(shí)際情況下大多無(wú)法滿足。深度強(qiáng)化學(xué)習(xí)由于在處理大狀態(tài)和動(dòng)作空間時(shí)能夠提供目標(biāo)值(稱(chēng)為Q值)的良好近似值而備受關(guān)注。文獻(xiàn)[5]針對(duì)車(chē)聯(lián)網(wǎng)可分配頻譜資源數(shù)目未知的情況,提出了一種基于深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)的聯(lián)合緩存和計(jì)算資源方案。為進(jìn)一步解決高移動(dòng)性和多數(shù)目車(chē)輛環(huán)境中的頻譜資源難以集中式管理問(wèn)題,文獻(xiàn)[6]提出了一種用于 V2V 和 V2I 通信的混合式頻譜復(fù)用和功率分配方案,并設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的實(shí)時(shí)決策方法實(shí)現(xiàn)頻譜復(fù)用和功率分配。

雖然使用深度強(qiáng)化學(xué)習(xí)算法能夠?qū)崿F(xiàn)車(chē)輛自主探索未知空間,智能地解決信道分配問(wèn)題,但在實(shí)際車(chē)聯(lián)網(wǎng)中由于傳輸需求不同,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的變化十分迅速,從而使得傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)對(duì)這種在時(shí)間序列上變化快速的數(shù)據(jù)進(jìn)行建模,運(yùn)用到深度強(qiáng)化學(xué)習(xí)中時(shí)也很難讓智能體學(xué)習(xí)到有效的信道分配策略。針對(duì)這個(gè)問(wèn)題,目前的研究大多只是將長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)或者門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)去替代DNN在深度強(qiáng)化學(xué)習(xí)中的擬合Q函數(shù)的作用。雖然LSTM和GRU都能夠處理前后連續(xù)的歷史序列,但LSTM本身由于其結(jié)構(gòu)內(nèi)部參數(shù)較多,如果時(shí)間跨度很大,在網(wǎng)絡(luò)比較深的情況下會(huì)使得計(jì)算量變大,很耗時(shí),且有過(guò)擬合的風(fēng)險(xiǎn)[7]。同樣,雖然GRU的簡(jiǎn)單結(jié)構(gòu),讓其在訓(xùn)練時(shí)擁有比LSTM更低的計(jì)算復(fù)雜度,但在擬合精度上卻比不上LSTM。這種由于網(wǎng)絡(luò)結(jié)構(gòu)上的缺陷導(dǎo)致的算法性能上的不足,會(huì)使車(chē)聯(lián)網(wǎng)中的信道分配問(wèn)題難以尋找到最優(yōu)解,導(dǎo)致算力上的浪費(fèi)。

將GRU訓(xùn)練周期短與LSTM擬合精度和穩(wěn)定性高的兩個(gè)優(yōu)點(diǎn)結(jié)合起來(lái),能使算法更加高效和穩(wěn)定[8-10]。本文以此為出發(fā)點(diǎn),考慮將GRU-LSTM組合網(wǎng)絡(luò)模型結(jié)合到分布式強(qiáng)化學(xué)習(xí)中,并圍繞如何降低車(chē)聯(lián)網(wǎng)中V2V鏈路的信道沖突并最大化網(wǎng)絡(luò)效用的問(wèn)題進(jìn)行研究。

1 系統(tǒng)模型及問(wèn)題陳述

1.1 系統(tǒng)模型

圖1所示為由單個(gè)基站(Base Station,BS)以及M條V2I鏈路和N條V2V鏈路構(gòu)成的十字路口車(chē)聯(lián)網(wǎng)無(wú)線通信模型[11],M條V2I鏈路將車(chē)輛與BS進(jìn)行連接,承載著娛樂(lè)以及交通管理數(shù)據(jù)(非安全數(shù)據(jù))的傳輸,N條V2V鏈路主要承載安全數(shù)據(jù)的傳輸。為保證高質(zhì)量V2I鏈路通信,假設(shè)每條V2I鏈路已被預(yù)先分配了不同的正交頻譜子載波以消除網(wǎng)絡(luò)中V2I鏈路之間的干擾,同時(shí)假設(shè)V2V鏈路對(duì)V2I鏈路的干擾也在理想狀態(tài)內(nèi)。V2I鏈路作為授權(quán)用戶,擁有獨(dú)立的信道,V2V鏈路可提供相鄰車(chē)輛之間的直接通信。為了提高頻譜利用率,V2V鏈路作為感知用戶需要利用與環(huán)境交互獲得的部分可知信息,動(dòng)態(tài)地感知V2I鏈路的信道條件,復(fù)用V2I鏈路的上行鏈路頻譜進(jìn)行信息交換,即在不影響V2I鏈路的正常通信的情況下以下墊式接入到其信道中來(lái)完成各自的傳輸任務(wù)。

圖1 車(chē)聯(lián)網(wǎng)系統(tǒng)模型[13]

因此如何設(shè)計(jì)一種快速穩(wěn)定的算法完成這種信道資源稀少的場(chǎng)景下的信道分配問(wèn)題,且能最大程度上降低信道沖突,提高V2V鏈路復(fù)用V2I鏈路信道資源的利用率是研究的重中之重。假設(shè)V2I鏈路被分配的正交信道數(shù)集合為C*={1,2,3,…,C},而V2V鏈路的數(shù)量集合表示為N*={1,2,3,…,N},當(dāng)復(fù)用上行鏈路資源時(shí),在每個(gè)時(shí)隙V2V鏈路都可以任意選擇V2I鏈路的信道,且可以動(dòng)態(tài)的選擇繼續(xù)留在該信道還是切換信道發(fā)送信息。因此,為實(shí)現(xiàn)V2V鏈路在共享V2I鏈路過(guò)程中最大化網(wǎng)絡(luò)效用,盡可能降低信道沖突,就必須考慮各V2V鏈路之間的信道碰撞率,以及信道空閑率。

1.2 信道碰撞率

定義k為時(shí)隙t下第c條V2I鏈路中選擇復(fù)用此信道傳輸信息的V2V鏈路的數(shù)量,規(guī)定僅僅只能存在單條V2V鏈路選擇復(fù)用第c條V2I的信道時(shí)信息才能夠發(fā)送成功,當(dāng)有兩條及兩條以上的V2V鏈路共同選擇復(fù)用同一條V2I鏈路時(shí),就定義為產(chǎn)生了信道的碰撞,信息必定傳輸失敗,此時(shí)的碰撞次數(shù)就為1,如式(1)所示:

(1)

因此,將i次信息傳輸過(guò)程中C條V2I鏈路信道中產(chǎn)生的碰撞總次數(shù)與這i次傳輸中的總信道數(shù)的比值,定義為這i次傳輸中的信道碰撞概率μ,如式(2)所示:

(2)

1.3 信道空閑率

定義φ為信道空閑率來(lái)間接表示V2I鏈路信道的利用情況。當(dāng)n條V2V鏈路都進(jìn)行了信道的共享策略后,第c個(gè)信道中的剩余容量γc如式(3)所示。規(guī)定當(dāng)?shù)赾條V2I信道被占用且V2V鏈路成功發(fā)送了信息,那么該信道的剩余容量γc就為0;如果該條信道上,發(fā)生了多條V2V鏈路的競(jìng)爭(zhēng),造成了通信失敗,此信道就沒(méi)有被利用,其剩余容量γc為1;當(dāng)然,如果某條信道沒(méi)有被V2V用戶選擇共享,其信道剩余容量γc自然也為1。

(3)

規(guī)定將i次信息傳輸過(guò)程中C條V2I鏈路信道的剩余容量γc之和與這i次傳輸過(guò)程中的總信道數(shù)的比值,表示該回合信道空閑率,如式(4)所示:

(4)

可見(jiàn),信道空閑率與碰撞率呈正相關(guān)關(guān)系,信道空閑率的降低,也間接表明了碰撞率的降低和信道利用率的提升。因此,本文提出的算法將圍繞這兩個(gè)優(yōu)化指標(biāo)來(lái)進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)。

2 本文提出的算法

2.1 深度強(qiáng)化學(xué)習(xí)算法框架

本文的車(chē)聯(lián)網(wǎng)信道分配場(chǎng)景中,由于真實(shí)環(huán)境信息是未知的、高維復(fù)雜的,因此,將信道資源分配問(wèn)題建模為深度強(qiáng)化學(xué)習(xí)問(wèn)題,提出一種基于GRU-LSTM組合網(wǎng)絡(luò)模型的深度雙重Q學(xué)習(xí)算法框架(Hybrid GRU-LSTM DDQN,HG-LDDQN),算法結(jié)構(gòu)如圖2所示。

圖2 HG-LDDQN算法結(jié)構(gòu)框圖

HG-LDDQN算法與環(huán)境交互模型如圖3所示。算法模型采用集中訓(xùn)練、分布式執(zhí)行的方式,將每條V2V鏈路作為智能體與環(huán)境進(jìn)行交互,接收環(huán)境觀察結(jié)果O(t),以得到環(huán)境中在t時(shí)隙下的狀態(tài)信息S(t);將t時(shí)隙下的狀態(tài)S(t)送入GRU-LSTM組合神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,得到Q函數(shù)的值Q(s,a)。然后,依據(jù)Q值智能體得到下一步所要進(jìn)行的動(dòng)作A(t),并且在同一種獎(jiǎng)勵(lì)評(píng)判機(jī)制下,每條V2V鏈路單獨(dú)獲得回報(bào)Rn(t),繼而反復(fù)探索訓(xùn)練,更新GRU-LSTM組合網(wǎng)絡(luò)。最后,通過(guò)迭代學(xué)習(xí)最大化每回合的平均獎(jiǎng)勵(lì),來(lái)改善信道分配策略。

圖3 HG-LDDQN算法與環(huán)境交互模型

下面對(duì)HG-LDDQN算法與環(huán)境交互模型中的幾個(gè)深度強(qiáng)化學(xué)習(xí)要素分別進(jìn)行闡述。

1) 狀態(tài)空間

在算法模型中,t時(shí)隙下的狀態(tài)空間S(t)是通過(guò)V2V鏈路對(duì)環(huán)境進(jìn)行觀察O(t)后得到的,其包含三部分,即V2V鏈路作為智能體的動(dòng)作a(t)、當(dāng)前每個(gè)信道的剩余容量δ(t)以及確認(rèn)字符信號(hào)(Acknowledge character,ACK)的返回結(jié)果η(t)。

如果V2V鏈路用戶已經(jīng)在t時(shí)隙選擇了第c條信道(1≤c≤C)進(jìn)行數(shù)據(jù)傳輸,那么將該條信道狀態(tài)ac(t)設(shè)置成1,剩余的信道狀態(tài)設(shè)置成0。a(t)如式(5)所示:

a(t)={a1(t),a2(t),…,ac(t)}

(5)

此外,在時(shí)隙t對(duì)于當(dāng)前C個(gè)信道中的第c個(gè)信道按式(3)中定義的單條V2I信道的剩余容量γc的計(jì)算方法,計(jì)算此刻所有V2I鏈路信道的剩余容量δ(t),如式(6)所示:

δ(t)={γ1,γ2,…,γc}

(6)

假設(shè)在時(shí)隙t完成信道共享后,V2V鏈路間發(fā)送數(shù)據(jù)包的同時(shí)也會(huì)給對(duì)方發(fā)送一條ACK信號(hào),如果數(shù)據(jù)傳輸成功就返回一個(gè)數(shù)值為1的ACK信號(hào),傳輸失敗,則返回的ACK信號(hào)為0。ACK信號(hào)返回結(jié)果η(t)如式(7)所示:

(7)

由此,構(gòu)成了在時(shí)隙t下的狀態(tài)空間S(t),如式(8)所示:

S(t)={a(t),δ(t),η(t)}

(8)

2)動(dòng)作空間

根據(jù)可選信道c,n條V2V鏈路在t時(shí)隙的可選動(dòng)作空間A(t)由式(9)定義為

A(t)∈{0,1,2,3,…,c}

(9)

即每條V2V鏈路都可以選擇此時(shí)刻網(wǎng)絡(luò)空間中的任一V2I鏈路的信道。當(dāng)t時(shí)刻下第n條V2V鏈路的動(dòng)作值an(t)=0時(shí),代表該條V2V鏈路在t時(shí)刻下選擇不接入V2I的信道。

3)獎(jiǎng)勵(lì)值設(shè)定

在t時(shí)隙下,第n條V2V鏈路成功發(fā)送信息后,根據(jù)V2V的接收方返回的ACK信號(hào)狀態(tài),對(duì)該次動(dòng)作an(t)的選擇給予一個(gè)獎(jiǎng)勵(lì)值Rn(t)。如果返回ACK信號(hào)為1,說(shuō)明數(shù)據(jù)信息發(fā)送成功,即表明V2V鏈路合理地復(fù)用了V2I的信道,同時(shí)避免了信道的沖突,給予該次動(dòng)作an(t)數(shù)值為1的正向獎(jiǎng)勵(lì);反之,不給予獎(jiǎng)勵(lì)。因此,將t時(shí)隙下第n條V2V鏈路的動(dòng)作an(t)的獎(jiǎng)勵(lì)值Rn(t)定義為

(10)

2.2 基于GRU-LSTM組合網(wǎng)絡(luò)模型的深度雙重Q學(xué)習(xí)算法

根據(jù)前述的強(qiáng)化學(xué)習(xí)的基本要素,對(duì)本文提出的算法結(jié)構(gòu)進(jìn)行分塊闡述。

2.2.1 輸入層

在本算法中,每條V2V鏈路都被看作是一個(gè)智能體,智能體觀察并采集t時(shí)刻下的每個(gè)V2V鏈路的狀態(tài)值St∈{S1,S2,S3,…,Sm}作為GRU-LSTM組合網(wǎng)絡(luò)的輸入。當(dāng)V2V鏈路在狀態(tài)St執(zhí)行動(dòng)作a(t),根據(jù)環(huán)境返回的η(t)獲得一個(gè)獎(jiǎng)勵(lì)R(t)后,就轉(zhuǎn)移至下一個(gè)狀態(tài)St+1。

2.2.2 GRU-LSTM組合神經(jīng)網(wǎng)絡(luò)層

由于車(chē)聯(lián)網(wǎng)的高移動(dòng)性和網(wǎng)絡(luò)拓?fù)涞目焖僮兓?經(jīng)典的DNN無(wú)法學(xué)習(xí)到前后聯(lián)系的歷史序列,同時(shí)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)存在梯度消失和梯度爆炸以及可能過(guò)擬合的缺陷,因此,本算法使用GRU-LSTM組合神經(jīng)網(wǎng)絡(luò)模型。該組合神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)有3層。第一層采用 GRU,它將LSTM中的遺忘門(mén)和輸入門(mén)合并為一個(gè)“更新門(mén)”,減小了矩陣乘法,更容易使算法收斂,可以減少訓(xùn)練時(shí)間[12]。但 GRU的擬合精度不如多參數(shù)的 LSTM,并且雙層 LSTM 的精度要優(yōu)于單層 LSTM[13]。因此,模型的第二層和第三層結(jié)構(gòu)均采用LSTM。下面對(duì)該組合層進(jìn)行分層介紹。

第一層神經(jīng)網(wǎng)絡(luò)由多個(gè)GRU單元組成。對(duì)于每個(gè)GRU單元,如圖4所示,Zt為當(dāng)前時(shí)刻的輸入,Yt-1為上一個(gè)時(shí)刻的輸出,Yt為當(dāng)前時(shí)刻的輸出。

圖4 GRU單元結(jié)構(gòu)圖[10]

GRU有兩個(gè)門(mén),第一個(gè)門(mén)為更新門(mén)vt,決定了有多少歷史信息可以繼續(xù)傳遞給未來(lái)。更新門(mén)vt的計(jì)算方法如公式(11)所示[8]:

vt=σ(Wv·[Yt-1,Zt]+bv)

(11)

式中:Wv為更新門(mén)的權(quán)重矩陣;bv為偏差向量;σ表示激活函數(shù) sigmoid。

第二個(gè)門(mén)為重置門(mén)rt,主要功能是確定有多少歷史信息不能傳遞到下一個(gè)狀態(tài)。重置門(mén)rt的計(jì)算方法如公式(12)所示[8]:

rt=σ(Wr·[Yt-1,Zt]+br)

(12)

式中:Wr為重置門(mén)的權(quán)重矩陣;br為偏差向量。

計(jì)算出更新門(mén)vt和重置門(mén)rt后,GRU將會(huì)計(jì)算候選隱藏狀態(tài)ht。候選隱藏狀態(tài)ht的計(jì)算方法如公式(13)所示[8]:

ht=tanh(Wh·[rt·Yt-1,Zt]+bh)

(13)

式中:Wh為對(duì)應(yīng)的權(quán)重參數(shù);bh為對(duì)應(yīng)的偏差參數(shù);tanh代表雙曲正切函數(shù)。

最后t時(shí)刻 GRU 的輸出Yt的計(jì)算方法如公式(14)所示[8]:

Yt=(1-vt)·Yt-1+vt·ht

(14)

在GRU網(wǎng)絡(luò)層輸出后第二層和第三層是LSTM網(wǎng)絡(luò)層,對(duì)比于RNN和GRU,LSTM 模型的擬合精度總體更高,如圖5所示。

圖5 LSTM單元結(jié)構(gòu)[10]

LSTM有3個(gè)門(mén),如圖5所示,Ct-1為前一時(shí)刻神經(jīng)元的狀態(tài),Ut-1為前一時(shí)刻神經(jīng)元的輸出,Nt為當(dāng)前時(shí)刻的輸入,Ct為當(dāng)前時(shí)刻神經(jīng)元的狀態(tài),Ut為當(dāng)前時(shí)刻神經(jīng)元的輸出。以下是每個(gè)LSTM單元的前向傳播公式:

ft=σ(Wf·[Ut-1,Nt]+bf)

(15)

式中:Wf是遺忘門(mén)的權(quán)重矩陣;bf是偏差向量;ft表示最后一層神經(jīng)元被遺忘的概率[8]。

it=σ(Wi·[Ut-1,Nt]+bi)

(16)

式中:Wi是輸入門(mén)的權(quán)重矩陣;bi是偏差向量;it表示當(dāng)前需要保留的負(fù)載信息的比例[8]。

pt=tanh(Wc·[Ut-1,Nt]+bc)

(17)

式中:Wc是輸入門(mén)的權(quán)重矩陣;bc是偏差向量;pt是當(dāng)前需要保留的負(fù)載信息的比例[8]。

Ct=ft·Ct-1+it·pt

(18)

ot=σ(Wo·[Ut-1,Nt]+bo)

(19)

式(19)中:Wo為輸出門(mén)的權(quán)重矩陣;bo為偏差向量;ot為輸出門(mén)[8]。

Ut=ot·tanh(Ct)

(20)

此處,LSTM層的輸入就是GRU網(wǎng)絡(luò)層的輸出Yt。顯然,此組合網(wǎng)絡(luò)的數(shù)據(jù)更新過(guò)程比單純的LSTM更簡(jiǎn)潔,也比單純的GRU 網(wǎng)絡(luò)擬合Q值過(guò)程更具有精確性和穩(wěn)定性。

在組合神經(jīng)網(wǎng)絡(luò)中,使用Huber損失函數(shù)來(lái)計(jì)算算法訓(xùn)練時(shí)的目標(biāo)值Y以及估計(jì)值f(x)之間的差值。Huber損失是平方損失和絕對(duì)損失的綜合,它克服了平方損失和絕對(duì)損失的缺點(diǎn),不僅使損失函數(shù)具有連續(xù)的導(dǎo)數(shù),而且利用均方誤差(Mean Square Error,MSE)梯度隨誤差減小的特性,可取得更精確的最小值,也對(duì)異常點(diǎn)更加魯棒,可以提高算法的穩(wěn)定性[14]。Huber損失計(jì)算方法如式(21)所示[14]:

(21)

式中:δ為選擇超參數(shù),作為選擇MSE與MAE時(shí)的評(píng)判值,由反復(fù)實(shí)驗(yàn)確定。

2.2.3 輸出層

為解決算法訓(xùn)練中的過(guò)度估計(jì)問(wèn)題,使用DDQN來(lái)解耦目標(biāo)Q值動(dòng)作的選擇和目標(biāo)Q值的計(jì)算[15]。具體而言,使用兩個(gè)深度組合模型Q網(wǎng)絡(luò),Q1網(wǎng)絡(luò)用于選擇動(dòng)作an(t),Q2網(wǎng)絡(luò)用于估計(jì)與所選動(dòng)作相關(guān)聯(lián)的Q值。DDQN中的Q值的近似估算公式如式(22)所示[15]:

(22)

將提出的HG-LDDQN算法為所有V2V鏈路進(jìn)行訓(xùn)練,訓(xùn)練步驟如下:

1 初始化:迭代輪數(shù)T,V2I鏈路條數(shù) C,V2V鏈路條數(shù)N,步長(zhǎng)α,衰減因子γ,探索率ε,經(jīng)驗(yàn)回放池D,當(dāng)前GRU-LSTM net1的參數(shù)ω,目標(biāo) GRU-LSTM net2的參數(shù)ω′=ω,所有狀態(tài)和動(dòng)作對(duì)應(yīng)的價(jià)值Q

2 For iterationi=1,…,Ido

3 For episodem=1,…,Mdo

4 For time-slott=1,…,Tdo

5 For V2V linksn=1,…,Ndo

6 從環(huán)境中觀察得到狀態(tài)值Xn(t),輸入到GRU-LSTM net1,產(chǎn)生對(duì)應(yīng)所有可選的動(dòng)作a∈{0,1,2,…C}的估計(jì)Q值Q(a)

9 在經(jīng)驗(yàn)回放池中存儲(chǔ)

10 從經(jīng)驗(yàn)回放池中隨機(jī)抽取批量樣本訓(xùn)練組合神經(jīng)網(wǎng)絡(luò)

11 計(jì)算當(dāng)前的目標(biāo)Q值:

12 計(jì)算目標(biāo)Q值與估計(jì)Q值的

Huber loss與網(wǎng)絡(luò)權(quán)重ω

13 End for

14 End for

15 End for

16 使用狀態(tài)輸入Xn(t)和輸出Qs訓(xùn)練GRU-LSTM net1

17 每一個(gè)iteration使Q2←Q1

18 End for

3 實(shí)驗(yàn)與結(jié)果分析

仿真場(chǎng)景為位于十字路口道路的雙向和單向車(chē)道區(qū)域,其寬為300 m,長(zhǎng)為 400 m。場(chǎng)景中車(chē)輛起始位置和行駛方向在區(qū)域范圍內(nèi)隨機(jī)初始化,在該范圍內(nèi)規(guī)定有2條V2I鏈路、3條V2V鏈路以及1個(gè)基站。在該場(chǎng)景模型中,使用HG-LDDQN算法實(shí)現(xiàn)3條V2V鏈路共享V2I鏈路的2個(gè)信道條件的嘗試,分別在信道碰撞率、信道空閑率以及平均獎(jiǎng)勵(lì)和平均成功率4個(gè)評(píng)價(jià)指標(biāo)上與其他信道分配算法對(duì)比,以驗(yàn)證HG-LDDQN算法的性能。

實(shí)驗(yàn)中構(gòu)建圖2中的GRU-LSTM組合神經(jīng)網(wǎng)絡(luò),GRU層和兩層LSTM均設(shè)置128個(gè)神經(jīng)元。Huber損失函數(shù)的超參數(shù)δ經(jīng)過(guò)大量實(shí)驗(yàn)設(shè)置為1.35。實(shí)驗(yàn)每次輸入t-5個(gè)時(shí)刻的狀態(tài)序列,使用Adam算法優(yōu)化網(wǎng)絡(luò)權(quán)重ω,經(jīng)驗(yàn)池D的容量設(shè)置為1 000,探索率ε設(shè)置為0.02,探索率的衰減率設(shè)置為0.000 1,學(xué)習(xí)率設(shè)置為0.01,獎(jiǎng)勵(lì)折扣設(shè)置為0.9,干擾設(shè)置成0.1,模擬退火常數(shù)設(shè)置為1。

3.1 信道碰撞率對(duì)比

圖6表示在55 000次的迭代中,3條V2V鏈路在動(dòng)態(tài)共享2條V2I鏈路的信道時(shí)的碰撞率的變化情況,每5 000次作為一個(gè)回合,對(duì)數(shù)據(jù)結(jié)果進(jìn)行一次記錄。從圖中可見(jiàn),沒(méi)有歷史序列前后記憶功能的DQN算法在處理這種歷史序列的學(xué)習(xí)任務(wù)時(shí)幾乎沒(méi)有學(xué)習(xí)能力,碰撞率很大,而對(duì)于單一循環(huán)網(wǎng)絡(luò)算法而言,GRU+DDQN算法由于具有比LSTM+DDQN更為簡(jiǎn)單的結(jié)構(gòu),其學(xué)習(xí)迭代的更快。但這兩種算法最后的收斂表現(xiàn)差不多,在第10個(gè)訓(xùn)練回合時(shí)收斂到0.27左右。相較而言,HG-LDDQN算法由于使用了GRU-LSTM混合網(wǎng)絡(luò)模型,兼具GRU和LSTM網(wǎng)絡(luò)單元的雙重性能,能將GRU網(wǎng)絡(luò)單元結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練快速的優(yōu)勢(shì)運(yùn)用到V2V鏈路的訓(xùn)練中,當(dāng)訓(xùn)練達(dá)到第4個(gè)回合時(shí)碰撞率就以最大的下降速度降低,使V2V鏈路之間的碰撞次數(shù)迅速減少,同時(shí)又因?yàn)長(zhǎng)STM網(wǎng)絡(luò)單元中的多參數(shù)能帶來(lái)更加精確的擬合精度,使得HG-LDDQN算法不僅提前5個(gè)訓(xùn)練回合完成收斂,又能夠?qū)⑴鲎猜示S持在比其他算法訓(xùn)練結(jié)果更低的0.006附近。

圖6 3條V2V鏈路共享2條V2I鏈路信道時(shí)的碰撞率

3.2 平均獎(jiǎng)勵(lì)對(duì)比

圖7為3條V2V鏈路共享2條V2I鏈路信道時(shí)的平均獎(jiǎng)勵(lì)的對(duì)比,可見(jiàn)HG-LDDQN算法憑借GRU-LSTM組合網(wǎng)絡(luò)中GRU網(wǎng)絡(luò)單元的簡(jiǎn)單結(jié)構(gòu),使V2V鏈路能夠在第4個(gè)回合以后快速學(xué)習(xí)獲得獎(jiǎng)勵(lì),又可以憑借組合網(wǎng)絡(luò)中LSTM網(wǎng)絡(luò)單元的多參數(shù)擬合精確的特點(diǎn),使V2V鏈路在第5個(gè)回合后幾乎每次都能成功共享V2I鏈路的2條信道,完成信息成功發(fā)送,學(xué)習(xí)到了比其他算法更優(yōu)的信道分配策略。本文算法比RNN+DQN算法提前約6個(gè)訓(xùn)練回合收斂,而GRU+DDQN和LSTM+ DDQN算法由于單一的網(wǎng)絡(luò)結(jié)構(gòu)無(wú)法在整體性能上表現(xiàn)出組合優(yōu)勢(shì),導(dǎo)致在整體的算法性能上不如HG-LDDQN算法高效和穩(wěn)定,最終的平均獎(jiǎng)勵(lì)值只能收斂到1.8附近,甚至不如傳統(tǒng)的RNN+DQN算法。DQN算法還是因?yàn)槭褂肈NN的原因,處于一種無(wú)法學(xué)習(xí)的狀態(tài),幾乎不能獲得獎(jiǎng)勵(lì)。

圖7 3條V2V鏈路共享2條V2I鏈路信道時(shí)的平均獎(jiǎng)勵(lì)

3.3 信道空閑率對(duì)比

圖8為3條V2V鏈路共享2條V2I鏈路的信道時(shí)的空閑率的對(duì)比。由于建模時(shí)允許某些V2V鏈路可以選擇不發(fā)送信息,即不選擇信道接入,因此該圖與碰撞率的圖有些許的差別。顯而易見(jiàn)HG-LDDQN算法由于組合網(wǎng)絡(luò)模型結(jié)構(gòu)帶來(lái)的雙重優(yōu)勢(shì),在收斂速度上比LSTM+DDQN或者GRU+DDQN算法快5個(gè)訓(xùn)練回合,比RNN+DQN快6個(gè)訓(xùn)練回合。在收斂后的空閑率上,隨著迭代次數(shù)的增加,HG-LDDQN算法能使信道空閑率穩(wěn)定在較低的水準(zhǔn),使V2I的2條信道基本都有V2V鏈路成功的共享,相較于單一網(wǎng)絡(luò)結(jié)構(gòu)的LSTM+DDQN或者GRU+DDQN算法下降了約27%。DQN算法同樣由于網(wǎng)絡(luò)結(jié)構(gòu)的原因,不具備學(xué)習(xí)歷史序列數(shù)據(jù)的能力。RNN+DQN算法下,信道的空閑率呈現(xiàn)出上下振蕩的不穩(wěn)定性,以及收斂速度慢的情況。

圖8 3條V2V鏈路共享2條V2I鏈路信道時(shí)的信道空閑率

3.4 平均成功率的對(duì)比

圖9表示3條V2V鏈路嘗試共享2條V2I鏈路的信道的過(guò)程中的平均成功率情況。由于獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是每次對(duì)于V2V鏈路成功共享到V2I鏈路信道,并完成信息傳輸?shù)膭?dòng)作選擇就設(shè)置獎(jiǎng)勵(lì)值就加1,發(fā)生碰撞信道共享失敗,獎(jiǎng)勵(lì)值就為0。因此,每一個(gè)回合內(nèi)的累計(jì)的成功共享次數(shù)與該回合內(nèi)的累計(jì)獎(jiǎng)勵(lì)值是一致的,可以看到平均化后的成功率折線圖是和獎(jiǎng)勵(lì)圖的趨勢(shì)是一致的。從圖中仍然可以發(fā)現(xiàn),HG-LDDQN算法具有明顯優(yōu)勢(shì),能夠快速完成收斂,使平均成功率達(dá)到了接近1的效果,比GRU+DDQN和LSTM+DDQN算法下的平均成功率提高了約10%,能夠保證在之后的每個(gè)時(shí)隙中V2I的2個(gè)信道中都有V2V鏈路成功進(jìn)行了共享且完成了信息傳輸。

圖9 3條V2V鏈路共享2條V2I鏈路信道時(shí)的平均成功率

4 結(jié)束語(yǔ)

本文研究了針對(duì)車(chē)聯(lián)網(wǎng)中V2V鏈路復(fù)用V2I鏈路信道時(shí)的信道沖突以及網(wǎng)絡(luò)效用低下的問(wèn)題,提出了一種基于GRU和LSTM組合模型的動(dòng)態(tài)信道分配算法。該算法以最大化每回合平均獎(jiǎng)勵(lì)為目標(biāo)訓(xùn)練V2V鏈路,不需要在線協(xié)調(diào),可實(shí)現(xiàn)多個(gè)V2V鏈路通過(guò)實(shí)時(shí)探知環(huán)境狀態(tài),選擇V2I鏈路未使用的空閑頻譜以完成V2V鏈路自身信息的傳輸任務(wù),同時(shí)解決了大狀態(tài)空間下V2V鏈路用戶隨著車(chē)聯(lián)網(wǎng)節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)變化帶來(lái)的訓(xùn)練困難、訓(xùn)練周期長(zhǎng)的問(wèn)題。仿真實(shí)驗(yàn)結(jié)果表明,該算法能使V2V鏈路作為智能體在與環(huán)境不斷交互過(guò)程中學(xué)習(xí)到合理的信道共享策略,有效地解決了快速變化的車(chē)聯(lián)網(wǎng)環(huán)境中的信道分配問(wèn)題,同時(shí)減少了V2V鏈路用戶的信道碰撞率以及空閑率,間接最大化了V2V鏈路復(fù)用V2I鏈路信道資源的利用率。

后續(xù)將會(huì)在本文的基礎(chǔ)上對(duì)V2I以及V2V鏈路的頻譜資源分配進(jìn)行信道及功率的聯(lián)合優(yōu)化研究。

猜你喜歡
空閑時(shí)隙鏈路
家紡“全鏈路”升級(jí)
恩賜
詩(shī)選刊(2023年7期)2023-07-21 07:03:38
天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應(yīng)調(diào)度技術(shù)
“鳥(niǎo)”字謎
小讀者之友(2019年9期)2019-09-10 07:22:44
復(fù)用段單節(jié)點(diǎn)失效造成業(yè)務(wù)時(shí)隙錯(cuò)連處理
彪悍的“寵”生,不需要解釋
一種高速通信系統(tǒng)動(dòng)態(tài)時(shí)隙分配設(shè)計(jì)
時(shí)隙寬度約束下網(wǎng)絡(luò)零售配送時(shí)隙定價(jià)研究
WLAN和LTE交通規(guī)則
CHIP新電腦(2016年3期)2016-03-10 14:09:48
基于TDMA的無(wú)沖突動(dòng)態(tài)時(shí)隙分配算法
墨脱县| 崇文区| 湖口县| 伊吾县| 阿图什市| 通州市| 大名县| 唐河县| 葵青区| 安溪县| 刚察县| 潜山县| 眉山市| 温泉县| 威海市| 宜良县| 台中县| 玛曲县| 辛集市| 山西省| 庆元县| 卫辉市| 休宁县| 舒兰市| 赞皇县| 贵德县| 汉源县| 辽阳县| 疏勒县| 东源县| 肥东县| 蓝田县| 甘肃省| 汝州市| 平山县| 济阳县| 贵港市| 沧州市| 宁海县| 临江市| 突泉县|