杜艾芊,趙海濤,劉南杰
(1.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003;2.南京郵電大學(xué) 網(wǎng)絡(luò)基因工程研究所,江蘇 南京 210003)
車載通信中基于Q學(xué)習(xí)的信道接入技術(shù)研究
杜艾芊1,2,趙海濤1,2,劉南杰1,2
(1.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003;2.南京郵電大學(xué) 網(wǎng)絡(luò)基因工程研究所,江蘇 南京 210003)
針對基于IEEE 802.11p協(xié)議的車載網(wǎng)絡(luò)MAC層DCF(分布式協(xié)調(diào)功能)信道接入方法存在數(shù)據(jù)包接收率低、時延高、可擴展性差等問題,提出一種基于Q學(xué)習(xí)的CW動態(tài)調(diào)整算法-QL-CWmin算法。區(qū)別于現(xiàn)有的BEB算法,通過利用Q學(xué)習(xí),網(wǎng)絡(luò)節(jié)點(Agent)能夠不斷地與周圍環(huán)境進行交互學(xué)習(xí),根據(jù)學(xué)習(xí)結(jié)果動態(tài)地調(diào)整競爭窗口(CW),使節(jié)點總能以最佳的CW(從周圍環(huán)境中獲得獎賞值最大時所選的CW大小)接入信道,以減少數(shù)據(jù)幀碰撞、降低端到端傳輸時延。仿真結(jié)果表明,采用QL-CWmin算法的通信節(jié)點能快速適應(yīng)車聯(lián)網(wǎng)的未知環(huán)境,數(shù)據(jù)包接收率和數(shù)據(jù)包傳輸時延得到了有效改善,同時該算法能為節(jié)點接入信道提供更高的公平性,適用于各種不同負(fù)載程度的網(wǎng)絡(luò)環(huán)境。
車載網(wǎng)絡(luò);BEB算法;競爭窗口;Q學(xué)習(xí)算法;分布式協(xié)調(diào)功能
近年來,隨著交通運輸行業(yè)的迅速發(fā)展,汽車數(shù)量急劇增加。汽車為人們?nèi)粘3鲂袔砹吮憷渤霈F(xiàn)了安全和交通擁堵等各種問題。20世紀(jì)80年代,美國加利福尼亞大學(xué)首次提出了智能交通系統(tǒng)(ITS)的概念,用以提高交通運輸效率、緩解交通擁塞、減少交通事故。在智能交通系統(tǒng)和無線通信技術(shù)高速發(fā)展的今天,車聯(lián)網(wǎng)應(yīng)運而生,它是繼互聯(lián)網(wǎng)、物聯(lián)網(wǎng)之后的另一個未來智慧城市的標(biāo)志。車聯(lián)網(wǎng)中,道路車輛和路邊基礎(chǔ)設(shè)施都安裝有短程無線收發(fā)器,具有無線通信功能,所以可形成一個無線網(wǎng)絡(luò),即車載自組織網(wǎng)(VANET)。VANET是移動自組織網(wǎng)的子類,沒有固定的拓?fù)浣Y(jié)構(gòu),車輛可通過V2V(車與車)通信或V2I(車與路邊基礎(chǔ)設(shè)施)通信獲取信息和服務(wù)。VANET通過車-車通信和車-路通信實現(xiàn)人-車-路的協(xié)同,有效改善了交通安全,提高了交通效率,為用戶提供娛樂和Internet接入服務(wù)等。
IEEE802.11p又稱WAVE(WirelessAccessintheVehicularEnvironment),主要用于車載通信,是由IEEE802.11標(biāo)準(zhǔn)擴充的通信協(xié)議。IEEE802.11p針對車載環(huán)境對IEEE802.11的物理層和MAC層的相關(guān)參數(shù)做了些許調(diào)整,因而能更適用于車載環(huán)境中的無線通信。IEEE802.11p是WAVE協(xié)議棧的底層協(xié)議,已廣泛應(yīng)用于V2V通信。在任一網(wǎng)絡(luò)環(huán)境中,通信協(xié)議棧的重要因素之一就是MAC層,而IEEE802.11pMAC層主要解決的是車輛對信道接入的競爭問題,它決定了某一時刻允許哪一節(jié)點接入無線信道。由于節(jié)點的高速移動性、通信環(huán)境的快速變化性及節(jié)點密度和節(jié)點分布的多變性等,對VANETs共享無線信道的接入控制提出了挑戰(zhàn)。因此,設(shè)計高可靠性的MAC協(xié)議對VANETs尤為重要。為VANET環(huán)境設(shè)計MAC協(xié)議所面臨的挑戰(zhàn)主要有:在車輛位置和信道特征不斷變化的VANET中,實現(xiàn)既高效又公平的信道接入;對不同密度的交通流具有可擴展性;能滿足各種不同的應(yīng)用需求。
文獻[1]提出一種基于鄰居節(jié)點數(shù)估計的最小競爭窗口調(diào)整算法-AdaptiveCWmin。算法改變了CW的調(diào)整規(guī)則,并根據(jù)網(wǎng)絡(luò)信道的使用情況動態(tài)地調(diào)整CWmin。通過估計車載網(wǎng)中的競爭節(jié)點數(shù)來動態(tài)地選擇合適的CWmin,若數(shù)據(jù)傳輸成功,則根據(jù)競爭節(jié)點數(shù)確定CWmin;若失敗,則通過估計車輛密度來控制競爭窗口的增加。同時還推導(dǎo)出最大退避階數(shù)、信道由于碰撞被檢測為繁忙的平均時間和競爭節(jié)點數(shù)這三個參數(shù)與最優(yōu)CWmin的函數(shù)關(guān)系,節(jié)點成功發(fā)送數(shù)據(jù)后,根據(jù)函數(shù)計算出適應(yīng)車載網(wǎng)絡(luò)狀況的最優(yōu)CWmin值。利用文中提出的算法在數(shù)據(jù)包重傳之后選擇合理的CW,縮短了競爭節(jié)點等待重傳的時間,增加了網(wǎng)絡(luò)吞吐量。
文獻[2]提出了基于統(tǒng)計次數(shù)的退避算法-newBEB和基于相對距離的退避算法-RBA。newBEB算法中設(shè)定了一個門限值,即發(fā)送節(jié)點傳輸成功和傳輸失敗的最大次數(shù)。當(dāng)節(jié)點連續(xù)發(fā)送成功的次數(shù)超過傳輸成功的最大次數(shù)時,就增加競爭窗口值,降低其競爭信道的能力;而當(dāng)節(jié)點連續(xù)發(fā)送失敗的次數(shù)超過傳輸失敗的最大次數(shù)時,就減少競爭窗口值,增強其競爭信道的能力。通過仿真對比分析,newBEB算法有效提高了節(jié)點接入信道的公平性。RBA算法中,每個節(jié)點根據(jù)自己與鄰居節(jié)點距離的平均值動態(tài)地調(diào)整競爭窗口的大小,仿真結(jié)果表明RBA算法提高了節(jié)點接入信道的公平性,降低了丟包率,在一定程度上提高了網(wǎng)絡(luò)吞吐量。
文獻[3]提出一種CW的控制方法-DBM-ACW方法(基于密度調(diào)整CW的方法)。根據(jù)信道擁塞的嚴(yán)重程度,選擇不同的CW值倍乘系數(shù),或重設(shè)為CWmin。信道十分擁塞時,CW值的倍乘系數(shù)選擇上限值,可減少節(jié)點選擇相同退避數(shù)的概率;當(dāng)信道密度降低時,CW值的倍乘系數(shù)選擇下限值或重設(shè)為CWmin,避免節(jié)點在信道占用率較低時等待較長的時間接入信道。經(jīng)仿真對比分析,文中提出方法在網(wǎng)絡(luò)密度較大時,性能優(yōu)勢尤為突出。
文獻[4]提出一種基于距離動態(tài)調(diào)整CW值的方法,適用于在網(wǎng)絡(luò)負(fù)載較重的車載自組織網(wǎng)中廣播實時性緊急消息。文中推導(dǎo)出某節(jié)點和前一節(jié)點之間的距離d和動態(tài)競爭窗口CWd之間的關(guān)系,利用這一關(guān)系為不斷移動的車輛節(jié)點動態(tài)地分配不同的CW值,可減少由于碰撞需要重傳數(shù)據(jù)包的次數(shù)。此外,還能降低數(shù)據(jù)包碰撞概率、端到端時延及網(wǎng)絡(luò)負(fù)載等,最終使帶寬得到有效利用。仿真結(jié)果表明,此方法在高速公路交通流中就吞吐量、端到端時延和網(wǎng)絡(luò)負(fù)載而言,網(wǎng)絡(luò)性能得到有效改善。
傳統(tǒng)的退避算法雖然解決了信道競爭的問題,但同時也存在一定的缺陷。節(jié)點每成功發(fā)送一次數(shù)據(jù),就把當(dāng)前的CW降到最小值,使節(jié)點誤以為一次發(fā)送成功就表示當(dāng)前信道競爭情況不激烈,同樣,一次發(fā)送失敗就認(rèn)為當(dāng)前信道競爭激烈,碰撞增加,相應(yīng)的競爭窗口成倍增加[5]。這種方式并沒有真正反映信道上的競爭情況。尤其是節(jié)點個數(shù)較多網(wǎng)絡(luò)負(fù)載變嚴(yán)重時,成功發(fā)送完數(shù)據(jù)的節(jié)點把CW調(diào)為最小值,多個節(jié)點又有相同的CW值(CWmin),會引起更多的碰撞。且碰撞和退避會浪費時間,嚴(yán)重影響網(wǎng)絡(luò)的整體吞吐量。另外,數(shù)據(jù)發(fā)送成功的節(jié)點立刻將CW值置為最小,而數(shù)據(jù)發(fā)送失敗的節(jié)點的CW值成倍增加。之后的一段時間內(nèi),CW值小的節(jié)點再次成功接入信道的概率增加,而CW值大的節(jié)點CW值會繼續(xù)增加,若CW值小的節(jié)點連續(xù)發(fā)送數(shù)據(jù)的話,就會一直占用信道,而其他節(jié)點的數(shù)據(jù)就無法發(fā)送出去,最終造成嚴(yán)重的信道接入不公平現(xiàn)象。除了接入信道不公平的問題,在時延方面也存在一定的缺陷。IEEE802.11p在MAC層中規(guī)定,初始競爭窗口值為15(aCWmin)[6]。但是,數(shù)據(jù)流量負(fù)載過高(網(wǎng)絡(luò)密度較高)時,成功發(fā)送數(shù)據(jù)幀后恢復(fù)為初始競爭窗口會使碰撞率增加,若節(jié)點在預(yù)定義時間段內(nèi)無法成功發(fā)送數(shù)據(jù)幀對應(yīng)的ACK消息,發(fā)送節(jié)點就會增加競爭窗口,重傳數(shù)據(jù)幀,這樣會使時延增加。即使在初次嘗試發(fā)送數(shù)據(jù)時設(shè)定最佳的競爭窗口可避免增加時延,但節(jié)點成功發(fā)送數(shù)據(jù)后,競爭窗口又恢復(fù)為15,尤其是在網(wǎng)絡(luò)負(fù)載過高時,極其不宜采用這種方法。
針對上述問題,文中在傳統(tǒng)信道接入機制的基礎(chǔ)上,引入強化學(xué)習(xí),基于強化學(xué)習(xí)中的Q-Learning算法提出了新的信道接入方法-QL-CWmin方法。
2.1Q學(xué)習(xí)的基本原理
強化學(xué)習(xí)是機器學(xué)習(xí)中尤為重要的一種,它是智能系統(tǒng)從環(huán)境狀態(tài)到行為映射的學(xué)習(xí)過程,是解決智能系統(tǒng)尋優(yōu)問題的有效工具。能夠感知環(huán)境的Agent不斷在環(huán)境中學(xué)習(xí),根據(jù)環(huán)境給予的反饋信號,總選擇執(zhí)行能達到目標(biāo)的最優(yōu)動作。在強化學(xué)習(xí)中,Agent在環(huán)境中的學(xué)習(xí)過程是一種試探評價過程,它的基本原理是[7]:Agent在環(huán)境中學(xué)習(xí)時,選擇一個動作作用于環(huán)境,環(huán)境狀態(tài)受該動作影響而發(fā)生變化,同時會產(chǎn)生一個強化信號(獎或懲),并將此信號反饋給Agent,Agent會根據(jù)強化信號和環(huán)境的當(dāng)前狀態(tài)再選擇執(zhí)行下一個動作,如果Agent的某一動作策略會使Agent從環(huán)境中獲得正的獎賞(強化信號),那么Agent此后選擇執(zhí)行這個動作策略的趨勢就會加強,它的最終目的是Agent總選擇執(zhí)行能從環(huán)境中得到最大累積獎賞值的動作。
Q-Learning算法是強化學(xué)習(xí)算法中最典型的一種,也是目前應(yīng)用最為廣泛的一種。Q-Learning算法在環(huán)境條件未知的情況下最為有效,對環(huán)境的先驗知識要求不高,它使Agent在馬爾可夫決策過程中具備利用經(jīng)歷過的動作序列總選擇最優(yōu)動作的能力。它不需要環(huán)境模型,Agent在動態(tài)環(huán)境中通過交互試錯不斷調(diào)整行為。Agent不斷探索環(huán)境,在每一環(huán)境狀態(tài)和可能的動作之間建立一個Q值列表(Q表),它學(xué)習(xí)的是每個狀態(tài)-動作對的評價值-Q值(Q(st,at)),Q(st,at)是Agent在狀態(tài)st下根據(jù)策略選擇執(zhí)行動作at,并循環(huán)執(zhí)行所得到的累積獎賞值。Q-Learning算法的最優(yōu)策略是使Q(st,at)的累積獎賞值最大化,所以Q學(xué)習(xí)的最優(yōu)策略表達式為[8]:
(1)
即Agent只需考慮當(dāng)前狀態(tài)和當(dāng)前可選的動作,按照策略選擇執(zhí)行使Q(st,at)最大化的動作。
文中所提出的信道接入方法-QL-CWmin,通過動態(tài)調(diào)整競爭窗口來解決碰撞率和時延的問題,利用Q-Learning算法學(xué)習(xí)最佳的競爭窗口。由于鄰近節(jié)點之間互換信標(biāo)消息可獲得鄰居節(jié)點的位置信息,所以假設(shè)每個節(jié)點已知其一跳鄰居節(jié)點的位置信息,在節(jié)點成功發(fā)送數(shù)據(jù)幀后,環(huán)境給予節(jié)點一個正的獎賞,若發(fā)送失敗,則給予負(fù)的獎賞。在網(wǎng)絡(luò)負(fù)載較低時,使節(jié)點利用學(xué)習(xí)所得的最佳CW選擇以較小的CW接入信道避免增加時延;網(wǎng)絡(luò)負(fù)載較高時,則利用較大的CW接入信道防止碰撞。QL-CWmin算法可動態(tài)地調(diào)整競爭窗口,能以較低的時延發(fā)送數(shù)據(jù),提高了數(shù)據(jù)包接收率和競爭效率,減少了信道接入時延。
2.2 QL-CWmin算法的狀態(tài)-動作對映射
整個車載自組織網(wǎng)絡(luò)即Agent學(xué)習(xí)的環(huán)境,網(wǎng)絡(luò)中的每個車輛節(jié)點即Agent,車輛節(jié)點在網(wǎng)絡(luò)中接入信道時所采用的競爭窗口即Agent學(xué)習(xí)環(huán)境的環(huán)境狀態(tài),由此車輛節(jié)點可能采用的所有競爭窗口集即Agent學(xué)習(xí)環(huán)境的狀態(tài)空間。由于節(jié)點在網(wǎng)絡(luò)中接入信道的競爭窗口通常為2的指數(shù)冪減1,因此競爭窗口集為{15,31,63,127,255,511,1 023},競爭窗口初始值CWmin為15,最大值CWmax為1 023[9]。每一Agent可執(zhí)行的動作有:增加(I)、保持(K)、減少(R)?!霸黾印奔丛龃蟾偁幋翱?,“保持”和“減少”則分別是保持競爭窗口大小不變和減小競爭窗口。節(jié)點每執(zhí)行一個動作后,環(huán)境狀態(tài)就發(fā)生狀態(tài)轉(zhuǎn)移。在網(wǎng)絡(luò)環(huán)境中不斷探索學(xué)習(xí)的過程中,每一節(jié)點在狀態(tài)-動作對之間都維護一個Q表,Q表中包含Q值Q(st,at),Q值的變化范圍為-1到1。其中,st為當(dāng)前競爭窗口的大小,at為節(jié)點可能執(zhí)行的動作。每發(fā)送完一個MAC幀后,節(jié)點根據(jù)發(fā)送狀態(tài)從網(wǎng)絡(luò)環(huán)境中獲得一個獎賞值。若發(fā)送成功,節(jié)點得到一個正的獎賞,若發(fā)送失敗(本協(xié)議中定義MAC層重傳次數(shù)不超過4,即數(shù)據(jù)重傳4次后,發(fā)送節(jié)點還是接收不到數(shù)據(jù)幀對應(yīng)的ACK消息,則定義此次發(fā)送失敗),節(jié)點則得到一個負(fù)的獎賞。丟包主要是由于其他數(shù)據(jù)包發(fā)生碰撞造成的,通過對獎賞值進行評估,節(jié)點自適應(yīng)地調(diào)整其競爭窗口大小,總選擇執(zhí)行能使累積獎賞值Q值最大化的最優(yōu)動作。
2.3 QL-CWmin算法Q值函數(shù)更新
在Agent與環(huán)境不斷交互學(xué)習(xí)的過程中,節(jié)點接入信道可能執(zhí)行的動作有:增加(I)、保持(K)、減少(R)。狀態(tài)空間為{15,31,63,127,255,511,1 023}。當(dāng)競爭窗口為最小值時,競爭窗口無法繼續(xù)減少;同樣地,當(dāng)競爭窗口為最大值時,競爭窗口無法繼續(xù)增加[10]。圖1為節(jié)點在網(wǎng)絡(luò)環(huán)境中學(xué)習(xí)的狀態(tài)轉(zhuǎn)移圖。
VANETs中,節(jié)點采用QL-CWmin算法發(fā)送MAC數(shù)據(jù)幀的過程中,利用狀態(tài)-動作對的值函數(shù)Q(st,at)進行迭代,并利用獎賞作為估計函數(shù)來選擇下一動作,對Q函數(shù)進行優(yōu)化,通過多步迭代學(xué)習(xí)逼近最優(yōu)值函數(shù)。節(jié)點每發(fā)送一次數(shù)據(jù)幀,就更新一次Q表,更新Q值的表達式即Q學(xué)習(xí)的迭代公式為:
圖1 狀態(tài)轉(zhuǎn)移圖
α)×Q(st,at)
(2)
其中,α為學(xué)習(xí)率,是Agent在環(huán)境中的學(xué)習(xí)步長,用于控制學(xué)習(xí)速度。α值越大,Q值收斂越快。由于MAC數(shù)據(jù)幀發(fā)送較為頻繁,0.6足以反映網(wǎng)絡(luò)拓?fù)涞淖兓潭?,所以文中取α?.6。γ為折扣因子,γ∈[0,1],體現(xiàn)了Agent對以后環(huán)境所給予獎勵的重視程度,取值越大表示越重視以后的獎勵,反之,則只在乎眼前的獎勵。文中取γ為0.9。
車輛節(jié)點在VANETs中初次接入信道發(fā)送數(shù)據(jù)時,會首先初始化Q(st,at)的值,然后根據(jù)探索策略在狀態(tài)st時選擇執(zhí)行動作at,得到下一狀態(tài)st+1及其獎賞值R,之后根據(jù)獎賞值通過式(2)更新Q值,一直循環(huán)執(zhí)行直到實現(xiàn)目標(biāo)狀態(tài)或達到限制的迭代次數(shù)。其中獎賞值R計算如下:
(3)
其中,RCW表示選擇當(dāng)前的CW值接入信道成功發(fā)送數(shù)據(jù)所獲得的正獎賞。發(fā)送失敗,獎賞值為-1,若當(dāng)前狀態(tài)正在發(fā)送數(shù)據(jù),獎賞值為0。
表1中定義了選擇各不同大小的CW值成功發(fā)送數(shù)據(jù)所獲得的不同獎賞值。成功發(fā)送數(shù)據(jù)所選的CW值越小,得到的獎賞值就越大,而網(wǎng)絡(luò)負(fù)載過高時,節(jié)點從環(huán)境中獲得負(fù)的獎賞從而增加競爭窗口,這樣能使節(jié)點充分利用信道資源。
表1 不同CW對應(yīng)的獎賞值
圖2 基本流程圖
2.4 QL-CWmin算法的收斂性
強化學(xué)習(xí)中,“探索”是指Agent要盡可能地經(jīng)歷所有的狀態(tài)-動作對,從而獲得全面充分的經(jīng)驗知識,保證學(xué)習(xí)過程能收斂到最優(yōu)的Q值函數(shù),但是過度“探索”會引入冗余信息,浪費存儲資源和計算資源,最終影響學(xué)習(xí)速度。“利用”則是Agent為了從環(huán)境中獲得較高的獎賞值,總是根據(jù)當(dāng)前的Q表選擇執(zhí)行可以獲得高獎賞值的動作,而不愿冒險去嘗試可能會產(chǎn)生更高獎賞值但也可能產(chǎn)生低獎賞值的動作[12]。所以尋求“探索”和“利用”間的平衡對保證學(xué)習(xí)過程能快速收斂到最優(yōu)Q值函數(shù)非常重要,Agent需要不斷“探索”次優(yōu)動作從而使“利用”趨向全局最優(yōu)。
QL-CWmin算法中,節(jié)點在網(wǎng)絡(luò)環(huán)境中學(xué)習(xí)所用的探索策略為強化學(xué)習(xí)算法中應(yīng)用較為廣泛ε-greedy動作選取機制,每個Agent節(jié)點要執(zhí)行的第一個動作是將其CW值初始化為15,當(dāng)Agent對自己所處的網(wǎng)絡(luò)環(huán)境一無所知時,采用最小的CW值是最佳選擇。此后節(jié)點以概率ε進行探索,尋求新的可能會產(chǎn)生更高獎賞值但也可能產(chǎn)生低獎賞值的動作,以概率1-ε選擇當(dāng)前Q值最高的動作(利用)。由于節(jié)點接入信道并成功發(fā)送數(shù)據(jù)所選用的CW越小,Agent得到的獎賞就越多,只要當(dāng)前所選的CW能成功發(fā)送數(shù)據(jù),節(jié)點就絕不會再增加CW。當(dāng)CW大于15,而網(wǎng)絡(luò)負(fù)載降低時,QL-CWmin算法也會通過探索將CW重設(shè)為15,即QL-CWmin算法總能使節(jié)點在網(wǎng)絡(luò)環(huán)境中通過“探索”和“利用”將CW調(diào)整為最佳值。
收斂問題也是強化學(xué)習(xí)算法所研究的一個重要問題[13],Watkins與Dayan利用隨機過程和不動點理論給出:
(1)學(xué)習(xí)過程具有Markov性;
(2)所有的狀態(tài)-動作對能被無限次訪問;
(3)Q表中能存儲所有狀態(tài)-動作對的Q值函數(shù),每個元素分別對應(yīng)于一個狀態(tài)-動作對;
以上四個條件都滿足時,Q學(xué)習(xí)過程可收斂到最優(yōu)狀態(tài)-動作對值函數(shù)Q*。由此可見,QL-CWmin滿足收斂的所有條件。
文中對高速公路場景進行仿真,仿真環(huán)境如表2所示。
表2 仿真參數(shù)
文中通過仿真從VANET的廣播幀接收率、端到端傳輸時延和數(shù)據(jù)幀碰撞率等方面對CWmin-15算法、CWmin-31算法、AdaptiveCWmin算法和提出的QL-CWmin算法進行了對比分析。
圖3分別為VANET中采用四種退避算法的廣播幀接收率隨車輛密度的變化趨勢。
從圖中可以看出,車輛密度較小時,由于車輛節(jié)點總會以最小的競爭窗口接入信道,且數(shù)據(jù)幀發(fā)生碰撞的概率很小,所以廣播幀接收率都較接近1。但隨著車輛密度的增加,廣播幀接收率都呈下降趨勢,而采用文中所提出的QL-CWmin算法的廣播幀接收率不僅優(yōu)于其他算法,且下降趨勢較為平穩(wěn)。因為車輛節(jié)點在VANET環(huán)境中不斷交互試錯,總選擇Q值最高的競爭窗口即最佳窗口接入信道,所以其廣播幀接收率不會隨著車輛密度的增加而呈急劇下降的趨勢。
圖3 廣播幀接收率與車輛密度的關(guān)系曲線
圖4和圖5分別是采用四種退避算法后VANET中的端到端傳輸時延和數(shù)據(jù)幀碰撞率隨車輛密度的變化趨勢。
圖4 端到端時延與車輛密度的關(guān)系曲線
圖5 數(shù)據(jù)幀碰撞率與車輛密度的關(guān)系曲線
從圖中可見,文中提出的QL-CWmin算法與其他三種退避算法相比,端到端傳輸時延和數(shù)據(jù)幀碰撞率都較小,因此采用QL-CWmin算法能為節(jié)點接入信道提供更高的公平性,從而能適用于各種不同負(fù)載程度的車載網(wǎng)絡(luò)。
總的來說,在節(jié)點接入信道發(fā)送數(shù)據(jù)發(fā)生碰撞需要進行退避的過程中,車輛節(jié)點利用Q學(xué)習(xí)算法與周圍環(huán)境不斷交互,根據(jù)網(wǎng)絡(luò)環(huán)境反饋的獎賞信號,動態(tài)地調(diào)整競爭窗口,使節(jié)點下次發(fā)送數(shù)據(jù)時總能以最佳的CW值接入信道,提高了數(shù)據(jù)成功發(fā)送的概率,減少了退避次數(shù)。就數(shù)據(jù)包接收率及端到端傳輸時延,QL-CWmin算法性能與其他傳統(tǒng)的退避算法相比都得到有效改善,尤其是QL-CWmin算法完全不同于以往傳統(tǒng)的退避算法[14]在節(jié)點成功發(fā)送完數(shù)據(jù)后就將CW值恢復(fù)為15,從不考慮網(wǎng)絡(luò)負(fù)載情況,而是使節(jié)點能經(jīng)歷所有的狀態(tài)-動作對,根據(jù)獎賞值總以較大的概率選擇能成功發(fā)送數(shù)據(jù)且能獲得較高獎賞值的CW。因此,QL-CWmin算法顯著提高了節(jié)點接入信道的公平性,且還能適用于不同負(fù)載程度的網(wǎng)絡(luò)環(huán)境。
文中將強化學(xué)習(xí)中的Q學(xué)習(xí)算法引入到VANETsMAC層中,詳細(xì)設(shè)計了車輛節(jié)點與車載網(wǎng)絡(luò)環(huán)境交互學(xué)習(xí)時所處的狀態(tài)和可執(zhí)行的動作,以及狀態(tài)-動作對的映射關(guān)系和動作策略,提出了QL-CWmin退避算法,并通過仿真對該算法和現(xiàn)有的其他退避算法進行了對比分析。QL-CWmin算法就廣播幀接收率、端到端時延、數(shù)據(jù)幀碰撞率、節(jié)點公平性及可擴展性而言,性能得到顯著改善。在ε-greedy動作選取機制中ε值固定的情況下,節(jié)點在環(huán)境中探索新動作時,選擇執(zhí)行各個動作的概率一樣,這樣選擇最壞動作的概率也很大。后續(xù)研究中,為了有效地平衡“探索”和“利用”,將會嘗試動態(tài)調(diào)整ε值,當(dāng)前Q值最高的動作賦予最高的概率,而探索的新動作要根據(jù)其獎賞值大小賦予不同的概率,從而使研究結(jié)果更精確,考慮因素更全面。另外,已提出的基于Q學(xué)習(xí)的信道接入退避方法是針對單智能體的學(xué)習(xí)過程的,單智能體的學(xué)習(xí)方法存在一些問題。例如,智能體對環(huán)境僅部分感知、學(xué)習(xí)搜索空間太大、學(xué)習(xí)效率低等。因此,針對這些問題,將進一步研究基于多智能體Q學(xué)習(xí)的接入信道退避方法,有效改善節(jié)點接入信道的各方面性能。
[1]ReindersR,EenennaamM,KaragiannisG,etal.ContentionwindowanalysisforbeaconinginVANETs[C]//2011 7thinternationalwirelesscommunicationsandmobilecomputingconference.[s.l.]:[s.n.],2011:1481-1487.
[2]AlasmaryW,ZhuangW.MobilityimpactinIEEE802.11pinfrastructurelessvehicularnetworks[J].AdHocNetworks,2012,10(2):222-230.
[3]BaladorA,CalafateCT,CanoJC,etal.Reducingchannelcontentioninvehicularenvironmentsthroughanadaptivecontentionwindowsolution[J].WirelessDays,2013,30(12):1-4.
[4]LeeGil-Won,AhnSeung-Pyo,KimDong-Seong.ContentionwindowallocationschemeforV2V[C]//2013internationalconferenceonadvancedtechnologiesforcommunications.[s.l.]:[s.n.],2013:501-505.
[5]BooysenMJ,ZeadallyS,vanRooyenGJ.Surveyofmediaaccesscontrolprotocolsforvehicularadhocnetworks[J].IETCommunications,2011,5(11):1619-1631.
[6]ShiC,DaiX,LiangP,etal.Adaptiveaccessmechanismwithoptimalcontentionwindowbasedonnodenumberestimationusingmultiplethresholds[J].IEEETransactionsonWirelessCommunications,2012,11(11):2046-2055.
[7]LamptonA,ValasekJ.Multiresolutionstate-spacediscretizationmethodforQ-Learning[C]//Americancontrolconference.[s.l.]:[s.n.],2009:10-12.
[8] 趙 昀,陳慶偉,胡維禮.一種基于信息熵的強化學(xué)習(xí)算法[J].系統(tǒng)工程與電子技術(shù),2010,32(5):1043-1046.
[9]WangQ,LengS,FuH,etal.AnIEEE802.11p-basedmultichannelMACschemewithchannelcoordinationforvehicularadhocnetworks[J].IEEETransactionsonIntelligentTransportationSystem,2012,13(2):449-458.
[10] 魏李琦,肖曉強,陳穎文,等.基于相對速度的802.11p車載網(wǎng)絡(luò)自適應(yīng)退避算法[J].計算機應(yīng)用研究,2011,28(10):3878-3880.
[11] 杜春俠,高 云,張 文.多智能體系統(tǒng)中具有先驗知識的Q學(xué)習(xí)算法[J].清華大學(xué)學(xué)報:自然科學(xué)版,2005,45(7):981-984.
[12] 陳學(xué)松,楊宜民.強化學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2010,27(8):2834-2838.
[13] 黃玉清,王英倫.支持服務(wù)區(qū)分的多智能體Q學(xué)習(xí)MAC算法[J].計算機工程,2013,39(8):112-116.
[14]vanEenennaamM,RemkeA,HeijenkG.AnanalyticalmodelforbeaconinginVANETs[C]//Vehicularnetworkingconference.[s.l.]:IEEE,2012:9-16.
Research on Technology of Channel Access Based onQ-Learning Algorithm for Vehicular Communication
DU Ai-qian1,2,ZHAO Hai-tao1,2,LIU Nan-jie1,2
(1.College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.Institute of Network DNA Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
AQ-Learningbasedback-offalgorithmisproposedbecausethetraditionalDCFapproachusedforIEEE802.11pMACprotocoltoaccessthechannelhassomeproblemsofthelowpacketdeliveryrate,highdelayandthepoorscalabilityinVANETs.Theproposedalgorithm,whichisquitedifferentfromthetraditionalBEBalgorithm,isadoptedbythenodes(Agents)tointeractwithsurroundingscontinuouslyandlearnfromeachother.ThevehiclenodesadjustthesizeofCW(ContentionWindow)dynamicallyaccordingtotheresultslearnedfromthesurroundingssothatthenodescanaccessthechannelwiththeoptimalCWeventuallyminimizingthepacketcollisionsandend-to-enddelay.Thesimulationresultsshowthatthecommunicationnodesusingtheproposedalgorithmcanadapttotheunknownvehicularenvironmentrapidly,andsimultaneouslythehighpacketdeliveryratio,lowend-to-enddelayandhighfairnesscanbeachievedforvehicularnetworkwithvariouslevelload.
vehicular network;BEB algorithm;contention window;Q-Learningalgorithm;DCF
2016-03-29
2016-08-02
時間:2017-01-10
國家“973”重點基礎(chǔ)研究發(fā)展計劃項目(2013CB329005);國家自然科學(xué)基金資助項目(61302100,61101105,61201162);江蘇省基礎(chǔ)研究計劃-重點研究專項基金(BK2011027,BK2012434);江蘇省高校自然科學(xué)研究基金(12KJB510022,12KJB510020)
杜艾芊(1991-),女,碩士研究生,研究方向為移動通信與無線技術(shù)、車聯(lián)網(wǎng)車載通信;趙海濤,博士,副教授,研究方向為無線多媒體通信;劉南杰,博士,教授,研究方向為泛在通信、車聯(lián)網(wǎng)、智能交通。
http://www.cnki.net/kcms/detail/61.1450.TP.20170110.1019.044.html
TP
A
1673-629X(2017)03-0085-06
10.3969/j.issn.1673-629X.2017.03.018