鐘劍峰,王紅軍
(國防科技大學(xué)電子對抗學(xué)院,合肥 230037)
5G 移動通信網(wǎng)的成熟應(yīng)用和無人機集群組網(wǎng)技術(shù)的飛速發(fā)展將無人機集群技術(shù)和5G 通信技術(shù)相融合,使應(yīng)急通信成為可能。在特定地域,利用無人機搭載任務(wù)載荷(由5G 通信模塊、組網(wǎng)模塊和能量管理模塊等組成)升空組網(wǎng),能使救援力量在通信基礎(chǔ)設(shè)施損毀的環(huán)境下實現(xiàn)5G 級別的高速率、高可靠、低時延和低功耗的通信,無需頻繁調(diào)動通信衛(wèi)星等資源,可顯著降低行動成本,這對執(zhí)行海上救援、地震救災(zāi)或洪澇災(zāi)害等任務(wù)的救援力量顯得尤為重要,可提升救援效率。
圖1 是基于無人機集群的應(yīng)急通信系統(tǒng)總體設(shè)計。基于無人機集群的應(yīng)急通信系統(tǒng),由基于無人機集群的5G 通信網(wǎng)(搭載任務(wù)載荷)、應(yīng)急通信方艙車(裝配5G 宏基站和5G 核心網(wǎng)設(shè)備等)和應(yīng)急通信指揮中心(部署無人機控制中心、5G 網(wǎng)管中心和通信保障中心)3 部分組成,其中基于無人機集群的5G 通信網(wǎng)負責(zé)5G 網(wǎng)絡(luò)覆蓋和組網(wǎng)通信;靠前部署的應(yīng)急通信方艙車負責(zé)現(xiàn)場通信業(yè)務(wù)調(diào)度、管理和無人機的控制;應(yīng)急通信指揮中心負責(zé)遠程調(diào)度、指揮與控制,系統(tǒng)具體工作流程在此不作詳細闡述。
圖1 無人機集群應(yīng)急通信系統(tǒng)
無人機集群5G 通信網(wǎng)絡(luò)有著能量有限、多跳性和網(wǎng)絡(luò)高動態(tài)的特點,該特點致使其需要高效的無人機自組網(wǎng)路由協(xié)議的支持,高質(zhì)量的路由選擇能夠保證不同類型業(yè)務(wù)的可靠傳送,大大降低網(wǎng)絡(luò)的傳輸時延,并減小網(wǎng)絡(luò)不必要的管理控制開銷。傳統(tǒng)的無人機自組網(wǎng)路由協(xié)議有無線自組網(wǎng)按需平面距離向量路由協(xié)議(AD HOC on-demand distance vector routing,AODV)、優(yōu)化鏈路狀態(tài)路由協(xié)議(optimized link state routing,OLSR)、基于位置的路由協(xié)議(greedy perimeter stateless routing,GPSR)等。文獻[6]提出了一種分簇的、位置輔助的路由協(xié)議GACB(geographic information-assisted and cluster-based,GACB),其有效降低了控制開銷和路徑斷裂次數(shù),但由于有路由發(fā)現(xiàn)過程,依然有較大的通信時延。文獻[7]提出了一種簇間機會路由協(xié)議,該協(xié)議通過計算選出最佳中繼轉(zhuǎn)發(fā)節(jié)點而無需節(jié)點維護路由表,有效減少了路由維護開銷,但其計算過于復(fù)雜導(dǎo)致通信時延過大。文獻[8]提出了一種添加位置的區(qū)域混合路由協(xié)議(location-based zone routing protocol,ZRPBL),其用GPSR 路由協(xié)議作為區(qū)間通訊的轉(zhuǎn)發(fā)策略,從而避免了區(qū)間的路由維護控制信息廣播,大幅減少路由開銷和響應(yīng)時間,但其未對鏈路質(zhì)量進行學(xué)習(xí),不適用于基于無人機集群應(yīng)急通信系統(tǒng)的高可靠性和節(jié)省能量的需求。文獻[9]提出了一種基于Q 學(xué)習(xí)的低開銷路由協(xié)議,其能夠自主利用Q 學(xué)習(xí)的方法來實現(xiàn)對鏈路質(zhì)量的預(yù)測,有效提升傳輸質(zhì)量,但其不適用于高動態(tài)網(wǎng)絡(luò)場景。文獻[10]提出一種基于Q 網(wǎng)絡(luò)的強化學(xué)習(xí)地理位置路由協(xié)議(Q-network enhanced geographic AD-HOC routing protocol based on GPSR,QNGPSR),通過使用鄰居拓撲信息以及Q 網(wǎng)絡(luò),QNGPSR 可以更好地估計環(huán)境和節(jié)點狀態(tài)并降低周邊轉(zhuǎn)發(fā)使用率,但其未對鏈路質(zhì)量進行強化學(xué)習(xí),無法保證傳輸鏈路質(zhì)量,從而導(dǎo)致分組送達率不高。文獻[11]針對無人機應(yīng)急通信網(wǎng)絡(luò)中的高機動性、鏈路不穩(wěn)定、拓撲結(jié)構(gòu)動態(tài)變化、能量有限等原因造成的定位與路由挑戰(zhàn),提出了基于群智能的三維定位算法(swarm-intelligence-based locatization,SIL),SIL 算法利用有限邊界條件下的粒子搜索空間在三維空間中錨定無人機節(jié)點隨機分布,通過測量與已有錨節(jié)點的距離來估計目標(biāo)無人機節(jié)點的位置,提高了收斂時間和定位精度,降低了計算量;其次,提出了一種基于粒子群優(yōu)化算法的能量有效群智能分簇算法(swarm-intelligence-based clustering,SIC),該算法利用粒子適應(yīng)度函數(shù)對簇間距離、簇內(nèi)距離、剩余能量和地理位置等進行分簇,并基于改進的粒子優(yōu)化算法選擇簇首;最后,借助SIL和SIC 兩種算法優(yōu)化了簇首之間的多跳路由,該協(xié)議雖然提高了包傳遞率、減小了路由開銷,但其得到的分簇網(wǎng)絡(luò)結(jié)構(gòu)中相鄰簇首之間是直接通信的,這就要求當(dāng)選為簇首的無人機搭載的組網(wǎng)模塊通信半徑比其他節(jié)點的大,容易造成分簇不均勻,因此,不適用無人機集群5G 通信網(wǎng)的節(jié)省能量和網(wǎng)絡(luò)可擴展的需求,同時其借助粒子群優(yōu)化的定位算法進行路由發(fā)現(xiàn)依然有較大通信時延。
鑒于5G 如前所述的通信高要求,無人機集群應(yīng)急通信系統(tǒng),因采用了5G 技術(shù)而具有其獨特的路由特色,主要表現(xiàn)在:節(jié)點路由多跳但要求通信低時延、節(jié)點移動和網(wǎng)絡(luò)拓撲重構(gòu),導(dǎo)致路由動態(tài)但通信穩(wěn)定性和可靠性要求高、集群分布式路由組網(wǎng)但通信速率要求高等,這就要求組網(wǎng)模塊必須具有與采用5G 技術(shù)后路由特色相關(guān)聯(lián)的路由功能,這也是本文的研究重點。針對現(xiàn)有無人機自組網(wǎng)路由協(xié)議不完全滿足無人機集群5G 通信網(wǎng)上述特點和需求的現(xiàn)狀,本文對分簇路由協(xié)議展開研究,以期探索一種節(jié)省能量、減小路由開銷、降低通信時延、提升網(wǎng)絡(luò)可靠性與穩(wěn)定性的有效方法。
圖2 是無人機集群5G 通信網(wǎng)采用的分簇路由協(xié)議的架構(gòu),分簇路由協(xié)議分為分簇算法、簇內(nèi)路由和簇間路由3 個部分。在實現(xiàn)高效動態(tài)分簇的前提下,針對圖2 中簇內(nèi)路由和簇間路由,本文提出了一種基于簇結(jié)構(gòu)和強化學(xué)習(xí)的分簇路由協(xié)議CRP-CS-RL(cluster routing protocol based on cluster structure and reinforcement leaning,CRP-CS-RL),其簇內(nèi)采用基于簇結(jié)構(gòu)的先應(yīng)式PRP-C(proactive routing protocol based on cluster,PRP-C)協(xié)議,簇間采用基于位置和鏈路質(zhì)量Q 學(xué)習(xí)的自適應(yīng)ARP-LQ(adaptive routing protocol based on location and Qlearning for link quality,ARP-L-Q)協(xié)議,簇間路由協(xié)議ARP-L-Q 通過引入基于位置和鏈路質(zhì)量Q 學(xué)習(xí)以期減小路由維護開銷、縮短端到端時延和提高轉(zhuǎn)發(fā)成功率。
圖2 分簇路由協(xié)議
ZRPBL 是由區(qū)域路由協(xié)議(zone routing protocol,ZRP)派生而來,ZRP 協(xié)議實際上是一個框架。
如圖3 所示,ZRPBL 依然采用標(biāo)準(zhǔn)ZRP 協(xié)議體系架構(gòu),其在鄰居發(fā)現(xiàn)協(xié)議NDP(neighbor discovery protocol,NDP)、區(qū)內(nèi)IARP 路由協(xié)議中添加節(jié)點位置坐標(biāo),用GPSR 替代區(qū)間路由協(xié)議IERP;ZRPBL 協(xié)議包含先應(yīng)式區(qū)內(nèi)路由IARPWL(intrazone routing protocol with location,IARPWL)和基于位置的路由GPSR。數(shù)據(jù)由網(wǎng)絡(luò)層轉(zhuǎn)交給ZPRBL 協(xié)議進行處理。
圖3 ZRPBL 協(xié)議體系架構(gòu)
NDPWL(neighbor discovery protocol with location,NDPWL)由鄰居發(fā)現(xiàn)協(xié)議NDP(neighbor discovery protocol,NDP)改進而來,運行在數(shù)據(jù)鏈路層,用來發(fā)現(xiàn)節(jié)點的直接鄰居節(jié)點。
ZRPBL 的工作機理在此不再贅述。
CRP-CS-RL 是一種基于簇結(jié)構(gòu)和強化學(xué)習(xí)的分簇路由協(xié)議,其由ZRPBL 的體系架構(gòu)改進而來,簇內(nèi)采用基于簇結(jié)構(gòu)的先應(yīng)式路由協(xié)議PRP-C;簇間采用基于位置和鏈路質(zhì)量Q 學(xué)習(xí)的自適應(yīng)路由協(xié)議ARP-L-Q。設(shè)計的CRP-CS-RL 協(xié)議體系架構(gòu)如下頁圖4 所示。
圖4 CRP-CS-RL 體系架構(gòu)
在實現(xiàn)高效分簇的基礎(chǔ)上,CRP-CS-RL 中的鄰居發(fā)現(xiàn)協(xié)議功能由HELLO 機制實現(xiàn),其運行在MAC 層,HELLO 機制格式如下:
CERT,ID,Status,Neighbor_table,Parameters,Timestamp,Location
其中,CERT是節(jié)點v的證書;ID是節(jié)點v的ID號;Status 字段用于標(biāo)記節(jié)點的狀態(tài);Neighbor_table中包含了該節(jié)點的鄰居列表,通過交換鄰居列表,可獲得鄰居信息,通過檢測鄰居節(jié)點的鄰居列表是否包含自身,獲知各節(jié)點之間的鏈路連接情況;Parameters 包含簇首選舉所需要的參數(shù)權(quán)值;Timestamp 是時間戳;location 是節(jié)點當(dāng)前位置信息。
1.2.1 CRP-CS-RL 協(xié)議組成
CRP-CS-RL 協(xié)議由簇內(nèi)PRP-C 路由協(xié)議和簇間ARP-L-Q 路由協(xié)議組成。
1)PRP-C 路由協(xié)議
簇內(nèi)路由協(xié)議PRP-C 的設(shè)計擬選用參考文獻[12]所提出的適用于高動態(tài)網(wǎng)絡(luò)環(huán)境中的改進型OLSR 路由協(xié)議,該協(xié)議能有效降低通信時延和網(wǎng)絡(luò)控制開銷,進而實現(xiàn)簇首與簇內(nèi)成員的高可靠通信。簇內(nèi)路由協(xié)議的任務(wù)是為簇內(nèi)提供路由信息以完成簇內(nèi)路由,只有在查詢簇內(nèi)路由表中不存在可用的路由,才會開始簇間路由尋找過程。節(jié)點運行PRP-C 協(xié)議需要維護3 個表格:鏈路狀態(tài)表、路由表和鄰居表。
2)ARP-L-Q 路由協(xié)議
簇間路由協(xié)議采用ARP-L-Q,其通過對位置信息和鏈路質(zhì)量進行Q 學(xué)習(xí)后進行路由決策,尋求出最短路徑和最佳鏈路。此外,ARP-L-Q 維護著到虛擬骨干網(wǎng)中所有簇首、網(wǎng)關(guān)節(jié)點的最新路由,它在鄰居表的基礎(chǔ)上,增加了虛擬骨干網(wǎng)的簇首和網(wǎng)關(guān)作為下一跳轉(zhuǎn)發(fā)節(jié)點的備選項,即通過自身路由表查詢到目標(biāo)節(jié)點,因此,大大減小了其判斷下一跳的時間和能耗,同時擴大了下一跳的選擇范圍,增大了找到合適轉(zhuǎn)發(fā)節(jié)點的概率,從而提高轉(zhuǎn)發(fā)成功率和縮短了通信時延。
1.2.2 CRP-CS-RL 協(xié)議的工作機理
無人機節(jié)點通過HELLO 消息周期性地交互自身位置更新信息,因此,節(jié)點維持著所有鄰居節(jié)點的位置信息。匯聚節(jié)點(最高簇首)通過周期性地廣播生成由簇首和網(wǎng)關(guān)組成的虛擬骨干網(wǎng)路由表。在簇內(nèi),節(jié)點定期交互的HELLO 包中含有其位置信息和鄰居列表信息等,HELLO 包將收集到的數(shù)據(jù)傳給PRP-C,用于更新PRP-C 的路由表和鏈路狀態(tài)表;當(dāng)PRP-C 路由信息更新后,ARP-L-Q 根據(jù)PRP-C 鄰居表生成自身所需鄰居表,ARP-L-Q 在需要轉(zhuǎn)發(fā)數(shù)據(jù)時,依據(jù)自身維護的路由表和鄰居表計算選擇轉(zhuǎn)發(fā)節(jié)點。同時,PRP-C 在簇內(nèi)定期廣播鏈路狀態(tài)表,簇內(nèi)節(jié)點以此更新自己的鏈路狀態(tài)表并生成最新路由表,每個簇成員由此維護著簇內(nèi)詳細的路由信息和到本簇首的信息;在簇間,每個簇首維護著簇內(nèi)詳細的路由信息和到虛擬骨干網(wǎng)所有簇首和網(wǎng)關(guān)節(jié)點間的路由信息。
當(dāng)數(shù)據(jù)從網(wǎng)絡(luò)層轉(zhuǎn)交到CRP-CS-RL 協(xié)議處理時,先依次查找PRP-C、ARP-L-Q 維護的路由表中是否有通往目的節(jié)點的路由,如果有,則直接按照路由表轉(zhuǎn)發(fā)并設(shè)定為己路由;如果沒有,則設(shè)定為未路由并調(diào)用ARP-L-Q 協(xié)議進行轉(zhuǎn)發(fā)。
在啟用ARP-L-Q 協(xié)議后,進入基于位置信息和鏈路質(zhì)量Q 學(xué)習(xí)的路由決策模式源節(jié)點,將最新接收到的鄰居節(jié)點參數(shù)權(quán)值F(HELLO 消息中的Parameters 項的節(jié)點度、鄰居節(jié)點穩(wěn)定度、剩余能量和丟包率4 種因素)和相應(yīng)HELLO 消息的傳輸成功率C相乘,得到瞬時回報R,依據(jù)瞬時獎勵R更新當(dāng)前轉(zhuǎn)發(fā)節(jié)點對其鄰居節(jié)點的鏈路質(zhì)量估計Q值;再結(jié)合目的節(jié)點位置數(shù)據(jù)計算距離因子,將各鄰居節(jié)點距離因子和對應(yīng)的最新Q值相乘得到折扣Q值,然后以此瞬時獎勵更新其鄰居節(jié)點Q值表,選擇獲得最大折扣Q值的節(jié)點作為下一跳進行數(shù)據(jù)轉(zhuǎn)發(fā);當(dāng)下一跳節(jié)點收到數(shù)據(jù)后,結(jié)合目的節(jié)點信息,繼續(xù)根據(jù)自身維護路由表和鄰居表信息計算選擇下一跳轉(zhuǎn)發(fā)節(jié)點,重復(fù)以上過程直到數(shù)據(jù)分組到達目標(biāo)節(jié)點。
鄰居表管理鄰居的地理位置信息、鏈路狀態(tài)以及收到的周期性HELLO 消息所交互的Q值等。
強化學(xué)習(xí),是一類求解序貫優(yōu)化決策問題的有效方法,它利用環(huán)境的評價性反饋信號來調(diào)整自己的行為選擇策略,將極大化期望的回報作為學(xué)習(xí)目標(biāo)。通過強化學(xué)習(xí),一個智能體可以清楚在不同的狀態(tài)采取不同的行為。因此,強化學(xué)習(xí)是從環(huán)境狀態(tài)到動作的映射學(xué)習(xí),這里的映射可稱之為策略。
Q 學(xué)習(xí)是一種典型的強化學(xué)習(xí)算法,它是由Watkins于1992 年提出來的一種模型無關(guān)的基于瞬時策略的強化學(xué)習(xí)方法,又稱為離策略(Offpolicy)TD 學(xué)習(xí),這一特點使得它適合在資源受限的移動設(shè)備上運行。
學(xué)習(xí)模型由以下4 個要素構(gòu)成:
3)瞬時獎勵(s,a):時刻在狀態(tài)s做動作a得到的瞬時回報;
4)智能體選擇策略∏。
學(xué)習(xí)算法結(jié)構(gòu)圖如圖5 所示,它由環(huán)境和智能體兩部分組成,智能體按照一定的策略執(zhí)行動作探索環(huán)境,環(huán)境則給出相應(yīng)的回報值。
圖5 Q 學(xué)習(xí)算法結(jié)構(gòu)圖
學(xué)習(xí)通過與環(huán)境交互獲得獎懲進行自適應(yīng)學(xué)習(xí),能夠適用于無人機集群5G 通信網(wǎng)多變的環(huán)境,源節(jié)點通過對位置和鏈路質(zhì)量進行學(xué)習(xí)以指導(dǎo)路由轉(zhuǎn)發(fā)節(jié)點選擇,根據(jù)獲得的瞬時獎勵調(diào)整其轉(zhuǎn)發(fā)策略,從而獲得最優(yōu)轉(zhuǎn)發(fā)路徑。
本文所提出的基于位置和鏈路質(zhì)量的學(xué)習(xí)算法包含兩個過程,基于學(xué)習(xí)的鏈路質(zhì)量估計以及基于位置的路由決策,算法流程如圖6 所示。
圖6 基于位置和鏈路質(zhì)量Q 學(xué)習(xí)的算法流程
2.2.1 基于Q 學(xué)習(xí)的鏈路質(zhì)量估計
在ARP-L-Q 中,每個通信節(jié)點對應(yīng)狀態(tài)集中的一個節(jié)點狀態(tài)s,其鄰居表中的節(jié)點是通信節(jié)點的過渡狀態(tài)s,轉(zhuǎn)發(fā)節(jié)點的選擇對應(yīng)可能的動作',即動作集合是選擇向一跳范圍鄰居節(jié)點集合中的某個節(jié)點轉(zhuǎn)發(fā)分組的動作集合。每個通信節(jié)點通過建立鄰居表維護空間大小為其一跳鄰居數(shù)目的值表。當(dāng)前轉(zhuǎn)發(fā)節(jié)點進行下一跳選擇時,當(dāng)前節(jié)點將接收到最新的鄰居節(jié)點參數(shù)權(quán)值F(HELLO消息中的Parameters 項的鄰居節(jié)點穩(wěn)定度、節(jié)點度、剩余能量和丟包率4 種因素)和相應(yīng)HELLO 消息的傳輸成功率C(包括前向傳輸和后向接收車成功率)相乘,得到瞬時獎勵R。R計算公式如下:
依據(jù)瞬時獎勵R更新當(dāng)前轉(zhuǎn)發(fā)節(jié)點對其鄰居節(jié)點鏈路質(zhì)量估計:
2.2.2 基于位置的路由決策
結(jié)合目的節(jié)點位置數(shù)據(jù)計算距離因子,其計算公式如下:
將各鄰居節(jié)點距離因子和對應(yīng)的Q值相乘得到當(dāng)前節(jié)點的鄰居節(jié)點折扣Q值,其計算公式如下:
在當(dāng)前節(jié)點的鄰居節(jié)點中選擇獲得最大折扣Q值作為下一跳轉(zhuǎn)發(fā)節(jié)點。
目前,大多數(shù)路由算法及其變種算法的學(xué)習(xí)率,一般設(shè)為基準(zhǔn)學(xué)習(xí)率0.5;自適應(yīng)全回波路由(adaptive Q-routing full echo,AQFE)算法和路由記憶算法AQFM-M(AQFE with route memory,AQFM-M)的學(xué)習(xí)率參數(shù)一般設(shè)置在0.5~0.7 之間;文獻[18]提出的改進AQFM-M 路由算法學(xué)習(xí)率在參數(shù)[0 1]可自適應(yīng)調(diào)節(jié);無人機集群5G 通信網(wǎng)要求快速路由,為降低歷史值對當(dāng)前路由決策的影響,提升學(xué)習(xí)算法的收斂速度和降低路由延遲,學(xué)習(xí)率應(yīng)設(shè)置一個合適值;為了適應(yīng)基于無人機集群的高動態(tài)網(wǎng)路特性,提高未來轉(zhuǎn)移狀態(tài)的穩(wěn)定性,本文參考文獻[9]根據(jù)與鄰居節(jié)點之間的距離設(shè)定折扣率,如果與鄰居節(jié)點d在下一個HELLO 消息包間隔之后不超過組網(wǎng)模塊通信半徑,設(shè)定為0.6,如果超過,則設(shè)定為0.4。取值公式如下:
這時值的更新式為:
在學(xué)習(xí)的探索階段,ARP-L-Q 周期性地交互節(jié)點狀態(tài)信息和位置信息并儲存更新;在利用階段,ARP-L-Q 利用存儲的信息計算瞬時獎勵以決策下一狀態(tài)(更新Q值)。當(dāng)有數(shù)據(jù)分組需要傳輸時,節(jié)點直接在鄰居列表中查找具有最大折扣Q值的鄰居節(jié)點,將其作為轉(zhuǎn)發(fā)節(jié)點,以此類推,直到到達目的節(jié)點,完成整個路由的過程。
2.2.3 算法收斂性分析
由于學(xué)習(xí)算法模型是一個確定的馬爾可夫決策過程,因此,算法的瞬時回報是有界的,且遍歷了所有相鄰節(jié)點,選擇轉(zhuǎn)發(fā)鄰居節(jié)點這一動作反饋的瞬時回報值最終通過HELLO 包交互。
在建立ARP-L-Q 協(xié)議的過程中,網(wǎng)絡(luò)中的每個節(jié)點都在進行學(xué)習(xí)更新Q表,當(dāng)網(wǎng)絡(luò)拓撲發(fā)生變化時,Q值表也會相應(yīng)變化,節(jié)點通過不斷地學(xué)習(xí)迭代更新直到找到最優(yōu)的路徑。
由于分簇路由協(xié)議是在ZRPBL 基礎(chǔ)上改進的,且ZRPBL 中的IARPWL 并沒有明確指定采用何種協(xié)議,考慮本文所設(shè)計的CRP-CS-RL 協(xié)議中,簇內(nèi)路由協(xié)議PRP-C 擬選用參考文獻[12]所提出的改進型OLSR 協(xié)議,而研究重點為簇間路由協(xié)議ARP-L-Q,故本文主要對簇間路由協(xié)議進行仿真實驗,以驗證基于位置和鏈路質(zhì)量學(xué)習(xí)的算法性能,即在仿真實驗時,將本文所研究的簇間路由協(xié)議ARP-L-Q 與ZRPBL 中的區(qū)間路由協(xié)議GPSR、新近GACB 路由協(xié)議進行性能比較和分析。
圖7 是ARP-L-Q 協(xié)議仿真實驗圖,ARP-L-Q協(xié)議的仿真實驗首先是通過HELLO 機制完成信息的交互;其次是利用接收的HELLO 消息的Parameters 項和Location 項來估計鏈路質(zhì)量和計算距離因子;最后是更新所有鄰居節(jié)點的Q值供路由決策使用。確定協(xié)議的實現(xiàn)過程后,為驗證算法的可行性,通過MATLAB 對基于位置和鏈路質(zhì)量學(xué)習(xí)算法進行仿真得到某一分簇時刻各節(jié)點鄰居節(jié)點的折扣值表;然后利用OPNET 14.5 對ARP-L-Q 協(xié)議進行仿真建模,依據(jù)對應(yīng)要求逐一建立網(wǎng)絡(luò)模型、節(jié)點模型和進程模型,其中基于位置和鏈路質(zhì)量學(xué)習(xí)算法由OPNET14.5 中的進程模型中的from_mac 狀態(tài)的HELLO 包處理函數(shù)實現(xiàn),最后完成性能仿真、驗證和分析算法性能。
圖7 ARP-L-Q 協(xié)議設(shè)計與實現(xiàn)的技術(shù)路線圖
3.1.1 值表的仿真
圖8 是某一分簇周期30 架無人機構(gòu)成的5G通信網(wǎng)分簇示意圖,網(wǎng)絡(luò)分成了6 個簇,其中黃色圖形“◇”為最高簇首(匯聚節(jié)點),5 個紅色菱形“*”為簇首,9 個綠色三角形“Δ”為網(wǎng)關(guān),其余藍色“+”為簇成員。最高簇首編號為“◇”,其余節(jié)點編號如圖8 所示。
圖8 某一分簇周期30 架無人機構(gòu)成的5G 通信網(wǎng)分簇圖
表1 是通過MATLAB 仿真得到的某一分簇周期內(nèi)時刻各節(jié)點所有鄰居節(jié)點的折扣值表。
表1 Qu 值表
續(xù)表1
3.1.2 ARP-L-Q 協(xié)議仿真建模
1)ARP-L-Q 協(xié)議的網(wǎng)絡(luò)域建模及參數(shù)配置
ARP-L-Q 協(xié)議性能仿真環(huán)境是OPNET 14.5,在基于無人機集群的5G 通信網(wǎng)實現(xiàn)高效分簇的基礎(chǔ)上,網(wǎng)絡(luò)模型中的各項參數(shù)設(shè)置如表2 所示。
表2 仿真參數(shù)
如配置表中參數(shù)所示,在網(wǎng)絡(luò)中設(shè)置30 個無人機節(jié)點,覆蓋15 km×15 km 大小的中型城市區(qū)域,為了支持5G 通信的500 km/h 移動特性,每個節(jié)點的運動速度范圍設(shè)定為0 km/h~500 km/h,數(shù)據(jù)包長度為10 kb,包速率為1 個/s~20 個/s,組網(wǎng)鏈路業(yè)務(wù)傳輸速率為100 Mb/s,由于無人機載荷能力有限,無人機編隊的組網(wǎng)模塊有效通信半徑通過功率調(diào)整設(shè)定為3 400 m。
圖9 是無人機集群5G 通信網(wǎng)仿真場景模型。
圖9 ARP-L-Q 協(xié)議網(wǎng)絡(luò)模型
2)ARP-L-Q 協(xié)議的節(jié)點域建模
圖10 是與協(xié)議棧模型相對應(yīng)的ARP-L-Q 協(xié)議節(jié)點模型。為構(gòu)建高動態(tài)網(wǎng)絡(luò)場景,協(xié)議中增加了一個通過編程來實現(xiàn)的mobility 模塊,用于定義每個節(jié)點的移動模型。
圖10 ARP-L-Q 協(xié)議節(jié)點模型
為構(gòu)建高動態(tài)網(wǎng)絡(luò)場景,需建立無人機路徑規(guī)劃得到的飛行軌跡和生成的位置數(shù)據(jù)庫模型,協(xié)議中增加了一個通過編程來實現(xiàn)的mobility 模塊,用于定義每個節(jié)點的移動模型,專門處理位置的變更。
3)ARP-L-Q 協(xié)議的進程域建模
ARP-L-Q 協(xié)議route 模塊進程模型如圖11 所示。route 模塊對應(yīng)節(jié)點模型里的網(wǎng)絡(luò)層,用于運行路由協(xié)議實現(xiàn)路由的功能。
圖11 ARP-L-Q 協(xié)議進程模型
其中,init 狀態(tài)為初始化各類狀態(tài)變量;from_source 狀態(tài)為處理應(yīng)用層到來的數(shù)據(jù)包,查找到目的節(jié)點的路由信息和具有最大值的下一跳節(jié)點,將其發(fā)給MAC 層;send_hello 狀態(tài)為將本地鏈路信息(鄰居節(jié)點地址、鏈路狀態(tài)、鏈路質(zhì)量信息、地理位置信息、最大Q值等)寫入HELLO 分組,完成定期發(fā)送HELLO 分組的任務(wù);from_mac 狀態(tài)處理MAC層到來的HELLO 包或數(shù)據(jù)包,若到來的是HELLO包,進入HELLO 包處理函數(shù),函數(shù)的主要功能是添加或更新本地鏈路信息表、鄰居表,互通傳輸成功率信息及地理位置信息,以計算鏈路質(zhì)量和距離因子,更新Q值;若到來的是數(shù)據(jù)包,進入數(shù)據(jù)包處理函數(shù),首先根據(jù)包序號鑒別該數(shù)據(jù)包是否已接收,如果已接收,則銷毀,否則,繼續(xù)查詢本節(jié)點是否是該數(shù)據(jù)包的目的節(jié)點,如果是,則發(fā)往應(yīng)用層的statistic 模塊進行相關(guān)數(shù)據(jù)的統(tǒng)計,否則查找路由表和鄰居表,若找到到達目的節(jié)點的路徑或具有最大Q值的下一跳,將數(shù)據(jù)包發(fā)往該下一跳節(jié)點,否則將包刪除。
由于無人機節(jié)點的快速移動導(dǎo)致網(wǎng)絡(luò)拓撲的快速變化,因此,必須考慮拓撲快速變化對路由轉(zhuǎn)發(fā)的影響,下面介紹mobility 模塊的進程模型,如圖12 所示。
圖12 mobility 模塊進程模型
mobility 模塊完成節(jié)點移動模型的構(gòu)建,由于已經(jīng)提前進行了無人機的路徑規(guī)劃,得到了無人機的飛行軌跡和位置數(shù)據(jù)庫,因此,無人機的運動軌跡和位置都是可預(yù)測的。采用核心函數(shù)訪問節(jié)點位置屬性的方法將無人機飛行軌跡編程代碼寫入mobility 中,由進程域執(zhí)行飛行軌跡設(shè)置代碼。
通過上述模型建立,實現(xiàn)了無人機集群5G 通信網(wǎng)絡(luò)仿真模型的構(gòu)建。
3.2.1 評價指標(biāo)
評估路由協(xié)議性能指標(biāo)有路由建立和維護開銷,指標(biāo)越小越好;分組送達率,即目的節(jié)點應(yīng)用層所接收到的分組數(shù)目與源節(jié)點應(yīng)用層所發(fā)送的分組數(shù)目的比值,該指標(biāo)越大越好;平均端到端時延就是所有成功傳送分組時延的平均數(shù),時延越小越好;吞吐量,即單位時間內(nèi)成功收發(fā)的數(shù)據(jù)量,該指標(biāo)也是越大越好;丟包率,越小越好。
首先,ARP-L-Q 協(xié)議合適學(xué)習(xí)率的設(shè)置通過端到端時延和分組送達率來驗證。其次,不失一般性,ARP-L-Q 協(xié)議的高動態(tài)、低時延和高可靠性通過采用不同移動速度下的平均端到端時延和丟包率這兩個典型指標(biāo)來評估;ARP-L-Q 協(xié)議的自適應(yīng)性能則通過采用不同發(fā)包速率下的分組送達率、端到端時延和網(wǎng)絡(luò)控制開銷這3 個典型指標(biāo)來評估。最后,為了更加有效地評估本文設(shè)計的ARP-L-Q 路由協(xié)議性能,選取平均端到端時延、丟包率、分組送達率和控制開銷4 個方面的評價指標(biāo),與GPSR和GACB 兩種路由協(xié)議進行性能比較和分析。
3.2.2 學(xué)習(xí)率設(shè)置
ARP-L-Q 協(xié)議的學(xué)習(xí)率設(shè)置仿真實驗按照表2 進行參數(shù)配置,指定為目的節(jié)點,其余節(jié)點將一個10 kb 的數(shù)據(jù)包以10 個/s 的包速率定期地傳輸給該目的節(jié)點,無人機節(jié)點飛行速度設(shè)定為36 km/h,驗證ARP-L-Q 協(xié)議在不同學(xué)習(xí)率下的端到端時延和分組送達率。
圖13 反映了學(xué)習(xí)率對端到端時延的影響。
圖13 ARP-L-Q 協(xié)議在不同學(xué)習(xí)率下的端到端時延
圖14 反映了學(xué)習(xí)率對分組送達率的影響。
圖14 ARP-L-Q 協(xié)議在不同學(xué)習(xí)率下的分組送達率
綜合圖13和圖14 可以得出,學(xué)習(xí)率較小時,算法收斂速度慢,端到端時延和分組送達率優(yōu)化效果不明顯;學(xué)習(xí)率過大,容易越過最優(yōu)值發(fā)生震蕩。在這幾組比較的數(shù)據(jù)中,當(dāng)學(xué)習(xí)率為0.6 時,分組送達率最高,端到端時延最小。因此,在接下來的性能仿真實驗中學(xué)習(xí)率都設(shè)為0.6。
3.2.3 高動態(tài)、低時延和高可靠性能驗證
ARP-L-Q 協(xié)議的高動態(tài)、低時延和高可靠性能仿真實驗按照表2 進行參數(shù)配置,其中,為接收節(jié)點,其他節(jié)點將一個10 kb 的數(shù)據(jù)包以10 個/s 的發(fā)包速率傳輸給該接收節(jié)點,無人機節(jié)點飛行速度設(shè)定為0 km/h~500 km/h,對比GPSR、GACB和ARP-L-Q 3 種協(xié)議在節(jié)點不同移動速度下的端到端時延和丟包率。
圖15 反映了節(jié)點移動速度對端到端時延的影響。隨著節(jié)點移動速度的增大,GPSR、GACB和ARP-L-Q 協(xié)議的端到端時延都會增大,這是由于節(jié)點的高速移動造成鏈路的快速變化,增大了節(jié)點選擇最佳下一跳的時間,進而使端到端時延增大;但ARP-L-Q 的端到端時延總是小于GPSR和GACB。這是因為ARP-L-Q 建立在高效分簇的基礎(chǔ)上,同時依靠自身維護的路由表和鄰居表計算選擇下一跳轉(zhuǎn)發(fā)節(jié)點,有效降低了通信時延。
圖15 GPSR、GACB和ARP-L-Q 協(xié)議在節(jié)點不同移動速度下端到端時延對比圖
圖16 反映了節(jié)點移動速度對丟包率的影響。隨著節(jié)點移動速度的增大,GPSR、GACB和ARP-L-Q協(xié)議的丟包率都會增大,但ARP-L-Q 的丟包率總是小于GPSR和GACB。這是因為ARP-L-Q 建立在高效分簇的基礎(chǔ)上且不斷地在對鄰居節(jié)點的鏈路質(zhì)量進行學(xué)習(xí)更新,得到最優(yōu)的轉(zhuǎn)發(fā)路徑。
圖16 GPSR、GACB和ARP-L-Q 協(xié)議在節(jié)點不同移動速度下丟包率對比圖
3.2.4 自適應(yīng)性能驗證
ARP-L-Q 協(xié)議的自適應(yīng)性能仿真實驗按照表2 進行參數(shù)配置,其中,節(jié)點為接收節(jié)點,其他節(jié)點將一個10 kb 的數(shù)據(jù)包以不同的發(fā)包速率傳輸給該接收節(jié)點,對比GPSR、GACB和ARP-L-Q 3 種協(xié)議在不同發(fā)包速率下的自適應(yīng)性能。
圖17 反映了分組發(fā)包速率對分組送達率的影響。隨著分組發(fā)包速率的增大,GPSR、GACB和ARP-L-Q 協(xié)議的分組送達率都會減小,這是由于增大分組發(fā)包速率容易造成匯聚節(jié)點和簇首節(jié)點網(wǎng)絡(luò)負載過大,進而增大數(shù)據(jù)包碰撞概率導(dǎo)致分組送達率減??;但ARP-L-Q 的分組送達率總是大于GPSR和GACB。這是因為ARP-L-Q 不斷地在對鄰居節(jié)點的鏈路質(zhì)量進行學(xué)習(xí)更新,得到最優(yōu)的轉(zhuǎn)發(fā)路徑。
圖17 GPSR、GACB和ARP-L-Q 協(xié)議分組送達率對比圖
圖18 反映了分組發(fā)包速率對端到端時延的影響,隨著分組發(fā)包速率增大,GPSR、GACB和ARPL-Q 協(xié)議的時延都會增大,但ARP-L-Q 協(xié)議始終小于GPSR和GACB 協(xié)議,這同樣是因為ARP-L-Q依靠自身維護的路由表和鄰居表計算選擇下一跳轉(zhuǎn)發(fā)節(jié)點,有效降低了通信時延。
圖18 GPSR、GACB和ARP-L-Q 協(xié)議端到端時延對比圖
圖19 反映了分組發(fā)包速率對控制開銷的影響。隨著分組發(fā)包速率的增大,GPSR、GACB和ARP-L-Q 協(xié)議的控制開銷都會減小,但ARP-L-Q協(xié)議的控制開銷始終略大于GPSR 而小于GACB,這是因為ARP-L-Q 需要定期更新虛擬骨干網(wǎng)路由表和鄰居表,而GACB 需要維護簇內(nèi)路由表、虛擬骨干網(wǎng)路由表和鄰居表,GPSR 無需維護路由表。
圖19 GPSR、GACB和ARP-L-Q 協(xié)議控制開銷對比圖
綜合實驗結(jié)果和分析可知,ARP-L-Q 協(xié)議比GPSR、GACB 協(xié)議更能適用于無人機集群5G 通信網(wǎng)高動態(tài)重構(gòu)、高穩(wěn)定可靠和低通信時延的特性和需求,其不僅有效提高了分組送達率,且通過基于位置和鏈路質(zhì)量學(xué)習(xí)的優(yōu)勢,降低了網(wǎng)絡(luò)控制開銷,通過自身維護的路由表和鄰居表有效降低了通信時延,具有較好的自適應(yīng)性能。
無人機集群5G 通信網(wǎng),不僅具有無人機集群網(wǎng)絡(luò)高動態(tài)、能量受限等特點,還要面臨5G 空中通信網(wǎng)絡(luò)多跳性、對可靠性和通信時延要求高的特性。在實現(xiàn)高效分簇的基礎(chǔ)上,本文提出一種基于簇結(jié)構(gòu)和強化學(xué)習(xí)的分簇路由協(xié)議,簇內(nèi)采用基于簇結(jié)構(gòu)的PRP-C 路由協(xié)議,簇間采用基于位置和鏈路質(zhì)量學(xué)習(xí)的自適應(yīng)路由協(xié)議ARP-L-Q,簇間路由ARP-L-Q 通過對鏈路質(zhì)量和位置信息進行學(xué)習(xí),得到折扣值表供路由決策使用。仿真結(jié)果表明,該協(xié)議不僅能夠提高轉(zhuǎn)發(fā)成功率和縮短端到端時延,提升通信服務(wù)質(zhì)量,而且能夠較大縮減開銷,節(jié)省能量。總之,無人機集群應(yīng)急通信系統(tǒng)在民用應(yīng)急通信領(lǐng)域和軍事機動通信領(lǐng)域均有著巨大的應(yīng)用前景,協(xié)議研究具有一定的應(yīng)用價值。