丁雨,李晨凱,韓會(huì)梅,盧為黨,任元紅,高原,曹江
(1.浙江工業(yè)大學(xué)信息工程學(xué)院,浙江 杭州 310023;2.北方自動(dòng)控制技術(shù)研究所,山西 太原 030006;3.中國(guó)人民解放軍軍事科學(xué)院,北京 100091)
無(wú)人機(jī)因高機(jī)動(dòng)性和可控性被廣泛應(yīng)用于5G網(wǎng)絡(luò),不僅可以擴(kuò)展通信覆蓋范圍,還可以通過(guò)高效移動(dòng)改善鏈路通信質(zhì)量,提高傳輸速率[1-2]。隨著5G無(wú)人機(jī)通信技術(shù)的快速發(fā)展,用戶(hù)對(duì)請(qǐng)求的業(yè)務(wù)量顯著增加,同時(shí)請(qǐng)求的業(yè)務(wù)類(lèi)型也多種多樣。
各種不同無(wú)線(xiàn)接入技術(shù)應(yīng)用于 5G無(wú)人機(jī)通信網(wǎng)絡(luò)使無(wú)線(xiàn)網(wǎng)絡(luò)具有獨(dú)特的網(wǎng)絡(luò)特性,適用于不同的通信場(chǎng)景。異構(gòu)網(wǎng)絡(luò)作為5G無(wú)人機(jī)通信網(wǎng)絡(luò)的關(guān)鍵技術(shù)之一,要充分發(fā)揮其功效,首先要解決的是不同類(lèi)型異構(gòu)網(wǎng)絡(luò)的融合問(wèn)題。網(wǎng)絡(luò)選擇是異構(gòu)網(wǎng)絡(luò)融合的關(guān)鍵技術(shù)[3],在異構(gòu)網(wǎng)絡(luò)環(huán)境中,用戶(hù)需要根據(jù)其需求和偏好選擇連接最佳網(wǎng)絡(luò),這就依靠一個(gè)靈活高效的異構(gòu)網(wǎng)絡(luò)選擇算法。選擇異構(gòu)網(wǎng)絡(luò)需要考慮不同接入網(wǎng)絡(luò)之間的差異,因此需要考慮很多因素,從用戶(hù)角度考慮,將涉及接收信號(hào)的強(qiáng)度、數(shù)據(jù)傳輸速率、覆蓋范圍、實(shí)時(shí)性和用戶(hù)的移動(dòng)性等。從網(wǎng)絡(luò)角度考慮,將涉及系統(tǒng)的容量、網(wǎng)絡(luò)的負(fù)載以及阻塞率等[4-6]。
因此,一個(gè)合理高效的異構(gòu)網(wǎng)絡(luò)選擇算法需要綜合考慮各個(gè)方面的因素。在目前提出的異構(gòu)網(wǎng)絡(luò)選擇算法中,由于研究和優(yōu)化目標(biāo)的不同,有多種針對(duì)性不同的算法。文獻(xiàn)[7]從用戶(hù)端考慮,選擇用戶(hù)吞吐量最大化的網(wǎng)絡(luò)接入,或者根據(jù)接收信號(hào)強(qiáng)度進(jìn)行異構(gòu)網(wǎng)絡(luò)的選擇。從網(wǎng)絡(luò)端考慮,有均衡網(wǎng)絡(luò)負(fù)載、避免網(wǎng)絡(luò)擁塞以及最小化通信成本等網(wǎng)絡(luò)選擇算法[8-10]。這些算法通常只考慮了其中一兩個(gè)因素,存在網(wǎng)絡(luò)屬性參數(shù)單一的問(wèn)題,因此適用性不高。多屬性決策算法對(duì)影響網(wǎng)絡(luò)選擇的多個(gè)屬性參數(shù)進(jìn)行分析,設(shè)計(jì)出一套對(duì)網(wǎng)絡(luò)進(jìn)行評(píng)價(jià)的策略來(lái)選擇最佳網(wǎng)絡(luò)。文獻(xiàn)[11]通過(guò)對(duì)多個(gè)屬性進(jìn)行加權(quán),對(duì)網(wǎng)絡(luò)進(jìn)行排序。文獻(xiàn)[12]利用層次分析法和熵權(quán)法計(jì)算候選網(wǎng)絡(luò)的屬性權(quán)重。文獻(xiàn)[13]根據(jù)基于優(yōu)劣解距離法進(jìn)行網(wǎng)絡(luò)選擇?;诙鄬傩詻Q策的網(wǎng)絡(luò)選擇算法通過(guò)多種網(wǎng)絡(luò)參數(shù)綜合評(píng)價(jià)網(wǎng)絡(luò)性能,但對(duì)如何準(zhǔn)確描述屬性參數(shù),沒(méi)有確切的標(biāo)準(zhǔn),存在一定的問(wèn)題[14]。
基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)選擇算法能夠在一定程度彌補(bǔ)多屬性決策算法的缺陷,得到較為精準(zhǔn)的判決結(jié)果,將用戶(hù)的歷史數(shù)據(jù)作為輸入,根據(jù)用戶(hù)的反饋進(jìn)行不斷學(xué)習(xí)訓(xùn)練,得到一個(gè)滿(mǎn)足用戶(hù)需求的網(wǎng)絡(luò)選擇模型。并且,在訓(xùn)練過(guò)程中可以根據(jù)反饋實(shí)時(shí)優(yōu)化網(wǎng)絡(luò)選擇模型,能更好地適應(yīng)未來(lái)網(wǎng)絡(luò)復(fù)雜多變的環(huán)境,從而幫助用戶(hù)更加科學(xué)合理地選擇網(wǎng)絡(luò)接入[15]。文獻(xiàn)[16]提出了一種基于馬爾可夫決策模型的網(wǎng)絡(luò)選擇優(yōu)化算法,將異構(gòu)無(wú)線(xiàn)網(wǎng)絡(luò)的選擇問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,使得用戶(hù)端能夠在異構(gòu)網(wǎng)絡(luò)環(huán)境中始終連接到最佳網(wǎng)絡(luò)。文獻(xiàn)[17]在異構(gòu)網(wǎng)絡(luò)中提出了一種基于Q-Learning的選擇策略,能夠有效地緩解異構(gòu)網(wǎng)絡(luò)中的負(fù)載不平衡和能量不平衡問(wèn)題。文獻(xiàn)[18]提出基于Q-Learning的單智能體網(wǎng)絡(luò)選擇算法和基于NashQ-Learning的多智能體網(wǎng)絡(luò)選擇算法,提升了網(wǎng)絡(luò)負(fù)載均衡性能。
然而,現(xiàn)有的多智能體異構(gòu)網(wǎng)絡(luò)選擇算法只將網(wǎng)絡(luò)的可用容量比例作為學(xué)習(xí)的狀態(tài)和回報(bào)的相關(guān)參數(shù),限制了用戶(hù)的性能。為了進(jìn)一步提升用戶(hù)的性能和異構(gòu)網(wǎng)絡(luò)資源的利用,本文提出了一種兼顧用戶(hù)端和網(wǎng)絡(luò)端性能的基于 5G無(wú)人機(jī)通信的多智能體異構(gòu)網(wǎng)絡(luò)選擇方法。本文的主要工作如下。
? 提出了一個(gè)由 5G 客戶(hù)終端設(shè)備(5G customer premise equipment,5G CPE)、5G無(wú)人機(jī)和Wi-Fi 3種網(wǎng)絡(luò)組成的異構(gòu)通信網(wǎng)絡(luò),其中,Wi-Fi和5G網(wǎng)絡(luò)部署在同一架無(wú)人機(jī)上,5G CPE部署在地面用戶(hù)上,隨機(jī)分布的M個(gè)用戶(hù)因業(yè)務(wù)請(qǐng)求需要進(jìn)行網(wǎng)絡(luò)選擇。
? 提出了一種基于 5G 無(wú)人機(jī)通信的多智能體異構(gòu)網(wǎng)絡(luò)選擇方法??紤]了用戶(hù)和網(wǎng)絡(luò)的移動(dòng)性,隨著用戶(hù)和網(wǎng)絡(luò)的移動(dòng),用戶(hù)所處位置的網(wǎng)絡(luò)覆蓋情況也隨之發(fā)生變化。將用戶(hù)分為多個(gè)智能體,從用戶(hù)端和網(wǎng)絡(luò)端兩個(gè)方面出發(fā),將用戶(hù)側(cè)的時(shí)延和傳輸速率需求與網(wǎng)絡(luò)側(cè)的負(fù)載均衡需求綜合考慮作為即時(shí)回報(bào)的相關(guān)參數(shù)。
? 通過(guò)基于 NashQ-Learning的算法進(jìn)行學(xué)習(xí),訓(xùn)練分析得到異構(gòu)網(wǎng)絡(luò)環(huán)境的網(wǎng)絡(luò)選擇決策模型。仿真結(jié)果表明,算法針對(duì)不同業(yè)務(wù)類(lèi)型用戶(hù)的需求均能選擇合適的網(wǎng)絡(luò),同時(shí)均衡網(wǎng)絡(luò)的負(fù)載,充分利用了異構(gòu)無(wú)線(xiàn)網(wǎng)絡(luò)的資源。
異構(gòu)網(wǎng)絡(luò)系統(tǒng)模型如圖1所示,本文考慮了一個(gè)由5G CPE、5G無(wú)人機(jī)和Wi-Fi 3種網(wǎng)絡(luò)組成的異構(gòu)網(wǎng)絡(luò),其中,Wi-Fi和5G網(wǎng)絡(luò)部署在同一架無(wú)人機(jī)上,5G CPE部署在地面用戶(hù)身上。地面用戶(hù)部署異構(gòu)多模終端,能夠根據(jù) 5G CPE、5G無(wú)人機(jī)和Wi-Fi 3種網(wǎng)絡(luò)性能好壞,針對(duì)不同業(yè)務(wù)類(lèi)型需求選擇合適的網(wǎng)絡(luò)接入。網(wǎng)絡(luò)模型中共有M個(gè)用戶(hù)因業(yè)務(wù)請(qǐng)求需要進(jìn)行網(wǎng)絡(luò)選擇,請(qǐng)求的業(yè)務(wù)類(lèi)型共有N種。用戶(hù)可以分別和5G CPE、5G無(wú)人機(jī)和 Wi-Fi接入點(diǎn)連接,每個(gè)用戶(hù)一次最多只能接入一個(gè)網(wǎng)絡(luò)。5G CPE需要與5G基站進(jìn)行連接,它將5G基站發(fā)出的5G信號(hào)轉(zhuǎn)換成寬帶/Wi-Fi信號(hào),進(jìn)一步提升地面用戶(hù)用網(wǎng)體驗(yàn)。M個(gè)用戶(hù)在異構(gòu)網(wǎng)絡(luò)中隨機(jī)分布,以一定的速度和方向朝著指定的目標(biāo)區(qū)域移動(dòng)。
圖1 異構(gòu)網(wǎng)絡(luò)系統(tǒng)模型
各網(wǎng)絡(luò)采用不同的無(wú)線(xiàn)接入技術(shù),其覆蓋范圍有限。由于受網(wǎng)絡(luò)移動(dòng)性的影響,其覆蓋區(qū)域時(shí)刻發(fā)生變化,各個(gè)用戶(hù)能被覆蓋到的網(wǎng)絡(luò)也在實(shí)時(shí)發(fā)生變化。用戶(hù)因?yàn)闃I(yè)務(wù)請(qǐng)求需要進(jìn)行網(wǎng)絡(luò)連接,根據(jù)當(dāng)前時(shí)刻所在位置的網(wǎng)絡(luò)覆蓋情況選擇網(wǎng)絡(luò)接入。若用戶(hù)不在任何網(wǎng)絡(luò)的覆蓋范圍內(nèi),則其不進(jìn)行網(wǎng)絡(luò)選擇,每個(gè)用戶(hù)一次最多只能接入一個(gè)網(wǎng)絡(luò)。此外,每個(gè)網(wǎng)絡(luò)設(shè)有一個(gè)能接入的最大負(fù)載值,分別記為{TL1, TL2, TL3},當(dāng)網(wǎng)絡(luò)已接入的用戶(hù)數(shù)達(dá)到其負(fù)載上限時(shí),其他用戶(hù)將無(wú)法再接入該網(wǎng)絡(luò)。
以用戶(hù)請(qǐng)求的業(yè)務(wù)類(lèi)型為標(biāo)準(zhǔn),將網(wǎng)絡(luò)中具有相同業(yè)務(wù)類(lèi)型的用戶(hù)視為一個(gè)智能體,即請(qǐng)求的業(yè)務(wù)類(lèi)型有N種,就有N個(gè)智能體。N個(gè)智能體中的用戶(hù)隨機(jī)排成一個(gè)隊(duì)列,在每一次學(xué)習(xí)過(guò)程中,選擇隊(duì)列的第一個(gè)用戶(hù)執(zhí)行動(dòng)作,完成后即從隊(duì)列中移除。當(dāng)隊(duì)列為空時(shí),表示完成了一次學(xué)習(xí)。多智能體異構(gòu)網(wǎng)絡(luò)選擇時(shí)使用的NashQ-Learning算法的狀態(tài)、動(dòng)作和回報(bào)函數(shù)設(shè)置如下。
(1)狀態(tài)s
用網(wǎng)絡(luò)負(fù)載表示網(wǎng)絡(luò)的實(shí)時(shí)狀態(tài),假設(shè) 5G CPE網(wǎng)絡(luò)、5G無(wú)人機(jī)網(wǎng)絡(luò)和Wi-Fi網(wǎng)絡(luò)的負(fù)載分別為L(zhǎng)1、L2和L3,則3個(gè)網(wǎng)絡(luò)的負(fù)載占用率分別為。由于網(wǎng)絡(luò)的負(fù)載占用率是連續(xù)的,將其離散化使其能夠作為 NashQ-Learning的狀態(tài)。為將狀態(tài)空間減少到有限集合,將網(wǎng)絡(luò)負(fù)載占用率映射到一組量化值,分為4個(gè)等級(jí),異構(gòu)網(wǎng)絡(luò)系統(tǒng)模型見(jiàn)表1??梢钥闯?,負(fù)載占用率越高,區(qū)間劃分越細(xì)致,這樣可以使算法在負(fù)載占用率趨于飽和時(shí)做出更為細(xì)致的判斷。
表1 異構(gòu)網(wǎng)絡(luò)系統(tǒng)模型
將狀態(tài)空間s定義為:
其中,l1、l2和l3分別表示5G CPE網(wǎng)絡(luò)、5G無(wú)人機(jī)網(wǎng)絡(luò)和Wi-Fi網(wǎng)絡(luò)負(fù)載占用率量化后的數(shù)值。
(2)動(dòng)作a
定義動(dòng)作空間A表示動(dòng)作集合
其中,ai表示智能體i選擇的動(dòng)作,ai=1表示智能體i選擇接入5G CPE網(wǎng)絡(luò),ai= 2 表示智能體i選擇接入5G 無(wú)人機(jī)網(wǎng)絡(luò),ai= 3 表示智能體i選擇接入Wi-Fi網(wǎng)絡(luò)。
(3)回報(bào)函數(shù)r
為了判斷并學(xué)習(xí)所選取動(dòng)作的優(yōu)劣,設(shè)置回報(bào)函數(shù)計(jì)算執(zhí)行某動(dòng)作后得到的即時(shí)回報(bào),并將其作為歷史經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。本文考慮的評(píng)價(jià)指標(biāo)包括網(wǎng)絡(luò)的時(shí)延和傳輸速率,以及網(wǎng)絡(luò)的均衡性。為了使不同業(yè)務(wù)的回報(bào)函數(shù)能體現(xiàn)網(wǎng)絡(luò)負(fù)載情況對(duì)動(dòng)作選擇的影響,實(shí)現(xiàn)網(wǎng)絡(luò)負(fù)載的均衡,本文在回報(bào)函數(shù)中加入了一項(xiàng)負(fù)載占用率方差F,衡量3個(gè)網(wǎng)絡(luò)之間的負(fù)載均衡性。由于時(shí)延、速率和負(fù)載占用率方差之間的數(shù)量級(jí)不同,且這些屬性中有些屬于效益型屬性,即它們的值越大表示性能越好,而有些屬于成本型屬性,即它們的值越小表示性能越好。因此,本文對(duì)時(shí)延D、傳輸速率E和負(fù)載占用率方差F進(jìn)行規(guī)范化處理,且效益型屬性和成本型屬性的規(guī)范化公式不同,分別表示為:
在這3個(gè)屬性中,傳輸速率E是效益型屬性,時(shí)延D和負(fù)載占用率方差F是成本型屬性。d、e、f分別表示屬性規(guī)范化處理后的時(shí)延、速率和負(fù)載占用率方差。因此,回報(bào)函數(shù)定義為:
其中,ωi和θi分別表示業(yè)務(wù)類(lèi)型i對(duì)時(shí)延和傳輸速率的偏好,μ表示系統(tǒng)對(duì)網(wǎng)絡(luò)負(fù)載均衡的偏好。
強(qiáng)化學(xué)習(xí)算法通過(guò)智能體與環(huán)境的交互進(jìn)行策略學(xué)習(xí)和優(yōu)化,在NashQ-Learning算法中,與環(huán)境進(jìn)行交互的是多個(gè)智能體的聯(lián)合動(dòng)作。在該異構(gòu)網(wǎng)絡(luò)系統(tǒng)中,所有用戶(hù)按照業(yè)務(wù)類(lèi)型劃分為N個(gè)智能體,單一時(shí)刻中,每個(gè)智能體中均有一個(gè)用戶(hù)執(zhí)行網(wǎng)絡(luò)選擇動(dòng)作,N個(gè)智能體不分先后在同一時(shí)刻做出各自的動(dòng)作,這一時(shí)刻的聯(lián)合動(dòng)作定義為 (a1,a2,…,aN),在多智能體場(chǎng)景下的最優(yōu)策略是實(shí)現(xiàn)智能體整體策略的 Nash均衡。Nash均衡策略可表示為滿(mǎn)足:
其中,V表示狀態(tài)-動(dòng)作對(duì)的價(jià)值函數(shù),(π1,π2,…,πN) 表示所有可能的聯(lián)合動(dòng)作。
本節(jié)提出了一種多智能體異構(gòu)網(wǎng)絡(luò)選擇算法。首先,M個(gè)用戶(hù)根據(jù)業(yè)務(wù)類(lèi)型的不同,組成N個(gè)智能體,每個(gè)智能體中的用戶(hù)隨機(jī)排成隊(duì)列。從初始狀態(tài)s0開(kāi)始,N個(gè)智能體根據(jù)貪婪算法執(zhí)行各自的動(dòng)作組成聯(lián)合動(dòng)作 (a1,a2,… ,aN)。聯(lián)合動(dòng)作執(zhí)行后,每個(gè)智能體得到環(huán)境反饋獲得各自的收益,計(jì)算網(wǎng)絡(luò)的下一個(gè)狀態(tài),更新Q表及環(huán)境到達(dá)轉(zhuǎn)移狀態(tài)s′,隨機(jī)博弈轉(zhuǎn)移到下一個(gè)博弈階段。在狀態(tài)s下,智能體重復(fù)執(zhí)行聯(lián)合動(dòng)作的過(guò)程,繼續(xù)博弈。在開(kāi)始下一次學(xué)習(xí)之前,重置網(wǎng)絡(luò)狀態(tài)和服務(wù)隊(duì)列。
由于多智能體系統(tǒng)中,代表收益的狀態(tài)動(dòng)作值函數(shù)不僅與自身所采取的動(dòng)作有關(guān),還與同一時(shí)刻同一狀態(tài)下其他智能體的動(dòng)作有關(guān),因此將狀態(tài)動(dòng)作值定義為Q(s,a1,a2,… ,aN),表示智能體在狀態(tài)s下執(zhí)行動(dòng)作 (a1,a2,… ,aN)后的即時(shí)回報(bào)與所有可能轉(zhuǎn)移狀態(tài)s′下期望收益的和。因此,智能體i的NashQ函數(shù)可以表示為:
其中,Ri(s,a1,a2,… ,aN)表示智能體i在狀態(tài)s下執(zhí)行動(dòng)作 (a1,a2,… ,aN)后獲得的即時(shí)回報(bào)值,β表示折扣因子,s′表示智能體i執(zhí)行動(dòng)作 (a1,a2,… ,aN)后可能的轉(zhuǎn)移狀態(tài),p表示對(duì)應(yīng)的狀態(tài)轉(zhuǎn)移概率,表示狀態(tài)s′下滿(mǎn)足Nash均衡的多智能體聯(lián)合動(dòng)作,表示對(duì)應(yīng)的智能體i在狀態(tài)s′下的期望收益。因此,式(7)表示智能體i在狀態(tài)s下執(zhí)行動(dòng)作 (a1,a2,… ,aN)后的即時(shí)回報(bào)與其在執(zhí)行動(dòng)作后對(duì)應(yīng)的所有可能轉(zhuǎn)移狀態(tài)s′下執(zhí)行滿(mǎn)足Nash均衡的聯(lián)合動(dòng)作的期望收益和。
NashQ-Learning算法通過(guò)多智能體與環(huán)境的不斷交互,根據(jù)環(huán)境的反饋不斷更新對(duì)應(yīng)智能體的狀態(tài)動(dòng)作值,即Q值。在時(shí)刻t,各個(gè)智能體在觀(guān)察當(dāng)前環(huán)境的狀態(tài)s后,根據(jù)狀態(tài)執(zhí)行動(dòng)作(a1,a2,… ,aN)。當(dāng)所有的智能體都執(zhí)行完動(dòng)作后,環(huán)境的狀態(tài)s變?yōu)槠滢D(zhuǎn)移狀態(tài)s′。為了考慮 Nash均衡回報(bào),聯(lián)合動(dòng)作執(zhí)行后,各個(gè)智能體需要觀(guān)察其他智能體采取的行動(dòng)。因此,每個(gè)智能體都存有N個(gè)Q值表,每個(gè)Q值表對(duì)應(yīng)當(dāng)前系統(tǒng)中的一個(gè)智能體。根據(jù)觀(guān)察到的聯(lián)合動(dòng)作,回報(bào)以及環(huán)境的轉(zhuǎn)移狀態(tài)s′,各個(gè)智能體根據(jù)式(8)更新Q值。
其中,
智能體i在狀態(tài)s′下執(zhí)行動(dòng)作πi,i= 1,2,… ,N,N個(gè)智能體的動(dòng)作π1(s′ ) …πN(s′)為在狀態(tài)s′下滿(mǎn)足Nash均衡的聯(lián)合動(dòng)作。NashQt i(s′)為t時(shí)刻智能體i在轉(zhuǎn)移狀態(tài)s′下執(zhí)行滿(mǎn)足Nash均衡的聯(lián)合動(dòng)作后的收益?;贜ashQ-Learning的多智能體網(wǎng)絡(luò)選擇見(jiàn)算法1。
算法1基于NashQ-Learning的多智能體網(wǎng)絡(luò)選擇
初始化:學(xué)習(xí)率α,折扣因子β,貪婪策略探索概率ε和網(wǎng)絡(luò)初始狀態(tài)s0={l1,l2,l3}。
當(dāng)前學(xué)習(xí)智能體的索引表示為i,在每個(gè)智能體中創(chuàng)建N個(gè)Q值表,記錄系統(tǒng)中所有智能體的Q值,且各個(gè)Q值表中的初始值均為0
fora= 1 :episode do
智能體i中的用戶(hù)隨機(jī)排成一個(gè)隊(duì)列,隊(duì)列長(zhǎng)度為L(zhǎng)i,并計(jì)算初始狀態(tài)s
智能體i隊(duì)列中的第一個(gè)用戶(hù)判斷自身所處位置的網(wǎng)絡(luò)覆蓋情況,根據(jù)貪婪策略選擇一個(gè)動(dòng)作執(zhí)行,并判斷該動(dòng)作是否超出網(wǎng)絡(luò)負(fù)載上限。若超出上限則重新選擇
end for
fori=1:Ndo
執(zhí)行選出的聯(lián)合策略a1,a2,… ,aN,智能體i得到回報(bào)
end for
計(jì)算下一個(gè)狀態(tài)s′
fori=1:Ndo
智能體i根據(jù)式(8)更新Q值表
end for
系統(tǒng)從s轉(zhuǎn)移到s′狀態(tài),同時(shí)移除所有智能體隊(duì)列中的第一個(gè)用戶(hù)
end while
隨機(jī)重置隊(duì)列
end for
輸出:智能體的Q值表
用戶(hù)和網(wǎng)絡(luò)的位置分布如圖2所示,圖2(a)顯示的是用戶(hù)和網(wǎng)絡(luò)的初始位置,用戶(hù)隨機(jī)均勻分布在400m×400m的正方形區(qū)域內(nèi),該區(qū)域左下角頂點(diǎn)坐標(biāo)為(0,0),目標(biāo)區(qū)域?yàn)橐粋€(gè)100m×100m的正方形區(qū)域,該區(qū)域左下角頂點(diǎn)坐標(biāo)為(400,400)。M個(gè)用戶(hù)朝著目標(biāo)區(qū)域的方向以3~6 m/s的速度移動(dòng),搭載5G網(wǎng)絡(luò)和Wi-Fi網(wǎng)絡(luò)的無(wú)人機(jī)的初始坐標(biāo)為(100,100),攜帶5G CPE的用戶(hù)的初始坐標(biāo)為(300,100)。5G CPE、5G 無(wú)人機(jī)和Wi-Fi 3個(gè)網(wǎng)絡(luò)的覆蓋半徑分別為150m、300m和100m。3個(gè)網(wǎng)絡(luò)中心的移動(dòng)速度均為3~6 m/s。圖2(b)顯示了用戶(hù)和網(wǎng)絡(luò)移動(dòng)后某一時(shí)刻的位置。
圖2 用戶(hù)和網(wǎng)絡(luò)的位置分布
假設(shè)每個(gè)網(wǎng)絡(luò)的負(fù)載上限 { TL1, TL2, TL3}為{25,25,25}。學(xué)習(xí)率α設(shè)為0.1,折扣因子β設(shè)為0.8,探索率ε設(shè)為0.4。用戶(hù)請(qǐng)求的業(yè)務(wù)類(lèi)型數(shù)N為3,分別是語(yǔ)音類(lèi)業(yè)務(wù)、視頻類(lèi)業(yè)務(wù)和文本類(lèi)業(yè)務(wù)。假設(shè)每種業(yè)務(wù)類(lèi)型的用戶(hù)數(shù)相等,均為M/3。其中,資源需求包括負(fù)載占用率方差、時(shí)延及傳輸速率。3種業(yè)務(wù)對(duì)各個(gè)屬性的偏好值如圖3所示。資源需求與負(fù)載之間的關(guān)聯(lián)是在每次連接時(shí)占用一個(gè)負(fù)載,同時(shí)每個(gè)網(wǎng)絡(luò)可接入的負(fù)載上限一樣,通過(guò)占上限的比例計(jì)算負(fù)載占用率。根據(jù)圖3中的偏好值可算出對(duì)應(yīng)的權(quán)重值,3種網(wǎng)絡(luò)的參數(shù)范圍見(jiàn)表2。
圖3 3種業(yè)務(wù)對(duì)各個(gè)屬性的偏好值
表2 3種網(wǎng)絡(luò)的參數(shù)范圍[1,16,19]
當(dāng)用戶(hù)數(shù)為 30時(shí),學(xué)習(xí)過(guò)程中的負(fù)載占用率變化如圖4所示。一開(kāi)始,由于用戶(hù)的分布較為分散,能同時(shí)被3個(gè)網(wǎng)絡(luò)覆蓋的用戶(hù)比較少,3個(gè)網(wǎng)絡(luò)接入用戶(hù)數(shù)很大程度上取決于各個(gè)網(wǎng)絡(luò)的覆蓋范圍。5G 無(wú)人機(jī)網(wǎng)絡(luò)的覆蓋范圍最大,其次是5G CPE,Wi-Fi的覆蓋范圍最小,因此在一開(kāi)始,選擇 5G 無(wú)人機(jī)的用戶(hù)最多,選擇 Wi-Fi的用戶(hù)最少。隨著用戶(hù)和網(wǎng)絡(luò)的移動(dòng),它們的位置逐漸聚合,直至最后大部分用戶(hù)都可以同時(shí)被3個(gè)網(wǎng)絡(luò)覆蓋。經(jīng)過(guò)學(xué)習(xí),3個(gè)網(wǎng)絡(luò)的負(fù)載率逐漸收斂。5G 無(wú)人機(jī)的負(fù)載占用率逐漸減少,但最終仍為負(fù)載占用率最高的網(wǎng)絡(luò)。覆蓋范圍最小的Wi-Fi的負(fù)載占用率逐漸升高,其負(fù)載占用率最終超過(guò)5G CPE。
圖4 學(xué)習(xí)過(guò)程中的負(fù)載占用率變化
當(dāng)用戶(hù)數(shù)為60時(shí),不同業(yè)務(wù)類(lèi)型選擇3種網(wǎng)絡(luò)的比例變化如圖5所示。隨著用戶(hù)和網(wǎng)絡(luò)的移動(dòng),用戶(hù)和網(wǎng)絡(luò)逐漸聚合,最終大部分用戶(hù)都可以被 3個(gè)網(wǎng)絡(luò)同時(shí)覆蓋。此時(shí)不同業(yè)務(wù)的網(wǎng)絡(luò)選擇比例開(kāi)始產(chǎn)生區(qū)別,如圖5(a)所示,對(duì)時(shí)延要求較高的語(yǔ)音類(lèi)業(yè)務(wù)用戶(hù)更多地選擇接入時(shí)延最短的5G無(wú)人機(jī)網(wǎng)絡(luò),而從圖5(b)中可以看出對(duì)傳輸速率要求較高的視頻類(lèi)業(yè)務(wù)用戶(hù)則更多地接入了傳輸速率最大的Wi-Fi網(wǎng)絡(luò)。從圖5(c)中可以看出文本類(lèi)業(yè)務(wù)對(duì)時(shí)延的偏好略高于傳輸速率,但都比語(yǔ)音類(lèi)業(yè)務(wù)的偏好值低,因此文本類(lèi)業(yè)務(wù)選擇 5G 無(wú)人機(jī)網(wǎng)絡(luò)的用戶(hù)更多,但選擇比例低于語(yǔ)音類(lèi)業(yè)務(wù)相應(yīng)的5G無(wú)人機(jī)網(wǎng)絡(luò)。
圖5 不同業(yè)務(wù)類(lèi)型選擇3種網(wǎng)絡(luò)的比例變化
當(dāng)用戶(hù)數(shù)為30時(shí),不同負(fù)載占用率方差偏好值下的負(fù)載占用率如圖6所示。對(duì)負(fù)載占用率方差的偏好值越大,說(shuō)明對(duì)負(fù)載均衡的要求越高,其對(duì)應(yīng)的權(quán)重越高。因此,在計(jì)算執(zhí)行動(dòng)作后的回報(bào)時(shí),使得負(fù)載占用率變均衡的動(dòng)作得到的回報(bào)值會(huì)更高,在之后的選擇中該動(dòng)作更有可能被選中??梢钥闯觯S著負(fù)載占用率方差偏好值的增大,負(fù)載占用率最高的 5G 無(wú)人機(jī)網(wǎng)絡(luò)的占用率逐漸下降,5G CPE網(wǎng)絡(luò)的負(fù)載占用率逐漸增加,3個(gè)網(wǎng)絡(luò)的負(fù)載占用率逐漸接近,負(fù)載均衡的效果逐漸提升。
圖6 不同負(fù)載占用率方差偏好值下的負(fù)載占用率
本文提出了一種兼顧用戶(hù)端和網(wǎng)絡(luò)端性能的基于 5G無(wú)人機(jī)通信的多智能體異構(gòu)網(wǎng)絡(luò)選擇算法,建立了用戶(hù)和網(wǎng)絡(luò)中心的移動(dòng)模型和異構(gòu)網(wǎng)絡(luò)選擇系統(tǒng)模型,以網(wǎng)絡(luò)的負(fù)載占用率作為NashQ-Learning的狀態(tài)特征量,改進(jìn)回報(bào)函數(shù),將網(wǎng)絡(luò)側(cè)的負(fù)載均衡需求和用戶(hù)側(cè)的時(shí)延和傳輸速率需求綜合考慮作為即時(shí)回報(bào)的相關(guān)參數(shù)。通過(guò)基于NashQ-Learning的算法的學(xué)習(xí),得到異構(gòu)網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)選擇決策模型。仿真結(jié)果表明,所提異構(gòu)網(wǎng)絡(luò)選擇方法針對(duì)不同業(yè)務(wù)類(lèi)型用戶(hù)的需求均能選擇合適的網(wǎng)絡(luò),同時(shí)均衡網(wǎng)絡(luò)的負(fù)載,充分利用異構(gòu)無(wú)線(xiàn)網(wǎng)絡(luò)的資源。