付澍,楊祥月,張海君,陳晨,喻鵬,簡鑫,劉敏
(1.重慶大學(xué)微電子與通信工程學(xué)院,重慶 400030;2.重慶大學(xué)信息物理社會可信服務(wù)計算教育部重點實驗室,重慶 400030;3.北京科技大學(xué)計算機與通信工程學(xué)院,北京 100083;4.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點實驗室,北京 100876)
近年來,物聯(lián)網(wǎng)產(chǎn)業(yè)的飛速發(fā)展,極大地推動了無線傳感器網(wǎng)絡(luò)(WSN,wireless sensor network)技術(shù)的應(yīng)用,其承載的業(yè)務(wù)數(shù)據(jù)量呈幾何式增長。WSN 中存在大量的數(shù)據(jù)需要被收集,根據(jù)收集方式的不同,可將其分為2 種類型,靜態(tài)數(shù)據(jù)收集和移動數(shù)據(jù)收集。靜態(tài)數(shù)據(jù)收集是指傳感器網(wǎng)絡(luò)中的節(jié)點通過自組網(wǎng),將自身采集的傳感器數(shù)據(jù)經(jīng)過多跳上傳到數(shù)據(jù)中心[1];移動數(shù)據(jù)收集是指在被監(jiān)測環(huán)境中設(shè)置一個可移動的數(shù)據(jù)收集器進行數(shù)據(jù)收集。針對部署在地表交通困難的大規(guī)模無線傳感器網(wǎng)絡(luò),無人機提供了一種有效的方式來對傳感器設(shè)備移動式地進行數(shù)據(jù)輔助收集[2]。
無人機是我國人工智能產(chǎn)業(yè)體系的重點培育產(chǎn)品。與靜態(tài)數(shù)據(jù)收集方法相比,基于無人機的移動數(shù)據(jù)收集可以顯著降低數(shù)據(jù)傳輸?shù)哪芎?,減少多跳間數(shù)據(jù)路由中存在的隱藏終端及其發(fā)送沖突問題帶來的射頻干擾,并有效延長網(wǎng)絡(luò)的使用壽命。
無人機數(shù)據(jù)收集克服了地面數(shù)據(jù)采集的局限性,但仍然有一些關(guān)鍵的問題需要解決。具體而言,無人機數(shù)據(jù)收集包括網(wǎng)絡(luò)節(jié)點部署、節(jié)點定位、錨點搜索、無人機路徑規(guī)劃、網(wǎng)絡(luò)數(shù)據(jù)采集5 個部分[3]。無人機最致命的缺點是續(xù)航時間短[4-6],因此其能耗問題是系統(tǒng)穩(wěn)定性的關(guān)鍵。近幾年,關(guān)于無人機在數(shù)據(jù)收集的能耗研究中,無人機路徑規(guī)劃是一個開放性的研究課題,引起學(xué)術(shù)界的廣泛關(guān)注。無人機路徑規(guī)劃是一個復(fù)雜的網(wǎng)絡(luò)優(yōu)化問題[7],一般可分為全局路徑規(guī)劃和局部路徑規(guī)劃。
一般而言,無人機將在可用能量限制下,根據(jù)任務(wù)環(huán)境信息事先規(guī)劃一條全局最優(yōu)或次優(yōu)路徑,得到訪問節(jié)點的訪問順序,再通過局部路徑規(guī)劃進行實時單個節(jié)點的搜索與逼近。近年來,無人機路徑規(guī)劃已經(jīng)得到了廣泛的研究。文獻[3]把無人機路徑規(guī)劃問題建模成經(jīng)典的旅行商問題,并執(zhí)行快速路徑規(guī)劃(FPPWR,fast path planning with rule)。文獻[8]利用馬爾可夫鏈對單個無人機從遠(yuǎn)處傳感器收集數(shù)據(jù)的移動過程進行建模,并模擬無人機運行過程中的不規(guī)則運動。文獻[9]利用部分可觀察的馬爾可夫決策過程(POMDP,partially observable Markov decision process)對無人機路徑進行規(guī)劃。文獻[10]基于Q 學(xué)習(xí)算法對無人機的路徑和避障等問題進行學(xué)習(xí),并采用自適應(yīng)隨機探測的方法實現(xiàn)無人機的導(dǎo)航和避障。文獻[11-14]基于深度強化學(xué)習(xí)(DRL,deep reinforcement learning)實現(xiàn)無模型的無人機路徑規(guī)劃。除了利用機器學(xué)習(xí)方法外,研究者還提出了很多啟發(fā)式算法[15-17]來解決無人機路徑規(guī)劃問題。
定向問題[18]為節(jié)點選擇和確定所選節(jié)點之間最短哈密頓路徑的組合,可以看作背包問題和旅行商問題2 種經(jīng)典問題的組合。本文將無人機數(shù)據(jù)收集過程的全局路徑規(guī)劃問題建模為定向問題。本文考慮的全局路徑規(guī)劃是指綜合考慮無人機自身的能量約束、節(jié)點收益等,在指針網(wǎng)絡(luò)深度學(xué)習(xí)架構(gòu)下進行的路徑規(guī)劃。其中,背包問題的目標(biāo)是在可用資源限制下,選擇一部分節(jié)點并使之獲得的收益最大化;旅行商問題的目標(biāo)是試圖使無人機服務(wù)所選節(jié)點的旅行時間或距離最小化。
文獻[19]對定向問題最近的變化、解決方案及應(yīng)用等進行了綜述。近幾年,關(guān)于求解定向問題的啟發(fā)式方法很多,例如遺傳算法[20]、動態(tài)規(guī)劃法[21]、迭代局部搜索法[22]等。
2015 年,Vinyals 等[23]在人工智能頂級會議NIPS 上提出了一個用于解決變長序列到序列的神經(jīng)網(wǎng)絡(luò)模型——指針網(wǎng)絡(luò),還驗證了該模型可以單獨使用訓(xùn)練示例來學(xué)習(xí)3 個幾何問題的近似解,即尋找平面散點集的凸包、Delaunay 三角剖分算法和平面旅行商問題。指針網(wǎng)絡(luò)深度學(xué)習(xí)被提出后,近幾年被研究者多次引用,文獻[24]將指針網(wǎng)絡(luò)深度學(xué)習(xí)結(jié)合強化學(xué)習(xí)解決旅行商問題,并提出該模型也可用于解決背包問題。文獻[25]使用指針網(wǎng)絡(luò)模型結(jié)合強化學(xué)習(xí)技術(shù)來優(yōu)化3D 裝箱序列以最大化其收益。受這些模型的啟發(fā),本文首先將無人機全局路徑規(guī)劃建模為定向問題,接著采用指針網(wǎng)絡(luò)深度學(xué)習(xí)對其進行求解。
在局部路徑規(guī)劃方面,無人機將根據(jù)節(jié)點廣播參考信號強度(RSS,received signal strength)的特征[26]對其局部路徑進行規(guī)劃。文獻[27]采用Q 學(xué)習(xí)利用無人機對非法無線電臺進行定位和尋找。然而,傳統(tǒng)Q 學(xué)習(xí)很難解決具有大量狀態(tài)空間的模型,這導(dǎo)致其很難適用于大規(guī)模節(jié)點網(wǎng)絡(luò)中的無人機路徑規(guī)劃。本文通過深度Q 網(wǎng)絡(luò)(DQN,deep-Q network)學(xué)習(xí)機制對大規(guī)模的Q 表進行模擬與近似,從而極大地降低了Q 學(xué)習(xí)的計算復(fù)雜度。
綜上,本文首先將無人機的全局路徑規(guī)劃建模為定向問題并通過指針網(wǎng)絡(luò)深度學(xué)習(xí)求解;然后在局部路徑規(guī)劃方面,利用DQN 使無人機逼近目標(biāo)節(jié)點。仿真結(jié)果表明,在無人機能耗限制下,所提方案能極大地提升物聯(lián)網(wǎng)中的數(shù)據(jù)收集收益。
本文綜合考慮無人機在數(shù)據(jù)采集過程中面臨的能量約束問題和路徑規(guī)劃問題。無人機能量消耗不僅與航行時間、航行速度有關(guān),還與所處環(huán)境中的風(fēng)速、障礙物等有關(guān)[28]。文獻[29]將無人機的路由算法分類為恒定速度無人機、自適應(yīng)速度無人機、懸停最大服務(wù)時間(HMS,hover with maximum service time)等。本文采用HMS 的路由方法,即無人機懸停在相應(yīng)節(jié)點上方,并以最大懸停時間tmax對用戶進行數(shù)據(jù)傳輸,且假設(shè)無人機以恒定的速度v飛行。
在圖1 所示的系統(tǒng)模型中,無人機的起點和終點均為無人機服務(wù)站Ddepot。Ddepot可對無人機收集到的數(shù)據(jù)進行處理,并對無人機充電,需要收集數(shù)據(jù)的傳感器節(jié)點隨機分布在地圖上,可通過聚類算法對隨機分布的傳感器節(jié)點進行分簇,并得到簇的中心坐標(biāo)(圖1 中黑點)[30]。關(guān)于無人機以什么樣的順序訪問這些簇才能在有限的能量約束下取得最大收益的問題,可以被建模為一個定向問題,即選取點和確定最短路徑2 種問題的結(jié)合。由于無人機數(shù)據(jù)收集存在無人機能量限制,因此不是所有的簇都會被服務(wù)。令S∈{1,2,…,k}表示簇的集合,其中k表示簇的數(shù)目。第i個簇的獎勵值為pi,簇i到j(luò)的距離為disti,j,li,j=1表示i與j之間有路徑,那么無人機全局路徑規(guī)劃問題可以表示為
圖1 系統(tǒng)模型
目標(biāo)方程(1)表示最大化數(shù)據(jù)收集的獎勵值,并且最小化無人機的飛行路徑;約束(2)表示無人機可服務(wù)簇的份額;約束(3)表示起點和終點均為無人機服務(wù)站Ddepot;約束(4)表示每個簇最多被服務(wù)一次。
在優(yōu)化目標(biāo)式(1)中,關(guān)于每個簇獎勵值的設(shè)定,如果簡單設(shè)定為簇內(nèi)所有節(jié)點存儲數(shù)據(jù)的總和,則可能對稍遠(yuǎn)的節(jié)點不公平,所以可將每個節(jié)點的獎勵值設(shè)置為
其中,Ii表示簇i內(nèi)所有節(jié)點數(shù)據(jù)量總和的值(無量綱)。因此,獎勵值的設(shè)定不僅與節(jié)點到服務(wù)站的距離有關(guān),還與數(shù)據(jù)的存儲量有關(guān),且pi無量綱[31]。
假設(shè)無人機對目標(biāo)傳感器的位置是未知的,無人機以固定的高度飛行,只考慮二維平面的運動,目標(biāo)傳感器節(jié)點的位置坐標(biāo)為(x,y),無人機當(dāng)前狀態(tài)的坐標(biāo)為(xi,yi),無人機與目標(biāo)節(jié)點之間的距離可以表示為
無人機通過配備天線來測量目標(biāo)節(jié)點的RSS,無人機可移動方向被相等地劃分為8 個方向,具體如圖2 所示。
圖2 無人機移動方向
RSS 值PR可以通過以下計算式求得,它與距離d(單位為m )有關(guān),具體為
其中,PT為目標(biāo)節(jié)點發(fā)射功率;PL(d)為距離d處的路徑損耗,此處的路徑損耗模型[32]采用3GPP TR 38.814,本文主要參考天線接收信號強度值,為簡化系統(tǒng)模型,只考慮了地對地大尺度信道衰落,后期研究無人機數(shù)據(jù)傳輸過程中將進一步同時考慮視距和非視距對傳輸性能的影響[33-35];f為捕獲信道衰落變量。
深度Q 學(xué)習(xí)[36]融合了神經(jīng)網(wǎng)絡(luò)和Q 學(xué)習(xí)的方法,屬于強化學(xué)習(xí)的一種,當(dāng)然也應(yīng)該具有強化學(xué)習(xí)的基本組成部分,即智能體、環(huán)境、動作、獎勵、策略、值函數(shù)等。強化學(xué)習(xí)智能體與環(huán)境的交互過程如圖3 所示。智能體通過與環(huán)境進行交互,循環(huán)迭代產(chǎn)生新的狀態(tài)并結(jié)合環(huán)境給出獎勵值。
圖3 強化學(xué)習(xí)智能體與環(huán)境的交互過程
Q值函數(shù)更新式為
其中,α∈[0,1]是學(xué)習(xí)率,γ∈[0,1]是折扣因子。
無人機的狀態(tài)s取決于各個方向測量的平均RSS 值中最大的RSS 值,動作空間對應(yīng)圖2 中的8個方向,即a∈{a1,a2,a3,a4,a5,a6,a7,a8}。獎勵值r(s,a)的設(shè)定為:如果當(dāng)前位置各個方向測量的平均RSS 值中的最大值減去上一位置的各個方向測量的平均RSS 值中的最大值為正,則給一個正的獎勵值,該獎勵值設(shè)為固定值;如果為負(fù),則給一個負(fù)的獎勵值。如果無人機達到終止條件,則給其較大獎勵值,本文中獎勵值設(shè)定為
無人機的終止條件為當(dāng)距離d<7.0 時,目標(biāo)節(jié)點定位成功。深度Q 學(xué)習(xí)的原理框架如圖4 所示。
圖4 深度Q 學(xué)習(xí)的原理框架
指針網(wǎng)絡(luò)深度學(xué)習(xí)的結(jié)構(gòu)如圖5 所示,它是由序列到序列模型[37]和注意力機制[38]結(jié)合改進得到的,由Encoder 和Decoder 這2 個階段組成。在Encoder 階段,只考慮輸入xj對輸出yi的影響;在Decoder 階段,解碼輸出注意力概率矩陣,并通過softmax 得到序列的輸出概率分布。由于長短期記憶網(wǎng)絡(luò)(LSTM,long short-term memory)[39]能夠成功學(xué)習(xí)具有遠(yuǎn)距離時間依賴性數(shù)據(jù)的特征,其被用作網(wǎng)絡(luò)單元構(gòu)建指針網(wǎng)絡(luò)深度學(xué)習(xí)模型。Encoder部分使用LSTM 多層神經(jīng)網(wǎng)絡(luò)(記為LSTM-e),Decoder 部分使用LSTM 多層神經(jīng)網(wǎng)絡(luò)(記為LSTM-d)。
圖5 指針網(wǎng)絡(luò)深度學(xué)習(xí)的結(jié)構(gòu)
第2 節(jié)對無人機路徑規(guī)劃問題進行了建模,分別確定指針網(wǎng)絡(luò)(PN,pointer network)深度學(xué)習(xí)模型的輸入輸出如下所示。
1)輸入
Dcoords={(x0,y0),(x1,y1),…,(xk,yk)}為無人機服務(wù)站Ddepot和每個簇中心坐標(biāo)Dloc的并集。假設(shè)Ddepot處的獎勵值p0=0,Pprize={p0,p1,…,pk}為p0和pi的并集,Dinputs={(x0,y0,p0),(x1,y1,p1),…,(xk,yk,pk)}。
2)輸出
輸出序列Droads={P0,P1,…,Pn}表示無人機數(shù)據(jù)收集過程中簇的收集順序,Pn對應(yīng)Dinputs值的索引。指針網(wǎng)絡(luò)深度學(xué)習(xí)的編解碼過程為:輸入序列Dinputs經(jīng)過k+1 步依次輸入Encoder 模塊,然后通過Decoder 模塊依次輸出Droads中的元素。
因此指針網(wǎng)絡(luò)的原理可以表示如下[40]。
編碼過程。將輸入序列Dinputs經(jīng)過k+1 步依次輸送給LSTM-e,得到每一步輸入所對應(yīng)的LSTM-e網(wǎng)絡(luò)狀態(tài)ej(j=0,1,…,k),如式(11)所示。當(dāng)Dinputs輸入完畢后,將得到的隱藏層狀態(tài)Enc=(e1,…,ei,…,en)進行編碼后輸入解碼模塊。
解碼過程。由式(12)計算出LSTM-d 網(wǎng)絡(luò)的隱藏層狀態(tài)Dec=(d1,…,di,…,dn);由LSTM-e 網(wǎng)絡(luò)的隱藏層狀態(tài)(e1,…,ei,…,en)和LSTM-d 網(wǎng)絡(luò)的隱藏層狀態(tài)Dec=(d1,…,di,…,dn)分別計算出每個輸入對當(dāng)前輸出帶來的影響,如式(13)所示。將其softmax 歸一化后得到注意力矩陣ai,如式(14)~式(16)所示。然后選擇矩陣中權(quán)重占比最大的指針作為輸出,如式(17)所示。
其中,f為非線性激活函數(shù);v、W1和W2為輸出模型的可學(xué)習(xí)參數(shù);aij由uij經(jīng)過softmax 后得到,其作用是將uij標(biāo)準(zhǔn)化為輸入字典上的輸出分布[23]。
在解碼過程中,還要考慮到定向問題模型中的約束問題。首先,對于約束(2),預(yù)設(shè)一個服務(wù)份額值δ。對于約束(3),無人機的起點和終點均為無人機服務(wù)站Ddepot,因此,第一步和最后一步將P0和Pn設(shè)置為0。對于約束(4),根據(jù)禁忌搜索的思想,在每一步添加Droads元素時,將其作為禁忌元素添加到Daction表中,每一步輸出將根據(jù)Daction表,在注意力矩陣中選擇非Daction表中權(quán)值最大的作為輸出。
根據(jù)文獻[25]提出的主動搜索(AS,active search)策略,將Dinputs中的元素(除索引0 的位置)隨機排列組合生成B個批次的輸入序列,通過梯度下降法優(yōu)化目標(biāo)函數(shù),最后輸出路徑。
通過多目標(biāo)優(yōu)化中的線性加權(quán)法將目標(biāo)函數(shù)(1)改寫成
其中,ω1+ω2=1表示在減少無人機飛行距離與提升無人機服務(wù)獎勵之間的折中關(guān)系,具體可由工程經(jīng)驗得到。本文設(shè)置ω1=0.9,ω2=0.1,通過梯度下降法,式(18)可以同時優(yōu)化減小距離和增加獎勵值。
指針網(wǎng)絡(luò)+主動搜索策略的算法描述如下。
1)初始化輸入序列,將Dinputs中的元素(除索引0 的位置)隨機排列組合生成B個批次的輸入序列。
2)將序列輸入指針網(wǎng)絡(luò),得到一系列結(jié)果。
3)使用梯度下降法優(yōu)化目標(biāo)函數(shù)(18)。
4)重復(fù)執(zhí)行步驟1)~步驟3),直到達到終止條件。
5)選擇最小的目標(biāo)函數(shù)值的路徑作為輸出路徑Droads。
DQN 算法描述如下。
1)初始化經(jīng)驗重放緩存區(qū)。
2)預(yù)處理環(huán)境:把狀態(tài)?動作輸入DQN,返還所有可能動作對應(yīng)的Q值。
3)利用ε貪心策略選取一個動作a,以概率ε隨機選擇動作,以概率1?ε選取具有最大Q值的動作。
4)選擇動作a后,智能體在狀態(tài)s執(zhí)行所選的動作,得到新的狀態(tài)s′和獎勵r。
5)把該組數(shù)據(jù)存儲到經(jīng)驗重放緩沖區(qū)中,并將其記作s,a,r,s′。
6)計算目標(biāo)方程(10),更新Q網(wǎng)絡(luò)權(quán)重。
7)重復(fù)執(zhí)行步驟3)~步驟6),直到達到終止條件。
為驗證指針網(wǎng)絡(luò)模型對無人機全局路徑規(guī)劃的優(yōu)化性能,實驗主要對比了指針網(wǎng)絡(luò)深度學(xué)習(xí)、基于主動搜索策略的指針網(wǎng)絡(luò)深度學(xué)習(xí)方法。為了對比AS 方法的效果,本文設(shè)計貪婪獎勵(GP,greed prize)方法與其進行比較。GP 方法受貪婪優(yōu)化方法的影響,先貪婪地選擇獎勵值大小為前N簇的坐標(biāo),然后通過PN+AS 方法求這些簇的最短路徑。
實驗令無人機服務(wù)站Ddepot的坐標(biāo)為(0,0),在[0,1]×[0,1](單位為km)的范圍內(nèi)分別隨機生成50 個簇和100 個簇的中心位置坐標(biāo),分別為D50和D100。每個簇的獎勵值設(shè)定按照式(5)得到。
表1 和表2 分別給出了AS 方法和GP 方法使用的參數(shù)及其相應(yīng)值。
表1 AS 方法使用的參數(shù)及其相應(yīng)值
表2GP 方法使用的參數(shù)及其相應(yīng)值
為驗證DQN 的性能,本文主要分析Q 學(xué)習(xí)和DQN 這2 種方法在無人機數(shù)據(jù)收集中單個節(jié)點定位的仿真效果。為模擬無人機接收信號強度值,采用網(wǎng)格法確定當(dāng)前位置距離目標(biāo)節(jié)點的距離,通過式(7)和式(8)計算接收信號強度值,實現(xiàn)DQN 狀態(tài)輸入。本文主要對2 種方法迭代次數(shù)內(nèi)的成功率、步數(shù)及其最優(yōu)路徑進行比較。2 種方法均使用ε貪心策略,在仿真中將無人機到目標(biāo)節(jié)點的距離小于7 m 視為成功,為防止算法無限次迭代,將無人機步數(shù)大于200 步視為失敗。仿真結(jié)果表明,DQN 的性能優(yōu)于Q 學(xué)習(xí),能夠達到一個較高的成功率。DQN 仿真各參數(shù)的設(shè)置如表3 所示。
表3 DQN 仿真各參數(shù)的設(shè)置
圖6 和圖7 分別是D50和D100下使用PN、AS和GP 的路徑規(guī)劃效果,表4 是D50和D100下使用PN、AS 和GP 的距離和獎勵值,其中,距離的單位為km。根據(jù)式(9)可知,獎勵值越大越好,距離越小越好,這樣可以使模型的收益能效更高。從圖6、圖7 和表4 中可以直觀地看出,使用PN 方法比AS 方法的路徑規(guī)劃圖交叉點多,總路徑距離大,總獎勵值?。粚P 方法與AS 方法進行比較,GP方法交叉點少,總路徑距離小,不過GP 方法存在貪婪的性質(zhì),相當(dāng)于將全局路徑規(guī)劃問題變?yōu)橐粋€簡單的旅行商問題來解決,使該算法獲得的獎勵值更好,但在某些場景下有可能導(dǎo)致更大的飛行距離。雖然AS 方法不能完全達到GP 方法的效果,但AS 方法的效果接近GP 方法,且AS 方法最大的特點就是同時優(yōu)化距離和獎勵值,雖然獎勵值可能不如GP 方法但其距離有可能更小,且更具隨機性、更適合動態(tài)環(huán)境中的無人機路徑規(guī)劃。
圖6 D50下使用PN、AS 和GP 的路徑規(guī)劃效果
圖7 D100下使用PN、AS 和GP 的路徑規(guī)劃效果
表4 D50和D100下使用PN、AS 和GP 的距離和獎勵值
圖8 是AS 方法下使用梯度下降法訓(xùn)練PN 的損失值。從圖8 中可以看出,訓(xùn)練PN 的損失值隨著迭代次數(shù)的增加先快速下降,而后趨于穩(wěn)定,在0 值上下波動,這表明該深度模型可以在訓(xùn)練后達到收斂,網(wǎng)絡(luò)性能可靠。
圖8 AS 方法下使用梯度下降法訓(xùn)練PN 的損失值
圖9 為DQN 和Q 學(xué)習(xí)的成功次數(shù)的步數(shù)變化波動曲線。從圖9 中可以明顯看出,DQN 步數(shù)的變化只在一開始波動較大,經(jīng)過一個更新周期(30 次)后波動趨于平穩(wěn),且步數(shù)較小,迭代次數(shù)為100 次,成功率接近100%;Q 學(xué)習(xí)的成功次數(shù)只有7 次,其余均大于200 步。
圖9 DQN 和Q 學(xué)習(xí)成功次數(shù)的步數(shù)變化波動曲線
從圖10 可以更清晰地看到,DQN 的最優(yōu)路徑與Q 學(xué)習(xí)的最優(yōu)路徑相比更平緩、拐點較少。表5 為不同起點和目標(biāo)位置時Q 學(xué)習(xí)和DQN 的最優(yōu)步長比較。從表5 可以看出,針對不同起點和目標(biāo)位置,除了第三組(0,0)→(68,78)這2 種方法效果一樣外,其余場景中的DQN 都優(yōu)于Q 學(xué)習(xí),可見DQN 的泛化性能強,可以適應(yīng)不同的場景。
圖10 DQN 和Q 學(xué)習(xí)最優(yōu)路徑對比
表5 不同起點和目標(biāo)位置時DQN 和Q 學(xué)習(xí)的最優(yōu)步長比較
本文首先使用指針網(wǎng)絡(luò)深度學(xué)習(xí)來解決無人機數(shù)據(jù)收集過程中的全局路徑規(guī)劃問題,并將該問題建模成定向問題,利用指針網(wǎng)絡(luò)深度學(xué)習(xí)得到無人機服務(wù)節(jié)點集合及服務(wù)順序。然后,根據(jù)無人機接收目標(biāo)節(jié)點的RSS 通過DQN 來定位目標(biāo)節(jié)點并接近目標(biāo)節(jié)點,經(jīng)仿真驗證,DQN 在時延等方面的性能優(yōu)于Q 學(xué)習(xí)。最后,通過仿真驗證了所提學(xué)習(xí)機制的有效性。