国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

水質(zhì)監(jiān)測無人船路徑規(guī)劃方法研究

2019-01-11 06:02:12呂揚民陸康麗
智能計算機與應用 2019年1期
關鍵詞:障礙物狀態(tài)規(guī)劃

呂揚民, 陸康麗, 王 梓

(浙江農(nóng)林大學 信息工程學院, 浙江 臨安 311300)

0 引 言

水質(zhì)監(jiān)測是水質(zhì)評價和預防水污染的主要方法。隨著工業(yè)廢水的增多,水體污染的問題則引發(fā)高度關注,水污染動態(tài)監(jiān)測的研究已然刻不容緩。但是因為傳統(tǒng)的水質(zhì)監(jiān)測方法步驟繁多、并耗時不菲,而且獲取到的數(shù)據(jù)多樣性、準確性也遠遠未能滿足決策的需求[1]?;谏鲜鰡栴},多種水質(zhì)監(jiān)測方法已陸續(xù)進入學界視野。如曹立杰等人[2]提出通過建立傳感器網(wǎng)絡,得到較為精準的水質(zhì)反演模型。田野等人[3]提出通過水質(zhì)模型對衛(wèi)星數(shù)據(jù)進行反演,得到監(jiān)測水域的水質(zhì)參數(shù)分布圖。但是以上方法卻無法靈活地更換監(jiān)測水域,工程量大、且時效性欠佳,相較而言水質(zhì)監(jiān)測無人船體積小便于攜帶、監(jiān)測領域不受地形影響,能連續(xù)性原位進行多項水質(zhì)參數(shù)監(jiān)測,使監(jiān)測結果更具有多樣性和準確性。

無人駕駛船(Unmanned Surface Vehicle,USV)是一種能夠在未知水域環(huán)境下自主航行,并完成各種任務的水面運動平臺[4],其研究內(nèi)容主要涉及了自動駕駛、自主避障、航行規(guī)劃和模式識別等熱門方向[5]。故而,目前已廣泛應用于軍事領域的掃雷、偵察和反潛作戰(zhàn)等方面,同時還可以用于民用領域的水文氣象探測、環(huán)境監(jiān)測和水上搜救等專項服務中[6-8]。但由于水質(zhì)的流動性,可以流經(jīng)多種復雜地形,如流經(jīng)洞穴時等,工作人員將無法探測;或又由于天氣的多變,如水域長期處于多霧天氣,致使工作人員視線受阻,因而無法實時準確地掌控操作USV。綜合上述分析后可知,就可以利用USV的自主航行到達目標水位進行檢測,而自主航行功能的實現(xiàn)即需用到本文下面擬將系統(tǒng)展開研究的路徑規(guī)劃技術。

USV路徑規(guī)劃技術是指USV在作業(yè)水域內(nèi),按照一定性能指標(如路程最短、時間最短等)搜索得到一條從起點到目標點的無碰路徑[9],是USV導航技術中核心組成部分,同時也代表著USV智能化水準。目前常用的規(guī)劃方法主要有粒子群算法[10]、A*算法[11]、可視圖法[12]、人工勢場法[13]、蟻群算法[14]等,但其方法多用于已知環(huán)境條件下。

當前對于已知環(huán)境下的航跡規(guī)劃問題已經(jīng)得到了較好的解決,但USV在未知水域作業(yè)執(zhí)行任務之前卻無法得到將要監(jiān)測水域的環(huán)境信息,無法通過基于已知環(huán)境信息的路徑規(guī)劃方法去求出USV航行路線[15]。此外,由于監(jiān)測水域環(huán)境復雜,傳感器信息眾多,系統(tǒng)的計算工作量大,致使USV存在實時性差、障礙物前振蕩等缺點。因此USV路徑規(guī)劃亟需研究算法簡單、實時性強、且能控制系統(tǒng)中的不確定現(xiàn)象的路徑規(guī)劃算法,所以有必要引入具有自主學習能力的方法,其中基于Q學習算法的路徑規(guī)劃適合于在未知環(huán)境中的路徑規(guī)劃?,F(xiàn)階段研究中,郭娜[16]即在傳統(tǒng)Q學習算法基礎上,采用模擬退火方法進行動作選擇,解決探索與利用的平衡問題。陳自立等人[17]提出采用遺傳算法建立新的Q值表以進行靜態(tài)全局路徑規(guī)劃。董培方等人[18]把人工勢場法加入Q學習算法中,以引力勢場作為初始環(huán)境先驗信息,再對環(huán)境逐層搜索,加快Q值迭代。

在此基礎上,本文提出了一種基于BP神經(jīng)網(wǎng)絡的Q學習強化學習路徑規(guī)劃算法,以神經(jīng)網(wǎng)絡擬合Q學習方法中的Q函數(shù),使其能夠以連續(xù)的系統(tǒng)狀態(tài)作為輸入,并通過經(jīng)驗回放和設置目標網(wǎng)絡方法顯著提高網(wǎng)絡在訓練過程中的收斂速度。經(jīng)過實驗仿真,驗證了本文所提出改進路徑規(guī)劃方法的可行性。

1 問題描述

USV路徑規(guī)劃的實質(zhì)是在一定標準下找出從初始位置到最終位置的最佳無碰撞安全路線。

USV路徑規(guī)劃研究中,首先需要建立一個可航行的環(huán)境模型。假設USV的航行環(huán)境為存在著一定數(shù)量的靜態(tài)障礙物的二維空間,采用柵格法對此區(qū)域進行分割。將柵格區(qū)域的左下角設為空間坐標系原點,水平向右為X軸,垂直向上為Y軸,劃分為n*n柵格坐標系。如此一來,該問題就簡化為在靜態(tài)環(huán)境中尋找從開始點到終點的無碰撞的最優(yōu)路徑。

設計中運用神經(jīng)網(wǎng)絡擬合函數(shù),輸入為USV的當前狀態(tài),USV的狀態(tài)是以當前位置來表示,即空間坐標s;USV路徑規(guī)劃的輸出是下一時刻的轉角,即動作a。環(huán)境狀態(tài)信息則是以障礙物的位置和大小及目標點的位置來表示,不同環(huán)境下障礙物出現(xiàn)的位置不同,目標點的設定位置也不同。網(wǎng)絡的輸出個數(shù)為動作空間的數(shù)量,每個輸出表示在當前狀態(tài)下,采取對應動作后的期望獎勵大小R(s)。對此內(nèi)容可研究詳述如下。

2 基于改進Q學習的無人船路徑規(guī)劃方法

2.1 基于傳統(tǒng)Q學習的路徑規(guī)劃方法

Q學習是基于馬爾科夫決策過程 (Markov Decision Process) 來描述問題,通過USV與環(huán)境的互動積累經(jīng)驗,同時不斷更新USV的策略,使其做出的決策能夠獲得更高的獎勵。常用的強化學習方法包括模仿學習、Q學習及策略梯度法等。而且進一步研究可知,Q學習方法不需要收集訓練數(shù)據(jù),且能夠生成決定性策略,因而適用于USV在未知水域進行路徑規(guī)劃問題。

馬爾科夫決策過程包含4個元素,分別是:S,A,Ps,a,R。其中,S表示USV所處的系統(tǒng)狀態(tài)集合,即USV在當前的狀態(tài)及當前環(huán)境的狀態(tài),如障礙物的大小和位置;A表示USV所能采取的動作集合,即USV轉動的方向;Ps,a表示系統(tǒng)模型,即系統(tǒng)狀態(tài)轉移概率,P(s'|s,a)描述了在當前狀態(tài)s下,執(zhí)行動作a后,系統(tǒng)到達狀態(tài)s'的概率;R表示獎勵函數(shù),由當前的狀態(tài)和所采取的動作決定。把Q學習看成找到策略使綜合評價最大的增量式規(guī)劃,Q學習的設計思想是不考慮環(huán)境因素,而是直接優(yōu)化一個可迭代計算的Q函數(shù),定義函數(shù)為在狀態(tài)st時執(zhí)行動作at,且此后最優(yōu)動作序列執(zhí)行時的折扣累計強化值,即:

(1)

其中,γ為折扣因子,其值0≤γ≤1;R(st)為獎勵函數(shù),其值為正數(shù)或者負數(shù)。

在初始階段學習中,Q值可能是不正確地反映了其所定義的策略,初始Q0(s,a)對于所有的狀態(tài)和動作假定是給出的。這里,若設給定環(huán)境的狀態(tài)集合為s,USV可能的動作集合A選擇性較多,數(shù)據(jù)量大,需要用到可觀的系統(tǒng)內(nèi)存空間,且無法被泛化。為了克服上述不足,對傳統(tǒng)Q學習進行改進,采用BP神經(jīng)網(wǎng)絡實現(xiàn)Q值迭代,網(wǎng)絡的輸入對應描述環(huán)境的狀態(tài),網(wǎng)絡的輸出對應每個動作的Q值。

2.2 改進的Q學習路徑規(guī)劃算法

Q(λ)算法借鑒了TD(λ)算法,通過回溯技術讓數(shù)據(jù)不斷地進行傳遞,使得某一狀態(tài)的動作決策也會受到其后續(xù)狀態(tài)的影響。如果未來某一決策π是失敗的,那么當前的決策也要承擔相應的懲罰,會把這種影響追加到當前決策;如果未來某一決策π是正確的,那么當前的決策也會得到相應的獎勵,同樣也會影響當前決策。結合改進后能夠提高算法的收斂速度,滿足學習的實用性。改進的Q(λ)算法更新規(guī)則為:

(2)

(3)

另外,也可以把TD(0)誤差定義為:

δt+1=R(st+1)+γV(st+2)-V(st+1)

(4)

在這一過程中,也應用了折扣因子λ∈[0,1],并以此對將來步驟中的TD誤差進行折扣,其數(shù)學公式可表示為:

(5)

(6)

只要將來的TD誤差未知,前述的更新就無法進行。但是,通過使用跟蹤跡就可以逐步求得其值。下面將ηt(s,a)定義為特征函數(shù):在t時刻(s,a)發(fā)生,則返回1,否則返回0。為了簡化,忽略學習效率,對每個(s,a)定義一個跟蹤跡et(s,a),如式(7)所示:

(7)

那么在時刻t在線更新為:

δtet(s,a)]

(8)

強化學習希望使系統(tǒng)運行時收獲的總體收益期望最大,即E(R(s0)+γR(s1)+γ2R(s2)+…)最大。為此需要找到一個最優(yōu)策略π,使得當USV依照π進行決策和運動時,獲得的總收益最大。通常,強化學習的目標函數(shù)為以下其中之一:

Vπ(s)=E(R(s0)+γR(s1)+γ2R(s2)+…|s0=s,π)

Qπ(s,a)=E(R(s0)+γR(s1)+γ2R(s2)+…|s0=s,a0=a,π)

(9)

Q*(s,a)=R(s0)+γE(R(s1)+

γR(s2)+…|s1,a1)

(10)

且a1由π*決定,則:

(11)

那么,可得出:

(12)

式(12)稱為貝文曼方程。該方程是以遞歸的形式定義了Q*(s,a),從而使得Q函數(shù)可以被迭代求出。

傳統(tǒng)Q學習算法中,Q函數(shù)是以表格的形式保存并更新,但在USV避障路徑規(guī)劃中,遭遇的障礙物可能出現(xiàn)在空間中任意位置,若以表格的形式Q函數(shù)將難以描述在連續(xù)空間中出現(xiàn)的障礙物。針對這一狀況,本文在Q學習基礎上,將展開深度Q學習以BP神經(jīng)網(wǎng)絡來擬合Q函數(shù),其輸入狀態(tài)s是連續(xù)變量。通常,以非線性函數(shù)擬合Q函數(shù)時學習過程難以收斂,對此研究就采用了經(jīng)驗回放和目標網(wǎng)絡的方法改善學習穩(wěn)定性。

2.3 BP神經(jīng)網(wǎng)絡結構與獎勵函數(shù)設定

在強化學習中,獎勵函數(shù)的設計將直接影響學習效果的好壞。通常,獎勵函數(shù)對應著人對某項任務的描述,通過獎勵函數(shù)的設計即可將任務的先驗知識成功融入學習中。在USV路徑規(guī)劃中,本次研究在致力于使USV盡快到達目標位置的同時,還期望在航行過程中能夠保證安全,并避免與障礙物相撞。為此本文將獎勵函數(shù)分為3種,具體就是:USV與目標位置的距離進行獎勵、USV到達目標位置進行獎勵、USV與障礙物相撞進行懲罰。文中,可將獎勵函數(shù)寫為如下數(shù)學形式:

(13)

從量級上看,第一、二種的獎勵值比第三的獎勵值大。因為對于USV避障任務來說,其主要目標就是避開障礙物且達到目標位置,而不是僅僅縮短USV與目標位置的距離。加入此項的原因在于,如果僅僅對USV達到目標位置和USV撞上障礙物進行獎勵和懲罰,那么在運動過程中將會有大量的步驟所得獎勵皆會為0,這會使得USV在大部分情況下不會啟用改進策略,學習效率偏低。而加入該項獎勵相當于加入了人對此項任務的先驗知識,使得USV在學習和探索時更有效率。綜上可得,本文研發(fā)算法的整體設計流程如圖1所示。

圖1 整體流程圖

由圖1可見,對流程中各步驟可做闡釋解析如下。

Step1初始化經(jīng)驗回放存儲區(qū)D。

Step2初始化Q網(wǎng)絡,狀態(tài)、動作賦初始值。

Step3隨機選擇動作at,得到當前獎勵rt,下一時刻狀態(tài)st+1,將(st,at,rt,st+1)存入D。

Step4從存儲區(qū)D中隨機采樣一批數(shù)據(jù)(st,at,rt,st+1)進行訓練。當USV達到目標位置,或超過每輪最大時間時的狀態(tài)都認為是最終狀態(tài)。

Step5如果st+1不是最終狀態(tài),則返回Step3;若st+1是最終狀態(tài),則更新Q網(wǎng)絡參數(shù),并返回Step3。重復一定輪數(shù)后,算法結束。

D為經(jīng)驗回放存儲區(qū),用來存儲USV航行過程,并采集訓練樣本。經(jīng)驗回放的存在使得每次訓練時的多個樣本在時間上不是連續(xù)的,從而最小化樣本之間的相關性,而且也增強了樣本的穩(wěn)定性和準確性。

3 實驗仿真

為了檢驗本文研發(fā)設計的路徑規(guī)劃算法性能,本文在Matlab2014a軟件上進行仿真實驗。在實驗中,仿真環(huán)境為20*20的區(qū)域,折扣因子γ取值為0.9,存儲區(qū)D大小設為40 000,循環(huán)次數(shù)1 000,神經(jīng)網(wǎng)絡第一層有64個神經(jīng)元,第二層有32個神經(jīng)元。在訓練的每一輪中,每當USV撞到障礙物或USV到達目標位置時,該輪都立即結束,并返回一個獎勵。

為驗證本文方法的準確性,將采用文獻[16]中的迷宮地形來構建實驗,但是由于文獻[16]中的迷宮地形偏于簡單,本文將設計3種不同地形來進行算法的比較,圖2為復雜水域地形,圖3為簡易同心圓迷宮地形,圖4為復雜迷宮地形。對本文改進算法與傳統(tǒng)Q學習算法在以上地形進行仿真,由路徑圖可以看出,藍色代表的改進算法路線相比傳統(tǒng)Q學習算法仿真的路線,路徑長度更短,更加簡捷。由標準誤差圖可以看出,改進算法比傳統(tǒng)Q學習算法提前三分之一進入收斂穩(wěn)定狀態(tài)。

(a)路徑仿真圖

(b)誤差分析圖

圖2復雜水域地形仿真

Fig.2Mapofcomplexwaterterrainsimulation

(a)路徑仿真圖

(b)誤差分析圖

(a)路徑仿真圖

(b)誤差分析圖

在前述基礎上,再以臨安東湖水域?qū)嶋H環(huán)境背景為例進行實驗仿真。從圖5(a)中看出,USV在仿真過程中并未出現(xiàn)與障礙物相撞且路徑規(guī)劃過程簡單、且快捷。圖5(b)為標準誤差曲線。由圖5可以看出,在訓練次數(shù)達到56次時,曲線趨于平穩(wěn),說明已經(jīng)大致規(guī)劃出一條安全快捷的整體路線,此時在多數(shù)情況下USV都能避開障礙物到達目標位置。由此可以推出如下結論,基于BP神經(jīng)網(wǎng)絡的改進Q學習算法比傳統(tǒng)Q學習算法,學習收斂速度更快,路徑更優(yōu)化。

(a)路徑仿真圖

(b)誤差分析圖

4 結束語

本文用強化學習的方法解決水質(zhì)監(jiān)測無人船在未知水域進行水質(zhì)監(jiān)測時自主導航路徑規(guī)劃問題,通過BP神經(jīng)網(wǎng)絡擬合Q函數(shù),在訓練后即能根據(jù)當前環(huán)境中障礙物的實時信息做出正確決策。仿真結果表明,該方法能夠使水質(zhì)監(jiān)測無人船在未知環(huán)境根據(jù)不同的狀態(tài)規(guī)劃出可行路徑,決策時間短、路線更優(yōu)化,而且能夠滿足在線規(guī)劃的實時性要求,從而克服傳統(tǒng)Q學習路徑規(guī)劃方法計算量大、收斂速度慢的缺點,能在第一時間實現(xiàn)問題水域的有效監(jiān)測。

猜你喜歡
障礙物狀態(tài)規(guī)劃
高低翻越
SelTrac?CBTC系統(tǒng)中非通信障礙物的設計和處理
狀態(tài)聯(lián)想
生命的另一種狀態(tài)
規(guī)劃引領把握未來
快遞業(yè)十三五規(guī)劃發(fā)布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規(guī)劃
熱圖
家庭百事通(2016年3期)2016-03-14 08:07:17
堅持是成功前的狀態(tài)
山東青年(2016年3期)2016-02-28 14:25:52
迎接“十三五”規(guī)劃
巴林右旗| 涿州市| 那曲县| 当雄县| 康乐县| 康定县| 滨海县| 美姑县| 沾化县| 中超| 稻城县| 乌兰县| 双城市| 宜城市| 玉树县| 灯塔市| 龙南县| 雷州市| 文昌市| 巧家县| 雅江县| 赤水市| 定安县| 扶沟县| 乌兰察布市| 武夷山市| 盘锦市| 米泉市| 射洪县| 固阳县| 阳山县| 友谊县| 镇平县| 玛多县| 奉新县| 新源县| 鸡西市| 高密市| 宜春市| 东海县| 木兰县|