黃朝熙,潘 偉,陳 杰,吳海濤,吳道曦,徐素霞
(福建省仿腦智能系統(tǒng)重點實驗室(廈門大學(xué)),廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,福建 廈門361005)
由于海洋環(huán)境的探測面積巨大,水下環(huán)境的復(fù)雜多變,傳統(tǒng)的定點或走航式的作業(yè)方式,越來越難以適應(yīng)新的海洋探測需求,自主式水下航行器(autonomous underwater vehicle,AUV)的研究與應(yīng)用便成了自然.AUV可以自主地在遠程復(fù)雜甚至危險的海洋環(huán)境之中運行,在海洋探測、海底地形繪制、海洋資源探測等各方面扮演著重要角色.
為了使AUV完成海洋環(huán)境檢測、海底救撈及水下作業(yè)等復(fù)雜任務(wù),保證AUV自身的安全是一切任務(wù)開展的前提.具備自主避障功能的AUV的研究與應(yīng)用,受到越來越多研究者的重視.Qiao等[1]利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,用近似Q函數(shù)的方式來存儲Q值,其基于行為的控制架構(gòu)使其獲得了更好的穩(wěn)定性和更優(yōu)的實時性,通過一段時間的學(xué)習(xí)能使機器人有效地躲避障礙物.Sayyaadi等[2]提出了基于強化學(xué)習(xí)算法隨機值的學(xué)習(xí)函數(shù),通過得到連續(xù)的輸出值使AUV具備更強的控制能力使其達到避障能力.Jia等[3]提出了針對AUV的一個基于勢函數(shù)和行為規(guī)則的控制算法,通過對避障區(qū)域的劃分,有效地解決了勢函數(shù)控制算法只適用于較大避障半徑的問題,驗證了多AUV編隊在未知的環(huán)境中控制和避障算法的有效性.這些算法在避障的穩(wěn)定性和實時性方面都進行了不同程度的優(yōu)化,對各自算法存在的不足都進行了改進,存在的不足主要是計算量的差異.此外,目前研究的大多數(shù)AUV系統(tǒng)需要接受上位機的控制,缺乏有效的信息獲取手段,無法適應(yīng)復(fù)雜多變的水下環(huán)境.因此,研究集成有多種傳感器的AUV系統(tǒng),提高水下航行器的自主運動能力和避障功能,具有非常重要的意義.比如Khanmohammadi等[4]設(shè)計了一個基于前視聲吶信息的模糊魯棒控制器,通過聲吶對障礙物的速度和角度信息能較為精確的獲取,使AUV能實現(xiàn)自主躲避動態(tài)的障礙物;Zhang等[5]通過建立水下環(huán)境模型,對遺傳算法進行優(yōu)化,提高了對多障礙情況下的位置和速度等數(shù)值的優(yōu)化處理,達到了有效的水下避障,并在名為“Twin-Burger”的AUV上實驗成功;McPhail等[6]基于高分辨率的彩色成像技術(shù)和多波束聲吶的應(yīng)用,提出了重試避碰算法的調(diào)用機制,有效地補充了其默認避障算法的不足,提高了避碰的成功率.AUV系統(tǒng)中的控制算法是基于聲吶探測的范圍和標(biāo)高相對于AUV的水平線來實現(xiàn)的,“Autosub6000”號AUV在大西洋的卡薩布蘭卡海山區(qū)的深水海試結(jié)果顯示了其良好的避障效果.這些基于大型傳感器設(shè)備的避障實驗在已有算法的基礎(chǔ)上,能較好地達到避障的效果,顯示出一定的應(yīng)用前景,但是其高額的資金投入限制了推廣應(yīng)用.
AUV要實現(xiàn)避障的行為,環(huán)境傳感器數(shù)據(jù)起著舉足輕重的作用.很多的科研機構(gòu)使用基于多波束的前視聲吶來采集AUV周圍環(huán)境障礙物的信息[7-8],但前視聲納體積大、價格高,不適合用于小型的AUV平臺.也有些AUV使用光學(xué)強度攝像機來獲取環(huán)境障礙物的信息,但光線在水下環(huán)境會很快衰減.即使增加輔助燈光,光學(xué)攝像機探測距離也十分有限,不適用于AUV工作的實際海洋環(huán)境.
本文結(jié)合課題組的實際研究項目,模擬單波束聲納的工作特點,提出了一種基于強化學(xué)習(xí)的AUV自主避障策略.仿真實驗結(jié)果表明:通過強化學(xué)習(xí)獲得的障礙物狀態(tài)與避障動作之間的最佳組合,可以保證AUV在行進過程中,安全躲避前方90°開角內(nèi)的障礙物.
我課題組在英國Essex大學(xué)胡豁生教授的指導(dǎo)下,基于原有智能機器魚的研究與應(yīng)用成果,聯(lián)合設(shè)計如圖1所示的新一代機器魚.新設(shè)計的AUV具有更好的小阻力外形,更強的續(xù)航能力,更好的機動性能.機器魚擬采用單波束聲納為環(huán)境障礙物信息采集傳感器,實現(xiàn)一種小型、低成本的機器魚避障方案.
針對近海淺海的實際情況,同時著眼于小型的開發(fā)平臺,本課題組使用的避障傳感器是由英國Tritech International Limited公司基于 Micron DST開發(fā)的側(cè)掃成像單波束聲納(圖1).
本文中對環(huán)境數(shù)據(jù)采集使用的傳感器是單波束聲吶,這款聲納的工作中心頻率為700kHz,最大探測范圍為100m.聲納水平開角為3°,垂直開角為30°.這種單波束聲吶數(shù)字化程度高,成像清晰,與多波束聲吶相比,具有體積小,成本低,便于安裝,可應(yīng)用到小型化的平臺上去的優(yōu)勢;但是在同等時間內(nèi),其掃描范圍較多波束聲吶而言小了許多.如圖2所示.
圖2 單波束聲吶與多波束聲吶掃描范圍的大致對比Fig.2 Scan range comparing single beam sonar with multi beam sonar
同時單波束聲吶在隨著AUV的行進中,聲吶掃描的截面也會發(fā)生相應(yīng)的移動.在掃描成像方面可能出現(xiàn)圖像錯位的情況,所以在后期數(shù)據(jù)處理與成像分析的時候,需要進一步的處理(圖3).
圖3 AUV的掃描劃分與動作選擇執(zhí)行Fig.3 Scanning division and action choice of AUV
根據(jù)單波束聲吶的工作特點,我們設(shè)計以下避障算法.整個避障模塊分為學(xué)習(xí)階段和執(zhí)行階段,兩個階段相對獨立,又相互聯(lián)系.各自的工作流程如圖4所示.
強化學(xué)習(xí)采用試錯法(trial-and-error),不用建立環(huán)境和任務(wù)的精確數(shù)學(xué)描述.通過學(xué)習(xí),AUV能通過獲取系統(tǒng)狀態(tài)、動作和獎勵等有用的經(jīng)驗,從而掌握一套優(yōu)化的避障策略與知識.
基于單波束聲吶的特點,本文中的AUV強化學(xué)習(xí)模型由以下幾部分組成:控制策略P被定義成狀態(tài)集合S到控制行為集合Μ 的映射,其函數(shù)的形式是:m=P(x),x∈S,m∈M.其含義是:根據(jù)策略Ρ,當(dāng)觀察到系統(tǒng)狀態(tài)為x時,決策結(jié)果是控制行為m.
圖4 避障算法設(shè)計流程圖Fig.4 Obstacle avoidance algorithm design flow chart
由于AUV的游動方向主要表現(xiàn)為前向運動,所以在AUV的前方有無障礙及與障礙間的距離對AUV的運動影響是最大的.為了減少狀態(tài)集的數(shù)量和提高學(xué)習(xí)速度,對各種狀態(tài)進行了合并[9],AUV狀態(tài)的描述由聲吶掃描的左中右3個方位的狀態(tài)組合而成,并根據(jù)其各個方位與障礙物距離關(guān)系在s0,s1,s2中取值(詳見表1),此處詳見2.4節(jié).
同時針對AUV可能遇到的環(huán)境狀態(tài)設(shè)計了如下的6種行為:
b1:AUV右螺旋槳速度為0向右轉(zhuǎn)彎;
b2:AUV左螺旋槳速度為0向左轉(zhuǎn)彎;
b3:AUV以速度V向右轉(zhuǎn)彎;
b4:AUV向前直游;
b5:AUV以速度V向左轉(zhuǎn)彎;
b6:漫游.
上述行為中,b1~b5是AUV學(xué)習(xí)的目標(biāo),而b6并不需要AUV通過學(xué)習(xí)獲取,它作為AUV本身所應(yīng)該具有的基本能力,當(dāng)聲吶在3個方向都沒有探測到障礙物時,AUV自動選擇該行為.
如何獎懲也是AUV強化學(xué)習(xí)中的一個重要環(huán)節(jié),它影響到學(xué)習(xí)的好壞、快慢.在Tucker Balch的文獻[10]中,給出了一套描述符,對強化學(xué)習(xí)的獎勵進行了分類.情況設(shè)置見表2.
假定3個方向探測到的距離值分別為dL,dF,dR,則障礙物相對AUV的距離d定義為:d=min(dL,dF,dR).
狀態(tài)評價函數(shù)V是某個狀態(tài)和目標(biāo)狀態(tài)之間距離的度量,其定義如下:在某種控制策略下,從某個狀態(tài)轉(zhuǎn)移到目標(biāo)狀態(tài)的過程中,把增強信號加權(quán)和的數(shù)學(xué)期望定義為該狀態(tài)的評價函數(shù)值,即:
表1 合并后的狀態(tài)集Tab.1 After the merger of the state set
表2 獎懲情況設(shè)置Tab.2 Rewards and punishments set
式(1)中的E表示數(shù)學(xué)期望;γ稱為折扣因子(discount factor),也是常數(shù),且0<γ<1,在數(shù)學(xué)上使式(1)中的無窮級數(shù)收斂;rt+1是t+1時刻產(chǎn)生的增強信號值;x0表示初始狀態(tài).某個狀態(tài)的評價函數(shù)值越大,表示它距離目標(biāo)狀態(tài)越近.從上述定義可知,狀態(tài)評價函數(shù)和控制策略是相聯(lián)系的,不同控制策略下的狀態(tài)評價函數(shù)可能不同.強化學(xué)習(xí)使?fàn)顟B(tài)評價的估計值逐漸逼近最優(yōu)策略控制下的狀態(tài)評價值,同時使控制策略逼近最優(yōu)策略.
本文對聲吶所掃描到的距離數(shù)據(jù)采取了分段處理方式.假定聲吶的最大探測距離為Dmax,執(zhí)行有效避障行為的臨界距離為Dc,AUV到障礙物的危險距離為Dh,這3者的距離關(guān)系是Dmax>Dc>Dh.
根據(jù)聲吶測量到的數(shù)據(jù)值Dt,將AUV某一方向的障礙物分布情況分為s0,s1,s2等3種如下的狀態(tài):
s0:AUV沒有探測到障礙物;
s1:AUV距離障礙物較遠,即Dc>Dt>Dh;
s2:AUV距離障礙物較近,即Dh>Dt.
將AUV聲吶的掃描范圍做一個如圖3的劃分,同時將L區(qū)所包含的掃描范圍視為AUV的左方位,將F區(qū)部分范圍視為AUV的前方,同理R區(qū)部分為AUV的右方位.在描述AUV的狀態(tài)時,可建立一個3個方位的狀態(tài)組合為FWLFWFFWR,其中FWL為AUV左方位的狀態(tài),F(xiàn)WF為AUV前方的狀態(tài),同理,F(xiàn)WR為 AUV 的右方位狀態(tài).FWL,F(xiàn)WF,F(xiàn)WR在s0,s1,s2中取值.例如:s0s0s1表示 AUV右方掃描到障礙物,且距離較遠,其他方向沒有探測到障礙物.
由于傳感器不能對障礙物進行精確的方向定位,為此綜合AUV 3個方向的信號情況,將障礙物相對于AUV的方向角離散化為7種情況[9],作如下定義:
AUV與障礙物的相對方向角為Φ,當(dāng)AUV執(zhí)行行為偏離障礙物相對AUV的方向時,稱AUV偏離障礙物;反之稱AUV靠近障礙物.
在MATLAB仿真下,對局部有障礙物的環(huán)境設(shè)置如圖5所示,圖5中的圓框為障礙物,星形點為AUV,障礙物為高約15cm,邊長約5cm的等八邊形柱體.AUV長60cm(只包含魚身部分),最寬處寬度為16cm,最高處高度為27.6cm.本文采用強化學(xué)習(xí)來進行狀態(tài)-動作的學(xué)習(xí),不用建立環(huán)境和任務(wù)的精確數(shù)學(xué)描述,通過不斷的試錯,再對其選擇的行為給予獎懲,從而獲取對避障有用的經(jīng)驗.行為學(xué)習(xí)選取采用貪婪算法,貪婪算法的基本思想是采用逐步構(gòu)造最優(yōu)解的方法,其本質(zhì)上是一種局部搜索算法,可以對當(dāng)前的環(huán)境選擇局部最優(yōu)的避障行為.ε表示各設(shè)定避障行為的加權(quán)系數(shù),其初始值εn設(shè)為0.9,每代遞減,其中T為學(xué)習(xí)總代數(shù),學(xué)習(xí)總代數(shù)為60,每代最大運動步數(shù)是2 000步.通過不斷的試錯之后,AUV系統(tǒng)掌握了一套有效的避障策略.在實驗中,對障礙物的位置隨機設(shè)置,均達到了預(yù)期避障目標(biāo).相關(guān)的仿真實驗如圖5所示.
圖5 避障仿真實驗路徑圖Fig.5 The path graph of obstacle avoidance simulation experiment
系統(tǒng)學(xué)習(xí)的任務(wù)是通過訓(xùn)練次數(shù)的不斷深入,對AUV的避障方法學(xué)習(xí)得出一個較為穩(wěn)定的躲避策略,圖6給出了學(xué)習(xí)策略改變次數(shù)與學(xué)習(xí)代數(shù)之間的變化曲線關(guān)系,可以看出,算法是收斂的,且學(xué)習(xí)代數(shù)為50時,可以達到一個學(xué)習(xí)成本與執(zhí)行效果較好的平衡,同時可以看出其曲線基本趨于平穩(wěn),繼續(xù)增加學(xué)習(xí)代數(shù)對提高學(xué)習(xí)效果并不明顯.綜上所述作出如上選擇.
圖6 學(xué)習(xí)代數(shù)與策略學(xué)習(xí)的平均步數(shù)的關(guān)系圖Fig.6 The graph of the relationship between the strategies of learning algebra and the average number of strategy learning
本文針對小型的AUV開發(fā)平臺,使用基于Micron DST開發(fā)的側(cè)掃成像單波束聲吶,提出了一種基于單波束聲吶掃描特性的AUV避障控制策略.利用單波束聲吶的探測波束依次旋轉(zhuǎn),依次獲取AUV前方3個區(qū)域的障礙物距離信息,同時給出了合適的環(huán)境狀態(tài)與有效的避障行為集合,并通過強化學(xué)習(xí)來優(yōu)化狀態(tài)行為組合,給小型、低成本AUV避障提供一種解決方案.在仿真實驗中,通過多次隨機設(shè)定環(huán)境的初始狀態(tài),均達到了預(yù)期的避障效果,驗證了學(xué)習(xí)結(jié)果的有效性.
通過多次的仿真實驗表明,使用基于強化學(xué)習(xí)的避障算法和基于Micron DST開發(fā)的單波束聲納能夠及時地為系統(tǒng)的安全運行提供有效的信息和控制策略.但是在水池實驗中由于慣性導(dǎo)航系統(tǒng)的低精度問題,我們不能得到準(zhǔn)確的速度信息,在一定程度上影響到系統(tǒng)反應(yīng)的準(zhǔn)確性;此外,單一的聲學(xué)傳感器的局限性問題也在特定的環(huán)境中顯現(xiàn)出來.所以在未來我們要從以下3個方面來改善它:
1)采用精度較高的慣性導(dǎo)航系統(tǒng)或其他巡航速度傳感器,速度信息的補充將使決策更加及時有效.
2)添加一個視覺傳感器系統(tǒng),在一定的距離范圍內(nèi),給聲學(xué)傳感器提供補充和輔助.
3)添加其他模塊如通信模塊、導(dǎo)航模塊等使系統(tǒng)更完整.
[1]Qiao J F,Hou Z J,Ruan X G.Application of reinforcement learning based on neural network to dynamic obstacle avoidance[C]∥Proceedings of the 2008IEEE International Conference on Information and Automation.Changsha,China:IEEE,2008:784-788.
[2]Sayyaadi H,Ura T,F(xiàn)ujii T.Collision avoidance controller for AUV system using stochastic real reinforcement learning method[C]∥Proceedings of the 39th SICE Annual Conference.Iizuka,Japan:IEEE,2000:165-170.
[3]Jia Q L,Li G W.Formation control and obstacle avoidance algorithm of multiple autonomous underwater vehicles(auvs)based on potential function and behavior rules[C]∥Automation and Logistics,2007IEEE International Conference on.Jinan,China:IEEE,2007:569-573.
[4]Khanmohammadi S,Alizadeh G,Poormahmood M.Design of a fuzzy controller for underwater vehicles to avoid moving obstacles[C]∥Fuzzy Systems Conference.London,England:IEEE,2007:1-6.
[5]Zhang M,Ura T.Motion optimization of autonomous underwater vehicle by genetic algorithm[J].Journal of the Society of Naval Architects of Japan,1997,182:491-497.
[6]McPhail S,F(xiàn)urlong M,Pebody M.Low-altitude terrain following and collision avoidance in a flight-class autonomous underwater vehicle[J].Journal of Engineering for the Maritime Environment,2010,224(4):279-292.
[7]Huvenne V A I,Blondel P,Henriet J P.Textural analyses of sidescan sonar imagery from two mound provinces in the Porcupine Seabight[J].Marine Geol,2002,189:323-341.
[8]Petillot Y,Ruiz I T,Lane D.Underwater vehicle obstacle avoidance and path planning using a multi-beam forward looking sonar[J].IEEE Journal of Oceanic Engineering,2001,26(2):240-251.
[9]沈志忠,曹志強,譚民.基于增強式學(xué)習(xí)的仿生機器魚避障控制[J].高技術(shù)通訊,2006,16(12):1253-1258.
[10]Balch T.Behavioral diversity in learning robot teams[D].Atlanta:Georgia Institute of Technology,1998.