閆 敬 ,陳天明 ,關(guān)新平 ,楊 晛 ,羅小元
(1.燕山大學 電氣工程學院,河北 秦皇島,066099;2.上海交通大學 電子信息與電氣工程學院,上海,200240)
自主水下航行器(autonomous undersea vehicle,AUV)是一種由推進系統(tǒng)驅(qū)動、由電池或燃料電池提供動力、由機載計算機控制和駕駛的水下航行器,其發(fā)展對深海生態(tài)系統(tǒng)的勘探、開發(fā)和利用產(chǎn)生了重大影響。在深海環(huán)境中,人類停留和執(zhí)行探索、采樣、偵察和目標探測等任務(wù)是十分危險的,AUV 耐高壓的特點使其在深海環(huán)境中的應(yīng)用越來越廣泛[1-3]。雖然近年來AUV 的技術(shù)研究取得了重大進展,但在許多情況下,由于復雜洋流對AUV 的控制存在擾動,海洋生物可能附著表面干擾傳感器等設(shè)備的工作,有限的電源供應(yīng)也可能會延遲任務(wù)的完成,單個AUV 很難在未知的水下環(huán)境中完成復雜任務(wù)[4]。因此,應(yīng)用多AUV 系統(tǒng),以更高的效率、更低的成本來完成任務(wù)就顯得尤為迫切。圖1 給出了多AUV 協(xié)同控制場景。
圖1 多AUV 協(xié)同控制場景Fig.1 Scenario of the cooperation control for multi-AUVs
從研究多機器人系統(tǒng)開始,協(xié)同控制問題就一直是學者們常討論的話題之一。作為多機器人系統(tǒng)的延伸,自從Thomas 等[5]提出利用多水下機器人建立自主海洋水文采樣網(wǎng)絡(luò)(autonomous oceanographic sampling network,AOSN)的概念以來,以美國海軍研究辦公室(Office of Naval Research,ONR)為代表的政府機構(gòu)就資助了一系列的海洋數(shù)據(jù)采集與監(jiān)測項目,后續(xù)應(yīng)用于路徑規(guī)劃、協(xié)同采樣和協(xié)同導航[6]。鑒于多AUV 協(xié)同控制在海軍防御方面的巨大潛力,美國、歐盟、日本和加拿大等國家和地區(qū)都斥巨資開展相關(guān)研究。需要強調(diào)的是,2007 年美國國防部發(fā)布了《2007—2032 年無人系統(tǒng)發(fā)展路線圖》,首次提出地面、水下、空中一體化的無人系統(tǒng)總體發(fā)展戰(zhàn)略規(guī)劃,力圖將水下/水面/空中通信系統(tǒng)、信息系統(tǒng)、武器系統(tǒng)等聯(lián)接在一起,實現(xiàn)水下態(tài)勢信息共享,縮短決策周期,提高指揮速度和協(xié)同作戰(zhàn)能力。2019 年,美國國會研究處(Congressional Research Service,CRS)發(fā)布了《海軍大型水面無人艇和無人水下航行器: 背景及相關(guān)考慮的問題》,計劃于2021 年及以后研發(fā)并采購大型AUV,為水下集群提供能源補給、平臺發(fā)射、環(huán)境評估等作戰(zhàn)保障。圖2[7]為各版美國防部無人系統(tǒng)發(fā)展路線圖封面,可看出從最早的陸??崭盍褕D片(2007)到共處同一畫面(2009、2011)、再到協(xié)同案例(2013)、組網(wǎng)協(xié)同(2017),表征了美軍對AUV 協(xié)同控制在不同時期理解和重視程度。
圖2 美國防部無人系統(tǒng)發(fā)展路線圖部分封面Fig.2 Partial covers of the unmanned system development roadmaps of US department of defense
相較于國外AUV 協(xié)同控制的發(fā)展,我國在該領(lǐng)域起步較晚,但發(fā)展迅速。國家基金委以及國防科工局對水下監(jiān)測網(wǎng)絡(luò)尤其是多AUV 協(xié)同控制的資助力度也在逐年增加,其中2022 年11 月公布的《國家自然科學基金“十四五”發(fā)展規(guī)劃》,明確指出將“水下無人裝置與水面船舶互聯(lián)基礎(chǔ)理論為代表的空天地海協(xié)同信息網(wǎng)絡(luò)”作為“十四五”優(yōu)先發(fā)展領(lǐng)域[8]。國內(nèi)眾多高校與研究所也開展了多AUV 協(xié)同控制的理論與應(yīng)用研究,并取得了一定的成果。其中,2019 年2 月,中科院沈陽自動化所研制的“潛龍三號”AUV 在大西洋開展了首次應(yīng)用下潛,完成了約40 km2的熱液異常區(qū)域探測;2020 年9 月,南方海洋科學與工程實驗室陳大可院士牽頭的“智能敏捷海洋立體觀測系統(tǒng)”,利用空、海、潛等智能無人裝備進行多潛器跨域協(xié)同,完成了首次系統(tǒng)級演示驗證。國內(nèi)已取得的研究成果對進一步開展多潛器協(xié)同控制技術(shù)研究意義重大。
由此可見,國內(nèi)外對多AUV 技術(shù)的研究方興未艾,其協(xié)同控制理論體系尚處于構(gòu)建之中,相關(guān)研究正面臨諸多亟待解決的難題。為此,文中通過對協(xié)同控制領(lǐng)域研究成果的全面梳理,進而進行對多AUV 協(xié)同控制的未來趨勢和研究方向的總結(jié)與展望。
多AUV 系統(tǒng)具有分布式和自主式等特點,在個體層次上,單個AUV 只需要有有限的采集信息能力、計算能力和通信能力即可,而在群體層次上,多AUV 系統(tǒng)可以表現(xiàn)一些復雜的智能行為,并能夠完成困難、危險或者高精度的任務(wù)。因此,多AUV 協(xié)同綜合了編隊控制、協(xié)同導航和定位、路徑規(guī)劃、任務(wù)分配以及目標圍捕。
編隊的目的是控制AUV 的相對位置、速度和方向,以便在群體移動的同時執(zhí)行任務(wù)。為了實現(xiàn)編隊控制,AUV 之間需要通過無線通信交換一些關(guān)鍵信息。
1) 編隊控制架構(gòu)
AUV 編隊的架構(gòu)可以分為集中式架構(gòu)和分散式架構(gòu)。分散式架構(gòu)包括分布式架構(gòu)和分層式架構(gòu)(見圖3),其主要區(qū)別在于決策過程,可看作是動作選擇的過程[9]。在集中式架構(gòu)中,1 個中央控制器可以獲得AUV 和環(huán)境的全局信息(例如AUV位置、速度以及障礙位置等),這些信息由AUV 攜帶傳感器進行收集。為了使多AUV 保持預定的編隊隊形避開障礙物并到達目的地,需要1 個集中式控制器對全局信息進行處理并決策[10]。進而,集中控制器會向每個AUV 發(fā)送命令信號,而每個AUV 將其狀態(tài)信息作為反饋發(fā)送給集中控制器[11](例如,領(lǐng)導者AUV)。集中式架構(gòu)的主要優(yōu)點是易于實現(xiàn),但其缺點包括: 對于控制器故障的魯棒性較弱;需要高帶寬的通信環(huán)境,通信資源消耗大。在分布式架構(gòu)中,AUV 之間可以交換環(huán)境和AUV 狀態(tài)信息。為了實現(xiàn)分布式控制,每個AUV需要與整群的1 個子集AUV 共享其信息。每個AUV 都有1 個控制器,可以基于AUV 群的局部信息進行獨立決策[12-13]。例如,AUV 根據(jù)其鄰居提供速度和位置信息,與其鄰居AUV 保持相同速度和恒定距離[14]。分布式體系結(jié)構(gòu)優(yōu)點包括: 具有更好的魯棒性和靈活性;具有更小的通信負擔。在分層式架構(gòu)中,存在1 個或多個子控制器,將AUV組織成集群。分層式架構(gòu)可以看作是集中式體系結(jié)構(gòu)的擴展。集中式控制器會做出決策,并向子控制器發(fā)出命令。然后,子控制器處理來自集中式控制器的命令,并將新的命令傳輸?shù)郊褐小C總€集群中的AUV 執(zhí)行命令并給其子控制器提供反饋,而子控制器也給集中式控制器提供反饋[15]。分層體系結(jié)構(gòu)的優(yōu)點包括: 高可伸縮性;與子控制器共享計算和通信負擔。分層式架構(gòu)的缺點是對集中式控制器的故障缺乏魯棒性。然而,上述的缺點是相對的,可以通過良好的補償方案來克服。
圖3 AUV 編隊控制架構(gòu)圖Fig.3 Architecture diagram of AUV formation control
2) 編隊控制策略
目前,AUV 編隊控制策略大致可分為基于領(lǐng)導者—跟隨者策略、基于行為策略、基于虛擬結(jié)構(gòu)策略、基于圖論策略以及基于人工勢場策略。
在基于領(lǐng)導者—跟隨者的策略中,1 個或多個AUV 作為領(lǐng)導者,其他AUV 充當跟隨者。跟隨者通過跟蹤領(lǐng)導者的位置和方向來實現(xiàn)編隊[16]。學者們提出了多種基于領(lǐng)導者—跟隨者的策略,如單領(lǐng)導者策略[12]、多領(lǐng)導者策略[17]、虛擬領(lǐng)導者策略[18]等。單一領(lǐng)導者的策略只有1 個領(lǐng)導者,且該領(lǐng)導者有1 個或多個跟隨者。多領(lǐng)導者策略有2 個或2 個以上的領(lǐng)導者,每個領(lǐng)導者至少有1 個跟隨者。與單一領(lǐng)導者相比,多個領(lǐng)導者可以實現(xiàn)良好的編隊性能[12]。而虛擬領(lǐng)導者策略則允許AUV 跟隨虛擬的領(lǐng)導者[17],虛擬領(lǐng)導者可以看作是整個編隊的移動參考點,虛擬領(lǐng)導者有1 個預定義的軌跡,這也是整個編隊的期望軌跡。為了保持編隊,當AUV 編隊移動到目的地時,其他AUV與虛擬領(lǐng)導者保持恒定的距離?;陬I(lǐng)導者—跟隨者策略的優(yōu)點是控制器的設(shè)計很簡單,因為整個編隊的運動是由領(lǐng)導者決定的;缺點是,上述策略均不夠魯棒,因為追隨者之間不能相互交流,如果領(lǐng)導者失敗,整個編隊就會失敗。
在基于行為的策略中,需為每個AUV 設(shè)計一些期望的行為。每種行為都有自己的目的,如移動到目標、躲避障礙、躲避AUV 和保持編隊[19-20]?;谛袨榈目刂破髯鳛檫@些行為的結(jié)構(gòu)化網(wǎng)絡(luò)來運行,并決定哪些行為應(yīng)該一起運行[20]?;谛袨椴呗缘膬?yōu)點是AUV 之間需要交換的信息很少;缺點是基本行為的控制器設(shè)計和局部控制規(guī)劃有難度,且不能保證編隊控制的良好穩(wěn)定性。
在基于虛擬結(jié)構(gòu)的策略中,一組AUV 被視為一個剛性結(jié)構(gòu),使AUV 之間保持為一個具有固定相對范圍的幾何形狀[21]。實現(xiàn)虛擬結(jié)構(gòu)策略需要3 個步驟: 首先,定義虛擬結(jié)構(gòu)的期望動態(tài)行為;其次,將虛擬結(jié)構(gòu)的期望行為轉(zhuǎn)化為每個AUV 的期望運動;最后,根據(jù)每個AUV 的期望運動,設(shè)計AUV的跟蹤控制器。虛擬結(jié)構(gòu)策略的優(yōu)點包括: AUV的協(xié)同行為易于描述;剛性結(jié)構(gòu)具有良好的維持編隊的性能,其缺點是適應(yīng)性和靈活性較差。
基于圖論的策略包括無向圖和有向圖[22]。在該策略中,每個節(jié)點為1 個AUV。在無向圖中,一條邊的長度為2 個AUV 間距離;在有向圖中,如果某個AUV 對另一個AUV 有影響(例如,一個AUV 的狀態(tài)取決于另一個AUV 的狀態(tài)),那么它們之間就存在一條具有方向性的邊。在這2 個圖中,節(jié)點的編隊形狀可表示AUV 的編隊形成形狀?;趫D論策略的優(yōu)點是,圖論可以為編隊控制提供足夠的理論支持;缺點在于,設(shè)計和求解基于圖論的策略比其他策略更為復雜。
基于人工勢場的策略是假設(shè)AUV 在一個抽象的人工勢場中移動,其中包括一個排斥勢場和一個吸引勢場。在勢場中,AUV 的運動依賴于一個潛在的力,期望的位置會產(chǎn)生一個有吸引力的潛在力,使AUV 朝向期望的位置運動;而障礙會產(chǎn)生一個排斥力,它與AUV 和障礙物之間的距離成反比,使AUV 遠離障礙。勢能是系統(tǒng)的一種特性,它取決于2 個物體(如障礙物和AUV)之間的相對位置。勢力和勢能之間的關(guān)系類似于重力和重力勢能之間的關(guān)系,如果勢力使AUV 移動,勢能就會減小。AUV 的運動可看作將一個編隊從高值能量狀態(tài)移動到低值能量狀態(tài)。一個場的勢能可以表示為人工勢函數(shù),包括吸引勢函數(shù)和排斥勢函數(shù)。人工勢函數(shù)策略具有計算簡單、易于實現(xiàn)和實時控制等優(yōu)點,缺點是很難找到全局最小值。
3) 面臨的約束
為實現(xiàn)AUV 的編隊,需要通過無線通信交換一些關(guān)鍵信息。由于水下特殊的環(huán)境,水聲傳輸?shù)倪^程中往往會面臨著眾多的約束條件。因此,在編隊控制中應(yīng)考慮復雜環(huán)境因素,如通信時滯、動態(tài)不確定性、有限帶寬和彈性控制等因素。
在水下環(huán)境中,傳播延遲主要是由緩慢和可變的傳播速度引起的[23-24]。大多數(shù)研究假設(shè)聲波在水下環(huán)境中的傳播速度約為1 500 m/s(通常在1 450~1 550 m/s 之間)[25],比電磁波在空氣中的傳播速度低5 個數(shù)量級?,F(xiàn)有研究中,考慮的通信延遲有些是時變的[26],而有些是固定的[27]。獲取通信延遲的方法之一是在發(fā)送每個數(shù)據(jù)包時加上時間戳[27],從而在同步的系統(tǒng)中獲得延遲信息。基于二次規(guī)劃等優(yōu)化理論,Suryendu 等[27]為領(lǐng)導者AUV 在具有狀態(tài)延遲的情況下設(shè)計了一種自適應(yīng)控制器,該研究成果在開放水域的實驗中采用基于優(yōu)化的方法有效地補償了時變延遲。Yan 等[26]利用李亞普諾夫—克拉索夫斯基泛函理論和代數(shù)圖論構(gòu)造并證明了多AUV 系統(tǒng)在具有時滯的場景下的充分一致條件。如何容忍大而時變的延遲來實現(xiàn)更好的AUV 編隊是一個重要的問題,但是這個問題目前仍然沒有完全解決。
洋流以及AUV 模型參數(shù)不確定等因素會給AUV 運動帶來諸多外部以及內(nèi)部的擾動,從而影響整個AUV 編隊的穩(wěn)定性。這些擾動通??梢越橐粋€隨機的非線性函數(shù)或一些具有控制輸入項的動態(tài)模型。在大多數(shù)情況下洋流是未知的,并被視為一種外部擾動。現(xiàn)有研究通常采用觀測器來解決在擾動、不確定性和噪聲條件下的編隊控制問題。Wei 等[28]采用擴展狀態(tài)觀測器估計未知擾動。Gao 等[29]設(shè)計了固定時間收斂的擾動觀測器,可在一個與初始估計誤差無關(guān)的有限時間上限內(nèi)實現(xiàn)精確估計。Liang 等[30]使用模糊邏輯系統(tǒng)來近似未知時變海洋擾動下的不確定動力學。Jian 等[31]采用分布式自適應(yīng)技術(shù)構(gòu)建了非奇異快速終端滑模控制器來估計外部干擾和內(nèi)部不確定性。
在水下環(huán)境中,水聲網(wǎng)絡(luò)通道的可用帶寬是有限的。為了完成各種作業(yè)任務(wù),AUV 通常需要交換大量自身和周圍環(huán)境的數(shù)據(jù)信息,如傳感器數(shù)據(jù)、控制數(shù)據(jù)和導航數(shù)據(jù)等。事實上,在采用周期內(nèi)采樣機制的多AUV 編隊系統(tǒng)穩(wěn)定過程中仍存在不必要的信息傳輸,不僅消耗通信資源,而且產(chǎn)生能量浪費,特別是電池供電的AUV 系統(tǒng)。因此,作為可以有效解決信息冗余和高通信壓力等問題的工具,事件觸發(fā)控制[32]被提出,只有當預設(shè)閾值函數(shù)滿足時AUV 才會通過水聲網(wǎng)絡(luò)交換數(shù)據(jù)信息。現(xiàn)有的事件觸發(fā)機制主要包括靜態(tài)事件觸發(fā)、動態(tài)事件觸發(fā)、自觸發(fā)、周期性事件觸發(fā)以及混雜事件觸發(fā)。事件觸發(fā)控制技術(shù)在多AUV 編隊系統(tǒng)中進行了研究,并取得了一些成果: Kim 等[33]提出了分布式事件觸發(fā)的自適應(yīng)編隊控制策略,用于三維空間中的網(wǎng)絡(luò)化不確定非線性AUV;Gao 等[34]設(shè)計了具有事件觸發(fā)聲通信的多AUV系統(tǒng)固定時間領(lǐng)導跟隨編隊控制方法,可以實現(xiàn)系統(tǒng)中所有信號的全局固定時間穩(wěn)定;Xu 等[35]研究了具有固定拓撲的多AUV 系統(tǒng)事件觸發(fā)分布式自適應(yīng)二部共識控制。
惡意的網(wǎng)絡(luò)攻擊、劇烈的電流沖擊以及意外碰撞等事故的出現(xiàn)也會嚴重影響AUV 編隊的性能。與AUV 編隊系統(tǒng)的不確定性不同,此類嚴重事故會導致AUV 節(jié)點的通信故障甚至是機體破壞,從而影響到整個編隊。對于AUV 這類安全至上的系統(tǒng),如何設(shè)計在惡意干擾攻擊或嚴重故障情況下的彈性控制器變得尤為重要。現(xiàn)有的網(wǎng)絡(luò)攻擊主要有拒絕服務(wù)(denial of service,DoS)攻擊和欺騙攻擊,前者通過惡意占用或屏蔽通信鏈路的方式阻止AUV 節(jié)點之間數(shù)據(jù)信息的交互,而后者則通過篡改AUV 的傳感器、執(zhí)行器或者通信鏈路中的數(shù)據(jù)信息達到破壞AUV 編隊穩(wěn)定性的目的。作為最有害的攻擊之一,DoS 攻擊已經(jīng)得到了廣泛的研究。從防御者的角度來看,DoS 攻擊的過程通常會用一些策略來描述,如伯努利過程[36]和馬爾可夫過程[37]。由于描述攻擊者的信號是隨機且不可預測的,描述攻擊者的基本策略有限。從攻擊者的角度來看,當其發(fā)起DoS 攻擊時希望不會被發(fā)現(xiàn),并且擁有無窮無盡的能量。然而,攻擊者的能量往往是有限且最終會消耗殆盡的。隨著高通濾波技術(shù)的發(fā)展,學者們建立了基于DoS 攻擊的頻率和持續(xù)時間能量約束攻擊模型[38]。Tang 等[39-40]采用混雜系統(tǒng)工具針對網(wǎng)絡(luò)攻擊下的彈性事件觸發(fā)控制問題做出了一系列研究,如針對DoS 攻擊和混合網(wǎng)絡(luò)攻擊的彈性編隊控制等。
任何控制系統(tǒng)都需要載體自身的位置信息,以實現(xiàn)閉環(huán)反饋。多AUV 協(xié)同導航和定位是指一組AUV 實現(xiàn)信息交換和資源共享,并利用水下聲通信觀察未知的水下環(huán)境,然后通過信息融合和狀態(tài)估計的方法獲得比單一AUV 更準確的估計[41]。使用一組AUV 協(xié)同進行定位,可以承擔復雜任務(wù),如廣泛的水下目標探測和海洋環(huán)境的綜合調(diào)查。此外,可使導航系統(tǒng)具有更好的容錯能力、魯棒性和穩(wěn)定性。與多傳感器信息融合結(jié)構(gòu)分類的方法類似,從算法的角度分類,協(xié)同導航和定位方法也可以分為基于濾波器的方法和基于優(yōu)化的方法。
1) 基于濾波器的方法
基于濾波器的協(xié)同導航和定位方法主要包括卡爾曼濾波器及其變體。當狀態(tài)噪聲和測量噪聲均為高斯分布時,卡爾曼濾波器是一個在最小均方誤差意義上的最優(yōu)估計器。在此基礎(chǔ)上,提出了一些著名的高斯近似濾波器,如擴展卡爾曼濾波器[42]和無跡卡爾曼濾波器[43-45]。標準卡爾曼濾波器及其變量是基于最大后驗估計的,通過狀態(tài)預測和狀態(tài)更新2 個過程得到的線性最小均方偏差和無偏估計方程。這些方法可以解決從線性高斯系統(tǒng)到非線性非高斯系統(tǒng)的大部分狀態(tài)估計問題。在實際應(yīng)用中,真實狀態(tài)噪聲和測量噪聲可以交替成為高斯噪聲和非高斯噪聲,這給傳統(tǒng)的高斯近似濾波方法帶來了挑戰(zhàn)。當系統(tǒng)正常運行,水下環(huán)境未受異常干擾時,狀態(tài)噪聲和測量噪聲均為高斯分布[46]。然而,當系統(tǒng)受到脈沖干擾、傳感器異常值和水聲通道多徑效應(yīng)的侵蝕時,狀態(tài)噪聲和測量噪聲可能分別是重尾噪聲和傾斜噪聲[47]。
針對非高斯噪聲,學者們提出了許多魯棒估計器。為了處理傾斜分布噪聲,Huang 等[48]構(gòu)建了基于卡爾曼濾波的通用高斯尺度混合分布框架,為了處理對稱重尾分布噪聲,通過最小化預測誤差和創(chuàng)新誤差的代價函數(shù)。Karlgaard 等[49]提出了Huber 卡爾曼濾波。Karlgaard 等[50]將非線性回歸Huber 卡爾曼濾波應(yīng)用于AUV 的協(xié)同定位,以減輕離群值對污染噪聲的影響。另一種目前出現(xiàn)的魯棒估計器稱為最大相關(guān)熵卡爾曼濾波,也被用來增強AUV 協(xié)同定位的魯棒性[51],其核心原理是最大化預測誤差和殘差的相關(guān)熵代價函數(shù)。利用非高斯噪聲中隱藏的重尾統(tǒng)計特征,Huang 等[52]提出了一類基于學生t 分布的卡爾曼濾波,其中包括一步預測和測量似然概率密度函數(shù),其被建模為學生t 分布,模型參數(shù)由變分貝葉斯方法推斷。學生t 分布的卡爾曼濾波優(yōu)于現(xiàn)有的Huber 卡爾曼濾波和最大相關(guān)熵卡爾曼濾波,因為估計狀態(tài)中固有的隨機性被充分利用[52]。盡管如此,上述所有的算法都是基于噪聲是平穩(wěn)的假設(shè)而構(gòu)造的。當狀態(tài)噪聲和測量噪聲非平穩(wěn)非高斯分布時,精度會下降。
2) 基于優(yōu)化的方法
傳統(tǒng)基于濾波器的迭代濾波算法在多AUV協(xié)同定位時有很大的非線性觀測方程條件下的線性誤差,并且由于是基于準確的觀測信息實現(xiàn)的,當觀測信息不準確時,容易引起濾波不穩(wěn)定問題?;趦?yōu)化的方法將系統(tǒng)狀態(tài)作為變量,通過引入運動方程和觀測方程約束,來構(gòu)造用以優(yōu)化的誤差函數(shù)。利用優(yōu)化技術(shù)實現(xiàn)的算法通常會將全局函數(shù)的優(yōu)化問題轉(zhuǎn)化為局部函數(shù)優(yōu)化問題。
現(xiàn)有定位優(yōu)化技術(shù)大致可分為距離相關(guān)技術(shù)和距離無關(guān)技術(shù)兩類。前者主要利用主/被動聲吶、前視/側(cè)掃聲吶以及測深儀等探測設(shè)備進行定位,其定位精度較高、受制因素較少。目前,一些學者已經(jīng)對距離相關(guān)定位技術(shù)進行了研究,并從不同角度出發(fā)設(shè)計了協(xié)同定位算法。這些算法大多利用信號到達時間差(time difference of arrival,TDOA)、信號到達時間(time of arrival,TOA)、信號飛行時間(time of flight,TOF)以及信號到達角度(angle-of-arrival,AOA)進行距離測量。例如,Zhou等[53]為減小網(wǎng)絡(luò)通信能耗,考慮AUV 與傳感器位置的時空相關(guān)性,提出了基于移動預測與TOA 的協(xié)同定位算法;Luo 等[54]對傳感器節(jié)點的被動移動進行分析,提出了混合網(wǎng)絡(luò)下的協(xié)同定位算法;Liu 等[55]同時考慮異步時鐘與聲線彎曲效應(yīng),設(shè)計了多階段同步定位算法,然而存在定位延遲長、算法復雜度高的不足;為此,Mortazavi 等[56]對時鐘同步與定位進行聯(lián)合求解,并在此基礎(chǔ)上進行聲線補償,該方法克服了定位延遲長、算法復雜度高的不足。
需要指出的是,流速場與水聲弱通信約束,以及移動目標自身高機動特性,導致現(xiàn)有最小二乘定位估計器易陷入局部最優(yōu)解,而基于凸優(yōu)化策略的定位估計器求解過程復雜甚至無解。針對上述問題,作者團隊[57-59]探討了流速場與水聲弱通信約束下的網(wǎng)絡(luò)自定位與移動目標定位問題,系統(tǒng)地提出基于深度學習的定位優(yōu)化估計器,采用值迭代方式對增量進行更新,以快速收斂到全局最優(yōu)解,并嚴格刻畫了收斂到全局最優(yōu)值。
多AUV 的協(xié)同路徑規(guī)劃研究主要以智能算法為主,因為智能算法在解決復雜動態(tài)環(huán)境中的路徑規(guī)劃問題上具有重要而有效的作用。目前主流的協(xié)同路徑規(guī)劃算法包括: 粒子群優(yōu)化算法、差分進化算法以及人工神經(jīng)網(wǎng)絡(luò)算法等。
粒子群優(yōu)化算法是一種基于鳥類種群捕食和返回的啟發(fā)式算法[56]。尋找最優(yōu)路徑的基本思想是通過群體中的個體合作機制,在鳥類運動過程中采用迭代的方法。Yang 等[60]提出了基于改進的粒子群優(yōu)化算法的3 次樣條優(yōu)化算法來解決多AUV 路徑規(guī)劃問題。由于中心路徑是由一個3 次樣條來描述的,因此路徑規(guī)劃等價于一個特定的3 次樣條的參數(shù)優(yōu)化。Yan 等[61]建立了一個具有復雜水下環(huán)境的多AUV 動態(tài)形成模型,該模型結(jié)合了人工勢場算法和粒子群優(yōu)化算法,可變大小的粒子群優(yōu)化作用是通過動態(tài)調(diào)整路徑節(jié)點的數(shù)量和分布來找到一個優(yōu)化的路徑來實現(xiàn)的。
差分進化算法的原理與遺傳算法非常相似,即在突變操作中利用種群中個體間的差向量對個體進行擾動以實現(xiàn)個體變異。差分進化算法的魯棒性優(yōu)于遺傳算法,在AUV 協(xié)同路徑規(guī)劃問題上取得了令人滿意的結(jié)果,其中Li 等[62]采用差分進化算法解決了AUV 三維路徑搜索中的避障問題。
人工神經(jīng)網(wǎng)絡(luò)是一種模擬人腦思維能力,利用大量模擬神經(jīng)元實現(xiàn)非線性算法功能的網(wǎng)絡(luò)。該算法的泛化性能較差,處理速度較慢。但由于其強大的學習能力、自適應(yīng)能力和較強的魯棒性,在避碰的AUV 路徑搜索中應(yīng)用廣泛[63-64]。Zhu 等[65]提出了一個嵌入在自組織圖神經(jīng)網(wǎng)絡(luò)中的生物啟發(fā)式神經(jīng)網(wǎng)絡(luò)。在這種方法中,自組織圖神經(jīng)網(wǎng)絡(luò)將多AUV 群分配到水下環(huán)境中的多個目標位置。然后,為了避免每個AUV 訪問相應(yīng)目標位置的障礙和速度跳躍,使用生物啟發(fā)式神經(jīng)網(wǎng)絡(luò)更新自組織圖獲勝者的權(quán)重,實現(xiàn)多AUV協(xié)同路徑規(guī)劃和有效導航。此外,人工神經(jīng)網(wǎng)絡(luò)易與其他算法相結(jié)合,其改進后的算法及與其他算法的結(jié)合已成為路徑規(guī)劃領(lǐng)域的一個熱點。Cao 等[66]提出了一種結(jié)合人工神經(jīng)網(wǎng)絡(luò)和速度合成的多AUV算法,以消除多機器人協(xié)同路徑規(guī)劃中電流的影響。隨后混合了生物啟發(fā)式自組織圖算法,以確保環(huán)境建模的穩(wěn)定性[67]。
根據(jù)分配方式,任務(wù)分配可以分為集中式分配方法和分布式分配方法。其中,集中式分配方法是控制中心在整體任務(wù)發(fā)布之前確定任務(wù)的分配方案,然后移交給AUV 子任務(wù)執(zhí)行。這意味著AUV 只承擔系統(tǒng)中的執(zhí)行步驟,而不參與決策步驟。分布式分配方法的不同之處在于,AUV 相互通信,相互協(xié)商,提出一個分配計劃然后執(zhí)行。其優(yōu)點是可以保證單個AUV 的最大效益,并充分利用AUV 的智能元素??紤]到大型智能水下系統(tǒng)的通信負擔與建立集中控制中心的高昂成本,目前的水聲通信技術(shù)還不能滿足集中式方法對水下大量信息交互的需要。因此,分布式分配方法更適合于水下系統(tǒng)[68]。分布式分配方法主要包括合同網(wǎng)算法、市場拍賣算法以及本身適用于多智能信息通信的算法,如自組織映射算法。
1) 合同網(wǎng)算法
合同網(wǎng)算法是模仿經(jīng)濟行為的“招投標中標”機制實現(xiàn)任務(wù)分配的談判協(xié)調(diào)方法。該技術(shù)是分布式任務(wù)分配的一種常見協(xié)商策略,已成功應(yīng)用于基于服務(wù)的網(wǎng)絡(luò)架構(gòu)[69]。在合同網(wǎng)算法模型中,假設(shè)每個AUV 都獨立存在,將AUV 分為邀請者、投標人和獲勝者(圖4所示)。其中,邀請者是任務(wù)管理者,負責任務(wù)分配;投標人的基本要求是能夠完成該任務(wù);獲勝者是中標人,即被指定為任務(wù)執(zhí)行人。由于AUV本身的特點,AUV 可以承擔多種角色,無論時間、條件或狀態(tài)是否發(fā)生變化,它們都可以獨立處理投標。然而,其局限性體現(xiàn)在投標過程中多個投標人共存,不易產(chǎn)生有效投標人;在投標過程中,潛在投標人增加了無效投標的數(shù)量和投標人評估投標結(jié)果的負擔,極易發(fā)生不合理分配。為了解決這2 個問題,Li 等[70]提出了異構(gòu)多AUV 任務(wù)分配合同網(wǎng)算法,結(jié)合任務(wù)負載比指數(shù)和令牌環(huán)網(wǎng)絡(luò)概念,有效解決了投標人及其任務(wù)選擇不合理的問題。
圖4 合同網(wǎng)算法原理圖Fig.4 Schematic diagram of contract network algorithm
2) 市場拍賣算法
為了解決多項式時間算法對單個任務(wù)的最優(yōu)分配問題,Bertsekas 等[71]提出了市場拍賣算法,該算法可以找到近似最優(yōu)解。Michael 等[72]據(jù)此提出了分布式拍賣算法,該算法可應(yīng)用于拓撲變量的情況,并能保證收斂性和最優(yōu)性。Qtte 等[73]通過考慮投標人和拍賣人的各種評估函數(shù),包括利潤最大化、成本最小化等,解決了通信受限環(huán)境下的任務(wù)分配問題。李鑫濱等[74]建立了異構(gòu)多AUV任務(wù)分配分布式拍賣模型,利用任務(wù)獎勵反饋機制來解決現(xiàn)有的拍賣算法忽略了拍賣人的利益問題,最后通過多輪試驗拍賣市場,確保AUV 用低成本的任務(wù)分配系統(tǒng)完成任務(wù),從而促進任務(wù)分配系統(tǒng)參與拍賣,更符合市場規(guī)律,并提高了多AUV 系統(tǒng)的任務(wù)分配系統(tǒng)應(yīng)對復雜水下環(huán)境的能力。市場拍賣算法實現(xiàn)了多AUV 協(xié)同任務(wù)分配問題的最優(yōu)解決方案[75]。
3) 自組織映射算法
自組織映射(self-organizing maps,SOM)神經(jīng)網(wǎng)絡(luò)最初由Kohonen[76]提出,后來被學者們廣泛使用。該算法的相關(guān)研究較多,但大多只強調(diào)解決二維機器人系統(tǒng)的任務(wù)分配問題,而解決多AUV系統(tǒng)的任務(wù)分配問題的研究較少。與二維工作空間相比,對三維工作空間的研究更具有相關(guān)性[77],特別是AUV 受到水流甚至水中障礙的影響,對任務(wù)分配提出了更高的要求。
Zhu 等[78]提出了將SOM 應(yīng)用于多AUV 系統(tǒng)的任務(wù)分配和路徑規(guī)劃方案,同時提出了一種基于SOM 神經(jīng)網(wǎng)絡(luò)的多AUV 系統(tǒng)任務(wù)分配算法。考慮到SOM 神經(jīng)網(wǎng)絡(luò)的自組織特性,該方法不僅適用于靜態(tài)環(huán)境,而且可以充分應(yīng)用于動態(tài)環(huán)境中的任務(wù)分配,并將機器人的運動規(guī)劃集成到任務(wù)分配中,使多個AUV 能夠根據(jù)環(huán)境的變化,自組織任務(wù)分配,并實時動態(tài)調(diào)整運動規(guī)劃。Zhu等[79]考慮了AUV 的安全距離,并將獲勝鄰域更新規(guī)則加入速度合成算法,有效消除了洋流對AUV的影響。雖然三維空間中的任務(wù)分配問題得到了有效解決,但沒有考慮到障礙,因此朱大奇等[80]引入了柵格置信函數(shù)的概念,給出了一種改進的柵格置信自組織算法,旨在確保AUV 到達目標位置的同時,能夠自動避開障礙物。Zhang 等[81]使用向量方向的自組織算法任務(wù)分配的多機器人系統(tǒng)使機器人能夠訪問每個目標位置,整個過程包括神經(jīng)元的選擇、鄰居函數(shù)的確定以及修改權(quán)重。后續(xù)研究,大多從路徑規(guī)劃角度優(yōu)化自組織映射[82-83]。
目標圍捕是指在多AUV 協(xié)同的動態(tài)過程中多個捕食者捕獲多個逃離者,其中包括多個協(xié)同技術(shù)領(lǐng)域的交叉問題,如協(xié)同搜索、協(xié)同路徑規(guī)劃、分布式協(xié)同與控制以及任務(wù)分配等。
Zhu 等[84]集成了仿生神經(jīng)網(wǎng)絡(luò)和協(xié)商機制來捕獲目標,在狩獵目標的過程中,為了避免AUV之間的碰撞,AUV 在移動前會與其他AUV 進行協(xié)商。為了進一步提高AUV 之間的協(xié)作能力,Cao等[85]不僅將神經(jīng)網(wǎng)絡(luò)改進為Glasius 生物啟發(fā)神經(jīng)網(wǎng)絡(luò),而且還引入了自組織映射任務(wù)分配算法,提高了目標狩獵的效率,縮短了各AUV 的狩獵距離。在未知的深海三維復雜環(huán)境中,Ni 等[86]將深海中異構(gòu)機器人的協(xié)同圍捕分為搜索和追蹤2 個子任務(wù),提出了一種基于脊髓神經(jīng)系統(tǒng)的新方法,將基于改進的脊髓神經(jīng)系統(tǒng)編隊控制算法應(yīng)用于搜索階段,并采用并行劃分的策略,在協(xié)同追逐階段,提出了基于改進遺傳算法的雙向協(xié)商策略和協(xié)同追逐方向分配方法,有效地實現(xiàn)了深海協(xié)同圍捕。Chen 等[87]提出了一種時間競爭機制,建立了有效的動態(tài)聯(lián)盟,解決了異質(zhì)水下航行器最大航行速度性能差異的影響。狩獵隊的速度越高,越適用于廣泛的水下環(huán)境。同時為了防止目標的逃逸,提出了一種高斯分布啟發(fā)式神經(jīng)網(wǎng)絡(luò)模型和一種信念函數(shù)作為路徑規(guī)劃方法。Cao 等[88]研究了目標速度不低于AUV 速度時的多AUV 協(xié)同目標圍捕策略,同時提出了一種基于動態(tài)預測的基于移動目標軌跡的圍捕策略。
21 世紀是海洋的世紀,海洋資源、海上權(quán)利以及海洋經(jīng)濟將成為區(qū)域競爭的主要焦點。美國、日本、歐盟等國家和地區(qū)競相制定海洋戰(zhàn)略,以搶占海洋科技競爭與未來發(fā)展制高點。我國擁有3.2 萬公里海岸線、300 萬平方公里管轄海域,深耕這片藍色國土必須以強大的海洋探測能力,尤其是多AUV 協(xié)同控制能力作為技術(shù)支撐。目前,多AUV 協(xié)同控制技術(shù)已有長足發(fā)展,但其中仍有眾多重要且尚需解決的問題值得深入探究。
1) 基于通信交互的AUV 中繼
在復雜多變的水下環(huán)境中,保持多AUV 系統(tǒng)持續(xù)的通信鏈接是一個重要的指標。當通信鏈接正常時,每個AUV 都是相同的類型并且能夠執(zhí)行任務(wù)。而當通信質(zhì)量惡化時,為了提高水聲傳輸信道的質(zhì)量,一些AUV 可以作為專門的信號中繼,為其他機器人建立通信鏈路。在水下對抗環(huán)境中,可以部署多個AUV 作為中繼,以確保AUV 之間的通信連通性,實現(xiàn)通信能力提升。作者前期工作[89-90]嘗試將水聲信道建模引入AUV 路徑規(guī)劃與編隊控制,同時采用水聲信噪比進行優(yōu)化迭代,為后續(xù)進一步研究提供了一定理論依據(jù)。
2) 結(jié)合人工智能學習算法
由于很難對各種環(huán)境條件進行建模,水下環(huán)境的多變性成為了多AUV 協(xié)同控制中的一個復雜問題。此外,AUV 的動作會使環(huán)境不斷變化,從而導致高度動態(tài)的問題空間。因此,很難采用高度依賴數(shù)據(jù)的監(jiān)督學習和無監(jiān)督學習方法。而強化學習不需要已有知識或數(shù)據(jù),是一種解決大規(guī)模復雜問題的有效技術(shù)。此外,在對抗環(huán)境中,干擾者的智能水平會隨著AUV 的智能水平不斷提高而提高,從而使得AUV 總是面臨新的環(huán)境。強化學習通過接受AUV 所采取行動上的獎勵或懲罰來訓練模型,這樣它就能夠通過學習策略來應(yīng)對不可預見的環(huán)境。強化學習方法可以分為無模型方法和基于模型方法。在無模型方法中,AUV 需要通過反復試驗與環(huán)境保持交互,以便了解行為后果。然而,無論是無模型方法還是基于模型方法都缺乏可伸縮性,只適合于相當?shù)途S的問題。如今,隨著計算機性能和數(shù)據(jù)處理能力的不斷提高,強化學習與深度學習相結(jié)合更適合用于解決大規(guī)模復雜問題。
3) 虛擬仿真環(huán)境構(gòu)建
水下環(huán)境是高度動態(tài)的,難以精確預測。為了使AUV 適應(yīng)持續(xù)變化的新環(huán)境,一種有效的方法是在各種場景下訓練每個AUV。然而,構(gòu)建許多現(xiàn)實場景的成本過高會造成很大的負擔,并且訓練的過程通常是低效的。因此,在虛擬的仿真環(huán)境中訓練AUV 可能是一個很好的選擇。對于每個AUV,其訓練結(jié)果的最優(yōu)性在很大程度上取決于虛擬環(huán)境的保真度,例如,深度學習需要通過與環(huán)境的交互獲得反饋來調(diào)整AUV的動作策略,然而,建立一個現(xiàn)實的水下洋流和各類地理場景可能會成為一個重大挑戰(zhàn)。近年來,一些人工智能公司與游戲公司合作開發(fā)了深度學習模擬平臺,如“宇宙”、“SC2LE”等。游戲地理場景的生成可以為虛擬地理環(huán)境的構(gòu)建提供重要參考。此外,計算機圖形學結(jié)合深度學習在現(xiàn)實地理場景生成方面做了大量工作,包括大型室外場景[91]和小型室內(nèi)場景[92],都是虛擬仿真環(huán)境構(gòu)建技術(shù)的有益嘗試。
4) 軟件框架設(shè)計
實際應(yīng)用中,每一種多AUV 協(xié)同控制技術(shù)都是由嵌入在軟件中的特定算法實現(xiàn)的。AUV 軟件架構(gòu)設(shè)計具有需要與不確定和動態(tài)環(huán)境交互的特點。為了適應(yīng)這種情況,架構(gòu)設(shè)計應(yīng)該遵循模塊化和層次化的原則,這促使AUV 系統(tǒng)被設(shè)計為基于分布式組件的系統(tǒng)。在基于組件的體系結(jié)構(gòu)中,每個組件都具有對應(yīng)于一類算法的獨立功能。目前,AUV 系統(tǒng)變得越來越復雜,這使得系統(tǒng)需要更多的組件來完成一個特定的任務(wù)。如何根據(jù)各種組件的功能對其進行模塊化,以及如何設(shè)計高效的組件管理和調(diào)度機制來應(yīng)對水下環(huán)境中的情況變化都是值得解決的問題。
5) 多AUV 探測—通信—控制一體化設(shè)計
現(xiàn)有多AUV 系統(tǒng)的探測、通信、控制系統(tǒng)通常是相互獨立的。具體來說,探測系統(tǒng)主要關(guān)注如何利用主/被動聲吶來接收目標輻射噪聲或者散射回波,同時結(jié)合波束成形、方位估計等信號處理技術(shù),以測定目標形狀與距離信息;通信系統(tǒng)主要關(guān)注如何針對多徑干擾、多普勒頻移、窄帶寬、高能耗等水聲信道特性,設(shè)計信息收發(fā)協(xié)議以實現(xiàn)水下數(shù)據(jù)的可靠傳輸;控制系統(tǒng)主要關(guān)注如何利用岸基中心的前饋信息與傳感器/AUV 的反饋信息,設(shè)計高性能控制器以確保AUV 穩(wěn)定操縱??梢钥闯?探測與通信系統(tǒng)在工作原理與信號處理上具有一定的重疊性,如果兩者分離設(shè)計和使用,那么在帶寬利用和能量消耗上將相互競爭;此外,控制系統(tǒng)設(shè)計通常獨立于探測和通信系統(tǒng),即假設(shè)探測與通信是完美實現(xiàn)的,然而水下目標強機動性與水聲弱通信特性,一方面使得上述假設(shè)在水下環(huán)境很難實現(xiàn),另一方面使得探測和通信系統(tǒng)缺乏有效的反饋控制機制,阻礙了水下監(jiān)測網(wǎng)絡(luò)整體性能的提升。因此,亟需開展多AUV 系統(tǒng)探測—通信—控制協(xié)同設(shè)計研究(見圖5),以通過水下目標探測、通信組網(wǎng)和協(xié)同控制的融合,最大限度地把信息優(yōu)勢轉(zhuǎn)化為決策優(yōu)勢,實現(xiàn)水下監(jiān)測網(wǎng)絡(luò)整體性能的提升。目前作者團隊[93-94]針對多AUV 探測—通信—控制一體化設(shè)計提出了一些理論方法,但是距離在真實海洋環(huán)境中的推廣和應(yīng)用,尚需進一步探索與研究。
圖5 多AUV 探測—通信—控制一體化設(shè)計Fig.5 Co-design of detection,communication and control for multi-AUVs
文中梳理了近年來國內(nèi)外有關(guān)AUV 協(xié)同控制關(guān)鍵技術(shù)的最新研究工作,概述了多 AUV 編隊控制、協(xié)同導航和定位、協(xié)同路徑規(guī)劃、任務(wù)分配以及圍捕等問題的研究近況以及代表性算法的技術(shù)細節(jié),討論了未來研究的重點方向,同時總結(jié)歸納了諸多亟待解決的難題。
作為一種跨學科技術(shù),AUV 在未來應(yīng)用中應(yīng)注重在基于通信交互的AUV 中繼、結(jié)合人工智能學習算法、虛擬仿真環(huán)境構(gòu)建、軟件框架設(shè)計、多AUV 探測—通信—控制一體化設(shè)計等方面的提升,解決復雜水下環(huán)境帶來的技術(shù)挑戰(zhàn),提高多AUV操作能力,使其在未來發(fā)揮更重要的作用。