高顯忠,鄧小龍,王玉杰,郭正,侯中喜
國(guó)防科技大學(xué) 空天科學(xué)學(xué)院,長(zhǎng)沙 410073
臨近空間是指高于一般航空器飛行高度,低于一般航天器軌道高度的空天結(jié)合區(qū)域,其概念與傳統(tǒng)航空和航天領(lǐng)域存在較大差異,具有獨(dú)特的環(huán)境優(yōu)勢(shì)和巨大的潛在軍事效能[1]。臨近空間的利用曾因技術(shù)水平限制而被忽略,近年來,隨著科技水平的快速進(jìn)步,臨近空間已成為人類繼陸、海、空、天之后,進(jìn)一步拓展和利用的自然環(huán)境,是大國(guó)博弈的新空間。臨近空間穩(wěn)定的大氣環(huán)境和豐富的太陽輻射資源已成為新型臨近空間飛行器發(fā)展的物質(zhì)基礎(chǔ)。臨近空間太陽能飛機(jī)是低速臨近空間飛行器中一種極具發(fā)展?jié)摿Φ募夹g(shù)途徑[2],有望成為一個(gè)理想的具有空間覆蓋范圍廣、時(shí)間/空間分辨率高、機(jī)動(dòng)能力強(qiáng)、承載能力適中等特色的高空長(zhǎng)航時(shí)(High-Altitude Long-Endurance,HALE)區(qū)域通信、中繼、偵察和運(yùn)輸平臺(tái)[3]。
世界上第1 架太陽能飛機(jī)“Sunrise-I”于1974 由Astro Flight 公司設(shè)計(jì)、制造和組織飛行。之后,太陽能飛機(jī)的發(fā)展長(zhǎng)時(shí)間停留在低空飛行測(cè)試與試驗(yàn)階段。
首先提出太陽能飛機(jī)在臨近空間高度持久飛行構(gòu)想,并開展樣機(jī)研制和飛行試驗(yàn)的是美國(guó)NASA 研究計(jì)劃局Langley 研究中心的Noll 所帶領(lǐng)的團(tuán)隊(duì)[4]。該團(tuán)隊(duì)與美國(guó)航境公司(AeroVironment)深度合作,在NASA 資助下成立了“環(huán)境研究飛機(jī)和傳感器技術(shù)(Environmental Research Aircraft and Sensor Technology,ERAST)”項(xiàng)目組,先后研發(fā)了“Pathfinder”“Centurion”“Helios”等多型以臨近空間持久駐留為目標(biāo)的太陽能飛機(jī)原型,如圖1 所示[5]。
圖1 ERAST 項(xiàng)目中太陽能飛機(jī)原型示意圖[5]Fig.1 Demonstration diagram of solar-powered aircraft in project of ERAST[5]
受限于當(dāng)時(shí)太陽能飛機(jī)設(shè)計(jì)理論,項(xiàng)目團(tuán)隊(duì)為增大太陽電池鋪裝面積,獲得更多轉(zhuǎn)化功率以實(shí)現(xiàn)長(zhǎng)時(shí)間飛行,原型機(jī)翼展也一再擴(kuò)大,從最初 “Pathfinder” 的30.5 m 增大到HP03 號(hào)原型機(jī)的75.3 m。2001 年8 月13 日Helios 的高空原型機(jī)HP01 達(dá)到了29.5 km 的飛行高度,這是有翼航空飛行器持續(xù)飛行的最高飛行高度記錄。但是,在2003 年6 月26 日,Helios 的長(zhǎng)航時(shí)原型機(jī)HP03 在飛行試驗(yàn)過程中解體,原因是該飛行器遭受了大氣湍流和結(jié)構(gòu)失效,這也是一味增大太陽能飛機(jī)翼展面積,形成大展弦比翼展的直接后果。自此以后,NASA 決定終止ERAST 項(xiàng)目[4,6]。
另一個(gè)具有較大影響力的臨近空間太陽能項(xiàng)目是Zephyr,該項(xiàng)目由英國(guó)QinetiQ 公司開展,在2001—2010 年間,先后從Zephyr 2 研制到Zehpyr 7,如圖2 所示。由于吸取了ERAST 項(xiàng)目的經(jīng)驗(yàn),Zephyr 項(xiàng)目放棄了柔性可拓展變形結(jié)構(gòu)翼的概念,轉(zhuǎn)而使用碳纖維復(fù)合材料的輕質(zhì)高強(qiáng)度固定翼,通過不斷提升能源系統(tǒng)效率,2010 年,Zepyhr 7 已完成14 d 不間斷飛行[7]。
圖2 Zephyr 項(xiàng)目中各代太陽能飛機(jī)的演化過程Fig.2 Evolution process of solar-powered aircraft in Zephyr project
由于臨近空間太陽能飛機(jī)在通信和WiFi 無線接入方面有廣闊的應(yīng)用場(chǎng)景和巨大的商業(yè)價(jià)值,有望為世界各地?zé)o網(wǎng)絡(luò)基礎(chǔ)設(shè)施地區(qū),以及因緊急突發(fā)情況出現(xiàn)網(wǎng)絡(luò)中斷地區(qū)提供持續(xù)的網(wǎng)絡(luò)和通信服務(wù),2015 年之后,臨近空間太陽能飛機(jī)的平臺(tái)研制迎來全面發(fā)展。世界商業(yè)巨頭Google、Facebook、Lockheed Martin 等公司紛紛入局,世界著名飛機(jī)制造商AirBus 也在收購英國(guó)QinetiQ 公司之后,大力開展臨近空間太陽能飛機(jī)的研制[8]。
2015 年后,典型的臨近空間太陽能項(xiàng)目如表1[9]所示。其中最具代表性的有: 2018 年8 月,由Bye Aerospace 公司研制的StratoAirNet 臨近空間太陽能飛機(jī)在美國(guó)北科羅拉多地區(qū)完成首次試飛。該飛行器翼展為15 m,內(nèi)置SolAero 光伏電池,理想光照條件下,可提供約2 kW 電力持續(xù)飛行。該飛行器計(jì)劃用于商業(yè)和政府安全需求,并將作為“大氣衛(wèi)星”無人機(jī)運(yùn)行。2018 年9 月,空客研制的高空太陽能飛機(jī)Zephyer-S 在美國(guó)亞利桑那州成功降落,創(chuàng)造高空太陽能飛機(jī)為25 d23 h57 min 的最長(zhǎng)駐空飛行記錄。該飛行器翼展為25 m,質(zhì)量約75 kg,日間巡航高度為21 km,夜間巡航高度為16.7 km??湛湍壳耙言谟?guó)范保羅建立該型無人機(jī)的量產(chǎn)工廠,并計(jì)劃推出更為先進(jìn)的T 系列飛行器。2020 年,空客收到英國(guó)國(guó)防部首批3 架Zephyr-S 訂單,用于作戰(zhàn)概念驗(yàn)證。2021 年夏季開始,至9 月13 日結(jié)束,Zephyr-S 在美國(guó)亞利桑那州開展了4 次低空飛行和2 次平流層飛行試驗(yàn),最長(zhǎng)駐空時(shí)間達(dá)36 d,創(chuàng)造了23.2 km 的飛行高度新紀(jì)錄。
表1 臨近空間太陽能無人機(jī)設(shè)計(jì)參數(shù)及試飛數(shù)據(jù)[9]Table 1 Design parameter and flight test data of near-space solar-powered aircraft[9]
國(guó)內(nèi)研究方面,國(guó)防科技大學(xué)侯中喜教授團(tuán)隊(duì)早在2009 年開始臨近空間太陽能飛機(jī)研究,先后開展了太陽飛機(jī)單垂尾、雙垂尾、雙機(jī)身等布局探索,研制了14 m 翼展太陽能飛機(jī)原理樣機(jī)。在國(guó)內(nèi)首次實(shí)現(xiàn)原理樣機(jī)飛行試驗(yàn)中的太陽電池2 倍盈余發(fā)電[10]。通過總結(jié)提煉,該團(tuán)隊(duì)提出太陽能飛機(jī)設(shè)計(jì)中的廣義能源概念,將氣動(dòng)效率、結(jié)構(gòu)重量、動(dòng)力推進(jìn)效率、光伏轉(zhuǎn)換效率、儲(chǔ)能電池能量密度等參數(shù)都表征為廣義能源,簡(jiǎn)化了總體設(shè)計(jì)過程,有利于發(fā)現(xiàn)各學(xué)科參數(shù)之間的等價(jià)性和敏感性,為太陽能飛機(jī)實(shí)現(xiàn)跨晝夜能量閉環(huán)提供了設(shè)計(jì)思路[5]。
中科院工程熱物理研究所馬曉平研究員在高空長(zhǎng)航時(shí)太陽能飛機(jī)領(lǐng)域開展了廣泛深入研究,成果豐碩。團(tuán)隊(duì)中,倪文軍等采用軟角色-評(píng)論家算法對(duì)太陽能飛機(jī)的能量最優(yōu)軌跡規(guī)劃方法進(jìn)行了研究[11]。張自建等對(duì)太陽能飛機(jī)的一體化電池布局和結(jié)構(gòu)拓?fù)鋬?yōu)化進(jìn)行了系統(tǒng)分析,在考慮太陽能飛機(jī)大展弦比主梁約束條件下,將鋰電池作為部分承重構(gòu)件起到功能化結(jié)構(gòu)材料的作用,在相同結(jié)構(gòu)重量下,結(jié)構(gòu)變形和抑制22.8%[12]。
中國(guó)航天空氣動(dòng)力技術(shù)研究所研發(fā)的彩虹-9太陽能飛機(jī),于2017 年6 月在西北某試驗(yàn)基地完成飛行試驗(yàn)。據(jù)報(bào)道,該飛行器翼展為45 m,飛行高度為20 km。仲維國(guó)等對(duì)太陽能飛機(jī)循環(huán)飛行在高度剖面上的能量運(yùn)用策略進(jìn)行了分析。提出立足于實(shí)時(shí)功率平衡,充分利用正午前后光伏峰值功率爬升及充電,午后下滑利用全部光伏輸出的策略,提高了飛行平臺(tái)多日續(xù)航成功率,優(yōu)化了平臺(tái)適用性[13]。
航空工業(yè)第一飛機(jī)設(shè)計(jì)院在2016 年成功研制了10 m 翼展“啟明星”太陽能飛機(jī)技術(shù)驗(yàn)證機(jī),通過近兩年對(duì)高效氣動(dòng)布局、輕質(zhì)結(jié)構(gòu)和能源綜合管理系統(tǒng)等關(guān)鍵技術(shù)的深化驗(yàn)證,以及持續(xù)開展的自主飛行、全系統(tǒng)驗(yàn)證試飛、長(zhǎng)航時(shí)試飛等試飛科目,于2018 年9 月實(shí)現(xiàn)了長(zhǎng)航時(shí)連續(xù)飛行。2021 年7 月,設(shè)計(jì)研發(fā)的20 m 翼展大尺寸技術(shù)驗(yàn)證機(jī)完成首飛,并于2021 年11 月3 日完成一鍵全自主飛行試驗(yàn),于2021 年11 月26 日完成能源系統(tǒng)首次飛行驗(yàn)證。
中國(guó)航天科工三院的飛云工程于2020 年順利完成了多架次臨近空間太陽能飛機(jī)自主飛行驗(yàn)證,取得階段性成果?!帮w云”太陽能飛機(jī)采用中等翼展常規(guī)布局形式,在實(shí)現(xiàn)高升阻比氣動(dòng)性能的同時(shí)降低了飛行控制難度,提高了使用維護(hù)性能?!帮w云”采用超輕高強(qiáng)復(fù)合材料機(jī)體結(jié)構(gòu),降低了結(jié)構(gòu)重量占比,提升了飛機(jī)的抗風(fēng)性能及環(huán)境適應(yīng)性。其采用的高效能源動(dòng)力系統(tǒng)及多余度可靠機(jī)載設(shè)備,大大提升了飛機(jī)長(zhǎng)航時(shí)飛行的任務(wù)可靠性。
北京航空航天大學(xué)馬東立教授認(rèn)為:超長(zhǎng)航時(shí)太陽能飛機(jī)的關(guān)鍵技術(shù)包括總體設(shè)計(jì)方法、氣動(dòng)設(shè)計(jì)技術(shù)、氣動(dòng)彈性與陣風(fēng)減緩技術(shù)、飛行控制技術(shù)、高效能源技術(shù)、動(dòng)力推進(jìn)技術(shù)、飛行軌跡優(yōu)化技術(shù)。其中飛行軌跡優(yōu)化為提升太陽能飛機(jī)的跨晝夜長(zhǎng)航時(shí)飛行任務(wù)的可行性提供了另一條重要的技術(shù)途徑,也是太陽能飛機(jī)區(qū)別于常規(guī)無人機(jī)的重要研究?jī)?nèi)容[9,14]。
南京航空航天大學(xué)昂海松教授團(tuán)隊(duì)較早關(guān)注到太陽能無人機(jī)技術(shù)的發(fā)展,并對(duì)世界上多種小型太陽能無人機(jī)翼展、巡航時(shí)間、起飛重量等方面進(jìn)行了分析和介紹[15]。2021 年,對(duì)任務(wù)區(qū)域約束條件下的太陽能飛機(jī)飛行軌跡優(yōu)化問題進(jìn)行了研究,開發(fā)了一種優(yōu)化飛行控制方法用于規(guī)劃太陽能飛機(jī)飛行航跡,使太陽能飛機(jī)在大部分白天的飛行時(shí)間都能保持最優(yōu)偏航角[16]。同時(shí),也對(duì)翼尖小翼對(duì)太陽能飛機(jī)的能量和長(zhǎng)航時(shí)性能的影響進(jìn)行了分析[17]。
西北工業(yè)大學(xué)周洲教授開展了基于最長(zhǎng)航時(shí)的太陽能飛機(jī)操縱策略研究,建立了一種結(jié)合太陽能飛機(jī)飛行姿態(tài)與輻射能量獲取和消耗的模型,得出不同操縱方式下相同任務(wù)路徑的飛行航時(shí)[18],周洲教授團(tuán)隊(duì)的“魅影”太陽能飛機(jī)歷時(shí)10 年研發(fā)而成。飛機(jī)機(jī)長(zhǎng)為1.2 m,翼展為7 m,最大起飛質(zhì)量為16 kg,有效任務(wù)載荷為1~5 kg,最大續(xù)航時(shí)間為12~24 h,抗風(fēng)能力為7 級(jí),通信距離為50 km,Wi-Fi 信號(hào)覆蓋范圍為300 km2。
在應(yīng)用方面,臨近空間太陽能飛機(jī)相比其他空中平臺(tái)具有明顯優(yōu)勢(shì):與衛(wèi)星相比,其信號(hào)傳輸損失小、精度高,可實(shí)現(xiàn)目標(biāo)區(qū)域永久駐留,不存在重返周期問題,生產(chǎn)和運(yùn)營(yíng)成本低;與傳統(tǒng)飛機(jī)相比,其覆蓋區(qū)域廣,留空時(shí)間長(zhǎng);與浮空器相比,其操控性好,機(jī)動(dòng)性強(qiáng)[7]。正如IEEE 太空與衛(wèi)星通信技術(shù)委員會(huì)委員、IEEE 高級(jí)會(huì)員、澳大利亞皇家墨爾本大學(xué)Kandeepan 教授在談及未來空中通信網(wǎng)絡(luò)的設(shè)計(jì)與實(shí)施中所言[19]:運(yùn)行在臨近空間高度的太陽能飛機(jī)將是未來最具潛力的主干通信網(wǎng)絡(luò)節(jié)點(diǎn)??梢灶A(yù)見:臨近空間太陽能飛機(jī)將在空間攻防和信息對(duì)抗中發(fā)揮重要作用,成為現(xiàn)有空中力量的重要補(bǔ)充,進(jìn)一步促進(jìn)空天一體化發(fā)展。
目前,在實(shí)現(xiàn)臨近空間環(huán)境下的高空超長(zhǎng)航時(shí)飛行方面,太陽能飛機(jī)的發(fā)展仍面臨諸多技術(shù)難題和挑戰(zhàn),包括臨近空間低密度大氣特征、高低空迥異的風(fēng)場(chǎng)環(huán)境特點(diǎn)以及跨晝夜的能量閉環(huán)等問題,其中跨晝夜能量閉環(huán)問題是制約高空長(zhǎng)航時(shí)飛行最為關(guān)鍵的因素。突破現(xiàn)有能源系統(tǒng)供電能力的瓶頸是當(dāng)前太陽能飛機(jī)發(fā)展的當(dāng)務(wù)之急[20]。太陽能飛機(jī)SKY-SAILOR 的設(shè)計(jì)師Noth[21]在總結(jié)了自1973 年以來歷史上有記錄的近百架太陽能飛機(jī)的總體設(shè)計(jì)參數(shù)后認(rèn)為,太陽能飛機(jī)設(shè)計(jì)中除了要考慮常規(guī)飛行器設(shè)計(jì)側(cè)重的升重平衡和推阻平衡外,最為關(guān)鍵的是必須考慮飛行器晝夜能量平衡,并且只有在實(shí)現(xiàn)晝夜能量平衡的條件下太陽能飛機(jī)才能實(shí)現(xiàn)真正意義上的高空長(zhǎng)航時(shí)飛行。制約太陽能飛機(jī)實(shí)現(xiàn)高空長(zhǎng)航時(shí)飛行的關(guān)鍵在于如何將白天獲取的能量有效存儲(chǔ)起來供夜間使用。在可預(yù)見的光伏電池、儲(chǔ)能電池和能源管理系統(tǒng)技術(shù)水平下,太陽能飛機(jī)是否有可能從環(huán)境中以其他形式獲取和存儲(chǔ)能量實(shí)現(xiàn)穩(wěn)定的太陽能飛機(jī)高空長(zhǎng)航時(shí)飛行已經(jīng)成為當(dāng)前航空界亟待解決的難題。
正如ERAST 計(jì)劃所顯示,受儲(chǔ)能電池能量密度和光伏電池效率的約束,為滿足太陽能飛機(jī)平臺(tái)載荷指標(biāo)的約束,平臺(tái)在尺寸上需要持續(xù)的擴(kuò)大。因此,尋找一種潛在、有效的、可幫助飛行平臺(tái)高效利用太陽能量的方法持續(xù)吸引著航空研究者的注意。太陽能飛機(jī)區(qū)別于常規(guī)飛機(jī)的一個(gè)重要研究?jī)?nèi)容是飛行航跡規(guī)劃方法,對(duì)臨近空間飛行平臺(tái)而言,環(huán)境能量的存儲(chǔ)和利用至關(guān)重要,而這又與飛行航跡密切相關(guān),因此,以能量最優(yōu)為設(shè)計(jì)目標(biāo)的航跡優(yōu)化方法為提升太陽能飛機(jī)的跨晝夜長(zhǎng)航時(shí)飛行任務(wù)開拓了一條重要技術(shù)途徑,具有大幅拓展臨近空間太陽能飛機(jī)性能邊界的潛力[5]。
在能量最優(yōu)的指標(biāo)約束下,臨近空間太陽能飛機(jī)的飛行航跡優(yōu)化是一個(gè)綜合性的復(fù)雜問題,涉及內(nèi)容包括太陽輻照、臨近空間大氣風(fēng)場(chǎng)環(huán)境、飛行姿態(tài)和飛行任務(wù)約束,這些綜合因素確定了平臺(tái)飛行規(guī)劃選擇的策略形式。由于飛行平臺(tái)高度變化和風(fēng)場(chǎng)變化耦合影響的因素非常復(fù)雜,目前關(guān)于飛行航跡規(guī)劃方法的研究基本上都是將高度因素和風(fēng)場(chǎng)因素相互分離進(jìn)行分析。
2.2.1 不考慮風(fēng)場(chǎng)變化
在不考慮環(huán)境風(fēng)場(chǎng)的條件下,以能量最優(yōu)性指標(biāo)作為衡量,飛行規(guī)劃的思路比較明確,主要考慮以下2 方面的因素。
一種是從飛行過程中平臺(tái)與太陽入射角之間的關(guān)系入手優(yōu)化飛行姿態(tài)以獲取更多能量。按照太陽輻照模型,太陽輻照功率受太陽光與飛行器鋪裝太陽電池法線夾角的影響,因此,通過優(yōu)化飛行過程中與太陽輻射的夾角可獲得更多的能量。典型的如Klesh 等的工作,其采用最優(yōu)控制原理中的Hamiltonian 函數(shù)求解最優(yōu)飛行航跡,并利用無量綱參數(shù)的功率比評(píng)估航跡的最優(yōu)性[22-23],其優(yōu)化出來的航跡如圖3 所示[22],由于Klesh 等采用的數(shù)值算法精度有限,所優(yōu)化出的航跡比較粗糙。按照該思路,Spangelo 等[23-24],以及Huang 等[25]進(jìn)一步開發(fā)了一種在三維空間進(jìn)行的太陽能飛機(jī)航跡優(yōu)化方法,并評(píng)估了橫向運(yùn)動(dòng)對(duì)太陽能獲取的影響,其優(yōu)化出的典型航跡如圖4 所示[25],可以看出,Huang 等優(yōu)化出的太陽能飛機(jī)航跡光滑性得到很大提升。他們的工作都將飛行平臺(tái)的空間位置固定為一個(gè)垂直的圓柱形表面,這樣可以將三維空間轉(zhuǎn)化為一個(gè)二維的表面,進(jìn)而忽略在圓柱內(nèi)的更多路徑[23],從結(jié)果中也可以看出,其主要是通過Hamiltonian 函數(shù)求解飛機(jī)在高度變化不大的情況下,隨著太陽入射角的不同,優(yōu)化飛機(jī)姿態(tài)與太陽入射角之間的關(guān)系,使得飛機(jī)在飛行過程中盡可能多的接收太陽輻射功率,使得能量最優(yōu)。
圖3 Klesh 等優(yōu)化的太陽能飛機(jī)飛行航跡[22]Fig.3 Flight path of solar-powered optimized by Klesh et al.[22]
圖4 Huang 等優(yōu)化的太陽能飛機(jī)飛行航跡[25]Fig.4 Flight path of solar-powered optimized by Huang et al.[25]
另一種是從臨近空間太陽能飛機(jī)大范圍高度變化的特點(diǎn)入手,將富余太陽功率存儲(chǔ)在重力勢(shì)中,從而減輕平臺(tái)對(duì)儲(chǔ)能電池的依賴,實(shí)現(xiàn)“零質(zhì)量”儲(chǔ)能的效果。首先提出該想法的是德國(guó)慕尼黑工業(yè)大學(xué)航空飛行力學(xué)研究所的Sachs 教授[26-27],其通過采用定升阻比假設(shè),以實(shí)現(xiàn)飛行器晝夜巡航的儲(chǔ)能電池質(zhì)量最小化為優(yōu)化目標(biāo),對(duì)飛行采用重力勢(shì)能儲(chǔ)能的方法進(jìn)行了研究。仿真結(jié)果顯示,太陽能飛機(jī)采用重力勢(shì)能儲(chǔ)能的方法甚至可以在不使用儲(chǔ)能電池的情況下實(shí)現(xiàn)晝夜巡航,但是飛行器夜間滑翔高度需要降到1 km 左右,不具有工程可行性,如圖5 所示[26]。受Sachs 教授工作啟發(fā),本文作者團(tuán)隊(duì)[28-29]將太陽能飛機(jī)跨晝夜飛行過程分為5 個(gè)階段,以跨晝夜循環(huán)過程中儲(chǔ)能電池電量使用最少為優(yōu)化目標(biāo),采用高斯偽譜算法結(jié)合狀態(tài)機(jī)模型規(guī)劃出跨晝夜飛行能量最優(yōu)飛行航跡,如圖6 所示[28]。這種基于重力勢(shì)能的儲(chǔ)能方法近幾年受到太陽能飛機(jī)設(shè)計(jì)領(lǐng)域研究人員的高度重視。北京航空航天大學(xué)馬東立教授基于重力儲(chǔ)能原理,在建立能源動(dòng)力系統(tǒng)模型、飛行軌跡與需用功率計(jì)算模型的基礎(chǔ)上,描述了變高度軌跡的具體組成部分及運(yùn)動(dòng)方式,分析了其應(yīng)用效果,并認(rèn)為基于重力儲(chǔ)能的太陽能飛機(jī)飛行軌跡設(shè)計(jì)構(gòu)想合理可行[14]。
圖5 Sachs 等優(yōu)化的太陽能飛機(jī)飛行航跡[26]Fig.5 Flight path of solar-powered optimized by Sachs et al.[26]
圖6 Gao 等優(yōu)化的太陽能飛機(jī)飛行航跡[28]Fig.6 Flight path of solar-powered optimized by Gao et al.[28]
中國(guó)科學(xué)院工程熱物理所Ni 等采用軟角色-評(píng)論家算法對(duì)太陽能飛機(jī)的能量最優(yōu)軌跡規(guī)劃方法進(jìn)行了研究,利用強(qiáng)化學(xué)習(xí)框架設(shè)計(jì)了航跡規(guī)劃制導(dǎo)控制器,首次獲得了既考慮太陽能飛機(jī)飛行姿態(tài)與太陽入射角關(guān)系,又考慮太陽能飛機(jī)大跨度重力勢(shì)能儲(chǔ)能的優(yōu)化飛行航跡,具有重要學(xué)術(shù)突破意義。通過與穩(wěn)態(tài)飛行航跡和偽譜法結(jié)合狀態(tài)機(jī)模型所規(guī)劃的航跡相比較,經(jīng)過一晝夜的飛行,儲(chǔ)能電池剩余能量分別提升了31%和17%[11]。Ni 等采用的強(qiáng)化學(xué)習(xí)航跡規(guī)劃控制器結(jié)構(gòu)如圖7 所示[11],所獲得的航跡如圖8 和圖9 所示。圖8 是生成的太陽能飛機(jī)三維航跡圖[11],可以看出,飛行器是繞著圓形的基礎(chǔ)軌跡逐漸爬升與下降,圖9 是軌跡高度圖[11],從中可以看出,利用強(qiáng)化學(xué)習(xí)算法獲得的最優(yōu)飛行航跡經(jīng)歷了充電(Charging)、爬升(Climbing)、高高度巡航(High-altitude cruising)、下降(Descent)、低高度巡航(Lowaltitude circling)5 個(gè)階段。這樣就充分地利用了太陽能飛機(jī)白天富余能量,將其轉(zhuǎn)化為重力勢(shì)能,削減了對(duì)儲(chǔ)能電池重量的依賴。
圖7 基于強(qiáng)化學(xué)習(xí)框架的軟角色-評(píng)價(jià)家飛行航跡規(guī)劃算法框架[11]Fig.7 Sketch diagram of soft actor-critic algrithm for flight path planning based on reinforcement learning[11]
圖8 強(qiáng)化學(xué)習(xí)生成的軌跡三維圖[11]Fig.8 3D flight path generated by reinforcement learning[11]
圖9 強(qiáng)化學(xué)習(xí)生成軌跡的時(shí)間-高度圖[11]Fig.9 Time-altitude of flight path generated by reinforcement learning[11]
通過對(duì)軌跡的細(xì)節(jié)分析,如圖10 和圖11 所示[11],也可以看出,無論在爬升階段還是在下降階段的巡航飛行,太陽能飛機(jī)都能夠以一定的傾角背對(duì)著太陽光線飛行,從而減小光伏電池法線與太陽光線之間的夾角,增大太陽能飛機(jī)吸收功率。
圖10 爬升階段典型軌跡[11]Fig.10 Typical flight path during charging-stage [11]
圖11 下降階段典型軌跡[11]Fig.11 Typical flight path during descent-stage [11]
由此可見,強(qiáng)化學(xué)習(xí)框架很好地融合了太陽能飛機(jī)的高度變化特征和姿態(tài)變化特征,綜合考慮了最大化太陽吸收功率和重力勢(shì)能儲(chǔ)能2 方面的問題,具有重要工程實(shí)踐意義和理論研究意義。
2.2.2 不考慮大范圍高度變化
臨近空間存在天然的、持續(xù)的梯度風(fēng)場(chǎng)[30],如圖12 所示。如何充分運(yùn)用臨近空間環(huán)境特征,使得太陽能飛機(jī)更好實(shí)現(xiàn)跨晝夜飛行目標(biāo),是航空界科研人員持續(xù)奮斗的目標(biāo)。
圖12 臨近空間風(fēng)場(chǎng)典型分布圖[30]Fig.12 Typical distribution of near-space wind field[30]
對(duì)于梯度風(fēng)場(chǎng)的利用,自然界中鷹(Hawk)、軍艦鳥(Frigate bird)、信天翁(Albatross)等鳥類是最好的案例,它們可以在梯度風(fēng)場(chǎng)環(huán)境中不撲動(dòng)或極少撲動(dòng)翅膀的情況下實(shí)現(xiàn)長(zhǎng)距離、甚至環(huán)球飛行。有學(xué)者對(duì)信天翁進(jìn)行過專門測(cè)算:以質(zhì)量為8.5 kg 的成年信天翁為例,假設(shè)其升阻比為20,保持70 km/h 的平均飛行速度需要81 W 功率,相當(dāng)于每天要消耗0.9 L 的燃油。在信天翁每年15 200 km 的遷徙過程中,進(jìn)食連同體重都無法支撐如此巨大的能量消耗[31]。
那么,這些自然界的鳥類是如何在如此低能耗的情況下實(shí)現(xiàn)長(zhǎng)航時(shí)飛行的呢?學(xué)術(shù)界公認(rèn)最早對(duì)該問題進(jìn)行描述與研究的是Rayleigh 爵士,其首次對(duì)觀察到的鳥類在風(fēng)場(chǎng)中的無動(dòng)力飛行現(xiàn)象進(jìn)行了歸納與分析[32]。他將鳥類的無動(dòng)力滑翔分為3 類:第1 類是重力滑翔,即完全依靠高度下降進(jìn)行的無動(dòng)力飛行;第2 類是非水平氣流條件下的滑翔,即依靠上升熱氣流進(jìn)行的無動(dòng)力飛行;第3 類是非均勻風(fēng)場(chǎng)條件下的滑翔,即依靠風(fēng)在空間分布的非均勻性(風(fēng)梯度)進(jìn)行的無動(dòng)力飛行。其中,常規(guī)翼傘滑翔等屬于第1 類;鷹、軍艦鳥等長(zhǎng)航時(shí)飛行屬于第2 類,如圖13 所示,當(dāng)存在上升氣流時(shí),其通過爬升高度提高重力勢(shì)能來存儲(chǔ)上升氣流所提供的動(dòng)能,然后通過重力滑翔飛向下一個(gè)存在上升氣流的區(qū)域,進(jìn)而實(shí)現(xiàn)持久飛行,這種飛行方式也被稱為靜態(tài)滑翔(Static Soaring)[33]。而信天翁等海鳥的長(zhǎng)航時(shí)飛行方式則屬于第3 類,如圖14 所示,在海面存在風(fēng)梯度條件下,信天翁通過一種特殊的飛行技巧——逆風(fēng)上升、高空轉(zhuǎn)彎、順風(fēng)下降、低空轉(zhuǎn)彎的方式,從風(fēng)梯度中獲取能量實(shí)現(xiàn)無動(dòng)力長(zhǎng)航時(shí)飛行,這種飛行方式也被稱為動(dòng)態(tài)滑翔(Dynamic Soaring)[34]。
圖13 鳥類利用上升熱氣流進(jìn)行靜態(tài)滑翔示意圖[33]Fig.13 Demonstration diagram of static soaring for birds in thermal lift [33]
圖14 信天翁利用海平面風(fēng)梯度進(jìn)行動(dòng)態(tài)滑翔示意圖[34]Fig.14 Demonstration diagram of dynamic soaring for albatross in gradient wind above sea surface[34]
鳥類是怎樣無動(dòng)力飛行的?如何才能像鳥類一樣御風(fēng)而行?為了回答這些疑問,自Rayleigh 爵士公布他觀察現(xiàn)象的近140 年來,航空學(xué)界和動(dòng)物學(xué)界研究者投入了大量熱情和精力對(duì)鳥類梯度風(fēng)中的動(dòng)態(tài)滑翔現(xiàn)象進(jìn)行深入研究,牽引出一大批前沿性、基礎(chǔ)性研究成果。
《Nature》雜志對(duì)信天翁滑翔現(xiàn)象的研究始終高度關(guān)注,發(fā)表了一系列相關(guān)研究論文。其中比較有代表性的有:IDRAC 公布了其在非洲海岸對(duì)信天翁動(dòng)態(tài)滑翔方式研究的試驗(yàn)結(jié)果,再次確認(rèn)了信天翁的滑翔與“隨高度增加的風(fēng)速”密不可分,并對(duì)實(shí)現(xiàn)動(dòng)態(tài)滑翔的最小風(fēng)速進(jìn)行了估計(jì)[35]。Wilson 對(duì)信天翁動(dòng)態(tài)滑翔的過程進(jìn)行了更為詳盡的觀察和描述,首次將信天翁的飛行軌跡分成了若干段,分析了不同段中信天翁空速的變化;并認(rèn)為信天翁飛行的過程是結(jié)合了靜態(tài)滑翔和動(dòng)態(tài)滑翔的耦合過程,其中靜態(tài)滑翔提供的能量大約占10%,動(dòng)態(tài)滑翔提供的能量約占90%[36],這一結(jié)論對(duì)后續(xù)信天翁滑翔過程的研究具有重要參考價(jià)值,隨后,Jones 提出了類信天翁永久飛行器的概念[37]。人們也很好奇,既然信天翁在飛行過程不撲動(dòng)翅膀,那么它在飛行過程中是如何完成如此復(fù)雜的動(dòng)態(tài)滑翔行為的呢?針對(duì)這個(gè)問題,Lentink 等開展了對(duì)鳥類靜態(tài)滑翔、動(dòng)態(tài)滑翔過程中,微小翼變形如何控制滑翔性能的研究[38]。
對(duì)于臨近空間太陽能飛機(jī)而言,如果能像信天翁一樣依賴臨近空間環(huán)境的梯度風(fēng)場(chǎng)獲取能量,或者部分減少支持巡航飛行所需的能量,都將引發(fā)臨近空間太陽能飛機(jī)設(shè)計(jì)和應(yīng)用上的革命性變革。Langelaan 和Roy 在《Science》上發(fā)表了一篇關(guān)于增強(qiáng)無人飛行器性能的文章,文章認(rèn)為:固定翼形式的無人機(jī)在外形、翼載上都與成年信天翁類似,其如果能夠像信天翁一樣進(jìn)行自主滑翔,持續(xù)從環(huán)境中獲取能量實(shí)現(xiàn)無動(dòng)力長(zhǎng)航時(shí)飛行,將對(duì)無人機(jī)應(yīng)用產(chǎn)生重大影響[39]。隨后,研究人員在該領(lǐng)域展開了大量探索性研究并取得了階段性成果。代表性的有:Kahveci 等基于線性二次控制器為無人機(jī)自主滑翔設(shè)計(jì)的自適應(yīng)控制策略[40];Lawrance 和Sukkarieh 設(shè)計(jì)的無人機(jī)風(fēng)梯度滑翔分段制導(dǎo)與控制策略,仿真結(jié)果顯示該方法可有效地對(duì)環(huán)境風(fēng)場(chǎng)進(jìn)行估計(jì)并對(duì)飛行軌跡進(jìn)行導(dǎo)引[41]。
截止目前,Lisenby 設(shè)計(jì)與操作的滑翔機(jī),如圖15 所示,在無動(dòng)力條件下依靠動(dòng)態(tài)滑翔方式飛行的速度已達(dá)到創(chuàng)紀(jì)錄的近960 km/h(600 mph)[42],該速度已超過普通的民航客機(jī)高空巡航速度(波音737 巡航速度為828 km/h),這顯示出動(dòng)態(tài)滑翔在無人機(jī)通過環(huán)境獲取能量與增長(zhǎng)航時(shí)方面的巨大潛力。
圖15 Lisenby 及其設(shè)計(jì)與操作的滑翔機(jī)[42]Fig.15 Glider designed and operated by Lisenby [42]
美國(guó)航空航天學(xué)會(huì)(AIAA)組織多個(gè)專題會(huì)議對(duì)自主動(dòng)態(tài)滑翔問題進(jìn)行研討。典型的有:Koessler 采用動(dòng)能參考系(Kinetic Energy Reference Frames)對(duì)動(dòng)態(tài)滑翔能量獲取機(jī)理進(jìn)行的全新解釋[43],其認(rèn)為對(duì)無人機(jī)總機(jī)械能的計(jì)算是在風(fēng)軸系還是機(jī)體系上進(jìn)行的,是理解動(dòng)態(tài)滑翔周期能量增加的關(guān)鍵;Zhao 等對(duì)幾種不同場(chǎng)景下(包括:高度受限的梯度風(fēng)場(chǎng)景、風(fēng)場(chǎng)風(fēng)向隨時(shí)間變化場(chǎng)景、負(fù)梯度場(chǎng)景等)的最優(yōu)能量獲取軌跡進(jìn)行了研究,結(jié)果顯示,在各種場(chǎng)景下,飛行器均可以通過不同的飛行器軌跡獲取能量[44]; Gavrilovic 等開展的小型無人機(jī)在非靜態(tài)環(huán)境下無動(dòng)力持續(xù)飛行的可行性研究[45];Bencatel 等對(duì)小型無人機(jī)在線性風(fēng)梯度環(huán)境下持續(xù)獲取能量的必要條件研究,以及對(duì)一個(gè)動(dòng)態(tài)滑翔周期中的軌跡變量(比如過載因子、爬升率、航向角、傾轉(zhuǎn)角)特征的研究[46];González-Arribas 等研究了無人機(jī)在不確定風(fēng)場(chǎng)條件下,采用最優(yōu)控制方法規(guī)劃軌跡的問題,結(jié)果顯示,所提的方法在風(fēng)場(chǎng)不確定性條件下具有較好的魯棒性,但在實(shí)時(shí)求解計(jì)算方面還有待提高[47];Turkoglu 提出了一種對(duì)最優(yōu)控制問題進(jìn)行一階近似的方法,用以實(shí)時(shí)求解無人機(jī)梯度風(fēng)場(chǎng)最優(yōu)軌跡,該方法可以較好地獲得動(dòng)態(tài)滑翔的最優(yōu)軌跡,并且計(jì)算實(shí)時(shí)性大為提高[48]。其他具有代表性的研究還包括:Nekoui 等對(duì)信天翁動(dòng)態(tài)滑翔方式進(jìn)行了理論和仿生方面的研究,認(rèn)為要使得飛行以最省能量的方式飛行,應(yīng)該以動(dòng)態(tài)滑翔軌跡為基本單位進(jìn)行軌跡規(guī)劃而非直接進(jìn)行軌跡控制??刂颇繕?biāo)應(yīng)設(shè)置為機(jī)械能調(diào)節(jié)指標(biāo),而非具體的目標(biāo)距離或位置[49]。Salazar 等為增長(zhǎng)小型無人機(jī)執(zhí)行海上任務(wù)的飛行航時(shí),對(duì)海面風(fēng)場(chǎng)特征和鳥類動(dòng)態(tài)滑翔特征進(jìn)行了研究,采用仿真方法對(duì)飛行器在Rayleigh 環(huán)中運(yùn)動(dòng)的機(jī)械能增量進(jìn)行了分析[50]。Mir等對(duì)動(dòng)態(tài)滑翔在技術(shù)層次、非線性建模方面和未來發(fā)展方向等問題進(jìn)行了全面、詳細(xì)的綜述[51],對(duì)動(dòng)態(tài)滑翔軌跡的可控性問題進(jìn)行了分析[52],并特別關(guān)注了動(dòng)態(tài)滑翔技術(shù)在無人機(jī)上應(yīng)用問題,其認(rèn)為無人機(jī)應(yīng)用動(dòng)態(tài)滑翔技術(shù)的主要限制存在于無人機(jī)機(jī)體設(shè)計(jì)、自主飛行控制系統(tǒng)2 方面,提出結(jié)合動(dòng)態(tài)滑翔、可變形翼、非線性控制理論是克服現(xiàn)有應(yīng)用障礙的有效途徑。
國(guó)防科技大學(xué)Gao 等在梯度風(fēng)滑翔能量獲取與利用方向上開展了大量研究工作。提出了臨近空間梯度風(fēng)場(chǎng)中太陽能飛行器能量獲取策略,構(gòu)建了飛行器運(yùn)動(dòng)參數(shù)、飛行姿態(tài)、梯度風(fēng)強(qiáng)度與能量獲取的耦合模型[53],揭示了臨近空間風(fēng)梯度中能量獲取與飛行航跡的關(guān)聯(lián)關(guān)系。確定了“逆風(fēng)爬升”“順風(fēng)下滑”的獲能策略,給出了一個(gè)周期內(nèi)的獲能邊界,明確了參數(shù)的影響規(guī)律,并首次提出臨近空間太陽能飛機(jī)通過圓形周期運(yùn)動(dòng),持續(xù)從梯度風(fēng)場(chǎng)中獲取能量的構(gòu)想[54-55],該構(gòu)想也成為后續(xù)研究者參考的標(biāo)準(zhǔn)模型之一[7],如圖16 所示[55]。
圖16 Gao 等提出的臨近空間太陽能飛機(jī)梯度風(fēng)場(chǎng)能量最優(yōu)軌跡示意圖[55]Fig.16 Demonstration diagram of energy optimal flight path for solar-powered aircraft proposed by Gao et al.[55]
近期,Reddy 等公布了其采用強(qiáng)化學(xué)習(xí)框架尋找無人機(jī)上升氣流滑翔中制定導(dǎo)航策略的方法[56]。他們采用翼展2 m 的滑翔機(jī)以及一個(gè)可精確的控制無人機(jī)傾斜角和俯仰角的飛行控制器,利用強(qiáng)化學(xué)習(xí)框架,采用Model Free 的方式,通過智能體在重復(fù)任務(wù)下的經(jīng)驗(yàn)估計(jì)在特定狀態(tài)下(Q函數(shù))不同動(dòng)作得分來制定動(dòng)作策略。因此,采用該方法可以不用對(duì)復(fù)雜的大氣湍流和氣動(dòng)力進(jìn)行建模,僅通過尋找使不同“狀態(tài)”下Q函數(shù)最高值的動(dòng)作,就可以得出一系列的最優(yōu)策略(Optimal Policy)。這里的“狀態(tài)”既包括傳感器信息也包括飛行器的氣動(dòng)參數(shù)。
Reddy 等采用的強(qiáng)化學(xué)習(xí)框架,通過對(duì)跨越數(shù)天的大量飛行試驗(yàn)數(shù)據(jù)進(jìn)行學(xué)習(xí),確定了無人機(jī)在復(fù)雜氣流環(huán)境下的導(dǎo)航策略,如圖17 所示[56]。結(jié)果顯示,強(qiáng)化學(xué)習(xí)方法可以使飛行器在學(xué)習(xí)滑翔技巧的過程中有效地應(yīng)對(duì)復(fù)雜的大氣湍流環(huán)境,并且得出一個(gè)關(guān)鍵性結(jié)論:無人機(jī)導(dǎo)航策略依賴對(duì)機(jī)體上的風(fēng)場(chǎng)垂直加速度和滾轉(zhuǎn)方向力矩的精確估計(jì),這2 個(gè)值可以稱之為關(guān)鍵的導(dǎo)航線索(Navigational Cues)。隨后,其利用數(shù)值仿真方法和飛行試驗(yàn)對(duì)學(xué)習(xí)獲得的飛行策略進(jìn)行了驗(yàn)證,并對(duì)由于氣流擾動(dòng)造成的觀測(cè)噪聲進(jìn)行了估計(jì),其方案雖然只解決了信天翁滑翔過程中獲取能量占比10%的靜態(tài)滑翔問題,但是,這是歷史上第1 個(gè)在真實(shí)自然環(huán)境中實(shí)現(xiàn)飛行器與環(huán)境互動(dòng)的強(qiáng)化學(xué)習(xí)框架,具有一定的操作價(jià)值與實(shí)踐意義,對(duì)人工智能在飛行器,乃至廣義上工業(yè)機(jī)器人領(lǐng)域的應(yīng)用具有普遍參考價(jià)值。
圖17 Reddy 等利用強(qiáng)化學(xué)習(xí)框架實(shí)現(xiàn)無人機(jī)熱氣流自主滑翔軌跡示意圖Fig.17 Demonstration diagram for autonomous glide of UAV in thermal lift achieved by Reddy et al. by reinforcement learning[56]
對(duì)臨近空間風(fēng)場(chǎng)環(huán)境高精度快速建模是開展環(huán)境風(fēng)場(chǎng)利用的基礎(chǔ),國(guó)外通常采用全球中長(zhǎng)期數(shù)值預(yù)報(bào)系統(tǒng)為臨近空間飛行器提供氣象保障,除此之外,基于歷史數(shù)據(jù)分析的平流層風(fēng)場(chǎng)快速建模方法也得到重點(diǎn)關(guān)注[57]。
基于統(tǒng)計(jì)模型的風(fēng)場(chǎng)建模方法需要從海量歷史環(huán)境數(shù)據(jù)開始分析,這類數(shù)據(jù)的數(shù)據(jù)量大、特征不清晰,有必要預(yù)先進(jìn)行降維處理,在保證原有信息損失不大的前提下,盡可能降低數(shù)據(jù)量的大小。 主成分分析(Principal Component Analysis,PCA)是最常用的一種降維方法,其能夠找出數(shù)據(jù)里面最主要的方面,用數(shù)據(jù)里最主要的方面來代替原始數(shù)據(jù)[58]。
在對(duì)風(fēng)場(chǎng)數(shù)據(jù)進(jìn)行降維處理后,數(shù)據(jù)量大大減小,可用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)風(fēng)場(chǎng)的變化特征以對(duì)未來短期風(fēng)場(chǎng)進(jìn)行快速預(yù)測(cè)。通過基于BP 神經(jīng)網(wǎng)絡(luò)的風(fēng)場(chǎng)預(yù)測(cè)方法,并通過具備全局尋優(yōu)特性的粒子群算法可改進(jìn)容易陷入局部最優(yōu)的BP 神經(jīng)網(wǎng)絡(luò)[59]。建立的風(fēng)場(chǎng)預(yù)測(cè)模型使用的神經(jīng)網(wǎng)絡(luò)包含輸入層、隱含層和輸出層3 層,風(fēng)場(chǎng)數(shù)據(jù)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)如圖18 所示[58]。
圖18 風(fēng)場(chǎng)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖[58]Fig.18 Structure diagram of neural networks for wind field prediction[58]
在進(jìn)行降維處理后,有r×m維歷史風(fēng)場(chǎng)數(shù)據(jù)X'=[x1,x2,…,xm],將其分為r個(gè)行向量,利用神經(jīng)網(wǎng)絡(luò)分別對(duì)這r個(gè)行向量的數(shù)據(jù)變化特征進(jìn)行學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)訓(xùn)練集的輸入數(shù)據(jù)和輸出數(shù)據(jù)的構(gòu)建如圖19 所示[60]。
圖19 神經(jīng)網(wǎng)絡(luò)的輸入和輸出[60]Fig.19 Input and output of neural networks[60]
BP 神經(jīng)網(wǎng)絡(luò)風(fēng)場(chǎng)預(yù)測(cè)模型的權(quán)值和閾值采用梯度下降的更新策略,這種策略以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行更新,容易得到局部極值而不是全局極值,因此,通過粒子群算法對(duì)BP 神經(jīng)網(wǎng)絡(luò)風(fēng)場(chǎng)預(yù)測(cè)模型的權(quán)值和閾值更新策略進(jìn)行改進(jìn),以使其能夠更好地逼近全局極值,原理如圖20所示[61]。
圖20 粒子群算法優(yōu)化的風(fēng)場(chǎng)預(yù)測(cè)BP 神經(jīng)網(wǎng)絡(luò)原理圖[61]Fig.20 Schematic diagram of BP neural networks optimized by PSO algorithm for wind field prediction[61]
如前所述,為了使基于重力勢(shì)能儲(chǔ)能的方法更貼合太陽能飛行器的工程應(yīng)用,還有許多理論上的問題需要進(jìn)行討論,其中之一就是在存在臨近空間梯度風(fēng)場(chǎng)的條件下,分析重力勢(shì)能儲(chǔ)能與儲(chǔ)能電池儲(chǔ)能之間的等價(jià)性[62]。
在回答這一問題之前,需要首先建立臨近空間太陽能飛機(jī)的氣動(dòng)、動(dòng)力學(xué)與能源管理模型,生成能量最優(yōu)的重力滑翔軌跡,然后采用3.1 節(jié)中建立的臨近空間風(fēng)場(chǎng)環(huán)境表征與重構(gòu)方法,通過實(shí)際數(shù)據(jù)訓(xùn)練后滿足精度要求的神經(jīng)網(wǎng)絡(luò)模型引入動(dòng)力學(xué)系統(tǒng)中,如圖21 所示[29]。
圖21 太陽能飛機(jī)氣動(dòng)/動(dòng)力學(xué)/能源管理模型示意圖[29]Fig.21 Demonstration diagram for aerodynamic/dynamic/energy management model of solar-powered aircraft[29]
對(duì)于太陽能飛行器而言,要實(shí)現(xiàn)高空長(zhǎng)航時(shí)飛行,最大的問題是如何在沒有太陽輻射的夜間依然能夠保持飛行,同時(shí)滿足給定的高度要求[63]。目前,航空學(xué)界通常采用儲(chǔ)能電池來存儲(chǔ)飛行器白天富余的電能以供夜間飛行使用[64]。對(duì)于儲(chǔ)能電池儲(chǔ)能,飛行器在有太陽輻射時(shí),太陽電池轉(zhuǎn)化的一部分電能用于保持平飛巡航,另一部分電能用于儲(chǔ)存在儲(chǔ)能電池中,當(dāng)太陽輻射消失時(shí),儲(chǔ)能電池向飛行器供電,繼續(xù)保持平飛。而對(duì)于重力勢(shì)能儲(chǔ)能,飛行器在有太陽輻射時(shí),太陽電池轉(zhuǎn)化的所有電能都用于爬升,當(dāng)太陽輻射消失時(shí),飛行器依靠重力滑翔保持飛行,直到飛行器到達(dá)設(shè)定的最低飛行高度??梢钥闯?,無論是儲(chǔ)能電池儲(chǔ)能還是重力勢(shì)能儲(chǔ)能,從本質(zhì)上講,飛行器都是依靠太陽輻射提供的能源進(jìn)行飛行。因此,可以通過定義航時(shí)因子的方式,從太陽輻照時(shí)長(zhǎng)、儲(chǔ)能電池充電速率、儲(chǔ)能電池能量密度、初始飛行高度等幾個(gè)關(guān)鍵因素入手,開展存在臨近空間梯度風(fēng)場(chǎng)條件下,重力勢(shì)能儲(chǔ)能與儲(chǔ)能電池儲(chǔ)能的等價(jià)性研究。
基于梯度風(fēng)滑翔的概念,如果飛行器以合適的飛行方式在梯度風(fēng)場(chǎng)中飛行,風(fēng)梯度可以視為飛行器的一種能量源。為方便研究,可將有太陽輻射階段稱為第1 階段,在沒有太陽輻射,但飛行器還在最低高度以上的階段稱為第2 階段。在爬升階段,飛行器的主要性能指標(biāo)可以認(rèn)為是在可用太陽能約束條件下的最大爬升高度,這樣,第1 階段飛行器的性能指標(biāo)可以設(shè)置為
在第2 階段,飛行器采用重力滑翔的方式下降高度,其主要性能指標(biāo)是在給定的垂直下降高度條件下,飛行器的最大飛行時(shí)間??梢詫⒃撾A段飛行器的性能指標(biāo)設(shè)置為
由此,求解太陽能飛機(jī)在風(fēng)梯度場(chǎng)中的最優(yōu)爬升和下降航跡問題可以歸納為優(yōu)化推力T和升力系數(shù)CL,在滿足動(dòng)力學(xué)方程約束以及滿足邊界條件約束和狀態(tài)變量約束的條件下,使得性能指標(biāo)最大化的問題,由此可以開展臨近空間梯度風(fēng)場(chǎng)對(duì)太陽能飛機(jī)滑翔軌跡能量影響分析研究[53]。
由逆風(fēng)爬升、高空轉(zhuǎn)彎、順風(fēng)下降、低空轉(zhuǎn)彎4 段構(gòu)成的閉合動(dòng)態(tài)滑翔過程,被稱為Rayleigh環(huán)[65-66]。為了讓太陽能飛機(jī)在臨近空間梯度風(fēng)場(chǎng)動(dòng)態(tài)滑翔過程適應(yīng)強(qiáng)化學(xué)習(xí)過程,需要建立動(dòng)態(tài)滑翔軌跡標(biāo)準(zhǔn)庫,作為示教軌跡輸入給強(qiáng)化學(xué)習(xí)算法框架。由于動(dòng)態(tài)滑翔軌跡優(yōu)化計(jì)算復(fù)雜、效率低、實(shí)時(shí)性差,且最優(yōu)軌跡機(jī)動(dòng)性大,太陽能飛機(jī)難以準(zhǔn)確跟蹤,因此,需要研究如何設(shè)計(jì)合理的導(dǎo)引與控制策略,生成可行的動(dòng)態(tài)滑翔軌跡,作為動(dòng)態(tài)滑翔示教軌跡[67]。
先期對(duì)動(dòng)態(tài)滑翔獲能機(jī)理的研究表明,動(dòng)態(tài)滑翔過程中無人機(jī)保持適當(dāng)?shù)臍W拉角是獲能的關(guān)鍵,因此,采用局部歐拉角作為基準(zhǔn)生成動(dòng)態(tài)滑翔導(dǎo)引與控制方法,如圖22 所示[68],相比全局最優(yōu)軌跡,更容易實(shí)現(xiàn),且有更好的實(shí)時(shí)性,如圖23 所示[69]。但正如Reddy 研究所展示的那樣,無人機(jī)自主滑翔的關(guān)鍵是需要確定與獎(jiǎng)勵(lì)函數(shù)密切相關(guān)的“導(dǎo)航線索”(Navigation Cues),因此在可行軌跡生成中建立的基于歐拉角基準(zhǔn)的無人機(jī)導(dǎo)航、制導(dǎo)策略對(duì)強(qiáng)化學(xué)習(xí)框架的適應(yīng)性還需要進(jìn)一步研究。
圖22 基于歐拉角的太陽能飛機(jī)能量最優(yōu)飛行航跡軌跡導(dǎo)引與控制策略[68]Fig.22 Navigation and control strategy based on Euler angle for energy optimal flight path of solar-powered aircraft[68]
圖23 基于局部歐拉角跟蹤生成的無人機(jī)可行動(dòng)態(tài)滑翔軌跡[69]Fig.23 Feasible flight path of dynamic soaring for UAV which generated by track of local Euler angle[69]
同時(shí),雖然動(dòng)態(tài)滑翔的周期必須包含4 個(gè)飛行階段,但是標(biāo)準(zhǔn)的動(dòng)態(tài)滑翔軌跡卻不止Rayleigh 環(huán)一種[68],Rayleigh 環(huán)是航模愛好者在山坡背面進(jìn)行無動(dòng)力動(dòng)態(tài)滑翔加速最常用的一種軌跡模式,信天翁采用的則是利于前進(jìn)的“彎曲型”軌跡模式[70]。除了這2 種常見的軌跡模式,需要研究還有哪些軌跡模式是可以在梯度風(fēng)中獲取能量的。利用4 個(gè)階段的不同組合連接,設(shè)定對(duì)應(yīng)的邊界條件和初值條件,通過高斯偽譜法可計(jì)算得到多種最優(yōu)動(dòng)態(tài)滑翔軌跡作為示教軌跡[71]。利用基于局部歐拉角跟蹤的導(dǎo)引控制策略可生成可行的動(dòng)態(tài)滑翔軌跡。結(jié)合運(yùn)動(dòng)基元(Dynamic Movement Primitives,DMP)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neutral Network,CNN)的分類方式是非常值得研究的生成示教軌跡的方向[72]??尚袆?dòng)態(tài)滑翔軌跡都應(yīng)是示教軌跡模板庫的組成部分,示教軌跡模板庫建立越完善,越有利于無人機(jī)作為智能體掌握不同邊界條件下應(yīng)該采取的動(dòng)態(tài)滑翔軌跡機(jī)動(dòng)方式。如果在一個(gè)周期結(jié)束以后,還存在剩余的能量,這些剩余能量以動(dòng)能的形式儲(chǔ)存,可以繼續(xù)以更高的速度在原地附近進(jìn)行Rayleigh 環(huán)的滑翔,只要在低空轉(zhuǎn)彎時(shí)不超過飛機(jī)的過載。另一方面,可以利用多余的能量在固定高度上朝某一方向飛行,直到多余的能量耗完并回到初始狀態(tài),然后重復(fù)下一個(gè)周期的Rayleigh 環(huán),在環(huán)末尾開始消耗剩余的能量,這樣飛機(jī)可以在不消耗其他能源的情況下實(shí)現(xiàn)任意方向上的平移或到達(dá)目標(biāo)位置[73]。
用強(qiáng)化學(xué)習(xí)框架訓(xùn)練臨近空間太陽能飛機(jī)的制導(dǎo)控制器包括軟決策-評(píng)論家算法、狀態(tài)空間設(shè)置、動(dòng)作空間和基于能量的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)等幾部分內(nèi)容[74],在設(shè)計(jì)完成強(qiáng)化學(xué)習(xí)框架之后,還需要用能量最優(yōu)的示教軌跡加速學(xué)習(xí)框架的收斂,實(shí)現(xiàn)更好的應(yīng)用效果。
異步的優(yōu)勢(shì)行動(dòng)者評(píng)論家(Asynchronous Advantage Actor-Critic)算法是根據(jù)異步強(qiáng)化學(xué)習(xí)的思想提出一種輕量級(jí)的DRL 框架,其進(jìn)化路線如圖24 所示[75]。該框架可以使用異步的梯度下降法來優(yōu)化網(wǎng)絡(luò)控制器參數(shù),尤為重要的是,該方法可以結(jié)合多種強(qiáng)化學(xué)習(xí)算法,這對(duì)整合梯度風(fēng)能量最優(yōu)航跡規(guī)劃算法和重力勢(shì)能儲(chǔ)能能量最優(yōu)航跡規(guī)劃算法具有天然優(yōu)勢(shì),是開展“通用”飛行航跡規(guī)劃方法的理想選擇[76]。
圖24 單體智能強(qiáng)化學(xué)習(xí)理論與方法進(jìn)化路線圖[75]Fig.24 Evolution diagram of reinforcement learning principle and method for single agent [75]
通常,強(qiáng)化學(xué)習(xí)問題可以被定義成為一個(gè)尋找策略π使得馬爾科夫決策過程(Markov Decision Process,MDP)的總期望回報(bào)最大化的優(yōu)化過程。其中MDP 可由元組(s at p r)定義。狀態(tài)s∈S以及動(dòng)作at∈At,其中S和At分別是狀態(tài)和動(dòng)作空間。狀態(tài)轉(zhuǎn)移概率p代表在動(dòng)作at的作用下,狀態(tài)st向狀態(tài)st+1轉(zhuǎn)移的概率。與此同時(shí),環(huán)境在每次轉(zhuǎn)移過程中都會(huì)產(chǎn)生一個(gè)回報(bào)r(st,at)。最優(yōu)策略π*是到達(dá)最大期望總回報(bào)的策略,其可以被定義為:
這里,γ是未來期望回報(bào)的折扣因子。在A3C 算法中,一個(gè)中心特色是規(guī)則化熵,也就是說,智能體獲得的期望回報(bào)與每次轉(zhuǎn)移過程中的策略熵成正比,因此,尋找最優(yōu)策略π*的過程可以寫為
式中:α為溫度參數(shù),用于平衡策略熵和回報(bào)之間的差距,它可以是一個(gè)確定的值或者是一個(gè)自適應(yīng)的參數(shù);H 是策略熵,可以表示為
通過最大熵這一項(xiàng),尋找最優(yōu)策略的開發(fā)過程有可能被提高,同時(shí),陷入局部最優(yōu)的局面有可能被避免。在策略評(píng)估階段,軟策略的迭代過程中,軟Q值可通過函數(shù)Q:S×A→R 計(jì)算迭代(其中R是回報(bào)值r的集合),并被反復(fù)作用到修正后的Bellman 后向算子上,即
其中,軟狀態(tài)值函數(shù)是
定義Qk+1=TπQk,那么,當(dāng)k趨于無窮大時(shí),序列Qk將趨于軟Q函數(shù)π。
在策略提升階段,使用Kullback-Leibler 收斂函數(shù)DKL(·),策略π隨著新的軟Q函數(shù)成指數(shù)級(jí)收斂,即
這里Π是策略函數(shù)中的可行集合;Ζπold(st)是剖分函數(shù),用于正則化分布,并且對(duì)新的策略來說沒有梯度方面的貢獻(xiàn)。反復(fù)應(yīng)用軟策略評(píng)估和軟策略將提升最大化熵策略在策略集Π中收斂速度[77]。
為了全面表示系統(tǒng)信息,太陽能飛機(jī)的位置、飛行姿態(tài)、飛行速度、當(dāng)?shù)貢r(shí)間、電池狀態(tài)和動(dòng)作信息都需要作為強(qiáng)化學(xué)習(xí)控制器的輸入。為了達(dá)到更好地適應(yīng)環(huán)境的目的,太陽高度和方位角用于取代狀態(tài)空間中的時(shí)間信息。
對(duì)于高空長(zhǎng)航時(shí)飛機(jī),制導(dǎo)控制器的目標(biāo)不僅僅是能確保穩(wěn)定的飛行狀態(tài),還需要全面考慮長(zhǎng)時(shí)間的滿足任務(wù)要求。按照能量吸收模型,自然的,控制變量需要被選擇為迎角和滾轉(zhuǎn)角。盡管如此,因?yàn)樘柲茱w機(jī)的穩(wěn)定性受迎角的影響比較大,它的爬升過程可由推力和迎角來確定。控制器的動(dòng)作空間是三維的,包括推力的控制增量ΔTcmd、迎角Δαcmd、以及滾轉(zhuǎn)角Δφcmd。
強(qiáng)化學(xué)習(xí)的試驗(yàn)對(duì)回報(bào)函數(shù)的設(shè)計(jì)具有深度的依賴性。在太陽能飛機(jī)航跡優(yōu)化領(lǐng)域,主要目的是確保在一個(gè)晝夜循環(huán)之后,可用的能量最大化,這個(gè)量只有在一個(gè)強(qiáng)化學(xué)習(xí)的仿真過程完成之后才能獲得。并且,稀疏的獎(jiǎng)勵(lì)回報(bào)讓訓(xùn)練過程變得非常困難。因此,在研究過程中,設(shè)計(jì)一種密集的獎(jiǎng)勵(lì)回報(bào)函數(shù),用于引導(dǎo)智能體朝太陽能使用效率最大化的方向移動(dòng)[60]。
此外,由于初始階段,Anticipator 的參數(shù)完全隨機(jī),預(yù)測(cè)效果較差。直接利用Anticipator 的預(yù)測(cè)結(jié)果S't+1來訓(xùn)練Actor 的話可能導(dǎo)致本身由于巨大狀態(tài)、動(dòng)作空間而非常難收斂的Actor 網(wǎng)絡(luò)更加難以收斂,形成“白板學(xué)習(xí)”的現(xiàn)象。因此,可以在初始階段只訓(xùn)練示教軌跡的Anticipator 部分,等Anticipator 能達(dá)到一個(gè)較好的預(yù)測(cè)效果時(shí)再聯(lián)合訓(xùn)練整個(gè)模型,這樣,對(duì)于避免白板學(xué)習(xí)的盲目性具有非常重要的意義[78]。對(duì)于Anticipator-A3C 模型之間各部分的訓(xùn)練方式以及梯度流向如圖25 所示。
圖25 Anticipator-A3C 訓(xùn)練原理圖Fig.25 Schematic diagram for trainning of Anticipator-A3C
根據(jù)Anticipator-A3C 結(jié)構(gòu),可以得到每個(gè)網(wǎng)絡(luò)的參數(shù)更新公式為
作為一種通用化的方法,該方法在外界風(fēng)場(chǎng)環(huán)境發(fā)生變化的條件下,可以直接移植到不同的強(qiáng)化學(xué)習(xí)模型上而無需在原有模型上進(jìn)行改動(dòng),非常符合求解不同環(huán)境下動(dòng)態(tài)滑翔控航跡的需求[79]。
總的來說,目前研究臨近空間太陽能飛機(jī)能量最優(yōu)飛行航跡規(guī)劃的方法分為2 個(gè)方向:一種不考慮風(fēng)場(chǎng)變化但考慮大范圍高度變化下的能量最優(yōu)航跡規(guī)劃方法,一種是考慮風(fēng)場(chǎng)變化但不考慮大范圍高度變化下的能量最優(yōu)航跡規(guī)劃方法。這種分類方法有利于更好地開展科學(xué)研究,也正是在這種分類方法的指導(dǎo)下,學(xué)術(shù)界在這2 個(gè)方向都取得了不錯(cuò)的研究進(jìn)展。同時(shí)也能看到,這2 類問題雖然本質(zhì)上都是給定條件下的航跡優(yōu)化問題,由于處理方法的不同,兩者求解和處理框架迥異,這給實(shí)際工程應(yīng)用帶來巨大的困難與挑戰(zhàn)。
自2016 年之后,以深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)為主要標(biāo)志的人工智能技術(shù)飛速發(fā)展[80],使人工智能成為堪比19 世紀(jì)初的蒸汽機(jī)、20 世紀(jì)初的電力、20 世紀(jì)后半葉的計(jì)算機(jī)技術(shù)一樣,成為一種可能對(duì)社會(huì)各行各業(yè)都帶來巨大而深刻變革的“通用技術(shù)”。
通過本文的文獻(xiàn)調(diào)研和綜述可以發(fā)現(xiàn):臨近空間太陽能飛機(jī)能量最優(yōu)飛行航跡規(guī)劃的2 個(gè)方向的發(fā)展趨勢(shì)都指向了以強(qiáng)化學(xué)習(xí)為基礎(chǔ)的智能控制方法。當(dāng)前,融合太陽能飛機(jī)總體設(shè)計(jì)、航跡規(guī)劃與人工智能方向研究成果[61,81-85],可以明確:太陽能飛機(jī)能量最優(yōu)飛行航跡規(guī)劃方法的發(fā)展方向是基于A3C(Asynchronous Advantage Actor-Critic)強(qiáng)化學(xué)習(xí)框架的太陽能飛機(jī)能量最優(yōu)“通用”飛行航跡規(guī)劃方法。該方法可以統(tǒng)一考慮太陽輻射、空間高度和風(fēng)場(chǎng)變化,融合重力勢(shì)能與梯度風(fēng)場(chǎng)對(duì)太陽能飛機(jī)臨近空間持久駐留能量變化的影響,統(tǒng)一能量最優(yōu)航跡問題處理框架。
谷歌公司成功應(yīng)用QR-DQN 強(qiáng)化學(xué)習(xí)算法引導(dǎo)臨近空間氣球利用風(fēng)場(chǎng)進(jìn)行航跡規(guī)劃,這對(duì)臨近空間太陽能飛機(jī)的飛行航跡規(guī)劃有重要的借鑒意義,谷歌氣球在狀態(tài)向量的設(shè)置上,表示風(fēng)場(chǎng)要素的值占比超過98.5%,且排列方式十分巧妙,以這樣的狀態(tài)向量作為神經(jīng)網(wǎng)絡(luò)的輸入,能夠盡可能地讓神經(jīng)網(wǎng)絡(luò)感知到在怎樣的風(fēng)場(chǎng)環(huán)境下采取何種動(dòng)作能夠取得最大回報(bào)。因此,在采用基于A3C 強(qiáng)化學(xué)習(xí)框架研究太陽能飛機(jī)能量最優(yōu)飛行航跡規(guī)劃問題時(shí),可以考慮增加重力勢(shì)能、太陽輻照等表示能量的要素以及表示梯度風(fēng)場(chǎng)情況的要素在狀態(tài)向量中所占的比例,并調(diào)整這些要素的排列形式,以使得對(duì)Critic的訓(xùn)練能夠更好地表征狀態(tài)空間、動(dòng)作空間與回報(bào)之間的映射關(guān)系,從而獲得太陽能飛機(jī)在各種環(huán)境下的應(yīng)對(duì)策略。同時(shí),在實(shí)際應(yīng)用過程中,太陽能飛機(jī)所處的環(huán)境是不斷變化的,對(duì)環(huán)境信息的獲取存在一定的不確定性,后續(xù)的研究不宜采用傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法估計(jì)回報(bào)的期望值,可考慮采用分布式強(qiáng)化學(xué)習(xí)算法估計(jì)回報(bào)的概率分布。
可以預(yù)見,隨著太陽能飛機(jī)能量最優(yōu)飛行航跡規(guī)劃方法在理論和應(yīng)用上的完善,該方向有望取得若干前沿基礎(chǔ)性研究成果,可牽引人工智能在太陽能飛機(jī)中的應(yīng)用研究,為臨近空間飛行器平臺(tái)的實(shí)際應(yīng)用奠定基礎(chǔ)。本文的工作可為設(shè)計(jì)具有實(shí)用價(jià)值的太陽能飛機(jī)飛行規(guī)劃方法提供理論支撐,為實(shí)現(xiàn)高空持續(xù)駐留提供技術(shù)參考。