基于深度強(qiáng)化學(xué)習(xí)的追逃博弈算法*

2019-01-07 07:13:28鞏慶海王會霞

航天控制 2018年6期

譚浪鞏慶海王會霞

1.北京航天自動控制研究所，北京100854 2.宇航智能控制技術(shù)國家級重點(diǎn)實(shí)驗(yàn)室，北京 100854

遠(yuǎn)距離非接觸式的精確打擊已成為現(xiàn)代軍事作戰(zhàn)的主要手段，為提高導(dǎo)彈作戰(zhàn)效能，導(dǎo)彈攻防對抗已成為現(xiàn)代軍事研究的主要問題。在導(dǎo)彈攻防對抗中，進(jìn)攻彈和攔截器具有相反的作戰(zhàn)目的：進(jìn)攻彈為逃逸者，為達(dá)成作戰(zhàn)目的需要盡量躲避攔截器，而攔截器為追捕者，需要使目標(biāo)處于殺傷或捕獲范圍之內(nèi)，雙方構(gòu)成追逃博弈[1]。

目前，導(dǎo)彈攻防對抗的大多研究都是從經(jīng)典控制方法出發(fā)，通過建立攻防雙方微分對策模型，設(shè)計(jì)制導(dǎo)律來提高導(dǎo)彈武器的作戰(zhàn)效能。例如，文獻(xiàn)[2]通過對比例導(dǎo)引進(jìn)行改進(jìn)，使用卡爾曼濾波算法估計(jì)地方飛行信息，并使用姿態(tài)搜索算法以確定彈頭的機(jī)動方向；文獻(xiàn)[3]通過建立追逃對策模型，使用配點(diǎn)法對其進(jìn)行求解，得到機(jī)動策略。文獻(xiàn)[4]將導(dǎo)彈抽象為智能體，從多智能體系統(tǒng)的角度研究攻防對抗問題，但僅用以解決仿真中時空不一致的問題，并沒有從智能算法的角度研究導(dǎo)彈攻防對抗過程。

隨著人工智能技術(shù)的飛速發(fā)展，各國正致力于研究智能化程度更高的導(dǎo)彈和武器系統(tǒng)來替代現(xiàn)有的設(shè)計(jì)方案[5]。當(dāng)AlphaGo在圍棋領(lǐng)域擊敗人類頂尖選手時，深度強(qiáng)化學(xué)習(xí)已經(jīng)成為備受學(xué)者們關(guān)注的研究熱點(diǎn)[6-7]。深度強(qiáng)化學(xué)習(xí)技術(shù)被認(rèn)為是最有可能實(shí)現(xiàn)通用人工智能計(jì)算的重要途徑之一，具有很強(qiáng)的通用性。目前深度強(qiáng)化學(xué)習(xí)在經(jīng)典控制領(lǐng)域的應(yīng)用是OpenAI公司使用深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)算法在模擬環(huán)境gym下對倒立擺進(jìn)行了穩(wěn)定控制[8]。此外，在真實(shí)場景下的應(yīng)用是使用近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法對機(jī)械臂控制，使其完成抓取木塊的操作[9]。

用三維空間中的導(dǎo)彈攻防問題抽象為二維平面中智能小車的追逃問題，在DDPG算法[10]的基礎(chǔ)上提出一種追逃博弈算法。該算法的回報(bào)函數(shù)采用PID控制的思想進(jìn)行設(shè)計(jì)，并在Epuck小型移動機(jī)器人上進(jìn)行了追逃博弈實(shí)驗(yàn)驗(yàn)證。算法以定位系統(tǒng)獲得的位置信息作為輸入，通過對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，輸出追捕者的控制指令，控制其最終成功地完成追捕任務(wù)。

1 追逃博弈模型

一對一追逃博弈場景分為一個逃跑者和一個追捕者，它們具有相反的目的：逃跑者要躲避追蹤，而追捕者要捕獲逃跑者。

一對一追逃博弈模型如圖1所示：

追捕者與逃跑者的運(yùn)動學(xué)模型為：

(1)

式中：i是指追捕者P和逃跑者E；(xi,yi)是智能小車的位置；θi是方向；ui是轉(zhuǎn)向角，ui∈[-uimax,uimax]；vi是由轉(zhuǎn)向角控制的智能小車的速度；φi表示速度方向與視線角的偏差。

在圖1所示的追逃博弈模型中，設(shè)定追捕者應(yīng)快于逃跑者，即vpmax>vemax，但同時追捕者的機(jī)動能力比逃跑者差，即upmax

2 馬爾科夫決策過程與強(qiáng)化學(xué)習(xí)

馬爾科夫決策過程(Markov Decision Process , MDP)由一個五元組(S,A,T,R,γ)描述[11]，其中：S為有限的狀態(tài)空間；A為有限的行為空間；T為狀態(tài)轉(zhuǎn)移函數(shù)；R為回報(bào)函數(shù)；γ為折扣因子。轉(zhuǎn)移函數(shù)表示在給定當(dāng)前狀態(tài)和行為下，轉(zhuǎn)移到下一狀態(tài)的概率分布：

(2)

式中：s′表示下一時刻的可能狀態(tài)。

回報(bào)函數(shù)表示給定當(dāng)前行為和狀態(tài)下，在下一狀態(tài)得到的回報(bào)。馬爾科夫決策過程具有如下的馬爾科夫特性：智能體的下一時刻的狀態(tài)和回報(bào)僅取決于智能體在當(dāng)前時刻的狀態(tài)和行為。

在任一馬爾科夫決策過程中，智能體都存在一個確定的最優(yōu)策略，強(qiáng)化學(xué)習(xí)的目標(biāo)就是尋找給定的馬爾科夫決策過程中的最優(yōu)策略。

強(qiáng)化學(xué)習(xí)是智能體自主探索環(huán)境狀態(tài)，采取行為作用于環(huán)境并從環(huán)境中獲得回報(bào)的過程。一般而言，強(qiáng)化學(xué)習(xí)問題是建立在馬爾科夫決策過程模型的基礎(chǔ)上。

圖2 強(qiáng)化學(xué)習(xí)框架

強(qiáng)化學(xué)習(xí)框架如圖2所示。智能體在當(dāng)前狀態(tài)s下，采取行為a，根據(jù)狀態(tài)轉(zhuǎn)移函數(shù)T，環(huán)境會轉(zhuǎn)移到下一狀態(tài)s′，同時環(huán)境會對智能體反饋一個獎勵信號，即回報(bào)r。智能體在下一狀態(tài)按照上述過程依次進(jìn)行。智能體的目標(biāo)是通過不斷地訓(xùn)練，獲得最大化的長期回報(bào)。為評估智能體策略，定義狀態(tài)值函數(shù)Vπ(s)為：當(dāng)智能體從狀態(tài)s開始并隨后執(zhí)行策略π時，在該策略下狀態(tài)的值。因此：

(3)

式中：T為最終時刻；t為當(dāng)前時刻；rt+1為在t+1時刻得到的回報(bào)。

由圖2可知，環(huán)境反饋給智能體的回報(bào)r與狀態(tài)s和動作a有關(guān)，可用價值函數(shù)來描述之間的關(guān)系。定義行為值函數(shù)Qπ(s,a)為：當(dāng)智能體從狀態(tài)s選擇特定行為a并隨后執(zhí)行策略π而得到的預(yù)期回報(bào)。一個最優(yōu)策略π*將使得智能體在所有狀態(tài)下可獲得最大化的折扣未來回報(bào)。則在最優(yōu)策略下的行為值函數(shù)Q*(s,a)可重寫為一個貝爾曼最優(yōu)方程：

(4)

對于圖1所示的智能小車追逃博弈場景而言，環(huán)境的狀態(tài)及智能體的動作都是連續(xù)量。因此，使用深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)構(gòu)造函數(shù)逼近器，得到近似的行為值函數(shù)。Q值神經(jīng)網(wǎng)絡(luò)定義為：

Q(s,a)≈f(s,a,w)

(5)

式中：w是指神經(jīng)網(wǎng)絡(luò)的參數(shù)。

3 追逃博弈算法設(shè)計(jì)

以深度強(qiáng)化學(xué)習(xí)中的DDPG算法為基礎(chǔ)，定義MDP狀態(tài)空間與行為空間，設(shè)計(jì)回報(bào)函數(shù)，從而實(shí)現(xiàn)智能小車的控制算法，用以對追捕者進(jìn)行導(dǎo)航與控制，使其盡可能快地追上逃跑者。

通過使用定位系統(tǒng)實(shí)時獲得各智能小車的位置信息，以此為基礎(chǔ)構(gòu)造輸入神經(jīng)網(wǎng)絡(luò)的狀態(tài)量。對于圖1所示的追逃博弈場景，本文算法的目的是最小化追捕者和逃跑者之間的相對距離。因此，給出MDP狀態(tài)空間如下：

S=[L,δ]T

(6)

在本文第1節(jié)所設(shè)定的追逃博弈場景中，逃跑者的狀態(tài)可以是靜止、勻速直線運(yùn)動或帶有機(jī)動的運(yùn)動(即角速度不為0)。追捕者的策略是由神經(jīng)網(wǎng)絡(luò)的輸出給定。因此，給出MDP動作空間為up。更近一步，由式(1)可知，追捕者轉(zhuǎn)向角影響的是追捕者的角速度，因此，動作空間為：

(7)

對于追逃博弈場景而言，MDP轉(zhuǎn)移函數(shù)即為各智能小車的運(yùn)動學(xué)方程，即式(1)。

追捕者的目的是成功捕獲逃跑者，由于實(shí)驗(yàn)場地的限制，追捕者不能越過邊界，否則認(rèn)為追捕任務(wù)失敗。因此，在最終時刻，如果追捕任務(wù)成功，則給予一個較大的正回報(bào)，否則給予一個較大的負(fù)回報(bào)。對于在追捕任務(wù)過程中的回報(bào)函數(shù)的設(shè)計(jì)，借鑒PID控制思想，即：如果追捕者的速度方向與視線相同，則追捕者一定能成功追捕逃跑者(因?yàn)樽凡墩咚俣却笥谔优苷?。因此，追捕任務(wù)過程中的回報(bào)定義為：kφp。綜上所述，MDP回報(bào)函數(shù)設(shè)計(jì)如下：

(8)

式中：k是比例因子。

本文采取強(qiáng)化學(xué)習(xí)中的異策略(off-policy)學(xué)習(xí)方法，神經(jīng)網(wǎng)絡(luò)的架構(gòu)采用AC(Actor-Critic Algorithm)的方法，即使用Actor網(wǎng)絡(luò)得到行為策略，使用Critic網(wǎng)絡(luò)得到評估策略。Actor-Critic 網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

由于定位系統(tǒng)得到的智能小車的位置信息是一個在時間上連續(xù)的序列，因此由狀態(tài)構(gòu)成的樣本之間并不具備獨(dú)立性。為解決這個問題，本文算法使用了經(jīng)驗(yàn)回放和獨(dú)立的目標(biāo)網(wǎng)絡(luò)。經(jīng)驗(yàn)回放即將樣本存儲在經(jīng)驗(yàn)池中，并在經(jīng)驗(yàn)池達(dá)到一定程度后隨機(jī)從中選取若干樣本進(jìn)行訓(xùn)練。使用獨(dú)立的目標(biāo)網(wǎng)絡(luò)即再使用一個與策略網(wǎng)絡(luò)結(jié)構(gòu)一樣的AC網(wǎng)絡(luò)。

圖3 Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu)

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程實(shí)質(zhì)上是通過構(gòu)造一個代價函數(shù)，對其進(jìn)行梯度下降，從而可得到最優(yōu)的神經(jīng)網(wǎng)絡(luò)參數(shù)。Actor網(wǎng)絡(luò)輸出的是智能體的行為策略，Critic網(wǎng)絡(luò)輸出該行為的評估。因此，Critic網(wǎng)絡(luò)的代價函數(shù)如下：

Li=E[(yi-Q(si,ai|θQ))2]

(9)

式中：yi=E[ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)]。

Actor網(wǎng)絡(luò)的策略梯度為：

(10)

目標(biāo)網(wǎng)絡(luò)采用延遲更新的方式，即一定時間后將目標(biāo)網(wǎng)絡(luò)參數(shù)替換為策略網(wǎng)絡(luò)的參數(shù)。

智能小車追逃博弈算法如表1所示。

4 實(shí)驗(yàn)驗(yàn)證

4.1 實(shí)驗(yàn)平臺

本文采用的智能小車是由瑞士聯(lián)合科技院研制的Epuck小型移動機(jī)器人，具體構(gòu)造如圖4所示。Epuck智能小車由DSPIC處理器驅(qū)動，車身一周覆蓋有8個紅外距離傳感器，可測量傳感器前方6cm的物體，并且集成了VGA彩色攝像頭和8個LED。此外，智能小車可配備擴(kuò)展板，通過WiFi與計(jì)算機(jī)和其他智能小車間通訊。本文對于智能小車的具體型號并不做嚴(yán)格要求，其僅作為本文算法驗(yàn)證的執(zhí)行機(jī)構(gòu)。

表1 追逃博弈算法

圖4 Epuck移動機(jī)器人

小車的室內(nèi)定位系統(tǒng)采用的是運(yùn)動捕捉系統(tǒng)，定位精度不低于1mm。定位系統(tǒng)實(shí)時獲取智能小車的位置并傳輸?shù)缴衔粰C(jī)，上位機(jī)通過計(jì)算得到狀態(tài)量，并將其輸入到神經(jīng)網(wǎng)絡(luò)，經(jīng)訓(xùn)練得到追捕者小車的控制策略，然后將指令通過無線傳輸?shù)阶凡墩咝≤囈钥刂破溥M(jìn)行追捕任務(wù)。

4.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文算法程序基于Python語言進(jìn)行編程，以深度學(xué)習(xí)框架TensorFlow為基礎(chǔ)，算法中的神經(jīng)網(wǎng)絡(luò)均采用全連接網(wǎng)絡(luò)的架構(gòu)，網(wǎng)絡(luò)采用2個隱含層，分別有150和50個節(jié)點(diǎn)，訓(xùn)練算法的minibach設(shè)置為16，經(jīng)驗(yàn)池大小為10000，學(xué)習(xí)率為0.0001，折扣因子為0.9，回報(bào)函數(shù)中的比例因子設(shè)置為2。其它實(shí)驗(yàn)參數(shù)如表2所示：

表2 實(shí)驗(yàn)參數(shù)

4.3 實(shí)驗(yàn)結(jié)果分析

訓(xùn)練時，逃跑者做勻速直線運(yùn)動，算法訓(xùn)練500次，記錄每次的累積回報(bào)，結(jié)果如圖5所示。由圖5可知算法在訓(xùn)練約100次時開始收斂。圖6分別顯示了兩智能小車在訓(xùn)練前和算法收斂時的運(yùn)行軌跡圖，可以看出訓(xùn)練前追捕者小車處于沒有策略的運(yùn)動狀態(tài)，最終超出邊界而導(dǎo)致任務(wù)失?。划?dāng)算法收斂后，追捕者小車能夠做出正確的決策，最終成功地捕獲逃跑者。

圖5 算法收斂趨勢

圖6 智能小車運(yùn)行軌跡

為了驗(yàn)證本文算法的適應(yīng)性，在評估時將小車的初始位姿進(jìn)行修改，使其在一定的范圍內(nèi)隨機(jī)分布，并進(jìn)行100次測試評估。圖7(a)顯示了這100次評估對的累積回報(bào)值，圖7(b)顯示了最后一次的智能小車運(yùn)行軌跡。由圖7(a)可以看出，這100次評估實(shí)驗(yàn)中，追捕者小車均能成功捕獲逃跑者小車。

此外，將逃跑者的運(yùn)動狀態(tài)分別更改為靜止和隨機(jī)運(yùn)動，再次對算法進(jìn)行評估，實(shí)驗(yàn)結(jié)果分別如圖8和9所示。在這2種狀態(tài)的評估實(shí)驗(yàn)中，追捕者小車均能成功完成任務(wù)，表明本文算法具有較強(qiáng)的適應(yīng)性。

圖7 算法評估結(jié)果

圖8 逃跑者靜止時小車運(yùn)行軌跡

圖9 逃跑者隨機(jī)機(jī)動時小車運(yùn)行軌跡

使用訓(xùn)練好的模型對追捕者小車進(jìn)行控制，在室內(nèi)場地進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)中分別將逃跑者小車的狀態(tài)設(shè)置為靜止、勻速直線運(yùn)動和隨機(jī)運(yùn)動，模型輸入追捕者小車的狀態(tài)，輸出控制指令，經(jīng)WiFi傳輸給追捕者，控制追捕者運(yùn)動。在這3種狀態(tài)的Epuck小車追逃博弈實(shí)驗(yàn)中，追捕者均能夠成功地捕獲逃跑者，與上文對算法評估中的3種仿真實(shí)驗(yàn)結(jié)果一致，表明算法能夠?qū)嶋H地用在對智能小車的導(dǎo)航控制中。

5 結(jié)論

立足于三維空間中導(dǎo)彈的攻防對抗問題，將其抽象成二維平面的小車追逃博弈，提出了基于深度強(qiáng)化學(xué)習(xí)的追逃博弈算法。算法以DDPG算法為原型，設(shè)計(jì)針對智能體追逃的馬爾科夫決策過程中的狀態(tài)空間、動作空間和回報(bào)函數(shù)，并對算法進(jìn)行訓(xùn)練，收斂后的模型在數(shù)學(xué)仿真和實(shí)物實(shí)驗(yàn)中均成功地實(shí)現(xiàn)追捕任務(wù)。實(shí)驗(yàn)結(jié)果表明本文所提出的深度強(qiáng)化學(xué)習(xí)算法可以有效地實(shí)現(xiàn)對智能小車的導(dǎo)航與控制，具有較強(qiáng)的適應(yīng)性。后續(xù)，可將智能小車的運(yùn)動模型替換為導(dǎo)彈的運(yùn)動學(xué)和動力學(xué)模型，用以研究和仿真三維空間的導(dǎo)彈攻防對抗過程。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡