国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度Q網(wǎng)絡(luò)的人群疏散機(jī)器人運(yùn)動(dòng)規(guī)劃算法

2019-11-15 04:49周婉胡學(xué)敏史晨寅魏潔玲童秀遲
計(jì)算機(jī)應(yīng)用 2019年10期

周婉 胡學(xué)敏 史晨寅 魏潔玲 童秀遲

摘 要:針對(duì)公共場(chǎng)合密集人群在緊急情況下疏散的危險(xiǎn)性和效果不理想的問(wèn)題,提出一種基于深度Q網(wǎng)絡(luò)(DQN)的人群疏散機(jī)器人的運(yùn)動(dòng)規(guī)劃算法。首先通過(guò)在原始的社會(huì)力模型中加入人機(jī)作用力構(gòu)建出人機(jī)社會(huì)力模型,從而利用機(jī)器人對(duì)行人的作用力來(lái)影響人群的運(yùn)動(dòng)狀態(tài);然后基于DQN設(shè)計(jì)機(jī)器人運(yùn)動(dòng)規(guī)劃算法,將原始行人運(yùn)動(dòng)狀態(tài)的圖像輸入該網(wǎng)絡(luò)并輸出機(jī)器人的運(yùn)動(dòng)行為,在這個(gè)過(guò)程中將設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)反饋給網(wǎng)絡(luò)使機(jī)器人能夠在“環(huán)境行為獎(jiǎng)勵(lì)”的閉環(huán)過(guò)程中自主學(xué)習(xí);最后經(jīng)過(guò)多次迭代,機(jī)器人能夠?qū)W習(xí)在不同初始位置下的最優(yōu)運(yùn)動(dòng)策略,最大限度地提高總疏散人數(shù)。在構(gòu)建的仿真環(huán)境里對(duì)算法進(jìn)行訓(xùn)練和評(píng)估。

實(shí)驗(yàn)結(jié)果表明,與無(wú)機(jī)器人的人群疏散算法相比,基于DQN的人群疏散機(jī)器人運(yùn)動(dòng)規(guī)劃算法使機(jī)器人在三種不同初始位置下將人群疏散效率分別增加了16.41%、10.69%和21.76%,說(shuō)明該算法能夠明顯提高單位時(shí)間內(nèi)人群疏散的數(shù)量,具有靈活性和有效性。

關(guān)鍵詞:深度Q網(wǎng)絡(luò);人群疏散;運(yùn)動(dòng)規(guī)劃;人機(jī)社會(huì)力模型;強(qiáng)化學(xué)習(xí)

中圖分類號(hào):TP391.7

文獻(xiàn)標(biāo)志碼:A

Abstract: Aiming at the danger and unsatisfactory effect of dense crowd evacuation in public places in emergency, a motion planning algorithm of robots for crowd evacuation based on Deep Q-Network (DQN) was proposed. Firstly, a human-robot social force model was constructed by adding human-robot interaction to the original social force model, so that the motion state of crowd was able to be influenced by the robot force on pedestrians. Then, a motion planning algorithm of robot was designed based on DQN. The images of the original pedestrian motion state were input into the network and the robot motion behavior was output. In this process, the designed reward function was fed back to the network to enable the robot to autonomously learn from the closed-loop process of “environment-behavior-reward”. Finally, the robot was able to learn the optimal motion strategies at different initial positions to maximize the total number of people evacuated after many iterations. The proposed algorithm was trained and evaluated in the simulated environment. Experimental results show that the proposed algorithm based on DQN increases the evacuation efficiency by 16.41%, 10.69% and 21.76% respectively at three different initial positions compared with the crowd evacuation algorithm without robot, which proves that the algorithm can significantly increase the number of people evacuated per unit time with flexibility and effectiveness.

Key words: Deep Q-Network (DQN); crowd evacuation; motion planning; human-robot social force model; reinforcement learning

0 引言

隨著城市經(jīng)濟(jì)建設(shè)的快速發(fā)展,大型購(gòu)物中心、體育館、影劇院等高密度人群的公共場(chǎng)所越來(lái)越多。當(dāng)緊急突發(fā)事件發(fā)生時(shí),逃生的人群往往會(huì)在出口處擁擠而形成堵塞,容易發(fā)生事故,存在著極大的安全隱患。傳統(tǒng)人員安全疏散的方法有人工協(xié)助疏散和擺放靜止物體協(xié)助疏散。前者極度浪費(fèi)人力資源,并且對(duì)工作人員的安全造成威脅,而后者難以有效地適應(yīng)變化的環(huán)境,疏散效果不理想。因此,在公共場(chǎng)所發(fā)生緊急突發(fā)事件時(shí),如何快速、科學(xué)地疏散人群是公共安全領(lǐng)域中一個(gè)亟待解決的問(wèn)題。

國(guó)內(nèi)外科學(xué)研究者在人群疏散問(wèn)題上進(jìn)行了深入的研究并建立了多種模擬人群行為的模型,其中由Helbing等[1]提出的社會(huì)力模型(Social Force Model, SFM)大量用于研究緊急人群疏散。另一方面,隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,機(jī)器人越來(lái)越智能化,利用機(jī)器人疏散人群的方法也越來(lái)越多。Robinette等[2]提出機(jī)器人引導(dǎo)人群疏散到逃生出口;Boukas等[3]提出基于元胞自動(dòng)機(jī)模型對(duì)人群疏散進(jìn)行仿真,并利用仿真結(jié)果得到的反饋使移動(dòng)機(jī)器人疏散人群。雖然這些利用機(jī)器人疏散人群的方法有一定的成效,但是由于實(shí)際疏散場(chǎng)景復(fù)雜,人群密度高,并且這些算法不具有學(xué)習(xí)能力,因而難以適應(yīng)復(fù)雜的實(shí)際人群疏散場(chǎng)景。

在機(jī)器人疏散人群方法中,機(jī)器人的運(yùn)動(dòng)規(guī)劃算法是核心,直接決定疏散效果的好壞。運(yùn)動(dòng)規(guī)劃作為機(jī)器人領(lǐng)域的一個(gè)重點(diǎn)研究問(wèn)題,是指在一定條件的約束下為機(jī)器人找到從初始狀態(tài)到目標(biāo)狀態(tài)的最佳路徑和運(yùn)動(dòng)參數(shù)。傳統(tǒng)運(yùn)動(dòng)規(guī)劃方法是在先驗(yàn)環(huán)境下,預(yù)先設(shè)定規(guī)則,機(jī)器人依據(jù)規(guī)則實(shí)現(xiàn)運(yùn)動(dòng)規(guī)劃。然而當(dāng)遇到動(dòng)態(tài)未知的環(huán)境時(shí),此類方法由于靈活性不強(qiáng)而難以適應(yīng)復(fù)雜環(huán)境。近幾年來(lái),越來(lái)越多的運(yùn)動(dòng)規(guī)劃研究者把目光集中到機(jī)器學(xué)習(xí)方面,其中文獻(xiàn)[4]提出的深度強(qiáng)化學(xué)習(xí)就是運(yùn)動(dòng)規(guī)劃領(lǐng)域的研究熱點(diǎn)之一。深度強(qiáng)化學(xué)習(xí)是一種“試錯(cuò)”的學(xué)習(xí)方法,自主體隨機(jī)選擇并執(zhí)行動(dòng)作,然后基于環(huán)境狀態(tài)變化所給予的反饋,以及當(dāng)前環(huán)境狀態(tài)再選擇并執(zhí)行下一個(gè)動(dòng)作,通過(guò)深度強(qiáng)化學(xué)習(xí)算法在“動(dòng)作反饋”中獲取知識(shí),增長(zhǎng)經(jīng)驗(yàn)。深度強(qiáng)化學(xué)習(xí)的開(kāi)創(chuàng)性工作深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)通過(guò)探索原始圖像提取特征進(jìn)行實(shí)時(shí)策略在視頻游戲等領(lǐng)域有了重大突破,Mnih等[5]利用智能體在策略選擇方面超越了人類的表現(xiàn)。隨后Mnih等[6]又提出了更接近人思維方式的人智能體運(yùn)動(dòng)規(guī)劃算法,并應(yīng)用于Atari游戲,取得了驚人的效果。隨著AlphaGo的成功,深度強(qiáng)化學(xué)習(xí)在運(yùn)動(dòng)規(guī)劃問(wèn)題上應(yīng)用越來(lái)越廣泛,例如用于無(wú)人車[7]、無(wú)人機(jī)和多智能體[8]等領(lǐng)域。同時(shí),Giusti等[9]利用深度強(qiáng)化學(xué)習(xí)在機(jī)器人的導(dǎo)航上也取得了廣泛的應(yīng)用?;谏疃葟?qiáng)化學(xué)習(xí)算法的機(jī)器人在復(fù)雜未知的環(huán)境中學(xué)習(xí)速度更快、效率更高、靈活性更強(qiáng),因此將深度強(qiáng)化學(xué)習(xí)應(yīng)用于人群疏散機(jī)器人的運(yùn)動(dòng)規(guī)劃算法是解決人群疏散難題的一個(gè)有效途徑。

針對(duì)目前人群疏散機(jī)器人自主學(xué)習(xí)等問(wèn)題以及深度強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),本文提出一種基于深度Q網(wǎng)絡(luò)的人群疏散機(jī)器人運(yùn)動(dòng)規(guī)劃算法。該算法中,在基于人機(jī)社會(huì)力模型的前提下,機(jī)器人能夠通過(guò)自身的運(yùn)動(dòng)影響周圍人群的狀態(tài)。通過(guò)Su等[10]提出的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),提取人群疏散圖像的特征;設(shè)計(jì)面向人群疏散機(jī)器人運(yùn)動(dòng)規(guī)劃的DQN算法,通過(guò)DQN分析特征并進(jìn)行運(yùn)動(dòng)規(guī)劃,給出機(jī)器人的運(yùn)動(dòng)策略。在獲取當(dāng)前環(huán)境給予的反饋后,自動(dòng)調(diào)整其運(yùn)動(dòng)參數(shù),讓機(jī)器人運(yùn)動(dòng)到最佳的狀態(tài),從而影響周圍人群的運(yùn)動(dòng)狀態(tài),達(dá)到疏散人群的目的。本文方法既能解決公共安全領(lǐng)域中人群疏散的難題,又為深度強(qiáng)化學(xué)習(xí)算法在機(jī)器人領(lǐng)域的應(yīng)用提供新思路。

1 機(jī)器人與人群的交互作用模型

本文采用文獻(xiàn)[11]中提出的人機(jī)社會(huì)力模型作為機(jī)器人與人群的交互作用模型。人機(jī)社會(huì)力模型以SFM為基礎(chǔ)。SFM是基于牛頓第二定律,將人群中的個(gè)體當(dāng)成離散的質(zhì)點(diǎn),將人的運(yùn)動(dòng)軌跡看作是受到合力的作用效果,并綜合考慮人群心理因素設(shè)計(jì)的行人動(dòng)力學(xué)模型,能夠解釋行人逃生時(shí)行為的本質(zhì)。SFM中行人受到的合力由以下三種組成:自驅(qū)動(dòng)力、人與人之間的相互作用力、人與障礙物之間的相互作用力。人機(jī)社會(huì)力模型是在原始的SFM中加入了機(jī)器人對(duì)人的作用,利用人機(jī)之間的相互作用力來(lái)影響人群的行為,從而達(dá)到疏散人群的效果。

由于在緊急情況下疏散人群時(shí)機(jī)器人的運(yùn)動(dòng)分析較為復(fù)雜。文獻(xiàn)[11]參照人與人之間的作用力來(lái)設(shè)計(jì)人機(jī)作用力的表達(dá)形式,如式(1)所示:

其中: fir為機(jī)器人對(duì)行人i的作用力,即人機(jī)作用力;rir表示人與機(jī)器人的幾何中心距離;Ar和Br分別指人機(jī)作用力的作用強(qiáng)度和作用范圍;k、κ為常量系數(shù);nir表示機(jī)器人指向行人i的單位向量;tir為與nir正交的單位矢量。

其中:mi為行人i的質(zhì)量;vi(t)為行人i的速度; fs為行人i的自驅(qū)動(dòng)力; fij為行人i和j的相互作用力; fiw為行人i與障礙物之間的相互作用力。??在人機(jī)社會(huì)力模型中,機(jī)器人能夠通過(guò)自身的運(yùn)動(dòng)來(lái)影響和改變周圍行人的運(yùn)動(dòng)狀態(tài),從而為人群疏散提供機(jī)器人與人群的交互作用模型。

2 基于深度Q網(wǎng)絡(luò)的機(jī)器人運(yùn)動(dòng)規(guī)劃算法

在機(jī)器學(xué)習(xí)方法中,深度神經(jīng)網(wǎng)絡(luò)具有表達(dá)復(fù)雜環(huán)境的能力,而強(qiáng)化學(xué)習(xí)是解決復(fù)雜決策問(wèn)題的有效手段,因此將兩者結(jié)合起來(lái)能夠?yàn)閺?fù)雜系統(tǒng)的感知決策問(wèn)題提供解決思路。DQN是一種經(jīng)典的深度強(qiáng)化學(xué)習(xí)模型,是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合,也就是用深度神經(jīng)網(wǎng)絡(luò)框架來(lái)擬合強(qiáng)化學(xué)習(xí)中的Q值,可以使機(jī)器人真正自主學(xué)習(xí)一種甚至多種策略[12]。本文在人機(jī)社會(huì)力模型的基礎(chǔ)上,針對(duì)人群疏散的問(wèn)題,基于DQN模型設(shè)計(jì)面向人群疏散機(jī)器人的運(yùn)動(dòng)規(guī)劃算法,優(yōu)化機(jī)器人的運(yùn)動(dòng)方式,從而影響人群的運(yùn)動(dòng),提高人群疏散的效率。

2.1 深度Q網(wǎng)絡(luò)

DQN是一種結(jié)合了CNN與Q學(xué)習(xí)(Q-Learning)[13]的算法。

CNN的輸入是原始圖像數(shù)據(jù)(作為狀態(tài)),輸出是提取的特征;Q-learning通過(guò)馬爾可夫決策[14]建立模型,核心為三元組:狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)(反饋)。智能體根據(jù)當(dāng)前環(huán)境的狀態(tài)來(lái)采取動(dòng)作,在獲得相應(yīng)的獎(jiǎng)勵(lì)后,能通過(guò)試錯(cuò)的方法再去改進(jìn)動(dòng)作,使得在接下來(lái)的環(huán)境下智能體能夠做出更優(yōu)的動(dòng)作,得到更高的獎(jiǎng)勵(lì)。

DQN用強(qiáng)化學(xué)習(xí)來(lái)建立模型和優(yōu)化目標(biāo),用深度學(xué)習(xí)來(lái)解決狀態(tài)表示或者策略表示,它從環(huán)境中獲取數(shù)據(jù),將感知的狀態(tài)輸入到Q網(wǎng)絡(luò),使機(jī)器人選擇最大Q值的動(dòng)作,每隔一定時(shí)間將主Q網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)Q網(wǎng)絡(luò),并且網(wǎng)絡(luò)會(huì)通過(guò)損失函數(shù)進(jìn)行反向傳播更新主網(wǎng)絡(luò)的參數(shù),反復(fù)訓(xùn)練,直至損失函數(shù)收斂,其算法流程如圖1所示。

圖1中:s為智能體的當(dāng)前狀態(tài);s′為智能體的下一個(gè)狀態(tài);r為獎(jiǎng)勵(lì);a為機(jī)器人的當(dāng)前動(dòng)作;a′為機(jī)器人的下一個(gè)動(dòng)作;γ為折扣因子;θ為網(wǎng)絡(luò)權(quán)值。智能體感知當(dāng)前時(shí)刻下的狀態(tài)s,根據(jù)狀態(tài)與動(dòng)作之間的映射關(guān)系來(lái)采取在當(dāng)前環(huán)境的動(dòng)作,映射關(guān)系如式(5)所示:

其中:π為狀態(tài)到動(dòng)作的映射過(guò)程[15]。智能體在執(zhí)行完所選的動(dòng)作后,根據(jù)式(5)計(jì)算出當(dāng)前動(dòng)作的Q值[16]。同時(shí),智能體與環(huán)境交互得到的(s,a,r,s′)會(huì)存儲(chǔ)在回放經(jīng)驗(yàn)池中,當(dāng)回放經(jīng)驗(yàn)池里的樣本到達(dá)一定數(shù)量時(shí),每次訓(xùn)練時(shí)從經(jīng)驗(yàn)池中隨機(jī)抽取數(shù)量固定的樣本供給網(wǎng)絡(luò)學(xué)習(xí),并對(duì)DQN損失函數(shù)使用梯度下降算法更新主網(wǎng)絡(luò)的參數(shù)θ。本文設(shè)計(jì)的DQN的損失函數(shù)如式(6)所示:

其中,DQN使用了兩個(gè)結(jié)構(gòu)一樣但是參數(shù)卻不相同的Q網(wǎng)絡(luò):第一個(gè)Q網(wǎng)絡(luò)是主網(wǎng)絡(luò),它是用來(lái)計(jì)算智能體動(dòng)作的Q值,并選出最大Q值的動(dòng)作,計(jì)算當(dāng)前動(dòng)作Q值如式(7)所示;第二個(gè)Q網(wǎng)絡(luò)用來(lái)輔助訓(xùn)練,稱其為目標(biāo)Q網(wǎng)絡(luò),它的作用是輔助計(jì)算目標(biāo)Q值,目標(biāo)Q值計(jì)算方程如式(8)所示。

模型在主Q網(wǎng)絡(luò)上通過(guò)其最大Q值選擇動(dòng)作,再去獲取該動(dòng)作在目標(biāo)Q網(wǎng)絡(luò)上的Q值。這樣主Q網(wǎng)絡(luò)負(fù)責(zé)選擇相應(yīng)的行為a,而這個(gè)被選定的a的Q值則由目標(biāo)Q網(wǎng)絡(luò)生成。

2.2 人群疏散機(jī)器人的運(yùn)動(dòng)規(guī)劃算法

本文設(shè)計(jì)的基于DQN的人群疏散機(jī)器人運(yùn)動(dòng)規(guī)劃算法如圖2所示。該算法中,將深度Q網(wǎng)絡(luò)加入到機(jī)器人協(xié)助的人群疏散算法中,利用CNN提取人群疏散圖像的特征,然后通過(guò)Q網(wǎng)絡(luò)輸出為Q(s,a),即Q值。

機(jī)器人會(huì)根據(jù)當(dāng)前人群疏散場(chǎng)景圖像的狀態(tài)st采取機(jī)器人協(xié)助疏散的動(dòng)作at,進(jìn)而根據(jù)獎(jiǎng)勵(lì)函數(shù)獲得一個(gè)獎(jiǎng)勵(lì)rt,并且達(dá)到下一個(gè)狀態(tài)st+1,機(jī)器人由獎(jiǎng)勵(lì)來(lái)判斷該時(shí)刻自己選擇的動(dòng)作的好壞,并更新值函數(shù)網(wǎng)絡(luò)參數(shù)。接著再由下一個(gè)狀態(tài)得到一個(gè)獎(jiǎng)勵(lì),循環(huán)獲得獎(jiǎng)勵(lì)值,直至訓(xùn)練結(jié)束,得到一個(gè)較好的值函數(shù)網(wǎng)絡(luò)。

本文設(shè)計(jì)的算法本質(zhì)是機(jī)器人基于人群疏散的環(huán)境感知得到s,通過(guò)DQN選擇a并且得到獎(jiǎng)勵(lì)r,從而對(duì)機(jī)器人的運(yùn)動(dòng)規(guī)劃進(jìn)行優(yōu)化。因此,設(shè)計(jì)狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的算法對(duì)于本文提出的運(yùn)動(dòng)規(guī)劃算法起到至關(guān)重要的作用。

1)狀態(tài)空間設(shè)計(jì)。

狀態(tài)空間是機(jī)器人從環(huán)境中獲取的感知信息的集合,它在DQN中是Q-Learning的主線,為Q網(wǎng)絡(luò)提供信息數(shù)據(jù);并且,每個(gè)輸入的狀態(tài)都能夠前向傳播,通過(guò)網(wǎng)絡(luò)獲得行動(dòng)的Q值。由于原始圖像尺寸過(guò)大,處理數(shù)據(jù)需要占用計(jì)算機(jī)大量的內(nèi)存空間與計(jì)算資源,并且圖像中還包含了許多諸如邊界像素等無(wú)效的信息,因此本文只將機(jī)器人附近的區(qū)域作為狀態(tài)輸入圖像,并對(duì)原始人群疏散圖像進(jìn)行縮放處理,處理后輸入圖像的尺寸為84×84像素。為獲取前后幀的動(dòng)態(tài)信息,本文對(duì)離當(dāng)前時(shí)刻最近的n(本文中n=4為經(jīng)驗(yàn)值)幀場(chǎng)景圖像進(jìn)行灰度化處理,并同時(shí)輸入CNN中。因此最終輸入狀態(tài)的圖像尺寸為84×84×4,用公式表述如(9)所示:其中:S為狀態(tài)的集合;st表示當(dāng)前時(shí)刻輸入的狀態(tài)圖像;t為當(dāng)前時(shí)刻?在本文設(shè)計(jì)的DQN模型中,用一個(gè)CNN來(lái)擬合Q函數(shù),以降低深度Q網(wǎng)絡(luò)算法復(fù)雜度。由于本文輸入圖像為仿真圖像,圖像內(nèi)容較為單一,所以本文設(shè)計(jì)提取狀態(tài)的CNN網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,如圖2所示。本文設(shè)計(jì)的模型一共有4層, 其中包括3個(gè)卷積層與一個(gè)全連接層。第一層卷積運(yùn)算卷積核大小為8×8,步長(zhǎng)為4;第二層卷積運(yùn)算卷積核大小為4×4,步長(zhǎng)為2;第三層卷積運(yùn)算卷積核大小為3×3,步長(zhǎng)為1;最后經(jīng)過(guò)全連接層后輸出512個(gè)節(jié)點(diǎn)的映射集合。

2)動(dòng)作空間設(shè)計(jì)。

動(dòng)作空間是機(jī)器人根據(jù)自身的狀態(tài)采取的行為的集合,也是實(shí)現(xiàn)機(jī)器人運(yùn)動(dòng)規(guī)劃的運(yùn)動(dòng)參數(shù),它在DQN中相當(dāng)于指令集。本文中機(jī)器人的行為策略采用的是貪婪算法,貪婪算法是在對(duì)問(wèn)題求解時(shí),對(duì)每一步都采用最優(yōu)的選擇,希望產(chǎn)生對(duì)問(wèn)題的全局最優(yōu)解[17]。機(jī)器人根據(jù)設(shè)定的參數(shù)探索概率ε的大小來(lái)選擇動(dòng)作模式,并采取Q值最大的貪心動(dòng)作。ε越大,機(jī)器人能更加迅速地探索未知情況,適應(yīng)變化;ε越小,機(jī)器人則趨于穩(wěn)定,有更多機(jī)會(huì)去優(yōu)化策略。由于深度Q網(wǎng)絡(luò)適用于智能體采取離散動(dòng)作,而實(shí)際場(chǎng)景中機(jī)器人往往采用連續(xù)的動(dòng)作疏散人群。但只要相鄰動(dòng)作間隔時(shí)間短,離散動(dòng)作可近似為連續(xù)動(dòng)作。機(jī)器人作為人群疏散的智能體,只有一個(gè)運(yùn)動(dòng)方向無(wú)法起到疏散效果;選取兩個(gè)方向又具有運(yùn)動(dòng)范圍的局限性,很難達(dá)到最優(yōu);如果選取8向運(yùn)動(dòng),訓(xùn)練復(fù)雜度太大。因此綜合考慮疏散效果和訓(xùn)練復(fù)雜度,本文設(shè)計(jì)的機(jī)器人的動(dòng)作采取上、下、左、右4個(gè)離散動(dòng)作。動(dòng)作集合如式(10)所示:

3)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。

獎(jiǎng)勵(lì)是對(duì)機(jī)器人選擇動(dòng)作好壞的判斷根據(jù),獎(jiǎng)勵(lì)函數(shù)在DQN中起到引導(dǎo)學(xué)習(xí)的作用。DQN利用帶有時(shí)間延遲的獎(jiǎng)勵(lì)構(gòu)造標(biāo)簽,即每一個(gè)狀態(tài)都有著對(duì)應(yīng)的獎(jiǎng)勵(lì)。在機(jī)器人協(xié)助的人群疏散中,目的是讓擁擠的人群更快速地疏散完畢,因此當(dāng)前時(shí)刻撤離的人數(shù)是對(duì)機(jī)器人當(dāng)前行為最直接的反饋。然而,倘若機(jī)器人在本次的動(dòng)作對(duì)該次逃生出的人數(shù)有負(fù)影響,但在后幾次運(yùn)動(dòng)中疏散人群數(shù)量較多,也不能簡(jiǎn)單判斷本次機(jī)器人選擇的動(dòng)作是不合理的,因此本文采用機(jī)器人執(zhí)行了一個(gè)動(dòng)作后,未來(lái)人群在m(本文中m=5,經(jīng)驗(yàn)值)次迭代過(guò)程中疏散的人數(shù)作為環(huán)境給予學(xué)習(xí)系統(tǒng)的獎(jiǎng)勵(lì)。通過(guò)逃出的人數(shù)值,可自然形成獎(jiǎng)勵(lì)值。因此本文設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)如式(11)所示。

4)算法參數(shù)設(shè)計(jì)。

在深度強(qiáng)化學(xué)習(xí)算法中,參數(shù)的設(shè)計(jì)與調(diào)整對(duì)訓(xùn)練的效果有很大的影響。本文基于DQN的人群疏散機(jī)器人運(yùn)動(dòng)規(guī)劃算法的參數(shù)如表1所示。

其中:學(xué)習(xí)率是指在優(yōu)化算法中更新網(wǎng)絡(luò)權(quán)重的幅度大小,學(xué)習(xí)率太高會(huì)使網(wǎng)絡(luò)學(xué)習(xí)過(guò)程不穩(wěn)定,而學(xué)習(xí)率太低又會(huì)使網(wǎng)絡(luò)經(jīng)過(guò)很長(zhǎng)時(shí)間才會(huì)達(dá)到收斂狀態(tài)。實(shí)驗(yàn)結(jié)果表明,學(xué)習(xí)率設(shè)為0.0001時(shí),網(wǎng)絡(luò)能較快地收斂到最優(yōu),因此本文選擇學(xué)習(xí)率為0.0001。隨機(jī)貪婪搜索中的搜索因子作為選取隨機(jī)動(dòng)作的概率,在觀察時(shí)期,智能體是完全隨機(jī)選擇動(dòng)作,因此本文選擇初始搜索因子為1;而隨著迭代次數(shù)增加,隨機(jī)動(dòng)作概率逐漸減小,智能體會(huì)越來(lái)越依賴于網(wǎng)絡(luò)學(xué)習(xí)到的知識(shí)來(lái)選擇動(dòng)作,因此選擇終止搜索因子為0.05。折扣因子表示時(shí)間的遠(yuǎn)近對(duì)預(yù)期回報(bào)的影響程度,由于在本實(shí)驗(yàn)中,即刻回報(bào)與未來(lái)回報(bào)同等重要,因此本文將折扣因子設(shè)為1。記憶池用來(lái)存儲(chǔ)樣本數(shù)據(jù),在智能體學(xué)習(xí)過(guò)程中,網(wǎng)絡(luò)會(huì)從記憶池中隨機(jī)抽出一定量的批次進(jìn)行訓(xùn)練,經(jīng)嘗試,本文選擇記憶池大小為400000。批次大小是每一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),大批次可以使網(wǎng)絡(luò)訓(xùn)練速度變快,但批次過(guò)大對(duì)硬件設(shè)備配置要求高,經(jīng)實(shí)驗(yàn),本文將批次大小設(shè)為64。目標(biāo)Q為目標(biāo)網(wǎng)絡(luò)的輸出,周期性的更新目標(biāo)Q可以提高算法的穩(wěn)定性,經(jīng)實(shí)驗(yàn),本文選擇目標(biāo)Q更新頻率為1000。輸入網(wǎng)絡(luò)的圖像需保證圖像的清晰度并且確保囊括環(huán)境的基本特征,輸入圖像尺寸太大不易網(wǎng)絡(luò)訓(xùn)練,輸入圖像尺寸太小又不易于網(wǎng)絡(luò)提取特征,因此基于本文環(huán)境,選擇輸入的圖像尺寸為84×84像素。

3 實(shí)驗(yàn)與結(jié)果分析

本文設(shè)計(jì)的人群疏散仿真環(huán)境和機(jī)器人運(yùn)動(dòng)規(guī)劃算法均使用Python語(yǔ)言實(shí)現(xiàn),其中DQN算法基于TensorFlow平臺(tái)實(shí)現(xiàn)。

3.1 室內(nèi)人群疏散模擬場(chǎng)景設(shè)計(jì)

只有一個(gè)出口的室內(nèi)場(chǎng)景,如醫(yī)院、酒店的大廳等場(chǎng)所,是最可能發(fā)生緊急事件需要進(jìn)行人群疏散的場(chǎng)景,因此本文設(shè)計(jì)一個(gè)矩形中帶有一個(gè)出口的室內(nèi)場(chǎng)景,并將其作為實(shí)驗(yàn)環(huán)境,如圖3左圖所示。場(chǎng)景大小為11m×11m,出口寬度為3m,四周外圍實(shí)線方框代表墻壁,左邊虛線代表行人進(jìn)入通道。本文設(shè)定圖3為某酒店大廳內(nèi)安全通道的模擬場(chǎng)景,圖中左側(cè)虛線往左的部分區(qū)域發(fā)生了緊急事件,大樓內(nèi)虛線左側(cè)的人群從虛線上的三個(gè)入口進(jìn)入通道,并從通道右側(cè)的安全出口逃離危險(xiǎn)。本文放置一個(gè)智能機(jī)器人在安全出口附近,并指定機(jī)器人的運(yùn)動(dòng)范圍,讓機(jī)器人通過(guò)深度Q網(wǎng)絡(luò)學(xué)會(huì)最優(yōu)的疏散策略。當(dāng)緊急事件發(fā)生時(shí),場(chǎng)景中的行人由于恐慌和從眾心理會(huì)聚集在出口附近形成密度很大的群體。為逃離危險(xiǎn),各方向行人在自驅(qū)動(dòng)力下向出口聚集,同時(shí)受到四周行人的相互作用力,使綜合前向作用力很小甚至為負(fù),導(dǎo)致人群向出口的移動(dòng)速度很小甚至反向運(yùn)動(dòng), 從而極度降低了疏散效率。

為了提高人群的運(yùn)動(dòng)速度,增加單位時(shí)間內(nèi)的疏散總?cè)藬?shù),本文基于人機(jī)社會(huì)力模型,在人群中加入一個(gè)機(jī)器人,讓機(jī)器人在一定的范圍內(nèi)運(yùn)動(dòng),通過(guò)機(jī)器人的運(yùn)動(dòng)來(lái)影響人群,提高人群疏散的效率。由于人群疏散重點(diǎn)區(qū)域在出口附近,且為保證輸入網(wǎng)絡(luò)的圖像清晰和易于訓(xùn)練,因此選取出口附近的矩形區(qū)域作為觀測(cè)區(qū)域,用于計(jì)算機(jī)器人的環(huán)境狀態(tài),如圖3左圖中6m×6m的外側(cè)虛線框區(qū)域所示。在輸入DQN時(shí),該區(qū)域通過(guò)均勻采樣得到84×84像素的圖像。此外,由于人群疏散的主要區(qū)域也在出口附近,因此選擇將出口附近的一個(gè)3.6m×5.4m長(zhǎng)方形區(qū)域作為機(jī)器人的運(yùn)動(dòng)范圍,如圖3左圖中內(nèi)側(cè)虛線框區(qū)域所示。為減少計(jì)算量和噪聲,本文設(shè)定機(jī)器人的運(yùn)動(dòng)速度為0.6m/s,其狀態(tài)每秒迭代2次,則每次迭代機(jī)器人移動(dòng)距離為0.3m,在場(chǎng)景中的運(yùn)動(dòng)位置組成了12×18的矩形網(wǎng)格區(qū)域,如圖3右圖中的矩形網(wǎng)格所示。

為了驗(yàn)證算法的有效性,采用單位時(shí)間內(nèi)疏散的人數(shù)作為實(shí)驗(yàn)評(píng)判標(biāo)準(zhǔn)。實(shí)驗(yàn)中每次人群疏散單位時(shí)間為100s,在單位時(shí)間內(nèi)疏散的總?cè)藬?shù)是疏散效果及性能的直接體現(xiàn);同時(shí),直接將機(jī)器人兩次迭代之間的逃生人數(shù)作為機(jī)器人一次運(yùn)動(dòng)的獎(jiǎng)勵(lì)rt,每一輪人群疏散實(shí)驗(yàn)中將每次機(jī)器人運(yùn)動(dòng)所得獎(jiǎng)勵(lì)(一次機(jī)器人運(yùn)動(dòng)疏散人數(shù))累加,即得到本文評(píng)判疏散效果的性能參數(shù),即總疏散人數(shù)。實(shí)驗(yàn)初始人數(shù)為100,初始位置在場(chǎng)景中隨機(jī)生成,并且設(shè)定人群按照一定的間隔時(shí)間從左邊進(jìn)入場(chǎng)景。實(shí)驗(yàn)中每次人群疏散單位時(shí)間為100s,實(shí)驗(yàn)?zāi)康氖亲畲蠡瘑挝粫r(shí)間內(nèi)疏散總?cè)藬?shù),提高疏散效率。行人的半徑設(shè)定為0.3m,用黑色實(shí)心圓表示(如圖3所示),速度由初速度和其受到的綜合作用力決定;行人期望速度為6m/s;

機(jī)器人的邊長(zhǎng)為1m,用黑色矩形表示,機(jī)器人在運(yùn)動(dòng)范圍內(nèi)有上、下、左、右4個(gè)動(dòng)作。為減少噪聲的干擾,在每一次人群疏散實(shí)驗(yàn)中,機(jī)器人的狀態(tài)每迭代1次,行人運(yùn)動(dòng)狀態(tài)迭代5次。此外,為保證行人源源不斷進(jìn)入場(chǎng)景,從圖3中左側(cè)三個(gè)位置每秒各產(chǎn)生1個(gè)水平速度為6m/s、縱向速度為0的行人,如圖3所示。

3.2 靜止機(jī)器人的人群疏散

由于在人群中合理擺放靜止物體對(duì)人群也有疏散作用,因此本文在訓(xùn)練運(yùn)動(dòng)機(jī)器人之前,先探討靜止不動(dòng)的機(jī)器人對(duì)人群疏散的影響。為觀察靜止機(jī)器人處在不同位置對(duì)行人的運(yùn)動(dòng),以及對(duì)固定時(shí)間內(nèi)疏散總?cè)藬?shù)的影響,本文將機(jī)器人的運(yùn)動(dòng)范圍劃分成如圖3右邊所示的12×18的網(wǎng)格,并將機(jī)器人置于每個(gè)小方格所在位置,保持靜止?fàn)顟B(tài),測(cè)試并記錄單位時(shí)間內(nèi)總逃生人數(shù);并且,將靜止機(jī)器人在每個(gè)小方格位置中對(duì)應(yīng)的疏散總?cè)藬?shù)映射為二維圖像,以白色為背景,每個(gè)小方格顏色為由白色到黑色由疏散人數(shù)決定的離散采樣,如圖4所示,標(biāo)尺上數(shù)字代表總疏散人數(shù)。

通過(guò)分布圖可以看出將靜止機(jī)器人置于不同位置時(shí)總疏散人數(shù)呈現(xiàn)明顯的分層結(jié)構(gòu)。在以出口為圓心的半圓內(nèi),越靠近出口,總疏散人數(shù)越少,即對(duì)人群疏散有負(fù)面影響。在此半圓中,水平方向單位距離疏散人數(shù)值的變化比豎直方向更大一些。較好的疏散位置處在以出口中心為圓心的帶狀區(qū)域內(nèi),如圖4所示。當(dāng)越過(guò)該帶狀區(qū)域后,即曲線①往左,總疏散人數(shù)沒(méi)有太大的變化。疏散人數(shù)變化大的位置在帶狀區(qū)域靠近門的位置,如圖4中曲線②所在的位置附近的區(qū)域。最優(yōu)疏散位置及區(qū)域在出口附近上下兩側(cè)靠近右邊墻體的位置,如圖4中兩個(gè)橢圓區(qū)域所示。當(dāng)機(jī)器人置于此區(qū)域時(shí),單位時(shí)間內(nèi)的疏散人數(shù)最多,即機(jī)器人的最佳疏散位置。

3.3 運(yùn)動(dòng)機(jī)器人的人群疏散

靜止機(jī)器人疏散分布圖大致由疏散效果較差的門口半圓區(qū)域、較優(yōu)的帶狀區(qū)域(包括最優(yōu)的橢圓區(qū)域)、無(wú)明顯變化的帶狀外區(qū)域組成,因此本文任意選取對(duì)這三種區(qū)域具有代表性的4個(gè)位置作為機(jī)器人初始位置集,測(cè)試本文提出的基于DQN的機(jī)器人運(yùn)動(dòng)規(guī)劃算法,觀察機(jī)器人運(yùn)動(dòng)軌跡。訓(xùn)練DQN時(shí),每次人群疏散實(shí)驗(yàn)隨機(jī)從4個(gè)位置中選取一個(gè)作為機(jī)器人初始位置。

在DQN中,獎(jiǎng)勵(lì)的變化是衡量模型訓(xùn)練是否有效的重要參數(shù)。在本文提出的人群疏散機(jī)器人運(yùn)動(dòng)規(guī)劃算法中,獎(jiǎng)勵(lì)由疏散的人數(shù)直接決定,因此為了顯示模型訓(xùn)練的過(guò)程,將訓(xùn)練過(guò)程中人群疏散的輪數(shù)與每輪實(shí)驗(yàn)中單位時(shí)間內(nèi)疏散的人數(shù)的變化關(guān)系用曲線表示,分析本文方法的有效性,如圖5所示。每輪實(shí)驗(yàn)的單位時(shí)間為100s,即每輪實(shí)驗(yàn)中,人群和機(jī)器人的初始狀態(tài)記為t=0s的時(shí)刻,人群疏散實(shí)驗(yàn)到t=100s時(shí)結(jié)束,然后人群回到初始狀態(tài),機(jī)器人從初始位置集隨機(jī)選取一個(gè)位置作為機(jī)器人的初始位置,重新開(kāi)始新的一輪實(shí)驗(yàn)。本文模型訓(xùn)練時(shí)人群疏散實(shí)驗(yàn)總輪數(shù)為470。

訓(xùn)練前期處于觀察階段,機(jī)器人隨機(jī)選擇動(dòng)作,每輪的逃生總?cè)藬?shù)相差較大。由于總體曲線波動(dòng)較大,將其平滑處理,更能表現(xiàn)出訓(xùn)練效果的變化。由圖5可看出,輪數(shù)小于200時(shí)的總疏散人數(shù)波動(dòng)較大;訓(xùn)練中期處于探索階段, 機(jī)器人通過(guò)記憶池中的數(shù)據(jù)學(xué)到越來(lái)越優(yōu)化的動(dòng)作序列;訓(xùn)練后期則是網(wǎng)絡(luò)參數(shù)的微調(diào)階段,此時(shí)只有小概率探索,逃生人數(shù)在最優(yōu)值上下小幅度波動(dòng),相較于觀察階段更穩(wěn)定。

未設(shè)置任何機(jī)器人情況下的人群疏散主要基于人與人之間的社會(huì)力模型,疏散場(chǎng)景與添加機(jī)器人時(shí)的場(chǎng)景一致。此種情況下,單位時(shí)間內(nèi)(100s)疏散總?cè)藬?shù)為262人,如表2中的數(shù)據(jù)和圖5中由星型標(biāo)注的直線所示。

在測(cè)試階段,為觀察機(jī)器人運(yùn)動(dòng)規(guī)劃過(guò)程,本文在三個(gè)代表性區(qū)域額外各選取一個(gè)位置作為機(jī)器人的初始位置,分別記為P1、P2和P3,測(cè)試機(jī)器人在100s內(nèi)人群疏散實(shí)驗(yàn)中的運(yùn)動(dòng)過(guò)程,并記錄其運(yùn)動(dòng)軌跡,分別作為測(cè)試實(shí)驗(yàn)1、測(cè)試實(shí)驗(yàn)2和測(cè)試實(shí)驗(yàn)3,其過(guò)程分別如圖6所示。三次實(shí)驗(yàn)的總疏散人數(shù)如表2所示。為方便觀察機(jī)器人的運(yùn)動(dòng)方式,將機(jī)器人的運(yùn)動(dòng)軌跡畫(huà)在分布圖上,并研究不同時(shí)段機(jī)器人所處的位置。此外,為驗(yàn)證機(jī)器人是否找到最優(yōu)位置或區(qū)域,本文用虛線橢圓標(biāo)記機(jī)器人最后10s的運(yùn)動(dòng)軌跡,如圖6所示。

測(cè)試過(guò)程采用本文設(shè)計(jì)的算法,機(jī)器人運(yùn)動(dòng)狀態(tài)每迭代1次,利用DQN的動(dòng)作價(jià)值評(píng)估函數(shù),對(duì)當(dāng)前狀態(tài)下的每個(gè)動(dòng)作進(jìn)行評(píng)估,選取價(jià)值最大的,即期望下總疏散人數(shù)最多的動(dòng)作作為機(jī)器人的運(yùn)動(dòng)規(guī)劃結(jié)果。在測(cè)試實(shí)驗(yàn)1(如圖6(a)所示)中,機(jī)器人運(yùn)動(dòng)起點(diǎn)為P1,終點(diǎn)為Q1。疏散總?cè)藬?shù)達(dá)305人,與無(wú)機(jī)器人時(shí)疏散262人相比,疏散人數(shù)增加了16.41%。由于DQN算法在軌跡上的每個(gè)位置都選取當(dāng)前價(jià)值最大的動(dòng)作,則出現(xiàn)圖6(a)中機(jī)器人向著最優(yōu)區(qū)域運(yùn)動(dòng)的軌跡,同時(shí)因機(jī)器人每個(gè)動(dòng)作都是所在狀態(tài)下最優(yōu)的,疏散人數(shù)最多的,最優(yōu)動(dòng)作的累加使總疏散人數(shù)最大,因此運(yùn)動(dòng)軌跡是起點(diǎn)為P1時(shí)的最優(yōu)軌跡。

由于在帶狀外區(qū)域單位距離疏散人數(shù)值變化不大,當(dāng)人群有波動(dòng)時(shí)容易產(chǎn)生噪聲,造成偶爾機(jī)器人往左運(yùn)動(dòng)的現(xiàn)象。當(dāng)機(jī)器人所處狀態(tài)中,疏散人數(shù)分布圖的某一方向的梯度與其他方向相比越大時(shí),DQN價(jià)值函數(shù)對(duì)此狀態(tài)下最優(yōu)動(dòng)作的評(píng)估越準(zhǔn)確。如測(cè)試實(shí)驗(yàn)2(如圖6(b)所示)中的前7s運(yùn)動(dòng)軌跡所示,從P2開(kāi)始到t=3s,左方向一直是單位距離疏散人數(shù)值增加最快的方向。從t=3s到t=7s的軌跡與圖4中②虛線所框半圓相切,可看出向下是疏散人數(shù)分布圖的梯度最大的方向。實(shí)驗(yàn)2中,機(jī)器人運(yùn)動(dòng)起點(diǎn)為P2,終點(diǎn)為Q2。疏散總?cè)藬?shù)達(dá)290人,與無(wú)機(jī)器人時(shí)疏散262人相比,疏散效率增加了10.69%。

在測(cè)試實(shí)驗(yàn)3(如圖6(c)所示)中,機(jī)器人運(yùn)動(dòng)起點(diǎn)為P3,終點(diǎn)為Q3。開(kāi)始時(shí)機(jī)器人處在帶狀區(qū)域大概中間位置,周圍疏散人數(shù)分布圖的梯度較小,加上噪聲干擾,導(dǎo)致機(jī)器人初段運(yùn)動(dòng)軌跡較波折,但總方向是往下,即為人群疏散較好的位置運(yùn)動(dòng)。由于DQN能最大化獎(jiǎng)勵(lì)的原理,總疏散人數(shù)也被最大化了,疏散總?cè)藬?shù)達(dá)到319人,與無(wú)機(jī)器人時(shí)疏散人數(shù)相比增加了21.76%。此外,在三次實(shí)驗(yàn)中,機(jī)器人總會(huì)沿著梯度下降最快的路線到達(dá)最優(yōu)區(qū)域及其附近區(qū)域。

為表明本文方法的有效性,除了與無(wú)機(jī)器人時(shí)對(duì)比外,還與文獻(xiàn)[11]中采用傳統(tǒng)的機(jī)器人運(yùn)動(dòng)規(guī)劃人群疏散算法進(jìn)行對(duì)比,因兩者的行人運(yùn)動(dòng)都基于人機(jī)社會(huì)力模型,場(chǎng)景相似,具有較好的可比較性。為保證對(duì)比實(shí)驗(yàn)的有效性,本文選取文獻(xiàn)[11]中的最優(yōu)參數(shù)。經(jīng)實(shí)驗(yàn),在單位時(shí)間內(nèi)(100s),傳統(tǒng)方法疏散總?cè)藬?shù)為282人。

可明顯看出本文提出的基于深度Q網(wǎng)絡(luò)的算法在訓(xùn)練穩(wěn)定后的疏散人數(shù)明顯比傳統(tǒng)方法多。此外,文獻(xiàn)[11]方法需要針對(duì)每個(gè)實(shí)驗(yàn)場(chǎng)景,反復(fù)手動(dòng)調(diào)整來(lái)優(yōu)化人群疏散的參數(shù),工作量大且模型難以達(dá)到最優(yōu);而本文模型能夠通過(guò)DQN自主在環(huán)境中學(xué)習(xí),尋找最優(yōu)的疏散策略,靈活性更好、更具智能性,適合大多現(xiàn)實(shí)中的場(chǎng)景。

綜上所述,通過(guò)本文提出的基于DQN的機(jī)器人運(yùn)動(dòng)規(guī)劃算法,機(jī)器人能夠?qū)W習(xí)在不同初始位置下的最優(yōu)運(yùn)動(dòng)策略,最大限度地提高總疏散人數(shù),與無(wú)機(jī)器人干預(yù)以及傳統(tǒng)人群疏散方法相比,能夠有效地提高緊急情況下疏散人群的效率。

4 結(jié)語(yǔ)

本文提出了一種基于深度Q網(wǎng)絡(luò)的機(jī)器人運(yùn)動(dòng)規(guī)劃算法,并應(yīng)用于人群疏散算法中,協(xié)助完成疏散人群。此算法不僅適用于本文場(chǎng)景,同樣也適用于與本文場(chǎng)景有相同特性的其他室內(nèi)人群疏散的場(chǎng)景。該方法結(jié)合了深度學(xué)習(xí)中的CNN和強(qiáng)化學(xué)習(xí)中的Q-learning,通過(guò)當(dāng)前時(shí)刻下環(huán)境圖像到機(jī)器人運(yùn)動(dòng)指令的端到端的學(xué)習(xí),改變機(jī)器人的運(yùn)動(dòng)狀態(tài),利用機(jī)器人與行人之間的相互作用,使機(jī)器人能夠在擁擠的情況下更加靈活、有效地疏散人群。本文實(shí)驗(yàn)部分模擬了室內(nèi)密集人群的逃生場(chǎng)景。結(jié)果表明,人群疏散機(jī)器人會(huì)隨著訓(xùn)練的迭代次數(shù)增加而積累學(xué)習(xí)的經(jīng)驗(yàn),從而能夠運(yùn)動(dòng)到最優(yōu)位置,有效地疏散人群。由于應(yīng)用DQN算法需要大量計(jì)算資源,容易產(chǎn)生維度災(zāi)難,本文通過(guò)源源不斷產(chǎn)生人群使場(chǎng)景內(nèi)人數(shù)在一定范圍內(nèi)波動(dòng)來(lái)解決維度災(zāi)難的問(wèn)題。因此,未來(lái)的工作將集中在解決固定疏散人數(shù)時(shí)深度強(qiáng)化學(xué)習(xí)面臨的問(wèn)題,使疏散效率達(dá)到更優(yōu),并且利用3D場(chǎng)景模擬實(shí)際的攝像機(jī)拍攝的視頻來(lái)解決人群疏散的問(wèn)題。

參考文獻(xiàn)(References)

[1] HELBING D, MOLNR P. Social force model for pedestrian dynamics[J]. Physical Review E: Statistical Physics, Plasmas, Fluids & Related Interdisciplinary Topics, 1995, 51(5): 4282-4286.

[2] ROBINETTE P, VELA P A, HOWARD A M. Information propagation applied to robot-assisted evacuation[C]// Proceedings of the 2012 IEEE International Conference on Robotics and Automation. Piscataway: IEEE, 2012: 856-861.

[3] BOUKAS E, KOSTAVELIS I, GASTERATOS A, et al. Robot guided crowd evacuation[J]. IEEE Transactions on Automation Science and Engineering, 2015, 12(2): 739-751.

[4] POLYDOROS A S, NALPANTIDIS L. Survey of model-based reinforcement learning: applications on robots[J]. Journal of Intelligent and Robotic Systems, 2017, 86(2): 153-173.

[5] MNIH V, KAVUKCUOGLU K, SLIVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

[6] MNIH V, KAVUKCUOGLU K, SLIVER D, et al. Play Atari with deep reinforcement learning[EB/OL]. [2018-12-10]. http://export.arxiv.org/pdf/1312.5602.

[7] HWANG K, JIANG W, CHEN Y. Pheromone-based planning strategies in Dyna-Q learning[J]. IEEE Transactions on Industrial Informatics, 2017, 13(2): 424-435.

[8] IMANBERDIYEV N, FU C, KAYACAN E, et al. Autonomous navigation of UAV by using real-time model-based reinforcement learning[C]// Proceedings of the 14th International Conference on Control, Automation, Robotics and Vision. Piscataway: IEEE, 2016: 1-6.

[9] GIUSTI A, GUZZI J, CIRESAN D C, et al. A machine learning approach to visual perception of forest trails for mobile robots[J]. IEEE Robotics and Automation Letters, 2016, 1(2): 661-667.

[10] SU M C, HUANG D, CHOW C, et al. A reinforcement learning

approach to robot navigation[C]// Proceedings of the 2004 International Conference on Networking, Sensing and Control. Piscataway: IEEE, 2004: 665-669.

[11] 胡學(xué)敏, 徐珊珊, 康美玉, 等. 基于人機(jī)社會(huì)力模型的人群疏散算法[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(8): 2165-2166. (HU X M, XU S S, KANG M Y, et al. Crowd evacuation based on human-robot social force model[J]. Journal of Computer Applications, 2018, 38(8): 2165-2166.)

[12] XIE L H, WANG S, MARKHAM A, et al. Towards monocular vision based obstacle avoidance through deep reinforcement learning[EB/OL]. [2018-12-10]. https://arxiv.org/pdf/1706.09829.pdf.

[13] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1509.02971.pdf.

[14] CUENCA , OJHA U, SALT J, et al. A non-uniform multi-rate control strategy for a Markov chain driven networked control system[J]. Information Sciences, 2015, 321: 31-47.

[15] 趙玉婷, 韓寶玲, 羅慶生. 基于deep Q-network雙足機(jī)器人非平整地面行走穩(wěn)定性控制方法[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(9): 2459-2463. (ZHAO Y T, HAN B L, LUO Q S. Walking stability control method based on deep Q-network for biped robot on uneven ground[J]. Journal of Computer Applications, 2018, 38(9): 2459-2463.)

[16] CHEN Y, LIU M, EVERETT M, et al. Decentralized non-communicating multiagent collision avoidance with deep reinforcement learning[C]// Proceedings of the 2007 IEEE International Conference on Robotics and Automation. Piscataway: IEEE, 2017: 285-292.

[17] CHEN D, VARSHNEY P K. A survey of void handling techniques or geographic routing in wireless network[J]. IEEE Communications Surveys and Tutorials, 2007, 9(1): 50-67.