国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字孿生驅(qū)動(dòng)的掘進(jìn)機(jī)器人決策控制系統(tǒng)研究

2022-09-22 02:59張旭輝呂欣媛黃本鑫鄭西利
煤炭科學(xué)技術(shù) 2022年7期
關(guān)鍵詞:碰撞檢測(cè)虛擬空間激光雷達(dá)

張旭輝,呂欣媛,王 甜,黃本鑫,鄭西利

(1.西安科技大學(xué) 機(jī)械工程學(xué)院,陜西 西安 710054;2.陜西省礦山機(jī)電裝備智能監(jiān)測(cè)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710054)

0 引 言

我國(guó)“富煤、貧油、少氣”的能源現(xiàn)狀決定了煤炭仍將長(zhǎng)期作為我國(guó)的主要支撐能源,國(guó)家大力推進(jìn)“安全、高效、綠色、智能”的智慧礦山建設(shè),并提出了“機(jī)械化減人、自動(dòng)化換人、智能化無(wú)人”的發(fā)展戰(zhàn)略[1]。具有履帶式行走機(jī)構(gòu)的懸臂式掘進(jìn)機(jī)是煤礦綜掘工作面的核心設(shè)備[2]。目前巷道掘進(jìn)施工仍需要司機(jī)坐在駕駛位上對(duì)其進(jìn)行控制,但是井下工礦環(huán)境惡劣,粉塵濃度較大,這種操作方式極易造成超挖、欠挖且存在很多安全隱患。因此,掘進(jìn)裝備智能化是推動(dòng)智慧礦山建設(shè)的基礎(chǔ),而掘進(jìn)裝備的智能化控制是實(shí)現(xiàn)少人/無(wú)人化開(kāi)采的前提。近年來(lái),數(shù)字孿生(Digital Twin,DT)技術(shù)在智能制造領(lǐng)域得到了廣泛關(guān)注[3],數(shù)字孿生技術(shù)為跨層級(jí)、跨尺度的現(xiàn)實(shí)世界與虛擬世界搭建了溝通的橋梁。將物理對(duì)象的數(shù)字模型映射在虛擬空間,并在虛擬空間中通過(guò)實(shí)測(cè)、仿真和數(shù)據(jù)分析來(lái)實(shí)時(shí)感知、診斷和預(yù)測(cè)物理實(shí)體對(duì)象的狀態(tài),通過(guò)優(yōu)化和指令來(lái)調(diào)控物理實(shí)體[4-6]。將數(shù)字孿生與虛擬仿真技術(shù)進(jìn)行有機(jī)結(jié)合并應(yīng)用于煤礦設(shè)備智能化設(shè)計(jì)中,構(gòu)建煤礦設(shè)備數(shù)字孿生體,使其可針對(duì)過(guò)去、現(xiàn)在的狀況進(jìn)行綜合智能分析,對(duì)物理世界的變化進(jìn)行感知、判斷與決策[7-8]。吳淼等[9]針對(duì)掘進(jìn)巷道“串行”工藝存在的問(wèn)題,構(gòu)建了基于數(shù)字孿生的綜掘巷道并行工藝技術(shù)體系,對(duì)實(shí)現(xiàn)煤礦工業(yè)機(jī)器人智能決策與控制的相關(guān)技術(shù)進(jìn)行了闡述,但缺少具體實(shí)現(xiàn)過(guò)程的描述且未設(shè)計(jì)試驗(yàn)驗(yàn)證系統(tǒng)具體功能。朱斌等[10]針對(duì)掘進(jìn)工作面風(fēng)口參數(shù)的調(diào)節(jié)問(wèn)題,研究了基于數(shù)字孿生的綜掘面風(fēng)流出風(fēng)口的自主學(xué)習(xí)和自主決策技術(shù),該系統(tǒng)通過(guò)三維建模與仿真技術(shù)刻畫(huà)物理測(cè)試系統(tǒng)的虛擬空間,但未闡述虛實(shí)空間中的數(shù)據(jù)交互過(guò)程,兩者的同步運(yùn)動(dòng)性能難以保證。筆者等[11]針對(duì)煤礦采掘裝備維修難的問(wèn)題,融合數(shù)字孿生與混合現(xiàn)實(shí)技術(shù)開(kāi)發(fā)了數(shù)字孿生驅(qū)動(dòng)的煤礦機(jī)電設(shè)備故障遠(yuǎn)程維修指導(dǎo)系統(tǒng)。但該系統(tǒng)需要提前建立設(shè)備維修指導(dǎo)流程庫(kù),不能直接根據(jù)故障類(lèi)型與設(shè)備機(jī)理自動(dòng)規(guī)劃維修方案。筆者等[12]針對(duì)懸臂式掘進(jìn)機(jī)遠(yuǎn)程控制問(wèn)題,基于數(shù)字孿生技術(shù)實(shí)現(xiàn)了掘進(jìn)工作面虛實(shí)空間的深度融合與人機(jī)交互,但該系統(tǒng)中掘進(jìn)設(shè)備仍然不具備自主決策能力,需要人工不間斷對(duì)其進(jìn)行遠(yuǎn)程干預(yù),掘進(jìn)效率有待進(jìn)一步提升。通過(guò)上述分析,數(shù)字孿生技術(shù)為煤礦裝備智能化發(fā)展提供了新的思路,但在設(shè)備虛實(shí)實(shí)時(shí)交互、自主規(guī)劃、決策控制等方面仍面臨嚴(yán)峻挑戰(zhàn)。結(jié)合數(shù)字孿生技術(shù)、虛擬現(xiàn)實(shí)技術(shù),深度強(qiáng)化學(xué)習(xí)技術(shù),針對(duì)當(dāng)前掘進(jìn)工作面遠(yuǎn)程控制中存在的設(shè)備決策能力低,掘進(jìn)效率不高等問(wèn)題,提出了數(shù)字孿生驅(qū)動(dòng)的掘進(jìn)機(jī)器人決策控制系統(tǒng)體系框架。首先,在虛擬空間中對(duì)機(jī)器人進(jìn)行碰撞檢測(cè),研究其在非結(jié)構(gòu)化環(huán)境下的局部避障策略;其次,利用深度強(qiáng)化學(xué)習(xí)技術(shù)構(gòu)建掘進(jìn)設(shè)備虛擬智能體,使其具有自主規(guī)劃決策能力;最后,結(jié)合數(shù)字孿生技術(shù)搭建了系統(tǒng)決策控制平臺(tái),通過(guò)路徑規(guī)劃試驗(yàn)與虛實(shí)同動(dòng)試驗(yàn)對(duì)系統(tǒng)功能進(jìn)行驗(yàn)證。實(shí)現(xiàn)數(shù)字孿生驅(qū)動(dòng)下的“數(shù)據(jù)驅(qū)動(dòng)、雙向映射、碰撞檢測(cè)、自主決策、人機(jī)協(xié)作”智能遠(yuǎn)程控制策略。

1 掘進(jìn)機(jī)器人決策控制系統(tǒng)體系框架

當(dāng)前煤礦采掘裝備正處于從“自動(dòng)化+可視化人工遠(yuǎn)程干預(yù)”向“智能化+自主化+無(wú)人化”的關(guān)鍵過(guò)渡時(shí)期,為了解決煤礦掘進(jìn)工作面設(shè)備的遠(yuǎn)程控制問(wèn)題,需要實(shí)現(xiàn)對(duì)掘進(jìn)工作面工況環(huán)境的全面狀態(tài)監(jiān)測(cè)、協(xié)作設(shè)備之間的碰撞檢測(cè)以及設(shè)備運(yùn)行軌跡的自主規(guī)劃。結(jié)合數(shù)字孿生技術(shù),提出“數(shù)據(jù)驅(qū)動(dòng)、雙向映射、碰撞檢測(cè)、自主決策、人機(jī)協(xié)作”技術(shù)體系,通過(guò)虛擬現(xiàn)實(shí)技術(shù)將設(shè)備本體結(jié)構(gòu)、內(nèi)在機(jī)理、規(guī)劃結(jié)果等信息進(jìn)行三維可視化呈現(xiàn),實(shí)現(xiàn)復(fù)雜工況環(huán)境下掘進(jìn)工作面“數(shù)字工作面+自主決策控制”的數(shù)字孿生應(yīng)用模式,系統(tǒng)體系框架如圖1所示,主要由物理空間、虛擬空間、孿生數(shù)據(jù)、規(guī)劃層、控制層、執(zhí)行層組成。

圖1 系統(tǒng)體系框架Fig.1 System architecture framework

1)物理空間是掘進(jìn)工作面中生產(chǎn)設(shè)備、人員、環(huán)境以及各類(lèi)傳感器的集合,是系統(tǒng)控制的對(duì)象。利用激光雷達(dá)掃描工作面環(huán)境信息,通過(guò)捷聯(lián)慣導(dǎo)采集設(shè)備的位姿信息。

2)虛擬空間不僅是物理空間的三維鏡像化,也是物理空間中各個(gè)元素間的內(nèi)在機(jī)理、操作機(jī)制和關(guān)聯(lián)規(guī)則的數(shù)字化分析[13]。利用激光雷達(dá)在虛擬空間中重建障礙物,利用捷聯(lián)慣導(dǎo)采集到的機(jī)器人位姿數(shù)據(jù)并對(duì)虛擬樣機(jī)進(jìn)行數(shù)據(jù)驅(qū)動(dòng),實(shí)現(xiàn)虛實(shí)空間雙向映射。

3)孿生數(shù)據(jù)是虛實(shí)空間數(shù)據(jù)交互的載體,通過(guò)MySQL數(shù)據(jù)庫(kù)構(gòu)建物理對(duì)象與虛擬對(duì)象的閉環(huán)通道,實(shí)現(xiàn)虛擬孿生體與物理對(duì)象層間的雙向映射與同步反饋。通過(guò)歷史數(shù)據(jù)、運(yùn)行數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等的相互耦合和演化集成實(shí)現(xiàn)煤礦設(shè)備的對(duì)象孿生、過(guò)程孿生和性能孿生。

4)規(guī)劃層是將決策的結(jié)果規(guī)劃為實(shí)際可執(zhí)行的路徑或軌跡,并將其傳遞給控制層。利用深度強(qiáng)化學(xué)習(xí)對(duì)虛擬樣機(jī)進(jìn)行訓(xùn)練,將其作為一個(gè)Agent在虛擬空間中進(jìn)行局部自主避障與全局路徑規(guī)劃。其中規(guī)劃層與虛擬空間組合為虛擬智能體。

5)控制層是將決策指令經(jīng)由PLC發(fā)送至物理空間的末端執(zhí)行器,控制其完成相應(yīng)的動(dòng)作。捷聯(lián)慣導(dǎo)與激光雷達(dá)再次采集數(shù)據(jù)更新虛擬空間中的三維信息,決策控制平臺(tái)根據(jù)更新信息持續(xù)下發(fā)決策指令,以此循環(huán)完成掘進(jìn)機(jī)器人的閉環(huán)控制。

6)執(zhí)行層通過(guò)人機(jī)接口或智能控制終端,對(duì)設(shè)備進(jìn)行狀態(tài)監(jiān)測(cè)、自主規(guī)劃、碰撞檢測(cè)等,實(shí)現(xiàn)快速捕捉異常狀況、準(zhǔn)確定位碰撞原因、合理規(guī)劃行進(jìn)路徑。

2 非結(jié)構(gòu)化環(huán)境下局部避障策略

結(jié)合虛擬現(xiàn)實(shí)技術(shù),研究了非結(jié)構(gòu)化環(huán)境下的機(jī)器人局部避障策略。建立機(jī)器人運(yùn)動(dòng)控制模型與傳感觀測(cè)模型,利用激光雷達(dá)在虛擬空間中重建障礙物,并設(shè)計(jì)Ray-Col碰撞檢測(cè)方法,實(shí)現(xiàn)機(jī)器人在虛擬空間中的碰撞檢測(cè)與避障控制。

2.1 機(jī)器人運(yùn)動(dòng)控制模型

要實(shí)現(xiàn)對(duì)掘進(jìn)機(jī)器人的避障控制,首先要建立掘進(jìn)機(jī)器人的運(yùn)動(dòng)控制模型,掘進(jìn)機(jī)器人是通過(guò)左右履帶差速提供驅(qū)動(dòng)力的,當(dāng)掘進(jìn)機(jī)器人處于非調(diào)整姿態(tài)時(shí),通過(guò)對(duì)兩側(cè)履帶差速驅(qū)動(dòng)實(shí)現(xiàn)機(jī)器人的直行或轉(zhuǎn)彎等基本動(dòng)作。

假設(shè)履帶與地面之間無(wú)滑動(dòng),速度方向平行于地面,基于掘進(jìn)機(jī)的工作環(huán)境將受限巷道空間中機(jī)器人的運(yùn)動(dòng)轉(zhuǎn)化為二維運(yùn)動(dòng)學(xué)問(wèn)題[14]。

圖2 掘進(jìn)機(jī)器人運(yùn)動(dòng)學(xué)模型Fig.2 Kinematic model of tunneling robot

(1)

將兩式相減得:

(2)

(3)

兩輪的差速關(guān)系決定了機(jī)器人的運(yùn)動(dòng)速度和轉(zhuǎn)向速度,其中機(jī)器人轉(zhuǎn)向時(shí)的瞬時(shí)曲率半徑R為:

(4)

得到掘進(jìn)機(jī)器人縱向軸線行進(jìn)線速度表達(dá)式:

(5)

在機(jī)器人的運(yùn)動(dòng)方程中:

vx=0

(6)

(7)

(8)

將其轉(zhuǎn)換至巷道坐標(biāo)系中,則差速驅(qū)動(dòng)履帶式機(jī)器人的運(yùn)動(dòng)學(xué)方程為:

(9)

(10)

(11)

引入速率u作為控制變量,即:

(12)

(13)

使用歐拉積分法得到該非線性系統(tǒng)的離散時(shí)間模型,即:

(14)

(15)

(16)

vr[(k+1)T]=vr(kT)+Tu1(kT)

(17)

vl[(k+1)T]=vl(kT)+Tu2(kT)

(18)

式中,T為時(shí)間;k為時(shí)間T的系數(shù)。

通過(guò)以上步驟,建立掘進(jìn)機(jī)器人運(yùn)動(dòng)控制模型。在虛擬空間中重建障礙物并進(jìn)行碰撞檢測(cè)之后,通過(guò)掘進(jìn)機(jī)器人運(yùn)動(dòng)控制模型,對(duì)雙履帶兩側(cè)的液壓馬達(dá)下發(fā)不同的控制信號(hào),控制轉(zhuǎn)速與轉(zhuǎn)向?qū)崿F(xiàn)機(jī)器人局部避障。

2.2 虛擬環(huán)境障礙物觀測(cè)模型

利用虛擬現(xiàn)實(shí)技術(shù)在虛擬空間中訓(xùn)練虛擬樣機(jī)將其作為智能體,從而產(chǎn)生自主決策行為控制真實(shí)機(jī)器人運(yùn)動(dòng)。為了在虛擬世界中映射物理世界,采用激光雷達(dá)將物理環(huán)境中的障礙物在虛擬環(huán)境中進(jìn)行三維重建。

采用HOKUYO公司的URG-04LX二維激光掃描儀,安裝于掘進(jìn)機(jī)器人機(jī)身前側(cè)并與其固連于同一平面內(nèi)。同時(shí)在激光雷達(dá)的安裝位置添加云臺(tái),使其繞軸旋轉(zhuǎn)獲得三維數(shù)據(jù)。

激光雷達(dá)的測(cè)距原理是通過(guò)計(jì)算發(fā)射調(diào)制光與目標(biāo)反射接收光2個(gè)光強(qiáng)之間的相位差,得到目標(biāo)距離。

(19)

式中,t為光波往返的時(shí)間間隔;D為發(fā)射處與目標(biāo)之間的距離;c為激光速度。假設(shè)調(diào)制頻率為f,光波往返的周期為N1,總的相位差為Δφ。時(shí)間間隔t表示為:

(20)

由式(19)與式(20)得:

(21)

當(dāng)掘進(jìn)機(jī)器人在井下行進(jìn)時(shí),通過(guò)機(jī)身上的激光雷達(dá)掃描獲得極坐標(biāo)點(diǎn),對(duì)巷道環(huán)境中障礙物的觀測(cè)值Z可用距離ρ和角度φ表示:

(22)

設(shè)激光雷達(dá)在巷道坐標(biāo)系下的位置坐標(biāo)為(xl,yl),激光雷達(dá)點(diǎn)云數(shù)據(jù)點(diǎn)轉(zhuǎn)換至巷道坐標(biāo)系下表示為(xk,yk):

(23)

式中,ρ與φ分別為激光雷達(dá)的探測(cè)距離與角度。

由此得到掘進(jìn)機(jī)器人上安裝的激光雷達(dá)觀測(cè)模型可由下式表示:

(24)

式中,ωk為測(cè)量噪聲。

障礙物重建過(guò)程如圖3所示:

圖3 障礙物重建過(guò)程Fig.3 Obstacle reconstruction process

隨著掘進(jìn)機(jī)器人的行進(jìn)過(guò)程對(duì)障礙物進(jìn)行掃描,根據(jù)傳感觀測(cè)模型對(duì)激光雷達(dá)采集到的點(diǎn)云數(shù)據(jù)進(jìn)行處理后存儲(chǔ)進(jìn)MySQL數(shù)據(jù)庫(kù)中,實(shí)時(shí)讀取最新數(shù)據(jù)并將其顯示在數(shù)據(jù)庫(kù)中。通過(guò)構(gòu)建虛擬數(shù)據(jù)庫(kù)接口,在Unity3D中實(shí)時(shí)讀取最新一行數(shù)據(jù),進(jìn)行坐標(biāo)匹配后形成新的點(diǎn)云坐標(biāo),設(shè)置三維柵格基準(zhǔn)單元并對(duì)其進(jìn)行實(shí)例化,并在每個(gè)坐標(biāo)處根據(jù)基準(zhǔn)單元進(jìn)行克隆堆棧,從而完成障礙物的重建,為在虛擬空間中的碰撞檢測(cè)奠定基礎(chǔ)。

2.3 虛擬傳感器碰撞檢測(cè)

掘進(jìn)機(jī)器人與障礙物之間的碰撞檢測(cè)是避開(kāi)障礙物的基礎(chǔ),層次包圍盒法[15]是利用立體幾何圖形包裹三維模型,只有當(dāng)包圍盒之間相互接觸時(shí),其包圍的三維模型才會(huì)發(fā)生碰撞,此種方法適合掘進(jìn)巷道中作業(yè)區(qū)域動(dòng)態(tài)變化的非結(jié)構(gòu)化環(huán)境,以快速檢測(cè)到碰撞行為。

為了給物理空間中的設(shè)備間預(yù)留安全距離,將虛擬空間中的禁行區(qū)域用膨脹1.1倍的盒型碰撞器(Box Collider)包圍,在虛擬樣機(jī)上添加虛擬激光雷達(dá)(Ray Perception Sensor),發(fā)出虛擬射線與場(chǎng)景中的包圍盒進(jìn)行碰撞,并返回碰撞信息,其原理如圖4所示。

圖4 碰撞檢測(cè)原理Fig.4 Schematic of collision detection

其添加效果如圖5所示,射線的顏色隨著距障礙物的距離遠(yuǎn)近由淺及深,發(fā)生碰撞的顏色為紅色,未發(fā)生碰撞的顏色為白色。

圖5 Ray-Obj碰撞檢測(cè)方法Fig.5 Ray-Obj collision detection method

在虛擬空間中,分別定義起點(diǎn)和方向2個(gè)矢量單位對(duì)虛擬激光雷達(dá)發(fā)出的射線進(jìn)行描述:

(25)

將盒型碰撞體的長(zhǎng)、寬、高分別設(shè)為a,b,c,取空間內(nèi)任意一點(diǎn)A(x,y,z)為射線原點(diǎn),盒型碰撞體的重心坐標(biāo)為O(xo,yo,zo),則Ray-Col碰撞的出發(fā)區(qū)域?yàn)椋?/p>

(26)

當(dāng)虛擬射線上的任一點(diǎn)滿(mǎn)足式(26)中約束條件時(shí),射線與包圍盒相交。射線起點(diǎn)到交點(diǎn)的距離則為虛擬樣機(jī)與禁行區(qū)域之間的距離D。其碰撞檢測(cè)流程如圖6所示。

圖6 碰撞檢測(cè)流程Fig.6 Flow of collision detection

根據(jù)井下實(shí)際工況,設(shè)置掘進(jìn)機(jī)器人的碰撞預(yù)警閾值界限D(zhuǎn)max和Dmin,機(jī)器人與障礙物之間的相對(duì)距離為D:

1)當(dāng)D≥Dmax時(shí),掘進(jìn)機(jī)器人在安全范圍內(nèi),其運(yùn)動(dòng)軌跡保持不變;

2)當(dāng)Dmax>D≥Dmin時(shí),系統(tǒng)發(fā)出碰撞預(yù)警提示,并在決策控制平臺(tái)的狀態(tài)監(jiān)測(cè)模塊中實(shí)時(shí)顯示碰撞信息,提前規(guī)劃避障路徑。

3)當(dāng)D

3 基于虛擬智能體的全局路徑規(guī)劃

掘進(jìn)機(jī)器人的路徑規(guī)劃是實(shí)現(xiàn)自主決策的重要一步,傳統(tǒng)的路徑規(guī)劃方法在障礙物固定的結(jié)構(gòu)化環(huán)境中效率較高,但不適用于與掘進(jìn)巷道類(lèi)似的未知環(huán)境中[16]。將深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)引入機(jī)器人的路徑規(guī)劃問(wèn)題中,提出了基于改進(jìn)PPO算法的Muti-PPO算法,通過(guò)獎(jiǎng)懲機(jī)制建立掘進(jìn)機(jī)器人虛擬智能體,使其具備自主學(xué)習(xí)能力,實(shí)現(xiàn)設(shè)備在環(huán)境隨機(jī)變化的情況下,自主完成路徑規(guī)劃并執(zhí)行決策指令。

3.1 PPO算法

掘進(jìn)機(jī)器人作為一個(gè)智能體(Agent),它是系統(tǒng)中的決策者和學(xué)習(xí)者。在每一個(gè)時(shí)刻,Agent 觀測(cè)環(huán)境當(dāng)前的狀態(tài),根據(jù)觀測(cè)值O,對(duì)接下來(lái)的動(dòng)作A進(jìn)行決策,環(huán)境接收到Agent動(dòng)作之后狀態(tài)S會(huì)發(fā)生一定的改變,并給智能體一定的獎(jiǎng)勵(lì)值R,同時(shí)Agent根據(jù)新的觀測(cè)值做出新的行動(dòng),其過(guò)程如圖7所示。

圖7 深度強(qiáng)化學(xué)習(xí)過(guò)程示意Fig.7 Schematic of deep reinforcement learning process

近端策略?xún)?yōu)化(Proximal Policy Optimization, PPO)算法[17-18]是一種基于策略的策略梯度算法(Policy Gradient, PG),其核心思想是用含參函數(shù)π(a|s;θ)來(lái)近似最優(yōu)策略,并用策略梯度優(yōu)化策略參數(shù)θ,從而最大化期望獎(jiǎng)勵(lì)。PG算法中,參數(shù)θ更新的目標(biāo)函數(shù)為:

LPG(θ)=Et[lgπ(at|st;θ)×At]

(27)

其中,π(at|st;θ)為t時(shí)刻含參的策略函數(shù),具體意義是指在t時(shí)刻的狀態(tài)st下,Agent動(dòng)作為at的策略函數(shù),此時(shí)策略梯度優(yōu)化策略參數(shù)為θ;A為動(dòng)作空間,在時(shí)刻t,Agent根據(jù)觀測(cè)結(jié)果決策動(dòng)作At∈A,在決策過(guò)程中,At=a;其優(yōu)勢(shì)在于可以在連續(xù)的狀態(tài)空間中選擇相應(yīng)的決策行為,缺點(diǎn)在于由于難以選擇合適的步長(zhǎng)而導(dǎo)致效率低下的問(wèn)題。PPO算法中將新舊策略的比值rt(θ)作為目標(biāo)函數(shù)的一部分,避免更新前的策略π(a|s;θk)與當(dāng)前策略π(a|s;θ)差距過(guò)大。目標(biāo)函數(shù)設(shè)計(jì)為:

L(θ)=Et[rt(θ)At]

(28)

其中:

(29)

在最大化獎(jiǎng)勵(lì)函數(shù)的過(guò)程中,可能會(huì)引起較大的策略更新而導(dǎo)致策略突變,因此需要通過(guò)截?cái)嗟姆绞綄?duì)目標(biāo)函數(shù)式(27)進(jìn)行約束。即添加截?cái)嗪瘮?shù)clip優(yōu)化目標(biāo)函數(shù):

Lclip(θ)=Et[min(rt(θ)At,clip((rt(θ),1-ε,1+ε)At)]

(30)

其中,ε∈(0,1)為指定參數(shù)。在截?cái)嗪瘮?shù)clip(a,amin,amax)中,a為動(dòng)作輸入,amin為被限定的最小值,amax為被限定的最大值。如圖8所示,當(dāng)A>0時(shí),表明當(dāng)前動(dòng)作的積極效果大于平均值,應(yīng)增大選擇該動(dòng)作的概率,但同時(shí)不能過(guò)于增大,因此在1-ε處截?cái)?。同理,?dāng)A<0時(shí),表明當(dāng)前動(dòng)作的積極效果低于平均值,應(yīng)減少選擇該動(dòng)作的概率,但同時(shí)不能過(guò)于降低,因此在1+ε處截?cái)唷?/p>

圖8 clip函數(shù)示意Fig.8 clip function

3.2 Muti-PPO算法

PPO算法可以解決傳統(tǒng)PG算法中步長(zhǎng)難以確定的問(wèn)題[19],為加快Agent的訓(xùn)練速度,將多智能體與PPO算法結(jié)合(Muti-PPO),即設(shè)置多個(gè)相同且獨(dú)立的Agent,基于訓(xùn)練環(huán)境并行運(yùn)行多個(gè)場(chǎng)景,它們之間可以共享獎(jiǎng)勵(lì)信號(hào),從而加速并穩(wěn)定訓(xùn)練過(guò)程。

如圖9所示,每個(gè)訓(xùn)練環(huán)境中包含多個(gè)場(chǎng)景。每個(gè)場(chǎng)景中都具有相同數(shù)量與類(lèi)型的Agent,并且都具有一個(gè)可以共享狀態(tài)信息、動(dòng)作信息、獎(jiǎng)勵(lì)值的接口,在訓(xùn)練的同時(shí)相互之間可以進(jìn)行交互。每種類(lèi)型的Agent都對(duì)應(yīng)一個(gè)策略-價(jià)值網(wǎng)絡(luò),如果M個(gè)場(chǎng)景中共有N種Agent,共有,那么一共有N個(gè)策略-價(jià)值網(wǎng)絡(luò)。在一個(gè)步長(zhǎng)t內(nèi),第i種Agent的觀測(cè)量為:

圖9 多智能體訓(xùn)練場(chǎng)景Fig.9 Multi agent training scenario

(j∈1,…,M)

環(huán)境狀態(tài)為:

θ={θ(1),…,θ(N)}

(31)

π={π(1),…,π(N)}

(32)

w={w(1),…,w(N)}

(33)

V={V(1),…,V(N)}

(34)

其中,θ為策略函數(shù)π的策略參數(shù);w為價(jià)值函數(shù)V的價(jià)值參數(shù)。如式(31)中θ(1)表示為在一個(gè)場(chǎng)景中,第一個(gè)Agent的策略參數(shù),因此式(31)表示為在一個(gè)場(chǎng)景中,N種Agent的策略參數(shù)集合。式(32)—式(34)同理。

(35)

(36)

(37)

圖10 Muti-PPO算法學(xué)習(xí)過(guò)程Fig.10 Muti-PPO algorithm learning process

在實(shí)際中,如果上一策略π(a|s;θk)太小,則式(29)中分母約為0,無(wú)法準(zhǔn)確進(jìn)行計(jì)算,因此重新設(shè)計(jì)rt:

(38)

(39)

(40)

在該目標(biāo)函數(shù)中,策略的更新范圍限制在[-ε,ε]。在式(40)中,t∈[0,T],折扣因子γ∈[0,1]。折扣因子γ決定了如何在最近的獎(jiǎng)勵(lì)和未來(lái)的獎(jiǎng)勵(lì)間進(jìn)行折中:未來(lái)t步后得到的單位獎(jiǎng)勵(lì)相當(dāng)于當(dāng)下得到的γt單位獎(jiǎng)勵(lì)。若指定γ=0,Agent僅考慮眼前獎(jiǎng)勵(lì)值。若γ=1,Agent考慮當(dāng)下單位獎(jiǎng)勵(lì)與未來(lái)單位獎(jiǎng)勵(lì)同樣重要。價(jià)值網(wǎng)絡(luò)的損失函數(shù)為:

(41)

式中,t為Agent的步長(zhǎng);t′為Agent的未來(lái)步長(zhǎng)。

該算法的具體過(guò)程見(jiàn)表1。

續(xù)表

3.3 獎(jiǎng)懲函數(shù)設(shè)計(jì)

獎(jiǎng)懲函數(shù)的目標(biāo)是使Agent根據(jù)獎(jiǎng)勵(lì)函數(shù)所提供的條件與獎(jiǎng)勵(lì)值,來(lái)獲取與環(huán)境交互后的反饋信號(hào),通過(guò)回合制更新的方法累積獎(jiǎng)勵(lì),以此來(lái)學(xué)習(xí)正確的策略并規(guī)劃出一條累積獎(jiǎng)勵(lì)值最大的軌跡[20]。在每個(gè)回合中,當(dāng)Agent避障失敗或者在規(guī)定步長(zhǎng)內(nèi)未達(dá)到目標(biāo)點(diǎn)時(shí)結(jié)束該回合的訓(xùn)練。在本文中,懲罰值設(shè)置在-1.5~0,獎(jiǎng)勵(lì)值設(shè)置在0~1.5。將獎(jiǎng)勵(lì)函數(shù)內(nèi)容劃分為3部分:

1)根據(jù)巷道全局地圖進(jìn)行路徑規(guī)劃,規(guī)劃出一條從起點(diǎn)至目標(biāo)點(diǎn)的路線。通過(guò)Agent與目標(biāo)點(diǎn)之間的距離來(lái)判斷是否到達(dá)目標(biāo)點(diǎn),如果成功到達(dá),則獲得獎(jiǎng)勵(lì)Rend=1.0。

2)通過(guò)Agent上的虛擬激光雷達(dá)檢測(cè)障礙物,來(lái)進(jìn)行局部避障。為考慮安全距離,障礙物上的包圍盒相對(duì)于原物體膨脹了1.1倍,當(dāng)激光雷達(dá)發(fā)出的虛擬射線與包圍盒距離D=0,判定為避障失敗,結(jié)束該回合并獲得懲罰RObstical=-1.0;判斷出障礙物的類(lèi)型,并成功避開(kāi)一個(gè)障礙物,則獲得獎(jiǎng)勵(lì)Rdistance=1.5。

3)為縮短Agent到達(dá)目標(biāo)點(diǎn)的時(shí)間,避免因稀疏獎(jiǎng)勵(lì)帶來(lái)的效率低下問(wèn)題,為Agent設(shè)置外部獎(jiǎng)勵(lì)函數(shù),即在其行動(dòng)后的每一步都添加一個(gè)負(fù)獎(jiǎng)勵(lì)Rtime=-0.005。因此,獎(jiǎng)勵(lì)函數(shù)為:

R=Rend+Robstical+Rdis+Rtime

3.4 訓(xùn)練結(jié)果分析

使用Socket實(shí)現(xiàn)Unity3D與Python間的通訊,將虛擬智能體在Unity3D平臺(tái)中進(jìn)行訓(xùn)練,Muti-PPO算法的參數(shù)設(shè)置如下:

學(xué)習(xí)率(learning rate)0.000 3截?cái)喑?shù)ε0.2折扣因子γ0.99批量大小(batch_size)128經(jīng)驗(yàn)池大小(buffer_size)2 048泛化優(yōu)勢(shì)估計(jì)λ0.95每回合最大步數(shù)(Max_step)10 000 000

Unity3D與Python通信成功界面如圖11所示。

圖11 Unity3D與Python通訊成功界面Fig.11 Interface for successful communication between Unity3D and python

最終訓(xùn)練結(jié)果圖12所示,將Muti-PPO、PPO、SAC三種算法分別在同一環(huán)境中訓(xùn)練1×107次進(jìn)行對(duì)比。圖12a表示訓(xùn)練過(guò)程中,智能體所獲獎(jiǎng)勵(lì)走勢(shì)圖,智能體所獲獎(jiǎng)勵(lì)越多,說(shuō)明選擇正確行動(dòng)的概率越大;圖12b表示每一輪訓(xùn)練回合長(zhǎng)度,回合長(zhǎng)度越小,說(shuō)明智能體避開(kāi)障礙物到達(dá)目標(biāo)點(diǎn)的效率越高;圖12c表示訓(xùn)練過(guò)程中的損失值變化曲線,智能體在訓(xùn)練過(guò)程中損失值越小,表明實(shí)際所獲的平均獎(jiǎng)勵(lì)與理論獎(jiǎng)勵(lì)越靠近。

在圖12a中,Muti-PPO算法的收斂速度最快,在達(dá)到最大獎(jiǎng)勵(lì)值時(shí)迭代次數(shù)最少。在圖12b中,隨著訓(xùn)練迭代次數(shù)的增加,Muti-PPO算法的回合長(zhǎng)度最先達(dá)到最短。在圖12c中,PPO算法與SAC算法的損失值下降趨勢(shì)相近,相比之下,Muti-PPO算法損失值收斂速度最快。表2中對(duì)比了三種算法的性能,其中根據(jù)獎(jiǎng)勵(lì)值的均值與標(biāo)準(zhǔn)差來(lái)評(píng)估算法魯棒性的優(yōu)勢(shì)。

圖12 訓(xùn)練結(jié)果Fig.12 Training results

表2 3種算法性能對(duì)比分析

通過(guò)分析表3可知,SAC算法在獲得平均值與魯棒性方面均優(yōu)于PPO算法,但在最高獎(jiǎng)勵(lì)值與達(dá)到最高獎(jiǎng)勵(lì)值步數(shù)方面低于PPO算法。而Muti-PPO在4個(gè)方面的性能均達(dá)到了最優(yōu)。其中平均獎(jiǎng)勵(lì)值較PPO與SAC算法分別提升了13.82%與11.31%;標(biāo)準(zhǔn)差分別下降了17.85%與16.81%;最高獎(jiǎng)勵(lì)值分別提升0.14%與0.43%。

4 試驗(yàn)與驗(yàn)證

4.1 決策控制平臺(tái)介紹

基于Unity3D虛擬現(xiàn)實(shí)開(kāi)發(fā)平臺(tái),搭建了如圖13所示決策控制平臺(tái)。該平臺(tái)由機(jī)器人三維狀態(tài)監(jiān)測(cè)模塊、機(jī)體參數(shù)顯示模塊、人工遠(yuǎn)程干預(yù)模塊、機(jī)器人導(dǎo)航定位模塊與機(jī)器人通信連接狀態(tài)顯示模塊組成。

圖13 掘進(jìn)機(jī)器人決策控制平臺(tái)Fig.13 Decision control platform of tunneling robot

4.2 路徑規(guī)劃對(duì)比試驗(yàn)驗(yàn)證

設(shè)置3類(lèi)復(fù)雜程度不同的場(chǎng)景,并分別使用Muti-PPO、A*算法、Nev-Mesh尋路算法進(jìn)行規(guī)劃,共設(shè)計(jì)九組試驗(yàn)對(duì)比分析3種方法的規(guī)劃效率。用履帶式機(jī)器人模擬掘進(jìn)機(jī)器人,用實(shí)驗(yàn)室樓道環(huán)境模擬井下巷道,泡沫板模擬井下障礙物。試驗(yàn)平臺(tái)如圖14所示,掘進(jìn)巷道尺寸為600 cm×210 cm,掘進(jìn)機(jī)器人尺寸為58.5 cm×53 cm,激光雷達(dá)型號(hào)為URG-04LX,捷聯(lián)慣導(dǎo)型號(hào)為T(mén)M352。

圖14 基于虛擬智能體的路徑規(guī)劃試驗(yàn)平臺(tái)Fig.14 Experimental platform of path planning based on virtual agent

3種復(fù)雜道路情況分別如圖15所示,以巷道左下角為坐標(biāo)原點(diǎn)建立巷道坐標(biāo)系,以巷道寬度方向?yàn)閅軸,長(zhǎng)度方向?yàn)閄軸,機(jī)器人行動(dòng)目標(biāo)點(diǎn)坐標(biāo)為(600,105),機(jī)器人在3種情況下的行進(jìn)軌跡分別如圖16—圖18所示。

圖15 3種巷道情況Fig.15 Three roadway conditions

圖16 第1類(lèi)復(fù)雜情況Fig.16 Type I complex situation

圖17 第2類(lèi)復(fù)雜情況Fig.17 Type II complex situation

圖18 第3類(lèi)復(fù)雜情況Fig.18 Type III complex situation

第1類(lèi)復(fù)雜環(huán)境中,障礙物處于遠(yuǎn)離巷道中心線的兩側(cè)邊界位置,障礙物之間距離間隔較大,對(duì)掘進(jìn)機(jī)器人規(guī)劃任務(wù)干擾較?。坏?類(lèi)復(fù)雜環(huán)境相比于第1類(lèi)障礙物尺寸較大且障礙物之間距離間隔較小,規(guī)劃難度適中;第3類(lèi)工況環(huán)境中,存在干涉設(shè)備、禁行區(qū)域等占地面積較大的障礙物,且其處于靠近巷道中心線的位置,對(duì)掘進(jìn)機(jī)器人規(guī)劃任務(wù)干擾較大。

圖中線框代表巷道形狀,3條曲線分別代表3種算法下的軌跡,黑色方塊代表禁行區(qū)域,曲線上的線框代表與禁行區(qū)域距離最近軌跡的機(jī)器人輪廓,用于判斷行進(jìn)過(guò)程中與障礙物之間的距離,設(shè)置安全距離為10 cm,用機(jī)器人在巷道中的總行進(jìn)長(zhǎng)度以及與障礙物之間的最短距離判斷其行進(jìn)效率,若機(jī)器人與障礙物之間的距離大于10 cm,則表示避障成功,稱(chēng)為有效軌跡,試驗(yàn)對(duì)比結(jié)果見(jiàn)表3。

表3 試驗(yàn)對(duì)比結(jié)果

由表4可知,在第2類(lèi)巷道情況中,Nev-Mesh算法下機(jī)器人與障礙物的最短距離為8 cm小于10 cm,因此為無(wú)效軌跡,而Muti-PPO(本文算法)與A*算法在3種巷道情況中均為有效軌跡;在3類(lèi)巷道情況中,Muti-PPO(本文算法)與目標(biāo)點(diǎn)的誤差均為最小,分別為0.9 cm、1.1 cm、1.2 cm;行進(jìn)軌跡總長(zhǎng)度均為最短,分別為(661.7±0.8)、(695.3±0.8)、(689.8±0.8) cm。

4.3 虛實(shí)同動(dòng)試驗(yàn)驗(yàn)證

為驗(yàn)證系統(tǒng)在虛實(shí)空間中的“雙向映射”性能,在實(shí)驗(yàn)室樓道環(huán)境下設(shè)計(jì)了虛實(shí)同動(dòng)試驗(yàn),在決策控制平臺(tái)中發(fā)出控制指令,遠(yuǎn)程控制機(jī)器人運(yùn)動(dòng),同時(shí)通過(guò)采集機(jī)器人機(jī)身上的傳感器數(shù)據(jù)對(duì)虛擬樣機(jī)進(jìn)行數(shù)據(jù)驅(qū)動(dòng),使虛擬樣機(jī)與物理樣機(jī)在巷道中的位姿均保持一致,機(jī)器人在4個(gè)位姿狀態(tài)時(shí)的虛實(shí)對(duì)比如圖19所示,左圖為物理樣機(jī),右圖為虛擬樣機(jī)。

圖19 機(jī)器人虛實(shí)空間位姿Fig.19 Virtual and real space pose of robot

在每組對(duì)比試驗(yàn)中,機(jī)器人虛擬樣機(jī)與物理樣機(jī)的位姿保持同步,實(shí)現(xiàn)了虛實(shí)空間的雙向映射。因此可以在決策控制平臺(tái)的三維狀態(tài)監(jiān)測(cè)模塊中,根據(jù)虛擬樣機(jī)的位姿狀態(tài),反應(yīng)掘進(jìn)機(jī)器人在實(shí)際環(huán)境中的位姿信息,同時(shí)虛擬樣機(jī)下發(fā)對(duì)掘進(jìn)機(jī)器人的遠(yuǎn)程控制指令,以此循環(huán)最終實(shí)現(xiàn)以設(shè)備自主決策為主,以人工遠(yuǎn)程干預(yù)為輔的掘進(jìn)機(jī)器人遠(yuǎn)程控制。

5 結(jié) 論

1)研發(fā)了一種掘進(jìn)機(jī)器人決策控制系統(tǒng),闡述了數(shù)字孿生驅(qū)動(dòng)的系統(tǒng)體系框架,提出了“數(shù)據(jù)驅(qū)動(dòng)、雙向映射、碰撞檢測(cè)、自主決策、人機(jī)協(xié)作”技術(shù)體系。

2)結(jié)合虛擬現(xiàn)實(shí)技術(shù),將傳感器采集到的物理世界的數(shù)據(jù)在虛擬空間中三維呈現(xiàn),提出Ray-Col碰撞檢測(cè)方法,將虛實(shí)數(shù)據(jù)有機(jī)融合,實(shí)現(xiàn)非結(jié)構(gòu)化環(huán)境下的局部避障。

3)結(jié)合深度強(qiáng)化學(xué)習(xí)算法,利用基于改進(jìn)PPO的Muti-PPO算法構(gòu)建虛擬智能體,使其具備自主決策能力,訓(xùn)練結(jié)果表明Muti-PPO算法相比于PPO算法、SAC算法,其性能達(dá)到最優(yōu)。

4)通過(guò)試驗(yàn)表明,在3種不同復(fù)雜程度的工況下,虛擬智能體路徑規(guī)劃結(jié)果與目標(biāo)點(diǎn)的誤差在1.2 cm以?xún)?nèi),且在掘進(jìn)機(jī)器人運(yùn)行過(guò)程中,虛實(shí)空間狀態(tài)均保持一致。

5)數(shù)字孿生驅(qū)動(dòng)的掘進(jìn)機(jī)器人決策控制系統(tǒng)能夠有效再現(xiàn)物理空間狀態(tài),建立了以設(shè)備自主決策為主,人工干預(yù)為輔的遠(yuǎn)程控制模式,對(duì)實(shí)現(xiàn)智能化掘進(jìn)工作面奠定了一定基礎(chǔ)。

猜你喜歡
碰撞檢測(cè)虛擬空間激光雷達(dá)
基于動(dòng)力學(xué)補(bǔ)償?shù)臋C(jī)器人電機(jī)力矩誤差碰撞檢測(cè)
激光雷達(dá)實(shí)時(shí)提取甘蔗壟間導(dǎo)航線
虛擬空間設(shè)計(jì)中的關(guān)鍵技術(shù)分析
法雷奧第二代SCALA?激光雷達(dá)
融合激光雷達(dá)與超聲波數(shù)據(jù)的障礙物檢測(cè)方法
Ouster發(fā)布首款全固態(tài)數(shù)字激光雷達(dá)
基于Virtools的虛擬滅火系統(tǒng)碰撞檢測(cè)設(shè)計(jì)與實(shí)現(xiàn)
基于Unity 3D的虛擬樓盤(pán)漫游和碰撞檢測(cè)研究
基于Unity3D 的Android 飛行類(lèi)游戲設(shè)計(jì)
網(wǎng)絡(luò)經(jīng)濟(jì)對(duì)企業(yè)的影響分析
华容县| 玛曲县| 江源县| 衡东县| 塔河县| 武安市| 简阳市| 祁东县| 和硕县| 烟台市| 苏尼特右旗| 邯郸市| 黄山市| 大埔县| 红河县| 赤城县| 稷山县| 衡阳市| 班玛县| 绥芬河市| 芦溪县| 枣阳市| 周口市| 屯昌县| 临沂市| 安阳县| 嵊州市| 太仓市| 昌平区| 兴义市| 五华县| 门头沟区| 蕉岭县| 保德县| 福泉市| 卫辉市| 长顺县| 工布江达县| 乌兰察布市| 梅州市| 渝北区|