国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

不確定檢測環(huán)境下強化學(xué)習(xí)覆蓋路徑規(guī)劃研究

2024-01-22 05:06李彥征劉銀華趙文政孫芮
機械科學(xué)與技術(shù) 2024年1期
關(guān)鍵詞:視點位姿機器人

李彥征,劉銀華,趙文政,孫芮

(1. 上海理工大學(xué) 機械工程學(xué)院,上海 200093; 2. 上海交通大學(xué) 機械與動力工程學(xué)院,上海 200240)

復(fù)雜自由曲面結(jié)構(gòu)產(chǎn)品具有嚴格的幾何尺寸和公差要求,全面準確的質(zhì)量檢測能夠為產(chǎn)品質(zhì)量評價提供必要依據(jù)。近年來,以結(jié)構(gòu)光為代表的機器人視覺檢測系統(tǒng)以其柔性、非接觸、全覆蓋等特點在汽車、航空航天等制造業(yè)中得到廣泛應(yīng)用。在自由曲面的質(zhì)量檢測中,通常采用搭載光學(xué)傳感器的工業(yè)機器人以不同的視點和姿態(tài)進行檢測,從而在短時間內(nèi)實現(xiàn)被測零件的尺寸、位置、形狀以及誤差的獲取。因此,針對自由曲面的檢測規(guī)劃本質(zhì)上是覆蓋路徑規(guī)劃(Coverage path planning, CPP)問題。Galceran等[1]提出CPP結(jié)果需要滿足如下要求:1)機器人必須在給定區(qū)域內(nèi)的所有候選特征點之間移動;2)機器人生成的路徑的區(qū)域應(yīng)滿足無重疊路徑的要求;3)在無重復(fù)路徑條件下實現(xiàn)連續(xù)以及順序操作;4)機器人必須避開所有障礙物;5)運動軌跡應(yīng)盡可能的簡單;6)在滿足以上條件的情況下,規(guī)劃出成本最小的一條路徑。

覆蓋路徑規(guī)劃已經(jīng)被集成到眾多機器人應(yīng)用場景中,如深海安全探測[2]、三維測繪重建[3-4]、室內(nèi)外空間清潔[5]以及表面質(zhì)量檢測[6]等領(lǐng)域。Wang等[7]基于Delaunay三角剖分原理提出了一種路徑規(guī)劃算法,通過設(shè)計分層任務(wù)規(guī)劃器控制智能體實現(xiàn)未知2D區(qū)域完全覆蓋。此外,基于自組織映射神經(jīng)網(wǎng)絡(luò)等方法也用來解決多智能體的CPP問題求解[8-9]。上述研究均針對二維平面環(huán)境,由于三維空間中機器人無法通過簡單的視點或航路點獲得被遮擋部分的信息,這使得基于二維CPP方法的適用性受到限制。因此,為解決三維空間中的覆蓋路徑規(guī)劃問題,賈慶軒等[10]將A*算法應(yīng)用于空間機械臂中,通過分析機械臂屬性和障礙物的幾何特征來獲得簡化模型,進而求解無碰撞路徑。王洪斌等[11]將A*算法與人工勢場法相結(jié)合,提出了全局規(guī)劃與局部規(guī)劃相融合的路徑規(guī)劃方法,實現(xiàn)了機器人局部路徑的動態(tài)規(guī)劃。劉洪鵬等[12]考慮了光學(xué)傳感器位姿對于檢測精度的影響,提出了基于改進貪心算法的覆蓋路徑規(guī)劃。Jing等[6]考慮了機器人位姿不確定性,提出了一個通用框架,獲得離散化工作空間上的覆蓋概率,并根據(jù)新的概率覆蓋準則生成保證覆蓋得路徑。

上述文獻提出的CPP算法均假設(shè)環(huán)境已知,而對于未知的、非結(jié)構(gòu)化環(huán)境時,上述方法將變得不再適用。因此,Bircher等[13]引入了一種新的路徑規(guī)劃方案,使得在線規(guī)劃好的路徑能夠以后退的地平線方式探索給定的有界體積。Meyes等[14]提出基于強化學(xué)習(xí)(Reinforcement learning,RL)的機器人連續(xù)軌跡的運動規(guī)劃方法。Lakshmanan等[5]提出了一個完整的覆蓋路徑規(guī)劃模型,該模型使用深度強化學(xué)習(xí)為基于Tetromino的可重構(gòu)機器人平臺進行訓(xùn)練,獲得成本最小的機器人軌跡。Paull等[15]考慮了機器人姿態(tài)的不確定性,提出了一個通用框架,基于信息的路徑規(guī)劃保證了區(qū)域覆蓋。

上述研究針對強化學(xué)習(xí)在機器人路徑的在線規(guī)劃方面進行了探索,但較少考慮工業(yè)現(xiàn)場的不確定性環(huán)境。因此,本文針對實際制造環(huán)境下在線覆蓋路徑規(guī)劃問題,考慮零部件制造誤差、工裝定位誤差等不確定性因素,提出了一種基于改進的蒙特卡洛樹搜索算法的強化學(xué)習(xí)方法,在線生成有效的工業(yè)機器人運動路徑,實現(xiàn)零部件表面全特征的覆蓋質(zhì)量檢測。

1 不確定環(huán)境下覆蓋路徑規(guī)劃概述

機器人光學(xué)掃描系統(tǒng)一般由3部分組成,包括光學(xué)傳感器、機器人、被測零部件及工裝夾具等。在產(chǎn)品質(zhì)量檢測中,覆蓋路徑規(guī)劃是尋找一個接近最優(yōu)的機器人運動方案,完成一系列滿足覆蓋要求和無干涉約束的檢測任務(wù)。傳統(tǒng)CPP問題求解的思路一般包括:1)視點規(guī)劃,為被檢測零件進行最優(yōu)的視點采樣,其受視點數(shù)量和特征全覆蓋的約束;2)路徑規(guī)劃,尋找連接所有視點的最優(yōu)或接近最優(yōu)的序列,并進一步基于此序列生成無碰撞的機器人路徑。

在質(zhì)量檢測過程中,造成不確定性的因素主要包括零部件位姿誤差、表面不一致性、測量噪聲等。傳統(tǒng)基于標準數(shù)模環(huán)境下的覆蓋路徑規(guī)劃結(jié)果的適用性不足,難以適應(yīng)不確定制造環(huán)境,導(dǎo)致大量現(xiàn)場調(diào)試,工藝規(guī)劃的準確性不高。因此,本文考慮零件位姿誤差等不確定性因素,提出了基于強化學(xué)習(xí)的覆蓋路徑在線規(guī)劃方法,實現(xiàn)機器人掃描系統(tǒng)路徑的在線規(guī)劃。本文提出的CPP方法主要包括:環(huán)境搭建、視點規(guī)劃與路徑規(guī)劃等。環(huán)境搭建的目的是獲得初始視點、視點的可視性矩陣等。

視點的可視性需要滿足以下要求:1)裝有光學(xué)傳感器的機器人末端能夠到達該候選視點;2)對于確定的視點,應(yīng)滿足光學(xué)傳感器的參數(shù)要求,如視場(Field of view, FOV)、景深(Depth of field, DOF)等;3)配備光學(xué)傳感器的機器人檢測系統(tǒng)與被檢測對象、工裝之間不發(fā)生碰撞。視點采樣與路徑規(guī)劃部分主要是在上述環(huán)境搭建基礎(chǔ)上進行,文中考慮了不確定的制造環(huán)境,提出了用于覆蓋性視點采樣的強化學(xué)習(xí)算法,進一步結(jié)合啟發(fā)式優(yōu)化算法的應(yīng)用實現(xiàn)最佳視點集之間的優(yōu)化檢測路徑,提升檢測工藝規(guī)劃與質(zhì)量檢測效率。

2 強化學(xué)習(xí)的在線路徑規(guī)劃

2.1 面向在線CPP的初始視點生成

為實現(xiàn)不確定制造環(huán)境下的覆蓋路徑在線規(guī)劃,本文首先對被測零件進行體素化操作,同時考慮不確定性環(huán)境下的視點的可利用性,提出基于空心球的視點隨機采樣方法。不同于傳統(tǒng)的體素膨脹法、勢場法以及橢球體[6]等視點生成方式,在空心球中生成視點可以最大效率的重用視點,且刪除了過于靠近物體的視點,在滿足全覆蓋要求的前提下,減低初始視點集大小,提升視點規(guī)劃效率。具體生成方法如下:

1) 以待檢測物體中心為球心,空心球體最小最大半徑滿足掃描測頭參數(shù),在空心球內(nèi)基于隨機采樣生成初始視點集。

2) 針對確定的視點,對應(yīng)入射角方向定義為

(1)

式中:Xi為第i個視點的入射角指向方向;x~N(0,1)為滿足高斯分布的多元變量;k為高斯分布比重的調(diào)整參數(shù);xi1為第i個視點對應(yīng)的距離最小的檢測特征坐標;xi2為第i個視點的位置,初始視點生成的示意圖如圖1所示。

圖1 初始視點生成示意圖Fig. 1 Schematic diagram of the original viewpoint generation

進一步,對每個視點的可達性與可視性進行求解,可視性即確定每個視點對應(yīng)視場內(nèi)有效測點集合。一般滿足以下4個條件[16]的檢測特征被定義為可視:

1) 待測物體特征與相機之間距離的要求,即DOF。

2) 待測物體特征在相機檢測范圍之內(nèi),即FOV。

3) 待測物體特征與相機入射角的夾角要求,即可視性要求。

4) 待測物體特征與相機之間無其他遮擋。

對于可視性的規(guī)則如圖2所示。

圖2 可視性要求Fig. 2 Visibility requirement

圖2中:[D,D+d]為相機的景深要求,只有待測物體處于此區(qū)間內(nèi),相機才可進行表面質(zhì)量檢測;α為相機的視場要求,待測特征要位于α角內(nèi);θ為待測特征矢量方向與相機入射角的夾角。當以上要求均滿足的情況下,可以計算可視性矩mG。至此,面向在線視點采樣的檢測環(huán)境搭建全部完成。

2.2 強化學(xué)習(xí)的全覆蓋視點采樣

2.2.1 MDP模型概述

強化學(xué)習(xí)算法[17]中,主要包括以下幾個要素:狀態(tài)、動作、獎勵、狀態(tài)價值函數(shù)、動作價值函數(shù)等。其特點是無需提前給定解決問題的策略,而是智能體根據(jù)環(huán)境采取行動,通過智能體對狀態(tài)、動作和獎勵三要素的計算,迭代更新目標函數(shù),以實現(xiàn)自我學(xué)習(xí)、進行策略的更新與改進的目的,強化學(xué)習(xí)的思路如圖3所示。

圖3 強化學(xué)習(xí)過程Fig. 3 Reinforcement learning process

其中智能體與環(huán)境之間的交互過程被認為是馬爾科夫決策過程(Markov decision process, MDP),MDP被定義為一個有限的五元組(S,T,A,r,λ)。其中,S為有限狀態(tài)的集合;T為狀態(tài)轉(zhuǎn)移模型;A為智能體有限動作的集合;r:S×A→r∈R為狀態(tài)S的函數(shù),稱之為智能體在當前狀態(tài)下選擇動作的獎勵函數(shù),可表示為r=E(S);λ為折扣因子,定義了當前獎勵與未來獎勵之間的比重。如果λ=0,那么智能體的動作價值只與當前所得的獎勵有關(guān),若λ=1,則智能體的價值函數(shù)不僅受到當前獎勵的影響,并且未來獎勵對于價值函數(shù)的影響同等重要。其中價值函數(shù)一般作為期望函數(shù)出現(xiàn),用于評估處于當前狀態(tài)時執(zhí)行相應(yīng)動作時,未來可能獲得的獎勵期望,其可表示為

vπ(s)=Eπ(Rt+1+λRt+2+…|St=s)

(2)

2.2.2 面向CPP問題的強化學(xué)習(xí)模型構(gòu)建

為使得CPP問題轉(zhuǎn)化為MDP問題,我們對CPP問題中的概念進行重新定義,使其滿足MDP問題要素的要求。

定義1(狀態(tài)):在CPP問題中狀態(tài)空間是由機器人位于當前視點時,基于當前視點所有未被機器人選擇的視點所構(gòu)建的集合。狀態(tài)空間S中的每個狀態(tài)s由以下兩個部分組成:1)從有限的候選視點集Ps中提取機器人位于視點時的位姿;2)候選視點集Ps中的每一個視點vs。

基于初始視點的生成,零件表面質(zhì)量檢測中的CPP需要滿足:1)零件表面需要覆蓋最少數(shù)量的視點,同時每個視點包含盡可能多的檢測特征;2)全覆蓋條件下,應(yīng)最小化檢測時間,提高檢測效率。對于CPP問題中狀態(tài)和獎勵的轉(zhuǎn)換,給出如下的定義:

定義2(動作):對于機器人來說,位于當前狀態(tài),即視點位置及機器人本身位姿給定時,如何選擇下一狀態(tài)的過程稱之為MDP問題的動作空間。

定義3(獎勵):由于質(zhì)量覆蓋檢測問題的特殊性,即在保證全特征覆蓋率要求下最小化檢測時間,故定義獎勵函數(shù)為

(3)

式中:Si為第i個視點;ai為測頭中心點位于第i個視點時其余視點的集合;Ti(Si)為Si視點的檢測時間;Tt(Si,Si+1)為測頭中心點從視點Si運動到Si+1時所花費的時間;con(vi,ai)為測頭中心位于視點vi且選擇動作ai時所覆蓋待測特征數(shù)目;con(vi,ai)∩con(vi)為視點vi與機器人基于當前視點選擇動作ai之后,視場內(nèi)檢測特征的交集。

解決上述構(gòu)造的MDP問題即尋找一個最優(yōu)策略使得智能體在于環(huán)境交互的過程中獲得最優(yōu)回報獎勵。為此,本文基于上述構(gòu)造模型,提出了改進蒙特卡洛樹搜索算法(Monte carlo tree search, MCTS)對CPP問題進行求解。MCTS算法是一種通過使用決策樹隨機抽樣實現(xiàn)高維空間中探索的增量方法。MCTS算法具有漸進最優(yōu)性, 即可以隨著決策點的增加迭代進而收斂達到最優(yōu)解。MCTS算法主要包括:

1) 選擇:從根節(jié)點出發(fā),選擇當前節(jié)點的最佳子節(jié)點,直至葉子節(jié)點。

2) 擴展:位于葉節(jié)點時,若沒有達到終止狀態(tài),則對當前節(jié)點進行擴展。

3) 模擬:基于目前狀態(tài),以一定策略移動至子節(jié)點,直至達到終止狀態(tài)。

4) 反向傳播:根據(jù)模擬結(jié)果,反向更新所有節(jié)點信息。

本文提出的改進MCTS算法流程如算法1所示。

算法1: 蒙特卡洛樹搜索(MTCS)

輸入: 初始視點位置信息S0

輸出: 根據(jù)當前節(jié)點的狀態(tài),選擇最佳子節(jié)點S′0

1: create root nodev0with stateS0

2: fori=1: max-iteration:

3:v←TreePolicy(v0)

4:Δ←SimulatePolicy(s(v))

5: BackUp(v,Δ)

6: end for

7:S′0←BestChild(v0)

算法1中:v0是根節(jié)點,即機器人末端從當前視點開始進行視點采樣;max-iteration為最大迭代次數(shù);SimulatePolicy()為模擬過程下應(yīng)用的策略。

本文中,使用的策略為隨機選擇子節(jié)點策略,在當前狀態(tài)下的子節(jié)點中,即候選視點,隨機選擇一個智能體未經(jīng)歷的狀態(tài)當作智能體的下一狀態(tài);BestChild()為依據(jù)所給等式(4)選擇當前節(jié)點的最佳子節(jié)點函數(shù)。對于MCTS算法中擴展、回溯功能的實現(xiàn),分別為TreePolicy()、BackUp(),具體實現(xiàn)過程如算法2和算法3所示。

算法2: 樹策略(TreePolicy)

輸入:當前節(jié)點v

輸出:當前節(jié)點的子節(jié)點v′

1:whilevis not terminal:

2:ifvis not fully expanded

3:choosev′ from untrieds(v)

4:v′ satisfyf(S,a0,a1,…,ai-1)

5:Return (v′)

6:else

7:v′→BestChild(v)

8:Return(v)

算法3: 回溯函數(shù)(BackUp)

輸入:當前節(jié)點v,默認策略模擬結(jié)果Δ

輸出:更新被選擇的節(jié)點信息

1:whilevis not empty:

2:N(v)←N(v)+1

3:Q(v)←Q(v)+Δ

4:v←parent ofv

算法2中:s(v)為未被選擇的視點集合,函數(shù)f(S0,a0,a1,…,ai-1)對于當前節(jié)點相對于根節(jié)點之間的連續(xù)性產(chǎn)生了約束。當存在候選視點且遇到未完全擴展的節(jié)點時,基于BestChild()函數(shù)公式,添加1個子節(jié)點v′。v′滿足與當前節(jié)點v連續(xù)的要求。算法3中,N(v)為當前節(jié)點的觀測次數(shù),Q(v)為當前節(jié)點的回報計算結(jié)果,Δ為當前節(jié)點相對于父節(jié)點的提升結(jié)果。

2.3 覆蓋路徑規(guī)劃

視點采樣結(jié)束后,CPP中的視點規(guī)劃子問題已經(jīng)解決。而第二個子問題是確定視點序列以最小化機器人的運動時間。該問題可以表述為旅行商問題(Traveling salesman problem, TSP)。TSP是一個組合優(yōu)化問題,也是NP-hard問題。解決這類問題的方法較為成熟,主要包括分枝定界法、混合整數(shù)性規(guī)劃和啟發(fā)式算法等。本文中采用自組織映射神經(jīng)網(wǎng)絡(luò)算法[8]對視點間的優(yōu)化路徑進行求解,獲得視點間檢測時間最短的檢測路徑。

3 案例分析

為了評估該方法的有效性,本文采用車門內(nèi)板上檢測特征的全覆蓋檢測案例開展虛擬實驗驗證。搭建的虛擬檢測工位如圖4所示,主要包括待測車門、FANUC的R-2000iB/210F機器人以及光學(xué)掃描儀,對應(yīng)的掃描儀參數(shù)如表1所示。機器人從其初始位姿開始進行檢測,在達成覆蓋率要求后,返回初始姿態(tài),以便于下一個目標工件的檢測。

圖4 機器人光學(xué)檢測系統(tǒng)示意圖Fig. 4 Schematic diagram of the optical inspection system

該車門內(nèi)板布置待測特征共計950個,如圖5所示,包括面點、圓孔、棱邊點以及槽孔等,對應(yīng)待測特征的位置及矢量方向在圖中用紅色箭頭表示。針對該前車門實例,在待檢測對象鄰域空間內(nèi)隨機生成了5 000個候選視點。

考慮到目標工件的不確定性場景應(yīng)用,案例預(yù)設(shè)了5種零件位姿誤差情況,即車門總成無位姿誤差、沿X軸的平移15 mm、沿Y方向的平移15 mm以及繞Z軸的旋轉(zhuǎn)5°和10°,分別標記為場景1,2,3,4,5,覆蓋率參數(shù)設(shè)置為100%。進一步,通過與基于遺傳算法的覆蓋路徑規(guī)劃方法[18]進行對比分析,驗證本文方法的有效性。表2為基于兩種算法的隨機仿真實驗的對比結(jié)果。

表2 基于兩種方法的機器人運動時間對比

從表2可見,本文所提出方法在被測對象具有不同位姿誤差場景下,檢測時間均低于傳統(tǒng)的遺傳算法,檢測周期的提升率在1%~17%之間。針對不同場景下本文提出CPP規(guī)劃方法的機器人檢測時間分別下降3.97%、3.47%、4.97%、10.83%、15.55%。尤其針對零部件轉(zhuǎn)動位姿誤差下的檢測時間提升顯著。掃描儀視點采樣與機器人軌跡規(guī)劃的對比結(jié)果如圖6所示。

圖6 掃描儀視點采樣與機器人軌跡規(guī)劃的對比結(jié)果Fig. 6 Comparison results using scanner′s view samples and robotic trajectory planning

受篇幅限制,僅給出零部件在場景1與場景5的軌跡結(jié)果。通過圖6可知:本文方法雖然在視點選擇數(shù)量上不具備優(yōu)勢,但由于總體規(guī)劃路徑較短,因此檢測總時間更短,使機器人檢測效率顯著提升。本文方法在滿足全覆蓋的要求下,基于初始位置可視空間內(nèi)隨機生成視點,并設(shè)置視點矢量方向;通過視點覆蓋率的提升以及視點間路徑的長短進行視點采樣,并且根據(jù)采樣得到的視點進行路徑規(guī)劃。與基于遺傳算法相比,創(chuàng)新性的將待測對象的不確定性位姿誤差等因素融入路徑規(guī)劃中,提出了蒙特卡洛樹搜索算法的CPP問題求解方法,降低了機器人檢測時間。

4 結(jié)論

本文針對復(fù)雜結(jié)構(gòu)的覆蓋路徑檢測規(guī)劃問題,提出考慮零部件實際位姿誤差等不確定性因素的視點采樣及機器人覆蓋路徑規(guī)劃方法。具體通過待測對象的鄰域空間內(nèi)視點隨機生成、可視性判別、視點采樣以及路徑規(guī)劃等步驟,實現(xiàn)不確定檢測環(huán)境下全覆蓋路徑的在線規(guī)劃,提升了待測對象的質(zhì)量檢測效率與實際制造場景的適用性。本文提出方法可為汽車車身、航空航天零件的在線覆蓋路徑規(guī)劃提供理論依據(jù)。

猜你喜歡
視點位姿機器人
基于共面直線迭代加權(quán)最小二乘的相機位姿估計
基于CAD模型的單目六自由度位姿測量
小型四旋翼飛行器位姿建模及其仿真
視點
機器人來幫你
認識機器人
機器人來啦
讓你每天一元錢,物超所值——《今日視點—2014精萃》序
兩會視點
基于幾何特征的快速位姿識別算法研究