国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機器視覺的裝配動作自動分割與識別

2017-06-15 17:02:10劉明周蔣倩男葛茂根
中國機械工程 2017年11期
關(guān)鍵詞:關(guān)鍵幀特征向量分類器

劉明周 蔣倩男 葛茂根

合肥工業(yè)大學(xué)機械工程學(xué)院,合肥,230009

?

基于機器視覺的裝配動作自動分割與識別

劉明周 蔣倩男 葛茂根

合肥工業(yè)大學(xué)機械工程學(xué)院,合肥,230009

在對裝配作業(yè)人員進行動作分析的過程中,動作的識別和記錄一般通過手工操作完成,這種方法不僅工作量大,而且效率低。為解決該問題,提出了一種新的基于機器視覺的裝配動作自動分割與識別方法。首先利用基于內(nèi)容的動態(tài)關(guān)鍵幀提取技術(shù)提取視頻流中的關(guān)鍵幀,實現(xiàn)動作的自動分割;然后提取感興趣區(qū)域的尺度不變局部特征點,據(jù)此得出關(guān)鍵幀的特征向量;最后,基于支持向量機構(gòu)建特征向量分類器對動作進行分類。裝配線上樣本視頻的實驗結(jié)果表明,所提方法達到了96%的正確識別率。

動作的分割與識別;關(guān)鍵幀提取;尺度不變局部特征點;支持向量機

0 引言

在有人參與的機械產(chǎn)品裝配作業(yè)中,需要通過動作分析來找到動作存在的問題,以改善動作的順序和方法,進而消除浪費、減輕疲勞、提高工作效率[1-2]。動作分析的第一步就是對動作進行觀察、分解、記錄。一般情況下,動作的觀察和分解是由人員多次觀察作業(yè)實施過程來完成的,這就導(dǎo)致動作分析的工作量增大、效率降低,因此需要通過機器自動完成裝配環(huán)境下連續(xù)動作的觀察、分解、記錄,進而減少動作分析的工作量,提高動作分析的效率。

隨著圖像獲取與圖像處理方法的發(fā)展,基于機器視覺的動作識別已經(jīng)在視頻監(jiān)控[3]、視頻檢索、智能接口[4-5]、虛擬現(xiàn)實、醫(yī)療看護[6]等領(lǐng)域獲得廣泛應(yīng)用。CAMPBELL等[7]利用立體攝像機實時采集的三維數(shù)據(jù)并基于HMM模型進行手勢識別。DAVIS等[8]提出了一種基于視圖的動作表示和識別方法,并利用18個健美操動作驗證了方法的有效性。STAUFFER等[9]開發(fā)了一個可視化的監(jiān)控系統(tǒng),該系統(tǒng)在室內(nèi)環(huán)境或室外環(huán)境中使用多個攝像頭實現(xiàn)了人體的追蹤。LAPTEV[10]采用圖像處理技術(shù)提取人體動作的時空特征,當(dāng)存在遮擋或背景發(fā)生變化時依據(jù)該特征仍能夠?qū)崿F(xiàn)行走動作的檢測。NIEBLES等[11]提出了一種基于潛在主題模型的無監(jiān)督學(xué)習(xí)算法,并利用該算法實現(xiàn)KTH數(shù)據(jù)集、Weizmann數(shù)據(jù)集以及花樣滑冰動作集上人體動作的分類和定位。SHI等[12]利用半馬爾可夫模型進行動作的分割與識別,通過Walk-Bend-Draw數(shù)據(jù)集以及CMUMobo數(shù)據(jù)集進行方法驗證。REDDY等[13]提出了一種基于動作特征以及場景信息的動作識別方法,該方法能夠解決HMDB51數(shù)據(jù)集中的動作識別問題。GUO等[14]應(yīng)用基于時空特征的正則化的多任務(wù)學(xué)習(xí)方法,實現(xiàn)了TJU數(shù)據(jù)集的動作識別。

然而,裝配環(huán)境下連續(xù)的人體動作的分割與識別問題在文獻中尚未被討論過。裝配環(huán)境下連續(xù)的人體動作的分割與識別是一個具有挑戰(zhàn)性的問題,該問題具有以下幾個難點:①一段視頻中往往包含一連串的動作,由于連續(xù)動作之間沒有明顯的邊界,且動作執(zhí)行的速度會影響動作的持續(xù)時間,因此,無監(jiān)督的動作分割是非常困難的;②在裝配環(huán)境中光照條件以及圖像背景是不斷變化的;③人體的裝配動作與現(xiàn)實環(huán)境有密切的聯(lián)系,人體動作的種類不僅取決于人體動作本身的特征而且與環(huán)境中的物體有直接的聯(lián)系。

本文針對裝配作業(yè)的連續(xù)動作提出了一種有效的自動分割與識別方法,為解決第一個難點,該方法應(yīng)用基于內(nèi)容的動態(tài)關(guān)鍵幀提取技術(shù)實現(xiàn)連續(xù)視頻中動作的分割;為解決第二個難點,該方法一方面基于SIFT(scaleinvariantfeaturetransform)特征點匹配尋找目標(biāo)區(qū)域,另一方面應(yīng)用支持向量機(supportvectormachine,SVM)來構(gòu)建分類器進行特征向量分類,進而增強了動作識別算法的魯棒性;為解決第三個難點,該方法同時提取人手和工件的SIFT特征點,應(yīng)用特征點之間的位移向量表示人與環(huán)境的聯(lián)系。通過使用上述方法可以有效地完成裝配環(huán)境下連續(xù)動作的自動觀察、分解與記錄。

1 方法

在進行動作識別之前,應(yīng)首先對連續(xù)的動作進行分割,然后基于動作的靜態(tài)特征、動態(tài)特征、時空特征或描述性特征對各個動作進行分類。動作的動態(tài)特征、時空特征以及描述性特征需從連續(xù)的圖像幀中提取,而靜態(tài)特征可從單幀圖像中直接獲取。由于本文是基于靜態(tài)特征進行動作識別的,因此將單幀圖像作為處理對象。

本文的動作分割與識別過程如圖1所示。首先,利用基于內(nèi)容的動態(tài)關(guān)鍵幀提取算法提取視頻流中的關(guān)鍵幀,其作用是減少后續(xù)處理對象的數(shù)量,實現(xiàn)連續(xù)動作的自動分割;然后,提取關(guān)鍵幀中的感興趣區(qū)域(regionofinterest,ROIs)(包括人手和工件兩類區(qū)域)以及ROIs的SIFT特征點,并依據(jù)特征點計算ROIs之間的位移向量集,該位移向量集即為關(guān)鍵幀的特征向量;最后,基于支持向量機對樣本圖像的特征向量進行訓(xùn)練,得到特征向量分類器,接著將關(guān)鍵幀的特征向量輸入到分類器中識別出特征向量種類,并結(jié)合關(guān)鍵幀的時序特征以及特定場景下的判斷規(guī)則識別出動作所屬的動素類型。

圖1 動作識別的算法流程Fig.1 Algorithm flow of motion recognition

1.1 關(guān)鍵幀提取

關(guān)鍵幀提取的準(zhǔn)則是考慮幀之間的不相似性[15]。基于內(nèi)容的關(guān)鍵幀提取是依據(jù)每一幀的顏色、紋理等視覺信息的改變來提取關(guān)鍵幀[16],當(dāng)這些信息有顯著變化時,當(dāng)前幀即可為關(guān)鍵幀。關(guān)鍵幀提取技術(shù)減少了后續(xù)圖像處理計算幀的數(shù)量,從而確保了動作識別算法的時效性。

(1)

每個子塊的平均灰度值表示為

(2)

i=0,1,2,…,K1-1

j=0,1,2,…,K2-1

t=0,1,2,…,N-1

其中,i表示圖像子塊所在的行,j表示圖像子塊所在的列,N表示K1×K2個大小相同的圖像子塊數(shù),E(Ht(i,j))表示第i行、第j列圖像子塊的平均灰度值。因此,可以得到每一幀圖像的平均灰度值E(H)以及每個子塊灰度值的分散程度σ2(E(Ht(i,j))):

(3)

σ2(E(Ht(i,j)))=[E(Ht(i,j))-E(H)]2

(4)

任意一幀圖像s的特征向量為

Fs=(E(H1)s,σ2(E(H1(i,j)))s,E(H2)s,

σ2(E(H2(i,j)))s,…,E(HN)s,σ2(E(HN(i,j)))s)

(5)

令第p幀圖像和第q幀圖像的特征向量分別為Fp和Fq,則這兩個特征向量的歐氏距離為

(σ2(E(Ht(i,j)))p-σ2(E(Ht(i,j)))q)2]

(6)

式中,函數(shù)dis(Fp,Fq)表示特征向量Fp與Fq之間的歐氏距離;函數(shù)sqrt()表示一個數(shù)的平方根。

令相機采集的第一幀圖像為關(guān)鍵幀,并預(yù)先設(shè)定一個關(guān)鍵幀閾值T,按圖2所示的流程提取關(guān)鍵幀。首先,計算第一幀特征向量與它的后序幀特征向量間的歐氏距離,若某個后序幀的距離值大于T,則該后序幀即為關(guān)鍵幀,并從視頻流中提取出來。然后,計算當(dāng)前提取的關(guān)鍵幀特征向量與它的后序幀特征向量間的歐氏距離,若某個后序幀的距離值大于T,則提取新的關(guān)鍵幀。按此步驟依次進行,直到視頻的最后一幀結(jié)束。按照以上流程不僅可以得到視頻中的關(guān)鍵幀序列,而且可以實現(xiàn)連續(xù)動作的自動分割。

圖2 關(guān)鍵幀提取流程Fig.2 Key frame extraction process

1.2 提取感興趣區(qū)域

由于關(guān)鍵幀中的工件具有很好的形狀特征,故本文采用基于形狀的模板匹配算法提取工件區(qū)域。該算法將模板內(nèi)像素梯度向量的內(nèi)積總和作為相似性度量,并通過計算內(nèi)積總和最小值來確定最佳匹配位置。同時,為能夠進行較快的搜索,該算法采用圖像金字塔進行分層搜索,先從金字塔的較高層搜索,得到模板的大概位置,然后使用次高層的圖像在這個大概位置的周圍進行更準(zhǔn)確的搜索[17],依此進行,直到在圖像金字塔的最底層搜索到模板區(qū)域。

為提取人手區(qū)域,本文首先將關(guān)鍵幀從原來的色彩空間變換到Y(jié)CbCr色彩空間,基于膚色模型分割膚色區(qū)域與非膚色區(qū)域,獲得多個連通區(qū)域,再對連通區(qū)域進行閉運算填充空洞,最終依據(jù)形狀特征提取手部目標(biāo)區(qū)域并去除其他連通區(qū)域。提取流程如圖3所示。

1.3 提取ROIs的SIFT特征點

LOWE[18]提出一種優(yōu)化的SIFT特征算子,該算子具有尺度不變性、平移不變性、旋轉(zhuǎn)不變性、視角不變性、光照不變性,當(dāng)外部因素發(fā)生變化(背景變化,環(huán)境噪聲,遮擋)時該算法也能保持較好的匹配效果。因此,基于SIFT描述特征算子的匹配算法己經(jīng)被成功地應(yīng)用于物體識別、機器人定位、指紋及人臉識別等諸多領(lǐng)域[19]。

SIFT特征點提取和匹配算法包括如下3個步驟:

(1)提取模板圖像和關(guān)鍵幀圖像中ROIs的SIFT特征點。在高斯金字塔(DoG)尺度空間檢測局部極值點,檢測點如果和它同尺度的8個相鄰點以及上下相鄰尺度對應(yīng)的18個點共26個鄰域點比較是最大值或最小值,并且該檢測點具有穩(wěn)定性,那么該點就是圖像在該尺度下的SIFT特征點。由于DoG值對噪聲和邊緣較敏感,因此,在上面DoG尺度空間中檢測到的局部極值點還要經(jīng)過進一步的檢驗才能精確定位為特征點[20]。

(2)生成模板圖像SIFT特征點的描述子。首先在特征點鄰域窗口內(nèi)采樣,并計算鄰域像素的梯度直方圖(直方圖的峰值位置即為該特征點梯度的主方向),使算子具備旋轉(zhuǎn)不變性[21]。為了增強匹配的穩(wěn)健性,用4×4×8共128維向量表征特征點的描述子。

(a)原始圖片

(b)膚色區(qū)域

(c)人手區(qū)域圖3 人手區(qū)域提取流程Fig.3 The process of hand detection

(3)通過特征點匹配得到關(guān)鍵幀中的特征點集。通過計算模板圖像目標(biāo)特征點與關(guān)鍵幀目標(biāo)特征點的SIFT描述子之間的歐氏距離作為SIFT特征點的相似度度量,在關(guān)鍵幀目標(biāo)區(qū)域內(nèi)SIFT特征點中,找出與模板圖像目標(biāo)中某個特征點描述子歐氏距離最近和次近的兩個特征點。若最近的距離E與次近的距離F的比值d(E, F)小于閾值TE,F,則模板圖像目標(biāo)特征點與關(guān)鍵幀目標(biāo)特征點匹配,從而得到關(guān)鍵幀中目標(biāo)特征點的點集[22]。

1.4 動作識別

1.4.1 獲取圖像的特征向量

機械產(chǎn)品裝配作業(yè)中的動作識別實質(zhì)上就是識別該動作所屬的動素類型。一個簡單的裝配作業(yè)通常包含以下4類動素:伸手、握取、移物、裝配。在需要雙手同時操作的機械產(chǎn)品裝配作業(yè)中,ROIs一般由人的左右手和2個工件組成。通過SIFT特征點匹配可得到左手的特征點集M1(含有m1個特征點)、右手的特征點集M2(含有m2個特征點)、工件1的特征點集N1(含有n1個特征點)、工件2的特征點集N2(含有n2個特征點)。若用(A , B)表示特征點集A和特征點集B間的位移向量集,那么特征點集M1、M2、N1、N2之間兩兩組合,可得到(M1, M2)、(M1, N1)、(M1, N2)、(M1, N1)、(M2, N2)、(N1, N2)這6類位移向量集,這些位移向量集就是關(guān)鍵幀的特征向量,且每類位移向量集中都包含Ri( i = 1,2,…,6 )個位移向量,其中

Ri=Aj×Bk

(7)

式中,Aj為特征點集A的特征點個數(shù);Bk為特征點集B的特征點個數(shù)。

1.4.2 基于SVM構(gòu)建分類器

SVM是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來的一種新的機器學(xué)習(xí)方法,常用于解決小樣本、非線性及高維的模式識別問題。當(dāng)輸入向量維數(shù)較多時使用BP、RBF等人工神經(jīng)網(wǎng)絡(luò)進行模式識別,可能造成網(wǎng)絡(luò)規(guī)模過大、訓(xùn)練困難等問題,而對于SVM方法,它的計算量幾乎與維數(shù)無關(guān),因此SVM更適合處理輸入維數(shù)較大的問題?;赟VM構(gòu)建分類器的算法流程如下:

(1)樣本準(zhǔn)備。關(guān)鍵幀經(jīng)上述處理后可以得到位移向量集(A,B),該位移向量集為圖片的一個特征向量。在進行訓(xùn)練之前,由專家判定該特征向量的種類。如果兩個感興趣區(qū)域接近,則標(biāo)記特征向量的類別z={1};如果兩個目標(biāo)區(qū)域不接近,則標(biāo)記特征向量的類別z={0}。用T=(A,B)=((x1,y1),(x2,y2),…,(xm,ym))表示特征向量,其中(xi,yi)(i=1, 2,…,m)表示每一個位移向量的坐標(biāo)。將(T,z)作為分類器的輸入樣本。

(2) 構(gòu)建分類器。由位移向量集(A,B)在二維坐標(biāo)系中的分布(圖4)可知,該問題是線性不可分的。針對該問題,首先在低維空間中完成計算,然后通過滿足Mercer條件的核函數(shù)K(X,Y)將輸入空間映射到高維Hiltert特征空間,最終在高維特征空間中構(gòu)造出最優(yōu)分離超平面,使所有樣本點到超平面的距離最小,從而使樣本點在高維空間中變得線性可分。通過高斯核函數(shù)將樣本數(shù)據(jù)映射到高維空間,映射過程如圖4所示。

圖4 位移向量點的分布以及映射過程Fig.4 Distribution of displacement vector points andmapping process

令X=T=((x1,y1),(x2,y2),…,(xm,ym))且令Yk=z(k=1,2,…,K;K為一張圖片所包含特征向量的個數(shù)),則樣本集合表示為{(X1,Y1),(X2,Y2),…,(XK,YK)},其中樣本特征XK∈R2。將二維空間樣本點映射到特征空間得到非線性判別函數(shù):

(8)

f′(X)|≥1-ξkk=1,2,…,K

(9)

其中,ξk為松弛變量,ξk≥0,它們用于度量一個數(shù)據(jù)點對線性可分理想條件的偏離程度。當(dāng)0<ξk≤1時,數(shù)據(jù)點落入分離區(qū)域的內(nèi)部,且在分類超平面的正確一側(cè);當(dāng)ξk>1時,數(shù)據(jù)點進入分類超平面錯誤一側(cè);當(dāng)ξk=0時,相應(yīng)的樣本點滿足f′(X)|=1,表明該樣本點離超平面最近,且稱這樣的樣本點的特征向量為支持向量。由于f′(X)|≥1-ξk與Yk(|f′(X)|)≥1-ξk等價,所以最優(yōu)分類面的問題就可以轉(zhuǎn)化為約束條件下最小化關(guān)于wTw和松弛變量ξk的代價函數(shù)問題。代價函數(shù)如下所示:

(10)

式中,C是使用者選定的正參數(shù),它控制對錯誤分類樣本的懲罰程度,稱為懲罰因子。

采用Lagrange系數(shù)方法解決約束最優(yōu)問題。Lagrange函數(shù)變?yōu)?/p>

(11)

(12)

1.4.3 動作識別

對于簡單的機械產(chǎn)品裝配作業(yè),可以將位移向量分為三類:人手相對于工件的位移向量(M,N)、人手相對于人手的位移向量(M,M)、工件相對于工件的位移向量(N,N)。按照上述方法由位移向量集(M,N)、(M,M)、(N,N)訓(xùn)練出三類分類器F1(X)、F2(X)、F3(X)。將關(guān)鍵幀的特征向量輸入分類器,按圖5所示的流程識別出關(guān)鍵幀中動作的動素類型。圖5中,第Ⅰ類位移向量表示手與工件靠近,第Ⅱ類位移向量表示手與工件遠離;第Ⅲ類位移向量表示手與手靠近,第Ⅳ類位移向量表示手與手遠離;第Ⅴ類位移向量表示工件與工件靠近,第Ⅵ類位移向量表示工件與工件遠離。

圖5 動素類型識別流程Fig.5 The process of therblig recognition

首先,將不同種類的特征向量輸入到不同的分類器中,識別出位移向量的種類。然后,依據(jù)機械產(chǎn)品裝配場景下的判定規(guī)則和關(guān)鍵幀的時序特征識別出動素類型。若關(guān)鍵幀中包含第Ⅱ類位移向量、第Ⅳ類位移向量、第Ⅵ類位移向量,則該關(guān)鍵幀中的動素類型為伸手;若關(guān)鍵幀中包含第Ⅰ類位移向量、第Ⅳ類位移向量、第Ⅵ類位移向量,則該關(guān)鍵幀中的動素類型為握取或移物;若關(guān)鍵幀中包含第Ⅰ類位移向量、第Ⅲ類位移向量、第Ⅴ類位移向量,則該關(guān)鍵幀中的動素類型為裝配。包含握取動素的圖像幀和包含移物動素的圖像幀具有不同的視覺信息,因此都能作為關(guān)鍵幀被提取出來。由于視頻流中的圖像幀是按時間的先后排列的,所以包含握取動素的關(guān)鍵幀一定在包含移物動素的關(guān)鍵幀之前。因此,按照關(guān)鍵幀的時序特征即可將握取和移物兩種動素區(qū)分開來。

2 實驗過程及結(jié)果分析

本文通過模擬真實的螺栓裝配過程來驗證本文方法的可行性以及魯棒性。實驗框架包括操作者、工件以及機器視覺系統(tǒng),其中工件包括螺栓(M8×15)和螺母(M8×1.5);機器視覺系統(tǒng)包括光源(DH, LER2-90S W2)、CCD彩色相機(DH, SV2000GM/C 1/1.8″ 1628 × 1236 )以及鏡頭(DH, model M3Z1228C-MP)。裝配線上的原型系統(tǒng)如圖6所示。本文利用HALCON進行圖像處理,利用MATLAB進行分類器訓(xùn)練以及動作識別。實驗過程如下:①拍攝左手握取螺栓、右手握取螺母的樣本圖片各一張;②拍攝雙手裝配螺栓的樣本圖片一張;③拍攝操作者裝配螺栓的視頻,且拍攝過程中光照強度不斷變化,視頻中包含500個動作周期,每個動作周期都包含伸手、握取、移物、裝配4個動素。將50個動作周期作為一個大周期,第一個大周期的光照強度為500 lx,第二個大周期的光照強度為300 lx,按照以上規(guī)律,每隔1個大周期光照強度交替變化。

圖6 原型系統(tǒng)Fig.6 Prototype system

2.1 提取樣本圖片的特征向量

在進行樣本圖片特征提取之前,應(yīng)該對樣本圖片進行一系列的預(yù)處理。首先,利用高斯濾波器消除圖片的噪聲和光照影響,并將RGB色彩空間轉(zhuǎn)化成YCbCr色彩空間;然后在Cr分量下設(shè)定膚色閾值范圍為140~160,通過閾值分割獲得多個連通區(qū)域,再對連通區(qū)域進行閉運算填充空洞;最后,提取區(qū)域面積大于35000的區(qū)域,該連通區(qū)域即為人手區(qū)域。在獲取人手區(qū)域后,將經(jīng)過去噪處理的樣本圖片與創(chuàng)建好的螺栓模板以及螺母模板進行模板匹配,得到螺栓和螺母所在區(qū)域。樣本圖片經(jīng)過預(yù)處理得到ROIs后,提取ROIs的SIFT特征點,其中左手和右手各有58個特征點,螺栓和螺母各有21個特征點。依據(jù)SIFT特征點的坐標(biāo),將人手作為起點計算人手到工件的位移向量,將左手作為起點計算雙手之間的位移向量,將螺栓作為起點計算工件之間的位移向量,得到樣本圖片的特征向量。

2.2 動作識別

首先提取視頻流中的關(guān)鍵幀,圖7為關(guān)鍵幀的4個圖例。由圖7可知,關(guān)鍵幀提取技術(shù)在實現(xiàn)關(guān)鍵幀提取的同時也對動作進行了分割。然后,基于樣本SIFT特征點獲取關(guān)鍵幀ROIs的特征點,并計算特征點集之間的位移向量,進而得到(M1,M2)、(M1,N1)、(M1,N2)、(M1,N1)、(M2,N2)、(N1,N2)6類位移向量集,且(M1,M2)包含3364個位移向量,(M1,N1)、(M1,N2)、(M1,N1)、(M2,N2)包含1218個位移向量,(N1,N2)包含441個位移向量。圖7中4幅關(guān)鍵幀的特征向量如表1~表4所示。

圖7 關(guān)鍵幀的4個圖例Fig.7 Four legends of key frames

當(dāng)關(guān)鍵幀提取相關(guān)參數(shù)K1=16、K2=12、T=14.14時,從包含500個動作周期的視頻中可提取2524個關(guān)鍵幀。在進行分類器訓(xùn)練與驗證之前,先由專家識別出每一個關(guān)鍵幀的動作所屬的動素類型。本文選定下面的高斯核函數(shù)來構(gòu)建支持向量機模型:

exp(-γ|X-Xk|2)

(13)

利用交叉驗證方式選擇精度最高的參數(shù)對(C,γ)作為分類器模型的參數(shù),并將前1516個關(guān)鍵幀(包含300個運動周期)作為訓(xùn)練集,將余下的1008個關(guān)鍵幀(包含200個運動周期)作為驗證集。每個樣本包含3類位移向量(M,N)、(M,M)、(N,N),它們分別用于分類器F1(X)、F2(X)、F3(X)的參數(shù)選擇。交叉驗證優(yōu)化后得到F1(X)的最優(yōu)參數(shù)為:C1=2.0,γ1=0.031 25;F2(X)的最優(yōu)參數(shù)為:C2=3.5,γ2=0.055 56;F3(X)的最優(yōu)參數(shù)為:C3=5.0,γ3=0.125。由訓(xùn)練得到的模型來對全部的2524個樣本進行測試,測試結(jié)果如圖8所示,識別準(zhǔn)確率為96%。以上過程通過MATLAB程序?qū)崿F(xiàn)。

表1 關(guān)鍵幀A的特征向量

表2 關(guān)鍵幀B的特征向量

表3 關(guān)鍵幀C的特征向量

表4 關(guān)鍵幀D的特征向量

圖8 動作分類的混合矩陣Fig.8 Confusion matrix of motion categories

2.3 動作記錄

由于每個動作周期都包含伸手、握取、移物、裝配4個動素,因此500個動作周期應(yīng)包含2000個動素,由此可見,視頻的關(guān)鍵幀的數(shù)目大于動素的數(shù)目。因此,視頻中相鄰的關(guān)鍵幀可能屬于同一個動素,為了避免動素的重復(fù)記錄,當(dāng)相鄰關(guān)鍵幀動素類型不同時,記錄兩個動素,當(dāng)相鄰關(guān)鍵幀的動素類型相同時,只記錄第一個動素。將基于本文方法識別出的動素類型與實際的動素類型相比較,前4個周期的比較結(jié)果如圖9所示。

由圖9可知,基于該方法能夠準(zhǔn)確地識別出動作所屬的動素類型,但是依據(jù)該方法得到的動素持續(xù)時間與實際觀測得到的動素持續(xù)時間之間存在微小的差異。產(chǎn)生這種現(xiàn)象的原因在于:該方法的識別對象是關(guān)鍵幀,而不是視頻流中的每一幀。當(dāng)對視頻流中的每一幀圖像都進行識別時,不會出現(xiàn)圖9中的時間差異,但逐個識別所有幀就會大大降低整體算法的時效性,同時也會產(chǎn)生大量的冗余數(shù)據(jù)。因此,當(dāng)對動作分析的時間精度要求不高時,把關(guān)鍵幀作為動作識別的對象是合理的。

3 結(jié)論

(a)周期1

(b)周期2

(c)周期3

(d)周期4圖9 前4個周期的對比結(jié)果Fig.9 The comparison results of the first four cycles

本文提出了一種新的基于機器視覺的裝配動作自動分割與識別方法。實驗結(jié)果表明該方法能夠準(zhǔn)確地識別出動素所屬類型,并記錄每個動素以及每個動素持續(xù)的時間。該方法具有以下特點:①基于ROIs的SIFT特征點建立動作與環(huán)境的聯(lián)系;②為提高方法的時效性,一方面,利用關(guān)鍵幀提取技術(shù)減少后續(xù)待處理圖像的數(shù)量,另一方面,提取ROIs減少后續(xù)待處理像素的數(shù)量;③基于SVM構(gòu)建動作分類器,解決了由于輸入維數(shù)較大造成的訓(xùn)練困難等問題;④該方法不僅實現(xiàn)了動作的自動觀察、分解和記錄,而且減少了動作分析員的工作量,提高了動作分析的效率。該方法還可以推廣到其他人機交互識別領(lǐng)域。

[1]HUANGC,NOFSY.HandbookofIndustrialEngineering:TechnologyandOperationsManagement,ThirdEdition[J].QualityProgress, 2007(May):1041-1110.

[2]FLOREANR,KOTAPATIS,KUTIJL,etal.CostAnalysisofContinuousVersusIntermittentInfusionofPiperacillin-tazobactam:aTime-motionStudy[J].AmericanJournalofHealth-systemPharmacyAJHP:OfficialJournaloftheAmericanSocietyofHealth-systemPharmacists, 2003, 60(22):75-83.

[3]LAOW,HANJ,DeWITHPHN.AutomaticVideo-basedHumanMotionAnalyzerforConsumerSurveillanceSystem[J].IEEETransactionsonConsumerElectronics, 2009, 55(2):591-598.

[4]POPPER.ASurveyonVision-basedHumanActionRecognition[J].Image&VisionComputing, 2010, 28(6):976-990.

[5]TURAGAP,CHELLAPPAR,SUBRAHMANIANVS,etal.MachineRecognitionofHumanActivities:aSurvey[J].IEEETransactionsonCircuits&SystemsforVideoTechnology, 2008, 18(11):1473 - 1488.

[6]JALALA,UDDINMZ,KIMTS.DepthVideo-basedHumanActivityRecognitionSystemUsingTranslationandScalingInvariantFeaturesforLifeLoggingatSmartHome[J].IEEETransactionsonConsumerElectronics, 2012, 58(3):863-871.

[7]CAMPBELLLW,BECKERDA,AZARBAYEJANIA,etal.InvariantFeaturesfor3-DGestureRecognition[C]//InternationalConferenceonAutomaticFaceandGestureRecognition.NewYork:IEEE, 1996:157-162.

[8]DAVISJW,BOBICKAF.TheRepresentationandRecognitionofActionUsingTemporalTemplates[J].Proc.ofCVPR, 2000, 23(3):928-934.

[9]STAUFFERC,GRIMSONWEL.LearningPatternsofActivityUsingReal-timeTracking[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2000, 22(8):747-757.

[10]LAPTEVI.OnSpace-timeInterestPoints[J].InternationalJournalofComputerVision, 2005, 64(2):107-123.

[11]NIEBLESJC,WANGH,LIFF.UnsupervisedLearningofHumanActionCategoriesUsingSpatial-TemporalWords[J].InternationalJournalofComputerVision, 2008, 79(3):299-318.

[12]SHIQ,CHENGL,WANGL,etal.HumanActionSegmentationandRecognitionUsingDiscriminativeSemi-MarkovModels[J].InternationalJournalofComputerVision, 2011, 93(1):22-32.

[13]REDDYKK,SHAHM.Recognizing50HumanActionCategoriesofWebVideos[J].MachineVision&Applications, 2013, 24(5):971-981.

[14]GUOW,CHENG.HumanActionRecognitionviaMulti-taskLearningBaseonSpatial-temporalFeature[J].InformationSciences, 2015, 320:418-428.

[15]CHATZIGIORGAKIM,SKODRASAN.Real-timeKeyframeExtractiontowardsVideoContentIdentification[C]//InternationalConferenceonDigitalSignalProcessing.Piscataway,NI:IEEEPress, 2009:1-6.

[16]NAVEEDE,TAYYABBT,SUNGWookBaik.AdaptiveKeyFrameExtractionforVideoSummarizationUsinganAggregationMechanism[J].JournalofVisualCommunicationandImageRepresentation, 2012,23(7):1031-1040.

[17]TANIMOTOSL.TemplateMatchinginPyramids[J].ComputerGraphics&ImageProcessing, 1981, 16(4):356-369.

[18]LOWEDG.DistinctiveImageFeaturesfromScale-invariantKeypoints[J].InternationalJournalofComputerVision, 2004, 60(2):91-110.

[19]LIY,SNAVELYN,HUTTENLOCHERDP.LocationRecognitionUsingPrioritizedFeatureMatching[M]//KostasDaniilidis,PetrosMaragos,NikosParagios.ComputerVision-ECCV2010.Berlin:Springer, 2010:791-804.

[20]APROVITOLAA,GALLOL.EdgeandJunctionDetectionImprovementUsingtheCannyAlgorithmwithaFourthOrderAccurateDerivativeFilter[C]// 2014TenthInternationalConferenceonSignal-ImageTechnology&Internet-BasedSystems(SITIS).WashingtonDC:IEEEComputerSociety, 2014:104-111.

[21]MAYM,TURNERM,MORRIST.AnalysingFalsePositivesand3DStructuretoCreateIntelligentThresholdingandWeightingFunctionsforSIFTFeatures[C]//PacificRimConferenceonAdvancesinImageandVideoTechnology.Heidelberg:Springer-Verlag, 2011:190-201.

[22]LIB,YUS,LUQ.AnImprovedK-nearest-neighborAlgorithmforTextCategorization[J].ExpertSystemswithApplicationsanInternationalJournal, 2012, 39(1):1503-1509.

(編輯 蘇衛(wèi)國)

Automatic Segmentations and Recognitions of Assembly Motions Based on Machine Vision

LIU Mingzhou JIANG Qiannan GE Maogen

School of Mechanical Engineering,Hefei University of Technology,Hefei,230009

The observations, decompositions and records of motions were usually accomplished through artificial means during the processes of motion analyses. This method had a heavy workload, and the efficiency was very low. A novel method was put forward herein to segment and recognize continuous human motions automatically based on machine vision for mechanical assembly operations. First, the content-based dynamic key frame extraction technology was utilized to extract key frames from video stream, and then automatic segmentations of actions were implemented. Further, the SIFT feature points of the region of interested were extracted, on the basis of which the characteristic vectors of the key frame were derived. Finally, a classifier was constructed based on SVM to classify feature vectors, and the motion types were identified according to the classification results. Experimental results demonstrate that the proposed method achieves correct recognition rates of 96% on sample videos which were captured on the assembly lines.

segmentation and recognition of motion; key frame extraction; scale invariant feature transform(SIFT) feature points; support vector machine(SVM)

2016-04-21

國家自然科學(xué)基金資助項目(51375134)

TP391.4

10.3969/j.issn.1004-132X.2017.11.015

劉明周,男,1968年生。合肥工業(yè)大學(xué)機械工程學(xué)院教授、博士研究生導(dǎo)師。主要研究方向為制造過程監(jiān)測與控制、機器視覺等。蔣倩男,女,1992年生。合肥工業(yè)大學(xué)機械工程學(xué)院博士研究生。E-mail: 1191758741@qq.com。葛茂根,男,1992年生。合肥工業(yè)大學(xué)機械工程學(xué)院博士研究生。

猜你喜歡
關(guān)鍵幀特征向量分類器
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
一類特殊矩陣特征向量的求法
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于改進關(guān)鍵幀選擇的RGB-D SLAM算法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
基于聚散熵及運動目標(biāo)檢測的監(jiān)控視頻關(guān)鍵幀提取
安图县| 密云县| 安陆市| 梅河口市| 南岸区| 紫云| 黔西县| 临邑县| 乌恰县| 遂川县| 乃东县| 彭水| 杭锦后旗| 广元市| 吐鲁番市| 栾川县| 平远县| 自贡市| 松潘县| 洱源县| 镇巴县| 新邵县| 商河县| 阿鲁科尔沁旗| 临清市| 定襄县| 云龙县| 桐城市| 麻阳| 沂源县| 迭部县| 神农架林区| 庆元县| 天镇县| 屯昌县| 临安市| 图木舒克市| 孟津县| 娄底市| 海南省| 汉中市|