国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于3D卷積神經(jīng)網(wǎng)絡(luò)的裝配動(dòng)作識(shí)別

2019-09-05 08:34:30王天諾陳成軍李東年
關(guān)鍵詞:準(zhǔn)確率卷積神經(jīng)網(wǎng)絡(luò)

王天諾,陳成軍,李東年,洪 軍

(1.青島理工大學(xué) 機(jī)械與汽車工程學(xué)院,山東 青島 266000;2.西安交通大學(xué) 機(jī)械工程學(xué)院,西安 710049)

0 引言

近年來(lái),人工智能技術(shù)飛速發(fā)展,并逐步向傳統(tǒng)制造領(lǐng)域滲透以提高制造的智能化程度。利用機(jī)器視覺技術(shù)對(duì)裝配過程進(jìn)行監(jiān)測(cè),可以減少人力成本、提高裝配效率、保證裝配質(zhì)量。尤其在大規(guī)模定制生產(chǎn)中,為了滿足客戶的多樣性需求,工廠需要及時(shí)重組生產(chǎn)線生產(chǎn)不同產(chǎn)品。在這種多變的生產(chǎn)環(huán)境下,往往會(huì)因?yàn)楣と诉z忘操作步驟或操作不夠規(guī)范,影響裝配質(zhì)量。因此,對(duì)工人的裝配動(dòng)作進(jìn)行監(jiān)測(cè),防止裝配流程缺少關(guān)鍵裝配工藝步驟成為未來(lái)大批量定制生產(chǎn)任務(wù)亟待解決的問題之一。

現(xiàn)有的人體動(dòng)作識(shí)別方法主要有基于特征提取的動(dòng)作識(shí)別方法和基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法。傳統(tǒng)基于特征提取的動(dòng)作識(shí)別方法主要靠一些經(jīng)典的人為設(shè)計(jì)特征來(lái)提取運(yùn)動(dòng)特征,再由分類器分類或進(jìn)行模板匹配。如Bobick等[1]利用運(yùn)動(dòng)能量圖對(duì)動(dòng)作特征進(jìn)行描述并與模板匹配分類;Weinland等[2]提出了運(yùn)動(dòng)歷史圖像算法用以識(shí)別基本的人類動(dòng)作;Yang等[3]利用HOG特征描述人體特征并用SVM分類;Low[4]提出的具有尺度不變性的SIFT算法用來(lái)描述影像中局部性特征,在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用廣泛;Chaudhry等[5]通過對(duì)HOOF時(shí)間序列進(jìn)行分類來(lái)識(shí)別人類行為;Schuldt[6]提出時(shí)空興趣點(diǎn)表示視頻特征,并用SVM進(jìn)行分類;Wang等[19]提出的IDT算法是目前識(shí)別效果較好的人工設(shè)計(jì)特征。人工設(shè)計(jì)特征數(shù)據(jù)預(yù)處理復(fù)雜,而深度學(xué)習(xí)模型具有自適應(yīng)學(xué)習(xí)特征、數(shù)據(jù)預(yù)處理簡(jiǎn)單等優(yōu)點(diǎn)。

目前基于深度學(xué)習(xí)的動(dòng)作識(shí)別有著廣泛的研究。Simonyan等[7]提出雙流卷積神經(jīng)網(wǎng)絡(luò),分別提取時(shí)間和空間特征并進(jìn)行融合分類;Tran[8]提出的基于3D卷積[16]的C3D模型同時(shí)學(xué)習(xí)時(shí)空特征,該模型訓(xùn)練速度最快;Wang等[9]提出了TSN網(wǎng)絡(luò),結(jié)合了稀疏時(shí)間采樣和視頻級(jí)別的監(jiān)督可以高效的學(xué)習(xí)特征。 Donahue[10]提出了按時(shí)間順序提取的CNN特征作為L(zhǎng)STM網(wǎng)絡(luò)輸入的長(zhǎng)時(shí)遞歸卷積神經(jīng)網(wǎng)絡(luò)。

在工業(yè)應(yīng)用方面,Moutarde[11]提出的HMM算法研究了人機(jī)協(xié)作任務(wù),使機(jī)器人能夠預(yù)測(cè)人體動(dòng)作并作出反應(yīng);Kim[12]提出的用于視覺的船體裝配監(jiān)控系統(tǒng),實(shí)現(xiàn)了分割、識(shí)別和任務(wù)估計(jì),以協(xié)作工作人員對(duì)裝配過程進(jìn)行管理;Waechter[13]研究了基于視覺的增強(qiáng)現(xiàn)實(shí)應(yīng)用。Oh[14]采用隱馬爾科夫模型實(shí)現(xiàn)機(jī)器人對(duì)人體上身的跟蹤與識(shí)別。Tao[15]利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了基于IMU和SEMG信號(hào)的智能制造中工人活動(dòng)識(shí)別。

當(dāng)前對(duì)裝配領(lǐng)域動(dòng)作識(shí)別研究較少,且目前為止還沒有公用的工業(yè)領(lǐng)域裝配動(dòng)作數(shù)據(jù)集可用于裝配動(dòng)作的識(shí)別研究。工業(yè)環(huán)境下的裝配動(dòng)作主要為上體動(dòng)作,重復(fù)性較強(qiáng),且通常使用相應(yīng)裝配工具。另外,工業(yè)領(lǐng)域的動(dòng)作識(shí)別更加追求效率。傳統(tǒng)的手工提取特征等方法由于預(yù)處理麻煩,不適合工業(yè)領(lǐng)域的應(yīng)用。常見的幾種深度學(xué)習(xí)模型如基于3D卷積的C3D模型[8]、基于LSTM的LRCN模型[10]和Two-Stream模型[7]在公開數(shù)據(jù)集UCF-101上的識(shí)別準(zhǔn)確率相差不多,但在速度上C3D模型最快,達(dá)到了313fps/s,而Two-Stream模型為1.2fps/s。主要是由于C3D模型的預(yù)處理和網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單。而Two-Steam模型由于需要提取光流因此速度不佳,LRCN模型由于RNN難以并行的特性,速度也比較慢。因此,3D卷積神經(jīng)網(wǎng)絡(luò)具有訓(xùn)練速度快、數(shù)據(jù)處理簡(jiǎn)單、識(shí)別準(zhǔn)確率高等優(yōu)點(diǎn),更符合工業(yè)現(xiàn)場(chǎng)應(yīng)用。因此,本文首先建立了裝配動(dòng)作數(shù)據(jù)集,并利用3D卷積神經(jīng)網(wǎng)絡(luò)對(duì)該數(shù)據(jù)集進(jìn)行特征提取和分類,以識(shí)別裝配動(dòng)作。

1 裝配動(dòng)作識(shí)別研究流程

本研究流程主要分為裝配動(dòng)作數(shù)據(jù)集建立及預(yù)處理、3D卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練、結(jié)果分析三部分。具體步驟如圖1所示。

圖1 研究流程

1.1 裝配動(dòng)作數(shù)據(jù)集建立

裝配動(dòng)作數(shù)據(jù)集的建立:裝配動(dòng)作與生活中常見跑、跳、蹲等人體動(dòng)作不同。裝配動(dòng)作主要為上體動(dòng)作,重復(fù)性較強(qiáng),且通常使用相應(yīng)裝配工具,很多裝配動(dòng)作相似但是所用工具不同。因此,對(duì)裝配動(dòng)作中裝配工具的識(shí)別也會(huì)對(duì)神經(jīng)網(wǎng)絡(luò)識(shí)別裝配動(dòng)作起到一定的幫助作用。為了更多的保留工具信息,采用了RBG相機(jī)錄制了包含錘、鋸、噴、刷等9類常見裝配動(dòng)作視頻,每類動(dòng)作都由12個(gè)實(shí)驗(yàn)人員錄制而成。為了保證動(dòng)作的泛化特性,每個(gè)裝配動(dòng)作對(duì)應(yīng)的工具都有兩到三種,由實(shí)驗(yàn)人員自行選擇。在錄制視頻時(shí),只告訴了實(shí)驗(yàn)人員需要做哪些裝配動(dòng)作,具體每個(gè)動(dòng)作怎么做由實(shí)驗(yàn)人員按照自己的理解來(lái)做。

視頻剪輯:為了擴(kuò)充數(shù)據(jù)集,將每個(gè)人的每個(gè)裝配動(dòng)作裁剪成了3段左右視頻,每段視頻3~5s,視頻幀率為25幀/s。經(jīng)剪輯后建立了包括307段數(shù)據(jù)樣本的裝配動(dòng)作數(shù)據(jù)集。剪輯后的視頻按照動(dòng)作分類存放在9個(gè)文件夾中,形成裝配動(dòng)作分類標(biāo)簽,每一個(gè)動(dòng)作分類都包含12個(gè)實(shí)驗(yàn)人員的共計(jì)35段左右視頻數(shù)據(jù)樣本。

數(shù)據(jù)預(yù)處理:每一個(gè)視頻樣本每秒提取出10幀圖像,并保存在一個(gè)子目錄下。訓(xùn)練時(shí)將從每個(gè)子目錄下抽取16幀圖像作為一個(gè)樣本。每個(gè)分類文件夾下包含35個(gè)左右的子文件夾。以文件夾為單位,將整個(gè)數(shù)據(jù)集隨機(jī)抽取四分之三作為訓(xùn)練集,訓(xùn)練集中的20%作為驗(yàn)證集,另外的四分之一作為測(cè)試集。圖2為部分視頻樣本提取的圖像幀。

圖2 部分?jǐn)?shù)據(jù)樣本

1.2 3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

3D卷積神經(jīng)網(wǎng)絡(luò)增加了時(shí)間維度,可以更好的處理時(shí)間信息。并且3D卷積神經(jīng)網(wǎng)絡(luò)的卷積核、卷積層和池化層的輸入輸出都是3D結(jié)構(gòu)。本文將連續(xù)的視頻幀形成的3D數(shù)據(jù)結(jié)構(gòu)傳入3D卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將卷積層提取的特征傳給softmax函數(shù)進(jìn)行分類。整個(gè)3D卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程如圖3所示。

圖3 訓(xùn)練流程

3D卷積層:每一個(gè)卷積層都是利用卷積核對(duì)輸入或前一層的特征圖提取特征并添加偏置項(xiàng),然后再經(jīng)非線性ReLu激活函數(shù)[17]進(jìn)行激活得到。假設(shè)輸入3D卷積層的數(shù)據(jù)大小為a1×a2×a3,channel數(shù)為c,3D卷積核大小為f×f×f,即卷積核維度為f×f×f×c。若3D卷積核個(gè)數(shù)為n,則經(jīng)過卷積操作后得的到輸出N為:

N=(a1-f+1)×(a2-f+1)×(a3-f+1)×n

(1)

3D池化層:池化層又叫下采樣層,常見的兩種池化方式為最大池化和均值池化。這里采取最大池化。池化層可以有效的減少特征數(shù)量,降低計(jì)算量,同時(shí)還可以保留局部特征。卷積層為池化層的輸入。最大池化操作就是取卷積立方體局部最大值,隨后得到更加抽象的輸出。

全連接層:在全連接層為了防止過擬合,采取dropout進(jìn)行處理,隨機(jī)隱藏一部分節(jié)點(diǎn)。并引入L2正則化操作。L2正則化公式如下:

(2)

輸出層:第二個(gè)全連接層連接了Softmax函數(shù)進(jìn)行輸出分類。Softmax函數(shù)主要用于處理多分類問題,可將輸出映射成(0~1)中的值,用來(lái)表示每個(gè)類別的概率值,所有概率相加和為1。其定義函數(shù)如下:

(3)

其中,Vi表示每個(gè)輸出分類的得分,C為總的分類個(gè)數(shù)。

2 實(shí)驗(yàn)及結(jié)果分析

本實(shí)驗(yàn)所用系統(tǒng)為Ubuntu18.04(64位)。顯卡為NVIDIA Quadro M4000,CPU因特爾E5-2630。優(yōu)化器選用Adam[18]。初始學(xué)習(xí)率為0.0001。

2.1 模型及深度分析

針對(duì)不同的識(shí)別任務(wù)選取合適的網(wǎng)絡(luò)模型才能取得良好的效果。且對(duì)于同一個(gè)模型,不同的網(wǎng)絡(luò)深度、不同的層級(jí)結(jié)構(gòu)都會(huì)對(duì)訓(xùn)練速度及訓(xùn)練精度造成影響。本文控制其它變量不變,在建立的數(shù)據(jù)集上分別對(duì)比了含有4~8個(gè)卷積層的網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練集準(zhǔn)確率、驗(yàn)證集準(zhǔn)確率以及測(cè)試集準(zhǔn)確率。對(duì)比結(jié)果如圖4所示。

圖4 網(wǎng)絡(luò)深度對(duì)比

實(shí)驗(yàn)結(jié)果表明,在其它條件相同的情況下。含4個(gè)和5個(gè)卷積層的3D卷積神經(jīng)網(wǎng)絡(luò)在驗(yàn)證集和測(cè)試集上表現(xiàn)的并不好,出現(xiàn)了欠擬合現(xiàn)象。而在含有7個(gè)和8個(gè)卷積層深度的3D卷積神經(jīng)網(wǎng)絡(luò)上,驗(yàn)證集和測(cè)試集都與訓(xùn)練集的準(zhǔn)確率有較大偏差,表現(xiàn)出了過擬合現(xiàn)象。而含6個(gè)卷積層深度的3D卷積神經(jīng)網(wǎng)絡(luò)模型取得了較好的效果,在測(cè)試集上達(dá)到了88.5%的準(zhǔn)確率。因此,本研究的具體網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

表1 網(wǎng)絡(luò)參數(shù)

網(wǎng)絡(luò)的輸入為從視頻中抽取的16幀序列圖像,每張圖像的尺寸都被裁剪成112×112固定尺寸的3通道RGB圖像。所有的卷積層均采用尺寸為[3,3,3]的3D卷積核[8]進(jìn)行卷積操作,為了更好的保留圖像信息,所有卷積核的步長(zhǎng)均為[1,1,1]。從第一卷積層到第六卷積層分別有32、62、128、128、256、512個(gè)卷積核并得到相應(yīng)數(shù)量的特征圖。

2.2 動(dòng)作識(shí)別結(jié)果分析

為了進(jìn)一步研究本文模型對(duì)每一類裝配動(dòng)作的識(shí)別準(zhǔn)確率,又利用本文設(shè)計(jì)的模型對(duì)每一類裝配動(dòng)作進(jìn)行了測(cè)試,對(duì)比結(jié)果如下圖所示:

圖5 動(dòng)作識(shí)別準(zhǔn)確率

結(jié)果表明,本文構(gòu)建的3D卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)大部分裝配動(dòng)作都達(dá)到了很好的識(shí)別率。所有動(dòng)作的識(shí)別準(zhǔn)確率進(jìn)行簡(jiǎn)單的取平均值,為88.3%,符合本文在測(cè)試集上得到的準(zhǔn)確率。再一次驗(yàn)證了模型的可信度。但是本文模型對(duì)錘這一類動(dòng)作的識(shí)別準(zhǔn)確率只有62.5%。分析發(fā)現(xiàn),對(duì)錘這一動(dòng)作識(shí)別率低主要原因是數(shù)據(jù)集的原因。由于實(shí)驗(yàn)人員所做的裝配動(dòng)作的持續(xù)時(shí)間不一致,對(duì)錘這一動(dòng)作裁剪出的視頻樣本最少,只有30個(gè)視頻樣本。且部分?jǐn)?shù)據(jù)樣本中實(shí)驗(yàn)人員的手部動(dòng)作超出了視頻范圍。基于這兩點(diǎn)原因,使得神經(jīng)網(wǎng)絡(luò)不能很好的學(xué)習(xí)到錘這類動(dòng)作的特征。由此可見,數(shù)據(jù)集的好壞對(duì)3D卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度起到至關(guān)重要的作用。

3 結(jié)束語(yǔ)

本文研究了基于3D卷積神經(jīng)網(wǎng)絡(luò)的裝配動(dòng)作識(shí)別方法。從裝配動(dòng)作數(shù)據(jù)集的建立、網(wǎng)絡(luò)模型的選取與訓(xùn)練、網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化與調(diào)整幾方面進(jìn)行了實(shí)驗(yàn)研究。實(shí)驗(yàn)結(jié)果表明,本文對(duì)裝配動(dòng)作的研究有一定了魯棒性。識(shí)別準(zhǔn)確率達(dá)到了88.5%。本文成果對(duì)大批量定制生產(chǎn)中裝配動(dòng)作的識(shí)別監(jiān)測(cè)和裝配質(zhì)量監(jiān)測(cè)有一定的參考價(jià)值。

猜你喜歡
準(zhǔn)確率卷積神經(jīng)網(wǎng)絡(luò)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
普兰店市| 寻乌县| 湖口县| 新蔡县| 西丰县| 拉萨市| 黑山县| 棋牌| 临沧市| 肥城市| 丰县| 皋兰县| 成安县| 保靖县| 达拉特旗| 炉霍县| 班玛县| 洛隆县| 海宁市| 信宜市| 塔城市| 英超| 卢龙县| 桃园市| 竹北市| 双辽市| 兴隆县| 洛南县| 广安市| 泗水县| 河北省| 子长县| 六枝特区| 观塘区| 遂溪县| 侯马市| 潜江市| 百色市| 三亚市| 饶平县| 峨眉山市|