趙希聰,黃凱,陳成軍,李東年
(青島理工大學(xué)機(jī)械與汽車(chē)工程學(xué)院 山東青島 266520)
裝配動(dòng)作識(shí)別對(duì)于手動(dòng)裝配監(jiān)控、人機(jī)協(xié)作和裝配操作的人體工程學(xué)分析具有重要意義??紤]到用戶(hù)對(duì)產(chǎn)品多樣化需求的不斷增長(zhǎng),大規(guī)模定制已成為制造業(yè)的趨勢(shì)。在大規(guī)模定制的裝配過(guò)程中,存在各種具有不同結(jié)構(gòu)型號(hào)的個(gè)性化產(chǎn)品,裝配過(guò)程中一旦缺少組裝步驟甚至工人的不規(guī)范操作都會(huì)對(duì)產(chǎn)品質(zhì)量產(chǎn)生不利影響。因此,應(yīng)在裝配線上監(jiān)測(cè)或識(shí)別工人操作的規(guī)范性。目前根據(jù)裝配動(dòng)作采集數(shù)據(jù)的方式不同,大致可分為兩類(lèi):基于機(jī)器視覺(jué)的動(dòng)作識(shí)別技術(shù)和基于可穿戴設(shè)備的動(dòng)作識(shí)別技術(shù)。
在基于機(jī)器視覺(jué)的動(dòng)作識(shí)別技術(shù)方面,已經(jīng)取得了一些成果。王天諾等使用3D卷積神經(jīng)網(wǎng)絡(luò)模型在裝配動(dòng)作視頻數(shù)據(jù)集上進(jìn)行測(cè)試,準(zhǔn)確率達(dá)到88.5%。CHEN等基于目標(biāo)檢測(cè)和姿態(tài)估計(jì)算法對(duì)重復(fù)裝配動(dòng)作進(jìn)行識(shí)別?;谝曈X(jué)的動(dòng)作識(shí)別技術(shù),不需要穿戴傳感器等設(shè)備,只需要攝像頭對(duì)圖像進(jìn)行捕捉,通過(guò)特定的機(jī)器視覺(jué)算法提取動(dòng)作特征,從而進(jìn)行裝配體動(dòng)作識(shí)別,但這種技術(shù)往往受到光照、復(fù)雜的背景、視角遮擋等的影響。
在基于可穿戴設(shè)備的動(dòng)作識(shí)別方面,KUTAFINA等采用HMM和ANN識(shí)別戴著MYO臂章的醫(yī)務(wù)人員的洗手動(dòng)作,準(zhǔn)確率達(dá)98.3%;OGRIS等采用隱馬爾可夫模型分類(lèi)器,利用超聲波和IMU信號(hào)識(shí)別自行車(chē)維護(hù)場(chǎng)景中的工人活動(dòng),后來(lái)他們提出了一種基于字符串匹配的分割和分類(lèi)方法,該方法使用多個(gè)IMU傳感器來(lái)識(shí)別汽車(chē)制造任務(wù)中工人的活動(dòng)。KOSKIMAKI等使用腕戴式IMU傳感器捕捉手臂運(yùn)動(dòng),并使用KNearest Neighbors模型對(duì)工業(yè)裝配線的5種活動(dòng)進(jìn)行分類(lèi);MAEKAWA等提出了一種無(wú)監(jiān)督的測(cè)量方法,該方法使用帶有IMU傳感器的智能手表的信號(hào)來(lái)估算工廠的交貨時(shí)間。
通常動(dòng)作識(shí)別技術(shù)分為兩個(gè)步驟:動(dòng)作特征的提取和動(dòng)作的分類(lèi)。PHINYOMARK等在頻域上基于EMG功率譜密度的統(tǒng)計(jì)參數(shù)計(jì)算頻域特征。CHANG等提出了一種基于一個(gè)慣性測(cè)量單元(IMU)傳感器和兩個(gè)表面肌電圖(sEMG)傳感器的分層手勢(shì)識(shí)別方法,準(zhǔn)確率可達(dá)到95.6%。針對(duì)動(dòng)作分類(lèi),學(xué)者們已經(jīng)提出了多種方法,例如支持向量機(jī)(SVM)、隨機(jī)森林、線性判別分析和主成分分析等。為了學(xué)習(xí)最有用的特征,JIANG和YIN提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法,將sEMG信號(hào)作為網(wǎng)絡(luò)的輸入信號(hào),以進(jìn)行活動(dòng)識(shí)別。
針對(duì)工人裝配動(dòng)作識(shí)別問(wèn)題,本文作者將手臂部位提取的表面肌電信號(hào)和慣性信號(hào)的動(dòng)作特征以及卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別方法相結(jié)合,提出一種基于注意力時(shí)空特征融合網(wǎng)絡(luò)(Spatiotemporal Feature Fusion Network,SFFN)的裝配動(dòng)作方法,在此基礎(chǔ)上不斷訓(xùn)練網(wǎng)絡(luò)模型,從而實(shí)現(xiàn)對(duì)裝配動(dòng)作的識(shí)別和分類(lèi)。
在生產(chǎn)作業(yè)車(chē)間尤其是工件的組裝與裝配車(chē)間中,為了保證裝配動(dòng)作的規(guī)范和完整,需要對(duì)裝配過(guò)程中人員的行為進(jìn)行監(jiān)管。在這些工件裝配過(guò)程中,雖然車(chē)間中有一套完整的裝配規(guī)范,但仍有部分員工無(wú)法按照標(biāo)準(zhǔn)的裝配流程進(jìn)行操作,其中不乏經(jīng)驗(yàn)豐富的老員工。為了減少乃至杜絕由于裝配動(dòng)作不規(guī)范而造成的產(chǎn)品質(zhì)量問(wèn)題,本文作者設(shè)計(jì)一套能夠?qū)と搜b配動(dòng)作進(jìn)行識(shí)別的方案,以此對(duì)車(chē)間人員裝配動(dòng)作進(jìn)行智能監(jiān)測(cè)。
該方案中,裝配動(dòng)作識(shí)別主要由裝配動(dòng)作數(shù)據(jù)采集、裝配動(dòng)作數(shù)據(jù)預(yù)處理、裝配動(dòng)作模型構(gòu)建和裝配動(dòng)作識(shí)別與評(píng)估4部分構(gòu)成。
(1) 裝配動(dòng)作數(shù)據(jù)采集??紤]到肌電信號(hào)能夠表達(dá)工人裝配動(dòng)作類(lèi)型,通過(guò)在手臂上佩戴MYO臂環(huán)來(lái)采集這種信號(hào),并進(jìn)行預(yù)處理和動(dòng)作識(shí)別。
(2) 裝配動(dòng)作數(shù)據(jù)預(yù)處理。通過(guò)MYO臂環(huán)采集到的裝配動(dòng)作原始數(shù)據(jù)與理想的數(shù)據(jù)之間存在一定偏差,這些偏差主要是由MYO臂環(huán)傳感器自身的精度和實(shí)驗(yàn)人員自身因素造成的。為此需要進(jìn)行一些預(yù)處理操作來(lái)降低這些因素的影響。
(3) 裝配動(dòng)作模型構(gòu)建。針對(duì)預(yù)處理后的肌電信號(hào),構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,對(duì)工人裝配動(dòng)作進(jìn)行識(shí)別。
(4) 裝配動(dòng)作識(shí)別與評(píng)估。本文作者使用自建裝配動(dòng)作數(shù)據(jù)集對(duì)上述方法進(jìn)行測(cè)試,并基于實(shí)驗(yàn)結(jié)果提出結(jié)論和改進(jìn)的方向。
加拿大Thalmic Labs公司于2014年推出MYO臂環(huán),該臂環(huán)由8塊傳感器組成,分別對(duì)應(yīng)采集8個(gè)通道的肌電信號(hào)數(shù)據(jù)。MYO臂環(huán)具有低成本、低延遲、佩戴舒適的特點(diǎn),具有良好的適應(yīng)性。
使用Thalmic Labs的MYO傳感器以200 Hz的采樣率采集8個(gè)通道的sEMG,采集的信號(hào)范圍為[-128,127],這些信號(hào)代表相應(yīng)裝配動(dòng)作所對(duì)應(yīng)的肌肉激活水平。
裝配動(dòng)作數(shù)據(jù)集由抓取零件、磨、銼、錘、擰螺絲、刷共6個(gè)裝配動(dòng)作組成,每個(gè)動(dòng)作的數(shù)據(jù)采集由5名23~25歲的健康實(shí)驗(yàn)者完成。為避免在采集數(shù)據(jù)時(shí)不同實(shí)驗(yàn)者佩戴的MYO傳感器的通道位置錯(cuò)雜而造成干擾,在實(shí)驗(yàn)之前規(guī)定MYO傳感器統(tǒng)一佩戴在前臂靠近肘關(guān)節(jié)上方的肌肉凸起位置,臂環(huán)LED標(biāo)識(shí)向下。
表面肌電信號(hào)(sEMG)是指當(dāng)骨骼肌收縮時(shí),肌纖維所產(chǎn)生的微弱電信號(hào)在皮膚表面的募集。這是一種微弱的信號(hào),頻率一般為10~500 Hz。肌電信號(hào)在采集過(guò)程中往往會(huì)受到一些噪聲的干擾,因此在進(jìn)行裝配動(dòng)作識(shí)別之前需要對(duì)它進(jìn)行預(yù)處理以減小這些因素的影響。本文作者首先使用滑動(dòng)窗口對(duì)200 Hz的sEMG信號(hào)進(jìn)行采樣,滑動(dòng)窗口的長(zhǎng)度為200個(gè)時(shí)間戳,兩步之間的重疊率為75%;其次,設(shè)計(jì)一個(gè)頻率為50 Hz低通陷波濾波器用于處理sEMG信號(hào)以消除sEMG信號(hào)中由本地電源頻率引起的干擾,和一個(gè)頻率為30 Hz的零相移高通濾波器用于消除sEMG信號(hào)中手動(dòng)操作產(chǎn)生的噪聲;最后,通過(guò)全波整流將sEMG信號(hào)全部轉(zhuǎn)換為正值,并將肌電信號(hào)的幅值歸一化到[0,1]范圍內(nèi)。肌電信號(hào)預(yù)處理流程如圖1所示。
圖1 肌電信號(hào)預(yù)處理流程
本文作者提出的基于通道注意力的時(shí)空特征融合網(wǎng)絡(luò)模型由數(shù)據(jù)輸入層、時(shí)空特征提取層、注意力模塊、全連接分類(lèi)層組成,如圖2所示。
圖2 基于注意力時(shí)空特征裝配動(dòng)作模型
(1)數(shù)據(jù)輸入層:裝配動(dòng)作表面肌電信號(hào)由測(cè)試者佩戴MYO臂環(huán)經(jīng)過(guò)濾波等預(yù)處理成200×8的數(shù)據(jù)矩陣;
(2)裝配動(dòng)作特征提取層:本文作者構(gòu)造三層卷積神經(jīng)網(wǎng)絡(luò)提取裝配動(dòng)作的空間特征,通過(guò)反向傳播算法不斷優(yōu)化網(wǎng)絡(luò)參數(shù),再構(gòu)造兩層時(shí)間卷積網(wǎng)絡(luò)提取時(shí)序特征,經(jīng)過(guò)注意力模塊強(qiáng)化網(wǎng)絡(luò)的特征提取能力;
(3)分類(lèi)層:將網(wǎng)絡(luò)提取的時(shí)空特征輸入到全連接層,經(jīng)過(guò)SoftMax激活函數(shù)輸出裝配動(dòng)作的分類(lèi)結(jié)果。
為有效進(jìn)行裝配動(dòng)作的分類(lèi),需要從肌電信號(hào)中提取有利于動(dòng)作分類(lèi)的特征信息,但人工提取特征往往依賴(lài)相關(guān)領(lǐng)域的專(zhuān)家,有較大的局限性。隨著深度學(xué)習(xí)以及計(jì)算機(jī)性能的快速發(fā)展,應(yīng)用深度學(xué)習(xí)方法可以自動(dòng)提取特征的優(yōu)勢(shì)逐漸顯現(xiàn)出來(lái)。因此,文中裝配動(dòng)作信號(hào)的空間特征提取模塊則基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建,由二維卷積層和ReLU激活函數(shù)以及最大池化層構(gòu)成。每一個(gè)卷積層(Conv2d)中的具體參數(shù)如表1所示。
表1 Conv2d層網(wǎng)絡(luò)參數(shù)
在每一個(gè)卷積神經(jīng)網(wǎng)絡(luò)后邊添加最大池化層,即使用某一位置的相鄰區(qū)域的最大值作為網(wǎng)絡(luò)在該位置的輸出,從而對(duì)特征進(jìn)行壓縮、簡(jiǎn)化網(wǎng)絡(luò)復(fù)雜度。池化層網(wǎng)絡(luò)參數(shù)如表2所示。
表2 MaxPooling層網(wǎng)絡(luò)參數(shù)
裝配動(dòng)作具有連續(xù)性的特點(diǎn),上一時(shí)刻的動(dòng)作狀態(tài)對(duì)下一時(shí)刻的動(dòng)作有較大影響,因此為提取裝配動(dòng)作信號(hào)的時(shí)序特征,構(gòu)建兩層TCN網(wǎng)絡(luò)架構(gòu)作為時(shí)間序列特征的提取模塊。TCN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,它是一種融合了因果卷積和擴(kuò)張卷積的殘差模塊堆疊序列建模結(jié)構(gòu),每個(gè)殘差模塊有兩層因果空洞卷積,并對(duì)卷積核權(quán)重進(jìn)行規(guī)范化,使用ReLU激活函數(shù)增加層與層之間的非線性關(guān)系,同時(shí)添加Dropout層以減小過(guò)擬合。
圖3 TCN網(wǎng)絡(luò)結(jié)構(gòu)
由MYO臂環(huán)采集的肌電信號(hào)是多通道的,不同通道之間的信號(hào)對(duì)特定動(dòng)作的貢獻(xiàn)不相同。因此,應(yīng)該優(yōu)先選擇包含豐富裝配動(dòng)作信息、裝配動(dòng)作變化較明顯的通道來(lái)實(shí)現(xiàn)分類(lèi)。本文作者通過(guò)添加SE Block模塊來(lái)學(xué)習(xí)自動(dòng)獲取每個(gè)通道的重要性。根據(jù)此重要性來(lái)增強(qiáng)有用通道信息所占的比重并抑制對(duì)當(dāng)前任務(wù)不太有用的通道信息。圖4所示為SE Block模塊的結(jié)構(gòu)。
圖4 SE Block模塊
(1)Squeeze操作。通過(guò)全局池化操作沿空間維度將輸入數(shù)據(jù)的特征維度由[,,]壓縮為比例為[1,1,];
(2)Excitation操作。通過(guò)引入可學(xué)習(xí)參數(shù)來(lái)為每個(gè)特征通道生成對(duì)應(yīng)的權(quán)重,并通過(guò)sigmoid函數(shù)對(duì)權(quán)重歸一化,完成建模特征通道間的相關(guān)性;
(3)Scale操作。將Excitation的輸出權(quán)重看做是經(jīng)過(guò)選擇后的每個(gè)特征通道的重要性,實(shí)現(xiàn)通道維度上對(duì)原始特征的重標(biāo)定。
然后,通過(guò)可學(xué)習(xí)的參數(shù)生成每個(gè)通道的權(quán)重并將每個(gè)權(quán)重值歸一化到0~1之間,對(duì)輸入特征數(shù)據(jù)進(jìn)行逐層加權(quán),并在通道維度上重新校準(zhǔn)輸入特征的權(quán)重;最后,經(jīng)過(guò)Scale操作使得輸入數(shù)據(jù)和輸出數(shù)據(jù)的維度一致。
實(shí)驗(yàn)中使用的CPU是Intel Xeon E5-2630,GPU顯卡為 NVIDIA TITAN Xp。深度學(xué)習(xí)框架為Keras、深度學(xué)習(xí)模型的batch size為128、迭代次數(shù)為50。使用ADAM優(yōu)化器,損失函數(shù)為交叉熵?fù)p失函數(shù)。在訓(xùn)練過(guò)程中,不斷優(yōu)化網(wǎng)絡(luò)參數(shù),將訓(xùn)練好的模型參數(shù)保存以用于模型的測(cè)試,進(jìn)而評(píng)判模型對(duì)裝配動(dòng)作的分類(lèi)性能。
采用幾種常用的指標(biāo)來(lái)評(píng)估分類(lèi)性能,具體指標(biāo)如下:
(1)
(2)
(3)
(4)
其中:表示正樣本被正確檢測(cè)個(gè)數(shù);表示正樣本被漏檢個(gè)數(shù);表示負(fù)樣本被正確檢測(cè)個(gè)數(shù);表示負(fù)樣本被誤檢個(gè)數(shù)。
為驗(yàn)證文中所構(gòu)建的基于注意力時(shí)空特征網(wǎng)絡(luò)模型在裝配動(dòng)作分類(lèi)任務(wù)方面的優(yōu)勢(shì),文中還使用雙流CNN網(wǎng)絡(luò)模型和LSTM網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn)。為保證模型對(duì)比的有效性,3種網(wǎng)絡(luò)模型均采用相同的數(shù)據(jù)集、迭代次數(shù)、優(yōu)化器、批處理大小。3種深度學(xué)習(xí)模型的準(zhǔn)確率曲線如圖5所示。隨著迭代次數(shù)的增加,3種模型的準(zhǔn)確率均不斷上升,文中所設(shè)計(jì)的網(wǎng)絡(luò)模型約迭代到10次時(shí),網(wǎng)絡(luò)模型的準(zhǔn)確率達(dá)到收斂,最高的識(shí)別率可以達(dá)到96.1%;CNN網(wǎng)絡(luò)模型準(zhǔn)確率相對(duì)低一些,為94.2%;LSTM模型的識(shí)別準(zhǔn)確率最低,在測(cè)試階段準(zhǔn)確率波動(dòng)也較大。文中構(gòu)建的網(wǎng)絡(luò)模型準(zhǔn)確率最高,而且波動(dòng)較小,與CNN和LSTM相比,所設(shè)計(jì)的模型充分學(xué)習(xí)了數(shù)據(jù)的空間特征和時(shí)間特征,時(shí)空特征的融合更有利于裝配動(dòng)作的識(shí)別。
圖5 3種模型的準(zhǔn) 確率曲線
本文作者同時(shí)比較了3種網(wǎng)絡(luò)模型在準(zhǔn)確率、精確率、召回率、得分方面的表現(xiàn),如表3所示。CNN網(wǎng)絡(luò)模型相比LSTM網(wǎng)絡(luò)在準(zhǔn)確率、精確率、召回率、得分方面均有提升。而文中提出的模型在準(zhǔn)確率、精確率、召回率、得分方面性能表現(xiàn)最佳,比CNN神經(jīng)網(wǎng)絡(luò)分別提高1.9%、2.5%、1.9%、2.2%。因此,所提的融合注意力機(jī)制的時(shí)空特征網(wǎng)絡(luò)模型在裝配動(dòng)作識(shí)別任務(wù)中有良好的性能。
表3 3種網(wǎng)絡(luò)模型的分類(lèi)表現(xiàn) 單位:%
本文作者還對(duì)每個(gè)特定的裝配動(dòng)作進(jìn)行了測(cè)試,最終融合模型的識(shí)別結(jié)果也以混淆矩陣的形式進(jìn)行了展示,如表4所示。其中,每一行代表真實(shí)類(lèi),每一列代表預(yù)測(cè)類(lèi),斜對(duì)角線上的數(shù)字則代表各類(lèi)裝配動(dòng)作正確的識(shí)別結(jié)果。從結(jié)果來(lái)看:絕大多數(shù)裝配動(dòng)作的識(shí)別準(zhǔn)確率都在95%以上;單個(gè)動(dòng)作中錘的識(shí)別率最高為99%,而銼的裝配動(dòng)作識(shí)別率較低為94%,其中4%的動(dòng)作被認(rèn)為是刷。經(jīng)過(guò)分析,造成這樣結(jié)果的原因是2種裝配動(dòng)作相對(duì)其他動(dòng)作而言有一定的相似度?;谶@個(gè)原因,神經(jīng)網(wǎng)絡(luò)不能很好地學(xué)習(xí)到這兩類(lèi)動(dòng)作的特征。
表4 裝配動(dòng)作識(shí)別混淆矩陣 單位:%
對(duì)工人裝配動(dòng)作的識(shí)別是實(shí)現(xiàn)企業(yè)高效生產(chǎn)的重要方法。本文作者提出基于注意力時(shí)空特征網(wǎng)絡(luò)的裝配動(dòng)作識(shí)別方法,并在開(kāi)發(fā)的肌電信號(hào)裝配動(dòng)作數(shù)據(jù)集上驗(yàn)證了該方法的有效性。盡管研究取得了初步成果,但仍有一些工作有待進(jìn)一步解決。設(shè)計(jì)出裝配動(dòng)作識(shí)別準(zhǔn)確率更高、適用于更多裝配動(dòng)作的網(wǎng)絡(luò)模型是未來(lái)的研究方向。