楊春雷 和旭東,2 史旭升 王思遠(yuǎn) 劉官民 李立爭(zhēng)
(1.中國(guó)運(yùn)載火箭技術(shù)研究院,北京 100076;2.北京交通大學(xué),北京 100044;3.首都航天機(jī)械有限公司,北京 100076)
智能制造是新一代工業(yè)革命的核心動(dòng)力,主導(dǎo)了工業(yè)4.0、工業(yè)互聯(lián)網(wǎng)等戰(zhàn)略的發(fā)展,成為制造業(yè)發(fā)展的風(fēng)向標(biāo)[1]。智能制造的重點(diǎn)在于工藝生產(chǎn)環(huán)節(jié),基于海量多源異構(gòu)數(shù)據(jù)實(shí)現(xiàn)裝備智能化和生產(chǎn)智能化。因此,為了保障裝配工藝智能化的高效安全運(yùn)行,保障裝配工藝過(guò)程中用于智能決策和檢測(cè)的多模態(tài)數(shù)據(jù)的質(zhì)量顯得尤為重要。
隨著云計(jì)算、物聯(lián)網(wǎng),尤其是人工智能技術(shù)的蓬勃發(fā)展,越來(lái)越多的基于傳感器、圖像視頻采集設(shè)備的智能信息感知設(shè)備應(yīng)用于裝配工藝中[2-3],由此產(chǎn)生了海量的多源異構(gòu)數(shù)據(jù)。通過(guò)多種感知設(shè)備收集的多源異構(gòu)數(shù)據(jù)具有高度的多源性、異構(gòu)性,其多源性體現(xiàn)在數(shù)據(jù)來(lái)源于多個(gè)分布式的感知節(jié)點(diǎn),網(wǎng)絡(luò)傳輸速率的不穩(wěn)定和節(jié)點(diǎn)的不同步往往會(huì)造成感知信息的缺失、斷續(xù)和時(shí)空關(guān)系不一致等問(wèn)題;其異構(gòu)性體現(xiàn)在數(shù)據(jù)的類型、性質(zhì)、形式和內(nèi)容均存在極大差異,如除了溫濕度、光照度等結(jié)構(gòu)化數(shù)據(jù)外,還有資料文本、監(jiān)控視頻等非結(jié)構(gòu)化數(shù)據(jù)。在實(shí)際數(shù)據(jù)采集過(guò)程中,由于傳感器采樣頻率、測(cè)量精度存在差異,收集數(shù)據(jù)可能存在特征噪聲、標(biāo)注錯(cuò)誤等非完美數(shù)據(jù)問(wèn)題,數(shù)據(jù)的安全性和可用性難以保證。因此,探索研究智能裝配工藝多模態(tài)數(shù)據(jù)質(zhì)量保障條件下的有效數(shù)據(jù)清洗、數(shù)據(jù)融合方法,并將含有模糊信息的多源異構(gòu)數(shù)據(jù)整合為實(shí)際決策所需要的確定性數(shù)據(jù),對(duì)提高數(shù)據(jù)利用率、提升智能決策效率具有重要意義。
因此,本文通過(guò)研究智能裝配工藝過(guò)程中涉及的多模態(tài)數(shù)據(jù)質(zhì)量保障方法,使用每個(gè)實(shí)例節(jié)點(diǎn)通過(guò)聚合其最接近的鄰居節(jié)點(diǎn)來(lái)進(jìn)行更新,以獲得其內(nèi)在的結(jié)構(gòu)表示。這可以很好地過(guò)濾潛在的異常值,并建立更可靠的“實(shí)例-標(biāo)簽”關(guān)系,而且方法所采用的“實(shí)例-標(biāo)簽”匹配親和關(guān)系是從數(shù)據(jù)表示中學(xué)習(xí)出來(lái)的,而不是在訓(xùn)練階段手動(dòng)預(yù)先確定的,使得所提出的方法具有更高的性能。
本研究的主要貢獻(xiàn)可以歸納如下:
(1)利用深度圖匹配方案,提出匹配親和關(guān)系概念,提高了對(duì)智能裝配數(shù)據(jù)的學(xué)習(xí)效率。
(2)算法是輕量級(jí)的,可以很好地部署在邊緣物聯(lián)網(wǎng)環(huán)境中。通過(guò)將清洗任務(wù)獨(dú)立到每個(gè)邊緣設(shè)備中,減輕對(duì)本地物聯(lián)網(wǎng)環(huán)境的負(fù)荷。
(3)本文提出的方法能夠?qū)μ卣骶S數(shù)少、區(qū)別能力較差的多源智能裝配數(shù)據(jù)進(jìn)行有效的標(biāo)簽清洗,并得到了實(shí)驗(yàn)驗(yàn)證。
智能制造(intelligent manufacturing,IM)的概念出現(xiàn)于20 世紀(jì)90 年代。近年來(lái),隨著自動(dòng)化、信息化、數(shù)字化、網(wǎng)絡(luò)化和智能化技術(shù)的發(fā)展,特別是2013 年德國(guó)工業(yè)4.0 的正式推出,智能制造已成為現(xiàn)代先進(jìn)制造業(yè)的新發(fā)展方向,其概念及內(nèi)涵也在不斷地發(fā)展和豐富。本章節(jié)將從智能制造業(yè)裝配和檢測(cè)方法以及數(shù)據(jù)質(zhì)量研究進(jìn)行調(diào)研。
VianaI 等[4]利用單臺(tái)PTZ 攝像機(jī)和機(jī)械零件的CAD 模型,對(duì)航空環(huán)境下機(jī)械零件的質(zhì)量控制進(jìn)行了研究,使用相似函數(shù)對(duì)兩個(gè)屬性圖進(jìn)行匹配,將相似度分?jǐn)?shù)注入二分圖的邊。該方法利用合成數(shù)據(jù),包括缺失元素、移位元素尺寸變化以及這些情況的組合,在測(cè)試中取得了很好的效果。2018 年,馬來(lái)西亞理科大學(xué)Raiminor Ramzi 等[5]提出了一種利用光學(xué)原理對(duì)制造和裝配行業(yè)中用于鉆井作業(yè)的沉頭鉆頭磨損進(jìn)行檢測(cè)的方法,該法能夠測(cè)量磨損量的百分比。他們還研制了一套檢測(cè)系統(tǒng),該系統(tǒng)配備了新的外部照明系統(tǒng),采用圖像匹配的方法對(duì)蒙皮沉孔鉆頭進(jìn)行定位和對(duì)準(zhǔn),控制了沉孔鉆頭的磨損,解決了蒙皮鉆頭浪費(fèi)的問(wèn)題。2019 年,法國(guó)圖盧茲大學(xué)Hamdi Ben Abdallah等[6]自動(dòng)選擇信息性的視點(diǎn),然后從上述視點(diǎn)出發(fā)對(duì)采集到的圖像進(jìn)行自動(dòng)處理,將其與三維CAD 模型中的信息進(jìn)行匹配,最終設(shè)計(jì)了一種航空機(jī)械裝配部件缺陷檢測(cè)系統(tǒng)。該系統(tǒng)可以檢查所有的子部件是否存在并正確安裝。
物聯(lián)網(wǎng)數(shù)據(jù)清洗是為了消除物聯(lián)網(wǎng)數(shù)據(jù)在生成、收集、傳輸、解析和標(biāo)注過(guò)程中產(chǎn)生的噪聲,為運(yùn)行在物聯(lián)網(wǎng)上的人工智能算法提供干凈、可靠的數(shù)據(jù)。由此,許多相關(guān)的特征噪聲清洗方法被提出,Mansour 等[7]提出的數(shù)據(jù)冗余治理框架(data redundancy management framework,DRMF)解決了影響靜態(tài)和移動(dòng)設(shè)備的冗余檢測(cè)問(wèn)題,并開(kāi)發(fā)了必要算法來(lái)處理這兩種類型的冗余。在文獻(xiàn)[8]中作者提出基于深度Q網(wǎng)絡(luò)(deep q-network,DQN)的特征選擇方法,并將其用于多源數(shù)據(jù)的清洗。Corrales 等[9]提出回歸模型中的數(shù)據(jù)清洗(data cleaning in regression models,DC-RM),并建立回歸模型中的數(shù)據(jù)清洗過(guò)程,包括識(shí)別、理解、組織以及根據(jù)其含義處理數(shù)據(jù)的質(zhì)量問(wèn)題。標(biāo)簽噪聲在特征數(shù)量較少、特征區(qū)別較小的數(shù)據(jù)集中經(jīng)常存在,對(duì)算法的損害遠(yuǎn)大于特征噪聲[10],因此對(duì)標(biāo)簽噪聲的清洗是幫助分類器提高性能的第一步。圖像識(shí)別領(lǐng)域中已經(jīng)存在一些成熟的標(biāo)簽噪聲清洗算法,在文獻(xiàn)[11]中作者提出自適應(yīng)元清洗器(adaptive meta cleaner,AMC)方法,該法基于元學(xué)習(xí)從標(biāo)注良好的噪聲數(shù)據(jù)中學(xué)習(xí)可靠的清洗知識(shí),然后在元監(jiān)督下逐步將其轉(zhuǎn)移到目標(biāo)數(shù)據(jù)中,以提高清洗能力。Bernhardt 等[12]提出主動(dòng)標(biāo)簽清理法(active label cleaning),根據(jù)每個(gè)樣本的估計(jì)標(biāo)簽正確性和標(biāo)注難度,對(duì)實(shí)例進(jìn)行排序重標(biāo)注。偏標(biāo)記學(xué)習(xí)是一個(gè)弱監(jiān)督的學(xué)習(xí)框架,其中每個(gè)實(shí)例都有多個(gè)候選標(biāo)簽,而其中只有一個(gè)是正確的。近年來(lái),一些先進(jìn)的偏標(biāo)記學(xué)習(xí)算法已經(jīng)具備優(yōu)異的性能,但還很少在實(shí)際場(chǎng)景中被利用,文獻(xiàn)[13]中,PL-LE利用特征空間的拓?fù)湫畔?lái)恢復(fù)廣義的標(biāo)簽分布,再擬合正則化多輸出回歸器來(lái)學(xué)習(xí)多類預(yù)測(cè)模型。文獻(xiàn)[14]中,PL-BLC 基于當(dāng)前的預(yù)測(cè)網(wǎng)絡(luò)動(dòng)態(tài)修正每個(gè)訓(xùn)練批次的標(biāo)簽置信矩陣,并采用MixUp 來(lái)增強(qiáng)底層的真實(shí)標(biāo)簽以對(duì)抗冗余的噪聲標(biāo)簽。文獻(xiàn)[15]中,Self-gUided Retraining(SURE)利用自我訓(xùn)練的思想,自動(dòng)形成偽標(biāo)簽,再通過(guò)求解一組二次規(guī)劃問(wèn)題得到多分類器。
目前,許多物聯(lián)網(wǎng)數(shù)據(jù)清洗方案[16-17]被提出并用于清除數(shù)據(jù)的特征噪聲,但裝配工藝中物聯(lián)網(wǎng)數(shù)據(jù)的特征數(shù)量較少、特征區(qū)別較小,因此經(jīng)過(guò)清洗也難以得到正確的分類,而且在裝配工藝中也會(huì)產(chǎn)生圖像視頻等多源數(shù)據(jù)?,F(xiàn)有的解決方案有圖像識(shí)別的多標(biāo)注方法[18],該法可將分類器難以準(zhǔn)確標(biāo)注的實(shí)例標(biāo)上多個(gè)可能的標(biāo)簽(候選標(biāo)簽),這樣雖然引入了標(biāo)簽噪聲,但適量地增加噪聲、平衡噪聲率會(huì)使問(wèn)題的學(xué)習(xí)更加容易[19],并且可以確保大多數(shù)實(shí)例的候選標(biāo)簽中都可以包含正確標(biāo)簽?,F(xiàn)有方法的問(wèn)題在于邊緣物聯(lián)網(wǎng)環(huán)境難以提供算法所需的資源(如處理、內(nèi)存、電能),因此如何在保障正確標(biāo)簽預(yù)測(cè)高準(zhǔn)確率的同時(shí)對(duì)時(shí)間、計(jì)算資源的需求較小是研究需要考慮解決的問(wèn)題。對(duì)此,本文構(gòu)建了基于圖匹配的模型對(duì)數(shù)據(jù)冗余的標(biāo)簽進(jìn)行篩選,以提升數(shù)據(jù)質(zhì)量。
為了更好地描述所提出的數(shù)據(jù)質(zhì)量保證方法,給出以下描述。
一是噪聲標(biāo)記。智能裝配工藝過(guò)程中,用于人工智能算法的裝配工藝數(shù)據(jù)存在人為或機(jī)器學(xué)習(xí)方法無(wú)法正確區(qū)分造成的錯(cuò)誤標(biāo)記和多個(gè)標(biāo)記。
二是模糊標(biāo)記學(xué)習(xí)。它是一類重要的弱監(jiān)督機(jī)器學(xué)習(xí)框架。在此框架下,用于人工智能算法的數(shù)據(jù)有且只有一個(gè)標(biāo)記是真實(shí)標(biāo)記。
三是候選標(biāo)簽集。它是智能裝配工藝過(guò)程中,由物聯(lián)網(wǎng)終端產(chǎn)生的所有不重復(fù)數(shù)據(jù)示例的真實(shí)標(biāo)記的集合。
本文提出基于深度圖匹配方案的偏標(biāo)記學(xué)習(xí)框架,旨在挖掘訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)信息,建立實(shí)例空間和標(biāo)簽空間之間的準(zhǔn)確分配關(guān)系。為了更好地介紹該目標(biāo)并使后續(xù)描述便于理解,本文預(yù)先將深度圖匹配方法描述為圖1 中的圖匹配(graph matching)結(jié)構(gòu)。
圖1 深度圖匹配模型
由于偏標(biāo)記學(xué)習(xí)問(wèn)題的固有特征,即先驗(yàn)的成對(duì)標(biāo)簽關(guān)系總是缺失(標(biāo)簽之間沒(méi)有顯著相關(guān)性),因此不同標(biāo)簽之間的邊被丟棄(相當(dāng)于保存標(biāo)簽圖中的邊矩陣是一個(gè)單位陣)。請(qǐng)注意,一旦可以獲得標(biāo)簽之間的關(guān)系,所提出的深度圖匹配方法仍然可以輕松擴(kuò)展以滿足該問(wèn)題。得到以上兩張圖后,將每個(gè)實(shí)例連接其候選標(biāo)簽,合并為一個(gè)統(tǒng)一的匹配圖,其中邊代表“實(shí)例-標(biāo)簽”的匹配密切關(guān)系。此后,偏標(biāo)記學(xué)習(xí)的任務(wù)被轉(zhuǎn)移到每個(gè)實(shí)例與其候選標(biāo)簽之間的匹配(邊)選擇問(wèn)題。而深度圖匹配的目標(biāo)是獲得之間精準(zhǔn)的“實(shí)例-標(biāo)簽”匹配(邊)。
2.標(biāo)簽空間
3.“實(shí)例-標(biāo)簽”匹配密切關(guān)系
在從特征空間和標(biāo)簽空間中獲得結(jié)構(gòu)表示后,結(jié)合圖匹配的方案,對(duì)“實(shí)例-標(biāo)簽”匹配密切關(guān)系進(jìn)行建模,其中每個(gè)實(shí)例與其候選標(biāo)簽之間的密切度由如下方式計(jì)算:
由于候選標(biāo)簽集中存在噪聲標(biāo)簽,如果直接使用標(biāo)準(zhǔn)的交叉熵?fù)p失來(lái)歸納模型,會(huì)過(guò)度擬合這些噪聲標(biāo)簽,從而導(dǎo)致學(xué)習(xí)效果不佳。為了解決這個(gè)問(wèn)題,本文設(shè)計(jì)了一個(gè)漸進(jìn)的交叉熵?fù)p失來(lái)指引學(xué)習(xí)的過(guò)程:
在這種方式中,正確的“實(shí)例-標(biāo)簽”匹配被聚合并逐步確認(rèn)。在理想情況下,權(quán)重為1 的標(biāo)簽(即)表示已經(jīng)成功識(shí)別出的正確標(biāo)簽。
本小節(jié)對(duì)所提出的方法采用如圖2 所示的結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)。
圖2 實(shí)驗(yàn)結(jié)構(gòu)
為了驗(yàn)證方法的性能、效率和有效性,本文設(shè)計(jì)了仿真實(shí)驗(yàn),并在真實(shí)環(huán)境中進(jìn)行測(cè)試。本文使用公開(kāi)的物聯(lián)網(wǎng)數(shù)據(jù)集[20]進(jìn)行測(cè)試,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;其次使用數(shù)據(jù)對(duì)所提模型訓(xùn)練,并保存模型參數(shù);最后在仿真環(huán)境和真實(shí)樹(shù)莓派環(huán)境中對(duì)所保存的模型進(jìn)行測(cè)試。
本文在原有數(shù)據(jù)標(biāo)注的基礎(chǔ)上,對(duì)物聯(lián)網(wǎng)數(shù)據(jù)集進(jìn)行模糊標(biāo)注。將標(biāo)注后的數(shù)據(jù)輸入模型,分別利用標(biāo)簽矩陣Y和特征矩陣X,生成完全不同候選標(biāo)簽矩陣。
本文對(duì)每個(gè)實(shí)例標(biāo)記的數(shù)量和多標(biāo)記實(shí)例占總數(shù)據(jù)的比例進(jìn)行隨機(jī)組合,隨后將測(cè)試對(duì)真實(shí)標(biāo)記的判定準(zhǔn)確率和真實(shí)環(huán)境中的判定性能,使其達(dá)到較好的指標(biāo)。最后,與其現(xiàn)有的研究方法進(jìn)行對(duì)比來(lái)說(shuō)明本文所設(shè)計(jì)方法的有效性。
在本文中,由于標(biāo)簽噪聲清洗任務(wù)的基礎(chǔ)是一個(gè)多分類問(wèn)題,普遍使用的評(píng)價(jià)指標(biāo)(如召回率、ROC 曲線等)并不適用,因此,本文主要用準(zhǔn)確率(accuracy)作為算法性能好壞的評(píng)價(jià)標(biāo)準(zhǔn),它可以直觀表達(dá)分類正確的樣本數(shù)占總樣本數(shù)的比例,其值越大,代表分類算法的性能越好。
在仿真環(huán)境中本文使用不同的性能設(shè)備進(jìn)行測(cè)試,分別使用樹(shù)莓派的1G、2G、8G 版本,對(duì)算法運(yùn)行時(shí)間和占用內(nèi)存等指標(biāo)進(jìn)行測(cè)試。
本文在物聯(lián)網(wǎng)真實(shí)的內(nèi)存數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并且與部分標(biāo)簽學(xué)習(xí)的PL-AGGD 方法在這類數(shù)據(jù)集上做了比較。本文所提方法與以上方法的對(duì)比結(jié)果如圖3~6 所示。
圖3 數(shù)據(jù)分類比較結(jié)果(n=1)
圖3 展示了冗余標(biāo)簽數(shù)量n=1,冗余標(biāo)簽數(shù)據(jù)的比例r從0.1~0.7 的對(duì)比結(jié)果。此時(shí)候選標(biāo)簽集包含1 個(gè)真實(shí)標(biāo)簽和1 個(gè)冗余的噪聲標(biāo)簽。從圖3 的結(jié)果可以得知,當(dāng)冗余標(biāo)簽數(shù)據(jù)的比例在0.4~0.6 時(shí)所提的方法優(yōu)于PL-AGGD方法,其準(zhǔn)確率能夠達(dá)到95%以上。
圖4 展示了冗余標(biāo)簽數(shù)量n=2,冗余標(biāo)簽數(shù)據(jù)的比例r從0.1~0.7 的對(duì)比結(jié)果。此時(shí),候選標(biāo)簽集包含1 個(gè)真實(shí)標(biāo)簽和2 個(gè)冗余的噪聲標(biāo)簽。從圖示的結(jié)果同樣可以得出,當(dāng)冗余標(biāo)簽數(shù)據(jù)的比例在0.4~0.6 時(shí)所提的方法優(yōu)于PLAGGD 方法。
圖4 數(shù)據(jù)分類比較結(jié)果(n=2)
圖5 展示了冗余標(biāo)簽數(shù)量n=3 時(shí),冗余標(biāo)簽數(shù)據(jù)的比例r從0.1~0.7 的對(duì)比結(jié)果。此時(shí),候選標(biāo)簽集包含1 個(gè)真實(shí)標(biāo)簽和3 個(gè)冗余的噪聲標(biāo)簽。從圖示的結(jié)果可以得出,當(dāng)冗余標(biāo)簽數(shù)據(jù)的比例在0.4~0.5 時(shí)所提的方法優(yōu)于PLAGGD 方法。
圖5 數(shù)據(jù)分類比較結(jié)果(n=3)
圖6 展示了冗余標(biāo)簽數(shù)量n=4 時(shí),冗余標(biāo)簽數(shù)據(jù)的比例r從0.1~0.7 的對(duì)比結(jié)果。此時(shí),候選標(biāo)簽集包含1 個(gè)真實(shí)標(biāo)簽和4 個(gè)冗余的噪聲標(biāo)簽。從圖示的結(jié)果可以得出,當(dāng)冗余標(biāo)簽數(shù)據(jù)的比例在0.4~0.5 時(shí)所提的方法優(yōu)于PLAGGD 方法。
圖6 數(shù)據(jù)分類比較結(jié)果(n=4)
綜合分析圖3~6 的結(jié)果可以得知,本文所提的方法在不同參數(shù)的實(shí)驗(yàn)中準(zhǔn)確率與對(duì)比方法相差不大,但是冗余標(biāo)簽數(shù)據(jù)占比與正常數(shù)據(jù)占比相近時(shí),本文所提的方法具有較好的表現(xiàn)效果。因此,在智能裝配多源數(shù)據(jù)中存在冗余標(biāo)簽時(shí)可用所提的方法對(duì)多源數(shù)據(jù)冗余標(biāo)簽進(jìn)行篩選,達(dá)到清洗數(shù)據(jù)、提升數(shù)據(jù)質(zhì)量的目標(biāo)。
為了驗(yàn)證所提方法在邊緣環(huán)境中運(yùn)行的可行性,本文在CIC2019 數(shù)據(jù)集上對(duì)模型進(jìn)行了時(shí)間性能和內(nèi)存占用性能的分析,分別取10~1000 組數(shù)據(jù),在樹(shù)莓派的環(huán)境中進(jìn)行測(cè)試,測(cè)試結(jié)果如圖7 所示。
圖7 CIC2019 數(shù)據(jù)集的實(shí)驗(yàn)性能
圖7 為CIC2019 數(shù)據(jù)集分別在1G、2G 和8G 樹(shù)莓派上時(shí)模型的運(yùn)行時(shí)間和內(nèi)存占用的分析結(jié)果。通過(guò)對(duì)不同設(shè)備運(yùn)行時(shí)間和內(nèi)存占用的分析得出,隨著數(shù)據(jù)量的增長(zhǎng),文中所提模型的運(yùn)行時(shí)間和內(nèi)存占用整體呈平滑上升趨勢(shì),說(shuō)明模型對(duì)數(shù)據(jù)清洗任務(wù)的性能較為穩(wěn)定,并且在性能較差的設(shè)備上運(yùn)行效果較好,體現(xiàn)了模型輕量級(jí)的特點(diǎn)。
本文提出了一種有效的邊緣物聯(lián)網(wǎng)系統(tǒng)中設(shè)備處理模糊數(shù)據(jù)和冗余標(biāo)簽的方法,并使用該法對(duì)智能裝配多源數(shù)據(jù)中的冗余、模糊標(biāo)簽進(jìn)行清洗。該法為智能計(jì)算和邊緣決策提供了更有效且安全的數(shù)據(jù),能夠在智能制造流程中保障生產(chǎn)安全,提升生產(chǎn)質(zhì)量。