基于深度學(xué)習(xí)的鋁廠工業(yè)自動(dòng)澆筑中的圖像識(shí)別

2020-06-17 13:36易佳明胡小龍

湖北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年3期

易佳明，胡小龍

(中南大學(xué)計(jì)算機(jī)學(xué)院，湖南長(zhǎng)沙 410075)

0 引言

鋁金屬?gòu)V泛應(yīng)用于生產(chǎn)生活的各個(gè)方面，從家庭所需到重工業(yè)領(lǐng)域，都是一種不易替代的原材料.它有很好的回收性，不易對(duì)環(huán)境造成污染，在我國(guó)甚至在世界上都有著舉足輕重的地位[1].鋁的工業(yè)發(fā)展經(jīng)歷了許多階段，目前主要采用的是鋁電解槽設(shè)計(jì)[2],其方法是將鋁水倒入連接槽中，在電解過(guò)程中需要將陽(yáng)極爪和陽(yáng)極碳?jí)K連接，陽(yáng)極碳?jí)K在電解槽中會(huì)被消耗，補(bǔ)充陽(yáng)極碳?jí)K后需要重新將陽(yáng)極爪和陽(yáng)極碳?jí)K連接[3].目前鋁廠大多采用人工進(jìn)行操作，傾倒鋁水依靠人眼判斷，在高溫環(huán)境中如工人操作不當(dāng)，易產(chǎn)生危險(xiǎn).人工進(jìn)行澆注耗費(fèi)人力成本，需要一套自動(dòng)澆注系統(tǒng)，滿足鋁的工業(yè)生產(chǎn)需要.有關(guān)此類自動(dòng)澆注系統(tǒng)的研究較少，少有將圖像處理運(yùn)用于鋁廠工業(yè)生產(chǎn)中的實(shí)例，本研究為此澆注系統(tǒng)提供一個(gè)可靠的算法.

圖像處理技術(shù)起源于20世紀(jì)20年代，傳統(tǒng)的數(shù)字圖像處理應(yīng)用主要是對(duì)數(shù)字圖像進(jìn)行簡(jiǎn)單處理，采用霍夫變換識(shí)別幾何物體[4-5]，但是在實(shí)際應(yīng)用過(guò)程中，有很多環(huán)境干擾因素，霍夫變換很難做出正確的識(shí)別；現(xiàn)代圖像處理技術(shù)采用深度學(xué)習(xí)的方法，抗干擾性和精確性都得到極大的提升[6].將圖像處理技術(shù)應(yīng)用于工業(yè)生產(chǎn)是一類重大應(yīng)用方向，例如：將圖像識(shí)別應(yīng)用于零件分揀系統(tǒng)中，采用主成分分析法(PCA)與SVM，能滿足實(shí)際工業(yè)生產(chǎn)的需求[7]；采用CNN將圖像識(shí)別應(yīng)用于稅票粘貼質(zhì)量檢測(cè)[8]，設(shè)計(jì)出針對(duì)稅票粘貼質(zhì)量的系統(tǒng)也能滿足需求；利用手機(jī)的便捷性和拍攝功能越來(lái)越強(qiáng)大，可為各類商超設(shè)計(jì)一套視頻身份驗(yàn)證系統(tǒng)，以滿足具體需要[9].將圖像識(shí)別應(yīng)用于工業(yè)生產(chǎn)中已經(jīng)有了很多成功的先例[10-11]，本研究將融合傳統(tǒng)圖像處理和深度學(xué)習(xí)技術(shù)對(duì)圖像進(jìn)行識(shí)別，并為自動(dòng)澆注系統(tǒng)提供合適的算法.

1 自動(dòng)澆筑中圖像識(shí)別算法設(shè)計(jì)

基于深度學(xué)習(xí)的各種算法對(duì)樣本質(zhì)量和數(shù)量有較高的要求，所以對(duì)算法樣本進(jìn)行預(yù)處理是非常必要的.我們得到的視頻數(shù)據(jù)含有大量的冗余信息，需對(duì)視頻中截取的原始圖片進(jìn)行關(guān)鍵位置信息提取，這些信息中有含有大量噪聲，需要降噪、通過(guò)小波變換處理樣本，并進(jìn)行歸一化處理，以提高最終的樣本質(zhì)量.采用CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)模型，采用兩層卷積層和池化層，兩層全連接層，最后采用softmax進(jìn)行分類[12]，如圖1所示，并在測(cè)試階段集中測(cè)試實(shí)驗(yàn)結(jié)果.

圖1 采用的算法框架

1.1 數(shù)據(jù)集處理

1.1.1 數(shù)據(jù)采集由于鋁廠內(nèi)部需要保密，而且內(nèi)部屬于高溫環(huán)境，不能隨意進(jìn)入，主要由工作人員拍攝視頻.拍攝的視頻需要保證樣本的隨機(jī)性和多樣性，需要在不同角度、多種環(huán)境條件下錄制視頻.按照計(jì)劃需錄制5段視頻，覆蓋大部分場(chǎng)景.

1.1.2 數(shù)據(jù)預(yù)處理為避免噪聲干擾，得到的數(shù)據(jù)需要進(jìn)行預(yù)處理.對(duì)錄制的視頻進(jìn)行處理，首先需要將視頻數(shù)據(jù)處理成為幀數(shù)據(jù)，得到每一幀的圖像.視頻在錄制的時(shí)候獲取了大量無(wú)關(guān)信息，所以還要將關(guān)鍵信息截取出來(lái)，如圖2(a)所示，像素大小為168×168.為了將噪聲過(guò)濾，同時(shí)保留照片的更多細(xì)節(jié)，采用小波變換將彩色照片進(jìn)行增強(qiáng)細(xì)節(jié)，同時(shí)將低頻信息和噪聲去除[13].

1.1.3 分解彩色圖像將從視頻幀中提取到的關(guān)鍵信息分為3個(gè)分量，按照red(R分量)、green(G分量)、blue(B分量)提取出來(lái)并存入3張圖片，分別如圖2(b)～(d)所示.

1.1.4 處理3個(gè)圖像分量由于圖像信號(hào)是離散信號(hào)，所以采用離散小波變換，需要定義尺度函數(shù)和平移基：

φj,m,n(x,y)=2j/2φ(2jx-m,2jy-n)

(1)

(2)

其中，i表示方向小波，H是列向變化，V是行向變化，D是對(duì)應(yīng)對(duì)角線方向的變化.對(duì)于圖像M×N的f(x，y)圖像離散小波變換：

(3)

(4)

圖2 澆注視頻中幀數(shù)據(jù)的關(guān)鍵信息

圖3 原圖R分量圖片經(jīng)小波處理后的圖片信息

這里我們采用最簡(jiǎn)單的haar小波變換2次分解，圖3就是將原圖R分量經(jīng)過(guò)haar小波變換2次分解得到的圖片信號(hào)，由于圖像的細(xì)節(jié)保留在低頻區(qū)域，所以需要將低頻區(qū)域截取出來(lái)，即截取圖像左上部分，剩余的3個(gè)分量噪聲過(guò)多，直接舍棄[14].再將剩下的G、B分量圖像進(jìn)行小波變換，可以得到3種分量圖像，將其進(jìn)行合成，就可以得到去除大部分噪聲后且圖像大小縮減為原來(lái)一半的圖像.

2 圖像識(shí)別方法

由于CNN卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域有很好的效果[15]，如今已運(yùn)用在很多識(shí)別場(chǎng)景當(dāng)中，本研究同樣采用CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)圖像識(shí)別模型，CNN卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.

圖4 CNN結(jié)構(gòu)模型

第一個(gè)步驟是卷積，卷積是為了將圖像中的特征提取出來(lái)，卷積后的數(shù)值說(shuō)明圖像與該卷積核的相似度，該模型設(shè)計(jì)了兩層卷積-池化層，每層卷積-池化層中的卷積層數(shù)不一樣.卷積公式如式(5)所示.

y=F((f*w)+b)

(5)

其中f表示3×3大小圖像，w表示卷積核，*表示卷積運(yùn)算，b表示偏置值，F(xiàn)表示卷積激活函數(shù).這里采用64個(gè)3*3的卷積核，而且是3通道，步長(zhǎng)為1，選擇卷積功能的激活函數(shù)為relu函數(shù).由于卷積層數(shù)量很多，并且每個(gè)卷積層都會(huì)得到與原圖差不多大的圖像，會(huì)導(dǎo)致數(shù)據(jù)量急劇增大，同時(shí)參雜很多冗余數(shù)據(jù)，池化層的作用就是為減少計(jì)算量和降低數(shù)據(jù)維度，防止過(guò)擬合，池化公式如式(6)所示.

(6)

采用3×3的最大池化，步長(zhǎng)為2，池化之后采取lrn()操作，局部響應(yīng)歸一化，提升網(wǎng)絡(luò)訓(xùn)練速度.本研究采取了兩層卷積-池化層，第二層卷積層采用16個(gè)3*3卷積核，其他與第一層卷積-池化層一致.經(jīng)過(guò)兩層全連接層，其中在第一層全連接層中將之前池化層的輸出reshape成一維特征，并采用線性整流函數(shù)relu()作為激活函數(shù).在后一層全連接層采用softmax函數(shù)作為激活函數(shù)，它具有3個(gè)神經(jīng)元，作為識(shí)別澆注完成、未完成及環(huán)境的分類結(jié)果.Softmax具體公式如式(7)所示.

(7)

其中，x為輸入，θ表示目標(biāo)函數(shù)參數(shù)，K為分類結(jié)果數(shù)量.softmax損失函數(shù)如式(8)所示.

(8)

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境本研究實(shí)驗(yàn)環(huán)境如表1所示.

表1 實(shí)驗(yàn)環(huán)境

3.2 小波變換模型及卷積神經(jīng)網(wǎng)絡(luò)模型尚未澆注完成的圖像如圖5(a)所示，已經(jīng)澆注完成的圖像如圖5(b)所示.

將3類背景圖像各3 000張輸入到網(wǎng)絡(luò)模型中，選取600張作為測(cè)試集.本文中所定義的輸入層是經(jīng)過(guò)小波變換，將高頻信息中的噪聲去除，僅留下低頻信息的二維圖像，確保圖像清晰、干擾少.然后，將圖像特征信息提取出來(lái)并進(jìn)行歸一化處理，作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，需進(jìn)一步處理.經(jīng)過(guò)兩層卷積-池化層，進(jìn)一步提取圖像特征.然后使用兩層全連接層構(gòu)建神經(jīng)網(wǎng)絡(luò)，采用128個(gè)神經(jīng)元與128個(gè)特征值連接，最后一層采用softmax作為激活函數(shù).在訓(xùn)練過(guò)程中，每訓(xùn)練10次，輸出一次loss值，并記錄訓(xùn)練總次數(shù).經(jīng)過(guò)訓(xùn)練，得到的loss圖如圖6所示.

圖5 實(shí)驗(yàn)數(shù)據(jù)樣本

圖6 loss曲線圖

調(diào)整卷積核大小和卷積層數(shù)，模型經(jīng)過(guò)訓(xùn)練之后，loss值很快達(dá)到了收斂，并且最終穩(wěn)定.訓(xùn)練之后進(jìn)行分類測(cè)試，分類準(zhǔn)確率達(dá)到91.88%.由此可見(jiàn)，該模型已經(jīng)可以成功識(shí)別3種澆注狀態(tài)，可用于鋁廠工業(yè)生產(chǎn)中.

3.3 卷積神經(jīng)網(wǎng)絡(luò)模型分析訓(xùn)練過(guò)程中需要分類的圖像信息較為簡(jiǎn)單，而訓(xùn)練模型復(fù)雜，為防止過(guò)擬合，發(fā)生訓(xùn)練時(shí)loss很低、但實(shí)際測(cè)試時(shí)模型表現(xiàn)不好的情況，所以引入dropout層，將一部分神經(jīng)元忽略，避免過(guò)于復(fù)雜的神經(jīng)網(wǎng)絡(luò)造成過(guò)擬合.

為驗(yàn)證本研究算法，將其與單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)和單獨(dú)使用小波變換，還有傳統(tǒng)圖像處理霍夫變換的算法進(jìn)行比較，得到的結(jié)果如表2所示.由于采用了小波變換對(duì)圖像中噪聲進(jìn)行消除，將高頻信息保留下來(lái)，濾除低頻噪聲，因此比僅使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別的識(shí)別率更高.本文中采用了卷積神經(jīng)網(wǎng)絡(luò)，卷積對(duì)圖像中特征進(jìn)行提取，相比于僅使用小波變換、人工進(jìn)行特征提取，避免了環(huán)境因素和拍攝角度的干擾.而傳統(tǒng)圖像處理是采取霍夫變換對(duì)圓形進(jìn)行檢測(cè)的方法，需要保持圓形的較高完整性、避免環(huán)境因素的干擾，因而識(shí)別率更低.

表2 算法分類準(zhǔn)確度對(duì)比

4 結(jié)束語(yǔ)