易佳明,胡小龍
(中南大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410075)
鋁金屬?gòu)V泛應(yīng)用于生產(chǎn)生活的各個(gè)方面,從家庭所需到重工業(yè)領(lǐng)域,都是一種不易替代的原材料.它有很好的回收性,不易對(duì)環(huán)境造成污染,在我國(guó)甚至在世界上都有著舉足輕重的地位[1].鋁的工業(yè)發(fā)展經(jīng)歷了許多階段,目前主要采用的是鋁電解槽設(shè)計(jì)[2],其方法是將鋁水倒入連接槽中,在電解過(guò)程中需要將陽(yáng)極爪和陽(yáng)極碳?jí)K連接,陽(yáng)極碳?jí)K在電解槽中會(huì)被消耗,補(bǔ)充陽(yáng)極碳?jí)K后需要重新將陽(yáng)極爪和陽(yáng)極碳?jí)K連接[3].目前鋁廠大多采用人工進(jìn)行操作,傾倒鋁水依靠人眼判斷,在高溫環(huán)境中如工人操作不當(dāng),易產(chǎn)生危險(xiǎn).人工進(jìn)行澆注耗費(fèi)人力成本,需要一套自動(dòng)澆注系統(tǒng),滿足鋁的工業(yè)生產(chǎn)需要.有關(guān)此類自動(dòng)澆注系統(tǒng)的研究較少,少有將圖像處理運(yùn)用于鋁廠工業(yè)生產(chǎn)中的實(shí)例,本研究為此澆注系統(tǒng)提供一個(gè)可靠的算法.
圖像處理技術(shù)起源于20世紀(jì)20年代,傳統(tǒng)的數(shù)字圖像處理應(yīng)用主要是對(duì)數(shù)字圖像進(jìn)行簡(jiǎn)單處理,采用霍夫變換識(shí)別幾何物體[4-5],但是在實(shí)際應(yīng)用過(guò)程中,有很多環(huán)境干擾因素,霍夫變換很難做出正確的識(shí)別;現(xiàn)代圖像處理技術(shù)采用深度學(xué)習(xí)的方法,抗干擾性和精確性都得到極大的提升[6].將圖像處理技術(shù)應(yīng)用于工業(yè)生產(chǎn)是一類重大應(yīng)用方向,例如:將圖像識(shí)別應(yīng)用于零件分揀系統(tǒng)中,采用主成分分析法(PCA)與SVM,能滿足實(shí)際工業(yè)生產(chǎn)的需求[7];采用CNN將圖像識(shí)別應(yīng)用于稅票粘貼質(zhì)量檢測(cè)[8],設(shè)計(jì)出針對(duì)稅票粘貼質(zhì)量的系統(tǒng)也能滿足需求;利用手機(jī)的便捷性和拍攝功能越來(lái)越強(qiáng)大,可為各類商超設(shè)計(jì)一套視頻身份驗(yàn)證系統(tǒng),以滿足具體需要[9].將圖像識(shí)別應(yīng)用于工業(yè)生產(chǎn)中已經(jīng)有了很多成功的先例[10-11],本研究將融合傳統(tǒng)圖像處理和深度學(xué)習(xí)技術(shù)對(duì)圖像進(jìn)行識(shí)別,并為自動(dòng)澆注系統(tǒng)提供合適的算法.
基于深度學(xué)習(xí)的各種算法對(duì)樣本質(zhì)量和數(shù)量有較高的要求,所以對(duì)算法樣本進(jìn)行預(yù)處理是非常必要的.我們得到的視頻數(shù)據(jù)含有大量的冗余信息,需對(duì)視頻中截取的原始圖片進(jìn)行關(guān)鍵位置信息提取,這些信息中有含有大量噪聲,需要降噪、通過(guò)小波變換處理樣本,并進(jìn)行歸一化處理,以提高最終的樣本質(zhì)量.采用CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)模型,采用兩層卷積層和池化層,兩層全連接層,最后采用softmax進(jìn)行分類[12],如圖1所示,并在測(cè)試階段集中測(cè)試實(shí)驗(yàn)結(jié)果.
圖1 采用的算法框架
1.1 數(shù)據(jù)集處理
1.1.1 數(shù)據(jù)采集 由于鋁廠內(nèi)部需要保密,而且內(nèi)部屬于高溫環(huán)境,不能隨意進(jìn)入,主要由工作人員拍攝視頻.拍攝的視頻需要保證樣本的隨機(jī)性和多樣性,需要在不同角度、多種環(huán)境條件下錄制視頻.按照計(jì)劃需錄制5段視頻,覆蓋大部分場(chǎng)景.
1.1.2 數(shù)據(jù)預(yù)處理 為避免噪聲干擾,得到的數(shù)據(jù)需要進(jìn)行預(yù)處理.對(duì)錄制的視頻進(jìn)行處理,首先需要將視頻數(shù)據(jù)處理成為幀數(shù)據(jù),得到每一幀的圖像.視頻在錄制的時(shí)候獲取了大量無(wú)關(guān)信息,所以還要將關(guān)鍵信息截取出來(lái),如圖2(a)所示,像素大小為168×168.為了將噪聲過(guò)濾,同時(shí)保留照片的更多細(xì)節(jié),采用小波變換將彩色照片進(jìn)行增強(qiáng)細(xì)節(jié),同時(shí)將低頻信息和噪聲去除[13].
1.1.3 分解彩色圖像 將從視頻幀中提取到的關(guān)鍵信息分為3個(gè)分量,按照red(R分量)、green(G分量)、blue(B分量)提取出來(lái)并存入3張圖片,分別如圖2(b)~(d)所示.
1.1.4 處理3個(gè)圖像分量 由于圖像信號(hào)是離散信號(hào),所以采用離散小波變換,需要定義尺度函數(shù)和平移基:
φj,m,n(x,y)=2j/2φ(2jx-m,2jy-n)
(1)
(2)
其中,i表示方向小波,H是列向變化,V是行向變化,D是對(duì)應(yīng)對(duì)角線方向的變化.對(duì)于圖像M×N的f(x,y)圖像離散小波變換:
(3)
(4)
圖2 澆注視頻中幀數(shù)據(jù)的關(guān)鍵信息
圖3 原圖R分量圖片經(jīng)小波處理后的圖片信息
這里我們采用最簡(jiǎn)單的haar小波變換2次分解,圖3就是將原圖R分量經(jīng)過(guò)haar小波變換2次分解得到的圖片信號(hào),由于圖像的細(xì)節(jié)保留在低頻區(qū)域,所以需要將低頻區(qū)域截取出來(lái),即截取圖像左上部分,剩余的3個(gè)分量噪聲過(guò)多,直接舍棄[14].再將剩下的G、B分量圖像進(jìn)行小波變換,可以得到3種分量圖像,將其進(jìn)行合成,就可以得到去除大部分噪聲后且圖像大小縮減為原來(lái)一半的圖像.
由于CNN卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域有很好的效果[15],如今已運(yùn)用在很多識(shí)別場(chǎng)景當(dāng)中,本研究同樣采用CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)圖像識(shí)別模型,CNN卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.
圖4 CNN結(jié)構(gòu)模型
第一個(gè)步驟是卷積,卷積是為了將圖像中的特征提取出來(lái),卷積后的數(shù)值說(shuō)明圖像與該卷積核的相似度,該模型設(shè)計(jì)了兩層卷積-池化層,每層卷積-池化層中的卷積層數(shù)不一樣.卷積公式如式(5)所示.
y=F((f*w)+b)
(5)
其中f表示3×3大小圖像,w表示卷積核,*表示卷積運(yùn)算,b表示偏置值,F(xiàn)表示卷積激活函數(shù).這里采用64個(gè)3*3的卷積核,而且是3通道,步長(zhǎng)為1,選擇卷積功能的激活函數(shù)為relu函數(shù).由于卷積層數(shù)量很多,并且每個(gè)卷積層都會(huì)得到與原圖差不多大的圖像,會(huì)導(dǎo)致數(shù)據(jù)量急劇增大,同時(shí)參雜很多冗余數(shù)據(jù),池化層的作用就是為減少計(jì)算量和降低數(shù)據(jù)維度,防止過(guò)擬合,池化公式如式(6)所示.
(6)
采用3×3的最大池化,步長(zhǎng)為2,池化之后采取lrn()操作,局部響應(yīng)歸一化,提升網(wǎng)絡(luò)訓(xùn)練速度.本研究采取了兩層卷積-池化層,第二層卷積層采用16個(gè)3*3卷積核,其他與第一層卷積-池化層一致.經(jīng)過(guò)兩層全連接層,其中在第一層全連接層中將之前池化層的輸出reshape成一維特征,并采用線性整流函數(shù)relu()作為激活函數(shù).在后一層全連接層采用softmax函數(shù)作為激活函數(shù),它具有3個(gè)神經(jīng)元,作為識(shí)別澆注完成、未完成及環(huán)境的分類結(jié)果.Softmax具體公式如式(7)所示.
(7)
其中,x為輸入,θ表示目標(biāo)函數(shù)參數(shù),K為分類結(jié)果數(shù)量.softmax損失函數(shù)如式(8)所示.
(8)
3.1 實(shí)驗(yàn)環(huán)境本研究實(shí)驗(yàn)環(huán)境如表1所示.
表1 實(shí)驗(yàn)環(huán)境
3.2 小波變換模型及卷積神經(jīng)網(wǎng)絡(luò)模型尚未澆注完成的圖像如圖5(a)所示,已經(jīng)澆注完成的圖像如圖5(b)所示.
將3類背景圖像各3 000張輸入到網(wǎng)絡(luò)模型中,選取600張作為測(cè)試集.本文中所定義的輸入層是經(jīng)過(guò)小波變換,將高頻信息中的噪聲去除,僅留下低頻信息的二維圖像,確保圖像清晰、干擾少.然后,將圖像特征信息提取出來(lái)并進(jìn)行歸一化處理,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,需進(jìn)一步處理.經(jīng)過(guò)兩層卷積-池化層,進(jìn)一步提取圖像特征.然后使用兩層全連接層構(gòu)建神經(jīng)網(wǎng)絡(luò),采用128個(gè)神經(jīng)元與128個(gè)特征值連接,最后一層采用softmax作為激活函數(shù).在訓(xùn)練過(guò)程中,每訓(xùn)練10次,輸出一次loss值,并記錄訓(xùn)練總次數(shù).經(jīng)過(guò)訓(xùn)練,得到的loss圖如圖6所示.
圖5 實(shí)驗(yàn)數(shù)據(jù)樣本
圖6 loss曲線圖
調(diào)整卷積核大小和卷積層數(shù),模型經(jīng)過(guò)訓(xùn)練之后,loss值很快達(dá)到了收斂,并且最終穩(wěn)定.訓(xùn)練之后進(jìn)行分類測(cè)試,分類準(zhǔn)確率達(dá)到91.88%.由此可見(jiàn),該模型已經(jīng)可以成功識(shí)別3種澆注狀態(tài),可用于鋁廠工業(yè)生產(chǎn)中.
3.3 卷積神經(jīng)網(wǎng)絡(luò)模型分析訓(xùn)練過(guò)程中需要分類的圖像信息較為簡(jiǎn)單,而訓(xùn)練模型復(fù)雜,為防止過(guò)擬合,發(fā)生訓(xùn)練時(shí)loss很低、但實(shí)際測(cè)試時(shí)模型表現(xiàn)不好的情況,所以引入dropout層,將一部分神經(jīng)元忽略,避免過(guò)于復(fù)雜的神經(jīng)網(wǎng)絡(luò)造成過(guò)擬合.
為驗(yàn)證本研究算法,將其與單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)和單獨(dú)使用小波變換,還有傳統(tǒng)圖像處理霍夫變換的算法進(jìn)行比較,得到的結(jié)果如表2所示.由于采用了小波變換對(duì)圖像中噪聲進(jìn)行消除,將高頻信息 保留下來(lái),濾除低頻噪聲,因此比僅使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別的識(shí)別率更高.本文中采用了卷積神經(jīng)網(wǎng)絡(luò),卷積對(duì)圖像中特征進(jìn)行提取,相比于僅使用小波變換、人工進(jìn)行特征提取,避免了環(huán)境因素和拍攝角度的干擾.而傳統(tǒng)圖像處理是采取霍夫變換對(duì)圓形進(jìn)行檢測(cè)的方法,需要保持圓形的較高完整性、避免環(huán)境因素的干擾,因而識(shí)別率更低.
表2 算法分類準(zhǔn)確度對(duì)比
針對(duì)鋁廠自動(dòng)澆注的圖像識(shí)別,本研究提出一種結(jié)合小波變換和卷積神經(jīng)網(wǎng)絡(luò)的分類算法.將小波變換融入預(yù)處理過(guò)程中,由于高頻信息中包含大多數(shù)噪聲,而低頻信息中包含圖像的絕大部分信息,采用小波變換去除圖像噪聲、抑制環(huán)境背景,對(duì)低頻信息進(jìn)行增強(qiáng)具有顯著的效果.該預(yù)處理的圖像信息卷積神經(jīng)網(wǎng)絡(luò)快速提取有效特征,經(jīng)過(guò)幾種算法分類對(duì)比,本研究算法在亮度不足、噪聲干擾多的情況下仍有很高的識(shí)別率,可以用于鋁廠自動(dòng)澆注中的圖像識(shí)別.后續(xù)仍可以對(duì)模型進(jìn)行進(jìn)一步改進(jìn),以提高模型分類的準(zhǔn)確度.
湖北大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年3期