李軍鋒 何雙伯 馮偉夏 熊山 薛江 周青云
摘 要: 研究了增強(qiáng)現(xiàn)實(shí)變壓器圖像識(shí)別技術(shù),為解決增強(qiáng)現(xiàn)實(shí)中變壓器圖像識(shí)別問題,首先在介紹深度學(xué)習(xí)的經(jīng)典模型之一,即卷積神經(jīng)網(wǎng)絡(luò)CNN的基礎(chǔ)上,提出基于兩個(gè)并行結(jié)構(gòu)的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型(改進(jìn)CNN),利用改進(jìn)CNN模型對(duì)增強(qiáng)現(xiàn)實(shí)攝像頭掃描得到的圖像進(jìn)行分類,實(shí)現(xiàn)變壓器圖形化識(shí)別。與普通卷積神經(jīng)網(wǎng)絡(luò)、SIFT圖像識(shí)別算法等對(duì)比,改進(jìn)CNN具有更低的錯(cuò)誤率,并對(duì)變壓器圖像識(shí)別的準(zhǔn)確率更高,通過仿真實(shí)驗(yàn)驗(yàn)證了此方法的準(zhǔn)確性。
關(guān)鍵詞: 增強(qiáng)現(xiàn)實(shí); 改進(jìn)CNN; 變壓器; 圖像識(shí)別; 識(shí)別準(zhǔn)確度; 卷積運(yùn)算
中圖分類號(hào): TN911.73?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)07?0029?04
Improved CNN based transformer image recognition technology
in augmented reality environment
LI Junfeng1, 2, HE Shuangbai2, FENG Weixia2, XIONG Shan2, XUE Jiang2, ZHOU Qingyun2
(1. College of Automation, Guangdong University of Technology, Guangzhou 510006, China;
2. Education and Training Evaluation Center, Guangdong Power Grid Limited Liability Company, Guangzhou 510520, China)
Abstract: The image recognition technology of transformer in augmented reality environment is studied. In order to solve the problem of transformer image recognition in augmented reality environment, an improved convolutional neural network (CNN) model based on two parallel structures is proposed on the basis of introduction of CNN as one of the typical deep learning models. The images obtained by scanning of an augmented reality camera are classified by means of the improved CNN to realize the transformer graphical recognition. In comparison with ordinary CNN and SIFT image recognition algorithm, the improved CNN has lower error rate, and higher accuracy for transformer image recognition. The accuracy of this method was verified with simulation experiments.
Keywords: augmented reality; improved CNN; transformer; image recognition; recognition accuracy; convolution operation
0 引 言
增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR)作為虛擬現(xiàn)實(shí)技術(shù)的拓展,在近年來取得了很大的進(jìn)展,通過將虛擬對(duì)象疊加到現(xiàn)實(shí)環(huán)境中增強(qiáng)對(duì)事物的認(rèn)知,將現(xiàn)實(shí)中沒有的物體具體化[1]。在電氣工業(yè)中,增強(qiáng)現(xiàn)實(shí)技術(shù)的應(yīng)用也日漸開展,利用增強(qiáng)現(xiàn)實(shí)技術(shù)實(shí)現(xiàn)事故模擬等現(xiàn)實(shí)中不宜直接試驗(yàn)的運(yùn)行狀況。增強(qiáng)現(xiàn)實(shí)中重要的一步是圖像識(shí)別,在增強(qiáng)現(xiàn)實(shí)變壓器事故模擬中,通過增強(qiáng)現(xiàn)實(shí)攝像頭的掃描功能獲取現(xiàn)實(shí)物體的圖片,之后通過圖像識(shí)別技術(shù)識(shí)別出目標(biāo)對(duì)象變壓器,然后才能在目標(biāo)對(duì)象上建立變壓器著火的虛擬景象,增加對(duì)變壓器事故的認(rèn)知。文獻(xiàn)[2?3]研究了增強(qiáng)現(xiàn)實(shí)在教育、移動(dòng)學(xué)習(xí)中的應(yīng)用,其相應(yīng)技術(shù)可以延伸到電氣領(lǐng)域的作業(yè)工作輔助中,具有一定借鑒意義。
本文在研究卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,將其應(yīng)用于增強(qiáng)現(xiàn)實(shí)變壓器圖像識(shí)別,提出基于兩個(gè)拓?fù)浣Y(jié)構(gòu)的改進(jìn)CNN模型,通過增強(qiáng)現(xiàn)實(shí)攝像頭掃描得到變壓器的圖像,將其進(jìn)行分類,解決變壓器圖形化識(shí)別問題。
1 卷積神經(jīng)網(wǎng)絡(luò)及改進(jìn)CNN模型
1.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)科學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的成果,其設(shè)計(jì)靈感主要來源于視覺認(rèn)知機(jī)制[4?5]。受視覺神經(jīng)感受野的啟發(fā),卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元之間通過稀疏連接的方式進(jìn)行連接,具有較多的隱含層,每一個(gè)隱含層有多個(gè)數(shù)據(jù)矩陣平面,每個(gè)數(shù)據(jù)矩陣平面的神經(jīng)元共享權(quán)值參數(shù)矩陣。相比于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)的隱含層增加了卷積層與降采樣層,保證在提取特征的同時(shí)保持時(shí)間和空間上的位移不變性,文獻(xiàn)[6]設(shè)計(jì)的LeNet網(wǎng)絡(luò)模型在手寫字識(shí)別上取得了十分優(yōu)秀的效果。
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)一般包括輸入層、隱含層、輸出層,隱含層一般包括卷積層(C層)、降采樣層(S層)與全連接層(F層),其典型結(jié)構(gòu)如圖1所示,卷積神經(jīng)網(wǎng)絡(luò)的輸入層與隱含層連接,隱含層由卷積層和降采樣層交替連接組成,卷積層從輸入層獲取歸一化后的矩陣之后進(jìn)行卷積運(yùn)算處理,然后通過稀疏連接與降采樣層相連,上一層的輸出作為本層的輸入,最后通過全連接層連接到輸出層。卷積神經(jīng)網(wǎng)絡(luò)通過卷積層進(jìn)行特征提取,通過降采樣降低運(yùn)算量,從而使網(wǎng)絡(luò)結(jié)構(gòu)對(duì)樣本矩陣具有比較高的畸變?nèi)萑棠芰Γ鼫?zhǔn)確地實(shí)現(xiàn)對(duì)數(shù)據(jù)的分級(jí)表達(dá),進(jìn)而得到更加理想的輸出。
輸入樣本數(shù)據(jù)一般為矩陣形式,即每個(gè)樣本為一個(gè)二維矩陣,對(duì)二維矩陣進(jìn)行歸一化處理,歸一化采用常用的線性函數(shù)歸一化(Max?Min scaling)方法,其處理公式為:
式中:[Xij]為歸一化后矩陣的第[i]行第[j]列的元素;[xij]為歸一化前矩陣的第[i]行第[j]列的元素;[xmax]為矩陣中最大的元素;[xmin]為矩陣中最小的元素。
卷積神經(jīng)網(wǎng)絡(luò)中卷積層的主要作用是在提取數(shù)據(jù)局部特征的同時(shí)降低矩陣維度,一個(gè)隱含層一般由幾個(gè)平面構(gòu)成,每個(gè)平面的表達(dá)形式為二維特征矩陣,代表一種提取特征,通過一個(gè)共享卷積核實(shí)現(xiàn)特征提取。通過卷積核的共享使得網(wǎng)絡(luò)具有權(quán)值共享和位移不變性,在并行地提取矩陣特征的同時(shí)減少了權(quán)值偏置參數(shù)的數(shù)量,從而對(duì)數(shù)據(jù)矩陣起到降低維度和提取特征的作用。不同特征矩陣對(duì)應(yīng)的卷積核不同,多個(gè)特征矩陣用于提取輸入數(shù)據(jù)矩陣中的多個(gè)非顯性特征。離散卷積運(yùn)算的計(jì)算公式為:
卷積運(yùn)算的原理如圖2所示,輸入的特征矩陣維度為[n×n,]將其與維度為[k×k]的可學(xué)習(xí)卷積核進(jìn)行卷積計(jì)算,得到維度為[m×m]的輸出特征矩陣,輸入矩陣、卷積核與輸出矩陣三者之間的維度關(guān)系滿足[m=n-k+1,]式(3)為卷積過程的計(jì)算公式:
式中:[l]表示卷積神經(jīng)網(wǎng)絡(luò)的層數(shù);[K]表示[l]層的卷積核;[B]表示[l]層的偏置矩陣;[Xlo]表示[l]層輸出;[Xl-1i]表示[l]層輸入。
卷積神經(jīng)網(wǎng)絡(luò)的另一個(gè)重要的隱含層便是降采樣層,降采樣層可以對(duì)來自上一層的數(shù)據(jù)進(jìn)行池化處理以達(dá)到數(shù)據(jù)降維的目的,通過縮放映射過程來降低輸入矩陣的維度,從而在保持特征的同時(shí)減少計(jì)算量。
降采樣的過程如圖3所示,矩陣的維度值關(guān)系可以表示為[m=nk。]降采樣層通常采取平均池化的降采樣方法[7],在防止過擬合的同時(shí)可以縮放不變地提取輸入數(shù)據(jù)矩陣的特征,在卷積神經(jīng)網(wǎng)絡(luò)中起到二次特征提取和降低數(shù)據(jù)維度的作用,降采樣過程的計(jì)算公式如下:
1.2 改進(jìn)CNN模型
與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)等方法相比,卷積神經(jīng)網(wǎng)絡(luò)在增強(qiáng)現(xiàn)實(shí)變壓器圖像識(shí)別上已經(jīng)具有很好的優(yōu)勢(shì),但是在訓(xùn)練次數(shù)剛達(dá)到對(duì)應(yīng)錯(cuò)誤率最低值時(shí),測(cè)試結(jié)果存在一定的波動(dòng)。本文在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出包含兩個(gè)拓?fù)浣Y(jié)構(gòu)的改進(jìn)CNN模型,通過將兩種不同的拓?fù)浣Y(jié)構(gòu)組合,提高了測(cè)試結(jié)果的穩(wěn)定性,從而使模型在較少的訓(xùn)練次數(shù)下滿足錯(cuò)誤率要求。改進(jìn)CNN模型如圖4所示,圖中改進(jìn)模型由2個(gè)卷積層CNN拓?fù)錁?gòu)成,其中一個(gè)拓?fù)涞慕Y(jié)構(gòu)為5C?4S?4C?2S;另一個(gè)拓?fù)涞慕Y(jié)構(gòu)為5C?2S?5C?3S。其中5C表示卷積層的卷積核為5×5,4S表示降采樣層的池化矩陣維度為4×4,將兩個(gè)拓?fù)浞謩e經(jīng)過兩個(gè)不同的卷積和池化過程之后,最后連接到分類器,通過不同的拓?fù)淇梢栽黾幼儔浩鲌D片特征信息的提取,這樣可以將兩個(gè)拓?fù)涮崛〉奶卣鬟M(jìn)行優(yōu)勢(shì)互補(bǔ),兼顧更加復(fù)雜的樣本數(shù)據(jù),從而使訓(xùn)練的網(wǎng)絡(luò)更加穩(wěn)定,增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)泛化能力。
通過訓(xùn)練樣本對(duì)改進(jìn)CNN進(jìn)行訓(xùn)練之后,得到并保存訓(xùn)練好的改進(jìn)CNN網(wǎng)絡(luò)參數(shù),將圖像樣本輸入后,通過調(diào)用訓(xùn)練好的網(wǎng)絡(luò)參數(shù)即可得到對(duì)應(yīng)的變壓器分類結(jié)果,無需再次訓(xùn)練,極大地節(jié)省了運(yùn)算時(shí)間。
2 仿真實(shí)驗(yàn)與分析
在得到變壓器圖像識(shí)別樣本庫之后,便可以對(duì)卷積神經(jīng)網(wǎng)絡(luò)、改進(jìn)CNN模型進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)所采用的平臺(tái)參數(shù)如表1所示。
第一種方法采用本文所提出的改進(jìn)CNN模型,第二種方法采用網(wǎng)絡(luò)結(jié)構(gòu)為5C?4S?4C?2S的卷積神經(jīng)網(wǎng)絡(luò)(CNN1),第三種方法采用網(wǎng)絡(luò)結(jié)構(gòu)為5C?2S?5C?3S的卷積神經(jīng)網(wǎng)絡(luò)(CNN2),第四種方法采用文獻(xiàn)[9]所提傳統(tǒng)的SIFT(Scale Invariant Feature Transform)圖像識(shí)別方法。用上述四種方法對(duì)變壓器圖像樣本庫進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。其中,識(shí)別錯(cuò)誤率是針對(duì)測(cè)試樣本中30張變壓器圖像,識(shí)別錯(cuò)誤的圖像數(shù)占總圖像數(shù)的百分比;平均耗時(shí)是識(shí)別測(cè)試樣本庫中30張變壓器圖像平均每張圖像所消耗的時(shí)間。
由表2可知,本文所提的改進(jìn)CNN模型對(duì)變壓器圖像識(shí)別錯(cuò)誤率明顯低于普通卷積神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)的SITF圖像識(shí)別算法,具有更高的圖像識(shí)別率;雖然改進(jìn)CNN平均耗時(shí)略微高于普通卷積神經(jīng)網(wǎng)絡(luò),但是差距微小,在電力工程中可以忽略,每張圖像的平均耗時(shí)明顯少于傳統(tǒng)SITF算法,相比之下改進(jìn)CNN具有很大的優(yōu)勢(shì)。
對(duì)前三種方法進(jìn)行50次訓(xùn)練,訓(xùn)練次數(shù)與變壓器圖像識(shí)別錯(cuò)誤率的關(guān)系如圖5所示,由圖5可知,改進(jìn)CNN模型的圖像識(shí)別錯(cuò)誤率明顯低于CNN1和CNN2模型的錯(cuò)誤率。當(dāng)訓(xùn)練次數(shù)為18次時(shí),改進(jìn)CNN的錯(cuò)誤率降為0,CNN1在訓(xùn)練24次時(shí)錯(cuò)誤率降為0,CNN2在訓(xùn)練21次時(shí)錯(cuò)誤率降為0,但是CNN1和CNN2模型在錯(cuò)誤率初次降為0后隨著訓(xùn)練次數(shù)的增加還存在一定的波動(dòng),而改進(jìn)CNN則不存在這樣的問題,在錯(cuò)誤率降為0后便穩(wěn)定的維持在0左右,由此可見,本文的改進(jìn)CNN在更少的訓(xùn)練次數(shù)下即可達(dá)到圖像識(shí)別錯(cuò)誤率的最小值,而且識(shí)別穩(wěn)定,具有圖像識(shí)別率高、更穩(wěn)定的優(yōu)點(diǎn)。
4 結(jié) 論
本文提出了基于兩個(gè)CNN拓?fù)浣Y(jié)構(gòu)的改進(jìn)CNN模型,研究了基于改進(jìn)CNN的增強(qiáng)現(xiàn)實(shí)變壓器圖像識(shí)別技術(shù),通過實(shí)驗(yàn)研究得出以下結(jié)論:
1) 本文所提改進(jìn)CNN模型可以準(zhǔn)確地對(duì)增強(qiáng)現(xiàn)實(shí)變壓器圖像進(jìn)行識(shí)別,針對(duì)文中樣本庫,訓(xùn)練次數(shù)達(dá)到18次時(shí)識(shí)別率可達(dá)100%,具有很好的識(shí)別效果;
2) 本文所提改進(jìn)CNN模型在相同的訓(xùn)練次數(shù)下圖像識(shí)別錯(cuò)誤率低于卷積神經(jīng)網(wǎng)絡(luò)算法,圖像識(shí)別率更高、更穩(wěn)定,比傳統(tǒng)的SIFT算法具有更高的圖像識(shí)別準(zhǔn)確率,消耗時(shí)間更短,性能更優(yōu)越。
參考文獻(xiàn)
[1] 陸平.移動(dòng)增強(qiáng)現(xiàn)實(shí)中的圖像處理關(guān)鍵技術(shù)研究及應(yīng)用[D].南京:東南大學(xué),2015.
LU Ping. Research on key technology of image processing in mobile augmented reality and its application [D]. Nanjing: Southeast University, 2015.
[2] 蔡蘇,王沛文,楊陽,等.增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)的教育應(yīng)用綜述[J].遠(yuǎn)程教育雜志,2016(5):27?40.
CAI Su, WANG Peiwen, YANG Yang, et al. Review on augmented reality in education [J]. China remote education magazine, 2016(5): 27?40.
[3] 李青,張遼東.基于增強(qiáng)現(xiàn)實(shí)的移動(dòng)學(xué)習(xí)實(shí)證研究[J].中國電化教育,2013(1):116?120.
LI Qing, ZHANG Liaodong. Empirical study of mobile lear?ning based on augmented reality [J]. China electrochemical education, 2013(1): 116?120.
[4] RASCHMAN E, DURACKOVA D. New digital architecture of CNN for pattern recognition [C]// International Conference Mixed Design of Integrated Circuits and Systems. [S.l.]: IEEE, 2009: 662?666.
[5] MU Nan, XU Xin, ZHANG Xiaolong, et al. Salient object detection using a covariance?based CNN model in low?contrast images [J]. Neural computing and applications, 2017(2): 1?12.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[7] 徐姍姍.卷積神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用[D].南京:南京林業(yè)大學(xué),2013.
XU Shanshan. Research and application of the convolution neural network [D]. Nanjing: Nanjing Agricultural University, 2013.
[8] 陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D].杭州:浙江工商大學(xué),2014.
CHEN Xianchang. Research on algorithm and application of deep learning based on convolutional neural network [D]. Hangzhou: Zhejiang Gongshang University, 2014.
[9] 白廷柱,侯喜報(bào).基于SIFT算子的圖像匹配算法研究[J].北京理工大學(xué)學(xué)報(bào),2013(6):622?627.
BAI Tingzhu, HOU Xibao. Research on image matching algorithm based on SIFT operator [J]. Journal of Beijing Institute of Technology, 2013(6): 622?627.
[10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [C]// Proceedings of ICCV. [S.l.]: IEEE, 2015: 1?14.