魏英姿,閆廣志,趙方昕,趙祉淇
(沈陽理工大學 信息科學與工程學院,沈陽 110159)
結合像素相關性稀疏自編碼模型的圖像分類
魏英姿,閆廣志,趙方昕,趙祉淇
(沈陽理工大學 信息科學與工程學院,沈陽 110159)
為滿足圖像分類的需要,提出一種基于稀疏自編碼神經(jīng)網(wǎng)絡分類方法。在稀疏自編碼網(wǎng)絡中將一個常量引入到損失函數(shù),將損失函數(shù)最小化,對非零單元進行過懲罰,來獲得稀疏性的指標。在圖像自編碼過程中引入游程編碼的思想,以優(yōu)化稀疏自編碼的冗余性,并加強圖像中基層特征之間的關聯(lián)性,提高圖像特征提取時的運行效率。實驗結果表明,訓練好的網(wǎng)絡可以更有效地對圖像進行特征抽象和特征降維,逐層挖掘其深層特征,使網(wǎng)絡達到較高的識別準確率。
圖像分類;稀疏自編碼;特征降維;游程編碼
隨著深度學習的興起,稀疏自編碼網(wǎng)絡也越來越受到重視,其在圖像上的運用也越來越頻繁。由于互聯(lián)網(wǎng)圖片的迅速增長,大量無標簽和標簽不確定的圖片分類問題急需解決。鄭春厚[1]利用雙梯度算法對自然圖像的基向量進行迭代學習,消除圖像中的高斯噪聲并對圖像進行分類。李帥等[2]提出了一種基于小波變換和深層稀疏編碼的SAR圖像,對多目標SAR圖像進行分類。黃勁等[3]將稀疏編碼結合到圖像檢索的多個模塊中,提高檢索的效果。但這些方法都沒有考慮圖像特征基之間存在的相關性。在網(wǎng)絡運行速度和分類的準確率上還有待提高。游程編碼是圖像數(shù)據(jù)壓縮的一種有效無損壓縮方法,利用圖像空間中的相關性,去除編碼空間的冗余信息。本文基于稀疏自編碼模型的知識,結合游程編碼思想,對手寫數(shù)據(jù)集圖片進行分類,期待得出較高的計算效率。
稀疏自編碼在描述圖像的特征時,有很多的神經(jīng)元并沒有被激活。若選擇的編碼方法為Sigmoid型,其輸出中為1的神經(jīng)元是被激活的,而為0的神經(jīng)元是未被激活的。通常它提取的特征向量維度比其他方法提取特征向量維度更高,也就是這種方法是過完備的。稀疏自編碼的方法能夠通過高維轉換,令原來的圖像中數(shù)據(jù)線性不可分的圖像特征,變得線性可分。稀疏表達能從數(shù)據(jù)的深層特征里提取輸入的簡單重構[4]。圖1為稀疏自編碼原理圖。
圖1 稀疏自編碼原理圖
稀疏自編碼是通過最小化損失函數(shù),來獲得輸入的最佳表示方法。通常,稀疏自編碼網(wǎng)絡將一個常量放到損失函數(shù)中來獲得稀疏性的指標。它可以尋找到最小化損失函數(shù)并對非零的編碼單元過多而進行懲罰,這樣就可以將被激活編碼基的數(shù)量收斂到最少。加入稀疏性度量的公式為
(1)
(2)
圖像的像素間存在相關性,像素內(nèi)部距離越近的像素,其相關性越強。為提高稀疏自編碼模型運行速度,運用游程編碼的知識,在圖像自編碼過程中引入游程編碼結合數(shù)據(jù)的排序方式。游程編碼(Run Length Encoding,RLE)可以有效去除圖像像素間冗余的部分,游程編碼只保存一個像素值,并將相同顏色像素數(shù)目進行存儲,特別是一些相同灰度級連續(xù)出現(xiàn)時,作用更加有效。RLE壓縮編碼特別適用于計算機的圖像,它對減少存儲容量效果相當明顯。它的壓縮率取決于它的圖像[5]。當圖像中相同顏色橫向的色塊越大時,壓縮圖像的塊數(shù)就越多,壓縮的比例越大。例如當矩陣的數(shù)據(jù)為 [ 11 11 11 11 11 22 22 22 22 22 22 22 33 33 33 33 33 33 33 33 44 44 44],這個數(shù)組長度為23個數(shù)字,用游程編碼 [ 5 11 7 22 8 33 3 44 ]表示,可以壓縮成為8個數(shù)字。因此在圖像中相互臨近的像素灰度越近,壓縮的效果也會越好。圖2為二維游程編碼數(shù)據(jù)鋸齒排序方式。
圖2 二維游程編碼數(shù)據(jù)鋸齒排序方式
實驗仿真環(huán)境:Win 7系統(tǒng),CPU:i3-350M,2G內(nèi)存,Matlab 2010b。圖3為Matlab操作界面。
圖3 Matlab操作界面
3.1 SAE網(wǎng)絡仿真實驗
在CASIA手寫數(shù)據(jù)集上,選取6萬張圖片作為訓練樣本,1萬張圖片作為測試樣本,來對SAE網(wǎng)絡進行實驗測試。SAE對圖像提取特征,是對圖像進行降維的過程。編碼的維度應與自編碼層上的神經(jīng)元個數(shù)一致,所以使用SAE網(wǎng)絡前,需要調(diào)節(jié)好各個自編碼層神經(jīng)元的數(shù)量。在本實驗中,每一層所給的神經(jīng)元數(shù)量由表1、表2給出。編碼層在進行降維時,應盡可能保留輸入圖像里的重要信息。稀疏網(wǎng)絡進行訓練時,網(wǎng)絡連接參數(shù)可能還不能達到最優(yōu),需要用監(jiān)督訓練和無監(jiān)督網(wǎng)絡對其參數(shù)進行調(diào)整。在實驗中對稀疏自編碼網(wǎng)絡進行無監(jiān)督訓練,將得到的編碼矩陣傳遞給編碼層的網(wǎng)絡NN以及Softmax分類模塊,并用監(jiān)督訓練的方法來對整體參數(shù)進行微調(diào)[6]。這樣的稀疏自編碼網(wǎng)絡更容易找到全局最優(yōu)解,從而能夠讓網(wǎng)絡更好地對圖像提取特征。圖4為無監(jiān)督訓練的編碼矩陣,圖5為有監(jiān)督訓練前的網(wǎng)絡參數(shù)矩陣,圖6為有監(jiān)督訓練后的網(wǎng)絡參數(shù)矩陣。
稀疏自編碼的層數(shù)對圖像的特征提取有很深的影響,神經(jīng)元個數(shù)不同或自編碼層數(shù)不同,將影響圖像特征降維的程度。表1、表2是對其進行研究的結果并探討網(wǎng)絡對特征提取時選取的參數(shù)。
圖4 無監(jiān)督訓練的編碼矩陣
圖5 有監(jiān)督訓練前的網(wǎng)絡參數(shù)矩陣
圖6 有監(jiān)督訓練后的網(wǎng)絡參數(shù)矩陣
表1 采用不同自編碼層數(shù)的實驗結果
表2 自編碼層采用不同神經(jīng)元數(shù)量的實驗結果
通過觀察表1、表2的“測試正確率”可以看出,自編碼層的數(shù)量、每個自編碼層的神經(jīng)元數(shù)量,對SAE深度學習網(wǎng)絡圖像特征識別效果的影響。在其中一個因素不變時,另一個因素過大或者過小,都會導致深度網(wǎng)絡圖像特征識別能力的下降。只有選擇比較居中的參數(shù)時,深度網(wǎng)絡的圖像特征識別能力才會達到好的效果。
3.2 SAE網(wǎng)絡結合游程編碼仿真實驗
從101圖片集,選用3000張路邊的指示路標圖片對結合游程編碼后的SAE網(wǎng)絡進行訓練,并用500張圖片進行測試。表3為對比進行游程編碼壓縮前后,對于網(wǎng)絡提取特征以及分類所用的時間。
表3 結合空間相關性編碼的深度神經(jīng)網(wǎng)絡運行時間的對比 s
從表3可以看出,加入游程編碼后的程序,網(wǎng)絡提取特征的速度得到了提升。圖7為從3000張路邊的指示路標圖片抽取的16張原圖。圖8為加入游程編碼后的稀疏自編碼網(wǎng)絡的第一、二、三層自編碼神經(jīng)元對指示路標提取特征后的特征基。
圖7 指示路標圖片分類原圖
圖8 在第一、二、三層自編碼層提取出的圖像特征
為了提高對圖像的分類能力,提出了結合像素相關性的稀疏自編碼模型。利用游程編碼思想,讀取圖像像素序列,在讀取像素時采用鋸齒序列的方法,增加圖像特征基的前后關聯(lián)性。通過在編碼解碼的過程中調(diào)整損失函數(shù),使已被激活編碼基的數(shù)量收斂到盡可能小,達到高稀疏性,從而提高網(wǎng)絡對圖像特征高效的提取能力。設計深度神經(jīng)網(wǎng)絡模型,調(diào)整網(wǎng)絡的拓撲結構,采用不同的測試數(shù)據(jù),找到合理的網(wǎng)絡模型結構。對手寫數(shù)據(jù)集以及101圖片集的大量圖片進行了實驗,得到網(wǎng)絡最佳運行效率時的編碼層參數(shù)。實驗結果表明稀疏自編碼結合游程編碼思想的網(wǎng)絡,可有效提高運算的速度,得到較高的分類正確率。
[1]鄭春厚.基于稀疏編碼的自然圖像特征提取及去噪的應用[J].系統(tǒng)仿真學報,2005,17(7):1782-1784.
[2]李帥,馬時平.基于小波變換和深層稀疏編碼的SAR目標識別[J].電視技術,2014,38(13):31-35.
[3]黃勁,孫洋,徐浩然.稀疏編碼在圖像檢索中的應用[J].數(shù)字技術設計與應用,2013(11):76-77.
[4]龔健雅.整體GIS的數(shù)據(jù)組織與處理方法[M].武漢:武漢測繪科技大學出版社,1993:24-26.
[5]梁軍,柴玉梅,原慧斌,等.基于深度學習的微博情感分析[J].中文信息學報,2014,5(5):155-161.
[6]楊謙,齊翔林,汪云九.稀疏編碼策略[J].計算物理,2001,18(2):143-146.
(責任編輯:馬金發(fā))
ImageClassificationResearchBasedonSparseCodingNetwork
WEI Yingzi,YAN Guangzhi,ZHAO Fangxin,ZHAO Zhiqi
(Shenyang Ligong University,shenyang 110159,China)
In order to satisfy the need of image classification,a kind of classification method is proposed based on the sparse coding neural network.The sparse coding network could apply a constant to the function of loss,to minimize this function,and carry out the punishment to the non-zero element to get the index of sparsity.Introducing the idea of run-length coding in the image coding process,which optimizes the redundancy of sparse coding,strengthens the correlation of basic image characteristics,and improves the efficiency of image feature extraction.Experimental results reveal that well-trained network can be more effective forimage feature abstraction and feature dimension reduction,mining the deeper characteristics of the network step by step,so that it can achieve higher accuracy of recognition.Keywordsimage classification;sparse coding;feature dimension reduction;run-length encoding
2016-09-18
魏英姿(1973—),女,教授,博士,研究方向:模式識別、機器人學等。
1003-1251(2017)04-0014-05
TP391
A