李巧玲,關(guān)晴驍,趙險(xiǎn)峰
(1. 中國(guó)科學(xué)院信息工程研究所信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100093;2. 中國(guó)科學(xué)院大學(xué),北京 100049)
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像生成方式分類(lèi)方法
李巧玲1,2,關(guān)晴驍1,2,趙險(xiǎn)峰1,2
(1. 中國(guó)科學(xué)院信息工程研究所信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100093;2. 中國(guó)科學(xué)院大學(xué),北京 100049)
提出一種采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)自然圖像和文檔掃描圖像進(jìn)行分類(lèi)的方法,通過(guò)卷積和池化操作提取兩類(lèi)圖像具有高區(qū)分度的特征,融合后得到分類(lèi)判決結(jié)果。實(shí)驗(yàn)結(jié)果表明,所提出的分類(lèi)方法在SKL圖像庫(kù)上分類(lèi)精度超過(guò)93%。圖像預(yù)處理對(duì)模型的精度以及模型訓(xùn)練收斂所需時(shí)間具有積極效果,經(jīng)過(guò)圖像預(yù)處理后訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像文字大小和圖像格式頑健。
卷積神經(jīng)網(wǎng)絡(luò);圖像生成方式;內(nèi)容模式分類(lèi);多媒體安全
隨著數(shù)字圖像處理技術(shù)和機(jī)器學(xué)習(xí)領(lǐng)域的快速發(fā)展,存在大量按照生成方式對(duì)圖像內(nèi)容模式進(jìn)行識(shí)別的工作,其中大多數(shù)工作集中在區(qū)分自然圖像和計(jì)算機(jī)生成圖像(computer graphics)[1~3]。文獻(xiàn)[1]提取基于小波直方圖的144維特征,輸入到FLD(fisher linear discriminant)分類(lèi)器對(duì)計(jì)算機(jī)生成圖像和自然圖像進(jìn)行分類(lèi)。文獻(xiàn)[2]通過(guò)建立基于一階和高階小波統(tǒng)計(jì)量的統(tǒng)計(jì)模型,揭示計(jì)算機(jī)生成圖像和自然圖像之間微妙的不同。在沒(méi)有任何人工標(biāo)注的前提下,文獻(xiàn)[3]通過(guò)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型利用圖像顏色、光照和內(nèi)容的協(xié)調(diào)性分類(lèi)自然圖像和合成圖像。在眾多的網(wǎng)絡(luò)傳輸圖像中,自然拍攝圖像和掃描文檔圖像占到較大的比例,而這2種圖像成像方式、內(nèi)容以及統(tǒng)計(jì)特性均有不同。因此,如果不加區(qū)分,容易造成一些系統(tǒng)的誤檢測(cè)率增高,如文檔掃描圖像將極大程度地增加隱寫(xiě)分析系統(tǒng)的虛警率,而自然圖像由于其豐富的內(nèi)容,對(duì)用于檢測(cè)文檔圖像中密級(jí)標(biāo)識(shí)的密標(biāo)檢測(cè)系統(tǒng)也將帶來(lái)影響。與自然圖像和計(jì)算機(jī)生成圖像的識(shí)別方法相比,針對(duì)自然圖像和掃描圖像的分類(lèi)手段相對(duì)較少。文獻(xiàn)[4]是為數(shù)不多的檢測(cè)掃描圖像和自然圖像的工作,但該工作與之前大部分區(qū)分自然圖像和計(jì)算機(jī)生成圖像的工作類(lèi)似,采用較為傳統(tǒng)的技術(shù)路線(xiàn),利用隱寫(xiě)分析特征和分類(lèi)器實(shí)現(xiàn)。文獻(xiàn)[4]根據(jù)圖像生成過(guò)程的差異性提取不同特征。計(jì)算給定圖像固定模式噪聲的殘差,利用噪聲殘差的相關(guān)統(tǒng)計(jì)量構(gòu)造15維的特征向量。使用SVM分類(lèi)器對(duì)圖像內(nèi)容模式進(jìn)行分類(lèi),分類(lèi)精度達(dá)到89.4%。
傳統(tǒng)的用于分類(lèi)自然圖像和文檔掃描圖像的方法雖然可以達(dá)到比較高的準(zhǔn)確率,但仍然存在一定的弊端:計(jì)算單元有限,無(wú)法支持大規(guī)模數(shù)據(jù)集的訓(xùn)練,對(duì)于特征的表達(dá)有限。當(dāng)掃描圖像經(jīng)過(guò)JPEG壓縮之后再提取15維特征時(shí),文獻(xiàn)[4]分類(lèi)的準(zhǔn)確率發(fā)生明顯下降。研究過(guò)程中發(fā)現(xiàn),對(duì)于自然圖像和文檔掃描圖像的分類(lèi)問(wèn)題具有以下2個(gè)難點(diǎn)。
1) 文檔圖像存在字體和字號(hào)多樣性、版式多樣性等問(wèn)題,且大量的表格、插圖、紙張底紋、文檔背景、掃描時(shí)的旋轉(zhuǎn)、文檔紙張的污損等均會(huì)對(duì)分類(lèi)造成較大的影響。
2) 自然圖像中的紋理區(qū)域、標(biāo)牌字符、某些符號(hào)等,也容易對(duì)識(shí)別準(zhǔn)確率造成影響。
傳統(tǒng)的分類(lèi)方法難以完全對(duì)這些問(wèn)題頑健,由于其特征設(shè)計(jì)一般依賴(lài)于人為經(jīng)驗(yàn),因此難以設(shè)計(jì)出對(duì)以上問(wèn)題均具有較好頑健性的特征。自然圖像和文檔圖像種類(lèi)極其豐富,本文試圖使用另一種技術(shù)途徑解決該問(wèn)題,即使用大量多樣的訓(xùn)練樣本涵蓋以上多種情況,并使用學(xué)習(xí)能力較強(qiáng)的方法獲取對(duì)以上多種條件均頑健且更具區(qū)分能力的檢測(cè)模型。
基于上述事實(shí),本文提出一種高速高精度圖像類(lèi)型識(shí)別的方法,主要針對(duì)自然圖像和文檔掃描圖像進(jìn)行分類(lèi)。該方法采用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN, convolutional neural network),利用多層卷積獲取對(duì)圖像內(nèi)容模式具有高區(qū)分度的特征,并融合得到分類(lèi)判決信息,為內(nèi)容安全性檢測(cè)提供先驗(yàn)依據(jù),減少后續(xù)不必要的檢測(cè),提高內(nèi)容安全性檢測(cè)系統(tǒng)的準(zhǔn)確性。圖像分類(lèi)與安全性檢測(cè)過(guò)程如圖1所示。本文圍繞利用卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)自然圖像和掃描文檔進(jìn)行探討,重點(diǎn)探討采用多種圖像預(yù)處理方法、學(xué)習(xí)方法對(duì)檢測(cè)精度和模型訓(xùn)練收斂速度的影響,并通過(guò)實(shí)驗(yàn)驗(yàn)證了合理的預(yù)處理對(duì)于模型的收斂速度和準(zhǔn)確率具有積極作用。本文還對(duì)文檔掃描圖像的字體大小和圖像格式的頑健性問(wèn)題進(jìn)行了相關(guān)實(shí)驗(yàn)論證。利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)自然圖像和文檔掃描圖像進(jìn)行分類(lèi),具有較好的精度和實(shí)時(shí)性,可應(yīng)用于網(wǎng)絡(luò)在線(xiàn)媒體數(shù)據(jù)監(jiān)控等領(lǐng)域,具有重要且廣泛的應(yīng)用價(jià)值。
2.1 符號(hào)系統(tǒng)定義
為保證敘述的嚴(yán)謹(jǐn)性,首先定義本文所使用的符號(hào)系統(tǒng),各符號(hào)在下文中,如無(wú)特別說(shuō)明,則默認(rèn)為本節(jié)所定義。本文涉及的符號(hào)系統(tǒng)主要如下。
定義訓(xùn)練樣本(x, y),x為神經(jīng)網(wǎng)絡(luò)的輸入,在本實(shí)驗(yàn)中x為輸入到網(wǎng)絡(luò)的圖像。y表示x的類(lèi)別。(xi, yi)為第i個(gè)訓(xùn)練樣本。S=((x1, y1), (x2,y2)…(xn, yn))為整個(gè)訓(xùn)練樣本集合。使用w和b對(duì)神經(jīng)網(wǎng)絡(luò)所有參數(shù)進(jìn)行表示,在卷積神經(jīng)網(wǎng)絡(luò)中w代表卷積核,b表示偏置向量。
圖1 圖像分類(lèi)后進(jìn)行安全檢測(cè)
2.2 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的一門(mén)重要技術(shù),從早期的感知機(jī)到目前蓬勃發(fā)展的深度學(xué)習(xí),已有了數(shù)十年的發(fā)展。神經(jīng)網(wǎng)絡(luò)的應(yīng)用涉及各個(gè)領(lǐng)域,如語(yǔ)音識(shí)別、機(jī)器翻譯、人臉識(shí)別等。神經(jīng)網(wǎng)絡(luò)是通過(guò)模仿動(dòng)物神經(jīng)元之間傳遞、處理信息的模式。由簡(jiǎn)單的處理單元(神經(jīng)元)相互連接構(gòu)成一個(gè)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),整個(gè)神經(jīng)網(wǎng)絡(luò)是一個(gè)復(fù)雜的非線(xiàn)性系統(tǒng)。其變換過(guò)程可以描述為
圖2 神經(jīng)網(wǎng)絡(luò)模型以及單個(gè)神經(jīng)元信息處理過(guò)程
h為非線(xiàn)性激活函數(shù),常見(jiàn)的激活函數(shù)有Tanh、Sigmoid等。w、v分別為輸出層和隱層的權(quán)重矩陣,尺寸分別為n×m、m×d,n為輸出的類(lèi)別數(shù)。b、c分別為輸出層和隱層的n維和m維偏置向量。如圖2左側(cè)所示,神經(jīng)網(wǎng)絡(luò)對(duì)輸入的d維向量,經(jīng)過(guò)隱層投影成一個(gè)m維的向量,再輸入到分類(lèi)器進(jìn)行分類(lèi)。
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成單元,每個(gè)神經(jīng)元是一個(gè)多輸入單輸出的信息處理單元,圖2右側(cè)為單個(gè)神經(jīng)元的信息處理過(guò)程,該過(guò)程可以簡(jiǎn)單表示為
將(x1,x2,…,xd)輸入到神經(jīng)元i,每個(gè)輸入單元都進(jìn)行加權(quán)平均,權(quán)值系數(shù)和偏置都是經(jīng)過(guò)訓(xùn)練學(xué)習(xí)而來(lái)。zi為第i個(gè)神經(jīng)元的輸出,h為非線(xiàn)性激活函數(shù),神經(jīng)網(wǎng)絡(luò)通過(guò)引入非線(xiàn)性的激活函數(shù)使網(wǎng)絡(luò)能夠?qū)W習(xí)出更好的特征表達(dá),解決線(xiàn)性模型所不能解決的問(wèn)題。
神經(jīng)網(wǎng)絡(luò)是一個(gè)分層的有向圖,同層節(jié)點(diǎn)之間沒(méi)有連接,節(jié)點(diǎn)之間不能越層連接。上層輸入經(jīng)過(guò)非線(xiàn)性變換后作為下層神經(jīng)元的輸入。隱層的數(shù)目,每層神經(jīng)元的個(gè)數(shù)以及非線(xiàn)性函數(shù)的選擇是構(gòu)成神經(jīng)網(wǎng)絡(luò)的關(guān)鍵。神經(jīng)網(wǎng)絡(luò)使用BP算法從大量訓(xùn)練樣本中學(xué)習(xí)出統(tǒng)計(jì)規(guī)律,從而對(duì)未知事件做預(yù)測(cè)。只含有較少隱層的神經(jīng)網(wǎng)絡(luò)稱(chēng)為淺層模型,其局限性在于有限的計(jì)算單元,對(duì)特征的表示能力有限。當(dāng)前,神經(jīng)網(wǎng)絡(luò)已發(fā)展為深度模型,與淺層模型相比,深度模型通過(guò)構(gòu)建多個(gè)隱層利用海量的訓(xùn)練數(shù)據(jù),自動(dòng)地學(xué)習(xí)更有用的特征,提升最終分類(lèi)或預(yù)測(cè)的準(zhǔn)確性。2.3節(jié)介紹的卷積神經(jīng)網(wǎng)絡(luò)屬于該類(lèi)深度模型。
2.3 卷積神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)通過(guò)有監(jiān)督或者無(wú)監(jiān)督的方式學(xué)習(xí)層次化的特征表達(dá),對(duì)物體進(jìn)行從底層到高層的特征描述。卷積神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)主流結(jié)構(gòu)之一。最早出現(xiàn)在20世紀(jì)80年代,最初應(yīng)用于手寫(xiě)數(shù)字識(shí)別,取得了很好的效果。卷積神經(jīng)網(wǎng)絡(luò)是在多層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來(lái)的針對(duì)圖像分類(lèi)而特別設(shè)計(jì)的一種深度學(xué)習(xí)方法。該網(wǎng)絡(luò)的布局更加接近于生物神經(jīng)網(wǎng)絡(luò)。對(duì)于圖像這種多維向量可以直接輸入到網(wǎng)絡(luò),無(wú)需進(jìn)行復(fù)雜預(yù)處理。
卷積神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)上加入卷積和池化層,并引入了局部感受野、權(quán)值共享的機(jī)制,大大減少了待訓(xùn)練的參數(shù)量。卷積層利用卷積核的移動(dòng)來(lái)提取上層輸入的局部特征,然后非線(xiàn)性組合這些特征得到下層的輸入,逐層對(duì)圖像特征進(jìn)行抽象。卷積使圖像原信號(hào)增強(qiáng),并且降低噪聲,保持了圖像的空間信息,因而特別適合于對(duì)圖像進(jìn)行表達(dá);池化層利用圖像的局部相關(guān)性原理,對(duì)卷積后的特征圖進(jìn)行子抽樣,在大大減小數(shù)據(jù)處理量的同時(shí)保留圖像的有用信息,并且保證特征圖像對(duì)于旋轉(zhuǎn)、平移等變換具有一定的頑健性,常見(jiàn)的池化方法有Max Pooling、Mean Pooling。Max Pooling選擇圖像區(qū)域的最大值作為池化后的值;Mean Pooling計(jì)算圖像區(qū)域的平均值作為池化后的值。
文獻(xiàn)[5]提出了一種特征可視化的方法,通過(guò)提取各層的特征圖像進(jìn)行可視化。探討卷積神經(jīng)網(wǎng)絡(luò)每層對(duì)圖像所做的具體操作。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層迭代,提取特征。文獻(xiàn)[5]認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)中下層的卷積主要提取圖像的淺層特征,如邊緣、顏色、紋理等信息。越往上層提取的特征越高級(jí)。對(duì)特征的可視化,可以進(jìn)一步對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)優(yōu)。
卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性,使其成為當(dāng)前語(yǔ)音識(shí)別和圖像識(shí)別領(lǐng)域的研究熱點(diǎn)。以L(fǎng)ecun[6]提出的“LeNet-5”為代表的卷積神經(jīng)網(wǎng)絡(luò),在手寫(xiě)數(shù)字識(shí)別任務(wù)上取得了不錯(cuò)的效果,Kussl等[7]提出的采用排列編碼技術(shù)的神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別和小物體識(shí)任務(wù)上有較好的應(yīng)用。但目前神經(jīng)網(wǎng)絡(luò)在自然圖像和文檔掃描圖像分類(lèi)任務(wù)上的應(yīng)用還存在空白,本文以經(jīng)典的“LeNet-5”為原型設(shè)計(jì)了“ScanNet”,使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)字圖像的內(nèi)容模式進(jìn)行分類(lèi)。
隨著硬件性能的提升和算法的不斷優(yōu)化,卷積神經(jīng)網(wǎng)絡(luò)已從只能完成簡(jiǎn)單的分類(lèi)任務(wù)發(fā)展到能夠超越人類(lèi)識(shí)別能力的水平[8]。針對(duì)不同復(fù)雜度的分類(lèi)任務(wù),往往需要構(gòu)建不同的網(wǎng)絡(luò)結(jié)構(gòu)。對(duì)于簡(jiǎn)單的分類(lèi)任務(wù),一般會(huì)使用較少的卷積、池化和Relu(rectified linear unit)[9]非線(xiàn)性層,每層使用較少的卷積核數(shù)目來(lái)提取不同類(lèi)別間的差異性特征。要完成較難的分類(lèi)任務(wù),神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)更加復(fù)雜,網(wǎng)絡(luò)參數(shù)量更大,需要的操作種類(lèi)更多。
相對(duì)于早期卷積神經(jīng)網(wǎng)絡(luò)中使用最多的Tanh、Sigmoid非線(xiàn)性函數(shù)而言,Relu[9]:f(x)=max(0,x)非線(xiàn)性函數(shù)可以增加隱層單元的稀疏性,減少計(jì)算量,加速網(wǎng)絡(luò)收斂,并且Relu函數(shù)不存在飽和區(qū)域,反向傳播時(shí),避免了梯度消失的問(wèn)題。
當(dāng)訓(xùn)練樣本不足,網(wǎng)絡(luò)參數(shù)過(guò)多時(shí)模型會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象。構(gòu)建網(wǎng)絡(luò)時(shí)為了防止過(guò)擬合現(xiàn)象的發(fā)生,一般采用在損失函數(shù)中加入L1或L2正則化項(xiàng)、early stopping、dropout[10]等技術(shù)。dropout以一定的概率將隱層的神經(jīng)元暫時(shí)從網(wǎng)絡(luò)中丟棄,丟棄就是對(duì)這些神經(jīng)元的權(quán)重系數(shù)暫時(shí)不做更新,但是權(quán)值仍然保留,以便接下來(lái)輸入的樣本對(duì)其進(jìn)行微調(diào)。
GPU的發(fā)展提升了計(jì)算機(jī)的計(jì)算能力。為了充分利用GPU強(qiáng)大的計(jì)算能力,目前訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)采用批梯度下降代替原有的梯度下降和單樣本的隨機(jī)梯度下降,一次隨機(jī)使用一批(mini-batch)樣本的梯度對(duì)參數(shù)進(jìn)行微調(diào)。當(dāng)一小批樣本包含的圖像數(shù)目越多,訓(xùn)練所需的GPU顯存會(huì)相應(yīng)增加。每一小批圖像在選擇時(shí)引入了隨機(jī)性,使網(wǎng)絡(luò)從概率的角度考慮始終可以收斂。與使用單個(gè)樣本的隨機(jī)梯度下降法相比,批梯度下降每次可處理的數(shù)據(jù)量增多,提高了GPU的利用率,訓(xùn)練過(guò)程的效率得到了很好提升。與一次使用所有樣本更新參數(shù)的梯度下降相比,計(jì)算開(kāi)銷(xiāo)減小,訓(xùn)練所需時(shí)間縮短。帶有動(dòng)量[11](momentum)參數(shù)的隨機(jī)梯度下降法使網(wǎng)絡(luò)的收斂速度變得更快。
其中,vk、vk+1分別為第k次和第k+1次優(yōu)化時(shí)梯度下降的速率,a為學(xué)習(xí)速率,r為動(dòng)量參數(shù)。加入動(dòng)量參數(shù)后下降速率相對(duì)于常規(guī)的方法要更大,需要相應(yīng)地減小學(xué)習(xí)速率。一般動(dòng)量初始化為0.5,當(dāng)模型趨于穩(wěn)定時(shí)逐漸增加動(dòng)量到0.9。使用帶有動(dòng)量參數(shù)的隨機(jī)梯度下降法,每一步梯度下降的量都需要參考前一步下降的量,使網(wǎng)絡(luò)能夠更快收斂,并且減小收斂到局部最優(yōu)點(diǎn)的可能性。
卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的速度和模型的精度受到多種因素的影響。如訓(xùn)練數(shù)據(jù)間往往存在較大的數(shù)值差異,使訓(xùn)練過(guò)程中誤差下降不穩(wěn)定,網(wǎng)絡(luò)學(xué)習(xí)速率變慢甚至不收斂等。對(duì)數(shù)據(jù)進(jìn)行減均值、z-score 標(biāo)準(zhǔn)化、白化操作可以消除不同特征分量之間的數(shù)值大小差異,改善網(wǎng)絡(luò)的學(xué)習(xí)性能。減均值的計(jì)算如下。
4.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)所使用訓(xùn)練樣本和測(cè)試樣本圖像均來(lái)自SKL圖像庫(kù)。SKL圖像庫(kù)包含4 000張自然拍攝圖像和1 500張文檔掃描圖像。表1列出了用于建立SKL圖像庫(kù)所使用的拍攝設(shè)備和掃描設(shè)備名稱(chēng)。所有相機(jī)拍攝圖像均采用RAW和JPEG這2種格式存儲(chǔ)。掃描儀分別設(shè)置3種不同的分辨率:100×100 dpi、300×300 dpi、600×600 dpi,掃描文檔存儲(chǔ)為JPEG格式。圖3和圖4 分別為SKL圖像庫(kù)中典型的自然圖像和文檔掃描圖像示例。
表1 圖像生成設(shè)備
圖3 典型自然圖像
圖4 典型掃描文檔
訓(xùn)練樣本包含1 600張圖像,其中800張JPEG格式的自然圖像,文檔掃描圖像800張。測(cè)試樣本包含600張圖像,JPEG格式的自然圖像300張,掃描文檔圖像300張,正負(fù)樣本分布均衡。實(shí)驗(yàn)在Ubuntu 14.04上進(jìn)行,訓(xùn)練過(guò)程利用兩塊NVIDIA GTX TITAN X,采用CUDA和GPU并行計(jì)算提升卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。
4.2 ScanNet網(wǎng)絡(luò)結(jié)構(gòu)以及參數(shù)設(shè)置
適當(dāng)?shù)木矸e神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于實(shí)現(xiàn)特定的分類(lèi)任務(wù)至關(guān)重要。本文涉及的分類(lèi)任務(wù)主要需要表達(dá)自然圖像與掃描文檔的區(qū)分信息,從視覺(jué)表觀(guān)而言,兩類(lèi)圖像在局部和全局均存在具有區(qū)分能力的信息,需要建立從局部表達(dá)到全局綜合的網(wǎng)絡(luò)模型。因此,本文分別使用卷積層和全連接層達(dá)到以上目的。以經(jīng)典的LeNet-5為原型設(shè)計(jì)了ScanNet結(jié)構(gòu),如表2所示,ScanNet包含3層卷積以及2層全連接。本文利用深度學(xué)習(xí)框架Caffe(convolutional architecture for fast feature embedding)[12]搭建ScanNet。Caffe是一款開(kāi)源的深度學(xué)習(xí)框架,擁有通用性強(qiáng)、性能高、代碼可讀性好等特點(diǎn),支持多種數(shù)據(jù)類(lèi)型,并且支持多GPU并行。
表2 ScanNet網(wǎng)絡(luò)結(jié)構(gòu)
在ScanNet中,網(wǎng)絡(luò)每層卷積后連接有Relu非線(xiàn)性層和LRN歸一化層,經(jīng)過(guò)歸一化后每層的輸入更加穩(wěn)定,網(wǎng)絡(luò)學(xué)習(xí)速度更快。經(jīng)過(guò)不斷的調(diào)優(yōu),設(shè)定初始學(xué)習(xí)速率為0.000 1。通過(guò)迭代學(xué)習(xí),損失函數(shù)會(huì)逐漸接近最小值,與此同時(shí)需要減小學(xué)習(xí)速率。因此,實(shí)驗(yàn)每迭代500次學(xué)習(xí)速率降為原來(lái)的。實(shí)驗(yàn)為一個(gè)二類(lèi)概率分類(lèi)問(wèn)題,損失函數(shù)為其中,yi標(biāo)簽取值為0或者1(0標(biāo)簽代表掃描文檔,1標(biāo)簽代表自然拍攝圖像)。,()i hwbx為Softmax分類(lèi)器輸出將xi預(yù)測(cè)為第yi類(lèi)的概率。以上損失函數(shù)為加入了正則化項(xiàng)的二類(lèi)概率損失,等式右側(cè)第二項(xiàng)為正則化項(xiàng)。正則化項(xiàng)的加入使上式能夠更容易得到全局最優(yōu)解,防止模型過(guò)擬合,實(shí)驗(yàn)λ=0.000 5。m為一次輸入到網(wǎng)絡(luò)的圖像數(shù)。
使用帶有動(dòng)量參數(shù)的隨機(jī)梯度下降來(lái)學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),將動(dòng)量固定為0.9,綜合考慮網(wǎng)絡(luò)的學(xué)習(xí)速度和GPU的顯存,設(shè)置每一小批樣本包含32張圖像。通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)對(duì)于目前的分類(lèi)任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)是否使用dropout操作對(duì)于模型在測(cè)試樣本上的測(cè)試精度沒(méi)有影響。
4.3 樣本歸一化對(duì)模型的影響及模型頑健性實(shí)驗(yàn)論證
本文主要圍繞卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別數(shù)字圖像的內(nèi)容模式方面的應(yīng)用展開(kāi)了研究。本文就圖像減均值歸一化操作對(duì)于模型的訓(xùn)練速度、測(cè)試精度的影響做了進(jìn)一步的實(shí)驗(yàn)論證。實(shí)驗(yàn)總共訓(xùn)練2個(gè)模型,在網(wǎng)絡(luò)結(jié)構(gòu)和配置參數(shù)相同的情況下,模型A未對(duì)輸入的訓(xùn)練樣本和測(cè)試樣本進(jìn)行減均值中心化處理,模型B對(duì)訓(xùn)練樣本和測(cè)試樣本的每個(gè)像素點(diǎn)都分通道進(jìn)行第3節(jié)所述的減均值預(yù)處理,經(jīng)過(guò)歸一化的訓(xùn)練樣本間具有更加相似的分布,網(wǎng)絡(luò)的訓(xùn)練過(guò)程更加高效。由于卷積神經(jīng)網(wǎng)絡(luò)只能處理固定尺寸的圖像,訓(xùn)練樣本和測(cè)試樣本圖像的尺寸不一,還需對(duì)圖像進(jìn)行尺寸處理。一般通過(guò)縮放、裁剪、扭曲將圖像變換到網(wǎng)絡(luò)要求的尺寸。在需要圖像整體特征時(shí)通過(guò)扭曲可以保留整張?jiān)紙D像信息。對(duì)于本分類(lèi)任務(wù)而言無(wú)需圖像的整體特征,經(jīng)過(guò)縮放和裁剪之后自然圖像和掃描圖像之間的差異性特征不會(huì)發(fā)生改變。因此,本文在訓(xùn)練過(guò)程中首先將訓(xùn)練樣本的原始圖像縮放到600×600大小,再使用512×512大小的窗口對(duì)縮放之后的圖像進(jìn)行中心和四角的裁剪。在保證特征不變的前提下,同時(shí)增加兩類(lèi)樣本的數(shù)量。并對(duì)訓(xùn)練樣本進(jìn)行隨機(jī)置亂以保證訓(xùn)練出的分類(lèi)模型對(duì)類(lèi)別預(yù)測(cè)無(wú)傾向性。測(cè)試樣本圖像直接通過(guò)尺度縮放到512×512大小。
圖5刻畫(huà)損失函數(shù)與訓(xùn)練迭代次數(shù)之間的關(guān)系,隨著迭代次數(shù)的增加損失函數(shù)逐漸下降并最終達(dá)到穩(wěn)定,當(dāng)損失函數(shù)保持穩(wěn)定時(shí)模型達(dá)到收斂。如圖5所示,訓(xùn)練樣本和測(cè)試樣本未進(jìn)行歸一化操作時(shí),網(wǎng)絡(luò)需進(jìn)行800次迭代達(dá)到收斂,在測(cè)試樣本上的最優(yōu)測(cè)試精度為0.97;但進(jìn)行歸一化操作之后,經(jīng)過(guò)400次迭代模型便達(dá)到穩(wěn)定,并且此時(shí)的測(cè)試精度可以達(dá)到0.99,訓(xùn)練的效率要明顯高于未經(jīng)過(guò)歸一化的數(shù)據(jù)。通過(guò)進(jìn)一步的實(shí)驗(yàn)發(fā)現(xiàn)經(jīng)過(guò)歸一化操作訓(xùn)練得到的模型對(duì)于掃描文件字符大小的頑健性要強(qiáng)于未經(jīng)過(guò)歸一化操作訓(xùn)練得到的模型。
圖5 模型A與模型B迭代次數(shù)和損失函數(shù)關(guān)系
圖6 模型B預(yù)測(cè)過(guò)程
使用模型B對(duì)100張掃描文檔和自然圖像進(jìn)行分類(lèi)。待分類(lèi)圖像包含掃描文檔和自然圖像各50張,自然圖像編號(hào)為1~50,掃描圖像編號(hào)為51~100。圖6為模型B對(duì)一張圖像進(jìn)行預(yù)測(cè)的基本流程。將待分類(lèi)圖像輸入網(wǎng)絡(luò)之前先進(jìn)行減均值、尺寸變換等預(yù)處理,然后再輸入到神經(jīng)網(wǎng)絡(luò)對(duì)圖像類(lèi)型進(jìn)行預(yù)測(cè)。圖7為模型B Softmax層對(duì)100張圖像輸出的分類(lèi)概率。分類(lèi)時(shí)使用一塊NVIDIA GTX TITAN X,每張圖像分類(lèi)平均耗時(shí)0.7 s,當(dāng)增加GPU的數(shù)量,通過(guò)多線(xiàn)程可增加一次性預(yù)測(cè)分類(lèi)的圖像張數(shù)。圖中圓形代表被誤分的自然圖像,菱形表示被錯(cuò)誤分類(lèi)的掃描圖像,三角形代表預(yù)測(cè)類(lèi)型為自然圖像,矩形表示預(yù)測(cè)類(lèi)型為文檔掃描圖像。分類(lèi)混淆矩陣如表3所示,模型B的平均準(zhǔn)確率可達(dá)到94.0%。對(duì)未能正確分類(lèi)的掃描文檔圖像分析發(fā)現(xiàn)這類(lèi)圖像具有明顯的共性是不含文字。卷積神經(jīng)網(wǎng)絡(luò)模型為數(shù)據(jù)驅(qū)動(dòng)的模型,模型的準(zhǔn)確率依賴(lài)于數(shù)據(jù)集包含的圖像種類(lèi)和數(shù)量。造成模型對(duì)此類(lèi)圖像無(wú)法正常分類(lèi)的原因可能是由于訓(xùn)練樣本中不包含這類(lèi)不含文字的文檔圖像,導(dǎo)致無(wú)法正確提取具有高區(qū)分度的特征。后續(xù)實(shí)驗(yàn)可以將此類(lèi)圖像加入到訓(xùn)練樣本中,豐富訓(xùn)練樣本類(lèi)型,以達(dá)到更高的識(shí)別準(zhǔn)確率。
表3 模型B混淆矩陣
圖7 模型B分類(lèi)概率
文檔圖像存在字體和字號(hào)多樣性、版式多樣性等問(wèn)題。本文還從模型對(duì)掃描文檔的文字大小、圖像存儲(chǔ)格式的頑健性這2個(gè)方面進(jìn)行了研究。掃描文檔文字大小選用八號(hào)到初號(hào)不同大小的字符,模型B分類(lèi)結(jié)果的準(zhǔn)確率可以達(dá)到97%。模型A識(shí)別的準(zhǔn)確率只能達(dá)到50%。用模型B對(duì)JPEG、TIFF、BMP、PNG格式的圖像進(jìn)行分類(lèi),識(shí)別的準(zhǔn)確率也可達(dá)到97%。
以上兩組實(shí)驗(yàn)表明,經(jīng)過(guò)歸一化預(yù)處理的模型對(duì)于文檔字符的大小,以及圖像的格式具有很強(qiáng)的頑健性。這對(duì)于后續(xù)對(duì)圖像進(jìn)行安全檢測(cè)具有深遠(yuǎn)意義。
圖像類(lèi)型的日益豐富,對(duì)隱寫(xiě)分析、圖像內(nèi)容取證、失泄密檢查等圖像內(nèi)容安全檢測(cè)技術(shù)提出了挑戰(zhàn)。為了應(yīng)對(duì)圖像安全檢測(cè)技術(shù)面臨的挑戰(zhàn),適應(yīng)媒體類(lèi)型多樣性的現(xiàn)狀,本文使用卷積神經(jīng)網(wǎng)絡(luò)按照?qǐng)D像的生成方式對(duì)圖像進(jìn)行類(lèi)型分類(lèi)。通過(guò)卷積和池化操作提取自然圖像和文檔掃描圖像間具有高區(qū)分度的特征,構(gòu)建高速高精度圖像類(lèi)型識(shí)別系統(tǒng)。所提出的分類(lèi)方法在SKL圖像庫(kù)上的分類(lèi)精度超過(guò)93%。訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)于圖像文字大小和圖像格式頑健。本文通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了圖像預(yù)處理對(duì)于模型的精度以及模型訓(xùn)練收斂所需時(shí)間具有積極效果。
感知圖像的類(lèi)型有助于提高圖像安全檢測(cè)的精度,對(duì)后續(xù)的安全檢測(cè)具有顯著意義。除了自然圖像和文檔掃描圖像,計(jì)算機(jī)合成圖像與屏幕截圖在進(jìn)行安全檢測(cè)前也需要按照生成方式分類(lèi)。后續(xù)實(shí)驗(yàn)還會(huì)將計(jì)算機(jī)合成圖像和屏幕截圖加入到訓(xùn)練樣本中,構(gòu)建更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練出能對(duì)更多內(nèi)容模式的圖像進(jìn)行準(zhǔn)確分類(lèi)的模型。目前實(shí)驗(yàn)使用1 600張圖像進(jìn)行訓(xùn)練,后續(xù)實(shí)驗(yàn)將繼續(xù)豐富訓(xùn)練樣本的數(shù)量和類(lèi)型,通過(guò)大樣本訓(xùn)練出更加高精度的模型。
[1] WANG Y, MOULIN P. On discrimination between photorealistic and photographic images[C]//IEEE International Conference on Acoustics Speech and Signal Processing. 2006.
[2] LYU S, FARID H. How realistic is photorealistic[J]. IEEE International Conference on Signal Processing, 2005, 53(2): 845-850.
[3] ZHU J Y, KRAHENBUHL P, SHECHTMAN E, et al. Learning a discriminative model for the perception of realism in composite images[C]//IEEE International Conference on Computer Vision. 2015: 3943-3951.
[4] KHANNA, N, CHIU G T C, ALLEBACH J P, et al. Forensic techniques for classifying scanner, computer generated and digital camera images[C]//IEEE International Conference on Acoustics,Speech and Signal Processing. 2008: 1653-1656.
[5] MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2015: 5188-5196.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998,86(11): 2278-2324.
[7] KUSSUL E, BAIDYK T, WUNSCH II D C. Permutation coding technique for image recognition system[M]. Neural Networks and Micromechanics, 2010: 47-73.
[8] KAIMING H, XIANGYU Z, SHAOQING R, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//IEEE International Conference on Computer Vision. 2015: 1026-1034.
[9] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]//The 27th International Conference on Machine Learning. 2010: 807-814.
[10] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[11] SUTSKEVER I, MARTENS J, DAHL G, et al. On the importance of initialization and momentum in deep learning[C]//The 30th International Conference on Machine Learning. 2013: 1139-1147.
[12] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]//The ACM International Conference on Multimedia. 2014: 675-678.
關(guān)晴驍(1984-),男,湖南湘潭人,博士,中國(guó)科學(xué)院信息工程研究所助理研究員,主要研究方向?yàn)槎嗝襟w內(nèi)容安全、通信隱寫(xiě)分析。
趙險(xiǎn)峰(1969-),男,安徽淮北人,博士,中國(guó)科學(xué)院信息工程研究所研究員、博士生導(dǎo)師,主要研究方向?yàn)樾畔踩录z測(cè)分析的理論與技術(shù),包括信息隱藏及其檢測(cè)、網(wǎng)絡(luò)安全異常行為檢測(cè)、大數(shù)據(jù)安全分析以及相關(guān)技術(shù)在內(nèi)容保護(hù)、版權(quán)保護(hù)和系統(tǒng)防護(hù)等中的應(yīng)用。
Image generation classification method based on convolution neural network
LI Qiao-ling1,2, GUAN Qing-xiao1,2, ZHAO Xian-feng1,2
(1. State Key Laboratory of Information Security, Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China;2. University of Chinese Academy of Sciences, Beijing 100049, China)
Using convolution neural network which though convolution and pooling extracting features of high distinguish ability and then make fusion for classification of natural images and scanned documents. Experimental results show that the classification accuracy of the proposed classification method is more than 93% on the SKL image database. The model is highly robust to font sizes and image formats. Through contrast experiment validated that preprocessing of image has a positive effect on the accuracy of the model and the time cost on training.
convolution neural network, image generation mode, content pattern classification, multimedia security
當(dāng)前,網(wǎng)絡(luò)圖像類(lèi)型日益豐富,這導(dǎo)致圖像安全檢測(cè)容易出現(xiàn)被測(cè)圖像和檢測(cè)模型失配問(wèn)題,媒體失配問(wèn)題使圖像安全檢測(cè)方法的性能大大降低。造成圖像類(lèi)型日益豐富的主要原因是圖像生成方式較多,這包括拍攝設(shè)備拍攝、計(jì)算機(jī)生成、掃描儀掃描等,為了使圖像安全檢測(cè)技術(shù)適應(yīng)媒體類(lèi)型多樣性的現(xiàn)狀,技術(shù)上需要按照生成方式對(duì)圖像進(jìn)行類(lèi)型分類(lèi),感知圖像的類(lèi)型可以為后續(xù)安全檢測(cè)提供先驗(yàn)知識(shí),有助于提高后續(xù)圖像安全檢測(cè)的精度和效率。
s: The National Natural Science Foundation of China (No.61303259, No.U1536105), The Strategic Pilot Science and Technology Project of the Chinese Academy of Sciences (No.XDA06030600), The Key Project of Institute of Information Engineering, Chinese Academy of Sciences (No.Y5Z0131201)
TP37
A
10.11959/j.issn.2096-109x.2016.00096
2016-07-16;
2016-08-09。通信作者:李巧玲,liqiaoling@iie.ac.cn
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61303259, No.U1536105);中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專(zhuān)項(xiàng)課題基金資助項(xiàng)目(No.XDA06030600);中國(guó)科學(xué)院信息工程研究所重點(diǎn)基金資助項(xiàng)目(No.Y5Z0131201)
李巧玲(1992-),女,湖北宜昌人,中國(guó)科學(xué)院信息工程研究所碩士生,主要研究方向?yàn)樾畔?duì)抗理論與技術(shù)。