基于插值檢測的掃描圖像源辨識方法*

2013-04-24 11:41房穗韜方艷梅

中山大學學報(自然科學版)(中英文) 2013年5期

房穗韜，方艷梅

(中山大學信息科學與技術學院，廣東廣州 510006)

隨著數(shù)字照片時代的到來，用于商業(yè)交往的傳統(tǒng)支票運作方式，逐漸被通過掃描傳遞的數(shù)字影像支付方式替代，大大提高了資金轉帳和利用效率。然而，掃描的數(shù)字圖像因其易操作性，往往會被惡意利用。因此，開展針對圖像真實性的掃描圖像取證研究，對于確保公共信任秩序、打擊犯罪、維護司法公正和新聞誠信具有十分重要的社會意義。

國內對掃描圖像認證的研究極少，國外研究集中在基于成像過程的一致性上。Gloe[1]把對傳感器噪聲源的識別算法用于掃描圖像的辯識，并用TIFF格式圖像在三種掃描儀模型中進行了實驗分析，但因掃描儀的玻璃板上可能存在劃痕或灰塵[2]，使其結果受到影響；Delp等[3-4]一方面應用掃描儀的模式噪聲嘗試區(qū)分三種掃描儀，對TIFF格式的圖像庫區(qū)分度達到96%，一方面通過傳感器模式噪聲的自然統(tǒng)計特性嘗試對掃描圖像、數(shù)碼相機圖像及CG這三類的TIFF格式圖像進行區(qū)分，三類圖像兩兩區(qū)分度均在85%；此外，Gou[5]等提出了一種基于圖像去噪、鄰域分析、小波分析等多角度的自然統(tǒng)計特征提取方法，對掃描圖像源進行認證。實驗中嘗試了對7種掃描儀進行區(qū)分，每種掃描儀的圖像為26幅，每幅圖像均提取60維特征，平均準確率約為90%。由于實驗中數(shù)據(jù)庫樣本偏少，實驗結果仍需進行大量的測試。

本文通過分析掃描圖像(scanned image, SG)、數(shù)碼相機圖像(digital image, DG)、計算機生成圖像(computer image, CG)三類圖像的成像過程中的固有區(qū)別，針對目前流行的JPEG格式圖像提出了應用EM算法與圖像噪聲的自然統(tǒng)計特性相結合的分類源辨識方法，達到了區(qū)分掃描儀圖像與其他兩類圖像的目的，其中區(qū)分SG與CG及DG混合類圖像，達到了接近95%的識別率。

1 掃描儀成像過程分析

常見的掃描儀一般包括主板、掃描頭、光學系統(tǒng)、機械機構等四個部分[6]。掃描儀的原理如圖1所示，掃描儀工作時，光源會把光線照射在準備輸出的圖像上，為了能均勻地照在SG圖像，掃描儀光源為長度與工作平臺寬度一樣寬的長條形，掃描時做垂直于掃描方向的動作，每掃描一行就能得到原圖像橫向一行的圖像信息。照射到原圖上的光線經(jīng)反射后，穿過一個較細的縫隙，形成一條橫向光帶，再經(jīng)過一組反射鏡的折射，最后由一個光學透鏡聚焦再照到感光器件CCD上，CCD實現(xiàn)數(shù)字模擬轉換功能，把聚焦產生的光信號轉化為對應的模擬信號后，生成數(shù)字信號，暫存在緩存器中。掃描儀在機械傳統(tǒng)機構與掃描介質進行相對運動后，會得到全部的圖像信息，并按照掃描的前后順序把數(shù)據(jù)傳遞給連接的計算機中。最終圖稿被顯示在屏幕前，還需在掃描儀中經(jīng)過自帶軟件的重新處理，其中包括插值、顏色變換、白平衡、曝光率控制、降噪等預處理[7]。

由上述成像過程分析可知，SG與其他生成設備圖像存在以下區(qū)別。

1) 掃描儀是逐行掃描的，采用一維的CCD來獲取二維圖像，只存在水平方向的像素點，掃描儀的最大分辨率由步進電機的最小位移和水平像素點的數(shù)量共同決定。

2) 掃描儀分一次掃描與三次掃描兩種掃描技術，分別由一個CCD掃描RGB三通道三次或使用三個線性的CCD一次性掃描RGB三個通道，兩種技術均不存在顏色插值過程。

3) 掃描介質一般不可能完全覆蓋掃描儀的玻璃板，掃描過程中通常只有一部分單元參與掃描過程，而且由于是逐行掃描，圖像在存儲前要經(jīng)過掃描儀自帶軟件進行內部處理，其中包括插值、顏色變換、白平衡、曝光率控制、降噪等等。

4) 常年使用的掃描儀上經(jīng)常會存在一些物理上的小缺陷，如劃痕與灰塵，這些物理特性即使在壓縮率較高的SG上，也依然會被檢測出來。

圖1 掃描儀原理Fig.1 The principle of scanner

由于掃描儀在成像過程中均是采用逐行掃描，導致了行與行之間沒有運用插值運算，SG與DG圖像在傅立葉頻譜圖上的差異如圖2所示，SG的橫向周期性與列向周期性不一樣，導致了在頻譜圖上有明顯的亮線，而DG圖像則是橫縱周期一致，中間有一明顯的亮點，高頻低頻成分均勻分布。根據(jù)此差別，本文提取EM算法結果中的殘留誤差的加權平均系數(shù)與噪聲圖像的自然統(tǒng)計特性作為統(tǒng)計特征，區(qū)分SG與其他類型圖像，具體的流程如下。

圖2 傅里葉頻譜圖(a)和(b)SG圖像; (c)和(d)DG圖像Fig.2 Fourier spectrum(a) and (b) for SG image, (c) and (d) for DG image

2 EM算法

現(xiàn)實世界中經(jīng)常存在著一些“不完全數(shù)據(jù)”，即數(shù)據(jù)集中的數(shù)據(jù)是不完整的，通過引入額外的參數(shù)，可以對這些數(shù)據(jù)集合進行優(yōu)化，EM算法[8]，即期望最大化算法。它是一種當觀測數(shù)據(jù)不完整時，求解最大似然估計的迭代算法。

而在數(shù)字圖像中，圖像的樣本點可以分為兩類：第一類是與相鄰樣本相關聯(lián)的樣本點集合，用C1表示；第二類是與它們的相鄰點不相關的樣本點集合，用C2表示，圖像中的每個樣本點要么屬于C1，要么屬于C2，EM算法就是求解圖像像素點屬于C1的迭代算法[9]。一幅圖像應用EM算法迭代求解圖像中的像素相關性的流程圖見圖3。

圖3 EM算法流程圖Fig.3 The flow chart of the EM algorithm

在上述流程中，本文選定鄰域N為3，即假設樣本點周圍3×3的范圍為樣本點的插值區(qū)間，每幅圖像均提取鄰域的加權系數(shù)作為該圖像的第一類特征，即應用EM算法后，每幅圖像的分類特征維數(shù)為48維。

后驗概率圖是一幅圖像經(jīng)過EM算法后的結果之一，它反映了一幅圖像中的像素點屬于C1的概率，如圖4所示。由于C1類像素點是由鄰域像素點插值達到的，因而根據(jù)不同類型的圖像，呈現(xiàn)一定周期性。SG經(jīng)過EM算法后得到的插值概率圖像也是一種周期性信號，所以本文可通過傅立葉變換觀察其中的周期特性。

圖4為圖像經(jīng)過EM算法后的運算結果，圖4(c)列表明，DG圖像的行與列都參與插值運算，故在傅立葉頻譜圖上，DG圖像是行與列周期性一致，呈均勻分布；而SG則因成像過程是逐行掃描，經(jīng)掃描儀內部軟件處理時，其只有列方向參與插值運算，其傅立葉頻譜圖的行列方向周期性不一致，在頻譜圖上呈現(xiàn)出一條明顯的亮線；而CG圖像則因其生成過程，而在傅立葉頻譜圖上毫無規(guī)律性。

圖4 三類JPEG圖像經(jīng)EM算法的結果Fig.4 EM results of images

實驗過程中為了更好地觀察傅立葉頻譜圖，對它進行了相應變換，把頻譜移頻到原點。變換后的圖像頻率分布會以原點為中心呈對稱分布，中心區(qū)域表示圖像的低頻成分，外部為圖像的高頻成分。

3 掃描儀傳感器噪聲

除了應用EM算法對SG進行源取證，本文嘗試引入傳感器噪聲的自然統(tǒng)計特性作為宏觀統(tǒng)計特征對上述算法進行補充。傳感器模式噪聲的識別算法已經(jīng)成功應用于數(shù)碼相機的分類取證[10]，在這些研究中發(fā)現(xiàn)，模式噪聲中存在著兩種不同的成分：一種是隨機噪聲，它會隨著不同圖像的變化而改變，不利于識別，另外一種是固定噪聲，它不會隨著圖像的變化而改變，是代表傳感器內部的固有的噪聲，這種噪聲在掃描儀中也存在[11]。利用這種固有的特征，我們把兩種成份分離，得到想要的固有部分，然后提取其自然統(tǒng)計特征，用SVM進行區(qū)分[12]。

圖像掃描是逐行進行的，故產生的每一行數(shù)字圖像都是由相同傳感器像素產生的，所以對于SG，行平均值可以近似地被稱為行傳感器噪聲參數(shù)，這種均值處理在減低隨機噪聲的影響時，也同時增強了固有噪聲。同理，將列平均值稱為列傳感器噪聲參數(shù)[13]。實現(xiàn)過程如下，通過去噪算法獲取噪聲圖像，設該圖像的分辨率大小為M×N，于是

In=I-Ide

(1)

(2)

(3)

這里，X與Y的協(xié)方差函數(shù)定義為，C(X,Y)

(4)

用ρrow(i)表示行平均噪聲參數(shù)與每一行的傳感器噪聲參數(shù)的協(xié)方差函數(shù)[14]，其定義為

(5)

同理，用ρrow(i)表示列平均噪聲參數(shù)與每一列的傳感器噪聲參數(shù)的協(xié)方差函數(shù)，其定義為

(6)

(7)

對于光學分辨率較高的掃描圖片，在大部分圖片上都會有很好的效果，它反應行列相關系數(shù)的比值。

通過預處理，我們把圖像轉換成灰度圖，再經(jīng)過雙密度雙樹小波變換的去噪算法[15]，得到其噪聲圖像。把噪聲圖像經(jīng)過如上處理后，統(tǒng)計其自然特性，獲取所需的15個特征值，作為本文算法的第二類特征。

4 實驗結果分析

實驗中采用支持向量機SVM[16-17]作為分類器。對每個圖像我們只取了部分大小(如1 024×1 024、512×512)作特征提取對象。對圖像庫的圖像提取了EM算法特征和噪聲特征，然后分別選取了部分圖像特征對SVM進行了訓練，其余圖像特征用于測試[18]。

實驗中的數(shù)據(jù)庫分為三部分，分別是DG圖像庫、CG圖像庫和SG圖像庫，其中SG圖像庫分別來自18臺不同的掃描儀，當中包括了150 dpi到600 dpi的747幅圖像，而CG圖像均是從網(wǎng)絡下載的747幅圖像，DG圖像庫包含了6個品牌相機的1 494幅圖像。掃描儀、相機的列表分別如表1、表2所示。

表1 掃描儀圖像庫1)Table 1 Scanner image database

1)格式均為JPEG

表2 數(shù)碼相機圖像庫1)Table 2 Digital image database

1)格式均為JPEG

4.1 檢測率分析

首先本文應用EM算法提取插值概率圖像與傅立葉頻譜圖，區(qū)分三類圖像。每幅圖像應用EM算法后得到的殘留誤差的加權平均系數(shù)為分類特征，共48維。三類圖像特征分成如下三組實驗對象： SG圖像與CG圖像、SG圖像與DG圖像、SG圖像與CG&DG混合圖像(MG)。按上述實驗組別，用SVM對特征進行訓練和預測，其中數(shù)據(jù)庫中70%的圖像樣本訓練，30%的圖像用于預測，結果由圖5(a)的ROC性能曲線表示，其中曲線圖中橫坐標表示虛警率，縱坐標為檢測率。

表3顯示，SG圖像與CG圖像的源分類達到了91.79%，具有較好的效果，因為CG類圖像在成像過程中不存在插值運算，而SG類圖像在列方向上存在著插值運算；同理，掃描儀與數(shù)碼相機的成像過程不同，插值算法及插值鄰域也會不同，相機的顏色濾波陣列是周期性排列的，因此，經(jīng)過插值后圖像傅里葉頻譜圖同樣呈現(xiàn)周期性，DG圖像行與列的鄰域均參與了插值運算，而SG圖像只在列方向上存在著插值操作，故SG圖像與DG圖像的源取證也達到了很不錯的效果，有93.96%。最后，SG圖像與其余兩類圖像組成的混合圖像也有較好的分類效果，區(qū)分率為91.30%。

表3 SG圖像源取證ROC曲線性能指標Table 3 Scanned image source identification ROC curve parameter

由于實驗中數(shù)據(jù)庫采用的是JPEG格式圖像[16]，JPEG圖像在其壓縮量化過程中，圍繞其減少圖像存儲空間的目的，必不可少地會損失部分高頻的細節(jié)特征，削弱圖像像素間的相關性，故用作實驗對象難度較大。本文嘗試引入傳感器噪聲的自然統(tǒng)計特性作為宏觀的統(tǒng)計特征對上述算法進行補充。一幅圖像通過提取噪聲圖像后，計算上述提及的噪聲自然統(tǒng)計特性共15維統(tǒng)計特征，通過SVM訓練及預測，觀察算法的識別率，結果如表3所示。

表3表明，若只應用噪聲圖像的統(tǒng)計特征區(qū)分

SG圖像與其他兩類圖像，效果并不顯著。SG圖像與CG圖像的源辨識率達到87.28%，SG圖像與DG圖像的源辨識率為90.4%，SG圖像與其余兩類混合類圖像的源辨識率為89.51%。因為CG圖像是通過電腦生成的，不存在固有的傳感器噪聲；同理，掃描儀與數(shù)碼相機的成像過程不同，固有的傳感器噪聲自然統(tǒng)計特性也會不同，所以傳感器噪聲的自然統(tǒng)計特性能從統(tǒng)計學的角度對三類圖像稍作區(qū)分。

最后，本文對兩種算法特征進行合并整理，用SVM訓練圖像庫的特征值，仍用70%進行訓練，剩下30%進行測試，結果由圖5(a)的ROC性能曲線展示。

綜合實驗結果得出，當把兩類算法特征協(xié)同應用時，SG與CG類圖像的源取證達到了理想的效果，有93.24%；SG與DG圖像的源取證更達到了明顯的效果，檢測率為96.14%，SG與混合類圖像的區(qū)分也有94.93%，比在單獨應用一種算法的效果有所提高，ROC各性能參數(shù)如表3所示。文獻[4]中，Khanna的方法應用于三色通道中提取得到的45維特征對三類TIFF格式辨識率為85%，JPEG格式圖像為79.8%，如圖5(b)所示。本文算法針對JPEG格式圖像平均準確率為94.93%，對比文獻[4]，更具有實用性及廣泛性。

當實驗圖像數(shù)據(jù)庫是JPEG圖像格式時，圖片在壓縮量化過程中特征有損失，文獻[5]中提出了它們在這方面的缺陷，本文算法在一定程度上彌補了JPEG圖像壓縮過程中造成的特征損失，提高了利用盲檢測辨識SG與其他兩類圖像的準確率。本文算法與文獻[5]的對比結果如圖5(a)與圖5(c)所示，從準確率的角度觀察，本文算法比文獻[5]略優(yōu)；從算法的計算復雜度觀察，本文算法為O(n)，文獻[5]所提算法為O(n2)，本文算法運行時間遠遠小于文獻[5]所提算法。

在實驗過程中，本文實驗對象采用JPEG格式而不采用TIFF格式，原因在于，從實用性及普適性角度來看，TIFF格式所占存儲空間比JPEG格式要大很多，一般來說，一幅300萬像素照相產生的DG圖片，JPEG格式1 M大小，但是TIFF格式20 M大??；正因TIFF格式圖像所需存儲空間大，其包含的信息也比JPEG格式圖像多，從信息量的角度上看，區(qū)分JPEG格式的源分類圖像，要比TIFF格式困難得多。

圖5 SG圖像源取證ROC曲線(a) 本文綜合算法的ROC曲線；(b) 文獻[4]所提算法；(c) 文獻[5]所提算法Fig.5 Scanned image source identification ROC curve(a) Proposed Synthesis algorithm; (b) Khanna's algorithm[4]; (c) Gou’s algorithm[5]

由于EM算法中相關因子個數(shù)N的選取對結果有較大影響，本文通過比較鄰域N分別為3,4,5時，EM算法的準確率，最后選取了N=3完成了上述實驗，鄰域N為4和5時，本文算法結果如表4所示。從表中可以看出，領域N越大，準確率反而會降低，選取合適的鄰域N對實驗非常重要。

表4 改變鄰域N時EM算法的準確率Table 4 The accuracy of the EM algorithm with a different N

4.2 穩(wěn)定性分析

為了驗證算法的穩(wěn)定性，我們采取“M-重交叉驗證”的方法。在操作過程中，我們把CG類跟SG類的圖像庫特征各分成10份，分別為M1，M2，M3…M10，每份74張，每次用其中的9份組成各自的圖像庫，然后放入SVM中進行訓練及測試，最后實驗結果如圖6所示。從圖中，我們可以看出，各性能指標上下波動不大，表示算法相對穩(wěn)定。

圖6 M重交叉驗證穩(wěn)定性分析Fig.6 Stability of M-fold cross validation

此外，我們還針對圖像的大小對本算法進行穩(wěn)定性分析。針對1 024×1 024、512×512及256×256這三種不同尺寸，我們對SG圖像與CG圖像進行了穩(wěn)定性分析,結果如表5所示。

表5 對不同尺寸的SG與CG圖像應用綜合算法Table 5 ROC curve parameter by SG and CG

從表5可以看出，隨著圖像的大小不斷降低，本算法的正確率并沒有大幅下降，說明算法較穩(wěn)定，針對小尺寸圖像，也能達到較好的效果。

5 結論

本文提出了一種基于圖像插值檢測，并與掃描儀傳感器噪聲的行列自然統(tǒng)計特性相結合的一種新算法來對掃描圖像進行源取證。本文證明了插值檢測不僅能應用于數(shù)碼相機的源分類檢測，也同樣能應用于掃描圖像取證。檢測圖像的插值相關性還有很多方法，下一步可以從這方面進一步研究，提高算法的準確率。

參考文獻：

[1] GLOE T, FRANZ E,WINKLER A, Forensics for flatbed scanners[C]∥ Proc of SPIE Security, Steganography, Watermarking of Multimedia Contents IX,2007:65051I.

[2] DIRIK A E., SENCAR H T,MEMON N, Flatbed scanner identification based on dust and scratches over scanner platen[C]∥ IEEE International Conference on Signal Processing,2009: 1385-1388.

[3] KHANNA NITIN, MIKKILINENI A K, DELP Edward J. Scanner identification using sensor pattern noise [C]∥Proc of SPIE Security, Steganography, and Watermarking of Multimedia Contents IX, 2007:65051K.

[4] KHANNA NITIN, GEORGE T C, DELP Edward J. Forensic techniques for classifying scanner, computer generated and digital camera images[C]∥ IEEE International Conference on Signal Processing, 2008: 1653-1656.

[5] GOU H, SWAMINATHAN A, Robust scanner identification based on noise features [C]∥ Proc of SPIE Security, Steganography, Watermarking of Multimedia Contents IX, 2007:65050S.

[6] 張桂蘭.掃描儀的原理及其使用方法[J]. 印刷技術，1994，11:14.

[7] HOLST G C, LOMHEIM T S, CMOS/CCD Sensors and Camera Systems [C]∥ The International Society for Optical Engine, 2007.

[8] 黃穎，李偉，EM算法與K-Means算法的比較[J]. 計算機與現(xiàn)代化，2007，9:12.

[9] POPESCU A C, FARID Hany. Exposing digital forgeries by detecting traces of re-sampling [J]. IEEE Tran on Signal Processing,2005, 53 (2):758-767.

[10] LUKAS J, FRIDRICH J, Digital camera identification from sensor pattern noise [J]. IEEE Trans on Information Forensics and Security, 2006, 1(2):205-214.

[11] GOU H, SWAMINATHAN A ,WU Min. Intrinsic sensor noise features for forensic analysis on scanners and scanned images [J]. IEEE Trans on Information Forensics and Security, 2009, 4(3):476-491.

[12] CRISTIANINI N ,SHAWE-Taylor J, An introduction to support vector machines (and other kernel -based learning methods) [M]. Cambridge University Press, 2000.

[13] CHOI Chang-Hee,LEE Min-Jeong. Scanner identification using spectral noise in the frequency domain[C]∥ IEEE International Conference on Image Processing, 2010: 2121-2124.

[14] KHANNA Nitin, MIKKILINENI A K, DELP Edward J, Scanner identification using feature-based processing and analysis[J]. IEEE Trans on Information Forensics and Security,2009, 4(1): 123-139.

[15] 張春梅，張?zhí)? 基于雙密度雙樹復數(shù)小波變換的圖像去噪[J]. 西安交通大學學報，2006, 40(2): 4-8.

[16] CHANG C C,LIN C J. LIBSVM: A library for support vector machines[EB/OL].(2001-04-17)[2013-03-13].Available: http://www.csie.ntu.edu.tw/～cjlin/libsvm.

[17] KEETTHI Sathiya. Training and testing low-degree polynomial data mappings via Linear SVM [J]. Journal of Machine Learning Research,2010(11):1471-1490.

[18] 尹京，方艷梅. 數(shù)碼翻拍圖像取證算法[J].中山大學學報:自然科學版，2011,50(6)：48-52.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡