楊培韜,張衛(wèi)明,俞能海
(中國科學(xué)技術(shù)大學(xué)中科院電磁空間信息重點實驗室,安徽 合肥 230001)
基于圖像來源分類的最小化虛警隱寫分析模型
楊培韜,張衛(wèi)明,俞能海
(中國科學(xué)技術(shù)大學(xué)中科院電磁空間信息重點實驗室,安徽 合肥 230001)
在實真場景中,在載體失配(CSM,cover source mismatch)條件下降低虛警率是隱寫分析的一個巨大挑戰(zhàn),提出了一種新的模型來處理該問題。該方法由來源分類器首先判斷圖像的來源,繼而利用相關(guān)來源圖像訓(xùn)練而成的隱寫分類器判斷待測圖像是否為載密。在這個過程中,通過對模型參數(shù)的調(diào)節(jié)減小虛警率。實驗結(jié)果表明,這種方法可以在較大準(zhǔn)確率的前提下最小化虛警率。
虛警率;失配;隱寫分析;最小化虛警模型
隱寫術(shù)是信息隱藏的一個分支[1],可以將隱私數(shù)據(jù)嵌入到數(shù)字載體中。由于隱寫前的載體對象與隱寫后的載密對象難以區(qū)分,從而可以掩蓋隱私數(shù)據(jù)的存在。正是因為這一特性,隱寫術(shù)常常被極端分子用來從事犯罪活動。因此,與隱寫術(shù)相對的隱寫分析技術(shù)的發(fā)展顯得格外重要。
隱寫分析技術(shù)旨在檢測隱私數(shù)據(jù)的存在[2],傳統(tǒng)的隱寫分析模型是基于機器學(xué)習(xí)的理論設(shè)計的,將待測對象映射到某個特征空間,再通過二元分類器判斷待測對象是否為載密。然而應(yīng)用到真實場景中,傳統(tǒng)的隱寫分析模型將面臨兩大挑戰(zhàn),低虛警要求與失配現(xiàn)象。在真實場景中,載體對象的數(shù)量通常遠遠大于載密對象[3]。因此,傳統(tǒng)隱寫分析模型使用的分類器虛警率必須非常低,否則被誤判為載密的載體對象會把系統(tǒng)淹沒。另一方面,F(xiàn)ridrich等[4]指出傳統(tǒng)隱寫分析中訓(xùn)練集與測試集之間存在的各種失配,如訓(xùn)練集和測試集統(tǒng)計特征不一致導(dǎo)致的失配、嵌入率未知導(dǎo)致的失配、算法未知導(dǎo)致的失配等,會使傳統(tǒng)隱寫分析的錯誤率大幅提升。這種由失配導(dǎo)致的錯誤率提升足以說明傳統(tǒng)的隱寫分析模型不適用于真實場景[5,6]。
目前,針對失配問題提出的隱寫分析方法如下:Lubenko等[7]認為利用簡單分類器可以提高失配情況下的分類效果;在此基礎(chǔ)上,Pasquet等[8]引入了聚類的方法,提升了隱寫分析的判別效果;此外,針對隱寫算法的失配,文獻[9,10]提出了基于遷移學(xué)習(xí)的隱寫分析方法;針對量化表的失配,有基于特征映射變換的隱寫分析方法。
這些工作成果都是基于傳統(tǒng)的隱寫分析方法,在一定程度上解決了失配隱寫分析問題。然而,這些方法都沒有考慮虛警率的要求。因此,針對這2個問題設(shè)計一套新的隱寫分析系統(tǒng)有巨大的實際意義[11]。
本文以圖像作為隱寫分析的研究對象,以圖像的生成設(shè)備不同作為失配問題的切入點,提出了最小化虛警模型(MFPM)。MFPM的檢測過程可以大致分為:1) 通過來源分類器判斷測試圖像的來源;2) 用該來源的圖像訓(xùn)練而成的隱寫分類器判斷測試圖像是否為載密;3) 通過參數(shù)的調(diào)節(jié)實現(xiàn)模型的虛警最小化。
一般而言,各種類型的數(shù)字媒體(如圖像、視頻、音頻等)均可作為隱寫術(shù)、隱寫分析的研究對象,本文僅以圖像為例,展示研究的效果。本文提出的模型依然適用于其他類型的數(shù)字媒體。
在檢測載密圖像過程中基于以下2個基本假設(shè):
1) 使用的隱寫算法已知;
2) 已知嵌入過程中的嵌入率。
傳統(tǒng)的隱寫分析方法檢測流程描述如下。
1) 收集大量的載體圖像,形成載體集,用C表示?;谏鲜黾僭O(shè),本文利用已知的隱寫算法A(·)在固定的嵌入率下模擬隱私數(shù)據(jù)嵌入過程,從而生成載密圖像集S,這里S=A(C)。為了方便表述,本文將C和S統(tǒng)稱為訓(xùn)練集,用Tr表示。
2) 正如上文所述,隱寫分析特征的提取操作用Fs(·)表示。通過將訓(xùn)練集的所有圖像映射到特征空間,得到Fs(C)和Fs(S)。再選擇合適的二元分類模型訓(xùn)練Fs(C)和Fs(S),從而生成傳統(tǒng)的隱寫分類器V。
3) 對于待測圖像x,首先計算Fs(x),再利用V檢測Fs(x),判斷x是否為載密。
由于圖像在拍攝過程中,拍攝設(shè)備會在圖像中添加隨機噪聲和量化噪聲,這些噪聲會降低傳統(tǒng)隱寫分析模型的檢測準(zhǔn)確性。因此,在最小化虛警模型中增加了對圖像來源判斷的處理。具體如下所述。
1) 與傳統(tǒng)隱寫分析流程相同,首先收集大量的載體圖像。不同的是本文按照圖像來源的不同將載體圖像分為若干個載體子集,記為Ci,i=1,2,…,N,其中,N表示載體子集的總數(shù)。載體子集中的圖像均來自相同型號的圖像采集設(shè)備。
2) 相似地,本文利用來源特征Ff(·)實現(xiàn)圖像的來源判斷。將所有載體子集中的圖像映射到特征空間得到Ff(Ci),i=1,2,…,N。由于N≥2,本文選擇多元分類模型訓(xùn)練Ff(Ci),生成來源分類器Vf。
3) 同樣地,本文利用特征Fs(·)判斷待測圖像是否為載密。首先模擬生成載密子集Si(Si=A(Ci)),再分別將所有載體與載密子集中的圖像映射到特征空間中,生成Fs(Ci)和Fs(Si),i=1,2,…,N。
4) 訓(xùn)練Fs(Ci)和Fs(Si),得到第i組隱寫分類器Vi。循環(huán)此操作,最終生成N個隱寫分類器。
以上為MFPM的訓(xùn)練過程,而其測試過程如圖1所示。
圖1 MFPM的測試過程
1) 對于待測圖像y,首先計算Ff(y),通過Vf判斷y的圖像來源。這里不失一般性,本文假設(shè)y來自第k組圖像來源。
2) 計算Fs(y)。由于y來自第k組圖像,本文用Vk對y進行載體載密判斷。Vk的輸出為
每次測試有且僅有一個隱寫分類器Vk會對y進行載體載密判斷。對于不響應(yīng)的隱寫分類器,設(shè)置Vi=0,i=1,2,…,k?1,k+1,…,N。
3) 本文利用函數(shù)Fcs生成最終判決結(jié)果為
其中,ρi是調(diào)整參數(shù),且0≤ρi≤1,R{p}為生成隨機數(shù)操作(以概率p生成1,以概率1?p生成0)。最終的結(jié)果滿足
其中,式(2)中的參數(shù)ρi(i=1,2,…,N)為最小化模型的虛警率。為了簡化處理過程,假設(shè)本文可以準(zhǔn)確地識別未知圖像的來源。對于傳統(tǒng)隱寫分析模型,Vi的檢錯率PEi滿足
其中,PFPi與PFNi分別表示Vi的虛警率與漏警率。由于MFPM受到參數(shù)ρi的影響,此時Vi的檢錯率iP為
其中,Pth是模型檢錯率的上限。PFPi與PFNi可以通過實驗得到,因此,式(6)只要給定模型檢錯率的上限Pth,即可計算出使模型達到最小虛警的參數(shù)ρi(i=1,2,…,N)。
4.1 實驗對象選擇
本文以空域圖像為例驗證上述方法。由手機、相機等設(shè)備直接拍攝的圖像為JPEG格式,所以本文在真實場景中用于隱寫的空域圖像大多是由JPEG格式的圖像解壓縮得到的。因此,本文采用JPEG解壓縮空域圖像作為最小化虛警模型的實驗對象。
4.2 來源分類方法選擇
由第3節(jié)可知,能否準(zhǔn)確判斷圖像的來源與整個最小化虛警模型的檢測準(zhǔn)確率的高低有著直接的關(guān)聯(lián)。本文選擇Fridrich等提出的PCE[12~15](peak-to-correlation energy ratio)為Ff(·)。
類似于歸一化的相關(guān)系數(shù),PCE通常被用來計算2個離散信號間的相似度。由于圖像與錯誤來源計算得出的PCE遠小于圖像與正確來源計算的PCE的值,因此,PCE通常用來判斷圖像的來源。本文先利用快速離散傅里葉變換計算圖像與來源間的互相關(guān),再通過互相關(guān)計算PCE的值。
4.3 隱寫分析方法選擇
本文采用的隱寫算法(上文提到的A(·))為非自適應(yīng)的隱寫算法(LSB matching)。根據(jù)第2節(jié)的假設(shè)2),本文的實驗采用的嵌入率為0.05、0.1、0.2以及0.4 bit/pixel。另外,選用的隱寫分類器為ensemble分類器(版本為2.0,默認設(shè)置,下載地址為http∶//dde.binghamton.edu/download/ ensemble/)[16]。采用的隱寫分析特征為34 671維度的SRM(spatial rich model)特征[17]。
SRM首先計算22個一階及三階殘差矩陣、12個二階殘差矩陣、2個SQUARE殘差矩陣、10個EDGE3× 3及EDGE5× 5殘差矩陣,共計22+22+ 12+2+10+10=78個殘差矩陣。分別計算上述殘差矩陣的四階馬爾可夫特征,范圍參數(shù)T=2,即每個殘差矩陣有(2T+1)4=625維。利用符號對稱性及方向?qū)ΨQ性降低殘差矩陣個數(shù)及特征維度??蓪⒁浑A及三階殘差矩陣降至12個、二階殘差矩陣降至7個、SQUARE殘差矩陣降至2個、EDGE 3×3及EDGE 5×5殘差矩陣降至6個??蓪?2個一階特征降至169維、其他33個特征降至325維,共計12× 169+33× 325= 12 753維。上述12 753維度特征采用步長q=1進行量化,若量化步長按照式(7)確定,則可以得到2×(2×169+10×325)+3×(10×169+23×325)= 34 671維的SRM特征,其中,c為殘差矩陣階數(shù)。
5.1 圖像庫準(zhǔn)備
由4.1節(jié)的論述,為了保證實驗的準(zhǔn)確性,本文收集了由200多種不同型號的設(shè)備拍攝的70 000余張JPEG格式圖像。根據(jù)在實驗中對各來源的圖像有數(shù)量和質(zhì)量(主要指的是圖像清晰度)上的要求,本文最終選擇了5種來源的13 601張圖像作為本文實驗的原始圖像。這5種圖像分別來源于iPhone 4s、iPhone 5、Nikon D3100、Nikon D700和Sony TX1,依次記為iP4、iP5、NK3、NK7和ST。
通過軟件(imageMagick)將這些原始圖像解壓縮成24位TIFF格式的彩色圖像。為了進一步增加實驗圖像數(shù)量,本文將解壓得到的彩色圖像裁剪成1 024×1 024像素的圖像塊,再將各圖像塊采樣至512×512,最后將這些512×512的圖像塊轉(zhuǎn)化成PNG格式8位的灰度圖像。通過上述方法,本文共計得到41 556張灰度圖像,這些灰度圖像即為本文實驗的圖像庫,具體參見表1。
表1 各圖像來源的圖像數(shù)量
5.2 失配現(xiàn)象驗證
Fridrich等[4]已通過實驗表明失配現(xiàn)象會對傳統(tǒng)隱寫分析的結(jié)果造成不利影響,本文用表1中的圖像重現(xiàn)該實驗。
本文將每個來源的圖像分為2個集合:由隨機選取的1 500張圖像組成的測試集和由剩下的圖像組成的訓(xùn)練集(合計得到了5個測試集與5個訓(xùn)練集)。在失配實驗中,本文隨機選取一個訓(xùn)練集中4 000張圖像用來訓(xùn)練Vi,再利用Vi(i=1,2,…,5)依次檢測5個測試集中的圖像。表2和表3中總結(jié)了在0.1 bit/pixel和0.4 bit/pixel嵌入率下失配現(xiàn)象對傳統(tǒng)隱寫分析模型的影響。表2和表3中的數(shù)值為隱寫分類器檢測的錯誤率。本文在表2和表3中用加粗的方式標(biāo)記了在訓(xùn)練集與測試集匹配情況下的測試結(jié)果。
通過表2和表3,可以看出如下特點。
1) 表2和表3中的檢錯率明顯大于文獻[12,18,19]中的數(shù)值,這是由于本文采用的圖像庫是由JPEG圖像解壓縮得到的(存在量化因素),并且本文采用imageMagick軟件而非Matlab對圖像進行格式轉(zhuǎn)換。
表2 嵌入率在0.1 bit/pixel條件下的檢錯率
表3 嵌入率在0.4 bit/pixel條件下的檢錯率
2) 盡管圖像不一致,還是清晰展示了失配現(xiàn)象造成的影響:失配情況下的檢錯率遠遠大于匹配情況下的數(shù)值,并且對于同一圖像來源而言,隨著嵌入率的提高,失配現(xiàn)象造成的影響逐步提高。另外,在同一嵌入率下,失配現(xiàn)象對不同的訓(xùn)練集圖像造成的影響完全不同。
5.3 圖像來源測試
按照5.2節(jié)中提到的方法,本文將圖像集分成5個測試集與5個訓(xùn)練集。利用訓(xùn)練集中的全部圖像訓(xùn)練Vf,并用Vf判斷5個測試集中全部圖像的來源,測試結(jié)果如圖2所示。來源分類器的平均檢測正確率為87.04%,甚至部分圖像來源(如NK3、ST)的檢測準(zhǔn)確率近乎100%。
圖2 來源分類器的檢測結(jié)果
5.4 綜合實驗
為了更好地說明實驗結(jié)果,首先用5.1節(jié)的數(shù)據(jù)庫進行傳統(tǒng)隱寫分析實驗??紤]到圖像的數(shù)量過大(共計41 556張),本文在每個圖像來源中隨機選擇了1 500張(共計7 500張)。與第2節(jié)描述的方法相同,本文從中隨機選擇4 000張圖像作為訓(xùn)練集,剩下的3 500張圖像作為測試集,利用SRM特征進行傳統(tǒng)隱寫分析檢測。
另一方面,按照5.2節(jié)的方法將所有的圖像分成5個訓(xùn)練集與5個測試集。在根據(jù)第3節(jié)所描述的方法獲得Vf和Vi(i=1,2,…,5)。最后按照第3節(jié)描述的測試流程測試5個測試集中的7 500張圖像。這里本文先設(shè)置ρi=1,i=1,2,…,N。
圖3所示為傳統(tǒng)隱寫分析模型與最小化虛警模型的檢測結(jié)果,可以看出MFPM的檢錯率始終低于傳統(tǒng)隱寫分析模型。所以,MFPM在失配情況下有利于提升隱寫分析的檢測效果,但改進并不明顯。不過,本文提出MFPM模型的重點在于控制虛警率。
圖3 2種模型的測試結(jié)果比較
5.5 參數(shù)調(diào)節(jié)
第3節(jié)提到,本文可以通過參數(shù)(ρi)的調(diào)節(jié)控制檢測結(jié)果的虛警率。本文重做5.4節(jié)的實驗,此次聚焦于2種模型的虛警率,實驗結(jié)果如圖4所示。
由于在式(6)中存在檢錯率上限Pth,因此MFPM中的準(zhǔn)確率存在上限。另外可以發(fā)現(xiàn),MFPM的虛警率呈線性增加,而傳統(tǒng)隱寫分析模型的虛警率呈指數(shù)增加。這導(dǎo)致當(dāng)準(zhǔn)確率較大時,MFPM的虛警率遠小于傳統(tǒng)隱寫分析模型。MFPM是針對真實場景設(shè)計的隱寫分析模型,而在真實場景中,本文盡可能準(zhǔn)確地識別載密對象。因此,MFPM的高準(zhǔn)確率、低虛警率特性正是真實場景的隱寫分析所需要的[20]。
圖4 2種模型的虛警率比較
本文以圖像來源不同造成的失配現(xiàn)象為切入點,提出了最小化虛警模型。與傳統(tǒng)隱寫分析模型相比,MFPM可以通過對參數(shù)的調(diào)整降低虛警率。本文在參數(shù)計算的過程中假設(shè)來源分類的結(jié)果是準(zhǔn)確無誤的,而根據(jù)5.3節(jié)的實驗結(jié)果可知,盡管來源分類的準(zhǔn)確率很高,但依然存在誤判。因此,在接下來的工作中,本文在參數(shù)調(diào)整的過程中充分考慮來源分類的誤判造成的影響。
另一方面,本文所提出的最小化虛警模型是一個一般性的模型。僅以解壓縮的JPEG圖像為例驗證MFPM的可行性,當(dāng)然MPFM也適用于其他的失配場景以及其他類型的載體。
[1]GOLJAN M,FRIDRICH J,CHEN M.Sensor noise camera identification:countering counter-forensics[C]//SPIE Media Forensics and Security II.2010:75410S.
[2]FRIDRICH J.Steganography in digital media:principles,algorithms,and applications[M].Cambridge University Press,2009.
[3]PEVNY T,KER A D.Towards dependable steganalysis[C]//SPIE Media Watermarking,Security,and Forensics.2015:94090I.
[4]KODOVSKY J,SEDIGHI V,FRIDRICH J.Study of cover source mismatch in steganalysis and ways to mitigate its impact[C]// SPIE Media Watermarking,Security,and Forensics.2014:90280J.
[5]BARNI M,CANCELLI G,ESPOSITO A.Forensics aided steganalysis of heterogeneous images[C]//IEEE Conference Acoustics Speech and Signal Process,2010:1690-1693.
[6]CANCELLI G,DOERR G,BARNI M.A comparative study of ±1 steganalyzers[C]//IEEE Multimedia Signal Process.Workshop,2008:791-794.
[7]LUBENKO I,KER A D.Steganalysis with mismatched cover:do simple classifiers help[C]//ACM Workshop on Multimedia and Security.2012:11-18.
[8]PASQUET J,BRINGAY S,CHAUMONT M.Steganalysis with cover-source mismatch and a small learning database[C]//22nd European Signal Processing Conference (EUSIPCO).IEEE,2014:2425-2429.
[9]LI X,KONG X,WANG B.Generalized transfer component analysis for mismatched JPEG steganalysis[C]//In IEEE International Conference on Image Processing,2013:4432-4436.
[10]ZENG L,KONG X,LI M.JPEG quantization table mismatched steganalysis via robust discriminative feature transformation[C]//In SPIE/ IS&T Electronic Imaging.International Society for Optics and Photonics,2015:94090U.
[11]KER A D,BAS P,FRIDRICH J.Moving steganography and steganalysis from the laboratory into the real world[C]//The 1st ACM Workshop on Information Hiding and Multimedia Security,2013:45-58.
[12]FRIDRICH J,GOLJAN M.Determining approximate age of digital images using sensor defects[C]//SPIE Media Watermarking,Security,and Forensics III,2011:788006.
[13]GOLJAN M,FRIDRICH J,FILLER T.Managing a large database of camera fingerprints[C]//SPIE Media Forensics and Security II,2010:754108.
[14]GOLJAN M,FRIDRICH J,CHEN M.Defending against fingerprint-copy attack in sensor-based camera identification[J].In IEEE Transactions on Information Security and Forensics.2010,6(1):227-236.
[15]GOLJAN M,FRIDRICH J.Sensor-fingerprint based identification of images corrected for lens distortion[C]//SPIE Media Watermarking,Security,and Forensics.2012:83030H.
[16]KODOVSKY J,FRIDRICH J,HOLUB V.Ensemble classifiers for steganalysis of digital media[J].In IEEE Transaction on Information Forensics and Security,2012,7(2):432-444.
[17]FRIDRICH J,KODOVSKY J.Rich models for steganalysis of digital images[J].In IEEE Transactions on Information Forensics and Security,2012,7(3):868-882.
[18]COGRANNE R,ZITZMANN C,RETRAINT F.Statistical detection of LSB matching using hypothesis testing theory[C]//The 14th International Conference on Information Hiding.2013:46-62.
[19]DENEMARK T,FRIDRICH J.Detection of content adaptive LSB matching:a game theory approach[C]//SPIE Media Watermarking,Security,and Forensics.2014:902804.
[20]李鳳華,殷麗華,吳巍,等.天地一體化信息網(wǎng)絡(luò)安全保障技術(shù)研究進展及發(fā)展趨勢[J].通信學(xué)報,2016,37(11):156-166.LI F H,YIN L H,WU W,et al.Research status and development trends of security assurance for space-ground integration information network[J].Journal on Communications,2016,37(11):156-166.
楊培韜(1991-),男,安徽安慶人,中國科學(xué)技術(shù)大學(xué)碩士生,主要研究方向為隱寫分析。
張衛(wèi)明(1976-),男,河北保定人,博士,中國科學(xué)技術(shù)大學(xué)副教授,主要研究方向為信息隱藏、密碼學(xué)。
俞能海(1964-),男,安徽無為人,博士,中國科學(xué)技術(shù)大學(xué)教授,主要研究方向為視頻處理與多媒體通信、無線通信中的信號處理與分析、信息隱藏與信息安全。
Reducing false positives of steganalysis via classification of image-acquiring sources
YANG Pei-tao,ZHANG Wei-ming,YU Neng-hai
(CAS Key Laboratory of Electromagnetic Space Information,University of Science and Technology of China,Hefei 230001,China)
In the real world,reducing false positive rates in the case of cover source mismatch (CSM) was a big challenge for steganalysis.A novel model was proposed to solve the problem.The proposed method determines the image-acquiring source firstly by a source detector and then detecting the steg images in each source with a steganalyzer trained for this source.The false positive rate was reduced by solving a parameter model.The experimental results show that this novel method can reach lower false positive rates for larger true positive rates.
false positive,mismatch,steganalysis,minimum false positive model
s:The National Natural Science Foundation of China (No.61572452,No.61502007,No.U1636201),The China Postdoctoral Science Foundation (No.2015M582015),The Strategic Priority Research Program of the Chinese Academy of Sciences (No.XDA06030601)
TN309
A
10.11959/j.issn.1000-436x.2016282
2016-08-12;
2016-11-08
張衛(wèi)明,zhangwm@ustc.edu.cn
資助項目(No.61572452,No.61502007,No.U1636201);中國博士后科學(xué)基金資助項目(No.2015M582015);中國科學(xué)院戰(zhàn)略性先導(dǎo)專項基金資助項目(No.XDA06030601)