李長隆, 劉佳, 鈕可
基于集成相關(guān)向量機的數(shù)字圖像隱寫分析*
李長隆1, 劉佳2, 鈕可2
(1.武警部隊參謀部機要局,北京100089;2.武警工程大學(xué)電子技術(shù)系,陜西西安710086)
圖像隱寫分析中,特征維數(shù)越來越高,目前多采用集成分類器進行隱寫分析,在相關(guān)向量機(RVM)的基礎(chǔ)上,提出了一種新的機器學(xué)習(xí)方法:由隨機森林實現(xiàn)的集成相關(guān)向量機(RVM)分類器,采用成對采樣策略構(gòu)建選擇性集成分類器,將其用于圖像隱寫分析領(lǐng)域。實驗表明提出的集成分類器是一種有效的工具,使得能夠快速構(gòu)建隱寫檢測器,并能明顯降低隱寫分析系統(tǒng)的檢測錯誤率(BER),同時對大榮量隱寫嵌入方法具有較高的檢測率。
隱寫分析;集成分類器;相關(guān)向量機
隱寫分析的目標是檢測在目標載體中秘密信息的存在性。但是,利用統(tǒng)計描述子的方法很難對載體精確地建模,這進一步增加了對嵌入改變進行檢測的難度?;谳d體和隱寫載體中提取的統(tǒng)計特性來估計潛在概率分布的檢測方法是非常困難的。因此,隱寫分析問題一般被當做是一個機器學(xué)習(xí)中的監(jiān)督分類問題。
支持向量機(SVM)[1]是監(jiān)督分類中最受歡迎的方法。這主要是由于,SVM具有堅實的數(shù)學(xué)基礎(chǔ),它是基于統(tǒng)計學(xué)習(xí)理論同時它能克服過學(xué)習(xí)以及當特征維數(shù)比樣本個數(shù)大的時候仍能給出不錯的結(jié)果。可以下載到穩(wěn)健以及有效的開源的軟件。
早期的基于特征的隱寫分析方法只用一些較少的特征,例如72維的用QMFs變換后的系數(shù)的的高階統(tǒng)計矩作為特征[2],18維的二值相似度量[3],23維DCT特征[4],以及小波系數(shù)的高階統(tǒng)計矩[5].隨著隱寫算法復(fù)雜性的提高,隱寫分析算法也開始利用高維的特征向量。在文獻[6]中,JPEG圖像的特征為274維。同時在文獻[7-8]中,分別提出了324維和486維的特征向量。SPAM即像素差得二階馬爾科夫模型特征的維數(shù)為686維[9]。
為了解決隱寫分析方法中的復(fù)雜性問題,在本文提出一個集成相關(guān)向量機分類器,這個集成分類器是建立在隨機森林的基礎(chǔ)上,通過融合由基學(xué)習(xí)器產(chǎn)生的決策來進行分類,這些基學(xué)習(xí)器很容易進行訓(xùn)練。通過研究學(xué)習(xí)器以及其融合策略,文中給出了一個簡單有效的設(shè)計方法。
本文提出的集成分類器由多個基學(xué)習(xí)器在一組載體圖像和隱寫圖像上獨立訓(xùn)練得到的。每一個基學(xué)習(xí)器就是一個簡單的分類器,這個分類器建立在隨機(均勻)選取的特征空間的子空間上。給定一個測試集合中的一個樣本,最終的決策由單個基學(xué)習(xí)器決策結(jié)果的累積構(gòu)成。這個監(jiān)督集成分類策略當且僅當每一個單獨的基學(xué)習(xí)器足夠分散的時候才能成立,也就是說,它們對未知數(shù)據(jù)由不同的錯誤率。為了進一步增加基學(xué)習(xí)器之間相互分散的程度,每一個學(xué)習(xí)器在一個Bootstrap樣本中進行訓(xùn)練,而不是整個訓(xùn)練集。Bootstrap樣本是從整個訓(xùn)練集中隨機采樣得到的。這個策略在機器學(xué)習(xí)中被稱為Bootstrap aggregating(自舉聚集)或是bagging,這使得能夠獲得一個測試誤差的精確地估計,使得對確定一個優(yōu)化的集成參數(shù)很有幫助。注意到自舉樣本是成對(by pairs)構(gòu)成的,例如保證載體特征和隱寫特征對成對出現(xiàn)。這種限制對隱寫分析而言是相當重要的,因為已經(jīng)證明了將載體-隱寫對集合分成兩個部分,一個用于訓(xùn)練,另一個用于測試以及誤差估計,這種劃分可以給出一個偏度誤差估計同時給出一個次優(yōu)化的性能。本文的方法類似于文獻[10]中的策略。文獻[10]第一次提出了利用集成分類器實現(xiàn)隱寫分析。
為了描述集成分類器,本文引入下面的記號。d表示特征空間的維數(shù),dsub表示每一個基學(xué)習(xí)器操作的子空間維數(shù)。Ntrn和Ntst是每一個分類器中訓(xùn)練樣本和測試樣本的個數(shù),L是基學(xué)習(xí)器的個數(shù)。另外,表示從訓(xùn)練集中提取的載體和隱寫特征向量,表示從測試的載體和隱寫樣本中提取的特征向量。所有的訓(xùn)練和測試樣本表示為是一個D維的特征向量,這個特征向量是從x中采樣得到的,保留了原始的維數(shù)順序。
每一個基學(xué)習(xí)器Bl,l=1,…,L,都是一個Rd→{0,1}的映射,其中0表示載體,1表示隱寫圖像。需要注意的是,盡管學(xué)習(xí)器定義在Rd上,所有的基學(xué)習(xí)器的特征空間的維數(shù)dsub可以選擇比全維度d小得多的值,這使得能夠極大的降低計算復(fù)雜度。盡管每一個單獨的基學(xué)習(xí)器的分類性能很弱,但是L的值足夠大時,在進行策略融合后,精確度將得到極大地提高,并且最終可以收斂。每一個基學(xué)習(xí)器的決策閾值被調(diào)整為在等先驗的情況下,最小化訓(xùn)練集的錯位分類數(shù):式中,PFA,PMD分別是是虛警和錯分的概率?;炯煞诸惼鞯慕Y(jié)構(gòu)圖如圖1所示。
圖1 集成相關(guān)向量機分類框架
本文采用相關(guān)向量機[11]來作為每一個基學(xué)習(xí)器的學(xué)習(xí)工具,相關(guān)向量機(relevance vector machine)是一種用于分類和回歸的貝葉斯稀疏核技術(shù),它具有很多SVM的特性,同時避免了它的一些主要的限制。另外,它還能在保證一定的泛性誤差的同時,給出更系數(shù)的模型,并在測試集上的運算更加塊速。
相關(guān)向量機分類方法類似于一種基于拉普拉斯逼近的回歸算法.例如,如果要預(yù)測輸入向量x的部分后驗概率,一般可以根據(jù)統(tǒng)計學(xué)的知識,利用函數(shù)σ(y)=1/(1+e-y)對一種線性模型y(x)進行歸一化,其分布表達式為:
根據(jù)定義,目標函數(shù)為tn∈{0,1},需要注意的是在式(2)中,并沒有增加噪聲函數(shù).
分類過程中,不能利用卷積方式計算權(quán)重,所以并不能給出p(w|t,α)或邊緣分布p(t|α)的解析解.因此,需要利用拉普拉斯逼近的近似解求得,具體過程如下:
(1)首先保持α的值不變,求解出模型的后驗概率分布的位置,從而得到權(quán)值wMP的最可能值。因為p(w|t,α)正比于p(t|w)p(w|α),因此該過程等價于求解(3)的最小值這樣的優(yōu)化問題:
式中,yn=σ{y(xn;w)}。
(2)拉普拉斯近似(Laplace approximation),這個方法的目標是找到一個定義在連續(xù)變量集合上的概率密度的一個高斯近似。
式中,B=diag(β1,β2,...,βN))是一個對角線矩陣,其中βn=σ(y(xn))[1-σ(y(xn))].對于高斯近似的逼近來說,權(quán)值主要集中在wMP,并且通過式(6),能夠獲得協(xié)方差矩陣Σ.(3)利用Σ和wMP的高斯逼近(代替μ),α超參數(shù)可用來不斷更新。
在模型p(w|t,α),利用式(3)以及?Wlgp(w|t,α)|wMP。可以得到:
可以看出拉普拉斯逼近方法實際上是一種將分類問題映射為回歸問題的有效方法。
整個集成分類器的偽碼在算法1中進行了描述,下面是算法1的思想流程。
算法1相關(guān)向量機集成分類器:
1.for對每一個子分類器而言l=1:L。
2.隨機選擇一個子空間Dsub。
3.在子空間上Dsub,訓(xùn)練一個基分類器Bl。
4.對所有的測試樣本,y,在第l個分類器上進行決策。
5.end for
6.最終的決策由最大投票策略決定:
在集成分類器訓(xùn)練過程中,參數(shù)L和Dsub的選擇類似文獻[10]中的方法。
目前基于集成分類器的隱寫分析算法中,大多訓(xùn)練過程中的訓(xùn)練樣本是成對出現(xiàn)的,然而大多數(shù)分類器訓(xùn)練過程并沒有考慮這種成對樣本的特殊性。本文在Bagging抽樣方法的基礎(chǔ)上,中提出的選擇性集成策略構(gòu)建集成分類器。
2.1樣本選擇
首先,利用有放回地抽樣方法,抽取2M個次,在每一次抽取的樣本對中隨機選擇一個樣本。樣本的選擇由下式給出:
也就是等概率在每對樣本中選擇一個,采用這個過程將使得最終得到的樣本集大小與原樣本集大小保持一致。當該樣本對再次被抽時,可依式(7)選擇樣本的方法,未單獨列出,以下采樣策略如圖2所示,該方法即在在成對樣本中,在每一次采樣一對成對樣本的基礎(chǔ)上,隨機選取其中一個樣本,可能是隱寫圖像,也可能是正常圖像,抽樣2M次,即可獲得M}個訓(xùn)練樣本。
圖2 成對樣本的采樣策略
2.2選擇性集成
選擇性集成是借助于某種選擇策略,考慮基分類器不同差異的情況下,基于某種有策略對基分類器進行優(yōu)化的基礎(chǔ)上構(gòu)建集成分類器的有效方法。周志華等[12]在相關(guān)文獻中表明在使用部分基分類器的效果甚至比使用全部基分類器進行集成具有更好的分類性能。本文的選擇性集成策略是在文獻[13]的基礎(chǔ)上,利用遺傳算法進行優(yōu)化選擇。首先定義基分類器對應(yīng)的測試誤差OOB和歸一化測試誤差OOB?分別為:
其中:B(i)(Xj)為第i個基分類器在特征X的檢測結(jié)果;Ntrn為訓(xùn)練樣本集大小。選擇性集成流程如圖3所示。
圖3 選擇性集成流程
其中步驟四中的基于遺傳算法的選擇性集成算法具體實現(xiàn)可參考文獻[13]。
本文的實驗在一些圖像隱寫分析數(shù)據(jù)庫,例如BOWS2、BOSSBass 0.92以及Camera圖像庫,選擇5 000幅載體圖像。試驗中采用了不同的基分類器、訓(xùn)練樣本采樣策略,以及不同訓(xùn)練集大小、嵌入率和嵌入算法情況下,進行圖像隱寫分析算法驗證,同時與當前一些隱寫分析算法進行性能比較。其中,所有圖像的質(zhì)量因子設(shè)定為75,圖像隱寫特征則采用維數(shù)適中的CC-PEV特征。實驗采用了Michael E.Tipping開發(fā)的Sparse-Bayes工具箱[14],實現(xiàn)了對相關(guān)向量機的學(xué)習(xí)和分類。實驗一對正常載體圖像庫分別使用JP Hide&Seek(JPHS)、F5、MB1、MB2、OutGuess Steghide等算法進行信息嵌入,嵌入率分別為最高載體嵌入量的25%,50%,100%。其中訓(xùn)練集由4 000幅的載體圖像以及400幅隱寫圖像構(gòu)成,測試集由1 000幅載體圖像和1 000幅隱寫圖像構(gòu)成。經(jīng)過實驗,得到結(jié)果如表1所示。
表1 集成相關(guān)向量機與集成SVM,集成KNN的對比結(jié)果
其中,E-SVM,E-RVM E-KNN分別表示集成SVM,集成RVM和集成KNN分類器。從實驗結(jié)果可以看出,E-RVM具有較好的分類效果。
實驗2驗證了測試訓(xùn)練集大小不同情況下,對測試性能的影響。樣本采樣策略采用成對樣本隨機選取一個的方法進行。設(shè)隨機抽取N個成對的樣本,其中一半樣本用于訓(xùn)練、一半樣本用于測試。實驗2采用nsF5隱寫算法,隱寫嵌入率為0.2bpac,隱寫分析特征與實驗1相同,表2給出了20次實驗的平均值。
表2 不同樣本集大小時的性能對比
其中M為樣本數(shù)量,ER表示平均錯誤率,AUC表示準確率提升。
本文針對傳統(tǒng)的機器學(xué)習(xí)的分類器中存在的缺陷,提出了一種基于集成相關(guān)向量機的圖像隱寫分析方法,同支持向量機相比,相關(guān)向量機最大的優(yōu)點就是極大地減少了核函數(shù)的計算量,并且也克服了所選核函數(shù)必須滿足Mercer條件的缺點。文章?lián)藰?gòu)建集成分類器,為了更好的利用樣本以及增加基分類器之間的差異,本文選擇成對樣本的采樣以及基于遺傳算法的采樣策略設(shè)計隱寫分析方案,在對掩密圖片進行檢測的實驗中,集成RVM表現(xiàn)了良好的分類精度,取得了較好的效果。
[1] Chang CC and Lin CJ.LIBSVM:a Library for Support Vector Machines[J].Acm Transactions on Intelligent Systems&Technology,2011,2(3):389-396.
[2] Farid H and Si wei.L.Detecting hidden messages using higher-order statistics and support vector machines[C].InformationHiding,5thInternationalWorkshop2002,2578: 340—354.
[3] Avcba?,Kharrazi M,Memon N D,and Sankur B.Image steganalysis with binary similarity measures[J].Journal on Applied Signal Processing,2005,17:2749-2757.
[4] Fridrich J.Feature-based steganalysis for JPEG images and its implications for future design of steganographic schemes[C]. Information Hiding,6th International Workshop,2004,3200: 67-81.
[5] Goljan M,F(xiàn)ridrich J,and Holotyak T.New blind steganalysis and its implications[C].Proceedings SPIE,Electronic Imaging,Security,Steganography,and Watermarking of Multimedia Contents VIII,2006,60(72):1-13.
[6] Pevny T and Fridrich J.Merging Markov and DCT features for multi-class JPEG steganalysis[C].Proceedings SPIE,Electronic Imaging,Security,Steganography,and Watermarking of Multimedia Contents IX,2007,6505:1-3.
[7] Shi Y Q,Chen C,and Chen W.A Markov process based approach to eff ective attacking JPEG steganography.Information Hiding[C],8th International Workshop,volume 2006,4437: 249-264.
[8] Chen C and Shi YQ.JPEG image steganalysis utilizing both intrablock and interblock correlations[C].In Circuits and Systems,ISCAS,2008:3029-3032
[9] Bryll R,Gutierrez-Osuna R,and Quek F.Attribute bagging: Improving accuracy of classifier ensembles by using random feature subsets[J].Pattern Recognition,2003,36(6): 1291-1302.
[10] Kodovsky J,F(xiàn)ridrich J and Holub V.Ensemble Classifiers for Steganalysis of Digital Media[J].IEEE Transactions on Information Forensics and Security,2012.7(2): 432-444.
[11] Tipping M E.Sparse Bayesian learning and the relevance vector machine[J].Journal of Machine Learning Research,2001,1(3):211-244.
[12] Zhou Zhi-hua,Wu Jian-xin,Tang Wei.Ensembling neural networks:Many could be better than all[J].Artificial Intelligence,2002,137(1-2):239-263
[13] 狄富強,張敏情,劉佳.一種基于成對采樣和選擇性集成的隱寫分析算法[J].光電子.激光,2015 26(4):746-751.
[14] Tipping M E and Faul A C.Fast marginal likelihood maximisation for sparse Bayesian models[C].Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics,2010:3-6
Image Steganalysis based on Ensemble Relevance Vector Machines
LI Chang-long1,LIU Jia2,NIU Ke2
(1.Joint Staff of the PAP,Beijing 100010,China;2.Engineering University of PAP,Xi’an Shaanxi 710086,China)
In this paper,an alternative and well-known machine learning tool—ensemble RVM(Relevance Vector Machines)classifier implemented as random forest is proposed,and experiment indicates this proposed ensemble classifier is an effective tool,quite suitable for steganalysis with high dimension feature.Ensemble classifiers could quickly consititutes steganography detector,remarkably reduce the detection erroer-rate of steganalysis system.Meanwhile,this ensemble classifier is of fairly high detection rate for the large-capacity steganographic embedment.So ensemble classification is portrayed as a powerful developing tool that allows fast construction of steganography detectors with markedly improved detection accuracy across a wide range of embedding methods.
steganalysis;ensemble classiffier;RVM
TN91
A
1009-8054(2016)08-0087-04
?2016-03-28
國家自然科學(xué)基金(No.61379152,No.61403417)
李長隆(1982—),男,碩士生,工程師,主要研究方向為圖像隱寫分析,機器學(xué)習(xí);
劉 佳(1982—),男,博士,講師,主要研究方向為模式識別,信息隱藏。
鈕 可(1981—),男,博士生,講師,主要研究方向為視頻信息隱藏?!?/p>