凌寶紅 楊陽(yáng)
摘要:針對(duì)目前JPEG圖像通用隱寫分析方法所使用到的分類器的不足,以及分類過程中的過擬合問題,提出一種基于隨機(jī)森林的JPEG圖像通用隱寫分析方法。實(shí)驗(yàn)結(jié)果表明我們所提出的方法能有效地檢測(cè)JPEP圖像的隱藏信息。
關(guān)鍵詞:隱寫分析;隨機(jī)森林;JPEG
中圖分類號(hào):TP309文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)21-5198-04
Research on A Random Forest Based JPGE Image Universal Steganalysis Method
LING Bao-hong1, YANG Yang2
(1. Anhui Broadcasting Movie and Television College, Film and Television, Hefei 230022,China;2. Deaf Institute of Tianjin University, Tianjin 200191,China)
Abstract: Current JPEG image universal steganalysis facing the problem of being short of classifers, and the problem of over fitting. In this paper, we propose s Random Forest based JPEG image universal steganalysis method, experimental results show that our method can detec? tion the hiding information effectively.
Key words: steganalysis;random forest; JPEG
目前,針對(duì)數(shù)字圖像通用隱寫分析方法的許多文獻(xiàn)中,會(huì)用到機(jī)器學(xué)習(xí)中的貝葉斯、神經(jīng)網(wǎng)絡(luò)等分類器進(jìn)行訓(xùn)練和檢測(cè),但這類傳統(tǒng)的機(jī)器學(xué)習(xí)分類器存在著許多缺陷,如:分類中,分類的準(zhǔn)確率達(dá)不到理想中的要求;分類過程中不能避免過擬合現(xiàn)象的出現(xiàn)。隨機(jī)森林算法最早由Veena等人用于對(duì)LSB等進(jìn)行隱寫分析,本文在此基礎(chǔ)上研究基于隨機(jī)森林的JPEG圖形通用隱寫分析方法。
圖1隨機(jī)森林原理
隨機(jī)森林是一類組合分類器,其中它的每個(gè)子分類器都是一棵基于隨機(jī)向量的最優(yōu)選擇分裂的決策樹,它結(jié)合所有子決策樹
1)從原始n個(gè)樣品的訓(xùn)練集中有放回地抽取同樣數(shù)量的樣本來組成一個(gè)單個(gè)訓(xùn)練集,并以此方式來得到足夠數(shù)量的單個(gè)的訓(xùn)練集。
2)對(duì)于1)中得到的眾多單個(gè)訓(xùn)練集中的每個(gè)單個(gè)訓(xùn)練集,采用以下方式生成一棵的分類決策樹,并且生成的過程中不需要剪枝:
Step1:設(shè)樣品共有M個(gè)原始屬性,設(shè)定正整數(shù)mtry,mtry< Step 2:從mtry個(gè)候選屬性中根據(jù)一定規(guī)則進(jìn)行最優(yōu)分裂。 Step 3:在每棵樹的生成過程中,不進(jìn)行減枝操作,以確保每棵樹充分生長(zhǎng)。3)重復(fù)1),2),直到生成ntree棵分類決策樹(ntree足夠大)。 2.3訓(xùn)練 利用隨機(jī)森林分類器對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,得到相關(guān)參數(shù),并調(diào)節(jié)相關(guān)參數(shù)。 2.4分類 用已經(jīng)訓(xùn)練好的隨機(jī)森林分類器,對(duì)測(cè)試集進(jìn)行分類,對(duì)于檢測(cè)的每張圖片,將投票最多的那一類的標(biāo)簽“賦予”這張圖片。 JPEG圖像通用隱寫分析方法要稍差于基于SVM的JPEG圖像通用隱寫分析方法,對(duì)于該組其它兩個(gè)結(jié)果,前者的檢測(cè)效果均好于后者。對(duì)于另外的五組,基于RF的JPEG圖像通用隱寫分析方法的檢測(cè)效果均要好于基于SVM的JPEG圖像通用隱寫分析方法。另外,對(duì)于RF和其它兩類分類器的檢測(cè)效果對(duì)比,RF的性能在六組的實(shí)驗(yàn)中檢測(cè)準(zhǔn)確度均要高于Bayes和NN,并且RF表現(xiàn)了比較大的優(yōu)勢(shì)。 2)多值分類:通過對(duì)每種隱寫算法,分別建立秘密信息相對(duì)嵌入率為25%,50%,100%的訓(xùn)練集和測(cè)試集,并分別進(jìn)行訓(xùn)練和測(cè)試。我們得到訓(xùn)練集由3400張的原始圖片特征集和6組3400張分別經(jīng)過以上相應(yīng)一種隱寫算法密寫過的圖片構(gòu)成,測(cè)試集由1600張?jiān)紙D片和6組1600張經(jīng)過相應(yīng)隱寫算法密寫過的圖片構(gòu)成。經(jīng)過實(shí)驗(yàn),我們就得到結(jié)果如表2及表3所示: 表2 SVM多值檢測(cè)結(jié)果 Steghide 86.625 57 32.5 表2是用SVM做分類器進(jìn)行檢測(cè)的結(jié)果,表3是用RF做分類器進(jìn)行檢測(cè)的結(jié)果??梢钥闯觯合啾萊F二值分類,RF方法在分類精度上有所下降;但同等條件下,RF的檢測(cè)結(jié)果在絕大多數(shù)情況下,都比SVM要好很多,RF在多值分類中亦有著相對(duì)優(yōu)良的性能。 通過以上二值和多值分類實(shí)驗(yàn)對(duì)比的結(jié)果,可以看出隨機(jī)森林算法有著優(yōu)良的分類準(zhǔn)確率,由于隨機(jī)森林子決策樹是采用抽取隨機(jī)屬性的辦法,最大程度上弱化了子決策樹之間的影響,從而提高了整體分類的準(zhǔn)確率,同時(shí)隨機(jī)森林可以避免過學(xué)習(xí)的問題的產(chǎn)生,在一定程度上提高了分類精度,實(shí)驗(yàn)結(jié)果表明:基于隨機(jī)森林的JPEG圖像通用隱寫分析方法可以對(duì)掩密圖像進(jìn)行有效的檢測(cè)。 現(xiàn)代圖像通用隱寫分析過程中,對(duì)圖片進(jìn)行檢測(cè)都會(huì)用到分類器對(duì)圖片集進(jìn)行分類,但傳統(tǒng)的機(jī)器學(xué)習(xí)的分類器中存在很多缺陷,如:分類精度不高、過擬合等。這類缺陷或多或少的影響到了檢測(cè)的效果。本章針對(duì)這類問題,應(yīng)用隨機(jī)森林針對(duì)JPEG掩密圖進(jìn)行隱寫分析。理論上,該方法可以避免過擬合現(xiàn)象的出現(xiàn),并在對(duì)掩密圖片進(jìn)行檢測(cè)的實(shí)驗(yàn)中,隨機(jī)森林表現(xiàn)了良好的分類精度,得到了令人滿意的效果。