高瞻瞻 湯光明 王 碩
(解放軍信息工程大學(xué) 鄭州 450001) (gaozhandyx@126.com.cn)
隨著計(jì)算機(jī)網(wǎng)絡(luò)的巨大發(fā)展,網(wǎng)絡(luò)語音電話(voice over IP, VoIP)逐漸成為一種應(yīng)用廣泛的流媒體通信方式.VoIP基于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),采用分組包交換協(xié)議實(shí)現(xiàn)通話,比傳統(tǒng)電路交換的方式更加高效、經(jīng)濟(jì).VoIP所包含的語音信號(hào)及其涉及的Internet各層網(wǎng)絡(luò)協(xié)議為隱寫提供了良好的嵌入環(huán)境,載體空間巨大.不僅如此,VoIP數(shù)據(jù)流具有瞬時(shí)性和“即用即棄”的特點(diǎn),這使得VoIP隱寫具有很強(qiáng)的隱蔽性.因此,VoIP隱寫近年來逐漸成為隱寫術(shù)研究的熱點(diǎn).
按載體元素的不同,VoIP隱寫算法可以分成2類:基于協(xié)議的隱寫和基于語音壓縮編碼的隱寫.第1類方法主要將秘密信息嵌入到UDPIP協(xié)議族中的預(yù)留、填充或可選字段[1],或者通過調(diào)制發(fā)送數(shù)據(jù)包的速率來傳遞秘密信息[2].前者容易被攻擊者檢測識(shí)別,后者則會(huì)對(duì)網(wǎng)絡(luò)的服務(wù)質(zhì)量帶來一定的影響.因此,目前主要采用第2類方法,通過替換語音參數(shù)的LSB或修改語音壓縮編碼規(guī)則進(jìn)行信息隱藏.比如:應(yīng)用量化索引調(diào)制(quantization index mod-ulation, QIM)方法修改線性預(yù)測(linear predictive coding, LPC)合成濾波器系數(shù)的矢量量化過程,從而嵌入秘密信息的隱寫算法[3-4].此外還有基于語音編碼的基音周期預(yù)測過程的隱寫算法[5]和基于固定碼本搜索過程的隱寫算法[6-7].
抗檢測性是隱寫算法最重要的性能指標(biāo).已有算法主要通過選擇特定載體、提高嵌入效率和保持統(tǒng)計(jì)特征3種途徑提高隱寫的抗檢測性.基于載體選擇的思想,Tian等人[8]給出了度量載體向量與秘密信息間相似性的標(biāo)準(zhǔn),進(jìn)而制定匹配策略選出最佳的語音片斷實(shí)施隱寫;Wei等人[9]則利用MOS(mean opinion score)值區(qū)分?jǐn)?shù)據(jù)流中的比特串是否適合嵌入,并通過動(dòng)態(tài)調(diào)整比特串的間距進(jìn)一步增大檢測難度.這些算法具有自適應(yīng)的特點(diǎn)且具有一定的通用性.如何制定合理的標(biāo)準(zhǔn)以判斷語音是否適合嵌入是這類算法的設(shè)計(jì)核心.基于提高嵌入效率的思想,目前的普遍做法是借鑒圖像隱寫技術(shù),借助矩陣嵌入設(shè)計(jì)隱寫算法.文獻(xiàn)[4-5,10]等均沿用了這一研究思路,雖行之有效但多數(shù)算法未能充分結(jié)合網(wǎng)絡(luò)語音的載體特性,僅僅停留于對(duì)已有編碼的簡單應(yīng)用.特征保持思想就是在信息嵌入過程中盡可能減小對(duì)載體統(tǒng)計(jì)特性的影響.受限于計(jì)算復(fù)雜度,文獻(xiàn)[5,7,9]將語音參數(shù)的直方圖特征作為安全性測度,并在嵌入時(shí)保持不變,一定程度上提高了算法的抗檢測性.然而,VoIP隱寫分析技術(shù)的發(fā)展亦十分迅速,已提出基于特征提取和分類器的通用檢測算法[11-12],以上僅就低階統(tǒng)計(jì)特征進(jìn)行保持的算法存在安全隱患.
為進(jìn)一步增強(qiáng)隱寫的抗檢測性,本文在設(shè)計(jì)算法時(shí)嘗試結(jié)合提高嵌入效率的思想與特征保持的思想.算法以固定碼本參數(shù)為載體,并進(jìn)一步將其細(xì)分為二元載體和三元載體2類,分別應(yīng)用矩陣嵌入技術(shù),從而在提高嵌入效率的同時(shí)兼顧了不同參數(shù)間的差異.分析并建立了VoIP的貝葉斯網(wǎng)絡(luò)模型,基于模型定義了隱寫安全性,從而較好地平衡了反映載體更多的統(tǒng)計(jì)相關(guān)性與簡化計(jì)算復(fù)雜度之間的矛盾.在此基礎(chǔ)上,以最小化安全性測度為目標(biāo)設(shè)計(jì)了具體的嵌入和提取過程.
已有隱寫安全性研究中,得到普遍認(rèn)可的是Cachin基于KL散度(Kullback-Leibler divergence)定義的隱寫安全性[13].由于很難估計(jì)高維數(shù)據(jù)的聯(lián)合概率分布,該安全性測度通常采用獨(dú)立同分布等簡化模型來近似載體的概率分布.利用隨機(jī)變量之間的條件獨(dú)立關(guān)系,概率圖模型提供了一種表示一組隨機(jī)變量聯(lián)合概率分布的形式并在其上進(jìn)行概率推理的有效方法.Markov網(wǎng)絡(luò)(Markov network, MN)是一種應(yīng)用廣泛的概率圖模型,被許多研究者[14-15]用于改善文獻(xiàn)[13]的安全性定義.
以上研究主要針對(duì)圖像載體展開,不宜評(píng)估VoIP隱寫的安全性.一方面,圖像像素間距離越小相關(guān)性越強(qiáng),所以基于4鄰域或8鄰域系統(tǒng)即可準(zhǔn)確建模[15],但在語音信號(hào)中參數(shù)間的影響并不明確,且存在幀間和幀內(nèi)2種相關(guān)關(guān)系,難以直接判定相關(guān)性的強(qiáng)弱;另一方面,MN是無向圖,刻畫的是隨機(jī)變量間對(duì)稱的相關(guān)性,但語音幀間具有明顯的時(shí)序關(guān)系,幀內(nèi)各參數(shù)具有一定的因果關(guān)系,這些相互作用都不具有對(duì)稱性.針對(duì)這類單向的相關(guān)關(guān)系,可以使用貝葉斯網(wǎng)絡(luò)(Bayesian network, BN)模型來描述.
定義1. 貝葉斯網(wǎng)絡(luò)可表示為一個(gè)二元組,即βBN=〈G,Θ〉.其中,G=(V,E)是一個(gè)有向無環(huán)圖.V={V1,V2,…,VN}稱為結(jié)點(diǎn)集;E為結(jié)點(diǎn)間的弧的集合,反映變量間的因果關(guān)系.Θ={P(Vi|Λi),i=1,2,…,N}是一組條件概率的集合,稱為網(wǎng)絡(luò)參數(shù).Λi是結(jié)點(diǎn)Vi的父結(jié)點(diǎn)集合.
BN是一種有向概率圖模型,能夠表示對(duì)象之間的依賴關(guān)系和隨機(jī)變量之間的條件獨(dú)立關(guān)系.它將聯(lián)合概率分布表示為所有變量在其父結(jié)點(diǎn)變量下的條件概率的乘積[16],從而減少了表示聯(lián)合概率分布所需的參數(shù)個(gè)數(shù).如果BN是結(jié)點(diǎn)集V上的一個(gè)貝葉斯網(wǎng)絡(luò),那么其聯(lián)合概率分布P(V)為
(1)
設(shè)βcBN和βsBN分別為載體語音流和載密體語音流的BN模型.顯然,二者具有相同的結(jié)構(gòu),只是網(wǎng)絡(luò)參數(shù)略有不同.隱寫系統(tǒng)的載體元素用模型中的結(jié)點(diǎn)Vi表示,vi表示結(jié)點(diǎn)的取值.基于式(1),利用相對(duì)熵建立VoIP隱寫在BN模型下的安全性測度D(βcBN|βsBN):
D(βcBN|βsBN)=
(2)
其中,Pc(Vi|Λi),Ps(Vi|Λi)分別表示βcBN和βsBN的網(wǎng)絡(luò)參數(shù);λi表示結(jié)點(diǎn)集Λi具體的取值狀態(tài);v表示向量(v1,v2,…,vN),其所有可能的取值構(gòu)成集合υ.根據(jù)相對(duì)熵的定義,式(2)規(guī)定0×lb(0·)=0.基于該安全性測度有如下定理:
定理1.βcBN和βsBN分別為載體語音流和載密體語音流的BN模型,其網(wǎng)絡(luò)參數(shù)分別為Θc={Pc(Vi|Λi),i=1,2,…,N},Θs={Ps(Vi|Λi),i=1,2,…,N},則:
D(βcBN|βsBN)≥0,
(3)
當(dāng)且僅當(dāng)Pc(Vi|Λi)與Ps(Vi|Λi)處處相等時(shí)等號(hào)成立.
證明. 根據(jù)式(2)有:
-D(βcBN|βsBN)=
依據(jù)Jensen不等式可得:
-D(βcBN|βsBN)≤
證畢.
基于BN模型,我們給出了VoIP隱寫的安全性測度,并證明了其有效性.但安全性的計(jì)算過于復(fù)雜,直接指導(dǎo)全部秘密信息的嵌入必然帶來巨大的計(jì)算復(fù)雜度.
事實(shí)上,對(duì)于實(shí)時(shí)VoIP隱蔽通信,其隱寫操作需要在語音幀組上進(jìn)行,而不是整段語音流,否則將嚴(yán)重影響語音的傳輸質(zhì)量.即VoIP隱寫本身不具備實(shí)現(xiàn)全局最優(yōu)嵌入的前提.語音幀本身具有幀長,此外,編解碼還有不可避免的算法時(shí)延.通常認(rèn)為150 ms以下的時(shí)延經(jīng)過一定的處理后可以被正常接收.因此,以幀長為10 ms的G.729編碼為例,幀組內(nèi)至多包含15個(gè)語音幀.有限的載體元素使得基于安全性測度進(jìn)行嵌入操作的局部優(yōu)化成為可能.
BN模型中其他條件概率并未變化,隱寫前后的比值為1.因此計(jì)算這一改變導(dǎo)致的Dt(βcBN|βsBN)時(shí),可簡化為
(Pc(Vi,Λi)×
(4)
若被修改的結(jié)點(diǎn)相互獨(dú)立,總的D(βcBN|βsBN)具有可加性,即:
D(βcBN|βsBN)=∑Dt(βcBN|βsBN).
(5)
一次嵌入的載體元素個(gè)數(shù)較少,如果我們進(jìn)一步減小載體的修改量,依式(4)(5)便能夠在有限的計(jì)算復(fù)雜度內(nèi)選出安全性測度下最優(yōu)的嵌入方式.
矩陣嵌入能減少對(duì)載體的修改,提高隱寫嵌入效率,也有助于降低式(5)的計(jì)算復(fù)雜度.目前,矩陣嵌入研究已擴(kuò)展到卷積碼,如Filler等人[17]提出的量化格子編碼(syndrome trellis codes, STCs).雖性能優(yōu)良,STCs碼卻并未在VoIP隱寫中得到廣泛應(yīng)用.這一方面是因?yàn)檎Z音隱寫的載體元素種類繁多,針對(duì)性的失真函數(shù)設(shè)計(jì)相對(duì)滯后;另一方面是因?yàn)镾TCs更適合長碼,而VoIP隱寫的載體長度一般較短.設(shè)計(jì)適宜網(wǎng)絡(luò)語音的矩陣嵌入是目前VoIP隱寫的一個(gè)重要方向[5,8,18].本文選擇文獻(xiàn)[18]所提矩陣編碼,該編碼克服了漢明碼只能實(shí)現(xiàn)個(gè)別嵌入量的缺點(diǎn),更適用于VoIP隱寫.其校驗(yàn)矩陣的基本結(jié)構(gòu)為
(6)
其中,H1和H2均為漢明碼校驗(yàn)矩陣,(A1,A2)T中的列由(H1,0)T和(0,H2)T中的列異或相加得到.發(fā)送方利用H找到與載體c最接近的載密體s,接收方用H左乘s即可提取出秘密信息.
文獻(xiàn)[18]的編碼方法可以確定載體的修改位置,卻不能明確其修改方式.已有算法通常直接進(jìn)行LSB替換.但不同載體元素的隱寫耐受性往往不同,若某元素允許較大幅度的修改,顯然更有利于提高嵌入效率.例如:相比LSB替換,以±1的方式修改語音參數(shù)時(shí),同樣的修改率,其嵌入率由1提升為lb 3.不僅如此,修改方向的可調(diào)整性給了我們優(yōu)化嵌入操作的空間.
基于以上分析,提出一種面向VoIP的隱寫框架如圖1所示:
Fig. 1 Framework of VoIP steganography based on Bayesian network and matrix embedding圖1 基于貝葉斯網(wǎng)絡(luò)模型和矩陣嵌入的VoIP隱寫框架
固定碼本用于逼近語音經(jīng)短時(shí)、長時(shí)預(yù)測后的預(yù)測誤差.與基音周期參數(shù)相比,固定碼本的比特位更多,隱藏容量更大.選擇該參數(shù)作為載體,在圖1框架下設(shè)計(jì)隱寫算法.
固定碼本搜索在子幀上進(jìn)行,不同語音幀內(nèi)的碼本參數(shù)具有相關(guān)性.這是因?yàn)椋?)音素的發(fā)音持續(xù)時(shí)間浮動(dòng)較大,語音幀無法與音素準(zhǔn)確匹配.如果相鄰幀的子幀信號(hào)正好對(duì)應(yīng)了同一音素周期性的信號(hào),那么這些子幀編碼后的參數(shù)應(yīng)該是相同的.2)語音中各音素的出現(xiàn)頻率本身并不均衡,不同音素的出現(xiàn)存在很強(qiáng)的相關(guān)性[19].語音編碼反映音素特性,音素前后的相關(guān)性必然導(dǎo)致幀間碼本參數(shù)的相關(guān)性.
同一幀內(nèi)的固定碼本參數(shù)也具有相關(guān)性.固定碼矢cst(η)共40維,在不同位置上放置有4個(gè)單位脈沖.
cst(η)=sig0δ(η-l0)+sig1δ(η-l1)+
sig2δ(η-l2)+sig3δ(η-l3),
η=0,1,…,39.
(7)
其中,δ表示單位脈沖,sigi為其符號(hào),li為脈沖位置.確定最佳的脈沖位置需要4層循環(huán).基于代數(shù)碼本激勵(lì)(ACELP)的固定碼本分析采用集中搜索法,通過限制最后1輪循環(huán)的次數(shù)來簡化搜索過程,該方法在G.723.1和G.729編碼中均有應(yīng)用.設(shè)前3個(gè)脈沖的最大絕對(duì)相關(guān)為Cmax3,平均相關(guān)為Cav3,則閾值Cthr3計(jì)算為
Cthr3=Cav3+α(Cmax3-Cav3).
(8)
當(dāng)前3個(gè)脈沖的絕對(duì)相關(guān)值之和超過Cthr3時(shí),搜索過程才執(zhí)行最后1輪循環(huán).
可見,同一子幀的固定碼本參數(shù)中,前3個(gè)單位脈沖與第4個(gè)脈沖具有相關(guān)關(guān)系.綜合幀間載體元素的影響,構(gòu)建固定碼本各參數(shù)的關(guān)聯(lián)模型如圖2(a)所示.去除意義表達(dá)相同的線段,最終的BN模型為圖2(b).圖2中k代表子幀索引.為兼顧性能和計(jì)算復(fù)雜度,圖2中只反映了相鄰3個(gè)子幀間的影響.
Fig. 2 Bayesian network model for fixed codebook parameters圖2 固定碼本參數(shù)的BN模型
固定碼本參數(shù)共17 b,前3個(gè)脈沖τ0,τ1,τ2的位置用3 b編碼,脈沖τ3的位置用4 b編碼,各脈沖的符號(hào)用1 b編碼.具體結(jié)構(gòu)如表1所示.
編碼形成的碼字:
(9)
由表1知:同一脈沖(前3個(gè)脈沖)內(nèi),位置取值的最小間隔為5,但相鄰脈沖間位置取值的最小間隔僅為1;直接改變表示脈沖位置的各個(gè)比特,除τ3最低比特(jx位)導(dǎo)致l3發(fā)生1個(gè)單位的位移外,其余比特都至少導(dǎo)致脈沖位置5個(gè)單位的位移.考慮到脈沖順序并不影響解碼端固定碼本的重構(gòu),用脈沖位置間的大小關(guān)系代表秘密信息,通過調(diào)換相鄰脈沖的編碼位置嵌入秘密信息,從而減小脈沖位移,降低嵌入影響.
Table 1 Structure of Fixed Codebook
具體來說,用l0與l1之間的大小關(guān)系對(duì)應(yīng)二元數(shù)據(jù)0,1;l2,l3間的大小關(guān)系對(duì)應(yīng)三元數(shù)據(jù)的LSB;由于jx位的改變不會(huì)影響l2,l3的大小關(guān)系,令其值與三元數(shù)據(jù)的修改方向?qū)?yīng).
1)l0 (10) 2)l0>l1時(shí), (11) l2,l3的修改分2步.首先調(diào)整編碼位置以表示三元數(shù)據(jù)LSB的取值: l2 (12) l2>l3時(shí), (13) 第2步改變jx位表示三元數(shù)據(jù)的修改方向: (14) 明確脈沖位置的修改方式后,基于BN模型和矩陣嵌入的隱寫嵌入步驟可描述如下: Step1. 分組語音幀,保證各幀組均含有w個(gè)語音幀.設(shè)最終形成r個(gè)語音幀組{X1,X2,…,Xr}. Step3. 統(tǒng)計(jì)幀組X1內(nèi)各類單位脈沖各種脈沖位置的出現(xiàn)頻次,得到BN模型內(nèi)各結(jié)點(diǎn)各種狀態(tài)下的條件概率Pc. (15) Step8. 統(tǒng)計(jì)下一幀組Xj+1內(nèi)各類單位脈沖各種取值的出現(xiàn)頻次,更新條件概率Pc,Ps. Step9. 重復(fù)Step4~Step8,將r個(gè)信息塊全部嵌入到相應(yīng)的幀組中. 收發(fā)雙方應(yīng)共享校驗(yàn)矩陣H.在此基礎(chǔ)上,秘密信息的提取分如下4步: (16) Step4. 重復(fù)Step1~Step3,得到全部信息塊并組合出原始秘密信息M. Fig. 3 Waveforms of normal speech files and stego speech files圖3 載體語音與載密語音的波形 修改G.729編碼器實(shí)現(xiàn)第2節(jié)所提隱寫算法.從感知透明性、抗檢測性和實(shí)時(shí)性3個(gè)方面進(jìn)行測試.實(shí)驗(yàn)所用樣本來自CMU ARCTIC語音數(shù)據(jù)庫[20],由美式英語發(fā)音者錄制,持續(xù)時(shí)長2~9 s.實(shí)驗(yàn)前對(duì)這些語音進(jìn)行8 KHz采樣、16 b線性PCM量化,轉(zhuǎn)化為G.729編碼器要求的輸入格式. 按所提算法,時(shí)長1 s的語音內(nèi)含400 b載體元素,故可實(shí)現(xiàn)的最大嵌入量為400 bps.文獻(xiàn)[7]同樣以固定碼本參數(shù)為載體并應(yīng)用了漢明碼,最大嵌入量為333.3 bps.在166.7 bps的嵌入量下比較2種算法及LSB算法的感知透明性.從數(shù)據(jù)庫中選擇2段不同長度的語音,經(jīng)G.729編碼得到載體語音,繪制其波形圖如圖3第1列的2個(gè)子圖所示.隨機(jī)產(chǎn)生二進(jìn)制比特作為秘密信息,使用不同的隱寫算法嵌入到2載體語音中,得到載密語音.圖3第2~4列所示波形圖分別對(duì)應(yīng)本文算法、文獻(xiàn)[7]算法和LSB算法下的載密語音.相似地,繪制2段語音在各個(gè)情況下的寬帶語譜圖,如圖4所示.實(shí)驗(yàn)中本文算法以15個(gè)語音幀為1個(gè)幀組,同理,限定文獻(xiàn)[7]算法執(zhí)行1次嵌入操作時(shí)的載體長度不超過15幀.將各載密語音子圖與載體語音子圖進(jìn)行對(duì)比,可知:1)本文算法的載密語音感知透明性良好,在時(shí)域和頻域均與原載體沒有明顯差別;2)3種算法中,LSB算法的感知透明性最差,與原載體間的差異較大(圖3尤為明顯). PESQ是客觀評(píng)價(jià)語音質(zhì)量的典型方法.選取2 000段語音,男、女聲各一半,分別計(jì)算載體語音的PESQ平均值,并與不同嵌入量下載密語音的PESQ值進(jìn)行對(duì)比.計(jì)算時(shí)所選參考語音為未經(jīng)編碼器壓縮的初始語音,實(shí)驗(yàn)結(jié)果如表2所示.從表2可以看出,本文算法的載密語音的PESQ值略高于文獻(xiàn)[7]的方法,聽覺質(zhì)量良好;受限于漢明碼,文獻(xiàn)[7]能實(shí)現(xiàn)的嵌入量有限,本文算法克服了這一缺陷. Fig. 4 Spectrograms of normal speech files and stego speech files圖4 載體語音與載密語音的語譜 bps Fig. 5 Measured values of steganographic security with different evaluation methods圖5 不同方法對(duì)語音隱寫載密體的安全性測度值 選擇4 000個(gè)語音片段作為隱寫載體,隨機(jī)比特流作為秘密信息.分別利用本文算法、文獻(xiàn)[7]算法和LSB算法實(shí)施隱寫,計(jì)算出載體、載密體間的D(Pc|Ps)(獨(dú)立同分布模型下文獻(xiàn)[13]的安全性測度)和D(βcBN|βsBN)的平均值,對(duì)比不同方法不同嵌入量時(shí)的安全性測度值.實(shí)驗(yàn)結(jié)果如圖5所示.為便于觀察,圖5中縱軸坐標(biāo)為所得均值的對(duì)數(shù)值(以10為底). 由圖5可知:1)隨著嵌入量的增加,2種測度值均不斷變大,且D(βcBN|βsBN)相比D(Pc|Ps)更加敏感,這說明所提安全性測度更具合理性;2)得益于矩陣編碼較高的嵌入效率,本文算法和文獻(xiàn)[7]算法在小嵌入量下均具有良好的安全性表現(xiàn);3)本文算法在大嵌入量下依舊具有相當(dāng)?shù)陌踩裕瑘D5(b)尤為明顯,這說明本文算法有效減少了對(duì)載體統(tǒng)計(jì)特性的破壞. 利用文獻(xiàn)[11-12]所提隱寫分析算法進(jìn)一步檢驗(yàn)算法的抗檢測性.2算法均為近年來引用廣泛且效果較好的通用語音隱寫分析方法,且都基于梅爾倒譜系數(shù)設(shè)計(jì),分別簡記為DMFCC,D2-R-MFCC.未隱寫的載體語音和不同嵌入量下得到的載密語音共同構(gòu)成樣本集,利用SVM進(jìn)行訓(xùn)練和檢測.實(shí)驗(yàn)結(jié)果如表3所示,其中Se,Sp分別表示準(zhǔn)確識(shí)別出載密語音、載體語音的概率.由表3可知,3種方法中本文算法抵抗現(xiàn)有隱寫分析的能力最強(qiáng). Table 3 Steganalysis Results with Different Embedding Capacities Table 4 Encoding Time of Speech Frame Groups 由于信息嵌入以語音幀組為單位進(jìn)行,故表4中實(shí)際統(tǒng)計(jì)的是語音幀組的編碼時(shí)間.對(duì)于矩陣嵌入所得的載密體,信息提取只與載密體長度有關(guān).實(shí)驗(yàn)結(jié)果也表明不同嵌入量下2種隱寫算法的幀組解碼延遲相同,均為0.061 ms.綜合以上結(jié)果可知:應(yīng)用本文算法的嵌入和提取延遲與文獻(xiàn)[7]算法相近,其數(shù)量級(jí)至多為10-3s,實(shí)時(shí)性好;當(dāng)嵌入量小于200 bps時(shí)幾乎不引入額外延遲.實(shí)驗(yàn)所用PC機(jī)的主要參數(shù)為:3.4 GHz Intel Core i7 CPU,8 GB RAM,實(shí)驗(yàn)程序由C語言編寫. 當(dāng)前的隱寫研究仍主要針對(duì)圖像等傳統(tǒng)載體.網(wǎng)絡(luò)語音作為應(yīng)用廣泛的網(wǎng)絡(luò)流媒體,具有較好的隱蔽性和巨大的載體空間.研究網(wǎng)絡(luò)語音隱寫技術(shù)對(duì)拓展隱寫應(yīng)用范圍、推動(dòng)隱寫實(shí)用化都具有積極作用.以固定碼本為載體,本文提出一種具有較強(qiáng)抗檢測能力的網(wǎng)絡(luò)語音隱寫算法.固定碼本中,若干連續(xù)的比特位按照特定規(guī)則構(gòu)成語音參數(shù),±1的修改方式可能影響載體的次低位,甚至是更高位,導(dǎo)致合成后的語音質(zhì)量顯著降低.因此,將載體元素分為二元和三元2類.從提高嵌入效率和保持統(tǒng)計(jì)特征2個(gè)角度出發(fā)設(shè)計(jì)具體的嵌入過程.基于矩陣嵌入確定載體元素的修改位置,減小載體修改量;基于BN模型下的安全性測度確定三元載體的修改方向,盡可能保持網(wǎng)絡(luò)語音的統(tǒng)計(jì)特性.實(shí)驗(yàn)結(jié)果表明,所提算法感知透明性良好,小嵌入率下能夠抵抗現(xiàn)有隱寫分析算法,且滿足語音通信實(shí)時(shí)性要求.下一步,將以BN模型下的安全性測度為指導(dǎo),探索建立基音周期等其他載體元素的BN模型并設(shè)計(jì)網(wǎng)絡(luò)語音隱寫算法. [1]Mileva A, Panajotov B. Covert channels in TCPIP protocol stack[J]. Open Computer Science, 2014, 4(2): 45-66 [2]Khan M F, Baig F, Beg S. Steganography between silence intervals of audio in video content using chaotic maps[J]. Circuits, Systems, and Signal Processing, 2014, 33(12): 3901-3919 [3]Liu Jin, Tian Hui, Lu Jing. Neighbor-index-division steganography based on QIM method for G.723.1 speech streams[J]. Journal of Ambient Intelligence and Humanized Computing, 2016, 7(1): 139-147 [4]Liu Peng, Li Songbin, Wang Haiqiang. Steganography in vector quantization process of linear predictive coding for low-bit-rate speech codec[J]. Multimedia Systems, 2015, 23(4): 485-497 [5]Yan Shufan, Tang Guangming, Sun Yifeng, et al. A triple-layer steganography scheme for low bit-rate speech streams[J]. Multimedia Tools & Applications, 2015, 74(24): 11763-11782 [6]Su Yamin, Huang Yongfeng, Li Xing. Steganography-oriented noisy resistance model of G.729a[C]Proc of IMACS Multi-Conf on Computational Engineering in Systems Applications, vol 1. Piscataway, NJ: IEEE, 2006: 11-15 [7]Yan Shufan, Tang Guangming, Chen Yanling. Incorporating data hiding into G.729 speech codec[J]. Multimedia Tools & Applications, 2016, 75(18): 11493-11512 [8]Tian Hui, Qin Jie, Guo Shuting, et al. Improved adaptive partial-matching steganography for voice over IP[J]. Computer Communications, 2015, 70(C): 95-108 [9]Wei Ziling, Zhao Baokang, Liu Bo, et al. A novel steganography approach for voice over IP[J]. Journal of Ambient Intelligence and Humanized Computing, 2014, 5(4): 601-610 [10]Qin Jie, Tian Hui, Huang Yongfeng, et al. An efficient VoIP steganography based on random binary matrix[C]Proc of Int Conf on P2P, Parallel, Grid, Cloud and Internet Computing. Piscataway, NJ: IEEE, 2015: 462-465 [11]Liu Qingzhong, Sung A H, Qiao Mengyu. Novel stream mining for audio steganalysis[C]Proc of ACM Int Conf on Multimedia. New York: ACM, 2009: 95-104 [12]Ghasemzadeh H, Khas M T, Arjmandi M K. Audio steganalysis based on reversed psychoacoustic model of human hearing[J]. Digital Signal Processing, 2016, 51: 133-141 [13]Cachin C. An information-theoretic model for steganography[J]. Information and Computation, 2004, 192(1): 41-56 [14]Sullivan K, Madhow U, Chandrasekaran S, et al. Steganalysis for Markov cover data with applications to images[J]. IEEE Trans on Information Forensics and Security, 2006, 1(2): 275-287 [15]Zhang Zhan, Qu Fang, Liu Guangjie, et al. A novel security evaluation method for digital image steganography based on high-order Markov chain model[J]. Information and Control, 2010, 39(4): 455-461 (in Chinese)(張湛, 瞿芳, 劉光杰, 等. 基于高階Markov鏈模型的數(shù)字圖像隱寫安全性評(píng)估方法[J]. 信息與控制, 2010, 39(4): 455-461) [16]Pearl J. Probabilistic reasoning in intelligent systems: Networks of plausible inference[J]. Computer Science Artificial Intelligence, 1988, 70(2): 1022-1027 [17]Filler T, Judas J, Fridrich J. Minimizing additive distortion in steganography using syndrome-trellis codes[J]. IEEE Trans on Information Forensics and Security, 2011, 6(3): 920-935 [18]Tian Hui, Qin Jie, Huang Yongfeng, et al. Optimal matrix embedding for voice-over-IP steganography[J]. Signal Processing, 2015, 117(C): 33-43 [19]Li Songbin, Huang Yongfeng, Lu Jicang. Detection of QIM steganography in low bit-rate speech codec based on statistical models and SVM[J]. Chinese Journal of Computers, 2013, 36(6): 1168-1176(in Chinese)(李松斌, 黃永峰, 盧記倉. 基于統(tǒng)計(jì)模型及SVM的低速率語音編碼QIM隱寫檢測[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 36(6): 1168-1176 [20]Carnegie Mellon University, Language Technologies Institute. CMU ARCTIC database[DBOL]. (2015-02-14) [2016-11-16]. http:www.festvox.orgcmu_arctic TangGuangming, born in 1963. Professor and PhD supervisor in PLA Information and Technology University. Her main research interests include network security, watermarking and data mining. WangShuo, born in 1991. Master candidate in PLA Information and Technology University. His main research interest is network security.2.4 信息提取過程
3 實(shí)驗(yàn)結(jié)果與分析
3.1 感知透明性
3.2 抗檢測性
3.3 實(shí)時(shí)性
4 總 結(jié)