廖浩媛,高 勇
(四川大學 電子信息學院,四川 成都 610065)
隱寫技術(shù)是信息隱藏的一個分支,其核心目標是將秘密信息隱蔽地嵌入到特定的載體中,確保載體在傳輸過程中不引起懷疑,將其傳輸給通信接收方,合作接收方利用對應的提取算法從含密載體中得到秘密信息。在此過程中,除了通信雙方,第三方不能感知到除載體之外的隱蔽信息傳輸行為的存在[1]。音頻隱寫是一種能從源頭上保護秘密信息傳輸?shù)陌踩夹g(shù),最初興起時隱藏的信息通常為文本。隨著傳輸需求的增大,隱藏音頻的隱寫算法逐漸發(fā)展起來。
有不少國內(nèi)外學者提出了高效的音頻隱寫算法,主要分為傳統(tǒng)隱寫算法和深度學習算法兩類。文獻[2-4]在音頻時域上選擇載體音頻的最低有效位(Least Significant Bit,LSB)作為秘密信息嵌入位置,算法簡單、復雜度低,但在噪聲環(huán)境中容易丟失信息。文獻[5]借助人耳聽覺系統(tǒng)(Human Audio System,HAS)對音頻相位失真的低靈敏性,通過修改相位值實現(xiàn)秘密信息的隱藏。該方法魯棒性高,但其透明性受到嵌入率和相位變化程度的影響,表現(xiàn)相對不夠穩(wěn)定。文獻[6]提出了基于離散余弦變換(Discrete Cosine Transform,DCT)將載體轉(zhuǎn)換至頻域并修改其DCT 系數(shù)進行嵌入的隱藏算法。文獻[7-8]在基于DCT 的方法的基礎上進行改進,采用離散小波變換(Discrete Wavelet Transform,DWT),并通過奇異值分解計算特征值,將秘密信息量化嵌入到特征值中,以實現(xiàn)隱寫目的。研究結(jié)果表明,該算法具備高透明性和魯棒性,然而其隱藏容量相對較低。
深度學習卓越的特征學習能力和端到端的傳輸避免了人工特征選擇的一系列煩瑣過程,因此以深度學習為基礎的自適應隱寫算法不斷發(fā)展起來。Kreuk 等人[9-10]首次提出了使用神經(jīng)網(wǎng)絡進行音頻隱寫,并表明圖像隱寫的神經(jīng)網(wǎng)絡模型不適用于音頻隱寫,極大地提升了隱寫算法的隱藏容量;文獻[11]提出了一種基于深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)的源混合和分離的音頻隱寫模型,在時域中將音頻與其他未知的音頻混合,利用源分離的方法提取秘密信息。為了進一步提升音頻隱寫方案的性能,本文提出一種融合多分支膨脹卷積與注意力機制的音頻隱寫算法,利用多分支膨脹卷積網(wǎng)絡完成原始載體音頻的編碼,同時在編解碼器的不同位置上引入瓶頸注意力(Bottleneck Attention Module,BAM)殘差塊,以提高網(wǎng)絡對音頻有效特征的表征能力。這樣的設計使得整個系統(tǒng)在網(wǎng)絡參數(shù)輕量化的情況下能全面地捕捉音頻特征,從而完成具有較高透明性、魯棒性及較大的隱藏容量的端到端的音頻隱寫任務。
受到文獻[12]的啟發(fā),本文選用通道式注意力機制來設計多分支膨脹卷積(Multi-Branch Dilated Convolutional,MBDC)網(wǎng)絡,實現(xiàn)不同膨脹率的多重卷積的通道選擇,在不增加參數(shù)量、不失去分辨率的情況下,結(jié)合上下文信息增大感受野,融合多尺度特征。MBDC、膨脹卷積和普通卷積的比較結(jié)果如表1 所示,其中N為普通卷積的參數(shù)量基準。由表1 可知,MBDC 具有比普通膨脹卷積更顯著的特征采樣率,同時具有比傳統(tǒng)卷積低得多的計算復雜性。
表1 MBDC、膨脹卷積與普通卷積的對比
本文提出的MBDC 的結(jié)構(gòu)如圖1 所示,主要采用3 個分支來承載不同膨脹率的卷積層,以產(chǎn)生不同大小感受野的特征映射。本文選擇的膨脹系數(shù)為{1,2,4},這樣感受野下利用的區(qū)域是連續(xù)的,同時3 個擴張卷積層的卷積核大小相同,通過采用并行結(jié)構(gòu),可以在不顯著增加計算成本的情況下獲得更廣泛的感受野。
圖1 MBDC 結(jié)構(gòu)
在編碼器部分采用MBDC 模塊,其參數(shù)量僅為普通卷積的1/3。具體的計算公式為:
式中:δ表示先進行softmax 操作,再進行批量歸一化(Batch Normalize,BN)與ReLU 操作;Md1(x)表示膨脹率為1,卷積核大小為3×3 的膨脹卷積操作;Md2(x)表示膨脹率為2,卷積核大小為3×3 的膨脹卷積操作;Md4(x)表示膨脹率為4,卷積核大小為3×3 的膨脹卷積操作。
音頻輸入經(jīng)過MBDC 后,本文引入了一種基于殘差網(wǎng)絡與瓶頸注意力的模塊來增加網(wǎng)絡的關(guān)鍵特征學習能力。
在處理復雜的輸入數(shù)據(jù)時,常常面臨信息超載的挑戰(zhàn),即輸入數(shù)據(jù)中包含大量冗余和無關(guān)信息,這影響了模型從中提取有效特征的能力,從而降低了模型性能。為了應對這一問題,本文引入注意力機制。通過學習權(quán)重分配,注意力機制可以自動學習到關(guān)鍵特征,并將更多的注意力集中在與任務相關(guān)的重要特征上,有效地解決了信息超載的問題。
本文采用的BAM 是一種簡單而有效的注意力模塊,可用于任何前饋卷積神經(jīng)網(wǎng)絡。對于輸入的特征圖,BAM 會生成注意力圖來強調(diào)重要元素,如圖2 所示。生成注意力圖的過程分為通道注意力和空間注意力兩個分支流程。通道注意力融合每個通道的特征,學習不同通道間的關(guān)系,而空間注意力通過學習上下文信息掌握不同空間位置的特征。
圖2 BAM 注意力機制流程
本文在BAM 網(wǎng)絡的基礎上進一步增加殘差得到R-BAM 模塊。給定輸入特征為Fin∈RC×H×W,定義中間特征為F∈RC×H×W,注意力模塊按照通道順序相應計算一維通道注意力特征Mc∈RC×1×1和二維空間注意力特征Ms∈R1×H×W。整個過程如下所示:
式中:f為卷積操作,f1×1為卷積核大小為1×1 的卷積操作,f3×3為卷積核大小為3×3 的卷積操作,W0∈RC/r×C,b0∈RC/r,W1∈RC×C/r,b1∈RC。
本文針對音頻數(shù)據(jù)提出一種基于多分支膨脹卷積與殘差BAM 注意力機制的端對端的隱寫方案。此方案提出的模型隱藏與提取流程將在頻域中進行,但為了將音頻信號以時域形式進行傳輸,本文借鑒文獻[13]的方法,在傳輸過程中對音頻信號進行短時傅里葉變換和逆短時傅里葉變換,并加入模型中,將其作為一個可微層以約束網(wǎng)絡模型的輸出。隱寫流程如圖3 所示。
圖3 隱寫方案流程
本文研究的方案模型包括3 個關(guān)鍵模塊:(1)利用Ec從載體中學習并提取潛在冗余,以嵌入秘密信息完成隱藏;(2)Dc負責對含密音頻解碼;(3)Dm對解碼后的數(shù)據(jù)進行重建,從中提取出秘密音頻。
本文將載體c和秘密音頻m作為音頻隱寫的輸入,經(jīng)過音頻隱寫網(wǎng)絡后輸出為含密音頻和重構(gòu)音頻。為滿足音頻隱蔽通信的需求,本文需要對神經(jīng)網(wǎng)絡不斷進行訓練優(yōu)化,而神經(jīng)網(wǎng)絡的參數(shù)優(yōu)化是通過最小化載體音頻c與含密音頻、秘密音頻m與重構(gòu)音頻之間的均方誤差(Mean Square Error,MSE)函數(shù)來實現(xiàn)的。損失函數(shù)的表達式為:
式中:參數(shù)Lc與Lm分別表示含密音頻和重構(gòu)音頻對應的MSE;λc和λm的取值關(guān)系到對含密音頻和秘密音頻重構(gòu)的平衡。
本文使用膨脹卷積與注意力網(wǎng)絡相結(jié)合的深度學習網(wǎng)絡,其主要分為Ec,Dc,Dm3 個模塊,同時每個模塊又由幾個子模塊組成。Ec由MBDC 模塊、Gconv 模塊與R-BAM 模塊組成,Dc模塊由Gconv模塊與R-BAM 模塊組成,Dm由Gconv 模塊與R-BAM 模塊組成。其中,R-BAM 借鑒經(jīng)典ResNet網(wǎng)絡的殘差結(jié)構(gòu),引入殘差可以加速網(wǎng)絡模型的收斂速度并且防止出現(xiàn)深層網(wǎng)絡梯度爆炸的情況。各個模塊的具體結(jié)構(gòu)分別如圖4~圖8 所示。
圖4 R-BAM 模塊
圖5 Gconv 模塊
圖6 Dc 模型
圖7 Ec 模型
圖8 Dm 模型
本次實驗分別在DiDiSpeech[14]和TIMIT[15]兩類語言(中、英文)的數(shù)據(jù)集上對采用的網(wǎng)絡模型進行評測,數(shù)據(jù)集按照7 ∶2 ∶1 的標準比例分割為訓練、驗證和測試集。兩種音頻信號數(shù)據(jù)的采樣率均為16 kHz。為了提升模型效率,短時傅里葉變換(Short-Time Fourier Transform,STFT)中傅里葉采樣點數(shù)設置為512,各段間重疊采樣點數(shù)設置為256。通過隨機選擇數(shù)據(jù)集中的一條音頻作為載體信息,與任意一條其他音頻作為秘密信息形成一組訓練數(shù)據(jù),以1 ∶1 的形式完成嵌入操作,實驗中對載體音頻與秘密音頻的選擇是完全隨機的。所有模型均采用經(jīng)典的Adam 優(yōu)化器進行參數(shù)優(yōu)化,初始學習率設置為0.001,并采用每隔15 個epoch 學習率下降50%的策略進行訓練,網(wǎng)絡以目標損失函數(shù)連續(xù)3 個epoch 不下降作為停止訓練的條件,最后給出模型在通用數(shù)據(jù)集上的臨界值。在損失函數(shù)的設計中,λc設置為3.2,λm設置為0.8,以此來權(quán)衡載體音頻與含密音頻、秘密音頻與重構(gòu)音頻之間的損失。
本節(jié)用于評價音頻隱寫算法透明性的含密音頻信噪比SNRs'、重構(gòu)音頻信噪比SNRc'、含密音頻的均方誤差MSEs'、重構(gòu)音頻的均方誤差MSEc'的計算公式為:
式中:符號s(t)和s'(t)分別為時域中的原始載體音頻和含密音頻,c(t)和c'(t)分別為時域中的原始秘密音頻和重構(gòu)音頻,'(t)和(t)分別為模型預測的含密音頻與重構(gòu)音頻。
為了能夠更加客觀地評價含密音頻與重構(gòu)音頻的聽覺質(zhì)量,本文采用了客觀的語音質(zhì)量評估(Perceptual Evluation of Speech Quality,PESQ)方法。
表2 分別給出了本文提出的網(wǎng)絡模型在中、英文數(shù)據(jù)集上進行音頻隱寫實驗后的透明性測試結(jié)果。根據(jù)國際唱片業(yè)聯(lián)合會標準,當含密音頻信噪比SNR>20 dB 時,隱藏的秘密音頻不可察覺,擁有較好的透明性。在TIMIT 英文數(shù)據(jù)集下實驗,含密音頻的信噪比最高可達25.82 dB,重構(gòu)音頻的信噪比最高可達12.92 dB;在DiDiSpeech 數(shù)據(jù)集下,含密音頻的信噪比最高可達25.78 dB,重構(gòu)音頻的信噪比最高可達13.99 dB。
表2 透明性分析
PESQ 是ITU-T P.862 建議書中提供的客觀語音質(zhì)量感知評估方法,它能將客觀的語音質(zhì)量評估映射到主觀平均意見分(Mean Opinion Score,MOS)刻度范圍。評估得分在1.0 和4.5 之間,得分越高,音頻質(zhì)量越好。表3 給出了中英文樣本分別通過隱寫網(wǎng)絡后得到的PESQ 值,含密音頻的PESQ 在3.8以上,人耳主觀聽覺不能發(fā)現(xiàn)異樣;重構(gòu)音頻的PESQ 都大于2.6,可以清楚理解提取得到的重構(gòu)秘密音頻的語義。表4 給出了本文提出的隱寫方案與其他一些研究的含密音頻信噪比的比較結(jié)果??梢钥闯觯疚牡碾[寫方案生成的含密音頻信噪比更高,透明性更好。
表3 含密音頻與重構(gòu)音頻的PESQ
表4 本文方案與其他隱寫方案的信噪比對比
本節(jié)對隱寫網(wǎng)絡模型進行抗干擾能力的測試,主要在訓練過程中對樣本分別添加Gaussion 和Speckle 兩種噪聲,定義σ為噪聲強度,其計算公式如下:
表5 給出網(wǎng)絡模型對中、英文數(shù)據(jù)集在對應噪聲類型和噪聲強度下的含密音頻信噪比和重構(gòu)音頻信噪比。通過結(jié)果可以看出,本文提出的隱寫模型在帶噪環(huán)境下,其含密音頻信噪比沒有較大的變化,其重構(gòu)音頻信噪比也和無噪條件的結(jié)果相差不大,結(jié)果仍然呈現(xiàn)含密音頻的高透明性與重構(gòu)音頻的高度可理解性。結(jié)果表明,本文提出的音頻隱寫方案具有良好的魯棒性。
表5 魯棒性分析
對于隱寫方案來說,除了透明性、魯棒性,還需要衡量其隱藏容量。音頻隱寫中的隱藏容量Cap是指在一定時間內(nèi)可以隱藏的秘密信息比特數(shù),用每秒比特數(shù)(bit/s)來衡量。計算公式為:
式中:T為含密音頻的時間長度,B為隱藏到含密音頻中總的秘密信息比特數(shù)。
本文采取的深度神經(jīng)網(wǎng)絡隱寫方案的隱藏容量為4 001.833 bit/s,與文獻[9]和文獻[16]的容量大小相同,是傳統(tǒng)隱寫方法[15,17-19]的20 倍左右。由此可以看出,深度神經(jīng)網(wǎng)絡采用的音頻隱寫方案擁有更好的冗余提取能力與自適應隱藏秘密信息的能力,極大地提高了音頻隱寫方法的隱藏容量,彌補了傳統(tǒng)隱寫方法隱藏容量小的缺點。
本文提出了一種結(jié)合多分支膨脹卷積網(wǎng)絡和殘差瓶頸注意力模塊的音頻隱寫算法。該方法選擇使用多膨脹率卷積網(wǎng)絡來學習音頻特征,并使用殘差的瓶頸注意力提高模型對音頻隱藏位置的學習能力,實現(xiàn)音頻完全的自適應編解碼及秘密音頻的提取。實驗結(jié)果表明,經(jīng)過該隱寫算法處理的音頻具有良好的聽覺質(zhì)量,保持了良好的透明性。此外,該算法對不同程度的加噪干擾具有較好的抵抗力,展現(xiàn)出了高度的魯棒性,同時該算法擁有高隱藏容量,可以在保持音頻質(zhì)量的同時存儲較多的隱藏信息。綜合來看,該算法在透明性、魯棒性和隱藏容量這3 個評價指標上取得了良好平衡。