融合多語言特點的無載體信息隱藏

2019-04-09 09:10:58彭博，李暉

微處理機 2019年1期

彭博，李暉

（沈陽工業(yè)大學(xué)信息科學(xué)與工程學(xué)院, 沈陽110870）

1 引言

信息隱藏（Information hiding, 或稱隱寫，Steganography），是指將機密信息偽裝為不引人注意的普通信息，從而達到隱蔽傳輸或隱蔽存儲的目的。其技術(shù)對國家安全與信息安全的重要意義不言而喻[1]。與圖片、音視頻等多媒體信息相比，文本信息具有占用空間小、傳輸方便、生活中應(yīng)用更廣泛等優(yōu)點[2]，因此，對文本信息隱藏的研究具有廣闊的發(fā)展前景和研究價值。目前對文本信息隱藏的研究主要分為兩大類：第一類是基于文本格式的信息隱藏，第二類是基于文本語法語義的信息隱藏。

基于文本格式的信息隱藏主要利用文本的特定格式，將秘密信息嵌入其中，比如利用文本段落的行間距變化[3]，文本顏色或字體大小的細微調(diào)整[4]等。這類方法的特點是魯棒性較差，一旦對其進行謄寫、影印等攻擊，隱藏信息即隨之消失。

基于語法語義的信息隱藏則主要利用某一語體的特定語法格式，或者對文本語義進行編碼來隱藏信息。比如利用宋詞的“韻律-詞性”格式進行信息隱藏[5-7]，利用同義詞或同義句替換進行信息隱藏[8-9]等。這類方法雖大多能抵御普通的基于格式的攻擊，卻在文本含義表達上略有欠缺，在可讀性上表現(xiàn)一般，部分文本語義較為生澀，容易引起攻擊者的注意，從而造成秘密信息的泄露。

近幾年來，一種新的“無載體信息隱藏”方法得到學(xué)者們的認同?！盁o載體信息隱藏”，并不是不需要隱藏信息的載體，而是與傳統(tǒng)信息隱藏方法相比，不再將秘密信息嵌入到載體中（或?qū)d體進行修改），相反，它直接以秘密信息作為驅(qū)動，來“生成/獲取”含密載體[10]，以實現(xiàn)信息隱藏的目的。與傳統(tǒng)方法相比，無載體信息隱藏?zé)o需對原始載體進行修改及嵌入，有效地提升了信息隱藏的魯棒性。Zhang J 等[11]、吉紅勇等[12]提出構(gòu)建文本大數(shù)據(jù)庫，利用秘密信息的詞級和頻率，在大數(shù)據(jù)庫中進行匹配，尋找合適的文本并直接發(fā)送。由于該方法無需修改載體，從而減少了被攻擊的可能性，但其在嵌入率上仍有待提高。陸海等[13]提出了結(jié)合隨機碼本的無載體試題偽裝方法，利用秘密信息生成以試題為形式的偽裝，該方法避免了秘密信息的直接傳輸，減少了被發(fā)現(xiàn)的可能性，隱藏容量上也有一定的提高。

故此，提出一種融合多語言特點的無載體信息隱藏方法，首次提出將漢語與英語的特點相結(jié)合、利用雙語互相翻譯轉(zhuǎn)換的方法進行信息隱藏。首先將漢語的秘密信息翻譯為英語信息，利用英文字母與漢語拼音的同一性，對翻譯后的英文文本進行字母、格式上的處理，最后通過該文本段生成漢語的姓名，并作為秘密信息的載體，從而實現(xiàn)信息隱藏的目的。經(jīng)該方法處理后的信息具有很好的魯棒性，不會出現(xiàn)語義生澀等情況，并能在嵌入率上有所提升，具有很強的實用性和廣闊的應(yīng)用前景。

2 研究基礎(chǔ)

2.1 算法的基本思想

大多數(shù)學(xué)者在對文本信息隱藏的研究中只針對某一種語言進行探索，很少有人注意到不同語言之間也存在一定的關(guān)系，這就造成了現(xiàn)有方法多針對于某一種語言的局限性。如果在信息隱藏中考慮將多種語言的特點進行融合，那么將會更好地豐富信息隱藏的方法。比如SUHAD M. KADHEM 等人提出了將英文的秘密信息隱藏到阿拉伯文文體之中[14]，并取得了良好的隱藏效果。

表1 展示了現(xiàn)今世界各語言使用者的比例。漢語和英語是世界上使用人數(shù)最多，使用范圍最廣的兩大語言[15]，且兩種語言存在一定的相通性，即中文的注音是利用漢語拼音完成的，漢語拼音又與英文的字母構(gòu)成相同，即由26 個英文字母A-Z 構(gòu)成。一定程度上，英文可以寫成漢語拼音的形式，經(jīng)過處理后生成新的漢語文本，這就形成了一種全新的文本信息隱藏思路：假設(shè)傳遞的是中文的秘密信息，由于各語言之間具有在互譯時句子原意基本保持不變的性質(zhì)，可以先將其翻譯成英文，將得到的英文進行適當處理，再轉(zhuǎn)換成拼音，由拼音所生成新的漢語載體，得到與秘密信息完全不同的文本，從而達到秘密信息隱藏傳輸?shù)哪康摹?/p>

表1 50年來世界各語言使用者總數(shù)的比例

2.2 基于中文姓名載體的信息隱藏

與傳統(tǒng)修改載體的信息隱藏方法相比，無載體信息隱藏直接由秘密信息作為驅(qū)動生成含密載體，免去了尋找載體、修改載體的繁瑣步驟。

目前文本無載體信息隱藏的主流方法是建立海量的文本大數(shù)據(jù)庫[16]，將秘密信息進行分解后[17]，再與大數(shù)據(jù)庫進行比對，找到合適的文本載體，直接進行傳送。這類方法雖能在一定程度上提高算法的安全性，減少被攻擊者發(fā)現(xiàn)的風(fēng)險，卻帶來了兩個問題：一是此類算法的嵌入率有待提升，往往一篇文章只能傳遞一個或幾個關(guān)鍵詞，對于大段秘密信息的傳遞效率很低；二是此類算法需要提前構(gòu)建10GB以上的大數(shù)據(jù)文本庫，才能保證秘密信息段的充分表達，造成存儲空間與搜索時間的大量冗余。

為了解決上述問題，使無載體信息隱藏更好地發(fā)揮出其特點，本方法采用了完全構(gòu)造式信息隱藏，即由秘密信息直接生成含密載體，無需構(gòu)建大數(shù)據(jù)文本庫，進一步節(jié)省了資源的開銷。為使生成的載體能夠完整表達秘密信息，且不引起攻擊者的注意，選取漢語的姓名作為最終的含密載體格式。選用漢語人名的更深一層的理由可歸納如下：

1）姓名是每個人獨一無二的標志，其具有獨特性。中國的百家姓加上不同名字可以有無數(shù)種組合，具有極高的靈活性。同時，中國人姓名一般以二字或三字居多，有一定的共性和規(guī)律，方便生成合適的含密載體；

2）姓名大多來源于出生時父母的命名，由于父母在為孩子取名時的期望，以及會受當時熱門的歷史事件或者父母的文化水平等諸多因素的影響，得到的名字也可能千差萬別?；谶@些原因，即使生成的姓名比較生僻，也很少會引起攻擊者的懷疑；

3）在許多場景中，姓名都可以大規(guī)模地出現(xiàn)，例如在學(xué)校中學(xué)生的點名冊，出席會議時的參會人員名單，旅游時的旅客名單等等，都可以應(yīng)用于多種場合，只需要加上一定的修飾，完全不會引起攻擊者的懷疑，具有很高的隱蔽性，可以滿足保密通信的要求。

3 算法描述

所提出的這一融合多語言特點的無載體信息隱藏方法主要包括3 個環(huán)節(jié)：1）漢語秘密信息翻譯轉(zhuǎn)化成英語信息；2）對英語信息做恰當處理，使其能夠正確進行拼音轉(zhuǎn)換；3）構(gòu)建漢語姓名數(shù)據(jù)庫，由上一步得到的拼音信息自動生成漢語姓名名單，即秘密信息傳輸?shù)妮d體。該方法的隱藏過程流程圖如圖1 所示。

圖1 隱藏過程流程圖

3.1 漢語到英語的轉(zhuǎn)化

為保證漢語的秘密信息能夠自動并快速地被翻譯成英語信息。算法使用了百度翻譯提供的API接口，免去了人為翻譯對時間、資源等的浪費，保障了信息處理的速度及準確性。

3.2 對英文信息的處理轉(zhuǎn)換

對于翻譯好的英文信息進行改寫處理，以便利用拼音的形式生成載體。利用拼音字母生成漢語姓名時，由于漢語的“a”，“e”，“i”，“o”，“u”，“v”等字母在自動生成時對應(yīng)的漢字較少，無法滿足算法的需求。為解決這一問題，綜合考量了英文字母使用頻率和拼音輸入法中26 個字母的使用頻率，同時還借鑒了生物學(xué)中RNA 密碼子的對應(yīng)關(guān)系，如表2所示，制定了變換規(guī)則，對上述字母進行轉(zhuǎn)換，以便更好的生成載體，滿足傳輸要求。

表2 本算法設(shè)定的RNA密碼子對應(yīng)規(guī)則

利用上述對應(yīng)規(guī)則進行轉(zhuǎn)換后，不但解決了部分字母生成載體困難的問題，也有效地破壞了原英文單詞的書寫，使其難以被檢測識別，進一步增強了系統(tǒng)的安全性。

3.3 構(gòu)建漢語姓名數(shù)據(jù)庫

中國人的姓名由姓氏和名字兩部分組成。為利用拼音快速準確生成姓名載體，分別建立了兩個以姓氏和名字為一級索引的數(shù)據(jù)庫；二級索引則為各漢字的拼音首字母。其中，為使算法盡可能簡便易行，在姓氏一欄中暫不考慮復(fù)姓的情況。表3 展示了姓名數(shù)據(jù)庫的構(gòu)建方法。

表3 姓名數(shù)據(jù)庫構(gòu)建方法

3.4 所提方法的完整步驟

3.4.1 信息隱藏過程

本信息隱藏算法分為兩部分，即信息隱藏過程和信息提取過程。信息隱藏過程算法的完整步驟詳細如下：

Step1：輸入秘密信息s；

Step2：根據(jù)要發(fā)送的秘密信息s，先將其整理為關(guān)鍵詞形式或盡量精簡；

Step3：將整理好的秘密信息s 通過翻譯API 譯為英文的秘密信息e；

Step4：將處理后的英文信息e 利用RNA 對應(yīng)規(guī)則進行轉(zhuǎn)換，得到拼音信息k；

Step5：根據(jù)拼音信息k 的長度L，生成全部為2 或3的隨機數(shù)序列，使序列求和等于L，該序列即為生成姓名時的參照序列Q；

Step6：從頭至尾遍歷拼音信息k，同時訪問參照序列Q；

Step7（如果Q 中元素為2）：從拼音信息中取兩個字母，第一個字母從“姓氏”數(shù)據(jù)庫中提取元素，第二個從“名字”數(shù)據(jù)庫中提取元素；

Step8（如果Q 中元素為3）：步驟同7，第一個字母從“姓氏”數(shù)據(jù)庫中提取，其余的從“名字”數(shù)據(jù)庫提?。?/p>

Step9：重復(fù)步驟6～7，直到遍歷所有的拼音信息k；

Step10：生成含密姓名載體c 。

3.4.2 信息提取過程：

提取過程是隱藏過程的逆過程，接收方在接收到姓名名單后，按照以下步驟還原出原始秘密信息：

Step1：接收方接收到載體信息c，利用計算機從姓名名單中提取出漢語拼音的首字母；

Step2：利用雙方早先約定的RNA 密碼子對應(yīng)規(guī)則，對提取的拼音信息進行逆處理，得到英文消息e'；

Step3：補全空格、標點等必要信息，使其成為標準的英文信息e；

Step4：利用翻譯API 將英文信息e 翻譯回漢語，即得到初始的秘密信息s；

4 實驗與分析

4.1 實驗例證

實驗測試環(huán)境為Windows10 操作系統(tǒng)，CPU 為Intel(R) Core(TM) i5-6300HQ，主頻為2.3GHz，內(nèi)存為8GB，編程語言為Python3.5。

由于信息隱藏的應(yīng)用方向主要在于秘密信息的傳遞，故實驗文本選擇了類似地下情報的信息語段，如圖2 所示。

圖2 傳遞的秘密信息語段

根據(jù)上述的算法步驟，可生成的含密姓名載體，如圖3 所示。

圖3 生成的姓名載體格式

在信息的提取過程中，根據(jù)前文所述的提取步驟，得到原始的秘密信息，如圖4 所示。

圖4 提取的秘密信息語段

由實驗結(jié)果得知，經(jīng)過本信息隱藏算法處理，原始秘密信息轉(zhuǎn)變成了姓名形式的含密載體，且其沒有在新的載體中出現(xiàn)；對比提取到的秘密信息與原始信息，提取信息與原始信息略有不同，不過卻沒有改變原始信息的含義，從實現(xiàn)了信息的隱秘傳輸。

4.2 性能分析

對于某一種信息隱藏算法，其主要評價方法一般由嵌入效率、魯棒性以及抗檢測性三方面組成。

嵌入效率一般由如下計算公式得出：

其中，H 表示算法嵌入效率，Lc為秘密信息的字節(jié)長度，Lr為含密載體的字節(jié)長度。

在第4.1 節(jié)的實驗舉例中，該示例的嵌入率為31.4%。在多次隨機實驗中，其嵌入率波動情況如圖5 所示。可知，平均嵌入率為34.2%，嵌入率最高值可達到46%，最低則為23%。

圖5 本文算法嵌入率波動圖

造成這種波動現(xiàn)象的原因是，在算法第一步翻譯過程中，部分漢語詞語對應(yīng)的英文翻譯較長，形成部分冗余。對于此種現(xiàn)象，可在通信前由通信雙方進行約定，對某些事物進行代號標記，則可保證嵌入率更加穩(wěn)定上升。對比以往的文本信息隱藏算法，該算法在嵌入率上的提升情況，可見表4 中的具體對比。

由于本方法不屬于基于格式的信息隱藏，故其可以抵御任意的謄寫、重抄、影印等攻擊，甚至可以以語音的方式進行隱秘通信。同時，本方法以中文姓名作為載體，可以抵御語義分析、詞頻分析等統(tǒng)計學(xué)檢測手段，具有較好的魯棒性。

表4 嵌入效率對比圖

在抗檢測性方面，該方法的優(yōu)點可歸納如下：首先，由于采用了無載體信息隱藏，沒有對載體進行修改，所以不會造成語義的生澀或格式上的異常；其次，在載體上以中文姓名名單作為形式，適用于各種場合的偽裝；最后，創(chuàng)新性地提出了中英文結(jié)合的信息隱藏方法，這在以往的研究中并未被人提及。此外，攻擊者在進行檢測分析時會更注意中文的格式和語義等，忽略其注音等情況，也為抗檢測性增加了保障。

5 結(jié)束語

提出了一種融合多語言特點的無載體文本信息隱藏方法，將多語言之間的關(guān)系融合到信息隱藏技術(shù)中，擺脫了以往文本信息隱藏只在一種語言中尋求方案的局限性，拓寬了思路。利用計算機進行程序編寫及仿真后的實驗結(jié)果表明，該方法可以有效地進行隱秘通信，抵抗現(xiàn)有的隱寫分析手段，并在嵌入率上做到了一定的提升。由于本方法基于中英文的翻譯展開，對于較為抽象的中文信息，如唐詩、宋詞等，其嵌入率會大打折扣，所以后續(xù)的研究重點是針對此類復(fù)雜情況改進該方案，使其具有更好的普適性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡