程玉柱 邱春榮 胡伏湘
(長沙民政職業(yè)技術(shù)學(xué)院,湖南 長沙 410004)
數(shù)字水印的研究進展與應(yīng)用綜述
程玉柱 邱春榮 胡伏湘
(長沙民政職業(yè)技術(shù)學(xué)院,湖南 長沙 410004)
數(shù)字水印作為網(wǎng)絡(luò)環(huán)境下數(shù)字作品版權(quán)保護的重要技術(shù),已得到廣泛的研究和應(yīng)用。文中對數(shù)字水印技術(shù)的研究與進展情況進行了論述。以文本水印為例,圍繞水印魯棒性、隱蔽性、安全性和盲檢測性等關(guān)鍵問題,分析比較了文本數(shù)字水印技術(shù)的典型算法及攻擊方法,并探討了未來的應(yīng)用前景和研究方向。
數(shù)字水印;文本數(shù)字水印;版權(quán)保護;魯棒性;隱蔽性
多媒體存儲和傳輸技術(shù)的進步使存儲和傳輸數(shù)字化信息成為可能,同時,隨著計算機通信技術(shù)的迅速發(fā)展,傳播數(shù)字多媒體信息也越來越方便快捷。然而,這也使盜版者能以低廉的成本復(fù)制及傳播未經(jīng)授權(quán)的數(shù)字產(chǎn)品內(nèi)容。出于對利益的考慮,數(shù)字產(chǎn)品的版權(quán)所有者迫切需要解決知識產(chǎn)權(quán)的保護問題?;诖丝紤],數(shù)字水印技術(shù)應(yīng)運而生。
目前對數(shù)字水印(digital watermarking)的普遍定義是指鑲嵌在其他數(shù)據(jù)(宿主數(shù)據(jù))中具有可鑒別性的數(shù)字信號或模式,用以證明宿主數(shù)據(jù)的版權(quán)歸屬。而且水印的添加并不影響宿主數(shù)據(jù)的可用性[1]。在某種意義上說,水印對局外人是不可見的(透明的),但算法本身能提供有效的檢測手段。數(shù)字水印可以標(biāo)識作者、所有者、發(fā)行者、使用者等,并攜帶有版權(quán)保護信息和認(rèn)證信息,保護數(shù)字產(chǎn)品的合法拷貝和傳播。
作為保護版權(quán)用數(shù)字水印需要滿足以下四點基本要求[1-2]:
1.1.1 魯棒性(Robustness):數(shù)字水印必須難以(最好是不可能)被除去,試圖除去或破壞數(shù)字水印應(yīng)導(dǎo)致水印文本嚴(yán)重的降質(zhì)而不可用。
1.1.2 隱蔽性(Invisibility):數(shù)字水印應(yīng)是不可見的,即水印的存在不應(yīng)明顯干擾被保護的數(shù)據(jù),不影響被保護數(shù)據(jù)的正常使用。
1.1.3 安全性(Security):數(shù)字水印中的信息應(yīng)是安全的,難以被篡改或偽造,只有授權(quán)方可以進行水印的檢測。
1.1.4 盲檢測性(Blind detection):水印檢測過程不需要原始的、未嵌入水印的載體信息。這一方面簡化了水印的檢測,另一方面則是為了加強水印的安全性。
數(shù)字水印的分類方法有很多種,分類的出發(fā)點不同導(dǎo)致了分類的不同,各分類方法之間是既有聯(lián)系又有區(qū)別的。按水印所附載的載體類型,可以將水印劃分為圖像水印[3]、音頻水?。?]、視頻水?。?]、文本水?。?]、數(shù)據(jù)庫水?。?]等。隨著數(shù)字技術(shù)的不斷發(fā)展,會有更多種類的數(shù)字媒體出現(xiàn),同時也會有相應(yīng)載體的水印技術(shù)[8]。
本文以文本水印為例來說明典型的數(shù)字水印算法。
1.2.1 行間距編碼
行間距編碼就是在文本的每一頁中,每間隔一行輪流地嵌入水印信息,但嵌入信息的行相鄰上下兩行位置不動,作為參照,需嵌入信息的行根據(jù)水印數(shù)據(jù)的比特流進行輕微的上移和下移[6]。在移動過的一行中編碼一個信息比特,如果這一行上移,則編碼為“1”,如果這一行下移,則編碼為“0”。
1.2.2 字間距編碼
字間距編碼是通過改變指定的一行中的詞塊(一個或多個單詞)之間的水平距離(間隔)來嵌入信息[6]。編碼時,待嵌入信息的詞塊與其左邊基準(zhǔn)詞塊之間距離增大,則表示嵌入的信息位為“1”;與右邊基準(zhǔn)詞塊間距離增大,則表示嵌入的信息位為“0”。沒有進行編碼的基準(zhǔn)詞塊用來作為檢測水印的參考和補償因打印、掃描等所引起的非線性失真。
1.2.3 字符特征編碼
字符特征編碼通過改變文檔中指定字符的某一特征來嵌入標(biāo)記,這些特征可以是各種各樣的:字體、顏色、大小、下劃線、筆劃高度和方向等。水印的嵌入過程為使用特征的近似替代來嵌入信息,包括不易察覺的字體縮放、與背景同色的下劃線、相似的字體、字體顏色等[9-11]。如文獻(xiàn)[10]提出了用于矢量字體的特征編碼法,通過修改字符的筆劃寬度以嵌入水印。文獻(xiàn)[11]提出了“基于字符拓?fù)浣Y(jié)構(gòu)”的文本水印算法,它利用人類對語言符號的“模糊”心理認(rèn)知模型和生理視覺模型,通過適當(dāng)改變字符的拓?fù)浣Y(jié)構(gòu),設(shè)計出語義上相同的字符的多種字形,用字符字形映射的不同數(shù)學(xué)模型代表隱藏信息。文獻(xiàn)[13]提出了一種面向中文文本的基于漢字?jǐn)?shù)學(xué)表達(dá)式的特征編碼法,利用該方法能較為方便和自動化地構(gòu)造出相似字形的漢字字庫,如“妝”和“丬女”,然后再進行替換編碼。
1.2.4 不可見編碼
不可見編碼方法常用于非格式化的文本,一般是在行末添加空格或不可見編碼來加載水印,如空格代表“0”,Tab代表“1”等方式[9]。行末是否有空格在視覺上難以區(qū)分,提取時可通過不可見編碼的有無及數(shù)目進行解碼。
1.2.5 語義水印
語義水印的主要指導(dǎo)思想是利用自然語言處理技術(shù)在不改變文本原意的情況下通過等價信息替換、語態(tài)轉(zhuǎn)換等辦法把水印信息嵌入文本中[12]。目前自然語言文本數(shù)字水印方法主要分為兩類:一類基于句法結(jié)構(gòu),另一類則基于語義[12-13,18]。
基于句法結(jié)構(gòu)的自然語言文本水印方法主要是對句子的句法結(jié)構(gòu)進行轉(zhuǎn)換以嵌入水印,其中最常用的變換方式有以下4種:移動附加語的位置、加入形式主語、主動式變被動式和在句子中插入“透明短語”。四種變換方式各不相同,但它們有著共同的特點:都會使句子的句法結(jié)構(gòu)、句法樹的形狀發(fā)生變化,進而使得變換前后句子的二進制編碼變得不同;都存在可逆變換;可以幾種方法同時使用。
基于語義的自然語言文本水印方法主要是在基于對句子進行深層次理解的基礎(chǔ)上,對句子進行變換以達(dá)到在文本中加入水印的目的。基于同義詞替換可以算是最早的自然語言文本水印算法,它是在保持語義不變或相近的前提下對內(nèi)容進行替換,將一個載體文本看成一系列的有意義序列,嵌入過程就是將載體文本轉(zhuǎn)換成具有相同或相近意義的隱秘文本的過程。文獻(xiàn)[12]提出了一種基于TMR樹的自然語言文本水印方法,該方法是使用TMR(text meaning representation)樹的方式對文本中的句子進行表達(dá),并通過對TMR樹的操作來實現(xiàn)對文本中句子的修改。此外,從提取文本內(nèi)容特征以加載水印的角度,文獻(xiàn)[14]提出了一種新的文本零水印方法。方法采用基于注冊的機制,依據(jù)文本語義相似度度量文本相似性,從而確定文本版權(quán)歸屬。其他還有在符號級加入水印,以及通過在文本中添加圖形,將文本水印轉(zhuǎn)化為圖像水印處理等方法[15]。
數(shù)字水印主要應(yīng)用在以下幾個方面[1-2]:
(1)版權(quán)保護:數(shù)字作品的所有者可用密鑰產(chǎn)生水印,并將其嵌入原始數(shù)據(jù),然后公開發(fā)布其水印版本作品,當(dāng)該作品被盜版或出現(xiàn)版權(quán)糾紛時,所有者即可從被盜版作品中獲取水印信號作為依據(jù),從而保護其合法權(quán)益。
(2)數(shù)字指紋:為避免數(shù)字作品未經(jīng)授權(quán)被拷貝和發(fā)行,版權(quán)所有人可以向分發(fā)給不同用戶的作品中嵌入不同的水印以標(biāo)識用戶的信息,該水印可根據(jù)用戶的序號和相關(guān)的信息生成,一旦發(fā)現(xiàn)未經(jīng)授權(quán)的拷貝,就可以根據(jù)此拷貝所恢復(fù)出的指紋來確定它的來源。
(3)認(rèn)證和完整性校驗:認(rèn)證和完整性校驗的目的是檢測對數(shù)字作品的修改。脆弱水印是一種當(dāng)作品發(fā)生任何形式的改變后變得不可測的標(biāo)志,該類水印還可以對數(shù)字作品被篡改的地方進行定位。
(4)訪問控制:利用數(shù)字水印技術(shù)可以將訪問控制信息嵌入到媒體中,在使用媒體之前通過檢測嵌入到其中的訪問控制信息,以達(dá)到訪問控制的目的,它要求水印具有很高的魯棒性。
(5)信息隱藏:數(shù)字水印可用于作品的標(biāo)識、注釋、檢索信息等內(nèi)容的隱藏,這樣不需要額外的帶寬,且不易丟失。另外,數(shù)字水印技術(shù)還可以用于隱蔽通信,這將在國防和情報部門得到廣泛的應(yīng)用。
面向版權(quán)保護的魯棒水印技術(shù)是一個具有相當(dāng)難度的研究領(lǐng)域,到目前為止,還沒有一個算法能夠真正經(jīng)得住攻擊者的任意攻擊。在Internet上已經(jīng)可以得到能夠有效擊垮某些商用水印系統(tǒng)的軟件,如Stir-Mark等。以下是幾種典型的數(shù)字水印攻擊方法,各方法選取的進攻角度和方式各不相同[17]。
(1)實體攻擊:通過直接修改水印作品,以達(dá)到破壞水印提取的攻擊方法;
(2)算法攻擊:在仔細(xì)分析水印嵌入特點或破譯嵌入密碼后,有針對性地去除水印的攻擊方法;
(3)策略攻擊:利用水印嵌入規(guī)范上的缺陷,通過重嵌水印質(zhì)疑原水印信息的可信度的攻擊方法;
(4)解釋攻擊(又稱IBM攻擊):首先對水印作品進行嵌入逆操作,得到偽造的原始作品和水印信息,使得水印作品中存在兩個功能和法律上完全對等的水印信息。
具體就文本數(shù)據(jù)而言,目前應(yīng)用比較頻繁的水印攻擊方法是實體攻擊和算法攻擊。包括針對基于格式修改的文本水印算法而對文本字符間距、行間距進行隨機化處理;針對基于字符特征修改的文本水印算法而對文本字符特征進行修改;針對基于文檔外邊緣或附加空格編碼算法而對文本內(nèi)容進行置亂;針對字符拓?fù)浣Y(jié)構(gòu)轉(zhuǎn)換和漢字拆分算法對文本內(nèi)容進行重新錄入等。
前文提到,一個實用的數(shù)字水印系統(tǒng)一般應(yīng)具有魯棒性、安全性、隱蔽性、大容量和盲檢測等特點。下面結(jié)合這五個特點及上述兩類攻擊方法展開分析,闡述文本數(shù)字水印技術(shù)研究現(xiàn)狀并探討存在的問題。
在基于文本結(jié)構(gòu)的各種文本水印方法中,行間距編碼方法的容量最小,字間距編碼的水印方法的隱蔽性好于行間距編碼,但魯棒性減弱,而且相對增加了提取水印的復(fù)雜度。空格編碼不易引起詞句的改變和讀者的注意,但容量太小,而且有的編輯器會自動刪除多余的空格。由于精確地分析和利用文檔圖像的特征存在難度,而且文本的操作習(xí)慣不同于圖像,基于傳統(tǒng)圖像水印技術(shù)的文本水印方法普遍存在魯棒性不高、操作復(fù)雜的缺點[3,4,12-13]。值得注意的是以上四種方法都只是停留在文本的表層,由于它們都是空間域的方法,安全性主要靠空間格式的隱蔽性來保證,攻擊者可以通過將字符間距、單詞間距以及行間距進行隨機化處理而破壞水印,因此這些水印方案普遍存在安全性不強、魯棒性較差的缺點。
特征編碼法在水印容量方面有明顯的優(yōu)勢,隱蔽性較好,且部分算法具有較強的魯棒性,但絕大多數(shù)算法針對Retype(重新錄入)攻擊還沒有找到好的應(yīng)對措施。
自然語言文本水印的方法相對在魯棒性上提高了系統(tǒng)的靈活性和承受攻擊的能力,同義詞替代、TMR樹算法等就是其中的代表性算法。該方法具有良好的魯棒性和一定的安全性,但是受限于自然語言處理技術(shù),目前還存在很多尚待解決的問題,包括體裁、字?jǐn)?shù)、變換效果的限制,嵌入水印后的載體文本容易發(fā)生語義改變和難以理解的情況,隱蔽性不夠理想。此外,如何進一步增強系統(tǒng)的安全性等問題的解決很大程度上要借助、依賴于自然語言處理技術(shù)的發(fā)展[13]。
水印技術(shù)是信息安全技術(shù)的一個重要方面,是一種在開放的網(wǎng)絡(luò)環(huán)境中多媒體版權(quán)保護的有效方法。目前雖然已經(jīng)提供了不少水印嵌入方法,但是都或多或少存在一些不太令人滿意的地方,很多問題和方法有待進一步的研究和解決。
(1)現(xiàn)在對于數(shù)字水印技術(shù)的研究主要集中在靜態(tài)圖像方面。至于音頻方面,由于人們已能建立很好的語言模型,因此水印技術(shù)也相對成熟一些。而在視頻方面,雖然目前已有基于動畫的水印,但遠(yuǎn)不如在靜態(tài)圖像中的效果好。此外,針對文本水印的研究也不成熟,一方面因為文本不同于圖像和音頻、視頻,沒有充分多的冗余空間;另外由于自然語言處理技術(shù)的局限性,目前尚沒有真正理想的文本數(shù)字水印算法。
(2)與其他學(xué)科交叉發(fā)展,數(shù)學(xué)水印技術(shù)不是萬能的,需要與密碼學(xué)技術(shù)及PKI技術(shù)、復(fù)制檢測、數(shù)字簽名等一起使用,構(gòu)建綜合的數(shù)據(jù)安全體系,才能抵抗各種攻擊。
(3)從人類視覺系統(tǒng)出發(fā),建立適合人眼視覺效果的數(shù)學(xué)模型。這方面的研究需要很多關(guān)于生理、心理和數(shù)學(xué)的知識。盡管難度不小,但仍被認(rèn)為是數(shù)字水印的重要研究方向。
(4)要促進水印技術(shù)更好更快地發(fā)展,需要建立相關(guān)的理論體系和測評標(biāo)準(zhǔn),建立一個開放的數(shù)字水印測評平臺。
數(shù)字水印是一門具有挑戰(zhàn)性的科學(xué),近幾年來數(shù)字水印技術(shù)取得了很大進展,但目前為止尚未形成一個完整的理論體系。盡管如此,隨著研究的不斷深入和數(shù)字版權(quán)管理技術(shù)的發(fā)展,它有著廣闊的應(yīng)用前景,必將成為版權(quán)保護的重要工具。
[1]Schyndel V R,Triklel A,Osbome C.A digital watermarking[C].Proceedings of International Conference on Image Processing,IEEE.Austin,1994.86-90.
[2]Cox I J,Miller M L.The first 50 years of electronic watermarking [J].Journal on Applied Signal Processing,2002,2:126-132.
[3]潘蓉,高有行.數(shù)字圖象水印技術(shù)研究[J].湖南大學(xué)學(xué)報(自然科學(xué)版),2002,29(2):117-123.
[4]張華熊,仇佩亮.用于版權(quán)保護的魯棒音頻水印[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2002,14(8):786-789.
[5]孫建德,劉琚.基于獨立分量分析的盲視頻水印方案[J].電子學(xué)報,2004,32(9):1507-1510.
[6]Brassil J T,Low S H,Maxemchuk N F,et al.Electrical marking and identification techniques to discourage document copying [J].IEEE Journal on Selected Areas in Communications,1995,13(8):1495-1504.
[7]Agrawal R,Kiernan J.Watermarking relational databases[C].Proceedings of the 28th VLDB Conference,Hong Kong,China,2002.1-9.
[8]張新宇,彭維,張三元等.3D網(wǎng)格數(shù)字水印研究進展[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2003,15(8):913-920.
[9]Brassil J T,Low S H,Maxemchuk N F.Copyright protection for the electronic distribution of text documents[J].Proceedings of the IEEE,1999,87(7):1181 -1196.
[10]Stefan T,Martin S,Patrick W.A digital watermark for vector-based fonts[C].Proceedings of the 8th ACM Multimedia and Security Workshop. Geneva, Switzerland,2006.120-123.
[11]劉東,陳松,周明天.基于字符拓?fù)浣Y(jié)構(gòu)的文本數(shù)字水印技術(shù)[J].小型微型計算機系統(tǒng),2007,28(5):812-815.
[12]Atallah M J,McDonough C J,Raskin V.Natural language for information assurance and security:an overview and implementation[M].New Security Paradigm Workshop,New York:ACM Press,2000.51-65.
[13]Sun X M,Luo G,Huang H J.Component-based digital watermarking of Chinese texts[C].Proceedings of the third International Conference on Information Security.Shanghai,China,2004.76-85.
[14]程玉柱.基于TMDS的文本零水印技術(shù)研究[J].計算機工程與設(shè)計,2008,29(24):6420-6422.
[15]李趙紅,侯建軍,宋偉.基于等級結(jié)構(gòu)的二值文本圖像認(rèn)證水印算法[J].自動化學(xué)報.2008,34(4):841-848.
[16]Atallah M J,McDonough C J,Raskin V,et al.Natural language processing for information assurance and security:An overview and implementations[C].Proceedings of the 9th ACM New Security Paradigms Workshop,New York:ACM,2000.51-65.
[17]Voloshynovskiy S,Pereira S,Pun T,et al.Attacks on digital watermarks:classification,estimation based attacksand benchmarks [J].IEEE Communications Magazine,2001,39(8):118-126.
TP391
A
1671-5136(2010)02-0122-04
2010-04-25
程玉柱 (1980-),男,安徽安慶人,長沙民政職業(yè)技術(shù)學(xué)院軟件學(xué)院講師、碩士。研究方向:信息安全與自然語言處理。
book=125,ebook=330