国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句法依存分析的文本水印算法

2011-07-05 08:42:46吳戈文大化
關(guān)鍵詞:魯棒性語(yǔ)氣副詞

吳戈,文大化

(1.長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022;2.中國(guó)科學(xué)院 長(zhǎng)春光學(xué)精密機(jī)械與物理研究所,長(zhǎng)春 130033)

目前,數(shù)字水印被普遍認(rèn)為是抵抗各種多媒體產(chǎn)品盜版及解決相關(guān)版權(quán)糾紛的“最后一道防線”。因此從水印技術(shù)角度來(lái)看,它的應(yīng)用前景之廣泛和經(jīng)濟(jì)價(jià)值之大受到了整個(gè)業(yè)界的矚目。進(jìn)入21世紀(jì),人們對(duì)網(wǎng)絡(luò)逐漸從認(rèn)識(shí)過(guò)渡到熟悉,網(wǎng)絡(luò)即給人們合法使用提供了方便,同時(shí)也使盜版也變得更加輕易,因此數(shù)字作品的管理、保護(hù)不僅成為業(yè)界迫切需要解決的問(wèn)題,而且對(duì)非法使用數(shù)字作品的維權(quán)也成為司法界執(zhí)行版權(quán)糾紛的要求。

電子文檔就是以數(shù)據(jù)方式存于計(jì)算機(jī)中的文件,目前,即使視頻和音頻數(shù)字作品依托互聯(lián)網(wǎng)快速發(fā)展,但文本數(shù)據(jù)依然是互聯(lián)網(wǎng)上使用最多和傳播最廣的一種信息模式。因此如何保護(hù)電子文本版權(quán),維護(hù)原創(chuàng)作者的權(quán)益,以及充分利用文本數(shù)據(jù)作載體進(jìn)行隱蔽通信,對(duì)信息安全具有重要意義和實(shí)用價(jià)值。

1 文本水印

文本水印作為一種保護(hù)文本數(shù)據(jù)信息的技術(shù),它的目的是保護(hù)在文本媒體中隱藏的信息不被非法使用者侵犯并可利用水印檢測(cè)技術(shù)恢復(fù)和保留在數(shù)據(jù)中,從而實(shí)現(xiàn)文本所有權(quán)和跟蹤對(duì)作品的侵權(quán)行為。目前已有的大部分文本信息隱藏方法集中于兩個(gè)方面:一種是采用基于文本數(shù)據(jù)格式的方式,通過(guò)改變文本的排版特征嵌入隱秘信息。這種方法由于對(duì)媒體本身改動(dòng)過(guò)于明顯,很容易受到重新排版的影響,同時(shí)也很容易受到敵手的攻擊,甚至隱秘信息被識(shí)別。另一種是基于自然語(yǔ)言算法的信息隱藏,其方法按照水印嵌入粒度可分為詞匯層、句子層和篇章層。本文從句子層角度出發(fā)進(jìn)行探討的。

不論想在哪種載體(文本、圖像、視頻、音頻等數(shù)字載體)中嵌入水印,都需要利用原有載體中存在的冗余現(xiàn)象。對(duì)于文本而言,由于其句法結(jié)構(gòu)存在冗余,同時(shí),由于語(yǔ)言在長(zhǎng)期發(fā)展過(guò)程中形成的同一意思可用不同句式表達(dá)的特點(diǎn),所以可以通過(guò)句法分析來(lái)尋找水印的嵌入點(diǎn)。

2 依存句法分析水印算法

2.1 算法思想

依存句法分析[1]有一個(gè)重要特點(diǎn):絕大多數(shù)句子以動(dòng)詞為核心詞,少量句子以形容詞為核心詞;同時(shí)由于很多句中都存在主謂關(guān)系(SBV),即存在依賴于核心詞的名詞、代詞,圖1為依存句法分析示例。根據(jù)上述特點(diǎn)并結(jié)合與句子中核心詞有關(guān)的詞匯用法,考慮到副詞則是既有結(jié)構(gòu)意義又有語(yǔ)用意義的詞,所以可以考慮利用其結(jié)構(gòu)意義設(shè)計(jì)水印算法。

圖1 依存句法分析示例Fig.1 Example of dependency parsing

對(duì)于依存于核心詞的主謂關(guān)系(SBV),要通過(guò)遍歷找到構(gòu)成主謂關(guān)系(SBV)的兩個(gè)詞中間是否還含有其他句法關(guān)系。如果除了狀中結(jié)構(gòu)(ADV)外,不再含有其他關(guān)系,則可以考慮刪除狀中結(jié)構(gòu)(ADV)來(lái)嵌入水印信息;否則結(jié)構(gòu)過(guò)于復(fù)雜,計(jì)算時(shí)間過(guò)長(zhǎng),不予考慮。如果原來(lái)主謂關(guān)系(SBV)的兩個(gè)詞中間沒(méi)有其他句法關(guān)系,則可通過(guò)增加能構(gòu)成狀中結(jié)構(gòu)(ADV)的詞來(lái)嵌入水印信息。

由于核心詞主要為動(dòng)詞和形容詞,依存于核心詞的構(gòu)成主謂關(guān)系(SBV)的另一個(gè)詞主要是名詞和代詞;而依存于核心詞構(gòu)成狀中結(jié)構(gòu)(ADV)的主要是副詞,整個(gè)算法的關(guān)鍵就在于對(duì)副詞的刪減和增加上,所以要對(duì)副詞進(jìn)行分類討論。

2.2 水印嵌入規(guī)則

針對(duì)副詞的水印嵌入原則,提出以下句子結(jié)構(gòu)特點(diǎn):

(1)相對(duì)程度副詞中的較高級(jí)、比較級(jí)、較低級(jí)中的各個(gè)詞可以增刪而基本不影響語(yǔ)義,而相對(duì)程度副詞中的最高級(jí)和絕對(duì)程度副詞都不能增刪而只能替換。

(2)程度副詞中的較高級(jí)、比較級(jí)、較低級(jí)中的各個(gè)詞可以增刪而基本不影響語(yǔ)義,而相對(duì)程度副詞中的最高級(jí)和絕對(duì)程度副詞都不能增刪去而只能替換。

(3)范圍副詞的句子中,如果是全部總括型,可以刪去;如果是部分總括型,不能刪去可替換。在含統(tǒng)計(jì)性范圍副詞的句子中,如果是全部統(tǒng)計(jì),可以刪去;如果是部分統(tǒng)計(jì)型,不能刪去可替換。如果是含有限定性范圍副詞或外加性范圍副詞,可以刪去;

(4)基于語(yǔ)氣副詞特點(diǎn)提出對(duì)于表示或然語(yǔ)氣“也許、或許”等詞可以刪去;表示必然語(yǔ)氣“一定、必然、必定”等詞可以刪去;表示料定語(yǔ)氣“果然、果真”等詞可以刪去;表示必要語(yǔ)氣“必須、一定、務(wù)必”等詞以及表示僥幸語(yǔ)氣“幸虧、幸而、幸好”等詞不能刪去。

(5)對(duì)于不適合進(jìn)行刪去處理的副詞,建立副詞同義詞詞典,采用替換的方法嵌入水印。

2.3 算法流程

圖2 基于句子分析的水印嵌入算法流程Fig.2 Flow chart of watermarking embedding algorithm

2.4 水印的嵌入和提取

水印嵌入的具體步驟如下:

Input:文本T,密鑰K1,密鑰K2,用戶信息。

Output:含水印文本T’。

(1)使用擁有者和用戶信息產(chǎn)生二進(jìn)制水印序列W1,用密鑰K1對(duì)W1進(jìn)行混沌調(diào)制,得待嵌入水印信號(hào)W。

(2).利用分詞系統(tǒng)對(duì)T進(jìn)行分詞,找到所有的句號(hào)、問(wèn)號(hào)、驚嘆號(hào)。建立句子集合

(3).對(duì)每個(gè)句子進(jìn)行句法分析。找到每個(gè)句子的核心詞(HED),對(duì)核心詞前的句法結(jié)構(gòu)進(jìn)行分類,把含有SBV+ADV關(guān)系的句子合成一個(gè)子集S1,把其中構(gòu)成ADV結(jié)構(gòu)的副詞合并成一個(gè)子集C’。

(4)計(jì)算S1的句子數(shù)目N,N=num(S1)

(6)利用密鑰K2,把S1映射到與水印信息長(zhǎng)度相同句子集合S2中。

(8)output T’

水印提取基本上是水印嵌入的逆過(guò)程,這里不再詳盡敘述。

3 實(shí)驗(yàn)結(jié)果

本文選用了北大CCL語(yǔ)料庫(kù)中的句子,截止2009年7月其規(guī)模已經(jīng)達(dá)到4.77億字。這里僅選取其現(xiàn)代漢語(yǔ)中的部分免費(fèi)語(yǔ)料進(jìn)行實(shí)驗(yàn),選取的語(yǔ)料共10684個(gè)分句。對(duì)10684個(gè)句子利用哈工大的LTP平臺(tái)進(jìn)行分析,其中主要副詞及可進(jìn)行替換的情況統(tǒng)計(jì)如表1。

從表1中的數(shù)據(jù)可以得出水印嵌入容量為9.75%,高于文獻(xiàn)[3]的算法。與文獻(xiàn)[4]進(jìn)行魯棒性比較的結(jié)果如表2,從表中可以看出在實(shí)現(xiàn)比較容易的情況下,本文的方法在魯棒性方面不弱于已經(jīng)獲得廣泛認(rèn)同的基于TMR樹(shù)的方法。

表1 實(shí)驗(yàn)文本中副詞格變換的統(tǒng)計(jì)Tab.1 statistics of adverbs exchanging in texts

表2 與其他算法魯棒性比較Tab.2 robustness comparison with other algorithms

4 結(jié)論

本文提出一種基于中文文本的句子層分析的信息隱藏方法,其特點(diǎn)是利用文本中大量存在的SBV?ADV結(jié)構(gòu),而對(duì)ADV結(jié)構(gòu)中的副詞進(jìn)行合理的替換和增刪通常對(duì)文本含義的表達(dá)不會(huì)產(chǎn)生較大的影響,這樣就可以實(shí)現(xiàn)將信息嵌入到文本中的目的。實(shí)驗(yàn)結(jié)果表明本算法具有較好的魯棒性和較大的水印容量。

[1]姜傳賢,陳孝威.基于文本重要內(nèi)容的魯棒水印算法[J].自動(dòng)化學(xué)報(bào),2010,9(9):1250-1256.

[2]孫星明,殷建平,陳火旺,等.漢字的數(shù)學(xué)表達(dá)式研究[J].計(jì)算機(jī)研究與發(fā)展,2002,9(6):707-711.

[3]Gupta G,Pieprzyk J,Wang H X.An attack-localizing watermarking scheme for natural language documents[A].Proceedings of the ACM Symposium on Information,Computer and Communications Security[C].Taipei,2006:157-165.

[4]Atallah M J,Raskin V,Crogan.Metal Natural language watermarking:Design,Analysis and Proof-of-Concept Implementation[A].Proc of the 4th Information Hiding Workshop[C].Pittsburgh,2001:193-208.

猜你喜歡
魯棒性語(yǔ)氣副詞
注意說(shuō)話的語(yǔ)氣
The Wheels on the Bus
明知故問(wèn),加強(qiáng)語(yǔ)氣
新編《小老鼠上燈臺(tái)》
副詞“好容易”及其詞匯化成因
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
注意說(shuō)話的語(yǔ)氣
基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
迁安市| 木里| 平罗县| 莫力| 新津县| 白山市| 岱山县| 志丹县| 鸡西市| 西充县| 乌兰浩特市| 陇西县| 天全县| 英吉沙县| 伊川县| 炎陵县| 上思县| 曲水县| 绥江县| 中山市| 鄂州市| 高要市| 邵阳县| 石城县| 大庆市| 石河子市| 曲阳县| 宁晋县| 惠水县| 舞钢市| 平乡县| 宜丰县| 商洛市| 汤原县| 威远县| 开鲁县| 陆丰市| 大荔县| 碌曲县| 城市| 聂拉木县|