国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于結(jié)構(gòu)化學(xué)習(xí)的語(yǔ)句壓縮研究

2013-10-15 01:38:12張永磊王紅玲周國(guó)棟
中文信息學(xué)報(bào) 2013年2期
關(guān)鍵詞:文法評(píng)測(cè)語(yǔ)料

張永磊,王紅玲,周國(guó)棟

(蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州215006;蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州215006)

1 引言

隨著網(wǎng)絡(luò)的普及,我們每天接觸的信息越來(lái)越多;如何能夠在有限的時(shí)間內(nèi)掌握更多有用的信息越來(lái)越引起人們的關(guān)注。文檔的自動(dòng)摘要作為目前的熱門研究課題,是解決這一問(wèn)題的有效途徑之一。而作為自動(dòng)摘要的重要組成部分,語(yǔ)句壓縮除了應(yīng)用于自動(dòng)文摘外,在其他方面也有較廣泛的應(yīng)用。例如,Corston-Oliver[1]將文本壓縮后顯示在 PDA、手機(jī)等設(shè)備的小屏幕上。Vandeghinste&Pan[2]則在刪除冗余的和非重要信息的同時(shí)保留話題主要論點(diǎn),從而生成對(duì)話標(biāo)題。語(yǔ)句壓縮的另一個(gè)較早的應(yīng)用是使用在盲人語(yǔ)音閱讀設(shè)備上[3],文本經(jīng)過(guò)壓縮后再使用語(yǔ)音機(jī)器加快閱讀速度,使得盲人的閱讀方式類似于正常人的快速閱讀方式。

語(yǔ)句壓縮廣義上可以定義為:給定一個(gè)句子,生成對(duì)應(yīng)的一個(gè)句子,生成的句子滿足以下三個(gè)條件:比源語(yǔ)句短;保留源語(yǔ)句的重要信息;符合語(yǔ)法規(guī)范。在先前的工作中,人們主要采用刪除單詞、插入單詞、改變?cè)~序、替換單詞等方法進(jìn)行語(yǔ)句壓縮。其中刪除單詞法是目前大多數(shù)系統(tǒng)采用的方法,如Knight&Marcu[4],Riezler等[5],Mc Donal d[6]等,即只考慮從源語(yǔ)句中刪除單詞與短語(yǔ),這也是本文所采用的方法。在這個(gè)方法中,語(yǔ)句壓縮可被定義為生成源語(yǔ)句x=l1,l2,……,ln的一個(gè)子串y*=c1,c2,……,cm的過(guò)程,其中,ci∈{l1,l2,……,ln};假設(shè)F(ci)表示ci在源語(yǔ)句中對(duì)應(yīng)單詞的序號(hào),則F(ci)<F(ci+1),即在語(yǔ)句壓縮的過(guò)程中不改變?cè)~的順序。

目前針對(duì)語(yǔ)句壓縮的研究才剛剛開(kāi)展,存在著壓縮結(jié)果不盡如人意、缺乏統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)等問(wèn)題。本文將語(yǔ)句壓縮看成一個(gè)結(jié)構(gòu)化學(xué)習(xí)的過(guò)程,即在源語(yǔ)句的句法樹(shù)上學(xué)習(xí)一棵子樹(shù)作為其壓縮后的語(yǔ)句(見(jiàn)圖1)。同時(shí),本文還提出了兩種自動(dòng)評(píng)測(cè)指標(biāo)來(lái)評(píng)價(jià)壓縮結(jié)果。

圖1 語(yǔ)句壓縮實(shí)例

本文的主要內(nèi)容如下:第2節(jié)是相關(guān)工作的介紹,介紹了在基于單詞刪除框架下的語(yǔ)句壓縮的方法及其不足;第3節(jié)是結(jié)構(gòu)化學(xué)習(xí)方法的相關(guān)介紹;第4節(jié)是我們的主要工作,在這一部分我們主要介紹解碼方式、丟失函數(shù)、特征的選擇以及我們采用的評(píng)測(cè)方法;第5節(jié)實(shí)驗(yàn)與評(píng)測(cè)結(jié)果;第6節(jié)結(jié)論與未來(lái)工作。

2 相關(guān)工作

在語(yǔ)句壓縮研究中,Knight&Marcu[4]的貢獻(xiàn)是具有開(kāi)創(chuàng)性的,他們首次將噪音信道模型和決策樹(shù)模型用于語(yǔ)句壓縮中,并提出了后來(lái)被廣泛使用的評(píng)測(cè)指標(biāo):I mportance(重要性)、Gra mmaticality(語(yǔ)法符合度)和Co mpression Ratio(壓縮率)。在其使用的噪音信道模型中,通過(guò)最大化目標(biāo)語(yǔ)句的條件概率查找最優(yōu)的目標(biāo)語(yǔ)句。該方法的效果很好,但仍存在一些缺點(diǎn):第一,該模型中用于表示目標(biāo)語(yǔ)句生成概率的原模型,是使用未壓縮的語(yǔ)句訓(xùn)練得到,因此造成了數(shù)據(jù)的不準(zhǔn)確;第二,訓(xùn)練信道模型需要將源語(yǔ)句句法樹(shù)與目標(biāo)語(yǔ)句句法樹(shù)對(duì)齊,由于句法分析器的可靠性等問(wèn)題會(huì)導(dǎo)致源語(yǔ)句與目標(biāo)語(yǔ)句句法樹(shù)中有大量的錯(cuò)誤,這使得句法樹(shù)的對(duì)齊非常困難,最終導(dǎo)致信道模型概率的可靠性降低。

Knight和Marcu[4]提出的另一種決策樹(shù)模型是通過(guò)學(xué)習(xí)源語(yǔ)句的句法樹(shù)轉(zhuǎn)換成目標(biāo)語(yǔ)句的句法樹(shù)的決策過(guò)程。在該過(guò)程中定義了四種操作:SHIFT(將當(dāng)前輸入隊(duì)列的隊(duì)首單詞移到棧中)、REDUCE(移除棧首的k個(gè)句法樹(shù),并聯(lián)合生成一個(gè)新的句法樹(shù),并將其重新放入棧中;在這里是用于生成目標(biāo)語(yǔ)句的句法樹(shù))、DROP(從輸入列表中對(duì)應(yīng)句法成分的詞的子序列中刪除)、ASSIGNTYPE(修改棧頂句法樹(shù)的標(biāo)簽,如詞在源語(yǔ)句中的詞性與在目標(biāo)語(yǔ)句中的詞性不同)。壓縮以一個(gè)空棧和一個(gè)由源語(yǔ)句的句法樹(shù)組成的輸入隊(duì)列開(kāi)始,基于棧中保留的成分與單詞和已經(jīng)生成的部分的目標(biāo)語(yǔ)句的特征,進(jìn)行學(xué)習(xí)什么時(shí)候該使用哪個(gè)操作。該方法避免了噪音信道模型中句法樹(shù)對(duì)齊帶來(lái)的不可靠性,但是,該方法僅使用保留節(jié)點(diǎn)與刪除節(jié)點(diǎn)的句法特征,沒(méi)有使用詞與詞性層的二元或三元文法等特征,所以,該模型會(huì)生成短而不符合語(yǔ)法的目標(biāo)語(yǔ)句。

Mc Donal d[6]抽取了詞、詞性、句法結(jié)構(gòu)信息等特征,使用最大邊緣學(xué)習(xí)算法學(xué)習(xí)每個(gè)特征的權(quán)重,最后查找目標(biāo)語(yǔ)句集中最優(yōu)目標(biāo)語(yǔ)句。Mc Donald的工作取得了非常好的評(píng)測(cè)效果。我們對(duì)其研究做進(jìn)一步的分析后發(fā)現(xiàn),采用二元文法丟失函數(shù)的效果比采用一元文法的好。

3 結(jié)構(gòu)化學(xué)習(xí)方法

對(duì)于結(jié)構(gòu)化學(xué)習(xí)的問(wèn)題,通常可以使用在線學(xué)習(xí)算法解決,如感知器、MIRA(mar gin-inf used relaxed algorith m)、Str uctured SV M 等。本文使用Str uct ured SV M,即支持結(jié)構(gòu)化輸出的支持向量機(jī)學(xué)習(xí)算法[7]。Str uctured SV M支持自定義丟失函數(shù),這也是它對(duì)語(yǔ)句壓縮和其他文本生成問(wèn)題最大的吸引力。

傳統(tǒng)的SV M是通過(guò)學(xué)習(xí)一個(gè)最大超平面將二元或多元分類問(wèn)題分割開(kāi);同樣,對(duì)于Str uctured SV M也是通過(guò)學(xué)習(xí)一個(gè)最大超平面將正確的結(jié)構(gòu)與其他結(jié)構(gòu)分割開(kāi)。該學(xué)習(xí)算法的目標(biāo)函數(shù)如式(1):

其中,ξi是訓(xùn)練語(yǔ)料中的實(shí)例對(duì)(xi,y)對(duì)應(yīng)的松弛變量,C為常量,y*是實(shí)例xi的標(biāo)準(zhǔn)目標(biāo)語(yǔ)句,l(yi,y*)是預(yù)測(cè)目標(biāo)yi與標(biāo)準(zhǔn)結(jié)果y*相比的丟失值。

訓(xùn)練過(guò)程中,主要就是查找目標(biāo)集合中具有較高得分和較大的丟失值的目標(biāo)語(yǔ)句,即查詢以下兩個(gè)函數(shù)任意一個(gè)的最大值:

其中,下標(biāo)sl ack表明訓(xùn)練過(guò)程中重定位松弛變量ξ,mar gin表示訓(xùn)練過(guò)程中重定位最大邊緣。對(duì)于任意實(shí)例,當(dāng)w特定時(shí),wTf(y*,xi)為定值,所以式(2)可化簡(jiǎn)為式(3)形式:

Tsochantaridis[7]分別使用了這兩種函數(shù)進(jìn)行實(shí)驗(yàn),得到的結(jié)果性能相差并不大。因此在本文實(shí)驗(yàn)中,采用函數(shù)。另外,通過(guò)式(3)我們發(fā)現(xiàn)對(duì)于查找目標(biāo)函數(shù)的最優(yōu)值,可以通過(guò)擴(kuò)展解碼函數(shù)來(lái)實(shí)現(xiàn),即在解碼過(guò)程中增加丟失函數(shù)值。

對(duì)于目標(biāo)函數(shù)(1)的優(yōu)化問(wèn)題,Tsochantaridis提出的算法大大降低了時(shí)間復(fù)雜度。該算法在每一輪迭代的過(guò)程中僅增加當(dāng)前最大違反規(guī)則的限制條件,即當(dāng)前實(shí)例的解碼空間中與標(biāo)準(zhǔn)目標(biāo)語(yǔ)句相比具有最高的得分與丟失值之和。

4 基于結(jié)構(gòu)化學(xué)習(xí)的語(yǔ)句壓縮

本文所采用方法的系統(tǒng)框架如圖2所示。在此,我們將語(yǔ)句壓縮看作是基于特征權(quán)重的最大邊緣訓(xùn)練過(guò)程,即結(jié)構(gòu)化學(xué)習(xí)過(guò)程。在實(shí)驗(yàn)中我們主要抽取了源語(yǔ)句x轉(zhuǎn)換為目標(biāo)語(yǔ)句y的相關(guān)特征,因此使用f(y,x)表示特征函數(shù)。這樣解碼就是一個(gè)求解線性最優(yōu)問(wèn)題,如式(4)所示。

其中,Y是x的解碼空間集,y為解碼空間集中的最優(yōu)目標(biāo)語(yǔ)句,w為特征權(quán)重。

圖2 基于結(jié)構(gòu)化學(xué)習(xí)的語(yǔ)句壓縮方法框架

4.1 解碼

根據(jù)上面的介紹解碼問(wèn)題是一個(gè)線性規(guī)劃問(wèn)題。但是對(duì)于語(yǔ)句壓縮問(wèn)題的解碼空間非常大,假設(shè)源語(yǔ)句x有n個(gè)單詞,則它的目標(biāo)語(yǔ)句集有2n個(gè)元素,隨著單詞數(shù)的增加,解碼空間成指數(shù)級(jí)增長(zhǎng);算法1:解碼算法在這樣大的解碼空間中,查找最優(yōu)的目標(biāo),時(shí)間復(fù)雜度非常大,所以本文采用Mc Donald使用的簡(jiǎn)化的解碼方法,具體算法如算法1,該算法的時(shí)間復(fù)雜度為O(n3)。在此算法中我們可以通過(guò)限定查找過(guò)程中變量len(即目標(biāo)語(yǔ)句長(zhǎng)度)的上限來(lái)限定壓縮率的上限,則算法的時(shí)間復(fù)雜度為O(n2×len)。

4.2 丟失函數(shù)

0-1丟失函數(shù)是最簡(jiǎn)單的丟失函數(shù),即當(dāng)預(yù)測(cè)語(yǔ)句與標(biāo)準(zhǔn)目標(biāo)語(yǔ)句不同時(shí)為1,相同時(shí)為0,但是這種簡(jiǎn)單的丟失函數(shù)無(wú)法明確表示預(yù)測(cè)語(yǔ)句與標(biāo)準(zhǔn)目標(biāo)語(yǔ)句的差異性大小。在實(shí)驗(yàn)中我們分別測(cè)試了基于單詞丟失比例以及二元文法丟失比例的丟失函數(shù),結(jié)果表明二元文法丟失具有較好的性能,二元文法丟失函數(shù)在實(shí)驗(yàn)中定義如式(6):

其中,|B(y)|為語(yǔ)句y的二元文法,Max為求兩個(gè)數(shù)中的最大數(shù)。

實(shí)驗(yàn)過(guò)程中,我們也測(cè)試了 Mc Donal d[6]所采用的丟失函數(shù),即以預(yù)測(cè)出的語(yǔ)句與標(biāo)準(zhǔn)目標(biāo)語(yǔ)句之間錯(cuò)誤刪除的單詞數(shù)與錯(cuò)誤保留的單詞數(shù)的和為丟失函數(shù)。結(jié)果表明,采用該丟失函數(shù)的效果比采用的二元文法丟失的效果差,因此,在以后的實(shí)驗(yàn)中我們均默認(rèn)使用二元文法丟失函數(shù)。

4.3 特征集

由于目前針對(duì)語(yǔ)句壓縮還沒(méi)有大規(guī)模的人工標(biāo)注語(yǔ)料,所以選擇合適的特征空間非常困難。經(jīng)過(guò)反復(fù)的測(cè)試與對(duì)比,我們最終抽取了詞和句法兩方面的特征(表1)。在以后的工作中我們還將進(jìn)一步對(duì)特征空間的選擇進(jìn)行研究。

4.3.1 詞特征

實(shí)驗(yàn)中我們主要使用的詞特征有:保留的單詞的詞性二元文法(DT&NN、NN&VBD等)、保留單詞是否為停用詞(Is Stop(t he)=1)、刪除單詞為動(dòng)詞、刪除單詞是否為源語(yǔ)句的中心詞等。

實(shí)驗(yàn)中我們發(fā)現(xiàn)詞匯級(jí)特征很容易導(dǎo)致數(shù)據(jù)稀疏和過(guò)度擬合問(wèn)題,所以在實(shí)驗(yàn)中很少使用詞匯特征,主要使用詞性級(jí)特征。

4.3.2 句法特征

詞特征不包含詞在語(yǔ)句中的特征,如刪除從句中的動(dòng)詞與主謂語(yǔ)動(dòng)詞是不一樣的,因此這些信息起到了重要作用,所以我們提取了詞在句子結(jié)構(gòu)中的相關(guān)特征。

句法結(jié)構(gòu)是自然語(yǔ)言處理中非常重要的信息,對(duì)于語(yǔ)句壓縮句法結(jié)構(gòu)信息有很大的指導(dǎo)性,這也是我們將語(yǔ)句壓縮看做句法樹(shù)的剪枝操作的原因。首先加入的是刪除邊的信息(如:NP——PP)指示當(dāng)前節(jié)點(diǎn)被刪除及其父節(jié)點(diǎn)的標(biāo)簽。在通過(guò)分析語(yǔ)料后,我們發(fā)現(xiàn)大量的從句以及介詞短語(yǔ)會(huì)被刪除,所以又加入了被刪除的SBAR節(jié)點(diǎn)與其中心詞詞性的聯(lián)合信息(如:SBAR&WP)、被刪除的PP節(jié)點(diǎn)與其中心詞詞性的聯(lián)合信息(如:PP&IN)兩類特征。最后加入了被刪除的節(jié)點(diǎn)與其父節(jié)點(diǎn)的結(jié)構(gòu)框架(如圖1中的實(shí)例:對(duì)于PP節(jié)點(diǎn)NP(NP,PP-D))等特征。

表1 特征表(以圖1為例說(shuō)明)

4.4 評(píng)測(cè)指標(biāo)

到目前為止,對(duì)于語(yǔ)句壓縮性能的評(píng)價(jià),大都采用人工評(píng)測(cè)指標(biāo),還沒(méi)有較好的自動(dòng)評(píng)測(cè)指標(biāo)。盡管人工評(píng)測(cè)具有較準(zhǔn)確、可靠的優(yōu)勢(shì),但也存在以下缺陷:首先,測(cè)試語(yǔ)料較大時(shí),人工評(píng)測(cè)的工作量很大,測(cè)試語(yǔ)料較小時(shí),人工評(píng)測(cè)的可信度較??;其次,人工評(píng)測(cè)的主觀性較大,不同評(píng)測(cè)人員的評(píng)測(cè)結(jié)果沒(méi)有比較意義。因此,本文提出了兩種自動(dòng)評(píng)測(cè)方案,以彌補(bǔ)人工評(píng)測(cè)的不足。而本文的實(shí)驗(yàn)結(jié)果最終采用了人工評(píng)測(cè)與自動(dòng)評(píng)測(cè)結(jié)合的方式進(jìn)行評(píng)測(cè)。

4.4.1 人工評(píng)測(cè)指標(biāo)

在之前的工作中,語(yǔ)句壓縮主要采用以下人工評(píng)測(cè)指標(biāo)進(jìn)行評(píng)測(cè):

·Importance:壓縮語(yǔ)句保留源語(yǔ)句重要信息度。

·Grammaticality:壓縮語(yǔ)句的語(yǔ)法結(jié)構(gòu)。

通常使用5分制給壓縮后的目標(biāo)語(yǔ)句的Importance和Grammaticality評(píng)分,最后統(tǒng)計(jì)分析。

4.4.2 自動(dòng)評(píng)測(cè)指標(biāo)

根據(jù)以上語(yǔ)句壓縮的定義可知,語(yǔ)句壓縮的性能主要是需要評(píng)測(cè)目標(biāo)語(yǔ)句是否符合語(yǔ)法、保留源語(yǔ)句中重要信息度和壓縮率等。所以,在我們的實(shí)驗(yàn)中又采用了以下的自動(dòng)評(píng)測(cè)指標(biāo):

·壓縮率:即源語(yǔ)句中單詞在目標(biāo)語(yǔ)句中保留的比例。壓縮率是語(yǔ)句壓縮目前唯一公認(rèn)的自動(dòng)評(píng)測(cè)標(biāo)準(zhǔn),具有可對(duì)比性。但是,我們不能一味的追求高效的壓縮率,通常壓縮率越低,目標(biāo)語(yǔ)句所包含的信息量會(huì)越少。目前,大多數(shù)的壓縮系統(tǒng)的壓縮率都是在60%左右。在我們的工作中,對(duì)壓縮率的要求是達(dá)到人工壓縮的同等水平,然后再追求其他評(píng)測(cè)標(biāo)準(zhǔn)較好的效果。

·N-Gram文法:即目標(biāo)語(yǔ)句的N-Gram文法值。語(yǔ)言模型是自然語(yǔ)言處理的重要模型,應(yīng)用非常廣泛。在之前的工作中,有的將N-Gram文法值作為語(yǔ)句壓縮的特征,在這里,我們使用N-Gram文法作為評(píng)測(cè)語(yǔ)句壓縮的一個(gè)評(píng)測(cè)指標(biāo)。由于NGram模型的構(gòu)造需要大量的數(shù)據(jù),所以,我們沒(méi)有自己構(gòu)造N-Gram模型,而是使用微軟公司提供的N-Gra m網(wǎng)絡(luò)服務(wù)接口①http://research.microsoft.com/en-us/collaboration/f ocus/cs/web-ngram.aspx。實(shí)驗(yàn)中我們統(tǒng)計(jì)了四元文法值,該項(xiàng)評(píng)測(cè)指標(biāo)值越低表明目標(biāo)語(yǔ)句的文法越好。

·BLEU(相似度):即目標(biāo)語(yǔ)句與標(biāo)準(zhǔn)目標(biāo)語(yǔ)句的相似程度。BLEU是機(jī)器翻譯中最基本的評(píng)測(cè)指標(biāo)。由于我們的語(yǔ)句壓縮僅作單詞刪除操作,所以,可以使用BLEU進(jìn)行評(píng)測(cè)。在實(shí)驗(yàn)中,我們使用BLEU進(jìn)行相似度比較,計(jì)算到四元文法,該項(xiàng)指標(biāo)值越大表明目標(biāo)語(yǔ)句與標(biāo)準(zhǔn)目標(biāo)語(yǔ)句越接近,即值越大性能越好。

在Cohn[8]的工作中還采用了丟失函數(shù)值作為自動(dòng)評(píng)測(cè)指標(biāo),本文使用的丟失函數(shù)是基于詞的二元文法丟失,在我們使用BLEU評(píng)測(cè)指標(biāo)中已經(jīng)使用了二元文法,所以,在自動(dòng)評(píng)測(cè)中不再使用丟失函數(shù)作為評(píng)測(cè)指標(biāo)。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中,我們使用的是愛(ài)丁堡大學(xué)的written平行語(yǔ)料,該語(yǔ)料來(lái)自于82個(gè)文件包含了1622組平行語(yǔ)句,且該語(yǔ)料僅進(jìn)行單詞刪除,其中1250組語(yǔ)句用作訓(xùn)練語(yǔ)料,70組語(yǔ)句用作開(kāi)發(fā)語(yǔ)料,302組語(yǔ)句用作測(cè)試語(yǔ)料。根據(jù)前文的介紹,我們首先需要對(duì)語(yǔ)料中的源語(yǔ)句集進(jìn)行句法分析,使用的句法分析器是來(lái)自于斯坦福大學(xué)的開(kāi)源工具Stanf or d-Parser②htt p://nlp.stanfor d.edu/soft ware/lex-parser.sht ml。在對(duì)平行語(yǔ)料做單詞對(duì)齊時(shí),實(shí)驗(yàn)中我們使用的是自己編寫的詞對(duì)齊代碼,當(dāng)然也可以使用Giza++、Ber keley Aligner等工具(我們的初步實(shí)驗(yàn)發(fā)現(xiàn),Giza++、Ber keley Aligner工具在做相同語(yǔ)言的單詞對(duì)齊時(shí)效果并不是很好)。

經(jīng)過(guò)以上處理后,我們使用SV Mstruct③htt p://download.joachi ms.or g/sv m_str uct/current/sv m_str uct.tar.gz工具學(xué)習(xí)特征權(quán)重,本文在訓(xùn)練過(guò)程中,將收斂性ε設(shè)置為10-4。

5.2 基準(zhǔn)系統(tǒng)

在實(shí)驗(yàn)中,我們建立了一個(gè)簡(jiǎn)單的基于規(guī)則的語(yǔ)句壓縮系統(tǒng)作為基準(zhǔn)系統(tǒng)(Baseline),用于和基于結(jié)構(gòu)化學(xué)習(xí)方法的語(yǔ)句壓縮進(jìn)行效果對(duì)比。在這里,我們也是采用在成分句法樹(shù)上做剪枝操作,主要用到以下簡(jiǎn)單的規(guī)則:(1)對(duì)于引用語(yǔ)從句只保留引用語(yǔ);(2)刪除表示時(shí)間地點(diǎn)等的狀語(yǔ)從句;(3)刪除部分介詞短語(yǔ);(4)刪除名詞的修飾語(yǔ)(包括定語(yǔ)從句、介詞短語(yǔ)等);(5)刪除插入語(yǔ)等(如表2中實(shí)例,這些實(shí)例都是從測(cè)試語(yǔ)料中抽取的)。這些規(guī)則都是我們通過(guò)觀察大量語(yǔ)句的實(shí)例得來(lái)的,需要說(shuō)明的是,這些實(shí)例不是來(lái)自于本文采用的實(shí)驗(yàn)語(yǔ)料written平行語(yǔ)料,而是來(lái)自于TAC2008中的語(yǔ)句,這是為了能夠分析基于規(guī)則系統(tǒng)的規(guī)則是否具有普遍適用性。

表2 測(cè)試語(yǔ)料實(shí)例

基于規(guī)則的語(yǔ)句壓縮對(duì)于特定的領(lǐng)域具有較強(qiáng)的適應(yīng)性,但是它存在很多缺點(diǎn):(1)規(guī)則歸納不方便;(2)規(guī)則的普遍適用性較差;(3)自然語(yǔ)言非常靈活且時(shí)刻在發(fā)展,規(guī)則通常無(wú)法適應(yīng)新的語(yǔ)言特征;(4)可歸納的規(guī)則非常多;(5)不同領(lǐng)域?qū)φZ(yǔ)句壓縮要求不同等。

5.3 實(shí)驗(yàn)結(jié)果分析

表3和表4分別是我們實(shí)驗(yàn)的人工評(píng)測(cè)和自動(dòng)評(píng)測(cè)結(jié)果。表中,Baseline表示基準(zhǔn)系統(tǒng)的結(jié)果;Str uct ured SV M表示的是基于結(jié)構(gòu)化學(xué)習(xí)系統(tǒng)的結(jié)果;Golden項(xiàng)表示人工標(biāo)注結(jié)果,即標(biāo)準(zhǔn)結(jié)果。CR表示壓縮率,N-Gram表示4-gra m得分,BLEU表示四元文法相似度。

表3 人工評(píng)測(cè)結(jié)果

表4 自動(dòng)評(píng)測(cè)結(jié)果

仔細(xì)分析表3和表4的評(píng)測(cè)結(jié)果,我們可以發(fā)現(xiàn):

(1)從表3可知,基于規(guī)則方法的結(jié)果在語(yǔ)法結(jié)構(gòu)方面能夠有較好的效果,原因是規(guī)則由人工制定,大多來(lái)自對(duì)語(yǔ)句句法結(jié)構(gòu)的人工分析,因此使用規(guī)則基本不會(huì)破壞句子本身的語(yǔ)法結(jié)構(gòu)。

(2)從表3可知,基于結(jié)構(gòu)化方法的結(jié)果在句法結(jié)構(gòu)上效果較差,但在信息度的保留上具有較好的結(jié)果,優(yōu)于使用規(guī)則的方法。

(3)從表4的N-Gram項(xiàng)可以看出基于規(guī)則的方法在文法值上有很好的效果,優(yōu)于其他兩個(gè)結(jié)果,甚至比標(biāo)準(zhǔn)結(jié)果還好。這與人工評(píng)測(cè)中(表3的Grammaticality項(xiàng))的結(jié)論是一致的。

(4)從表4的BLEU項(xiàng)可以看到基于結(jié)構(gòu)化方法的相似度值較高,本文認(rèn)為標(biāo)準(zhǔn)目標(biāo)語(yǔ)句保留了源語(yǔ)句的主要信息,則基于結(jié)構(gòu)化方法的相似度評(píng)測(cè)較高時(shí),其信息度也較高,這與表3中I mportance指標(biāo)完全一致,所以,BLEU在我們的實(shí)驗(yàn)框架中可以評(píng)測(cè)信息的保留度。

(5)從表3、表4的各項(xiàng)評(píng)測(cè)結(jié)果可以發(fā)現(xiàn),基于結(jié)構(gòu)化方法在保持較好壓縮率的情況下能夠保留源語(yǔ)句的主要信息。

由以上分析可知,在我們的實(shí)驗(yàn)框架下,基于結(jié)構(gòu)化方法相對(duì)于規(guī)則方法而言有較優(yōu)的性能。其次,實(shí)驗(yàn)結(jié)果也證明了使用N元文法和BLEU相似度等自動(dòng)評(píng)測(cè)指標(biāo),可以有效地對(duì)語(yǔ)句壓縮結(jié)果進(jìn)行評(píng)測(cè)。

6 結(jié)論與展望

本文將語(yǔ)句壓縮看作是基于特征權(quán)重的最大邊緣訓(xùn)練過(guò)程,使用基于結(jié)構(gòu)化學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)語(yǔ)句壓縮,該方法是在一種最普遍易行的基于單詞刪除的語(yǔ)句壓縮框架下。在該框架下,本文還提出了兩個(gè)自動(dòng)評(píng)測(cè)指標(biāo)(BLEU、N-Gram)對(duì)結(jié)果進(jìn)行評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明,采用結(jié)構(gòu)化學(xué)習(xí)的方法進(jìn)行語(yǔ)句壓縮,能在保持較好的壓縮率的情況下保留源語(yǔ)句的主要信息,且提出的兩個(gè)評(píng)價(jià)指標(biāo)能夠有效反映語(yǔ)句壓縮性能。

在我們的工作中,由于使用的特征集合比較小而且也是最簡(jiǎn)單的,這限制了語(yǔ)句壓縮性能的提高。在下一步工作中,我們將進(jìn)一步探討語(yǔ)句壓縮的特征工程,同時(shí)也將進(jìn)一步思考更好的自動(dòng)評(píng)測(cè)指標(biāo)等。

[1]Corston-Oliver,Si mon.Text Co mpaction f or Display on Very Small Screens [C]//Pr oceedings of the NAACL Wor kshop on Auto matic Su mmarization.Pittsburgh,PA,2001:89-98.

[2]Vandeghinste V,Pan Y.Sentence co mpression for auto mated subtitling:a hybrid approach[C]//Marie-Francine Moens,S.S.(Ed.).Text Su mmarization Branches Out:Proceedings of the ACL-04 Wor kshop,Barcelona,Spain,2004:89-95.

[3]Grefenstette G.Producing Intelligent Telegraphic Text Reduction to Provide an Audio Scanning Service for the Blind[C]//Hovy,E.,&Radev,D.R.(Eds.),Proceedings of the AAAI Sy mposium on Intelligent Text Su mmarization,Stanf ord,CA,USA,1998:111-117.

[4]Knight K,Marcu D.Summarization beyond sentence extraction:a probabilistic approach to sentence compression[J].Artificial Intelligence,2002,139(1):91-107.

[5]Riezler S,King T H,Cr ouch R,et al.Statistical sentence condensation using ambiguity packing and stochastic disambiguation methods f or lexical-f unctional grammar[C]//Hu man Language Technology Conference and the 3r d Meeting of the Nort h American Chapter of t he Association f or Co mputational Linguistics,Ed monton,Canada,2003:118-125.

[6]Mc Donald R. Discri minative sentence compression with soft syntactic constraints[C]//Proceedings of the 11th Conference of the European Chapter of the Association f or Computational Linguistics,Trento,Italy,2006:297-309.

[7]Tsochantaridis I,Joachi ms T,Hof mann T,et al.Lar ge margin met hods for str uctured and inter dependent output variables[J].Journal of Machine Learning Research,2005,6:1453-1484.

[8]T Cohn,M Lapata.Sentence Compression as Tree Transduction[J].Jour nal of Artificial Intelligence Research,2009,34:637-674.

[9]江敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5):84-89.

猜你喜歡
文法評(píng)測(cè)語(yǔ)料
次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
關(guān)于1940 年尼瑪抄寫的《托忒文文法》手抄本
攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
文法有道,為作文注入音樂(lè)美
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
黄大仙区| 芜湖县| 杭锦旗| 长丰县| 武夷山市| 昌平区| 巩留县| 犍为县| 东乡县| 杭锦后旗| 资中县| 霍林郭勒市| 凤翔县| 博野县| 永济市| 长宁县| 临潭县| 同江市| 布尔津县| 萨嘎县| 岗巴县| 衡南县| 德安县| 肃宁县| 兴义市| 宜黄县| 吉林市| 阿瓦提县| 夏邑县| 乌鲁木齐市| 汉中市| 呈贡县| 泰来县| 隆尧县| 毕节市| 宜兴市| 宣恩县| 乐至县| 渝中区| 宁明县| 桑日县|