国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樹核函數(shù)的中文語義角色分類研究

2011-06-14 03:34吳方磊李軍輝朱巧明李培峰
中文信息學(xué)報(bào) 2011年3期
關(guān)鍵詞:論元謂詞語義

吳方磊,李軍輝,朱巧明,李培峰

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

1 引言

作為自然語言處理的一項(xiàng)研究重點(diǎn),語義角色標(biāo)注(Semantic Role Labeling, 簡(jiǎn)稱SRL)是一種淺層的語義分析,其任務(wù)是找出句子中謂詞的相應(yīng)語義角色成分,包括中心語義角色,如主語(Argent)、賓語(Patient)、工具(Instrument)等,和附屬語義角色,如地點(diǎn)(Locative)、時(shí)間(Temporal)、方式(Manner)、原因(Cause)等。語義角色標(biāo)注已廣泛應(yīng)用于信息抽取、自動(dòng)問答 、機(jī)器翻譯、信息檢索、自動(dòng)文摘等領(lǐng)域,具有廣泛的前景。目前大多數(shù)語義角色標(biāo)注的研究都基于特征向量的方法,探索了各類詞法特征、句法特征及語義特征在語義角色標(biāo)注中的應(yīng)用,取得了較好的效果。代表工作包括: Gildea等[1]、Xue等[2]、Pradhan等[3]、劉挺等[4]、劉懷軍等[5]、丁金濤等[6]、李軍輝等[7]。然而該方法存在著一些明顯的局限性,包括: (1)特征需要人工的選擇和定義,哪些結(jié)構(gòu)化信息是有效的以及如何在具體研究中有效地體現(xiàn)結(jié)構(gòu)化的句法信息依然是懸而未決的問題;(2)將結(jié)構(gòu)化特征轉(zhuǎn)換為平面特征,通常僅僅反映了待標(biāo)注單元的局部信息,容易造成特征的稀疏,丟失一些重要的結(jié)構(gòu)化信息。

目前的一種研究趨勢(shì)是探索基于核函數(shù)的方法,與基于特征向量的方法不同,基于核函數(shù)的方法更能有效地反映全局信息和結(jié)構(gòu)化句法信息,不需要構(gòu)造高維特征向量空間,它將低維線性不可分問題映射到高維空間,使之成為線性可分問題。近年來,一些樹核函數(shù)已被陸續(xù)提出并應(yīng)用于自然語言處理,如卷積樹核函數(shù)、淺層樹核函數(shù)、依存樹核函數(shù)等,其應(yīng)用領(lǐng)域包括句法分析、語義角色標(biāo)注、實(shí)體語義關(guān)系抽取[8]、指代消解[9]等。早前的相關(guān)研究均表明,基于樹核函數(shù)的方法可以有效地減輕特征工程的負(fù)擔(dān)。

本文探索了樹核函數(shù)方法在中文語義角色標(biāo)注中的應(yīng)用。文章結(jié)構(gòu)組織如下: 第2節(jié)闡述了基于樹核函數(shù)的SRL的相關(guān)工作;第3節(jié)探索了基于樹核函數(shù)的中文語義角色分類,在基于謂詞—論元的最小句法樹結(jié)構(gòu)的基礎(chǔ)上,提出并比較了三種句法樹結(jié)構(gòu)的裁剪方法;第4節(jié)給出并分析實(shí)驗(yàn)結(jié)果;最后在第5總結(jié)全文,并對(duì)下一步工作進(jìn)行了展望。

2 相關(guān)工作

與基于特征向量方法的SRL相比,基于樹核函數(shù)方法的SRL研究相對(duì)較少。Moschitti[10]首次探索了基于核函數(shù)方法的SRL,將卷積樹核應(yīng)用于SRL,提出了PAF(Predicate Augument Feature)特征空間和SCF(Subcategorization Feature)特征空間,并在PAF特征空間上定義了PAK(Predicate Augument structure Kernel)核函數(shù),利用SVM在PropBank和FrameNet語料庫(kù)上分別進(jìn)行實(shí)驗(yàn),并與基于特征的方法進(jìn)行了比較。在Moschitti 基礎(chǔ)上,Che等[11]指出PAF 核不利于進(jìn)行語義角色標(biāo)注尤其是角色識(shí)別的問題,進(jìn)一步提出了一個(gè)混合卷積核函數(shù),該核將PAF核分解為路徑核和句法成分結(jié)構(gòu)核兩部分,在CoNLL Shared Task 2005 WSJ語料庫(kù)上的實(shí)驗(yàn)表明該混合核取得的性能優(yōu)于PAF核。Zhang等[12]考慮到標(biāo)準(zhǔn)的卷積樹核函數(shù)使用“硬匹配”,沒有考慮語言學(xué)知識(shí),這使得該方法不能處理相似的短語結(jié)構(gòu)(例如“buy a car”和“buy a red car”)以及相似的句標(biāo)記(例如“high/JJ degree/NN”和“higher/JJR degree/NN”)。在Che等的基礎(chǔ)上,提出了一種新的句法驅(qū)動(dòng)的卷積樹核,在核函數(shù)的設(shè)計(jì)過程中融入了語言學(xué)知識(shí),克服了以上問題,進(jìn)一步提高了基于核函數(shù)的SRL性能。在中文方面,車[13]在其博士論文中首次將混合卷積樹核與句法驅(qū)動(dòng)的卷積樹核應(yīng)用在中文語義角色標(biāo)注中,探索了核方法在中文SRL中的有效性。

基于樹核函數(shù)的方法存在兩個(gè)關(guān)鍵問題: 一是如何獲取句法分析樹中有效的結(jié)構(gòu)化信息特征,二是使用怎樣的核函數(shù)來比較兩個(gè)結(jié)構(gòu)化信息的相似度。盡管Che等和Zhang等在Moschitti的PAF核函數(shù)上提出了新的相似度計(jì)算函數(shù),但是他們對(duì)于句法分析樹中結(jié)構(gòu)化信息的選取仍然采用了Moschitti的PAF特征空間,本文重點(diǎn)研究結(jié)構(gòu)化信息對(duì)于語義角色分類的影響,深入探索了不同的樹核特征空間在中文SRL中的應(yīng)用。

3 基于樹核函數(shù)的中文語義角色分類

3.1 卷積樹核

卷積樹核函數(shù)最初由Collins[14]引入到自然語言處理領(lǐng)域,該方法是一種通過卷積的操作,將解析樹分解成子樹,然后先計(jì)算子樹之間的相似度,再根據(jù)各子樹相似度的結(jié)果來計(jì)算解析樹的相似度。例如有兩棵解析樹T1和T2,它們之間的相似度可由下列公式來計(jì)算:

(1)

其中,Nj是Tj的節(jié)點(diǎn)集合,Δ(n1,n2)計(jì)算以n1和n2為根的共同子樹個(gè)數(shù),可以按照下面遞歸的方法進(jìn)行計(jì)算:

(1) 如果n1和n2節(jié)點(diǎn)處的產(chǎn)生式不同, 則Δ(n1,n2)=0,否則轉(zhuǎn)向(2) ;

(2) 如果n1和n2子節(jié)點(diǎn)相同且都是葉子節(jié)點(diǎn), 則Δ(n1,n2)=λ,否則轉(zhuǎn)向(3);

(3) 重復(fù)計(jì)算Δ(n1,n2)如下:

(2)

其中#ch(n1) 是節(jié)點(diǎn)n1孩子節(jié)點(diǎn)的數(shù)目,ch(n,k)是節(jié)點(diǎn)n的第k個(gè)孩子節(jié)點(diǎn),λ(0<λ<1)是衰退因子,可以控制核函數(shù)的值不會(huì)隨著樹的規(guī)模增大而急劇變大。

3.2 樹核特征空間

所謂樹核特征空間,也就是前面提到的句法樹結(jié)構(gòu)化信息。Moschitti選擇只包含謂詞和論元的句法分析樹的子結(jié)構(gòu)作為謂詞-論元特征(PAF) 空間,并在PAF空間上定義了卷積樹核。與英文一樣,中文句法分析樹同樣具有謂詞—論元結(jié)構(gòu),圖1給出了一個(gè)中文句法分析樹的PAF結(jié)構(gòu)的例子。

圖1 謂詞—論元特征空間示例

基于樹核函數(shù)的方法以結(jié)構(gòu)樹為處理對(duì)象,通過直接計(jì)算兩個(gè)離散對(duì)象(如句法結(jié)構(gòu)樹)之間的相似度來計(jì)算兩實(shí)例之間的點(diǎn)積,這使得基于樹核函數(shù)的方法理論上可探索隱含的高維特征空間,從而可以有效地利用句法樹中的結(jié)構(gòu)化信息。在基于樹核函數(shù)的語義角色分類中,關(guān)鍵問題是如何表示謂詞及其論元之間的結(jié)構(gòu)化信息,即抽取句法樹中的哪些部分作為謂詞—論元的表達(dá)方式。為此,本文在Moschitti[10]定義的PAF空間的基礎(chǔ)上,根據(jù)謂詞-論元之間的關(guān)系,進(jìn)一步提出了三種句法結(jié)構(gòu)的擴(kuò)充與裁剪方法。以圖2.a的句法樹為例,假設(shè)當(dāng)前的謂詞為“VV/撤掉”,論元為“NP/全盟”,以上四種句法結(jié)構(gòu)分別描述為 (如圖2所示):

(1) 最小樹(Minimum Tree, MT): 也就是Moschitti定義的PAF空間(見圖2.b),連接謂詞和論元的各節(jié)點(diǎn)的最小子樹,作為本文的基礎(chǔ)特征空間。

(2) 完整擴(kuò)展樹(Full Extended Tree, FET): 在MT樹的基礎(chǔ)上,擴(kuò)充位于根節(jié)點(diǎn)以下,各葉子節(jié)點(diǎn)的父輩節(jié)點(diǎn)的孩子節(jié)點(diǎn),如果該孩子節(jié)點(diǎn)為葉子節(jié)點(diǎn)且不屬于當(dāng)前謂詞和論元,那么不予保留(如圖2.c所示)。

(3) 謂詞—論元關(guān)聯(lián)擴(kuò)展樹(Related-node Extended Tree, RET): 在FET樹的所有的擴(kuò)展節(jié)點(diǎn)中,只保留處于謂詞和論元路徑之間的節(jié)點(diǎn)(如圖2.d所示)。

(4) 謂詞部分?jǐn)U展樹(Predicate-part Extended Tree, PET ): 在FET樹的所有的擴(kuò)展節(jié)點(diǎn)中,只保留謂詞葉子節(jié)點(diǎn)的兄弟節(jié)點(diǎn)(如圖2.e所示)。

包含謂詞及其論元的子句法樹能夠提供豐富的結(jié)構(gòu)化信息應(yīng)用于語義角色的分類[10],那么選擇哪一種裁剪方法來提取句法結(jié)構(gòu)?如果使用較為完整的子樹,那么系統(tǒng)的開銷很大,并且包含很多噪音;如果節(jié)點(diǎn)被裁剪的過多,可能丟掉一些有用的信息。下面討論本文使用的幾種裁剪樹。

為了與Moschitti的工作進(jìn)行比較,本文使用PAF空間作為基礎(chǔ)特征空間,并定義為MT樹。MT樹是包含謂詞及其論元的最小生成子樹,相應(yīng)的節(jié)點(diǎn)最少,噪音也是最小的,但是在裁剪過程中被剪去很多重要的結(jié)構(gòu)化信息, 不利于語義角色分類。所以本文考慮修改MT樹裁剪算法,擴(kuò)充其結(jié)構(gòu)化信息量,提高分類的精度。

圖2 樹核特征空間示意圖

在MT樹的基礎(chǔ)上,擴(kuò)充位于根節(jié)點(diǎn)以下、葉子節(jié)點(diǎn)以上的每個(gè)節(jié)點(diǎn)的孩子節(jié)點(diǎn),為了使當(dāng)前需要標(biāo)注的論元與其他論元信息有所區(qū)別,如果該孩子節(jié)點(diǎn)為葉子節(jié)點(diǎn)且不屬于謂詞及其論元部分,那么則不需要保留,得到一個(gè)比較完整的信息擴(kuò)展樹FET。FET樹的信息量相對(duì)較全,但是同時(shí)也引入了很多噪音。卷積樹核函數(shù)是通過比較相同子樹來計(jì)算兩棵樹的相似度,兩棵樹越大,它們的相似性反而就越小。于是本文再考慮對(duì)FET樹進(jìn)行一些必要的剪枝策略。

在完整擴(kuò)展樹FET的基礎(chǔ)上,只保留謂詞與其論元路徑間的節(jié)點(diǎn),其余擴(kuò)充的節(jié)點(diǎn)均剪去,得到一棵RET樹。RET樹可以反映謂詞與其論元的間上下文環(huán)境信息,相比FET噪音減少。在FET樹的基礎(chǔ)上,只保留謂詞葉子節(jié)點(diǎn)的兄弟節(jié)點(diǎn),其余擴(kuò)充的節(jié)點(diǎn)均剪去,又得到一棵PET樹。PET樹對(duì)句法樹的中心詞(即謂詞)部分的信息作了補(bǔ)充,相比FET其噪音也較少。

3.3 多項(xiàng)式核與復(fù)合核

盡管基于特征向量的方法有明顯的局限性,但由于其效率和準(zhǔn)確率較高,仍然是目前最通用的語義角色標(biāo)注方法。為了便于與基于樹核函數(shù)的方法進(jìn)行比較,本文首先構(gòu)造了一個(gè)基于特征向量方法的語義角色分類系統(tǒng),使用多項(xiàng)式核對(duì)特征進(jìn)行多階組合(階數(shù)等于多項(xiàng)式的次數(shù))。特征的選取則按照Xue[15]的特征構(gòu)造方法。

卷積樹核只能獲取結(jié)構(gòu)化信息,而基本特征所表示的常規(guī)信息則需要通過基本核(本文中為二次多項(xiàng)式核)去捕捉。為了充分利用句法結(jié)構(gòu)化信息和平面特征信息,本文構(gòu)造了一個(gè)復(fù)合核:

KCOMP=δK1+(1-δ)K2

(3)

其中K1表示由結(jié)構(gòu)化信息所得的卷積樹核,K2表示由平面特征所得的基本核。δ取值為0<δ<1,通過改變?chǔ)牡闹?,可以調(diào)整樹核特征和基本核特征各自的貢獻(xiàn)度。本文在開發(fā)集上進(jìn)行實(shí)驗(yàn),當(dāng)δ為0.3時(shí),復(fù)合核性能最好。

復(fù)合核在語義角色分類中有很高的價(jià)值。復(fù)合核中的卷積樹核為角色分類提供結(jié)構(gòu)化信息,而基本核則可以包含一些無法通過卷積樹核獲取的信息,例如句法成分中心詞等。復(fù)合核可以很好的結(jié)合平面特征與結(jié)構(gòu)化特征,使語義角色分類更加準(zhǔn)確。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)資源

實(shí)驗(yàn)使用來自Chinese PropBank (中文PropBank,或簡(jiǎn)稱CPB)的數(shù)據(jù)。CPB是賓夕法尼亞大學(xué)在Penn Chinese Treebank句法分析語料庫(kù)基礎(chǔ)上標(biāo)注的語義角色標(biāo)注語料庫(kù),在句法分析樹的句法成分中加入了對(duì)應(yīng)的謂詞及其語義角色信息。對(duì)所有的謂詞,中文PropBank定義了多種語義角色,其中中心語義角色為Arg0-5 六種,如: Arg0 通常表示動(dòng)作的施事者,Arg1 表示受事者等。其余為附屬語義角色,用前綴ArgM 表示,如: ArgM-LOC 表示地點(diǎn),ArgM-TMP 表示時(shí)間等。中文PropBank基于中文Penn TreeBank手工標(biāo)注的句法分析結(jié)果,因此標(biāo)注結(jié)果幾乎不受句法分析錯(cuò)誤的影響,準(zhǔn)確率較高,而且它幾乎對(duì)中文Penn TreeBank中的每個(gè)動(dòng)詞及其語義角色進(jìn)行了標(biāo)注,因此覆蓋范圍更廣。

為了與Xue的實(shí)驗(yàn)進(jìn)行比較,本文參照他的劃分,選取CPB1.0語料庫(kù)中的72個(gè)文件(chtb_001.fid到chtb_040.fid和chtb_900.fid到chtb_931.fid)作為測(cè)試數(shù)據(jù),40個(gè)文件(chtb_041.fid到chtb_080.fid)作為開發(fā)數(shù)據(jù),648個(gè)文件(chtb_081.fid-chtb_899.fid)作為訓(xùn)練數(shù)據(jù)。

4.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)使用SVM-Light-TK*http://dit.unitn.it/~moschitt/Tree-Kernel.htm作為分類模型,特別地,由于SVM-Light-TK分類器本質(zhì)上是一個(gè)二元分類器,采用一對(duì)多方法(one vs. others)將其重新包裝為多元分類器,例如,本文共涉及16類語義角色,將分別構(gòu)造16個(gè)二元分類模型。訓(xùn)練參數(shù)的調(diào)整設(shè)置均在開發(fā)集上進(jìn)行。本文首先使用卷積樹核,在樹核實(shí)驗(yàn)中當(dāng)正則化參數(shù)c取5時(shí),分類的精確率達(dá)到峰值。接著使用多項(xiàng)式核,同車[13]一樣采用二次多項(xiàng)式核對(duì)特征向量進(jìn)行組合,設(shè)置d為2。最后使用復(fù)合核,設(shè)置 C為“+”、T為0.43、d為2,使其按照3.3節(jié)中復(fù)合核的格式將卷積樹核與二次多項(xiàng)式核結(jié)合起來。實(shí)驗(yàn)中的其余參數(shù)都按照默認(rèn)設(shè)置。

(4)

4.3 各類語義角色在不同樹空間上的分類結(jié)果

為了查看不同句法結(jié)構(gòu)信息對(duì)中文語義角色分類的影響,對(duì)3.2節(jié)定義的四種樹核特征空間分別進(jìn)行實(shí)驗(yàn),表1給出了各種樹核特征空間在各類語義角色上取得的性能。

表1的第一列和第二列為16類語義角色的名稱以及它們的數(shù)量在全部訓(xùn)練集中所占比例,后四列為各類角色在四種樹空間上的F1值。從表1可以看出,語義角色Arg0、Arg1、ArgM-ADV、ArgM-LOC、 ArgM-MNR和ArgM-TMP所占比例最多,總數(shù)達(dá)92.4%, 因此, 這些類別的語義角色能否正確識(shí)別將會(huì)很大程度上影響整體分類的性能。

表1 各角色在不同樹空間上的性能

從表1中還可以看出,中心角色Arg0、Arg1、Arg2、Arg4在PET空間上取得的性能最優(yōu)。占所有角色數(shù)量比重最大的Arg0和Arg1,在PET空間上比在基礎(chǔ)空間(MT)上的F1值分別提高了1.4%和1.6%。其主要原因是,樹核函數(shù)將樹結(jié)構(gòu)特征空間作為唯一的特征來比較相似度,PET樹空間由于增加了謂詞的兄弟節(jié)點(diǎn),可以有效地區(qū)別Arg0和Arg1。例如: 在圖3中,兩個(gè)子句分別為“開發(fā)區(qū)成立企業(yè)”和“自開發(fā)區(qū)成立以來”,句a中Arg0的MT樹空間與句b中Arg1的MT樹空間結(jié)構(gòu)完全相同,那么在計(jì)算兩棵樹相似度的時(shí)候,很有可能將Arg0識(shí)別為Arg1。而PET樹很好的避免了這類問題,句a中Arg0的PET樹空間和句b中Arg1的PET樹空間結(jié)構(gòu)不再相同。在中心角色的 46 183條訓(xùn)練實(shí)例中,有18 188個(gè)子句法樹需要擴(kuò)充謂詞的兄弟節(jié)點(diǎn),占約39.4%。其中出現(xiàn)圖3所示問題的實(shí)例數(shù)目為11 565,占約25.0%,由此可見,擴(kuò)充謂詞的兄弟節(jié)點(diǎn)十分重要,這些節(jié)點(diǎn)能夠幫助核函數(shù)對(duì)論元的NP短語的角色作出正確的識(shí)別。

圖3 子句(a)“開發(fā)區(qū)成立企業(yè)”和(b)“自開發(fā)區(qū)成立以來”的MT樹與PET樹結(jié)構(gòu)空間的比較

在附屬角色中數(shù)量較多的ArgM-ADV、ArgM-LOC、ArgM-MNR、ArgM-PRP,它們的樹結(jié)構(gòu)一般都有著比較明顯的句法特征,例如: ArgM-ADV中大多含有ADVP短語,ArgM-LOC中通常含有表示地點(diǎn)的介詞短語,ArgM-MNR中一般都有以“據(jù)”、“通過”、“經(jīng)”、“按”、“用”等介詞開頭的表示方法的介詞短語。表1顯示,這些角色在MT樹這種最簡(jiǎn)結(jié)構(gòu)上的性能最好,其余的樹結(jié)構(gòu)反而會(huì)增加不少冗余信息導(dǎo)致性能下降。

4.4 整體分類的結(jié)果及分析

每個(gè)二元分類模型的性能可以從不同角度反映四種樹結(jié)構(gòu)的優(yōu)缺點(diǎn),本文還需要通過整體分類的精確率來評(píng)價(jià)系統(tǒng)性能。各種樹核空間在測(cè)試集上的整體分類的性能見表2。

表2 各種樹核空間在測(cè)試集上的分類的性能

通過表2可以看出:

樹核函數(shù)在不同的樹核特征空間上對(duì)于中文語義角色標(biāo)注都是有效的。FET、RET、PET與MT樹比較,分類的精確率都有提高,分別提高了 0.58%、0.09%、1.17%,由此可見,對(duì)MT樹進(jìn)行句法信息擴(kuò)充是很有必要的。

雖然MT樹有著最為簡(jiǎn)單的句法結(jié)構(gòu),只包含連接謂詞和論元的最少節(jié)點(diǎn),噪音是最小的,但同時(shí)信息量也最少,很多重要的信息都被刪去(例如: 能有效區(qū)別Arg0和Arg1的謂詞的兄弟節(jié)點(diǎn))。所以在MT樹空間上進(jìn)行語義角色分類的精確率在四種特征空間中最低。在MT基礎(chǔ)上改進(jìn)的FET,分類的精度提高了0.58%,再次說明了MT樹由于信息量較少而導(dǎo)致分類精度降低。

在FET基礎(chǔ)上剪枝后的RET樹雖比MT樹的性能提高了一些,但是跟FET樹相比,精確率卻下降了0.49%。主要原因是,謂詞和論元的上下文環(huán)境的信息對(duì)語義角色分類的作用很小,雖然RET樹的噪音較少,但卻裁剪掉了FET中的一些重要信息(如謂詞的兄弟節(jié)點(diǎn))。

在FET基礎(chǔ)上剪枝后的PET樹,在四種樹空間中的性能是最好的,整體分類的精確率達(dá)到了91.79%,說明了謂詞的兄弟節(jié)點(diǎn)信息對(duì)于語義角色分類非常重要。謂詞的兄弟節(jié)點(diǎn)可以有效地區(qū)別Arg0和Arg1的樹結(jié)構(gòu),避免因信息量少造成樹結(jié)構(gòu)的類似,進(jìn)而造成角色分類的錯(cuò)誤。同時(shí),謂詞的兄弟節(jié)點(diǎn)通常也是謂詞的其他語義角色的祖先節(jié)點(diǎn),說明某個(gè)角色的謂詞—論元結(jié)構(gòu)中如果包含該謂詞的其他語義角色信息,會(huì)對(duì)當(dāng)前角色的識(shí)別帶來很大幫助,我們將在之后的工作中深入研究。

表3 各種方法在測(cè)試集上的性能比較

為了與目前同類系統(tǒng)進(jìn)行比較,本文使用二次多項(xiàng)式核實(shí)現(xiàn)了一個(gè)基于特征向量的語義角色分類系統(tǒng),如表3中所示,性能與Xue相當(dāng)。由于車重點(diǎn)研究使用怎樣的核函數(shù)來比較結(jié)構(gòu)化信息的相似度,而本文的重點(diǎn)研究如何獲取句法分析樹中有效的結(jié)構(gòu)化信息特征,且兩文實(shí)驗(yàn)數(shù)據(jù)的選取也不相同,所以暫不進(jìn)行比較。

從表2和表3中可以看出,盡管PET在樹核中取得了最高的性能,但仍比使用多項(xiàng)式核的基于特征的方法差了很多,約兩個(gè)百分點(diǎn)。原因是,樹核只包含結(jié)構(gòu)化句法信息,而基于特征的方法使用了大量不同的平面特征,如中心詞、謂詞類別等以及它們的組合特征,這些特征無法被樹核獲取。

因此本文期待使用復(fù)合核進(jìn)一步提高語義角色分類的性能。從表3中看出,將樹核MT、FET、RET和PET分別與特征復(fù)合,相比各自樹核方法的性能都有了顯著的提高(采用χ2顯著性檢驗(yàn)),且分類性能的高低趨勢(shì)仍與單獨(dú)使用樹核方法相同,說明這四種樹核方法都能與多項(xiàng)式核較好地融合。使用PET+ p2的復(fù)合核的性能最好,分類精確率達(dá)到94.28%,比基于特征的方法有明顯的提高(提高了0.43%),比只使用樹核PET要高出許多(提高了2.49%),通過4.2節(jié)描述的χ2顯著性檢驗(yàn),性能顯著調(diào)高。主要原因是,基于樹核的方法可以更好的挖掘句法結(jié)構(gòu)化信息,而基于特征的方法可以捕獲樹核無法獲取的一些重要的平面特征信息。這兩種方法相互補(bǔ)充,將它們結(jié)合起來,更加有利于語義角色的分類。

5 總結(jié)與展望

本文重點(diǎn)研究如何獲取有效的結(jié)構(gòu)化信息,表明了卷積樹核函數(shù)在不同的樹核特征空間上對(duì)于語義角色標(biāo)注都是有效的。在最小句法結(jié)構(gòu)的基礎(chǔ)上定義了三種不同的樹核空間,分析并比較了它們?cè)诓煌Z義角色上的性能及在整體分類上的性能,在中文PropBank語料上進(jìn)行語義角色分類取得了較好的性能。最后使用復(fù)合核將PET與特征向量結(jié)合,性能優(yōu)于目前同類系統(tǒng)。

本文的下一步工作是更為詳細(xì)的樹核空間的研究,現(xiàn)有的樹空間的擴(kuò)充與裁剪主要基于觀察和經(jīng)驗(yàn),沒有充分利用語法、句法等語言學(xué)信息??紤]借鑒基于特征向量的方法中對(duì)于平面特征挖掘的一些方法,相信能取得更好的性能。

[1] D. Gildea, D. Jurafsky. Automatic Labeling of Semantic Roles[J]. Computational Linguistics.. 2002, 28(3):245-288.

[2] N. Xue, M. Palmer. Automatic Semantic Role Labeling for Chinese Verbs[C]//IJCAI-2005.2005.

[3] S. Pradhan, K. Hacioglu, V. Krugler, W. Ward, James H. Martin, D. Jurafsky. Support Vector Learning for Semantic Argument Classification[J]. Machine Learning Journal. 2005,60(1):11-39.

[4] 劉挺, 車萬翔, 李生. 基于最大熵分類器的語義角色標(biāo)注[J]. 軟件學(xué)報(bào),2007, 18(3):565-573.

[5] 劉懷軍, 車萬翔, 劉挺. 中文語義角色標(biāo)注的特征工程[J]. 中文信息學(xué)報(bào),2007, 21(2):79-85.

[6] 丁金濤, 周國(guó)棟, 王紅玲, 朱巧明,錢培德. 語義角色標(biāo)注中特征優(yōu)化組合研究[J].計(jì)算機(jī)應(yīng)用與軟件,2009, 26(5):17-21.

[7] 李軍輝, 王紅玲, 周國(guó)棟, 朱巧明, 錢培德. 語義角色標(biāo)注中句法特征的研究 [J]. 中文信息學(xué)報(bào), 2009, 23(6): 11-18.

[8] M. Zhang, J. Zhang, J. Su. Exploring Syntactic Features for Relation Extraction using a Convolution Tree Kernel[C]//COLING-ACL-2006: 288-295.

[9] F. Kong, Y. Li, G. Zhou, Q. zhu. Exploring Syntactic Features for Pronoun Resolution Using Context-Sensitive Convolution Tree Kernel[C]//IALP-2009.

[10] A. Moschitti. A Study on Convolution Kernels for Shallow Statistic Parsing[C]//ACL-2004. 2004:335-342.

[11] W. Che, M. Zhang, T. Liu, S. Li. A Hybrid Convolution Tree Kernel for Semantic Role Labeling[C]//COLING-ACL-2006.

[12] M. Zhang, W. Che, A. T. AW, C. L. TAN, T. Liu, S. Li. A Grammar-driven Convolution Tree Kernel for Semantic Role Classification[C]//ACL-2007:200-207.

[13] 車萬翔.基于核方法的語義角色標(biāo)注研究[D].哈爾濱: 哈爾濱工業(yè)大學(xué),2008.

[14] M. Collins, N. Duffy. Convolution Kernels for Natural Language[C]//Proceedings of NIPS-2001.

[15] N. Xue. Labeling Chinese Predicates with Semantic Roles[J]. Computational Linguistics, 2008,34(2): 225-255.

猜你喜歡
論元謂詞語義
被遮蔽的邏輯謂詞
——論胡好對(duì)邏輯謂詞的誤讀
黨項(xiàng)語謂詞前綴的分裂式
語言與語義
康德哲學(xué)中實(shí)在謂詞難題的解決
批評(píng)話語分析中態(tài)度意向的鄰近化語義構(gòu)建
“社會(huì)”一詞的語義流動(dòng)與新陳代謝
“吃+NP”的語義生成機(jī)制研究
基于依存樹距離識(shí)別論元的語義角色標(biāo)注系統(tǒng)
謂詞公式中子句集提取的實(shí)現(xiàn)pdf
监利县| 巴彦淖尔市| 涿鹿县| 丽水市| 沿河| 象州县| 塔河县| 安顺市| 吴忠市| 四子王旗| 富源县| 韩城市| 孙吴县| 蒙山县| 民勤县| 故城县| 怀安县| 大兴区| 太谷县| 岱山县| 涿鹿县| 仁化县| 荣成市| 徐汇区| 彰化市| 华宁县| 穆棱市| 资阳市| 江源县| 新津县| 昌平区| 常德市| 元氏县| 济源市| 门源| 玉田县| 庄河市| 胶州市| 永城市| 寿宁县| 永济市|