基于圖模型的語(yǔ)義角色標(biāo)注重排序

2013-04-23 07:38:35呂雅娟

中文信息學(xué)報(bào) 2013年5期

熊皓, 劉群, 呂雅娟

(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190; 2. 橙譯中科信息技術(shù)有限公司,北京100010)

1 導(dǎo)論

傳統(tǒng)的語(yǔ)義角色標(biāo)注方法[1]通常是將語(yǔ)義角色映射到句法樹中的相應(yīng)節(jié)點(diǎn)，通過抽取句法節(jié)點(diǎn)和謂詞之間的一些本地特征進(jìn)行角色分類。Toutanova[2]等人的工作證明，在利用語(yǔ)義角色初步分類的基礎(chǔ)上，保留最好的5個(gè)分析結(jié)果，通過抽取一些全局特征對(duì)5個(gè)分析結(jié)果進(jìn)行重新排序，最后能將標(biāo)注的F值提高1.5%左右。但是Toutanova等人在文獻(xiàn)中也提到過，雖然可以利用初步分類的更多最好結(jié)果，如10個(gè)最優(yōu)結(jié)果進(jìn)行重排序，理論上來說最后標(biāo)注的上限可以更高，但是在實(shí)際實(shí)驗(yàn)中反而帶來更多的分類噪聲，實(shí)驗(yàn)結(jié)果不甚理想。在本文中我們提出另外一種重排序的方法，在保留更多初步最優(yōu)分析結(jié)果的情況下，仍然能夠提高最終標(biāo)注的綜合性能。

在傳統(tǒng)的標(biāo)注模型中，對(duì)角色的標(biāo)注通常是單獨(dú)進(jìn)行的，并且一般對(duì)于一個(gè)句子中的多個(gè)謂詞也是分別進(jìn)行角色標(biāo)注。因此對(duì)于同樣的謂詞來說，或者語(yǔ)義上相近的謂詞來說，由于標(biāo)注時(shí)抽取的都是本地特征，所以最后的全局標(biāo)注結(jié)果無法保證所有的角色標(biāo)注都是一致的。例如，我們從測(cè)試集中找出了關(guān)于謂詞“spur”的三個(gè)不同例句，使用一般的基準(zhǔn)系統(tǒng)[3]進(jìn)行標(biāo)注，標(biāo)注的結(jié)果如下：

For weeks, the market had been nervous about takeovers, after [Campeau Corp.’s cash crunch]ARG1spurred[concern about the prospects for future highly leveraged takeovers]ARG2.

2. [Friday’s market tumble]ARG2[could]ARGM-MODspur[action on reconciling the House and Senateversions of the deficit-reduction measure]ARG1, a process that is not expected to begin until tomorrow at the soonest.

3. Beginning in mid-1987, prices began accelerating as [a growing U.S. economy and the weak dollar]ARG2spurred[demand]ARG1.

在上面的標(biāo)注結(jié)果中，第1個(gè)句子錯(cuò)誤的將謂詞前半部分的名詞短語(yǔ)標(biāo)注為了ARG1而將謂詞后面的名詞短語(yǔ)標(biāo)注為了ARG2，而后面的兩個(gè)句子則完全正確的標(biāo)注了謂詞“spur”的所有角色。至于第1個(gè)句子為什么會(huì)被標(biāo)注錯(cuò)誤，原因比較難以分析，一種可能的解釋是前半部分的中心詞相關(guān)的特征在訓(xùn)練語(yǔ)料中更多可能的是被標(biāo)注為了ARG1。

不過如圖1所示，我們通過對(duì)比第1個(gè)句子和第2個(gè)句子的句法分析結(jié)果，發(fā)現(xiàn)兩個(gè)句子的候選節(jié)點(diǎn)之間無論從語(yǔ)義上還是句法上來說都存在很大的相似度。例如，第1個(gè)句子中的“cash crunch”和第2個(gè)句子中的“market tumble”在語(yǔ)義中都和經(jīng)濟(jì)、金融等語(yǔ)義概念相關(guān)，因此具有很強(qiáng)的語(yǔ)義相似性；并且在兩個(gè)句子中，謂詞后面的名詞短語(yǔ)具有很強(qiáng)的句法相似性。因此很自然的想法是能否利用在給定相同謂詞或者語(yǔ)義相近的謂詞情況下，通過候選節(jié)點(diǎn)之間的相似度，將錯(cuò)誤的標(biāo)注結(jié)果糾正過來。為了實(shí)現(xiàn)這個(gè)想法，本文提出一種基于圖模型的迭代算法，通過節(jié)點(diǎn)之間的相似度約束，循環(huán)迭代的調(diào)整標(biāo)注的結(jié)果，最終達(dá)到相似度高的節(jié)點(diǎn)標(biāo)注一致性。

注：上面的例子是自動(dòng)標(biāo)注錯(cuò)誤的，下面的例子是標(biāo)注正確的。圖1 兩個(gè)帶有謂詞“spur”的句子標(biāo)注結(jié)果

本文的組織結(jié)構(gòu)如下：在第2節(jié)中我們將詳細(xì)介紹我們的重排序模型中使用的相似度算法以及標(biāo)記傳播迭代算法；在第3節(jié)中將給出實(shí)驗(yàn)結(jié)果；在第4節(jié)中將簡(jiǎn)單介紹相關(guān)工作；最后在第5節(jié)中總結(jié)本文工作。

2 重排序模型

如前文所述，我們希望在輸出初步標(biāo)注結(jié)果的情況下，利用一些候選節(jié)點(diǎn)之間的相似度關(guān)系，重新對(duì)標(biāo)注的結(jié)果進(jìn)行排序，使得給定相同謂詞或者語(yǔ)義相近謂詞的情況下，相似度高的候選節(jié)點(diǎn)標(biāo)注的結(jié)果更一致。因此我們?cè)卺槍?duì)每個(gè)謂詞的標(biāo)注過程中，在生成當(dāng)前最優(yōu)標(biāo)注結(jié)果的同時(shí)，保留每個(gè)節(jié)點(diǎn)的前k個(gè)分類結(jié)果。值得注意的是，在這里我們不對(duì)所有候選節(jié)點(diǎn)輸出前k個(gè)分類結(jié)果，而僅針對(duì)那些最后生成最優(yōu)標(biāo)注結(jié)果的節(jié)點(diǎn)輸出多個(gè)分類結(jié)果，這樣做的原因是盡可能的減少其他非語(yǔ)義角色節(jié)點(diǎn)帶來的噪聲。

如圖2所示，我們首先對(duì)每個(gè)謂詞進(jìn)行初步角色標(biāo)注，然后對(duì)每個(gè)謂詞中標(biāo)注為語(yǔ)義角色的節(jié)點(diǎn)輸出k個(gè)分類結(jié)果。在完成整個(gè)測(cè)試集的初步標(biāo)注后，我們計(jì)算每個(gè)謂詞和標(biāo)注節(jié)點(diǎn)之間的相似度，并且構(gòu)建圖模型，最后通過循環(huán)迭代，優(yōu)化標(biāo)注的結(jié)果。需要說明的是，我們利用測(cè)試集中的每個(gè)句子中每個(gè)謂詞的所有候選節(jié)點(diǎn)，來構(gòu)造圖模型。在實(shí)際應(yīng)用中可以根據(jù)輸入的篇章信息對(duì)集合進(jìn)行切割，由于我們使用的PropBank[4]并沒有篇章標(biāo)記，因此在本文的后面實(shí)驗(yàn)部分，我們采用的是利用整個(gè)測(cè)試集中候選節(jié)點(diǎn)建立圖模型。

在后面幾節(jié)中我們將重點(diǎn)討論如何建立節(jié)點(diǎn)之間的圖模型，以及節(jié)點(diǎn)之間的相似度計(jì)算等主要問題。

圖2 基于圖模型重排序的流程

2.1 圖模型基本定義

我們建立的標(biāo)注圖模型定義如下：

定義1標(biāo)注圖模型G由二元組組成，其中V={v1,v2,…,vn}為測(cè)試集中經(jīng)過初步標(biāo)注結(jié)果后所有的標(biāo)注節(jié)點(diǎn)構(gòu)成的集合；E為節(jié)點(diǎn)之間的邊集合，對(duì)于節(jié)點(diǎn)vi和vj之間的邊權(quán)重ωi,j我們定義為他們之間的相似度Simi,j，如果Simi,j為非負(fù)值，則將邊ei,j加入到集合E中。

以第1節(jié)中的謂詞“spur”的前兩個(gè)句子標(biāo)注結(jié)果為例，圖3給出了標(biāo)注節(jié)點(diǎn)構(gòu)建的圖模型示例，其中節(jié)點(diǎn)A和B為第1個(gè)句子標(biāo)注的結(jié)果，C, D, E為第2個(gè)句子標(biāo)注的結(jié)果，在圖3中，我們沒有將第3個(gè)句子的標(biāo)注結(jié)果加入到圖模型中，以免圖規(guī)模太大難以解釋。

注：圖中圓點(diǎn)為標(biāo)注節(jié)點(diǎn)，邊權(quán)重為節(jié)點(diǎn)之間相似度，旁邊的弧形框?yàn)槌醪綐?biāo)注結(jié)果。圖3 標(biāo)注圖模型

在下面一小節(jié)中我們將主要討論如何計(jì)算圖模型中的邊權(quán)重，即如何計(jì)算兩個(gè)節(jié)點(diǎn)之間的相似度。

2.2 相似度計(jì)算

在我們的標(biāo)注圖模型框架中，最重要的一個(gè)環(huán)節(jié)是計(jì)算節(jié)點(diǎn)之間的相似度，相似度定義的好壞直接決定了圖模型中的標(biāo)注節(jié)點(diǎn)能否收斂到最優(yōu)值。為了衡量?jī)蓚€(gè)節(jié)點(diǎn)是否標(biāo)記為同一語(yǔ)義角色，我們采用如下插值公式，如式(1)所示。

Simi,j=

其中SimPrei,j為兩個(gè)節(jié)點(diǎn)的謂詞之間相似度，SimArgi,j為節(jié)點(diǎn)之間的相似度。由于最后形成的圖非常巨大，因此我們通過SimPrei,j之間的大小來限制節(jié)點(diǎn)間的連線，提高運(yùn)行效率的同時(shí)減少了噪聲，此外對(duì)于同一個(gè)句子的不同節(jié)點(diǎn)，我們也不進(jìn)行連邊，因?yàn)樵诔醪綐?biāo)注時(shí)已經(jīng)考慮過同一句子內(nèi)部的節(jié)點(diǎn)信息。對(duì)于SimPre和SimArg的計(jì)算，受Roth和Frank工作[5]的啟發(fā)，我們分別計(jì)算節(jié)點(diǎn)謂詞以及節(jié)點(diǎn)中心詞之間的WordNet相似度SimWN，VerbNet相似度SimVN, 分布相似性(Distributional Similarity)SimDist，并且計(jì)算節(jié)點(diǎn)句法樹之間的樹核相似度SimKernel，最后通過插值得到兩個(gè)節(jié)點(diǎn)之間的標(biāo)注相似度。下面我們將分別介紹以上四類相似度的計(jì)算方法。

WordNet相似度：對(duì)于給定的兩個(gè)謂詞pre1和pre2，我們可以利用WordNet[6]獲取出他們的所有同義詞集合Syn1以及Syn2，我們計(jì)算兩個(gè)集合之間任意詞之間的最大值，即

其中SimWN_Lin為L(zhǎng)in[7]提出的利用WordNet計(jì)算兩個(gè)詞之間相似度的方法。在這里，為了計(jì)算兩個(gè)詞之間的WordNet距離，我們采用和Roth等人相同的方法：首先獲取兩個(gè)詞在WordNet里面的最近公共包含LCS(Syni,Synj)，以兩個(gè)常見的名詞“dog”和“cat”為例，圖4給出了它們的上位詞樹(Hypernyms Tree)，并且將最近公共包含“carnivore”加粗標(biāo)記出來。

對(duì)于Syni,Synj以及LCS(Syni,Synj)來說，我們利用Information Content(IC)[8]來計(jì)算它們之間的相似度。IC值是用來衡量WordNet中一個(gè)語(yǔ)義概念出現(xiàn)概率的方法之一，一般來說，對(duì)于WordNet分類C(taxonomy)中的一個(gè)概念c1和他的上位詞c2(c1IS-Ac2)來說，他們出現(xiàn)的概率一般滿足p(c1) ≤p(c2)，并且分類中的最頂層節(jié)點(diǎn)的概率為1。Resnik定義的IC計(jì)算方式為式(3)。

其中N為語(yǔ)料庫(kù)中的所有單詞個(gè)數(shù)，freq(c)為

其中words(c)為概念c包含的所有單詞，count(w)為單詞在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)。因此按照上面兩個(gè)公式計(jì)算，上位詞的出現(xiàn)概率要高于下位詞。

注：其中實(shí)線為IS-A鏈接，虛線表示為了節(jié)省表述空間，中間省略了很多節(jié)點(diǎn)。圖4 WordNet中dog和cat的最近公共包含為carnivore

因?yàn)镻edersen等人[9]預(yù)先已經(jīng)計(jì)算好了WordNet中所有詞的IC值，并且提供了IC文件*http://www.d.umn.edu/～tpederse/similarity.html下載，因此我們直接從里面檢索結(jié)果來計(jì)算下面的公式，如式(5)所示。

VerbNet相似度：由于在WordNet中對(duì)于動(dòng)詞的標(biāo)注存在一些設(shè)計(jì)錯(cuò)誤[10]，如Richens發(fā)現(xiàn)的在WordNet中有些動(dòng)詞在上位詞樹中的關(guān)系形成了一個(gè)環(huán)，因此為了更準(zhǔn)確的計(jì)算謂詞之間的相似度，我們利用VerbNet[11]來進(jìn)一步計(jì)算謂詞之間的語(yǔ)義距離。VerbNet中的動(dòng)詞根據(jù)他們的一些句法特性將其歸為了多個(gè)類別，并且形成一個(gè)類別樹，即一個(gè)類別C可能存在多個(gè)子類別Cs使得Cs∈sub(C)，我們采用Roth和Frank相同的特征函數(shù)計(jì)算兩個(gè)謂詞之間的SimVN(prei,prej)值：

SimVN(prei,prej)

分布相似性：畢竟WordNet和VerbNet的覆蓋面有限，對(duì)于節(jié)點(diǎn)中的一些中心詞或者謂詞不一定出現(xiàn)在上面兩個(gè)資源庫(kù)中，因此我們利用Giga- Word*http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2003T05來計(jì)算詞之間的分布相似性。分布相似性可以看作是給定大小的語(yǔ)義向量空間內(nèi)的語(yǔ)義距離[12]，是一種通過大規(guī)模語(yǔ)料統(tǒng)計(jì)計(jì)算任意詞之間語(yǔ)義相似度的有效方法之一。我們參照一些成熟工作的做法[13-14]，提取每個(gè)謂詞prei左右上下文單詞，并且利用從GigaWord中計(jì)算的頻度中選取最高頻的2 000個(gè)單詞(c1,c2,...,c2000)作為向量維度，通過計(jì)算每個(gè)謂詞和高頻詞之間的點(diǎn)間互信息(PMI)構(gòu)成每個(gè)謂詞的向量空間：

PMI(prei,c2000))(7)

其中

freq(prei),freq(cj)以及freq(prei,cj)為謂詞、高頻詞在語(yǔ)料庫(kù)中單獨(dú)出現(xiàn)和共現(xiàn)的次數(shù)。

利用每個(gè)謂詞的向量空間值，我們采用最簡(jiǎn)單的Cosin距離計(jì)算他們之間的分布相似性數(shù)值。

樹核相似度：對(duì)于論元來說，通常包含多個(gè)單詞，僅僅使用詞級(jí)別的特征來衡量他們之間的相似度是不夠的，因此我們利用他們之間的句法樹來計(jì)算句法距離，即通過卷積樹核計(jì)算兩棵句法樹之間的相似度。不同于樹結(jié)構(gòu)的字符串表示形式，卷積樹核[15]通過特征向量來表示不同的句法樹。一般來說，一棵句法樹t可以使用特征向量f來表示，f可以表示為f(t)=(st1(t), …,sti(t), …,stn(t)，其中sti(t)表示的是句法樹t中第i棵子樹出現(xiàn)的次數(shù)。圖5給出了一棵句法樹拆分為子樹的例子，可以看出盡管圖例的句法片段很小，但是枚舉出來的子樹規(guī)模仍然多達(dá)5棵。

圖5 第一棵樹為句法樹片段，后面5棵樹為其拆分后的所有子樹。

一般而言，對(duì)于樹高度為l的滿二叉樹來說，其可以拆分枚舉的子樹個(gè)數(shù)為2l+1。因此對(duì)于一般的句法樹片段而言，直接枚舉所有子樹是不可能的，因此Collins和Duffy提出了使用卷積樹核來高效計(jì)算兩棵句法樹相似度的方法。

其中N1和N2分別是句法樹t1和t2的節(jié)點(diǎn)集合，Ii(n)表示句法樹的子樹是否以n作為根節(jié)點(diǎn)，是則為1，反之為0；表示兩棵句法樹中分別以n1和n2作為根節(jié)點(diǎn)的子樹個(gè)數(shù)。并且C(n1,n2)可以通過下面的定義在多項(xiàng)式時(shí)間內(nèi)計(jì)算出來：

其中nc(n1)表示節(jié)點(diǎn)n1包含的推導(dǎo)中子節(jié)點(diǎn)個(gè)數(shù)，由于節(jié)點(diǎn)n1和n2的推導(dǎo)相同，所以nc(n1)=nc(n2)，此外h(n1,j)表示n1包含的推導(dǎo)中第j個(gè)子節(jié)點(diǎn)。λ(0≤λ≤1)是懲罰因子，用來降低子樹規(guī)模對(duì)C(n1,n2)大小的影響。上面的式子可以通過動(dòng)態(tài)規(guī)劃在多項(xiàng)式時(shí)間內(nèi)計(jì)算得出。

因此最后我們通過歸一化計(jì)算出圖模型中節(jié)點(diǎn)ai,aj之間的樹核相似度。

歸一化：對(duì)于圖模型中的任意兩個(gè)節(jié)點(diǎn)ai,aj及其對(duì)應(yīng)的謂詞prei,prej，我們通過式(12)計(jì)算節(jié)點(diǎn)之間邊權(quán)重：

Simai,aj=α·SimPrei,j+(1-α)·SimArgi,j

=α·(λ1SimWN(prei,prej)

+λ2SimVN(prei,prej)

+λ3SimDist(prei,prej))(12)

+(1-α)(θ1SimWN(hai,haj)

+θ2SimVN(hai,haj)

+θ3SimDist(hai,haj)

+θ4SimKernel(ai,aj))(13)

其中hai和haj分別為節(jié)點(diǎn)ai和aj的中心詞。并且當(dāng)SimPrei,j< 0.5時(shí)，我們不建立ai和aj之間的邊。

為了便于參數(shù)調(diào)整我們對(duì)λ和θ兩組參數(shù)進(jìn)行歸一化，即滿足λ1+λ2+λ3= 1.0和θ1+θ2+θ3+θ4=1.0。

2.3 標(biāo)記傳播迭代算法

對(duì)于一個(gè)帶有標(biāo)記的圖模型來說，根據(jù)每個(gè)節(jié)點(diǎn)的一些本地信息，我們通常利用一些迭代算法，也可以稱之為標(biāo)記傳播，對(duì)節(jié)點(diǎn)的本地信息進(jìn)行互相傳播，最終優(yōu)化到一個(gè)全局穩(wěn)定的最優(yōu)分布。標(biāo)記傳播算法在自然語(yǔ)言處理中已經(jīng)被廣泛的使用，例如，用于詞性標(biāo)注[16-17]，無監(jiān)督語(yǔ)義角色標(biāo)注[18]語(yǔ)義分析[19]，機(jī)器翻譯[20]，指代消解等問題[21-22]。

在前面小節(jié)中我們已經(jīng)對(duì)圖模型給出了基本的定義，在這里我們?cè)俣x一個(gè)表示節(jié)點(diǎn)vi標(biāo)記為角色標(biāo)注l的兼容度Sil。對(duì)于一個(gè)節(jié)點(diǎn)標(biāo)記為某一標(biāo)注的兼容度，可以有多種計(jì)算方式[23]，在本文中，我們采取最簡(jiǎn)單的計(jì)算方式，即一個(gè)節(jié)點(diǎn)的標(biāo)注兼容度表示為和其相鄰的節(jié)點(diǎn)標(biāo)記為同一標(biāo)注的概率與邊權(quán)重之和，如式(14)所示。

其中A(vi)表示為和節(jié)點(diǎn)vi相連接的其他節(jié)點(diǎn)。

迭代算法的目標(biāo)在于找到一組標(biāo)注概率分布，使得圖模型中的節(jié)點(diǎn)最大可能的滿足標(biāo)注一致性，也可以等價(jià)為最大化每個(gè)節(jié)點(diǎn)的標(biāo)注兼容度。因此要達(dá)到一個(gè)全局最優(yōu)的標(biāo)注概率分布H*必須滿足下面的約束條件。

Algorithm 1標(biāo)記傳播迭代算法

1：輸入: 圖G，節(jié)點(diǎn)的初步標(biāo)注概率分布H

2：輸出: 節(jié)點(diǎn)的全局最優(yōu)標(biāo)注概率分布H*

3： for 循環(huán)次數(shù)t≤1000 do

4： for 對(duì)于圖中每個(gè)節(jié)點(diǎn)vido

5： for 對(duì)于節(jié)點(diǎn)的每個(gè)可能標(biāo)注ldo

?計(jì)算每個(gè)節(jié)點(diǎn)的標(biāo)注兼容度Sil

7： for 對(duì)于節(jié)點(diǎn)的每種可能標(biāo)注ldo

?更新節(jié)點(diǎn)vi的標(biāo)注概率分布

算法1給出了迭代算法的詳細(xì)過程，我們對(duì)圖中的每個(gè)節(jié)點(diǎn)迭代1 000輪，首先在第6行計(jì)算每個(gè)節(jié)點(diǎn)的當(dāng)前標(biāo)注兼容度，在第8行通過重新計(jì)算的標(biāo)注兼容度歸一化后更新當(dāng)前的標(biāo)注概率分布，最后迭代1 000輪達(dá)到全局最優(yōu)概率分布。

3 實(shí)驗(yàn)設(shè)計(jì)

3.1 實(shí)驗(yàn)數(shù)據(jù) 我們采用PropBank數(shù)據(jù)集，根據(jù)CoNLL-2005的切分策略和自動(dòng)句法分析樹進(jìn)行實(shí)驗(yàn)，使用PropBank中的02-21分塊作為訓(xùn)練集，第24塊用于開發(fā)集，第23塊用于測(cè)試集。整個(gè)數(shù)據(jù)集由43 594個(gè)句子組成，其中有262 281個(gè)論元角色，包含35種語(yǔ)義角色，分別是ARG0-ARG5, AA, 14個(gè)修飾角色ARGM-X以及14個(gè)引用論元R-X。

3.1實(shí)驗(yàn)結(jié)果

我們采用前人工作總結(jié)的比較有效的判別特征[1,24,25,2,26]設(shè)計(jì)基準(zhǔn)對(duì)比系統(tǒng)，并且我們進(jìn)行性能測(cè)試時(shí)做了一些細(xì)微調(diào)整，以此來查看重排序潛在的提升空間。例如，如果準(zhǔn)確的標(biāo)注結(jié)果是ARG0,ARG1,ARG2,ARGM-MOD,ARGM-TMP這五個(gè)語(yǔ)料中分布最多的角色時(shí)，當(dāng)我們將基準(zhǔn)系統(tǒng)的最優(yōu)標(biāo)注結(jié)果的節(jié)點(diǎn)輸出前k個(gè)概率最高的角色標(biāo)注集合里面包含這五個(gè)角色時(shí)，則無論其是否為最優(yōu)的，我們都認(rèn)為標(biāo)注準(zhǔn)確，以此來查看這個(gè)角色重排序時(shí)能達(dá)到的最高性能。例如某節(jié)點(diǎn)輸出的前2個(gè)標(biāo)注結(jié)果是ARG1=0.5,ARG0=0.4，而此節(jié)點(diǎn)的正確標(biāo)注是ARG0，則我們?nèi)哉J(rèn)為此標(biāo)注結(jié)果正確。表1給出了輸出1,2,3,5個(gè)概率最高角色標(biāo)注結(jié)果時(shí)(去除標(biāo)記為NULL的標(biāo)注結(jié)果)，在五個(gè)主要角色中重排序模型在開發(fā)集中所能達(dá)到的最高性能(F值)，k=1實(shí)際上就是基準(zhǔn)系統(tǒng)的性能。

從圖1中可以看出，隨著輸出的候選結(jié)果越多，幾個(gè)主要的語(yǔ)義角色都有了不少性能提升，并且僅輸出2個(gè)候選結(jié)果時(shí)，總體的性能上限都可以提升3個(gè)點(diǎn)左右。同時(shí)我們也發(fā)現(xiàn)，最優(yōu)的標(biāo)注結(jié)果一般都在前3個(gè)候選結(jié)果中，當(dāng)k=5時(shí)性能已不再發(fā)生太大的變化，因此在后面的實(shí)驗(yàn)中我們都只輸出標(biāo)注的前3個(gè)結(jié)果。

特征參數(shù)實(shí)驗(yàn)

由于我們使用了α,β,θ三組參數(shù)進(jìn)行控制相似度計(jì)算，因此參數(shù)很不好調(diào)節(jié)。我們的參數(shù)調(diào)整策略為，每次剔除一個(gè)相似度計(jì)算方法，其他權(quán)重采用平均化處理，通過查看實(shí)驗(yàn)結(jié)果大致給出每個(gè)相似度計(jì)算方法的權(quán)重比例。最后通過固定β和θ的值，每次對(duì)α調(diào)整0.1個(gè)單位。表2給出了以上實(shí)驗(yàn)配置思路的不同實(shí)驗(yàn)結(jié)果，其中WordNet_表示去除WordNet特征后的實(shí)驗(yàn)結(jié)果，其他類似。優(yōu)化為根據(jù)前面幾組實(shí)驗(yàn)結(jié)果優(yōu)化調(diào)整參數(shù)后的結(jié)果。從表2的實(shí)驗(yàn)結(jié)果中，我們可以看出在前三個(gè)語(yǔ)義特征中Dist起到的作用最大，因?yàn)槿コ@個(gè)特征后系統(tǒng)所能取得的性能提升最小。此外我們發(fā)現(xiàn)去除kernel特征后，系統(tǒng)性能反而比基準(zhǔn)系統(tǒng)還差了。一個(gè)可能的解釋在于去除這個(gè)特征后，對(duì)于節(jié)點(diǎn)的相似度只能完全依靠節(jié)點(diǎn)的中心詞相似度進(jìn)行計(jì)算，而句法錯(cuò)誤時(shí)中心詞也有可能是錯(cuò)的，因此句法錯(cuò)誤將會(huì)影響到圖中節(jié)點(diǎn)的相似度計(jì)算，但是采用樹核計(jì)算則可以減少句法分析錯(cuò)誤的影響。因此根據(jù)上面四組的特征貢獻(xiàn)度，我們根據(jù)經(jīng)驗(yàn)性的調(diào)整每個(gè)權(quán)重的大小，最后在如下權(quán)重設(shè)置時(shí)：α=0.6,λ1=0.2,λ2=0.3,λ3=0.5,θ1=0.1,θ2=0.15,θ3=0.25,θ4=0.5，如表2所示，系統(tǒng)達(dá)到了80%的F值。雖然最后的結(jié)果距離可能達(dá)到的系統(tǒng)性能上限82.08具有一定的距離，但是已經(jīng)超過基準(zhǔn)系統(tǒng)2.4個(gè)點(diǎn)，并且超過了Toutanova等人得到的性能提升。

表1 重排序可能達(dá)到的最高性能

4 相關(guān)工作對(duì)比

利用重排序改進(jìn)語(yǔ)義角色標(biāo)注性能的方法最有效的工作為前文詳細(xì)介紹過的Toutanova等人[2]的工作，和本文不同的是他們是對(duì)一個(gè)謂詞整體標(biāo)注的前k個(gè)最好標(biāo)注結(jié)果利用語(yǔ)言模型重排序，而本文是通過節(jié)點(diǎn)之間的相似度對(duì)標(biāo)注結(jié)果進(jìn)行重新排序。

類似的使用圖模型對(duì)問題建模，并且根據(jù)節(jié)點(diǎn)間的相似度對(duì)節(jié)點(diǎn)標(biāo)注結(jié)果進(jìn)行迭代的思想最早由Zhu和Zoubin于2002年[27]提出，最早用于解決半監(jiān)督的學(xué)習(xí)問題。

和本文較為相近的工作為L(zhǎng)ang和Lapta[18]提出的利用圖分割算法對(duì)語(yǔ)義角色標(biāo)注進(jìn)行無監(jiān)督學(xué)習(xí)，他們通過利用詞匯和句法兩個(gè)插值特征來衡量候選論元之間的相似度，并且將最后的聚類問題轉(zhuǎn)化為圖分割算法進(jìn)行求解。

表2 采用不同相似度公式配置下的實(shí)驗(yàn)結(jié)果

5 本文總結(jié)

本文提出了一種利用圖模型算法對(duì)語(yǔ)義角色標(biāo)注結(jié)果進(jìn)行重新排序的方法，通過對(duì)標(biāo)注節(jié)點(diǎn)之間的相似度計(jì)算，利用標(biāo)記傳播算法將不同節(jié)點(diǎn)的標(biāo)注信息進(jìn)行互相傳遞，最終達(dá)到全局標(biāo)注結(jié)果的一致性。并且本文分析了理想情況下，迭代算法所能達(dá)到的最好性能，最后的實(shí)驗(yàn)證明，使用標(biāo)記傳播算法迭代調(diào)整后，在篇章級(jí)別上的語(yǔ)義角色標(biāo)注性能有了2.4個(gè)F值的顯著提升。此外本文的工作還表明語(yǔ)義角色標(biāo)注的標(biāo)準(zhǔn)結(jié)果基本保留在語(yǔ)義角色候選節(jié)點(diǎn)的前3個(gè)標(biāo)注結(jié)果中，這個(gè)結(jié)論有利于將語(yǔ)義角色標(biāo)注應(yīng)用于如機(jī)器翻譯等應(yīng)用中，進(jìn)而彌補(bǔ)當(dāng)前語(yǔ)義角色標(biāo)注性能不足的缺陷。

[1] Daniel Gildea， Daniel Jurafsky. Automatic labeling of semantic roles[J]. Computational Linguistics, 2002, 8(3):245-288.

[2] Kristina Toutanova, Aria Haghighi, Christopher D Manning. A global joint model for semantic role labeling[J]. Computational Linguistics, 2008, 34(2):161-191.

[3] Sameer Pradhan, WayneWard, Kadri Hacioglu, et al. Semantic role labeling using different syntactic views[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Michigan State, USA: ACL Publication Chairs, 2005: 581-588.

[4] Martha Palmer, Daniel Gildea, and Paul Kingsbury. The proposition bank: an annotated corpus of semantic roles[J]. Computational Linguistics, 2005, 31(1):71-106.

[5] Michael Roth and Anette Frank. Aligning predicates across monolingual comparable texts using graph-based clustering[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea: ACL Publication Chairs, July 2012: 171-182.

[6] Christiane Fellbaum. Wordnet. Theory and Applications of Ontology: Computer Applications[M]. USA: Springer, 2010: 231-243.

[7] Dekang Lin. An information-theoretic definition of similarity[C]//Proceedings of the 15th International Conference on Machine Learning. San Francisco: ICML Publication Chairs, 1998, (1): 296-304.

[8] Philip Resnik. Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence. Montréal Québec, Canada: Morgan Kaufmann, 1995, (2): 448-453.

[9] Ted Pedersen, Siddharth Patwardhan, and Jason Michelizzi. Wordnet::similarity—measuring the relatedness of concepts[C]//Proceedings of HLT-NAACL 2004 Demonstration Papers. Boston, Massachusetts, USA: NAACL Publication Chairs, 2004: 38-41.

[10] Tom Richens. Anomalies in the WordNet verb hierarchy[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee, August 2008: 729-736.

[11] Karin Kipper, Anna Korhonen, Neville Ryant, et al. A large-scale classification of english verbs[J]. Language Resources and Evaluation, 2008, 42(1):21-40.

[12] Thomas K Landauer， Susan T Dumais. A solution to plato’s problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge[J]. Psychological Review, 1997, 104(2):211.

[13] Jeff Mitchell， Mirella Lapata. Composition in distributional models of semantics[J]. Cognitive Science, 2010, 34(8):1388-1429.

[14] Weiwei Guo， Mona Diab. Semantic topic models: Combining word distributional statistics and dictionary definitions[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK: EMNLP Publication Chairs, July 2011: 552-561.

[15] Michael Collins, Nigel Duffy, et al. Convolution kernels for natural language[C]//Proceedings of NIPS. Granada, Spain: NIPS Publication Chairs, 2001, (14): 625-632.

[16] Lluis Marquez, Lluis Padro, Horacio Rodriguez. A machine learning approach to pos tagging[J]. Machine Learning, 2000, 39(1):59-91.

[17] Dipanjan Das， Slav Petrov. Unsupervised part-of-speech tagging with bilingual graph-based projections[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. Portland, Oregon, USA: ACL Publication Chairs, June 2011: 600-609.

[18] Joel Lang， Mirella Lapata. Unsupervised semantic role induction with graph partitioning[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK: EMNLP Publication Chairs, July 2011: 1320-1331.

[19] J Atserias. Towards Robustness in Natural Language Understanding[D]. Donosti, Spain:Dept. Lenguajes y Sistemas Inform′aticos. Euskal Herriko Unibertsitatea, 2006.

[20] Shujie Liu, Chi-Ho Li, Mu Li, et al. Learning translation consensus with structured label propagation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, Jeju Island, Korea: ACL Publication Chairs, July 2012: 302-310.

[21] GuoDong Zhou， Fang Kong. Global learning of noun phrase anaphoricity in coreference resolution via label propagation[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: EMNLP Publication Chairs, 2009: 978-986.

[22] Emili Sapena, Llu′?s Padr′o, Jordi Turmo. A global relaxation labeling approach to coreference Resolution[C]//Proceedings of Coling 2010: Posters. Beijing, China: Coling 2010 Organizing Committee, August 2010, pages 1086-1094.

[23] Carme Torrasi Gems. Relaxation and neural learning: points of convergence and divergence[J]. Journal of Parallel and Distributed Computing, 1989, 6(2):217-244.

[24] Mihai Surdeanu, Sanda Harabagiu, John Williams, Paul Aarseth. Using predicate-argument structures for information extraction[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Japan: ACL Publication Chairs, 2003, 8-15.

[25] Sameer Pradhan, Wayne Ward, Kadri Hacioglu, James Martin, and Dan Jurafsky. Shallow semantic parsing using support vector machines[C]//Proceedings of HLT/NAACL. Boston, USA: 2004, page 233.

[26] 劉挺，車萬翔，李生. 基于最大熵分類器的語(yǔ)義角色標(biāo)注[J]. 軟件學(xué)報(bào), 2007, 18(3):565-573.