熊 皓, 劉 群, 呂雅娟
(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190; 2. 橙譯中科信息技術(shù)有限公司,北京100010)
傳統(tǒng)的語(yǔ)義角色標(biāo)注方法[1]通常是將語(yǔ)義角色映射到句法樹中的相應(yīng)節(jié)點(diǎn),通過抽取句法節(jié)點(diǎn)和謂詞之間的一些本地特征進(jìn)行角色分類。Toutanova[2]等人的工作證明,在利用語(yǔ)義角色初步分類的基礎(chǔ)上,保留最好的5個(gè)分析結(jié)果,通過抽取一些全局特征對(duì)5個(gè)分析結(jié)果進(jìn)行重新排序,最后能將標(biāo)注的F值提高1.5%左右。但是Toutanova等人在文獻(xiàn)中也提到過,雖然可以利用初步分類的更多最好結(jié)果,如10個(gè)最優(yōu)結(jié)果進(jìn)行重排序,理論上來說最后標(biāo)注的上限可以更高,但是在實(shí)際實(shí)驗(yàn)中反而帶來更多的分類噪聲,實(shí)驗(yàn)結(jié)果不甚理想。在本文中我們提出另外一種重排序的方法,在保留更多初步最優(yōu)分析結(jié)果的情況下,仍然能夠提高最終標(biāo)注的綜合性能。
在傳統(tǒng)的標(biāo)注模型中,對(duì)角色的標(biāo)注通常是單獨(dú)進(jìn)行的,并且一般對(duì)于一個(gè)句子中的多個(gè)謂詞也是分別進(jìn)行角色標(biāo)注。因此對(duì)于同樣的謂詞來說,或者語(yǔ)義上相近的謂詞來說,由于標(biāo)注時(shí)抽取的都是本地特征,所以最后的全局標(biāo)注結(jié)果無法保證所有的角色標(biāo)注都是一致的。例如,我們從測(cè)試集中找出了關(guān)于謂詞“spur”的三個(gè)不同例句,使用一般的基準(zhǔn)系統(tǒng)[3]進(jìn)行標(biāo)注,標(biāo)注的結(jié)果如下:
For weeks, the market had been nervous about takeovers, after [Campeau Corp.’s cash crunch]ARG1spurred[concern about the prospects for future highly leveraged takeovers]ARG2.
2. [Friday’s market tumble]ARG2[could]ARGM-MODspur[action on reconciling the House and Senateversions of the deficit-reduction measure]ARG1, a process that is not expected to begin until tomorrow at the soonest.
3. Beginning in mid-1987, prices began accelerating as [a growing U.S. economy and the weak dollar]ARG2spurred[demand]ARG1.
在上面的標(biāo)注結(jié)果中,第1個(gè)句子錯(cuò)誤的將謂詞前半部分的名詞短語(yǔ)標(biāo)注為了ARG1而將謂詞后面的名詞短語(yǔ)標(biāo)注為了ARG2,而后面的兩個(gè)句子則完全正確的標(biāo)注了謂詞“spur”的所有角色。至于第1個(gè)句子為什么會(huì)被標(biāo)注錯(cuò)誤,原因比較難以分析,一種可能的解釋是前半部分的中心詞相關(guān)的特征在訓(xùn)練語(yǔ)料中更多可能的是被標(biāo)注為了ARG1。
不過如圖1所示,我們通過對(duì)比第1個(gè)句子和第2個(gè)句子的句法分析結(jié)果,發(fā)現(xiàn)兩個(gè)句子的候選節(jié)點(diǎn)之間無論從語(yǔ)義上還是句法上來說都存在很大的相似度。例如,第1個(gè)句子中的“cash crunch”和第2個(gè)句子中的“market tumble”在語(yǔ)義中都和經(jīng)濟(jì)、金融等語(yǔ)義概念相關(guān),因此具有很強(qiáng)的語(yǔ)義相似性;并且在兩個(gè)句子中,謂詞后面的名詞短語(yǔ)具有很強(qiáng)的句法相似性。因此很自然的想法是能否利用在給定相同謂詞或者語(yǔ)義相近的謂詞情況下,通過候選節(jié)點(diǎn)之間的相似度,將錯(cuò)誤的標(biāo)注結(jié)果糾正過來。為了實(shí)現(xiàn)這個(gè)想法,本文提出一種基于圖模型的迭代算法,通過節(jié)點(diǎn)之間的相似度約束,循環(huán)迭代的調(diào)整標(biāo)注的結(jié)果,最終達(dá)到相似度高的節(jié)點(diǎn)標(biāo)注一致性。
注: 上面的例子是自動(dòng)標(biāo)注錯(cuò)誤的,下面的例子是標(biāo)注正確的。 圖1 兩個(gè)帶有謂詞“spur”的句子標(biāo)注結(jié)果
本文的組織結(jié)構(gòu)如下: 在第2節(jié)中我們將詳細(xì)介紹我們的重排序模型中使用的相似度算法以及標(biāo)記傳播迭代算法;在第3節(jié)中將給出實(shí)驗(yàn)結(jié)果;在第4節(jié)中將簡(jiǎn)單介紹相關(guān)工作;最后在第5節(jié)中總結(jié)本文工作。
如前文所述,我們希望在輸出初步標(biāo)注結(jié)果的情況下,利用一些候選節(jié)點(diǎn)之間的相似度關(guān)系,重新對(duì)標(biāo)注的結(jié)果進(jìn)行排序,使得給定相同謂詞或者語(yǔ)義相近謂詞的情況下,相似度高的候選節(jié)點(diǎn)標(biāo)注的結(jié)果更一致。因此我們?cè)卺槍?duì)每個(gè)謂詞的標(biāo)注過程中,在生成當(dāng)前最優(yōu)標(biāo)注結(jié)果的同時(shí),保留每個(gè)節(jié)點(diǎn)的前k個(gè)分類結(jié)果。值得注意的是,在這里我們不對(duì)所有候選節(jié)點(diǎn)輸出前k個(gè)分類結(jié)果,而僅針對(duì)那些最后生成最優(yōu)標(biāo)注結(jié)果的節(jié)點(diǎn)輸出多個(gè)分類結(jié)果,這樣做的原因是盡可能的減少其他非語(yǔ)義角色節(jié)點(diǎn)帶來的噪聲。
如圖2所示,我們首先對(duì)每個(gè)謂詞進(jìn)行初步角色標(biāo)注,然后對(duì)每個(gè)謂詞中標(biāo)注為語(yǔ)義角色的節(jié)點(diǎn)輸出k個(gè)分類結(jié)果。在完成整個(gè)測(cè)試集的初步標(biāo)注后,我們計(jì)算每個(gè)謂詞和標(biāo)注節(jié)點(diǎn)之間的相似度,并且構(gòu)建圖模型,最后通過循環(huán)迭代,優(yōu)化標(biāo)注的結(jié)果。需要說明的是,我們利用測(cè)試集中的每個(gè)句子中每個(gè)謂詞的所有候選節(jié)點(diǎn),來構(gòu)造圖模型。在實(shí)際應(yīng)用中可以根據(jù)輸入的篇章信息對(duì)集合進(jìn)行切割,由于我們使用的PropBank[4]并沒有篇章標(biāo)記,因此在本文的后面實(shí)驗(yàn)部分,我們采用的是利用整個(gè)測(cè)試集中候選節(jié)點(diǎn)建立圖模型。
在后面幾節(jié)中我們將重點(diǎn)討論如何建立節(jié)點(diǎn)之間的圖模型,以及節(jié)點(diǎn)之間的相似度計(jì)算等主要問題。
圖2 基于圖模型重排序的流程
2.1 圖模型基本定義
我們建立的標(biāo)注圖模型定義如下:
定義1標(biāo)注圖模型G由二元組
以第1節(jié)中的謂詞“spur”的前兩個(gè)句子標(biāo)注結(jié)果為例,圖3給出了標(biāo)注節(jié)點(diǎn)構(gòu)建的圖模型示例,其中節(jié)點(diǎn)A和B為第1個(gè)句子標(biāo)注的結(jié)果,C, D, E為第2個(gè)句子標(biāo)注的結(jié)果,在圖3中,我們沒有將第3個(gè)句子的標(biāo)注結(jié)果加入到圖模型中,以免圖規(guī)模太大難以解釋。
注: 圖中圓點(diǎn)為標(biāo)注節(jié)點(diǎn),邊權(quán)重為節(jié)點(diǎn)之間相似度,旁邊的弧形框?yàn)槌醪綐?biāo)注結(jié)果。圖3 標(biāo)注圖模型
在下面一小節(jié)中我們將主要討論如何計(jì)算圖模型中的邊權(quán)重,即如何計(jì)算兩個(gè)節(jié)點(diǎn)之間的相似度。
2.2 相似度計(jì)算
在我們的標(biāo)注圖模型框架中,最重要的一個(gè)環(huán)節(jié)是計(jì)算節(jié)點(diǎn)之間的相似度,相似度定義的好壞直接決定了圖模型中的標(biāo)注節(jié)點(diǎn)能否收斂到最優(yōu)值。為了衡量?jī)蓚€(gè)節(jié)點(diǎn)是否標(biāo)記為同一語(yǔ)義角色,我們采用如下插值公式,如式(1)所示。
Simi,j=
其中SimPrei,j為兩個(gè)節(jié)點(diǎn)的謂詞之間相似度,SimArgi,j為節(jié)點(diǎn)之間的相似度。由于最后形成的圖非常巨大,因此我們通過SimPrei,j之間的大小來限制節(jié)點(diǎn)間的連線,提高運(yùn)行效率的同時(shí)減少了噪聲,此外對(duì)于同一個(gè)句子的不同節(jié)點(diǎn),我們也不進(jìn)行連邊,因?yàn)樵诔醪綐?biāo)注時(shí)已經(jīng)考慮過同一句子內(nèi)部的節(jié)點(diǎn)信息。對(duì)于SimPre和SimArg的計(jì)算,受Roth和Frank工作[5]的啟發(fā),我們分別計(jì)算節(jié)點(diǎn)謂詞以及節(jié)點(diǎn)中心詞之間的WordNet相似度SimWN,VerbNet相似度SimVN, 分布相似性(Distributional Similarity)SimDist,并且計(jì)算節(jié)點(diǎn)句法樹之間的樹核相似度SimKernel,最后通過插值得到兩個(gè)節(jié)點(diǎn)之間的標(biāo)注相似度。下面我們將分別介紹以上四類相似度的計(jì)算方法。
WordNet相似度: 對(duì)于給定的兩個(gè)謂詞pre1和pre2,我們可以利用WordNet[6]獲取出他們的所有同義詞集合Syn1以及Syn2,我們計(jì)算兩個(gè)集合之間任意詞之間的最大值,即
其中SimWN_Lin為L(zhǎng)in[7]提出的利用WordNet計(jì)算兩個(gè)詞之間相似度的方法。在這里,為了計(jì)算兩個(gè)詞之間的WordNet距離,我們采用和Roth等人相同的方法: 首先獲取兩個(gè)詞在WordNet里面的最近公共包含LCS(Syni,Synj),以兩個(gè)常見的名詞“dog”和“cat”為例,圖4給出了它們的上位詞樹(Hypernyms Tree),并且將最近公共包含“carnivore”加粗標(biāo)記出來。
對(duì)于Syni,Synj以及LCS(Syni,Synj)來說,我們利用Information Content(IC)[8]來計(jì)算它們之間的相似度。IC值是用來衡量WordNet中一個(gè)語(yǔ)義概念出現(xiàn)概率的方法之一,一般來說,對(duì)于WordNet分類C(taxonomy)中的一個(gè)概念c1和他的上位詞c2(c1IS-Ac2)來說,他們出現(xiàn)的概率一般滿足p(c1) ≤p(c2),并且分類中的最頂層節(jié)點(diǎn)的概率為1。Resnik定義的IC計(jì)算方式為式(3)。
其中N為語(yǔ)料庫(kù)中的所有單詞個(gè)數(shù),freq(c)為
其中words(c)為概念c包含的所有單詞,count(w)為單詞在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)。因此按照上面兩個(gè)公式計(jì)算,上位詞的出現(xiàn)概率要高于下位詞。
注: 其中實(shí)線為IS-A鏈接,虛線表示為了節(jié)省表述空間,中間省略了很多節(jié)點(diǎn)。圖4 WordNet中dog和cat的最近公共包含為carnivore
因?yàn)镻edersen等人[9]預(yù)先已經(jīng)計(jì)算好了WordNet中所有詞的IC值,并且提供了IC文件*http://www.d.umn.edu/~tpederse/similarity.html下載,因此我們直接從里面檢索結(jié)果來計(jì)算下面的公式,如式(5)所示。
VerbNet相似度: 由于在WordNet中對(duì)于動(dòng)詞的標(biāo)注存在一些設(shè)計(jì)錯(cuò)誤[10],如Richens發(fā)現(xiàn)的在WordNet中有些動(dòng)詞在上位詞樹中的關(guān)系形成了一個(gè)環(huán),因此為了更準(zhǔn)確的計(jì)算謂詞之間的相似度,我們利用VerbNet[11]來進(jìn)一步計(jì)算謂詞之間的語(yǔ)義距離。VerbNet中的動(dòng)詞根據(jù)他們的一些句法特性將其歸為了多個(gè)類別,并且形成一個(gè)類別樹,即一個(gè)類別C可能存在多個(gè)子類別Cs使得Cs∈sub(C),我們采用Roth和Frank相同的特征函數(shù)計(jì)算兩個(gè)謂詞之間的SimVN(prei,prej)值:
SimVN(prei,prej)
分布相似性: 畢竟WordNet和VerbNet的覆蓋面有限,對(duì)于節(jié)點(diǎn)中的一些中心詞或者謂詞不一定出現(xiàn)在上面兩個(gè)資源庫(kù)中, 因此我們利用Giga- Word*http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2003T05來計(jì)算詞之間的分布相似性。分布相似性可以看作是給定大小的語(yǔ)義向量空間內(nèi)的語(yǔ)義距離[12],是一種通過大規(guī)模語(yǔ)料統(tǒng)計(jì)計(jì)算任意詞之間語(yǔ)義相似度的有效方法之一。我們參照一些成熟工作的做法[13-14],提取每個(gè)謂詞prei左右上下文單詞,并且利用從GigaWord中計(jì)算的頻度中選取最高頻的2 000個(gè)單詞(c1,c2,...,c2000)作為向量維度,通過計(jì)算每個(gè)謂詞和高頻詞之間的點(diǎn)間互信息(PMI)構(gòu)成每個(gè)謂詞的向量空間:
PMI(prei,c2000))(7)
其中
freq(prei),freq(cj)以及freq(prei,cj)為謂詞、高頻詞在語(yǔ)料庫(kù)中單獨(dú)出現(xiàn)和共現(xiàn)的次數(shù)。
利用每個(gè)謂詞的向量空間值,我們采用最簡(jiǎn)單的Cosin距離計(jì)算他們之間的分布相似性數(shù)值。
樹核相似度: 對(duì)于論元來說,通常包含多個(gè)單詞,僅僅使用詞級(jí)別的特征來衡量他們之間的相似度是不夠的,因此我們利用他們之間的句法樹來計(jì)算句法距離,即通過卷積樹核計(jì)算兩棵句法樹之間的相似度。不同于樹結(jié)構(gòu)的字符串表示形式,卷積樹核[15]通過特征向量來表示不同的句法樹。一般來說,一棵句法樹t可以使用特征向量f來表示,f可以表示為f(t)=(st1(t), …,sti(t), …,stn(t),其中sti(t)表示的是句法樹t中第i棵子樹出現(xiàn)的次數(shù)。圖5給出了一棵句法樹拆分為子樹的例子,可以看出盡管圖例的句法片段很小,但是枚舉出來的子樹規(guī)模仍然多達(dá)5棵。
圖5 第一棵樹為句法樹片段,后面5棵樹為其拆分后的所有子樹。
一般而言,對(duì)于樹高度為l的滿二叉樹來說,其可以拆分枚舉的子樹個(gè)數(shù)為2l+1。因此對(duì)于一般的句法樹片段而言,直接枚舉所有子樹是不可能的,因此Collins和Duffy提出了使用卷積樹核來高效計(jì)算兩棵句法樹相似度的方法。
其中N1和N2分別是句法樹t1和t2的節(jié)點(diǎn)集合,Ii(n)表示句法樹的子樹是否以n作為根節(jié)點(diǎn),是則為1,反之為0;表示兩棵句法樹中分別以n1和n2作為根節(jié)點(diǎn)的子樹個(gè)數(shù)。并且C(n1,n2)可以通過下面的定義在多項(xiàng)式時(shí)間內(nèi)計(jì)算出來:
其中nc(n1)表示節(jié)點(diǎn)n1包含的推導(dǎo)中子節(jié)點(diǎn)個(gè)數(shù),由于節(jié)點(diǎn)n1和n2的推導(dǎo)相同,所以nc(n1)=nc(n2),此外h(n1,j)表示n1包含的推導(dǎo)中第j個(gè)子節(jié)點(diǎn)。λ(0≤λ≤1)是懲罰因子,用來降低子樹規(guī)模對(duì)C(n1,n2)大小的影響。上面的式子可以通過動(dòng)態(tài)規(guī)劃在多項(xiàng)式時(shí)間內(nèi)計(jì)算得出。
因此最后我們通過歸一化計(jì)算出圖模型中節(jié)點(diǎn)ai,aj之間的樹核相似度。
歸一化: 對(duì)于圖模型中的任意兩個(gè)節(jié)點(diǎn)ai,aj及其對(duì)應(yīng)的謂詞prei,prej,我們通過式(12)計(jì)算節(jié)點(diǎn)之間邊權(quán)重:
Simai,aj=α·SimPrei,j+(1-α)·SimArgi,j
=α·(λ1SimWN(prei,prej)
+λ2SimVN(prei,prej)
+λ3SimDist(prei,prej))(12)
+(1-α)(θ1SimWN(hai,haj)
+θ2SimVN(hai,haj)
+θ3SimDist(hai,haj)
+θ4SimKernel(ai,aj))(13)
其中hai和haj分別為節(jié)點(diǎn)ai和aj的中心詞。并且當(dāng)SimPrei,j< 0.5時(shí),我們不建立ai和aj之間的邊。
為了便于參數(shù)調(diào)整我們對(duì)λ和θ兩組參數(shù)進(jìn)行歸一化,即滿足λ1+λ2+λ3= 1.0和θ1+θ2+θ3+θ4=1.0。
2.3 標(biāo)記傳播迭代算法
對(duì)于一個(gè)帶有標(biāo)記的圖模型來說,根據(jù)每個(gè)節(jié)點(diǎn)的一些本地信息,我們通常利用一些迭代算法,也可以稱之為標(biāo)記傳播,對(duì)節(jié)點(diǎn)的本地信息進(jìn)行互相傳播,最終優(yōu)化到一個(gè)全局穩(wěn)定的最優(yōu)分布。標(biāo)記傳播算法在自然語(yǔ)言處理中已經(jīng)被廣泛的使用,例如,用于詞性標(biāo)注[16-17],無監(jiān)督語(yǔ)義角色標(biāo)注[18]語(yǔ)義分析[19],機(jī)器翻譯[20],指代消解等問題[21-22]。
在前面小節(jié)中我們已經(jīng)對(duì)圖模型給出了基本的定義,在這里我們?cè)俣x一個(gè)表示節(jié)點(diǎn)vi標(biāo)記為角色標(biāo)注l的兼容度Sil。對(duì)于一個(gè)節(jié)點(diǎn)標(biāo)記為某一標(biāo)注的兼容度,可以有多種計(jì)算方式[23],在本文中,我們采取最簡(jiǎn)單的計(jì)算方式,即一個(gè)節(jié)點(diǎn)的標(biāo)注兼容度表示為和其相鄰的節(jié)點(diǎn)標(biāo)記為同一標(biāo)注的概率與邊權(quán)重之和,如式(14)所示。
其中A(vi)表示為和節(jié)點(diǎn)vi相連接的其他節(jié)點(diǎn)。
迭代算法的目標(biāo)在于找到一組標(biāo)注概率分布,使得圖模型中的節(jié)點(diǎn)最大可能的滿足標(biāo)注一致性,也可以等價(jià)為最大化每個(gè)節(jié)點(diǎn)的標(biāo)注兼容度。因此要達(dá)到一個(gè)全局最優(yōu)的標(biāo)注概率分布H*必須滿足下面的約束條件。
Algorithm 1標(biāo)記傳播迭代算法
1:輸入: 圖G,節(jié)點(diǎn)的初步標(biāo)注概率分布H
2:輸出: 節(jié)點(diǎn)的全局最優(yōu)標(biāo)注概率分布H*
3: for 循環(huán)次數(shù)t≤1000 do
4: for 對(duì)于圖中每個(gè)節(jié)點(diǎn)vido
5: for 對(duì)于節(jié)點(diǎn)的每個(gè)可能標(biāo)注ldo
?計(jì)算每個(gè)節(jié)點(diǎn)的標(biāo)注兼容度Sil
7: for 對(duì)于節(jié)點(diǎn)的每種可能標(biāo)注ldo
?更新節(jié)點(diǎn)vi的標(biāo)注概率分布
算法1給出了迭代算法的詳細(xì)過程,我們對(duì)圖中的每個(gè)節(jié)點(diǎn)迭代1 000輪,首先在第6行計(jì)算每個(gè)節(jié)點(diǎn)的當(dāng)前標(biāo)注兼容度,在第8行通過重新計(jì)算的標(biāo)注兼容度歸一化后更新當(dāng)前的標(biāo)注概率分布,最后迭代1 000輪達(dá)到全局最優(yōu)概率分布。
3.1 實(shí)驗(yàn)數(shù)據(jù) 我們采用PropBank數(shù)據(jù)集,根據(jù)CoNLL-2005的切分策略和自動(dòng)句法分析樹進(jìn)行實(shí)驗(yàn),使用PropBank中的02-21分塊作為訓(xùn)練集,第24塊用于開發(fā)集,第23塊用于測(cè)試集。整個(gè)數(shù)據(jù)集由43 594個(gè)句子組成,其中有262 281個(gè)論元角色,包含35種語(yǔ)義角色,分別是ARG0-ARG5, AA, 14個(gè)修飾角色ARGM-X以及14個(gè)引用論元R-X。
3.1實(shí)驗(yàn)結(jié)果
我們采用前人工作總結(jié)的比較有效的判別特征[1,24,25,2,26]設(shè)計(jì)基準(zhǔn)對(duì)比系統(tǒng),并且我們進(jìn)行性能測(cè)試時(shí)做了一些細(xì)微調(diào)整,以此來查看重排序潛在的提升空間。例如,如果準(zhǔn)確的標(biāo)注結(jié)果是ARG0,ARG1,ARG2,ARGM-MOD,ARGM-TMP這五個(gè)語(yǔ)料中分布最多的角色時(shí),當(dāng)我們將基準(zhǔn)系統(tǒng)的最優(yōu)標(biāo)注結(jié)果的節(jié)點(diǎn)輸出前k個(gè)概率最高的角色標(biāo)注集合里面包含這五個(gè)角色時(shí),則無論其是否為最優(yōu)的,我們都認(rèn)為標(biāo)注準(zhǔn)確,以此來查看這個(gè)角色重排序時(shí)能達(dá)到的最高性能。例如某節(jié)點(diǎn)輸出的前2個(gè)標(biāo)注結(jié)果是ARG1=0.5,ARG0=0.4,而此節(jié)點(diǎn)的正確標(biāo)注是ARG0,則我們?nèi)哉J(rèn)為此標(biāo)注結(jié)果正確。表1給出了輸出1,2,3,5個(gè)概率最高角色標(biāo)注結(jié)果時(shí)(去除標(biāo)記為NULL的標(biāo)注結(jié)果),在五個(gè)主要角色中重排序模型在開發(fā)集中所能達(dá)到的最高性能(F值),k=1實(shí)際上就是基準(zhǔn)系統(tǒng)的性能。
從圖1中可以看出,隨著輸出的候選結(jié)果越多,幾個(gè)主要的語(yǔ)義角色都有了不少性能提升,并且僅輸出2個(gè)候選結(jié)果時(shí),總體的性能上限都可以提升3個(gè)點(diǎn)左右。同時(shí)我們也發(fā)現(xiàn),最優(yōu)的標(biāo)注結(jié)果一般都在前3個(gè)候選結(jié)果中,當(dāng)k=5時(shí)性能已不再發(fā)生太大的變化,因此在后面的實(shí)驗(yàn)中我們都只輸出標(biāo)注的前3個(gè)結(jié)果。
特征參數(shù)實(shí)驗(yàn)
由于我們使用了α,β,θ三組參數(shù)進(jìn)行控制相似度計(jì)算,因此參數(shù)很不好調(diào)節(jié)。我們的參數(shù)調(diào)整策略為,每次剔除一個(gè)相似度計(jì)算方法,其他權(quán)重采用平均化處理,通過查看實(shí)驗(yàn)結(jié)果大致給出每個(gè)相似度計(jì)算方法的權(quán)重比例。最后通過固定β和θ的值,每次對(duì)α調(diào)整0.1個(gè)單位。表2給出了以上實(shí)驗(yàn)配置思路的不同實(shí)驗(yàn)結(jié)果,其中WordNet_表示去除WordNet特征后的實(shí)驗(yàn)結(jié)果,其他類似。優(yōu)化為根據(jù)前面幾組實(shí)驗(yàn)結(jié)果優(yōu)化調(diào)整參數(shù)后的結(jié)果。從表2的實(shí)驗(yàn)結(jié)果中,我們可以看出在前三個(gè)語(yǔ)義特征中Dist起到的作用最大,因?yàn)槿コ@個(gè)特征后系統(tǒng)所能取得的性能提升最小。此外我們發(fā)現(xiàn)去除kernel特征后,系統(tǒng)性能反而比基準(zhǔn)系統(tǒng)還差了。一個(gè)可能的解釋在于去除這個(gè)特征后,對(duì)于節(jié)點(diǎn)的相似度只能完全依靠節(jié)點(diǎn)的中心詞相似度進(jìn)行計(jì)算,而句法錯(cuò)誤時(shí)中心詞也有可能是錯(cuò)的,因此句法錯(cuò)誤將會(huì)影響到圖中節(jié)點(diǎn)的相似度計(jì)算,但是采用樹核計(jì)算則可以減少句法分析錯(cuò)誤的影響。因此根據(jù)上面四組的特征貢獻(xiàn)度,我們根據(jù)經(jīng)驗(yàn)性的調(diào)整每個(gè)權(quán)重的大小,最后在如下權(quán)重設(shè)置時(shí):α=0.6,λ1=0.2,λ2=0.3,λ3=0.5,θ1=0.1,θ2=0.15,θ3=0.25,θ4=0.5,如表2所示,系統(tǒng)達(dá)到了80%的F值。雖然最后的結(jié)果距離可能達(dá)到的系統(tǒng)性能上限82.08具有一定的距離,但是已經(jīng)超過基準(zhǔn)系統(tǒng)2.4個(gè)點(diǎn),并且超過了Toutanova等人得到的性能提升。
表1 重排序可能達(dá)到的最高性能
利用重排序改進(jìn)語(yǔ)義角色標(biāo)注性能的方法最有效的工作為前文詳細(xì)介紹過的Toutanova等人[2]的工作,和本文不同的是他們是對(duì)一個(gè)謂詞整體標(biāo)注的前k個(gè)最好標(biāo)注結(jié)果利用語(yǔ)言模型重排序,而本文是通過節(jié)點(diǎn)之間的相似度對(duì)標(biāo)注結(jié)果進(jìn)行重新排序。
類似的使用圖模型對(duì)問題建模,并且根據(jù)節(jié)點(diǎn)間的相似度對(duì)節(jié)點(diǎn)標(biāo)注結(jié)果進(jìn)行迭代的思想最早由Zhu和Zoubin于2002年[27]提出,最早用于解決半監(jiān)督的學(xué)習(xí)問題。
和本文較為相近的工作為L(zhǎng)ang和Lapta[18]提出的利用圖分割算法對(duì)語(yǔ)義角色標(biāo)注進(jìn)行無監(jiān)督學(xué)習(xí),他們通過利用詞匯和句法兩個(gè)插值特征來衡量候選論元之間的相似度,并且將最后的聚類問題轉(zhuǎn)化為圖分割算法進(jìn)行求解。
表2 采用不同相似度公式配置下的實(shí)驗(yàn)結(jié)果
本文提出了一種利用圖模型算法對(duì)語(yǔ)義角色標(biāo)注結(jié)果進(jìn)行重新排序的方法,通過對(duì)標(biāo)注節(jié)點(diǎn)之間的相似度計(jì)算,利用標(biāo)記傳播算法將不同節(jié)點(diǎn)的標(biāo)注信息進(jìn)行互相傳遞,最終達(dá)到全局標(biāo)注結(jié)果的一致性。并且本文分析了理想情況下,迭代算法所能達(dá)到的最好性能,最后的實(shí)驗(yàn)證明,使用標(biāo)記傳播算法迭代調(diào)整后,在篇章級(jí)別上的語(yǔ)義角色標(biāo)注性能有了2.4個(gè)F值的顯著提升。此外本文的工作還表明語(yǔ)義角色標(biāo)注的標(biāo)準(zhǔn)結(jié)果基本保留在語(yǔ)義角色候選節(jié)點(diǎn)的前3個(gè)標(biāo)注結(jié)果中,這個(gè)結(jié)論有利于將語(yǔ)義角色標(biāo)注應(yīng)用于如機(jī)器翻譯等應(yīng)用中,進(jìn)而彌補(bǔ)當(dāng)前語(yǔ)義角色標(biāo)注性能不足的缺陷。
[1] Daniel Gildea, Daniel Jurafsky. Automatic labeling of semantic roles[J]. Computational Linguistics, 2002, 8(3):245-288.
[2] Kristina Toutanova, Aria Haghighi, Christopher D Manning. A global joint model for semantic role labeling[J]. Computational Linguistics, 2008, 34(2):161-191.
[3] Sameer Pradhan, WayneWard, Kadri Hacioglu, et al. Semantic role labeling using different syntactic views[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Michigan State, USA: ACL Publication Chairs, 2005: 581-588.
[4] Martha Palmer, Daniel Gildea, and Paul Kingsbury. The proposition bank: an annotated corpus of semantic roles[J]. Computational Linguistics, 2005, 31(1):71-106.
[5] Michael Roth and Anette Frank. Aligning predicates across monolingual comparable texts using graph-based clustering[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea: ACL Publication Chairs, July 2012: 171-182.
[6] Christiane Fellbaum. Wordnet. Theory and Applications of Ontology: Computer Applications[M]. USA: Springer, 2010: 231-243.
[7] Dekang Lin. An information-theoretic definition of similarity[C]//Proceedings of the 15th International Conference on Machine Learning. San Francisco: ICML Publication Chairs, 1998, (1): 296-304.
[8] Philip Resnik. Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence. Montréal Québec, Canada: Morgan Kaufmann, 1995, (2): 448-453.
[9] Ted Pedersen, Siddharth Patwardhan, and Jason Michelizzi. Wordnet::similarity—measuring the relatedness of concepts[C]//Proceedings of HLT-NAACL 2004 Demonstration Papers. Boston, Massachusetts, USA: NAACL Publication Chairs, 2004: 38-41.
[10] Tom Richens. Anomalies in the WordNet verb hierarchy[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee, August 2008: 729-736.
[11] Karin Kipper, Anna Korhonen, Neville Ryant, et al. A large-scale classification of english verbs[J]. Language Resources and Evaluation, 2008, 42(1):21-40.
[12] Thomas K Landauer, Susan T Dumais. A solution to plato’s problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge[J]. Psychological Review, 1997, 104(2):211.
[13] Jeff Mitchell, Mirella Lapata. Composition in distributional models of semantics[J]. Cognitive Science, 2010, 34(8):1388-1429.
[14] Weiwei Guo, Mona Diab. Semantic topic models: Combining word distributional statistics and dictionary definitions[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK: EMNLP Publication Chairs, July 2011: 552-561.
[15] Michael Collins, Nigel Duffy, et al. Convolution kernels for natural language[C]//Proceedings of NIPS. Granada, Spain: NIPS Publication Chairs, 2001, (14): 625-632.
[16] Lluis Marquez, Lluis Padro, Horacio Rodriguez. A machine learning approach to pos tagging[J]. Machine Learning, 2000, 39(1):59-91.
[17] Dipanjan Das, Slav Petrov. Unsupervised part-of-speech tagging with bilingual graph-based projections[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. Portland, Oregon, USA: ACL Publication Chairs, June 2011: 600-609.
[18] Joel Lang, Mirella Lapata. Unsupervised semantic role induction with graph partitioning[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK: EMNLP Publication Chairs, July 2011: 1320-1331.
[19] J Atserias. Towards Robustness in Natural Language Understanding[D]. Donosti, Spain:Dept. Lenguajes y Sistemas Inform′aticos. Euskal Herriko Unibertsitatea, 2006.
[20] Shujie Liu, Chi-Ho Li, Mu Li, et al. Learning translation consensus with structured label propagation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, Jeju Island, Korea: ACL Publication Chairs, July 2012: 302-310.
[21] GuoDong Zhou, Fang Kong. Global learning of noun phrase anaphoricity in coreference resolution via label propagation[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: EMNLP Publication Chairs, 2009: 978-986.
[22] Emili Sapena, Llu′?s Padr′o, Jordi Turmo. A global relaxation labeling approach to coreference Resolution[C]//Proceedings of Coling 2010: Posters. Beijing, China: Coling 2010 Organizing Committee, August 2010, pages 1086-1094.
[23] Carme Torrasi Gems. Relaxation and neural learning: points of convergence and divergence[J]. Journal of Parallel and Distributed Computing, 1989, 6(2):217-244.
[24] Mihai Surdeanu, Sanda Harabagiu, John Williams, Paul Aarseth. Using predicate-argument structures for information extraction[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Japan: ACL Publication Chairs, 2003, 8-15.
[25] Sameer Pradhan, Wayne Ward, Kadri Hacioglu, James Martin, and Dan Jurafsky. Shallow semantic parsing using support vector machines[C]//Proceedings of HLT/NAACL. Boston, USA: 2004, page 233.
[26] 劉挺,車萬翔,李生. 基于最大熵分類器的語(yǔ)義角色標(biāo)注[J]. 軟件學(xué)報(bào), 2007, 18(3):565-573.
[27] Xiaojin Zhu, Zoubin Ghahramani. Learning from labeled and unlabeled data with label propagation[N]. Technical report, Technical Report CMU-CALD-02-107, Carnegie Mellon University, 2002.