車婷婷,洪 宇,周小佩,嚴(yán)為絨,姚建民,朱巧明
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語(yǔ)言處理重點(diǎn)實(shí)驗(yàn)室,江蘇蘇州215006)
目前,語(yǔ)義分析已從傳統(tǒng)的詞義、句法研究及句子內(nèi)的語(yǔ)義角色標(biāo)注,逐漸深入到語(yǔ)義上連貫且結(jié)構(gòu)上銜接的文本片段(包括子句、句子、段落和篇章)的語(yǔ)義關(guān)系研究。篇章語(yǔ)義關(guān)系(Discourse Rela-tion)研究旨在推斷篇章內(nèi)部相鄰文本片段,或跨度在一定范圍內(nèi)的多個(gè)片段間的邏輯關(guān)系。篇章語(yǔ)義關(guān)系研究不僅能夠有效輔助篇章語(yǔ)義的機(jī)器學(xué)習(xí)和篇章組織結(jié)構(gòu)的自動(dòng)劃分,而且在自然語(yǔ)言處理領(lǐng)域有廣泛的應(yīng)用價(jià)值:如篇章因果關(guān)系可應(yīng)用于自動(dòng)問(wèn)答系統(tǒng)、事件關(guān)系抽取和檢測(cè)[1-2]等;擴(kuò)展關(guān)系可應(yīng)用于自動(dòng)文摘生成、篇章關(guān)鍵詞識(shí)別[3]等;對(duì)比關(guān)系可應(yīng)用于情感分析研究,輔助實(shí)現(xiàn)句內(nèi)的情感極性判斷[4]等。
根據(jù)論元(即論述特定語(yǔ)義的文字片段)間是否存在顯式連接詞,篇章關(guān)系分為顯式和隱式篇章關(guān)系(Explicit &Implicit Discourse Relation)。前者可借助顯式連接詞(如“因?yàn)椤保┘捌潢P(guān)系映射(如“因?yàn)椤庇成錇椤耙蚬P(guān)系”)進(jìn)行直接的關(guān)系檢測(cè);后者需根據(jù)上下文內(nèi)容或語(yǔ)義特征,進(jìn)行間接的關(guān)系推理。如(1)中的顯式關(guān)系可借助連接詞“but”直接判定為“對(duì)比”關(guān)系;而(2)本身不具備連接詞“because”,僅能通過(guò)上下文推測(cè)為“因果關(guān)系”。(注:兩例分別抽選自賓州篇章樹庫(kù)PDTB的顯式和隱式關(guān)系樣本集)
(1)Arg1①賓州樹庫(kù)(PTB)是對(duì)WSJ語(yǔ)料進(jìn)行句法結(jié)構(gòu)標(biāo)注的公認(rèn)語(yǔ)料資源http://www.cis.upenn.edu/~treebank/:She can stay there with no heat
譯文:她能夠待在不熱的地方
Arg2:but for a parakeet that can be deadly.
譯文:但對(duì)長(zhǎng)尾鸚鵡來(lái)說(shuō),這可能是致命的
——Explicit Discourse Relation:
Comparison(顯式篇章關(guān)系:比較關(guān)系)
(2)Agr1:The administration's concerns are understandable
譯文:政府的擔(dān)心是可以理解的
Arg2:[Implicit="because"]the economy is showing signs of weakness.
譯文:[隱式=“因?yàn)椤保萁?jīng)濟(jì)正呈現(xiàn)疲軟現(xiàn)象
——Implicit Discourse Relation:
Contingency(隱式篇章關(guān)系:因果關(guān)系)
PDTB(Penn Discourse TreeBank)語(yǔ)料已針對(duì)大量“論元對(duì)”(Arg1-Arg2),標(biāo)注了由顯式連接詞表征的跨論元顯式篇章關(guān)系如(1)所示,以及包含潛在連接詞的跨論元隱式篇章關(guān)系如(2)所示,其中的“because”是由標(biāo)注者結(jié)合具體語(yǔ)義適當(dāng)添加的。目前,對(duì)于顯式篇章關(guān)系的研究,精確率已達(dá)93.09%[5]。顯式關(guān)系實(shí)例因自身包含連接詞,能避免篇章理解歧義;而隱式關(guān)系實(shí)例欠缺顯式連接詞等直接線索,須通過(guò)上下文、句法、語(yǔ)義信息等自然語(yǔ)言理解的方式進(jìn)行判斷。而上下文信息的不確定性、句子結(jié)構(gòu)的復(fù)雜性、語(yǔ)義關(guān)系的歧義性以及數(shù)據(jù)稀疏問(wèn)題,往往誤導(dǎo)關(guān)系推理。針對(duì)PDTB隱式關(guān)系檢測(cè)的最新研究[6],第一層關(guān)系的分類精度僅能達(dá)到40.0%。
針對(duì)隱式篇章關(guān)系推理難點(diǎn),本文經(jīng)驗(yàn)性發(fā)現(xiàn):篇章中除顯式連接詞能夠直接反映語(yǔ)義關(guān)系外,還存在一種潛在反映篇章關(guān)系的功能性連接詞(Functional Connective,簡(jiǎn)稱FC)。其與隱式論元對(duì)往往構(gòu)成緊密的語(yǔ)義關(guān)系和依存結(jié)構(gòu),有助于隱式關(guān)系推理。如(3)中的功能連接詞“provoke”非顯式連接詞,但其潛在地觸發(fā)了隱式論元對(duì)間的因果關(guān)系。
(3)Arg1:A buildup in inventories can
Arg2:provoke cutbacks in production that can lead to a recession.
(譯文:庫(kù)存的增加可能引發(fā)能夠?qū)е陆?jīng)濟(jì)不景氣的生產(chǎn)的縮減。)
(PDTB 2.0_Contingency)
根據(jù)功能連接詞的這一優(yōu)勢(shì),本文提出一種基于功能連接詞的隱式篇章關(guān)系推理方法。基本思想包括:針對(duì)特定篇章關(guān)系類別的功能連接詞(人工收集183項(xiàng)并劃分篇章關(guān)系類別),利用大規(guī)模語(yǔ)言學(xué)資源,挖掘包含這類功能連接詞的“論元對(duì)”集合,并對(duì)這一集合構(gòu)建概念模型A,形成“概念—關(guān)系”映射體系;篇章關(guān)系推理過(guò)程中,對(duì)給定的待測(cè)論元對(duì)構(gòu)建概念模型B,并利用統(tǒng)計(jì)策略得到與其相似度匹配最高的概念模型A,及其在上述映射體系中對(duì)應(yīng)的篇章關(guān)系,實(shí)現(xiàn)待測(cè)論元對(duì)篇章關(guān)系的推理。這一過(guò)程中,本文利用功能連接詞的特性構(gòu)建概念模型A,用以解決待測(cè)論元對(duì)概念模型B的稀疏性,完善了推理機(jī)制。
本文構(gòu)建的概念模型,用于描述“同類論元對(duì)”或待測(cè)論元對(duì)的語(yǔ)義特征(注:“同類論元對(duì)”即包含一致功能連接詞的論元對(duì))。概念模型可細(xì)分為實(shí)體/行為/狀態(tài)概念子模型,它們分別為論元對(duì)三種屬性特征的抽象描述,表征了論元對(duì)的語(yǔ)義特征集合及概率分布。
本文組織結(jié)構(gòu)如下:第2節(jié)簡(jiǎn)介隱式篇章關(guān)系識(shí)別的任務(wù)定義;第3節(jié)回顧相關(guān)工作;第4節(jié)給出基于功能連接詞推理隱式關(guān)系的主體框架;第5節(jié)詳細(xì)介紹功能連接詞的挖掘與分類、概念模型的構(gòu)建方法、面向“概念—關(guān)系”映射的模型匹配方法;第5節(jié)給出實(shí)驗(yàn)結(jié)果并進(jìn)行分析;第7節(jié)進(jìn)行總結(jié)與展望。
Wang和Su等[6]定義了篇章關(guān)系識(shí)別的核心任務(wù),即自動(dòng)檢測(cè)同一篇章內(nèi),相鄰片段(也稱論元對(duì))之間的語(yǔ)義關(guān)系。隱式篇章關(guān)系檢測(cè)是在沒(méi)有顯式連接詞作為推理線索的情況下,對(duì)篇章關(guān)系予以判定。
PDTB建立了篇章語(yǔ)義關(guān)系體系[7],通用于顯式和隱式篇章關(guān)系檢測(cè),該體系分為三個(gè)層級(jí):第一層包含四種主要的關(guān)系類別,即比較關(guān)系(Comparison)、偶然性關(guān)系(Contingency)、擴(kuò)展關(guān)系(Expansion)以及時(shí)序關(guān)系(Temporal);第二、三層分別在上一層關(guān)系的基礎(chǔ)上進(jìn)一步細(xì)分。由此,篇章關(guān)系(包括顯式和隱式)檢測(cè)系統(tǒng)的標(biāo)準(zhǔn)輸出,即為反映特定論元對(duì)篇章語(yǔ)義關(guān)系類別的標(biāo)簽(如因果關(guān)系)。本文主要針對(duì)PDTB v2關(guān)系體系中第一層的四種隱式篇章關(guān)系進(jìn)行推理分類。
自PDTB和RSTDT語(yǔ)料[8]發(fā)布以來(lái),篇章語(yǔ)義分析和篇章結(jié)構(gòu)分析的研究獲得了更深層次的發(fā)展。目前篇章語(yǔ)義關(guān)系識(shí)別的研究側(cè)重采用全監(jiān)督或半監(jiān)督學(xué)習(xí)的方法,研究重點(diǎn)在于使用各種語(yǔ)言學(xué)特征,實(shí)現(xiàn)篇章關(guān)系判定和分類。
Marcu和Echihabi[9]使用詞對(duì)共現(xiàn)特征檢測(cè)文本片段間隱式篇章關(guān)系的存在。Saito和Yamamoto等[10]在此基礎(chǔ)上聯(lián)合使用短語(yǔ)特征,提升了日文隱式關(guān)系檢測(cè)的性能。Wellner等在GraphBank[11]上通過(guò)實(shí)驗(yàn)證明,顯式連接詞與論元間的距離特征,對(duì)顯式關(guān)系的整體分析有重要作用,然而在隱式關(guān)系檢測(cè)中無(wú)法獲得較優(yōu)性能,主要原因是顯隱式關(guān)系本身的差異性(隱式論元間不包含顯式連接詞等)。Pitler和Louis等[12]首次單獨(dú)針對(duì)PDTB中隱式關(guān)系進(jìn)行分類,使用情感詞極性、動(dòng)詞短語(yǔ)長(zhǎng)度、句子首尾單詞對(duì)以及上下文等語(yǔ)言特征,最終分類結(jié)果優(yōu)于隨機(jī)分類的性能。
Soricut和Marcu[13]基于RSTDT語(yǔ)料,鑒別了不同特征對(duì)篇章關(guān)系識(shí)別的作用,主要驗(yàn)證了單純的句法特征并不適用于句間的隱式關(guān)系識(shí)別。Wang和Su[6]基于卷積樹核函數(shù)提取論元的句法結(jié)構(gòu)特征,第一層隱式關(guān)系分類精確率只達(dá)到40.0%。Lin和Ng等[14]基于全監(jiān)督學(xué)習(xí)的分類框架,使用句法結(jié)構(gòu)特征、論元的嵌套關(guān)系及成分依存特征(從論元對(duì)依存樹中抽取常用詞匯)等,第二層隱式關(guān)系分類精確率達(dá)到40.2%。
Zhou等[15]借助預(yù)測(cè)顯式連接詞來(lái)判斷隱式篇章關(guān)系,主要通過(guò)統(tǒng)計(jì)語(yǔ)言模型推測(cè)適用于當(dāng)前隱式論元間的連接詞,再將預(yù)測(cè)的連接詞作為附加特征用于分類,篇章關(guān)系的四元分類精確率達(dá)到41.35%,而關(guān)系的二元分類(即針對(duì)四種篇章關(guān)系中的某一種,判斷待測(cè)論元對(duì)是否屬于這種關(guān)系)精確率僅在偶然性和時(shí)序關(guān)系上有所提升(分別為70.79%和70.51%),但對(duì)擴(kuò)展和比較關(guān)系的分類性能仍然偏低,說(shuō)明通過(guò)預(yù)測(cè)顯示連接詞推理隱式關(guān)系的缺陷。這也是本文選擇使用功能連接詞,而非顯式連接詞的原因之一。
本文探究基于功能連接詞,構(gòu)建論元對(duì)概念模型,實(shí)現(xiàn)隱式篇章關(guān)系推理。推理的主體架構(gòu)主要包括三個(gè)方面:基于功能連接詞的論元對(duì)歸類、概念模型的構(gòu)建與內(nèi)部聚類和基于“概念—關(guān)系”映射體系的隱式篇章關(guān)系推理。下面分別予以概述。
本文中對(duì)隱式論元對(duì)的歸類,以及后續(xù)“概念—關(guān)系”映射體系的構(gòu)建都需要借助功能連接詞。較以往使用PDTB顯式連接詞的研究不同,本文選擇功能連接詞源于如下因素:
· 相較于功能連接詞,顯式連接詞多為語(yǔ)義不明確的虛詞(歧義大)且分布極不均衡,對(duì)論元?dú)w類和映射體系的構(gòu)建往往產(chǎn)生誤導(dǎo)。如顯示連接詞“since”同時(shí)具有“自從”和“因?yàn)椤钡暮x,篇章關(guān)系分類需針對(duì)性消歧;而“and”在論元間的分布概率達(dá)0.57(統(tǒng)計(jì)自PDTB v2),且很多并不映射為擴(kuò)展關(guān)系,僅表征語(yǔ)氣停頓或一致性等。如(4)的篇章關(guān)系非“and”表征的擴(kuò)展關(guān)系,而是功能連接詞“unlike”表征的比較關(guān)系。
(4)The Cool Athlon is fully supported by AMD,and unlike an ordinary PC.
(譯文:Cool Athlon電腦全部使用AMD的處理器,這與一般的家用電腦不同)
(顯式連接詞:and-擴(kuò)展關(guān)系;功能連接詞:unlike-比較關(guān)系)
· 多為虛詞的顯式連接詞全局分布極為廣泛,使得借助它的論元對(duì)歸類被極大泛化,無(wú)法構(gòu)建區(qū)分不同篇章關(guān)系的論元對(duì)概念模型。如廣泛分布的“and”在構(gòu)建其關(guān)聯(lián)的論元對(duì)概念模型時(shí),將引入大量不同類別的論元對(duì),形成的概念描述不具有顯著的語(yǔ)義針對(duì)性,其“概念—關(guān)系”映射將導(dǎo)致推理過(guò)程的盲目性。
因此,本文借助功能連接詞和其表征的篇章關(guān)系(如4.1節(jié)),從TDT4①http://projects.ldc.upenn.edu/TDT4/中挖掘包含它們的論元對(duì)(通過(guò)句法依存弧識(shí)別Arg1和Arg2)并歸為同類論元對(duì)(歸類原因?yàn)殛P(guān)聯(lián)相同功能連接詞的論元對(duì),內(nèi)部牽涉到相似的組件知識(shí)),并形成論元對(duì)與篇章關(guān)系的一一映射。其中每個(gè)功能連接詞對(duì)應(yīng)一類論元對(duì),不按四類篇章關(guān)系進(jìn)行合并。原因是盡管篇章關(guān)系類別相同,但不同的功能連接詞在連接論元時(shí),往往并不具有絕對(duì)一致的適用性。
通過(guò)抽取功能連接詞論元對(duì)中與功能連接詞有直接依存關(guān)系,或待測(cè)論元對(duì)中依存關(guān)系指向較多的三類詞集合(依據(jù)詞性劃分實(shí)體、行為和狀態(tài)詞),按論元的主被動(dòng)關(guān)系劃分為施事詞集和受事詞集,形成施/受事實(shí)體/行為/狀態(tài)集,以此為基礎(chǔ)分別構(gòu)建施/受事概念子模型,聯(lián)合形成概念模型。在此過(guò)程中,挖掘詞集中詞特征的相關(guān)知識(shí)并構(gòu)造特征向量,并按詞集分別聚類(使用ApCluster[16]),每個(gè)類簇構(gòu)成一種概念,且根據(jù)聚類來(lái)源可標(biāo)注概念的“歸屬”(例如,施事實(shí)體集的類簇歸屬于施事實(shí)體子概念)。
其中,概念模型(包括A和B兩種)可理解為:由施/受事概念子模型構(gòu)成的,具有不同“歸屬”標(biāo)簽的概念的集合。例如,由“猴”與“猩猩”等詞特征形成的類簇,表征了一種“靈長(zhǎng)類動(dòng)物”的概念,歸屬標(biāo)簽為施/受事實(shí)體子概念;由“毆打”和“射擊”等詞特征形成的類簇,表征了一種“襲擊類事件”的概念,歸屬標(biāo)簽為施/受事行為子概念。
通過(guò)獲得與待測(cè)論元對(duì)概念模型B,映射的功能連接詞論元對(duì)概念模型A,及模型A關(guān)聯(lián)的功能連接詞所對(duì)應(yīng)的篇章關(guān)系,以功能連接詞為媒介,可形成“概念—關(guān)系”映射體系,通過(guò)統(tǒng)計(jì)經(jīng)該映射體系輸出的最大可能篇章關(guān)系,達(dá)到推理目的。
本節(jié)針對(duì)基于功能連接詞進(jìn)行隱式篇章關(guān)系推理的方法,分別介紹功能連接詞的挖掘與歸類、面向論元對(duì)概念模型的構(gòu)建方法和面向“概念—關(guān)系”映射的模型匹配方法。
對(duì)于論元間不包含顯式連接詞的隱式篇章關(guān)系,可通過(guò)具有篇章語(yǔ)義連接功能的其他特定詞語(yǔ)表現(xiàn),本文稱這類詞語(yǔ)為功能連接詞。功能連接詞是使論元形成特殊語(yǔ)義關(guān)系的重要連接機(jī)制,對(duì)隱式關(guān)系的判定、語(yǔ)義分析與推理具有重要作用。可借助功能連接詞的語(yǔ)法、語(yǔ)義及依存連接特性,充分挖掘論元間潛在的邏輯關(guān)系特征。本文針對(duì)PDTB第一層四類篇章關(guān)系,分別獲取了相應(yīng)的功能連接詞(主要為詞級(jí)與短語(yǔ)級(jí)),其對(duì)四類隱式篇章關(guān)系的表征效果明顯。
續(xù)表
表1列舉了四類篇章關(guān)系的功能連接詞實(shí)例,可以發(fā)現(xiàn)對(duì)于不包含顯式連接詞的論元,由于其間功能連接詞(如“result in”)的存在,可以輔助推理隱式篇章關(guān)系。本文通過(guò)獲取與表1中“result in”、“barring”、“compared with”及“a day after”類似的功能連接詞,從隱式論元本身出發(fā),根據(jù)隱式論元的內(nèi)部聯(lián)系屬性,構(gòu)建論元概念模型。
表2 功能連接詞舉例(未全部列舉)
本文共收集功能連接詞183項(xiàng)(表2)。其中,表征偶然性關(guān)系的49項(xiàng),擴(kuò)展關(guān)系的84項(xiàng),比較關(guān)系的23項(xiàng),時(shí)序關(guān)系的27項(xiàng)。每類功能連接詞按詞性和作用的不同又可細(xì)分成小類。四大類功能連接詞的收集存在不平衡性,符合自然語(yǔ)言資源中篇章關(guān)系分布本身的不平衡性(表3列舉了PDTB中篇章關(guān)系的分布情況)。
表3 PDTB語(yǔ)料中顯式/隱式篇章關(guān)系類別分布
本文通過(guò)對(duì)具有不同“歸屬”標(biāo)簽的概念的處理,構(gòu)建概念模型。模型中的每種概念都是其對(duì)應(yīng)特征向量集的聚類類簇,每種概念的形成過(guò)程及后續(xù)的概念匹配過(guò)程,皆需構(gòu)建特征向量集。即針對(duì)表征某類概念的論元進(jìn)行特征抽取和屬性描述。下面分別予以介紹。
·特征抽取
特征抽取是結(jié)合語(yǔ)言學(xué)信息獲得論元的關(guān)鍵詞及其屬性。本文構(gòu)建概念模型需針對(duì)論元對(duì)(功能連接詞論元對(duì)和待測(cè)論元對(duì))進(jìn)行特征抽取,步驟如表4所示。
表4 特征抽取基本步驟
其中,對(duì)功能連接詞論元對(duì)特征抽取使用約束條件的理由為:這類詞特征往往與功能連接詞存在直接的語(yǔ)義依存,且作為句法主干元素,能夠刻畫論元的核心含義,有效反映論元間的語(yǔ)義關(guān)系。按照語(yǔ)義角色,這類詞特征具備“施事”和“受事”以及依據(jù)詞性劃分的“實(shí)體”、“行為”和“狀態(tài)”標(biāo)簽,有助于分類表述論元概念(輔助細(xì)粒度的子概念劃分),提升概念模型的匹配準(zhǔn)確率和基于概念實(shí)現(xiàn)關(guān)系推理的精度。
·屬性描述
由于本文論元多為句子級(jí)別,篇章長(zhǎng)度短,包含的語(yǔ)言學(xué)信息不夠充分,對(duì)經(jīng)上述步驟抽取的特征詞,需要構(gòu)建其屬性向量予以描述,借以擴(kuò)充特征詞的相關(guān)屬性知識(shí)。本文共選取9種屬性為每個(gè)特征詞構(gòu)建屬性向量,分別為特征詞本身(Oriword)、詞性(POS)、位置(PL)、DF值(DF)、與特征詞具有單論元(SingleDep)和跨論元(CrossDep)正/反向依存的非停用詞集以及特征詞在WordNet[18]中的同義詞(Syn)、上位詞(Hype)和下位詞(Hypo)。對(duì)于第i個(gè)功能連接詞關(guān)聯(lián)的論元對(duì)(或待測(cè)隱式論元對(duì)),其特征詞Oriword的屬性向量KeyWordi表述如下:
KeyWordi={Oriword,POS,PL,DF,SingleDep,CrossDep,Syn,Hype,Hypo}
POS特征用來(lái)劃分該屬性向量屬于實(shí)體、行為還是狀態(tài)類;PL表示特征詞在論元中的絕對(duì)位置,Pitler[12]研究證明特殊位置的單詞(一般為首尾三個(gè)詞)具有較強(qiáng)的語(yǔ)義連接功能;DF表示特征詞出現(xiàn)在不同類論元對(duì)(關(guān)聯(lián)的功能連接詞不同)中的頻率,DF小的特征詞具有更好的論元對(duì)類別區(qū)分能力;SingleDep表示與特征詞在同一論元中且有依存關(guān)系的非停用詞集(如圖1中,特征詞“buildup”的SingleDep={inventories});CrossDep表示與特征詞在不同論元中且有依存關(guān)系的非停用詞集。
圖1 與功能連接詞“provoke”關(guān)聯(lián)的論元對(duì)的特征抽取
·模型構(gòu)建
本文構(gòu)建的概念模型分為:功能連接詞論元對(duì)概念模型A和待測(cè)隱式論元對(duì)概念模型B,兩種概念模型通過(guò)相似度匹配形成映射關(guān)系,如圖2所示。
圖2 概念模型的構(gòu)建
每種概念模型都由施事和受事概念子模型構(gòu)成,每種概念子模型中的詞特征都按上述“特征抽取”和“屬性描述”方法,構(gòu)造特征向量,按詞特征“歸屬”的詞集類別分別聚類形成概念。施/受事概念子模型正是以此形成的概念的集合。以這種層層細(xì)化的方式構(gòu)造的概念模型,能較系統(tǒng)而全面的描述論元對(duì)的語(yǔ)義特征。
本文方法框架中重要的一環(huán)是將概念模型B映射至概念模型A的映射體系構(gòu)建。兩種概念模型的映射涉及到兩者的相似度匹配問(wèn)題,其整體相似度度量方法如式(1)所示。
其中,AgentSim和ObjectSim的含義如圖2所示,分別表示施事概念子模型間的相似度和受事概念子模型間的相似度,它們分別是三對(duì)概念子模型(施/受事實(shí)體概念子模型、施/受事行為概念子模型和施/受事狀態(tài)概念子模型)的相似度之和。公式中分母起歸一化作用。
·特征向量相似度
針對(duì)AgentSim和ObjectSim計(jì)算過(guò)程中提到的三對(duì)概念子模型的相似度計(jì)算,現(xiàn)以施事實(shí)體概念子模型為例,每個(gè)概念子模型都由幾個(gè)類簇構(gòu)成,每個(gè)類簇中的元素都是能表征這一類簇屬性的向量(如KeyWordi)。因此一對(duì)施事實(shí)體概念子模型的相似度,是兩組類簇的相似度,即最終細(xì)化為類簇中元素的相似度,度量方法如式(2)所示。
其中,X和Y分別表示需進(jìn)行相似度計(jì)算的兩組類簇中的元素(如KeyWordi和KeyWordj),它們的相似度為9維特征的相似度權(quán)重之和。因每維特征既有數(shù)值形式也有詞集合形式,不能直接使用空間向量模型VSM計(jì)算。式(2)的第一項(xiàng)為詞特征本身(Oriword)和詞性特征(POS)的相似度權(quán)重之和(N1=2);當(dāng)X和Y的詞本身(或詞性)特征相同時(shí),OPXY(i)取1,否則為0。式(2)的第二項(xiàng)為位置(PL)和DF值(DF)特征的相似度權(quán)重之和(N2=2);計(jì)算方法如式(3)~(4)所示。
式(3)中,當(dāng)j=1時(shí),F(xiàn)j(X)和Fj(Y)為X和Y中的位置特征值;Sj(X)和Sj(Y)為構(gòu)造X和Y的論元長(zhǎng)度,經(jīng)歸一化后得到X和Y的位置特征的相似度權(quán)重。當(dāng)j=2時(shí),F(xiàn)j(X)和Fj(Y)為X和Y中的DF值(計(jì)算如式(4),n為包含特征詞的論元類別數(shù),N為論元的類別總數(shù));Sj(X)和Sj(Y)為各自的n值,經(jīng)歸一化后得到X和Y的DF值的相似度權(quán)重。
式(2)的第三項(xiàng)為單/跨句依存(SingleDep/CrossDep)、同義詞(Syn)和上/下位詞(Hype/Hypo)特征的相似度權(quán)重之和(N3=5),其能有效衡量特征向量間的依存相似度(依存詞集交叉詞)和背景詞匯相似度(同義/上/下位詞集交叉詞)。計(jì)算方法如式(5)所示。
式(5)中Sk(X)和Sk(Y)表示X和Y中各自特征詞的單句依存詞集、跨句依存詞集、同義詞集、上位詞集和下位詞集(根據(jù)k值),G(Sk(X),Sk(Y))表示X和Y對(duì)應(yīng)的特征詞集的詞共現(xiàn)數(shù)(詞集交叉詞的個(gè)數(shù));Max(Nk(X),Nk(Y))表示X和Y各自特征詞集的最大長(zhǎng)度。
·概念子模型相似度
同樣以兩種概念模型中的施事實(shí)體概念子模型(由多個(gè)類簇構(gòu)成)間的相似度計(jì)算為例,以特征向量的相似度計(jì)算為基礎(chǔ),子模型間的相似度計(jì)算即兩組類簇間的相似度計(jì)算,本文采用三種相似度匹配方法CentSim,AvgSim和TopNSim(表5)進(jìn)行對(duì)比實(shí)驗(yàn)。
表5 三種相似度匹配方法
其中,相似度匹配需按照概念的歸屬進(jìn)行分類匹配。例如,兩種論元對(duì)對(duì)應(yīng)的施事實(shí)體子概念進(jìn)行匹配,而不能與另一論元對(duì)的受事實(shí)體子概念或施事行為子概念等匹配。通過(guò)統(tǒng)計(jì)最優(yōu)匹配的概念模型A所映射的篇章關(guān)系(“概念—關(guān)系”),推理待測(cè)論元對(duì)的篇章關(guān)系。
本節(jié)給出基于功能連接詞推理隱式篇章關(guān)系方法的實(shí)驗(yàn)結(jié)果和評(píng)價(jià)標(biāo)準(zhǔn),并通過(guò)對(duì)比前人利用樹核函數(shù)和統(tǒng)計(jì)語(yǔ)言模型推理的效果,進(jìn)一步分析本文方法的特點(diǎn)及優(yōu)越性。
本文針對(duì)PDTB第一層四種隱式篇章關(guān)系進(jìn)行推理識(shí)別,采用非監(jiān)督方法,選擇PDTB中21~ 22章作為測(cè)試集。本文對(duì)于包含兩種或兩種以上篇章關(guān)系的測(cè)試句對(duì),選擇最主要的關(guān)系類別作為其正確的篇章關(guān)系。表6列出了測(cè)試集中第一層隱式篇章關(guān)系的分布。
表6 測(cè)試集中隱式篇章關(guān)系的分布
本文重現(xiàn)并測(cè)試了Wang等[6]基于樹核函數(shù)抽取句法結(jié)構(gòu)信息,再利用統(tǒng)計(jì)策略推理的方法。通過(guò)與該方法的對(duì)比,驗(yàn)證統(tǒng)計(jì)建模的可行性。本文也實(shí)現(xiàn)了Zhou等[15]在PDTB上使用語(yǔ)言模型,構(gòu)造一致的論元表達(dá)模式來(lái)預(yù)測(cè)顯式連接詞的推理方法,其能與本文構(gòu)造的功能連接詞概念模型推理方法形成很好的對(duì)比。為評(píng)估推理系統(tǒng)對(duì)四種篇章關(guān)系的識(shí)別性能,本文使用的度量標(biāo)準(zhǔn)如式(6)所示,其中,PosCorrect為被正確分為正例的個(gè)數(shù),Neg-Correct為被正確分為負(fù)例的個(gè)數(shù),Sum為測(cè)試實(shí)例總數(shù)(1 042)。
·可行性驗(yàn)證
本文首次提出利用功能連接詞(FC)構(gòu)建隱式論元對(duì)概念模型,與直接表征論元語(yǔ)義關(guān)系的顯式連接詞不同,F(xiàn)C主要出現(xiàn)在欠缺顯式連接詞的隱式論元間,通過(guò)其語(yǔ)義連接和依存特征,潛在反映隱式篇章關(guān)系,這一特點(diǎn)有利于本文在推理隱式關(guān)系時(shí)加以利用。
本文分析了較高頻功能連接詞在隱式和顯式篇章關(guān)系中的分布情況,以驗(yàn)證使用功能連接詞作為線索詞,構(gòu)建隱式論元對(duì)概念模型的可行性。如圖3所示,功能連接詞在隱式篇章關(guān)系中的出現(xiàn)頻率較顯式更高,尤其高頻功能連接詞的這一分布差異更為顯著(圖3的小表列舉了四種篇章關(guān)系中頻率最高的功能連接詞在顯式和隱式篇章關(guān)系中的分布情況)。統(tǒng)計(jì)結(jié)果說(shuō)明,功能連接詞能更好的表征論元間的隱式篇章關(guān)系。
圖3 FC在顯式與隱式篇章關(guān)系中的分布情況(縱坐標(biāo)為FC的頻率,橫坐標(biāo)為表2中FC的序列號(hào))
然而,盡管功能連接詞更多出現(xiàn)于隱式篇章中,但只有較少的待測(cè)隱式論元對(duì)包含功能連接詞(PDTBv2中51%的論元間包含F(xiàn)C),其中真正起到論元間連接作用的功能連接詞,出現(xiàn)頻率更低(PBTBv2的22~23章中39%的論元間出現(xiàn)有連接功能的FC)。因此不能直接通過(guò)功能連接詞推理待測(cè)論元對(duì)的隱式篇章關(guān)系。本文有效的解決方法是有針對(duì)性地構(gòu)建概念模型,以功能連接詞為媒介,通過(guò)映射和統(tǒng)計(jì)的方式推理隱式篇章關(guān)系。
·相似度匹配方法性能對(duì)比
本文采用三種相似度匹配方法CentSim、Avg-Sim和TopNSim(表5)構(gòu)建隱式關(guān)系推理系統(tǒng)。實(shí)驗(yàn)結(jié)果對(duì)比如表7所示,使用平均相似度Avg-Sim方法,統(tǒng)計(jì)推理隱式關(guān)系的精確率最高(53.84%)。而使用聚類中心相似度CentSim方法,推理系統(tǒng)的精確率最低(50.48%)。
表7 三種相似度匹配方法的系統(tǒng)性能對(duì)比
造成精確率偏差的主要原因是,構(gòu)建概念模型過(guò)程中使用的特征向量,分布較為離散,經(jīng)過(guò)Ap-Cluster無(wú)指定類別聚類后,類簇的中心向量不能明顯表征該類簇中的其它特征向量。而CentSim方法不能將除中心向量外,有利于篇章推理的其他向量考慮在內(nèi)。但AvgSim方法能有效解決中心向量表征類簇效果不好的問(wèn)題,提高類簇間的相似度匹配性能。
另外,實(shí)驗(yàn)發(fā)現(xiàn)TopNSim方法中,N值的變化對(duì)系統(tǒng)性能有重要影響。該方法匹配兩種概念(類簇)時(shí),將待測(cè)類簇的中心向量與候選類簇中相似度最高的N個(gè)特征向量的相似度權(quán)重之和,作為度量?jī)山M類簇相似性的標(biāo)準(zhǔn)。如圖4所示,當(dāng)N=8時(shí)的系統(tǒng)精確率達(dá)到最大值53.35%。圖4中的柱形圖展示了達(dá)到這一精確率時(shí),測(cè)試集(Standard)和系統(tǒng)判定(System)的四種篇章關(guān)系實(shí)例的分布情況。當(dāng)N大于20時(shí),精確率近于穩(wěn)定的原因:一是候選概念中排在較后的特征向量權(quán)重較低,累加時(shí)對(duì)結(jié)果影響較??;二是特征向量個(gè)數(shù)有限,當(dāng)N值增加到足夠大時(shí)統(tǒng)計(jì)結(jié)果不再發(fā)生變化。
圖4 TopNSim相似度匹配方法推斷隱式篇章關(guān)系性能
·推理系統(tǒng)性能比較
本文將性能最高的系統(tǒng)與Wang等[6]基于樹核函數(shù)的方法(Wang_Sys),以及Zhou等[15]基于非監(jiān)督語(yǔ)言模型的方法(Zhou_Sys)進(jìn)行對(duì)比。此外本文也使用了最大關(guān)系類(即所有實(shí)例被歸類為擴(kuò)展關(guān)系)作為基準(zhǔn)(Baseline)。表8列舉了所有系統(tǒng)的精確率,本文方法(Our_Sys)在推理隱式篇章關(guān)系任務(wù)中體現(xiàn)出明顯優(yōu)勢(shì),識(shí)別精確率較Wang和Zhou的系統(tǒng),分別取得13.84%和12.49%的性能提升,也高于測(cè)試數(shù)據(jù)中最大類別所占比例。實(shí)驗(yàn)結(jié)果證實(shí)了推理模型構(gòu)建的正確性以及整體方法的可行性。
表8 隱式篇章關(guān)系推理各方法的性能對(duì)比
本文系統(tǒng)的性能較Wang_Sys取得較大提高的原因是,Wang_Sys采用的是基于樹核函數(shù)抽取句法樹中結(jié)構(gòu)化信息,組合句間的時(shí)序信息及其他基本特征,進(jìn)行監(jiān)督分類的方法。但由于隱式論元對(duì)的句法結(jié)構(gòu)較復(fù)雜,且僅僅依據(jù)篇章中孤立句子的結(jié)構(gòu)信息作為特征來(lái)分類顯然是不完備的。本文系統(tǒng)性能也優(yōu)于Zhou_Sys的原因是,后者通過(guò)預(yù)測(cè)顯式連接詞,將隱式論元對(duì)映射為顯式論元對(duì)來(lái)推理隱式關(guān)系,其方法僅基于小規(guī)模的顯式數(shù)據(jù)集(PDTB),且僅使用三元語(yǔ)法模型搜索與隱式論元一致的表達(dá)模式,嚴(yán)格限制了所構(gòu)建模式的數(shù)量與有效性,使得匹配顯式論元對(duì)的過(guò)程存在缺陷,從而導(dǎo)致預(yù)測(cè)出的顯式連接詞不能有效表征隱式論元對(duì)的篇章關(guān)系。相比之下,本文方法使用豐富的候選資源,從隱式論元本身出發(fā),構(gòu)建更為完善的概念模型和基于嚴(yán)格相似度度量方法的映射體系,并使用更普遍存在于隱式論元間的功能連接詞實(shí)現(xiàn)推理。盡管如此,本文工作和Zhou的方法在性能上都較優(yōu)于Wang的系統(tǒng),說(shuō)明了隱式篇章關(guān)系識(shí)別中模型推理的可行性。且相對(duì)簡(jiǎn)單的映射體系可避免機(jī)器學(xué)習(xí)方法中復(fù)雜的語(yǔ)言分析問(wèn)題,從而減少中間步驟誤差引起的錯(cuò)誤擴(kuò)大化現(xiàn)象。
然而,本文的最好性能相較于最大類別的比率仍然較低,Wang和Zhou等的工作甚至遠(yuǎn)低于最大類別比率,這反映了隱式篇章關(guān)系識(shí)別難度依然很大,主要是因?yàn)殡[式關(guān)系本身就存在主觀性和模糊性,不同的語(yǔ)境下相同的論元對(duì)可能形成不同的篇章關(guān)系,即使相同的語(yǔ)境下,論元對(duì)的語(yǔ)氣強(qiáng)度和情感差異也會(huì)導(dǎo)致篇章關(guān)系的不同。PDTB語(yǔ)料的16 051個(gè)隱式實(shí)例中,有356個(gè)實(shí)例被同時(shí)標(biāo)注多種篇章關(guān)系類型;18 459個(gè)顯式實(shí)例中,也存在532個(gè)同時(shí)標(biāo)注多種篇章關(guān)系類型的實(shí)例。另外,本文方法中應(yīng)用的依存分析器的精度,也會(huì)影響實(shí)驗(yàn)結(jié)果。種種現(xiàn)象均表明,隱式篇章關(guān)系識(shí)別研究將是篇章分析領(lǐng)域的一項(xiàng)既困難同時(shí)又富有挑戰(zhàn)性的工作。
本文首次提出基于功能連接詞構(gòu)建論元概念模型,以無(wú)監(jiān)督的方式實(shí)現(xiàn)隱式篇章關(guān)系判別。本文利用隱式論元間具有特殊語(yǔ)義連接與依存關(guān)系的功能連接詞,從隱式關(guān)系論元本身出發(fā),提出了基于功能連接詞構(gòu)建論元概念模型的篇章關(guān)系推理方法。而相關(guān)工作中基于復(fù)雜語(yǔ)言學(xué)特征的監(jiān)督學(xué)習(xí)方法,主要是通過(guò)利用顯式篇章關(guān)系特有的屬性特征,解決隱式篇章關(guān)系的分類問(wèn)題,忽視了顯式與隱式語(yǔ)義關(guān)系的本質(zhì)區(qū)別,且復(fù)雜的語(yǔ)言學(xué)分析會(huì)造成中間過(guò)程的誤差累積,影響最終的分類性能。
另外,本文研究發(fā)現(xiàn)目前的隱式篇章關(guān)系推理仍存在幾大難點(diǎn)問(wèn)題:1)篇章關(guān)系本身存在主觀性和模糊性,應(yīng)充分利用上下文信息輔助隱式篇章關(guān)系推理;2)修辭結(jié)構(gòu)在篇章結(jié)構(gòu)中具有重要作用,能有效輔助隱式篇章關(guān)系判別,但修辭結(jié)構(gòu)本身就是一項(xiàng)研究難點(diǎn)。
未來(lái)工作將借助修辭和情感分析等,擴(kuò)充現(xiàn)有的功能連接詞,進(jìn)一步挖掘功能連接詞的語(yǔ)義特征,并細(xì)粒度劃分功能連接詞的關(guān)系類別,完善概念模型的構(gòu)建方法,進(jìn)而輔助第一層乃至第二層隱式篇章關(guān)系的自動(dòng)判定。
[1] M Riaz,R Girju.Another look at causality:Discovering scenario-specific contingency relationships with no supervision[C]//Proceedings of the 4th ICSC,2010:361-368.
[2] Q X Do,Y S Chan,D Roth.Minimally supervised event causality identification[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2011:294-303.
[3] 王繼成,武港山.一種篇章結(jié)構(gòu)指導(dǎo)的中文Web文檔自動(dòng)摘要方法[J].計(jì)算機(jī)研究與發(fā)展,2003,40(3):398-405.
[4] L Zhou,B Li,W Gao,et al.Unsupervised discovery of discourse relations for eliminating intra-sentence polarity ambiguities[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2011:162-171.
[5] E Pitler,M Raghupathy,H Mehta,et al.Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on the COLING,2008:87-90.
[6] W T Wang,J Su,C L Tan.Kernel Based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 48th Annual Meeting of the ACL,2010:710-719.
[7] R Prasad,N Dinesh,A Lee,et al.The Penn Discourse TreeBank 2.0[C]//Proceedings of Proceedings of the 6th International Conference on LREC 2008,Morocco.
[8] L Carlson,D Marcu,M E Okurowski.Building a discourse-tagged corpus in the framework of rhetorical structure theory[C]//Proceedings of the Second SIGDIAL2001,Denmark,2001:1-10.
[9] D Marcu,A Echihabi.An Unsupervised Approach to Recognizing Discourse Relations[C]//Proceedings of the 40th Annual Meeting on the ACL,2002:368-375.
[10] M Saito,K Yamamoto,S Sekine.Using Phrasal Patterns to Identify Discourse Relations[C]//Proceedings of the Human Language Technology Conference of the NAACL,2006:133-136.
[11] F Wolf,E Gibson.Representing discourse coherence:a corpus-based analysis[C]//Proceedings of the 20th International Conference on the COLING,Morristown,NJ,USA,2005:134-140.
[12] E Pitler,A Louis,A Nenkova.Automatic Sense Prediction for Implicit Discourse Relations in Text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,2009,(2):683-691.
[13] R Soricut,D Marcu.Sentence level discourse parsing using syntactic and lexical information[C]//Proceedings of the HLT/NAACL,2003:149-156.
[14] Z Lin,H T Ng,M Y Kan.Automatically Evaluating Text Coherence Using Discourse Relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,2011,(2):997-1006.
[15] Z M Zhou,Y Xu,Z Y Niu,et al.Predicting Discourse Connectives for Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters,2010:1507-1514.
[16] http://www.bioinf.jku.at/software/apcluster/[DB/OL].
[17] http://nlp.stanford.edu/software/lex-parser.shtml[DB/OL].
[18] E Pitler,A Nenkova.Revisiting readability:A unified framework for predicting text quality[C]//Proceedings of the Conference on the EMNLP,2008:186-195.