基于功能連接詞的隱式篇章關(guān)系推理

2014-04-14 07:51車婷婷周小佩嚴(yán)為絨姚建民朱巧明

中文信息學(xué)報(bào) 2014年2期

車婷婷，洪宇，周小佩，嚴(yán)為絨，姚建民，朱巧明

（蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語(yǔ)言處理重點(diǎn)實(shí)驗(yàn)室，江蘇蘇州215006）

1 引言

目前，語(yǔ)義分析已從傳統(tǒng)的詞義、句法研究及句子內(nèi)的語(yǔ)義角色標(biāo)注，逐漸深入到語(yǔ)義上連貫且結(jié)構(gòu)上銜接的文本片段（包括子句、句子、段落和篇章）的語(yǔ)義關(guān)系研究。篇章語(yǔ)義關(guān)系（Discourse Rela－tion）研究旨在推斷篇章內(nèi)部相鄰文本片段，或跨度在一定范圍內(nèi)的多個(gè)片段間的邏輯關(guān)系。篇章語(yǔ)義關(guān)系研究不僅能夠有效輔助篇章語(yǔ)義的機(jī)器學(xué)習(xí)和篇章組織結(jié)構(gòu)的自動(dòng)劃分，而且在自然語(yǔ)言處理領(lǐng)域有廣泛的應(yīng)用價(jià)值：如篇章因果關(guān)系可應(yīng)用于自動(dòng)問(wèn)答系統(tǒng)、事件關(guān)系抽取和檢測(cè)［1－2］等；擴(kuò)展關(guān)系可應(yīng)用于自動(dòng)文摘生成、篇章關(guān)鍵詞識(shí)別［3］等；對(duì)比關(guān)系可應(yīng)用于情感分析研究，輔助實(shí)現(xiàn)句內(nèi)的情感極性判斷［4］等。

根據(jù)論元（即論述特定語(yǔ)義的文字片段）間是否存在顯式連接詞，篇章關(guān)系分為顯式和隱式篇章關(guān)系（Explicit ＆Implicit Discourse Relation）。前者可借助顯式連接詞（如“因?yàn)椤保┘捌潢P(guān)系映射（如“因?yàn)椤庇成錇椤耙蚬P(guān)系”）進(jìn)行直接的關(guān)系檢測(cè)；后者需根據(jù)上下文內(nèi)容或語(yǔ)義特征，進(jìn)行間接的關(guān)系推理。如（1）中的顯式關(guān)系可借助連接詞“but”直接判定為“對(duì)比”關(guān)系；而（2）本身不具備連接詞“because”，僅能通過(guò)上下文推測(cè)為“因果關(guān)系”。（注：兩例分別抽選自賓州篇章樹庫(kù)PDTB的顯式和隱式關(guān)系樣本集）

（1）Arg1①賓州樹庫(kù)（PTB）是對(duì)WSJ語(yǔ)料進(jìn)行句法結(jié)構(gòu)標(biāo)注的公認(rèn)語(yǔ)料資源http：／／www.cis.upenn.edu／～treebank／：She can stay there with no heat

譯文：她能夠待在不熱的地方

Arg2：but for a parakeet that can be deadly.

譯文：但對(duì)長(zhǎng)尾鸚鵡來(lái)說(shuō)，這可能是致命的

——Explicit Discourse Relation：

Comparison（顯式篇章關(guān)系：比較關(guān)系）

（2）Agr1：The administration's concerns are understandable

譯文：政府的擔(dān)心是可以理解的

Arg2：［Implicit＝"because"］the economy is showing signs of weakness.

譯文：［隱式＝“因?yàn)椤保萁?jīng)濟(jì)正呈現(xiàn)疲軟現(xiàn)象

——Implicit Discourse Relation：

Contingency（隱式篇章關(guān)系：因果關(guān)系）

PDTB（Penn Discourse TreeBank）語(yǔ)料已針對(duì)大量“論元對(duì)”（Arg1－Arg2），標(biāo)注了由顯式連接詞表征的跨論元顯式篇章關(guān)系如（1）所示，以及包含潛在連接詞的跨論元隱式篇章關(guān)系如（2）所示，其中的“because”是由標(biāo)注者結(jié)合具體語(yǔ)義適當(dāng)添加的。目前，對(duì)于顯式篇章關(guān)系的研究，精確率已達(dá)93.09%［5］。顯式關(guān)系實(shí)例因自身包含連接詞，能避免篇章理解歧義；而隱式關(guān)系實(shí)例欠缺顯式連接詞等直接線索，須通過(guò)上下文、句法、語(yǔ)義信息等自然語(yǔ)言理解的方式進(jìn)行判斷。而上下文信息的不確定性、句子結(jié)構(gòu)的復(fù)雜性、語(yǔ)義關(guān)系的歧義性以及數(shù)據(jù)稀疏問(wèn)題，往往誤導(dǎo)關(guān)系推理。針對(duì)PDTB隱式關(guān)系檢測(cè)的最新研究［6］，第一層關(guān)系的分類精度僅能達(dá)到40.0%。

針對(duì)隱式篇章關(guān)系推理難點(diǎn)，本文經(jīng)驗(yàn)性發(fā)現(xiàn)：篇章中除顯式連接詞能夠直接反映語(yǔ)義關(guān)系外，還存在一種潛在反映篇章關(guān)系的功能性連接詞（Functional Connective，簡(jiǎn)稱FC）。其與隱式論元對(duì)往往構(gòu)成緊密的語(yǔ)義關(guān)系和依存結(jié)構(gòu)，有助于隱式關(guān)系推理。如（3）中的功能連接詞“provoke”非顯式連接詞，但其潛在地觸發(fā)了隱式論元對(duì)間的因果關(guān)系。

（3）Arg1：A buildup in inventories can

Arg2：provoke cutbacks in production that can lead to a recession.

（譯文：庫(kù)存的增加可能引發(fā)能夠?qū)е陆?jīng)濟(jì)不景氣的生產(chǎn)的縮減。）

（PDTB 2.0＿Contingency）

根據(jù)功能連接詞的這一優(yōu)勢(shì)，本文提出一種基于功能連接詞的隱式篇章關(guān)系推理方法。基本思想包括：針對(duì)特定篇章關(guān)系類別的功能連接詞（人工收集183項(xiàng)并劃分篇章關(guān)系類別），利用大規(guī)模語(yǔ)言學(xué)資源，挖掘包含這類功能連接詞的“論元對(duì)”集合，并對(duì)這一集合構(gòu)建概念模型A，形成“概念—關(guān)系”映射體系；篇章關(guān)系推理過(guò)程中，對(duì)給定的待測(cè)論元對(duì)構(gòu)建概念模型B，并利用統(tǒng)計(jì)策略得到與其相似度匹配最高的概念模型A，及其在上述映射體系中對(duì)應(yīng)的篇章關(guān)系，實(shí)現(xiàn)待測(cè)論元對(duì)篇章關(guān)系的推理。這一過(guò)程中，本文利用功能連接詞的特性構(gòu)建概念模型A，用以解決待測(cè)論元對(duì)概念模型B的稀疏性，完善了推理機(jī)制。

本文構(gòu)建的概念模型，用于描述“同類論元對(duì)”或待測(cè)論元對(duì)的語(yǔ)義特征（注：“同類論元對(duì)”即包含一致功能連接詞的論元對(duì)）。概念模型可細(xì)分為實(shí)體／行為／狀態(tài)概念子模型，它們分別為論元對(duì)三種屬性特征的抽象描述，表征了論元對(duì)的語(yǔ)義特征集合及概率分布。

本文組織結(jié)構(gòu)如下：第2節(jié)簡(jiǎn)介隱式篇章關(guān)系識(shí)別的任務(wù)定義；第3節(jié)回顧相關(guān)工作；第4節(jié)給出基于功能連接詞推理隱式關(guān)系的主體框架；第5節(jié)詳細(xì)介紹功能連接詞的挖掘與分類、概念模型的構(gòu)建方法、面向“概念—關(guān)系”映射的模型匹配方法；第5節(jié)給出實(shí)驗(yàn)結(jié)果并進(jìn)行分析；第7節(jié)進(jìn)行總結(jié)與展望。

2 任務(wù)定義

Wang和Su等［6］定義了篇章關(guān)系識(shí)別的核心任務(wù)，即自動(dòng)檢測(cè)同一篇章內(nèi)，相鄰片段（也稱論元對(duì)）之間的語(yǔ)義關(guān)系。隱式篇章關(guān)系檢測(cè)是在沒(méi)有顯式連接詞作為推理線索的情況下，對(duì)篇章關(guān)系予以判定。

PDTB建立了篇章語(yǔ)義關(guān)系體系［7］，通用于顯式和隱式篇章關(guān)系檢測(cè)，該體系分為三個(gè)層級(jí)：第一層包含四種主要的關(guān)系類別，即比較關(guān)系（Comparison）、偶然性關(guān)系（Contingency）、擴(kuò)展關(guān)系（Expansion）以及時(shí)序關(guān)系（Temporal）；第二、三層分別在上一層關(guān)系的基礎(chǔ)上進(jìn)一步細(xì)分。由此，篇章關(guān)系（包括顯式和隱式）檢測(cè)系統(tǒng)的標(biāo)準(zhǔn)輸出，即為反映特定論元對(duì)篇章語(yǔ)義關(guān)系類別的標(biāo)簽（如因果關(guān)系）。本文主要針對(duì)PDTB v2關(guān)系體系中第一層的四種隱式篇章關(guān)系進(jìn)行推理分類。

3 相關(guān)工作

自PDTB和RSTDT語(yǔ)料［8］發(fā)布以來(lái)，篇章語(yǔ)義分析和篇章結(jié)構(gòu)分析的研究獲得了更深層次的發(fā)展。目前篇章語(yǔ)義關(guān)系識(shí)別的研究側(cè)重采用全監(jiān)督或半監(jiān)督學(xué)習(xí)的方法，研究重點(diǎn)在于使用各種語(yǔ)言學(xué)特征，實(shí)現(xiàn)篇章關(guān)系判定和分類。

Marcu和Echihabi［9］使用詞對(duì)共現(xiàn)特征檢測(cè)文本片段間隱式篇章關(guān)系的存在。Saito和Yamamoto等［10］在此基礎(chǔ)上聯(lián)合使用短語(yǔ)特征，提升了日文隱式關(guān)系檢測(cè)的性能。Wellner等在GraphBank［11］上通過(guò)實(shí)驗(yàn)證明，顯式連接詞與論元間的距離特征，對(duì)顯式關(guān)系的整體分析有重要作用，然而在隱式關(guān)系檢測(cè)中無(wú)法獲得較優(yōu)性能，主要原因是顯隱式關(guān)系本身的差異性（隱式論元間不包含顯式連接詞等）。Pitler和Louis等［12］首次單獨(dú)針對(duì)PDTB中隱式關(guān)系進(jìn)行分類，使用情感詞極性、動(dòng)詞短語(yǔ)長(zhǎng)度、句子首尾單詞對(duì)以及上下文等語(yǔ)言特征，最終分類結(jié)果優(yōu)于隨機(jī)分類的性能。

Soricut和Marcu［13］基于RSTDT語(yǔ)料，鑒別了不同特征對(duì)篇章關(guān)系識(shí)別的作用，主要驗(yàn)證了單純的句法特征并不適用于句間的隱式關(guān)系識(shí)別。Wang和Su［6］基于卷積樹核函數(shù)提取論元的句法結(jié)構(gòu)特征，第一層隱式關(guān)系分類精確率只達(dá)到40.0%。Lin和Ng等［14］基于全監(jiān)督學(xué)習(xí)的分類框架，使用句法結(jié)構(gòu)特征、論元的嵌套關(guān)系及成分依存特征（從論元對(duì)依存樹中抽取常用詞匯）等，第二層隱式關(guān)系分類精確率達(dá)到40.2%。

Zhou等［15］借助預(yù)測(cè)顯式連接詞來(lái)判斷隱式篇章關(guān)系，主要通過(guò)統(tǒng)計(jì)語(yǔ)言模型推測(cè)適用于當(dāng)前隱式論元間的連接詞，再將預(yù)測(cè)的連接詞作為附加特征用于分類，篇章關(guān)系的四元分類精確率達(dá)到41.35%，而關(guān)系的二元分類（即針對(duì)四種篇章關(guān)系中的某一種，判斷待測(cè)論元對(duì)是否屬于這種關(guān)系）精確率僅在偶然性和時(shí)序關(guān)系上有所提升（分別為70.79%和70.51%），但對(duì)擴(kuò)展和比較關(guān)系的分類性能仍然偏低，說(shuō)明通過(guò)預(yù)測(cè)顯示連接詞推理隱式關(guān)系的缺陷。這也是本文選擇使用功能連接詞，而非顯式連接詞的原因之一。

4 隱式篇章關(guān)系推理框架

本文探究基于功能連接詞，構(gòu)建論元對(duì)概念模型，實(shí)現(xiàn)隱式篇章關(guān)系推理。推理的主體架構(gòu)主要包括三個(gè)方面：基于功能連接詞的論元對(duì)歸類、概念模型的構(gòu)建與內(nèi)部聚類和基于“概念—關(guān)系”映射體系的隱式篇章關(guān)系推理。下面分別予以概述。

4.1 基于功能連接詞的論元對(duì)歸類

本文中對(duì)隱式論元對(duì)的歸類，以及后續(xù)“概念—關(guān)系”映射體系的構(gòu)建都需要借助功能連接詞。較以往使用PDTB顯式連接詞的研究不同，本文選擇功能連接詞源于如下因素：

· 相較于功能連接詞，顯式連接詞多為語(yǔ)義不明確的虛詞（歧義大）且分布極不均衡，對(duì)論元?dú)w類和映射體系的構(gòu)建往往產(chǎn)生誤導(dǎo)。如顯示連接詞“since”同時(shí)具有“自從”和“因?yàn)椤钡暮x，篇章關(guān)系分類需針對(duì)性消歧；而“and”在論元間的分布概率達(dá)0.57（統(tǒng)計(jì)自PDTB v2），且很多并不映射為擴(kuò)展關(guān)系，僅表征語(yǔ)氣停頓或一致性等。如（4）的篇章關(guān)系非“and”表征的擴(kuò)展關(guān)系，而是功能連接詞“unlike”表征的比較關(guān)系。

（4）The Cool Athlon is fully supported by AMD，and unlike an ordinary PC.

（譯文：Cool Athlon電腦全部使用AMD的處理器，這與一般的家用電腦不同）

（顯式連接詞：and－擴(kuò)展關(guān)系；功能連接詞：unlike－比較關(guān)系）

· 多為虛詞的顯式連接詞全局分布極為廣泛，使得借助它的論元對(duì)歸類被極大泛化，無(wú)法構(gòu)建區(qū)分不同篇章關(guān)系的論元對(duì)概念模型。如廣泛分布的“and”在構(gòu)建其關(guān)聯(lián)的論元對(duì)概念模型時(shí)，將引入大量不同類別的論元對(duì)，形成的概念描述不具有顯著的語(yǔ)義針對(duì)性，其“概念—關(guān)系”映射將導(dǎo)致推理過(guò)程的盲目性。

因此，本文借助功能連接詞和其表征的篇章關(guān)系（如4.1節(jié)），從TDT4①http：／／projects.ldc.upenn.edu／TDT4／中挖掘包含它們的論元對(duì)（通過(guò)句法依存弧識(shí)別Arg1和Arg2）并歸為同類論元對(duì)（歸類原因?yàn)殛P(guān)聯(lián)相同功能連接詞的論元對(duì)，內(nèi)部牽涉到相似的組件知識(shí)），并形成論元對(duì)與篇章關(guān)系的一一映射。其中每個(gè)功能連接詞對(duì)應(yīng)一類論元對(duì)，不按四類篇章關(guān)系進(jìn)行合并。原因是盡管篇章關(guān)系類別相同，但不同的功能連接詞在連接論元時(shí)，往往并不具有絕對(duì)一致的適用性。

4.2 概念模型定義

通過(guò)抽取功能連接詞論元對(duì)中與功能連接詞有直接依存關(guān)系，或待測(cè)論元對(duì)中依存關(guān)系指向較多的三類詞集合（依據(jù)詞性劃分實(shí)體、行為和狀態(tài)詞），按論元的主被動(dòng)關(guān)系劃分為施事詞集和受事詞集，形成施／受事實(shí)體／行為／狀態(tài)集，以此為基礎(chǔ)分別構(gòu)建施／受事概念子模型，聯(lián)合形成概念模型。在此過(guò)程中，挖掘詞集中詞特征的相關(guān)知識(shí)并構(gòu)造特征向量，并按詞集分別聚類（使用ApCluster［16］），每個(gè)類簇構(gòu)成一種概念，且根據(jù)聚類來(lái)源可標(biāo)注概念的“歸屬”（例如，施事實(shí)體集的類簇歸屬于施事實(shí)體子概念）。

其中，概念模型（包括A和B兩種）可理解為：由施／受事概念子模型構(gòu)成的，具有不同“歸屬”標(biāo)簽的概念的集合。例如，由“猴”與“猩猩”等詞特征形成的類簇，表征了一種“靈長(zhǎng)類動(dòng)物”的概念，歸屬標(biāo)簽為施／受事實(shí)體子概念；由“毆打”和“射擊”等詞特征形成的類簇，表征了一種“襲擊類事件”的概念，歸屬標(biāo)簽為施／受事行為子概念。

4.3 隱式篇章關(guān)系推理

通過(guò)獲得與待測(cè)論元對(duì)概念模型B，映射的功能連接詞論元對(duì)概念模型A，及模型A關(guān)聯(lián)的功能連接詞所對(duì)應(yīng)的篇章關(guān)系，以功能連接詞為媒介，可形成“概念—關(guān)系”映射體系，通過(guò)統(tǒng)計(jì)經(jīng)該映射體系輸出的最大可能篇章關(guān)系，達(dá)到推理目的。

5 推理方法詳述

本節(jié)針對(duì)基于功能連接詞進(jìn)行隱式篇章關(guān)系推理的方法，分別介紹功能連接詞的挖掘與歸類、面向論元對(duì)概念模型的構(gòu)建方法和面向“概念—關(guān)系”映射的模型匹配方法。

5.1 功能連接詞挖掘與分類

對(duì)于論元間不包含顯式連接詞的隱式篇章關(guān)系，可通過(guò)具有篇章語(yǔ)義連接功能的其他特定詞語(yǔ)表現(xiàn)，本文稱這類詞語(yǔ)為功能連接詞。功能連接詞是使論元形成特殊語(yǔ)義關(guān)系的重要連接機(jī)制，對(duì)隱式關(guān)系的判定、語(yǔ)義分析與推理具有重要作用。可借助功能連接詞的語(yǔ)法、語(yǔ)義及依存連接特性，充分挖掘論元間潛在的邏輯關(guān)系特征。本文針對(duì)PDTB第一層四類篇章關(guān)系，分別獲取了相應(yīng)的功能連接詞（主要為詞級(jí)與短語(yǔ)級(jí)），其對(duì)四類隱式篇章關(guān)系的表征效果明顯。

續(xù)表

表1列舉了四類篇章關(guān)系的功能連接詞實(shí)例，可以發(fā)現(xiàn)對(duì)于不包含顯式連接詞的論元，由于其間功能連接詞（如“result in”）的存在，可以輔助推理隱式篇章關(guān)系。本文通過(guò)獲取與表1中“result in”、“barring”、“compared with”及“a day after”類似的功能連接詞，從隱式論元本身出發(fā)，根據(jù)隱式論元的內(nèi)部聯(lián)系屬性，構(gòu)建論元概念模型。

表2 功能連接詞舉例（未全部列舉）

本文共收集功能連接詞183項(xiàng)（表2）。其中，表征偶然性關(guān)系的49項(xiàng)，擴(kuò)展關(guān)系的84項(xiàng)，比較關(guān)系的23項(xiàng)，時(shí)序關(guān)系的27項(xiàng)。每類功能連接詞按詞性和作用的不同又可細(xì)分成小類。四大類功能連接詞的收集存在不平衡性，符合自然語(yǔ)言資源中篇章關(guān)系分布本身的不平衡性（表3列舉了PDTB中篇章關(guān)系的分布情況）。

表3 PDTB語(yǔ)料中顯式／隱式篇章關(guān)系類別分布

5.2 概念模型的構(gòu)建

本文通過(guò)對(duì)具有不同“歸屬”標(biāo)簽的概念的處理，構(gòu)建概念模型。模型中的每種概念都是其對(duì)應(yīng)特征向量集的聚類類簇，每種概念的形成過(guò)程及后續(xù)的概念匹配過(guò)程，皆需構(gòu)建特征向量集。即針對(duì)表征某類概念的論元進(jìn)行特征抽取和屬性描述。下面分別予以介紹。

·特征抽取

特征抽取是結(jié)合語(yǔ)言學(xué)信息獲得論元的關(guān)鍵詞及其屬性。本文構(gòu)建概念模型需針對(duì)論元對(duì)（功能連接詞論元對(duì)和待測(cè)論元對(duì)）進(jìn)行特征抽取，步驟如表4所示。

表4 特征抽取基本步驟

其中，對(duì)功能連接詞論元對(duì)特征抽取使用約束條件的理由為：這類詞特征往往與功能連接詞存在直接的語(yǔ)義依存，且作為句法主干元素，能夠刻畫論元的核心含義，有效反映論元間的語(yǔ)義關(guān)系。按照語(yǔ)義角色，這類詞特征具備“施事”和“受事”以及依據(jù)詞性劃分的“實(shí)體”、“行為”和“狀態(tài)”標(biāo)簽，有助于分類表述論元概念（輔助細(xì)粒度的子概念劃分），提升概念模型的匹配準(zhǔn)確率和基于概念實(shí)現(xiàn)關(guān)系推理的精度。

·屬性描述

由于本文論元多為句子級(jí)別，篇章長(zhǎng)度短，包含的語(yǔ)言學(xué)信息不夠充分，對(duì)經(jīng)上述步驟抽取的特征詞，需要構(gòu)建其屬性向量予以描述，借以擴(kuò)充特征詞的相關(guān)屬性知識(shí)。本文共選取9種屬性為每個(gè)特征詞構(gòu)建屬性向量，分別為特征詞本身（Oriword）、詞性（POS）、位置（PL）、DF值（DF）、與特征詞具有單論元（SingleDep）和跨論元（CrossDep）正／反向依存的非停用詞集以及特征詞在WordNet［18］中的同義詞（Syn）、上位詞（Hype）和下位詞（Hypo）。對(duì)于第i個(gè)功能連接詞關(guān)聯(lián)的論元對(duì)（或待測(cè)隱式論元對(duì)），其特征詞Oriword的屬性向量KeyWordi表述如下：

KeyWordi＝｛Oriword，POS，PL，DF，SingleDep，CrossDep，Syn，Hype，Hypo｝

POS特征用來(lái)劃分該屬性向量屬于實(shí)體、行為還是狀態(tài)類；PL表示特征詞在論元中的絕對(duì)位置，Pitler［12］研究證明特殊位置的單詞（一般為首尾三個(gè)詞）具有較強(qiáng)的語(yǔ)義連接功能；DF表示特征詞出現(xiàn)在不同類論元對(duì)（關(guān)聯(lián)的功能連接詞不同）中的頻率，DF小的特征詞具有更好的論元對(duì)類別區(qū)分能力；SingleDep表示與特征詞在同一論元中且有依存關(guān)系的非停用詞集（如圖1中，特征詞“buildup”的SingleDep＝｛inventories｝）；CrossDep表示與特征詞在不同論元中且有依存關(guān)系的非停用詞集。

圖1 與功能連接詞“provoke”關(guān)聯(lián)的論元對(duì)的特征抽取

·模型構(gòu)建

本文構(gòu)建的概念模型分為：功能連接詞論元對(duì)概念模型A和待測(cè)隱式論元對(duì)概念模型B，兩種概念模型通過(guò)相似度匹配形成映射關(guān)系，如圖2所示。

圖2 概念模型的構(gòu)建

每種概念模型都由施事和受事概念子模型構(gòu)成，每種概念子模型中的詞特征都按上述“特征抽取”和“屬性描述”方法，構(gòu)造特征向量，按詞特征“歸屬”的詞集類別分別聚類形成概念。施／受事概念子模型正是以此形成的概念的集合。以這種層層細(xì)化的方式構(gòu)造的概念模型，能較系統(tǒng)而全面的描述論元對(duì)的語(yǔ)義特征。

5.3 概念模型相似度匹配方法

本文方法框架中重要的一環(huán)是將概念模型B映射至概念模型A的映射體系構(gòu)建。兩種概念模型的映射涉及到兩者的相似度匹配問(wèn)題，其整體相似度度量方法如式（1）所示。

其中，AgentSim和ObjectSim的含義如圖2所示，分別表示施事概念子模型間的相似度和受事概念子模型間的相似度，它們分別是三對(duì)概念子模型（施／受事實(shí)體概念子模型、施／受事行為概念子模型和施／受事狀態(tài)概念子模型）的相似度之和。公式中分母起歸一化作用。

·特征向量相似度

針對(duì)AgentSim和ObjectSim計(jì)算過(guò)程中提到的三對(duì)概念子模型的相似度計(jì)算，現(xiàn)以施事實(shí)體概念子模型為例，每個(gè)概念子模型都由幾個(gè)類簇構(gòu)成，每個(gè)類簇中的元素都是能表征這一類簇屬性的向量（如KeyWordi）。因此一對(duì)施事實(shí)體概念子模型的相似度，是兩組類簇的相似度，即最終細(xì)化為類簇中元素的相似度，度量方法如式（2）所示。

其中，X和Y分別表示需進(jìn)行相似度計(jì)算的兩組類簇中的元素（如KeyWordi和KeyWordj），它們的相似度為9維特征的相似度權(quán)重之和。因每維特征既有數(shù)值形式也有詞集合形式，不能直接使用空間向量模型VSM計(jì)算。式（2）的第一項(xiàng)為詞特征本身（Oriword）和詞性特征（POS）的相似度權(quán)重之和（N1＝2）；當(dāng)X和Y的詞本身（或詞性）特征相同時(shí)，OPXY（i）取1，否則為0。式（2）的第二項(xiàng)為位置（PL）和DF值（DF）特征的相似度權(quán)重之和（N2＝2）；計(jì)算方法如式（3）～（4）所示。

式（3）中，當(dāng)j＝1時(shí)，F(xiàn)j（X）和Fj（Y）為X和Y中的位置特征值；Sj（X）和Sj（Y）為構(gòu)造X和Y的論元長(zhǎng)度，經(jīng)歸一化后得到X和Y的位置特征的相似度權(quán)重。當(dāng)j＝2時(shí)，F(xiàn)j（X）和Fj（Y）為X和Y中的DF值（計(jì)算如式（4），n為包含特征詞的論元類別數(shù)，N為論元的類別總數(shù)）；Sj（X）和Sj（Y）為各自的n值，經(jīng)歸一化后得到X和Y的DF值的相似度權(quán)重。

式（2）的第三項(xiàng)為單／跨句依存（SingleDep／CrossDep）、同義詞（Syn）和上／下位詞（Hype／Hypo）特征的相似度權(quán)重之和（N3＝5），其能有效衡量特征向量間的依存相似度（依存詞集交叉詞）和背景詞匯相似度（同義／上／下位詞集交叉詞）。計(jì)算方法如式（5）所示。

式（5）中Sk（X）和Sk（Y）表示X和Y中各自特征詞的單句依存詞集、跨句依存詞集、同義詞集、上位詞集和下位詞集（根據(jù)k值），G（Sk（X），Sk（Y））表示X和Y對(duì)應(yīng)的特征詞集的詞共現(xiàn)數(shù)（詞集交叉詞的個(gè)數(shù)）；Max（Nk（X），Nk（Y））表示X和Y各自特征詞集的最大長(zhǎng)度。

·概念子模型相似度

同樣以兩種概念模型中的施事實(shí)體概念子模型（由多個(gè)類簇構(gòu)成）間的相似度計(jì)算為例，以特征向量的相似度計(jì)算為基礎(chǔ)，子模型間的相似度計(jì)算即兩組類簇間的相似度計(jì)算，本文采用三種相似度匹配方法CentSim，AvgSim和TopNSim（表5）進(jìn)行對(duì)比實(shí)驗(yàn)。

表5 三種相似度匹配方法

其中，相似度匹配需按照概念的歸屬進(jìn)行分類匹配。例如，兩種論元對(duì)對(duì)應(yīng)的施事實(shí)體子概念進(jìn)行匹配，而不能與另一論元對(duì)的受事實(shí)體子概念或施事行為子概念等匹配。通過(guò)統(tǒng)計(jì)最優(yōu)匹配的概念模型A所映射的篇章關(guān)系（“概念—關(guān)系”），推理待測(cè)論元對(duì)的篇章關(guān)系。

6 實(shí)驗(yàn)結(jié)果與分析

本節(jié)給出基于功能連接詞推理隱式篇章關(guān)系方法的實(shí)驗(yàn)結(jié)果和評(píng)價(jià)標(biāo)準(zhǔn)，并通過(guò)對(duì)比前人利用樹核函數(shù)和統(tǒng)計(jì)語(yǔ)言模型推理的效果，進(jìn)一步分析本文方法的特點(diǎn)及優(yōu)越性。

6.1 實(shí)驗(yàn)數(shù)據(jù)評(píng)價(jià)標(biāo)準(zhǔn)

本文針對(duì)PDTB第一層四種隱式篇章關(guān)系進(jìn)行推理識(shí)別，采用非監(jiān)督方法，選擇PDTB中21～ 22章作為測(cè)試集。本文對(duì)于包含兩種或兩種以上篇章關(guān)系的測(cè)試句對(duì)，選擇最主要的關(guān)系類別作為其正確的篇章關(guān)系。表6列出了測(cè)試集中第一層隱式篇章關(guān)系的分布。

表6 測(cè)試集中隱式篇章關(guān)系的分布

本文重現(xiàn)并測(cè)試了Wang等［6］基于樹核函數(shù)抽取句法結(jié)構(gòu)信息，再利用統(tǒng)計(jì)策略推理的方法。通過(guò)與該方法的對(duì)比，驗(yàn)證統(tǒng)計(jì)建模的可行性。本文也實(shí)現(xiàn)了Zhou等［15］在PDTB上使用語(yǔ)言模型，構(gòu)造一致的論元表達(dá)模式來(lái)預(yù)測(cè)顯式連接詞的推理方法，其能與本文構(gòu)造的功能連接詞概念模型推理方法形成很好的對(duì)比。為評(píng)估推理系統(tǒng)對(duì)四種篇章關(guān)系的識(shí)別性能，本文使用的度量標(biāo)準(zhǔn)如式（6）所示，其中，PosCorrect為被正確分為正例的個(gè)數(shù)，Neg－Correct為被正確分為負(fù)例的個(gè)數(shù)，Sum為測(cè)試實(shí)例總數(shù)（1 042）。

6.2 實(shí)驗(yàn)結(jié)果與分析

·可行性驗(yàn)證

本文首次提出利用功能連接詞（FC）構(gòu)建隱式論元對(duì)概念模型，與直接表征論元語(yǔ)義關(guān)系的顯式連接詞不同，F(xiàn)C主要出現(xiàn)在欠缺顯式連接詞的隱式論元間，通過(guò)其語(yǔ)義連接和依存特征，潛在反映隱式篇章關(guān)系，這一特點(diǎn)有利于本文在推理隱式關(guān)系時(shí)加以利用。

本文分析了較高頻功能連接詞在隱式和顯式篇章關(guān)系中的分布情況，以驗(yàn)證使用功能連接詞作為線索詞，構(gòu)建隱式論元對(duì)概念模型的可行性。如圖3所示，功能連接詞在隱式篇章關(guān)系中的出現(xiàn)頻率較顯式更高，尤其高頻功能連接詞的這一分布差異更為顯著（圖3的小表列舉了四種篇章關(guān)系中頻率最高的功能連接詞在顯式和隱式篇章關(guān)系中的分布情況）。統(tǒng)計(jì)結(jié)果說(shuō)明，功能連接詞能更好的表征論元間的隱式篇章關(guān)系。

圖3 FC在顯式與隱式篇章關(guān)系中的分布情況（縱坐標(biāo)為FC的頻率，橫坐標(biāo)為表2中FC的序列號(hào)）

然而，盡管功能連接詞更多出現(xiàn)于隱式篇章中，但只有較少的待測(cè)隱式論元對(duì)包含功能連接詞（PDTBv2中51%的論元間包含F(xiàn)C），其中真正起到論元間連接作用的功能連接詞，出現(xiàn)頻率更低（PBTBv2的22～23章中39%的論元間出現(xiàn)有連接功能的FC）。因此不能直接通過(guò)功能連接詞推理待測(cè)論元對(duì)的隱式篇章關(guān)系。本文有效的解決方法是有針對(duì)性地構(gòu)建概念模型，以功能連接詞為媒介，通過(guò)映射和統(tǒng)計(jì)的方式推理隱式篇章關(guān)系。

·相似度匹配方法性能對(duì)比

本文采用三種相似度匹配方法CentSim、Avg－Sim和TopNSim（表5）構(gòu)建隱式關(guān)系推理系統(tǒng)。實(shí)驗(yàn)結(jié)果對(duì)比如表7所示，使用平均相似度Avg－Sim方法，統(tǒng)計(jì)推理隱式關(guān)系的精確率最高（53.84%）。而使用聚類中心相似度CentSim方法，推理系統(tǒng)的精確率最低（50.48%）。

表7 三種相似度匹配方法的系統(tǒng)性能對(duì)比

造成精確率偏差的主要原因是，構(gòu)建概念模型過(guò)程中使用的特征向量，分布較為離散，經(jīng)過(guò)Ap－Cluster無(wú)指定類別聚類后，類簇的中心向量不能明顯表征該類簇中的其它特征向量。而CentSim方法不能將除中心向量外，有利于篇章推理的其他向量考慮在內(nèi)。但AvgSim方法能有效解決中心向量表征類簇效果不好的問(wèn)題，提高類簇間的相似度匹配性能。

另外，實(shí)驗(yàn)發(fā)現(xiàn)TopNSim方法中，N值的變化對(duì)系統(tǒng)性能有重要影響。該方法匹配兩種概念（類簇）時(shí)，將待測(cè)類簇的中心向量與候選類簇中相似度最高的N個(gè)特征向量的相似度權(quán)重之和，作為度量?jī)山M類簇相似性的標(biāo)準(zhǔn)。如圖4所示，當(dāng)N＝8時(shí)的系統(tǒng)精確率達(dá)到最大值53.35%。圖4中的柱形圖展示了達(dá)到這一精確率時(shí)，測(cè)試集（Standard）和系統(tǒng)判定（System）的四種篇章關(guān)系實(shí)例的分布情況。當(dāng)N大于20時(shí)，精確率近于穩(wěn)定的原因：一是候選概念中排在較后的特征向量權(quán)重較低，累加時(shí)對(duì)結(jié)果影響較??；二是特征向量個(gè)數(shù)有限，當(dāng)N值增加到足夠大時(shí)統(tǒng)計(jì)結(jié)果不再發(fā)生變化。

圖4 TopNSim相似度匹配方法推斷隱式篇章關(guān)系性能

·推理系統(tǒng)性能比較

本文將性能最高的系統(tǒng)與Wang等［6］基于樹核函數(shù)的方法（Wang＿Sys），以及Zhou等［15］基于非監(jiān)督語(yǔ)言模型的方法（Zhou＿Sys）進(jìn)行對(duì)比。此外本文也使用了最大關(guān)系類（即所有實(shí)例被歸類為擴(kuò)展關(guān)系）作為基準(zhǔn)（Baseline）。表8列舉了所有系統(tǒng)的精確率，本文方法（Our＿Sys）在推理隱式篇章關(guān)系任務(wù)中體現(xiàn)出明顯優(yōu)勢(shì)，識(shí)別精確率較Wang和Zhou的系統(tǒng)，分別取得13.84%和12.49%的性能提升，也高于測(cè)試數(shù)據(jù)中最大類別所占比例。實(shí)驗(yàn)結(jié)果證實(shí)了推理模型構(gòu)建的正確性以及整體方法的可行性。

表8 隱式篇章關(guān)系推理各方法的性能對(duì)比

本文系統(tǒng)的性能較Wang＿Sys取得較大提高的原因是，Wang＿Sys采用的是基于樹核函數(shù)抽取句法樹中結(jié)構(gòu)化信息，組合句間的時(shí)序信息及其他基本特征，進(jìn)行監(jiān)督分類的方法。但由于隱式論元對(duì)的句法結(jié)構(gòu)較復(fù)雜，且僅僅依據(jù)篇章中孤立句子的結(jié)構(gòu)信息作為特征來(lái)分類顯然是不完備的。本文系統(tǒng)性能也優(yōu)于Zhou＿Sys的原因是，后者通過(guò)預(yù)測(cè)顯式連接詞，將隱式論元對(duì)映射為顯式論元對(duì)來(lái)推理隱式關(guān)系，其方法僅基于小規(guī)模的顯式數(shù)據(jù)集（PDTB），且僅使用三元語(yǔ)法模型搜索與隱式論元一致的表達(dá)模式，嚴(yán)格限制了所構(gòu)建模式的數(shù)量與有效性，使得匹配顯式論元對(duì)的過(guò)程存在缺陷，從而導(dǎo)致預(yù)測(cè)出的顯式連接詞不能有效表征隱式論元對(duì)的篇章關(guān)系。相比之下，本文方法使用豐富的候選資源，從隱式論元本身出發(fā)，構(gòu)建更為完善的概念模型和基于嚴(yán)格相似度度量方法的映射體系，并使用更普遍存在于隱式論元間的功能連接詞實(shí)現(xiàn)推理。盡管如此，本文工作和Zhou的方法在性能上都較優(yōu)于Wang的系統(tǒng)，說(shuō)明了隱式篇章關(guān)系識(shí)別中模型推理的可行性。且相對(duì)簡(jiǎn)單的映射體系可避免機(jī)器學(xué)習(xí)方法中復(fù)雜的語(yǔ)言分析問(wèn)題，從而減少中間步驟誤差引起的錯(cuò)誤擴(kuò)大化現(xiàn)象。

然而，本文的最好性能相較于最大類別的比率仍然較低，Wang和Zhou等的工作甚至遠(yuǎn)低于最大類別比率，這反映了隱式篇章關(guān)系識(shí)別難度依然很大，主要是因?yàn)殡[式關(guān)系本身就存在主觀性和模糊性，不同的語(yǔ)境下相同的論元對(duì)可能形成不同的篇章關(guān)系，即使相同的語(yǔ)境下，論元對(duì)的語(yǔ)氣強(qiáng)度和情感差異也會(huì)導(dǎo)致篇章關(guān)系的不同。PDTB語(yǔ)料的16 051個(gè)隱式實(shí)例中，有356個(gè)實(shí)例被同時(shí)標(biāo)注多種篇章關(guān)系類型；18 459個(gè)顯式實(shí)例中，也存在532個(gè)同時(shí)標(biāo)注多種篇章關(guān)系類型的實(shí)例。另外，本文方法中應(yīng)用的依存分析器的精度，也會(huì)影響實(shí)驗(yàn)結(jié)果。種種現(xiàn)象均表明，隱式篇章關(guān)系識(shí)別研究將是篇章分析領(lǐng)域的一項(xiàng)既困難同時(shí)又富有挑戰(zhàn)性的工作。

7 總結(jié)與展望

本文首次提出基于功能連接詞構(gòu)建論元概念模型，以無(wú)監(jiān)督的方式實(shí)現(xiàn)隱式篇章關(guān)系判別。本文利用隱式論元間具有特殊語(yǔ)義連接與依存關(guān)系的功能連接詞，從隱式關(guān)系論元本身出發(fā)，提出了基于功能連接詞構(gòu)建論元概念模型的篇章關(guān)系推理方法。而相關(guān)工作中基于復(fù)雜語(yǔ)言學(xué)特征的監(jiān)督學(xué)習(xí)方法，主要是通過(guò)利用顯式篇章關(guān)系特有的屬性特征，解決隱式篇章關(guān)系的分類問(wèn)題，忽視了顯式與隱式語(yǔ)義關(guān)系的本質(zhì)區(qū)別，且復(fù)雜的語(yǔ)言學(xué)分析會(huì)造成中間過(guò)程的誤差累積，影響最終的分類性能。

另外，本文研究發(fā)現(xiàn)目前的隱式篇章關(guān)系推理仍存在幾大難點(diǎn)問(wèn)題：1）篇章關(guān)系本身存在主觀性和模糊性，應(yīng)充分利用上下文信息輔助隱式篇章關(guān)系推理；2）修辭結(jié)構(gòu)在篇章結(jié)構(gòu)中具有重要作用，能有效輔助隱式篇章關(guān)系判別，但修辭結(jié)構(gòu)本身就是一項(xiàng)研究難點(diǎn)。

未來(lái)工作將借助修辭和情感分析等，擴(kuò)充現(xiàn)有的功能連接詞，進(jìn)一步挖掘功能連接詞的語(yǔ)義特征，并細(xì)粒度劃分功能連接詞的關(guān)系類別，完善概念模型的構(gòu)建方法，進(jìn)而輔助第一層乃至第二層隱式篇章關(guān)系的自動(dòng)判定。

［1］ M Riaz，R Girju.Another look at causality：Discovering scenario－specific contingency relationships with no supervision［C］／／Proceedings of the 4th ICSC，2010：361－368.

［2］ Q X Do，Y S Chan，D Roth.Minimally supervised event causality identification［C］／／Proceedings of the Conference on Empirical Methods in Natural Language Processing（EMNLP），2011：294－303.

［3］王繼成，武港山.一種篇章結(jié)構(gòu)指導(dǎo)的中文Web文檔自動(dòng)摘要方法［J］.計(jì)算機(jī)研究與發(fā)展，2003，40（3）：398－405.

［4］ L Zhou，B Li，W Gao，et al.Unsupervised discovery of discourse relations for eliminating intra－sentence polarity ambiguities［C］／／Proceedings of the Conference on Empirical Methods in Natural Language Processing（EMNLP），2011：162－171.

［5］ E Pitler，M Raghupathy，H Mehta，et al.Easily identifiable discourse relations［C］／／Proceedings of the 22nd International Conference on the COLING，2008：87－90.

［6］ W T Wang，J Su，C L Tan.Kernel Based Discourse Relation Recognition with Temporal Ordering Information［C］／／Proceedings of the 48th Annual Meeting of the ACL，2010：710－719.

［7］ R Prasad，N Dinesh，A Lee，et al.The Penn Discourse TreeBank 2.0［C］／／Proceedings of Proceedings of the 6th International Conference on LREC 2008，Morocco.

［8］ L Carlson，D Marcu，M E Okurowski.Building a discourse－tagged corpus in the framework of rhetorical structure theory［C］／／Proceedings of the Second SIGDIAL2001，Denmark，2001：1－10.

［9］ D Marcu，A Echihabi.An Unsupervised Approach to Recognizing Discourse Relations［C］／／Proceedings of the 40th Annual Meeting on the ACL，2002：368－375.

［10］ M Saito，K Yamamoto，S Sekine.Using Phrasal Patterns to Identify Discourse Relations［C］／／Proceedings of the Human Language Technology Conference of the NAACL，2006：133－136.

［11］ F Wolf，E Gibson.Representing discourse coherence：a corpus－based analysis［C］／／Proceedings of the 20th International Conference on the COLING，Morristown，NJ，USA，2005：134－140.

［12］ E Pitler，A Louis，A Nenkova.Automatic Sense Prediction for Implicit Discourse Relations in Text［C］／／Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP，2009，（2）：683－691.

［13］ R Soricut，D Marcu.Sentence level discourse parsing using syntactic and lexical information［C］／／Proceedings of the HLT／NAACL，2003：149－156.

［14］ Z Lin，H T Ng，M Y Kan.Automatically Evaluating Text Coherence Using Discourse Relations［C］／／Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics：Human Language Technologies，2011，（2）：997－1006.

［15］ Z M Zhou，Y Xu，Z Y Niu，et al.Predicting Discourse Connectives for Implicit Discourse Relation Recognition［C］／／Proceedings of the 23rd International Conference on Computational Linguistics：Posters，2010：1507－1514.

［16］ http：／／www.bioinf.jku.at／software／apcluster／［DB／OL］.

［17］ http：／／nlp.stanford.edu／software／lex－parser.shtml［DB／OL］.

［18］ E Pitler，A Nenkova.Revisiting readability：A unified framework for predicting text quality［C］／／Proceedings of the Conference on the EMNLP，2008：186－195.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡