国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題相似度的宏觀篇章主次關(guān)系識別方法

2018-04-04 02:42:10褚曉敏李培峰朱巧明
中文信息學(xué)報 2018年1期
關(guān)鍵詞:宏觀段落語料

蔣 峰,褚曉敏,徐 昇,李培峰,朱巧明

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;江蘇省計算機(jī)信息技術(shù)處理重點(diǎn)實驗室,江蘇 蘇州 215006)

0 引言

近年來,自然語言處理領(lǐng)域的研究內(nèi)容,逐步從淺層次的詞匯、句法分析延伸到了深層次的語義理解。因此,自然語言處理研究的文本顆粒度,從單個詞、短語、句子,延伸至句群、段落、篇章。篇章分析是目前研究的熱點(diǎn)和重點(diǎn),其目的是進(jìn)一步研究自然語言文本的內(nèi)在結(jié)構(gòu),并理解文本單元間的語義關(guān)系,挖掘出文本的結(jié)構(gòu)化和語義信息。

篇章主次關(guān)系表示了篇章內(nèi)部或篇章與篇章間的主要內(nèi)容和次要內(nèi)容的關(guān)系。其中,主要內(nèi)容是指篇章中居于支配地位、起決定作用的部分,而次要內(nèi)容是指篇章中居于輔助地位、不起決定作用的部分[1]。篇章主次關(guān)系主要分為微觀和宏觀兩個層面,微觀主次關(guān)系是指篇章中的一個句子內(nèi)部的主次關(guān)系或兩個連續(xù)句子間的主次關(guān)系,而宏觀主次關(guān)系則是更高層次的主次關(guān)系,表現(xiàn)為段落、章節(jié)間的主次關(guān)系。研究篇章主次關(guān)系,有助于更好地認(rèn)識和理解篇章的中心主題,更有效地挖掘篇章的宏觀主題和篇章各部分之間的語義關(guān)聯(lián),并為自然語言處理的相關(guān)應(yīng)用,如信息抽取[2]、自動文摘[3]、問答系統(tǒng)[4]等提供支撐。

本文以CTB8.0中一個篇章(chtb_0056.nw.raw)為例來說明宏觀篇章主次關(guān)系,如圖1所示(完整的宏觀篇章關(guān)系結(jié)構(gòu)標(biāo)注如圖2所示)。在圖2所示的樹形結(jié)構(gòu)中,自然段落是葉子節(jié)點(diǎn)(如段落a、b等),篇章關(guān)系為非葉子節(jié)點(diǎn)(如R2、R3等),箭頭指向篇章關(guān)系中較為重要的部分。本文將篇章主次關(guān)系分為三類: (1)P-S(primary and secondary),即主要在前,次要在后; (2)S-P(secondary and primary),即主要在后,次要在前; (3)M-P(multi-primary),即前后同等重要。

中國高新技術(shù)開發(fā)區(qū)發(fā)展迅速成果顯著a新華社北京十二月十七日電(記者秦杰)中國五十三個國家高新技術(shù)開發(fā)區(qū)發(fā)展迅速,已形成一大批機(jī)制靈活、適應(yīng)市場經(jīng)濟(jì)要求、技術(shù)創(chuàng)新能力強(qiáng)的高新技術(shù)企業(yè)。b中國高新技術(shù)開發(fā)區(qū)醞釀于八十年代初。到去年為止,中國高新技術(shù)開發(fā)區(qū)技術(shù)工貿(mào)年總收入達(dá)二千三百億元,利稅總額達(dá)二百三十八億元,年出口創(chuàng)匯達(dá)四十三億美元,均比創(chuàng)辦初增長數(shù)十倍。其中,形成了一批具有一定規(guī)模的高新技術(shù)支柱產(chǎn)業(yè),產(chǎn)值超億元的企業(yè)達(dá)四百零五家,產(chǎn)值超十億元的大企業(yè)四十二家。c一九九六年,中國高新技術(shù)開發(fā)區(qū)企業(yè)研究開發(fā)投入達(dá)六十二點(diǎn)三五億元,占企業(yè)產(chǎn)品銷售收入的百分之三點(diǎn)五,開發(fā)、生產(chǎn)高新技術(shù)產(chǎn)品一萬三千多種。d近年來,中國高新技術(shù)開發(fā)區(qū)初步建立了適應(yīng)社會主義市場經(jīng)濟(jì)體制和高新技術(shù)產(chǎn)業(yè)發(fā)展需要,與國際慣例接軌的管理體制和運(yùn)行機(jī)制,建立并不斷完善了包括信息、金融、法律、資產(chǎn)評估、產(chǎn)權(quán)交易等中介和服務(wù)機(jī)構(gòu),初步形成了適于高新技術(shù)產(chǎn)業(yè)發(fā)展的較為完善的支撐服務(wù)體系。e為規(guī)范高新區(qū)的管理,依法治區(qū),中國頒布了《國家高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)管理暫行辦法》,同時長春、蘇州、沈陽、長沙、石家莊、昆明等高新區(qū)也先后完成了高新區(qū)的人大立法工作或以政府令形式發(fā)布了高新區(qū)管理辦法。(完)圖1 中文賓州樹庫篇章示例

圖2 宏觀篇章結(jié)構(gòu)的樹形表示(chtb_0056.nw.raw)

該例中,段落a中提出中國高新技術(shù)開發(fā)區(qū)發(fā)展迅速,段落b是對中國高新技術(shù)開發(fā)區(qū)發(fā)展情況的詳細(xì)介紹。因此,主要是段落a的內(nèi)容與外界發(fā)生語義關(guān)系,段落a主要,段落b次要,而且段落a、b間形成了解說關(guān)系;而段落c、d、e分別從三個方面闡述了中國高新技術(shù)開發(fā)區(qū)發(fā)展迅速的原因,因此三者為同等重要,形成并列關(guān)系。

本文組織結(jié)構(gòu)如下: 第二部分從理論、語料、模型三個方面介紹了篇章主次分析的相關(guān)研究工作;第三部分介紹了宏觀漢語篇章語料庫的建設(shè);第四部分給出了一個基于主題相似度的宏觀篇章主次關(guān)系識別框架,并介紹了計算主題相似度的算法;第五部分詳細(xì)分析了實驗結(jié)果;第六部分總結(jié)全文并指出下一步工作。

1 相關(guān)工作

理論研究方面,在微觀篇章關(guān)系上,Mann和Thompson[5-6]的修辭結(jié)構(gòu)理論(RST)根據(jù)修辭關(guān)系提出了“核-衛(wèi)星”(nucleus- satellite)模式,并將篇章關(guān)系分為單核關(guān)系和多核關(guān)系兩大類。對于單核關(guān)系來說,有關(guān)系的兩個篇章單元一方為核心,別一方為衛(wèi)星。對于多核關(guān)系來講,篇章關(guān)系連接的兩個篇章單元同等重要,沒有主次之分。在宏觀篇章關(guān)系上,Van Dijk[7]的篇章宏觀結(jié)構(gòu)理論提出了篇章宏觀結(jié)構(gòu),宏觀結(jié)構(gòu)與微觀結(jié)構(gòu)相對,是篇章整體上的高層次的結(jié)構(gòu),每一層的宏觀單元都由下一層的宏觀單元通過歸總形成,代表更為主要的篇章內(nèi)容。

目前涉及篇章主次關(guān)系語料資源主要包括修辭結(jié)構(gòu)篇章樹庫(RST-DT)和漢語篇章樹庫(CDTB)等。修辭結(jié)構(gòu)篇章樹庫以修辭結(jié)構(gòu)理論(RST)為支撐,標(biāo)注了篇章單元、篇章關(guān)系、主次關(guān)系(即“核心”和“衛(wèi)星”)和篇章結(jié)構(gòu)等,從而生成有層次的篇章結(jié)構(gòu)樹。漢語篇章樹庫基于連接依存樹的篇章結(jié)構(gòu)理論,在賓州大學(xué)漢語樹庫(CTB)上標(biāo)注了500篇微觀篇章關(guān)系結(jié)構(gòu),共計2 342 個段落。該語料庫是在每個段落上自頂向下地標(biāo)注一棵篇章關(guān)系結(jié)構(gòu)樹,其篇章基本單元為子句。RST-DT和CDTB都進(jìn)行了微觀篇章主次關(guān)系的標(biāo)注,但均未進(jìn)行宏觀篇章主次關(guān)系的標(biāo)注。

微觀篇章主次關(guān)系方面的計算模型研究較為廣泛。在修辭結(jié)構(gòu)篇章樹庫上,Hernault[8]使用的是開源的HILDA分析器, HILDA分析器使用兩個支持向量機(jī)(SVM)來構(gòu)建篇章樹,其分析器在篇章主次關(guān)系識別任務(wù)中的F1 性能為 61.3%。Joty[9]在他們前期[10]句內(nèi)篇章結(jié)構(gòu)分析的工作基礎(chǔ)上,分別應(yīng)用句內(nèi)和句間兩個動態(tài)條件隨機(jī)場模型(DCRF),構(gòu)建了句內(nèi)和句間兩個層級的篇章分析器,在篇章主次識別任務(wù)上,其F1值達(dá)到了68.43%。Feng 和 Hirst[11]在其前期工作[12]的基礎(chǔ)上,使用線性鏈的條件隨機(jī)場模型對微觀篇章關(guān)系區(qū)域劃分和主次做出了識別,其正確率分別達(dá)到了85.7%和71%。在漢語篇章樹庫上,Chu[13]使用了上下文、詞對、詞和詞性等特征,在主次關(guān)系識別上達(dá)到了53.21%的正確率,識別中心在前、中心在后、多中心三類關(guān)系的F1值分別達(dá)到了51.58%、53.59%、54.64%。李艷翠[14]構(gòu)建了一個自底向上的漢語微觀篇章結(jié)構(gòu)分析平臺,其中在篇章單位主次區(qū)分的任務(wù)上,中心在前、中心在后、多中心三類識別上分別取得了43.6%、51.5%、79.3%的F1值,識別的總正確率為69%。在宏觀篇章主次關(guān)系計算模型方面,還尚不完善。

2 宏觀漢語篇章樹庫(MCDTB)

基于以上針對宏觀篇章主次關(guān)系研究現(xiàn)狀的分析,目前宏觀篇章主次關(guān)系在理論、語料庫建設(shè)和計算模型上還尚不完善。為此,本文構(gòu)建了一個以篇章主次關(guān)系為載體的篇章結(jié)構(gòu)表示體系,如圖3所示。該體系自上而下由全文標(biāo)題、章節(jié)、段落、句子、子句等組成。其宏觀結(jié)構(gòu)和微觀結(jié)構(gòu)均是多層的,在微觀篇章主次關(guān)系方面復(fù)用了李艷翠[14]基于連接依存樹的篇章結(jié)構(gòu)表示體系,本文關(guān)注的重點(diǎn)是宏觀篇章主次關(guān)系的識別模型,即段落層以上的篇章主次關(guān)系識別模型。

圖3 篇章結(jié)構(gòu)多層樹形表示

依據(jù)這個篇章結(jié)構(gòu)表示體系,本文構(gòu)建了宏觀漢語篇章樹庫(MCDTB)。該語料來源于LDC2013年發(fā)布的CTB8.0,選擇其中最為規(guī)范的新聞報道(Newswire)作為原始語料,標(biāo)注了篇章主題、篇章摘要、段落主題、篇章關(guān)系、主次關(guān)系等信息。MCDTB更側(cè)重于整個篇章層面,以段落為基本篇章單元,并對段落及更高層次的篇章單元間的結(jié)構(gòu)、主次與關(guān)系進(jìn)行相應(yīng)的標(biāo)注。在段落及更低的語義單元內(nèi),復(fù)用CDTB所標(biāo)注的微觀篇章結(jié)構(gòu)。

在標(biāo)注方法上,本文使用自下而上的標(biāo)注策略,在判斷篇章單元的主次關(guān)系時,注重宏觀上篇章單元與篇章主題的語義關(guān)聯(lián)程度。在標(biāo)注規(guī)則上,本文制定了一系列標(biāo)準(zhǔn)。在實施過程中,由3名標(biāo)注人員根據(jù)標(biāo)注標(biāo)準(zhǔn)對語料進(jìn)行同時標(biāo)注。在遇到標(biāo)注不同的情況時,三名人員經(jīng)過討論后,把一致同意的結(jié)果作為標(biāo)準(zhǔn)標(biāo)注。宏觀漢語篇章樹庫(MCDTB)目前已標(biāo)注了 97 個篇章的宏觀篇章結(jié)構(gòu)(選取 CTB8.0語料中前 100 篇,去掉段落數(shù)為 1的不能形成段落間關(guān)系的3 篇),共標(biāo)注了 533 個段落之間438 個關(guān)系(其中多元關(guān)系都轉(zhuǎn)換為二元關(guān)系保存),統(tǒng)計數(shù)據(jù)如表1所示。

表1 宏觀漢語篇章樹庫宏觀篇章標(biāo)注情況

續(xù)表

在標(biāo)注格式上,宏觀漢語篇章樹庫(MCDTB)采用XML格式存儲,以篇章的主題(DiscourseTopic)、短摘要(LEAD)、長摘要(ABSTRACT)、篇章關(guān)系(RELATION)、段落主題句(ParagraphTopic)為標(biāo)注對象,并針對篇章關(guān)系標(biāo)注了篇章關(guān)系層級(Layer)、篇章關(guān)系類型(RelationType)、篇章關(guān)系主次(Center)、篇章關(guān)系位置(ParagraphPosition)、父關(guān)系節(jié)點(diǎn)(ParentId)和子關(guān)系節(jié)點(diǎn)(ChildList)等,具體形式如圖4所示。

圖4 標(biāo)注語料實例保存結(jié)果(chtb_0056.nw.raw)

篇章主次關(guān)系經(jīng)過二元關(guān)系轉(zhuǎn)換后,具體的統(tǒng)計數(shù)據(jù)如表2所示。通過表中數(shù)據(jù)可以看出,宏觀篇章主次類型S-P的數(shù)目十分稀少,只占到了全部數(shù)據(jù)的4.79%。而P-S類型和M-P類型數(shù)量大致相當(dāng)??紤]到本任務(wù)是識別漢語宏觀篇章主次關(guān)系,根據(jù)李錦和廖開洪[15]的統(tǒng)計,在漢語文章中,篇章單元中重要部分在前的情況占70%。而本文使用的新聞類篇章,因為體裁原因,主要內(nèi)容在前若干段描述的比例更大,符合自然分布規(guī)律,因此本文未對數(shù)據(jù)不平衡問題進(jìn)行處理。

表2 篇章主次關(guān)系統(tǒng)計表

3 宏觀篇章主次關(guān)系識別框架

3.1 宏觀篇章主次關(guān)系計算模型

在處理宏觀篇章主次關(guān)系上,本文把篇章主次關(guān)系的識別看作是一個分類問題。篇章主次關(guān)系中,多數(shù)情況都是二元主次關(guān)系,本文用一個元組來表示([Arg1,Arg2],label),其中Arg1和Arg2表示一個篇章主次關(guān)系的兩個篇章單元,label表示兩個篇章單元間的主次關(guān)系,正如圖2中的關(guān)系R3。但是也存在像R2這樣的多元主次關(guān)系,本文用([Arg1,Arg2,…,Argn],label)來表示。為了統(tǒng)一化表示篇章主次關(guān)系,本文把所有的多元關(guān)系都轉(zhuǎn)換為二元關(guān)系。以R2為例,其元組表示為([c,d,e],M-P),經(jīng)過轉(zhuǎn)換后,其表示形式為([c,d],M-P)、([d,e],M-P)。

這樣,最終的問題就轉(zhuǎn)換為給定篇章單元Arg1與Arg2,判斷兩個篇章單元之間的主次關(guān)系的三分類(P-S、S-P、M-P)問題。

在特征選取上,Joty[9]、Feng[11]、Chu[13]等使用詞匯、句法、文本結(jié)構(gòu)等信息作為特征,而沒有使用語義信息,并且上述研究都是在句內(nèi)和句間進(jìn)行主次關(guān)系的識別,即微觀篇章主次關(guān)系。

本文的研究重點(diǎn)是宏觀篇章主次關(guān)系,其篇章基本單元是自然分割的文章段落,相較于微觀篇章主次關(guān)系的研究,更應(yīng)該注重段落之間的語義關(guān)系??紤]到詞及詞性等特征相對于段落的語義來說顆粒度較小,而篇章單元與主題的相似度可以在更高層次上表現(xiàn)出篇章單元所涵蓋的主要語義信息,因此本文將篇章單元與篇章主題的相似度作為一個重要特征,并提出了基于word2vec[16]和基于LDA[17]的兩種主題相似度的計算方法。

3.2 基于word2vec的主題相似度算法

基于word2vec的主題相似度是計算篇章單元Arg1與篇章主題的語義相似度Score1、篇章單元Arg2與篇章主題的語義相似度Score2。該算法使用word2vec算法得到w2vCTB模型,再通過該模型獲取目標(biāo)詞向量,在徐帥[18]的句子與句子之間的語義相似度計算方法的基礎(chǔ)上,使用式(1)~(3)實現(xiàn)篇章單元與篇章單元的語義相似度計算,分別得出兩個篇章單元與篇章主題之間的語義相似度。w2vCTB模型使用的訓(xùn)練語料為CTB8.0前5 558篇文章。表3為主題相似度獲得過程中部分符號所表示的含義。

表3 主題相似度相關(guān)符號及含義

在MCDTB語料庫的宏觀篇章關(guān)系中,本文把篇章標(biāo)題作為篇章主題,由此計算兩個篇章單元與篇章主題的語義相似度。記篇章標(biāo)題為篇章單元Arg0,則要計算的為篇章單元Arg0與篇章單元Arg1和篇章單元Arg0與篇章單元Arg2之間的語義相似度。

如式(1)所示,定義兩個單詞的語義相似度為余弦相似度Similarity(Wi,Wj),其中Vi、Vj分別為單詞Wi、Wj通過w2vCTB模型獲得的詞向量。如式(2)所示,定義篇章單元i里的第n個單詞對于篇章單元j的最大映射相似度為MaxSiminj。如式(3)所示,定義篇章單元i和篇章單元j間的語義相似度為Score。

3.3 基于LDA的主題相似度算法

基于word2vec的主題相似度算法使用篇章標(biāo)題作為篇章主題,當(dāng)篇章標(biāo)題不能較好地表現(xiàn)出真正的篇章主題時,就會出現(xiàn)主題偏差現(xiàn)象。為了彌補(bǔ)這一偏差,本文提出了基于LDA的主題相似度算法。

基于LDA的主題相似度是計算篇章單元Arg1與該篇章單元所在的篇章全文Textall的相似度LDAScore1、篇章單元Arg2與該篇章單元所在的篇章全文Textall的相似度LDAScore2。LDACTB模型是使用Hoffman[19]提出的LDA算法對CTB8.0中全部的新聞?wù)Z料(篇章編號為0001-0325、0400-0454、0500-0540、0600-0885、0900-0931、4000-4050)訓(xùn)練所得。本文使用訓(xùn)練好的LDACTB模型對篇章單元Arg1、篇章單元Arg2和篇章全文Textall 進(jìn)行主題分類,并選取分類結(jié)果中概率最大的前四個主題種類作為其主題集合ThemeSet1、ThemeSet2和ThemeSetall。LDAScore1、LDAScore2的計算方法如式(4)、(5)所示。

3.4 特征選擇

在宏觀篇章主次關(guān)系分類的任務(wù)上,由于目前還沒有相應(yīng)的基準(zhǔn)系統(tǒng),本文使用了Joty[9]、Feng[11]、Chu[13]中使用的部分組織結(jié)構(gòu)特征作為基準(zhǔn)系統(tǒng)來進(jìn)行比較,并在基準(zhǔn)系統(tǒng)的基礎(chǔ)上添加了基于word2vec和LDA的主題相似度作為語義特征,記基于word2vec的主題相似度特征為SimW2V,基于LDA的主題相似度特征為SimLDA,因此最終使用了表4所示的3組特征。

表4 本實驗使用的特征集合

4 實驗

4.1 實驗設(shè)置

本實驗使用自然語言處理工具(NLTK)中的最大熵分類器(nltk.classify.maxent)*http://www.nltk.org/構(gòu)建了宏觀篇章主次關(guān)系識別模型,參數(shù)均使用默認(rèn)選項。數(shù)據(jù)集大小為438條宏觀篇章關(guān)系,考慮到小樣本訓(xùn)練集的不穩(wěn)定性,實驗采用了十倍交叉驗證,即把原數(shù)據(jù)集按照類別比例均分為10份,其中1份作為測試集,剩余9份作為訓(xùn)練集,并進(jìn)行10次實驗。

本實驗使用四組不同的特征集組合進(jìn)行對比驗證?;鶞?zhǔn)系統(tǒng)使用組織結(jié)構(gòu)特征,第二組和第三組在基準(zhǔn)系統(tǒng)的特征上分別添加了基于word2vec的主題相似度和基于LDA的主題相似度作為語義特征,第四組則在基準(zhǔn)系統(tǒng)基礎(chǔ)上,同時添加了基于word2vec的主題相似度特征和基于LDA的主題相似度特征。

4.2 實驗結(jié)果

最終的實驗結(jié)果如表5所示,表中的準(zhǔn)確率(Precision)、召回率(Recall)、F1值(F1-score)分別是3種主次關(guān)系分類結(jié)果中標(biāo)準(zhǔn)Precision、Recall和F1-score的加權(quán)平均,正確率(Accuracy)為使用式(6)計算所得。

表5 采用不同特征集的實驗結(jié)果(10次實驗平均結(jié)果)

從表5中可以看出,使用了組織結(jié)構(gòu)、基于word2vce的主題相似度和基于LDA的主題相似度特征的第四組在準(zhǔn)確率、召回率、F1值和正確率上均達(dá)到最好值,相較于未添加語義特征的基準(zhǔn)系統(tǒng),分別提升了1.2%、2.0%、1.7%和1.81%。

第二組和第三組較基準(zhǔn)系統(tǒng)都有了一定的性能提升,這證明了語義特征對于宏觀篇章主次的識別具有積極作用。而融合了兩種主題相似度的第四組最終取得最好性能,其原因是基于word2vec的主題相似度和基于LDA的主題相似度在不同維度上計算語義相似度,兩者在語義層面形成互補(bǔ),因而增強(qiáng)了模型識別宏觀篇章主次關(guān)系的能力。

但是,對于取得最好性能的第四組來說,不同的篇章主次類型,其表現(xiàn)也并不相同,如表6所示。

表6 第四組的分類結(jié)果情況統(tǒng)計表(10次實驗平均結(jié)果)

各類別的情況表現(xiàn)出一種不平衡的分布。對于樣本數(shù)量稀少的S-P類型,模型基本沒有識別出此類別,通過對實驗結(jié)果的分析后發(fā)現(xiàn),一方面是因為其樣本數(shù)量較少,模型沒有學(xué)習(xí)到應(yīng)有的特征。另一方面,S-P類型兩個篇章單元包含的段落數(shù)大致相等,因此從結(jié)構(gòu)上,容易被判別為M-P類型。另外,S-P類型多半為因果關(guān)系或者評價關(guān)系,對于一個篇章而言,事件的原因重要還是事件的結(jié)果重要,或者事件本身重要還是事件評價重要,通過主題相似度很難區(qū)分,在人工進(jìn)行語料標(biāo)注時,也存在一定的主觀誤差。

相比之下,P-S類型和M-P類型的識別效果較為良好,通過表7的混淆矩陣可以看出,P-S類型和M-P類型沒有誤分類到S-P類型中,除了S-P類型被誤分類到P-S和M-P類型外,本模型的性能損失主要在于P-S類型與M-P類型之間的混淆。

表7 第四組實驗結(jié)果的混淆矩陣(10次實驗平均結(jié)果)

5 結(jié)論與展望

實驗結(jié)果證明,在宏觀篇章主次關(guān)系識別的任務(wù)上,主題相似度特征能夠表現(xiàn)出各篇章單元與篇章主題之間的密切程度,提升了宏觀篇章主次關(guān)系識別的性能。本文提出的融合了基于word2vec的主題相似度和基于LDA的主題相似度的主次關(guān)系識別方法在實驗中取得了最好的性能表現(xiàn),其準(zhǔn)確率、召回率、F1值和正確率分別達(dá)到了79.0%、81.9%、79.9%和81.82%,相比較只含有組織結(jié)構(gòu)特征的基準(zhǔn)系統(tǒng),分別提升了1.2%、2.0%、1.7%和1.81%。

在接下來的工作中,我們將繼續(xù)標(biāo)注MCDTB語料庫,完善標(biāo)注規(guī)則,擴(kuò)大數(shù)據(jù)集,并針對不平衡數(shù)據(jù)集出現(xiàn)的原因及應(yīng)對策略、尋找富文本特征集等問題進(jìn)行相應(yīng)的探究。

[1]褚曉敏,朱巧明,周國棟. 自然語言處理中的篇章主次關(guān)系研究[J]. 計算機(jī)學(xué)報, 2017, 40(4): 842-860.

[2]Zou B, Zhou G, Zhu Q. Negation focus identification with contextual discourse information[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014: 522-530.

[3]Cohan A, Goharian N. Scientific article summarization using citation-context and article’s discourse structure[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: Association for Computational Linguistics, 2015: 390-400.

[4]Liakata M, Dobnik S, Saha S, et al. A discourse-dri-ven content model for summarising scientific articles evaluated in a complex question answering task[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA: Association for Computational Linguistics, 2013: 747-757.

[5]Mann W C, Thompson S A. Relational propositions in discourse[J]. Discourse Processes, 1986, 9(1): 57-90.

[6]Mann W C, Thompson S A. Rhetorical structure theory: A theory of text organization[J]. Text-Interdiscip-linary Journal for the Study of Discourse, 1987, 8(3):243-281.

[7]Van Dijk T A. Macrostructures: An interdisciplinary study of global structures in discourse, interaction, and cognition[M]. Hillsdale, New Jersey, USA: Lawrence Erlbaum Associates, Inc., 1980.

[8]Hernault H, Prendinger H, Ishizuka M. HILDA: A discourse parser using support vector machine classification[J]. Dialogue & Discourse, 2010, 1(3): 1-33.

[9]Joty S R, Carenini G, Ng R T, et al. Combining intra-and multi-sentential rhetorical parsing for document-level discourse analysis[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, Bulgaria: Association for Computational Linguistics, 2013: 486-496.

[10]Joty S, Carenini G, Ng R T. A novel discriminative framework for sentence-level discourse analysis[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island Korea: Association for Computational Linguistics, 2012: 904-915.

[11]Feng V W, Hirst G. A linear-time bottom-up discourse parser with constraints and post-editing[C]//Proceedings of the 52nd Annual Meeting of the Association for Association for Computational Linguistics. Baltimore, Maryland, USA: Association for Computational Linguistics, 2014: 511-521.

[12]Feng V W, Hirst G. Text-level discourse parsing with rich linguistic features[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Republic of Korea: Association for Computational Linguistics, 2012. 60-68.

[13]Chu X, Wang Z, Zhu Q, et al. Recognizing nuclearity between Chinese discourse units[C]//Asian Language Processing (IALP). 2015 International Conference on. IEEE, 2015: 197-200.

[14]李艷翠. 漢語篇章結(jié)構(gòu)表示體系及資源構(gòu)建研究[D]. 蘇州:蘇州大學(xué), 2015.

[15]李錦,廖開洪. 漢英語篇主題與段落結(jié)構(gòu)模式的比較研究[J]. 暨南學(xué)報(哲學(xué)社會科學(xué)版),2001,23(5):89-93.

[16]Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013,(26): 3111-3119.

[17]Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(Jan): 993-1022.

[18]徐帥. 面向問答系統(tǒng)的復(fù)述識別技術(shù)研究與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009.

[19]Hoffman M, Bach F R, Blei D M. Online learning for latent dirichlet allocation[C]//Advances in Neural Information Processing Systems. Hyatt Regency, Vancouver CANADA: Neural Information Processing Systems Foundation, Inc., 2010: 856-864.

猜你喜歡
宏觀段落語料
【短文篇】
心理小測試
夏天,愛情的第四段落
散文詩(2017年17期)2018-01-31 02:34:11
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
宏觀與政策
弄清段落關(guān)系 按圖索驥讀文
讀寫算(下)(2016年11期)2016-05-04 03:44:07
宏觀
河南電力(2016年5期)2016-02-06 02:11:23
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
宏觀
《苗防備覽》中的湘西語料
通江县| 滦南县| 镇远县| 景洪市| 长沙市| 临汾市| 两当县| 临澧县| 静乐县| 郁南县| 台南县| 祁东县| 牟定县| 资中县| 淳化县| 阿拉尔市| 靖安县| 招远市| 太康县| 五指山市| 合江县| 崇阳县| 根河市| 神池县| 永宁县| 广西| 西乌| 肥城市| 通道| 双峰县| 蒙城县| 乌鲁木齐县| 合山市| 威宁| 闽侯县| 自治县| 奈曼旗| 巢湖市| 盘山县| 中阳县| 丹东市|