国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科學(xué)論文篇章結(jié)構(gòu)建模與解析研究進(jìn)展

2019-07-08 02:27薛家秀歐石燕
圖書與情報(bào) 2019年2期

薛家秀 歐石燕

摘 ? 要:科學(xué)論文篇章結(jié)構(gòu)解析是規(guī)范科學(xué)論文寫作、理解其內(nèi)容、快速定位和抽取論文中特定信息的前提與基礎(chǔ)。文章采用文獻(xiàn)調(diào)查法和對(duì)比分析法,從篇章結(jié)構(gòu)建模、篇章結(jié)構(gòu)自動(dòng)解析、篇章結(jié)構(gòu)應(yīng)用三個(gè)方面對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理和總結(jié)。研究結(jié)果發(fā)現(xiàn)當(dāng)前針對(duì)科學(xué)論文篇章結(jié)構(gòu)的研究主要集中在生物醫(yī)學(xué)和計(jì)算語(yǔ)言學(xué)領(lǐng)域,以粗粒度的基于修辭結(jié)構(gòu)的篇章模型為主,自動(dòng)解析主要采用文本分類和序列標(biāo)注兩大類方法,在自動(dòng)文摘、基于上下文的引文分析等任務(wù)中都有重要的應(yīng)用。今后研究應(yīng)擴(kuò)展到其他領(lǐng)域,并聚焦基于修辭和論證結(jié)構(gòu)的細(xì)粒度篇章結(jié)構(gòu)建模,采用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)更精確的篇章結(jié)構(gòu)解析。

關(guān)鍵詞:科學(xué)論文;篇章結(jié)構(gòu)模型;篇章結(jié)構(gòu)解析

中圖分類號(hào):G312 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? DOI:10.11968/tsyqb.1003-6938.2019034

Research Progress on Discourse Structure Modelling and Discourse Parsing of Scientific Articles

Abstract Discourse parsing of scientific articles is the premise and basis for standardizing the writing of scientific articles, understanding their content, and quickly locating and extracting specific information from them. This paper analyzes and summarizes related literature from three aspects: discourse structure modeling, discourse parsing and their applications by literature survey and comparative analysis. The results show that the current research focuses on the coarse-grained models of discourse structure in the domains of bio-medicine and computational linguistics. Automatic discourse parsing mainly adopts two kinds of methods: text classification and sequence labeling. Discourse structure modelling and discourse parsing has important applications in many tasks such as automatic summarization and context-based citation analysis. Future research should be extended to other domains, pay more attention to fine-grained discourse structure models based on rhetoric and argumentation structure, and apply deep learning techniques to achieve more accurate discourse parsing.

Key words scientific articles; discourse structure model; discourse structure parsing

1 ? 引言

自1665年第一本學(xué)術(shù)期刊《英國(guó)皇家學(xué)會(huì)會(huì)刊(Philosophical transactions of the Royal Society)》出版以來(lái),學(xué)術(shù)出版已經(jīng)有300多年的歷史,科學(xué)論文已經(jīng)逐漸發(fā)展成為科學(xué)研究者進(jìn)行科學(xué)交流的重要載體。傳統(tǒng)期刊論文是以線性結(jié)構(gòu)呈現(xiàn),讀者需順序?yàn)g覽文章的全部?jī)?nèi)容才能獲取所需信息,隨著文獻(xiàn)數(shù)量的爆炸式增長(zhǎng),這種線性結(jié)構(gòu)難以滿足科研人員的信息需求。

篇章修辭結(jié)構(gòu)是指文章的功能結(jié)構(gòu),其定義文章各部分的順序和修辭功能,如文章中某段文字的作用是介紹“研究背景”或闡述“研究目的”[1]。當(dāng)今,隨著數(shù)字出版的普及,越來(lái)越多的科學(xué)期刊采用在線出版的方式,但是很多期刊論文并不具有規(guī)范的結(jié)構(gòu)。通過(guò)對(duì)論文的篇章修辭結(jié)構(gòu)進(jìn)行解析,將整篇文章以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái),一方面有利于讀者快速定位所需信息,另一方面便于文中重要信息的提取、集成和重用,此外,對(duì)于規(guī)范學(xué)術(shù)論文的寫作方式、深入解讀科學(xué)結(jié)論的論證過(guò)程也具有重要的意義。

本文首先對(duì)科學(xué)論文的各種篇章結(jié)構(gòu)模型進(jìn)行梳理和對(duì)比,然后對(duì)篇章結(jié)構(gòu)解析的實(shí)現(xiàn)方法與技術(shù)進(jìn)行總結(jié),最后對(duì)篇章結(jié)構(gòu)解析的應(yīng)用進(jìn)行探討,為進(jìn)一步研究科學(xué)論文的修辭結(jié)構(gòu)和論證結(jié)構(gòu)提供參考。

2 ? 篇章結(jié)構(gòu)模型

早在20世紀(jì)末,歐美學(xué)者就開(kāi)始對(duì)科學(xué)論文篇章結(jié)構(gòu)進(jìn)行不同維度、不同粒度的探索與解析。本文主要梳理幾種較為典型的篇章結(jié)構(gòu)模型,并通過(guò)綜合比較分析,總結(jié)其優(yōu)缺點(diǎn)。

2.1 ? ?IMRaD線性模型

IMRaD模型是在學(xué)術(shù)界被廣泛使用的一種科技論文寫作規(guī)范組織結(jié)構(gòu),在實(shí)證研究型科學(xué)論文中的應(yīng)用尤為普遍[2]。IMRaD模型主要分為四個(gè)部分:介紹(Introduction)、方法(Method)、結(jié)果(Result)和(and)討論(Discussion),該模型的名稱正是來(lái)自這四部分首字母的縮寫。在科學(xué)論文寫作過(guò)程中,有些作者也會(huì)在結(jié)尾部分加上結(jié)論(Conclusion),用于總結(jié)研究過(guò)程中的新發(fā)現(xiàn)和研究結(jié)論,這就成為了具有五個(gè)部分的IMRDC模型[3]。該模型與IMRaD模型沒(méi)有本質(zhì)區(qū)別,通常對(duì)它們不作區(qū)分(IMRaD/IMRDC模型中每部分的具體描述見(jiàn)表1)。

IMRaD模型具有兩大特征:一是上下對(duì)稱性,二是寬度變化性(見(jiàn)圖1)。從論述過(guò)程來(lái)看,“介紹”部分從宏觀角度對(duì)研究的整體內(nèi)容進(jìn)行概括,引入研究主題并介紹背景信息,然后逐漸縮小主題范圍,聚焦到對(duì)具體研究對(duì)象的介紹;而中間的“方法”和“結(jié)果”部分則針對(duì)具體的研究問(wèn)題進(jìn)行論述;研究后的“討論/結(jié)論”部分總結(jié)研究結(jié)果,又回到宏觀角度對(duì)研究結(jié)果的意義進(jìn)行拓展。整個(gè)流程涉及的主題范圍由大變小,然后由小變大,因此也將其稱為“酒杯模型”。

IMRaD模型屬于平行結(jié)構(gòu),簡(jiǎn)單明晰,卻并不受大多數(shù)讀者的歡迎。荷蘭奈梅根大學(xué)的學(xué)者Joy Burrough-boenisch[4]于1999年面向三種不同閱讀人群——學(xué)者、編輯和同行評(píng)審者對(duì)該模型進(jìn)行調(diào)查,發(fā)現(xiàn)只有編輯在閱讀文章時(shí)喜歡這種模式,而其他兩種類型的受訪人員一方面表示不能適應(yīng)這種行文習(xí)慣,另一方面則認(rèn)為不能快速獲得新知識(shí),因此IMRaD模型在海量文獻(xiàn)背景下難以適應(yīng)讀者的信息需求。

2.2 ? ?模塊化模型

模塊化模型是將文獻(xiàn)內(nèi)容按照功能劃分為不同的模塊,代表模型有Harmsze模型和ABCDE模型。

(1)Harmsze模型。2000年,荷蘭阿姆斯特丹大學(xué)的Harmsze從促進(jìn)科學(xué)交流的角度提出了模塊化思想,將實(shí)證研究型科學(xué)文獻(xiàn)劃分為六個(gè)模塊,并采用人工標(biāo)注的方法在分子動(dòng)力學(xué)領(lǐng)域的科學(xué)論文中進(jìn)行了驗(yàn)證,這六個(gè)模塊具體包括[5]:

①元數(shù)據(jù)信息(Meta-Information):支持模塊,保證出版物內(nèi)部的緊密銜接,包括書目信息(bibliographic information)、摘要(abstract)、參考文獻(xiàn)(lists of references)、致謝(acknowledgement)、內(nèi)容映射關(guān)系(map of contents)等;②研究現(xiàn)狀(Positioning):介紹研究主題的相關(guān)研究狀況(situation)和亟需解決的核心問(wèn)題(center problem);③方法(Methods):對(duì)研究現(xiàn)狀中核心問(wèn)題解決方案的描述,主要包括實(shí)驗(yàn)方法(experimental method)、數(shù)值方法(numerical method)和理論方法(theoretical method)三種;④結(jié)果(Results):詳細(xì)呈現(xiàn)實(shí)驗(yàn)過(guò)程中使用的數(shù)據(jù)(raw data)和實(shí)驗(yàn)獲得的數(shù)據(jù)(treated result);⑤解釋說(shuō)明(Interpretation):對(duì)于實(shí)驗(yàn)結(jié)果的解釋;⑥結(jié)論(Outcome):主要闡述科學(xué)文獻(xiàn)的發(fā)現(xiàn)(findings)和下一步研究(leads to future research)。

除了上述六個(gè)模塊,該模型還定義了模塊間不同的組織鏈接(organizational links)和篇章關(guān)系(discourse relations)。組織鏈接以實(shí)現(xiàn)快速導(dǎo)航為目的,為不同模塊之間提供聯(lián)系,但并不涉及模塊內(nèi)部的切分,主要有六種關(guān)系:層次化關(guān)系(hierarchical)、鄰近關(guān)系(proximity)、范圍關(guān)系(range-based)、管理關(guān)系(administrative)、順序關(guān)系(sequential)、表示關(guān)系(representational)[5]。篇章關(guān)系則只包括兩種:一種是基于交流目的的關(guān)系,能夠使讀者更易于理解科學(xué)文獻(xiàn)所要表達(dá)的觀點(diǎn),提高其接受程度,如論證關(guān)系(argumentation relation)用來(lái)說(shuō)明句子X(jué)對(duì)句子Y是支持態(tài)度還是否定態(tài)度; 另一種是內(nèi)容關(guān)系(content relations),能夠使文獻(xiàn)構(gòu)建出信息流,如解決關(guān)系(resolution relation)用來(lái)標(biāo)注句子X(jué)是句子Y的一種解決方法[5]。組織鏈接和篇章關(guān)系將各模塊之間以及模塊內(nèi)部關(guān)聯(lián)起來(lái),使線性的科學(xué)文本形成一個(gè)網(wǎng)絡(luò),讀者能夠自由地在不同模塊間跳轉(zhuǎn)瀏覽,獲得所需信息。

Harmsze的模塊化模型是描述科學(xué)論文篇章內(nèi)部修辭結(jié)構(gòu)和論證結(jié)構(gòu)的最早模型之一,是一種以科學(xué)交流為目的的粗粒度科學(xué)文獻(xiàn)結(jié)構(gòu)表示方法,揭開(kāi)了篇章修辭結(jié)構(gòu)研究的序幕。雖然其在設(shè)計(jì)上達(dá)到了科學(xué)交流的目的,但由于結(jié)構(gòu)過(guò)于復(fù)雜,在實(shí)際中很少被采用[6-7]。

(2)ABCDE模型。ABCDE模型是由荷蘭烏特列支大學(xué)的Waard和Tel基于修辭塊(rhetorical block)理論提出的針對(duì)計(jì)算機(jī)會(huì)議論文的篇章結(jié)構(gòu)模型[8]。ABCDE模型將科學(xué)出版物分為五類,分別是:標(biāo)注信息(Annotations)、背景(Background)、貢獻(xiàn)(Contribution)、討論(Discussion)和實(shí)體(Entities),并以這五類的首字母命名該模型。

標(biāo)注信息是科學(xué)出版物的元數(shù)據(jù)描述,采用都柏林核心元素集(Dublin Core,DC)描述,以解決從海量數(shù)據(jù)中識(shí)別特定文獻(xiàn)的問(wèn)題。中間三個(gè)部分是科學(xué)出版物的主體:背景信息描述當(dāng)前研究狀況和現(xiàn)階段存在的問(wèn)題;貢獻(xiàn)指作者在研究中所進(jìn)行的新的嘗試,甚至編寫的代碼;討論指作者所做工作和已有工作的對(duì)比以及未來(lái)要進(jìn)行的研究。實(shí)體指從科學(xué)出版物的腳注或者參考文獻(xiàn)部分識(shí)別出的參考文獻(xiàn)、人名、網(wǎng)站等。實(shí)體信息可被進(jìn)一步挖掘并轉(zhuǎn)換為RDF三元組結(jié)構(gòu),包括實(shí)體所在的章節(jié)、鏈接類型(如參考文獻(xiàn)、人物、項(xiàng)目等)和實(shí)體URI標(biāo)識(shí)。該模型并沒(méi)有定義摘要部分,而是通過(guò)從背景、貢獻(xiàn)和討論這三個(gè)論文核心部分中抽取出核心句構(gòu)成結(jié)構(gòu)化摘要。ABCDE模型將模塊化思想與語(yǔ)義技術(shù)相結(jié)合,并通過(guò)Latex工具實(shí)現(xiàn)語(yǔ)義格式轉(zhuǎn)化。

2.3 ? ?基于論證的模型

從科學(xué)交流角度來(lái)看,科學(xué)文獻(xiàn)是作者論點(diǎn)及其論證過(guò)程的載體,文獻(xiàn)傳播實(shí)際就是作者希望能夠通過(guò)完整的論證過(guò)程來(lái)說(shuō)服讀者接受自己的論點(diǎn),因此依據(jù)作者論證過(guò)程將科學(xué)文獻(xiàn)進(jìn)行切分的模型被稱為論證結(jié)構(gòu)模型。代表模型有語(yǔ)用模型、論證分區(qū)模型和Mizuta模型。

(1)語(yǔ)用模型。2007年,Waard在ABCDE模型的基礎(chǔ)上對(duì)論文中的修辭結(jié)構(gòu)和知識(shí)元素進(jìn)行進(jìn)一步標(biāo)注,試圖呈現(xiàn)科學(xué)出版物中所包含的論證(argumentation)結(jié)構(gòu)。為此,針對(duì)細(xì)胞生物學(xué)領(lǐng)域的科學(xué)論文提出了一個(gè)語(yǔ)用模型,該模型將文本內(nèi)容劃分為如下七個(gè)類別[9]:

①事實(shí)(Fact)指人們普遍接受的描述性陳述;②研究問(wèn)題(Problem)描述了已知事實(shí)的矛盾之處或者其未知的方面;③研究目標(biāo)(Research Goal)陳述研究要達(dá)到的目的,包含隱形假設(shè)和隱性問(wèn)題;④方法(Methods)指進(jìn)行實(shí)驗(yàn)的具體方法;⑤結(jié)果(Result)指實(shí)驗(yàn)直接的測(cè)量結(jié)果;⑥啟示(Implications)指根據(jù)已知的事實(shí)和研究目標(biāo)進(jìn)行實(shí)驗(yàn)結(jié)果的說(shuō)明;⑦假設(shè)(Hypotheses)是沒(méi)有實(shí)驗(yàn)驗(yàn)證情況下進(jìn)行的解釋性說(shuō)明。

接下來(lái),Waard在此研究基礎(chǔ)上,結(jié)合Harmsze的模塊化思想和ABCDE模型的修辭塊理論以及實(shí)證統(tǒng)計(jì)結(jié)果,對(duì)模塊的粒度進(jìn)行了優(yōu)化,定義了篇章結(jié)構(gòu)層次化模型(見(jiàn)圖2)[10],從而保證科學(xué)論文中的修辭敘事流(rhetorical narrative flow)。

(2)論證分區(qū)模型。英國(guó)劍橋大學(xué)的學(xué)者Teufel采用論證分區(qū)方法對(duì)科學(xué)論文的論證結(jié)構(gòu)和修辭結(jié)構(gòu)進(jìn)行了分析。1999年,Teufel針對(duì)計(jì)算語(yǔ)言學(xué)領(lǐng)域的論文提出了一個(gè)標(biāo)注方案,被稱為AZ-I模型[11]。該模型根據(jù)論辯中的修辭語(yǔ)步,將科學(xué)論文中的信息分為七大類,包括:研究目標(biāo)(Aim)、背景(Background)、相關(guān)研究(Other)、研究起點(diǎn)(Basis)、對(duì)比分析(Contrast)、作者研究(Own)、篇章結(jié)構(gòu)描述(Textual),并在計(jì)算語(yǔ)言學(xué)論文中進(jìn)行了標(biāo)注驗(yàn)證。2000年,Teufel通過(guò)對(duì)AZ-I模型進(jìn)行細(xì)化,推出了AZ-II模型,并在計(jì)算語(yǔ)言學(xué)和生命科學(xué)兩個(gè)領(lǐng)域的論文中進(jìn)行了標(biāo)注驗(yàn)證,以證明該模型的領(lǐng)域無(wú)關(guān)性[12](AZ-I和AZ-II模型各部分的具體介紹見(jiàn)表2)。

AZ-I模型和AZ-Ⅱ模型都完整地描述了科學(xué)論文中的科學(xué)論斷及其論證過(guò)程。相比AZ-I模型,AZ-Ⅱ模型更加詳細(xì)而具體:①將作者自己的工作進(jìn)行了更具體的劃分,分為研究方法、研究結(jié)果、研究結(jié)論和研究錯(cuò)誤四個(gè)子類;②更加細(xì)致地將作者自己的工作與他人相關(guān)工作進(jìn)行了對(duì)比,分為中立比較、研究空白和矛盾比較三個(gè)子類;③通過(guò)突出作者所做研究在研究方法的優(yōu)勢(shì),使得對(duì)作者研究的論證更具有說(shuō)服力,使讀者更易于接受作者的觀點(diǎn)。

(3)Mizuta模型。針對(duì)分子生物學(xué)領(lǐng)域存在大量實(shí)驗(yàn)數(shù)據(jù)和研究結(jié)果但不能快速精確定位這一突出問(wèn)題,日本國(guó)立情報(bào)研究所的Mizuta和Collier通過(guò)對(duì)四種生物學(xué)期刊論文的篇章結(jié)構(gòu)進(jìn)行實(shí)證研究分析,在對(duì)AZ-I模型進(jìn)行調(diào)整的基礎(chǔ)上,提出了自己的淺層嵌套標(biāo)注模型(見(jiàn)表3),并將其應(yīng)用于信息抽取任務(wù)中,以實(shí)現(xiàn)對(duì)作者新發(fā)現(xiàn)和研究結(jié)果的快速定位[13]。

Mizuta模型主要關(guān)注作者自己的研究及其新發(fā)現(xiàn),因此將作者研究部分進(jìn)行了更為細(xì)粒度的劃分,包括研究方法、研究結(jié)果、研究發(fā)現(xiàn)、研究影響等。此外,還在AZ-I模型基礎(chǔ)上添加了“一致性”和“矛盾之處”兩類,用于突出實(shí)驗(yàn)數(shù)據(jù)與研究發(fā)現(xiàn)之間的關(guān)系。

Mizuta模型中定義的類別在語(yǔ)義上是沒(méi)有重合的, 但是在標(biāo)注時(shí),一個(gè)較長(zhǎng)的復(fù)合句可能包含多個(gè)類別的信息, 因此在標(biāo)注過(guò)程中允許嵌套標(biāo)注,但考慮到標(biāo)注數(shù)據(jù)的復(fù)雜性,只允許嵌套一層,如以一個(gè)嵌套標(biāo)注的復(fù)合句為例,該句既屬于“作者研究”中的“研究發(fā)現(xiàn)(INS)”類,又包含了實(shí)驗(yàn)數(shù)據(jù)和研究發(fā)現(xiàn)的“一致性(CNN)”信息(實(shí)例見(jiàn)表4)。Mizuta模型的作者利用該模型對(duì)隨機(jī)選取的20篇生物學(xué)科學(xué)論文進(jìn)行了手工標(biāo)注,采用定性與定量相結(jié)合的方法,分析不同類別的主要特征,如各類別出現(xiàn)的位置、句子長(zhǎng)度、在各節(jié)中的分布等,為基于該模型的科學(xué)論文自動(dòng)標(biāo)注奠定了基礎(chǔ)[14-15]。

2.4 ? ?本體模型

(1)科學(xué)文獻(xiàn)核心信息模型。科學(xué)文獻(xiàn)核心信息(Core Information about Scientific Papers,CISP)模型是由英國(guó)威爾士大學(xué)的Larisa Soldatova和Maria Liakata[16]于2007提出的,采用本體工程方法對(duì)科學(xué)研究中的核心概念進(jìn)行描述的一個(gè)本體模型。這里的科學(xué)研究泛指采用實(shí)驗(yàn)方法進(jìn)行的各種研究,包括實(shí)際進(jìn)行的調(diào)查、計(jì)算機(jī)執(zhí)行的程序、理論實(shí)驗(yàn)等。CISP模型的描述形式與DC元數(shù)據(jù)規(guī)范十分相似,但不同之處在于:它不僅表示在科學(xué)論文中通常所呈現(xiàn)的書目信息,還包括一個(gè)完整的科學(xué)研究的具體內(nèi)容。

CISP模型是建立在兩個(gè)已有本體DOLCE和EXPO基礎(chǔ)之上。DOLCE本體是一個(gè)頂層本體, EXPO本體則是一個(gè)描述“科學(xué)實(shí)驗(yàn)”具體過(guò)程和方法的領(lǐng)域本體。CISP模型的開(kāi)發(fā)者通過(guò)對(duì)文獻(xiàn)進(jìn)行預(yù)標(biāo)注和專家訪談,在DOLCE和EXPO本體的類中篩選出描述科學(xué)研究的八個(gè)核心概念(類)并為其定義了子類和屬性,從而生成了CISP模型(見(jiàn)表5)。CISP模型中八個(gè)核心類的具體描述為:①調(diào)查目標(biāo)(Goal of Investigation):指研究所要達(dá)到目標(biāo)狀態(tài),如研究有所發(fā)現(xiàn)、方法得到檢驗(yàn)、問(wèn)題被合理論證等;②調(diào)查動(dòng)機(jī)(Motivation):指為達(dá)到調(diào)查目的而實(shí)施調(diào)查的原因;③調(diào)查對(duì)象(Object of Investigation):指被調(diào)查的主要實(shí)體;④研究方法(Research method):指為完成科研任務(wù)而實(shí)施的科研方法,主要指科學(xué)實(shí)驗(yàn)方法;⑤實(shí)驗(yàn)(Experiment):指對(duì)已知變量和未知變量之間因果關(guān)系進(jìn)行調(diào)查的步驟或程序;⑥實(shí)驗(yàn)觀察(Observation):指由實(shí)驗(yàn)直接觀察得到的結(jié)果,目標(biāo)變量的值的集合;⑦調(diào)查結(jié)果(Result):指通過(guò)對(duì)觀察結(jié)果的解釋而得出的一組事實(shí);⑧調(diào)查結(jié)論(Conclusion):指從觀察、結(jié)果、假設(shè)和事實(shí)中推斷出來(lái)的,以支持或否定一個(gè)研究假設(shè)的陳述。

為了更細(xì)致地描述科學(xué)研究,后續(xù)開(kāi)發(fā)者在CISP模型基礎(chǔ)上添加了假設(shè)等三個(gè)類別,衍生出了核心科學(xué)概念(Core Scientific Concepts,CoreSCs)模型[17]。①假設(shè)(Hypothesis):指一種需要被驗(yàn)證的研究領(lǐng)域中已知變量與未知變量之間因果關(guān)系的陳述;②模型(Model):指科學(xué)研究中使用的模型和研究框架,如公式、邏輯規(guī)則等;③背景(Background): 指某一科學(xué)領(lǐng)域內(nèi)被人們普遍接受的或是持中立態(tài)度的事實(shí)性陳述。

CoreSCs模型采用了一個(gè)三層結(jié)構(gòu):第一層是11個(gè)核心科學(xué)概念;第二層是將核心概念中的方法(Method)類進(jìn)一步分為新舊兩類,新方法(Method-New)指在當(dāng)前研究中使用的方法,舊方法(Method-Old)則指在前人研究中使用的方法;第三層是指核心科學(xué)概念的標(biāo)識(shí)及與實(shí)例的關(guān)聯(lián),如表示同一方法的句子都會(huì)與“方法”類的標(biāo)識(shí)符相關(guān)聯(lián)。

CoreSCs模型與CISP模型沒(méi)有本質(zhì)區(qū)別,兩者都是句子級(jí)別的信息語(yǔ)義標(biāo)注模型,采用本體工程的方法對(duì)概念的語(yǔ)義進(jìn)行明確而細(xì)致的描述,采用形式化表示有利于機(jī)器的理解和處理。CISP和CoreSCs本體模型都是試圖從科學(xué)論文中解析科學(xué)研究的結(jié)構(gòu),對(duì)描述科學(xué)論文的篇章結(jié)構(gòu)和語(yǔ)義提供了新的思路。這兩個(gè)模型與上一節(jié)中提到的基于論證的模型有本質(zhì)不同,后者是從聲稱科學(xué)論斷所有權(quán)的角度解析論文中的論證結(jié)構(gòu)。

(2)SALT本體。隨著科學(xué)文獻(xiàn)數(shù)量激增,人工進(jìn)行語(yǔ)義標(biāo)注的方式越來(lái)越難以滿足科研工作者的實(shí)際需要,因此自動(dòng)標(biāo)注變得尤為重要。SALT(Semantically Annotated LaTex)本體提供了一個(gè)豐富的語(yǔ)義框架,利用語(yǔ)義元素來(lái)豐富科學(xué)出版物[18]。基于該語(yǔ)義框架,作者在進(jìn)行創(chuàng)作時(shí)就能對(duì)科學(xué)文獻(xiàn)進(jìn)行語(yǔ)義標(biāo)注,使文檔由線性結(jié)構(gòu)變?yōu)闄C(jī)器可讀理解的結(jié)構(gòu)化數(shù)據(jù),既保證了標(biāo)注結(jié)果的準(zhǔn)確性,又便于文檔的集成、管理與重用。

SALT模型采用層次結(jié)構(gòu),由三個(gè)語(yǔ)義層構(gòu)成:最下層是文檔本體(Document Ontology),描述科學(xué)文獻(xiàn)的物理結(jié)構(gòu),即出版物(publication)、章節(jié)(section)、段落(paragraph)、句子(sentences)等物理單元之間的構(gòu)成關(guān)系等;最上層是修辭本體(Rhetorical Ontology),對(duì)科學(xué)文獻(xiàn)的修辭結(jié)構(gòu)和論證結(jié)構(gòu)進(jìn)行描述;中間層是標(biāo)注本體(Annotation Ontology),不僅提供科學(xué)出版物的元數(shù)據(jù)信息,還在文檔結(jié)構(gòu)本體和修辭結(jié)構(gòu)本體之間構(gòu)建語(yǔ)義橋梁。修辭本體是SALT模型中最核心的本體,包括三個(gè)部分:修辭結(jié)構(gòu)、論證結(jié)構(gòu)和修辭關(guān)系。修辭結(jié)構(gòu)是在段落層面將出版物中的信息根據(jù)其功能和角色劃分至不同的修辭塊,是在ABCDE模型基礎(chǔ)上進(jìn)行改進(jìn)而得。一方面將ABCDE模型中原來(lái)的Annotation類改為Abstract類, 用于概括地表示科學(xué)出版物的主要內(nèi)容;另一方面添加了動(dòng)機(jī)(Motivation)、情境(Scenario)和評(píng)價(jià)(Evaluation)三個(gè)類別,提供一個(gè)粗粒度且易于理解的修辭結(jié)構(gòu)模型。修辭關(guān)系來(lái)源于修辭結(jié)構(gòu)理論(Rhetorical Structure Theory)中定義的近30種修辭關(guān)系,如對(duì)照關(guān)系(Contrast)、條件關(guān)系(Condition)等,用來(lái)表示科學(xué)論斷與解釋說(shuō)明之間的特定關(guān)系。修辭本體的最后一部分是論證結(jié)構(gòu),但在該模型中沒(méi)有進(jìn)行詳細(xì)定義。

(3)修辭塊本體。修辭塊本體(Ontology Of Rhetorical Blocks,ORB)是W3C(World Wide Web)推出的標(biāo)準(zhǔn)化科學(xué)文獻(xiàn)標(biāo)識(shí)語(yǔ)言,是對(duì)科學(xué)出版物粗粒度修辭結(jié)構(gòu)的形式化表示[19]。

ORB本體首先將科學(xué)出版物篇章粗略地分為頭部(Header)、主體(Body)和尾部(Tail)三部分。針對(duì)主體部分,進(jìn)一步分為引言(Introduction)、方法(Methods)、結(jié)果(Results)和討論(Discussion)四個(gè)子類;針對(duì)尾部部分,進(jìn)一步分為致謝(Acknowledgements)和參考文獻(xiàn)(References)兩個(gè)子類(ORB本體結(jié)構(gòu)見(jiàn)表6)??傮w來(lái)說(shuō),ORB本體本身對(duì)科學(xué)出版物只提供了一種簡(jiǎn)單、粗粒度的修辭結(jié)構(gòu)描述,但是ORB允許利用其它本體或者元數(shù)據(jù)規(guī)范對(duì)上述粗粒度的描述進(jìn)行拓展,提供更加豐富的語(yǔ)義信息。如針對(duì)頭部(即Header類),可采用DC、BIBO、PRISM本體中定義的元素對(duì)其進(jìn)行更加細(xì)粒度的描述。

ORB本體融合了已有科學(xué)篇章修辭結(jié)構(gòu)模型的優(yōu)勢(shì),不僅為不同學(xué)科領(lǐng)域的科學(xué)出版物創(chuàng)建了一個(gè)通用的粗粒度修辭結(jié)構(gòu),又為細(xì)粒度理解文檔語(yǔ)義內(nèi)容和文檔出版提供了契機(jī)。

SALT和ORB本體均為領(lǐng)域通用型本體,但是SALT本體不能針對(duì)科學(xué)文獻(xiàn)各個(gè)部分的屬性進(jìn)行深入分析,而ORB本體雖然也屬于粗粒度修辭描述,但其擴(kuò)展部分則恰好彌補(bǔ)了這一缺點(diǎn),通過(guò)相關(guān)本體進(jìn)行細(xì)化既能夠體現(xiàn)領(lǐng)域特征又能夠更加完整地描述語(yǔ)義。

2.5 ? ?篇章結(jié)構(gòu)模型對(duì)比分析

針對(duì)上述篇章結(jié)構(gòu)模型,我們從研究粒度、標(biāo)注級(jí)別、是否包含篇章元素間關(guān)系、構(gòu)建目的和適用領(lǐng)域五個(gè)方面對(duì)它們進(jìn)行總結(jié)和對(duì)比(見(jiàn)表7)。最初的模塊化篇章結(jié)構(gòu)模型,是從科學(xué)交流角度出發(fā),為了幫助讀者快速定位科學(xué)論文中的特定信息(如作者的研究結(jié)果), 將線性的科學(xué)文本切分成不同的功能模塊,使讀者可根據(jù)自己的信息需求快速跳轉(zhuǎn)到相應(yīng)模塊進(jìn)行閱讀。接下來(lái),研究者們聚集于科學(xué)論文中的論證結(jié)構(gòu),依據(jù)作者的論證過(guò)程對(duì)科學(xué)文本進(jìn)行切分,衍生出基于論證的篇章結(jié)構(gòu)模型。自本世紀(jì)以來(lái),隨著本體的出現(xiàn)和發(fā)展,采用本體模型對(duì)科學(xué)論文的篇章結(jié)構(gòu)進(jìn)行建模成為一種趨勢(shì),因此出現(xiàn)了基于本體的篇章結(jié)構(gòu)模型,能夠?qū)ζ陆Y(jié)構(gòu)中的模塊以及模塊間相互關(guān)系進(jìn)行語(yǔ)義化描述。總體而言,篇章結(jié)構(gòu)模型逐漸由粗粒度模塊化模型逐漸向細(xì)粒度語(yǔ)義模型方向發(fā)展,越來(lái)越關(guān)注科學(xué)論文中文本片段間的修辭關(guān)系和論證關(guān)系,試圖更加深入地對(duì)科學(xué)論文進(jìn)行結(jié)構(gòu)化表示,有利于科學(xué)論文內(nèi)容的理解和重要信息的抽取。

3 ? 篇章結(jié)構(gòu)解析的實(shí)現(xiàn)方法與技術(shù)

篇章結(jié)構(gòu)模型的構(gòu)建為篇章結(jié)構(gòu)解析提供了理論基礎(chǔ)。許多學(xué)者基于篇章結(jié)構(gòu)模型開(kāi)展了一系列實(shí)踐探索。早期階段的研究,通過(guò)邀請(qǐng)領(lǐng)域?qū)<覍?duì)科學(xué)論文的結(jié)構(gòu)進(jìn)行人工標(biāo)注,從而發(fā)現(xiàn)不同功能模塊在科學(xué)論文中的分布情況[10,12]。鑒于手工標(biāo)注的文獻(xiàn)數(shù)量很少,時(shí)間代價(jià)和人力代價(jià)卻很大,越來(lái)越難以滿足科研需求,因此許多學(xué)者開(kāi)始進(jìn)行篇章結(jié)構(gòu)自動(dòng)解析的探索。

科學(xué)文獻(xiàn)篇章結(jié)構(gòu)自動(dòng)解析實(shí)際上就是要識(shí)別文獻(xiàn)的結(jié)構(gòu)功能,即給定一個(gè)文本片段(句子、段落或章節(jié))判斷其屬于哪個(gè)功能類別。在已有研究中使用的篇章結(jié)構(gòu)自動(dòng)解析方法大致可分為兩類:一類是把篇章結(jié)構(gòu)識(shí)別問(wèn)題轉(zhuǎn)換為文本分類問(wèn)題,采用文本分類算法識(shí)別文本片段屬于哪個(gè)功能類別;另一類是把篇章結(jié)構(gòu)識(shí)別問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,因?yàn)楦鞴δ茴悇e在文檔中的位置具有一定的規(guī)律性,如“研究目標(biāo)”必定出現(xiàn)在“研究方法”之前, 因此可根據(jù)各類別在文檔中出現(xiàn)的順序來(lái)識(shí)別文本片段所屬的類。

3.1 ? ?基于文本分類的篇章結(jié)構(gòu)識(shí)別

采用文本分類算法進(jìn)行篇章結(jié)構(gòu)識(shí)別通常是觀察不同特征在分類過(guò)程中起到的作用,探究不同特征與分類性能間的關(guān)系。使用的文本分類算法可分為三類:有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。

科學(xué)文本的篇章結(jié)構(gòu)分類不同于傳統(tǒng)的基于主題的文本分類。在傳統(tǒng)的主題分類任務(wù)中,大都以基于內(nèi)容的主題詞為特征進(jìn)行類別判斷,而篇章結(jié)構(gòu)分類是要判斷文本片段所屬的功能類別,過(guò)多的內(nèi)容特征反而會(huì)引入噪音,影響分類效果。通過(guò)對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理后我們發(fā)現(xiàn),在已有的篇章結(jié)構(gòu)分類研究中所使用的分類特征可歸為三類:

(1)內(nèi)容特征。內(nèi)容特征主要包括N-gram(一元詞、二元詞、句子中的前若干個(gè)詞等)、章節(jié)高頻詞、不同功能類別中的線索詞等[20-22]。如東京大學(xué)信息科學(xué)與技術(shù)研究所的Hirohata等人在語(yǔ)料中提取出一元詞和二元詞作為特征,然后計(jì)算這些特征與不同功能類別之間的共現(xiàn)強(qiáng)度(以X2來(lái)體現(xiàn)),反映出不同內(nèi)容的單詞能夠體現(xiàn)不同的功能類別[20]。Dasigi等[21]通過(guò)可視化的方式展現(xiàn)了不同內(nèi)容特征在功能類別識(shí)別時(shí)所起作用的大小,其中謂語(yǔ)部分(即動(dòng)詞)的作用普遍較大。

(2)位置特征。由于學(xué)術(shù)論文具有連貫性,篇章結(jié)構(gòu)中的各部分往往具有一些固定的位置,如“引言”往往出現(xiàn)在文章最開(kāi)始的部分,“結(jié)論”則常出現(xiàn)在文章的結(jié)尾部分,因此位置特征也是預(yù)測(cè)篇章結(jié)構(gòu)的一個(gè)重要因素。目前在已有研究中使用的位置特征主要包括:文本片段所處的章節(jié)、所在章節(jié)的絕對(duì)位置、所在章節(jié)的相對(duì)位置、近鄰特征(指當(dāng)前待分類文本周圍文本的所屬功能類別)等[22-24]。位置特征反映的是不同功能類別處于一個(gè)“序列”狀態(tài)之中,給類別識(shí)別提供了一個(gè)上下文環(huán)境,但是位置特征在實(shí)際應(yīng)用中的效果卻具有兩面性。Mullen等[22]對(duì)文本片段所處位置和所在章節(jié)兩個(gè)特征在篇章結(jié)構(gòu)分類中的作用進(jìn)行了對(duì)比,發(fā)現(xiàn)后者的作用要大于前者,兩者一起使用時(shí)分類效果更好。但是,劉霞在研究中卻得出了相反的結(jié)論,其發(fā)現(xiàn)使用位置特征的識(shí)別效果要差于不使用位置特征的效果,這可能是因?yàn)椴煌奶卣魈崛》绞胶捅硎痉绞綍?huì)帶來(lái)不同的效果[23]。

(3)語(yǔ)言特征。語(yǔ)言特征主要包括引用、不同功能類別對(duì)應(yīng)的動(dòng)詞線索詞、動(dòng)詞類別、動(dòng)詞的曲折變化、詞性、句法關(guān)系、主謂搭配、元話語(yǔ)特征(meta-discourse)、顯性評(píng)價(jià)詞、連接詞等。其中,動(dòng)詞的曲折變化是指動(dòng)詞的時(shí)態(tài)、語(yǔ)態(tài)和情態(tài)變化;元話語(yǔ)特征是指在文本中組織篇章、表達(dá)作者寫作意圖、吸引讀者注意力的一類特定表達(dá)[24-27]。Waard等在線邀請(qǐng)標(biāo)注人員對(duì)各功能類別中動(dòng)詞的時(shí)態(tài)進(jìn)行手工標(biāo)注,發(fā)現(xiàn)各類別中使用的動(dòng)詞時(shí)態(tài)具有十分顯著的區(qū)別,如現(xiàn)在式在“事實(shí)”部分中出現(xiàn)最多,過(guò)去式則在“結(jié)果”中出現(xiàn)最多,情態(tài)動(dòng)詞在“假設(shè)”中出現(xiàn)最多[24]。Cox等在章節(jié)功能識(shí)別任務(wù)中發(fā)現(xiàn)時(shí)態(tài)特征能夠在該任務(wù)中起到十分顯著的作用[25]。

采用分類方法識(shí)別篇章結(jié)構(gòu)常用的算法包括樸素貝葉斯、支持向量機(jī)(SVM)、logistic回歸、決策樹(shù)和隨機(jī)森林等。Teuful和Monens[26]使用AZ模型對(duì)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行人工標(biāo)注,然后提取句子位置、句子長(zhǎng)度、詞法特征、近鄰特征和元話語(yǔ)特征等15種特征,采用樸素貝葉斯算法進(jìn)行分類實(shí)驗(yàn),達(dá)到了90%以上的分類精確率;Guo等[27]使用近鄰特征、位置特征、N-gram、動(dòng)詞及類別特征、詞性、語(yǔ)法關(guān)系特征以及時(shí)態(tài)和語(yǔ)態(tài)特征,采用支持向量機(jī)算法進(jìn)行分類實(shí)驗(yàn),獲得了良好的分類效果。此外,他們還發(fā)現(xiàn)N-gram和動(dòng)詞這兩類特征對(duì)所有類別的預(yù)測(cè)效果都很好,而其他一些特征只在識(shí)別某些功能類別時(shí)具有較好效果,如時(shí)態(tài)特征只對(duì)于識(shí)別“結(jié)果”和“方法”兩個(gè)類別效果較好。Cox等[25]采用logistic回歸、決策樹(shù)和隨機(jī)森林三種分類算法進(jìn)行分類對(duì)比實(shí)驗(yàn),并嘗試解決篇章結(jié)構(gòu)分類中的類別不平衡問(wèn)題。實(shí)驗(yàn)發(fā)現(xiàn),即使使用了均衡數(shù)據(jù)集分類性能也沒(méi)有顯著提升,動(dòng)詞時(shí)態(tài)是預(yù)測(cè)功能類別的一個(gè)非常重要的特征。

有監(jiān)督的分類算法雖然能夠取得良好的分類效果,但需要耗費(fèi)大量的人工精力標(biāo)注訓(xùn)練語(yǔ)料,因此許多研究者開(kāi)始探索采用無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法進(jìn)行篇章結(jié)構(gòu)解析。Kiela等[28]使用N-gram、位置特征、動(dòng)詞及動(dòng)詞類別等特征,使用球面K-均值(Spherical k-means)聚類、基于最大期望優(yōu)化的高斯混合模型(Exception Maximization-Gaussian Mixture Model,EM-GMM)和多級(jí)加權(quán)圖聚類(Multilevel-Weighted Graph Clustering)這三種無(wú)監(jiān)督學(xué)習(xí)算法進(jìn)行篇章結(jié)構(gòu)解析實(shí)驗(yàn),發(fā)現(xiàn)多級(jí)加權(quán)圖聚類算法效果最好,其F值達(dá)到70%。Varga等[29]基于論證區(qū)域的思想,在LDA主題模型基礎(chǔ)上,提出了zoneLDA模型及其拓展模型zoneLDAb用于篇章結(jié)構(gòu)識(shí)別。zoneLDA模型的原理是:假設(shè)句子中的單詞服從主題的狄利克雷分布,在這一前提下,每一個(gè)句子都會(huì)有一個(gè)對(duì)應(yīng)的潛在“主題”,如果每個(gè)主題對(duì)應(yīng)不同的論證分區(qū),則對(duì)含有相同詞匯的句子聚類,可實(shí)現(xiàn)論證區(qū)域的識(shí)別。zoneLDAb模型則是zoneLDA模型的拓展,在zoneLDA模型基礎(chǔ)上,通過(guò)設(shè)置變量對(duì)跨類別的通用詞匯和針對(duì)某一類別的特定詞匯進(jìn)行區(qū)分,進(jìn)行論證區(qū)域的識(shí)別。通過(guò)在科學(xué)和技術(shù)兩個(gè)領(lǐng)域的語(yǔ)料上進(jìn)行對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),在科學(xué)領(lǐng)域zoneLDA和zoneLDAb兩個(gè)模型與LDA模型的F值差別不大,但在技術(shù)領(lǐng)域這兩個(gè)模型的F值要遠(yuǎn)高于LDA模型,其中zoneLDA模型的F值又要好于zoneLDAb模型。

半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)之間,其所使用的語(yǔ)料往往只含有少量標(biāo)注好的數(shù)據(jù),需利用少量的標(biāo)注好的數(shù)據(jù)進(jìn)行分類器的訓(xùn)練。Guo等[30]利用位置特征、N-gram特征、動(dòng)詞及動(dòng)詞類別、詞性等特征,采用主動(dòng)學(xué)習(xí)(active learning)和自訓(xùn)練(self-training)相結(jié)合的方式從少量已標(biāo)注數(shù)據(jù)開(kāi)始進(jìn)行分類器迭代訓(xùn)練,該研究采用10%標(biāo)注數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明采用半監(jiān)督學(xué)習(xí)的分類器性能要優(yōu)于有監(jiān)督學(xué)習(xí)的分類器,最終能夠達(dá)到80%以上的精確率。主動(dòng)學(xué)習(xí)是在每輪訓(xùn)練中由機(jī)器自動(dòng)選擇出一部分未標(biāo)注數(shù)據(jù)(通常是分類器置信度較低的那部分?jǐn)?shù)據(jù))由標(biāo)注人員進(jìn)行標(biāo)注后加入到訓(xùn)練集中,而自訓(xùn)練則是在每輪迭代中機(jī)器自動(dòng)選擇出分類器置信度較高的新標(biāo)注數(shù)據(jù)加入到訓(xùn)練集中,通過(guò)不斷迭代地訓(xùn)練并測(cè)試分類器直到全部數(shù)據(jù)標(biāo)注完成。兩種方法的區(qū)別是自訓(xùn)練是依靠少數(shù)已標(biāo)注數(shù)據(jù)訓(xùn)練出來(lái)的分類器來(lái)標(biāo)注數(shù)據(jù),然后再加入到訓(xùn)練集中迭代訓(xùn)練模型,而主動(dòng)學(xué)習(xí)是依靠人來(lái)選擇,選擇出置信度低的數(shù)據(jù)進(jìn)行標(biāo)注,將標(biāo)注好的數(shù)據(jù)放入到訓(xùn)練集中訓(xùn)練數(shù)據(jù)。

3.2 ? ?基于序列標(biāo)注的篇章結(jié)構(gòu)識(shí)別

基于文本分類的篇章結(jié)構(gòu)識(shí)別,其前提是將篇章結(jié)構(gòu)中的不同部分看作是相互獨(dú)立、互不干擾的獨(dú)立個(gè)體。但是據(jù)我們的觀察可以發(fā)現(xiàn),篇章結(jié)構(gòu)中存在一定的序列性,如“結(jié)果”部分往往會(huì)出現(xiàn)在“研究方法”后面,而很少出現(xiàn)在“背景介紹”之后。因此許多研究者將篇章結(jié)構(gòu)識(shí)別問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,并進(jìn)行了一系列探索,常用的算法有隱馬爾科夫模型(Hidden Markov Model,HMM)和條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)等。

Lin等[31]通過(guò)利用語(yǔ)言模型訓(xùn)練的二元詞組合作為特征,使用隱馬爾科夫模型(HMM)進(jìn)行篇章結(jié)構(gòu)標(biāo)注,獲得了較好的識(shí)別結(jié)果,整體識(shí)別正確率約為86%,該研究又在HMM模型加入了顯性判別分析(Linear Discriminant Analysis,LDA)方法,將數(shù)據(jù)投影到低維度,使得同類別的數(shù)據(jù)能夠盡可能靠近,不同類別的數(shù)據(jù)能夠盡可能遠(yuǎn)離,研究證明,相比只使用HMM模型的方法,使用HMM+LDA的識(shí)別效果在總體上有了3%的提升,其中“結(jié)論”部分的識(shí)別準(zhǔn)確率更是高達(dá)96%。Hirohata等[20]選用位置、近鄰等特征,采用分類算法SVM和序列標(biāo)注算法CRF進(jìn)行了篇章結(jié)構(gòu)自動(dòng)識(shí)別對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)CRF的性能要優(yōu)于SVM算法。陸偉等[1]使用自建的章節(jié)名稱詞表直接根據(jù)一些章節(jié)的標(biāo)題(section heading)確定其功能類別,然后使用標(biāo)題的位置特征、標(biāo)題中的前兩個(gè)詞、整個(gè)標(biāo)題以及與已經(jīng)確定了類別的標(biāo)題間的距離四個(gè)特征,采用CRF模型識(shí)別每個(gè)章節(jié)的功能類別,最終實(shí)驗(yàn)結(jié)果的F值在91%以上。

近年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,也有學(xué)者將該技術(shù)應(yīng)用到篇章結(jié)構(gòu)識(shí)別中來(lái)。Dasigi等[22]基于長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM),通過(guò)使用遺忘門、輸入門和輸出門來(lái)克服卷積神經(jīng)網(wǎng)絡(luò)無(wú)法解決長(zhǎng)期依賴的缺陷,是序列化標(biāo)注的一種新的解決方式,同時(shí)作者還引入了注意力機(jī)制(Attention Mechanism)使得模型在訓(xùn)練過(guò)程中能夠更加注意關(guān)鍵特征,獲得了75%的準(zhǔn)確率。王東波等[32]針對(duì)LSTM不能考慮未來(lái)上下文這一局限,使用雙向LSTM(Bidirectional LSTM,Bi-LSTM)從給定文本片段的開(kāi)頭和末尾分別學(xué)習(xí)有用信息,但該方法的準(zhǔn)確率只有34.94%,明顯低于作者使用的條件隨機(jī)場(chǎng)和支持向量機(jī)兩種方法,究其原因可能是實(shí)驗(yàn)使用的數(shù)據(jù)量較小,神經(jīng)網(wǎng)絡(luò)的參數(shù)沒(méi)有得到充分訓(xùn)練。

4 ? 篇章結(jié)構(gòu)解析的應(yīng)用

在信息爆炸時(shí)代,文獻(xiàn)量的激增使得讀者越來(lái)越希望能夠快速理解文獻(xiàn)且定位所需信息,而篇章結(jié)構(gòu)解析能夠?yàn)闄z索、定位、組織科學(xué)文獻(xiàn)中的知識(shí)提供關(guān)鍵的位置信息,是進(jìn)行深層次語(yǔ)義理解的關(guān)鍵步驟,在許多自然語(yǔ)言處理任務(wù)中得到了廣泛應(yīng)用。

篇章結(jié)構(gòu)最早的應(yīng)用是在科學(xué)論文閱讀中, Harmsze的模塊化篇章結(jié)構(gòu)就是針對(duì)這一目的進(jìn)行設(shè)計(jì)的。通過(guò)將線性的科學(xué)論文進(jìn)行模塊化分解,可以改變科研工作者的閱讀模式,使其從傳統(tǒng)的線性閱讀轉(zhuǎn)化為面向不同閱讀目的的跳躍式閱讀,從而提高閱讀效率。其次,篇章結(jié)構(gòu)解析在自動(dòng)文摘中具有非常廣泛的應(yīng)用。Teuful和Monens[26]認(rèn)為位于不同篇章結(jié)構(gòu)部分的句子的價(jià)值是不一樣的,因此首先識(shí)別出篇章結(jié)構(gòu)中比較重要的部分,然后在其中選擇重要的句子生成論文摘要。近年來(lái),在基于上下文的引文分析中也注意到了篇章結(jié)構(gòu)對(duì)于該任務(wù)的重要作用。據(jù)Ding等[33]的調(diào)查,“文獻(xiàn)綜述”與“引言”兩部分中的引文頻率遠(yuǎn)遠(yuǎn)高于論文中的其他部分。因此,在引文分析任務(wù)中加入篇章結(jié)構(gòu)這一因素,能夠確定被引內(nèi)容在施引文獻(xiàn)中的引用位置,通過(guò)為不同位置賦以不同的權(quán)重,能夠更精確地評(píng)價(jià)引文的重要性。Zhu等[34]在引文分析中加入章節(jié)功能這一因素,充分考慮被引內(nèi)容在不同章節(jié)功能間的分布情況,進(jìn)而提出了一種更為全面的引文分析方法。

篇章結(jié)構(gòu)解析也是分析科學(xué)論文論辯結(jié)構(gòu)的基礎(chǔ)。論辯挖掘是文本挖掘領(lǐng)域的一個(gè)新興研究方向,重點(diǎn)關(guān)注文本中的論辯過(guò)程和結(jié)構(gòu)??茖W(xué)文本作為一種論辯文本,是論辯挖掘的重點(diǎn)研究對(duì)象。通過(guò)對(duì)科學(xué)論文中的研究背景、研究方法、研究數(shù)據(jù)、研究結(jié)論等各部分進(jìn)行識(shí)別,能夠?yàn)檠芯拷Y(jié)論的得出提供邏輯支持。此外,利用篇章結(jié)構(gòu)信息來(lái)跟蹤科學(xué)概念和科學(xué)實(shí)體在科學(xué)論文中出現(xiàn)位置的變化,可以檢測(cè)科學(xué)知識(shí)在傳播中的變化,深入了解知識(shí)發(fā)展歷程。如以前經(jīng)常出現(xiàn)在“背景”部分的一個(gè)概念現(xiàn)在經(jīng)常在“方法”部分出現(xiàn),說(shuō)明該概念已經(jīng)從理論階段逐漸發(fā)展到了應(yīng)用階段。

5 ? 結(jié)語(yǔ)

篇章結(jié)構(gòu)解析是定位科學(xué)論文中的重要信息、理解其內(nèi)容的重要步驟。在本文中,我們對(duì)科學(xué)論文篇章結(jié)構(gòu)建模和篇章結(jié)構(gòu)解析的相關(guān)文獻(xiàn)進(jìn)行了梳理和總結(jié)。通過(guò)研究發(fā)現(xiàn),篇章結(jié)構(gòu)解析的研究已逐漸從理論研究階段逐漸發(fā)展到應(yīng)用研究階段,但是仍然存在以下不足:①研究主要集中在生物醫(yī)學(xué)和計(jì)算語(yǔ)言學(xué)領(lǐng)域,其他領(lǐng)域涉及到的很少,缺乏跨領(lǐng)域、通用的篇章結(jié)構(gòu)模型;②當(dāng)前的篇章結(jié)構(gòu)解析主要是對(duì)粗粒度篇章結(jié)構(gòu)的識(shí)別,針對(duì)全文的細(xì)粒度篇章結(jié)構(gòu)識(shí)別研究較少;③篇章結(jié)構(gòu)解析以修辭結(jié)構(gòu)為主,較少涉及論證結(jié)構(gòu)。

針對(duì)上述不足,未來(lái)針對(duì)科學(xué)論文篇章結(jié)構(gòu)的研究,首要任務(wù)是對(duì)更多領(lǐng)域的科學(xué)論文進(jìn)行深入分析與標(biāo)注,完善論證結(jié)構(gòu),并與修辭結(jié)構(gòu)相互補(bǔ)充,構(gòu)建更加細(xì)粒度的、全面的篇章結(jié)構(gòu)模型,同時(shí)也要注意提高模型的靈活性與可拓展性。在自動(dòng)解析方面,要充分借鑒和利用自然語(yǔ)言處理中的新技術(shù),尤其是深度學(xué)習(xí)技術(shù),以提高篇章結(jié)構(gòu)識(shí)別的精確度。最后,應(yīng)促進(jìn)篇章結(jié)構(gòu)解析成果的應(yīng)用,將其應(yīng)用到科學(xué)論文引文分析、自動(dòng)摘要、語(yǔ)義出版、信息抽取等更多任務(wù)當(dāng)中,提高對(duì)科學(xué)文獻(xiàn)內(nèi)容的理解,促進(jìn)知識(shí)發(fā)現(xiàn)和知識(shí)重用。

參考文獻(xiàn):

[1] ?陸偉,黃永,程齊凱.學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——功能框架及基于章節(jié)標(biāo)題的識(shí)別[J].情報(bào)學(xué)報(bào),2014,33(9):979-985.

[2] ?IMRAD[EB/OL].[2018-11-25].https://en.wikipedia.org/wiki/IMRAD.

[3] ?GLASMANDEAL H.Science Research Writing for Non-Native Speakers of English[M].Imperial College Press,2010.

[4] ?BURROUGH-BOENISCH J.International reading strategies for IMRD articles[J].Written Communication,1999,16(3):296-316.

[5] ?HARMSZE F A P.A modular structure for scientific articles in an electronic environment[D].Amsterdam:University of Amsterdam,2000.

[6] ?SHUM S B,CLARK T,GROZA T,et al.Scientific Discourse on the Semantic Web:A Survey of Models and Enabling Technologies[DB/OL].[2018-11-26].https://www.researchgate.net/profile/Agnes_Sandor/publication/268422724_Scientific_Discourse_on_the_Semantic_Web_A_Survey_of_Models_and_Enabling_Technologies/links/5472edf20cf2d67fc035d29c/Scientific-Discourse-on-the-Semantic-Web-A-Survey-of-Models-and-Enabling-Technologies.pdf.

[7] ?GROZA T,HANDSCHUH S,CLARK T,et al.A short survey of discourse representation models[DB/OL].[2018-11-26].https://oro.open.ac.uk/18565/1/DiscRep-ISWC-SWASD2009.pdf.

[8] ?WAARD A D,TEL G.The ABCDE Format Enabling Semantic Conference Proceedings[C].The Workshop on Semwiki.DBLP,2006.

[9] ?WAARD A D.A pragmatic structure for research articles[C].International Conference on Pragmatic Web,Icpw 2007,Tilburg,the Netherlands,October.DBLP,2007:83-89.

[10] ?WAARD A D,KIRCZ J.Modeling scientific research articles-shifting perspectives and persistent issues[C].Proc.ELPUB2008 Conference on Electronic Publishing,2008:234-245.

[11] ?TEUFEL S,CARLETTA J,MOENS M.An annotation scheme for discourse-level argumentation in research articles[C].Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics.Association for Computational Linguistics,1999:110-117.

[12] ?TEUFEL S,SIDDHARTHAN A,BATCHELOR C.Towards discipline-independent argumentative zoning:evidence from chemistry and computational linguistics[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing:Volume 3-Volume 3.Association for Computational Linguistics,2009:1493-1502.

[13] ?MIZUTA Y,COLLIER N.An Annotation Scheme for a Rhetorical Analysis of Biology Articles[C].LREC,2004:1737-1740.

[14] ?MIZUTA Y,COLLIER N.Zone identification in biology articles as a basis for information extraction[C].Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications.Association for Computational Linguistics,2004:29-35.

[15] ?MIZUTA Y,KORHONEN A,MULLEN T,et al.Zone analysis in biology articles as a basis for information extraction[J].International journal of medical informatics,2006,75(6):468-487.

[16] ?SOLDATOVA L,LIAKATA M.An ontology methodology and cisp-the proposed core information about scientific papers [J].JISC Project Report,2007.

[17] ?LIAKATA M,TEUFEL S,SIDDHARTHAN A,et al.Corpora for the Conceptualisation and Zoning of Scientific Papers[C].LREC,2010.

[18] ?GROZA T,HANDSCHUH S,M?LLER K,et al.SALT-Semantically Annotated LATEX\LaTeX for Scientific Publications [J].The Semantic Web:Research and Applications,2007:518-532.

[19] ?ORB[EB/OL].[2018-11-25].https://www.w3.org/TR/hcls-orb/.

[20] ?HIROHATA K,OKAZAKI N,ANANIADOU S,et al.Identifying sections in scientific abstracts using conditional random fields[C].Proceedings of the Third International Joint Conference on Natural Language Processing:Volume-I,2008.

[21] ?DASIGI P,BURNS G A P C,HOVY E,et al.Experiment segmentation in scientific discourse as clause-level structured prediction using recurrent neural networks[J].arXiv preprint arXiv,2017:1702.05398.

[22] ?MULLEN T,MIZUTA Y,COLLIER N.A baseline feature set for learning rhetorical zones using full articles in the biomedical domain[J].ACM SIGKDD Explorations Newsletter,2005,7(1):52-58.

[23] ?劉霞.英語(yǔ)學(xué)術(shù)論文摘要語(yǔ)步結(jié)構(gòu)自動(dòng)識(shí)別模型的構(gòu)建[D].北京:北京外國(guó)語(yǔ)大學(xué),2016.

[24] ?DE WAARD A,MAAT H P.Verb form indicates discourse segment type in biological research papers:Experimental evidence[J].Journal of English for academic purposes,2012,11(4):357-366.

[25] ?COX J,HARPER C A,DE WAARD A.Optimized Machine Learning Methods Predict Discourse Segment Type in Biological Research Articles[M].Semantics,Analytics,Visualization.Springer,Cham,2017:95-109.

[26] ?TEUFEL S,MOENS M.Summarizing Scientific Articles:Experiments with Relevance and Rhetorical Status[J].Computational Linguistics,2002,28(4):409-445.

[27] ?GUO Y,KORHONEN A,LIAKATA M,et al.A comparison and user-based evaluation of models of textual information structure in the context of cancer risk assessment[J].BMC bioinformatics,2011,12(1):69.

[28] ?KIELA D,GUO Y,STENIUS U,et al.Unsupervised discovery of information structure in biomedical documents[J].Bioinformatics,2014,31(7):1084-1092.

[29] ?VARGA A,PREOTIUC-PIETRO D,CIRAVEGNA F.Unsupervised document zone identification using probabilistic graphical models[C].LREC,2012:1610-1617.

[30] ?GUO Y,KORHONEN A,POIBEAU T.A weakly-supervised approach to argumentative zoning of scientific documents[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:273-283.

[31] ?LIN J,KARAKOS D,DEMNER-FUSHMAN D,et al.Generative content models for structural analysis of medical abstracts[C].Proceedings of the hlt-naacl bionlp workshop on linking natural language and biology.Association for Computational Linguistics,2006:65-72.

[32] ?王東波,高瑞卿,葉文豪,等.不同特征下的學(xué)術(shù)文本結(jié)構(gòu)功能自動(dòng)識(shí)別研究[J].情報(bào)學(xué)報(bào),2018,37(10):31-42.

[33] ?DING Y,LIU X,GUO C,et al.The distribution of references across texts:Some implications for citation analysis[J].Journal of Informetrics,2013,7(3):583-592.

[34] ?ZHU X,TURNEY P,LEMIRE D,et al.Measuring academic influence:Not all citations are equal[J].Journal of the Association for Information Science and Technology,2015,66(2):408-427.