国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向語(yǔ)義出版的學(xué)術(shù)文本詞匯語(yǔ)義功能自動(dòng)識(shí)別*

2017-10-11 04:00:00程齊凱李信
數(shù)字圖書(shū)館論壇 2017年8期
關(guān)鍵詞:組塊語(yǔ)義聚類(lèi)

程齊凱,李信

(1.武漢大學(xué)信息管理學(xué)院,武漢 430072;2.武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢 430072)

面向語(yǔ)義出版的學(xué)術(shù)文本詞匯語(yǔ)義功能自動(dòng)識(shí)別*

程齊凱1,2,李信1,2

(1.武漢大學(xué)信息管理學(xué)院,武漢 430072;2.武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢 430072)

為提高學(xué)術(shù)文獻(xiàn)語(yǔ)義出版水平,既需要在寫(xiě)作和出版模式方面進(jìn)行研究,也需要探索學(xué)術(shù)文本語(yǔ)義理解技術(shù),以實(shí)現(xiàn)對(duì)學(xué)術(shù)文獻(xiàn),特別是存量學(xué)術(shù)文獻(xiàn)的語(yǔ)義化處理。本文在學(xué)術(shù)文本詞匯功能分析框架基礎(chǔ)上,提出一種基于條件隨機(jī)場(chǎng)的學(xué)術(shù)文獻(xiàn)問(wèn)題和方法識(shí)別模型,該模型使用詞法特征、句法特征、組塊特征等27個(gè)特征。實(shí)驗(yàn)表明,該方法具有優(yōu)于當(dāng)前最佳的識(shí)別效果。

詞匯功能;語(yǔ)義出版;序列標(biāo)注;學(xué)術(shù)文本

1 引言

科研大數(shù)據(jù)時(shí)代的來(lái)臨,使科研工作者處于科研信息過(guò)剩的狀態(tài),以往單純依靠人工搜索、閱讀和分析學(xué)術(shù)文本來(lái)獲取有價(jià)值的科研信息方式已經(jīng)越來(lái)越不現(xiàn)實(shí)。為輔助解決這一問(wèn)題,語(yǔ)義出版作為一種新型的出版方式和信息呈現(xiàn)技術(shù),正發(fā)揮越來(lái)越重要的作用[1-2]。

語(yǔ)義出版以語(yǔ)義化表示技術(shù)呈現(xiàn)文獻(xiàn)的內(nèi)容、邏輯、結(jié)構(gòu),并將文本內(nèi)容與現(xiàn)實(shí)世界的對(duì)象進(jìn)行關(guān)聯(lián)[3]。學(xué)術(shù)文獻(xiàn)語(yǔ)義出版是語(yǔ)義出版技術(shù)在學(xué)術(shù)文獻(xiàn)上的應(yīng)用,以實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)呈現(xiàn)方式的語(yǔ)義化和文獻(xiàn)內(nèi)容的機(jī)器可理解性。為推進(jìn)語(yǔ)義出版的研究和實(shí)現(xiàn)水平,人們既需要對(duì)寫(xiě)作出版模式進(jìn)行探索,也需要從技術(shù)研究視角出發(fā),有針對(duì)性地研發(fā)面向文獻(xiàn)內(nèi)容理解的語(yǔ)義分析技術(shù)。

本文提出一種基于條件隨機(jī)場(chǎng)和多語(yǔ)義特征的學(xué)術(shù)文本詞匯功能識(shí)別方法。詞匯功能在不同的文本領(lǐng)域有不同的理解,本文的詞匯功能指詞匯概念所映射的現(xiàn)實(shí)對(duì)象在科研活動(dòng)中體現(xiàn)的作用。程齊凱已對(duì)學(xué)術(shù)文本詞匯功能的定義和顯現(xiàn)機(jī)理進(jìn)行分析,構(gòu)建了一個(gè)包含領(lǐng)域無(wú)關(guān)詞匯功能和領(lǐng)域相關(guān)詞匯功能的學(xué)術(shù)文本詞匯功能框架,并通過(guò)標(biāo)注得到學(xué)術(shù)文本詞匯功能標(biāo)注集[4]。

出于實(shí)用性考慮,本文采用一個(gè)簡(jiǎn)單實(shí)用的詞匯功能分類(lèi)方案,將詞匯功能簡(jiǎn)單界定為研究問(wèn)題和研究方法兩類(lèi),前者指論文或者論文片段所期望解決的問(wèn)題、構(gòu)建的應(yīng)用,后者是為解決問(wèn)題而提出的方法。識(shí)別學(xué)術(shù)文獻(xiàn)中詞匯的語(yǔ)義功能,有助于機(jī)器更好地理解文獻(xiàn)與抽取知識(shí)信息,輔助實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)的語(yǔ)義化。

2 相關(guān)研究

有關(guān)學(xué)術(shù)文本詞匯功能識(shí)別的研究還較少,關(guān)于識(shí)別方法研究的文獻(xiàn)不到10篇。Knodo等最早對(duì)該問(wèn)題進(jìn)行探索,提出一種面向標(biāo)題的學(xué)術(shù)文獻(xiàn)研究問(wèn)題、研究方法、研究領(lǐng)域識(shí)別方法,并且在日文和英文數(shù)據(jù)集上分別評(píng)測(cè)提出方法的效果,取得0.780和0.816的平均準(zhǔn)確率[5]。由于標(biāo)題構(gòu)造具有一定的規(guī)律,面向標(biāo)題的抽取方法常能取得較好的準(zhǔn)確度表現(xiàn),但在覆蓋率和召回率上有所不足,且難以處理構(gòu)造不規(guī)律的標(biāo)題。在后續(xù)研究中,Nanba等進(jìn)一步對(duì)識(shí)別的對(duì)象范圍進(jìn)行了擴(kuò)展,試圖從摘要中識(shí)別文獻(xiàn)的研究問(wèn)題、研究方法等[6],其將識(shí)別問(wèn)題轉(zhuǎn)換為分類(lèi)問(wèn)題加以解決,驗(yàn)證實(shí)驗(yàn)F1為0.24(準(zhǔn)確率與召回率的加權(quán)平均值);Gupta等借助模板和重抽樣方法解決識(shí)別問(wèn)題,通過(guò)不斷擴(kuò)展候選詞和候選模板,得到用于識(shí)別詞匯功能的句法模板,在ACL數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在主要問(wèn)題、技術(shù)、領(lǐng)域三個(gè)功能類(lèi)別上取得的F1值分別為0.553、0.367和0.373[7];Tsai等將詞匯功能劃分為技術(shù)、應(yīng)用兩類(lèi),采用重抽樣策略和多特征結(jié)合的方法[8],在Gupta數(shù)據(jù)集上,Tsai方法在技術(shù)和應(yīng)用兩個(gè)類(lèi)上F1值分別為0.485和0.456;Tateisi等將學(xué)術(shù)文本詞匯功能區(qū)分為方法、任務(wù)和其他三類(lèi),利用馬爾科夫邏輯網(wǎng)絡(luò)方法進(jìn)行詞匯功能識(shí)別,也取得一定效果[9]。

目前學(xué)術(shù)文本詞匯功能自動(dòng)識(shí)別的研究還處于初步探索階段,已有方法的實(shí)際效果難以保證,識(shí)別方法的性能和效果都有不足,難以付諸實(shí)際的語(yǔ)義分析應(yīng)用。為此,本文提出一種基于序列標(biāo)注和多特征融合的詞匯功能識(shí)別方法,試圖從學(xué)術(shù)文本中有效地識(shí)別研究問(wèn)題和研究方法。

3 研究方法

本文使用的學(xué)術(shù)文本詞匯功能框架詳見(jiàn)程齊凱前期的研究成果[4]。該框架將學(xué)術(shù)文本詞匯功能區(qū)分為領(lǐng)域無(wú)關(guān)詞匯功能和領(lǐng)域相關(guān)詞匯功能。本文提出的方法主要關(guān)注領(lǐng)域無(wú)關(guān)詞匯功能的兩個(gè)重要類(lèi)別,即研究問(wèn)題和研究方法,采用條件隨機(jī)場(chǎng)模型識(shí)別學(xué)術(shù)文本中體現(xiàn)的研究問(wèn)題和研究方法。

3.1 標(biāo)注問(wèn)題表示

序列標(biāo)注的第一個(gè)問(wèn)題是采用何種標(biāo)記。本文采用三種標(biāo)記將詞匯功能識(shí)別問(wèn)題轉(zhuǎn)化為標(biāo)注問(wèn)題,對(duì)于每個(gè)詞匯,標(biāo)注模型需要為詞匯標(biāo)上“M”“T”“O”標(biāo)簽中的一種。其中,“M”為“mehod”的縮寫(xiě),用于標(biāo)記方法詞;“T”為topic的縮寫(xiě),用于標(biāo)記問(wèn)題詞;“O”用于標(biāo)記其他詞匯。

例如,對(duì)于文本“We propose a SVM based method for text categorization”,模型期望得到標(biāo)簽序列“OO OMMMOTT”。

得到標(biāo)記序列后,通過(guò)反查詞匯序列,即可發(fā)現(xiàn)該文本中“問(wèn)題”概念為“text categorization”,“方法”概念為“SVMbased method”。

3.2 標(biāo)注模型

基于三標(biāo)記方法,機(jī)器學(xué)習(xí)模型需要針對(duì)輸入文本生成期望的三標(biāo)記標(biāo)注序列。為完成這項(xiàng)工作,本文使用條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)模型。CRFs由Lafferty等提出,是一個(gè)應(yīng)用廣泛的序列標(biāo)注模型[10]。本文將使用線性鏈條件隨機(jī)場(chǎng),條件隨機(jī)場(chǎng)基本公式如下:

模型訓(xùn)練的目標(biāo)是基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到模型各參數(shù)的最優(yōu)取值。完成模型訓(xùn)練后,CRFs方法會(huì)對(duì)輸入特征序列進(jìn)行計(jì)算,以獲得標(biāo)注結(jié)果。

3.3 特征構(gòu)造

在序列標(biāo)注任務(wù)中,特征的構(gòu)造會(huì)直接影響模型的標(biāo)注效果。本文共構(gòu)造27個(gè)特征,分為6個(gè)類(lèi)別,即詞/詞組合、詞性(POSTAG)、動(dòng)詞信息、組塊特征、句法特征以及動(dòng)詞角色特征。

3.3.1 詞匯特征

對(duì)于給定句子S,其對(duì)應(yīng)詞匯序列T=[LB,t0,t1…tn,RE],LB和RE為占位符,分別表示句子的開(kāi)始和結(jié)尾。令ti為目標(biāo)詞匯,0≤i≤n。針對(duì)目標(biāo)詞匯ti,構(gòu)造特征:

(1)ti(當(dāng)前詞);

(2)ti-1(當(dāng)前詞的前一個(gè)詞);

(3)ti-2(當(dāng)前詞的前第二個(gè)詞,i=0時(shí)為空);

(4)ti+1(當(dāng)前詞的后一個(gè)詞);

(5)ti+2(當(dāng)前詞的后第二個(gè)詞,i=n時(shí)為空);

(6)ti-2_ti-1(當(dāng)前詞前面兩個(gè)詞以“_”為拼接符的拼接結(jié)果);

(7)ti+1_ti+2(當(dāng)前詞后面兩個(gè)詞以“_”為拼接符的拼接結(jié)果)。

此外,為標(biāo)記當(dāng)前詞的大小寫(xiě)形態(tài),構(gòu)造兩個(gè)布爾型的特征以標(biāo)記當(dāng)前詞是否為全大寫(xiě)形式或者全小寫(xiě)形式。

例1:We propose a SVM based method for text categorization.

在此例中,若當(dāng)前詞為“SVM”,則可以生成特征“SVM”“a”“propose”“based”“method”“propose_a”“based_method”。

“SVM”為全大寫(xiě)形式,可以得到特征“UPPER:TRUE”和“LOWWER:FALSE”。

如果標(biāo)注粒度為詞組,除上述特征外,還將構(gòu)造3個(gè)新特征,分別為詞組的第一個(gè)詞、詞組的最后一個(gè)詞以及詞組的長(zhǎng)度。

以例1給出的句子為例,當(dāng)標(biāo)注粒度為詞組且當(dāng)前詞組為“SVMbasedmethod”時(shí),可以得到“FIRSTWORD:SVM”“LASTWORD:method”以及“LENGTH:3”3個(gè)特征。

3.3.2 POSTAG特征

對(duì)于給定句子S和對(duì)應(yīng)詞匯序列T,通過(guò)詞性標(biāo)注得到詞性序列P=[LB,p0,p1…pn,RE],設(shè)需要為下標(biāo)為i的詞匯構(gòu)造特征,則構(gòu)造特征pi、pi-1、pi-2、pi+1、pi+2。

以例1給出的文本為例,為“SVM”構(gòu)造POSTAG特征,得到“NN”“DT”“VBP”“VBN”“NN”5個(gè)特征。

同詞特征一樣,如果標(biāo)注粒度為詞組,則構(gòu)建3個(gè)新特征,分別是詞組首詞詞性、詞組最后一個(gè)詞的詞性、詞組內(nèi)各詞詞性的拼接形式。在例1所示文本中,就“SVMbased method”可得到特征“fPostag:NN”“l(fā)Postag:NN”和“iPostags:NN-VBN-NN”。

3.3.3 動(dòng)詞相關(guān)特征

給定文本和目標(biāo)詞匯,可構(gòu)造3個(gè)動(dòng)詞相關(guān)特征,分別是目標(biāo)詞匯左邊最近的第一個(gè)動(dòng)詞、目標(biāo)詞匯右邊最近的第一個(gè)動(dòng)詞、距目標(biāo)詞匯最近的動(dòng)詞。

當(dāng)目標(biāo)詞匯左邊或者右邊沒(méi)有動(dòng)詞,則將對(duì)應(yīng)的上述特征標(biāo)記為“”。以例1中的“SVM”為例,可構(gòu)造“l(fā)Verb:propose”“rVerb:based”和“nVerb:based”。

3.3.4 組塊分析特征

組塊分析特征用于記錄詞匯所在組塊的屬性,常見(jiàn)組塊類(lèi)型有“NP”“VP”“PP”“PRT”等。目標(biāo)詞匯w所在組塊的類(lèi)型將構(gòu)成其組塊分析特征。

本文使用句法解析方法間接獲得詞的組塊信息。對(duì)于給定句子S,其對(duì)應(yīng)的句法樹(shù)記為Pt,S中的詞構(gòu)成Pt的葉子節(jié)點(diǎn),對(duì)每個(gè)葉子節(jié)點(diǎn)w,Pt中距w節(jié)點(diǎn)最近的組塊標(biāo)記將被用作w的組塊標(biāo)記。

圖1給出了一個(gè)例子。其中,組塊節(jié)點(diǎn)用方框標(biāo)出。文本的組塊識(shí)別結(jié)果見(jiàn)表1。

圖1 句子句法樹(shù)解析及組塊標(biāo)注示意圖

表1 組塊分析結(jié)果示例

3.3.5 句法特征

(1)Head詞匯。用于記錄詞匯或詞組的關(guān)鍵成分。如果標(biāo)注對(duì)象為單一詞匯,則Head詞匯是其自身。若對(duì)象是詞組,則進(jìn)行以下操作。

①構(gòu)建有向網(wǎng)絡(luò),將詞組中的單詞加入網(wǎng)絡(luò),然后依據(jù)單詞間的依存關(guān)系為節(jié)點(diǎn)構(gòu)建邊;②遍歷節(jié)點(diǎn),如果節(jié)點(diǎn)出度為0且入度大于0,則從網(wǎng)絡(luò)中剔除該節(jié)點(diǎn);③重復(fù)步驟②,直到網(wǎng)絡(luò)中剩下的節(jié)點(diǎn)都是孤立節(jié)點(diǎn);④如果詞匯網(wǎng)絡(luò)中僅余1個(gè)節(jié)點(diǎn),返回該節(jié)點(diǎn),否則返回“”。

如圖2所示,為找出“DLmodel for named entity recognition”的Head詞匯,首先利用詞匯以及詞匯間依存關(guān)系構(gòu)造有向網(wǎng)絡(luò);其次,遍歷刪除網(wǎng)絡(luò)中出度為0且入度大于0的節(jié)點(diǎn),并重復(fù)此操作多次;最后,經(jīng)過(guò)多輪遍歷操作,網(wǎng)絡(luò)中僅有1個(gè)節(jié)點(diǎn),返回該節(jié)點(diǎn)對(duì)應(yīng)的詞匯“model”。

圖2 Head詞匯識(shí)別結(jié)果示意圖

(2)詞匯到Root的依存路徑。本文使用的依存路徑是從目標(biāo)詞到句子Root詞匯的最短路徑[4]。對(duì)于詞組,本文使用詞匯組合的Header詞到Root詞的路徑作為特征。

給定句子S,路徑提取結(jié)果表示為(w1,p1:r:p2,w2)+,*+表示重復(fù)。w表示一個(gè)詞,p是其詞性標(biāo)記,r表示w1到w2的句法依存關(guān)系。如果標(biāo)注粒度為詞組,且詞組中存在多個(gè)Header詞匯,則返回“”。

(3)Verb only ROOT依存路徑。Verb only路徑同(2)描述的結(jié)構(gòu)一致,但在(2)生成的路徑中去除所有非動(dòng)詞w文本。

(4)詞匯直接關(guān)聯(lián)的依存關(guān)系特征。給定目標(biāo)詞匯w,特征構(gòu)造方法:①如果w與詞匯t間存在dobj依存關(guān)系,w是支配詞,則返回“dobj:t”,否則返回“dobj-r:t”;②如果w與詞匯t間存在obj依存關(guān)系,參照①構(gòu)造特征,但將特征中“dobj”替換為“obj”;③如果w不存在直接關(guān)聯(lián)的obj或dobj依存關(guān)系,則對(duì)每一個(gè)與w存在依存關(guān)系的詞匯t,構(gòu)造從w到t的路徑p。順序拼接所有生成的p路徑表示,返回拼接結(jié)果。

依存路徑特征是一類(lèi)非常重要的特征,但由于詞匯(特別是動(dòng)詞)的多樣性,上述方法構(gòu)建的依存路徑存在特征稀疏的問(wèn)題。為此,本文使用動(dòng)詞的角色聚類(lèi)類(lèi)別替換路徑中原始的動(dòng)詞詞匯,以得到對(duì)提升模型效果更有幫助的特征。

3.4 基于Word2vec的動(dòng)詞角色聚類(lèi)

句式如“this paper use ”“is utilized”在詞匯功能識(shí)別工作中特征明顯。一旦找到這樣的句式,學(xué)習(xí)模型可以馬上確定是被使用的對(duì)象,更傾向于是方法而不是問(wèn)題。這意味著,找到詞匯通過(guò)動(dòng)賓關(guān)系關(guān)聯(lián)的動(dòng)詞將有利于提升模型標(biāo)注效果。然而,同一個(gè)動(dòng)作在文本中可能表現(xiàn)為多個(gè)詞匯,直接使用原始的動(dòng)詞作為特征,會(huì)帶來(lái)特征稀疏的問(wèn)題。為此,需要對(duì)動(dòng)詞進(jìn)行聚類(lèi)。

本文動(dòng)詞聚類(lèi)的目標(biāo)是找出表示相同或者類(lèi)似動(dòng)作的動(dòng)詞詞匯。這些詞匯在詞典中可能有不同的含義,但在學(xué)術(shù)文本的上下文中卻扮演同樣的角色。

如表2所示,“present”和“propose”的原始含義不一樣,但在特定的上下文里卻扮演同樣的語(yǔ)義角色,即“提出”一種基于SVM的方法;“use”和“employ”意義也有所不同,但在列出的文本中都表示“應(yīng)用”。

表2 動(dòng)詞角色示例

為識(shí)別動(dòng)詞的角色,一種可行的方法是編制詞典。但是,人工完成這一個(gè)工作并不現(xiàn)實(shí)。首先,人工編制成本過(guò)高;其次,編制的詞典很難具有領(lǐng)域通用性。因此,有必要探索自動(dòng)化的動(dòng)詞角色聚類(lèi)方法。基于深度學(xué)習(xí)的研究成果[11-13],本文提出一種利用Word2vec聚類(lèi)相同角色詞匯的方法。

Word2vec是Mikolov等提出的一種利用深度學(xué)習(xí)思想學(xué)習(xí)詞嵌入表示的工具[13]。Word2vec詞嵌入模型以向量表示詞匯,詞匯間的語(yǔ)義相似性可通過(guò)向量距離加以衡量。Word2vec在模型實(shí)現(xiàn)上有兩種主流結(jié)構(gòu),分別是CBOW模型和Skip-gram模型,如圖3所示。本文使用Word2vec的CBOW模型訓(xùn)練詞嵌入模型,詞嵌入表示的向量維度設(shè)為100。

圖3 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的三種模式

Word2vec模型衡量的是詞在上下文的可替代性,這與LDA等主題模型有所區(qū)別[14-15]。如針對(duì)學(xué)術(shù)文本,Word2vec模型傾向于給“propose”和“present”一個(gè)較高的相似性得分,因?yàn)檫@兩個(gè)詞通常具有類(lèi)似的上下文結(jié)構(gòu)。

本文使用ACM計(jì)算機(jī)科學(xué)論文的摘要數(shù)據(jù)作為語(yǔ)料,對(duì)摘要進(jìn)行句子切分,并使用StanfordPOS Tagger對(duì)句子文本進(jìn)行詞性標(biāo)注,得到訓(xùn)練語(yǔ)料集[16-17]。本文使用的最終訓(xùn)練語(yǔ)料大小為258MB。表3給出一條語(yǔ)料數(shù)據(jù)的樣例。基于語(yǔ)料,本文使用Word2vec工具進(jìn)行詞嵌入學(xué)習(xí),在學(xué)習(xí)結(jié)果中過(guò)濾掉訓(xùn)練結(jié)果中的非動(dòng)詞詞匯,得到動(dòng)詞詞匯的詞嵌入表示。

經(jīng)過(guò)圖4聚類(lèi)算法,得到詞匯類(lèi)別649類(lèi),部分詞匯及對(duì)應(yīng)類(lèi)別如圖5所示。

上述聚類(lèi)方案僅對(duì)高頻詞匯進(jìn)行處理,存在大量未被聚類(lèi)的動(dòng)詞。對(duì)這些詞匯,本文使用Word2vec工具提供的聚類(lèi)功能進(jìn)行聚類(lèi),聚類(lèi)數(shù)量設(shè)定為1 000。如果動(dòng)詞詞匯不在高頻詞列表(頻率≥2 000),則返回詞匯在Word2vec原生聚類(lèi)結(jié)果中的類(lèi)別標(biāo)簽。

表3 訓(xùn)練語(yǔ)料樣例

圖4 詞匯角色聚類(lèi)算法

圖5 動(dòng)詞聚類(lèi)效果示意圖

4 對(duì)比方法

4.1 Gupta識(shí)別方法

Gupta[5]提出一種基于重抽樣的標(biāo)注方法。該方法試圖抽取滿(mǎn)足一定標(biāo)準(zhǔn)的句法模板,并將模板匹配到的詞匯標(biāo)注為“問(wèn)題”或“方法”。如模板“employ(dobj xxx)”可識(shí)別出“we employ SVM for text categorization”中的方法詞匯“SVM”。

Gupta等提出的方法從種子模板開(kāi)始,利用設(shè)定的種子模板標(biāo)注匹配到的文本,然后從匹配到的文本中學(xué)習(xí)新的模板[7]。重復(fù)“利用模板匹配文本-從文本中學(xué)習(xí)模板”這一步驟,直到完成標(biāo)注工作。Gupta方法的關(guān)鍵是候選模板的重要性評(píng)分方法,評(píng)分超過(guò)一定閾值的模板將被用于后續(xù)的文本標(biāo)注。該評(píng)分方法可簡(jiǎn)單表述為對(duì)類(lèi)別(問(wèn)題或者方法)C下的候選模板q,記q正確識(shí)別到詞匯集合為p,q的得分,Zp是p集合包含詞匯在語(yǔ)料中出現(xiàn)的總頻次[7]。

4.2 Tsai識(shí)別方法

Tsai方法同樣基于重抽樣策略,與Gupta方法在設(shè)計(jì)上非常類(lèi)似[7],差異在于Tsai方法從設(shè)定種子詞開(kāi)始[8]。Tsai方法利用種子詞從語(yǔ)料中學(xué)習(xí)滿(mǎn)足一定要求的匹配特征,然后用學(xué)習(xí)得到的匹配特征擴(kuò)充種子詞,重復(fù)這一過(guò)程,以不斷擴(kuò)充種子詞和匹配特征集合,直到完成標(biāo)注工作。

5 實(shí)驗(yàn)與討論

5.1 實(shí)驗(yàn)數(shù)據(jù)

本文通過(guò)數(shù)據(jù)實(shí)驗(yàn)驗(yàn)證提出方法的效果。實(shí)驗(yàn)數(shù)據(jù)集為自建數(shù)據(jù)集和Gupta等提出的數(shù)據(jù)集[7]。

自建數(shù)據(jù)集的數(shù)據(jù)來(lái)源為ACM數(shù)據(jù)庫(kù)收錄的200篇計(jì)算機(jī)科學(xué)會(huì)議論文,對(duì)論文的標(biāo)題和摘要數(shù)據(jù)進(jìn)行人工標(biāo)注,標(biāo)注粒度為組塊。自建數(shù)據(jù)集共包括1 002個(gè)句子,其中,標(biāo)記為“問(wèn)題”的名詞組塊為604個(gè),標(biāo)記為“方法”的名詞組塊為1 059個(gè)。Gupta數(shù)據(jù)集原始數(shù)據(jù)來(lái)源于ACL數(shù)據(jù)庫(kù),Gupta等標(biāo)注了474篇文檔的摘要和標(biāo)題,標(biāo)注粒度為單詞[7]。Gupta構(gòu)造的數(shù)據(jù)集有三個(gè)類(lèi)別標(biāo)記,本文僅使用其中的“問(wèn)題”和“方法”兩個(gè)類(lèi)別。Gupta數(shù)據(jù)集中句子數(shù)為2 647個(gè),其中,標(biāo)記為“問(wèn)題”的名詞組塊為3 851個(gè),標(biāo)記為“方法”的名詞組塊為4 042個(gè)。

5.2 實(shí)驗(yàn)設(shè)定

數(shù)據(jù)預(yù)處理包括使用OpenNLP進(jìn)行句子切分,使用正向最大匹配算法及術(shù)語(yǔ)詞典(包含131 917個(gè)術(shù)語(yǔ))對(duì)文本進(jìn)行術(shù)語(yǔ)識(shí)別,使用Stanford POS Tagger對(duì)文本進(jìn)行詞性標(biāo)注,使用StanfordParser對(duì)句子進(jìn)行句法分析。

在不同的數(shù)據(jù)集上,模型進(jìn)行自動(dòng)標(biāo)注的粒度也不一樣。自建數(shù)據(jù)集采用組塊作為標(biāo)注單元,而對(duì)Gupta數(shù)據(jù)集采用詞匯粒度進(jìn)行標(biāo)注。因?yàn)樽越〝?shù)據(jù)集的人工標(biāo)注粒度是組塊,而Gupta數(shù)據(jù)集在單詞粒度上進(jìn)行人工標(biāo)注。

本文使用CRF++工具訓(xùn)練CRF模型[18],規(guī)范化處理選用L2模式,cutf-off參數(shù)設(shè)為1,評(píng)測(cè)使用五折交叉檢驗(yàn)方法,每次選取在訓(xùn)練集上最好的hyperparameter參數(shù)用于測(cè)試集的效果測(cè)試,最后報(bào)告的結(jié)果為每一輪測(cè)試結(jié)果的平均值。評(píng)測(cè)指標(biāo)為準(zhǔn)確率、召回率和F1值。

5.3 實(shí)驗(yàn)結(jié)果及討論

5.3.1 自建數(shù)據(jù)集中的實(shí)驗(yàn)效果

本文提出的方法在自建數(shù)據(jù)集上的評(píng)測(cè)結(jié)果見(jiàn)表4。從評(píng)測(cè)結(jié)果看,方法類(lèi)詞匯的識(shí)別效果在三個(gè)指標(biāo)上都要優(yōu)于問(wèn)題類(lèi)詞匯的識(shí)別效果。準(zhǔn)確率指標(biāo)上,兩個(gè)類(lèi)別詞匯識(shí)別效果類(lèi)似,但在召回率上,問(wèn)題類(lèi)詞匯的識(shí)別效果相對(duì)較低。

本文未試圖在自建數(shù)據(jù)集上將提出的方法同參照方法進(jìn)行對(duì)比。Gupta和Tsai的方法都基于重抽樣策略提出,在這種策略下,種子的選擇以及參數(shù)的設(shè)定都將直接影響最終實(shí)驗(yàn)效果。本文自建數(shù)據(jù)集同Gupta和Tsai使用的評(píng)測(cè)數(shù)據(jù)屬于不同的研究領(lǐng)域,因此,Gupta和Tsai給出的算法、種子以及參數(shù)設(shè)定不能直接應(yīng)用。從這點(diǎn)看,在自建數(shù)據(jù)集上將本文的方法與Gupta和Tsai進(jìn)行比較是沒(méi)有意義的。

表4 本文提出方法在自建數(shù)據(jù)集上的效果

5.3.2 Gupta數(shù)據(jù)集中的實(shí)驗(yàn)效果

在Gupta數(shù)據(jù)集上進(jìn)行評(píng)測(cè)的結(jié)果如表5所示。

表5 在Gupta數(shù)據(jù)集上3種方法的評(píng)測(cè)效果

從評(píng)測(cè)結(jié)果看,本文提出的方法在各類(lèi)別的F1指標(biāo)和準(zhǔn)確率指標(biāo)的結(jié)果都最優(yōu)。在召回率指標(biāo)上,Tsai的方法效果最好,而Gupta在問(wèn)題識(shí)別上取得最高的召回率。從整體看,本文提出的方法要優(yōu)于Gupta和Tsai的方法。

本文提出的方法在方法類(lèi)和問(wèn)題類(lèi)兩個(gè)類(lèi)別上取得了0.489和0.495的F1值,從絕對(duì)值來(lái)看,這一表現(xiàn)并不好。但需要說(shuō)明的是,在這一數(shù)據(jù)集上,人工標(biāo)注的一致性也僅為0.723。

6 結(jié)語(yǔ)

學(xué)術(shù)文本語(yǔ)義出版的發(fā)展對(duì)文本語(yǔ)義理解技術(shù)提出更高的要求。為輔助實(shí)現(xiàn)學(xué)術(shù)文本語(yǔ)義出版,本文提出一種基于序列標(biāo)注思想的學(xué)術(shù)文本問(wèn)題與方法功能的識(shí)別方法。實(shí)驗(yàn)表明,該方法具有優(yōu)于當(dāng)前最佳的識(shí)別效果。此外,本文還提出一種基于Word2vec的動(dòng)詞詞匯角色聚類(lèi)方法,能夠?qū)⒃驹~義不同但在一定上下文環(huán)境下表現(xiàn)出同樣功能的詞匯聚類(lèi)到一起。同時(shí),通過(guò)對(duì)實(shí)驗(yàn)結(jié)果分析發(fā)現(xiàn),學(xué)者在表述問(wèn)題和方法時(shí),對(duì)于詞匯的組織和運(yùn)用存在一定的共性。

本文僅著眼于問(wèn)題和方法詞匯的識(shí)別,而沒(méi)有討論詞匯到底承擔(dān)何種功能,是核心問(wèn)題還是一般問(wèn)題。因此,接下來(lái)的研究應(yīng)進(jìn)一步探索如何實(shí)現(xiàn)更加細(xì)分的問(wèn)題和方法功能詞匯的自動(dòng)識(shí)別。另外,本文僅從識(shí)別技術(shù)的角度進(jìn)行研究,如何更進(jìn)一步將識(shí)別技術(shù)以及識(shí)別結(jié)果應(yīng)用于語(yǔ)義出版,也需要后續(xù)更進(jìn)一步的探索。

[1]王曉光,陳孝禹.語(yǔ)義出版的概念與形式[J].出版發(fā)行研究,2011(11):54-58.

[2]王曉光,陳孝禹.語(yǔ)義出版:數(shù)字時(shí)代科學(xué)交流系統(tǒng)新模型[J].出版科學(xué),2012(4):81-86.

[3]蘇靜,曾建勛.國(guó)內(nèi)外語(yǔ)義出版理論研究述評(píng)[J].中國(guó)科技期刊研究,2016,28(1):33-38.

[4]程齊凱.學(xué)術(shù)文獻(xiàn)詞匯功能識(shí)別[D].武漢:武漢大學(xué),2015.

[5]KONDO T,NANBA H,TAKEZAWA T,et al.Technical trend analysis by analyzing research papers’ titles[M]//Human Language Technology.Challenges for Computer Science and Linguistics.[S.1.]:Springer Berlin Heidelberg,2009:512-521.

[6]NANBA H,KONDO T,TAKEZAWA T.Automatic creation of a technical trend map from research papers and patents[C]//International Workshop on Patent Information Retrieval.ACM,2010:11-16.

[7]GUPTA S,MANNING C.Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers[C]//Proceedings of ijcnlp.Thailand:The Association for computer Linguistics,2011:1-9.

[8]TSAI C T,KUNDU G,ROTH D.Concept-based analysis of scientific literature[C]//ACM International Conference on Information &Knowledge Management.[S.1.]:[s.n.],2013:1733-1738.

[9]TATEISI Y,SHIDAHARA Y,MIYAO Y,et al.Relation Annotation for Understanding Research Papers[C]//Linguistic Annotation Workshop and Interoperability with Discourse,2013:140-148.

[10]LAFFERTY D,MCCALLUM A,PEREIRA N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc,2001:282-289.

[11]HINTONG E,OSINDERO S,TEH Y.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

[12]BENGIO Y.Learning deep architectures for AI[J].Foundations and Trends Extregistered in Machine Learning,2009,2(1):1-127.

[13]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[C].In Proceedings of Workshop at ICLR,2013:11-12.

[14]BLEID M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.

[15]BLEI D M.Probabilistic topic models[J].Communications of the ACM,2012,55(4):77-84.

[16]TOUTANOVA K,MANNING C D.Enriching the knowledge sources used in a maximum entropy part-of-speech tagger[C]//Joint Sigdat Conference on Empirical Methods in Natural Language Processing and Very Large Corpora:Held in Conjunction with theMeeting of the Association for Computational Linguistics.Association for Computational Linguistics,2000,25(6):63-70.

[17]TOUTANOVA K,KLEIN D,MANNING C D,et al.Feature-rich part-of-speech tagging with a cyclic dependency network[C]//Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Association for Computational Linguistics,2003:173-180.

[18]Taku-ku.CRF++:Yet another CRF toolkit[CP/DK].http://crfpp.sourceforge.net,2005.

Abstract:To enhance the development of semantic publishing of academic text,it is necessary to do more research on writing/publishing model and academic text understanding.Text understanding is a key technology for the semantic processing of academic text,especially stock academic text.This paper proposes a method for term functionidenti fication of academic text based on CRF model and term function analysis framework.Twenty-seven features (such as morphology features,syntax features,and chunk-based features) are employed in the sequence-labeling model.Experimental results show that the method obtains better results than the state of the art.

Keywords:Term Function;Semantic Publishing;Sequence Labeling;Academic Text

Automatic Recognition of Term Function in Academic Text for Semantic Publishing

CHENG QiKai1,2,LI Xin1,2
(1.School of Information Management,Wuhan University,Wuhan 430072,China;2.Information Retrieval and Knowledge Mining Laboratory,Wuhan University,Wuhan 430072,China)

G23

10.3772/j.issn.1673-2286.2017.08.004

* 本研究得到中國(guó)博士后科學(xué)基金項(xiàng)目(編號(hào):2016M602371)和國(guó)家自然科學(xué)基金青年項(xiàng)目“基于深度語(yǔ)義挖掘的引文推薦多樣化研究”(編號(hào):71704137)資助。

程齊凱,男,1989年生,博士,講師,研究方向:自然語(yǔ)言處理、文本挖掘、信息檢索,E-mail:chengqikai0806@gmail.com。

李信,男,1991年生,博士研究生,研究方向:大數(shù)據(jù)分析、語(yǔ)義計(jì)量、醫(yī)學(xué)知識(shí)發(fā)現(xiàn),E-mail:lucian@whu.edu.cn。

2017-08-09)

猜你喜歡
組塊語(yǔ)義聚類(lèi)
橫浪作用下大型上部組塊雙船浮托安裝動(dòng)力響應(yīng)特性試驗(yàn)研究
語(yǔ)言與語(yǔ)義
基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
陸豐7-2油田導(dǎo)管架平臺(tái)上部組塊低位浮托安裝關(guān)鍵技術(shù)
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
認(rèn)知范疇模糊與語(yǔ)義模糊
自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
英語(yǔ)詞匯組塊學(xué)習(xí)路徑研究——組塊法
太和县| 武威市| 黑山县| 双辽市| 阿克| 巨野县| 腾冲县| 阿拉善右旗| 馆陶县| 黑龙江省| 甘孜县| 齐齐哈尔市| 永平县| 米脂县| 兰州市| 韩城市| 井陉县| 石林| 三穗县| 开阳县| 娄底市| 庆元县| 盐山县| 清涧县| 湘乡市| 南靖县| 南部县| 烟台市| 长白| 霞浦县| 吉木乃县| 正安县| 宁晋县| 大洼县| 苍山县| 延安市| 文化| 富蕴县| 昂仁县| 株洲县| 蕲春县|