国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合統(tǒng)計(jì)特征和圖模型的半監(jiān)督式中文關(guān)鍵短語抽取方法

2022-06-17 09:09謝海華陳雪飛都儀敏呂肖慶
中文信息學(xué)報(bào) 2022年4期
關(guān)鍵詞:文檔短語關(guān)鍵

謝海華,陳雪飛,都儀敏,呂肖慶,2,湯 幟,2

(1. 北大方正信息產(chǎn)業(yè)集團(tuán)有限公司 數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京 100871;2. 北京大學(xué) 王選計(jì)算機(jī)研究所,北京 100871;3. 北京雁棲湖應(yīng)用數(shù)學(xué)研究院,北京 101407)

0 引言

文檔關(guān)鍵短語抽取的目標(biāo)是從文檔中抽取出能夠代表文檔主題和內(nèi)容的短語集合[1]。短語是由一個(gè)或多個(gè)詞語組成的詞組,例如,深度神經(jīng)網(wǎng)絡(luò)(“深度”“神經(jīng)網(wǎng)絡(luò)”兩個(gè)詞的組合)、強(qiáng)迫高彈形變(“強(qiáng)迫”“高”“彈”“形變”四個(gè)詞的組合)。一般地,關(guān)鍵短語由文檔中出現(xiàn)過的詞語組合而成。

由于短語的應(yīng)用十分廣泛,關(guān)鍵短語抽取是文檔處理領(lǐng)域的一項(xiàng)重要任務(wù)。關(guān)鍵短語可以用于生成文檔的索引以便于檢索,用于查詢詞的擴(kuò)展以獲取更多查詢結(jié)果,作為特征用于文檔聚類和分類,作為文檔的簡短總結(jié)以讓讀者了解文檔內(nèi)容。另外,關(guān)鍵短語抽取在學(xué)術(shù)出版領(lǐng)域的很多任務(wù)中發(fā)揮關(guān)鍵作用,例如,給用戶精準(zhǔn)推薦新出版的文章和圖書、發(fā)現(xiàn)文章中缺失的引用項(xiàng)、為論文發(fā)掘潛在的審稿人、分析學(xué)術(shù)研究趨勢,發(fā)現(xiàn)領(lǐng)域新詞或術(shù)語等[2]。

文檔關(guān)鍵短語抽取可以采用無監(jiān)督或有監(jiān)督的方法實(shí)現(xiàn)。采用無監(jiān)督方法進(jìn)行關(guān)鍵短語抽取的基本思路是基于多項(xiàng)特征對候選關(guān)鍵短語進(jìn)行評分,并設(shè)定閾值以選擇關(guān)鍵短語??蛇x的特征包括統(tǒng)計(jì)特征[3]、位置特征[4]、語言學(xué)特征和圖結(jié)構(gòu)特征[5]等。有監(jiān)督關(guān)鍵短語抽取可采用的方法包括基于多項(xiàng)特征構(gòu)造分類器或者序列標(biāo)注模型、采用RNN等深度學(xué)習(xí)方法構(gòu)造序列標(biāo)注模型或者端到端生成模型[6]。

目前關(guān)鍵短語抽取算法的結(jié)果還不盡如人意,例如,抽取出來的短語并不能代表文檔主題,或者一些能代表文檔主題的關(guān)鍵短語未被算法發(fā)現(xiàn),主要原因是抽取算法還面臨以下技術(shù)挑戰(zhàn): ①由于缺乏明確的短語定義,候選短語的選擇不夠準(zhǔn)確(如有些非短語中文詞組被誤認(rèn)為是短語); ②由于缺乏統(tǒng)一、完備和權(quán)威的數(shù)據(jù)標(biāo)注,所抽取的短語是否關(guān)鍵的依據(jù)偏弱。此外,大部分關(guān)鍵短語算法是基于英文數(shù)據(jù)集進(jìn)行設(shè)計(jì)和實(shí)驗(yàn)的,基于多個(gè)數(shù)據(jù)集的測試結(jié)果顯示,英文關(guān)鍵短語抽取算法的F1值最高不到0.6[2]。由于語言差異以及中文語法的復(fù)雜性,這些算法在中文數(shù)據(jù)集上表現(xiàn)得更加不理想。

本文提出一種針對中文的關(guān)鍵短語抽取算法,結(jié)合多項(xiàng)統(tǒng)計(jì)特征得分、圖模型排序、短語和文章的語義相似度等因素,對短語進(jìn)行評分以獲取關(guān)鍵短語。本文的主要貢獻(xiàn)如下:

(1) 基于中文期刊論文數(shù)據(jù),構(gòu)建中文關(guān)鍵短語標(biāo)注數(shù)據(jù)集,用于計(jì)算中文短語的統(tǒng)計(jì)特征,以及評估中文關(guān)鍵短語抽取算法的性能;

(2) 針對中文特點(diǎn),提出基于詞性及詞性組合特征的候選關(guān)鍵短語獲取方法;

(3) 為了更準(zhǔn)確地提取關(guān)鍵短語,提出采用多種因素結(jié)合的方式來計(jì)算短語得分,包括短語和文章的語義相似度、圖模型排序、統(tǒng)計(jì)特征得分。

基于我們構(gòu)建的中文關(guān)鍵短語標(biāo)注數(shù)據(jù)集的實(shí)驗(yàn)顯示,本文方法在準(zhǔn)確率和召回率等指標(biāo)上,明顯優(yōu)于目前前沿的關(guān)鍵短語抽取方法。

本文組織結(jié)構(gòu)如下: 第1節(jié)簡述文章關(guān)鍵短語抽取算法的主要方法和前沿進(jìn)展;第2節(jié)介紹本文方法的基本架構(gòu)和流程;第3節(jié)介紹本文構(gòu)建的中文關(guān)鍵短語標(biāo)注數(shù)據(jù)集,以及在該數(shù)據(jù)集上各種方法的測試效果,最后一節(jié)闡述本文方法的局限性以及未來的研究方向。

1 背景及相關(guān)工作

根據(jù)不同的數(shù)據(jù)特點(diǎn)和應(yīng)用場景,文章關(guān)鍵短語抽取可以選擇無監(jiān)督或有監(jiān)督方法實(shí)現(xiàn)?;跓o監(jiān)督方法進(jìn)行關(guān)鍵短語抽取的基本流程如下:

(1) 獲取候選關(guān)鍵短語集。從文檔中選擇一些詞語及詞組作為候選關(guān)鍵短語,可采用的方法包括詞性篩選、命名實(shí)體識別等;

(2) 對候選關(guān)鍵短語進(jìn)行評分和排序;

(3) 基于評分選擇關(guān)鍵短語。選擇排名較高的詞語或詞組,或者含有排名高的詞語的短語作為關(guān)鍵短語。

其中,“對候選關(guān)鍵短語進(jìn)行評分和排序”是無監(jiān)督關(guān)鍵短語抽取的核心步驟?;跓o監(jiān)督方法的關(guān)鍵短語抽取可分為基于統(tǒng)計(jì)的方法、基于圖模型的方法和基于語義信息的方法?;诮y(tǒng)計(jì)法的基本思想是采用詞語統(tǒng)計(jì)特征,例如,TFIDF值[3]、詞語共現(xiàn)統(tǒng)計(jì)、詞語位置[4]等信息,計(jì)算候選短語的得分,并設(shè)定閾值來選擇關(guān)鍵短語?;趫D模型的方法的基本思想是: 基于文檔內(nèi)容分析創(chuàng)建短語關(guān)系圖,該圖的節(jié)點(diǎn)是候選關(guān)鍵短語,邊連接語義相關(guān)的短語。然后采用圖排序的方法,例如,TextRank[7]和SGRank[8]等,利用統(tǒng)計(jì)、位置和詞共現(xiàn)等信息對節(jié)點(diǎn)進(jìn)行評分和排序?;谡Z義信息的方法則是將詞語的深度語義信息用于關(guān)鍵短語的判斷。例如,通過實(shí)體鏈接技術(shù)將文檔中的名詞和命名實(shí)體鏈接到DBpedia以獲取其語義信息[9],將名詞短語鏈接到相關(guān)的維基頁面以獲取它們的語義信息[10]。在詞語的分布式表示方法成熟之后,很多研究者運(yùn)用Word2Vec等模型對詞語進(jìn)行編碼以獲取它們的語義信息[11]。

基于有監(jiān)督的關(guān)鍵短語抽取方法可分為基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)兩種。基于傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)鍵短語抽取方法包括: 采用樸素貝葉斯、隨機(jī)森林等分類器,基于詞語的TF-IDF值,首次出現(xiàn)位置[12]、是否維基/IEEE詞條等信息[13],對候選短語進(jìn)行分類;采用CRF等序列標(biāo)注方法,基于詞語的語言學(xué)信息、結(jié)構(gòu)信息以及專家知識和領(lǐng)域知識,對語句中的詞語進(jìn)行標(biāo)注以識別關(guān)鍵短語[14]。

在訓(xùn)練數(shù)據(jù)充足的情況下,采用深度學(xué)習(xí)方法進(jìn)行關(guān)鍵短語抽取能夠取得更好的性能。例如,采用循環(huán)神經(jīng)網(wǎng)絡(luò)獲取詞語語義信息,并結(jié)合序列標(biāo)注以提取關(guān)鍵短語[6];采用端到端的生成式方法,基于Encoder-Decoder架構(gòu),直接生成關(guān)鍵短語[15]。為了解決短語抽取結(jié)果存在重復(fù)或者缺失的問題,Chen等[16]提出CorrRNN以反映關(guān)鍵短語之間的相關(guān)性。為了提高性能,Rush[17]采取聯(lián)合學(xué)習(xí)思想,把短語生成和標(biāo)題生成任務(wù)進(jìn)行聯(lián)合訓(xùn)練。Wang等[18]采取遷移學(xué)習(xí)思想,將其他任務(wù)的標(biāo)注數(shù)據(jù)用到短語抽取任務(wù)中。

由于缺乏大規(guī)模標(biāo)注數(shù)據(jù)集,實(shí)際應(yīng)用系統(tǒng)大多采用無監(jiān)督方法進(jìn)行關(guān)鍵短語抽取。其中,對于短文檔,基于圖模型的方法效果較好,而對于長文檔,基于統(tǒng)計(jì)的方法效果較好。如果訓(xùn)練數(shù)據(jù)充足,采用深度學(xué)習(xí)方法進(jìn)行關(guān)鍵短語抽取的效果最好。基于有監(jiān)督方法的關(guān)鍵短語抽取的性能瓶頸在于訓(xùn)練數(shù)據(jù),因?yàn)殛P(guān)鍵短語的標(biāo)注十分依賴主觀判斷,而且關(guān)鍵短語和非關(guān)鍵短語的數(shù)據(jù)不平衡問題非常嚴(yán)重。

大部分關(guān)鍵短語抽取的評測數(shù)據(jù)集是英文的,例如,DUC-2001[19]和KP20k[15],因此關(guān)鍵短語抽取算法也主要針對英文進(jìn)行設(shè)計(jì)和實(shí)驗(yàn)。無論采用無監(jiān)督方法還是有監(jiān)督方法,目前關(guān)鍵短語抽取結(jié)果在很多情況下依然無法達(dá)到理想的結(jié)果。基于公開數(shù)據(jù)集的評測結(jié)果顯示,最好的英文關(guān)鍵短語抽取結(jié)果的F1值不超過0.6。近幾年來,基于大規(guī)模語料預(yù)訓(xùn)練的文本表征模型,例如,BERT[20],在眾多自然語言處理任務(wù)中表現(xiàn)出卓越的性能,因此采用這些模型來改進(jìn)關(guān)鍵短語抽取效果是一個(gè)十分值得研究的方向。

2 基于統(tǒng)計(jì)特征和圖模型的半監(jiān)督式中文關(guān)鍵短語抽取算法

本文提出的中文關(guān)鍵短語抽取算法,命名為CnKPRank(Chinese Keyphrases),其主要步驟(圖1)的介紹如下。

圖1 CnKPRank的中文關(guān)鍵短語抽取基本流程

2.1 計(jì)算中文關(guān)鍵短語的統(tǒng)計(jì)特征

CnKPRank屬于半監(jiān)督的方法。首先需要少量帶標(biāo)注的數(shù)據(jù),即含有關(guān)鍵短語標(biāo)簽的文本,用于分析關(guān)鍵短語的統(tǒng)計(jì)特征,包括詞性組合、位置、長度等信息。詞性組合特征是指構(gòu)成短語的詞語的詞性,例如,短語“機(jī)器學(xué)習(xí)”的詞性組合為“n+vn”,即由名詞和動(dòng)名詞組成;位置特征是短語在文章中的相對位置;長度特征是指短語含有的字符的數(shù)量。

文章的關(guān)鍵短語會呈現(xiàn)一定的統(tǒng)計(jì)規(guī)律性,例如,關(guān)鍵短語經(jīng)常由名詞組成,出現(xiàn)在文章的前半部分,并以4個(gè)字符組成。因此,短語的統(tǒng)計(jì)特征可以用于選擇候選關(guān)鍵短語(2.2節(jié)),以及輔助判斷關(guān)鍵短語(2.5節(jié))。在短語的統(tǒng)計(jì)特征的基礎(chǔ)上,CnKPRank的關(guān)鍵短語抽取流程采用第2節(jié)“背景及相關(guān)工作”所述的無監(jiān)督式流程進(jìn)行設(shè)計(jì),即首先獲取候選關(guān)鍵短語,然后計(jì)算每個(gè)候選關(guān)鍵短語的得分,并基于得分選擇最終的關(guān)鍵短語。

2.2 基于詞性組合特征獲取候選關(guān)鍵短語

候選關(guān)鍵短語的獲取以分詞之后的語句為基礎(chǔ),基于詞性組合的規(guī)則匹配,從語句中篩選出候選短語。基于統(tǒng)計(jì)得到的中文關(guān)鍵短語的常見詞性組合,我們設(shè)計(jì)相應(yīng)的詞性組合規(guī)則。例如,基于論文的keywords(即由作者給出的關(guān)鍵短語)的統(tǒng)計(jì),關(guān)鍵短語的常見詞性組合如下:

(1) n,即一個(gè)名詞;

(2) n+n,兩個(gè)名詞的組合;

(3) gb/gc/gg/gm/gp,生物/化學(xué)/地理/數(shù)學(xué)/物理等學(xué)科的相關(guān)詞匯;

(4) vn+n,動(dòng)名詞和名詞的組合;

(5) n+v,名詞和動(dòng)詞的組合。

基于詞性組合的統(tǒng)計(jì)結(jié)果,可采用下述正則表達(dá)式獲取候選關(guān)鍵短語:

??

為了避免將一些無意義的詞語誤判為候選關(guān)鍵短語,如“這個(gè)”“它”“我們”等,在運(yùn)用上述正則表達(dá)式篩選候選短語之前,需要把將語句中的停用詞的詞性修改為“NA”(即not available,不可用)。

篩選出來的候選關(guān)鍵短語的信息包括: 位置信息和詞性組合信息。位置信息的表達(dá)方式為: (句子編號,短語在句子中的起始位置,短語在句子中的結(jié)束位置),例如,“(1,3,5)”表示候選關(guān)鍵短語在文章的第一句話,并且由該句中的第3~5個(gè)詞組成。詞性組合信息即該短語中每個(gè)詞的詞性,例如,“(n,vn)”表示該短語由詞性為n(名詞)和vn(動(dòng)名詞)的詞語組成。

2.3 基于預(yù)訓(xùn)練語言模型編碼計(jì)算短語與文章的相似度

運(yùn)用預(yù)訓(xùn)練語言模型(如BERT),對詞語進(jìn)行編碼,生成詞語的向量表示。需要說明的是,同一詞語在不同句子中的向量表示可能不同。基于詞語的向量表示,采用下述方法生成文章的主題向量表示:

(1) 構(gòu)建主題詞性集?;?.1節(jié)介紹的中文短語統(tǒng)計(jì)結(jié)果,將關(guān)鍵短語中經(jīng)常出現(xiàn)的詞性合并整理為主題詞性集。例如,主題詞性集為: {n,vn,v,nz,a,ng,b,vi,q,ns,gi,gm}。一般地,主題詞性集里的詞性包含在前一步驟所述的正則表達(dá)式內(nèi)。特別地,gi和gm是由g.*產(chǎn)生的;

(2) 從文章中篩選出詞性為主題詞性的詞語,稱為主題詞;

(3) 將所有主題詞的向量表示進(jìn)行累加并求平均,得到文章的主題向量表示。

同理,候選關(guān)鍵短語的向量表示的計(jì)算方法為: 將短語中的詞語的向量進(jìn)行累加并求平均,得到短語的向量表示。由于不同位置的詞語的向量表示可能不同,因此不同位置的短語的向量表示也可能不同。

本文采用余弦相似度,計(jì)算短語與文章的相似度,如式(1)所示。

(1)

其中,Ep= {ep1,ep2,…,epn}表示短語p的向量表示,Ed= {ed1,ed2,…,edn}表示文章d的主題向量表示。如果某個(gè)候選關(guān)鍵短語在多個(gè)句子中出現(xiàn)并存在多種向量表示,那么需要計(jì)算該短語的每個(gè)向量表示與文章主題向量的相似度,并將其中值最大者作為最終的相似度。

在計(jì)算出每個(gè)候選關(guān)鍵短語與文章主題向量的余弦相似度之后,將這些相似度值進(jìn)行歸一化。以sim(p,d)表示短語p與文章d的相似度,即余弦相似度的歸一化值。

2.4 構(gòu)建短語關(guān)系圖并計(jì)算短語的GR值

用圖G= {V,E}表示短語關(guān)系,其中,V是該圖的節(jié)點(diǎn)集,每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)候選關(guān)鍵短語。E是圖G的連線集。如果兩個(gè)候選關(guān)鍵短語出現(xiàn)在同一個(gè)句子中,而且在同一窗口內(nèi)(窗口尺寸設(shè)置為5個(gè)詞語),那么這兩個(gè)關(guān)鍵短語對應(yīng)的節(jié)點(diǎn)會有連線。連線的權(quán)重為節(jié)點(diǎn)對應(yīng)的短語出現(xiàn)在同一窗口內(nèi)的次數(shù)。

候選關(guān)鍵短語的圖序特征值,即GR值(graph-based ranking)值由式(2)進(jìn)行計(jì)算。

(2)

各個(gè)變量的說明如下:

●pi和pj表示候選關(guān)鍵短語。gr(pi)和gr(pj)分別表示pi和pj的GR值。各個(gè)候選關(guān)鍵短語的GR值的初始值設(shè)置為1/k,其中,k為候選關(guān)鍵短語的數(shù)量。

●Mi表示與pi有關(guān)聯(lián)(即有連線連接)的節(jié)點(diǎn)的集合。o(pj)表示與pj有關(guān)聯(lián)的節(jié)點(diǎn)的數(shù)量。

●wij表示pi和pj的連線的權(quán)重,即pi和pj同在一個(gè)窗口的次數(shù)。

● sim(pi,d)表示pi與文章d的相似度。

●z表示候選關(guān)鍵短語與文檔的相似度在短語選擇方面的權(quán)重,取值在0~1之間。

基于式(2),依次計(jì)算每個(gè)候選關(guān)鍵短語的GR值。上述過程需要迭代多個(gè)輪次,直到短語的GR值的變化小于一定閾值。

2.5 基于多種統(tǒng)計(jì)特征組合計(jì)算短語復(fù)合重要度

由于短語的詞性組合、長度、位置等特征對判斷它是否為關(guān)鍵短語都十分重要,因此候選短語的最終得分的計(jì)算需要綜合考慮上述特征。我們設(shè)計(jì)式(3)來計(jì)算候選關(guān)鍵短語的復(fù)合重要度。

s(pi)=gr(pi)+pos(pi)+pst(pi)+len(pi)

(3)

其中,pi是候選關(guān)鍵短語。s(pi)表示pi的復(fù)合重要度,gr(pi)是pi的GR值,pos(pi)是pi的詞性組合特征值,pst(pi)是pi的位置特征值,len(pi)是pi的長度特征值。

如2.1節(jié)所述,需要少量的帶標(biāo)注數(shù)據(jù)來計(jì)算短語的統(tǒng)計(jì)特征。短語的詞性組合特征值(即pos)是該短語的詞性組合出現(xiàn)在標(biāo)注數(shù)據(jù)集的概率值。例如,詞性組合“n+n”在標(biāo)注數(shù)據(jù)集的所有短語中出現(xiàn)了100次,而所有短語的數(shù)量為1 000,那么詞性組合“n+n”的特征值為0.1。同樣地,短語的位置特征值(即pst)和長度特征值(即len)是它們的位置和長度出現(xiàn)在標(biāo)注數(shù)據(jù)集的概率值。pos、pst、len的具體計(jì)算方法可參見3.2節(jié)。

基于式(3)計(jì)算出每個(gè)短語的最終復(fù)合重要度,重要度排名靠前的候選短語被認(rèn)為是關(guān)鍵短語。按照具體的要求,可以選取前K個(gè)候選短語作為最終的關(guān)鍵短語,也可以將得分大于(預(yù)先設(shè)定的)閾值的候選短語選為關(guān)鍵短語。

3 中文關(guān)鍵短語抽取實(shí)驗(yàn)

3.1 數(shù)據(jù)獲取及預(yù)處理

中文期刊論文大多含有關(guān)鍵詞標(biāo)簽,而且關(guān)鍵詞由作者給出,一般能夠準(zhǔn)確地反映論文的主題和內(nèi)容。我們以論文的標(biāo)題和摘要作為待分析的文本對象,并以關(guān)鍵詞作為相應(yīng)的關(guān)鍵短語標(biāo)簽。我們從一些中文期刊網(wǎng)站上獲取化學(xué)、物理、地理、計(jì)算機(jī)等領(lǐng)域的中文期刊論文的元信息,包括標(biāo)題、摘要和關(guān)鍵詞。這些論文數(shù)據(jù)作為分析關(guān)鍵短語的統(tǒng)計(jì)特征的基礎(chǔ)數(shù)據(jù),并用于測試算法的性能。

為保證數(shù)據(jù)質(zhì)量,本文采用以下措施進(jìn)行語料篩選: ①文本亂碼比例小于3%; ②關(guān)鍵詞的數(shù)量超過3個(gè); ③關(guān)鍵詞全部出現(xiàn)在摘要或標(biāo)題當(dāng)中。滿足以上三個(gè)條件的論文共計(jì)5 939篇,這些論文的集合記為P。去除文本中的亂碼等噪聲后,我們使用HanLP[21]對論文的摘要和標(biāo)題進(jìn)行分詞。

3.2 數(shù)據(jù)統(tǒng)計(jì)分析

論文集合P共有68 139個(gè)關(guān)鍵短語標(biāo)簽(即論文的關(guān)鍵詞),包含26 868個(gè)非重復(fù)的關(guān)鍵短語?;谶@些數(shù)據(jù)的統(tǒng)計(jì)特征分析結(jié)果如下。

3.2.1 關(guān)鍵短語詞性統(tǒng)計(jì)分析

(1) 詞性組合統(tǒng)計(jì)

論文集P的關(guān)鍵短語共計(jì)3 016種詞性組合,排名前10的詞性組合見表1。

表1 關(guān)鍵短語詞性組合的統(tǒng)計(jì)結(jié)果

Top10的詞性組合的概率總計(jì)只有50.85%(1)概率計(jì)算的基數(shù)為68 139,即P中關(guān)鍵短語的總數(shù)。,可見中文短語詞性組合的多樣性。我們統(tǒng)計(jì)了詞性組合排名前N的概率情況,如表2所示。

表2 關(guān)鍵短語詞性TopN的統(tǒng)計(jì)結(jié)果

基于詞性組合的統(tǒng)計(jì)結(jié)果,選用合適的篩選方法以獲取大部分候選短語。例如,2.2節(jié)介紹的詞性組合篩選正則表達(dá)式,是按照前35名的詞性組合(出現(xiàn)了至少250次)以及專業(yè)詞匯詞性(以'g'開頭)進(jìn)行設(shè)計(jì)的。該詞性組合規(guī)則最終獲取了超過90個(gè)詞性組合,因?yàn)橛行I(yè)詞匯詞性(如: 'gg')不在前35名當(dāng)中。最終,該詞性組合可以獲取論文集P內(nèi)的73%的關(guān)鍵短語。

式(3)中,短語的詞性組合得分pos(pi)即為表1所示的概率。

(2) 詞性統(tǒng)計(jì)

將關(guān)鍵短語中的詞語進(jìn)行統(tǒng)計(jì)和詞性分析,共有131 484個(gè)詞語,76種詞性。排名前10的詞性見表3。

表3 關(guān)鍵短語詞性的統(tǒng)計(jì)結(jié)果

2.3節(jié)的主題詞性集可以由出現(xiàn)次數(shù)較多的詞性和學(xué)科相關(guān)的詞性組成。例如,以排名前10的詞性及專業(yè)詞匯的詞性組成的主題詞性集為: {n,vn,v,gi,nz,a,ng,b,vi,q,ns,gm,gp,gb}。

3.2.2 關(guān)鍵短語的長度統(tǒng)計(jì)

關(guān)鍵短語的長度即它含有的字符數(shù)量?;谡撐募疨的統(tǒng)計(jì)結(jié)果,關(guān)鍵短語長度排名前10的情況見表4。

式(3)中,關(guān)鍵短語的長度得分len(pi),就是表4所示的概率。此時(shí)概率計(jì)算的基數(shù)是26 868,即非重復(fù)的關(guān)鍵短語的數(shù)量。由于短語的長度是固定的,采用非重復(fù)的關(guān)鍵短語為基數(shù)進(jìn)行概率計(jì)算能更好地顯示不同短語的分布情況。而在詞性組合統(tǒng)計(jì)中,由于詞語在不同文本中的詞性可能不一樣,所以只能以詞性總數(shù)(或詞性組合總數(shù))作為概率計(jì)算的基數(shù)。同樣地,在短語位置統(tǒng)計(jì)中(3.2.3節(jié)),由于短語不同文本中出現(xiàn)的位置可能不一樣,也只能采用關(guān)鍵短語標(biāo)簽的總數(shù)作為概率計(jì)算的基數(shù)。

表4 關(guān)鍵短語長度的統(tǒng)計(jì)結(jié)果

3.2.3 關(guān)鍵短語的位置統(tǒng)計(jì)

關(guān)鍵短語在文章中出現(xiàn)的位置也有一定的規(guī)律,一般地,出現(xiàn)位置越靠前概率越高。關(guān)鍵短語出現(xiàn)位置的統(tǒng)計(jì)結(jié)果如表5所示。

表5 關(guān)鍵短語出現(xiàn)位置的統(tǒng)計(jì)結(jié)果

表5中,位置“0~10%”表示,短語的首字符出現(xiàn)在文章的前10%文本內(nèi)。式(3)中,短語的位置得分,pst(pi)即為表5所示的概率值。

3.3 實(shí)驗(yàn)結(jié)果以及分析

3.3.1 實(shí)驗(yàn)對比模型

我們從論文集P中隨機(jī)抽取1 000篇論文作為算法的測試集(記為C),并與多種現(xiàn)有方法進(jìn)行了對比,包括TFIDF、TextRank[22]、TopicRank[23]、PositionRank[5]和SIFRank[24]。其中SIFRank在英文數(shù)據(jù)集上取得了關(guān)鍵短語抽取的SOTA結(jié)果。同時(shí),我們對CnKPRank算法進(jìn)行了消融實(shí)驗(yàn),具體對比了以下幾個(gè)方面。

(1)POS-removed: 在候選關(guān)鍵短語的選擇方面,不使用我們統(tǒng)計(jì)出來的關(guān)鍵短語的詞性組合特征,而采用較為普通的詞性組合,以擴(kuò)大候選關(guān)鍵短語的選擇范圍。

(2)SameSim: 在短語與文章的相似度方面,不采用式(1)來計(jì)算相似度,而是將所有短語向量與文章主題向量的相似度的值設(shè)置為相同的值,并進(jìn)行了歸一化。

(3)Sim-based: 將短語向量與文章主題向量的相似度作為候選短語的最終得分,省去GR值的計(jì)算,以及短語的詞性組合得分、位置得分和長度得分的計(jì)算。

(4)GR-based: 將短語的GR值作為它的最終得分,而不考慮其詞性組合得分、位置得分和長度得分。

3.3.2 實(shí)驗(yàn)結(jié)果的評價(jià)方法

我們采用以下三個(gè)方法選擇關(guān)鍵短語,并分別計(jì)算算法的性能: 抽取5個(gè)關(guān)鍵短語,抽取10個(gè)關(guān)鍵短語,基于閾值抽取關(guān)鍵短語。“抽取5個(gè)關(guān)鍵短語”指的是: 算法取得分排名前5的短語作為關(guān)鍵短語,然后與測試集的結(jié)果進(jìn)行對比?!俺槿?0個(gè)關(guān)鍵短語”則是指算法取得分排名前10的短語作為關(guān)鍵短語?!盎陂撝党槿£P(guān)鍵短語”的方法需要設(shè)置得分閾值t、關(guān)鍵短語最小長度min和最大長度max。在計(jì)算每個(gè)候選關(guān)鍵短語的得分之后,采用下述方法選擇關(guān)鍵短語(假設(shè)得分大于或等于t的候選關(guān)鍵短語的數(shù)量為num)。

(1) 如果num介于min和max之間,則輸出得分大于或等于t的候選關(guān)鍵短語作為最終的關(guān)鍵短語;

(2) 如果num小于min,則輸出得分排名前min的候選關(guān)鍵短語作為最終的關(guān)鍵短語;

(3) 如果num大于max,則輸出得分排名前max的候選關(guān)鍵短語作為最終的關(guān)鍵短語。

實(shí)驗(yàn)結(jié)果以部分匹配原則進(jìn)行衡量,指標(biāo)有精確率(P)、召回率(R)和F1值,分別介紹如下:

(1) 精確率(P): 如果算法輸出的某個(gè)短語屬于論文給出的關(guān)鍵詞標(biāo)簽,則它是正確短語。精確率是正確短語數(shù)與算法輸出短語總數(shù)的比值;

(2) 召回率(R): 正確短語數(shù)與論文的關(guān)鍵詞標(biāo)簽總數(shù)的比值;

(3)F1值:F1=2PR/(P+R)。

例如,假設(shè)數(shù)據(jù)集C中某篇論文的關(guān)鍵詞為7個(gè),算法輸出5個(gè)關(guān)鍵短語,其中兩個(gè)屬于論文給出的關(guān)鍵詞。那么精確率P=2/5=40%,召回率為R=2/7=28.57%。

我們采用部分匹配法,而非精確匹配法(即算法輸出的關(guān)鍵短語與文章的關(guān)鍵詞標(biāo)簽在數(shù)量和內(nèi)容上完全一致,抽取結(jié)果才算是正確的),因?yàn)榫_匹配法的結(jié)果判斷十分苛刻,導(dǎo)致各種方法的準(zhǔn)確率和召回率都非常低,因此它們的實(shí)驗(yàn)結(jié)果沒有顯著區(qū)別。而基于部分匹配法來衡量中文關(guān)鍵短語抽取效果,不同方法的實(shí)驗(yàn)結(jié)果的區(qū)別比較顯著(表6)。

表6 中文關(guān)鍵短語抽取對比實(shí)驗(yàn)結(jié)果

3.3.3 實(shí)驗(yàn)結(jié)果分析

從表6可以看出,本文方法相比TextRank,SIFRank等方法,在準(zhǔn)確率和召回率方面都有大幅度提升。具體分析如下:

(1) 在消融實(shí)驗(yàn)采取的幾個(gè)方法當(dāng)中,POS-removed的效果最差,說明候選關(guān)鍵短語的選擇對于關(guān)鍵短語抽取效果的影響是最大的;

(2) SameSim,Sim-based和GR-based的效果相比SIFRank等傳統(tǒng)方法有很大提升,說明本文選擇候選關(guān)鍵短語的方法性能十分有效;

(3) GR-based的效果稍微優(yōu)于Sim-based,說明基于短語關(guān)系圖的排序有助于提升關(guān)鍵短語抽取的性能;

(4) SameSim的性能比CnKPRank有所下降,說明短語與文章的相似度的計(jì)算,只能在有限的程度上反映短語的關(guān)鍵性;

(5) CnKPRank比Sim-based和GR-based的性能有較大提升,說明短語的統(tǒng)計(jì)特征(詞性組合、位置和長度)得分,對判斷關(guān)鍵短語十分有用,也說明了半監(jiān)督式方法在處理該問題上具有優(yōu)勢。

4 結(jié)論

中文關(guān)鍵短語抽取目前缺乏針對性的研究,也缺乏標(biāo)準(zhǔn)的評測數(shù)據(jù)集。針對該問題,本文首先收集了一些中文論文及其關(guān)鍵詞標(biāo)簽,構(gòu)建出中文關(guān)鍵短語抽取的評測集。在算法方面,我們采用半監(jiān)督式方法,運(yùn)用詞性組合特征獲取候選關(guān)鍵短語,并采用基于預(yù)訓(xùn)練語言模型編碼的相似度評估、基于圖的排序、基于統(tǒng)計(jì)特征得分等方式,計(jì)算短語得分并依此來選擇關(guān)鍵短語。相比SIFRank等在英文數(shù)據(jù)集上表現(xiàn)很好的方法,我們的方法在中文關(guān)鍵短語抽取的準(zhǔn)確率和召回率方面都有明顯提升。

從實(shí)驗(yàn)結(jié)果可以看出,中文關(guān)鍵短語抽取的準(zhǔn)確率只有30%左右,相比英文的關(guān)鍵短語抽取的效果相差較多。其部分原因是中文的復(fù)雜性比英文更高,且規(guī)范性更差。在中文關(guān)鍵短語抽取領(lǐng)域,我們認(rèn)為以下問題值得進(jìn)一步研究:

(1)優(yōu)化候選關(guān)鍵短語的選擇。候選關(guān)鍵短語的選擇是關(guān)鍵短語抽取任務(wù)的重點(diǎn)和難點(diǎn),具有較大的提升空間和研究價(jià)值。從短語的詞語構(gòu)成、詞性構(gòu)成、語法結(jié)構(gòu)等方面進(jìn)行深入研究,有助于提升關(guān)鍵短語選擇的效果。

(2)抽取未在文本中出現(xiàn)的關(guān)鍵短語。目前方法抽取出的關(guān)鍵短語都曾出現(xiàn)在文本中,而測試集中的有些關(guān)鍵短語并沒有直接在文本中出現(xiàn)。抽取出不曾出現(xiàn)在文本中的關(guān)鍵短語也是一個(gè)有價(jià)值的研究方向。

猜你喜歡
文檔短語關(guān)鍵
硝酸甘油,用對是關(guān)鍵
淺談Matlab與Word文檔的應(yīng)用接口
高考考好是關(guān)鍵
有人一聲不吭向你扔了個(gè)文檔
Word文檔 高效分合有高招
《健民短語》一則
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
蔣百里:“關(guān)鍵是中國人自己要努力”
生意無大小,關(guān)鍵是怎么做?
生意無大小,關(guān)鍵是怎么做?
遂昌县| 集安市| 湖南省| 天门市| 安远县| 长子县| 富平县| 平阴县| 改则县| 南川市| 襄汾县| 卫辉市| 丰宁| 潜山县| 阳山县| 温泉县| 佛教| 达拉特旗| 广昌县| 岳阳县| 凭祥市| 肇庆市| 大余县| 洮南市| 霍城县| 丁青县| 福州市| 屯留县| 新津县| 天长市| 布尔津县| 麻城市| 城市| 无棣县| 长海县| 海丰县| 南宫市| 濉溪县| 靖江市| 凤阳县| 抚松县|