毛良文,徐 亮
(1.湖南省產(chǎn)商品質(zhì)量監(jiān)督檢驗(yàn)研究院,湖南 長沙 410007;2.湖南師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,湖南 長沙 410081;3.高性能計(jì)算與隨機(jī)信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410081)
現(xiàn)如今,計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)已經(jīng)深深地改變了人們的學(xué)習(xí)、生活和工作。人們的每一項(xiàng)活動(dòng)都已經(jīng)與計(jì)算機(jī)、互聯(lián)網(wǎng)緊緊相連。人們在享受信息技術(shù)所帶來的快速、透明和便捷的同時(shí),也在生活中逐漸陷入到海量信息、信息爆炸的困境中。如何從海量信息中快速而準(zhǔn)確地找到人們所關(guān)注的信息就成為了當(dāng)今信息處理的一項(xiàng)重要技術(shù)。
自動(dòng)文摘技術(shù)就是這其中的一個(gè)重要研究領(lǐng)域。早在20 世紀(jì)50 年代,美國IBM 公司的H.P.Luhn就開始了自動(dòng)文摘的研究[1],隨后,H.P.Edmandson在Luhn 研究的基礎(chǔ)之上提出了綜合線索詞、標(biāo)題、詞頻等因素的加權(quán)方法生成自動(dòng)文摘,在句子的加權(quán)計(jì)算上前進(jìn)了一大步[2]。20 世紀(jì)70 年代開始,隨著自然語言理解技術(shù)的發(fā)展和人工智能技術(shù)的發(fā)展,在自動(dòng)文摘領(lǐng)域產(chǎn)生了各種各樣的應(yīng)用系統(tǒng),如采用刪除句子的策略產(chǎn)生自動(dòng)文摘的ADAM 系統(tǒng)[3]、基于腳本信息的FRUMP 系統(tǒng)[4]、基于混合方法的SCISOR系統(tǒng)[5]等。
我國從20 世紀(jì)80 年代末才開始對中文自動(dòng)文摘系統(tǒng)進(jìn)行研究和開發(fā)工作。時(shí)間雖不長,但發(fā)展很迅速。尤其是隨著中文分詞、中文語義分析等技術(shù)的發(fā)展,自動(dòng)文摘技術(shù)的研究也快速向前推進(jìn),其中比較具有代表性的成果包括:綜合考慮句子位置、指示性短語、文本結(jié)構(gòu)等因素的SJTUVAA 系統(tǒng)[6];通過與用戶進(jìn)行交互,利用腳本表示知識的“中文全文自動(dòng)文摘系統(tǒng)”[7];基于“全信息”自然語言理論研發(fā)出了面向各種不同類型文章的中文自動(dòng)文摘系統(tǒng)[8];基于篇章理解并充分利用句子層面之間的語義信息的MATAS 系統(tǒng)[9]以及基于主題詞權(quán)重和句子特征的自動(dòng)文摘算法[10]等。
本文在文獻(xiàn)[10]算法的基礎(chǔ)上,根據(jù)政府公文結(jié)構(gòu)性強(qiáng)這一特點(diǎn),提出了一種基于句子權(quán)重和篇章結(jié)構(gòu)的政府公文自動(dòng)文摘算法,主要是根據(jù)文章中的句子權(quán)重大小和文章篇章結(jié)構(gòu)來共同決定一個(gè)句子是否能成為自動(dòng)文摘句子。通過對文章篇章結(jié)構(gòu)和內(nèi)容層次的劃分,并將相關(guān)信息融入到對主題詞權(quán)重和句子權(quán)重的計(jì)算公式中,從而在一定程度上改進(jìn)了對文章句子權(quán)重排序的結(jié)果。實(shí)驗(yàn)表明,使用本文提出的自動(dòng)文摘算法,在進(jìn)行政府公文的文摘自動(dòng)生成時(shí),準(zhǔn)確率和召回率都較文獻(xiàn)[10]中的方法有較大提高。
基于句子權(quán)重和篇章結(jié)構(gòu)的政府公文自動(dòng)文摘系統(tǒng)框架如圖1 所示。
圖1 基于主題詞權(quán)重和句子特征的自動(dòng)文摘系統(tǒng)框架
在構(gòu)建一個(gè)公文的文摘時(shí),首先分析公文的篇章結(jié)構(gòu)信息,根據(jù)篇章結(jié)構(gòu)信息,對句子、詞語所在的層級進(jìn)行統(tǒng)計(jì);然后通過分詞及詞性標(biāo)注、詞頻統(tǒng)計(jì)等操作,在考慮詞頻、詞性、詞的位置等因素的情況下,計(jì)算詞語的權(quán)重,并根據(jù)標(biāo)題的類型信息和用戶偏好信息對詞語的權(quán)重進(jìn)行修改;之后在詞語權(quán)重和句子相關(guān)特征信息的基礎(chǔ)上計(jì)算句子的權(quán)重,并根據(jù)句子權(quán)重得出候選文摘句;最后進(jìn)行文摘的篩選和潤色輸出。
篇章結(jié)構(gòu)分析是為了獲取詞語、句子所在的篇章結(jié)構(gòu)信息,這在生成政府公文摘要時(shí),是非常重要的信息,因?yàn)榇蠖鄶?shù)情況下,政府公文中的篇章結(jié)構(gòu)信息是十分明顯的,據(jù)此來進(jìn)行文摘的自動(dòng)生成必然會(huì)事半功倍。
2.1.1 分句
分句是將一篇文章分成一個(gè)個(gè)獨(dú)立的句子。分句是實(shí)現(xiàn)精確的句子信息統(tǒng)計(jì)的前提條件,準(zhǔn)確的分句將為后續(xù)的文摘句子權(quán)重計(jì)算和得到文章的篇章結(jié)構(gòu)打下堅(jiān)實(shí)的基礎(chǔ)。分句算法步驟為:
步驟1 將文章的內(nèi)容和格式統(tǒng)一裝進(jìn)字符串序列S(C1,C2,...,Cn)中。
步驟2 定義2 個(gè)下標(biāo)start、end,初值都為1。
步驟3 判斷字符串序列S 中下標(biāo)為end 的字符是否為句子分割字符flag:
1)如果Cend=flag,則執(zhí)行步驟4;
2)如果Cend≠flag,則執(zhí)行步驟6。
步驟4 將S 中的Cstart至Cend之間的字符組合為一個(gè)字符串S',裝進(jìn)句子容器D(s1,s2,...,sn)中。
步驟5 將start、end 的值都變?yōu)閑nd+1,轉(zhuǎn)步驟3。
步驟6 start 的值保持不變,end 的值變?yōu)閑nd+1,轉(zhuǎn)步驟3。
步驟7 如果start >n(n 為S 的最大下標(biāo)),則算法結(jié)束。
2.1.2 句子信息統(tǒng)計(jì)
句子信息統(tǒng)計(jì)是句子權(quán)重計(jì)算的前提條件,同時(shí)可以為句子權(quán)重的計(jì)算提供充分的參考。
在句子的信息統(tǒng)計(jì)中,每個(gè)句子的詳細(xì)信息都可以用一個(gè)六元組{x,y,z,u,v,w}來表示,分別用來代表句子的章節(jié)編號、段落編號、段落句子編號、文章句子編號、句子內(nèi)容的層以及句子的長度。章節(jié)編號將可以直接說明句子屬于文章的哪一大塊內(nèi)容;段落編號代表句子屬于一個(gè)章節(jié)的第幾段;段落句子編號用來代表句子在一個(gè)段落中的順序;文章句子編號是句子在文章中的精確編號,代表句子在整個(gè)文章中的順序,通過文章句子編號可以直接精確定位到句子,同時(shí)通過文章句子編號可以在詞語信息統(tǒng)計(jì)結(jié)果中查找到該句子所含有的詞語;句子內(nèi)容的層級用來表示該句子在整篇文章中的層次地位。
句子信息統(tǒng)計(jì)的算法步驟為:
步驟1 定義章節(jié)編號、段落編號、段落句子編號、文章句子編號、內(nèi)容層級編號、句子長度分別為x、y、z、u、v、w,且初值均為0。
步驟2 遍歷文章句子容器D(s1,s2,...,sn)中的句子Si(C1,C2,...,Cn)。
步驟3 判斷Si(C1,C2,...,Cn)是否符合章節(jié)分割特征flag1:
1)如果符合flag1,則執(zhí)行步驟4;
2)如果不符合flag1,則執(zhí)行步驟8。
步驟4 判斷Si(C1,C2,...,Cn)是否含有章節(jié)序號No1:
1)如果含有No1,則執(zhí)行步驟5;
2)如果不含有No1,則執(zhí)行步驟6。
步驟5 判斷序號層級容器N([type1,1],[type2,2],...,[typen,n])中是否含有No1 的類型(其中,typen為序號的括號類型,n 為層級值):
1)如果含有No1 的類型,則將v 賦值為N 中該類型對應(yīng)的層級值;
2)如果不含有No1 的類型,則將[No1 的類型,n+1]添加進(jìn)容器N 中,并將v 賦值為n+1。
步驟6 將x 賦值為x +1,y、z 賦值為0,u 賦值為u+1,v 不變。
步驟7 計(jì)算出Si(C1,C2,...,Cn)的長度Si.length,將w 賦值為Si.length,將Si(C1,C2,...,Cn)、x、y、z、u、v、w 裝進(jìn)相應(yīng)的統(tǒng)計(jì)對象中,轉(zhuǎn)步驟2。
步驟8 判斷Si(C1,C2,...,Cn)是否符合段落分割特征flag2:
1)如果符合flag2,則執(zhí)行步驟9;
2)如果不符合flag2,則執(zhí)行步驟12。
步驟9 判斷Si(C1,C2,...,Cn)是否含有小章節(jié)序號No2:
1)如果含有No2,則執(zhí)行步驟10;
2)如果不含有No2,則執(zhí)行步驟11。
步驟10 判斷序號層級容器N([type1,1],[type2,2],...,[typen,n])中是否含有No2 的類型:
1)如果含有No2 的類型,則將r 賦值為N 中該類型對應(yīng)的層級值;
2)如果不含有No2 的類型,則將[No2 的類型,n+1]添加進(jìn)容器N 中,并將v 賦值為n+1。
步驟11 y 賦值為y+1,z 賦值為0,u 賦值為u+1,v 不變,轉(zhuǎn)步驟7。
步驟12 x、y 不變,z 賦值為z+1,u 賦值為u +1,v 不變,轉(zhuǎn)步驟7。
2.1.3 詞語信息統(tǒng)計(jì)
詞語是文章內(nèi)容的原子,對詞語信息的精確統(tǒng)計(jì)是進(jìn)行詞語權(quán)重計(jì)算和句子權(quán)重計(jì)算的基礎(chǔ)。詞語信息統(tǒng)計(jì)可以分成3 大步驟:分詞詞性標(biāo)注、詞語統(tǒng)計(jì)和詞語頻率統(tǒng)計(jì)。分詞詞性標(biāo)注,筆者選擇使用中科院的ICTCLAS 中文分詞系統(tǒng)[12]。
詞語信息統(tǒng)計(jì)的算法步驟為:
步驟1 調(diào)用ICTCLAS 中文分詞系統(tǒng),對文檔進(jìn)行分詞詞性標(biāo)注,并拿到返回的分詞結(jié)果:字符串S(C1,C2,...,Cn)。
步驟2 采用基于游標(biāo)的字符截取算法對S(C1,C2,...,Cn)進(jìn)行分詞模塊Wi(wi,flag,pi)的截取,并將截取到的分詞模塊Wi(wi,flag,pi)裝進(jìn)容器D(W1,W2,...,Wn)。
步驟3 定義句子編號變量a、詞語長度變量len,且初值均為0。
步驟4 遍歷容器D(W1,W2,...,Wn),對其中的分詞模塊Wi(wi,flag,pi)再次進(jìn)行分割得到wi和pi,然后判斷詞語wi是否含有句子分割符flag2:
1)如果含有flag2,則a 增加1;
2)如果不含有flag2,a 保持不變。
再將 (wi,pi,a) 作為一條記錄,裝進(jìn)數(shù)據(jù)庫中的詞語統(tǒng)計(jì)表list1 中,直到遍歷結(jié)束。
步驟5 刪除詞語統(tǒng)計(jì)表list1 中詞語wi為停用詞的相關(guān)記錄。
步驟6 遍歷詞語統(tǒng)計(jì)表list1 中的記錄(wi,pi,a),判斷數(shù)據(jù)庫中詞頻統(tǒng)計(jì)表list2 中是否含有該詞語wi(詞語相同且詞性相同):
1)如果不含有,則計(jì)算詞語wi的長度并將其賦值給變量len,將 (wi,pi,len,1)作為一條記錄裝進(jìn)list2 中;
2)如果含有,則將表list2 中詞語為wi的詞頻字段加1。
本算法中相關(guān)參數(shù)說明:
分詞模塊Wi(wi,flag,pi):wi表示詞語,flag 表示詞語詞性分隔符,pi表示詞性;詞語統(tǒng)計(jì)表list1 的表結(jié)構(gòu)為:(‘詞語’,‘詞性’,‘句子編號’);詞語統(tǒng)計(jì)表list2 的表結(jié)構(gòu)為:(‘詞語’,‘詞性’,‘詞長’,‘詞頻’)。
在詞語自身所擁有的屬性當(dāng)中,詞義、詞性、詞頻、詞語長度、詞語位置都是需要考慮的因素。
不同的詞語本身意味著不同的詞義,但是對于自動(dòng)文摘來說,很難說某一個(gè)詞義對于文章重要,某一個(gè)詞義對于文章就不重要。所以,在討論詞語的權(quán)重時(shí),詞義暫不考慮。而詞性在決定它是否能代表文章內(nèi)容上往往有著決定性的作用。計(jì)算機(jī)研究人員的實(shí)驗(yàn)研究結(jié)果則更證明了這點(diǎn)[13-14]。在表達(dá)文章內(nèi)容方面,名詞相對于其它詞有著天然的優(yōu)勢,所以在對詞語權(quán)重進(jìn)行計(jì)算時(shí),會(huì)給名詞以較高的權(quán)重。在詞語的長度方面,文獻(xiàn)[14]對2006 年度CSSCI 關(guān)鍵詞詞庫中關(guān)鍵詞的詞語長度進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),4~6 字詞占到關(guān)鍵詞總數(shù)的78.42%。所以,筆者對于長度為4~6 個(gè)字的詞語賦予較高的權(quán)重。在詞語位置方面,文章各個(gè)小標(biāo)題中的詞語無疑是最具概括性和代表性的詞語。除了文章的大小標(biāo)題,研究人員還發(fā)現(xiàn),出現(xiàn)在首段、尾段位置的詞語往往也更具代表性。在詞頻方面,詞語出現(xiàn)的次數(shù)越多,往往越能代表它對文章內(nèi)容的重要程度。
綜合以上各因素,算法中詞語評分計(jì)算公式為:
其中,ni為詞wi出現(xiàn)的次數(shù);δ 為均衡系數(shù),δ 的取值方法為:
其中,L 為文章的長度。
其中0 <α <1。
其中,0 <β4<β3<β2<β1<1。
其中,0 <γ2<γ1<1。
上述公式中的各參數(shù)根據(jù)不同的文章類型會(huì)有不同的最優(yōu)值,可以根據(jù)情況給予不同比例的賦值,在本系統(tǒng)中則采用:
詞語權(quán)重的計(jì)算公式為:
句子權(quán)重計(jì)算的結(jié)果將直接決定一個(gè)句子是否會(huì)被當(dāng)作文摘句輸出。影響句子權(quán)重的因素包括句子的內(nèi)容、位置、長度、是否含有線索詞、是否是用戶關(guān)注的內(nèi)容等。為了能夠讓這些因素在句子權(quán)重計(jì)算中都發(fā)揮作用且滿足用戶的要求,筆者采用加權(quán)和來進(jìn)行句子權(quán)重計(jì)算。當(dāng)不考慮用戶偏好時(shí),句子權(quán)重計(jì)算公式為:
其中,α、β、γ、φ、φ 為調(diào)節(jié)參數(shù),α+β+γ+φ+φ=1。
基于內(nèi)容的句子權(quán)重Wcon(si)計(jì)算公式如下:
其中,N 為句子si中詞語的個(gè)數(shù),詞語wj∈si,0 ≤Wcon(si)≤1。
基于位置的句子權(quán)重Wloc(si)計(jì)算公式如下:
句子的長度其實(shí)也是選為文摘句的一個(gè)重要參考因素。以抽取式的方式生成文摘,較短的句子往往因?yàn)榕c上下文有著較緊密的聯(lián)系,如果單獨(dú)抽取出來作為文摘句,容易造成該句與其他句子的不協(xié)調(diào)。其實(shí),在人工文摘中,如果同樣是以抽取式生成文摘,測試者在選文摘句的時(shí)候考慮的也更多是有較長內(nèi)容的句子。因?yàn)檫@些長的句子含有的內(nèi)容更加豐富,同時(shí)往往具有更強(qiáng)的獨(dú)立性和內(nèi)容的全面性,這些特性讓長句子擁有被選為文摘句的天然優(yōu)勢?;陂L度的句子權(quán)重Wlen(si)計(jì)算公式如下:
句子的類型對于一個(gè)句子也非常重要,句子的內(nèi)容往往會(huì)因語氣的不同而不同。陳述句往往用來講述或說明某一事實(shí)或情況,表達(dá)的內(nèi)容明確、肯定;疑問句一般用于表達(dá)疑問提出問題;感嘆句則用于抒發(fā)情感。對于希望看到文章中心內(nèi)容的用戶來說,陳述句所具有的價(jià)值會(huì)更大,感嘆句次之,疑問句的價(jià)值往往最小?;陬愋偷木渥訖?quán)重Wset(si)計(jì)算公式為:
不同的用戶對于同一篇文章有著不同的需求,計(jì)算機(jī)生成的單一文摘很難滿足所有人的要求。在生成文摘的時(shí)候,如果計(jì)算機(jī)可以根據(jù)用戶的需求來決定文摘的生成,毫無疑問將大大提高文摘的有效性。在自動(dòng)文摘生成之前,用戶可以輸入自己感興趣的關(guān)鍵詞,讓計(jì)算機(jī)在生成文摘的時(shí)候選擇更多含有用戶關(guān)心的內(nèi)容的句子。筆者認(rèn)為,用戶的偏好是直接對句子的重要程度產(chǎn)生了方向性改變,應(yīng)該成為決定句子權(quán)重的重要因素,而不是與上述的各項(xiàng)因素處于同一影響層次。當(dāng)需要考慮用戶偏好因素時(shí),一個(gè)句子的權(quán)重計(jì)算公式為:
其中μ+ε=1。
通過句子權(quán)重排序,得到的候選文摘集,在格式和可讀性上還存在一定的缺陷,需要對得到的候選集中的文摘句進(jìn)行一定的后處理。文摘后處理的主要內(nèi)容包括:
1)刪除關(guān)系連詞。刪除句首諸如“因?yàn)椤?、“所以”、“還是”等連詞;
2)刪除線索詞。刪除句首諸如“整體來說”、“總之”等線索詞;
3)刪除句首序號。刪除句首的(1)、(一)等類型序號;
4)調(diào)整文摘的格式。刪除部分句尾的回車符,刪除句首的空格,在文摘第一句添加2 個(gè)空格。
通過文摘后處理,可以將文摘句容器中的句子按照其在文章中的順序組織成一個(gè)段落進(jìn)行輸出,得到最終的文摘句。
為了驗(yàn)證系統(tǒng)的性能,隨機(jī)的選取了來自新聞、軍事、財(cái)經(jīng)、科技和政府公文題材的文檔材料各50 篇進(jìn)行實(shí)驗(yàn)測試。
實(shí)驗(yàn)結(jié)果的評價(jià)方法如下:首先由3 名大學(xué)生對所選取的文檔單獨(dú)進(jìn)行人工文摘,然后綜合3 人生成的人工文摘形成理想文摘,將理想文摘作為自動(dòng)文摘的評價(jià)依據(jù),并計(jì)算自動(dòng)文摘的準(zhǔn)確率、召回率和F值[15]。
首先,為了找出α、β 的較優(yōu)分配比例,隨機(jī)抽取50 篇政府公文,將α:β 的比值分別取3 種不同比例,在2 種壓縮比(摘要字?jǐn)?shù):文章字?jǐn)?shù))下進(jìn)行試驗(yàn)。實(shí)驗(yàn)的結(jié)果如表1 所示。
表1 α、β 在不同比例下的自動(dòng)文摘結(jié)果
通過對表1 進(jìn)行分析,發(fā)現(xiàn)當(dāng)α:β=80:20 時(shí),有著較高準(zhǔn)確率和召回率,同時(shí)F 值也較高。因此,將α:β 的比值取為80:20 進(jìn)行后面的實(shí)驗(yàn)對比。
為了進(jìn)行對比實(shí)驗(yàn),筆者還采用了文獻(xiàn)[10]中的方法和Microsoft Word 2003 中的自動(dòng)摘要工具對相同的250 篇政府公文進(jìn)行自動(dòng)文摘。其中,句子權(quán)重計(jì)算公式(3)~公式(8)中的相關(guān)參數(shù)取其較優(yōu)值:α=0.48,β=0.12,γ=0.1,φ=0.2,φ=0.1。實(shí)驗(yàn)結(jié)果如表2 所示。
表2 自動(dòng)文摘系統(tǒng)結(jié)果對比
從表2 可以看出,本系統(tǒng)的平均準(zhǔn)確率為0.651,平均召回率為0.669,平均F 值為0.660,3 項(xiàng)指標(biāo)均高于文獻(xiàn)[10]中的方法和Word 2003 summarizer的平均值。這表明,考慮文章的篇章結(jié)構(gòu),并將其應(yīng)用到對候選文摘句的權(quán)重計(jì)算中,對文摘的自動(dòng)生成質(zhì)量有較為明顯的提升。
本文根據(jù)政府公文結(jié)構(gòu)性強(qiáng)的特點(diǎn),提出了一種基于句子權(quán)重和篇章結(jié)構(gòu)的政府公文自動(dòng)文摘算法,通過對篇章結(jié)構(gòu)信息的掌握,以及在此基礎(chǔ)上對詞語、句子權(quán)重進(jìn)行計(jì)算得出候選文摘集,并通過后處理最終形成文摘。實(shí)驗(yàn)結(jié)果表明,該算法有效地提高了政府公文自動(dòng)文摘系統(tǒng)的準(zhǔn)確率和召回率。今后,筆者考慮在該算法中,尤其是文摘后處理部分,增加相似度計(jì)算[16-18]、語義處理[15,19]的功能,讓其生成的自動(dòng)文摘更加符合標(biāo)準(zhǔn)文摘的定義和規(guī)范,更加接近于人工提取的文摘。
[1]Luhn H P.The automatic creation of literature abstracts[J].IBM Journal of Research and Development,1958,2(2):159-165.
[2]Edmundson H P.Problems of automatic abstracting[J].Communications of ACM,1964,7(4):259-263.
[3]Mathis B A,Rush J E.Abstracting[M]// Encyclopedia of Computer and Technology.NewYork:Marcel Dekker Inc.,1975:102-142.
[4]De Jong G.An overview of the FRUMP system[M]//Strategies for Natural Language Processing.London:Lawrence Erlbaum,1982:149-172.
[5]Hahn U,Reimer U.The TOPIC project:Text-oriented procedures for information management and condensation of expository texts[J].Decision Support Systems,1985,1(4):342-343.
[6]王永成,徐慧.OA 中文文獻(xiàn)自動(dòng)摘要系統(tǒng)[J].情報(bào)學(xué)報(bào),1997,16(2):124-129.
[7]姚天順,朱靖波,張利,等.自然語言理解—一種讓機(jī)器懂得人類語言的研究[M].北京:清華大學(xué)出版社,1995.
[8]李蕾,郭祥昊,鐘義信.面向特定鄰域的理解型中文自動(dòng)文摘系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2000,37(4):6-10.
[9]劉挺,吳巖,王開鑄.中文自動(dòng)文摘系統(tǒng)CAAS 的研究與實(shí)現(xiàn)[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),1999,31(6):59-62.
[10]蔣昌金.基于關(guān)鍵詞提取的中文網(wǎng)頁自動(dòng)文摘方法研究[D].廣州:華南理工大學(xué),2010.
[11]陳學(xué)智.基于分層的中文句子相似度研究[D].長沙:湖南師范大學(xué),2014.
[12]張華平.NLPIR 漢語分詞系統(tǒng)[EB/OL].http://ictclas.nlpir.org,2015-10-15.
[13]劉佳賓,陳超,邵正榮,等.基于機(jī)器學(xué)習(xí)的科技文摘關(guān)鍵詞自動(dòng)抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(14):170-172.
[14]錢愛兵,江嵐.基于改進(jìn)TF-IDF 的中文網(wǎng)頁關(guān)鍵詞抽取—以新聞網(wǎng)頁為例[J].情報(bào)理論與實(shí)踐,2008,31(6):945-950.
[15]江軍.基于語義的自動(dòng)文摘系統(tǒng)[D].成都:電子科技大學(xué),2011.
[16]陳學(xué)智.基于分層的中文句子相似度研究[D].長沙:湖南師范大學(xué),2014.
[17]張培穎.多特征融合的語句相似度計(jì)算模型[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(26):136-137.
[18]夏天.中文信息相似度計(jì)算理論與方法[M].1 版.鄭州:河南科學(xué)技術(shù)出版社,2009.
[19]王騰毅.基于語義的中文自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門:廈門大學(xué),2013.