白淑霞 鮑玉來(lái) 張暉
〔摘要〕[目的]利用向量空間描述語(yǔ)義信息,研究基于詞向量包的自動(dòng)文摘方法;[方法]文摘是文獻(xiàn)內(nèi)容縮短的精確表達(dá);而詞向量包可以在同一個(gè)向量空間下表示詞、短語(yǔ)、句子、段落和篇章,其空間距離用于反映語(yǔ)義相似度。提出一種基于詞向量包的自動(dòng)文摘方法,用詞向量包的表示距離衡量句子與整篇文獻(xiàn)的語(yǔ)義相似度,將與文獻(xiàn)語(yǔ)義相似的句子抽取出來(lái)最終形成文摘;[結(jié)果]在DUC01數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果表明,該方法能夠生成高質(zhì)量的文摘,結(jié)果明顯優(yōu)于其它方法;[結(jié)論]實(shí)驗(yàn)證明該方法明顯提升了自動(dòng)文摘的性能。
〔關(guān)鍵詞〕詞向量;詞包向量;自動(dòng)文摘
DOI:10.3969/j.issn.1008-0821.2017.02.002
〔中圖分類(lèi)號(hào)〕G25437〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)02-0008-06
〔Abstract〕[Purposes]This work focused on automatic summarization by utilizing vector space to describe the semantics.[Methods]proposed a new representation based on word vector,which is called bag of word vector(BOWV),and employed it for automatic summarization.Words,phrases,sentences,paragraphs and documents could be represented in a same vector space by using BOWV.And the distance between representations was used to reflect the semantic similarity.For automatic summarization,the paper used the distance between BOWVs to measure the semantic similarity between sentences and document.The sentences similar with the document are extracted to form the summary.[Findings]Experimental results on DUC01 dataset showed that the proposed method could generate high-quality summary and outperforms comparison methods.[Conclusions]The experiment showed that this research improved the performance of automatic summarization significantly.
〔Key words〕vector;bag of word vector;automatic summarization
隨著Internet的快速發(fā)展,電子文本數(shù)量呈現(xiàn)出指數(shù)增長(zhǎng)的趨勢(shì)。為了更好地利用這些信息,人們迫切需要信息壓縮手段對(duì)大量的信息進(jìn)行提煉、濃縮。文摘可以概括原始文檔,讓用戶(hù)快速理解文本信息。而手工編寫(xiě)文摘費(fèi)時(shí)費(fèi)力,因此利用計(jì)算機(jī)自動(dòng)生成文摘已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究課題。
文摘也稱(chēng)摘要,是簡(jiǎn)明、確切地記述原始文獻(xiàn)中重要內(nèi)容的短文。自動(dòng)文摘就是使用計(jì)算機(jī)自動(dòng)生成文摘。從生成方式來(lái)看,自動(dòng)文摘可分為抽取型文摘和生成型文摘。抽取型文摘從原文中抽取句子形成文摘。生成型文摘?jiǎng)t使用“自己的話(huà)”來(lái)概括原文。相比于抽取型文摘,生成型文摘難度更大。目前,生成型文摘尚難以付諸實(shí)踐,抽取型文摘是現(xiàn)階段主要的研究方向[1]。
文摘抽取方法大體可分為3類(lèi):①將其視作一個(gè)句子排序問(wèn)題,主要任務(wù)是給句子打分,得分高的句子被納入到最終的文摘之中,得分低的則被排除在外。打分的依據(jù)一般包括詞頻及分布特點(diǎn)[2]、句子在段落中的位置[3]、句子的相似性[4]等;②將其視作一個(gè)二元分類(lèi)問(wèn)題,將文檔中的摘要句作為正例,非摘要句作為反例,使用的分類(lèi)模型主要有樸素貝葉斯模型[5]、決策樹(shù)[6]、支持向量機(jī)[7]、人工神經(jīng)網(wǎng)絡(luò)[8]等;③將其視作一個(gè)序列標(biāo)注問(wèn)題,將文檔中的摘要句標(biāo)注為1,非摘要句標(biāo)注為0,使用的模型主要有隱馬爾可夫模型[9]和條件隨機(jī)場(chǎng)[10]。
抽取型文摘是由文檔中的句子組成,因此句子的表示是一個(gè)關(guān)鍵問(wèn)題。句子是詞的序列,句子的表示又建立在詞表示的基礎(chǔ)上。常用的一種方法是建立一個(gè)與詞表等長(zhǎng)的二值向量,向量中的元素與詞表中的詞一一對(duì)應(yīng)。要表示一個(gè)詞則將向量中的對(duì)應(yīng)位置設(shè)為1,其它位置均設(shè)為0。這種方法最大的問(wèn)題是向量長(zhǎng)度由詞表規(guī)模決定,而詞表一般規(guī)模巨大,這就帶來(lái)維數(shù)災(zāi)難和數(shù)據(jù)稀疏問(wèn)題。解決這一問(wèn)題的主要思路是降維。最簡(jiǎn)單的方法是去除停用詞,這可以減小詞表規(guī)模,但效果十分有限。而淺層語(yǔ)義索引(Latent Semantic Index,LSI)[11]方法引入了語(yǔ)義概念,它將詞表中的詞聚合成一個(gè)個(gè)“主題”(Topic),向量的長(zhǎng)度與主題數(shù)量相同,從而達(dá)到了大幅度降維的目的。目前被廣泛采用的淺層狄理赫雷分配(Latent Dirichlet Allocation,LDA)[12]是對(duì)淺層語(yǔ)義索引的改進(jìn)。要得到句子的表示,需要將詞的表示組合起來(lái),詞包模型(Bag of Words)是最常用的方法[13],它忽略了句子中詞的順序,詞的表示經(jīng)過(guò)簡(jiǎn)單的代數(shù)運(yùn)算(如加和、取平均值等)即得到了句子的表示。
顯然,詞的表示對(duì)句子的表示有重要影響。詞向量(Word Vector)或詞嵌入(Wordembedding)被認(rèn)為可以捕捉到諸如同義詞、近義詞和詞義對(duì)應(yīng)關(guān)系(如“國(guó)王”-“男人”+“女人”=“王后”,“King”-“man”+“woman”=“Queen”[14])等語(yǔ)言現(xiàn)象。詞向量已經(jīng)成功地應(yīng)用在語(yǔ)言模型[15]、自然語(yǔ)言理解[16]、信息檢索[17]、命名實(shí)體識(shí)別[18]、關(guān)系抽取[19]、機(jī)器翻譯[20]、圖像理解[21]等領(lǐng)域。
本文將詞向量與詞包模型結(jié)合,提出一種文本表示方法,稱(chēng)為“詞向量包”。詞向量包是詞向量的推廣,可以在同一個(gè)向量空間中表示詞、短語(yǔ)、句子、段落和篇章。在自動(dòng)文摘研究中,文摘與原文具有相同的語(yǔ)義,本文采用詞向量包之間的距離來(lái)衡量句子與原文語(yǔ)義相似度,并提出一種自動(dòng)文摘抽取方法。在DUC01數(shù)據(jù)集上,實(shí)驗(yàn)表明,本文提出的方法能夠生成較高質(zhì)量的文摘,ROUGE-N指標(biāo)明顯高于現(xiàn)有方法。
1語(yǔ)義表示方法
11詞向量:詞的語(yǔ)義表示
詞向量是一種用向量表示詞的方法,向量中的每一維都在實(shí)數(shù)范圍內(nèi)取值。詞向量最早在文獻(xiàn)[15]中被提出。詞向量的總體思想是:完成一個(gè)自然語(yǔ)言處理任務(wù),將任務(wù)目標(biāo)定義為詞向量V(x)的函數(shù),其中x代表一個(gè)詞。為了實(shí)現(xiàn)任務(wù)目標(biāo)就需要優(yōu)化V(x),優(yōu)化得到的V(x)就是詞向量。在文獻(xiàn)[15]中定義的任務(wù)是生成語(yǔ)言模型,采用的學(xué)習(xí)器是人工神經(jīng)網(wǎng)絡(luò)。詞向量的研究發(fā)展迅速,主要關(guān)注于學(xué)習(xí)任務(wù)和學(xué)習(xí)器的改變。如文獻(xiàn)[16]提出要同時(shí)完成多個(gè)自然語(yǔ)言處理任務(wù),包括學(xué)習(xí)語(yǔ)言模型、詞性標(biāo)注和命名實(shí)體識(shí)別等;如文獻(xiàn)[22]提出使用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)作為學(xué)習(xí)器等。
詞向量方法可以實(shí)現(xiàn)詞的聚類(lèi),語(yǔ)義相近的詞在其表示空間中也相互接近,這樣就可以捕捉到諸如同義詞、近義詞關(guān)系。圖1給出了一個(gè)詞向量表示的示例,圖中語(yǔ)義相關(guān)的詞(關(guān)于運(yùn)動(dòng)的詞)聚集在一起。
此外,詞向量還可以捕捉到詞與詞之間的對(duì)應(yīng)關(guān)系,如圖2顯示,妹妹(sister)和哥哥(brother)的關(guān)系,就像是姑姑(aunt)和叔叔(uncle)的關(guān)系一樣。這種關(guān)系也可以表示成一個(gè)代數(shù)關(guān)系:“姑姑”-“妹妹”+“哥哥”=“叔叔”(“aunt”-“sister”+“brother”=“uncle”)。詞向量的這些特點(diǎn)反映了自然語(yǔ)言中的語(yǔ)義特征。
12詞向量包:句子、篇章的語(yǔ)義表示
我們將詞向量與詞包模型結(jié)合起來(lái),將句子或文檔中所有的詞向量進(jìn)行合并,從而形成句子或文檔的語(yǔ)義表示,我們稱(chēng)之為詞向量包(Bag of Word Vector)。
定義:若S=w1,w2,…,wN是一個(gè)句子或文檔,wi是其中的詞,N是詞的總數(shù)。則其詞向量包的表示V(S)為:
V(S)=1N∑Ni=1V(wi)(1)圖2詞向量表示體現(xiàn)詞的對(duì)應(yīng)關(guān)系
顯然,當(dāng)詞包里只有一個(gè)詞時(shí),詞向量包就是詞向量。
詞向量包有語(yǔ)義聚類(lèi)效果,它能夠?qū)⒄Z(yǔ)義相近的句子聚集在一起,而使語(yǔ)義不同的句子相互遠(yuǎn)離。圖3給出一個(gè)例子,我們?nèi)我膺x取了20篇文檔,將其中的每一個(gè)句子用詞向量包表示,并使用文獻(xiàn)[28]中的方法對(duì)其進(jìn)行可視化。圖3上的每一個(gè)點(diǎn)對(duì)應(yīng)一個(gè)句子,來(lái)自相同文檔的句子用同種形狀標(biāo)記??梢钥闯觯臋n中的句子聚在一起。一般而言,同一篇文檔中的句子都圍繞相同的話(huà)題,有較接近的語(yǔ)義,因此詞向量包能夠較好地反映語(yǔ)義。(來(lái)自相同文檔的句子用同種顏色標(biāo)記)圖3詞向量包的語(yǔ)義表示效果
此外,因?yàn)樵~向量包是詞向量代數(shù)運(yùn)算的結(jié)果,詞向量中“國(guó)王”-“男人”+“女人”=“王后”這樣的代數(shù)關(guān)系在詞向量包中也得以保持。詞向量包繼承了詞向量的語(yǔ)義表示特性,是一種語(yǔ)義表示。我們利用詞向量包表示之間的距離反映語(yǔ)義相似性。
2基于語(yǔ)義表示的自動(dòng)文摘抽取方法
文摘是對(duì)原文主要內(nèi)容的摘述,是原文的一個(gè)簡(jiǎn)短版本,文摘的語(yǔ)義與原文一致。因此可以通過(guò)比較文摘與原文之間的語(yǔ)義相似性來(lái)評(píng)價(jià)文摘質(zhì)量的優(yōu)劣,語(yǔ)義越接近則文摘質(zhì)量越好。我們可以將其視為一個(gè)優(yōu)化問(wèn)題:
argmaxASemanticSim(A,D)-αAD(2)
其中,A表示文摘,D表示原始文檔,A、D分別表示文摘和原文中句子或詞的個(gè)數(shù),α是可調(diào)節(jié)參數(shù)。SemanticSim(a,d)是兩者的語(yǔ)義相似度,本文利用詞向量包之間的距離反映語(yǔ)義相似性,即:
SemanticSim(A,D)=-V(A)-V(D)2(3)
其中,V(X)是X在詞向量包空間中的表示,SemanticSim(A,D)為A和D在該空間中的歐氏距離。如果限定文摘的篇幅,則(2)式的后一項(xiàng)可被省略,變?yōu)椋?/p>
argminAV(A)-V(D)2(4)
對(duì)于抽取型文摘,文摘中的句子來(lái)源于原始文檔:原始文檔D定義為一個(gè)句子序列s1,s2,…,sN,文摘A定義為D的子序列sj1,sj2,…,sjK,其中ji∈{1,2,…,N},K 為求解這個(gè)組合優(yōu)化問(wèn)題,根據(jù)句子排序思路,我們采用貪心方法求得一個(gè)近似解。首先,將整篇文檔和每一個(gè)句子投射到詞向量包空間中,度量它們之間的距離,再由小到大排序,取前K個(gè)句子形成最終的文摘。具體來(lái)說(shuō),我們首先去除文本中的標(biāo)點(diǎn)和停用詞,再將每個(gè)詞轉(zhuǎn)換為其對(duì)應(yīng)的詞向量表示,不在詞表中的詞忽略不計(jì)。然后,根據(jù)公式(1)計(jì)算整篇文檔和每一個(gè)句子的詞向量包表示,并計(jì)算它們之間的歐氏距離,將其從小到大排序。最后根據(jù)長(zhǎng)度要求,取前K個(gè)句子,按照其在原文中出現(xiàn)的順序連接起來(lái),形成最終的文摘。 3實(shí)驗(yàn)與分析 這一節(jié)介紹本文實(shí)驗(yàn)的過(guò)程,實(shí)驗(yàn)使用開(kāi)放評(píng)測(cè)數(shù)據(jù)集,并將文獻(xiàn)[23]報(bào)告的結(jié)果作為基限,采用的實(shí)驗(yàn)設(shè)計(jì)和評(píng)估方法都與之嚴(yán)格一致。 31數(shù)據(jù)集 為了評(píng)估本文提出方法的性能,我們使用DUC01作為測(cè)試數(shù)據(jù)集。DUC01由文檔理解會(huì)議(Document Understanding Conference,http:∥duc.nist.gov)提供,是使用較為廣泛的開(kāi)放評(píng)測(cè)數(shù)據(jù)集。它包含有147篇新聞文本,文中每一個(gè)句子是否被當(dāng)作摘要句都由人工標(biāo)注。該數(shù)據(jù)集是專(zhuān)為測(cè)試單文檔抽取式文摘而設(shè)計(jì)的,并且做了很好的預(yù)處理,基限系統(tǒng)也采用了該數(shù)據(jù)集進(jìn)行系統(tǒng)性能評(píng)價(jià)。
32評(píng)價(jià)標(biāo)準(zhǔn)
為了評(píng)價(jià)系統(tǒng)性能,本文使用兩種指標(biāo)。一種是準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1-measure),這一指標(biāo)廣泛使用在信息檢索領(lǐng)域中。我們將人工抽取的文摘作為參考,記做Aref。自動(dòng)抽取得到的文摘稱(chēng)為候選,記做Acand。則準(zhǔn)確率(P)、召回率(R)和F1值(F1)按照公式(5)計(jì)算[9]。
P=Aref∩AcandAcand,R=Aref∩AcandAref,
F1=2PRP+R(5)
簡(jiǎn)便起見(jiàn),我們只報(bào)告F1值。我們使用ROUGE工具包[24]作為另一個(gè)評(píng)價(jià)指標(biāo),ROUGE工具包是文檔理解會(huì)議所采用的摘要質(zhì)量評(píng)估方法。ROUGE-N通過(guò)計(jì)算N元語(yǔ)法單元(N-gram)的召回率來(lái)評(píng)估摘要性能。文獻(xiàn)[24]指出,當(dāng)N=1時(shí),即ROUGE-1指標(biāo)與人類(lèi)專(zhuān)家給出的評(píng)價(jià)結(jié)果相當(dāng)一致。ROUGE-N按照公式(6)計(jì)算。
ROUGEN=∑s∈Aref∑gramN∈sCountmatch(gramN)∑s∈Aref∑gramN∈sCount(gramN)(6)
其中,s表示Aref中的句子,N表示N元語(yǔ)法單元的長(zhǎng)度,Countmatc(gramN)表示gramN在候選摘要和參考摘要中都出現(xiàn)的次數(shù)。Count(gramN)表示gramN只在參考摘要中都出現(xiàn)的次數(shù)。為了與文獻(xiàn)[23]統(tǒng)一,我們報(bào)告ROUGE-1和ROUGE-2兩個(gè)指標(biāo)。
33詞向量
本文提出的方法基于詞向量表示,詞向量表示用文獻(xiàn)[25]提出的方法,并使用維基百科60億詞的語(yǔ)料進(jìn)行訓(xùn)練,分別得到50、100、200、300維的詞向量表示,記做W506B、W1006B、W2006B和W3006B。此外,我們還使用Common Crawl網(wǎng)頁(yè)數(shù)據(jù)庫(kù)(http:∥commoncrawl.org/420億詞和8 400億詞的語(yǔ)料訓(xùn)練得到300維的詞向量表示,分別記做W3006B和W300840B。這些詞向量表示的訓(xùn)練結(jié)果可以在http:∥www-nlp.stanford.edu/projects/glove/處下載得到。
34實(shí)驗(yàn)對(duì)比
我們將提出的方法與現(xiàn)有的5種方法相比較,分別是:①基于語(yǔ)義相似性的方法[23],記做Sim;②基于神經(jīng)網(wǎng)絡(luò)的方法[26],記做Net;③基于條件隨機(jī)場(chǎng)的方法[6],記做CRF;④基于支持向量機(jī)的方法[9],記做SVM;⑤基于數(shù)據(jù)流形排序的方法[27],記做Rank。表1列出了性能比較的結(jié)果,可以看出本文提出方法的F1值和其它系統(tǒng)表現(xiàn)相當(dāng),僅比Sim方法略低。F1值是句子一級(jí)的指標(biāo),它的測(cè)評(píng)粒度偏大,忽略了文摘句和非文摘句的語(yǔ)義相似度。因此,研究者通常選用ROUGE-N作為評(píng)價(jià)指標(biāo),它的測(cè)評(píng)粒度是N元語(yǔ)法單元,粒度小于F1值,能夠更準(zhǔn)確評(píng)價(jià)自動(dòng)抽取文摘的質(zhì)量。從表1可以看出,本文提出的方法在ROUGE-1、ROUGE-2上的表現(xiàn)遠(yuǎn)優(yōu)于其它方法。我們分析原因,在句一級(jí)準(zhǔn)確率和召回率相當(dāng)?shù)那闆r下,與其它方法相比,用本文方法挑選出來(lái)的未被標(biāo)注為文摘的句子與人工文摘更為接近。
35分析與討論
我們認(rèn)為摘要中的句子應(yīng)該與原始文檔有相同的語(yǔ)義,反映在語(yǔ)義表示上它們的距離應(yīng)該較小。圖4給出了幾個(gè)例子,圖中實(shí)線(xiàn)是文檔中所有句子和文檔本身在詞向量包空間中的距離,我們?nèi)Τ隽巳斯?biāo)注的摘要句??梢钥闯?,摘要句與文檔的距離相對(duì)較小。
(其中圈出了人工確定的摘要句)圖4文檔中的句子和文檔的語(yǔ)義表示距離
4總結(jié)與展望
本文將詞向量與詞包模型結(jié)合起來(lái),提出一種稱(chēng)為詞向量包的表示方法,詞向量包可以用于表示詞、短語(yǔ)、句子、段落和篇章。我們將詞向量包應(yīng)用到自動(dòng)文摘研究中,用詞向量包的表示距離衡量句子與整篇文檔的語(yǔ)義相似度,將與文檔語(yǔ)義最相似的句子抽取出來(lái)形成文摘。實(shí)驗(yàn)證明本文提出的方法具有很好的性能。
本文提出的詞向量包延續(xù)了詞包模型的思路,忽略了詞的順序關(guān)系。而自然語(yǔ)言中詞的順序十分重要,忽略了這種關(guān)系會(huì)帶來(lái)較大的語(yǔ)義損失,如何將詞的順序關(guān)系納入到語(yǔ)義建模中是一個(gè)需要解決的問(wèn)題。文獻(xiàn)[29]提出段落向量表示,考慮了小窗口內(nèi)的順序關(guān)系,文獻(xiàn)[30]提出用遞歸神經(jīng)網(wǎng)絡(luò)為詞的順序建模。未來(lái)可以將這方面的研究成果納入到我們的框架中,更好的刻畫(huà)句子和文檔的語(yǔ)義,從而產(chǎn)生更好的文摘輸出。
參考文獻(xiàn)
[1]曹洋,成穎,裴雷.基于機(jī)器學(xué)習(xí)的自動(dòng)文摘研究綜述[J].圖書(shū)情報(bào)工作,2014,58(18):122-130.
[2]Luhn H P.The automatic creation of literature abstracts[J].IBM Journal of research and development,1958,2(2):159-165.
[3]Baxendale P B.Machine-made index for technical literature:an experiment[J].IBM Journal of Research and De-velopment,1958,2(4):354-361.
[4]Gong Y,Liu X.Generic text summarization using relevance measure and latent semantic analysis[C]∥Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2001:19-25.
[5]Conroy J M,Oleary D P.Text summarization via hidden Markov models[C]∥Proceedings of the 24th annual in-ternational ACM SIGIR conference on Research and de-velopment in information retrieval.ACM,2001:406-407.
[6]Shen D,Sun J T,Li H,et al.Document summarization using conditional random fields[C]∥IJCAI,2007,(7):2862-2867.
[7]Kupiec J,Pedersen J,Chen F.A trainable document summarizer[C]∥Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,1995:68-73.
[8]Lin C Y.Training a selection function for extrac-tion[C]∥Proceedings of the eighth international conference on Information and knowledge management.ACM,1999:55-62.
[9]Yeh J Y,Ke H R,Yang W P,et al.Text summarization using a trainable summarizer and latent semantic analysis[J].Information Processing & Management,2005,41(1):75-95.
[10]Kaikhah K.Automatic text summarization with neural networks[C]∥Intelligent Systems,2004.Proceedings.2004 2nd International IEEE Conference,2004:40-44.
[11]WBFrakes,RBaeza-Yates.Information retrieval data structures and algorithms[M].Prentice Hall PTR,New Jersey,1992.
[12]Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JAsIs,1990,41(6):391-407.
[13]Blei D M,Ng A Y,Jordan M I.Latent Dirichletallocation[J].the Journal of machine Learning research,2003,(3):993-1022.
[14]Mikolov T,Yih W,Zweig G.Linguistic regularities in continuous space word representations[C]∥HLT-NAACL,2013:746-751.
[15]Bengio Y,Ducharme R,Vincent P,et al.A neural proba-bilistic language model[J].The Journal of Machine Learning Research,2003,(3):1137-1155.
[16]Collobert R,Weston J.A unified architecture for natural language processing:Deep neural networks with multitask learning[C]∥Proceedings of the 25th international conference on Machine learning.ACM,2008:160-167.
[17]Salakhutdinov R,Hinton G.Semantic hashing[J].Inter-national Journal of Approximate Reasoning,2009,50(7):969-978.
[18]Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learn-ing[C]∥Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.
[19]Socher R,Chen D,Manning C D,et al.Reasoning with neural tensor networks for knowledge base comple-tion[C]∥Advances in Neural Information Processing Sys-tems,2013:926-934.
[20]Zou W Y,Socher R,Cer D M,et al.Bilingual word em-beddings for phrase-based machine translation[C]∥EMNLP,2013:1393-1398.
[21]Frome A,Corrado G S,Shlens J,et al.Devise:A deep visual-semantic embedding model[C]∥Advances in Neural Information Processing Systems,2013:2121-2129.
[22]Luong M T,Socher R,Manning C D.Better word repre-sentations with recursive neural networks for morphology[J].CoNLL-2013,2013,104.
[23]Aliguliyev R M.A new sentence similarity measure and sentence based extractive technique for automatic text summarization[J].Expert Systems with Applications,2009,36(4):7764-7772.
[24]Lin C Y,Hovy E.Automatic evaluation of summaries using n-gram co-occurrence statistics[C]∥Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1.Association for Com-putational Linguistics,2003:71-78.
[25]Pennington J,Socher R,Manning C D.Glove:Global vectors for word representation[J].Proceedings of the Empiricial Methods in Natural Language Processing(EMNLP 2014),2014,12.
[26]Svore K M,Vanderwende L,Burges C J C.Enhancing single-document summarization by combining ranknet and third-party Sources[C]∥EMNLP-CoNLL,2007:448-457.
[27]Wan X.A novel document similarity measure based on earth movers distance[J].Information Sciences,2007,177(18):3718-3730.
[28]van der Maaten L,Hinton G.Visualizing data using t-SNE[J].Journal of Machine Learning Research,2008,(9):2579-2605.
[29]Le Q,Mikolov T.Distributed representations of sentences and documents[C]∥Proceedings of the 31st International Conference on Machine Learning(ICML-14),2014:1188-1196.
[30]Kalchbrenner N,Blunsom P.Recurrent continuous trans-lation models[C]∥EMNLP,2013:1700-1709.
(本文責(zé)任編輯:郭沫含)