国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TextRank的文本情感摘要提取方法

2018-10-24 08:33楊玉珍
關(guān)鍵詞:特征詞權(quán)重節(jié)點(diǎn)

荀 靜 楊玉珍

1(西安工業(yè)大學(xué)圖書館 陜西 西安 710021)2(荷澤學(xué)院計(jì)算機(jī)學(xué)院 山東 荷澤 274015)

0 引 言

文本情感摘要技術(shù)是文本情感分析在自動(dòng)摘要技術(shù)領(lǐng)域的應(yīng)用。該技術(shù)是從給定的評(píng)論文本中提取帶有情感信息并且能夠表達(dá)文章主旨的內(nèi)容,有助于用戶快速有效地把握評(píng)論文本的全局情感傾向,獲取主題信息。

近年來,針對(duì)漢語特點(diǎn)的中文文本自動(dòng)摘要技術(shù)取得大量研究成果。文獻(xiàn)[1]將文本中句子的出現(xiàn)看成一個(gè)隨機(jī)變量,應(yīng)用主題模型與信息熵抽取中文文本的摘要。文獻(xiàn)[2]提出了一種基于云計(jì)算的分布式多文本自動(dòng)摘要技術(shù),通過MapReduce框架抽取文本的主題句。文獻(xiàn)[3]采用基于回歸的有監(jiān)督技術(shù)對(duì)提取的熵和相關(guān)度兩組特征進(jìn)行權(quán)衡,進(jìn)而提取文本的摘要。文獻(xiàn)[4]將文本情感摘要看成是一個(gè)二元分類問題,利用有監(jiān)督學(xué)習(xí)方法抽取能夠代表評(píng)論廣泛意見的句子構(gòu)建文本情感摘要。文獻(xiàn)[3-4]的兩種方法屬于有監(jiān)督的自動(dòng)摘要技術(shù),準(zhǔn)確度較高,但易受訓(xùn)練語料的影響。

圖排序算法是當(dāng)前主流的無監(jiān)督方法之一,能夠充分考慮文本圖的全局信息,不需要人工標(biāo)注訓(xùn)練集,目前已被廣泛應(yīng)用到信息檢索、關(guān)鍵詞提取和自動(dòng)文摘等領(lǐng)域[5]。熊嬌等[6]融合詞項(xiàng)權(quán)重信息和文本信息,提出了一種基于詞項(xiàng)-句子-文本的三層圖模型,進(jìn)行多文本自動(dòng)摘要提取。余珊珊等[7]結(jié)合篇章結(jié)構(gòu)和句子的上下文信息提出基于改進(jìn)的TextRank自動(dòng)摘要提取方法,但未考慮情感信息。林莉媛等[8]針對(duì)同一產(chǎn)品的多個(gè)評(píng)論,提出一種基于情感信息的PageRank算法。通過構(gòu)建一個(gè)基于主題和情感的雙層圖模型來抽取最有代表性的句子作為某個(gè)產(chǎn)品評(píng)論的情感摘要。劉志明等[9]通過主題收斂,融合句子語義相似度和情感相似度,提出一種基于主題的SE-TextRank情感摘要方法。王瑋等[10]在LexRank算法中加入情感信息,提出融合句子情感和主題相似性的中文新聞文本情感摘要方法。這些方法在生成文本的情感摘要時(shí)引入了情感信息,能夠有效地識(shí)別文本中的情感關(guān)鍵句,但未考慮句子的情感強(qiáng)度和位置、線索詞、句式、長(zhǎng)度等句子自身特征對(duì)生成情感摘要的影響。

基于TextRank算法,綜合考慮主題信息、情感信息和句子自身特征等影響因素,本文提出一種融合多特征的文本情感摘要提取方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地提取文本中的情感主題句,實(shí)現(xiàn)評(píng)論文本的濃縮和提煉。

1 TextRank算法

TextRank算法來源于PageRank,是一種基于圖排序的文本處理模型[11]。它的基本思想是將文本中的句子看成圖中的一個(gè)節(jié)點(diǎn),若兩個(gè)句子之間存在相似性,則認(rèn)為對(duì)應(yīng)的兩個(gè)節(jié)點(diǎn)之間有一條無向有權(quán)邊,權(quán)值是句子間的相似度。通過TextRank算法計(jì)算得到的權(quán)重排序靠前的若干句子可作為文本的摘要。

給定一篇文本D,對(duì)文本進(jìn)行分句后得到句子集合D={s1,s2,…,sN},1≤i≤N?;赥extRank模型,構(gòu)建句子的無向加權(quán)網(wǎng)絡(luò)圖G=(V,E,W),其中:V是節(jié)點(diǎn)的集合,E是節(jié)點(diǎn)間各個(gè)邊的非空有限集合,W是各邊上權(quán)重的集合。

圖G節(jié)點(diǎn)間的概率轉(zhuǎn)移矩陣SDn×n是一個(gè)n×n的對(duì)稱相似度矩陣,對(duì)角線上元素的取值為1。

(1)

根據(jù)構(gòu)建的網(wǎng)絡(luò)圖G和SDn×n可迭代計(jì)算每個(gè)節(jié)點(diǎn)的權(quán)重,具體公式如下:

(2)

式中:d為阻尼系數(shù),一般設(shè)定為0.85;對(duì)于一個(gè)節(jié)點(diǎn)vi,WS(vi)代表節(jié)點(diǎn)的權(quán)重,IN(vi)代表指向vi的節(jié)點(diǎn)集合,OUT(vi)代表vi指向的其他節(jié)點(diǎn)集合,WS(vj)表示上次迭代后節(jié)點(diǎn)vj的權(quán)重,wij表示節(jié)點(diǎn)vi和節(jié)點(diǎn)vj間的相似度值。

計(jì)算節(jié)點(diǎn)的權(quán)重首次迭代時(shí)要用到節(jié)點(diǎn)初始權(quán)重,即自身的權(quán)重。由于經(jīng)過多次迭代后,每個(gè)節(jié)點(diǎn)的權(quán)重趨于穩(wěn)定,因此節(jié)點(diǎn)的最終權(quán)重與初始權(quán)重?zé)o關(guān),設(shè)定每個(gè)節(jié)點(diǎn)自身權(quán)重為1/|V|,即B0=(1/|V|,…,1/|V|)T,經(jīng)過多次迭代計(jì)算后可得到收斂結(jié)果:

Bi=SDn×n·Bi-1

(3)

當(dāng)兩次迭代的結(jié)果Bi和Bi-1取值差別非常小并接近于零時(shí)計(jì)算結(jié)束,得到包含各個(gè)節(jié)點(diǎn)權(quán)重值的向量,然后可根據(jù)權(quán)重值的大小進(jìn)行排序,獲取節(jié)點(diǎn)相應(yīng)排名。

2 文本網(wǎng)絡(luò)圖構(gòu)造

2.1 特征選擇

文本的情感摘要不僅包含文本的全局情感信息,還要涵蓋文本的主題內(nèi)容,因此本文綜合提取文本的主題特征詞和情感特征詞組成文本最終的特征向量。首先將輸入的文本劃分為句子,得到句子集合,并對(duì)文本中的句子進(jìn)行結(jié)構(gòu)標(biāo)記,例如如果一個(gè)句子的結(jié)構(gòu)標(biāo)記值為[1,2,6],則表示該句子為第1自然段的第2個(gè)句子,第1自然段共包含6個(gè)句子;其次對(duì)每個(gè)句子進(jìn)行切詞處理,去除停用詞和敏感詞,歸并同義詞和近義詞;最后對(duì)預(yù)處理后的特征詞條進(jìn)行判定,若該詞為情感詞,則直接劃分到情感特征詞類別中,否則,通過IF-IDF方法評(píng)估特征詞條,將排名靠前的一定數(shù)量的特征詞劃分到主題特征詞類別中。文本特征向量提取流程如圖1所示。

圖1 文本特征向量提取流程圖

根據(jù)圖1處理結(jié)果,可以得到包含p個(gè)情感特征詞和q個(gè)主題特征詞的特征向量:

1) 文本D的特征向量,記為Dkey={key1:tf1,key2:tf2,…,keyp:tfp,…,keyq:tfq},1≤i≤p+q。其中:p+q為文本中所有特征詞的數(shù)量;tfi為特征詞keyi在文本D中出現(xiàn)的詞頻。

2) 句子sj的特征向量,記為sjkey={keyi1:stfi1,keyi2:stfi2,…,keyip:stfip,…,keyiq:stfiq},1≤i≤p+q。如果特征詞keyi在句子sj中出現(xiàn),則stfi為詞頻,否則取值為0。

2.2 TextRank文本網(wǎng)絡(luò)圖

通過研究分析發(fā)現(xiàn),在TextRank網(wǎng)絡(luò)圖中,迭代計(jì)算的結(jié)果主要受兩個(gè)節(jié)點(diǎn)間權(quán)重的影響,而節(jié)點(diǎn)間權(quán)重是通過計(jì)算句子間相似度得到的,因此,如何計(jì)算句子間相似度成為摘要提取的關(guān)鍵。根據(jù)特征選擇結(jié)果,本文分別在主題層面和情感層面上計(jì)算句子間的相似度,綜合句子主題和情感兩者間的相似度作為句子間的權(quán)重,計(jì)算公式如下:

Sim(si,sj)=μ×Simt(si,sj)+ω×Simr(si,sj)

(4)

式中:μ、ω是調(diào)節(jié)參數(shù),并且μ+ω=1,通過多次測(cè)試確定最后的取值。Simr(si,sj)代表句子間基于情感的相似度,Simt(si,sj)代表句子間基于主題的相似度。

1) 基于情感的相似度 在文本情感分析研究中,句子的情感信息是通過其包含的情感詞表達(dá)的[12]。本文采用《知網(wǎng)》詞語語義相似度計(jì)算方法來計(jì)算選擇出情感特征詞的相似度,進(jìn)而得到句子間的情感相似度[13]。《知網(wǎng)》中的詞語相似度是通過詞語的義原相似度體現(xiàn)的,對(duì)兩個(gè)情感詞w1和w2,假定w1含有n個(gè)義原X1,X2,…,Xn,w2含有m個(gè)義原Y1,Y2,…,Ym,則w1和w2的相似度如下:

(5)

式中:Sim(Xi,Yj)代表兩個(gè)義原間的相似度。對(duì)于句子sp={w1,w2,…,wa}和sq={w1,w2,…,wb},sp中包含a個(gè)情感詞,sq中包含b個(gè)情感詞。對(duì)兩個(gè)句子中的情感詞兩兩進(jìn)行相似度計(jì)算,將計(jì)算過程中獲得的最大值作為本詞匯的相似度權(quán)重[9]。參照文獻(xiàn)[9]得到句子間的情感相似度,計(jì)算公式如下:

(6)

2) 基于主題的相似度 句子基于主題的相似度通過計(jì)算特征向量中主題特征詞的相似度來實(shí)現(xiàn),本文采用余弦相似度方法,參照文獻(xiàn)[7],計(jì)算公式如下:

(7)

式中:h=|Dkey|為句子特征向量中主題特征詞的數(shù)量。

根據(jù)得到的句子間相似度構(gòu)建一個(gè)無向加權(quán)TextRank網(wǎng)絡(luò)圖如下:以文本D中的句子sj為節(jié)點(diǎn),句子間相似關(guān)系為邊,相似度為邊的權(quán)重,其中各節(jié)點(diǎn)的權(quán)重計(jì)算如下:

(8)

每個(gè)節(jié)點(diǎn)的初始權(quán)重設(shè)定為1/|D|,即B0=(1/|D|,…,1/|D|)T,則經(jīng)過多次迭代計(jì)算后可得到收斂結(jié)果:

Bi=SDn×n·Bi-1

(9)

計(jì)算結(jié)束后可得到包含各個(gè)節(jié)點(diǎn)權(quán)重值的向量Bi,然后可根據(jù)權(quán)重值的大小進(jìn)行排序。按照句子權(quán)重大小抽取情感主題句,并結(jié)合在文中的順序生成情感摘要。

3 融合多特征的TextRank文本情感摘要提取

3.1 情感特征

在傳統(tǒng)的情感傾向分析中認(rèn)為一個(gè)句子中包含的情感詞數(shù)量越多,句子的情感傾向程度越大。本文在此基礎(chǔ)上考慮了情感詞的情感強(qiáng)度,通過情感詞的極性強(qiáng)度值累加來確定句子的情感強(qiáng)度。鑒于當(dāng)前沒有統(tǒng)一標(biāo)準(zhǔn)的情感詞典,本文首先將收集到的HowNet詞典和大連理工大學(xué)詞典合并去重;然后以小學(xué)反義詞典為范本,添加情感分析COAE的領(lǐng)域情感詞;最后和課題組已有的極性詞典[13]合并去重,進(jìn)而得到一個(gè)較為完善的情感詞典?;谇楦袕?qiáng)度的句子權(quán)重調(diào)整系數(shù)為:

(10)

式中:emotion(wi,k)是句子si中第k個(gè)情感詞wi,k的情感強(qiáng)度值;m是句子si中的情感詞個(gè)數(shù)。

經(jīng)計(jì)算可得到基于情感特征的句子權(quán)重調(diào)整系數(shù)轉(zhuǎn)移矩陣TRh×1=[we(s1),we(s2),…,we(sh)]T,通過矩陣相乘Bi+1=Bi·TRh×1可對(duì)2.2節(jié)給出的句子最終權(quán)重進(jìn)行調(diào)整。

3.2 句子自身特征

在提取摘要時(shí),句子位置、線索詞、句式和長(zhǎng)度等自身特征對(duì)摘要的準(zhǔn)確度也有一定的影響,因此本文通過句子自身特征對(duì)收斂后的句子權(quán)重進(jìn)行調(diào)整。

1) 位置特征 專家研究結(jié)果表明,80%以上文本的主題句出現(xiàn)在段落首句或尾句。因此,段落首句或尾句應(yīng)該被賦予更高的權(quán)重,而越靠近段首和段尾的句子其權(quán)重相應(yīng)地越高?;谖恢玫木渥訖?quán)重調(diào)整系數(shù)為:

(11)

式中:j為段落中句子所在的位置;H為段落中句子si的總數(shù),并且j={1,2,…,H}。

2) 線索詞特征 句子是由詞組成的序列,而句子中包含的線索詞對(duì)作者表達(dá)的情感和觀點(diǎn)具有很大的提示作用。比如,指示性詞語,“因此”、“應(yīng)該”等;總結(jié)性詞語,“綜上所述”、“總而言之”等;第一人稱代詞,“我認(rèn)為”、“我建議”等。如果一個(gè)句子包含一個(gè)或多個(gè)線索詞,則該句子成為情感主題句的可能性越大。

基于線索詞的調(diào)整規(guī)則為:若句子中包含線索詞,則將該句子權(quán)重增加1倍;否則,句子權(quán)重保持不變。

3) 句式特征 句子的類型不同,對(duì)摘要提取的影響效果也不同。按照不同的表達(dá)方式,句子可分為4種類型:陳述句、疑問句、感嘆句和祈使句。疑問句和感嘆句常被用來表達(dá)主觀情感信息,因此有更大的可能成為摘要句。

基于句式的調(diào)整規(guī)則為:若句子為疑問句或感嘆句,則將該句子權(quán)重增加1倍;若句子為陳述句,則將該句子權(quán)重增加0.5倍;其他情況下,句子權(quán)重保持不變。

4) 長(zhǎng)度特征 為了避免文本最終提取的情感摘要受句子過短或過長(zhǎng)的影響,在此對(duì)文本中句子長(zhǎng)度做歸一化處理,并過濾掉少于5個(gè)特征詞的句子?;陂L(zhǎng)度的句子權(quán)重調(diào)整系數(shù)為:

(12)

式中:L為句子的長(zhǎng)度,length為文本中句子的平均長(zhǎng)度。

3.3 情感摘要提取方法

融合多特征的TextRank文本情感摘要提取方法可分以下4個(gè)部分:文本預(yù)處理和特征選擇、TextRank網(wǎng)絡(luò)圖構(gòu)建、句子權(quán)重修正和摘要句提取。

1) 文本預(yù)處理和特征選擇 每個(gè)句子進(jìn)行切詞處理,去除停用詞,歸并同義詞。

2) TextRank網(wǎng)絡(luò)圖構(gòu)建 通過TextRank算法構(gòu)建文本網(wǎng)絡(luò)圖,然后進(jìn)行迭代計(jì)算,直至收斂,輸出句子權(quán)重。

3) 句子權(quán)重修正 融合句子情感強(qiáng)度、位置、線索詞、句式和長(zhǎng)度等特征,修正計(jì)算出的句子權(quán)重,得到句子的最終權(quán)重。

4) 摘要句提取 根據(jù)修正后得到的權(quán)重對(duì)句子進(jìn)行排序,生成粗文摘,然后利用最大邊緣相關(guān)(MRR)消除冗余算法依次提取摘要句。

4 實(shí)驗(yàn)設(shè)置與結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)

本文的實(shí)驗(yàn)數(shù)據(jù)是從國(guó)內(nèi)各大新聞網(wǎng)站中搜集的評(píng)論性的新聞報(bào)道。按照主題可分為文化、科技、時(shí)事、財(cái)經(jīng)、體育等幾類的文章,經(jīng)過預(yù)處理后各選取500篇文本作為本文的實(shí)驗(yàn)語料,并人工抽取這些文本中的句子形成基準(zhǔn)情感摘要。

本文利用ROUGE-1.5.5工具對(duì)最終摘要的結(jié)果進(jìn)行評(píng)測(cè),并使用ROUGE-1、ROUGE-2、ROUGE-W作為評(píng)價(jià)指標(biāo)。其中,1與2代表1元和2元語法長(zhǎng)度,ROUGE-1為候選摘要與基準(zhǔn)摘要間的1元語法召回率,ROUGE-2為候選摘要與基準(zhǔn)摘要間的2元語法召回率,ROUGE-W為最長(zhǎng)加權(quán)公共子序列。

4.2 實(shí)驗(yàn)結(jié)果及分析

本文針對(duì)提出的融合多特征的TextRank情感摘要方法,共設(shè)計(jì)3組實(shí)驗(yàn)。首先,確定調(diào)節(jié)參數(shù)μ、ω的最優(yōu)值;然后依次加入各個(gè)特征,查看情感摘要的效果;最后,對(duì)比不同方法下生成的情感摘要的結(jié)果。

4.2.1 調(diào)節(jié)參數(shù)設(shè)置(實(shí)驗(yàn)1)

本文首先假定TextRank圖模型中節(jié)點(diǎn)的初始權(quán)重為1,然后通過設(shè)置不同的μ、ω的取值,觀察評(píng)價(jià)指標(biāo)的結(jié)果。分別測(cè)試μ為0.35、0.4、0.45、0.5、 0.55、0.6、 0.65、0.7、0.75時(shí)的評(píng)價(jià)值,相應(yīng)的,ω=1-μ。實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 評(píng)價(jià)值在調(diào)節(jié)參數(shù)μ不同取值下的變化趨勢(shì)

從圖2可以看出,當(dāng)μ=0.55,ω=0.45時(shí),三個(gè)評(píng)價(jià)值的取值最高。因此,取μ=0.55,ω=0.45進(jìn)行后續(xù)實(shí)驗(yàn)。

4.2.2 各特征對(duì)情感摘要效果的影響(實(shí)驗(yàn)2)

為了比較各特征對(duì)摘要的影響效果,該實(shí)驗(yàn)分別加入每個(gè)特征,觀察情感摘要的結(jié)果。具體結(jié)果如表1所示。

表1 特征影響效果實(shí)驗(yàn)

實(shí)驗(yàn)2首先利用主題信息提取摘要,然后加入自身特征,準(zhǔn)確性得到提升,最后加入情感特征,準(zhǔn)確性得到更顯著的提升??梢钥闯?,每一個(gè)特征對(duì)情感摘要都有不同程度的影響,是生成摘要的重要因素。

4.2.3 對(duì)比試驗(yàn)(實(shí)驗(yàn)3)

本文將TF-IDF方法、傳統(tǒng)的TextRank方法和本文方法進(jìn)行對(duì)比,以此驗(yàn)證本文方法的有效性。實(shí)驗(yàn)結(jié)果如表2所示。

表2 對(duì)比實(shí)驗(yàn)

表2的統(tǒng)計(jì)結(jié)果表明,本文方法在ROUGE-1、ROUGE-2和ROUGE-W三個(gè)評(píng)價(jià)指標(biāo)上均有明顯提高?;赥F-IDF的方法只考慮了詞頻信息,相比其他方法效果最差。基于傳統(tǒng)的TextRank方法考慮了文本的主題信息,效果優(yōu)于IF-IDF方法。本文方法進(jìn)一步考慮了文本的情感信息和句子的自身特征,效果更優(yōu)于傳統(tǒng)的TextRank方法。

5 結(jié) 語

情感摘要的生成是自然語言處理領(lǐng)域和文本情感傾向性分析領(lǐng)域的研究熱點(diǎn)。本文的方法在傳統(tǒng)的TextRank摘要抽取方法基礎(chǔ)上充分考慮了主題信息、情感信息、句子位置、線索詞、長(zhǎng)度和句式等特征,有效地抽取評(píng)論文本的情感主題信息。下一步將嘗試把上述研究應(yīng)用到多文本情感摘要領(lǐng)域,同時(shí)繼續(xù)完善中文情感詞典,進(jìn)一步提高摘要的準(zhǔn)確率。

猜你喜歡
特征詞權(quán)重節(jié)點(diǎn)
基于Simhash改進(jìn)的文本去重算法
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補(bǔ)償性辱虐管理行為?*
基于類信息的TF-IDF權(quán)重分析與改進(jìn)①
權(quán)重常思“浮名輕”
概念格的一種并行構(gòu)造算法
結(jié)合概率路由的機(jī)會(huì)網(wǎng)絡(luò)自私節(jié)點(diǎn)檢測(cè)算法
采用貪婪啟發(fā)式的異構(gòu)WSNs 部分覆蓋算法*
一種面向財(cái)務(wù)文本分類的TF-IDF改進(jìn)算法
Crosstalk between gut microbiota and antidiabetic drug action
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)