林莉媛,王中卿,李壽山,周國棟
(蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上積累了海量的產(chǎn)品評論,這些評論表達了用戶的觀點和情感。這些評論可以幫助用戶在購買產(chǎn)品時做決定,也可以幫助產(chǎn)品供應(yīng)商對產(chǎn)品做出改進。然而,由于網(wǎng)絡(luò)中存在的產(chǎn)品評論量太大,同時在評論中還存在大量廣告等無意義的評論,使得完整的閱讀與分析這么多的評論顯得相當?shù)馁M時費力。因此,本文提出基于多文檔的文本情感摘要將這些評論進行濃縮、提煉,幫助用戶消化網(wǎng)絡(luò)上大量的觀點。
文本情感摘要(Opinion Summarization)可以在很大程度上幫助用戶更好的理解網(wǎng)絡(luò)上大量的情感信息,是自然語言處理研究中的一個重要課題。文本情感摘要可以應(yīng)用在很多方面。例如,對搜索引擎返回結(jié)果的支持,對問答系統(tǒng)的支持,對話題檢測與跟蹤的支持等。由于人工的抽取文本情感摘要耗時耗力,自動的文本情感摘要就成了迫切需要解決的問題。
文本情感摘要,通常指從評論語料中抽取一系列有序的能夠代表評論廣泛意見的句子[1-4]。借鑒主題文本摘要任務(wù)[5-6],我們將文本情感摘要看成是所有評論中句子的排序問題。與文本主題摘要不同的是,文本情感摘要不僅需要考慮所抽取句子的主題相關(guān)性,而且還需要考慮句子中是否帶有情感。以前的關(guān)于文本情感摘要的研究大部分都是簡單的將句子的主題和情感傾向分別打分并進行線性求和[7-8]。事實上,在評論文本中,句子間的主題與情感表達密切相關(guān),他們之間的關(guān)系對摘要的產(chǎn)生有很大的影響。
在本文中,為了充分考慮評論的句子間的基于主題與基于情感的聯(lián)系,我們提出了一種基于情感的PageRank框架從產(chǎn)品評論語料中抽取文本情感摘要。具體來講,我們首先構(gòu)建一個基于主題和情感的雙層圖模型,并應(yīng)用PageRank算法將圖模型中主題信息和情感信息有效的融合在一起,進而抽取出最有代表性的句子作為某個產(chǎn)品評論的文本情感摘要。一般而言,PageRank算法本身已經(jīng)考慮到句子的主題相關(guān)性,因此在本文中沒有特別考慮主題相關(guān)性。實驗證明,我們的方法和已有的方法相比在ROUGE值上能有顯著的提高。此外,針對中文的文本情感摘要的研究并未涉及。因此,為了充分的分析如何解決中文文本情感摘要問題,我們收集和標注了一個基于產(chǎn)品評論的中文多文檔文本情感摘要語料。
本文其他部分的組織結(jié)構(gòu)為:第二部分介紹了摘要的相關(guān)工作;第三部分描述了我們所收集和標注的語料;第四部分提出基于PageRank的多文檔文本情感摘要方法;第五部分詳細介紹了實驗結(jié)果;第六部分對本文進行了總結(jié)并提出了下一步工作。
自動文摘的目的在于通過機器對大規(guī)模的電子文本快速地進行濃縮、提煉,生成文章的主旨。已有的相關(guān)研究主要集中在主題的文本摘要,即文本主題摘要。該任務(wù)旨在抽取多文本中與某一固定主題相關(guān)的文本摘要。文本主題摘要的研究已經(jīng)經(jīng)歷了很長一段時間。文獻[9]中提出通過打破特征獨立性的假設(shè),使用決策樹來建立句子摘要的問題模型;文獻[7]中使用基于中心向量的方法給文本集中的句子排序,在排序過程中該方法使用了聚類中心、位置關(guān)系和TFIDF等特征;文獻[10]給出了一種無監(jiān)督的概率的方法用于建立所有文本的隱式抽象內(nèi)容的模型,通過內(nèi)容之間的關(guān)系生成連貫的、無冗余的摘要,基于圖模型的方法也被用到了自動文摘的句子排序中;文獻[11]中提出基于聚類的PageRank和HITS算法來充分利用聚類的信息給句子排序。
文本情感摘要屬于情感分析研究里面的一個基本問題。然而,現(xiàn)有的關(guān)于情感分析的研究主要集中在文本的情感傾向分類研究上面[12-13],而對于文本情感摘要的研究還比較少。文獻[14-15]通過抽取評論文本中的評價對象,評價詞,評價持有者等信息來構(gòu)建評論的文本情感摘要,但這種方法還是很難讓用戶對產(chǎn)品的評價有深入的理解,例如,“為什么某個方面會有較高的評分”。為了進一步幫助用戶理解評論的的觀點,我們需要生成簡潔的文字總結(jié),找出主要的觀點、情感,這也就是文本情感摘要需要研究的任務(wù)。
文獻[11]中給出了一種基于稱為Opinosis的圖模型,該模型通過計算圖中各個節(jié)點的權(quán)值生成冗余度很低的基于理解的文本情感摘要;文獻[9]根據(jù)句子的信息量和可讀性對句子進行排序,然后選擇和排序多個評論文本里面的句子生成摘要;文獻[10]針對抽取對話語料中的文本情感摘要進行的初步研究,主要針對基于線性模型和圖模型兩個方式抽取對話語料的文本情感摘要;文獻[16]提出了一種基于情感的PageRank模型和HITS模型用來進行挖掘與分析問題和答案兩者之間的關(guān)系。
由于針對中文文本情感摘要的研究較少,公共語料缺乏,我們從亞馬遜中文網(wǎng)①http://www.amazon.cn中收集15個主題(產(chǎn)品)的評論語料。表1中列出了該15種產(chǎn)品。每個主題包含200篇評論,其中包含褒義評論和貶義評論。在這15個主題中,每個主題平均包含12 690個單詞。我們將在每個主題的200篇評論中抽取最有代表性的句子作為每個主題的文本情感摘要。
為了抽取每個主題的產(chǎn)品評論的文本情感摘要,我們挑選了3名標注者,從每個主題的評論中抽取4~8句的句子作為該主題的摘要。每名標注者的標注過程都是相互獨立的。我們抽取的文本情感摘要的標準是選擇觀點和內(nèi)容在整個評論中出現(xiàn)頻率較高,且覆蓋面較廣的評論語句。由于我們關(guān)注的是對產(chǎn)品的評論,所以如果評論中出現(xiàn)不是對于產(chǎn)品本身的觀點的評論將不予考慮。例如,“評論亞馬遜的客服太差”,“快遞很慢”等。
表1 15種產(chǎn)品
我們計算了這15個主題的文本情感摘要和原始文檔的平均壓縮比,壓縮比為0.9%。
不同于傳統(tǒng)的文本摘要[7,14],文本情感摘要不僅僅要考慮抽取出的句子的主題相關(guān)性,同時還要考慮其中包含的情感,并且句子與句子間的主題相關(guān)性和情感并不是相互獨立的,為了將情感和主題信息更好的融合到文本情感摘要中,我們提出了一種基于PageRank的文本情感摘要的方法。具體來講,我們通過將PageRank算法應(yīng)用到一個基于主題和情感的雙層圖模型,將主題信息和情感信息有效的融合在一起,從而抽取出最有代表性的句子作為產(chǎn)品的文本情感摘要。
PageRank是一種被廣泛應(yīng)用的隨機游走(Random Walk)模型[14,17-18]。在文本摘要中,該模型首先構(gòu)建一張有向圖表示句子之間的關(guān)系,接著利用基于圖的排序算法計算每句話的排序值。排序值大的句子被認為具有代表性的句子,將被選中為文本的摘要。
設(shè)S是某個主題的所有句子的集合。我們構(gòu)建一張有向圖G,其中頂點集VS是集合S中的句子,邊E是句子之間的關(guān)系。節(jié)點i到節(jié)點j的轉(zhuǎn)移概率p(i→j)用來定義兩節(jié)點之間的邊的權(quán)重。表示為式(1):
其中f(i→j)為節(jié)點i和節(jié)點j之間的相似度,本文中使用余弦相似度(Cosine)[19]作為相似度計算方式,如式(2)所示:
如果兩個節(jié)點的轉(zhuǎn)移概率大于0,則表示這兩個節(jié)點之間存在關(guān)系,為了避免自身轉(zhuǎn)移我們設(shè)置f(i→j)=0。值得注意的是一般情況下p(i→j)不一定等于p(j→i)。
以圖G為基礎(chǔ),句子si的打分c(si)可以由其他和si有關(guān)聯(lián)的句子推導(dǎo)出,在PageRank算法中它可以以遞歸的方式表現(xiàn)出來,如式(3)所示:
在計算過程中μ是一個阻尼因子,在PageRank算法中常被設(shè)置為0.85[18]。所有句子的初始值都設(shè)為1,算法采用迭代的方式直至收斂[14]。
當?shù)Y(jié)束,所有句子的打分被確定后,排序值高的句子我們就認為具有較高的信息量且與主題相關(guān)度高,并選擇這樣的句子作為構(gòu)建摘要的句子。
我們提出一種新的基于雙層圖模型的PageR-ank框架用來將主題信息和情感信息融合到文本情感摘要中。在我們的雙層圖模型中,上層為句子間的情感聯(lián)系,下層為通過基于主題的PageRank模型計算得到的句子間的主題聯(lián)系。圖1描述了基于雙層圖模型的PageRank框架。
圖1 雙層圖模型的PageRank
上述雙層圖模型可以表示為圖G′=〈VS,E,Θ〉,其中VS={si}代表句子集合,E={eij|si,sj∈Vs}代表句子與句子間的關(guān)系,Θ代表句子與句子間的情感聯(lián)系。
我們在句子與句子間的轉(zhuǎn)移概率上增加一個因子θij用來代表句子si和sj間的情感聯(lián)系。因此,新的句子si和sj間的轉(zhuǎn)移概率被定義為式(4):
計算句子i和j的轉(zhuǎn)移概率的關(guān)鍵在于計算i和j的相似度f(i→j,θij),而直接計算f(i→j,θij)一般比較困難,因此我們通過擴展每個句子的特征向量的方式計算f(i→j,θij)。通常的,句子是基于Unigram或者Bigram構(gòu)建其特征向量。為了加入情感因子θij,我們先判斷每個句子是否帶有情感,如果帶有情感則為該句的特征向量加入一個opinion特征。所加入的opinion特征值λ大于0。我們通過詞計數(shù)(Term-counting)的方式判斷一句話是否為情感句。具體來講,如果句子s包含情感詞,我們認為該句帶有情感;如果s不包含情感詞時,我們認為該句沒有情感。通過為情感句加入opinion特征可以使兩個帶有情感的句子聯(lián)系更加緊密,同時兩個同樣極性的情感句i和j的相似度f(i→j,θij)也隨之增大。在判斷句子是否包含情感詞時,本文使用實驗室已經(jīng)收集并標注好的中文情感詞集,正面情感詞數(shù)量為846個,負面情感詞數(shù)量為809個。
本文收集了15個主題的產(chǎn)品評論,每個主題有200篇評論,并由3人對其進行標注。語料中的每一個語句使用基于詞的Unigram構(gòu)建的特征向量表示。我們把人工標注的結(jié)果作為評價標準,評測的工具是ROUGE-1.5.5[19]。在以下的實驗結(jié)果中,分別給出了基于ROUGE-1、ROUGE-2、ROUGE-W指標的結(jié)果。其中ROUGE-N中的N表示n元語法,ROUGE-N的值是指候選的摘要與參考的摘要集合之間的n元語法召回率。ROUGEW的含義為加權(quán)最長公共子序列。在實驗中,首先比較了不同文本情感摘要方法的效果,其次分析了抽取的不同數(shù)量的句子對文本情感摘要結(jié)果的影響,最后分析情感特征opinion的特征值也即情感信息對文本情感摘要結(jié)果的影響。
由于情感文本摘要任務(wù)還比較新,相關(guān)工作比較少。因此,本文只是和基于主題的PageRank算法及隨機抽取的方法進行比較(表2)。
·Random:在每個主題中隨機選擇5句作為該主題的文本情感摘要,由于結(jié)果存在隨機性,所報告的結(jié)果是重復(fù)20次的平均值。該Random結(jié)果作為本實驗的基準系統(tǒng)(Baseline)。
·PageRank:傳統(tǒng)的基于主題的PageRank算法。通常情況下,PageRank算法可以在文本摘要中獲得比較好的效果。
·Bi-Rank:本文提出的融合主題和情感信息的基于雙層圖模型的PageRank算法。
·Human:人工抽取每個主題的文本情感摘要的結(jié)果。
表2 四種方法的實驗結(jié)果
從實驗結(jié)果來看,由于沒有考慮句子間的主題相關(guān)性和情感信息,Random的實驗效果不理想。PageRank考慮到了句子間的主題相關(guān)性,由ROUGE-1,ROUGE-2和ROUGE-W的實驗結(jié)果與Random比具有明顯的提升。而我們的方法中,既考慮了句子間的主題相關(guān)性又考慮句子的情感信息,實驗效果比PageRank也有明顯的提高并且雖然在ROUGE-2和ROUGE-W這兩列中比人工標注差,但在ROUGE-1上接近了人工標注的效果。表2的結(jié)果也證實了文本中的句子不僅具有主題相關(guān)性,并且句子間的主題相關(guān)性具有一定的聯(lián)系。而且在摘要中我們不能忽略情感這一重要信息。
從上面的例子可以看出,Bi-Rank抽取的句子與人工抽取的結(jié)果最相近,同時也最能表達用戶的情感信息。
圖3給出了opinion特征值在不同取值時的實驗結(jié)果。在圖3中給出當特征值達到6時,實驗效果最好。在評論中人們的情感是一個很強烈的信息,我們不能忽略它在摘要中的重要作用,但是也不能只考慮情感信息。特征值6表明我們將情感信息擺在了一個重要的位置,但其在文本情感摘要方法中需結(jié)合主題信息一同起作用(即也不能讓其起主導(dǎo)作用,特征值不能過高)。
圖3 不同的特征值的實驗結(jié)果
本文提出了一種新的基于情感信息的PageR-ank的方法,應(yīng)用于中文的多文檔文本情感摘要任務(wù)。該方法的特色在于其同時充分考慮句子之間的主題相關(guān)性和情感相關(guān)性。實驗結(jié)果表明該方法取得了一定的效果,能夠得到具有一定總結(jié)性的摘要。在接下去的工作中我們將收集更多其他領(lǐng)域的評論語料用于測試本文的方法,并且我們將考慮如何把情感信息更好的融合到PageRank中,使其效果有進一步提升。
[1] Hu M,Liu B.Mining and Summarizing Customer Reviews[C]//Proceedings of SIGKDD-04.2004.
[2] Titov I,Mc-donald R.A Joint Model of Text and Aspect Ratings for Sentiment Summarization[C]//Proceedings of ACL-08.2008.
[3] Carenini Giuseppe,Ng Raymond,Pauls Adam.Multi-Document Summarization of Evaluative Text[C]//Proceedings of EACL-06,2006:305-312.
[4] Carenini Giuseppe,Cheung Jackie Chi Kit.Extractive vs.NLG-based Abstractive Summarization of Evaluative Text:The Effect of Corpus Controversiality[C]//Proceedings of the 5th International Natural Language Generation Conference(INLG),2008:33-41.
[5] Kevin Lerman,Sasha Blair-Goldensohn,Ryan McDonald.Sentiment Summarization:Evaluating and Learning User Preferences[C]//Proceedings of EACL-09,2009:514-522.
[6] Kevin Lerman,McDonald Ryan.Contrastive Summarization:An Experiment with Consumer Reviews[C]//Proceedings of Human Language Technologies:the 2009Annual Conference of the North American Chapter of the Association for Computational Linguistics(NAACL-HLT),Companion Volume:short Papers,2009:113-116.
[7] Radev D,Jing H,Stys M,et al.Centroid-based Summarization of Multiple Documents[J].Information Processing and Management.2004(40):919-938.
[8] Wan X.Using Bilingual Information for Cross-Language Document Summarization[C]//Proceedings of ACL-11.2011.
[9] Hitoshi Nishikawa,Takaaki Hasegawa,Yoshihiro Matsuo,Genichiro Kikui.Opinion summarization with integer linear programming formulation for sentence extraction and ordering[C]//Proceedings of COLING.2010.
[10] Wang D,Liu Y.A Pilot Study of Opinion Summarization in Conversations[C]//Proceedings of ACL-11.2011.
[11] Ganesan K,Zhai C,Han J.Opinosis:A Graph-Based Approach to Abstractive Summarization of Highly Redundant Opinions[C]//Proceedings of COLING-2008.2008.
[12] Lin,C.Training a Selection Function for Extraction[C]//Proceedings of CIKM-99.1999.
[13] Celikyilmaz A,Hakkani-Tur D.Discovery of Topically Coherent Sentences for Extractive Summarization[C]//Proceedings of ACL-11.2011.
[14] Wan X,Yang J.Multi-document Summarization using Cluster-based Link Analysis[C]//Proceedings of SIGIR-08.2008.
[15] Pang B,Lee L,Vaithyanathan S.Thumbs up?Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02.2002.
[16] Li S,Huang C,Zhou G,et al.Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification[C]//Proceedings of ACL-10.2010.
[17] Li F,Tang Y,Huang M,et al.Answering Opinion Questions with Random Walks on Graphs[C]//Proceedings of ACL-10.2010.
[18] Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking:Bringing Order to the Web[J].Technical Report,Stanford Digital Libraries.1998.
[19] Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrival[M].ACM Press and Addison Wesley.1999.
[20] Lin C.ROUGE:a Package for Automatic Evaluation of Summaries[C]//Proceedings of ACL-04Workshop on Text Summarization Branches Out.2004.
[21] 張瑾,王小磊,許洪波.自動文摘評價方法總述[J].中文信息學(xué)報,2008,2(3):81-88.