吳 瓊,譚松波,張 剛,段洣毅,程學旗
(1. 中國科學院 計算技術研究所,北京 100190; 2. 中國科學院 研究生院,北京 100049)
近年來,隨著互聯(lián)網(wǎng)快速發(fā)展,論壇、博客等網(wǎng)絡交流平臺不斷涌現(xiàn),人們越來越習慣于在網(wǎng)上發(fā)表主觀性的言論,這些言論用于表達自己對于日常事件、產品、政策等的觀點和看法,這使得網(wǎng)上存在大量帶有情感傾向性的文本。那么如何對這些有主觀情感的文本進行分類,判斷其是正面還是負面,是持支持態(tài)度還是反對態(tài)度,這就引出了自然語言處理領域一個重要的研究方向——傾向性分析。該技術有很多實際應用,越來越引起廣泛關注(如文獻[1-6])。
作為傳統(tǒng)文本分類[8-10]的一個特殊分支,典型的監(jiān)督分類方法都適用于文本傾向性分析。然而,當訓練數(shù)據(jù)與測試數(shù)據(jù)不屬于同一個領域的時候,典型的分類方法的效果就變得很差。這是由于訓練域里有強烈傾向性的詞在測試域里不再有強烈傾向性,反之亦然。由此產生了跨領域傾向性分析問題(也稱為跨領域情感分類問題)[11-13]。隨著信息量的急速增加、新領域的不斷涌現(xiàn),人們需要在大量新領域里進行傾向性分析,這是個費時費力的事情。因此要盡量基于已經標注好的數(shù)據(jù)對新領域進行分析,這使得跨領域的傾向性分析具有重要意義。
跨領域傾向性分析是一個全新的研究領域,目前的研究工作還比較少?,F(xiàn)有的一些技術主要分為兩類:第一類需要在測試域標注少量數(shù)據(jù)來輔助訓練,如文獻[11]等;第二類在測試域不需要任何標注好的數(shù)據(jù),如文獻[12-13]等。本文主要針對應用更為廣泛的第二類情況。
為解決不需任何測試域輔助數(shù)據(jù)的傾向性分析問題,本文將文本的傾向性與圖排序算法結合,提出一種基于圖排序的跨領域傾向性分析算法。該算法為測試集中的每一個文本分配一個情感分,來表示該文本“支持”或“反對”的程度,然后利用源領域的準確標簽和目標領域的偽標簽來迭代計算該情感分,算法收斂時得到最終情感分,并據(jù)此判別目標領域測試數(shù)據(jù)的傾向性。得到傾向性判別結果后,為充分利用其中傾向性判斷較為準確的測試文本來提高整個測試集傾向性分析的精度,我們將這些較準確的測試文本作為“種子”,進一步通過EM算法迭代進行跨領域傾向性分析。針對以上部分,我們分別進行了實驗。實驗結果表明,本文提出的方法能大幅度提高跨領域傾向性分析的精度。
傾向性分析的目的是判斷文本的情感類別,即該文本對某一主題是持支持還是反對態(tài)度。根據(jù)實現(xiàn)的方法可分為基于詞的傾向性分析和基于機器學習的傾向性分析。
2.1.1 基于詞的傾向性分析
詞為構成文本的單元,因此可以先判斷詞的傾向性,再根據(jù)此信息來判斷文本的傾向性。
Turney[15]提出了PMI-IR方法,利用詞語與具有明顯語義傾向性的種子詞語之間互信息關系來判別詞語的傾向性;Hatzivassiloglou等[16]認為形容詞的傾向性受連接它們的連接詞約束,他們提出一種四步法的監(jiān)督算法來判斷形容詞的傾向性。
得出詞的傾向性后,可以通過統(tǒng)計具有正面傾向性和負面傾向性的詞語數(shù)目來判斷文本的傾向性。Turney[17]提出一個無監(jiān)督學習方法,求出文本中所有短語的傾向性的平均值,根據(jù)其正負來判斷文本的傾向性。
2.1.2 基于機器學習的傾向性分析
文本傾向性分析可以看作是一種特殊的分類,即根據(jù)文章中對某一主題的觀點(支持或反對、高興或悲傷等)對文本進行分類,因此可將機器學習算法用于傾向性分析。B.Pang等[18]以電影評論作為語料,將三個典型的機器學習方法用于傾向性分析,實驗結果表明機器學習方法對傾向性分析效果很好。H.Cui等[19]用不同的機器學習算法對大規(guī)模在線產品評論進行實驗,實驗結果表明帶有高階n元特征的分類器可以達到更好的性能。
本文即在機器學習方法的基礎上進行跨領域傾向性分析。
移植學習是指利用其他領域或時間段的數(shù)據(jù)來輔助當前學習。作為機器學習領域一個重要研究方向,有許多學者對此進行研究并產生出很多算法(如文獻[20-22])。Daume III. H等[20]使用一個特有的高斯模型研究統(tǒng)計自然語言處理領域的移植學習。Dikan Xing等[21]提出一個名為“橋優(yōu)化”的算法來解決移植學習問題。Jing Jiang等[22]提出一個兩階段法來解決移植學習問題。其算法的基本思想是:第一階段,即泛化階段,得到在各領域之間通用的一些特征;第二階段,即適應階段,找出特定于目標域的有用的特征。
然而,以上工作均沒有將領域移植用于傾向性分析領域,本文將提出算法,解決跨領域傾向性分析問題。
我們定義跨領域傾向性分析問題如下:
測試集DU= {d1,…,dn}和訓練集DL={dn+1,…,dn+m},其中di表示第i個文本的向量,每一個文本應該有一個來自類別集C={支持, 反對}中的標簽。每一個測試文本di∈DU(i=1,…,n) 沒有被標注, 每一個訓練文本dj∈DL(j=n+1,…,n+m) 已經被標注了一個類別C中的標簽。假設測試數(shù)據(jù)集DU和訓練數(shù)據(jù)集DL來自相關但不相同的領域。本算法的目標是利用另一個領域的訓練數(shù)據(jù)集DL來對測試數(shù)據(jù)集中的每一個文本di∈DU(i=1,…,n)分配一個C中的標簽,使得準確率最高。
本算法基于以下前提:
(1) 用WL表示舊領域的詞空間,WU表示新領域的詞空間,且WL∩WU≠Φ。
(2) 如果一個文本既存在于訓練集中,又存在于測試集中,則標簽一致。
圖排序算法(如PageRank[14])的思想是:圖中與其他重要節(jié)點緊密相聯(lián)的節(jié)點也很重要。該算法已成功應用于很多領域?;趫D排序思想,我們認為如果一個文本與一些具有支持(反對)態(tài)度的文本緊密聯(lián)系,則它也很可能持支持(反對)態(tài)度,這也是鄰域學習思想。
因此,我們將訓練集和測試集看作一個圖,每一個文本為圖中的一個節(jié)點。給每一個節(jié)點一個表示其情感類別的分數(shù),稱其為情感分。本文提出的算法將文本情感類別間的關系與graph-ranking算法結合起來。對于每一個待標注文本,算法通過其在訓練域和測試域的鄰域來計算它的情感分,并用一個統(tǒng)一的公式進行迭代計算,當算法收斂時,得到待標注文本的最終情感分。如果一個節(jié)點的情感分在-1到0之間,表示這個節(jié)點所代表的文本是持反對態(tài)度,情感分越接近于-1,此文本越傾向于反對態(tài)度;如果一個節(jié)點的情感分在0到1之間,表示這個節(jié)點所代表的文本是持支持態(tài)度,情感分越接近于1,此文本越傾向于支持態(tài)度。
3.2.1 算法初始化
(1)
3.2.2 情感分計算策略
得到初始情感分向量S0后,即可利用訓練域的準確情感分和測試域的偽情感分來迭代計算測試集的最終情感分。
1) 利用訓練集的準確情感分來計算測試集的情感分
建立一個圖模型,節(jié)點表示DL和DU中的文本,邊表示文本間的內容相似度。內容相似度此處用余弦相似度來計算。我們使用一個聯(lián)接矩陣U來表示DU和DL間的相似矩陣。U=[Uij]n×m定義如下:
(2)
(3)
最后,用di鄰居們的分數(shù)來計算它的情感分,公式如下所示:
(4)
2) 利用測試集的“偽”情感分來計算測試集的情感分
(5)
3.2.3 算法迭代過程
本算法要同時利用訓練域和測試域的信息來對測試域的文本進行標注,因此綜合公式(4)、(5),得到迭代計算測試數(shù)據(jù)集的情感分的公式如下所示:
(6)
其中α+β=1,α和β分別表示訓練域和測試域對最終情感分的貢獻大小。為保證算法收斂,算法每迭代一次都需要將S歸一化(如公式(1)),迭代計算情感分S并歸一化,直到收斂為止。
得到基于圖模型的跨領域傾向性判別結果后,我們充分利用其中傾向性判斷較為準確的測試文本來提高整個測試集傾向性分析的精度,進一步通過EM算法迭代進行跨領域傾向性分析。
EM算法[23]是進行極大似然估計的一種有效方法。之所以命名為EM,是因為算法的每一次迭代包括兩步:第一步求期望(Expectation Step),稱為E步;第二步求極大值(Maximization Step),稱為M步。它是一種迭代方法,每一次迭代都保證似然函數(shù)值增加,最終收斂于一個局部極大值。然而,它又不是直接對復雜的后驗分布求極大化,而是在觀察數(shù)據(jù)的基礎上添加一些“種子數(shù)據(jù)”,從而簡化計算并完成一系列簡單的極大化模擬。
我們基于EM算法的思想,從上一節(jié)算法的測試集傾向性分析最終結果中選出一部分分類最準的文本作為“種子”,保持這些“種子”文本的類別不變,其余測試集中的文本根據(jù)與這些“種子”之間的相似程度進行迭代計算,如果一個文本與一些具有支持(反對)態(tài)度的“種子”文本緊密聯(lián)系,則它也很可能持支持(反對)態(tài)度,算法收斂時,得到測試集的最終傾向性分析結果。
具體算法如下:
第一步,挑選種子文本。將上一節(jié)算法得到的最終測試集情感分由高到低進行排序,分別將排序列表中最前和最后P/2個文本作為種子(其中P為待選種子占整個測試集文本數(shù)的百分比)。其中前P/2個文本是最有可能持支持態(tài)度的文本,最后P/2個文本是最有可能持反對態(tài)度的文本。
第二步,情感分初始化。根據(jù)上一節(jié)中的判斷結果,將測試集中每個文本的情感分初始化,如果它分配到的標簽是“反對”,則將它的情感分賦為-1;如果它分配到的標簽是“支持”,則將它的情感分賦為1。然后將這些情感分利用公式(1)進行歸一化。
第三步,EM迭代計算。在上一節(jié)中,我們已經得到一個DU在測試域中的鄰居矩陣M=[Mij]n×K以及利用測試域的情感分來計算測試集的情感分公式(5)。此時,保持種子文本的情感分不變,其余文本由公式(5)根據(jù)其鄰域的情感分來計算最終情感分。同樣,為保證算法收斂,算法每迭代一次都需要將除種子以外的文本的情感分歸一化(公式(1)),使得正的情感分之和為1,負的情感分之和為-1。迭代計算情感分S并歸一化,直到算法收斂為止。
第四步,判斷文本傾向性。如果文本的情感分在-1到0之間,表示它持反對態(tài)度;如果一個文本的情感分在0到1之間,表示它持支持態(tài)度。
目前尚未有傾向性分析的中文文本語料,我們從互聯(lián)網(wǎng)上的評論中整理出三個領域的中文數(shù)據(jù)集,分別是:電子評論(來源于:http://detail.zol.com.cn/),財經評論(來源于:http://blog.sohu.com/stock/)以及酒店評論(來源于:http://www.ctrip.com/)。然后由專家將這些數(shù)據(jù)集標注為“支持”或“反對”。數(shù)據(jù)集的具體組成如表1所示(其中“詞典長度”表示數(shù)據(jù)集中不同詞的數(shù)量):
表1 數(shù)據(jù)集構成
我們對上述數(shù)據(jù)集進行以下預處理:首先,我們使用中文分詞工具ICTCLAS(http://ictclas.org/)來對這些中文評論進行分詞,然后,用向量空間模型來表示文本。在該模型中,每個文本轉化為詞空間中的詞袋表示,詞的權重用該詞在文本中出現(xiàn)的頻率來計算。
在傾向性分析中,特征選擇方法則需要選出具有語義傾向的詞語作為特征詞。我們通過詞性來判斷詞的語義傾向性。在漢語中,具有語義傾向的詞語的詞性有12種[24],其中一些嘆詞等雖然也具有傾向性,但在評論中出現(xiàn)的次數(shù)非常少,因此本文沒有將它們作為特征提取出來,而是選擇經常出現(xiàn)的具有以下4種詞性的詞作為特征,如表2所示:
表2 具有傾向性的詞語的詞性構成
本文用LibSVM[7]作為Baseline算法,使用其線性核,并將所有參數(shù)設為缺省值。另外,將本文算法與結構對應學習算法(記作SCL)[12]進行比較分析。SCL算法是一種新的跨領域傾向性分析算法。該算法思想為:找出在不同領域中頻繁出現(xiàn)的情感特征作為樞紐特征,然后通過建模來獲得非樞紐特征與樞紐特征之間的關聯(lián)。文獻[12]中的最優(yōu)參數(shù)設置,本實驗中,我們使用100個樞紐特征。本文使用精度(Accuracy)作為傾向性分析系統(tǒng)的評價標準。
我們提出的算法中有兩個參數(shù):K和α(β可以由1-α計算得出)。將K設為150,表示為每一個文本求出150個鄰居;將α設為0.7,表示訓練域對情感分的貢獻比測試域略大。同時,我們認為對于di∈DU(i=1,…n),如果連續(xù)兩步計算得到的情感分si的變化量低于一個給定的閥值則該算法收斂,本文設定此閥值為0.000 01。另外,在實驗結果中,我們將基于圖排序模型的跨領域傾向性分析算法記作GraphOA,將基于EM思想的跨領域傾向性分析方法記作EMOA。
表3顯示了將LibSVM用于傾向性分析時,在特征選擇前、后的精度:
表3 特征選擇前后的傾向性分析精度
表4顯示了當進行跨領域傾向性分析時,LibSVM、SCL以及基于圖排序的跨領域傾向性分析算法(GraphOA)的精度,其中我們的算法用LibSVM分類器進行初始化。
在GraphOA的基礎上,我們又進行了基于EM思想的跨領域傾向性分析方法(EMOA),其中根據(jù)待選種子占整個測試集文本數(shù)的百分比P分別為1%、5%、10%、20%而做了四組實驗,實驗結果如表5所示。
表4 跨領域傾向性分析時不同算法性能比較
表5 不同取值P時EMOA算法精度比較
由表3可以看出,本文采用的面向傾向性分析的特征選擇方法可以提高文本傾向性分析的精度,特征選擇后的平均精度提高了1.62%,說明我們的特征選擇方法對于傾向性分析問題是適用的。
由表4可以看出,基于圖排序的跨領域傾向性分析算法大幅度地提高了跨領域傾向性分析的精度。其中第2列是LibSVM的精度,第4列為用LibSVM初始化后本算法的精度,對比可見,我們算法的精度均高于LibSVM的精度,平均精度提高了11.9%。精度上如此大幅度的提高表明我們的算法對于跨領域傾向性分析問題非常有效。
表4中第3列為SCL算法的精度,總體上說,我們對于SCL算法的實驗結果與文獻[12]中結果基本一致。SCL算法的平均精度比LibSVM高,這證明SCL算法對于跨領域傾向性分析問題是有效的。然而從表中可以看出,我們提出的算法的精度優(yōu)于SCL算法。分析其原因,是因為以下兩點:第一,SCL算法本質上是基于詞的共現(xiàn)(窗口大小為整篇文本),因此它很容易被低頻詞及數(shù)據(jù)集大小所影響。第二,SCL算法的樞紐特征是完全由領域專家選定的,因此樞紐特征選擇的質量會影響SCL算法的性能。
表5顯示基于EM思想的方法可以進一步提高跨領域傾向性分析的精度。當選取的種子數(shù)超過測試集的5%時,基于EM思想的跨領域傾向性分析方法的精度就開始比GraphOA高,并隨著種子百分比的增大而進一步提高,當P取20%時,基于EM的方法比基于圖排序的跨領域傾向性分析算法的平均精度提高了1.63%。這說明基于EM思想的算法對于跨領域傾向性分析問題是十分有效的。
本文提出一種跨領域傾向性分析算法,它將文本的情感傾向性與圖排序方法結合起來進行跨領域的傾向性分析。在得到迭代最終結果后,利用其中傾向性判斷較為準確的測試文本來提高整個測試集傾向性分析的精度,我們將這些較準確的測試文本作為“種子”,進一步通過EM算法迭代進行跨領域傾向性分析。我們針對三個領域相關的情感數(shù)據(jù)集檢驗本文提出的算法。實驗結果表明,我們的算法可以大幅度地提高跨領域傾向性分析的精度。
[1] 胡熠,陸汝占,李學寧,等.基于語言建模的文本情感分類研究[J].計算機研究與發(fā)展,2007, 44(9): 1469-1475.
[2] 姚天昉,婁德成.漢語語句主題語義傾向分析方法的研究[J].中文信息學報,2007, 21(5): 73-79.
[3] 唐慧豐,譚松波,程學旗.監(jiān)督學習方法在語氣挖掘中的應用研究[J].中文信息學報,2007,21(6): 88-94.
[4] 趙軍, 許洪波, 黃萱菁, 譚松波, 劉康, 張奇.中文傾向性分析評測技術報告[C]//第一屆中文傾向性分析評測會議 (The First Chinese Opinion Analysis Evaluation). COAE, 2008.
[5] Weifu Du, Songbo Tan. An Iterative Reinforcement Approach for Fine-Grained Opinion Mining[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, 2009: 486-493.
[6] Huifeng Tang, Songbo Tan and Xueqi Cheng. A Survey on Sentiment Detection of Reviews. Expert Systems With Applications[J]. Elsevier. 2009, 36(7): 10760-10773.
[7] Chang CC, Lin CJ. LIBSVM: a library for support vector machines. 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[8] Songbo Tan, Xueqi Cheng, Moustafa M. Ghanem, Bin Wang, Hongbo Xu. A Novel Refinement Approach for Text Categorization[C]//Proceedings of the 14thACM international conference on Information and knowledge management. Bremen, Germany, 2005:469-476.
[9] Songbo Tan. An Effective Refinement Strategy for KNN Text Classifier. Expert Systems With Applications[J]. Elsevier. 2006, 30(2): 290-298.
[10] Tan S. B. Neighbor-weighted K-nearest neighbor for unbalanced text corpus[J]. Expert Systems with Applications. 2005, 28: 667-671.
[11] John Blitzer, Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification[C]//Proceedings of the 45thAnnual Meeting of the Association of Computational Linguistics. Prague. 2007:440-447.
[12] Songbo Tan, Xueqi Cheng, Yuefen Wang and Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis[C]//31stEuropean Conference on Information Retrieval. Springer Berlin: Heidelberg, 2009: 337-349.
[13] Songbo Tan, Gaowei Wu, Huifeng Tang and Xueqi Cheng. A Novel Scheme for Domain-transfer Problem in the context of Sentiment Analysis[C]//Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, 2007:979-982.
[14] S. Brin, L. Page, R. Motwami, and T. Winograd, The PageRank Citation Ranking: Bringing Order to the Web[R]. Stanford, CA: Computer Science Department, Stanford University, 1999.
[15] Turney, P.D.Mining the Web for synonyms: PMI-IR versus LSA on TOEFL[C]//Proceedings of the Twelfth European Conference on Machine Learning. Berlin: Springer-Verlag., 2001:491-502.
[16] Vasileios Hatzivassiloglou, Kathleen R. McKeown. Predicting the Semantic Orientation of Adjectives[C]//Proceedings of the 35thAnnual Meeting of the Association for Computational Linguistics and the 8thConference of the European Chapter of the ACL. New Brunswick: NJ, 1997: 174-181.
[17] Turney Peter. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40thAnnual Meeting of the Association for Computational Linguistics. Philadelphila, USA: ACL, 2002: 417-424.
[18] B. Pang, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP. Philadelphia, USA: ACL, 2002:79-86.
[19] H. Cui, V. Mittal, and M. Datar. 2006. Comparative experiments on sentiment classification for online product reviews[C]//AAAI. Boston, USA, 2006:1265-1270.
[20] Daume III, H. and Marcu, D. Domain adaptation for statistical classifiers[J]. Journal of Artificial Intelligence Research, 2006, 26: 101-126.
[21] Dikan Xing, Wenyuan Dai, Gui-Rong Xue, and Yong Yu. Bridged refinement for transfer learning[C]//PKDD. Warsaw, Porland, 2007:324-335.
[22] Jing Jiang, ChengXiang Zhai. A Two-Stage Approach to Domain Adaptation for Statistical Classifiers[C]//CIKM. Lisbon, Portugal, 2007:401-410.
[23] Despster, A. P., Laird, N. M., Rubin, D. B. Maximum likelihood from incomplete data via the EM algorithm[J]. Royal Stat Soc. B. 1977,39(1): 1-38.
[24] 王治敏,朱學鋒,俞士汶.基于現(xiàn)代漢語語法信息詞典的詞語情感評價研究[J].Computational Linguistics and Chinese Language Processing, 2005, 10(4): 581-592.