摘要:機(jī)器學(xué)習(xí)方法是識別評論情感傾向的有效方法之一。為了使機(jī)器學(xué)習(xí)的方法得到一個滿意的結(jié)果,合適的情感詞權(quán)值是至關(guān)重要的?;谥形脑~語的語義相似度原理,該文提出了一種逐步預(yù)測每個情感詞權(quán)值的方法。實驗說明了,利用我們計算的權(quán)值,結(jié)合TF-IDF公式,分類結(jié)果能相對地得到提高。
關(guān)鍵詞:權(quán)值;情感分類;機(jī)器學(xué)習(xí)
中圖分類號:TP3 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)12-2879-03
1 概述
網(wǎng)絡(luò)評論一直是人們表達(dá)感受的一種重要方式。而情感分類是這樣一種能夠區(qū)分正面和負(fù)面文本情感的技術(shù),它幫助潛在的消費者從各種各樣的評論中挖掘有關(guān)產(chǎn)品的信息,具有重要價值。
提高情感分類的效率和精度,主要有兩種方法,基于規(guī)則的方法和基于監(jiān)督學(xué)習(xí)的方法。這兩種方法都依賴于有效的詞匯集,雖然他們的使用方法不盡相同。作為監(jiān)督學(xué)習(xí)的一個例子 Turney [1] 只用了兩個種子詞語(“excellent”和“poor”)來決定句子的情感方向。在他的論文中,一篇評論的分類預(yù)測主要取決于論文中的詞語的情感傾向平均值。到目前為止,許多監(jiān)督分類的算法已經(jīng)被應(yīng)用于情感極性分類的工作中。在文獻(xiàn)[2] 中,Pang 等人采用了三種常用的機(jī)器學(xué)習(xí)方法(樸素貝葉斯,最大熵和支持向量機(jī))來判斷評論的褒貶與否。在他們的實驗中,SVM 方法在大多數(shù)的條件下都能獲得最佳的結(jié)果。在文獻(xiàn)[3] 中,Denecke 使用 SentiWordNet 作為詞典資源來分析多領(lǐng)域的觀點。結(jié)果顯示,機(jī)器學(xué)習(xí)的方法比基于規(guī)則的方法在跨領(lǐng)域情感分類上能取得更好的表現(xiàn)。與大多數(shù)研究只使用一種分類器的方法不同,F(xiàn)an Wen等人[4] 將多分類器運用到了情感分類中。實驗指出,AdaBoost 方法比 Bagging 和單分類器的方法能有更好的表現(xiàn)。
在這篇論文中,我們專注于處理中文評論。我們采用的情感詞語主要基于 HowNet [5] 發(fā)布的情感詞語集。利用這些情感詞語,Zhu Yanlan [6] 利用了語義相似度和語義相關(guān)場來判斷詞語的情感傾向。而在本文中,我們主要研究中文評論情感分類的情感詞語的權(quán)值計算。我們提出的算法對于高頻詞和低頻詞是不敏感的。
本文組織如下。在第二部分,我們進(jìn)行實驗分析不同詞頻的詞語的影響?;诘诙糠值姆治?,我們在第三部分提出了Step by Step算法。在第四部分,第三部分計算出的權(quán)值被用于中文酒店評論情感分類上。在第五個部分,我們做了總結(jié),并討論了未來的工作。
2 種子詞語影響的分析
2.1 計算詞語的情感權(quán)值
我們采用 [7] 中提出的語義相似度公式來計算詞語間的語義相似度。通常,一個詞語的情感權(quán)值同它與種子詞的語義關(guān)聯(lián)度有密切關(guān)系。[6] 提出了,一個詞語與褒貶種子詞的關(guān)系越密切,則它的褒貶語義傾向就越明顯。基于這個假設(shè),一個詞語的情感權(quán)值可以通過公式1 [6] 得到。
[SO-IR(w)=i=1MSimilarity(Key_pi,w)M-i=1NSimilarity(Key_ni,w)N] (1)
在這里[SO-IR(w)]是詞語[w]的情感權(quán)值,該值反映了該詞語的情感強(qiáng)度,[Key_p]代表褒義的種子詞,[M]代表褒義種子詞的數(shù)目,[Key_n]代表貶義的種子詞,[N]代表貶義種子詞的數(shù)目。[Similarity(key,w)]是詞語[key]和[w]通過 [7] 計算得出的相似度值。
2.2 選擇測試集
測試詞語為知網(wǎng)的詞語集,由兩組詞語組成。第一組包括知網(wǎng)中標(biāo)記為“良”或“莠”的那些指示情感傾向的詞語。該組包括3146個褒義詞和3299個貶義詞。第二個小組是第一個小組的子集。在這個小組中,人工移除了那些情感不明確的詞語。最后得到了2861個褒義詞和2923個貶義詞。
2.3 計算正確率
為了取得種子詞語,我們結(jié)合Yahoo的搜索功能進(jìn)行實驗。在每個小組中,我們重復(fù)如下的步驟。首先,我們獲取由Yahoo返回的每個單詞的hits數(shù)。然后,我們根據(jù)hits數(shù)對詞語進(jìn)行降序排列。再者,我們以一定比率得到種子詞匯集。最后,我們用公式1來計算每個詞語在每個測試集中的情感傾向值。如果值是負(fù)的,則被認(rèn)為是一個貶義詞,否則被認(rèn)為是褒義詞。
圖1顯示了實驗的結(jié)果。橫坐標(biāo)代表種子詞語的比例,而縱坐標(biāo)代表的是詞語情感傾向判斷的正確率。
圖1所示,正確率先是迅速的上升到超過90%的一個峰值,在比例不高于45%時始終保持著高正確率。隨后,正確率急速地下降到大概60%的低值。曲線開始于一個低值是由于沒有足夠的種子詞語用于判斷傾向。隨后的下降則反映了詞語由高頻到低頻的一種過渡。
由于詞語是根據(jù)頻率進(jìn)行排列的,我們將這些詞語分為兩組。一組主要包含高頻詞語,而另一組則包含低頻詞語。基于圖1,我們猜想高頻詞語主要體現(xiàn)了一種基本情感的表達(dá)。而低頻詞語則相反,它們主要是一種特殊的情感表達(dá)。通常詞頻越高,詞語同其它的褒義詞或貶義詞的關(guān)系越密切,則情感傾向越明顯。雖然如此,低頻詞語從某種程度上,仍然是對結(jié)果的一種補(bǔ)充和改進(jìn)。
怎樣權(quán)衡高頻詞和低頻詞的權(quán)值,對情感分類有著重要的影響。
3 Step by Step算法的實現(xiàn)
3.1 Step by Step算法步驟
基于以上的分析,我們提出了一種算法來計算情感詞語在情感分類中的權(quán)值??紤]到高頻詞和低頻詞的不同特性,我們的算法采用一種對詞頻不敏感的逐步遞進(jìn)的策略。算法步驟如下:
1)從搜索引擎獲取情感詞語的hits數(shù)并將他們按降序排列。
2)選擇高頻的一個詞語集合,賦予一個公共的默認(rèn)權(quán)值 。這些種子詞語必須包含有褒義詞和貶義詞。
3)利用公式1來計算在當(dāng)前的種子詞集下詞語的情感傾向和強(qiáng)度。
4)從非種子詞集中選擇一個詞頻最高的詞語,計算它的權(quán)值。然后將該詞加入到種子詞集中,同時,從非種子詞集中移除該詞。利用公式1來計算當(dāng)前種子詞集下詞語的語義傾向和強(qiáng)度。重復(fù)第 4 步,直到所有的語詞都被添加到種子詞集中。
在該算法中,詞語的權(quán)值計算來自于一個動態(tài)的種子詞集。當(dāng)計算高頻詞權(quán)值時,種子詞主要由高頻詞組成,結(jié)果能夠反映高頻詞語的特點。當(dāng)越來越多的低頻詞加入種子詞集時,低頻詞的特點則逐漸顯現(xiàn)。
3.2 基于當(dāng)前的公式
我們提出基于當(dāng)前值的公式來計算算法第4步中的權(quán)值。該公式主要基于當(dāng)前詞語與當(dāng)前種子詞集的相似度值。它的目標(biāo)是挖掘信息并預(yù)測權(quán)值。該公式描述如下:
[wi=Avgpi-AvgniAvgpi+Avgni] (2)
在這里,[wi]是詞語[wi]的權(quán)值,[Avgpi]是詞語[wi]和當(dāng)前的褒義種子詞集的平均相似度值,[Avgni]是[wi]和當(dāng)前的貶義種子詞集的平均相似度值。如果詞語與兩類詞集的平均相似度值相近,則它的情感傾向是不明顯的。反之,如果差異明顯,則該詞很可能具有強(qiáng)烈的情感傾向,理應(yīng)被賦予一個高的權(quán)值。
4 權(quán)值應(yīng)用
在獲得情感詞語的權(quán)值之后,我們將重點轉(zhuǎn)移到權(quán)值的應(yīng)用上。在這個部分,我們使用VSM來代表文本,并采用工具SVMlight來進(jìn)行情感傾向分類。我們將TF-IDF公式結(jié)合我們的權(quán)值以使之效果更好。在這種方案下,我們改進(jìn)了TF-IDF公式如下:
[w(i,j)=ni,j×witk∈djnk,j×wk×logDj:ti∈dj] (3)
在這里[w(i,j)]代表文本[dj]中的詞語[ti]的權(quán)值,[ni,j]代表文本[dj]中的詞語[ti]的頻數(shù),[wi]代表我們在第3部分中計算的詞語[ti]的權(quán)值。[D]代表訓(xùn)練集的數(shù)目,[j:ti∈dj]代表包含詞語[ti]的文本的數(shù)目。
實驗中,采用 [8] 中提到的譚松波搜集的中文酒店評論語料作為測試語料,該語料包含1000組褒義評論和1000組貶義評論。然后我們分別從褒義和貶義評論中選擇500組作為訓(xùn)練集,500組作為測試集。我們使用第2部分提到的測試集2作為語義詞典。
為了評估該語義傾向方法的效果,我們采用三個文本分類中常用的指標(biāo):準(zhǔn)確率、召回率和F值。為了比較,我們用四組方法來分類測試集合。在第一組中,我們設(shè)置所有詞語的權(quán)值為1,無論褒貶。在第二組中,我們使用TF-IDF計算出的權(quán)值。在第三組,我們應(yīng)用Step by Step算法和基于當(dāng)前的公式來計算特征權(quán)值。我們采用1%的詞語作為初始的種子詞以使更多的詞語權(quán)值能得到計算。同時,我們設(shè)置[α]的值為0.9,因為根據(jù)圖1,在1%的比率下正確率已經(jīng)超過了90%。結(jié)果如表1所示:
實驗結(jié)果顯示了,當(dāng)所有的權(quán)值都設(shè)為1時,實驗取得了最差的F值,只有78.65%。而采用Step by Step算法時,分類的準(zhǔn)確率和召回率都提高了,比最差的結(jié)果提高了2.62%。
5 總結(jié)與展望
這篇論文提出了一種計算基于選定的語義詞典的權(quán)值來進(jìn)行文本情感分類的算法。實驗說明該算法提高了情感分類的正確率。由于默認(rèn)的種子權(quán)值[α]和初始種子詞比率取決于相關(guān)的語義詞典,在未來的研究中,我們將會比較在不同的參數(shù)下算法的表現(xiàn),以探索參數(shù)和結(jié)果的內(nèi)在關(guān)系。
參考文獻(xiàn):
[1] P. D. Turney.Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C].40th Annual Meeting of the Association-for-Computational-Linguistics,2002:417-424.
[2] B. Pang,L. Lee.Shivakumar Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques[C].Conference on Empirical Methods in Natural Language Processing,2002:79-86.
[3] K. Denecke.Are SentiWordNet scores suited for multi-domain sentiment classification?[C].4th International Conference on Digital Information Management,2009:32-37.
[4] W. Fan,S. T. Sun,G. H. Song.Sentiment classification for Chinese netnews comments based on multiple classifiers integration[C].4th International Joint Conference on Computational Sciences and Optimization,2011:829-834.
[5] HowNet, HowNet’s Home Page. http://www.keenage.com/, 2012
[6] Y. L. Zhu, and J. Min.Semantic Orientation Computing Based on HowNet[J].Journal of Chinese Information Processing,2006,20(1):14-20.
[7] Q. Liu,S. J. Li.Word Similarity Computing Based on How-net[C].The 10th Chinese Lexical Semantics Workshop,2002
[8] S. B. Tan, Chinese Sentiment Mining Corpus-ChnSentiCorp.http://www.searchforum.org.cn/tansongbo/senti_corpus.jsp#1,2012.