謝法舉+劉臣+唐莉
摘 要:從在線評(píng)論情感極性以及情感強(qiáng)度兩方面考慮,與此同時(shí),對(duì)在線評(píng)論情感極性從粒度即細(xì)粒度和粗粒度兩方面進(jìn)行情感分類。對(duì)在線評(píng)論情感進(jìn)行分析,有利于消費(fèi)者的購買決策,也有利于商家制定營(yíng)銷戰(zhàn)略。討論了情感分析的現(xiàn)有不足以及面臨的挑戰(zhàn)。
關(guān)鍵詞:情感分析;情感強(qiáng)度;細(xì)粒度;粗粒度;情感極性
DOIDOI:10.11907/rjdk.173102
中圖分類號(hào):TP3-05
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):1672-7800(2018)002-0001-04
1 在線文本情感分析概述
文本情感分析又稱觀點(diǎn)挖掘,它是依據(jù)計(jì)算機(jī)等先進(jìn)技術(shù)對(duì)有關(guān)新聞資料、社會(huì)媒體評(píng)論的主觀性、觀點(diǎn)、情緒以及極性的提取、分析、處理、歸納,對(duì)文本的情感傾向性作出預(yù)知判斷的一種技術(shù)。例如:這款手機(jī)外觀很漂亮。該句子表達(dá)的是積極性觀點(diǎn)。在句子中,“外觀”作為特征詞,對(duì)應(yīng)的情感詞為“漂亮”,那么“外觀”和“漂亮”是一對(duì)特征觀點(diǎn)對(duì),從觀點(diǎn)詞中可以看出該句子的情感屬于積極情感。文本情感分析包括文本情感極性分析和文本情感極性強(qiáng)度分析。情感極性分析主要目的是為了識(shí)別主觀文本情感,文本情感強(qiáng)度分析主要是為了識(shí)別句子所表達(dá)情感的強(qiáng)烈程度。
1.1 文本情感分析系統(tǒng)的基本框架
圖1描述了文本情感分析的基本框架:①從網(wǎng)絡(luò)上抓取相關(guān)評(píng)論;②對(duì)相關(guān)評(píng)論進(jìn)行預(yù)處理;③對(duì)處理后的評(píng)論進(jìn)行特征抽??;④特征處理以及特征觀點(diǎn)對(duì)識(shí)別;⑤進(jìn)行情感判斷。
1.2 文本情感分析的主要研究方法
常用的文本情感分析方法見表1。人的情感總是復(fù)雜多變的,在學(xué)術(shù)界對(duì)于情感分類目前還沒有統(tǒng)一的標(biāo)準(zhǔn)。雖然前人的劃分沒有統(tǒng)一標(biāo)準(zhǔn),但是前人的工作還是給出了許多指導(dǎo)性幫助。
Hatzivassiloglou等[1]從語料庫華爾街日?qǐng)?bào)中挖掘大量形容詞性的評(píng)價(jià)詞語。Tong等[2]通過人工抽取與影評(píng)相關(guān)的詞匯(great acting、uneven editing)進(jìn)行情感極性(positive或negative)標(biāo)記后建立專門的情感詞典。Katrina等[3]使用了由Andrew提出的最基本的情感本體(該本體定義了38個(gè)情感類別),在此基礎(chǔ)上構(gòu)造出更復(fù)雜的情感組合。Riloff等[4]通過人工選取種子評(píng)價(jià)詞語與規(guī)則模塊,使用迭代的方法對(duì)名詞性評(píng)價(jià)詞語進(jìn)行提取。LIU B等[5]開發(fā)了一種將對(duì)產(chǎn)品各部分用戶意見可視化顯示出來的系統(tǒng),使產(chǎn)品之間比較時(shí),各部分優(yōu)劣一目了然,極大方便用戶選購。薛麗敏等[6]提出中文文本情感傾向性五元模型,即情感傾向性觀點(diǎn)持有者、傾向性來源、傾向性指定、傾向性立場(chǎng)以及傾向性種類5個(gè)方面描述情感傾向性的概念。在一定條件下提高情感傾向性判斷的精度。文本情感極性分析可以從文本粒度分析即細(xì)粒度和粗粒度兩方面進(jìn)行。
2 細(xì)粒度情感分析
2.1 提取相關(guān)屬性
一個(gè)產(chǎn)品具備多個(gè)不同的屬性,屬性是指產(chǎn)品某方面的一些功能或者性質(zhì),分為顯性屬性和隱性屬性。顯性屬性是指在產(chǎn)品評(píng)論中能夠直接獲取與產(chǎn)品相關(guān)的功能或者性能。隱性屬性是指需要根據(jù)上下文判別,其特征不直接出現(xiàn)在文本中。
提取產(chǎn)品屬性可以分為兩種方法:人工定義方法與自動(dòng)提取方法(見表2)。人工定義產(chǎn)品屬性,需要產(chǎn)品領(lǐng)域的專家參與,因此可移植性較差。自動(dòng)提取的方法結(jié)構(gòu)簡(jiǎn)單便于實(shí)現(xiàn),因此具備良好的可移植性,自動(dòng)提取產(chǎn)品屬性不需要進(jìn)行大量的標(biāo)注語料庫作為訓(xùn)練集,因此有較好適應(yīng)性,可用于其它產(chǎn)品。
關(guān)于手機(jī)的屬性與評(píng)價(jià)短語詞語抽取結(jié)果,在試驗(yàn)中筆者發(fā)現(xiàn)用戶關(guān)注的屬性主要集中在“質(zhì)量”、“屏幕”、“價(jià)格”、“性價(jià)比”、“電池”等幾個(gè)主要特征層面。表3為關(guān)于手機(jī)的屬性與評(píng)價(jià)短語。
2.2 情感詞提取
情感詞是指一句話中帶有情感傾向的詞語,對(duì)于情感詞提取也有兩種方法:人工定義方法與自動(dòng)提取方法(見表4)。
3 粗粒度情感分析
3.1 基于自然語言處理(NLP)方法
基于自然語言處理(NLP)的方法,通常采用空間向量表示文本,然后采用機(jī)器學(xué)習(xí)方法識(shí)別或者判斷情感類別。這種方法大致流程為:①首先對(duì)于文檔進(jìn)行預(yù)處理;②選擇相應(yīng)的特征;③對(duì)特征進(jìn)行降維處理;④計(jì)算相應(yīng)特征的權(quán)重;⑤采用分類器處理;⑥最終得到相應(yīng)的情感輸出。
3.1.1 相應(yīng)文檔處理
根據(jù)標(biāo)點(diǎn)符號(hào)對(duì)評(píng)論語料進(jìn)行分句,摒棄一些使用不規(guī)范甚至根本不使用的標(biāo)點(diǎn)符號(hào)。對(duì)相應(yīng)文檔進(jìn)行分詞處理,常用的中文分詞工具有jieba分詞(我/r來到/v北京/ns 清華大學(xué)/nt);中科院的ictclas4j分詞(中國科學(xué)院/n 計(jì)算/n 技術(shù)/n 研究所/n 在/c 多年/m 研究/n 基礎(chǔ)/a 上/f ,/w 耗時(shí)/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 漢語/n 詞法/n 分析/v 系統(tǒng)/a)等,利用POS標(biāo)簽,然后根據(jù)訓(xùn)練樣本集生成特征序列,根據(jù)特征選項(xiàng)對(duì)訓(xùn)練樣本集和測(cè)試樣本集中的文檔進(jìn)行賦值生成相應(yīng)的向量?;谥锌圃篿ctclas4j分詞之后,根據(jù)每個(gè)詞的詞性構(gòu)建關(guān)于特征詞和觀點(diǎn)詞的共生矩陣。
3.1.2 特征選擇
特征選擇對(duì)于情感判別有著非常重要的作用,因?yàn)橐揽刻卣鞯倪x擇在一定程度上就可以體現(xiàn)出文檔的真實(shí)信息,能夠準(zhǔn)確地用來識(shí)別文檔的好壞。比如“華為手機(jī)外觀很漂亮”,對(duì)此選擇“外觀”作為特征,而與“外觀”對(duì)應(yīng)的情感詞就是“漂亮”。該特征是顯性特征,因?yàn)樘卣髦苯映霈F(xiàn)在該評(píng)論中。對(duì)于特征的選擇一般選取名詞或者名詞短語,而對(duì)于情感詞的選擇一般選擇形容詞、副詞能表達(dá)出情感的詞。Zhen Hai[10]提出共生矩陣來提取特征,基于最小支持度和最小自信度識(shí)別隱性特征。圖4為Zhen Hai對(duì)隱性特征提取方式的構(gòu)建示意圖。endprint
3.1.3 特征降維處理
特征項(xiàng)降維常用的方法有:互信息法(Mutual Information,MI)、文檔頻率法(Document Frequency,DF)、統(tǒng)計(jì)量法(Chi-square Statistic,CHI)、信息增益法(Information Gain,IG)、期望交叉熵法(Expected Cross Entropy,ECE)等。不同的降維方法對(duì)分類效果會(huì)產(chǎn)生不同的影響。
唐慧豐等[16]采用了特征項(xiàng)降維的前4種方法,依據(jù)不同的特征數(shù)量和不同規(guī)模的訓(xùn)練集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明信息增益法較好,原因是其既考慮了類別信息又考慮了低頻詞的影響。
總之,這些方法的大致思想基本一致:針對(duì)某一特征計(jì)算出一種度量值,根據(jù)度量值設(shè)定相應(yīng)的閾值,剔除那些小于該閾值的特征值,未被剔除的部分就被看作有效特征。
3.1.4 相關(guān)權(quán)重計(jì)算
特征權(quán)重的計(jì)算方法通常包括:詞頻逆文檔頻(TF-IDF)、布爾權(quán)重、倒排文檔頻度(IDF)、絕對(duì)詞頻(TF)等常用方法。孫挺[17]采用詞頻逆文檔頻(TF-IDF),綜合考慮特征頻率、文檔頻率、特征類別3方面因素,最終有效改善了分類性能??娊鱗18]采用改善的TF*IDF*CIV方法,考慮語義概念信息量CIV,最后正確率以及準(zhǔn)確率都有很大提高。
對(duì)于布爾權(quán)重,主要應(yīng)用布爾函數(shù):
式(1)中,tfj(e)表示第j個(gè)特征詞在文檔e中出現(xiàn)的次數(shù)。如果特征詞出現(xiàn)在文檔中,那么W為1;如果特征詞在文檔中不出現(xiàn),那么W為0。
倒排文檔頻率(IDF)含義為:如果包含某個(gè)特征詞的文本數(shù)越少,那么該特征詞代表某類文檔的能力越強(qiáng)。相應(yīng),權(quán)重就越大。其計(jì)算公式如下:
式(2)中,L為常數(shù),通常根據(jù)實(shí)驗(yàn)來確定。N為總文本數(shù),nj為出現(xiàn)特征詞的文本數(shù)。
3.1.5 分類器選擇
對(duì)于文本分類常用的分類器有支持向量機(jī)(Support Vector Machines,SVM),樸素貝葉斯(Nave Bayes,NB)、最大熵(Maximum Entropy,ME)等多種方法。
3.1.6 最終情感輸出
Socher Richard[19]提出基于自然語言的句子情感輸出,從(--,-,0,+,++)分為5個(gè)等級(jí),在解析樹的每個(gè)節(jié)點(diǎn)上,在句子中捕獲否定詞和它的作用域。圖5為基于自然語言處理一句話的句子情感輸出結(jié)果,可以看出句子中每個(gè)詞的情感。
3.2 基于語義方法
該方法主要是依據(jù)詞語的感情色彩判斷文本的情感。例如詞語或者詞組的褒貶性。點(diǎn)互信息(PMI)就是常用的一種方式,Church等[20]認(rèn)為兩個(gè)詞之間的點(diǎn)互信息為:
Turney等[21] 提出基于情感詞組的SO-PMI方法,這里的情感傾向如下:(ω)=PMI(ω,positive)-PMI(ω,negative),這樣就確定了每個(gè)詞組的情感傾向。
4 文本情感極性強(qiáng)度分析
4.1 文本情感極性強(qiáng)度分析目的
文本情感極性強(qiáng)度分析主要是判斷主觀文本情感極性強(qiáng)度,一般分為5大類:強(qiáng)烈貶義、一般貶義、客觀對(duì)待、一般褒揚(yáng)、強(qiáng)烈褒揚(yáng),即使是對(duì)于同一事物所表達(dá)的預(yù)期強(qiáng)烈程度也有所不同,例如:“中國人喜愛文學(xué)”和“中國人熱愛文學(xué)”表達(dá)出來的情感也是有所不同的,熱愛的情感程度超過喜愛的情感程度。表5為關(guān)于句子星評(píng)示例以及情感強(qiáng)度。
4.2 情感強(qiáng)度計(jì)算
情感強(qiáng)度級(jí)別S={s1,s2,…,sn},情感強(qiáng)度集合Ai,Ai由m個(gè)相互獨(dú)立的情感詞oj構(gòu)成,Ai(oj)為情感詞oj出現(xiàn)在情感強(qiáng)度級(jí)別si中的可能性,則:
如圖6兩款手機(jī)的平均情感強(qiáng)度,不僅能夠直接幫助消費(fèi)者快速作出購買決策,還能夠幫助商家有效了解市場(chǎng)的競(jìng)爭(zhēng)對(duì)手,及時(shí)調(diào)整市場(chǎng)布局。
5 目前文本情感分析存在的問題
近些年來,越來越多的研究機(jī)構(gòu)或?qū)W者將情感分析應(yīng)用于現(xiàn)實(shí)生活中,開發(fā)出許多實(shí)用的意見挖掘系統(tǒng),卻也存在一些問題:①缺少相應(yīng)的實(shí)驗(yàn)語料,整個(gè)工作流程還不成熟,而且語料庫的規(guī)模有限制;②目前文本情感分析的主要工作還局限于利用觀點(diǎn)詞等信息判別情感極性,很少去考慮語境環(huán)境;③文本識(shí)別太隨意化、口語化、網(wǎng)絡(luò)化等。比如“華為手機(jī)太zan了!”,這里“zan”是情感傾向的關(guān)鍵,因此這會(huì)給情感判別增加較大難度;④在識(shí)別情感詞的同時(shí)很少有人考慮情感詞附近的程度副詞,這會(huì)減弱情感強(qiáng)度;⑤有些褒義詞當(dāng)貶義詞使用、諷刺以及正話反說,如“你這人太有才了”等,看著是褒義色彩,表面卻是貶義。
參考文獻(xiàn):
[1] HATZIVASSILOGLOU,VASILEIOS,KATHLEEN MCKEOWN. Predicting the semantic orientation of adjectives[C]. In 35th ACL/8th EACL,1997:174-181.
[2] TONG, R. An operational system for detecting and tracking opinions in on-line discussion[C]. SIGIR 2001 Workshop on Operational Text Classification,2001.
[3] KATRINA TRIEZENBERG. The ontology of emotion [D]. USA:Purdue University,2005.
[4] RILOFFE,WIEEB J.Learning extraction patterns for subjective expression[J].Proceedings of Emnlp,2003(3):105-112.endprint
[5] LIU B,HUM,CHENG J.Opinion observer: analyzing and comparing opinions on the Web [C].Proceedings of the 14th International Conference on World Wide Web:2005:342-351.
[6] 薛麗敏,李殿偉,肖斌.中文文本情感傾向性五元模型研究[J].通信技術(shù),2011,44(7):130-132.
[7] LI ZHUANG, FENG JING, ZHU XIAO-YAN. Movie review mining and summarization[C]. NY, USA: Proceedings of the 15th ACM International Conference on Information and Knowledge Management,2006.
[8] 姚天昉,聶青陽,李建超.一個(gè)用于漢語汽車評(píng)論的意見挖掘系統(tǒng)[C].北京:中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議,2006.
[9] SU Q, XIANG K, WANG H, et al. Using pointwise mutual information to identify implicit features in customer reviews[M]. Berlin Heidelberg : Springer-Verlag,2006.
[10] HAIZHEN, KUIYUCHANG, JUNG-JAEKIM. Implicit feature identication via co-occurrence association rule mining[C]. In Computational Linguistics and Intelligent Text Processing 12th International Conference, CICLing,Tokyo,2011.
[11] POPESCU A M, ETZIONI O. Extracting product features and opinions from reviews [C].PA,USA:Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, East Stroudsburg,2005.
[12] XU J,ZHENG X,DING W.Personalized recommendation based on reviews and ratings alleviating the spasity problem of collaborative filtering[C].2012 IEEE Ninth International Conference on E-Business Engineering (ICEBE),2012:9-16.
[13] HU M Q, LIU B. Mining opinion features in customer reviews[C].AAAI'04 Proceedings of the 19th National Conference on Artifical Intelligence,2004:755-760.
[14] LIU DEXI, NIE JIANYUN, ZHANG JING, et al. Extracting sentimental lexicons from Chinese microblog: a classification method using N-Gram features[J].Journal of Chinese Information Processing,2016,30(4):193-205.
[15] CHEN ZY, LIU B. Mining topics in documents: standing on the shoulders of big data[C]. New York: the 20th Intl Conf on Knowledge Discovery and Data Mining,2014.
[16] 唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].中文信息學(xué)報(bào),2007,21(6):55-94.
[17] 孫挺,耿國華,周明全.一種有效的特征權(quán)重計(jì)算方法[J].鄭州大學(xué)學(xué)報(bào),2008,40(4):18-21.
[18] 繆建明,張全.基于概念信息量的特征權(quán)重計(jì)算方法研究[J].中國科學(xué)院聲學(xué)研究所青年學(xué)術(shù)交流會(huì),2012:256-260.
[19] SOCHER, RICHARD, PERELYGIN,et al. Recursive deep models for semantic compositionality over a sentiment Treebank[C]. In Conference on Empirical Methods in Natural Language Processing,2013:1631-1642.
[20] P D TURNEY. 2001. Mining the web for synonyms: PMI-IR versus LSA on TOEFL[C].Freiburg: the Twelfth European Conference on Machine Learning,2001.
[21] CHURCH, K W, HANKS, P. Word association norms, mutual information and lexicography[C]. Proceedings of the 26th Annual Conference of the Association for Computational Linguistics,1989:76-83.endprint