陸峰
摘要: 商品評(píng)論是用戶對(duì)所購商品的信息反饋,在一定程度上代表了用戶對(duì)商品的關(guān)注點(diǎn)和情感傾向,對(duì)企業(yè)具有重要的研究價(jià)值。該文提出基于word2vec的情感詞典擴(kuò)充方法,以此構(gòu)建面向情感傾向分析的電商平臺(tái)情感詞典,旨在能較好地識(shí)別商品評(píng)論的情感傾向。試驗(yàn)中,該文將擴(kuò)充的情感詞典結(jié)合改進(jìn)的情感詞極性算法,用于天貓洗護(hù)類商品評(píng)論的情感傾向分析,實(shí)驗(yàn)表明了該方法的有效性。
關(guān)鍵詞:情感詞典;word2vec;情感分析;電商平臺(tái)
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)05-0143-03
Abstract: Product reviews can be treat as the feedback of user on the purchased of goods,Which,to a certain extent, represents the user's focus on the commodity and emotional tendencies, has important research value to the enterprise. This paper proposes an extension method of emotional lexicon based on word2vec, in order to construct affective dictionary of sentiment platform for sentiment orientation analysis. In experiment, we use the method of expanding the emotional words of sentiment dictionary combine with improved sentiment word polarity algorithm for the sentiment analysis of Tmall care commodities reviews, Finally,The experiments prove the effectiveness of the method.
Key words: Sentiment Lexion ; word2vec; sentiment analysis ; E-commerce platform
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種電商平臺(tái)紛紛涌現(xiàn)。如何從繁雜的商品評(píng)論中識(shí)別用戶的情感傾向,不僅是各大電商平臺(tái)的關(guān)注熱點(diǎn),也是自然語言處理領(lǐng)域中亟待解決的問題,因此,文本傾向性分析成為計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)之一。目前文本情感傾向性分析研究方法分為基于簡單統(tǒng)計(jì)、基于相關(guān)性分析與基于機(jī)器學(xué)習(xí)三種?;诤唵谓y(tǒng)計(jì)方面,主要通過求合法、向量空間法等對(duì)情感值進(jìn)行簡單的傾向性統(tǒng)計(jì),鄒嘉彥等[4] 通過對(duì)極性元素的分布、密度及語義強(qiáng)度等進(jìn)行分析,實(shí)現(xiàn)相關(guān)新聞的褒貶分類?;谙嚓P(guān)性方面,陳曉東[3]使用擴(kuò)展的情感傾向點(diǎn)互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI),從微博語料集中自動(dòng)獲取領(lǐng)域情感詞,構(gòu)建了微博情感詞典,并將其使用于中文微博的情感傾向研究。姜亞華[2]優(yōu)化了基于HowNet衡量語義相關(guān)度算法,并將其用于汽車領(lǐng)域的商品評(píng)論情感分析。在基于機(jī)器學(xué)習(xí)的研究方面,Wang[5] 選取形容詞和副詞這類修飾詞作為特征,將啟發(fā)式規(guī)則與貝葉斯分類技術(shù)相融合并應(yīng)用于文本情感傾向的分類。徐琳宏等[6] 通過計(jì)算詞匯與基準(zhǔn)詞間的相似度,進(jìn)而利用支持向量機(jī)分類器對(duì)文本的褒貶性進(jìn)行分析。但是目前針對(duì)商品評(píng)論的傾向性分析技術(shù)仍然存在以下問題:1)中文情感詞典相對(duì)較少,各領(lǐng)域的情感詞典并不兼容,例如主流的HowNet(知網(wǎng))等在構(gòu)建情感詞典的過程中未考慮網(wǎng)絡(luò)用語的更新;2)一般的情感詞上下文極性算法的情感傾向識(shí)別準(zhǔn)確率不高,而且可擴(kuò)展性較差,情感詞的極性僅僅考慮其原極性(情感詞典所標(biāo)注),在上下文存在關(guān)聯(lián)關(guān)系,轉(zhuǎn)折關(guān)系時(shí),沒有結(jié)合上下文語境考查其上下文極性。針對(duì)以上問題,本文以天貓商城洗護(hù)類商品評(píng)論的情感傾向分析為主題,首先通過word2vec算法在HowNet和NTU情感詞典的基礎(chǔ)上構(gòu)建適用于電商平臺(tái)的情感詞典;其次給出了利用擴(kuò)充的情感詞典與改進(jìn)的情感詞極性算法計(jì)算情感詞極性的方法,完成商品評(píng)論的情感傾向分析。
1 基于word2vec的情感詞典擴(kuò)充
目前情感極性計(jì)算方法主要有基于語料庫和基于情感詞典2種方法。本文主要研究的是基于情感詞典的方法?;谇楦性~典的情感極性計(jì)算方法的有效性依賴于兩個(gè)點(diǎn):1)能否準(zhǔn)確通過分詞分出情感詞典中的褒貶詞。2)能否找到一個(gè)適用于當(dāng)前你研究領(lǐng)域的領(lǐng)域詞典。因?yàn)槟壳安]有普適性的情感詞典,且隨著網(wǎng)絡(luò)用語的傳播,出現(xiàn)了一大批新的褒貶詞,甚至有些詞的詞義也發(fā)生了改變。因此如何構(gòu)建相關(guān)的領(lǐng)域情感詞典具有一定的研究意義。
本文的電商平臺(tái)的情感詞典的構(gòu)建主要由4部分組成:Hownet情感詞典,臺(tái)灣大學(xué)NTU中文情感詞典,網(wǎng)絡(luò)用語中抽取出來的網(wǎng)絡(luò)情感詞典,基于word2vec構(gòu)建的面向電商平臺(tái)的電商商品情感詞典。過程如下圖所示:
Word2vec 是 Google 在 2013 年年中開源的一款將詞表征為實(shí)數(shù)值向量的高效工具, 其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對(duì)文本內(nèi)容的處理簡化為 K 維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度。基于word2vec構(gòu)建面向電商平臺(tái)的電商商品情感詞典過程如下,首先設(shè)計(jì)爬蟲程序從各大電商平臺(tái)上采集商品評(píng)論數(shù)據(jù)和商品標(biāo)題頁的商品名及屬性,選擇常用的網(wǎng)絡(luò)用語,商品標(biāo)題頁的商品名及屬性作為基準(zhǔn)詞,通過計(jì)算候選詞與基準(zhǔn)詞的相似度及識(shí)別候選詞語的褒貶傾向與極性值來構(gòu)建電商平臺(tái)情感詞典。即利用word2vec訓(xùn)練語料庫得到詞向量模型。通過計(jì)算詞語之間的余弦值來度量兩個(gè)詞語之間的相關(guān)程度。將依據(jù)相似度排序靠前的詞語添加進(jìn)構(gòu)造的電商商品情感詞典。相比于傳統(tǒng)方法中情感傾向點(diǎn)互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI),從語料集中獲取領(lǐng)域情感詞方式,使用基于word2vec方法,體現(xiàn)了兩個(gè)方面的優(yōu)勢(shì)。一方面是,基于詞向量的方法包含了豐富的語義信息,能夠自動(dòng)地學(xué)習(xí)到詞語之間潛在的語義關(guān)系。另一方面相對(duì)HowNet、NTU詞典在識(shí)別網(wǎng)絡(luò)用語上的局限性, word2vec計(jì)算得到的詞向量是基于一個(gè)開放的語料庫空間,能夠針對(duì)性的構(gòu)建特定領(lǐng)域的情感詞典。表1是利用word2vec工具對(duì)實(shí)驗(yàn)語料進(jìn)行訓(xùn)練后,部分詞語及與其相關(guān)的詞語。
2 改進(jìn)的情感詞極性算法
對(duì)商品評(píng)論進(jìn)行情感傾向識(shí)別,應(yīng)先將長評(píng)論根據(jù)標(biāo)點(diǎn)劃分成短句,再通過中文分詞工具進(jìn)行分詞。利用情感詞典進(jìn)行情感分析的關(guān)鍵點(diǎn)如下:1)情感詞:要識(shí)別評(píng)論的情感傾向,最簡單的方法就是找出句子里面的情感詞,若是褒義詞情感值+1,若是貶義情感值-1;2)程度詞:程度副詞反映了情感的強(qiáng)烈程度,“好”和“非常好”應(yīng)該賦予不同的情感值,因此找到情感詞后,需要尋找這個(gè)情感詞和上個(gè)情感詞間是否存在修飾的程度詞,打分時(shí)給不同程度副詞賦予不同權(quán)值;3)感嘆號(hào):感嘆號(hào)意味著情感強(qiáng)烈,例如“這個(gè)包裝太爛了!”;4)否定詞:在找到情感詞的時(shí)候,需要往前找否定詞。比如”不“,”不能“這些詞。統(tǒng)計(jì)否定詞出現(xiàn)次數(shù),若是奇數(shù),情感分值就*-1,反之,那情感就沒有反轉(zhuǎn),還是*1; 5)以分句情感為基礎(chǔ):一條評(píng)論的情感分值是由不同的分句加起來的,因此要得到整條評(píng)論的情感分值,就要先計(jì)算該評(píng)論每個(gè)分句的情感分值。
此外若評(píng)論前后句間存在關(guān)聯(lián)結(jié)構(gòu),則應(yīng)該找出修飾詞前綴(否定前綴和程度副詞前綴)及關(guān)聯(lián)詞,結(jié)合組合情感詞典,最終計(jì)算出詞語的上下文極性。本文給出的改進(jìn)的情感詞極性計(jì)算算法如下。
算法:改進(jìn)的情感詞極性算法
1:讀取評(píng)論,將每條評(píng)論以標(biāo)點(diǎn)切分成分句,將分句進(jìn)行分詞
2:去除停用詞
3:遍歷分句中的分詞,查找分句是否存在關(guān)聯(lián)詞,記錄類型,以及位置
3:遍歷分句中的分詞,查找分句的情感詞,記錄積極還是消極,以及位置
4:在上個(gè)情感詞和現(xiàn)找到的情感詞間查找程度詞,找到就停止搜尋。為程度詞設(shè)權(quán)值,乘以情感值
5:在上個(gè)情感詞和現(xiàn)找到的情感詞查找否定詞,找完全部否定詞,統(tǒng)計(jì)否定詞數(shù)量,若數(shù)量為奇數(shù),則*(-1),若為偶數(shù),*1
6:判斷分句結(jié)尾是否有感嘆號(hào),有嘆號(hào)則往前尋找情感詞,有則相應(yīng)的情感值+2
7:為每個(gè)分句乘上分句關(guān)聯(lián)詞所設(shè)的權(quán)重,計(jì)算完整條評(píng)論的情感值,若情感值為正,標(biāo)簽為1,即好評(píng);若情感值為0,標(biāo)簽為0,即中評(píng);反之標(biāo)簽為-1,即差評(píng)。
3 實(shí)驗(yàn)
實(shí)驗(yàn)環(huán)境:CPU為Celeron(R)Dual-Core T3000 @1.8GHz 4GB內(nèi)存,window7 操作系統(tǒng),算法實(shí)現(xiàn)工具為python,分詞工具為結(jié)巴分詞。
本文實(shí)驗(yàn)數(shù)據(jù)使用從天貓商城爬取的7月4日洗護(hù)類商品依銷量排序top10的商品,每個(gè)商品爬取了2000條的商品評(píng)論,共20000條商品評(píng)論作為語料構(gòu)建電商平臺(tái)情感詞典,人工對(duì)這些評(píng)論進(jìn)行樣本標(biāo)注,從中選取已標(biāo)注的200條正向評(píng)論,200條負(fù)向評(píng)論,100條中性評(píng)論,共500 條評(píng)論做算法測(cè)試,部分樣本如表5 所示。
實(shí)驗(yàn)結(jié)果分析如下:比較表6 第一,二行可知,使用word2vec擴(kuò)充的電商情感詞典+改進(jìn)情感極性算法,在正向評(píng)論,負(fù)向評(píng)論,中性評(píng)論的準(zhǔn)確率/召回率/f1分?jǐn)?shù)3個(gè)評(píng)價(jià)指標(biāo)上,各指標(biāo)都略高于使用傳統(tǒng)的HowNet+NTU情感詞典+改進(jìn)情感極性算法。同理可知,使用word2vec擴(kuò)充的電商情感詞典+改進(jìn)情感極性算法,僅在中性評(píng)論召回率上低4%,從整體來看,情感傾向識(shí)別優(yōu)于使用word2vec擴(kuò)充的電商情感詞典+原情感極性算法。綜合可知,word2vec擴(kuò)充的電商情感詞典+改進(jìn)的情感詞極性算法在情感傾向識(shí)別的各評(píng)價(jià)指標(biāo)上表現(xiàn)最優(yōu)。
4 結(jié)語
本文在構(gòu)建組合情感詞典的過程中,提出基于word2vec的情感詞典擴(kuò)充方法,以此構(gòu)建面向情感傾向分析的電商平臺(tái)情感詞典,結(jié)合改進(jìn)的情感詞極性算法,實(shí)驗(yàn)表明基于word2vec擴(kuò)充的電商情感詞典+改進(jìn)情感極性算法在情感傾向識(shí)別的各評(píng)價(jià)指標(biāo)上優(yōu)于傳統(tǒng)情感詞典+情感詞極性算法,究其原因在于兩個(gè)方面。
1)此種方法擴(kuò)充的情感詞典較大程度擴(kuò)充了常用于網(wǎng)上購物的網(wǎng)絡(luò)用語,減少了網(wǎng)絡(luò)語言多變性對(duì)傾向性分析的影響;
2)改進(jìn)的情感極性算法在評(píng)論中存在否定,程度副詞,上下文存在各種關(guān)聯(lián)關(guān)系時(shí)可以較好地還原極性強(qiáng)度,可避免單純統(tǒng)計(jì)學(xué)方法的不可靠性。
參考文獻(xiàn):
[1] 臺(tái)灣大學(xué)NTUSD簡體中文情感極性詞典,http://vnvwf.data.tang.corn/data/11837.
[2] 陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].武漢:華中科技大學(xué),2012.
[3] 姜亞華. 基于HowNet的汽車領(lǐng)域產(chǎn)品評(píng)論挖掘方法研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué), 2011.
[4] 鄒嘉彥.評(píng)述新聞報(bào)道或文章色彩-正負(fù)兩極性自動(dòng)分類的研究[C]//自然語言理解與大規(guī)模內(nèi)容計(jì)算-全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議.清華大學(xué)出版社,2005:21 23.
[5] Wang C,LuC,Zhang G.A semantic classification approach for online product reviews [C]//Proc of the 2005 IEEE /WIC/ACM International Conference on
Web Intelli-gence.2005:276 279.
[6] 徐琳宏,林鴻飛,楊志豪,等.基于語義理解的文本傾向性識(shí)別機(jī)制[J].中文信息報(bào),2007,21(1):96 100.
[7] 王文遠(yuǎn),王大玲,馮時(shí). 一種面向情感分析的微博表情情感詞典構(gòu)建及應(yīng)用[J]. 計(jì)算機(jī)與數(shù)字工程, 2012, 40(11): 6-8
[8] 董麗麗, 趙繁榮, 張翔. 基于領(lǐng)域本體,情感詞典的商品評(píng)論傾向性分析[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014,31(12): 105-108
[9] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space.arXiv:1301.3781,2013.
[10] 楊鼎, 陽愛民.一種基于情感詞典和樸素貝葉斯的中文 文本情感分類方法水[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(10): 3736-3739
[11] 柳位平,朱艷輝,粟春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009,29(11):2882-2884.
[12] 藺磺,郭姝慧.程度副詞的特點(diǎn)范圍與分類[J].山西大學(xué)學(xué)報(bào),2003,26(2):71-74.
[13] 郝雷紅.現(xiàn)代漢語否定副詞研究[D].北京:首都師范大學(xué),2003.