王曉耘,史玲玲
(杭州電子科技大學(xué) 管理學(xué)院,浙江 杭州 310018)
?
基于網(wǎng)絡(luò)評論情感量化的商品綜合評分模型
王曉耘,史玲玲
(杭州電子科技大學(xué) 管理學(xué)院,浙江 杭州 310018)
摘要:傳統(tǒng)網(wǎng)絡(luò)商品評論的評分是五分制評分,存在評分與評論內(nèi)容情感不一致問題,為修正五分制評分,本文基于Apriori算法和隸屬度算法分別提取產(chǎn)品特征和特征觀點詞對,并構(gòu)建了觀點詞本體庫,在此基礎(chǔ)上,分析程度副詞和否定詞對觀點詞的影響,量化評論內(nèi)容情感,最后結(jié)合各影響因素構(gòu)建一種基于評論情感量化的商品綜合評分模型。實驗結(jié)果表明,本文提出的評分模型相比原先五分制的評分更能反映評論者的情感。
關(guān)鍵詞:評論挖掘;特征觀點詞對;情感量化;綜合評分模型
隨著web技術(shù)的不斷提升,電子商務(wù)技術(shù)迅猛發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為網(wǎng)民購物的一個重要渠道。網(wǎng)絡(luò)購物的快速普及,也使得許多網(wǎng)站為消費者提供了在線評論機(jī)制。網(wǎng)絡(luò)評論信息在網(wǎng)購交易中發(fā)揮著重要的作用,一方面對于潛在的消費者,由于無法直接接觸到商品實體,因此以往消費者反饋的評價信息可作為是否選購的重要信息,另一方面對于商家,可以通過消費者的反饋信息來改善商品的質(zhì)量和為消費者提供更全面的售后服務(wù)。但是,面對網(wǎng)絡(luò)上如此紛繁復(fù)雜的評論信息,如何迅速有效地識別出有價值的評論信息,如何了解信息中所包含的消費者的情感傾向,尤其是如何直觀地知道商品的一個準(zhǔn)確評分是至關(guān)重要的問題。因此,近幾年網(wǎng)絡(luò)評論挖掘的研究受到廣大的關(guān)注。
目前的評論挖掘主要包括產(chǎn)品特征詞提取,評論觀點詞提取,觀點詞的極性及其強(qiáng)度判斷[1]。以網(wǎng)絡(luò)上用戶商品評論作為挖掘?qū)ο?,通過機(jī)器學(xué)習(xí)方法和自然語言處理技術(shù),挖掘出用戶對商品各性能方面的評價。評論中的觀點詞是消費者對商品的情感傾述,所以了解消費者對商品的喜好與否及是否喜好的程度,就需要研究觀點詞的極性強(qiáng)度。
傳統(tǒng)的商品評分只考慮了評論者的評分,采用平均分來表示一個商品質(zhì)量的好壞。沒有對那些文字性描述的評論內(nèi)容數(shù)據(jù)進(jìn)行處理。然而,在這些評論內(nèi)容數(shù)據(jù)中包含了很有價值的信息,比如評論者重點關(guān)注商品的哪些屬性,以及評論者對這些商品特征屬性喜歡與否。所以評分并不能全面衡量評論者對商品的情感。并且在評論中存在很多評分高但評論內(nèi)容負(fù)面或是評分低但評論內(nèi)容正面的評論,這屬于評分和評論內(nèi)容不一致的表現(xiàn)。因此在本論文中,綜合分析評分和評論內(nèi)容,通過對評論內(nèi)容情感進(jìn)行量化來構(gòu)建一個商品綜合評分模型,更加準(zhǔn)確直觀為消費者甚至制造商提供商品的一個綜合評分。
一、相關(guān)研究
情感分析目的是判斷給定的文本內(nèi)容中所體現(xiàn)的表達(dá)者的情感傾向,通常為正面、負(fù)面及中性。近幾年,國內(nèi)外學(xué)者從不同的角度對產(chǎn)品評論的情感分析展開了研究工作:最初Pang[2]等人通過監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)方法對電影評論進(jìn)行情感傾向性分類。Turney[3]等人最早提出將信息檢索方法和點互信息相結(jié)合,采用無監(jiān)督學(xué)習(xí)對文本觀點傾向性分類的研究。P.Beineke[4]等人利用機(jī)器學(xué)習(xí)方法和人工標(biāo)注評論相結(jié)合,提高了英文文本情感分析的精確度。葉強(qiáng)[5]等人針對中文環(huán)境下的文檔,改進(jìn)Turney研究的算法,初步建立了中文語義情感傾向分析方法。孟佳娜[6]等人針對文本所屬的不同領(lǐng)域,通過知識在不同領(lǐng)域之間的遷移,提出一種跨領(lǐng)域產(chǎn)品評論傾向性分析方法。史偉,王洪偉,何紹義[7]針對微博中的評論信息,基于HowNet和TFIDF加權(quán)方法,提出一種基于模糊觀點詞的商品評論情感極性及情感強(qiáng)度的方法。林欽和[8]等人在情感值計算中,考慮程度副詞的強(qiáng)度和程度副詞與否定詞在句中出現(xiàn)的前后順序所造成的語義差異,設(shè)計了一個基于情感值計算的產(chǎn)品評論分析系統(tǒng)。
二、商品綜合評分模型的構(gòu)建
(一)綜合評分指標(biāo)分析
目前,越來越多的購物網(wǎng)站都支持用戶對購買的產(chǎn)品進(jìn)行打分和發(fā)表評論內(nèi)容,所以一條產(chǎn)品評論信息主要包括評分、評論內(nèi)容、評論者信息。
1.傳統(tǒng)評論評分是評論者對產(chǎn)品質(zhì)量滿意度、是否喜好進(jìn)行五分制的打分。通常評分5分表示用戶對該產(chǎn)品很滿意,而評分1表示對產(chǎn)品非常不滿意。
2.消費者瀏覽產(chǎn)品評論時,首先關(guān)注的是評論內(nèi)容,評論內(nèi)容是消費者對產(chǎn)品特征、產(chǎn)品質(zhì)量、服務(wù)等的描述。評論內(nèi)容所包含的特征詞越多,該評論所包含的信息也就越能表達(dá)產(chǎn)品的性能,評論可信度也越高。并且在評論內(nèi)容中,消費者會根據(jù)產(chǎn)品使用的感受表達(dá)出自己對產(chǎn)品是否喜歡的情感。當(dāng)評論內(nèi)容中頻繁出現(xiàn)情感詞,例如“非常喜歡”、“差”、“一般”、“很好”……,就表明該消費者在使用產(chǎn)品時有較為深刻的感受,這樣的評論內(nèi)容有很高的參考價值,并對其他消費者的購買決策有更大的影響。
3.并且由于在網(wǎng)絡(luò)評論中存在很多評論信息的評分很高但評論內(nèi)容情感比較消極或評論評分很低但評論內(nèi)容情感比較積極的評論信息,僅從評論評分來衡量產(chǎn)品質(zhì)量的好壞不準(zhǔn)確,所以需通過評論內(nèi)容這指標(biāo)來修正原先五分制的評分,如表1所示。對于每一條評論信息,修正后的評分由原先的評論評分結(jié)合修正量進(jìn)行修正,該修正量通過量化評論內(nèi)容情感得出,因此將評論內(nèi)容作為商品綜合評分的一個重要指標(biāo)。
4.評論者信息在本文中主要指評論者等級。評論者等級是消費者網(wǎng)購經(jīng)驗的一個重要體現(xiàn)。高等級消費者的消費經(jīng)驗也越豐富,發(fā)表的評論信息更加真實可靠,并且他發(fā)表的評論內(nèi)容比低等級消費者發(fā)表的評論更加受到潛在消費者的信賴。所以將評論者信息作為商品綜合評分的一個指標(biāo)。
表1 修正原先五分制的評論評分
通過上述分析,可看出存在評論的評分和評論內(nèi)容表達(dá)的情感不一致的情況。本文基于評論內(nèi)容情感極性量化來解決這種評分和評論內(nèi)容不一致的問題,并且結(jié)合評分、評論內(nèi)容、評論者等級三個指標(biāo)來構(gòu)建商品綜合評分模型。
(二)模型構(gòu)建流程
基于網(wǎng)絡(luò)評論情感值量化的商品綜合評分模型構(gòu)建的基本流程如圖1所示,主要有5步:1.評論預(yù)處理:采用中科院所編寫的中文分詞系統(tǒng)ICTCLAS對評論內(nèi)容進(jìn)行分詞,并且對分詞進(jìn)行詞性標(biāo)注;2.基于關(guān)聯(lián)規(guī)則Apriori算法的特征詞提取和基于隸屬度算法的特征觀點詞對提??;3.特征觀點詞對的情感傾向和情感值的計算;4.程度副詞、否定詞及其出現(xiàn)語序不同的情感強(qiáng)度值計算;5.結(jié)合各評分指標(biāo)構(gòu)建商品綜合評分模型。
圖1 商品綜合評分模型構(gòu)建的基本流程
(三)評論預(yù)處理
本文具體采用中國科學(xué)院計算機(jī)所編寫的中文分詞系統(tǒng)NLPIR/ICTCLAS2015對評論內(nèi)容進(jìn)行分詞[9]。并且用該系統(tǒng)進(jìn)行詞性標(biāo)注,詞性標(biāo)注包括名詞、形容詞、動詞、副詞、助詞等。該系統(tǒng)共有四種詞性標(biāo)注集,本文使用ICTPOS二級,例如表2就是利用分詞系統(tǒng)將評論內(nèi)容分詞和詞性標(biāo)注。
表2 評論內(nèi)容分詞和詞性標(biāo)注
(四)產(chǎn)品特征提取
評論內(nèi)容是由一系列帶有不同觀點看法的產(chǎn)品特征組成,定義為ri={(f1,o1,s1),…,fn,on,sn)},ri∈(r1,r2,…rn),n表示產(chǎn)品P的所有評論數(shù)量,fi表示產(chǎn)品的特征,oi表示特征所對應(yīng)的觀點詞,si表示修飾觀點的程度副詞和否定詞。評論的特征主要是名詞或者名詞短語,觀點主要是形容詞和動詞。
產(chǎn)品特征提取的步驟如下:
1.文中采用Apriori關(guān)聯(lián)規(guī)則算法[10],利用評論預(yù)處理后的評論語料庫創(chuàng)建關(guān)聯(lián)規(guī)則事物文件,即將名詞或者名詞短語作為一個事務(wù)單位。
2.基于關(guān)聯(lián)規(guī)則算法,采用最小支持度1%,找到頻繁項F作為候選產(chǎn)品特征集合。
3.對頻繁項集F進(jìn)行獨立支持度剪枝,采用獨立支持度5%。將僅包含f并且不包含f的父集的頻繁特征項的評論數(shù)量所占的百分比小于5%的f從頻繁項集F中剔除。
4.最后對頻繁項集F進(jìn)行過濾非產(chǎn)品屬性的名詞。如手機(jī)型號“三星I8750”,三星是品牌,I8750是型號,所以過濾較常見的品牌和以字母開頭的型號。
(五)特征觀點詞對提取
本文使用距離窗口方法,設(shè)置窗口為5,找出特征前后5個字符范圍之內(nèi)的觀點詞,參考Raymond Y. K. Lau等人[11]提出的隸屬度算法來測評觀點詞,從而提取特征觀點詞對。算法如下所示:
mem(f,o)
-(1-ω)Pr(f,o)(f,o)
(1)
其中Pr(f),Pr(o)分別表示特征和觀點詞出現(xiàn)在窗口中的概率,Pr(f),Pr(o)分別表示特征和觀點詞不出現(xiàn)在窗口中的概率,Pr(f,o)表示特征和觀點詞同時出現(xiàn)的概率,Pr(f,o)表示特征和觀點詞都不出現(xiàn)的概率,ω表示調(diào)節(jié)正負(fù)隸屬度的權(quán)重。文中選取隸屬度排前30的特征觀點詞對。并且確保隸屬度值在[0,1]之間,將隸屬度進(jìn)行規(guī)范化處理得到:
(2)
(六)情感值計算
1.觀點詞的情感極性值研究
參照大連理工大學(xué)信息檢索研究室整理的《中文情感詞匯本體庫》(部分?jǐn)?shù)據(jù)如表3所示),《中文情感詞匯本體庫》中將情感強(qiáng)度分為5檔,分別為1、3、5、7、9,將情感極性分為3類:0、1、2。
表3 中文情感詞匯本體庫部分?jǐn)?shù)據(jù)
本文將模糊化處理所提取的觀點詞的情感強(qiáng)度和情感極性。將觀點詞的情感極性分為3類:正、負(fù)、無,分別對應(yīng)《中文情感詞匯本體庫》中的極性1、2、0;將情感極性的強(qiáng)度分為5個等級,分別對應(yīng)《中文情感詞匯本體庫》中的強(qiáng)度1、3、5、7、9。
基于前面特征觀點詞對的提取和《哈工大信息檢索研究中心同義詞詞林?jǐn)U展版》[12],對于每個提取的觀點詞oi,我們根據(jù)以下處理步驟來判斷它的情感極性和情感強(qiáng)度:
(1)在《中文情感詞匯本體庫》中進(jìn)行查找該觀點詞,若本體庫中收錄觀點詞oi,則根據(jù)本體庫標(biāo)注的傾向和強(qiáng)度確定其情感傾向和強(qiáng)度。
(2)若本體庫中沒有收錄該觀點詞,則在同義詞詞林?jǐn)U展版中查找該觀點詞,若包含觀點詞,則在《中文情感詞匯本體庫》中進(jìn)行查找該觀點詞的同義詞,若本體庫中收錄同義詞,則該同義詞的傾向和強(qiáng)度就是該觀點詞的情感傾向和強(qiáng)度。
(3)若觀點詞和它的同義詞都沒有被本體庫收錄,則需人工對該觀點詞進(jìn)行情感傾向和強(qiáng)度標(biāo)注。由該領(lǐng)域的4位研究學(xué)者分別對同一觀點詞進(jìn)行情感極性標(biāo)注;若三人以上標(biāo)注的結(jié)果是一致的,則確定觀點詞的情感極性和強(qiáng)度,否則請第5個研究學(xué)者進(jìn)行綜合校正,直到結(jié)果達(dá)到一致。
根據(jù)前面觀點詞的情感極性和強(qiáng)度的模糊化處理,建立產(chǎn)品觀點詞本體庫。情感極性為正的觀點詞的情感極性值為正數(shù),情感極性為負(fù)的觀點詞的情感極性值為負(fù)數(shù),無情感極性的觀點詞的情感極性值為0,所以將觀點詞的情感極性值進(jìn)行賦值為-1,-0.8,-0.6,-0.4,-0.2,0,0.2,0.4,0.6,0.8,1。
2.程度副詞與否定詞的分析
在中文評論中,形容詞的情感傾向可能受上下文環(huán)境的影響會改變它的情感傾向。比如“手機(jī)的屏幕分辨率非常清晰”這里“清晰”是褒義的情感傾向,且“非?!睂Α扒逦逼鸬搅藦?qiáng)調(diào)的作用,“非?!笔且粋€程度副詞;又比如“手機(jī)的電池漏電太嚴(yán)重了”,這里的“太”就起到了否定的作用。所以在分析觀點詞的時候,修飾觀點詞的程度副詞和否定詞也影響情感傾向和情感強(qiáng)度。
考慮程度副詞的等級差別對情感詞的情感強(qiáng)度的不同影響,本文使用距離窗口方法提取程度副詞(選取觀點詞一定距離內(nèi)的程度副詞),在觀點詞上下文設(shè)置一個大小為5個字的檢查范圍,在這個范圍出現(xiàn)的程度副詞就考慮為該觀點詞對應(yīng)的程度副詞?;贖owNet情感分析詞典中的程度級別詞語(中文),將6種類別的程度副詞分別設(shè)置不同的極性強(qiáng)度,如表4所示:
表4 程度副詞的極性強(qiáng)度
同樣本文在觀點詞的上下文設(shè)置了一個大小為5個字的檢查范圍,在這個范圍內(nèi)出現(xiàn)的否定詞就考慮為該觀點詞的否定詞,如果在這個范圍內(nèi)出現(xiàn)否定詞,則將這個觀點詞的情感取反。基于以上的分析,將程度副詞和否定詞對情感強(qiáng)度影響的計算公式如下:
degree(si)=degree(ad)*(-1)n
(3)
其中,degree(si)表示程度副詞和否定詞的強(qiáng)度值,degree(ad)表示程度副詞的極性強(qiáng)度,n表示否定詞出現(xiàn)的次數(shù)。例如“非常不喜歡”的中“非常不”的強(qiáng)度值=1.6*(-1)=-1.6。
3.評論內(nèi)容的情感值計算
觀點詞用來形容產(chǎn)品的特征,所以在一個評論內(nèi)容r中,對所有形容該特征的觀點詞的情感極性值求均值,即得到該特征在該評論內(nèi)容中的情感值。該情感值就表示發(fā)表該評論內(nèi)容的用戶對該產(chǎn)品特征的情感傾向程度。
(4)
其中Sdegree(fj)表示某一評論中特征fj情感強(qiáng)度值,degree(fj,oi)表示特征觀點詞對(fj,oi)的情感極性值,memnormal(fj,oi)表示特征觀點詞對(fj,oi)的隸屬度,degree(si)表示觀點oi對應(yīng)的程度副詞和否定詞的影響程度。n表示評論r中特征fj的個數(shù)。因此某一評論內(nèi)容r的情感值為:
(5)
其中m表示該評論中特征的數(shù)量。由于商品評分值是五分制,所以對評論內(nèi)容r的情感值Sdegree(r)處理使其取值范圍在[0,5]之間,如下:
(6)
三、商品綜合評分模型構(gòu)建
在上面提到的三個指標(biāo)中,由于評論者等級指標(biāo)同時影響一條評論評分和評論內(nèi)容的可靠性,所以在構(gòu)建商品綜合評分模型時,不能將評論者等級指標(biāo)與另外兩個指標(biāo)并列。因此本文中不能直接使用一個多元線性回歸方程,將這三個指標(biāo)作為自變量進(jìn)行分析。所以本文中將這三個自變量通過兩個步驟來構(gòu)建模型。首先構(gòu)建每條評論i的新評分模型,再將評論者等級指標(biāo)與評論新評分模型結(jié)合構(gòu)建商品綜合評分模型。
每條評論i的新評分模型如下所示:
score(i)new=ω1*scorei+ω2*Sdegree(ri)normal
ω1+ω2=1
(7)
商品綜合評分模型如下所示:
(8)
其中i表示第i條評論,scorei表示評分(五分制),Sdegree(ri)normal表示評論內(nèi)容的情感值,ω1和ω2分別表示評分和評論內(nèi)容情感值的權(quán)重,score(i)new表示結(jié)合評分和情感值的評論i的新評分。n是某產(chǎn)品評論的數(shù)量,pergradei表示評論者的等級信息。Cscore(p)表示商品綜合評分。
四、實驗
(一)數(shù)據(jù)準(zhǔn)備
本文從數(shù)據(jù)堂網(wǎng)站(http://datatang.com/)獲取到京東商城上用戶對三星I8750(3G,灰色)手機(jī)的商品評論數(shù)據(jù),共獲得該款手機(jī)評論4 258條,剔除包含網(wǎng)站本身評論以及亂碼的評論后剩下有用評論3 773條。每條評論都包含評論者信息(包括評論者等級)、評分和評論內(nèi)容。首先對評論中的評論內(nèi)容進(jìn)行預(yù)處理,使用ICTCLAS分詞系統(tǒng)對評論內(nèi)容進(jìn)行分詞和詞性標(biāo)注;通過關(guān)聯(lián)規(guī)則算法挖掘出該產(chǎn)品特征如表5所示:
表5 三星手機(jī)的特征
根據(jù)這些產(chǎn)品特征,設(shè)置檢測窗口為5,運用隸屬度算法[公式(1)和公式(2)],挖掘特征觀點詞對。結(jié)果得到至少包含一項特征觀點詞對的評論數(shù)量為3 104條,觀點詞共有1 072個。對這些觀點詞建立觀點詞本體庫。對于觀點詞及其同義詞沒有被《中文情感詞匯本體庫》收錄的觀點詞,通過人工標(biāo)注其情感極性即強(qiáng)度,這里根據(jù)Kappa方法[13]檢測人工標(biāo)注的一致性,Kappa值大于0.75表示標(biāo)注的一致性很好。表6展示觀點詞情感極性強(qiáng)度的統(tǒng)計分析:
表6 不同情感極性強(qiáng)度值的觀點詞數(shù)量
下面將對含有特征觀點詞對的評論內(nèi)容計算情感值,依據(jù)公式(3)、(4)、(5),并且依據(jù)公式(6),對情感值規(guī)范化。
(二)模型驗證
首先使用人工標(biāo)注的方法,請三位評論挖掘領(lǐng)域的學(xué)者各自獨立依據(jù)3 773條評論的評分及內(nèi)容分別進(jìn)行打分,打分采取五分制的形式,由1到5分別表示商品評論的評分。每條評論至少兩位學(xué)者標(biāo)注結(jié)果一致,則賦予評論評分,否者由第四個學(xué)者進(jìn)行校正直到結(jié)果一致,同樣根據(jù)Kappa方法檢測人工標(biāo)注的一致性。
然后利用公式(5)(6)分別計算每條評論的情感值。由于情感值是在區(qū)間[0,5]之間的連續(xù)值,而人工標(biāo)注和評分都是只有{1,2,3,4,5}這5個值,因此需對情感值進(jìn)行處理,將情感值按照距離映射到{1,2,3,4,5}上,然后比較情感值和原先五分制評分的正確率。
正確率=方法判斷評分與人工標(biāo)注判斷評分相同的評論數(shù)/總評論數(shù),得到如表7結(jié)果:
表7 舊評分與情感值的正確率
從表7中可以看出,情感值的正確率比五分制(舊評分)評分的正確率高,所以情感值更加能反映商品的真實評分,因此在計算每條評論的新評分時,可以通過正確率大小來決定評分和情感值這兩個變量的權(quán)重。
通過情感值和舊評分的正確率來確定公式(7)中的ω1和ω2值:
ω2=1-ω1
得到每條評論的新評分模型如下:
score(i)new=0.458*scorei+0.542*Sdegree(ri)normal
通過公式計算商品每條評論的新評分。圖2表示選取其中50條評論的修正后新評分、舊評分及情感值之間的對比。表8中展示其中3條評論評分的修正。
圖2 評論的新、舊評分及情感值對比折線圖
從圖2中可以看出評論者對于商品的打分都很高,所以對于這樣的評分它的可信度就比較低,通過商品綜合評分模型計算后,得到新的評分,新評分的參考價值得到提高。從表8可看出,存在舊評分和評論內(nèi)容情感傾向差距很大的情況,如第8條和第32條評論,其中第32條評論的舊評分為1,評論內(nèi)容的情感值計算得4.3,通過模型修正后的新評分為2.788 6,說明評論內(nèi)容的情感傾向和舊評分存在很大差距;第39條評論中的評分和情感值都為4,修正后的評分沒有發(fā)生變化,說明該評論的評分和評論內(nèi)容所表達(dá)的情感較一致。所以本文評論的新評分模型能更好地表達(dá)評論者對商品的喜好程度。
表8 評論評分的修正
最后,通過公式(8)計算商品的綜合評分,模型中將評論者的等級考慮其中(這里根據(jù)獲取的評論數(shù)據(jù),將評論者的六個等級分別用數(shù)值{1,2,3,4,5,6}表示)。得到綜合評分為4.38,這個評分包含了所有評論的評價者等級和評論內(nèi)容的情感值因素,更加直觀地讓消費者了解到商品的質(zhì)量。
五、結(jié)語
本文針對網(wǎng)絡(luò)商品評論信息過載,評論五分制評分與評論內(nèi)容情感傾向不一致問題,提出了商品綜合評分模型,綜合考慮影響商品評分的評論者信息、評分和評論內(nèi)容三個重要因素。通過基于關(guān)聯(lián)規(guī)則的特征提取和基于隸屬度的特征觀點詞對提取,構(gòu)建觀點詞本體庫,并且考慮程度副詞和否定詞對觀點詞的影響,從而計算每條評論內(nèi)容的情感值,結(jié)合該情感值來修正舊的評分值。實驗證明,新評分更能表達(dá)評論者的情感傾向。最后建立的綜合評分模型,則將所有評論評分整合得到一個商品綜合評分。利用該評分模型,不僅讓消費者更加直觀了解商品,同樣可以對不同商品進(jìn)行評分排序。后續(xù)的研究工作可以在以下方面進(jìn)行改進(jìn):結(jié)合不同購物平臺調(diào)整評分和評論內(nèi)容情感值的權(quán)重;在分析影響綜合評分的因素時,可嘗試加入時間因素,考慮評論的時間有效性。
參考文獻(xiàn)
[1]Hu Mingqing,Liu Bing.Mining and summarizing customer reviews[C].Seattle,Washington,USA:Proceedings of Acm Sigkdd International Conference on Knowledge Discovery & Data Mining,2004:168-177.
[2]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up? Sentiment Classification using Machine Learning Techniques[J].Proceedings of Emnlp,2002(12):79-86.
[3]Peter D Turney.Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[J].Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002(12):417-424.
[4]Philip Beineke,Trevor Hastie,Shivakumar Vaithyanathan.The Sentimental Factor: Improving Review Classification via Human-Provided Information[C].Barcelona,Spain:Proceedings of Acl Conference,2004:264-271.
[5]Qiang Ye,Wen Shi,Yijun Li.Sentiment classification for movie reviews in Chinese by proved semantic oriented approach[C].Hawaii,USA:Proceedings of the 39th Annual Hawaii International Conference on System Sciences,2006:53-57.
[6]孟佳娜,段曉東,楊亮.基于特征變換的跨領(lǐng)域產(chǎn)品評論傾向性分析[J].計算機(jī)工程,2013,39(10):167-171.
[7]史偉,王洪偉,何紹義,等.基于微博的產(chǎn)品評論挖掘:情感分析的方法[J].情報學(xué)報,2014,33(12):1311-1321.
[8]林欽和,劉鋼,陳榮華.基于情感計算的商品評論分析系統(tǒng)[J].計算機(jī)應(yīng)用與軟件,2014,31(12):39-44.
[9]劉克強(qiáng).2009共享版ICTCLAS的分析與使用[J].科教文匯旬刊,2009(8):271-280.
[10]李實,葉強(qiáng),李一軍,等.挖掘中文網(wǎng)絡(luò)客戶評論中的產(chǎn)品特征方法研究[J].管理科學(xué)學(xué)報,2009,12(2):142-152.
[11]Raymond Y K Lau,Dawei Song,Yuefeng Li,et al.Toward a Fuzzy Domain Ontology Extraction Method for Adaptive e-Learning[J].Knowledge & Data Engineering IEEE Transactions on,2009,21(6):800-813.
[12]楊霞.基于同義詞詞林的微博客評論情感分類研究[J].電子科技,2014,27(7):134-136.
[13]王軍.Kappa系數(shù)在一致性評價中的應(yīng)用研究[D].成都:四川大學(xué),2006.
A Comprehensive Scoring Model of Product Based on Emotional Quantification of Web Reviews
WANG Xiao-yun, SHI Ling-ling
(SchoolofManagement,HangzhouDianziUniversity,HangzhouZhejiang310018,China)
Abstract:The traditional network product review scoring is on a five-grade marking system, in which there exists a disagreement between the score and the emotional content of the reviews. In order to revise the five-grade marking system, this pager picks up the product features and the feature-opinion word-pair respectively based on the Apriori algorithm and the membership algorithm, and constructs the ontology library of the words of opinions.On this basis, the influence of the adverb of degree and the negative word on the opinion words is analyzed, so as to quantify the emotional content of the reviews. Finally, a product comprehensive scoring model with various influence factors based on the emotional quantification is constructed. The experimental result demonstrates that the comprehensive scoring model proposed can better reflect the reviewer’s emotion compared with the previous scoring system.
Key words:reviews collection; feature-opinion word-pair; emotional quantification; a comprehensive scoring model
DOI:10.13954/j.cnki.hduss.2016.03.002
收稿日期:2015-09-17
作者簡介:王曉耘(1956-),男,浙江杭州人,教授,信息管理與信息系統(tǒng).
中圖分類號:F208
文獻(xiàn)標(biāo)識碼:B
文章編號:1001-9146(2016)03-0008-08