施曉菁,梁 循,孫曉蕾
(1.中國人民大學信息學院,北京 100872;2.中科院科技政策與管理科學研究所 100190)
?
基于在線評級和評論的評價者效用機制研究
施曉菁1,梁 循1,孫曉蕾2
(1.中國人民大學信息學院,北京 100872;2.中科院科技政策與管理科學研究所 100190)
互聯(lián)網(wǎng)中對產(chǎn)品和服務的評價越來越受到重視,因為評價能夠消除消費者的不確定性,輔助其做出購買決策。大多數(shù)在線購物網(wǎng)站中用戶的評價包括評級和評論?,F(xiàn)有的評價反饋系統(tǒng)和評價研究往往只單獨關注評價者之間的評級或評論,而忽略了兩者之間的有機統(tǒng)一。評價者的評級并不一定反映評價者的真實評價,很多評價者更傾向于選擇評論文本來表達自己的真實情感。本文以從淘寶網(wǎng)抓取的852071條評價數(shù)據(jù)為基礎,通過分析評價者評級和評論之間的不一致性,結合RFM模型,考慮評級和評論兩種信息形成的評價效用,提出了RFMA模型來計算評價者的總體評價效用。并據(jù)此對好的與不好的評價者進行區(qū)分,進一步為消費者的購買決策提供支持。通過對評價者的總體分析可以得出,本文提出的機制更加具有可用性和有效性。
評級和評論的不一致性;評價;評價者;RFMA
在線交易機制和環(huán)境使得消費者對產(chǎn)品和服務掌握的信息不充分,因為消費者在購買產(chǎn)品前不能看見或使用它。但是若消費者信任該服務提供商,那么即使他事先未看見或未使用商品,他也會做出購買決策。當用戶需要做出是否與某個服務提供商進行交互的決定時,往往非常在意商家的信譽[1]。而判斷某個實體是否值得信任是非常困難的,因為在線交流媒體使得我們遠離了原先熟悉的交互方式[2]。因此,大部分在線購物網(wǎng)站為消費者提供了評價(在本文中,評價是包括評級與評論的整體)反饋機制,消費者在購買商品后能以評級和評論的形式進行評價。由于評級往往以數(shù)字等級的形式展示,這些購物網(wǎng)站可以方便地將消費者的評級集合起來,提供商品總體評分的信息,幫助消費者直觀地了解評價者對商品的總體評價。但是出于種種原因,人們的評級往往不能真實地反映他們的傾向,且評級所包含的信息太過單一,評論文本信息逐漸成為了人們決策的重要參考。很多消費者通過查看評論文本來了解商品的好壞。研究表明,在線商品評論顯著地影響著消費者的購買決策和B2C電子商務網(wǎng)站的產(chǎn)品銷售[3]。評論使得消費者能夠集合社區(qū)中集體智慧來幫助自己做出購買商品和服務的決策[4]。一方面,在線消費者常常通過衡量他人對某件商品的評論來制定自己的購買決策;另一方面,商品制造商可以從在線商品評論中獲得啟發(fā),從而支持廣泛的管理活動,如品牌塑造、客戶關系管理、產(chǎn)品研發(fā)以及質(zhì)量管理[5]。不論買家還是賣家,作為在線商品評論的讀者都希望從中獲得有助于制定決策的信息。
很多用戶在各種社交媒體上發(fā)表和共享大量的評論,為消費者提供了豐富的決策參考信息。但這也帶來了很大的問題:面對海量評論,評論閱讀者可能迷失其中,無法有效識別和利用其中有價值的信息來判斷商品的真實質(zhì)量[6]。另外,雖然在線評論的文本內(nèi)容十分豐富,可為人們提供海量的信息資源,但并非所有評論都有價值,其中包括許多隨意或虛假的評論。由于網(wǎng)絡的匿名性、非面對面地接觸、溝通成本低廉等特征[7],評論的質(zhì)量往往參差不齊。評論的海量性及其質(zhì)量的不確定性,使得消費者不容易從中獲得所需的信息,干擾了消費者對商品質(zhì)量的判斷,從而影響了消費決策。
因此,及時有效地識別在線評論文本中有價值的信息對提高消費者的決策效率和效果至關重要。針對這一點,許多B2C 電子商務網(wǎng)站,如淘寶、亞馬遜、京東商城等,提供在線商品評論的效用評價功能——依據(jù)每條評論獲得的“有用”投票數(shù)占總投票數(shù)的比例對商品評論進行排序,獲得支持票數(shù)越多的評論,其排名越靠前[8],通過這樣的手段來幫助評論閱讀者識別評論的價值。但是該指標需要長時間累積,無法及時提供最新發(fā)布的評論的有用性信息,應用效果有待衡量[9]。這是因為人們往往只對前幾條評論進行瀏覽,已經(jīng)置頂?shù)脑u論更加有機會被瀏覽而被重復投票,而一些新發(fā)布的高品質(zhì)的評論則因為沒有及時獲得足夠的有用投票而被忽略。
評級信息的單一性,使得由此設計的商品總體評分制度不能準確反映評價者的觀點。評論信息的復雜性與主觀性,使得潛在消費者難以直接從中快速獲得有用的觀點。通過前期研究發(fā)現(xiàn),評價者對某件商品給出的評級與評論經(jīng)常存在相反或不一致的現(xiàn)象,如評價者給出的評級為好評,評論內(nèi)容卻是“質(zhì)量不怎么樣,習慣性好評”。為解決當前B2C 電子商務網(wǎng)站對在線商品評論的效用評價的局限性,學術界提出了一系列基于文本挖掘和信息質(zhì)量評價理論的解決方案。但是很少有研究關注到評級信息與評論信息的不一致性,也幾乎沒有研究考慮將其進行有機統(tǒng)一,對整體評價進行效用分析。另外,評價者本身是否為一個好的評價者,對于潛在消費者是否決定采納這條評價有著重要的影響。如何判別評價者的評價效用,也是評價研究中十分重要的一個方向。
針對這些問題,在本文的研究中,我們設計并提出了一種評價效用衡量機制,通過引入營銷領域的RFM模型,以評價者的評級和評論信息作為評價效用(A)這一新指標,提出RFMA模型來對評價者本身的評價能力進行分析,從而對評價者進行分類,從中找出好的評價者。蔡淑琴[10]等已將RFM模型引入到對意見領袖的識別中,并添加了情感(S)這一新指標。但是僅以情感值的大小作為新指標進行輸入,而未區(qū)分情感的正負向以及進一步考慮情感在其中所起的作用。本文引入評論情感的正負向來對評價者的評級和評論的不一致性進行衡量,并將這種不一致體現(xiàn)在對評價者的效用衡量上,充分使用了評級和評論信息。
以下是本文的三個主要研究問題:
(1)如何衡量評級和評論之間的不一致性。評級和評論之間的不一致性會造成混亂,因此衡量其不一致性在本文提出的機制中有著重要作用。我們使用了文本情感分析的方法對評論的情感傾向進行衡量,并與評級進行比較。
(2) 如何衡量單次評價的效用。購物之后的評價反饋包括數(shù)字的評級和文本的評論。為了充分利用評論包含的信息,本文使用PageRank方法衡量評級的效用,并使用基于LDA主題模型的相似度方法衡量評論的效用,提出了將兩種信息相結合的評價效用衡量機制,同時還給出了可信度。
(3)如何衡量評價者的評價能力與評價效用并區(qū)分好與不好的評價者。根據(jù)新提出的RFMA模型,綜合得到評價者的總體評價效用。通過模型分類與人工分類的比較,衡量本文提出的機制對評價者評價能力的分類效果。
在線購物網(wǎng)站已經(jīng)成為人們購物不可或缺的平臺。但是,信息不對稱和信譽問題導致用戶不能放心地在網(wǎng)上進行購物?,F(xiàn)有的評論效用研究往往只單獨考慮評論本身,而忽略了評級與評論的有機統(tǒng)一。如何將用戶的兩種評價信息統(tǒng)一到衡量體系中,是一個重要的研究方向。在本節(jié)中,我們提出一種新的集成RFM模型并結合評級和評論兩種信息的評價者評價效用衡量機制(RFMA),為用戶的購買決策提供重要支持。
2.1 RFM測量
RFM模型是客戶關系管理領域中一種定量分析模型,其基本思想是通過三個客戶行為指標來判斷客戶價值,即近度(Recency)、頻度(Frequency)和值度(Monentary)。近度表示客戶最近一次交易離現(xiàn)在的時間間隔,頻度表示客戶在一定時期交易的次數(shù),值度表示客戶在一定時期內(nèi)交易的總金額。近度值越低,頻度值越高,值度值越高,則客戶的價值也越高。
本文將RFM模型用于測量在線評價者的評價能力,需要對三個指標的含義進行修正。其中R、F指標可以直接進行類比。M指標原本為客戶在一定時期內(nèi)交易的總金額,但是評價對其他人影響的購買金額無法準確統(tǒng)計。蔡淑琴[10]等使用其他用戶對在線口碑做出的有用性判斷作為指標M。本文作者在對實際在線購物網(wǎng)站進行觀察后發(fā)現(xiàn),大部分的評價者并不使用該功能,且該功能需要長時間進行累積,不具有可用性。而對于評價者,其發(fā)布評論的本身特征才是用于衡量評價者評價能力的合理指標。因此,本文對這三個指標修正如下:(1) 近度(R)表示評價者三個月內(nèi)最近一次發(fā)布評價到當前的時間間隔,以天為時間單位。(2) 頻度(F)定義為評價者在最近三個月內(nèi)進行評價(有評論內(nèi)容)的次數(shù)。(3) 值度(M)則表示評價者發(fā)表的評論的長度平均值,以字數(shù)為單位。
由于R、F、M三個指標的度量單位和取值存在較大差異,且影響方向并不相同,所以需要對原始數(shù)據(jù)進行標準化處理。R′、F′、M′分別表示標準化后的R、F、M,計算公式如下式(1):
(1)
其中Rmin和Rmin分別表示R的最大值與最小值,F(xiàn)max和Fmin分別表示F的最大值與最小值,Mmax和Mmin分別表示M的最大值與最小值。
2.2 評級和評論的比較
從用戶的生成內(nèi)容中可以分析用戶的情感傾向,從而獲得對其他用戶有用的參考信息。為了確定用戶發(fā)布內(nèi)容的傾向性,一些情感分析的方法已經(jīng)被提出,其中大部分是基于文本分析的[11]。因此,為了探究評價者在評級和評論上的不一致性,本文對評論文本進行短文本情感傾向分析。將評論的情感傾向轉化為可量化的數(shù)字,從而與評級的好(1)、中(0)、差評(-1)進行比較。本文采用的是基于Shen Yang等[12]提出的MBEWC方法進行改進的計算方法。以HowNet[13]情感詞典為基礎,對文本進行分句、分詞、標注、情感處理等后,通過詞語的語義相似度計算,綜合計算短文本的情感傾向。
本文使用HowNet語義相似度計算軟件及其提供的情感和評價詞匯構建模糊情感本體庫,得到正負向兩個情感詞典。每個詞匯對正負向情感詞典有不同的隸屬度。在這里選取隸屬度大的那個情感類作為該詞的情感類,隸屬度最大值就是這個詞的情感強度。若出現(xiàn)隸屬度相同的情況,則將該詞判斷為中性詞。
在中文中,程度副詞經(jīng)常與情感詞一起出現(xiàn)從而改變了情感詞的情感強烈程度。為了更好地分析評論本文中的情感強度,我們設定了一個程度副詞詞典(Degree words dictionary),從HowNet中抽取58個程度副詞并將其分成7類。我們在情感詞的上下文中設置一個大小為5的檢測窗口,如果在檢測窗口中有程度副詞出現(xiàn),則按照表1中所給的賦值相應改變情感詞的情感強度。
表1 程度副詞
否定詞的出現(xiàn)往往會改變情感詞傾向性。同樣從HowNet中人工抽取10個否定副詞建立否定副詞詞典(Negative Words Dictionary)。在情感詞上下文設置了一個大小為5的檢測窗口,若在檢測窗口內(nèi)出現(xiàn)否定詞,就對詞的情感值取反。
綜合上述規(guī)則,每條評論的情感值計算如式(2):
(2)
其中,Sensibility(wk)表示詞匯的情感值(即情感類的隸屬度);l表示否定副詞的個數(shù);valueadv表示程度副詞的取值。
最終每條評論都能得到一個數(shù)值的情感值。為了能更好地與評級進行比較,我們對評論的情感值做一個處理,將情感值大于0的評論歸為好評,情感值小于0的歸為差評,而情感值等于0的歸為中評。
2.3 評級的效用衡量
評級是評價者最基本的評價信息,目前大多數(shù)在線購物網(wǎng)站都使用評級信息來進行商品總體評分計算。不同于簡單的加和計算,為了衡量評價者的評級質(zhì)量,我們使用的方法來源于Brin[14]等提出的用于部分搜索引擎的PageRank算法。本節(jié)使用的方法基于這樣的假設:商品的質(zhì)量可以由多數(shù)原則來衡量。即若一件商品的大多數(shù)評級都為好評,那么我們有理由相信這件商品的質(zhì)量較好;若針對某一商品的大多數(shù)評級為差評,那么這件商品很有可能質(zhì)量很差。
由于評價者的評級是用數(shù)字表示的好、中、差評三種類別,通過針對一個商品的所有評級的頻率分布來計算每個獨立評級的質(zhì)量。根據(jù)評價者對同一商品給出的評級將其分組,組內(nèi)的評價者被認為相互給出最大的支持。組間的支持則由每個評級的不一致性來界定。那么,評級i的質(zhì)量可被定義為QRi,是由所有組對其支持的總和來決定的,具體公式如式(3)所示:
(3)
其中,QRj是評級j的質(zhì)量;Ej,i是評級j對評級i的支持;Ni和Nj分別是給出評級i和評級j的評論者數(shù)量。某個組對其他組及其本身的支持度總和為1。所有QRi的總和也為1。
另外,QRi的置信度由評級的數(shù)量Ni(即對某個商品的某類評級總數(shù))決定?;贑hen[15]等所使用的來源于Breslow[16]等提出的統(tǒng)計指數(shù),如表2所示的分段函數(shù)將用于計算QRi的置信度CRi。
圖2 CR分段函數(shù)
2.4 評論的效用衡量
除了以數(shù)字表示的評級,評價者的評論文本其實包含了更多的信息。我們可以看出評論者滿意或是不滿意的原因等評級無法表達的信息。因此,如何計算評論的效用,是本文研究的一個重點。Hu Nan等[17]認為蘊含較強極性和個人觀點的商品評論可能并不可靠。我們認為,能夠反映大多數(shù)其他消費者觀點的評論才有可能是一篇好的評論。郝媛媛[6]等提出,評論內(nèi)容的正負向情感混雜度對評論有用性存在顯著正向影響,且評論中觀點句的主觀與客觀表達形式的混雜度也對評論有用性存在顯著正向影響。淘寶網(wǎng)在每個商品評價頁面給出了商品評價的總體標簽,包括商品的客觀屬性和主觀評價結果,并且包含了正負向兩種情感傾向,因此我們以淘寶網(wǎng)自身評價頁面的標簽作為標準評論,計算評價者評論與其相似度,以此作為評價者評論的效用。
由于文檔的主題分布是文檔向量空間的單純形映射,所以在文檔的主題表示情況下,計算兩條評論的相似度可以通過計算與之對應的主題概率分布來實現(xiàn)。由于主題是詞向量的混合分布,因而使用KL (Kullback-Leibler)距離作為相似度度量標準。公式如(4):
(4)
其中p和q分別為兩條評論的主題概率分布。但是由于KL距離非對稱,使用變化后的JS (Jensen-Shannon) 距離進行衡量,公式如(5):
(5)
那么第l條評論的質(zhì)量QCl由公式(6)來衡量。其中pl是第l條評論的主題概率分布,而s是標準評論的主題概率分布:
QCl=DJS(pl,s)
(6)
以每個評價者在每個商品所屬品類下的評論個數(shù)比上其所有評論個數(shù)作為評論的置信度CC。
2.5 評價效用指標A測量
在分別得到評級和評論的效用和置信度后,我們對單次評價的效用進行衡量。在衡量單次評價的總體效用時,我們基于這樣的兩個假設:大多數(shù)人的評價是可信的;個人的評論與評級相一致才有可能是好的評價。當評級與評論情感傾向不一致時,即使評論本身的效用很高,我們也認為這次評價不是一個好的評價,因為網(wǎng)站只使用評級對商品進行總體計分,而虛高的總分會使評論閱讀者產(chǎn)生混亂。評價的總價值AQ可由如下公式(7)得出。
(7)
消費者在在線購物網(wǎng)站中購買很多商品,并做出評價反饋,累積了很多歷史評價信息。將評價者的歷史評價效用AQ進行累加并計算均值得到指標A,標準化計算見下式(8):
(8)
其中Amax和Amin分別是A的最大值和最小值。
2.6 RFMA模型權重確定
我們希望對評價者本身的評價能力進行衡量。在RFMA模型下,評價者的整體評價效用可以表示成式(9):
U(ci)=WR×R′(ci)+WF×F′(ci)+WM×M′(ci)+WA×A′(ci)
(9)
其中R(ci),F(xiàn)(ci),M(ci),A(ci)分別表示評價者ci的四個指標值;而WR,WF,WM,WA則分別表示四個指標的權重,且WR+WF+WM+WA=1。
Hughes[19]認為RFM中三個變量權重相等,并未給予不同劃分。但Stone[20]在對信用卡進行實證分析后,認為各個指標的權重并不相同。本文認為這幾個權重存在一定的差異,因此采用層次分析法來進行比較分析,通過兩兩比較矩陣(一致性比例CR=0.0097<0.1)最終得到四個指標的權重分別為:
[WR,WF,WM,WA]=[0.0953,0.1598,0.2773,0.4676]
其中A的權重最大,即認為評級和評論的效用是影響評價者效用高低的最主要因素。
2.7 評價者評價效用衡量
為測試上述提出的機制對評價者整體評價效用分類能力,衡量評價者的整體評價效用,按照Ghose和Ipeirotis[21]提出的方法進行分類。
(1)對評價者是否為好的評價者進行人工標注。我們以人工的方法對評價者評價效用進行區(qū)分。按照這些基本原則:評價的個數(shù)、評級與評論的一致性、評論的篇幅、評論內(nèi)容的客觀性與主觀性。
(2)確定一個合適的分界值θ將評價者分為好的和不好兩類。平均評價效用≥θ的評價者被分類為“好的評價者”,而平均評價效用<θ的評價者被分類為“不好的評價者”。
(3)將模型分類結果與人工分類結果做比較。判斷評價者是否為好的評價者是一種二值分類,借助二維列聯(lián)表計算查準率、查全率及兩者合成的綜合指數(shù),以此來評估模型的效果。見表3。
表3 分類評估列聯(lián)表
其中,好的評價者的查準率:
(10)
好的評價者的查全率:
(11)
綜合指數(shù):
(12)
3.1 數(shù)據(jù)及來源
作為一個C2C網(wǎng)上交易平臺,淘寶在中國擁有最多的商品列表,最高的轉化率,超過8千萬的注冊用戶,以及在2億5千多萬的網(wǎng)民中最高的普及率[22]。因此本實驗選擇淘寶平臺作為數(shù)據(jù)來源。通過編寫爬蟲程序隨機抽取1個店鋪的商品列表頁商品的所有評價者,去掉其中匿名的用戶及歷史購買次數(shù)小于30的用戶。將選取出來的183名評價者作為研究對象,根據(jù)他們的歷史評價記錄進行計算,共得到8303條歷史評論。另外,本文還抽取了所有這些評價者的歷史評價中的商品的所有評價(剔除無效數(shù)據(jù))共852071條。所有的數(shù)據(jù)收集工作在2014年5月24到6月7日之間完成。數(shù)據(jù)抓取的結構圖見圖1。
圖1 數(shù)據(jù)抓取結構
3.2 情感詞典的構建
從HowNet提供的情感詞匯和評價詞匯表中,我們抽取了與網(wǎng)上購物評價相關的正負向詞匯,其中正向詞匯1131個,負向詞匯1710個。所有183個用戶的歷史評論數(shù)據(jù)進行分詞、去除停用詞等預處理后,利用HowNet提供的語義相似度計算軟件分別與正負向詞匯進行相似度計算,分別得到正負向相似度詞典,格式為(詞1,詞2:相似度)。在兩個詞典中,對同一個詞只保留相似度最大的那一行,最終得到正負向情感詞典。
3.3 評論文本效用計算
LDA主題模型的Gibbs Sampling方法已經(jīng)有了各種實現(xiàn),本文使用Matlab軟件的topictoolbox工具包進行計算。我們將進行分詞、去停用詞等預處理后的文本數(shù)據(jù)處理成工具包所需的輸入形式。對于所考察的183名評價者,分別對其所有的評價進行評論文本的衡量,得到每條評論與標準評論的相似度,作為評論文本的效用。
我們的實驗分成兩部分:第一部分是對于原始評級和評論及其區(qū)別的觀察;第二部分則是對于我們所構建的評價效用機制的實現(xiàn)和分析。
4.1 評級和評論的不一致性
對于每個評價者,我們分別統(tǒng)計了他們歷史評價中的好、中、差評的個數(shù),以及進行了情感分析后的評論數(shù)據(jù)中得分為1、0、-1的個數(shù),結果如下圖2(a)、2(b)所示。
圖2(a) 評價者評級的好、中、差評分布
圖2(b) 評價者評論(情感分析后)的好、中、差評分布
從圖2(a)中可以直觀地看出,原始的評級基本上集中在好評,中評和差評很少。進行了情感分析后,圖2(b)顯示了評級的分布向中評和差評軸偏移,也就是中評和差評的個數(shù)變多了。這種現(xiàn)象符合我們對在線購物評價的認知:消費者在評級時往往不能真實表達自己的感受,習慣性好評或是擔心被商家報復而給予好評;在文字評論中,消費者能夠直接表達真實的評價信息。這是由于現(xiàn)有的在線購物評價系統(tǒng)只以評級作為商品總分計算的來源造成的。
同時,我們計算了評級和評論(情感分析后)的好、中、差評個數(shù)的歐氏距離,并畫出其概率密度曲線,見圖3和圖4??梢钥吹皆u價者評級與評論的不一致性的分布具有長尾現(xiàn)象,大部分的評價者具有一定的不一致性,完全一致和完全不一致的評價者較少。這也符合我們對現(xiàn)實中評價者的認知,評價者們并不會完全隱藏自己的真實感情。
圖3 評級與評論好、中、差評的歐氏距離(標準化后)
圖4 概率密度分布
為了更進一步地分析評級與評論的不一致性,我們將不同的商品歸結為鞋服配飾類、手機數(shù)碼類、彩妝個護類、母嬰用品類、家居物業(yè)類、食品類、運動戶外用品類與花鳥文娛類這八個大類,分別探究評價者對不同類別商品的評級與評論的好、中、差評分布情況。圖5選取了其中最為典型的鞋服配飾類、彩妝個護類與家居物業(yè)類這三個類別進行展示。同時將評價者進行編號,方便比較,可以看到如G1、J10、F16等點都發(fā)生了較大的偏移。整體來說,鞋服配飾類的偏移最大,居家物業(yè)類次之,彩妝個護類
圖5 rating-1到rating-3分別是評價者評級在鞋服配飾類、彩妝個護類與居家物業(yè)類的好中差評分布;sentiment-1到sentiment-3分別是評價者評論(情感分析后)在鞋服配飾類、彩妝個護類與居家物業(yè)類的好中差評分布
最小。這是因為鞋服配飾類的商品與賣家質(zhì)量參差不齊,也是消費者的購買主體,導致出現(xiàn)的評價差異很大,往往包含較多的不一致現(xiàn)象。而彩妝個護類的商品使用效果具有較大的個體差異性,評價者所給出的評價也帶有較強的主觀性,反而能夠較為真實地反映情感傾向。
進一步地,我們可以從圖6對三種評級的均值看出,經(jīng)過情感分析后,中評變化不大,但是差評個數(shù)卻是增加了。
通過對評價者評級與評論的不一致性結果進行分析,并對原始數(shù)據(jù)進行觀察,我們對評價者評級與評論的不一致性的原因進行了總結:(1)評價者擔心負面的評級會遭到賣家的報復而選擇正面的評級,但在評論里表達了自己的負面情感;(2)評價者的個體標準差異性導致評論里表達對商品較為滿意,評級卻是中差評;(3)操作誤差。
圖6 情感分析前后好中差評均值
4.2 評價者評價效用分析
為了衡量評價者的評價效用,區(qū)分評價者的評價能力,我們按照前述方法對其進行模型分類與人工分類的比較。對只用評級效用、只用評論效用、使用評論效用、RFM模型效用、RFMA模型效用這五者都分別進行分類比較,見表4、5、6、7、8。
分別計算得到好的評價者的查準率、查全率和綜合指數(shù)見下表9。
表4 分類評估列聯(lián)表(評級效用)
表5 分類評估列聯(lián)表(評論效用)
表6 分類評估列聯(lián)表(評價效用)
表7 分類評估列聯(lián)表(RFM模型效用)
表8 分類評估列聯(lián)表(RFMA模型效用)
表9 評價者分類計算結果
從表中結果可以看出,雖然在查準率方面稍遜于以RFM模型效用來區(qū)分的分類效果,但是在查全率和綜合指數(shù)上,結合了評級和評論的評價效用機制要遠遠優(yōu)于其他幾種方法。說明本文提出的機制對于是否為好的評價者有較強的區(qū)分能力。
本文以中國最大的在線購物網(wǎng)站淘寶網(wǎng)為數(shù)據(jù)來源,以為評價閱讀者及時提供評價效用,并幫助評價閱讀者區(qū)別評價者的評價能力為目標,結合文本挖掘中的情感分析和LDA主題模型研究方法,引入客戶營銷模型RFM,結合評級和評論兩種信息,提出以RFMA模型對評價者評價效用進行衡量的機制,并據(jù)此對評價者進行分類,區(qū)分好與不好的評價者。該機制不僅能夠幫助消費者從海量評價信息中識別出具有價值的部分,還能結合評級和評論兩種信息來提升消費者的決策效率。另外,潛在消費者在閱讀評價時,除了看重評價本身的效用,還關注評價者的評價能力,即評價者是否為好的評價者。基于RFM模型提出的RFMA模型為評價者的評價效用衡量找出了新的機制,并且可以作為購物平臺實現(xiàn)對評價者進行分類的基礎,為進一步完善現(xiàn)有的信譽系統(tǒng)提供了新的思路。實驗結果表明,本文提出的機制對于區(qū)分評價者具有很好的效果。
在研究過程中發(fā)現(xiàn),標準評論的選取會對評論的效用結果產(chǎn)生較大的影響。本文選取的是淘寶評價頁面的標簽,在后續(xù)研究中,可以通過自主提取標簽來改進研究結果。另外,由于LDA主題模型需要預先設定主題個數(shù),主題個數(shù)對于詞項的分布有較大的影響,如何科學地確定有效的主題個數(shù)也是后續(xù)需要開展的研究。
[2] J?sang A, Ismail R, Boyd C.A survey of trust and reputation systems for online service provision[J].Decision support systems, 2007, 43(2): 618-644.
[3] Park D H, Lee J, Han I.The effect of on-line consumer reviews on consumer purchasing intention: The moderating role of involvement[J].International Journal of Electronic Commerce, 2007, 11(4): 125-148.
[4] Chen Mao, Singh J P.Computing and using reputations for internet ratings[C]//Proceedings of the 3rd ACM conference on Electronic Commerce.Tampa,Florida,USA,October 14-17,2001.
[5] Dellarocas C.The digitization of word of mouth: Promise and challenges of online feedback mechanisms[J].Management science, 2003, 49(10): 1407-1424.
[6] 郝媛媛, 葉強, 李一軍.基于影評數(shù)據(jù)的在線評論有用性影響因素研究[J].管理科學學報, 2010, 13(8): 78-88.
[7] Harrison-Walker L J.The measurement of word-of-mouth communication and an investigation of service quality and customer commitment as potential antecedents[J].Journal of Service Research, 2001, 4(1): 60-75.
[8] 楊銘, 祁巍, 閆相斌.在線商品評論的效用分析研究[J].管理科學學報, 2012, 15(5): 65-75.
[9] Ghose A, Ipeirotis P G.Designing novel review ranking systems: Predicting the usefulness and impact of reviews[C]//Proceedings of the ninth international conference on Electronic commerce,Minneapolis,MN,USA,August 19-22,2007.
[10] 蔡淑琴, 馬玉濤, 王瑞.在線口碑傳播的意見領袖識別方法研究[J].中國管理科學, 2013, 21(2): 185-192.
[11] Rabelo J C B, Prudêncio R C B, Barros F A.Leveraging relationships in social networks for sentiment analysis[C]//Proceedings of the 18th Brazilian symposium on Multimedia and the Web,S?o Paulo,Brazil,October 15-18,2012.
[12] Shen Yang, Li Shuchen, Zheng Ling, et al.Emotion mining research on micro-blog[C]//Proceedings of 1st IEEE Symposium on Web Society,Lanzhou,China,August 23-24,2009.
[13] 劉群,李素建.基于知網(wǎng)的詞匯語義相似度的計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002.
[14] Brin S, Page L.The anatomy of a large-scale hypertextual Web search engine[J].Computer networks and ISDN systems, 1998, 30(1): 107-117.
[15] Chen Mao, Singh J P.Computing and using reputations for internet ratings[C]//Proceedings of the 3rd ACM conference on Electronic Commerce,Tampa,Florida,USA,October 14-17,2001.
[16] Breslow N E, Day N E.Statistical methods in cancer research[M].Lyon: International Agency for Research on Cancer, 1987.
[17] Hu Nan, Pavlou P A, Zhang Jie.Can online reviews reveal a product's true quality?: Empirical findings and analytical modeling of Online word-of-mouth communication[C]//Proceedings of the 7th ACM conference on Electronic Commerce,Ann Arbor,Michigan,USA,June 11-15,2006.
[18] Blei D M, Ng A Y, Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research, 2003, 3: 993-1022.
[19] Hughes AM.Boosting response with RFM[J].American Demographics, 1996, 5: 4-9.
[20] Stone B, Jacobs R.Successful direct marketing methods[M].Lincolnwood, IL: NTC Business Books, 1988.
[21] Ghose A, Ipeirotis P G.Designing novel review ranking systems: Predicting the usefulness and impact of reviews[C]//Proceedings of the ninth international conference on Electronic commerce,Minneapolis,MN,USA,August 19-22,2007.
[22] Ou C X, Davison R M.Technical opinion Why eBay lost to TaoBao in China: The glocal advantage[J].Communications of the ACM, 2009, 52(1): 145-148.
Rater Utility Mechanism Research Based On Online Rating and Comment
SHI Xiao-jing1, LIANG Xun1, SUN Xiao-lei2
(1.School of Information, Renmin University of China, Beijing 100872, China;2.Institute of Policy and Management, Chinese Academy of Sciences, Beijing 100190, China)
Appraisals for products and services are increasingly important on the Internet, as they eliminate consumers’ uncertainty, and help them to make purchase decision.Raters’ appraisals for products are divided into ratings and comments in most online shopping sites.The existing online reputation system and appraisal studies tend to focus on the user rating or comment respectively, but ignore the organic unification between them.User ratings do not fully reflect users’ real evaluation, as they are inclined to express their true feelings by comments.On the basis of the 852071 appraisal captured from Taobao, this paper proposes RFMA model to calculate raters’ appraise quality, which combines RFM model and considers two kinds of information containing rating and comment by analyzing the inconsistency of rating and comment.Then the good raters and bad raters are distinguished, and further support for consumer purchase is provided.The proposed RFMA model finds a new mechanism for measuring raters’ effectiveness.It can be used as a basement for shopping platform to classify the raters, and provide a new way of thinking to further improve the existing online reputation system.Through analyzing all of the raters, it can be concluded that the mechanism of combining the comments is more available and effective.
inconsistency of rating and comment; appraise; rater; RFMA
1003-207(2016)05-0149-09
10.16381/j.cnki.issn1003-207x.2016.05.017
2014-06-27;
2014-12-21
國家自然科學基金資助項目(71531012,71271211);京東商城電子商務研究項目(413313012);北京市自然科學基金資助項目(4132067);中國人民大學品牌計劃項目(10XNI029)
簡介:梁循(1965-),男(漢族),北京人,中國人民大學信息學院教授,研究方向:數(shù)據(jù)挖掘、網(wǎng)絡金融、社會計算,E-mail:xliang@ruc.edu.cn.
F272.5
A