段軼軒, 羅澤舉
(重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,重慶 400067)
對商品在線評論的研究伴隨著電子商務(wù)網(wǎng)站的崛起而興起。國內(nèi)外在這一領(lǐng)域的研究熱點主要集中在:(1) 評論內(nèi)容對在線評論效用的影響,如:嚴建援等[1],通過對221個評論文本采用回歸分析的方法研究了在線評論內(nèi)容對評論有用性的影響,結(jié)果發(fā)現(xiàn)評論深度越深、越客觀,效用越高;而在評論中涉及到越多的個人情感,效用反而越低,評論傳達的情感強度與效用關(guān)系不顯著;文獻[2]采用文本挖掘相關(guān)技術(shù),對在線商品評論進行情感極性的抽取,進而對其進行有用性打分,去輔助購物者更好的做購物決策;(2) 在線商品評論是企業(yè)競爭情報重要來源,如:施國良等[2]討論了產(chǎn)品評論的預(yù)處理并從行業(yè)監(jiān)測、用戶研究、企業(yè)自身以及競爭對手分析4個方面分別探討了產(chǎn)品評論挖掘在企業(yè)競爭情報中的具體應(yīng)用。(3) 在線商品評論與購買行為的研究,如:鄭媛媛[4]分別從在線評論的數(shù)量和情感極性對消費者總體購買行為的絕對影響和相對影響、評論的情感極性對商品類別調(diào)節(jié)作用的不對稱性、構(gòu)建在線評論感知有用性的影響因素模型,提高評論有用性的分類識別能力、造成評論沒有有用性的原因和因素4個方面研究了在線商品評論與消費者購買行為的關(guān)系。(4) 在線評論的價值研究綜述,如:楊銘等[5]是對在線評論最新的研究進展進行綜述的文章,對商品評論的效用從評價目標、評價特征、評價技術(shù)和評價對象4個維度進行劃分,進一步地,將評價目標劃分為排序、匯總和分類;評價特征劃分為語法特征、語義特征、體裁特征、元數(shù)據(jù);評價技術(shù)劃分為機器學(xué)習(xí)和相似度得分;評價對象分為實用型商品和享受型商品。認為對商品在線評論的研究要充分關(guān)注消費者的購買決策過程,進行設(shè)計新的數(shù)據(jù)挖掘方法更好地輔助消費者的購買決策。(5) 商品評論與商品銷量的關(guān)系。如:鄭媛媛[6]在面板數(shù)據(jù)環(huán)境下分析了商品在線評論情感傾向與商品銷售收入的關(guān)系,以揭示在線口碑勸說作用對消費者總體購買行為的影響機理。分析結(jié)果表明,僅在電影發(fā)布后第3周,在線評論的情感傾向?qū)﹄娪捌狈渴杖氪嬖陲@著影響,且極端好評的影響力大于極端差評的影響力。
創(chuàng)新點在于對商品在線評論從帳號的角度進行數(shù)據(jù)匯總,對參與京東商城在線商品評論的人群進行聚類,發(fā)現(xiàn)不同類人群的評論特征。進一步地對京東商城的運營狀況站在帳號在線商品評論的層面進行推測。
數(shù)據(jù)來自2013年5月12日從京東商城網(wǎng)頁摘取的2萬個賬戶的在線評論數(shù)據(jù),使用mysql數(shù)據(jù)庫對數(shù)據(jù)進行存取、社區(qū)版pentaho商業(yè)智能分析套件中的WEKA[7]進行聚類算法的實現(xiàn)和聚類算法的評估。在算法選取中,使用混合模型的聚類思想,并使用EM算法予以實現(xiàn);同時,使用SimpleKMeans作為對照算法。在聚類評估中,引入基于似然度的聚類算法評估準則作為聚類算法選取標準。具體來源可以從WEKA源代碼中weka.clusterers.ClusterEvaluation和weka.clusterers. MakeDensityBasedClusterer兩個類中找到,方法也是WEKA官方使用手冊中推薦的聚類算法評估準則。
大多數(shù)聚類算法都會對每一個個體分派一個簇,在得到不同的簇以后,對每一個簇構(gòu)建一個概率分布,這里假定每一個簇中的樣本屬性間相互獨立,數(shù)值屬性服從正態(tài)分布、名詞性屬性則構(gòu)建一個離散分布。這樣,在聚類以后,就可以對不同的簇分派一個明確的概率分布。根據(jù)極大似然估計的啟示,可以構(gòu)建一個基于對數(shù)似然取值的評估函數(shù)。
假定隨機變量x=(x(1),x(2),…,x(n))g(x(i))為隨機變量x每一個屬性的概率密度(或質(zhì)量)函數(shù),其中,概率密度函數(shù)對應(yīng)的是正態(tài)分布。x在簇j的聯(lián)合概率密度函數(shù)由公式(1)給出。
(1)
(2)
在公式(2)中:wi是每一個簇的優(yōu)先概率
max(A(x))=max(ln (w1f1(x|θ1)),ln (w2f2(x|θ2)),…,ln (wKfK(x|θK)))
A(x)=[ln (w1f1(x|θ1)),ln (w2f2(x|θ2)),…,ln (wKfK(x|θK))]
A[i]是A(x)的第i個分量
(3)
d(x)是個體在每一次聚類算法結(jié)束后,在其所在的簇分布的一個測度,值越大,說明這個個體在這個簇分布中出現(xiàn)的概率越大。公式(3)則是一組測試樣本在每一次聚類算法結(jié)束后對聚類算法效果的測度,即log_likelihood的取值反映了數(shù)據(jù)集擬合這些簇的程度。取值越大,說明擬合效果越好(注:上述公式是使用java程序在DEBUG模式下調(diào)用了WEKA 的API中weka.clusterers.ClusterEvaluation類的靜態(tài)方法evaluateClusterer得到的)。
實際在對不同聚類算法進行評估時,將數(shù)據(jù)隨機劃分為k個互不相交的子集D1,D2,…,Dk,每一個子集的大小大致相等。訓(xùn)練和測試進行k次。在第i次迭代,劃分Di用做檢驗集,其余的劃分一起用來訓(xùn)練模型。也就是說,在第一次迭代,子集D2,D3…,Dk一起作為訓(xùn)練集,得到第一個模型,并在D1上檢驗,得到一個似然度的取值;第二次迭代在子集D1,D3…,Dk上訓(xùn)練,并在D2上檢驗,得到另外一個似然度的取值;這樣,一種算法作用在一個數(shù)據(jù)集上就會產(chǎn)生k個似然值。
如上所述,每一個聚類算法作用在一個數(shù)據(jù)集上便會產(chǎn)生一組似然值,這樣,兩個聚類算法作用在一個數(shù)據(jù)集的評估就變成兩組似然值均值的比較問題;統(tǒng)計學(xué)中,成對雙樣本t-檢驗,正是為了這一場景設(shè)計的。算法評估就是按照上述流程進行的。
使用java語言并使用jsoup-1.6.3、spring-3.2、hibernate-4.17等諸多框架包進行web數(shù)據(jù)提取應(yīng)用程序的書寫,使用mysql數(shù)據(jù)庫進行數(shù)據(jù)的存儲,并利用Spring開啟事務(wù)功能,確保數(shù)據(jù)收集的完整性(注:一個賬戶自身信息以及對應(yīng)的評論數(shù)對應(yīng)多次數(shù)據(jù)插入操作,因此,將多個Dao集成到一個Service中,將該層開啟事務(wù)功能,確保出現(xiàn)特殊情況,能夠回滾,以免造成數(shù)據(jù)缺失)。數(shù)據(jù)以2張一對多關(guān)系的表結(jié)構(gòu)形式進行存儲。抓取數(shù)據(jù)的流程圖(圖1)。
具體字段信息如表1、表2。
圖1 抓取數(shù)據(jù)流程圖
表1賬戶表字段信息
屬性屬性類型帳號ID數(shù)值型用戶名名詞型帳號等級名詞型帳號所在地名詞型回復(fù)總數(shù)數(shù)值型
實際提取賬號的數(shù)據(jù)量是19 887條,評論表的數(shù)據(jù)量是123 655條;然后,通過SQL語句將數(shù)據(jù)匯總成表3中字段對應(yīng)的數(shù)據(jù),并剔除一些異常屬性值,最終,便得到4 689條數(shù)據(jù)。這些人都是至少發(fā)表過1篇以上評論的人群。根據(jù)這些數(shù)據(jù),發(fā)現(xiàn)大約有23.6%的京東賬戶發(fā)表過在線商品評論。表3字段信息如下:
表2 評論表字段信息
表3 聚類屬性信息
注:(聚類時,賬戶等級除外;平均_使用字數(shù)_優(yōu)點是指帳號在對商品的優(yōu)點進行評論時,所有評論使用字數(shù)的均值;其他類似選項依次類推)
根據(jù)算法評估體系,得到聚類算法評估表4(注:詳細操作步驟見WEKA官方手冊中Cluster Experiments章節(jié)介紹):
表4 聚類算法評估表
選取k=10進行分層交叉校驗,做出一個樣本量為10的成對T檢驗,表4是每一個算法分別取似然值均值的結(jié)果。根據(jù)檢驗結(jié)果,我們發(fā)現(xiàn)EM算法在95%的顯著性水平下優(yōu)于SimpleKmeans。因此,選取EM算法。
聚類結(jié)果見表5,優(yōu)先概率見表6。
表5 簇的均值特征
注:表中數(shù)據(jù)對應(yīng)各個分布簇修正后的對應(yīng)屬性均值
表6 優(yōu)先概率
第一類簇:絕大多數(shù)只發(fā)表了一篇評論,他們在最近一次評論距信息提取日天數(shù)的取值是所有簇中最大的,評分均值最低,但是,單位回復(fù)率(注:單位回復(fù)率=總回復(fù)數(shù)/總的評論數(shù))最高。在對購物體驗進行評論時,使用的字數(shù)最多,特別是在缺點的評價中,在所有簇中最高。他們的評論時間一般在購物后一個月進行,與除第二類以外的簇相當(dāng)。
人群推測如下:流失風(fēng)險最高,并且發(fā)表的評論,特別是負面的評論受到了其他購物者廣泛的關(guān)注,大量在缺點上的評論文字似乎在宣泄對這次購物體驗的不滿,這類人群發(fā)表評論的時間一般在購物后一個月進行,說明從評論的謹慎態(tài)度而言,還是比較謹慎的。
第二類簇:發(fā)現(xiàn)占比最大的簇是第二類簇,特征概括如下:他們購買體驗滿意度最高,但是,平均來說,他們只是發(fā)表了5篇評論,在對購物體驗的優(yōu)、缺點進行評論時,使用字數(shù)差不多,并且使用字數(shù)很短,平均來說只有9個字。在所有的簇中,這類人群的購物時間與評論時間的間隔最短,說明他們未經(jīng)過足夠長的商品體驗就發(fā)表了評論。
人群特征推測如下:這類人群對商品評論的態(tài)度較隨意,未對商品進行較長時間的體驗就給予購物體驗較高的評分導(dǎo)致了評論質(zhì)量不高,這一點可以從單位回復(fù)率得到驗證,他們嘗試過但并未對發(fā)表商品評論給予過多的關(guān)注。
第三類簇:他們的人數(shù)僅次于第二類簇,平均來說,他們發(fā)表的評論總數(shù)大概有40條左右,滿意度僅次于第二類簇。他們雖然在評論時使用的字數(shù)較簡短,但是,他們是經(jīng)過了對商品最長的考察期后,才對商品進行了評論。這類人群對待評論的態(tài)度謹慎。
人群特征推測如下:這類人對評論的態(tài)度謹慎,這一點也可以從他們的評論單位回復(fù)率得到佐證,他們會顧忌到自己的評論對他人造成的購物影響,他們是發(fā)表商品評論的中間力量。
第四類簇:評論發(fā)燒友的代表,他們不但發(fā)表了大量的評論并且最近一次評論距信息提取日的天數(shù)最近,評分均值在4.5分以上,然而,較高的評論熱情并沒有體現(xiàn)在書寫評論字數(shù)的層面,他們大概在購買商品一個月后對商品進行評價,評論的態(tài)度也較為謹慎。
第五類簇:人群評分的均值在4.1分左右,僅高于第1類簇,并且最近一次評論距信息提取日天數(shù)的均值較大,僅低于第1類簇,發(fā)表評論在優(yōu)、缺點的字數(shù)相對均衡,但是,很顯然,他們在缺點的評論字數(shù)上僅次于第一類人群。
人群特征推測如下:雖然評論態(tài)度較第一類人群較為溫和,但是,他們的流失風(fēng)險僅次于第一類人群。
在提取的19 887個帳號中,銅牌及以上的會員占到會員總量的22.71%,發(fā)表過評論的銅牌及以上會員占該類用戶總數(shù)的70%以上。雖然營銷理論中著名的“二八原則”未必在電商行業(yè)適用,但對發(fā)表過評論的銅牌及以上會員單獨提取出來去察看上述5類簇在對應(yīng)等級會員中的分布情況。圖2給出已發(fā)表過評論的銅牌及以上會員屬于各個簇的分布。
圖2 結(jié)合賬戶等級餅圖
(1) 站在帳號滿意度層面,京東商城的運營狀態(tài)基本良好。首先,第二、三、四類簇占比為76.2%。鉆石及以上會員和金牌會員分別屬于第一類簇和第五類簇的比例為16%和11%,占比偏低;鉆石及以上會員和金牌會員潛在的流失比列在16%和11%左右;應(yīng)該對這類人群予以特別的挽留,同時,也反映出京東商城也存在相當(dāng)比例高級客戶流失風(fēng)險。
(2) 根據(jù)查金詳[8]的研究,得推論:發(fā)表評論意味著賬戶會將更多的感情投入到電子商務(wù)網(wǎng)站,會提高賬戶對電子商務(wù)網(wǎng)站的忠誠度。在已發(fā)表過評論的金牌會員和鉆石及以上會員中,25%的金牌用戶以及36%的鉆石以上會員都是評論發(fā)燒友。從這一點可以發(fā)現(xiàn),京東商城正在培育出一批忠誠度高、消費能力旺盛的客戶群。而在不同等級的會員中,發(fā)燒友占比隨會員等級的下降而下降,這一點再次驗證了上述推論的正確性。
(3) 在發(fā)表商品評論時,那些字數(shù)很長并且針對缺點的評論受到了購物人群廣泛的關(guān)注;雖然針對缺點的評論會在短期內(nèi)一定程度上壓抑消費者購買商品的可能性,但是,從長期來看,運用一種積極、主動的方式對待這類評論對客戶忠誠度的構(gòu)建應(yīng)該是正面的。特別是,對高等級客戶發(fā)表的負面評論,要給予足夠的重視。
參考文獻:
[1] 嚴建援. 電子商務(wù)中的在線評論內(nèi)容對評論有用性影響的實證研究[J]. 情報科學(xué),2012,30(5):714-716
[2] ZHANG Z.Weighingstar:Aggregating Online Product Reviews for Intelligent E-commerce Applications[J].Ieee Intelligent Systems,2008,23(5):42-49
[3] 施國良,程楠楠.Web環(huán)境下產(chǎn)品評論挖掘在企業(yè)競爭情報中的應(yīng)用[J].情報雜志,2011,30(11):11-14
[4] 鄭媛媛. 在線評論對消費者感知與購買行為影響的實證研究[D].哈爾濱:哈爾濱工業(yè)大學(xué)博士論文,2010
[5] 楊銘. 在線商品評論的效用分析研究[J]. 管理科學(xué)學(xué)報,2012,15(5):66-74
[6] 鄭媛媛. 基于電影面板數(shù)據(jù)在線評論情感傾向?qū)︿N售收入影響的實證研究[J].市場營銷,2009,21(10):95-103
[7] MARK H,EIBE F,GEOFFREY H. The Weka Data Mining Software:An Update[J]. Sigkdd Explorations,2009(11):10-18
[8] 查金詳. B2C電子商務(wù)顧客價值與顧客忠誠度的關(guān)系研究[D].鄭州:浙江大學(xué)博士論文,2006