楊 弦, 駱 丹, 吳江寧
(1.東北財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,遼寧 大連 116025; 2.大連理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116024)
隨著用戶生成內(nèi)容這種網(wǎng)絡(luò)信息模式的普及,越來越多的用戶選擇通過各種社交媒體分享購物體驗(yàn)、對(duì)產(chǎn)品和服務(wù)進(jìn)行評(píng)價(jià),以供其他用戶參考。目前,各類電子商務(wù)網(wǎng)站積累了海量的在線評(píng)論。一方面,這些在線評(píng)論作為產(chǎn)品的網(wǎng)絡(luò)口碑,可指導(dǎo)消費(fèi)者做購買決策[1-3];另一方面,評(píng)論數(shù)量巨大,動(dòng)輒幾十萬條,使得消費(fèi)者難以通過閱讀全部評(píng)論來感知商品的真實(shí)質(zhì)量。由于信息嚴(yán)重過載,目前的電子商務(wù)網(wǎng)站提供了簡單的評(píng)論排序功能,消費(fèi)者只能選擇按照如,時(shí)間、好評(píng)、點(diǎn)贊數(shù)等,展示順序閱讀部分評(píng)論,使之只能用不完全信息或片面信息來做決策,由此引發(fā)消費(fèi)者不良的購物體驗(yàn)。因此,用更加科學(xué)的手段基于消費(fèi)者的不同偏好,提供個(gè)性化評(píng)論排序顯得尤為必要。
目前關(guān)于評(píng)論排序的研究大多是面向消費(fèi)者群體、無差異化地生成非個(gè)性化的評(píng)論排序。學(xué)者們提出了多種評(píng)論排序方法。如:Ghose等[4]基于計(jì)量經(jīng)濟(jì)學(xué)模型提出了兩種評(píng)論排序機(jī)制:一種是面向消費(fèi)者,基于評(píng)論有用性進(jìn)行排序;另一種是面向商家,基于評(píng)論對(duì)銷量的影響進(jìn)行排序。Zhang等[5]提出了一種改進(jìn)的步進(jìn)式優(yōu)化算法,用于最大化評(píng)論排序列表與評(píng)論整體好評(píng)率之間的一致程度,最終得出一致程度最高的評(píng)論排序列表作為排序結(jié)果;Chen等[6]在上述研究的基礎(chǔ)上,考慮了評(píng)論有用性因素,提升了排序結(jié)果的采納程度。
隨著“顧客至上”的服務(wù)理念和大數(shù)據(jù)技術(shù)的快速發(fā)展,個(gè)性化服務(wù)日漸興盛,根據(jù)消費(fèi)者個(gè)體差異化的興趣偏好和行為習(xí)慣,“定制”生成相應(yīng)的評(píng)論排序顯然更加符合消費(fèi)者需求,然而,目前鮮有研究關(guān)注了面向消費(fèi)者個(gè)體、差異化地生成個(gè)性化評(píng)論排序的問題。消費(fèi)者偏好包括很多維度,綜合考慮各種維度可以更加立體地刻畫消費(fèi)者偏好,從而精準(zhǔn)地生成個(gè)性化的評(píng)論排序。因此,如何從多維度挖掘消費(fèi)者偏好,并將其加入評(píng)論排序模型用于生成排序結(jié)果,是本文的研究重點(diǎn)。
基于上述分析,本文基于消費(fèi)者多維度偏好,提出了一種度量方法,用于計(jì)算評(píng)論排序的消費(fèi)者偏好滿意度,從而將評(píng)論排序問題轉(zhuǎn)化為優(yōu)化問題,優(yōu)化目標(biāo)是最大化期望滿意度,從而得到對(duì)應(yīng)的最優(yōu)排序。由于該優(yōu)化問題無法精確求解,本文提出了一種基于改進(jìn)貪婪算法的近似求解算法。文中采用酒店團(tuán)購網(wǎng)站上的真實(shí)數(shù)據(jù)對(duì)算法進(jìn)行檢驗(yàn),結(jié)果表明本文提出的方法得到的產(chǎn)品評(píng)論排序結(jié)果具有更高的消費(fèi)者偏好滿意度,且對(duì)偏好變化較為敏感。
理論上,本文提出的基于消費(fèi)者多維偏好的個(gè)性化評(píng)論排序方法擴(kuò)展了目前評(píng)論排序方法的研究?,F(xiàn)實(shí)中,研究結(jié)果也可幫助消費(fèi)者依據(jù)個(gè)人偏好,高效、準(zhǔn)確的了解產(chǎn)品網(wǎng)絡(luò)口碑,提高消費(fèi)者購買效率和滿意度;同時(shí),本文設(shè)計(jì)的排序方案對(duì)電商平臺(tái)改進(jìn)用戶評(píng)論系統(tǒng),提高用戶粘性有著重要的現(xiàn)實(shí)指導(dǎo)意義。
全面地刻畫消費(fèi)者多維度偏好是進(jìn)行個(gè)性化評(píng)論排序的基礎(chǔ),有助于消費(fèi)者在海量評(píng)論中快速獲取感興趣、有價(jià)值的信息,從而做出購買決策?;谙M(fèi)者閱讀評(píng)論時(shí)的行為習(xí)慣以及關(guān)注的信息,本文主要考慮三個(gè)維度的消費(fèi)者偏好:
(1)產(chǎn)品特征偏好
圖1 產(chǎn)品特征偏好示例
消費(fèi)者在瀏覽產(chǎn)品評(píng)論時(shí),對(duì)于評(píng)論中所提及的產(chǎn)品各種特征的關(guān)注程度是有差異的,以酒店為例,商務(wù)人士會(huì)更加關(guān)注酒店所處的位置交通是否便利,而學(xué)生則會(huì)對(duì)酒店的性價(jià)比等信息更感興趣,這種對(duì)于產(chǎn)品不同特征細(xì)粒度的偏好,稱為產(chǎn)品特征偏好。關(guān)于消費(fèi)者產(chǎn)品特征偏好挖掘的研究方法基本上都依賴于消費(fèi)者的歷史行為數(shù)據(jù),主要包括評(píng)論打分信息和評(píng)論內(nèi)容[7,8]兩大類。這種方法會(huì)面臨冷啟動(dòng)問題,即當(dāng)消費(fèi)者沒有歷史數(shù)據(jù)時(shí),我們將無法挖掘其偏好,因此,本文設(shè)計(jì)了一套機(jī)制,用于直接獲取消費(fèi)者的產(chǎn)品特征偏好。
假設(shè)某產(chǎn)品有m個(gè)特征,對(duì)于每個(gè)特征的感興趣程度可以用一個(gè)5維的Likert量表表示,其中1表示很不感興趣,5表示很感興趣,這樣就可以用一個(gè)m維向量來表示消費(fèi)者的產(chǎn)品特征偏好。例如,某消費(fèi)者對(duì)于酒店5個(gè)特征(位置、服務(wù)、衛(wèi)生、設(shè)施和性價(jià)比)的感興趣程度如圖1所示,可以表示為特征偏好向量PFea=(2,1,5,4,5)。
(2)評(píng)論情感偏好
現(xiàn)實(shí)中,消費(fèi)者不僅關(guān)心評(píng)論是否談及感興趣的產(chǎn)品特征,評(píng)論是否客觀、有用對(duì)其也同樣重要[9],這種對(duì)一條評(píng)論喜歡或不喜歡的情感傾向,我們將其定義為評(píng)論情感偏好。目前網(wǎng)站通常會(huì)把點(diǎn)贊數(shù)多的評(píng)論排在前面,但排序靠前的評(píng)論由于被瀏覽的可能性更大,獲得的點(diǎn)贊數(shù)也會(huì)相應(yīng)更多,產(chǎn)生馬太效應(yīng),使得點(diǎn)贊數(shù)無法客觀反映消費(fèi)者的評(píng)論情感偏好。評(píng)論有用性是消費(fèi)者對(duì)之前評(píng)論者發(fā)布的評(píng)論是否有助于自己制定購買決策的一種主觀感知,大量研究表明,評(píng)論有用性與評(píng)分星級(jí)、文本情感、評(píng)論時(shí)間間隔和評(píng)論者信息等因素相關(guān),本文利用現(xiàn)有的如回歸分析等方法,進(jìn)行模型訓(xùn)練和有用性預(yù)測,得到每條評(píng)論的有用性得分,刻畫消費(fèi)者的評(píng)論情感偏好。
(3)評(píng)論瀏覽數(shù)量偏好
(1)單條評(píng)論的消費(fèi)者偏好滿意度
在計(jì)算單條評(píng)論的消費(fèi)者偏好滿意度之前,需要先對(duì)每條評(píng)論做以下處理:
1)挖掘評(píng)論的特征分布情況,當(dāng)給定某類產(chǎn)品的評(píng)論信息時(shí),其領(lǐng)域特征詞典F={f1,f2,…,fm}可以利用特征提取方法得出,其中fi表示一類具有相似含義的特征詞,每條評(píng)論可以表示為一個(gè)特征分布向量r=(rf1,rf2,…,rfm),其中rfi表示評(píng)論r中屬于特征fi的特征詞數(shù);
2)評(píng)論的情感偏好滿意度用有用性得分表示,現(xiàn)有研究大多采用對(duì)數(shù)線性回歸模型,反映各影響因素和評(píng)論有用性之間的關(guān)系。由于單條評(píng)論不涉及評(píng)論瀏覽數(shù)量問題,無需考慮評(píng)論瀏覽數(shù)量偏好,所以單條評(píng)論r的消費(fèi)者偏好滿意度Satr為:
Satr=PSentir×M(PFea,r)=Ur×cos
(1)
其中,PSentir是評(píng)論r的情感偏好滿意度,即r的有用性得分Ur;M(PFea,r)是產(chǎn)品特征偏好與評(píng)論r的匹配程度,用特征偏好向量與評(píng)論特征分布向量的余弦相似度表示。
(2)評(píng)論集合的消費(fèi)者偏好滿意度
評(píng)論集合與單條評(píng)論的消費(fèi)者偏好滿意度類似,計(jì)算公式如下:
SatS=PSentis×M(PFea,S)=US×cos
(2)
其中,US表示評(píng)論集合的有用性得分,取集合中所有評(píng)論有用性得分的平均值;FDS表示評(píng)論集合的特征分布向量,由集合中所有評(píng)論的特征分布向量相加得到。
(3)評(píng)論排序的消費(fèi)者偏好滿意度
給定某產(chǎn)品的評(píng)論排序L=(rl1,rl2,…,rln),其中rli表示排序中的第i條評(píng)論,計(jì)算其消費(fèi)者偏好滿意度需引入瀏覽數(shù)量偏好PNum=(p1,p2,…,pn),具體計(jì)算公式如下:
(3)
其中Si表示L中前i條評(píng)論組成的評(píng)論集合,SatSi可由公式(2)計(jì)算得到。
n條評(píng)論的全排列共可產(chǎn)生n!個(gè)評(píng)論排序,根據(jù)公式(3)可以計(jì)算出每個(gè)評(píng)論排序的消費(fèi)者偏好滿意度,涉及產(chǎn)品特征偏好、評(píng)論情感偏好和評(píng)論瀏覽數(shù)量偏好,使這個(gè)滿意度最大化的評(píng)論排序即為最優(yōu)排序,如圖2所示。由此,我們就把評(píng)論排序問題轉(zhuǎn)化為了最大化消費(fèi)者偏好滿意度的優(yōu)化問題。
圖2 評(píng)論排序優(yōu)化模型
基于消費(fèi)者多維度偏好的評(píng)論排序(Consumers’ Multidimensional Preferences based Review Ranking, CMPRR)問題:給定產(chǎn)品特征偏好PFea、評(píng)論情感偏好PSenti和評(píng)論瀏覽數(shù)量偏好PNum=(p1,p2,…,pn),以及某產(chǎn)品的全部評(píng)論R={r1,r2,…,rn},得出使消費(fèi)者偏好期望滿意度expSatL最大化的最優(yōu)排序L,其數(shù)學(xué)表達(dá)如下:
s.t.Si={rl1,rl2,…,rli},i=1,2,…,n
(4)
本節(jié)用一個(gè)簡單的例子解釋上述方法的排序過程。
已知產(chǎn)品特征偏好PFea=(1,2,3,5),評(píng)論瀏覽數(shù)量偏好PNum=(0.3,0.5,0.2),三條評(píng)論r1、r2、r3的特征分布向量和有用性得分如表1所示。
以L=(r3,r1,r2)為例,如S2={r3,r1},則:
FDS2=r3+r1=(3,4,2,0)+(0,1,2,3)=(2,5,4,3)
SatS2=US2·cos(PFea,FDS2)
=0.60
同樣地,可以求得所有6個(gè)評(píng)論排序的消費(fèi)者偏好期望滿意度,如表2所示。由此可得,最優(yōu)排序?yàn)?r1,r3,r2),對(duì)應(yīng)的最優(yōu)消費(fèi)者偏好滿意度為0.59。
表1 三條評(píng)論的具體信息
表2 各排序的期望滿意度
如第2.4節(jié)中的算例所示,解決CMPRR問題的直接方法就是列舉出所有可能的評(píng)論排序,分別計(jì)算其消費(fèi)者偏好期望滿意度,滿意度最大值對(duì)應(yīng)的評(píng)論排序即為所求最優(yōu)排序。對(duì)于一個(gè)有n條評(píng)論、m個(gè)特征的產(chǎn)品,共可以產(chǎn)生n!個(gè)可能的排序,那么使用枚舉法精確求解的時(shí)間復(fù)雜度為O(n!*n*m),顯然,當(dāng)n值較大時(shí),精確求解幾乎是不可能實(shí)現(xiàn)的。事實(shí)上,CMPRR屬于NP-hard問題,即無法找到一個(gè)能在多項(xiàng)式時(shí)間內(nèi)解決該問題的算法,當(dāng)給定一種評(píng)論排序,可以很容易地計(jì)算出其期望滿意度,但是,要想找到一個(gè)取最大期望滿意度的最優(yōu)排序,必須考慮所有可能的排序。由此,求解CMPRR問題需要考慮采用近似算法。生成評(píng)論排序可以看作是一個(gè)逐步迭代地選取評(píng)論到排序列表中的動(dòng)態(tài)過程,在每輪迭代中選取一條評(píng)論加入排序列表,經(jīng)過n輪迭代就可以生成一個(gè)包含n條評(píng)論的排序列表。
基于這種思想,用于精確求解的枚舉算法就相當(dāng)于在每輪迭代中不做篩選,而是保留所有可能的情況。為直觀理解,圖3(1)以4條評(píng)論(分別用a、b、c、d表示)為例,形象生動(dòng)地演示了這個(gè)過程:在首輪迭代中,共有4條評(píng)論可供選擇,形成分別以a、b、c、d為起點(diǎn)的4個(gè)分支,每個(gè)分支在第二輪迭代中又有3條評(píng)論可供選擇,依次類推,最后會(huì)產(chǎn)生4! = 24個(gè)分支,即24個(gè)評(píng)論排序,最大消費(fèi)者偏好滿意度對(duì)應(yīng)的評(píng)論排序即為所求結(jié)果。然而,如果在生成所有排序列表后再分別計(jì)算其各自的消費(fèi)者偏好滿意度,會(huì)導(dǎo)致計(jì)算冗余。
圖3 4條評(píng)論的算法求解原理圖
由于CMPRR問題的優(yōu)化目標(biāo)是求最大消費(fèi)者偏好滿意度,且后續(xù)滿意度的取值是依賴于前續(xù)滿意度的,因此我們有理由猜想在每輪迭代中使當(dāng)前滿意度取最大值的評(píng)論有助于生成所求最優(yōu)評(píng)論,這就是在求解NP-hard問題時(shí)的經(jīng)典算法—貪婪算法。圖3(2)仍然以a、b、c、d4條評(píng)論為例,演示了貪婪算法的求解原理:在每輪迭代中,只保留使當(dāng)前滿意度取最大值的評(píng)論(圖中用“max”進(jìn)行了標(biāo)注),用于后續(xù)生成排序列表,其余評(píng)論則舍棄不再參與后續(xù)迭代過程(圖4中用“×”表示),最終只會(huì)產(chǎn)生一個(gè)評(píng)論排序(c,a,d,b)。
因此,本文綜合考慮了以上兩種算法的優(yōu)缺點(diǎn),提出一個(gè)“折中”的算法用于解決上述CMPRR問題,記作CMPRR(α)。該算法的思想是,在每輪迭代中設(shè)置一個(gè)消費(fèi)者偏好滿意度的閾值,當(dāng)前評(píng)論的滿意度取值大于該閾值,就將這條評(píng)論保留下來繼續(xù)參與后續(xù)迭代過程,直到n輪迭代后生成若干完整的排序列表,取其中的最大滿意度值對(duì)應(yīng)的評(píng)論排序作為結(jié)果輸出。其中,閾值的設(shè)定值由參數(shù)α控制。仍然以4條評(píng)論為例,采用CMPRR(α)算法進(jìn)行求解的原理如圖3(3)所示,其中,“√”表示在本輪迭代中該條評(píng)論的滿意度取值大于閾值,予以保留用于繼續(xù)生成排序列表;“×”則表示該條評(píng)論的滿意度沒有達(dá)到閾值,舍棄不再參與后續(xù)迭代過程。CMPRR(α)算法最終生成的排序數(shù)介于枚舉法和貪婪算法之間,綜合考慮了算法精度和效率,力求達(dá)到平衡狀態(tài)。
本文選擇了酒店作為研究對(duì)象,研究中使用到的數(shù)據(jù)來自美團(tuán)網(wǎng)。實(shí)驗(yàn)前,我們收集了美團(tuán)網(wǎng)上截至2018年5月的某市所有酒店(1760家)的全部評(píng)論數(shù)據(jù)(79781條),主要包括評(píng)分星級(jí)、評(píng)論文本、評(píng)論時(shí)間、評(píng)論者ID、評(píng)論者會(huì)員等級(jí)、評(píng)論者實(shí)名情況和評(píng)論點(diǎn)贊數(shù)等字段。在數(shù)據(jù)預(yù)處理階段,我們主要做了兩項(xiàng)工作,一是從上述評(píng)論文本數(shù)據(jù)中提取出了332個(gè)高頻特征詞,分為位置、房間、服務(wù)、性價(jià)比和口碑五類特征[11],基于形成的酒店領(lǐng)域特征詞典,將每條評(píng)論表示成一個(gè)特征分布向量;二是基于評(píng)論有用性的影響因素,構(gòu)建了對(duì)數(shù)線性回歸模型,用于預(yù)測每條評(píng)論的有用性得分。
在實(shí)驗(yàn)中,我們隨機(jī)地生成消費(fèi)者偏好、選取評(píng)論集,以0.05為間隔取了α從0到1的所有取值進(jìn)行實(shí)驗(yàn),記錄了不同α取值下的消費(fèi)者偏好期望滿意度和算法耗時(shí),并計(jì)算了二者的變化值比率。實(shí)驗(yàn)結(jié)果如圖4所示,可見當(dāng)α=0.85時(shí),每增加耗時(shí)一單位,得到的有效性提升最大。所以,后續(xù)所有實(shí)驗(yàn)中α的取值均設(shè)定為0.85。
圖4 參數(shù)α的實(shí)驗(yàn)結(jié)果
為了評(píng)估本文中提出的算法的有效性,我們與其他3個(gè)相關(guān)算法進(jìn)行了比較:首先,CMPRR問題作為一個(gè)NP-hard問題,可以使用多種經(jīng)典的啟發(fā)式算法進(jìn)行求解,我們選取了其中最著名的貪婪算法作為代表,記為Greedy;第二個(gè)算法為隨機(jī)算法,即從隨機(jī)生成的1000個(gè)排序中選取使消費(fèi)者偏好期望滿意度取最大值的排序作為最優(yōu)排序,記為Random;除此之外,我們還選取了美團(tuán)網(wǎng)上的默認(rèn)排序,記為Default。
在實(shí)驗(yàn)中,消費(fèi)者偏好隨機(jī)生成的,而評(píng)論數(shù)分別取20到110(以10條為間隔)用于隨機(jī)選取10個(gè)評(píng)論集,基于給定的消費(fèi)者多維度偏好和評(píng)論集,計(jì)算出每種算法生成結(jié)果的滿意度值。我們?nèi)「魉惴ㄅc本文算法的比值作為評(píng)估標(biāo)準(zhǔn),如果該比值大于1則說明該算法優(yōu)于本文算法;反之亦然。
圖5 各算法的相對(duì)有效性
根據(jù)圖5中的實(shí)驗(yàn)結(jié)果,可以分析得出以下三點(diǎn)結(jié)論:
(1)其他算法的相對(duì)期望滿意度均小于1,說明本文提出的CMPRR(0.85)算法與其他算法相比,可以最好地滿足消費(fèi)者的多維度偏好,有效性最佳;
(2)隨著評(píng)論數(shù)量上升,其他三種算法的相對(duì)期望滿意度呈現(xiàn)較為明顯的下降趨勢(shì),說明CMPRR(0.85)算法的優(yōu)越性在評(píng)論數(shù)量較大時(shí)更加明顯,這也說明在評(píng)論數(shù)量較大時(shí)本文提出的算法仍然可以求得較為精確的結(jié)果;
(3)美團(tuán)網(wǎng)上的默認(rèn)排序表現(xiàn)最差,體現(xiàn)在相對(duì)期望滿意度最低且波動(dòng)較大,這也驗(yàn)證了本文研究結(jié)果在實(shí)際應(yīng)用中的有效性和必要性。
本文進(jìn)一步進(jìn)行了算法敏感度實(shí)驗(yàn),驗(yàn)證算法對(duì)于不同的消費(fèi)者產(chǎn)品特征偏好是否敏感。首先,隨機(jī)生成55=3125個(gè)消費(fèi)者產(chǎn)品特征偏好向量,基于隨機(jī)選取的評(píng)論集,計(jì)算各產(chǎn)品特征偏好向量對(duì)應(yīng)的排序結(jié)果;然后,計(jì)算各偏好向量之間的相似度(Pref_sim)以及各排序結(jié)果之間的相關(guān)性(Rank_cor);最后,對(duì)Pref_sim和Rank_cor兩變量進(jìn)行Pearson相關(guān)性檢驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示,兩變量之間的Pearson相關(guān)系數(shù)為0.433,兩變量顯著正相關(guān),排序結(jié)果對(duì)消費(fèi)者產(chǎn)品特征偏好較敏感,當(dāng)偏好差異大時(shí),排序結(jié)果差異也較大;反之亦然。
表3 兩變量的Pearson相關(guān)性
為了更好的應(yīng)對(duì)評(píng)論信息過載,并滿足消費(fèi)者對(duì)個(gè)性化服務(wù)的需求,本文提出了基于消費(fèi)者多維度偏好的評(píng)論排序問題(CMPRR),該問題的目標(biāo)是找到使消費(fèi)者偏好期望滿意度取最大值的最優(yōu)排序,由于該優(yōu)化問題的復(fù)雜性,我們提出了近似求解算法CMPRR(α)?;诿缊F(tuán)網(wǎng)酒店的真實(shí)數(shù)據(jù)進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文提出的算法與其他方法相比有效性最佳,且對(duì)作為算法輸入的消費(fèi)者產(chǎn)品特征偏好較為敏感。研究結(jié)果不僅可以幫助消費(fèi)者基于個(gè)人偏好,快速并精確地了解產(chǎn)品的在線口碑,提高決策效率;同時(shí)對(duì)電商平臺(tái)獲取消費(fèi)者多維度偏好、改進(jìn)評(píng)論系統(tǒng),提高用戶粘性,有著重要的現(xiàn)實(shí)指導(dǎo)意義。
本文的研究尚存一些不足。目前本研究僅選取了美團(tuán)網(wǎng)上的酒店作為實(shí)驗(yàn)對(duì)象,為了充分驗(yàn)證本文提出的評(píng)論排序方法的普適性, 在未來的研究中可將該方法應(yīng)用與更多平臺(tái)的其他類型產(chǎn)品數(shù)據(jù), 如零售平臺(tái)上或第三方點(diǎn)評(píng)網(wǎng)站的商品評(píng)論排序等。此外,隨著評(píng)論數(shù)量的增加,本文提出的優(yōu)化模型求解算法的耗時(shí)增長較快,后續(xù)可以考慮使用其他的啟發(fā)式算法求解這個(gè)NP-hard問題,比如模擬退火算法、遺傳算法等,通過大量實(shí)驗(yàn),探究本文提出的近似求解算法與其他算法的耗時(shí)對(duì)比情況。