国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

考慮信息熵的在線評論特征觀點詞對購買意愿的影響

2018-01-18 10:04霍紅張晨鑫
商業(yè)經(jīng)濟研究 2018年23期
關(guān)鍵詞:在線評論情感分析購買意愿

霍紅 張晨鑫

內(nèi)容摘要:本文從在線評論中的特征觀點詞出發(fā),爬取電商網(wǎng)站中的相關(guān)評論數(shù)據(jù),結(jié)合情感分析技術(shù),將信息熵作為改進計量經(jīng)濟模型的重要參數(shù),得出其相關(guān)程度。結(jié)果發(fā)現(xiàn),平均星級、發(fā)布時間以及好評率都與購買意愿顯著關(guān)聯(lián),而評論數(shù)量和評論深度與購買意愿不存在明顯關(guān)聯(lián),在評論中出現(xiàn)較多的產(chǎn)品屬性不一定對購買行為產(chǎn)生較大影響,這主要取決于產(chǎn)品功能和用戶體驗,所以建議商家要注意評論數(shù)據(jù)收集,著重注意影響較大的產(chǎn)品屬性的宣傳。

關(guān)鍵詞:在線評論 產(chǎn)品特征屬性 購買意愿 情感分析 數(shù)據(jù)挖掘

文獻綜述

(一)產(chǎn)品特征屬性對消費者購買意愿的影響

在目前的研究中,學(xué)者在產(chǎn)品特征對購買意愿的影響方向上的研究主要集中在4個方面,專家打分、模型分析、語義分析和經(jīng)濟學(xué)模型,下面對四種方法進行介紹。

專家打分法是最直觀的在線評論特征觀點識別的方法,通過在領(lǐng)域內(nèi)知名專家與學(xué)者對該評論中產(chǎn)品的特征進行評價,Darby等將該方法用于產(chǎn)品信任度分析。但是這種方法存在弊端,領(lǐng)域內(nèi)專家的意見與顧客們的意見往往相左,這在信任型商品中尤為明顯,專家往往會注重商品的內(nèi)在屬性,而對于消費者來說,只要可以使用就可以,就這一點而言,在線評論提供了比專家更為廣泛的用戶觀點采集渠道;其次,在線評論質(zhì)量參差不齊,偏口語化的表達比較多,評論質(zhì)量沒有一個準確的衡量,還有一些學(xué)者將外包與眾包的思想引入,以解決用戶有用性感知不一致性的問題,但是外包和眾包只是將受眾群體擴大化,而不能代表廣大消費者的意見。

基于模型的分析也是研究產(chǎn)品特征對消費者購買意愿影響的重要方法,一般分為兩種研究思路,一種為建立語義和句子結(jié)構(gòu)學(xué)習(xí)模型,Guo等建立了基于機器學(xué)習(xí)的句子結(jié)構(gòu)自學(xué)習(xí)模型來獲得的最佳參數(shù),對產(chǎn)品的特征重要程度進行度量;另一種借助網(wǎng)絡(luò)分析理論,將每一個產(chǎn)品特征看作一個節(jié)點,產(chǎn)品特征之間相互連接,形成產(chǎn)品特征網(wǎng)絡(luò),然后借助相關(guān)算法對模型進行求解,得出每一個特征節(jié)點的權(quán)威度,如Kleinberg等將書籍與作者的特征作為網(wǎng)絡(luò)節(jié)點,鏈接成網(wǎng)絡(luò),并使用HITS算法對每一個節(jié)點的權(quán)威度進行測量,每一個節(jié)點的權(quán)威度就代表了該特征對消費者行為影響的權(quán)重,但是這種方法在網(wǎng)絡(luò)構(gòu)建上沒有統(tǒng)一的方法。

使用計量經(jīng)濟模型挖掘產(chǎn)品的特征觀點與消費者購買意愿也是一種可行的方式。早期Goolsbee等提出Hedonic模型,考慮每種特征出現(xiàn)的次數(shù),將多次出現(xiàn)的特征設(shè)置較高的權(quán)重,但是這種方法沒有將產(chǎn)品特征屬性和情感詞放在一起研究;還有一些研究將評論的星級作為因變量,評論文本中的“產(chǎn)品特征觀點詞對”作為自變量,采用多變量二次回歸模型計算每一個產(chǎn)品特征屬性的重要度,這種方法重要在因變量的選擇上,Chevalier等在研究中使用該研究思路,得出不同星級的在線評論對消費者行為的影響是不同的,有時一星級的評論會比五星級的評論更能影響消費者行為,原因是一星級評論比五星級評論包含有消費者更感興趣的產(chǎn)品特征屬性。

(二)在線評論情感分析

在線評論細粒度情感分析。情感分析又被稱為意見挖掘,是分析在線評論的語義,判斷用戶的情感傾向,比如用戶對該產(chǎn)品是“滿意”或“不滿意”,或判斷用戶的觀點是“贊成”或“反對”。

從學(xué)術(shù)角度看,學(xué)者們一般從粒度來研究情感分析。粗粒度情感分析出現(xiàn)較早,引用較多,適用于文檔級文本,早期的研究偏向于用模型的方法來解決主體情感判斷問題,隨著機器學(xué)習(xí)技術(shù)的廣泛應(yīng)用,Chen等提出以半監(jiān)督機器學(xué)習(xí)的算法解決自然語言內(nèi)容分析,還有一些學(xué)者使用無監(jiān)督式機器學(xué)習(xí)的方法解決大量口語化的在線評論關(guān)鍵詞抽取問題。細粒度情感分析是對特征觀點的詞語級的情感極性和強度分析,Kanayama等經(jīng)過大量的實驗,提出了細粒度情感分析的基本步驟,首先計算詞典的詞語原子極性,并且通過原子極性和各詞語之間的相關(guān)性得出每個評價詞的情感,再通過各詞語的情感得到句子的情感極性和強度,最后通過各句子的情感來判斷文本的整體情感。從各位學(xué)者的研究結(jié)果來看,基于語義的情感分析方法適合于較短的在線評論情感分析,而基于機器學(xué)習(xí)的情感分析方法更適合于文檔級的情感分析。

產(chǎn)品特征屬性與情感詞對的抽取。產(chǎn)品特征的抽取是細粒度情感分析的重要步驟,早期學(xué)者關(guān)于產(chǎn)品特征屬性的研究,一般將產(chǎn)品特征屬性和情感詞分開抽取,且絕大部分采用統(tǒng)計學(xué)的方法。Zheng等利用統(tǒng)計分析的方法,研究在同一領(lǐng)域內(nèi)和不同領(lǐng)域內(nèi)特征詞的分布情況,并且以領(lǐng)域相關(guān)性為依據(jù),對產(chǎn)品特征屬性進行排序,獲取中文領(lǐng)域內(nèi)的產(chǎn)品特征詞。但是從已有的研究結(jié)果中發(fā)現(xiàn),將產(chǎn)品特征屬性和情感詞作為一個整體抽取,能夠獲取的信息要多于分開抽取。基于此,Bloom等提出情感評價單元這一概念,這一概念要求將產(chǎn)品特征屬性和評價該屬性的情感詞一起抽取出來,還有一些學(xué)者提出了相似的方法,鄭麗娟等提出的情感本體都是與其相似的概念?;诋a(chǎn)品特征屬性與情感詞對的識別方法一般分為兩種:基于統(tǒng)計的方法和基于語義的方法。

基于統(tǒng)計學(xué)的方法是將評論中對產(chǎn)品特征屬性和其評價詞中的高級詞匯,作為統(tǒng)計特征,再通過臨近原則來判斷相應(yīng)觀點。Hu等采用無監(jiān)督式機器學(xué)習(xí)來挖掘產(chǎn)品特征屬性及情感詞,并基于人工標(biāo)注的褒貶詞典,找出句子中表達主觀性的詞匯,再定義一個以主觀性詞匯為中心、大小固定的窗口,將窗口中的名詞或名詞短語作為特征。綜上,基于統(tǒng)計的方法自動化程度高,可移植性強,但準確率較低;基于語義的方法是將語言學(xué)知識引入數(shù)據(jù)挖掘中,用某種語言規(guī)則和句法規(guī)則來識別與提取特征觀點。Back等人工定義了評價對象和評價短語,并采用多個共現(xiàn)模板來描述評價詞語和評價對象之間的修飾關(guān)系,然而,由于模板過于簡單且修飾關(guān)系僅停留在詞語表面,在模板匹配的過程中,會產(chǎn)生大量的候選評價詞語和候選評價對象,需要人工篩選來完成情感評價單元的獲取??傮w而言,基于語義的方法準確率較高,但可移植性較低。

觀點詞的情感判斷。帶有情感傾向的觀點詞是判斷網(wǎng)絡(luò)評論情感傾向的標(biāo)準,所以有必要對評論中的情感詞進行情感傾向和強度的判斷。一般分為基于情感詞典的辦法和基于不同詞性組合兩種辦法。

朱嫣嵐等使用WordNet定義的詞匯關(guān)聯(lián)關(guān)系來計算情感詞和一組情感傾向已知的距離,從而判斷情感強度和情感極性,根據(jù)詞典的語義相似度和語義相關(guān)度,對不同數(shù)目的基準詞進行實驗,實驗的結(jié)果表明,詞匯傾向性判斷的準確性隨著基準詞的數(shù)量增加而增加;何躍等基于同義詞典的情感褒貶度計算情感強度,也得到良好的分類效果;同時計算同義詞和反義詞的種子詞頻率也是經(jīng)常被應(yīng)用在情感詞強度的測定上;任遠遠等又將此方法進行細化,以詞組的形式進行情感強度的計算。基于詞典的方法是起源較早的情感強度分析方法,但是它的準確性要取決于詞典的類型和使用方法,所以該方法可移植性較高,但是準確性較低。

從以上的研究來看,學(xué)者們對抽取特征觀點詞的方法已經(jīng)有了一定的研究,而對于每一種產(chǎn)品屬性對消費者購買意愿影響程度的研究則相對較少,所以本文引入信息熵作為對消費者認知程度的衡量,以此為切入點深入探尋每一種產(chǎn)品屬性對消費者購買意愿的影響。

研究模型構(gòu)建

(一)研究框架

本文的研究步驟是,首先抽取在線評論中的產(chǎn)品特征屬性和觀點詞,并且進行情感分析,然后對所有的產(chǎn)品屬性變量進行聚合,通過信息熵的形式表現(xiàn)出來,并通過結(jié)合控制變量,構(gòu)建計量經(jīng)濟模型,最后通過實時評論和銷量的變化,對每一種產(chǎn)品屬性對是否具有影響力進行估計與判斷,研究框架如圖1所示。

通過以上的研究框架,首先應(yīng)設(shè)立產(chǎn)品特征屬性的集合F={f1,f2,f3,f4,…,fn},對F的情感信息集合E={e1,e2,e3,e4,…,ek},與每種產(chǎn)品特征對消費意愿的影響程度集合為Θ={θ1,θ2,θ3,θ4,…,θn},其中in表示產(chǎn)品特征屬性fn重要程度,本研究的目的是通過情感分析算法抽取產(chǎn)品特征屬性F,并且計算與之對應(yīng)的情感詞的強度S,并且建立情感影響銷量的計量經(jīng)濟模型,最后挖掘出各個產(chǎn)品特征屬性的重要度Θ。

(二)模型構(gòu)建

信息增益與信息熵。面對海量的在線評論數(shù)據(jù),消費者每閱讀一條在線評論,都會對這種商品有一個更加全面的認識,這就是信息增益,無論是否用戶真的了解評論的內(nèi)容,若不了解,則為對該種產(chǎn)品產(chǎn)生了信息增益,若知曉該評論的內(nèi)容,那么也是鞏固了該信息。

信息增益一般由信息熵表示,令集合S={s1,s2}代表在線評論的分類空間,其中s1、s2分別表示評論有用和無用(可以通過隨機投票來決定),公式(1)表示在線評論信息熵。

(1)

在線評論是一種用戶生成內(nèi)容,真實性無法進行核實,所以在本研究中假設(shè)所有的在線評論內(nèi)容都是真實的。當(dāng)消費者通過閱讀在線評論,來進一步增進對該產(chǎn)品的認識,直到最后消除對該產(chǎn)品的陌生感,而產(chǎn)品特征屬性就是在消除陌生感的過程中提供一定的信息,設(shè)該產(chǎn)品為p,當(dāng)用戶已經(jīng)知曉該種產(chǎn)品的某一種特征f時,所產(chǎn)生的信息熵如公式(2)所示。

(2)

根據(jù)公式(1)和公式(2)可以計算產(chǎn)品特征屬性f的信息增益,Divergence(f)表示產(chǎn)品特征f屬性在消除用戶不確定性上所產(chǎn)生的信息增益值用公式(3)來表示:

(3)

評論文本中的情感詞是非常豐富的,尤其是中文文本,例如“不是很合適”和“很不合適”對消費意愿的影響都是有差異的,可見情感詞的強度對購買意愿的影響也是較大的,所以模型中再引入一個變量Strength(f),最后引入分數(shù)Score(f)將其量化,所以最后該評論的最終得分如公式(4)所示:

Score(f)=Divergence(f)×Strength(f) (4)

改進的計量經(jīng)濟模型。計量經(jīng)濟模型是經(jīng)濟學(xué)領(lǐng)域中比較成熟的模型之一,其基本理論是產(chǎn)品需求量與產(chǎn)品的價格和特征屬性服從線性關(guān)系,公式(5)為基本計量經(jīng)濟模型的公式表達:

ln(Dk)=αk+βln(pk)+γk (5)

Dk表示產(chǎn)品k的實時需求量,αk表示除價格之外的變量集合,如品牌、產(chǎn)品功能、顏色等,γk為擾動變量,該變量服從正態(tài)分布γk =(0,δ2)。

從現(xiàn)有的研究來看,消費者對在線評論的關(guān)注不是僅局限于文檔級評論,而對在線評論中所描述的產(chǎn)品特征屬性與形容其的情感詞,特征級的在線評論更容易影響消費者意愿。公式(5)不能完整地表示各個特征變量,所有的變量都被整合在αk中,在產(chǎn)品的生命周期中,產(chǎn)品的硬件參數(shù)一般不會改變,但是產(chǎn)品特征的評論會隨著時間的變化而變化。

潛在消費者會通過瀏覽在線評論來對產(chǎn)品的不確定性,當(dāng)收集到了足夠多的產(chǎn)品特征屬性評論信息時,就可以計算每一個產(chǎn)品特征屬性的重要性,所以將公式(5)進行改進和豐富,改進后的公式為公式(6):

ln(Dk)=αk+δk+βln(pk)+γk (6)

其中αk為產(chǎn)品的內(nèi)生屬性,δk為產(chǎn)品的外生屬性。

αk作為產(chǎn)品的內(nèi)生屬性,定義有很多種,其中學(xué)者們最為認可的就是將在線評論發(fā)布的時間作為產(chǎn)品的內(nèi)生屬性。原因有二:其一,每一種產(chǎn)品都有生命周期,在生命周期的每一個階段,需求都是不同的;其二,在線評論是一種有時效性的用戶生成內(nèi)容,時間的差異會造成在線評論效價的變化。因此αk可以豐富為:

αk=αTk (7)

其中,Tk表示產(chǎn)品上市與發(fā)表評論的時間差。

產(chǎn)品外生屬性指的是除產(chǎn)品本身所具有的各種特征之外的屬性。對在線評論的早期研究中,學(xué)者們將評論數(shù)量、好評率以及銷售排名這些外顯型的屬性作為研究對象,發(fā)現(xiàn)當(dāng)產(chǎn)品內(nèi)生屬性相同的情況下,評論數(shù)量、好評率以及銷售排名都會對銷量產(chǎn)生一定的影響,所以,本研究中將評論數(shù)量、好評率以及銷售排名均作為外生屬性加入模型中,同時本研究同時將用戶對產(chǎn)品的關(guān)注度、用戶特征和評論深度加入其中,用戶的關(guān)注度作為直接影響產(chǎn)品看點的重要變量,而已有研究指出,用戶的偏好是不一致的,用戶的關(guān)注點相互獨立并且與市場特征的分布一致,用戶特征可以根據(jù)社交網(wǎng)絡(luò)圈進行聚類,評論的深度是產(chǎn)品在線評論的重要特征,已有的研究指出,當(dāng)回復(fù)評論越多,這條評論的有用性就會顯著增加,評論的有用性直接影響用戶對產(chǎn)品的認知度,所以將以上變量加入模型中?;谝陨戏治?,外生屬性可表示為公式(8):

δk=μ1logNk+μ2logADk+μ3logATk+μ4log(Rk)i-1+μ5logBk+μ6logDEk+μ7logVk (8)

其中Nk表示產(chǎn)品k的評論信息總量;ADk表示產(chǎn)品k的評論好評率;ATk表示產(chǎn)品k的關(guān)注度;Rk表示產(chǎn)品k的銷售排名,因為一般通過第三方網(wǎng)站平臺是不可能看到產(chǎn)品的具體銷售數(shù)量,但是由于京東商城網(wǎng)站有每一種類商品銷售的實時排名,所以本研究為可行性考慮,采用產(chǎn)品的銷售排名來近似代替產(chǎn)品的銷量;Bk表示購買產(chǎn)品k的用戶人群特征;DEk表示產(chǎn)品k的在線評論深度(一般只考慮置頂評論的追加評論數(shù)量);Vk表示產(chǎn)品的特征向量,具體表達式用公式(9)表達,這些變量就構(gòu)成了產(chǎn)品外生屬性。

(9)

在已有的研究中,學(xué)者們往往將在線評論當(dāng)作是原子對象,忽略了評論中涉及的產(chǎn)品特征屬性與情感詞。本文將研究對象定位為“產(chǎn)品特征屬性與情感詞對”,通過改進計量經(jīng)濟模型,建立產(chǎn)品特征屬性與情感詞對的計量經(jīng)濟模型,模型見公式(10):

ln(Dk)=αTk+μ1logNk+μ2logADk+μ3logATk+μ4log(Rk)i-1+μ5logBk+μ6logDEk+μ7logVk+βln(pk)+γk (10)

實驗設(shè)計

(一)數(shù)據(jù)收集及預(yù)處理

本研究的實驗數(shù)據(jù)均來自京東商城網(wǎng)上平臺熱水器的產(chǎn)品信息和評論信息。為了保證模型的準確性和真實性,利用多線程爬蟲從2016年9月開始跟蹤爬取,到2018年1月爬取結(jié)束(新產(chǎn)品會重新接入爬?。涗洰a(chǎn)品的品牌、價格、銷售排名及評論文本等。本研究將產(chǎn)品特征屬性與情感詞對作為原子研究對象,采集的重點為:評論數(shù)量、評論時間、評論者信息、好評率、評論有用性投票、評論星級、上傳圖片及評論深度等。如上文所說,京東商城不會提供產(chǎn)品的具體銷售數(shù)量,但是會公布銷售排名,以其表示銷量;使用Bing的趨勢搜索——XRank表示用戶的關(guān)注度;以熱水器為目標(biāo)商品,因為這種產(chǎn)品的更新?lián)Q代很慢,而且一種產(chǎn)品的在銷售時間也比其它小型家電要長。共采集包括史密斯、海爾等系列產(chǎn)品共6個品牌、325種產(chǎn)品的21.5萬條數(shù)據(jù)信息,平均每個產(chǎn)品被評論613.27次,跟蹤的產(chǎn)品的品牌和數(shù)量如表1所示。

本研究以第一條在線評論的發(fā)布時間作為產(chǎn)品發(fā)布時間。理論上,評論對消費意愿的影響是即時的,但是這會存在數(shù)據(jù)過于稀疏的問題,因此本文以月為單位,即假設(shè)上一月的評論信息會影響下一月的銷售排名。

(二)“產(chǎn)品特征觀點對”的構(gòu)建

產(chǎn)品特征觀點提取的是細粒度情感分析的重要部分,現(xiàn)有的方法大都是基于英文評論展開的。英文的評論句式固定、語法嚴謹,而中文的評論句式口語化嚴重、語法不規(guī)范、句子成分缺失等問題,這在一定程度上增加了識別的難度?;谟⑽呐c中文的差別,英文的提取方法不能直接應(yīng)用在中文上。本研究基于中文口語化嚴重等特點,利用語義關(guān)系計算和分詞標(biāo)注的方法進行識別提取。

“特征觀點詞對”的識別。對于產(chǎn)品特征觀點對的識別,具體來說,是一種半監(jiān)督目標(biāo)記機器學(xué)習(xí)的方法,產(chǎn)品屬性分為顯式屬性與隱式屬性,可以先挖掘顯式屬性,再少量挖掘一些隱式屬性,由于本研究是基于中文語料的研究,所以不用現(xiàn)有詞典,而是自建詞庫,找到特征觀點的同義詞和近義詞,從而進行抽取,并進行分析。在匹配過程中,將產(chǎn)品特征標(biāo)注為F(Feature),情感詞標(biāo)注為O(Opinion),匹配失敗的就從實詞序列中刪除。

通過對現(xiàn)有的在線評論數(shù)據(jù)的分析,發(fā)現(xiàn)共4種特征觀點的配對模式,分別為:FO模式,單一特征和單一的觀點詞,直接生成特征觀點對,這種模式較容易識別;FFO模式,多個特征和一個統(tǒng)一觀點,這種模式所描述的特征較豐富,而觀點則比較統(tǒng)一;FOO模式,單一特征和多個觀點,這種模式相比于前兩種,觀點表達就相對復(fù)雜,一個特征觀點就包含了多種情感觀點;FFOOFFOO模式,這是中文里比較常見的表達當(dāng)時,多個特征屬性和多個情感詞不規(guī)則排列,這樣的詞對是最難抽取的,同時也是觀點表達內(nèi)容最豐富的。

數(shù)據(jù)的收集與情感強度分析。已有的在線評論系統(tǒng)的星級選項最多是5顆星。如果該評論是3顆星,那么很難說明其具體的情感傾向。因此,本研究將情感強度分為7個層級(-3至3),分別為負面、中性、正面,數(shù)值的絕對值表示強度的級別。具體數(shù)值如表2所示。

對情感詞的提取主要應(yīng)該提取形容產(chǎn)品特征的形容詞、程度副詞、有轉(zhuǎn)折性的連詞以及有修飾性的實詞,將這幾種詞素組成情感詞對取出,較為合適,而一般研究都將句子中詞語的情感強度作為句子整體的情感強度。因此,將用戶的整體星級打分當(dāng)作對情感詞的標(biāo)注,這種標(biāo)注方式類似發(fā)放調(diào)查問卷,實現(xiàn)了對詞匯情感強度的重復(fù)定義。標(biāo)注規(guī)則如表3所示。

最后利用關(guān)鍵詞檢索的方式,將特征觀點詞對導(dǎo)入SentiStrength中自動計算情感強度并輸出,分數(shù)范圍為-3至3分。

結(jié)果分析

(一)數(shù)據(jù)預(yù)處理結(jié)果

經(jīng)過一系列的數(shù)據(jù)處理得到以下結(jié)果,首先是評論數(shù)量分布圖如圖2所示。從圖2中可以看出超過50%的產(chǎn)品評論數(shù)量低于10000條,而且評論數(shù)量大于10000條的產(chǎn)品數(shù)量總體上呈遞減態(tài)勢。其次是當(dāng)銷售排名與評論數(shù)量的關(guān)系,如圖3所示,從圖3上可以看出,當(dāng)期銷售排名與評論數(shù)量有明顯關(guān)系,且呈負相關(guān)在評論數(shù)量為26000和30000時出現(xiàn)小幅上揚,應(yīng)該是有些產(chǎn)品上市期間已經(jīng)很長,市場保有量已經(jīng)趨于飽和,銷量逐漸下降,不排除市場上有一些經(jīng)久不衰的產(chǎn)品,但是屬于少部分,尤其是熱水器這樣更新較快的產(chǎn)品,所以這些因素可以忽略。再次是評論星級與銷售排名的關(guān)系,具體如圖4所示,從4圖中可以看出評論的星級與銷售排名沒有顯著關(guān)系,只有5星級和4星級的評論能夠帶來可觀的銷量,其它的排名均無明顯變化,所以通過星級來判斷產(chǎn)品的銷量是不可取的。最后是情感得分與銷售排名的關(guān)系,具體如圖5所示,其中刻度“-3”表示情感得分在[-3,-2]之間,從圖5中可以看出情感得分與銷售排名關(guān)系顯著,呈負相關(guān)關(guān)系,所以情感得分對銷量起到促進作用,當(dāng)情感得分為正數(shù)時,對銷量的影響尤為顯著。

(二)產(chǎn)品特征屬性重要度

計算模型中各自變量與因變量的相關(guān)性,本研究中用到SPSS軟件,以產(chǎn)品的銷售排名為因變量,平均星級、發(fā)布時間、產(chǎn)品價格、好評率、評論數(shù)量、用戶人群特征、評論深度和特征向量作為自變量,通過軟件計算相關(guān)性,結(jié)果如表4所示。

從表4中可以看出,銷售排名與平均星級、發(fā)布時間以及好評率都有顯著的相關(guān)性,但是在結(jié)果中意外的發(fā)現(xiàn),產(chǎn)品評論的數(shù)量與評論深度,都與銷售排名的相關(guān)性不大,原因應(yīng)該是并非所有購買該產(chǎn)品的人都會發(fā)表自己的評論,且京東網(wǎng)站的評價系統(tǒng)是沒有時間限制的,評論深度越深,可能是對該產(chǎn)品的質(zhì)量越存疑,在系統(tǒng)中與商家或與其他有同樣疑問的消費者互動,可能不會出現(xiàn)過大的相關(guān)度。產(chǎn)品特征向量與銷售排名相關(guān)性不大的原因可能是由于其它自變量的影響較大,弱化了特征效用;產(chǎn)品價格與銷售排名相關(guān)性不大可能原因是,現(xiàn)在的消費者注重的是產(chǎn)品的性價比,性價比與產(chǎn)品質(zhì)量與價格均有關(guān)系,所以僅就價格而言,是不會對產(chǎn)品的銷量有過多的影響。

通過人工方法對已經(jīng)通過計算機自動抽取的產(chǎn)品特征屬性進行篩選,并咨詢熱水器方面的專家,最后篩選出10個產(chǎn)品特征,如表5所示,由于是通過軟件進行的自動篩選,所以篩選出的產(chǎn)品特征屬性可信度較高。

從表5中可以發(fā)現(xiàn),抽取到共10個常見產(chǎn)品特征,消費者對燒水速度、外觀以及使用難易程度比較關(guān)心,但是數(shù)量多不一定代表影響消費者購買意愿的權(quán)重高,表6中顯示了各特征屬性的權(quán)重,這些權(quán)重來自公式(10)的模型,可以看出外觀、加熱類型、觸摸面板、價格以及控制方式是最重要的產(chǎn)品特征,而難易程度、燒水速度、預(yù)約洗浴、容積與包裝則權(quán)重較低,但是并不意味著這些產(chǎn)品特征屬性對購買意愿沒有影響,只是影響較小。

通過表5與表6的數(shù)據(jù)可以發(fā)現(xiàn),燒水速度、外觀以及使用難易是產(chǎn)品評論中提及最多的產(chǎn)品特征屬性,而外觀、加熱類型以及觸摸面板是影響權(quán)重最高的產(chǎn)品特征屬性。一方面,表明評價的頻率與產(chǎn)品特征屬性的重要度不存在必然關(guān)系;另一方面,表明了采用信息增益的方法來處理產(chǎn)品特征屬性的有效性,例如燒水速度是評論頻率最高的產(chǎn)品屬性,但用戶認為這是熱水器最基本的特征屬性之一,而且與同層次的產(chǎn)品相比,加熱的速度差異實屬不大,因此該特征的權(quán)重值遠不如評論的數(shù)量,而加熱類型很少會在評論中出現(xiàn),可能原因是其具有一定的專業(yè)性,購買熱水器的用戶大部分是不了解熱水器的具體工作方式,但是商家一般在產(chǎn)品介紹中將該方式(單膽加熱或雙膽加熱)列出,用戶在購買之前一般都會先閱讀產(chǎn)品介紹頁面,再來查看在線評論頁面,所以就出現(xiàn)在評論中出現(xiàn)較少的產(chǎn)品特征,卻對產(chǎn)品的購買意愿產(chǎn)生較大的影響。

管理啟示

首先,從商家的角度出發(fā),現(xiàn)在市場上的商品一般包含兩類屬性:主觀屬性與客觀屬性,從理論上講,搜索型產(chǎn)品包含有很多的客觀屬性,這類產(chǎn)品的商品介紹比較重要,消費者可以通過產(chǎn)品參數(shù)的對比,例如電腦內(nèi)存大小、汽車發(fā)動機排量等,而對于體驗型產(chǎn)品來說,商家所提供的產(chǎn)品介紹無法滿足消費者對這類產(chǎn)品的需求,例如藥品、書籍等一些產(chǎn)品,可見在線評論中所傳達的一些情感信息有時會比商家提供的產(chǎn)品介紹更為重要,本文以用戶的角度進行產(chǎn)品評論信息挖掘,并將產(chǎn)品各產(chǎn)品特征屬性對消費意愿的影響程度進行量化,為商家在提高體驗型或信任型產(chǎn)品銷售量上提供了可行的方法。

其次,本文對用戶偏好的識別具有一定的啟示。其一,在線評論是消費者集體智慧的表現(xiàn),這與現(xiàn)在以商家為中心的經(jīng)營理念不同,集體智慧的傾向才是未來消費的具體方向,同時對產(chǎn)品的改進也是建立在大眾對產(chǎn)品各特征屬性的不同傾向程度上,與原來由商家指定重要特征和將少數(shù)權(quán)威專家的意見作為參考相比更具普適性;其二,產(chǎn)品特征屬性對購買意愿影響的重要程度,可以作為用戶偏好模型的建立的重要依據(jù),通過本研究的方法,可以從海量的評論文本中篩選出消費者真正感興趣的方面,在現(xiàn)在主流的電子商務(wù)網(wǎng)站首頁一般有“為你推薦”或“猜你喜歡”等類似板塊,這樣的個性化推薦板塊的核心算法和界面設(shè)計都要用到產(chǎn)品特征屬性對購買意愿的影響程度作為基礎(chǔ),本研究對提升這兩個模塊的準確性提供了一種參考。

最后,對于商家的在線廣告而言,本研究的方法也提供了新的視角。現(xiàn)在的產(chǎn)品介紹頁面,基本上以商家自我意識明顯,突出自家產(chǎn)品優(yōu)勢,在介紹頁面大量介紹產(chǎn)品的客觀屬性,但是客觀屬性未必是消費者在購買時所感興趣的方面。使用本研究的方法,可以將篩選出消費者感興趣的產(chǎn)品特征屬性,并且重點加以宣傳,這樣不僅可以提高廣告的效果,還可以提高廣告投放的精準度,宣傳針對消費者的重要的產(chǎn)品特征屬性。

參考文獻:

1.DARBY M,KAMI E.Free competition and the optimal amount of fraud [J].Journal of Law and Economics,1973,16(1)

2.GUO J L,PENG J E,et.al.An opinion feature extraction approach based on a multidimensional sentence analysis model [J].Cybernetics and Systems,2013,44(5)

3.KLEINBERG J.Authoritative sources in a hyperlinked environment [J].Journal of the ACM,1999,46(5)

4.GOOLSBEE A,CHEVALIER J.Measuring prices and price competition online:Amazon.com and Barnes and Noble.com[J].Quantitative Marketing and Economics,2003,1(2)

5.CHEVALIER J A,MAYZLIN D.The effect of word of mouth on sales:Online book reviews [J].Journal of Marketing Research,2006,43(3)

6. CHEN,CHEN Z Y.An unsupervised approach for person name component bipolarization using principal analysis[J].IEEE TKDE,2012,24(11)

7.KANAYAMA H,NASUKAWA T.Unsupervised lexicon induction for clause-level detection of evaluations [J]. Natural Language Engineering,2015,18(1)

8.ZHENG Y,YE L.Extracting product features from Chinese customer reviews[C].The 3rd International Conference on Intelligent System and Knowledge Engineering,2008

9.BLOOM K,GARG N.Extracting appraisal expressions [C].HLT-NAACL.PA,2007

10.鄭麗娟,王洪偉.基于情感本體的在線評論情感極性及強度分析:以手機為例[J].管理工程學(xué)報,2017, 31(2)

11. 朱嫣嵐,閔錦,周雅倩等.基于HowNet的詞匯語義傾向計算[J].中文信息學(xué)報,2006,1(1)

12.何躍,尹小佳,朱超.基于情感及影響力的微博用戶群體特征分析—以A手機為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(10)

13.任遠遠.中文網(wǎng)絡(luò)評論的產(chǎn)品特征提取及其情感傾向判定[D].中國科學(xué)技術(shù)大學(xué)管理學(xué)院,2015

猜你喜歡
在線評論情感分析購買意愿
明星代言對消費者品牌態(tài)度影響的實證研究
在線評論情感屬性的動態(tài)變化
企業(yè)公益營銷對消費者購買意愿的影響分析
網(wǎng)絡(luò)口碑對消費者購買意愿的影響研究
消費者個體行為偏好對在線評論真實性的影響機理研究
邹平县| 马关县| 婺源县| 洱源县| 兴仁县| 阿合奇县| 黎平县| 新干县| 皮山县| 灵璧县| 垫江县| 六盘水市| 昌吉市| 常山县| 长丰县| 五河县| 武平县| 阳西县| 赫章县| 邵阳市| 临湘市| 清流县| 隆化县| 泽库县| 凤翔县| 济源市| 乌兰察布市| 河北省| 邵阳县| 景东| 永春县| 华池县| 治县。| 沧州市| 夏津县| 若尔盖县| 滨州市| 长葛市| 贵溪市| 嘉荫县| 陇南市|