程航 王東
摘要:隨著生鮮產(chǎn)品在居民消費(fèi)中比重的上升,顧客對(duì)生鮮電商的滿意度評(píng)價(jià)吸引了越來(lái)越多的商家和研究者的關(guān)注。文章采用爬蟲(chóng)工具抓取了京東生鮮和順豐優(yōu)選的顧客評(píng)論,并采用文本挖掘的方法構(gòu)建了從顧客角度出發(fā)的生鮮電商滿意度評(píng)價(jià)體系,并且針對(duì)不同的生鮮品類(lèi)設(shè)置了專(zhuān)門(mén)的評(píng)價(jià)指標(biāo)和權(quán)重,為我國(guó)生鮮電商的顧客體驗(yàn)優(yōu)化提供了有效的理論支持和參考作用。
關(guān)鍵詞:電子商務(wù);生鮮;顧客滿意度;文本挖掘
中圖分類(lèi)號(hào):F272 文獻(xiàn)標(biāo)識(shí)碼:A
0引言
近年來(lái),中國(guó)人民生活水平逐年提高,熱愛(ài)嘗試新鮮事物的中青年已成為了消費(fèi)的主力軍,這種年輕化的消費(fèi)觀念促進(jìn)了電子商務(wù)行業(yè)的發(fā)展,其中,生鮮市場(chǎng)的巨大潛力吸引了眾多電商巨頭和創(chuàng)業(yè)人士的目光。生鮮電商的經(jīng)營(yíng)范圍包括蔬菜水果、蛋奶肉禽等生鮮食物,這一領(lǐng)域已經(jīng)成為了競(jìng)爭(zhēng)激烈的電子商務(wù)中的最后一片“藍(lán)?!薄H欢?,由于諸多因素的制約,我國(guó)的生鮮電商的整體服務(wù)仍然處于不成熟階段,其經(jīng)營(yíng)模式仍在發(fā)展,服務(wù)水平也良莠不齊,貨品腐壞、錯(cuò)送漏送、運(yùn)送不及時(shí)等問(wèn)題頻頻發(fā)生,顧客滿意度不容樂(lè)觀。因此,從消費(fèi)者的視角出發(fā)研究生鮮電商的整體運(yùn)作情況,有助于生鮮電商了解自己所處的競(jìng)爭(zhēng)環(huán)境和地位,發(fā)現(xiàn)行業(yè)的突破點(diǎn)所在,進(jìn)一步調(diào)整自身的發(fā)展戰(zhàn)略,使得消費(fèi)者在生鮮商家的購(gòu)買(mǎi)體驗(yàn)得到優(yōu)化,更有助于提高該行業(yè)整體的績(jī)效水平。傳統(tǒng)的生鮮電商評(píng)價(jià)體系往往是基于已有文獻(xiàn)的經(jīng)驗(yàn)和專(zhuān)家的打分確定指標(biāo)和權(quán)重,而隨著網(wǎng)絡(luò)和手機(jī)購(gòu)物的普及,網(wǎng)絡(luò)評(píng)論已經(jīng)成為了商家收集顧客評(píng)價(jià)的重要來(lái)源,相比其他的數(shù)據(jù)來(lái)源具有廣泛、全面、真實(shí)、貼近消費(fèi)者的優(yōu)點(diǎn),因此,利用網(wǎng)絡(luò)爬蟲(chóng)抓取顧客評(píng)論并利用文本分析確定顧客滿意度評(píng)價(jià)體系已經(jīng)成為一種新穎而便捷的研究方法。
1文獻(xiàn)回顧
1.1文本挖掘的相關(guān)研究
在信息量巨大的當(dāng)今社會(huì)里,人們時(shí)常面臨著這樣一種困擾:如何在浩如煙海的書(shū)籍、新聞和信息中快速而準(zhǔn)確地篩選出自己所需的知識(shí),文本挖掘技術(shù)的產(chǎn)生則很好地幫助人類(lèi)解決了這類(lèi)問(wèn)題。自20世紀(jì)90年代初以來(lái),文本挖掘技術(shù)逐漸深入到各個(gè)領(lǐng)域的研究之中,研究范圍圍繞聚類(lèi)分析、關(guān)聯(lián)分析等展開(kāi),主要的研究對(duì)象包括但不限于網(wǎng)絡(luò)輿情、新聞報(bào)道、文學(xué)作品和網(wǎng)絡(luò)評(píng)論。
陸曉云(2005)系統(tǒng)而全面地介紹了文本挖掘的常用流程和使用領(lǐng)域,并對(duì)傳統(tǒng)算法進(jìn)行了改進(jìn),提出了一種能夠有效提高文本分類(lèi)質(zhì)量的挖掘方法。程春慧(2015)將文本挖掘的方法應(yīng)用到了刑偵領(lǐng)域,針對(duì)公安辦案過(guò)程中大量的犯罪案件文本數(shù)據(jù)進(jìn)行了屬性信息抽取和語(yǔ)義分析,這種應(yīng)用有助于協(xié)助警方迅速歸類(lèi)案件,并且對(duì)同類(lèi)案件進(jìn)行系統(tǒng)的分析和比對(duì)翻。黃曉斌(2009)認(rèn)為文本挖掘能夠?yàn)榫W(wǎng)絡(luò)上紛繁雜亂的非結(jié)構(gòu)數(shù)據(jù)如輿情信息提供有效的研究方法,該研究系統(tǒng)地介紹了將文本挖掘用于網(wǎng)絡(luò)評(píng)論的信息挖掘模型的分類(lèi)和構(gòu)建,并且利用實(shí)例展示了這種應(yīng)用的可行性翻。
Tom Magerman(2010)介紹了文本挖掘技術(shù)(基于向量空間模型和潛在語(yǔ)義索引)的使用方法,并用以檢測(cè)專(zhuān)利文獻(xiàn)和科學(xué)出版物之間的相似性。他認(rèn)為參與領(lǐng)域研究的專(zhuān)家將受益于檢測(cè)文本相似性的技術(shù),從而促進(jìn)繪圖和分類(lèi)工作的開(kāi)展搠。Van Driel M A(2006)在表型水平上展開(kāi)研究,使用文本挖掘?qū)υ诰€孟德?tīng)栠z傳數(shù)據(jù)庫(kù)中所收錄的五千多種人類(lèi)表型進(jìn)行了區(qū)分,他發(fā)現(xiàn)表型之間的相似性不僅能夠反映相互作用的功能,還能展現(xiàn)基因相關(guān)的生物學(xué)模塊。表型作圖可用于基因水平上的疾病預(yù)測(cè)以及基因和蛋白質(zhì)之間的功能關(guān)系。He w(2013)為了幫助公司了解如何進(jìn)行社交媒體競(jìng)爭(zhēng)分析并將社交媒體數(shù)據(jù)轉(zhuǎn)化為決策者和營(yíng)銷(xiāo)人員的工具,展開(kāi)了一項(xiàng)具體的案例研究,該案例研究應(yīng)用文本挖掘來(lái)分析Facebook上的非結(jié)構(gòu)化文本內(nèi)容,針對(duì)3家最大的披薩餅連鎖店(必勝客,多米諾比薩和Papa John's Pizza)的官方Twitter賬號(hào)下的評(píng)論進(jìn)行了分析,結(jié)果揭示了社交媒體競(jìng)爭(zhēng)分析的價(jià)值和文本挖掘的力量是有效的。
1.2以文本挖掘?yàn)榛A(chǔ)的電商顧客滿意度的相關(guān)研究
由于文本挖掘具有數(shù)據(jù)來(lái)源廣泛、時(shí)效性較強(qiáng)、客觀全面等優(yōu)點(diǎn),這一方法時(shí)常被應(yīng)用于網(wǎng)絡(luò)評(píng)論的分析之中。正是因?yàn)轭櫩驮谫?gòu)買(mǎi)商品時(shí)往往有瀏覽評(píng)論的習(xí)慣,因此無(wú)論是商家、消費(fèi)者還是研究者都對(duì)在線評(píng)論所顯示出的顧客立場(chǎng)十分關(guān)注,相關(guān)的研究也不在少數(shù)。
李艷紅(2014)首先將分散在各個(gè)不同網(wǎng)絡(luò)平臺(tái)中的評(píng)論文本系統(tǒng)收集起來(lái),然后運(yùn)用文本挖掘的方法分析哪些特性是消費(fèi)者在選購(gòu)筆記本電腦最為關(guān)注的,隨后據(jù)此確立了一套評(píng)價(jià)指標(biāo)體系并使用多元回歸方法建立了針對(duì)筆記本電腦的顧客滿意度模型。該研究能夠用幫助電腦生產(chǎn)商準(zhǔn)確地了解消費(fèi)者的心理期望和關(guān)注點(diǎn)所在,也能夠幫助商家制定出更好地改進(jìn)策略和營(yíng)銷(xiāo)方案。韓培文(2016)以京東書(shū)城的顧客評(píng)論作為主要的研究對(duì)象,選取了一本暢銷(xiāo)書(shū)籍的在線評(píng)論作為數(shù)據(jù)來(lái)源,得出京東書(shū)城的消費(fèi)者購(gòu)買(mǎi)書(shū)籍時(shí)滿意度的影響因素和權(quán)重。并且利用問(wèn)卷調(diào)查的方式進(jìn)一步驗(yàn)證了滿意度評(píng)價(jià)體系的科學(xué)性和準(zhǔn)確性。郭立秀(2017)以生鮮電商為研究對(duì)象,他選取了3家具有不同物流模式和運(yùn)營(yíng)情況的生鮮電商,使用Python爬蟲(chóng)分別抓取同一種商品的評(píng)論文本。全面而具體地分析了3家生鮮電商在不同的評(píng)價(jià)指標(biāo)下的表現(xiàn),幫助商家尋找自身的優(yōu)勢(shì)和弱點(diǎn)所在。
Hsiao Y H(2016)認(rèn)為隨著跨境電子商務(wù)的快速發(fā)展,跨境物流提供商必須致力于不斷改進(jìn)和差異化服務(wù),以保持其競(jìng)爭(zhēng)優(yōu)勢(shì)。研究展示了文本挖掘技術(shù)在分析跨境物流服務(wù)在線內(nèi)容中的應(yīng)用,能夠滿足客戶對(duì)服務(wù)和產(chǎn)品的情感和情感認(rèn)知,文章也為跨境物流服務(wù)商提供了具體的參考實(shí)例。Yan G(2014)認(rèn)為顧客時(shí)常需要參考網(wǎng)絡(luò)已有的顧客評(píng)論來(lái)做出購(gòu)買(mǎi)和退貨決策,因此作者開(kāi)發(fā)了一個(gè)雙語(yǔ)模型來(lái)處理電子商務(wù)網(wǎng)站上發(fā)布的中英文用戶評(píng)論。文章主要介紹了中文分詞、數(shù)據(jù)挖掘模型和系統(tǒng)設(shè)計(jì)的相關(guān)知識(shí)。通過(guò)英文和中文在線用戶評(píng)論挖掘用戶滿意度情緒的實(shí)例說(shuō)明了文章中開(kāi)發(fā)的雙語(yǔ)模型具有實(shí)際價(jià)值。
從上述國(guó)內(nèi)外的研究成果可以總結(jié)得出,現(xiàn)有的研究主要存在以下兩點(diǎn)局限:(1)研究主要從行業(yè)角度出發(fā)對(duì)生鮮電商的物流風(fēng)險(xiǎn)、運(yùn)行狀況進(jìn)行評(píng)價(jià),較少有從消費(fèi)者角度出發(fā)的滿意度分析。(2)大部分生鮮消費(fèi)者滿意度評(píng)價(jià)體系都沒(méi)有對(duì)生鮮品類(lèi)進(jìn)行進(jìn)一步的挖掘,而顧客對(duì)不同品類(lèi)的要求是不同的,因此,一個(gè)籠統(tǒng)的指標(biāo)體系已經(jīng)無(wú)法滿足日漸專(zhuān)精化的生鮮商家的要求了,所以,建立出更準(zhǔn)確的指標(biāo)體系并且針對(duì)不同品類(lèi)設(shè)定不同的權(quán)重系數(shù)具有著十分重要的現(xiàn)實(shí)意義。
2研究方法
如圖1所示,本文采用了文本挖掘的方法對(duì)抓取到的生鮮電商網(wǎng)絡(luò)評(píng)論進(jìn)行分析,主要的研究工作包括利用爬蟲(chóng)工抓取兩家主要研究對(duì)象的顧客評(píng)論,利用結(jié)巴分詞進(jìn)行文本數(shù)據(jù)的預(yù)處理,通過(guò)詞頻確定關(guān)鍵指標(biāo),建立情感詞和修飾詞詞典并通過(guò)情感分析評(píng)估顧客的滿意度情況,最終構(gòu)建出生鮮電商總體顧客滿意度評(píng)價(jià)體系和6個(gè)商品大類(lèi)下的專(zhuān)門(mén)評(píng)價(jià)體系。需要注意的是本文所采用的爬蟲(chóng)工具和文本挖掘工具均通過(guò)python編程進(jìn)行實(shí)現(xiàn)。
3實(shí)證分析
3.1數(shù)據(jù)收集
本文數(shù)據(jù)主要來(lái)源于生鮮電商網(wǎng)站的顧客評(píng)論。本文選取順豐優(yōu)選和京東到家作為具體研究樣本,根據(jù)生鮮的定義劃分出6個(gè)商品大類(lèi),并選取每個(gè)大類(lèi)下銷(xiāo)量最高的代表性商品(如表1所示),選取的評(píng)論時(shí)間為2017年11月至2018年11月。以保證數(shù)據(jù)的時(shí)效性和代表性。本文根據(jù)需要對(duì)樣本進(jìn)行了篩選:(1)剔除同一消費(fèi)者同一天內(nèi)的多條重復(fù)評(píng)論;(2)剔除字?jǐn)?shù)過(guò)少,不具有參考意義的無(wú)意義評(píng)論。得到的有效評(píng)論京東到家98590條,順豐優(yōu)選61743條。
3.2數(shù)據(jù)處理
本文得到的初始數(shù)據(jù)包括用戶名、評(píng)論時(shí)間和評(píng)論內(nèi)容,如表2所示。
首先本文對(duì)原始文本進(jìn)行清洗,剔除無(wú)效數(shù)據(jù),隨后進(jìn)行分詞和去除停用詞處理,除了對(duì)所有評(píng)論進(jìn)行詞頻分析,還針對(duì)6個(gè)生鮮大類(lèi)分別做了詞頻分析。具體操作為在所有詞語(yǔ)中提取出詞頻在前100位的高頻詞語(yǔ),并對(duì)其進(jìn)行同義詞合并。由于生鮮電商的顧客評(píng)論用詞具有高度的口語(yǔ)性和不規(guī)范性,因此本文在參考同義詞詞典的基礎(chǔ)上進(jìn)行了人工合并同義詞,隨后加總同義詞的詞頻,參考已有文獻(xiàn)中的指標(biāo)設(shè)置得出了顧客關(guān)注度最高的3個(gè)一級(jí)指標(biāo)和8個(gè)二級(jí)指標(biāo),然而,本文在針對(duì)具體生鮮品類(lèi)進(jìn)行分析時(shí)發(fā)現(xiàn)不同的品類(lèi)具有不同的關(guān)鍵詞,將其命名為專(zhuān)有指標(biāo),如乳制品品類(lèi)下詞頻較高的詞語(yǔ)包括“脂肪”、“熱量”、“無(wú)糖”、“低脂”,故在乳制品品類(lèi)下增加“品類(lèi)多樣性”指標(biāo),而水產(chǎn)品類(lèi)下存在高頻詞匯“澳洲”“進(jìn)口”“產(chǎn)地”,故增加“產(chǎn)地多樣性”指標(biāo),而冷凍食品品類(lèi)下很多顧客提到“孩子”“寶寶”“娃娃”,考慮到水餃燒麥等冷凍食品常常作為孩子的早餐和夜宵,故增加“幼兒適宜度”作為指標(biāo),具體評(píng)價(jià)體系如圖2所示。
情感分析也被專(zhuān)家稱(chēng)作傾向分析或意見(jiàn)挖掘,其分析的主體主要是帶有主觀傾向的文本。本文所做的情感傾向分析主要是判斷評(píng)論文本的情感是正面(好評(píng))、負(fù)面(差評(píng))還是中性(中評(píng)),同時(shí)根據(jù)情感的強(qiáng)度計(jì)算出單句的情感得分。
首先,本文需要構(gòu)建情感詞、否定詞和程度副詞這3大詞表。情感詞和否定詞都已有比較成熟和常用的詞表,其中情感詞詞表的構(gòu)建是在Hownet情感詞詞表的基礎(chǔ)上加入一些生鮮行業(yè)中特殊的情感詞使其更符合本文的研究主題。程度副詞的權(quán)值設(shè)定在參考了經(jīng)典文獻(xiàn)后采用五段制,即分為“超級(jí)”(2)、“非?!保?.5)、“比較”(1)、“些許”(0.75)和“一點(diǎn)”(0.25),而否定詞的權(quán)值為-1,否定詞和程度副詞都是位于情感詞前后的修飾詞。
其中:F表示所求單句的情感值,n代表單句中情感詞的個(gè)數(shù),f(x)是情感此表中可查詢到的情感詞本身具有的權(quán)值,aij是情感詞的修飾詞,i表示其個(gè)數(shù)。則計(jì)算整句評(píng)論情感值的步驟如下所示:
(1)讀取評(píng)論文本庫(kù),對(duì)顧客評(píng)論一一進(jìn)行分句;
(2)查找各個(gè)分句中的屬性相關(guān)詞,如“包裝”、“質(zhì)量”,記錄下每句涉及的屬性;
(3)查找各個(gè)分句里的情感詞,記錄其自帶的情感值;
(4)查找與情感詞位于同一句子內(nèi)的程度副詞,然后用情感值乘以程度副詞的權(quán)值;
(5)查找否定詞,若否定詞為奇數(shù)個(gè),則乘上-1,否則乘1;
(6)計(jì)算所有分句的情感值;
(7)計(jì)算各個(gè)指標(biāo)下所有句子情感值的均值和差評(píng)(情感值小于0的評(píng)論)占該屬性下所有評(píng)論的比例,輸出情感值得分和差評(píng)率。
3.3評(píng)價(jià)指標(biāo)權(quán)重確定
至此,本文已構(gòu)建出總體顧客滿意度評(píng)價(jià)指標(biāo)及針對(duì)具體生鮮類(lèi)別的評(píng)價(jià)指標(biāo),接下來(lái)要做的是指標(biāo)權(quán)重的確定。已有研究的常見(jiàn)方法往往是直接采用指標(biāo)詞頻作為權(quán)重,或是采用專(zhuān)家打分和層次分析法確定指標(biāo)權(quán)重。然而第一種方法的缺點(diǎn)在于難以準(zhǔn)確地展示出顧客真正的痛點(diǎn)所在,如商品品質(zhì)是詞頻最高的指標(biāo),然而這一指標(biāo)下的差評(píng)率很低,也即顧客對(duì)生鮮電商的此項(xiàng)表現(xiàn)基本滿意,而售后盡管在所有評(píng)論中所占的頻數(shù)較低,但是差評(píng)率極高,可見(jiàn)顧客在這一方面可能存在著較大的不滿,因此商家應(yīng)該投入更多的注意力在售后這一指標(biāo)的表現(xiàn)上。本文采取的方法是在詞頻的基礎(chǔ)上,利用差評(píng)率進(jìn)行修正,得出最終的指標(biāo)權(quán)重具有更強(qiáng)的實(shí)際意義。差評(píng)率修正權(quán)重系數(shù)如表3所示:
3.4實(shí)例對(duì)比
在進(jìn)行兩家生鮮電商的顧客滿意度評(píng)價(jià)時(shí),需要對(duì)各項(xiàng)指標(biāo)(屬性)下的情感值得分分別進(jìn)行計(jì)算,將每項(xiàng)指標(biāo)下的情感值得分總和除以涉及該指標(biāo)的評(píng)論數(shù)量,所得的平均值基本介于0~2分之間。若cS代表總顧客滿意度,Yi為每項(xiàng)指標(biāo)的權(quán)重,ωi為每項(xiàng)指標(biāo)下的滿意度,則生鮮電商的總滿意度可以用公式(3)來(lái)求解。
通過(guò)表5我們可以發(fā)現(xiàn),兩家生鮮電商的總體滿意度在1分左右,整體運(yùn)行狀況良好,顧客整體評(píng)價(jià)呈現(xiàn)正面態(tài)勢(shì),京東生鮮的整體顧客滿意度略優(yōu)于順豐優(yōu)選。其中,京東生鮮的價(jià)格、促銷(xiāo)活動(dòng)力度、物流和品牌口碑的表現(xiàn)更好,但是各項(xiàng)指標(biāo)之間的變現(xiàn)差異較大,而順豐優(yōu)選的商品品質(zhì)、售后服務(wù)優(yōu)于京東生鮮,并且整體表現(xiàn)比較均衡。然而,值得注意的是,兩家生鮮電商的售后滿意度得分均為最低,可見(jiàn)這一項(xiàng)的差評(píng)率最高,顧客滿意度情況不容樂(lè)觀。根據(jù)以上的研究情況,可以針對(duì)生鮮電商的運(yùn)作提出這樣的建議:
(1)根據(jù)本文所建立的針對(duì)某一生鮮品類(lèi)的專(zhuān)門(mén)評(píng)價(jià)體系,商家可以洞悉顧客真正的關(guān)注點(diǎn)所在,從而制定精準(zhǔn)的廣告營(yíng)銷(xiāo)策略,例如在果蔬產(chǎn)品的宣傳標(biāo)語(yǔ)上更強(qiáng)調(diào)有機(jī)和健康,在冷凍食品的包裝上做一些對(duì)兒童和主婦更有吸引力的設(shè)計(jì)等。
(2)生鮮電商應(yīng)當(dāng)調(diào)查自身的消費(fèi)者滿意度情況,并且針對(duì)不同商品大類(lèi)和不同評(píng)價(jià)指標(biāo)分析滿意度情況,有的放矢地制定改進(jìn)策略。如京東生鮮應(yīng)專(zhuān)注于售后和包裝的優(yōu)化,順豐優(yōu)選應(yīng)當(dāng)提高發(fā)貨時(shí)間和售后的水平,揚(yáng)長(zhǎng)避短,使得整體顧客滿意度更上一臺(tái)階。
4結(jié)論與展望
網(wǎng)絡(luò)評(píng)論保證了數(shù)據(jù)來(lái)源的可靠性和真實(shí)性,能夠幫助企業(yè)和研究者更加快捷地獲取消費(fèi)者第一手的反饋信息。本文采用了文本挖掘的方法,不但構(gòu)建了生鮮電商的總體顧客滿意度,還創(chuàng)新性地針對(duì)不同商品品類(lèi)做出了更細(xì)致的分析,以便對(duì)具有不同側(cè)重市場(chǎng)的生鮮電商進(jìn)行更公平的對(duì)比。根據(jù)本文構(gòu)建的顧客滿意度評(píng)價(jià)體系,商家可以更精確地得知消費(fèi)者在不同消費(fèi)品上的需求差異,并且有的放矢地制定營(yíng)銷(xiāo)廣告策略、優(yōu)化購(gòu)物體驗(yàn)。這種研究方法同樣可以適用于餐廳、酒店、手機(jī)應(yīng)用等需要關(guān)注網(wǎng)絡(luò)口碑的主體的滿意度研究。
本文的研究也存在著一定的缺陷和不足,之后的研究者可以在這幾點(diǎn)上進(jìn)行進(jìn)一步的探索:(1)在指標(biāo)體系的權(quán)重設(shè)定上深入挖掘,進(jìn)一步結(jié)合專(zhuān)家的意見(jiàn)。(2)研究不同地區(qū)、不同季節(jié)、ios端和安卓端的顧客滿意度情況,并采用顯著性分析來(lái)探究它們之間存在的差異。(3)本文僅采取了兩家代表性的企業(yè)作為研究對(duì)象,之后的研究可以擴(kuò)展研究對(duì)象的個(gè)數(shù),建立更為精準(zhǔn)和全面的指標(biāo)體系,使得各生鮮電商能夠橫向比較并發(fā)現(xiàn)自身的優(yōu)勢(shì)和弱點(diǎn)所在。