黃春林 肖群 徐晨 郝亞男
摘要:如今,網(wǎng)絡(luò)評(píng)論已成為消費(fèi)者了解商品信息、購(gòu)買(mǎi)商品的重要影響因素,海量用戶(hù)的頻繁交易形成了大量的在線商品評(píng)論,從而提供了極具價(jià)值的文本信息。本研究基于信息采納模型的框架,以京東平臺(tái)的數(shù)碼影音產(chǎn)品為研討對(duì)象,利用網(wǎng)絡(luò)爬蟲(chóng)收集用戶(hù)評(píng)論,然后對(duì)評(píng)論內(nèi)容進(jìn)行文本挖掘,概括出數(shù)碼影音產(chǎn)品中影響用戶(hù)滿(mǎn)意度的六個(gè)因素:做工質(zhì)感、商家服務(wù)、續(xù)航能力、音質(zhì)音效、產(chǎn)品特色、佩戴感受。研究結(jié)果可幫助廠商、京東平臺(tái)店鋪制定產(chǎn)品的改進(jìn)和營(yíng)銷(xiāo)策略。
關(guān)鍵詞:在線評(píng)論挖掘;數(shù)碼影音產(chǎn)品;用戶(hù)滿(mǎn)意度;LDA
引言
隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子商務(wù)凸顯出巨大潛力,為人們的生活方式帶來(lái)了巨大改變,也重塑了諸多行業(yè)的貿(mào)易機(jī)制。由于線上交易的虛擬性,繼而催生了如用戶(hù)生成內(nèi)容(UGC)等許多獨(dú)有的消費(fèi)者行為,體現(xiàn)在網(wǎng)絡(luò)購(gòu)物市場(chǎng)上就是用戶(hù)在線評(píng)論。有學(xué)者認(rèn)為,在線上購(gòu)物環(huán)境下用戶(hù)在線評(píng)論已成為消費(fèi)者了解商品質(zhì)量信息、降低購(gòu)買(mǎi)風(fēng)險(xiǎn)性進(jìn)而確定是否購(gòu)買(mǎi)的重要信息資源。因此,如何提高服務(wù)質(zhì)量,進(jìn)而提升消費(fèi)者網(wǎng)購(gòu)體驗(yàn),成為維持用戶(hù)滿(mǎn)意度和持續(xù)增長(zhǎng)重要因素。
CNNIC最新公布的《第47次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2020年12月,我國(guó)的線上購(gòu)物用戶(hù)規(guī)模已經(jīng)達(dá)到7.82億[1];然而,根據(jù)《2020年度中國(guó)電子商務(wù)用戶(hù)體驗(yàn)與投訴監(jiān)測(cè)報(bào)告》顯示, 2020全年,我國(guó)線上購(gòu)物的投訴占全體投訴的59. 97%,網(wǎng)絡(luò)購(gòu)物領(lǐng)域如此高比例投訴量,除去其自身商業(yè)模式的影響,更體現(xiàn)出此行業(yè)依然存在大量消費(fèi)體驗(yàn)不佳現(xiàn)象[2]。而當(dāng)今的市場(chǎng)競(jìng)爭(zhēng)愈發(fā)激烈,電商行業(yè)已經(jīng)從搶占市場(chǎng)份額的戰(zhàn)略逐漸向強(qiáng)調(diào)服務(wù)質(zhì)量和用戶(hù)體驗(yàn)的戰(zhàn)略轉(zhuǎn)移,同時(shí)總體市場(chǎng)發(fā)展的趨勢(shì)也逐漸由“價(jià)格驅(qū)動(dòng)”轉(zhuǎn)向“服務(wù)驅(qū)動(dòng)”,因此,如何幫助電商企業(yè)和經(jīng)營(yíng)商家提升網(wǎng)購(gòu)顧客體驗(yàn)質(zhì)量,輔助企業(yè)進(jìn)行運(yùn)營(yíng)管理,成了急需解決的問(wèn)題。
網(wǎng)購(gòu)消費(fèi)者在購(gòu)買(mǎi)商品后,常會(huì)發(fā)表商品評(píng)價(jià),一般包括購(gòu)買(mǎi)商品與線上介紹是否一致、商品使用情況、商家服務(wù)質(zhì)量和物流配送等內(nèi)容?;诰€上購(gòu)物時(shí)商品的虛擬屬性,用戶(hù)了解商品信息的渠道單一,無(wú)法對(duì)商品情況進(jìn)行全面了解,因此無(wú)形中增大了消費(fèi)者購(gòu)買(mǎi)風(fēng)險(xiǎn),而在線評(píng)論根據(jù)真實(shí)用戶(hù)的購(gòu)買(mǎi)情況,包含了諸多額外的商品信息,能夠幫助有購(gòu)買(mǎi)意向的消費(fèi)者,使其對(duì)商品信息有更全面的了解,所以在線網(wǎng)絡(luò)評(píng)論更容易獲得其他用戶(hù)的信服和采納,如何從大量用戶(hù)評(píng)論中提取出影響用戶(hù)選擇行為的因素,成為了當(dāng)前理論研究和企業(yè)發(fā)展急需關(guān)注的問(wèn)題。
本研究選取京東平臺(tái)作為用戶(hù)在線評(píng)價(jià)的數(shù)據(jù)來(lái)源,以文本挖掘技術(shù)為基礎(chǔ),對(duì)數(shù)碼影音商品的評(píng)論進(jìn)行分析,分析影響消費(fèi)者滿(mǎn)意度的因素,進(jìn)而找到提高電商平臺(tái)用戶(hù)網(wǎng)絡(luò)購(gòu)物體驗(yàn)的方法,這樣企業(yè)也能根據(jù)用戶(hù)需要逐漸改進(jìn)商品和服務(wù),從而進(jìn)一步提升用戶(hù)滿(mǎn)意度,為企業(yè)和消費(fèi)者帶來(lái)雙贏的局面 [3]。
相關(guān)理論
用戶(hù)滿(mǎn)意度理論
通過(guò)對(duì)國(guó)內(nèi)外文獻(xiàn)中用戶(hù)滿(mǎn)意度概念的研究和總結(jié),發(fā)現(xiàn)它們的定義仍然存在差異。Oliver(1980)認(rèn)為,用戶(hù)滿(mǎn)意度是指用戶(hù)在進(jìn)行商品和商家服務(wù)的購(gòu)買(mǎi)或享受后,對(duì)商品和服務(wù)的現(xiàn)實(shí)感受與預(yù)期感知的比較[4]。當(dāng)用戶(hù)覺(jué)得商品或商品比自己期望的產(chǎn)品和服務(wù)更好時(shí),就會(huì)支持產(chǎn)品,產(chǎn)生認(rèn)同感,當(dāng)用戶(hù)覺(jué)得商品或商品并沒(méi)有比自己預(yù)期的產(chǎn)品和服務(wù)更好時(shí),就會(huì)有一種不以為然的感覺(jué),這是一種事后的評(píng)價(jià)[4]。Davis F D(1989)認(rèn)為,用戶(hù)滿(mǎn)意度的定義是從購(gòu)買(mǎi)開(kāi)始到使用產(chǎn)品和服務(wù)的全過(guò)程中的感受,表達(dá)了用戶(hù)在整個(gè)過(guò)程中的心理[5]。
網(wǎng)絡(luò)爬蟲(chóng)技術(shù)理論
網(wǎng)絡(luò)爬蟲(chóng),是指按照一定的規(guī)則自動(dòng)地在萬(wàn)維網(wǎng)中抓取信息的一種程序或者腳本,其被用于自動(dòng)提取網(wǎng)頁(yè)[6]。
文本挖掘理論
文本挖掘(Text Data Mining, TDM),其含義是指為了實(shí)現(xiàn)發(fā)現(xiàn)知識(shí)的目的,從大規(guī)模文本庫(kù)中抽取隱含的、有潛在價(jià)值信息的過(guò)程,作為數(shù)字化社會(huì)的產(chǎn)物,文本分析已成為大數(shù)據(jù)時(shí)代下的一種極受歡迎的新興技術(shù)[7]。
數(shù)碼影音評(píng)論數(shù)據(jù)采集
數(shù)據(jù)來(lái)源
本文選擇平臺(tái)上銷(xiāo)量大、瀏覽量和收藏量高的產(chǎn)品為研究對(duì)象。在眾多網(wǎng)購(gòu)產(chǎn)品中,以耳機(jī)為代表的數(shù)碼影音產(chǎn)品憑借廣大數(shù)碼產(chǎn)品迷的青睞,已經(jīng)成為消費(fèi)者最喜愛(ài)的商品之一。
在過(guò)去三年中耳機(jī)市場(chǎng)發(fā)生了一個(gè)重大的變化,由原本維持多年的音頻產(chǎn)品轉(zhuǎn)向了產(chǎn)品功能更加多樣的智能電子產(chǎn)品。這個(gè)行業(yè)的巨大變化由此也引發(fā)了相關(guān)用戶(hù)的消費(fèi)觀念、市場(chǎng)競(jìng)爭(zhēng)等諸多的變化。發(fā)生這一變化之前,大多數(shù)用戶(hù)都以使用手機(jī)標(biāo)配耳機(jī)為主,很少一部分用戶(hù)由于追求更好的音質(zhì)等原因去購(gòu)買(mǎi)其他的耳機(jī),但自從2016年蘋(píng)果AirPods問(wèn)世,打破了原先耳機(jī)市場(chǎng)的平衡,一年后真無(wú)線耳機(jī)市場(chǎng)得到了突飛猛進(jìn)的增長(zhǎng),耳機(jī)市場(chǎng)的銷(xiāo)售額更是一舉超過(guò)過(guò)去5年銷(xiāo)售額度的總和,成為一個(gè)新的紅海市場(chǎng)。其中,Strategy Analytics新興終端技術(shù)團(tuán)隊(duì)最新公布,截止2020年全球藍(lán)牙耳機(jī)的總銷(xiāo)量將超過(guò)3億部。然而,耳機(jī)市場(chǎng)的快速變化,質(zhì)量參差不齊,市場(chǎng)監(jiān)管不到位,由此也帶來(lái)了諸多產(chǎn)品和市場(chǎng)問(wèn)題。因此本文將選用耳機(jī)作為研究的對(duì)象。
同時(shí),主打數(shù)碼家電產(chǎn)品的京東電商平臺(tái)以極高的營(yíng)收增速位居各大電商平臺(tái)的首位,顯示出了巨大的發(fā)展?jié)摿?,故本研究選取京東平臺(tái)作為用戶(hù)在線評(píng)論的數(shù)據(jù)來(lái)源。
數(shù)據(jù)采集
本文使用八爪魚(yú)爬蟲(chóng)程序,爬取了京東部分商店的數(shù)碼影音用戶(hù)的在線評(píng)論數(shù)據(jù),總用戶(hù)評(píng)論量存在7個(gè)CSV文件中,原始數(shù)據(jù)共約10萬(wàn)條數(shù)據(jù)。抓取數(shù)據(jù)時(shí),首先對(duì)數(shù)碼影音關(guān)鍵詞進(jìn)行檢索,抓取所有數(shù)碼影音商品列表用戶(hù)評(píng)論頁(yè)鏈接地址,之后通過(guò)循環(huán)此評(píng)論列表頁(yè)的地址進(jìn)入每個(gè)商品的用戶(hù)評(píng)論頁(yè),對(duì)用戶(hù)評(píng)論進(jìn)行抓取。由于京東平臺(tái)網(wǎng)頁(yè)端對(duì)用戶(hù)評(píng)論展示進(jìn)行限制,故單個(gè)商品最多只能抓取100頁(yè)的用戶(hù)評(píng)論,約1000條。
筆者在查看京東平臺(tái)商品評(píng)論區(qū)時(shí),發(fā)現(xiàn)用戶(hù)評(píng)論主要由用戶(hù)名、會(huì)員標(biāo)志、數(shù)碼影音型號(hào),數(shù)碼影音顏色、評(píng)論時(shí)間、評(píng)價(jià)星級(jí)、評(píng)論內(nèi)容和追評(píng)等板塊組成。然后在進(jìn)行正式評(píng)估之前,要對(duì)所采集的數(shù)據(jù)進(jìn)行預(yù)處理,首先由于從網(wǎng)頁(yè)中爬取的數(shù)據(jù)中會(huì)包含一些無(wú)效信息,如特殊符號(hào)、語(yǔ)氣助詞、表情符號(hào)等,需要去除無(wú)關(guān)數(shù)據(jù),因此選取其中出現(xiàn)頻次較高的關(guān)鍵詞作為基本分析對(duì)象。由于這些因素與本研究沒(méi)有太多益處,故剔除其他評(píng)論中的因素,只保留用戶(hù)文本評(píng)論內(nèi)容。
文本分析與數(shù)碼影音用戶(hù)滿(mǎn)意度因素歸納
數(shù)據(jù)預(yù)處理——中文分詞
中文分詞是根據(jù)一定的規(guī)范將連續(xù)的字序列重新組合成詞序列的過(guò)程[8]。本文所用的jieba分詞器是一個(gè)第三方中文分詞組件庫(kù),分詞效果準(zhǔn)確度較高,因此本文選用jieba組件進(jìn)行分詞。
文本詞云統(tǒng)計(jì)
西北大學(xué)里奇·戈登在2006年提出“wordcloud”這個(gè)概念,通過(guò)形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,在圖形上突出內(nèi)容文本中出現(xiàn)次數(shù)較高的“關(guān)鍵詞”。詞云圖通過(guò)去掉大量的文字信息,讓網(wǎng)絡(luò)訪問(wèn)者對(duì)文字的主旨一目了然。本文將分好的詞進(jìn)行頻數(shù)統(tǒng)計(jì)后,采用Wordcloud庫(kù)生成詞云圖,效果如圖:
詞云圖中字體越大的詞組的詞頻越高,也側(cè)面反映出了該詞組在該文本當(dāng)中可能越為重要,但文本中一般會(huì)存在大量標(biāo)點(diǎn)符號(hào)、日常語(yǔ)氣詞、副詞等詞,這些詞與用戶(hù)要表達(dá)的主題思想通常關(guān)系不大,一般做法是將其列為停用詞列表,讓真正的主題詞(比如名詞、動(dòng)詞)凸顯出來(lái)。由上圖,可以看出一些用戶(hù)對(duì)于數(shù)碼影音購(gòu)買(mǎi)滿(mǎn)意度的關(guān)注特征,例如音質(zhì)、音效、質(zhì)感、舒適度等特征,但仍有一些詞如數(shù)碼影音、能力、感覺(jué)等與主題表達(dá)無(wú)關(guān)的詞,這些將在后續(xù)中進(jìn)行優(yōu)化。
用戶(hù)滿(mǎn)意度因素歸納
本小節(jié)使用LDA模型對(duì)數(shù)碼影音評(píng)論進(jìn)行主題分析,從而得出用戶(hù)在購(gòu)買(mǎi)數(shù)碼影音產(chǎn)品中滿(mǎn)意度的影響因素。LDA是文檔主題生成模型,也被稱(chēng)為三層貝葉斯概率模型,其本質(zhì)上是一種非監(jiān)督機(jī)器型的學(xué)習(xí)技術(shù),能夠?qū)Υ罅课臋n內(nèi)容集或語(yǔ)料庫(kù)中潛藏的主題信息進(jìn)行識(shí)別,LDA通過(guò)采用詞袋的方法,將每一篇文檔都看做成一個(gè)詞頻向量,然后對(duì)文本信息向易于建模的數(shù)字信息的轉(zhuǎn)變有了極大的幫助[9]。
LDA生成過(guò)程
LDA對(duì)于語(yǔ)料庫(kù)中的每篇文檔都定義了以下的生成過(guò)程:首先從每篇文檔的主題分布中抽取一個(gè)主題;然后從被抽到的主題所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞;最后一直重復(fù)上述過(guò)程直到文檔中的每個(gè)單詞都被抽取過(guò)[9]。
語(yǔ)料庫(kù)中的每個(gè)文檔都對(duì)應(yīng)于T的多項(xiàng)分布(multinomial distribution)(通過(guò)重復(fù)試驗(yàn)等方法事先給定),多項(xiàng)分布被記作θ。每個(gè)主題對(duì)應(yīng)于詞匯表(vocabulary)中V個(gè)單詞的多項(xiàng)分布,并且該多項(xiàng)分布被稱(chēng)為φ。
LDA模型生成部分代碼:
#lda模型,num_topics設(shè)置主題的個(gè)數(shù)
%time lda = models. ldamodel. LdaModel (corpus = corpus, id2word = dictionary, num_topics = 6, passes =100, iterations = 6000)
本模型中iterations意思為訓(xùn)練模型過(guò)程中試圖推斷文本主題的次數(shù),通常在1000以上,設(shè)為6000次,passes意思為訓(xùn)練模型過(guò)程中遍歷全部文本的次數(shù),通常情況遍歷次數(shù)越大,耗時(shí)越長(zhǎng),設(shè)為100次。
主題分析結(jié)果
實(shí)驗(yàn)過(guò)程中針對(duì)文本主題num_topic進(jìn)行調(diào)整參數(shù),最終確定6個(gè)主題,盡量做到不重不漏。下圖2為主題分析結(jié)果。盡管該模型預(yù)測(cè)不能做到百分百準(zhǔn)確預(yù)測(cè)主題詞,但基本上各個(gè)主題的關(guān)鍵詞相似度極高,皆有共同特征,可以視為同一個(gè)主題。
經(jīng)整理,確定的6個(gè)主題如下,為:做工質(zhì)感、商家服務(wù)、續(xù)航能力、音質(zhì)音效、產(chǎn)品特色、佩戴感受。
研究結(jié)論
結(jié)論
本文通過(guò)文本分析的方法對(duì)京東平臺(tái)數(shù)碼影音產(chǎn)品的用戶(hù)評(píng)論進(jìn)行了研究,構(gòu)建了相應(yīng)的BOW文本詞頻向量,利用LDA算法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行建模模擬計(jì)算,經(jīng)過(guò)不斷的調(diào)整參數(shù),最終確定影響用戶(hù)購(gòu)買(mǎi)數(shù)碼產(chǎn)品的6個(gè)因素,即做工質(zhì)感、商家服務(wù)、續(xù)航能力、音質(zhì)音效、產(chǎn)品特色和佩戴感受。這為商家和耳機(jī)產(chǎn)商優(yōu)化產(chǎn)品、平臺(tái)和商家服務(wù)以進(jìn)一步提升用戶(hù)滿(mǎn)意度提供了參考建議。
對(duì)數(shù)碼影音廠商和銷(xiāo)售平臺(tái)的建議
對(duì)耳機(jī)產(chǎn)商的建議
本文研究數(shù)據(jù)表明,在耳機(jī)產(chǎn)品方面,用戶(hù)主要關(guān)注五方面的因素,即做工質(zhì)感、續(xù)航能力、音質(zhì)音效、產(chǎn)品特色、佩戴感受。針對(duì)這五個(gè)因素,本文提出以下建議:
1.對(duì)做工質(zhì)感的建議
在做工質(zhì)感類(lèi)別中,出現(xiàn)頻率較高特征詞有做工、質(zhì)感、顏色、手感、外觀、很漂亮、材質(zhì)、磨砂等詞,各大耳機(jī)廠商在這些方面要多加注意,提升產(chǎn)品的質(zhì)感、外觀設(shè)計(jì)等元素,緊追前沿時(shí)尚,給用戶(hù)以體驗(yàn)上的滿(mǎn)足。
2.對(duì)音質(zhì)音效的建議
音質(zhì)音效在數(shù)碼影音產(chǎn)品中的重要性一直以來(lái)都是比較高的,本實(shí)驗(yàn)也側(cè)面佐證了這一點(diǎn)。耳機(jī)產(chǎn)商也都深知要提升音質(zhì)音效,但產(chǎn)品有限的價(jià)位上,要重點(diǎn)提升哪些方面的音質(zhì)音效,還需后續(xù)深入研究。本實(shí)驗(yàn)中,音質(zhì)音效方面的關(guān)鍵特征詞有低音、降噪、雜音、隔音、高音、重低音等詞,故耳機(jī)廠商可重點(diǎn)提升這幾個(gè)產(chǎn)品音質(zhì)因素。
3.對(duì)續(xù)航能力的建議
續(xù)航能力在數(shù)碼產(chǎn)品中是用戶(hù)經(jīng)常容易吐槽的點(diǎn)。對(duì)于無(wú)線耳機(jī)產(chǎn)品來(lái)說(shuō),廠商可優(yōu)化產(chǎn)品的功耗、提升電池模組的性能、支持快速充電的功能等。
4.對(duì)佩戴感受的建議
佩戴感受方面的關(guān)鍵詞有舒適度、佩戴、耳塞、入耳式等,廠商可重點(diǎn)關(guān)注耳機(jī)的佩戴感受方面,多進(jìn)行用戶(hù)佩戴實(shí)驗(yàn),優(yōu)化產(chǎn)品佩戴體驗(yàn)細(xì)節(jié)。
5.對(duì)產(chǎn)品特色的建議
每一個(gè)成功的產(chǎn)品大多都有自己的獨(dú)立特色,故廠商要想讓自己的產(chǎn)品大規(guī)模普及開(kāi)來(lái),也必須針對(duì)自己企業(yè)的技術(shù)和設(shè)計(jì)特點(diǎn),設(shè)計(jì)自己產(chǎn)品的特色。此主題關(guān)鍵詞包括好看、性?xún)r(jià)比、顏值、小巧、可愛(ài)、時(shí)尚、好用等,廠商可針對(duì)產(chǎn)品的外觀設(shè)計(jì)、性?xún)r(jià)比、易用性等方面進(jìn)行用戶(hù)滿(mǎn)意度的優(yōu)化。
對(duì)京東平臺(tái)和私營(yíng)店鋪的建議
商家服務(wù)主題的關(guān)鍵詞為物流、京東、快遞、客服、速度、包裝、品牌、服務(wù)等,京東平臺(tái)和私營(yíng)店鋪可以針對(duì)這些關(guān)鍵詞,進(jìn)行服務(wù)優(yōu)化,提升快遞配送速度、客服人性化程度等。
參考文獻(xiàn):
[1] 中國(guó)政府網(wǎng),《第47次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[EB/OL].http://www.gov.cn/xinwen/2021-02/03/content_5584518.htm
[2] 網(wǎng)經(jīng)社,《2020年度中國(guó)電子商務(wù)用戶(hù)體驗(yàn)與投訴監(jiān)測(cè)報(bào)告》[EB/OL]http://www.100ec.cn/zt/2021yhtsbg
[3] 徐冬磊.C2C電子商務(wù)中的顧客滿(mǎn)意度影響因素分析[D].安徽大學(xué),2010.
[4] Davis F D.Perceived usefulness, perceived ease of use,and user acceptance of information technology[J].MIS quarterly,1989:319-340
[5] 朱俊亞.用戶(hù)滿(mǎn)意度影響因素研究—基于產(chǎn)品創(chuàng)新的視角[D].西南交通大學(xué),2017.
[6] 百度百科,網(wǎng)絡(luò)爬蟲(chóng)[EB/OL].https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin
[7] 諶志群,張國(guó)煊.文本挖掘研究進(jìn)展[J].模式識(shí)別與人工智能,2005,18(1):65-74.
[8] 丁蔚.基于詞典和機(jī)器學(xué)習(xí)組合的情感分析[D].西安郵電大學(xué),2017.
[9] 孔振.基于VSM的文本分類(lèi)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D].哈爾濱工業(yè)大學(xué),2014.
基金項(xiàng)目:國(guó)家自科項(xiàng)目地區(qū)基金:基于信息不對(duì)稱(chēng)和行為偏好雙重視角下的供應(yīng)鏈決策與協(xié)調(diào)研究(71762031)