梁開孟,秦鳳敏
(1.中國郵政集團公司欽州市分公司,欽州535000;2.廣西財經學院金融學,南寧530000)
隨著計算機的不斷普及,互聯(lián)網和電子商務的不斷發(fā)展,用戶傾向于利用電商平臺進行消費,而電商平臺的不斷完善,研究用戶評論逐漸成為商家了解用戶消費情感的重要手段。用戶評論對消費行為進行了主觀或客觀的評價,電商平臺上的店鋪在長久經營過程中積累了成千上萬條用戶評論數據,在龐大的數據集中,隱藏著店鋪運營的基本規(guī)律,主要體現(xiàn)在產品和服務上,以及用戶的需求期望。
Python文本挖掘技術不斷地發(fā)展,該技術能夠準確地對評論文本進行數據分析與挖掘,挖掘評論文本數據中存在的客觀規(guī)律,為產品銷售制定科學的銷售策略提供依據。本文選取滾筒洗衣機為研究對象,采集京東商城上的文本評論數據,對數據預處理之后,應用網絡用戶情感分析方法,將評論數據切割成正面、中性、負面三個文檔,結合LDA主題模型,分析滾筒洗衣機的用戶情感傾向。
根據前瞻產業(yè)研究院相關資料統(tǒng)計,2013年以來家用洗衣機的銷售量增長緩慢,甚至有些年份出現(xiàn)下降的趨勢,主要原因是家用洗衣機市場逐漸趨向飽和。本文對采集京東商城上滾筒洗衣機數據進行以下設定:評論數量超過5000條的店鋪,以“滾筒洗衣機”采取模糊采集,對品牌、型號等不進行特別約束等,希望從采集的數據中挖掘用戶規(guī)律。
對采集獲得的用戶評論數據進行初步處理,得到原始文本的評論數據,包含了脫敏處理后的會員名、評價星級、評價內容、時間等內容,根據分析的需要,從數據中抽取出“評價內容”一列。
原始數據中存在異常值、重復值、系統(tǒng)自動評論等數據,這部分數據價值含量低、數據結構混亂,嚴重影響數據挖掘模型的執(zhí)行效率,導致挖掘結果的偏差,所以進行數據清洗是必不可少的。結合原始數據的具體情況,數據預處理采用文本去重、機械壓縮去詞和短句刪除。
圖1 評論文本清洗過程
(1)文本去重
文本去重是將重復出現(xiàn)的評論數據剔除,使數據保持唯一性,Python可以通過unique函數來剔除重復數據。文本評論出現(xiàn)重復往往有以下幾個原因:第一,重復采集了同一個店鋪的URL,造成重復采集數據;第二,電商平臺根據客戶長時間不進行評論,超過規(guī)定時間系統(tǒng)會自動進行評論,例如,系統(tǒng)默認生成“此用戶未填寫評價內容”的內容;第三,客戶使用簡潔的語句評論,例如,“好”、“很好”、“好評”等,這類文本的價值相對較低。
(2)機械壓縮去詞
在原始數據中,部分文本評論語句存在詞語連續(xù)累贅重復,而機械壓縮去詞目的是將這部分連續(xù)累贅重復數據進行處理。其中,個人網絡用詞習慣不同,對相同情感的文本評論內容各不相同,每一條數據的價值比高低不一,去除連續(xù)累贅重復部分的數據有利于提高文本評論的分析價值。Python語言通過將文本評論存放列表中,逐個讀取列表中的國際字符,將各個列表中意義相同部分進行壓縮剔除。
圖2 被壓縮的語句和原語句對比
本文分析采用的機械壓縮去詞算法主要是針對語句開頭連續(xù)重復進行處理,這基于人們制造無意義、重復語料常見于句子開頭及句末,例如:“這款洗衣機,很好很好”、“非常滿意非常滿意”,通過機械壓縮去詞將重復累贅的“很好”、“非常滿意”刪除,留下簡潔的語料。
(3)短句刪除
用戶評論字數越少,其蘊含的意思越少,挖掘到的信息量也越小。根據中文的使用習慣,要表達相應的用戶情感需要一定量的字數,但是原始數據和機械壓縮去詞后的數據中存在字數較少的短句。在機械壓縮去詞完成的文本中,部分用戶以“好”、“非常好”、“超級差”等表達自己的消費情感,從分析的角度無法準確捕捉到用戶具體表達消費過程中哪個部分產生的情感,因此用戶短句評論在分析過程中需要進行剔除。設定少于3個字符的短句,對其進行刪除,確保文本中各個句子的句意完整。
中文分詞是將句子中漢字按照序列切成一個個單獨的中文詞語,結巴詞庫提供了精確模式、全模式和搜索引擎模式三種分詞模式[2],是Python中一個重要的第三方中文分詞函數庫。Jieba詞庫能夠支持中文簡體和繁體,在分析用戶評論中能夠對文本評論數據提取關鍵詞。
用戶關注點是用戶對某一商品特定屬性的關注點,反映客戶在某種商品上的聚焦點,關注某一特性的用戶數量越高,說明該商品的這一屬性對用戶來說越重要,一般是商品價格、如何安裝、物流快慢、外觀形狀、質量如何、功能多少、容量大小和品牌效益。
分析利用Jieba詞庫,結合用戶用詞習慣,設置以“安裝”、“物流”、“外觀”、服務、“質量”、“功能”、“品牌”、“價格”和“容量”九個為用戶常關注的屬性。分析結果如圖3。
圖3 文本評論數據關鍵詞詞頻統(tǒng)計
根據圖3、圖4的結果顯示,用戶普遍關注的九大方面中,用戶關注“安裝”的詞頻13368次,占比為39.39%,是用戶關注最大的一個方面,其次是物流、外觀、服務,而質量、功能和品牌并列第五,關注容量的關注度最小。因此,在網購滾筒洗衣機過程中,用戶首先考慮的是如何安裝及安裝難度高低。
圖4 文本評論數據關鍵詞客戶關注度
通過對用戶文本評論進行中文分詞,原本完整的語句會變得凌亂,而計算機無法識別出凌亂語句的完整結構,因此需要對分詞重新進行關聯(lián),使分詞之間建立連接關系。語義網絡能建立起分詞與分詞的連接關系,使凌亂的分詞重新關聯(lián)起來,為進一步利用LDA主題模型分析提供前提條件。
圖5 詞義網絡圖
通過對分詞結果的觀察,單獨一個分詞無法準確地表達相應的內容,例如,“洗衣機”與“使用”、“外觀”等分開,就不能準確知曉其表達的下一層含義,但是“洗衣機”與“使用”連接起來,從正面情感評價則是“洗衣機使用方便”,而負面情感評價則是“洗衣機使用不方便”。因此建立詞義網絡是研究LDA模型的前提條件,為進一步分析用戶情感提供依據,建立詞義網絡是極其重要的。
(1)模型闡述
LDA模型中文名全稱文檔主題生成模型,是由布萊等人在2003年Latent Dirichlet Allocation一文中提出,經過國內外學者們不斷地改進與完善,形成以文檔(d)、主題(z)和詞(w)三層結構的 LDA 模型,因此 LDA模型亦被稱為三層貝葉斯概率模型。LDA主題模型的大概思路是“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語[5]”,從這個過程能夠得到整個文檔的每一個詞。具體來說,假如文檔是一個集合D,集合D則是由主題集合T形成,而主題集合T又是由單詞W形成。整個過程中的文檔、主題和單詞都服從多項式分布。
LDA模型從機器學習分類上屬于無監(jiān)督學習,它采用BOW模型,即詞袋模型,原理是將每個文本評論文檔作為一個詞頻向量,并將文本信息轉換成數字信息[5]。對比傳統(tǒng)的空間向量概率(VSM),LDA主題模型增加了概率的信息,能夠更有效地對文本進行建模。
在運用LDA模型之前,首先需要對相應的指標進行定義。假設詞表大小定義為L,一個單詞w則是一個 L 維向量(1,0,0,…,0,0),根據詞袋模型將一篇文檔被視為一個詞頻向量,因此N個單詞即可構成文本評論文檔 d,即 d=(w1,w2,…,wN)。由于京東商城開放的評論數據是有限的,為了分析更科學,對同一個商品需要采集M個不同的店鋪,形成M篇文本評論文檔d,即形成同一商品的評論集 D=(d1,d2,…,dM)。該算法是通過從文本評論中提取潛在主題,且文檔d必然存在著K個主題,記為zi(i=1,2,…,K)。LDA模型生成過程如圖6所示。
圖6 LDA模型結構圖
假設狄利克雷函數的先驗參數分別是α和β,主題在文檔內的多項分布參數為θ,其服從超參數為α的 Dirichlet先驗分布,另外,主題(topic)中的單詞(word)的多項分布參數為?,其服從超參數 β的Dirichlet先驗分布[3]。
LDA生成過程中的參數通過Gibbs抽樣進行估計,具體過程[1][6]如下:
(1)k個主題按一定比例隨機混合成每篇用戶評論文檔,混合比例服從多項分布,記為 Z|θ=Mult(θ)[3]。
(2)將分散的單詞按一定比例混合成各個主題,混合比例服從多項分布,記為W|Z,?=Mult(?)。
(3)P(wi|z=s)表示詞wi屬于第s個主題的概率,P(z=s|dj)表示第s個主題在評論dj中的概率,在評論dj條件下生成詞wi的概率表示為P(wj|dj)=
(4)LDA模型對參數θ、?的近似估計通常使用馬爾科夫鏈蒙特卡洛算法中的一個特例Gibbs抽樣。利用Gibbs抽樣對LDA模型進行參數估計,依據如下:
其中,zi=s|表示詞wi屬于第s|個主題的概率,Z-i表示其他所有詞的概率,ns,-i表示不包含當前詞wi的被分配到當前主題zs下的個數,ns,-j表示不包含當前文檔dj的被分配到當前主題zs下的個數。
通過上述分析得到詞wi在主題zs中分布的參數估計?s,i,主題zs在評論dj中的多項分布的參數估計θj,s,公式如下:
其中,ns,i表示詞wi在主題zs中出現(xiàn)的次數,nj,s表示文檔dj中包含主題zs的個數[6]。
(2)模型應用
用戶文本評論分析運用LDA主題模型算法,并采用Gibbs抽樣方法對LDA模型的參數進行近似估計。在整個分析操作過程中,將狄利克雷函數的先驗參數α和 β設置為經驗值,假設K=50,先驗參數則為α=50/K,β=0.1。經過數據清洗,由采集的原始文本評論數據64163條,清洗得到38057條,其中文本去重剔除26013條,機械壓縮去詞刪除了93條文本評論。
通過使用武漢大學ROSTCM6軟件將文本評論數據進行正面評價、中性評價和負面評價切割,之后進行語義網絡分析,將切分好的正面、負面兩個文本文檔進行提取高頻詞、過濾無意義詞以及提取行特征詞,最后構建網絡。
根據語義網絡分析結果,無論是正面還是負面評論,出現(xiàn)頻次最多的是“安裝-洗衣機”、“師傅-安裝”、“送貨-安裝”,其他出現(xiàn)頻次較高的主要分布在售后、脫水功能、聲音、服務態(tài)度等方面。作為網購的家用滾筒洗衣機,用戶收到貨物首先關注如何安裝洗衣機,這關系到用戶能否正常使用洗衣機,是影響用戶情感的關鍵因素。
表1 正面文本評價潛在主題
從上述結果來看,將用戶正面文本評論數據聚成三個潛在主題,其中,主題1主要是用戶認為洗衣機不錯,體現(xiàn)在聲音小、外觀好看和洗得干凈;主題2主要是用戶反映洗衣機不錯,體現(xiàn)在物流(或送貨)速度很快、有師傅幫忙安裝和服務好;主題3主要是用戶一直信賴京東平臺的洗衣機,體現(xiàn)在價格合理、質量保證和品牌信賴。
通過對正面文本評論的三個潛在主題分析,用戶購買滾筒洗衣機之后產生正面情感傾向的原因集中體現(xiàn)在以下幾個方面:第一是洗衣機質量好(聲音、干凈度和機身質量);第二是商品外觀符合大眾審美觀,即洗衣機外觀好看;第三是商家服務好(安裝、售后);第四是物流速度快;第五是品牌保障,用戶對品牌洗衣機的特殊情感。
表2 負面文本評價潛在主題
從上述結果來看,用戶在購買了洗衣機之后出現(xiàn)的負面情感(抱怨點)被聚成三個潛在主題,主題1主要是用戶反映洗衣機不好,體現(xiàn)在安裝師傅態(tài)度差、洗衣機運轉聲音大、不知道使用流程和售后服務差;主題2主要是用戶認為洗衣機雖然不錯,但是洗得不干凈、運轉聲音大和脫水能力差;主題3主要是用戶認為洗衣機不好,體現(xiàn)在安裝師傅態(tài)度差、物流(或送貨)速度慢和不送上樓。
通過對負面文本評論的三個潛在主題分析,消費者購買洗衣機后產生負面情感(抱怨點)傾向的主要原因是洗衣機存在質量問題(噪音大、干凈度低、脫水能力差)、服務差(安裝師傅態(tài)度差、售后服務差)和物流速度慢。
總而言之,消費者情感傾向與商品及服務有直接聯(lián)系,商家滿足消費者的關注點有助于用戶產生正面情感,消除負面情感;反之則產生負面情感。
本文通過中文分詞分析了用戶對滾筒洗衣機相關屬性的關注度、詞義網絡,并利用LDA主題模型分析用戶的正面和負面情感傾向。根據對京東商城上滾筒洗衣機的用戶文本評論進行中文分詞和LDA主題模型分析,對滾筒洗衣機賣家提出以下建議:第一,保證產品質量,確保產品品質,是吸引和挽留客戶的根本保障。第二,加大產品研發(fā),既要改進洗衣機的性能,也要改善產品外觀,符合消費者大眾審美風格。第三,提升安裝人員和服務團隊的整體素質,安裝人員既要有過硬的安裝技術和維修技術,又要有良好的服務態(tài)度;服務團隊不僅要做好售前服務,還要做好產品售后服務,及時、謙遜地回答客戶的問題。第四,做好同城配送和物流公司合作,確保產品安全、快捷地送到客戶手中,增加客戶滿意度。第五,發(fā)揮品牌效益。品牌是是一個企業(yè)產品技術創(chuàng)新的結晶,是企業(yè)產品綜合內涵的集中體現(xiàn),同時也是吸引客戶的重要手段。
總而言之,商家應當抓住消費者的關注點,盡可能滿足消費者的消費心理,發(fā)揮優(yōu)勢,提升服務質量,提高產品占有率與企業(yè)競爭力。