王和勇+崔蓉
〔摘 要〕在線用戶評論是電子商務(wù)網(wǎng)站中的一個重要板塊,找出在線用戶評論的關(guān)注點有利于網(wǎng)站、商家及時有效地查看用戶的反饋信息。本文在對在線用戶評論進行分詞的基礎(chǔ)上,分別使用拉普拉斯評分(LS,Laplacian Score)及信息增益(IG,Information Gain)對所得到的分詞結(jié)果進行文本主題挖掘,并使用支持向量機(SVM,Support Vector Machine)進行分類精度的檢驗。實證結(jié)果表明,主題選擇的結(jié)果是有效的,分類的效果與選擇的關(guān)鍵詞個數(shù)和核函數(shù)有關(guān)。
〔關(guān)鍵詞〕中文分詞;主題發(fā)現(xiàn);拉普拉斯評分;信息增益;支持向量機
DOI:10.3969/j.issn.1008-0821.2015.09.012
〔中圖分類號〕 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2015)09-0063-07
〔Abstract〕Online users reviews are important for e-business website,and finding the topic of these reviews can help both websites and businesses pay close attention to users feedbacks.Based on word segmentation,this paper separately used laplacian score(LS)and information gain(IG)to find text topic,and then support vector machine(SVM)method was used to verify the classification accuracy.The results showed that it is effective to select the text topic and the accuracy is related to the number of topic and the core function used.
〔Key words〕word segmentation;topic discovery;LS;IG;SVM
我國電子商務(wù)市場起步較晚但發(fā)展迅速。根據(jù)2014年5月由中國互聯(lián)網(wǎng)協(xié)會與中國互聯(lián)網(wǎng)絡(luò)信息信息中心(CNNIC)聯(lián)合編纂發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展報告》(2014)顯示,2013年,我國互聯(lián)網(wǎng)用戶已達到618億,其中電子商務(wù)用戶達到302億,相比2012年增長5 987萬人,4890%的網(wǎng)民使用網(wǎng)絡(luò)渠道進行購物消費,電子商務(wù)的市場規(guī)模也達到了99萬億。蘊藏巨大潛力的市場使得各大網(wǎng)站不斷完善自身建設(shè),而在線用戶評論模塊則是網(wǎng)站建設(shè)中不可忽視的一環(huán)。Double Click Inc研究了美國旅游業(yè)、計算機硬件業(yè)、運動健身行業(yè)以及服裝業(yè)的網(wǎng)絡(luò)用戶行為,發(fā)現(xiàn)將近一半的用戶會在購買前在網(wǎng)絡(luò)中搜索產(chǎn)品的相關(guān)信息及用戶評價等[1]。
目前學(xué)者們對在線用戶評論的研究主要集中在主題發(fā)現(xiàn)研究(商品或用戶的特征發(fā)現(xiàn))[2-8]、評論質(zhì)量檢測[9-12]、情感傾向識別[13-15]及相關(guān)內(nèi)容推薦[16-17]等方面,其中,主題發(fā)現(xiàn)研究是后續(xù)研究中較基礎(chǔ)的部分,也引起了很多學(xué)者的關(guān)注。
APons-Pottata[2]利用將層次聚類和劃分聚類相結(jié)合的方式進行主題發(fā)現(xiàn);Blei[3]對LDA(latent Dirichlet allocation)模型進行全面的解釋后,由于概率主題模型出色的文檔建模和維度削減能力,主題模型在文本挖掘領(lǐng)域得到了迅速的發(fā)展;阮光冊[4]針對網(wǎng)絡(luò)在線用戶評論信息內(nèi)容短、信息量少的特征,提出了基于LDA主題發(fā)現(xiàn)模型,結(jié)合HowNet知識庫進行信息分析的方法,實現(xiàn)了對在線用戶評論信息主題的挖掘;李慧、張舒等[5]為準確挖掘用戶評論中的有用信息,提出了采用頁面分塊與信息熵的迭代計算技術(shù)的用戶評論抽取算法,實現(xiàn)了評論塊的自動發(fā)現(xiàn)與抽??;陳友、程學(xué)旗等[6]提出了一種利用特征抽取技術(shù)提取內(nèi)容特征,利用結(jié)構(gòu)特征去發(fā)現(xiàn)高質(zhì)量主題的框架,并提出了一種基于遺傳算法、禁忌搜索與機器學(xué)習(xí)的特征選擇算法,用來評價被抽取特征的重要性;呂韶華、張亮等[7]主要針對餐館評論提出了一種基于LDA的排序方法,通過抽取、過濾、計算評分、回歸等步驟確定排序模型;羅輝停[8]為克服應(yīng)用LDA模型挖掘在線用戶評論熱點方法不能自動確定熱點話題的數(shù)目的問題,提出了應(yīng)用中餐館模型來挖掘在線用戶評論熱點。
以上學(xué)者對在線用戶評論主題挖掘的研究,主要集中在使用LDA及其改進模型以及針對評論特征的算法實現(xiàn)等方面的研究。本文利用圖像特征選擇的LS方法和IG方法,應(yīng)用到在線用戶評論文本的主題發(fā)現(xiàn)上,并對主題發(fā)現(xiàn)結(jié)果通過SVM分類方法進行比較分析,發(fā)現(xiàn)IG對在線用戶評論效果比LS方法效果好。
1 相關(guān)理論
11 中文分詞
與英文天然分開的單詞不同,中文的詞語之間沒有明顯的分割標(biāo)識,并且中文的語言環(huán)境更加復(fù)雜。所謂中文分詞是將中文序列分成一個個有意義的詞?,F(xiàn)有的中文分詞算法可分為四大類:基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計的分詞方法以及基于語義的分詞方法[18],也有不少學(xué)者提出了許多改進算法,如基于改進最大匹配算法的中文分詞粗分算法[19]、基于互信息的串掃描分詞方法[20]、基于字詞聯(lián)合解碼的分詞方法[21]等。
目前常用的開源中文分詞器有IKAnalyzer、Jieba、mmseg4j、Ansj、Paoding等。本文實驗采用了R語言環(huán)境下的Rwordseg作為分詞工具,它使用rJava調(diào)用Java分詞工具Ansj。
12 拉普拉斯評分
拉普拉斯評分是一種無監(jiān)督的特征選擇算法,可以用于實現(xiàn)主題選擇。給定數(shù)據(jù)集X=[X1,X2,…,Xn]∈Rd×n,并假定fri(i=1,2,…,n)為第i個樣本Xi的第r個特征詞的詞頻(r=1,2,…,d),第i個樣本和第j個樣本Xj之間的相似系數(shù)為Wij=e|xi-xj|2t(t為一個適當(dāng)?shù)某?shù)),第r個特征的方差為var(fr),則第r個特征的拉普拉斯評分可用公式(1)表示如下:endprint
LS(fr)=∑ij(fri-frj)2Wijvar(fr)
(1)
從定義中可以看出,Wij表示兩個向量之間的距離,Wij越小,則兩個樣本的差異越小,(fri-frj)2越小,表明主題對差異的貢獻小。LS要求∑ij(fri-frj)2Wij越小越好。var(fr)越大,表明特征包含的信息越多,特征詞越有效。因此,LS尋找的是得分比較低的那些特征詞,這些特征詞就是主題選擇要尋找的主題。
13 信息增益
信息增益是一種有監(jiān)督的特征選擇算法,也是識別特征詞的一個重要方法?;陟氐母拍睿畔⒃鲆婧饬苛四程卣髟~出現(xiàn)與否對文本信息分類可提供的信息量,如公式(2)所示:
IG(w)=P(w)∑|c|i=1P(ciw)logP(ciw)P(ci)+P()∑|c|i=1 P(ci)logP(ci)P(ci)
(2)
其中,c表示類別總數(shù),P(w)表示特征詞w在文本中出現(xiàn)的概率,P(ciw)為條件概率,表示文本包含w時屬于ci類的概率,P(ci)表示類別ci在文本集中出現(xiàn)的概率,P()表示文本中不包含特征詞w的概率,P(ci)也為條件概率,表示文本中不包含w時屬于ci類的概率。
文獻[22-23]具體分析了信息增益算法并在此基礎(chǔ)上進行了改進,并通過實驗驗證了改進算法的有效性。
14 支持向量機
支持向量機是一種有監(jiān)督的分類算法,在文本分類中應(yīng)用較為成熟。SVM通過搜索最佳分離超平面實現(xiàn)數(shù)據(jù)的分類,其具體的做法是使用一種映射,將原始的訓(xùn)練數(shù)據(jù)映射到較高的維度,在新的維度上,搜索最佳分離超平面。對于非線性可分問題,可以利用高維映射使其轉(zhuǎn)化為線性可分,核函數(shù)可以用來對原始數(shù)據(jù)進行映射變化。常用的核函數(shù)主要有:線性核函數(shù)(K(x,y)=x·y)、多項式核函數(shù)(K(x,y)=[x·y+1]q)、RBF核函數(shù)(K(x,y)=exp{-rx-y2})以及Sigmoid核函數(shù)(K(x,y)=tankh{r(x·y)+c}),其中,RBF在不同的應(yīng)用中取得的效果較均衡,在文本分類中線性核函數(shù)的效果較好[24]。
2 實證分析
21 研究思路
分別使用本文研究思路如圖1所示,首先采用R語言環(huán)境下的分詞工具Rwordseg進行中文分詞,具體步驟包括去掉數(shù)字、空白、去掉停用詞、文本分詞、篩選出名詞、建立語料庫、統(tǒng)計詞頻、建立文檔詞條矩陣X=[X1,X2,…,Xn]d×n,從而將在線用戶評論的文本信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);接著,分別對該結(jié)構(gòu)化數(shù)據(jù)使用LS和IG按照式(1)和式(2)的算法進行評分,根據(jù)公式選出m個特征詞,最后,對包含選取的特征詞及類標(biāo)簽的矩陣X′=[X′1,X′2,…,X′m+1]d×(m+1)進行SVM分類,觀察分類精度得出結(jié)論。
22 實 驗
鑒于操作的便捷性,本次實驗數(shù)據(jù)樣本選取某電商網(wǎng)站隨機截取的1 000在線用戶評論數(shù)據(jù)集,剔除過短評論如
“還不錯”、“可以的”及重復(fù)評論如“不錯不錯不錯不錯”等。整理后數(shù)據(jù)樣例如圖2所示,pridid是在線商品的序列號,summary為在線用戶評論的文本數(shù)據(jù),是非結(jié)構(gòu)化數(shù)據(jù),需要進行主題挖掘,score為在線用戶對商品的評分,是結(jié)構(gòu)化數(shù)據(jù),在本實驗中為分類的類標(biāo)簽,本文主要用到了summary和score屬性。
221 中文分詞并得出文檔詞條矩陣
本文利用R語言中的Rwordseg包及tm包對文本數(shù)據(jù)進行分詞處理,Rwordseg使用rJava調(diào)用Java分詞工具Ansj實現(xiàn)對中文的分詞,tm包可以用來創(chuàng)建文檔詞條矩陣。先后進行去除數(shù)字和空白、去掉停用詞等操作,并利用函數(shù)選出具有代表性的名詞和形容詞,得到一個擁有691個關(guān)鍵詞的文檔詞條矩陣,由于矩陣稀疏度很高,剔除詞頻小于等于2的特征詞,最后得到208個特征詞,形成文檔詞條矩陣[X1,X2,…,X208]1000×208,部分結(jié)果如圖3所示。
222 選擇特征詞并進行分類
采用R語言對所得的208個候選主題詞進行信息增益
計算和拉普拉斯評分,通過對式(1)和式(2)的分析可知,在使用式(1)后,應(yīng)選擇評分較低的詞語,而使用式(2)計算后,應(yīng)選擇評分較高的詞語。利用LS和IG算法得出的部分關(guān)鍵詞排名分別如圖4和圖5所示。 圖4給出的是LS算法下部分關(guān)鍵詞的排名,實驗所用函數(shù)已經(jīng)將關(guān)鍵詞按照所得評分由低到高排好。排在前10位的分別為精細、傳真、情況、寬度、好、插座、體重、不錯、一線、單薄。圖5給出的是IG算法下部分關(guān)鍵詞的排名,實驗所用函數(shù)已經(jīng)將關(guān)鍵詞按照所得評分由高到低排好。排在前10位的分別為好、不錯、價格、質(zhì)量、便宜、東西、性價比、產(chǎn)品、感覺、一般。這些關(guān)鍵詞在一定程度上表明了在線用戶對該電商網(wǎng)站商品的關(guān)注點。
223 實驗結(jié)果
實驗1:LS和IG下不同訓(xùn)練集比例和特征詞的分類精度對比
表1所示為LS下不同訓(xùn)練集和特征詞數(shù)的分類精度對比,圖6為其折線圖表示,從圖中可以直觀地看出,其分類精度都保持在62%以上,當(dāng)訓(xùn)練集比重為70%、80%時,分類精度是比較高的;不同的訓(xùn)練集比重下,當(dāng)選取100個關(guān)鍵詞時,分類的精度相對都比較高;整體折線圖成發(fā)散模式,在選擇較少的關(guān)鍵詞時,模型是穩(wěn)健的。
表2所示為IG下不同訓(xùn)練集和特征詞數(shù)的分類精度對比,圖7為其折線圖表示,從圖中可以直觀地看出,其分類精度都保持在61%以上,當(dāng)訓(xùn)練集比重為70%、80%時,分類精度是比較高的;不同的訓(xùn)練集比重下,當(dāng)選取100個關(guān)鍵詞時,分類的精度相對都比較高;整體折線圖成發(fā)散模式,在選擇較少的關(guān)鍵詞時,模型是穩(wěn)健的。
表3所示為不進行關(guān)鍵詞的選擇時,不同訓(xùn)練集比重下的分類精度,從圖8折線圖中可以看出在不進行關(guān)鍵詞選擇時,對208個特征詞都進行SVM分類,在不同的訓(xùn)練集比重下,分類的精度都是比較高的,對比使用了特征選擇算法后的分類精度,都能達到6100%以上,說明進行特征選擇是有效的。endprint
圖9(a~d)綜合比較了不同訓(xùn)練集、不同特征詞個數(shù)下,LS算法與IG算法的分類精度對比,總的來說,當(dāng)所選關(guān)鍵詞個數(shù)小于60個左右時,使用LS算法選出的特征詞具有更好的分類效果,且隨著訓(xùn)練及比例的增大,該效果表現(xiàn)出不明顯的趨勢;當(dāng)所選關(guān)鍵詞個數(shù)大于60個左右時,使用IG算法選出的特征詞分類效果更好。在使用IG算法、80%訓(xùn)練集下,選擇100個關(guān)鍵詞后進行分類,精度最高,分類效果最好。
圖10(a~d)給出了使用LS算法、不同訓(xùn)練集比例、不同特征詞個數(shù)情況下,核函數(shù)對分類精度的影響。4幅圖各分類精度越來越發(fā)散的現(xiàn)象,多項式函數(shù)在各個方面取得了較好的分類效果,而線性核函數(shù)取得了較折中的分類效果,在各個函數(shù)中,比較具有代表性。
圖11(a~d)給出了使用IG算法、不同訓(xùn)練集比例、不同特征詞個數(shù)情況下,核函數(shù)對分類精度的影響。4幅圖中各分類精度也呈現(xiàn)逐漸發(fā)散的現(xiàn)象,在該算法下,同樣是多項式函數(shù)在各個方面取得了較好的分類效果,而線性核
3 結(jié)束語
本文的主要工作有:對在線用戶評論進行中文文本分詞、分別使用拉普拉斯評分及信息增益對所得到的分詞結(jié)果進行主題詞的選擇、使用支持向量機進行分類精度的檢驗。實證結(jié)果表明,進行主題詞的選擇是有效的,所選關(guān)鍵詞個數(shù)及SVM核函數(shù)對分類結(jié)果有較大的影響。本文豐富了在線用戶評論文本主題發(fā)現(xiàn)的研究,將用于圖像特征選擇的LS算法和IG算法進行對比,LS算法也取得了較好的效果,在實踐中,可以將LS作為文本特征選擇算法來使用,商家可以借此了解用戶關(guān)注的領(lǐng)域,從而著重在該方面改善客戶關(guān)系。在線用戶評論中還存在著許多結(jié)構(gòu)化的數(shù)據(jù),如客戶等級、客戶地區(qū)等,將非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相結(jié)合分析是本文接下來要研究的內(nèi)容。
參考文獻
[1]GodesD,Mayzlin D.Using online conversations to studyword-of-mouth communication[J].Marketing Science.2004,23(4):545-560.
[2]Pons-Porrata A,Berlanga-Llavori R,Ruiz-Shulcloper J.Topic discovery based on textmining techniques[J].Information Processing&Managemen,t 2007,43(3):752-768.
[3]David MBlei,Andrew YNg,and Michael IJordan.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[4]阮光冊.基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究[J].情報雜志,2014,(3):161-164.
[5]李慧,張舒,顧天竺,等.一種新穎的CRE用戶評論信息抽取技術(shù)[J].計算機應(yīng)用,2006,(10):2509-2512.
[6]陳友,程學(xué)旗,楊森.面向網(wǎng)絡(luò)論壇的高質(zhì)量主題發(fā)現(xiàn)[J].軟件學(xué)報,2011,(8):1785-1804.
[7]呂韶華,楊亮,林鴻飛.基于LDA模型的餐館評論排序[J].計算機工程,2011,19:62-64,67.
[8]羅輝停.基于CRP模型的評論熱點挖掘研究修正版[J].技術(shù)與創(chuàng)新管理,2012,(2):166-169.
[9]林煜明,王曉玲,朱濤,等.用戶評論的質(zhì)量檢測與控制研究綜述[J].軟件學(xué)報,2014,(3):506-527.
[10]黃婷婷,曾國蓀,熊煥亮.基于商品特征關(guān)聯(lián)度的購物客戶評論可信排序方法[J].計算機應(yīng)用,2014,(8):2322-2327,2341.
[11]聶卉.基于內(nèi)容分析的用戶評論質(zhì)量的評價與預(yù)測[J].圖書情報工作,2014,13:83-89.
[12]Mudambi SM,Schuff D.What makes a helpful online review?A study of customer reviews on amazon.com[J].MIS Quarterly,2010,34(1):185-200.
[13]SZhou,QChen,XWang.Active deep learning method for semi-supervised sentiment classification[J].Neurocomputing,2013,120:536-546.
[14]陳憶金,曹樹金,陳桂鴻.網(wǎng)絡(luò)輿情意見挖掘:用戶評論情感傾向分析研究[J].圖書情報知識,2013,(6):90-96.
[15]王剛,楊善林.基于RS-SVM的網(wǎng)絡(luò)商品評論情感分析研究[J].計算機科學(xué),2013,(S2):274-277.
[16]唐曉波,房小可.基于隱含狄利克雷分配的微博推薦模型研究[J].情報科學(xué),2015,(2):3-8.
[17]王偉,王洪偉,孟園.協(xié)同過濾推薦算法研究:考慮在線評論情感傾向[J].系統(tǒng)工程理論與實踐,2014,(12):3238-3249.
[18]張啟宇,朱玲,張雅萍.中文分詞算法研究綜述[J].情報探索,2008,(11):53-56.
[19]周俊,鄭中華,張煒.基于改進最大匹配算法的中文分詞粗分方法[J].計算機工程與應(yīng)用,2014,(2):124-128.
[20]趙秦怡,王麗珍.一種基于互信息的串掃描中文文本分詞方法[J].情報雜志,2010,(7):161-162,172.
[21]宋彥,蔡東風(fēng),張桂平,等.一種基于字詞聯(lián)合解碼的中文分詞方法[J].軟件學(xué)報,2009,(9):2366-2375.
[22]郭亞維,劉曉霞.文本分類中信息增益特征選擇方法的研究[J].計算機工程與應(yīng)用,2012,27:119-122,127.
[23]胡穎.基于信息增益的文本特征選擇方法[J].計算機與數(shù)字工程,2013,(3):460-462.
[24]張國梁,肖超鋒.基于SVM新聞文本分類的研究[J].電子技術(shù),2011,(8):16-17.
(本文責(zé)任編輯:郭沫含)endprint