李愛清,何爍,郗亞輝
(河北大學數學與計算機學院,河北保定 071002)
產品評論挖掘可視化實驗平臺的開發(fā)
李愛清,何爍,郗亞輝
(河北大學數學與計算機學院,河北保定 071002)
針對目前研究人員已經提出多種中文評論挖掘方法,缺乏統(tǒng)一的評論實驗數據集的現(xiàn)狀,首先從知名網站上隨機抽取手機評論,經過垃圾去除、手工標注,最終構造出手機領域的評論挖掘實驗數據集.基于實驗數據集構造出手機領域的情感詞庫,并利用模式匹配方法建立了產品特征粒度樹,開發(fā)出一個可視化平臺,研究人員可以直接用其檢驗挖掘方法的效果,也可以對不同的挖掘方法進行客觀比較.
評論挖掘;實驗數據集;情感詞庫;特征粒度樹;可視化
隨著互聯(lián)網的快速發(fā)展,網上購物已成為一種常見的購物方式.消費者在購物的同時也會在網上給出對產品的評論.這些評論對商家以及消費者都有很好的參考作用,產品評論挖掘已經受到越來越多的關注.但是,目前還沒有標準的中文評論實驗數據集.研究者在檢驗挖掘方法的效果時,需要從相關網站上收集評論,自行構建實驗數據集.這一方面增加了研究人員的工作量,另一方面,由于各自采用的實驗數據集不同,難以客觀評價各種挖掘方法.針對這一情況,開發(fā)了一個手機領域的評論挖掘可視化實驗平臺.該平臺由實驗數據集、情感詞庫、特征粒度樹和挖掘效果的可視化顯示4部分組成.研究人員可以直接用其進行實驗,檢驗挖掘方法的效果,也可以對不同的挖掘方法進行比較.
為方便研究人員使用,本平臺提供了2類數據集:實驗數據集和標準數據集.實驗數據集由網上抓取的原始評論組成,供研究人員進行實驗.標準數據集為標注完成的數據集,用來作為評判研究人員挖掘算法優(yōu)劣的依據.
為保證原始評論的數量和質量,選取了京東、中關村在線、IT168和亞馬遜4家比較知名的電子商務網站,作為評論的來源.將評論按型號分類,兼顧評論的數量和抽取的隨機性,最終篩選出4種型號手機的評論,并將評論中與產品特征和用戶觀點挖掘無關的評論刪除.至此得到實驗數據集.
對實驗數據集進行人工標注,得到標準數據集.由于產品評論挖掘針對的是評論中的產品特征詞和表達用戶態(tài)度的情感詞,因此這2部分內容為標注的重點.產品特征細分為總體特征和部件特征2部分.按照表達用戶態(tài)度的明顯程度劃分,情感詞可分為顯性和隱性2類;而按照其情感傾向分類,又可分為正面和負面情感詞2類.為進行區(qū)分,本平臺采用不同的符號完成標注.
情感詞就是表達用戶對產品好惡態(tài)度的詞匯,例如“喜歡”、“討厭”等.產品評論挖掘正是要抽取這類詞匯,進行態(tài)度判斷后,將結果呈現(xiàn)給商家或者其他消費者.將這部分詞總結、歸納,并進行極性標注,建立出手機領域的情感詞庫,以方便研究人員對評論表達的情感做出更加準確的判斷.
中文評論中,主要有4類詞對判斷用戶情感色彩有重要作用,分別是:名詞、形容詞、動詞和副詞[1].標準數據集中已經準確、完整地標記出這些詞,這就為情感詞庫的建立提供了基礎.
2.1 詞庫結構
為提高詞庫的查詢準確率和實用性,將其劃分為基本極性詞庫、領域極性詞庫、網絡極性詞庫、否定詞及雙重否定詞庫和程度級別詞庫5部分.詞庫結構如圖1所示.
圖1 情感詞庫結構Fig.1 Structure of emotional lexicon
2.1.1 基本極性詞庫
這部分詞庫主要包含日常生活中使用頻率較高的詞,可以將它們分為靜態(tài)基本詞庫和動態(tài)基本詞庫2部分.例如:“大方”、“美觀”一類的詞語,任何情況下都是對產品的正面評價,極性固定,與修飾的特征詞無關,將這類詞歸為靜態(tài)基本詞庫中.反之,有些情感詞的極性會隨著它修飾的特征詞發(fā)生變化.例如“電池容量很大,不需要經常充電”和“手機體積有些大,攜帶不方便”中的情感詞“大”,很明顯它表達的態(tài)度是完全相反的.這類詞的極性具有動態(tài)變化的特點,稱為動態(tài)極性詞[2].它的極性判斷是一個比較難解決的問題.但具體到某個特定的領域,這類詞的數量還是有限的,因此可以將它們一一列舉出來.參考李培[3]建立詞典的模式,完成動態(tài)基本詞庫的構建.
需要說明的是,動態(tài)基本詞的極性需要結合其修飾的特征詞進行判斷.如果其修飾的特征詞沒有在對應的特征詞表中,那么情感詞的極性則為默認值.
2.1.2 領域極性詞庫
該詞庫由手機領域專屬極性詞庫和領域固定極性詞庫2部分組成.評論中有一部分情感詞是手機領域特有的,例如“死機”、“掉漆”等,將這些詞劃歸到專屬極性詞庫中.還存在一類在手機領域中的極性與常用的默認極性不一致的情感詞,例如:“飄”本身為中性詞,但在關于手機的評論“耳機聲音有點飄”中,“飄”就變?yōu)樨摌O性詞.將這類特殊的極性詞總結,組成領域固定極性詞庫.
2.1.3 網絡極性詞庫
越來越多的新興詞匯出現(xiàn)在網絡上,例如“弓雖”、“頂”等.將其中具有正負極性觀點的網絡詞進行總結,最終添加到網絡極性詞庫中.
2.1.4 否定及雙重否定詞庫
對特征觀點極性的識別并不僅僅是由對應的情感詞決定的,還要看這個情感詞是否有否定詞修飾.否定詞會使其修飾的情感詞極性發(fā)生逆轉.情感詞如果由雙重否定詞修飾,那極性就維持原來不變.這2類詞對情感極性影響很大,在判斷時必須加以考慮.
2.1.5 程度級別詞庫
評論中情感詞的修飾成分除否定詞外,還有程度副詞.這類詞對整條評論的極性判斷有一定的影響.例如“按鍵稍微有些小,但使用起來還是非常舒服的”,“小”是對按鍵的負面評價,強烈程度僅是“稍微”,而“舒服”為正面評價,程度則為“非?!?,很顯然對按鍵的整體評價是正面的.該詞庫將程度副詞根據其表達的強烈程度不同,共分為3個等級,如“非?!?、“很”、“特別”一類的詞定義為+2級,“比較”、“略微”之類的詞稍弱一些,定義為+1.5級,“還”、“勉強”一類的詞定義為+0.5級.沒有程度詞修飾的情感詞,默認程度詞級別為1.
2.2 詞庫構建方法
2.2.1 極性詞庫構建
情感詞自身也帶有一定的強烈程度,例如“滿意”和“湊合”,雖然都是對產品的正面評價,但“滿意”的情感程度要明顯高于“湊合”.把情感詞按強烈程度分為5類:+2,+1,0,-1,-2,正數代表對產品的正面評價,負數代表對產品的負面評價,0代表中性評價.絕對值越大表示情感程度越強烈[2].
從已標注好的1 000條評論入手,抽取出極性標簽中的情感極性詞,依照詞義將它們分為基本極性詞、領域極性詞、網絡極性詞、否定及雙重否定詞5類,并標明其情感程度.其中,如果某一情感詞標有正、負2種極性,則說明它的極性是動態(tài)變化的,此時將該詞與其修飾的特征詞一并抽取出來,添加到動態(tài)基本詞庫中.劃分完成后,就構建出最初的詞庫.
此時詞庫中的情感詞全部來自原始評論,傾向于口語化,且包含的情感詞不完整.為盡可能地保證詞庫的完整性,在構建過程中又參考了涵蓋詞匯語義信息較為全面的《知網》[4]詞庫.將其中的“正面情感詞語”、“負面情感詞語”、“正面評價詞語”和“負面評價詞語”進行篩選,保留其中情感極性明顯且適用于手機領域的詞語.將這些詞語與之前標注出的詞語合并、去重,得到最終的情感詞庫.
2.2.2 程度級別詞庫構建
同樣從已標注好的1 000條評論入手,抽取出程度標簽中的程度詞,與《知網》[4]詞庫中的“程度級別詞語”合并、去重、標記程度級別,得到最終的程度級別詞庫.
用戶在對手機的同一特征進行評論時往往側重點不同.例如,同樣是對屏幕的評論,有人關注屏幕的大小,而有人關注屏幕的分辨率.為了規(guī)范化產品特征,更準確地檢驗出挖掘算法的效果,需對手機特征進行歸類.本文就將“屏幕大小”和“屏幕分辨率”定義為“屏幕”這一特征的子類,將所有類集中起來就形成了一棵特征粒度樹.
3.1 特征粒度樹的建立
本文借鑒黃永文[5]的方法,從京東網站獲取手機產品說明書,并抽取4G、3G、商務、時尚等15種類型的50篇編輯評測文章作為實驗集.而后利用模式匹配[6]在評測文章中提取的產品特征擴充特征粒度樹.
圖2 京東網站產品說明書樣例Fig.2 A example of the product specification from www.360buy.com
如圖2所示,位于說明書中左側的內容稱為特征詞,右側的內容稱為特征值,標題欄的內容稱為特征組名.將說明書中特征詞作為特征粒度樹的主體部分,特征組名就是其組內成員的父結點,而特征值作為葉子結點.例如:“網絡”就是“網絡制式”與“網絡頻率”的父結點,“聯(lián)通WCDMA”就是葉子結點.
為了提高抽取的特征與粒度樹結點的匹配度,本文利用模式匹配方法擴充特征粒度樹.步驟如下所示:
1)根據標點符號將評測文章分成短句,然后使用分詞工具對短句添加詞性標簽;
2)以產品說明書中的特征詞為種子,抽取含有特征詞短句的模式;
3)根據抽取的模式挖掘評測文章中新的產品特征;
4)將在同一段中抽取的特征詞歸為一類(評測文章中對同一特征的描述都在一段或附近幾段中),通過新的產品特征與產品說明書中的特征詞的相似度計算,將新的產品特征添加到特征粒度樹的相應位置.
一棵完整的粒度樹如圖3所示.
圖3 手機特征粒度樹Fig.3 Feature-granularity tree of mobiles
3.2 特征的歸類
由于評論的自由性,從評論中挖掘出的特征詞并不一定都能在特征粒度樹中匹配到準確的位置.這就需要通過計算特征詞與粒度樹中結點的相似度來判斷.關于相似度的計算,本文首先采用分詞工具將特征詞分解成最小單元,再利用Jaccard系數[7]和《知網》[4]的相似度計算方法進行計算,從而確定特征詞在粒度樹中的位置.
研究人員利用本文提供的實驗數據集進行挖掘以后,平臺會自動計算并顯示特征詞和情感詞抽取的準確率和召回率,進而展示出挖掘方法的效果.由于是在同一個實驗集上進行的實驗,根據準確率和召回率就可以客觀地判斷不同挖掘方法的優(yōu)劣.利用第2章的情感詞庫和第3章的特征粒度樹,平臺可以統(tǒng)計研究人員抽取的特征詞和情感詞的極性,并以柱狀圖的形式顯示出來.
4.1 特征詞抽取的準確率和召回率計算
用戶利用該實驗數據集抽取出特征詞以后,將其導入可視化平臺,即可計算出特征詞抽取的準確率和召回率,如圖4所示.由于用戶特征詞抽取方法各不相同,本平臺將準確率和召回率的計算分為2種:逐條計算和整體計算.例如:如果用戶利用的是類似于Apriori算法的方法,那么抽取出的特征詞是頻繁項集,計算時就選擇整體計算;若采用的是基于模式匹配的方法,則應該逐條統(tǒng)計特征詞正確的個數,計算時就選擇逐條計算.此外,該平臺還為用戶提供了一個和標準集對比的窗口.通過這個窗口,用戶可以直觀地看出自己方法的不足.
圖4 平臺效果Fig.4 Picture of the experimental platform
4.2 情感詞抽取的準確率和召回率計算
情感詞的準確率和召回率計算界面與特征詞的界面類似.不同的是:在特征詞抽取的準確率和召回率計算中只是統(tǒng)計用戶挖掘出的、正確的特征詞個數,但情感詞還存在一個極性判斷問題.否定前綴會使情感詞的極性發(fā)生逆轉,因此僅當挖掘出正確的情感詞且極性判斷無誤時,才算作抽取正確.
4.3 處理結果的展現(xiàn)
許多用戶進行評論挖掘得出的結果只是一組數據,并沒有直觀的展示.鑒于這一點,該平臺為用戶提供了一個如圖5所示的可視化界面.
圖5 評論挖掘結果的直觀展示Fig.5 Visual display of review mining result
用戶將挖掘結果導入平臺,平臺利用第3章中建立的特征粒度樹將用戶抽取的特征詞分類,根據用戶選擇的粒度選取出要顯示的x軸坐標,再利用第2章的情感詞庫判斷情感詞的極性.最后按照x軸上的特征詞將情感詞分組,按組統(tǒng)計正負極性詞的個數,從而計算出正負評價的百分率,利用柱狀圖顯示出來.
鑒于目前沒有中文評論挖掘實驗數據集的現(xiàn)狀,提供了一個集實驗與實驗效果顯示于一體的可視化實驗平臺.首先從知名購物網站抓取了第一手的原始手機評論,過濾掉垃圾評論后,將評論進行手工標注,構造出一個中文評論挖掘實驗數據集.在此基礎上建立了情感詞庫,為研究人員的情感詞極性判斷提供依據.并利用結構化數據構建出手機產品特征粒度樹,便于特征分類.此實驗平臺的開發(fā),不僅可以減少評論挖掘研究人員在實驗階段的工作量,而且還可以幫助研究人員對不同的挖掘算法做出客觀評價.
[1]徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007,21(6):95-99.
XU Jun,DING Yuxin,WANG Xiaolong.Sentiment classification for chinese news using machine learning methods[J].Journal of Chinese Information Processing,2007,21(6):95-99.
[2]岳笑崢.基于領域本體的意見挖掘系統(tǒng)[D].北京:北京郵電大學,2008.
YUE Xiaozheng.A domain-ontology-based opinion mining system[D].Beijing:Beijing University of Posts and Telecommunications,2008.
[3]李培.產品評論挖掘的觀點抽取和分類技術研究[D].重慶:重慶大學,2009.
LI Pei.Research on opinion extraction and classification technologies for product review mining[D].Chongqing:Chongqing University,2009.
[4]劉群,李素建.基于《知網》的詞匯語義相似度計算[Z].第三屆漢語詞匯語義學研討會,臺北,2002.
LIU Qun,LI Sujian.The similarity calculation of word semantic based on hownet[Z].Proceedings of the 3th CLSW Conference,Taipei,2002.
[5]黃永文,何中市,伍星.產品特征的層次關系獲?。跩].計算機工程與應用,2009,45(22):236-240.
HUANG Yongwen,HE Zhongshi,WU Xing.Acquisition of product features hierarchies[J].Computer Engineering and Applications,2009,45(22):236-240.
[6]LIU Bing,HU Mingqing,CHENG Junsheng.Opinion observer:analyzing and comparing opinions on the web[Z].International World Wide Web Conference Committee(IW3C2),Chiba,2005.
[7]HAN Jiawei,KAMBER M.數據挖掘:概念與技術[M].范明,孟小峰譯.2版.北京:機械工業(yè)出版社,2007:255-256.
H AN Jiawei,KAMBER M.Data mining concepts and techniques[M].Translated by FAN Ming,MENG Xiaofeng.2th ed.Beijing:China Machine Press,2007:255-256.
A visualization platform development for product review mining
LI Ai-qing,HE Shuo,XI Ya-h(huán)ui
(College of Mathematics and Computer Science,Hebei University,Baoding 071002,China)
Up to now,researchers have proposed a variety of mining methods for Chinese reviews.However,there are not any unified review experimental data sets now.For this situation,the paper extracts reviews about mobiles from four famous websites randomly.After spam reviews removing and artificial marking,an experimental data set in the field of mobiles for product reviews mining is constructed.Later,we build an emotional lexicon based on the experimental data set and a feature-granularity tree by the pattern matching method.Then a visualization platform is developed.Researchers can not only use it to perform their experiments directly,but do some objective comparisons of different mining methods.
reviews mining;experimental data sets;emotional lexicon;feature-granularity tree; visualization
TP391
A
1000-1565(2012)02-0212-06
2011-10-19
河北省教育廳重點科研項目(ZH200804);保定市科技攻關計劃項目(11ZG014)
李愛清(1986-),女,河北滄州人,河北大學在讀碩士研究生,主要從事數據挖掘方面研究.E-mail:aiqing-0289@163.com
孟素蘭)