卿 勇 劉夢娟 薛 浩 劉冰冰 秦志光
1(達州職業(yè)技術(shù)學(xué)院 四川 達州 635001) 2(電子科技大學(xué)信息與軟件工程學(xué)院 四川 成都 610054)
隨著在線購物逐漸成為人們?nèi)粘Y徫锏闹匾緩?,其質(zhì)量安全問題日益受到政府監(jiān)管部門、平臺管理方、以及消費者的重視。然而由于電商平臺本身低門檻、虛擬化等特點,導(dǎo)致電商平臺上商品的質(zhì)量安全難以得到有效監(jiān)管。目前,大多數(shù)的電商平臺都只提供商家的信用信息,例如商品質(zhì)量、服務(wù)態(tài)度、物流速度、商品描述等的綜合評分。針對單個商品,只有商家提供的商品信息,以及買家的評分和評論,導(dǎo)致用戶在選購商品時只能根據(jù)好評率、以及對評論的瀏覽來了解商品的質(zhì)量和特點。然而隨著評論數(shù)的快速增長,評論內(nèi)容越來越龐雜,甚至不同評論出現(xiàn)矛盾的觀點,導(dǎo)致用戶難以從評論中獲得有效信息。為此,研究者提出利用情感分析技術(shù)進行評論總結(jié)[1],幫助用戶從大規(guī)模評論集中挖掘商品的有效信息。
雖然已有大量針對商品評論意見抽取的研究成果,但仍然在以下方面存在改進空間:(1) 由于商品評論存在口語化、隨意化等特點,因此一些隱含特征難以通過詞頻、依存關(guān)系等方法提取。例如評論“好吃,新鮮”中只有觀點詞,沒有特征詞,但這些觀點詞修飾的特征也是比較明確的。(2) 從評論中提取的特征詞和觀點詞是多樣化的,而這些特征詞通常都可隱含地歸納為幾類典型特征。例如“物流、速度、快遞”都隱含對應(yīng)了物流特征,“口感、味道”都隱含對應(yīng)了品質(zhì)特征。因此如果能將提取的特征詞聚類為幾類典型特征,提供這幾類典型特征的情感分析,將使評論體現(xiàn)的商品特征及情感表述更為簡潔。
本文針對上述問題,提出一個基于評論的商品特征抽取及情感分析框架(OPEN)。OPEN首先利用依存關(guān)系和詞性搭配規(guī)則提取每條評論中包含的<特征詞, 觀點詞>詞對;然后利用特征詞的深度表示模型計算特征詞的相似度,并基于一個改進的半監(jiān)督層次聚類算法對特征詞進行聚類,得到這些特征詞屬于的典型特征類別;最后計算商品每個特征詞對應(yīng)的情感極性,以及典型特征類別的情感極性。本文利用京東生鮮的評論數(shù)據(jù)進行驗證,實驗結(jié)果表明該框架確實能夠成功抽取出每個生鮮商品的典型特征及該特征對應(yīng)的情感極性。圖1是利用OPEN框架對本文實驗中的豬肉商品進行評論分析后的結(jié)果示意。表1是利用半監(jiān)督聚類算法對該豬肉商品的高頻特征詞進行聚類的結(jié)果。
圖1 利用OPEN框架評論分析的結(jié)果示
特征類別特征詞C1味道口感炒菜肉香燉肉香味口味肉味C2配送發(fā)貨物流快遞運輸?shù)截浰俣葞煾礐3冷凍生鮮冰凍保鮮冷鏈C4特價價錢價格經(jīng)濟性價比品質(zhì)C5肉質(zhì)豬肉肉餡肉塊
情感分析又稱為觀點挖掘,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。情感分析按照粒度可分為文本級、句子級、短語表達式級和單詞級。本文針對商品特征的情感分析屬于短語表達式級。最經(jīng)典的面向產(chǎn)品特征的情感分析方法是Hu等在文獻[1-2]中提出的,是目前產(chǎn)品特征情感分析的基本框架:首先通過關(guān)聯(lián)規(guī)則算法提取頻繁特征詞;其次利用最鄰近原則對頻繁特征詞鄰近的觀點詞進行提取(通常為形容詞),利用觀點詞在WordNet[18]詞庫里面搜索同義詞和反義詞,將其加入到觀點詞庫;然后從觀點詞出發(fā)重新發(fā)現(xiàn)與觀點詞最鄰近的不頻繁特征詞;最后根據(jù)所有抽取的特征詞,利用其對應(yīng)的觀點詞,統(tǒng)計每個特征詞對應(yīng)的正負(fù)極性值。Hu的方法簡單有效,但是只能針對評論中明確出現(xiàn)的特征詞(名詞或名詞短語)進行提取,不能處理描述中包含的隱含特征詞。
文獻[3]在Hu的基礎(chǔ)上,提出使用Web PMI指標(biāo)來幫助提取與產(chǎn)品相關(guān)的特征詞,例如產(chǎn)品的組成部件、特征等,通過語法依存關(guān)系來尋找特征詞對應(yīng)的觀點詞。文獻[4]繼續(xù)利用依存關(guān)系來提取特征詞和觀點詞,作者指出該方法的關(guān)鍵是需要一個準(zhǔn)確的依存關(guān)系分析工具。文獻[5]的作者在比較了三款主流支持中文的依存關(guān)系分析工具后,提出可結(jié)合詞性搭配規(guī)則來提取特征詞和<特征詞, 觀點詞>詞對。文獻[6]根據(jù)具體的餐飲點評場景提出了自己的詞性搭配規(guī)則,其特色是首先將菜名進行了抽取,并通過建立領(lǐng)域知識庫來幫助提升特征詞和觀點詞的準(zhǔn)確率。此外文獻[7]還通過在文獻[4]的基礎(chǔ)上通過特征詞-實詞共現(xiàn)的頻率矩陣來計算隱含特征,即分句中如果只有觀點詞不包含特征詞,希望結(jié)合該觀點詞的上下文判斷出該觀點詞對應(yīng)的隱含特征詞。
隨著主題模型在自然語言處理NLP(Natural Language Processing)領(lǐng)域的廣泛應(yīng)用,文獻[8]提出一種利用主題模型來提取特征詞的方法,即將每條評論以詞向量的模式輸入LDA(Latent Dirichlet Allocation)模型,可以得到每條評論在若干主題上的概率分布,以及每個主題的詞向量的概率分布,通過選擇與主題最相關(guān)的詞作為特征詞。文獻[9]進一步利用概率話題模型和深度學(xué)習(xí)模型來提取評論特征。此外,文獻[10]引入深度學(xué)習(xí)模型來完成文本分類任務(wù),利用深度信念網(wǎng)絡(luò)自動提取文本特征;文獻[11]設(shè)計了一個具有三種不同大小卷積核的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),來完成局部抽象特征的自動提取。word2vec[16]是2013年谷歌開源的一款能夠?qū)⒃~表征為實數(shù)值向量的NLP工具。其利用深度學(xué)習(xí)的思想,通過訓(xùn)練可以把對文本內(nèi)容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。本文將嘗試?yán)迷摴ぞ哂嬎闾卣髟~之間的相似度,以進行特征詞聚類。
綜上所述,在提取特征詞和觀點詞之后,需要對觀點詞的極性進行判斷。通常來說,觀點詞的極性確定需要查閱情感詞典,而情感詞典的構(gòu)建方法大致可分為人工收集法、基于詞典的方法[12]和基于語料的方法[13]。本文不對情感詞典的構(gòu)建進行研究,直接利用已有的情感詞典HowNet[17],結(jié)合所提出的特征詞極性計算方法完成特征詞以及典型特征的極性計算。
圖2展示了OPEN框架的主要步驟:(1) 對收集到的原始評論進行清洗,同時利用自然語言分析工具對清洗后的每條評論進行分詞、詞性標(biāo)注以及依存關(guān)系分析,利用word2vec工具包基于京東生鮮商品的評論數(shù)據(jù)庫學(xué)習(xí)詞的隱含向量表示;(2) 提取特征詞,利用詞頻提取高頻特征詞,利用依存關(guān)系和詞性搭配規(guī)則提取低頻特征詞,利用觀點詞與特征詞的關(guān)聯(lián)度抽取隱含特征詞;(3) 提取觀點詞,包括利用通用情感詞典提取,以及從高頻特征詞出發(fā)尋找新的觀點詞,同時對每個分句提取所包含的<特征詞, 觀點詞>詞對;(4) 根據(jù)提取的每條評論包含的<特征詞, 觀點詞>詞對,通過在情感詞典查找觀點詞的極性,從而確定每條評論特征詞的極性,同時根據(jù)修飾觀點詞的程度副詞及否定副詞對特征詞的極性進行修正;(5) 利用改進的半監(jiān)督層次聚類算法對特征詞進行聚類,得到典型特征及每類典型特征所包含的特征詞,從而計算每類典型特征的情感極性。上述步驟并不是完全的順序執(zhí)行,其中步驟(2)和步驟(3)存在交互迭代,步驟(5)特征詞聚類通常是在特征詞提取完成后就執(zhí)行。
圖2 OPEN框架的主要步驟
為了便于描述,本節(jié)首先對其中的部分術(shù)語給出定義。假設(shè)一款商品的所有評論樣本構(gòu)成集合記為D={d1,d2,…,dN},di表示第i條評論,N是評論總數(shù),通過OPEN框架可以達到如下目標(biāo):
1) 提取特征詞集合,記為F={f1,f2,…,fs},fi表示第i個特征詞,s是特征詞總數(shù),其中包含高頻特征子集HF?F,低頻特征子集LF?F。
2) 基于相似度對特征詞進行聚類,典型特征類別記為C1,C2,…,CM,M為類別個數(shù),其中每個典型特征類別包含的特征詞為Ci={f1,f2,…,fn}。
3) 提取觀點詞集合,記為O={o1,o2,…,ol},oi表示第i個觀點詞,l是觀點詞總數(shù)。
4) 針對每條評論di,提取包含的{特征詞, 觀點詞}詞對,記為di:{
5) 計算評論di中每個特征詞的極性,記為p(f,di);對于樣本集合D,計算每個特征詞f(∈F)的情感極性,記為p(f,D);計算每個典型特征類別的極性,記為p(F,D)。
由于商品的用戶評論存在口語化、隨意化的特點,因此首先需要對原始評論集合進行清洗,包括用模糊匹配算法糾正其中的錯別字,對于其中的標(biāo)點符號和空格進行規(guī)范化處理等;然后OPEN框架使用支持中文的NLP工具[14]對清洗后的評論樣本集進行分詞、詞性標(biāo)注、依存關(guān)系分析,以及去除停用詞處理,得到新的評論樣本集合D={d1,d2,…,dN},其中每條評論由詞向量組成。需要注意的是準(zhǔn)確的詞性標(biāo)注及依存關(guān)系分析對于后續(xù)特征詞和觀點詞的提取非常關(guān)鍵,因此建議選擇詞性標(biāo)注及依存關(guān)系分析盡可能準(zhǔn)確的NLP工具。
為了訓(xùn)練評論集中每個詞的表示向量,在OPEN中通過利用word2vec工具包來實現(xiàn),為了使得詞向量更為準(zhǔn)確地表示該詞在電商評論中的語義,本文采用了京東生鮮類商品的395 760條評論作為訓(xùn)練語料。訓(xùn)練后可以得到每個詞的表示向量,例如設(shè)置隱含空間維度為10時,“價格”、“特價”、“味道”三個詞的隱含表示向量分別為:
[0.256 -0.495 -0.993 0.794 0.492 -1.260 0.214 0.231 -0.030 0.750]
[0.284 -0.235 -1.014 0.423 -0.215 -1.127 0.268 0.011 0.423 0.041]
[0.533 -0.153 -0.576 1.012 0.041 -0.140 0.121 0.367 -0.054 0.409]
因此,采用余弦距離很容易得到基于詞向量計算三個詞的兩兩相似度:{價格, 特價}相似度為0.815,{價格, 味道}相似度為0.740,{特價, 味道}相似度為0.571。
在提取特征詞、觀點詞以及修飾觀點詞的程度副詞和否定副詞時都需要用到依存關(guān)系和詞性搭配規(guī)則。本節(jié)介紹OPEN中用到的主要依存關(guān)系和詞性搭配規(guī)則。表2展示的是提取觀點詞和低頻特征詞所采用的主要依存關(guān)系及詞性搭配規(guī)則。表3和表4分別列出了提取程度副詞和否定詞時的依存關(guān)系和詞性搭配規(guī)則。
表2 用于特征詞和觀點詞提取的依存關(guān)系及詞性搭配規(guī)則
表3 用于提取程度副詞的依存關(guān)系及詞性搭配規(guī)則
表4 用于提取否定副詞的詞性搭配規(guī)則
在OPEN框架中,特征詞抽取包括三個步驟:首先是基于詞頻選擇高頻名詞(動名詞)作為高頻特征詞;然后是基于依存關(guān)系和詞性搭配規(guī)則,提取觀點詞和低頻特征詞;最后是根據(jù)已有的高頻和低頻特征詞與觀點詞的修飾頻率分析觀點詞對應(yīng)的隱含特征詞。將詞頻大于設(shè)定閾值的名詞(動名詞)作為高頻特征詞提取,得到高頻特征詞集合HF。再從高頻特征詞出發(fā),依據(jù)表2中的依存關(guān)系,提取修飾高頻特征詞的觀點詞o,將其加入到觀點詞集合O中。
接著,利用HowNet[17]情感詞典S_dict,提取具有情感色彩的備選觀點詞,并從備選觀點詞出發(fā),依據(jù)表2中的依存關(guān)系和詞性搭配規(guī)則提取低頻特征詞和觀點詞,分別加入到LF和O中。具體描述如下:基于情感詞典判斷評論中的詞語是否具有感情色彩,將具有感情色彩的詞語加入到備選觀點詞集合O*;判斷分句中是否包含備選觀點詞,如果包含備選觀點詞,繼續(xù)判斷該備選觀點詞在分句中存在的依存關(guān)系;根據(jù)依存關(guān)系和詞性搭配規(guī)則,提取對應(yīng)的特征詞,將備選觀點詞加到觀點詞集合O中。需要說明的是,HowNet情感詞典中的詞語只有情感極性,沒有標(biāo)注詞性,因此在實際過濾情感詞的時候會有導(dǎo)致部分誤差。特征詞和觀點詞提取過程如算法1所示。
算法1特征詞和觀點詞提取算法
輸入:D={d1,d2,…,dN},S_dict
輸出:HF,LF,O*,O,FO
1. fordiinD={d1,d2,…,dN}
2. forwjindi={w1,w2,…,wm}
3. ifwj的詞性為名詞或動名詞 then
4.wj的計數(shù)器加1;
5. 選擇詞頻大于閾值的高頻特征詞加到HF;
6. 根據(jù)表2提取修飾高頻特征詞的觀點詞加到O;
7. 將提取的
8. forwjindi={w1,w2,…,wm}
9. ifwj∈S_dictthen
10. ifwj的詞性不為副詞 then
11. 將wj加入到備選觀點詞集合O*;
12. fordiinD={d1,d2,…,dN}
13. 以”,”將di分割為分句{cd1,cd2,…,cdz};
14. forcdjin {cd1,cd2,…,cdz}
15. ifcdj中包含o*且o*∈O*then
16. 根據(jù)表2尋找低頻特征詞f;
17. if 找到對應(yīng)的特征詞fthen
18. if 特征詞不屬于HFthen
19. 將該特征詞作為低頻特征詞加到LF;
20. 將o*加到O;
21. 將
由于用戶在評論中的隨意性,因此很多的備選觀點詞在進行依存關(guān)系匹配時,對應(yīng)的特征詞是缺失的,例如“很好,新鮮干凈”,“貴死了”等。這里觀點詞“好”、“新鮮”、“干凈”、“貴”都無法提取對應(yīng)的特征詞。對于這種情況OPEN可以幫助那些能夠明顯反映特征信息的觀點詞提取隱含特征,即在當(dāng)前商品的評論集中,如果該觀點詞總是修飾一個特征詞,或者總是修飾一個典型特征類別的特征詞,那么可推斷該特征詞或典型特征類別是觀點詞的隱含特征。基于這一思想,本論文提出一個依據(jù)觀點詞與特征詞關(guān)聯(lián)度的隱含特征映射方法。基本思想如下:首先針對觀點詞oj,分析其在<特征詞, 觀點詞>修飾頻率矩陣Ms×l中與對應(yīng)的特征詞的修飾次數(shù),這里Ms×l矩陣的元素mij表示特征詞fi與觀點詞oj在所有評論中存在修飾關(guān)系的次數(shù);假設(shè)與oj存在修飾關(guān)系的特征詞個數(shù)為τ,將這些特征詞根據(jù)修飾次數(shù)降序排列,f1,f2,…fM,…,fτ,如果M為使式(1)成立的最小特征詞個數(shù),且所有M個特征詞均屬于同一個典型特征類別,則推斷oj修飾的隱含特征詞為f1,否則不能夠給oj推斷隱含特征。在式(1)中,IFthresh為隱含特征閾值,范圍為[0,1],IFthresh值越大,可推斷隱含特征詞的要求越嚴(yán)格,通常取閾值為0.5。
(1)
舉一個簡單的例子。假設(shè)觀點詞“便宜”在該商品的所有評論中,只修飾了特征詞“價格”,因此可推斷“便宜”修飾的隱含特征詞為“價格”;假設(shè)觀點詞“不錯”在評論集中修飾過若干特征詞,在滿足式(1)的情況下,修飾次數(shù)最多的特征詞依次為:味道、質(zhì)量、肉質(zhì)、服務(wù)、包裝,而這些特征詞不屬于同一個典型特征類別,因此在商品中,如果只出現(xiàn)觀點詞“不錯”不能為其推斷隱含特征詞。
由于詞匯本身的多樣性導(dǎo)致基于依存關(guān)系和詞性搭配規(guī)則方法提取出的特征詞的個數(shù)是比較多的,使得用戶瀏覽非常繁瑣。在本文的實驗中一個2 596條評論的數(shù)據(jù)集,就能提取出297個特征詞,而其中大多數(shù)特征詞都可從語義上聚類為幾個典型的特征。然而遺憾的是,目前的無監(jiān)督聚類算法或者基于主題模型的聚類算法的效果都不太理想,究其原因主要是難于準(zhǔn)確地衡量兩個特征詞的距離(相似度)。為此,本文引入word2vec來訓(xùn)練每個特征詞的隱含表示向量,從而計算特征詞之間的相似度;并提出一個改進的半監(jiān)督層次聚類算法對特征詞進行聚類。聚類過程如算法2所示,其中{f1,f2,…,fs}表示s個特征詞的k維隱含表達向量,fi=[ri1,ri2,…,rik](rij∈R)。首先利用余弦距離計算任意兩個特征詞之間的相似度,如式(2)所示;然后以每個特征詞作為一個初始類別開始聚類,每次只將相似度最大的兩個類別進行合并,合并時需要滿足輸入的聚類約束條件;重復(fù)執(zhí)行合并過程直到滿足聚類終止條件為止。
(2)
為了提升聚類效果,論文引入了約束條件限制的半監(jiān)督聚類算法,通過先驗知識設(shè)計少量特征詞對之間的must-link約束和cannot-link約束來輔助聚類。其中存在must-link約束的兩個特征詞必須在同一個類別中,而存在cannot-link約束的兩個特征詞不能聚類在同一個類別中。由于本論文的實驗采用京東肉類商品的評論數(shù)據(jù)集,因此初始約束條件設(shè)計如下:
must-link約束:{味道, 口感},{配送, 物流}
cannot-link約束:{味道, 配送},{價格, 味道}
由于上述約束存在異類傳遞特性,即:
(fi,fj)∈must-link&(fi,fk)∈cannot-link?(fj,fk)∈cannot-link
因此屬于cannot-link約束的詞對還包括:{口感, 配送},{口感, 物流},{味道, 物流},{價格, 口感}。在實際類別合并時,如果(fi,fj)∈cannot-link,fi∈C1,fj∈C2,則C1和C2不能合并。
本文采用兩個類別中任意兩個特征詞的平均相似度作為兩個類別的相似度,如式(3)所示。聚類終止條件可以使用任意兩個類之間的平均相似度低于設(shè)定的閾值。
(3)
算法2基于詞向量的半監(jiān)督層次聚類算法
輸入:F={f1,f2,…,fs}, 約束條件, 終止條件
輸出:C1,C2,…,CM
1. 將每個特征詞初始化為一個類別,Ci={fi};
2. 根據(jù)must-link約束條件,將特征詞進行聚類;
3. 利用式(3)計算任意兩個類別的相似度sim(Ci,Cj);
4. 在滿足cannot-link約束條件的情況下,將相似度最大的兩個類別進行合并;
5. 重復(fù)執(zhí)行步驟3和步驟4直到終止條件滿足。
在<特征詞, 觀點詞>提取完成后,OPEN設(shè)計了一個簡單的方法來計算每條評論中每個特征詞對應(yīng)的情感極性。首先在情感詞典中查找該觀點詞的極性(正/負(fù)),然后根據(jù)具體的詞性搭配規(guī)則計算修飾的特征詞的極性值,本文主要采用以下三種搭配規(guī)則:
<特征詞, [程度詞1]…[程度詞n]觀點詞>:
<特征詞, [否定詞]觀點詞>:
p(f,di)=(-1)×p(o)
<特征詞, [程度詞][否定詞]觀點詞>:
p(f,di)=deg(adv)×(-1)×p(o)
這里deg(adv)表示程度副詞對應(yīng)程度的權(quán)重,在本論文中使用的程度詞典將程度分為五個等級,每個等級有自己的權(quán)重值,如果修飾觀點詞的程度副詞有多個,則將多個程度詞的程度權(quán)重相乘。在OPEN中,可以針對每個特征詞f,計算其在D中的極性值,如式(4)所示,這里|D(f)|表示樣本集中包含特征f的評論數(shù);也可以計算每個典型特征類別的極性值,如式(5)所示,這里F={f1,f2,…,fn}。
(4)
(5)
本文將OPEN在京東的生鮮類商品的評論中進行應(yīng)用,得到了較好的效果。為了對OPEN的性能進行量化評價,本文在一個小樣本豬肉商品的評論數(shù)據(jù)集上設(shè)計了3組實驗:實驗1驗證OPEN提取特征詞和觀點詞的性能;實驗2驗證準(zhǔn)確提取<特征詞, 觀點詞>詞對的性能;實驗3驗證對每條評論中包含的特征詞的情感極性的分析性能。評價指標(biāo)分別采用準(zhǔn)確率和召回率。對比方案包括Hu等[1]提出的經(jīng)典方案,Luo等[6]提出的依賴規(guī)則和知識庫的特征詞提取方案,以及Zhang等[7]提出的提取隱含特征詞的方案。
實驗1用于驗證本論文提出的特征詞和觀點詞抽取算法的性能,實驗結(jié)果如表5所示。結(jié)果顯示Hu的方案提取的特征詞和觀點詞數(shù)量明顯少于其他三種方案。這是因為Hu的方案中觀點詞只考慮了形容詞,特征詞只考慮了名詞,這是一個比較嚴(yán)格的規(guī)則,因此準(zhǔn)確率較高,召回率較低,說明提取特征詞和觀點詞都有一定的遺漏。在中文評論中觀點詞還可以是動詞或者名詞,因此在Luo的方案中放寬了觀點詞的詞性,不僅包括形容詞,還可以包括有情感傾向的動詞和名詞。Luo的方案提取的特征詞和觀點詞數(shù)量明顯高于Hu的方案,但是增加的特征詞和觀點詞不一定都是正確的,因此準(zhǔn)確率有一定的下降,但是召回率大幅上升。OPEN提取的觀點詞數(shù)量高于其他方案,這是因為OPEN中把所有包含的具有情感色彩的詞都作為了觀點詞,但是正確的觀點詞數(shù)量卻有少量下降。
表5 特征詞和觀點詞提取的性能對比
實驗2用于驗證OPEN提取<特征詞, 觀點詞>詞對的能力。上述四種方案對于每條評論都可以提取出每個分句中包含的<特征詞, 觀點詞>詞對,結(jié)果如表6和表7所示。
表6 <特征詞, 觀點詞>詞對提取算法的性能對比(不含隱含特征詞)
表7 對隱含特征詞的詞對提取算法的性能對比
表6中結(jié)果顯示OPEN正確提取的詞對數(shù)明顯高于其他三種方案,召回率有較大幅度的提升,達到81.5%。OPEN提取大量無關(guān)詞對的原因主要是有些評論是一些無關(guān)產(chǎn)品特征的描述,但是符合本文的依存關(guān)系和詞性搭配原因,因此仍然被提出,一個簡單的改進方法是將符合規(guī)則但低頻的詞對刪去。
表7展示了Zhang的方案和OPEN對隱含特征詞提取的性能對比。在小樣本集的評論中有804個觀點詞是沒有(顯式)特征詞,但是具有明確的隱含含義。在人工標(biāo)注的804個隱含特征詞對中,Zhang的方案正確提取出了其中的402個觀點詞,進一步隱含特征詞映射正確的個數(shù)為290個,準(zhǔn)確率為72.1%。OPEN正確映射的隱含特征詞的準(zhǔn)確率為93.0%,明顯優(yōu)于Zhang的方案。這說明OPEN的隱含特征映射方法確實更有效。
實驗3用于驗證OPEN對詞對極性的判斷能力,準(zhǔn)確地說是對觀點詞的情感極性判斷,以及程度副詞和否定副詞的提取能力的評價。實驗結(jié)果表明本文提出的程度詞及否定詞提取方法能夠獲得較高的準(zhǔn)確率,達到98.3%。同時本文提出的極性值計算方法不僅能夠反映出觀點的正負(fù)極性,而且能夠較為準(zhǔn)確地反映出觀點的極性強度。這個方法的問題是,性能取決于情感詞典和程度詞典的完整性和準(zhǔn)確性,實驗中暫時把沒有找到情感極性的觀點詞都算作正向情感,更完善的方法是針對評論商品的特點建立有針對性的情感詞典和程度詞典,將在后續(xù)工作中完成。
本文針對電商平臺的評論挖掘展開研究,提出了一個基于評論的商品特征抽取及情感分析框架OPEN,并將該框架在京東的生鮮類商品的評論中進行應(yīng)用。實驗結(jié)果表明該框架確實能夠成功抽取出每個生鮮商品的典型特征及該特征對應(yīng)的情感極性,且在小樣本數(shù)據(jù)集上測試了特征抽取算法的性能,特征詞的準(zhǔn)確率和召回率分別達到48.5%和97.3%,觀點詞的準(zhǔn)確率和召回率分別達到54.4%和89.1%,<特征詞, 觀點詞>詞對的準(zhǔn)確率和召回率分別達到54.4%和81.5%,詞對極性判斷的準(zhǔn)確率為98.3%。另一方面本文的情感極性值計算使用的是HowNet的通用情感詞典,在不同的商品場景下,某些詞可能表現(xiàn)出完全不同的情感,例如“師傅辛苦”,觀點詞“辛苦”在情感詞典中是負(fù)向極性,但是在電商評論中,這明顯是正向極性的詞。因此后續(xù)工作的一個重點是在通用情感詞典的基礎(chǔ)上,建立面向應(yīng)用場景的情感詞典和程度詞典。
[1] Hu Mingqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of the 19th national conference on Artificial intelligence.AAAI Press,2004:755-760.
[2] Hu Minqing,Liu Bing.Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2004:168-177.
[3] Popescu A M,Nguyen B,Etzioni O.OPINE:extracting product features and opinions from reviews[C]//Proceedings of HLT/EMNLP on Interactive Demonstrations.ACM,2005:32-33.
[4] Qiu Guang,Liu Bing,Bu Jiajun,et al.Opinion Word Expansion and Target Extraction through Double Propagation[J].Computational Linguistics,2011,37(1):9-27.
[5] Zhai Zhongwu,Liu Bing,Zhang Lei,et al.Identifying evaluative sentences in online discussions[C]//Proceedings of the 26th national conference on Artificial intelligence.AAAI Press,2011.
[6] 羅熹.基于評論信息的內(nèi)容感知方法研究[D].成都:電子科技大學(xué),2015.
[7] Zhang Yu,Zhu Weixiang.Extracting implicit features in online customer reviews for opinion mining[C]//Proceedings of International Conference on World Wide Web Companion.2013:424-32.
[8] Liu K,Xu L,Zhao J.Co-Extracting Opinion Targets and Opinion Words from Online Reviews Based on the Word Alignment Model[J].Knowledge & Data Engineering IEEE Transactions on,2015,27(3):636-650.
[9] Lao X,Ma B,Zhang N,et al.Public Opinion Analysis Based on Probabilistic Topic Modeling and Deep Learning (in Chinese)[C]//CNAIS National Congress,2015.
[10] 張慶慶,劉西林.基于深度信念網(wǎng)絡(luò)的文本情感分類研究[J].西北工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2016,36(1):62-66.
[11] 蔡慧蘋,王麗丹,段書凱.基于word embedding和CNN的情感分類模型[J].計算機應(yīng)用研究,2016,33(10):2902-2905.
[12] Khalifa K,Omar N.A hybrid method using lexicon-based approach and Naive Bayes classifier for Arabic opinion question answering[J].Journal of Computer Science,2014,10(10):1961-1968.
[13] 陳鐵明,繆茹一,王小號.融合顯性和隱性特征的中文微博情感分析[J].中文信息學(xué)報,2016,30(4):184-192.
[14] 哈爾濱工業(yè)大學(xué)語言云平臺[OL].http://www.ltp-cloud.com/.
[15] Ebbinghaus H.Memory:A Contribution to Experimental Psychology[J].Annals of Neurosciences,2013,20(4):155-156.
[16] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of Workshop at ICLR,2013.
[17] HowNet[OL].http://www.keenage.com/html/c_index.html.
[18] WordNet[OL].http://wordnet.princeton.edu/wordnet/download/.