徐紅艷,黃法欣,馮 勇
(遼寧大學 信息學院,遼寧 沈陽 110036)
互聯網3.0時代的來臨,越來越多的公眾參與到網絡交互中,極大地推動了網絡商業(yè)化進程.2019年阿里巴巴雙十一消費數據調查顯示[1],訂單峰值為54.4萬筆/秒、當天成交額為2 684億元,比去年同期增長了42%.由此可見,電子商務已為公眾所接受,電商平臺已經成為人們消費的主要途徑.電子商務中商品和服務的評論對人們消費決策的影響已經引起學界和業(yè)界的關注,但現有研究成果由于很少考慮評論中存在虛假評論、默認好評、隨意打分等因素,難以準確獲得用戶的真實情感分類,導致研究成果在實際環(huán)境下的應用效果欠佳.
通過對用戶評論信息進行分析可知,用戶評論中包含原始評論、原始上傳圖片、追加評論以及追加上傳圖片,在對用戶評論進行情感分類時綜合考慮這四類多元評論信息可增強情感分類的準確性.為了減少虛假評論等因素對用戶情感分類準確性的干擾,需要對用戶多元評論中的隱含信息進行分析和挖掘.通常,發(fā)布虛假評論的用戶往往不會進行追加評論,因此發(fā)布追加評論的用戶評論內容可信度較高.同時,引入體現評論延續(xù)性的追加評論可以反應出用戶在不同時刻對商品的情感特征;另外,發(fā)布虛假評論的用戶在電商平臺下單購買商品后不會收到所購買的商品,因此評論中上傳的圖片通常為店鋪主頁的商品推廣圖片或其他商品圖片.本文通過融合多元評論信息減少虛假評論等因素對用戶的情感分類結果的影響,為交叉銷售、個性化推薦等應用的開展提供支撐.
綜上,本文提出了一種融合多元評論信息的用戶情感分類方法(user emotion classification method integrating multiple comment information,UECMIMCI),該方法首先對爬取數據進行預處理,使用圖片分類技術對用戶評論中上傳的圖片進行分類,選出上傳圖片為拍攝商品圖片的用戶,利用這些用戶的多元評論信息來重構圖文數據集;其次,采用文本分割技術將原始評論、追加評論按照評論內容進行分割重構;最終,將經過預處理后的圖文數據集分多通道輸入到卷積神經網絡中,得到融合多元評論信息的用戶情感分類結果.實驗證明,所提方法能夠對評論中的用戶情感進行準確分類,具有良好的應用前景.
商品評論是獲取用戶情感分類的一個重要依據,但是虛假評論嚴重影響著用戶情感分類結果的真實性.雖然研究人員研究并提出了很多檢測虛假評論方法及評論檢測技術,但這些方法大多通過分析語言結構和提取虛假特征的方式識別虛假評論.如房有麗等[2]提出融合評分-評價一致性和多維時間序列的虛假評論識別方法,構建虛假評論識別分類器.提高虛假評論的識別效果.郝玫等[3]提出基于特征觀點對的語義匹配算法,實現特征觀點對的語義匹配及提取,對產品可信評論進行篩選和分析.目前,主流的虛假評論識別方法只針對用戶上傳多元評論信息中的評論文本在特征提取和語義分析等方面分析與優(yōu)化,未考慮利用用戶評論中其他的多元評論信息,尤其是未充分利用用戶上傳的圖片的類型去識別和過濾疑似虛假評論.
因此,本文提出利用多元評論信息中的上傳圖片進行虛假評論的識別.將評論上傳圖片分為兩類,第一類是用戶收到商品后拍攝的商品圖片,上傳該類圖片時用戶發(fā)布的評論文本在本文定義為真實評論;第二類為上傳店鋪主頁商品的推廣圖片以及其它商品圖片,上傳該類圖片時用戶所發(fā)布的評論為虛假評論.通過圖片二分類的方法過濾第二類圖片,確保輸入到情感分類器中的圖文評論數據集有較高的真實性.
圖片分類方法在醫(yī)學、商品銷售等多領域得到廣泛應用,常使用機器學習和深度學習的方法對圖像特征進行提取并完成分類.Yu等[4]提出基于新型深度雙流網絡進行圖像分類方法,先通過多實例網絡和全局優(yōu)先級網絡分別獲取輸入圖像的局部和全局特征流,后將雙流特征融合,利用該特征完成圖像的分類.Li等[5]提出一種基于注意力機制的多標簽圖像分類方法,利用LSTM網絡生成圖像的多個標簽,再使用注意力機制提取圖片特征,從而取得良好的圖片分類性能.Su等[6]提出結合生成對抗網絡的半監(jiān)督學習方案,提高圖像分類的準確性.本文通過卷積神經網絡對用戶上傳圖片進行分類,根據分類結果在評論圖文數據集中保留上傳拍攝商品圖片的用戶多元評論信息,進而提高用戶情感分類性能.
文本分割在信息檢索、摘要生成、問答系統(tǒng)、信息抽取等領域發(fā)揮著重要作用,通過文本分割算法將長文本分割成細粒度的短文本更易于挖掘文本的內容信息.王忠義等[7]提出基于知識元的中文文本分割方法,該方法先對知識元的類型及其描述規(guī)則進行分析,然后將所有的知識元和知識元之間的銜接句視為一個類,最后使用分割算法對該類進行文本層級分割.王鵬等[8]提出了文本的分層分割方法,該方法通過計算文本內容的間隔相似度,實現文本的分割.本文為了解決情感分類過程中存在的缺乏評論延續(xù)性的問題引入了追加評論,使用文本分割技術對用戶在不同時期的評論內容按照“商品-客服-物流”的評論順序進行分割重構,確保提取的原始評論和追加評論的情感特征按照上述三方面進行精準的融合,來獲取用戶更多的情感特征信息,提高用戶情感分類的準確性.
用戶評論的情感分類研究是近幾年來學術和業(yè)界以及應用開發(fā)領域的研究熱點與前沿領域之一.情感分類的應用可以將意見分類為不同的情感,并總體上評估公眾的情緒,其分類結果對于研究商品口碑、進行商品推薦都具有重要的價值[9-11].隨著深度學習的興起,在進行用戶情感分類時使用深度學習方法可以融合多元評論信息,提高用戶情感分類的準確性.在眾多深度學習方法中,雙通道卷積神經網絡方法得到較為廣泛的應用,如周錦峰等[12]提出基于fcmpCNN模型的網絡文本情感多分類標注方法,該方法在池化的過程中使用全卷積—多池化單元的堆疊,充分提取文本語義;李平等[13]提出的基于雙通道卷積神經網絡的文本情感分析方法,融合字向量進行細粒度情感分析,充分挖掘出評論文本的情感信息;Liu等[14]提出基于MCCNN模型進行評論情感分類,融合文本的拼音、字符以及單詞使用三通道CNN進行情感分類.趙樂等[15]提出一種結合詞性特征、語法特征等,提取名詞、動詞、形容詞、副詞等特征,然后運用軟投票機制,結合隨機梯度下降算法、隨機森林、神經網絡等算法,對已獲取評論文本進行極性二分類.Zhang等[16]提出的雙通道卷積記憶神經網絡模型,將評論文本的詞向量和特征向量輸入雙通道卷積神經網絡中,進行情感分類.綜上分析,多通道CNN模型通過不同通道分析用戶不同方面的情感表述,進而得到較為準確的用戶情感特征向量用于情感分類.
考慮到評論中存在的虛假評論、默認好評等因素影響對用戶真實情感的分類,本文提出融合多元評論信息的用戶情感分類方法.首先,使用圖片分類和文本分割技術對圖文數據集進行預處理,過濾掉虛假評論重構圖文數據集;其次,將處理后的數據集劃分為訓練集和測試集,使用訓練集對UECMIMCI用戶情感分類模型進行訓練;最終通過測試集對模型進行驗證,得到正確的分類結果.融合多元評論信息的用戶情感分類方法的框架如圖1所示.
圖1 融合多元評論信息的用戶情感分類方法框架
下面對所提方法的核心環(huán)節(jié):圖片分類、文本分割、UECMIMCI用戶情感分類模型的構建加以詳述.
如今的電商評論中主要存在兩個突出的問題:一是由“刷單”引起的虛假評論現象十分常見;二是用戶隨意打分、隨意評價評價造成評論數據的不準確,嚴重影響用戶情感的準確分類.這兩個問題的共同特點為:用戶上傳的圖片或者是店鋪主頁商品的推廣圖片,或者是其他商品圖片.根據這一特點本文提出結合用戶上傳圖片識別虛假評論的方法,對評論信息中的圖片使用卷積神經網絡進行二分類:第一類是用戶收到購買商品后拍攝的真實圖片;第二類是虛假圖片,包括店鋪主頁商品的推廣圖片及其他商品圖片.按照分類結果保留上傳第一類圖片的用戶多元評論信息,以此來降低虛假評論、隨意評論現象對用戶情感分類結果的影響,提高用戶情感分類的準確性.
本文采用卷積神經網絡(CNN)對上傳圖片進行二分類,其中卷積核尺寸設置為3×3、4×4、5×5,利用不同規(guī)格的卷積核對上一層圖片進行卷積操作,分別提取用戶收到商品后拍攝上傳的商品圖片、店鋪主頁商品的推廣圖片和其他商品圖片的多方面特征,實現圖片分類器的訓練;從未過濾虛假評論的圖文數據集中抽取圖片數據輸入到圖片分類器中,按照提取到的圖片特征信息進行圖片的分類,識別出真實圖片和虛假圖片;篩選出上傳虛假圖片的用戶,將該用戶的多元評論信息從的圖文數據集中刪除,使用余下真實評論用戶的多元評論信息重構圖文數據集,為用戶情感分類做準備.圖片分類模型如圖2所示.
圖2 圖片分類模型
輸入層:將爬取到的評論上傳圖片、店鋪主頁商品的推廣圖片以及與其他商品圖片作為訓練集輸入到CNN圖片分類模型中.
卷積層:按照不同尺寸的卷積核對圖片進行特征的提取,如公式(1)所示.
(1)
其中,l代表所在層次;k代表卷積核;Mj為輸入的感受野;B為偏置項;f為激活函數.
采樣層:采樣層可降低網絡的空間分辨率,消除偏移和圖像扭曲,實現位移不變性[17],如公式(2)所示.
(2)
其中,p代表采樣層;B代表權值系數.
輸出層:將上一層的特征向量進行全連接,如公式(3)所示.
(3)
分類器:采用softmax分類器對輸出層得到的圖像特征進行二分類,如公式(4)所示.
(4)
其中,W為卷積核;b為偏置項.
根據圖片分類結果對抓取到的11 762個用戶的評論數據集進行預處理,通過過濾上傳無關圖片以及主頁圖片的用戶評論進行圖文數據集的重構,降低評論中虛假評論和隨意評論對用戶情感分類結果的影響,最終得到10 819個用戶上傳的有效評論.過濾無關圖片對用戶情感分類結果的影響如表1所示.
表1 圖片分類對UECMIMCI模型情感分類準確性的影響
通過調整UECMIMCI模型中圖片和文本特征提取時卷積核的尺寸從多角度、多維度證明,使用過濾后的圖文評論數據集可提高UECMIMCI模型在用戶情感分類的準確率,可提升2%以上.
在一條評論中往往包含了用戶對商品的不同方面的評價,主要有對商品的體驗、店家服務的態(tài)度、運輸物流的評價.對用戶評論文本進行分割時,首先,將評論文本內容按照標點進行分割,且從中選出對上述三方面的中性評價;其次,對分割的評論文本進行增刪操作.若評論文本中不完全包含這三方面的評價,用第一步選出的中性評價將每條評論按照這三方面補充完整.若評論內容中存在對其他方面的評價信息,刪去與這三方面無關的評論內容;最后,將處理后的評論文本按照“商品-客服-物流”的評論順序對評論文本重新組合,重構評論文本示例如表2所示.
表2 重構評論文本示例
構建UECMIMCI用戶情感分類模型,將經過預處理的用戶圖文評論數據集,利用Word2vec工具[18]訓練評論文本,獲取詞向量,作為訓練集輸入到模型中.其中卷積層的大小是3、4、5,池化層采用最大池化突出最明顯的情感特征,同時在模型中添加dropout層,作用是在訓練過程中隨機關閉一些神經元,避免出現過擬合現象.為了將原始評論與追加評論、原始上傳圖片與追加上傳圖片的情感特征信息進行合并,本文提出了特征融合層,在該層中按各部分對情感分類的貢獻度將特征向量進行合并.最后,將情感向量傳遞給Softmax分類器進行分類,得到評論對應的情感類別.
本文提出的情感分類模型最終將多元評論信息分為好、中、差三類情感極性,UECMIMCI用戶情感分類模型如圖3所示.
輸入層:將經過預處理的原始評論、原始上傳圖片、追加評論、追加上傳圖片輸入到UECMIMCI用戶情感分類模型的四個通道中.
卷積層:將輸入這四個通道的向量矩陣分別使用三個卷積核進行局部特征提取,每個卷積核的卷積操作,如公式(5)所示.
ci=relu(W*xi:i+h-1+b)
(5)
其中,W為卷積核;b為偏置項,x為與卷積核大小相同的評論文本部分.
池化層(采樣層):目的是提取經卷積核得到的特征矩陣中情感表達最強烈的向量,在實驗中采用max-pool的方法,如公式(6)所示.
(6)
全連接層:將上一層的結果進行拼接,得到最終的特征向量,如公式(7)所示.
(7)
特征融合層:按照評論對情感分類貢獻程度,將特征向量進行合并,如公式(8)所示.
x=αx1+βx2
(8)
其中,α、β之和為1,x1代表與原始評論相關的信息,x2代表與追加評論相關的信息.α、β取不同值對UECMIMCI用戶情感分類模型準確率的影響如表3所示.
圖3 用戶情感分類模型
表3 參數與UECMIMCI用戶情感分類準確率的關系
大量實驗驗證,原始評論文本與追加評論文本特征融合時,α、β值分別為0.4、0.6;原始上傳圖片與追加上傳圖片進行特征融合時,α、β值分別為0.5、0.5;原始評論信息和追加評論信息進行特征融合時,α、β分別為0.4、0.6,實驗效果最佳.
情感分類層:在圖片分類完成后得到訓練情感分類器的圖文數據集,通過最小負對數似然函數調整參數.通過模型去計算融合用戶原始評論、原始上傳圖片、追加評論、追加上傳圖片的情感特征向量,利用參數集合為θ的模型去計算該情感特征向量到每一個情感傾向的得分Si.通過Softmax分類器來進行最終的情感極性的劃分,后對劃分結果取對數用隨機梯度下降使似然函數最大化優(yōu)化分類器,計算過程如公式(9)~(10)所示.
(9)
J(θ)=∑logp(yi|pi;θ)
(10)
其中,pi為UECMIMCI情感分類模型的預測類別,yi為實際類別.
實驗中采用Python爬蟲程序從京東網站爬取發(fā)表有關華為手機評論的用戶并將其上傳的所有評論信息作為數據集.共抓取11 762個用戶評論信息經預處理和手工標注后得到的手機評論數據集,如表4所示.
本文利用基于Python語言的Tensorflow深度學習框架完成實驗.Tensorflow支持多種主流神經網絡模型,包括 CNN、LSTM 等,本文具體實驗環(huán)境為:操作系統(tǒng)為Windows 10,CPU為Inter(R)Core(TM)i5-4460 CPU @ 3.20 GHz.
本文利用Python然語言處理庫提供的結巴分詞技術進行句子分詞處理.使用Google提供的開源詞向量訓練工具Word2vec中的skip-gram進行詞向量的訓練,其訓練參數[18]設置如表5所示.
表4 實驗數據集
表5 word2vec訓練模型
在數據集預處理中使用CNN對上傳圖片進行分類以識別虛假評論,為了獲得最佳的分類效果,實驗中選取不同尺寸的卷積核進行實驗對比,卷積核尺寸對圖片分類的準確率及分類器訓練耗時的影響如表6所示.
從表6中可見,卷積核尺寸越小圖片分類準確率越高,但分類器訓練耗時也越長.綜合考慮訓練耗時及分類準確率兩個因素,本文選擇3*3,4*4,5*5的卷積核尺寸進行圖片分類器的訓練及UECMIMCI情感分類模型中圖片特征的提取.本文在提取評論文本情感特征時使用多通道卷積核對輸入向量進行卷積操作,文本卷積核維數參照陳珂等[19]提出的模型參數.而對于文本卷積核尺寸與迭代次數的選擇是通過實驗分析得出最佳卷積核尺寸和迭代次數.實驗結果如表7、圖4所示.
表6 圖片卷積核尺寸與圖片分類準確性及分類器訓練耗時的關系
表7 文本卷積核尺寸與UECMIMCI模型確性及訓練耗時的關系
實驗表明,綜合模型運行的時間和準確率考慮卷積核尺寸選為3,4,5時,可使用戶情感分類效果最佳.
為了使UECMIMCI模型在用戶情感分類時達到最好的分類效果,在實驗過程中設置UECMIMCI模型的最大迭代次數為300次.如圖4所示,在UECMIMCI模型迭代到250次時,該模型對用戶情感分類的準確率值最佳為96.53%,在250次之后,模型的分類準確率略有下降,基本穩(wěn)定在96.41%.因此本文選擇250次作為UECMIMCI模型迭代次數.
圖4 UECMIMCI模型迭代次數和準確率的關系
圖5 UECMIMCI分類方法多次實驗誤差范圍情況
綜合考慮上述所有因素進行多組實驗,比較實驗的誤差范圍,結果如圖5所示.圖5中實驗1-4對表7中選擇的文本卷積核尺寸做對比試驗,結果顯示在文本卷積核維度是3、4、5時,實驗效果最佳.實驗5-6,按照圖片卷積核尺寸為3×3、4×4、5×5和文本卷積核尺寸為3、4、5以及迭代次數為250次條件下,重復實驗,準確率基本一致,UECMIMCI模型穩(wěn)定可行有實際應用價值.
綜上分析,基于多元信息的多通道卷積神經網絡模型超參數設置,如表8所示.
表8 模型參數
將本文提出的情感分類方法UECMIMCI與fcmpCNN方法[12]、DCCNN方法[13]、MCCNN方法[14]、LSCNN方法[16]以及雙通道卷積記憶神經網絡模型[20]在同一數據集上進行對比實驗,其中,對比實驗采用原始評論作為數據集進行實驗,下面給出對比方法簡要描述:fcmpCNN模型采用全卷積—多池化單元的堆疊提取文本的語義,對網絡文本進行情感多分類;DCCNN模型通過融合字向量的雙通道卷積神經網絡對文本進行情感分類;MCCNN模型結合文本的拼音、字符及單詞使用三通道CNN融合多種表征,進行文本情感分類;LSCNN模型將文本情感矩陣以及詞向量輸入到雙通道CNN中進行分類;雙通道CNN-LSTM模型將詞向量和情感詞典輸入雙通道卷積神經網絡中,通過長短期記憶網絡結合上下文進行文本情感的分類.
對比實驗采用準確率、精確率、召回率和F值作為評價指標.計算公式如公式(11)-(14)所示.
(11)
(12)
(13)
其中,TP為預測正確的好評數、FP為預測錯誤的好評數、P表示預測為好評的評論數、FP將除好評外的其他類別分為其他類別、TN表示將好評誤分為其他類別.
(14)
UECMIMCI模型及對比模型的準確率如表9所示.
表9 對比試驗結果
從上述圖表可以看出,UECMIMCI用戶情感分類方法的準確率為96.53%,高于其他對比方法.其中,DCCNN和MCCNN取得較低的準確率,其原因是僅對文本按照不同的方式進行分詞和輸入,忽略了虛假評論的存在對分類結果的影響.fcmpCNN模型通過修改神經網絡的結構來增強文本的語義進行情感分類,沒有充分利用評論中其他信息達到提高用戶情感分類準確率的目的.LSCNN和雙通道CNN-LSTM模型準確率達到91%和92%,由于二者均利用情感詞典來增強評論的情感特征表示,沒有考慮到追加評論的內容有更強的情感色彩、更能反映出用戶的真實情感.而本文提出的UECMIMCI用戶情感分類方法中先過濾掉虛假評論,后融合原始評論、原始追加評論、追加評論和追加上傳圖片的特征,使得UECMIMCI方法對用戶情感分類性能明顯高于對比方法.
為了解決評論中存在虛假評論、隨意評論等評論亂象對用戶情感分類的影響、提高用戶情感分類的準確率,本文提出了一種融合多元評論信息的用戶情感分類方法.該方法為了保證評論分類的準確性、減少虛假評論的干擾,分別對評論圖片分類、評論文本分割進行預處理操作,構建過濾掉虛假評論的圖文數據集;之后將預處理后的圖文數據集分別輸入到原始評論、原始上傳圖片、追加評論和追加上傳圖片這四條通道中進行卷積、池化提取圖文特征,最終將四條通道特征進行融合來得到最優(yōu)質的特征信息進行情感分類.經實驗驗證UECMIMCI用戶情感分類方法的準確率高于其他對比方法,取得了較好的分類效果.