周陳超 趙玲瑜 趙波 柳孔明 孟佳洋
摘要:用戶評論對網上商城有著非常重要的作用,它能極大推動潛在客戶的轉化。但是評論涉及商品的方方面面,數量多內容雜,需要進行分類和匯總以抽取核心信息。針對評論對象的分類問題,文章設計一個結合注意力機制的LSTM(Long Short-Term Memory)模型。模型首先使用LSTM訓練用戶評論,然后采用注意力機制聚焦關鍵信息優(yōu)化分類結果。在SemEval-2014數據集上的實驗結果證明,模型對評論對象分類的準確率較高。
關鍵詞: 用戶評論;評論對象分類;LSTM;注意力機制
中圖分類號: TP391? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)32-0214-02
Abstract:User reviews play a very important role in online shopping malls, which can greatly promote the conversion of potential customers. It is difficult for ordinary users to make full use of a large number of user reviews, so it is very important to classify and summarize these reviews. Aiming at the classification of review objects, this paper proposes a Long Short-Term Memory (LSTM) model based on attention mechanism. The model first uses LSTM to train user reviews and then uses the attention mechanism to capture important information related to categories for classification. The experimental results on the SemEval-2014 dataset show that the model can effectively classify review objects。
Key words:user reviews;review object classification;long short-term memory;attention mechanism
隨著電子商務的發(fā)展,網上積聚了海量的用戶評論,這些評論作為一種口碑成為用戶購買決策的重要參考[1]。用戶去沒去過的飯店聚餐時,經常會去“大眾點評”查看其他人的點評。但是,用戶的點評非常多。在“大眾點評”中,“全聚德”單個門店的點評就有六七千條,涉及菜品、口味、價格以及服務等方方面面,用戶自己很難看完這些信息,挑著看又存在以偏概全的問題。因此需要開發(fā)系統(tǒng)對用戶評論進行對象分類、提取摘要,為用戶提供簡要精準的關鍵內容。對評論進行分類就是其中的一項重要任務,評論的分類為進一步的情感分析和意見摘要提供精確的類別信息[2]。
用戶評論對象分類目前已有一些研究。Brychcin等[3]結合Tf-Idf和詞袋模型為每個類別設計一個最大熵分類器。Kiritchenko等[4]基于N-gram特征以及根據點互信息設計的詞典分別為每個類別構造一個SVM分類器,分類的F1值達到88.6%。注意力機制(attention mechanism)最開始在圖像分析領域取得成功,目的從眾多信息中選擇出對當前任務目標更關鍵的信息。Wang等人[5]結合注意力機制使用LSTM實現評論類別的細粒度的情感分析,效果很好。但是評論對象分類方面注意力機制的研究還不多。
文章使用預先訓練好的詞向量,將文字形式的評論映射到可計算的向量空間。詞向量能夠將語言數字化,量化表征詞語之間的相關關系,并能進行計算。LSTM整合句子的語義信息,注意力機制捕捉涉及分類的關鍵要素,基于注意力機制的輸出為所有類別分別構建一個二元分類器。
1 評論對象分類問題描述
根據事先確定的分類信息,評論對象分類問題是判斷評論的句子包含哪些類別[6]。某一商品有[C={c1,c2,...,cT}] T個類別,評論數據集有[S={s1,s2,...,sK}] K個句子,針對所有句子,判斷每個類別[ci]的二元標簽向量[yij]。[yij=1]表示句子[sj]評論的對象包含類別[ci],[yij=0]則表示句子[sj]評論的對象不包含類別[ci],句子涉及的類別數不定。
2 基于注意力LSTM的評論對象分類模型(A-LSTM)
評論對象分類首先要提取出與類別有關聯(lián)的特征信息,然后判斷這些特征信息和類別的關系。A-LSTM基于注意力機制識別與類別有關聯(lián)的特征信息,框架如圖1所示。
2.1輸入詞向量
模型使用經Mikolov等[7]的CBOW方法預訓練的詞向量,[E∈Rd×|V|],其中d是詞向量的維度,即把每個詞映射為d維向量,|V|表示詞向量的大小,即包含多少詞的詞向量。根據詞向量將評論中的句子[sj]轉化成詞向量列表[{e1,...,et,...,eLj}],其中[ei∈Rd][6]。
2.2 LSTM提取語義信息
LSTM是一種時間循環(huán)神經網絡,解決一般的循環(huán)神經網絡存在的長期依賴問題[8]。LSTM能夠記憶歷史的文字輸入信息,進而提取整個句子的語義特征用于分類訓練。
2.3 注意力機制
提取與類別關聯(lián)的特征信息是對評論對象進行準確分類的關鍵,注意力機制在這里非常有用。類別信息加入模型的計算中,結合注意力機制聚焦關鍵的特征信息,經Softmax計算后進行分類。模型為每個類別構造一個分類器。
句子的LSTM輸出詞向量[h1,h2,...,hN]記為[H∈Rd×N],句子S的長度N,類別信息的詞向量為vc。加入類別詞向量后,注意力能更好地進行聚焦。
模型使用softmax將句子S關于類別vc的特征向量表達映射為關于vc的條件概率分布。
3 實驗與分析
3.1 實驗數據
論文使用英文的SemEval-2014 [9] Restaurant 數據集。實驗使用Mikolov等人的word2vec算法預先訓練的詞向量,輸出向量為300維,采用U(-0.01,0.01)隨機初始化未登錄詞向量。
參考SemEval評價方法,實驗結果以F1值進行比較。
其中正確率(P)和召回率(R)定義如下:
S為算法給出的標簽,G是正確的標簽。
3.2 實驗結果
據表1,“price”“food” 以及“service”的分類準確率高, “anecdote/misc” 和“ambience”的分類準確率相對差一點。
“ambience”的分類準確率最差,主要是因為訓練語料少。在訓練語料中, “price”出現一百五十多次,但“ambience”僅出現二十幾次。相比之下,訓練出來的參數代表性不足,分類效果不佳。四個類別之外的其他類別為“anecdote/misc”類,包含的要素雜亂,沒有一個準確的概括性強的類別信息加入注意力計算中,因此分類效果不好。“anecdote/misc” 和“ambience”分類準確率低,一方面是訓練的數據集太少,覆蓋面不夠;另一方面是由于注意力計算時加入的類別詞概括性和準確性不夠,無法代表類別特征。這些都是下一步改進的重點。
4 結論
在評論對象的分類研究中,文章提出基于注意力機制的LSTM模型對評論對象進行分類。詞向量將模糊的文字轉化為可計算的、可對比的語義向量;LSTM整合評論的語義信息,注意力機制極大提高分類計算的有效性。實驗結果表明模型的分類效果挺好。
下一步將針對類別詞代表性不夠的問題,通過整合類別特征等方法,提高類別向量的代表性,進而提升分類的效果。
參考文獻:
[1] Adjei M T,Noble S M,Noble C H.The influence of C2C communications in online brand communities on customer purchase behavior[J].Journal of the Academy of Marketing Science,2010,38(5):634-653.
[2] Liu B. Opinion Mining and Sentiment Analysis[J]. Synthesis Lectures on Human Language Technologies, 2011, 2(2):459-526
[3] Brychcin T, Konkol M, Steinberger J. UWB: Machine Learning Approach to Aspect-Based Sentiment Analysis[C]// Semeval, 2014
[4] Kiritchenko S,Zhu X D,Cherry C,et al.NRC-Canada-2014:detecting aspects and sentiment in customer reviews[C]//Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014).Dublin,Ireland.Stroudsburg,PA,USA:Association for Computational Linguistics,2014:437-442.
[5] Wang Y Q,Huang M L,zhu X Y,et al.Attention-based lstm for Aspect-level sentiment classification[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.Austin,Texas.Stroudsburg,PA,USA:Association for Computational Linguistics,2016:606-615.
[6] 周陳超,陳群,李戰(zhàn)懷,等.基于注意力和雙向LSTM的評價對象類別判定[J].西北工業(yè)大學學報,2019,37(3):558-564.
[7] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[EB/OL].2013:arXiv:1301.3781[cs.CL].https://arxiv.org/abs/1301.3781.
[8] 秦賀然,劉瀏,李斌,等.融入實體特征的典籍自動分類研究[J].數據分析與知識發(fā)現,2019,3(9):68-76.
[9] Pontiki M,Galanis D,Pavlopoulos J,et al.SemEval-2014 task 4:aspect based sentiment analysis[C]//Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014).Dublin,Ireland.Stroudsburg,PA,USA:Association for Computational Linguistics,2014:27-35.
【通聯(lián)編輯:唐一東】