任高山 韓友德
【摘 要】論文基于評論文本語料信息提出Word2vec模型與Doc2vec模型與機器學習相結合比較的評論文本情感分析模型,經(jīng)過實驗的對比驗證,結果表明了論文提出的方法能夠有效提高分類準確率、精確度、召回率。
【Abstract】Based on the corpus information of comment text, the paper puts forward the emotional analysis mode of comment text from the combination and comparison of Word2vec mode and Doc2vec mode and machine learning. Through the experimental comparison and verification, the results show that the proposed method can effectively improve the accuracy, precision and recall of classification.
【關鍵詞】機器學習;Word2vec;Doc2Vec;情感分析
【Keywords】machine learning; Word2Vec; Doc2Vec; emotional analysis
【中圖分類號】TP391 【文獻標志碼】A 【文章編號】1673-1069(2018)05-0062-02
1 引言
文本情感分析是指分析作者在傳達信息時所隱含的情緒狀態(tài),對作者的意見進行判斷或者評估,給出作者態(tài)度是褒義、貶義的結論。企業(yè)和商家面對用戶的大量情感評論信息,可以不斷挖掘有傾向的數(shù)據(jù),統(tǒng)計用戶對消費產(chǎn)品的反饋,向消費者推薦潛在消費品等用途。
本文的結構是這樣組織的:第一部分介紹了情感分析的相關研究現(xiàn)狀;第二部分對情感分析語料文本的預處理進行了概要闡述;第三部分對不同的特征提取模型和不同的機器學習分類算法做出了實驗驗證,并對結果進行了詳細的分析;第四部分給出了結語。
2 相關研究現(xiàn)狀
基于詞向量表征模型,Mikolov提出了一種基于神經(jīng)網(wǎng)絡學習方式將詞語映射成連續(xù)(高維)向量的Word2vec算法[1],利用中心詞及其上下文建立局部詞嵌入窗口模型,用以進行詞語特征向量的優(yōu)化訓練[1]。詞向量具有良好的語義特性,是表示詞語特征。基于Word2Vec,Le和Mikolov等人[2]提出了Doc2Vec方法作為一個處理可變長度文本的總結性方法。除了在增加一個段落向量以外,Doc2vec幾乎等同于Word2Vec。相比于Word2Vec,Doc2Vec優(yōu)勢在于訓練出每一篇文本的向量,更能全面理解文本的語義特征。
3 文本預處理的技術
對于語料文本信息需要進行文本預處理,主要包括規(guī)范編碼格式、文本分詞等步驟。
①規(guī)范編碼格式,對于評論語料,通常情況下,會統(tǒng)一存儲為規(guī)范的編碼格式,如utf-8格式等。
②文本分詞,文本的單詞將會被后續(xù)分類操作中作為特征來表征文本,文本分詞是否正確、高效直接影響后續(xù)實驗結果。Python中文分詞組件Jieba,可以實現(xiàn)分詞、添加自定義詞典、關鍵詞提取、詞性標注、并行分詞等功能,在全模式下,速度可達到1.5MB/s,本文采取的便是Jieba分詞。
4 關于Doc2vec模型原理概述
Doc2vec是一個無監(jiān)督框架,學習文本段落的連續(xù)分布向量表示。文本可以是可變長度的從句子到文檔。該方法可以應用于可變長度的文本,任何從短語或句子到大型文檔。Doc2vec 有兩種模型:Distributed Bag of Words(DBOW)和Distributed Memory(DM), 分別對應 Word2vec 中CBOW 與Skip-gram。以文本短句“The cat sat on mat”為例,其模型結構如圖1所示。在訓練過程中,文本片段 Paragraph 的ID保持不變,共享著同一個段落向量(即“The cat sat on mat”的向量表示)。DM在給定上下文和段落向量的情況下預測中心單詞的概率;DBOW則在僅給定段落向量的情況下預測段落中一組隨機單詞的概率。針對概率的目標函數(shù),DM與DBOW利用隨機梯度下降進行詞向量與段落向量的聯(lián)合更新[2]。
5 實驗結果及分析
5.1 實驗數(shù)據(jù)集及誤差評估標準
本文采用的是譚松波教授整理的酒店評論語料正負平衡語料各3000個和標記好的淘寶網(wǎng)商品評論好評與差評的語料,正向標記文本共17696個,負向標記文本13428個,數(shù)據(jù)類型為短文本,用以研究情感分析分類的特征選擇算法及分類算法。
本文在評價分類器效果時,引入了信息檢索中的混淆矩陣:傳統(tǒng)的準確率計算公式就是考慮精確度Accuracy,考量了分類器對于兩個類別的總體的分類效果,由于其在不平衡樣本中效果不好,所以提出了精度(precision)和召回率(recall)這兩個。本文采用一種F-measure檢驗的方法。
F=2·■ (1)
式1是經(jīng)常用到的F1指標,本文采用精確度、召回率、F1值來評估實驗結果。
5.2 實驗
實驗針對正向標記文本共17696個,負向標記文本13428個建立詞向量,選擇80%的數(shù)據(jù)作為訓練集,20%的作為測試集,先對標記語料進行文本預處理工作,然后分別采用Word2vec的cbow(continuous bag of words, cbow)型和Doc2vec的dbow(distributed bag of words, dbow),同時分別采用支持向量機(Support Vector Machine,SVM)、邏輯回歸(LogisticRegression,LR)、隨機梯度下降(Stochastic Gradient Descent,SGD)、高斯樸素貝葉斯(Gassian Naive Bayes,GassianNB)四種機器學習的分類算法建立預測模型,完成各種模型組合之下的實驗預測效果對比。
實驗將上述2種特征提取方法與4種機器學習算法分別進行組合預測,比較最終的誤差率,其中Word2vec與Doc2vec采用默認參數(shù),模型采用CBOW(DBOW),文本window(表示當前詞與預測詞在一個句子中的最大距離)設為5,詞向量維度100,訓練epoch為10。設置min_count=1,min_count(以下都稱為詞典詞頻)是模型中很重要的一個參數(shù),表示模型在訓練詞向量對詞典做截斷時,少于該參數(shù)次數(shù)的詞會去掉。將SVM、SGD、GassianNB、LR四種機器學習算法的參數(shù)設置成較好預測效果的參數(shù)。
由表1可知,采用Doc2vec模型的精確率,召回率,F(xiàn)1值都大于Word2vec模型的??梢奃oc2vec提取的特征向量表達了更多的情感傾向信息,原因在于:Word2vec對詞向量進行平均處理,忽略了詞語之間的語序,語序對文本情感傾向信息產(chǎn)生的影響很大,而Doc2vec具有上下文分析的上下文“語義分析”能力。
6 結語
本文首先對情感分析研究現(xiàn)狀和文本語料的預處理做了概述,然后通過實驗驗證了Doc2Vec基于短文本分類的情感傾向性的有效性,證明了Doc2Vec加SVM方法可以有效提高文本傾向性分析的預測精度。
【參考文獻】
【1】Le Q V, Mikolov T, Distributed Representations of Sentences and Documents [J].Computer Science, 2014(4):1188-1196.
【2】潘博,張青川,于重重,等.Doc2vec在薪水預測中的應用研究[J].計算機應用研究,2018,35(01):155-157.