国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞向量和情感本體的短文本情感分類

2018-03-12 08:00:01,
關(guān)鍵詞:分類器短文本體

,

(浙江理工大學(xué)經(jīng)濟(jì)管理學(xué)院,杭州 310018)

目前以微博等眾多平臺為代表的自媒體不斷涌現(xiàn),用戶成為信息傳播的主動者,在網(wǎng)絡(luò)社區(qū)中分享知識、經(jīng)驗和感受等,于是大量主觀性的評論數(shù)據(jù)爆發(fā)性增長[1]。從大規(guī)模的文本數(shù)據(jù)中挖掘用戶情感價值信息具有重要意義,而挖掘用戶情感價值信息前提在于判別用戶情感傾向。情感傾向的判別是在給定的文本分類模型下,依據(jù)文本內(nèi)容所體現(xiàn)的情感特征,自動地對文本進(jìn)行分類,從而幫助人們組織文本、挖掘文本信息。

一、文獻(xiàn)綜述

本文研究的短文本情感分類是根據(jù)文本內(nèi)容所體現(xiàn)的用戶意見的情感極性,將帶有相同特定情感傾向的短文本歸為一類,即文本情感分類[2]。目前短文本情感分類主要采取統(tǒng)計自然語言處理、情感語義特性兩種方式[3]。統(tǒng)計自然語言處理是指利用文本中情感詞的權(quán)重等特性對分類器進(jìn)行訓(xùn)練來識別文本。Pang等[4]的研究表明,文本分類中若采用布爾值作為權(quán)重的Unigram,分類效果最好。Isidoros等[5]所設(shè)計的集成分類器架構(gòu)是利用統(tǒng)計機(jī)器學(xué)習(xí)分類方法,確定情感的極性。楊鋒等[6]根據(jù)詞語順序共現(xiàn)隨機(jī)網(wǎng)絡(luò)和情緒詞表對短文本進(jìn)行情感分類。楊小平等[7]對用戶評論數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理和分析,通過構(gòu)建網(wǎng)絡(luò)節(jié)點和拓?fù)溥B接關(guān)系的知識圖譜進(jìn)行情感分析。

根據(jù)情感語義特性進(jìn)行分類的方法是指利用情感詞極性來判別文本情感傾向。Philipp[8]根據(jù)情感詞極性將人類的情感劃分成6種基本類型,包括憤怒、厭惡、恐懼、歡樂、悲傷和驚喜。Gamon[9]采用了NLPWin自然語言處理系統(tǒng),利用情感文本的句法結(jié)構(gòu)特征來進(jìn)行文本分類。Tong[10]建立了電影評論情感詞典,對每一個情感詞匯的情感極性進(jìn)行人工標(biāo)記,以評論中情感詞的極性判別情感傾向。桂斌等[11]根據(jù)情感詞在正負(fù)微博文本中出現(xiàn)的概率對文本進(jìn)行情感分類。史偉等[12]在劃分情感本體(分為評價詞本體和情感詞本體)的基礎(chǔ)上,構(gòu)建了模糊情感本體作為分類依據(jù)。唐曉波等[13]對微博表情符號進(jìn)行情感分析,構(gòu)建了某微博產(chǎn)品的領(lǐng)域情感詞典,進(jìn)行微博產(chǎn)品評論的文本分類。

此外,張群等[14]提出了詞向量與LDA相融合的短文本分類方法,將表示文本情感分類的兩種方式相結(jié)合,解決了短文本特征稀疏問題及主題聚焦性差的問題。這表明情感分類可將情感詞與統(tǒng)計處理兩者不同的技術(shù)路線相結(jié)合進(jìn)行。目前將這兩種文本特征表示方法相結(jié)合的研究較少,大多數(shù)情感分類方法都是采用單一技術(shù)路線進(jìn)行。因此本文以微博評論文本為研究對象,提出一種結(jié)合兩種方式的短文本特征表示方法,即將情感詞語義特性進(jìn)行量化,與基于統(tǒng)計自然語言處理的分類方法相結(jié)合,利用情感本體詞庫的語義特性,融合基于Word2Vec的詞向量,形成新的文本特征向量,之后通過KNN分類器進(jìn)行短文本情感分類,查看分類效果評估該方法。

二、基于詞向量和情感本體的短文本特征表示方法

Word2Vec采用神經(jīng)網(wǎng)絡(luò)語言模型(Neural network language model,NNLM)和N-gram語言模型,將每個詞都表示成一個實數(shù)向量[15]。而情感本體則是對某個中文詞匯或短語予以特性的描述。本文的情感本體主要借鑒大連理工大學(xué)信息檢索研究室整理和標(biāo)注的中文情感詞匯本體庫,其詞匯情感共分為7大類21小類,并標(biāo)注各個詞匯的詞性、情感類別及極性[16]。

本文將以上兩種方法進(jìn)行結(jié)合,其方法過程描述如下:

(一)基于Word2Vec的詞向量合成

采用向量相加平均法得到文本數(shù)據(jù)集D的基于詞向量的短文本特征,可以用公式表示為:

其中:dm′表示D中第m篇短文本的基于詞向量合成的短文本表示,Nm為詞數(shù),wj為當(dāng)前短文本第j個詞(j=1,2,3,…,Nm),C(wj)是經(jīng)過Word2Vec模型計算得到的詞wj的詞向量,C(wmj)是經(jīng)過相加平均后得到的第m篇短文本中詞wj的詞向量。

(二)情感值計算

每條評論的情感值是由其情感詞的數(shù)量和在情感本體中指定的強度來決定,定義公式如下:

其中:dm″表示數(shù)據(jù)集D中第m篇短文本的情感值,Ni表示短文本中第i個詞的情感極性,Ni的取值范圍為{-1,0,1}(-1表示貶義,0表示中性,1表示褒義),Qi表示第i個情感詞的情感強度。

由于中文情感本體庫中情感詞數(shù)量有限,并沒有包括所有的情感詞,特別是微博表情庫。微博表情是在微博評論文本中常見的一種抒發(fā)用戶情感的途徑,而對于某些表情,無法在情感本體庫中找出對應(yīng)的情感詞進(jìn)行計算。因此,對于無法進(jìn)行情感值計算的表情,本文采用與這些表情相近的且是包含在情感本體庫中的情感詞進(jìn)行代替,例如微博表情庫中的“[親親]”,在情感本體庫中找不到與之直接對應(yīng)的情感詞,但可以用“親熱”這一相近的詞進(jìn)行代替,該詞在情感本體庫中屬于“樂”這一大類,“快樂(PA)”這一小類,情感極性為褒義,情感強度為5。此外,針對網(wǎng)絡(luò)詞匯,很難能夠權(quán)威地肯定該詞的情感值,本文通過Word2Vec詞向量模型,根據(jù)詞向量之間的余弦距離,查找與之相關(guān)的近義詞來判斷該新詞的情感極性和強度,如表1所示。

表1 網(wǎng)絡(luò)詞匯情感值示例

即便如此,仍然有一部分微博表情無法確定其情感傾向,例如“熊貓”、“咖啡”、“話筒”等表示靜物或動物的微博表情,很難確定其情感極性以及情感強度。故本文將這一類微博表情的情感極性定為中性,即不計入評論文本的情感值計算。

(三)詞向量和情感本體相融合的文本特征表示

將所得到的每條評論文本的情感值,記為dm″,作為該文本的除詞向量以外的一大特征,與基于詞向量合成的模型dm′進(jìn)行順序拼接,得到詞向量與情感本體結(jié)合的短文本特征,公式定義如下:

dm={dm′;dm″}

={C(wm1),C(wm2),C(wm3),…,C(wmj);dm″},

其中:“;”表示向量順序拼接操作,dm為文本數(shù)據(jù)集D中第m篇短文本的詞向量與情感本體結(jié)合的向量表示。

三、基于詞向量和情感本體的短文本情感分類過程

根據(jù)本文所提出的短文本特征表示方法,現(xiàn)對如何應(yīng)用該方法提出對應(yīng)的短文本情感分類過程,其方法流程如圖1所示。

圖1 基于詞向量和情感本體的短文本情感分類流程

(一)文本數(shù)據(jù)集構(gòu)建

本文的小規(guī)模數(shù)據(jù)集用于訓(xùn)練文本分類器,需要進(jìn)行標(biāo)注。而大規(guī)模數(shù)據(jù)集用于訓(xùn)練生成詞向量和情感值相結(jié)合的模型,所需數(shù)據(jù)并不需要標(biāo)注。因此本文分類流程屬于半監(jiān)督學(xué)習(xí)。

由于本文是以微博評論文本為例進(jìn)行研究,故大規(guī)模無標(biāo)注數(shù)據(jù)集和小規(guī)模有標(biāo)注數(shù)據(jù)集都應(yīng)來自微博的評論文本,其所包含的領(lǐng)域與分類任務(wù)一致,且大規(guī)模無標(biāo)記數(shù)據(jù)集應(yīng)包含足夠的領(lǐng)域(包括科學(xué)技術(shù)、社會、金融、互聯(lián)網(wǎng)等)。

(二)評論文本預(yù)處理

1.文本去重

文本去重即是去除文本評論數(shù)據(jù)中重復(fù)的部分。針對微博平臺,有些用戶在轉(zhuǎn)發(fā)微博時系統(tǒng)可能會自動進(jìn)行評論,評論內(nèi)容為“轉(zhuǎn)發(fā)微博”;其次同一用戶由于想要多次表達(dá)自己的觀點可能會進(jìn)行重復(fù)評論;再者用戶在評論時存在復(fù)制他人評論的可能性,導(dǎo)致出現(xiàn)不同人的評論內(nèi)容相同。因此需要刪除重復(fù)的文本數(shù)據(jù),但為了存留更多的有用語料,文本去重只對完全重復(fù)的語料進(jìn)行處理。

2.機(jī)械壓縮去詞

機(jī)械壓縮去詞的目的就是去掉一些連續(xù)重復(fù)累贅的表達(dá),將多個連續(xù)重復(fù)的詞語壓縮至一個。由于微博的評論文本數(shù)據(jù)質(zhì)量參差不齊,沒有意義的文本數(shù)據(jù)很多。例如,“非常好非常好非常好”以及“好呀好呀好呀”。這類語料的特點是在于將某些詞語連續(xù)地重復(fù)地進(jìn)行表達(dá),這對基于本文方法的短文本特征結(jié)果產(chǎn)生較大的干擾。

3.針對微博評論文本的其他處理

刪除評論中存在的大量網(wǎng)頁鏈接,這些對于評論文本的情感傾向挖掘沒有意義。除此之外,用戶在評論微博時會@其他用戶,或是用戶在回復(fù)其他用戶的評論時,該用戶所抓取的評論內(nèi)容的形式為“回復(fù)@其他用戶名:+‘該用戶的評論內(nèi)容’”。并且,用戶在評論某微博或回復(fù)他人評論時,該用戶的評論會多次出現(xiàn),意味著用戶多次進(jìn)行情感表達(dá),這會對情感分類產(chǎn)生影響。故在進(jìn)行文本數(shù)據(jù)預(yù)處理時,不僅需要把每條評論的用戶名刪除。另對同一用戶的多次不重復(fù)評論進(jìn)行處理,只保留該用戶評論中最長的一條,避免用戶的評論重復(fù)次數(shù)對分類結(jié)果產(chǎn)生影響(在此視同一用戶多次對同一微博評論的情感傾向是一致的)。

4.短句刪除

雖然精簡的辭藻在很多時候是一種比較良好的習(xí)慣,但是由語言的特點知道,從根本上說,字?jǐn)?shù)越少所能夠表達(dá)的意思就越少,要想表達(dá)一些相關(guān)的意思就一定要有相應(yīng)量的字?jǐn)?shù)。因此,要刪除掉過短的評論文本數(shù)據(jù),以去除掉沒有意義的評論。根據(jù)實驗經(jīng)驗,4~8個國際字符都是較為合理的下限。故此,經(jīng)過前三步預(yù)處理后得到的短文本評論若小于等于4個國際字符,則將該語料刪去。

5.分詞

進(jìn)行預(yù)處理以后,主要對短文本數(shù)據(jù)進(jìn)行分詞。本文選用Python的中文分詞包“jieba”進(jìn)行中文分詞。經(jīng)過實驗測試,“jieba”的分詞精度高達(dá)97%以上。

(三)短文本特征表示

根據(jù)本文所提出的基于詞向量和情感本體的短文本特征表示方法,計算預(yù)處理后的文本數(shù)據(jù)相對應(yīng)的短文本特征,后將短文本特征數(shù)據(jù)輸入情感分類器進(jìn)行情感分類。

(四)分類器選擇

情感分類器主要有支持向量機(jī)、K最近鄰和樸素貝葉斯。支持向量機(jī)對處理樣本量少的數(shù)據(jù)效果較好,但大樣本時優(yōu)勢并不明顯,且這種非線性算法的計算復(fù)雜度較高,也不適合在大樣本數(shù)據(jù)上做訓(xùn)練。貝葉斯分類是根據(jù)某對象的先驗概率,利用貝葉斯公式得出后驗概率,以最大后驗概率的類作為該對象所屬的類。而KNN分類器是根據(jù)距離度量個體間的差異性,將距離相近的歸為一類。而本文所提出的對某條短文本數(shù)據(jù)的特征表示的本質(zhì)就是n維向量,可依據(jù)向量之間的距離來進(jìn)行短文本分類。故本文將選用KNN分類器進(jìn)行分類。

四、實驗結(jié)果及分析

(一)實驗設(shè)置

通過Python對微博平臺數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)爬蟲,爬取不同領(lǐng)域(包括科技、社會、財經(jīng)、互聯(lián)網(wǎng)等)下的熱門微博評論,本文總計收集50萬條微博評論樣本作為訓(xùn)練生成詞向量和情感值計算的大規(guī)模樣本,另收集3萬條微博評論作為情感分類的樣本數(shù)據(jù)。使用Python進(jìn)行短文本預(yù)處理,包括文本去重、機(jī)械壓縮、短句刪除、包括針對微博文本的特殊處理以及評論文本分割。

經(jīng)過以上處理,最后總計得到大規(guī)模數(shù)據(jù)集201245條,小規(guī)模數(shù)據(jù)集16832條。

本文將利用Python進(jìn)行Word2Vec的詞向量訓(xùn)練,根據(jù)經(jīng)驗設(shè)置詞向量維數(shù)為50、100和150,用以測試不同維數(shù)下在KNN分類器下的分類效果。

(二)評價指標(biāo)

1.Precision、Recall、F1分?jǐn)?shù)評價指標(biāo)

本文采用的評價指標(biāo)主要是準(zhǔn)確率P(Precision),召回率R(Recall)和F1值。為了方便描述三種評價指標(biāo)的計算公式,建立分類結(jié)果表2。

表2 分類結(jié)果

表格中TP、FP表示分類系統(tǒng)與實際分類結(jié)果一致的文本數(shù),F(xiàn)N、TN則表示分類系統(tǒng)與實際分類結(jié)果不一致的文本數(shù)。

準(zhǔn)確率P表示分類的正確率,計算公式為:

召回率R表示分類的完整性,計算公式為:

F1值綜合考慮準(zhǔn)確率和召回率,計算公式為:

2.AUC(Area under curve)評價指標(biāo)

AUC是指ROC曲線下的面積,取值范圍一般在[0.5,1.0],且其面積越大,分類效果越好。而ROC曲線是指對于某分類器在不同的閾值下,會得到一組(FPR,TPR),以FPR作為橫坐標(biāo),TPR作為縱坐標(biāo),作出曲線圖。其中對FPR和TPR定義如下:

為消除本文小規(guī)模數(shù)據(jù)的樣本數(shù)目對本文分類結(jié)果的影響,本文采用AUC評估不同樣本量下的分類結(jié)果。

(三)結(jié)果分析

針對不同維度下(50維、100維、150維),測試本文方法的AUC值隨樣本量大小變化的情況,并比較其他兩種分別基于情感本體和詞向量模型的分類方法。其中樣本量從已預(yù)處理好的16832條小規(guī)模數(shù)據(jù)中隨機(jī)抽取2000,4000,…,14000,16832條進(jìn)行實驗。訓(xùn)練集與測試集的比例依照K-Fold Cross-Validation(K取常用值,即K=10)方法進(jìn)行10次交叉驗證,最后得到結(jié)果如圖2所示。

圖2 不同樣本數(shù)量的分類效果(50維)

圖3 不同樣本數(shù)量的分類效果(100維)

圖4 不同樣本數(shù)量的分類效果(150維)

由圖2—圖4可知,當(dāng)樣本數(shù)目大于12000時,三種分類方法的分類效果達(dá)到較好的水平,并且此時維數(shù)對分類效果的影響較小。因此從計算效率的角度考慮將維數(shù)設(shè)置為50,樣本量設(shè)置為12000,對三種分類方法進(jìn)行測試,取10次10折交叉驗證結(jié)果的均值,如表3所示。

表3 分類結(jié)果比較(50維)

從表3可以看出,相比其他兩種分類效果,本文的分類效果較佳,F(xiàn)1值至少提升3.3%,準(zhǔn)確率P至少提升3.5%,召回率R至少提升3.0%。并且從圖2—圖4可看出,本文方法的AUC值在樣本量大于12000時,均較優(yōu)于其他兩種方法。綜上,本文所提出的基于詞向量和情感本體的文本特征表示方法可有助于提升短文本情感分類效果。

五、結(jié) 語

本文提出一種新的短文本特征表示方法,即綜合情感詞特征和詞向量的文本特征表示。實驗部分探討了不同詞向量維數(shù)以及分別基于詞向量和基于情感本體在KNN分類器上的分類效果,綜合得出本文方法的優(yōu)勢。然而本文方法不足之處在于,一是僅簡單地將情感值與詞向量拼接作為文本的特征項,二是缺乏對網(wǎng)絡(luò)詞匯情感傾向判定是否恰當(dāng)?shù)脑u估。后續(xù)將對某一領(lǐng)域和網(wǎng)絡(luò)詞匯的情感強度和極性判定,以及詞向量和情感值的其他結(jié)合方式等情況展開研究。

[1] 夏火松,劉建,朱慧毅.中文情感分類挖掘預(yù)處理關(guān)鍵技術(shù)比較研究[J].情報雜志,2011,30(9):160-163.

[2] Yu N. Exploring co-training strategies for opinion detection[J]. Journal of the Association for Information Science&Technology,2014,65(10):2098-2110.

[3] 唐曉波,朱娟,楊豐華.基于情感本體和KNN算法的在線評論情感分類研究[J].情報理論與實踐,2016,39(6):110-114.

[4] Pang B, Lee L. Seeing stars: exploiting class relationships for sentiment categorization with respect to rating scales[C]//43rd Annual Meeting of the Association for Computational Linguistics. Michigan: The Association for Computational Linguistics,2005.

[5] Isidoros P, Ioannis H. Recognizing emotions in text using ensemble of classifiers[J]. Engineering Applications of Artificial Intelligence,2016,51(C):191-201.

[6] 楊鋒,彭勤科,徐濤.基于隨機(jī)網(wǎng)絡(luò)的在線評論情緒傾向性分類[J].自動化學(xué)報,2010,36(6):837-844.

[7] 楊小平,馬奇鳳,余力,等.評論簇在網(wǎng)絡(luò)輿論中的情感傾向代表性研究[J].現(xiàn)代圖書情報技術(shù),2016,32(z1):51-59.

[8] Philipp M. Support vector machines in automated emotion classification[D]. Cambridge: Churchill College,2003.

[9] Gamon M. Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis[C]//20th International Conference on Computational Linguistics. Geneva: International Committee on Computational Linguistics,2004.

[10] Tong R M. An operational system for detecting and tracking opinions in on-line discussion[C]//the 24th Annual International ACM SIGIR Conference. New Orleans: ACM,2001.

[11] 桂斌,楊小平,張中夏,等.基于微博表情符號的情感詞典構(gòu)建研究[J].北京理工大學(xué)學(xué)報,2014,34(5):537-541.

[12] 史偉,王洪偉,何紹義.基于知網(wǎng)的模糊情感本體的構(gòu)建研究[J].情報學(xué)報,2012,31(6):595-602.

[13] 唐曉波,蘭玉婷.基于特征本體的微博產(chǎn)品評論情感分析[J].圖書情報工作,2016(16):121-127.

[14] 張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現(xiàn)代圖書情報技術(shù),2016,32(12):27-35.

[15] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[C]//International Conference on Learning Representations. Scottsdale: the Computational and Biological Learning Society,2013.

[16] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學(xué)報,2008,27(2):180-185.

猜你喜歡
分類器短文本體
Abstracts and Key Words
對姜夔自度曲音樂本體的現(xiàn)代解讀
KEYS
Keys
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
短文改錯
修武县| 郓城县| 谢通门县| 榆树市| 建湖县| 固原市| 缙云县| 科技| 河池市| 宝清县| 明星| 宁武县| 四川省| 马公市| 怀来县| 天祝| 长白| 酒泉市| 江北区| 浦东新区| 福建省| 保德县| 镇坪县| 汕尾市| 华蓥市| 庐江县| 白河县| 即墨市| 金山区| 屏东县| 孟州市| 北川| 章丘市| 沙田区| 蓝山县| 稷山县| 长兴县| 桑植县| 大埔县| 汝城县| 莒南县|