萬志超 胡峰 鄧維斌
摘 要:傳統(tǒng)的特征選擇方法在面對不平衡文本情感傾向性分類時(shí)會(huì)有很大的局限性,這種局限性主要體現(xiàn)在特征維數(shù)過高、特征過于稀疏和特征分布不平衡,這會(huì)使得分類的準(zhǔn)確度大幅度下降。根據(jù)不平衡文本情感特征分布的特點(diǎn),結(jié)合三支決策的思想,提出了一種面向不平衡文本情感分類的三支決策特征選擇方法(TWDFS)。該方法將兩種有監(jiān)督特征選擇方法相結(jié)合,將選擇出的特征詞進(jìn)一步篩選,使得最終選擇出的特征詞同時(shí)滿足類間離散度最大和類內(nèi)離散度最小的特點(diǎn),有效地減少了特征詞的數(shù)量,降低了特征維度;此外,通過組合正負(fù)類情感特征,緩解了情感特征的不平衡性,有效提高了不平衡樣本中少數(shù)類情感的分類效果。在COAE2013中文微博非平衡數(shù)據(jù)集等多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提的特征選擇算法TWDFS可以有效提高不平衡文本情感分類的準(zhǔn)確度。
關(guān)鍵詞:不平衡文本;特征選擇;情感分類;有監(jiān)督;三支決策
中圖分類號(hào):TP391.1
文獻(xiàn)標(biāo)志碼:A
Feature selection method for imbalanced text
sentiment classification based on threeway decisions
WAN Zhichao1*, HU Feng1,2, DENG Weibin2
1.College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China;
2.Chongqing Key Laboratory of Computational Intelligence(Chongqing University of Posts and Telecommunications), Chongqing 400065, China
Abstract:
Traditional feature selection methods have great limitations in the imbalanced text sentiment tendency classification, which are mainly reflected in the high feature dimension, the sparse characteristics, and the imbalanced feature distribution, making the reduction of classification accuracy. According to the distribution of emotional features of imbalanced texts, a ThreeWay DecisionsFeature Selection algorithm (TWDFS) was proposed for imbalanced text sentiment classification based on threeway decisions. In order to reduce the number of feature words and reduce the feature dimension, two supervised feature selection methods were combined, and the feature words selected were further filtered in order to make them satisfy the characteristics of the maximum betweenclass scatter degree and the minimum withinclass scatter degree. In addition, the imbalance of sentiment features was decreased and the classification accuracy of minority sentiment was effectively improved by combining positive and negative sentiment features. The experimental results on COAE2013 Chinese microblog imbalanced datasets and other datasets show that the proposed feature selection algorithm TWDFS can effectively improve the accuracy of imbalanced text sentiment classification.
Key words:
imbalanced text; feature selection; sentiment classification; supervised; threeway decisions
0?引言
不平衡文本情感傾向性分析在自然語言處理領(lǐng)域是一個(gè)熱點(diǎn)研究問題,目前主要的研究方法分為文本采樣算法的改進(jìn)和特征選擇算法的優(yōu)化兩種。
在中文文本采樣算法的改進(jìn)方面,趙立東[1]針對非平衡中文文本情感分類進(jìn)行數(shù)據(jù)層面的改進(jìn),提出了基于聚類的下采樣算法(Clusterbased Undersampling Algorithm, CUA)和類邊界區(qū)域的裁剪(Boundary Region Cutting, BRC)的混合采樣算法;田鋒等[2]利用目標(biāo)數(shù)據(jù)集和源數(shù)據(jù)集的共性特征,提出面向目標(biāo)數(shù)據(jù)集實(shí)例遷移的數(shù)據(jù)層面采樣方法,緩解交互文本的非平衡問題;王中卿[3]提出了一種基于樣本集成的采樣方法,在基于聚類的欠采樣框架下利用中心向量平滑解決不平衡情感分類的問題。
在特征選擇算法改進(jìn)方面,王杰等[4]提出一種新的雙邊Fisher特征選擇算法TSF(TwoSided Fisher feature selection),通過組合正相關(guān)和負(fù)相關(guān)特征,緩解了特征的不平衡分布;Wasikowski等[5]提出了FAST(Feature Assessment Sliding Thresholds)特征選擇算法,在樣本數(shù)較少的不平衡文本情感傾向性分析中表現(xiàn)較好,但是該算法需要對每一個(gè)特征訓(xùn)練一個(gè)分類器,大幅增加了算法的復(fù)雜度,不適應(yīng)大規(guī)模數(shù)據(jù)集的應(yīng)用;Yin等[6]提出了一種基于類別分解的特征選擇算法,同時(shí)還提出了一種基于Hellinger距離的特征選擇方法,在非平衡文本情感傾向性分類中取得了較好的分類準(zhǔn)確度。
上述研究方法都只是從某一個(gè)方面對特征選擇算法進(jìn)行改進(jìn),只考慮有監(jiān)督算法或者半監(jiān)督算法單方面的不足,導(dǎo)致選擇出來的特征不論是類間離散度還是類內(nèi)聚集度效果都較差;同時(shí)單方面考慮特征詞對不平衡文本情感傾向性分類的影響,不能有效緩解特征的高維性和特征的不平衡分布,最終使得情感分類的準(zhǔn)確率不理想。
三支決策是一種更一般的、更有效的決策和信息處理模式。三支決策采用不承諾的決策選項(xiàng),引入兩個(gè)評(píng)價(jià)函數(shù)α和β將整體C劃分為三個(gè)部分,然后基于這三個(gè)部分進(jìn)行處理[7]。在處理實(shí)際應(yīng)用問題時(shí),會(huì)靈活強(qiáng)調(diào)這三個(gè)部分中的一個(gè)或兩個(gè),從而避免了錯(cuò)誤接受或者錯(cuò)誤拒絕造成的損失?;谌Q策這種有效的處理模式,本文結(jié)合三支決策的思想,將兩個(gè)有監(jiān)督的特征選擇算法作為兩個(gè)評(píng)價(jià)函數(shù),利用三支決策的劃分處理模式篩選出類間離散度和類內(nèi)聚集度效果更好的特征詞,從而降低不平衡文本情感傾向性分析中的特征的維度和不平衡度。
1?相關(guān)概念
1.1?中文文本預(yù)處理
針對中文文本的自然語言處理研究首先要進(jìn)行的就是文本預(yù)處理,因?yàn)橹形奈谋静荒芟裼⑽奈谋灸菢涌梢杂煤唵蔚目崭窈蜆?biāo)點(diǎn)符號(hào)完成分詞;其次,中文文本的編碼是Unicode,還需要對編碼進(jìn)行處理;最后,中文文本中存在很多對情感傾向性分類沒有作用的詞和標(biāo)點(diǎn)符號(hào),需要進(jìn)一步處理。
中文文本預(yù)處理主要是對中文文本進(jìn)行分詞、編碼和去停用詞。本文采用的是LTP(Language Technology Platform)分詞器[8]對中文文本進(jìn)行分詞處理,并在分詞過程中使用哈爾濱工業(yè)大學(xué)停用詞表來過濾文本中的無效詞和部分標(biāo)點(diǎn)符號(hào)。
1.2?文本特征選擇方法
在中文文本向量空間模型中,表示文本的特征項(xiàng)可以選擇字、詞、短語作為特征,所對應(yīng)的特征空間維數(shù)過高。為了過濾掉一些對文本分類貢獻(xiàn)極低的特征詞,特征降維的主要方法有特征選擇和特征抽取兩種:特征選擇是根據(jù)某一個(gè)特征詞t對類別C的貢獻(xiàn)度,從原始特征集合中選擇出一個(gè)子集;特征抽取主要考慮的是特征之間的語義相關(guān)性,以及特征的類間離散度和類內(nèi)聚集度,從而實(shí)現(xiàn)對特征集合的壓縮[9]。
中文文本特征選擇算法分為有監(jiān)督特征選擇算法和無監(jiān)督特征選擇算法兩類。無監(jiān)督特征選擇算法有:文檔頻 (Document Frequency, DF)[10]、絕對詞頻(Term Frequency, TF)[11]、詞頻逆文檔頻(Term FrequencyInverse Document Frequency, TFIDF)[12]等。有監(jiān)督特征選擇算法主要包括:信息增益(Information Gain, IG)法[13]、卡方統(tǒng)計(jì)量(CHIsquare statistics, CHI)[14]、互信息(Mutual Information, MI)法[15]等。
1.2.1?雙向卡方統(tǒng)計(jì)量
卡方統(tǒng)計(jì)量(CHI)是一種表示特征詞ti和類別Cj之間的相關(guān)聯(lián)程度的特征選擇算法,它的基礎(chǔ)是假設(shè)特征詞ti和類別Cj之間符合具有一階自由度的x2分布[16],因此,特征詞ti對類別Cj的卡方統(tǒng)計(jì)值越高,它與該類之間的相關(guān)性越大,攜帶的類別信息也就越多,反之則越少。特征詞ti和類別Cj關(guān)系如表1所示。
表1中,ti表示含有特征詞ti的文本;~ti表示不含有特征詞ti的文本;Cj表示屬于類別Cj的文本;~Cj表示不屬于類別Cj的文本;Ai, j表示含有特征詞ti且屬于類別Cj的文檔的數(shù)量;Bi, j表示含有特征詞ti,但不屬于類別Cj的文檔的數(shù)量;Ci, j表示文本中不含有特征詞ti,但屬于類別Cj的文檔的數(shù)量;Di, j表示文本中不含有特征詞ti且不屬于類別Cj的文檔的數(shù)量??梢钥闯鯝i, j和Di, j表示特征詞ti和類別Cj是正相關(guān),Bi, j和Ci, j表示特征詞ti和類別Cj是負(fù)相關(guān)。
特征詞ti對類別Cj的CHI值為:
x2=
N×(Ai, j×Di, j-Bi, j×Ci, j)2(Ai, j+Bi, j)×(Ai, j+Ci, j)×(Bi, j+Di, j)×(Ci, j+Di, j)(1)
考慮到特征詞ti和類別Cj之間存在正相關(guān)和負(fù)相關(guān)關(guān)系,以及在文本情感傾向性分析中,如果情感類別只有正、負(fù)兩類,由于CHI值計(jì)算公式的分子會(huì)導(dǎo)致在正、負(fù)兩類情感中都出現(xiàn)的特征詞計(jì)算出來CHI值是相同的。本文對CHI特征選擇算法進(jìn)行改進(jìn),引入修正因子δ(ti),
δ(ti)=sgn(Ai, j×Di, j-Bi, j×Ci, j)=
1,Ai, j×Di, j-Bi, j×Ci, j>0
0,Ai, j×Di, j-Bi, j×Ci, j=0
-1,Ai, j×Di, j-Bi, j×Ci, j<0 (2)
δ(ti)值的正負(fù)性和改進(jìn)后的特征詞ti和類別Cj之間的正負(fù)相關(guān)關(guān)系形同,引入修正因子后δ(ti)的雙向卡方統(tǒng)計(jì)量(Twosided CHI, TCHI)為:
定義2?對于劃分到邊界域BNDSetCj中的特征詞,需要進(jìn)行進(jìn)一步判別,以便挑選出對情感傾向類別貢獻(xiàn)較高的特征詞,即選擇出使得文本類間離散度最大,同時(shí)類內(nèi)離散度最小的特征,對情感傾向類別CP特征判別率FCP(tk)定義為:
FCP(tk)=(E(tk|CP)-∑N≠PE(tk|CN))2D(tk|CP)+∑N≠PD(tk|CN)(8)
其中:(E(tk|CP)-∑N≠PE(tk|CN))2表示類間離散度,D(tk|CP)+∑N≠PD(tk|CN)表示類內(nèi)離散度。
令dP,i(i=1,2,…,m)表示在P類情感傾向樣本集中第i條文本;dN, j(N≠P, j=1,2,…,n)表示在N類情感傾向樣本集中第j條文本,這里N類情感傾向樣本集表示樣本集中除P類情感以外的樣本集。特征變量dP,i(tk)和dN, j(tk)定義如下:
dP,i(tk)=1, tkoccurs indP,i0, 其他 (9)
dN, j(tk)=1, tkoccurs indN, j0,其他 (10)
則:
E(tk|CP)=E1m∑mi=1dP,i(tk)(11)
E(tk|CN)=E1n∑nj=1dN, j(tk)(12)
D(tk|CP)=1m∑mi=1(dP,i(tk)-E(tk|CP))(13)
D(tk|CN)=1n∑nj=1(dN, j(tk)-E(tk|CN))(14)
通過對歸類于邊界域BNDSetCj中的特征詞,進(jìn)一步計(jì)算其特征判別率FCj(tk),這里FCj(tk)=FCP(tk),上面使用FCP(tk)為了方便公式表示。然后將計(jì)算所得值按由大到小排序,選擇排序最大的前k個(gè)特征詞作為對邊界域BNDSetCj處理后情感傾向類別Cj新的特征詞,記為FSetCj,則情感傾向類別Cj的最終特征詞集合為TWDSetCj=POSSetCj+FSetCj。
定義3?TWDFS特征選擇算法顯示組合正向情感特征和負(fù)向情感特征,得到最終的特征集合TWDSet規(guī)則如下:
針對不平衡情感傾向性類別,每個(gè)情感類別Cj選擇出的特征集合TWDSetCj,正類情感特征和負(fù)類情感特征可以進(jìn)行顯式的組合,假設(shè)從∑Mj=1TWDSetCj選擇出k個(gè)特征,才有如下策略:
1)從正向情感類別TWDSetCPos中選擇出kPos個(gè)正向類別情感特征。
2)從負(fù)向情感類別TWDSetCNeg中選擇出kNeg=k-kPos個(gè)負(fù)向類別情感特征。
3)將上面兩步得到的特征kPos和kNeg進(jìn)行組合,其中正相關(guān)特征比例為ratio=kPos/kNeg。
4)調(diào)整ratio的大小,得到最佳的k個(gè)特征放入TWDSet。
2.2?算法描述
面向不平衡文本情感分類的三支決策特征選擇算法(TWDFS)具體步驟如下。
1)對整個(gè)文本數(shù)據(jù)集進(jìn)行LTP分詞和去停用詞等預(yù)處理,然后對文本集合進(jìn)行劃分,分為訓(xùn)練集和測試集。
2)引入兩個(gè)評(píng)價(jià)函數(shù),改進(jìn)后的TCHI特征選擇算法和MI特征選擇算法,對訓(xùn)練集文本中每個(gè)情感傾向類別,分別進(jìn)行這兩個(gè)評(píng)價(jià)函數(shù)的特征選擇操作,得到兩個(gè)訓(xùn)練集文本特征集合,算法如下。
算法1?根據(jù)兩個(gè)三支決策評(píng)價(jià)函數(shù)TCHI和MI,對訓(xùn)練集文本每個(gè)情感傾向類別Cj分別生成兩個(gè)特征集合TCHISetCj和MISetCj。
輸入?經(jīng)過文本預(yù)處理后的訓(xùn)練集TrainSet,三支決策評(píng)價(jià)函數(shù)TCHI從每個(gè)情感傾向類別篩選出的特征數(shù)k1,三支決策評(píng)價(jià)函數(shù)MI從每個(gè)情感傾向類別篩選出的特征數(shù)k2。
輸出?TCHISetCj,MISetCj。
程序前
1)
初始化。
CHI選擇出的特征候選集合:TCHISetCj=;
MI選擇出的特征候選集合:MISetCj=。
2)
對TrainSet中情感傾向類別Cj的每一條文本,根據(jù)式(3)計(jì)算每條文本中每個(gè)特征詞的特征權(quán)值,只保留特征權(quán)值大于0的特征詞,然后從中選擇最大的前k1個(gè)特征詞,將它們放入候選集合TCHISetCj中。
3)
對TrainSet中情感傾向類別Cj的每一條文本,根據(jù)式(4)計(jì)算每條文本中每個(gè)特征詞的特征權(quán)值,只保留特征權(quán)值大于0的特征詞,然后從中選擇最大的前k2個(gè)特征詞,將它們放入候選集合MISetCj中。
4)
return TCHISetCj,MISetCj。
程序后
3)由算法1對每個(gè)情感傾向類別Cj都生成了兩個(gè)特征集合,然后采用三支決策特征選擇算法對特征進(jìn)一步篩選,選擇出對類別貢獻(xiàn)較大的特征集合。算法如下:
算法2?基于三支決策的特征選擇算法。
輸入?TCHISetCj,MISetCj,從每個(gè)情感傾向邊界域BNDSetCj中篩選出的特征數(shù)k3;
輸出?三支決策特征集合TWDSet。
程序前
1)
初始化:
三支決策正域特征集合:POSSetCj=
三支決策邊界域特征集合: BNDSetCj=
滿足特征判別率的特征集合:FSetCj=
最終的特征集合:TWDSetCj=
2)
根據(jù)定義1確定三支決策特征選擇中的正域集合
tk∈SetCj,iftk∈TCHISetCjandtk∈MISetCj
tk∈POSSetCj
將滿足條件的特征詞放入POSSetCj中
3)
根據(jù)定義1確定三支決策特征選擇中的邊界域集合
tk∈SetCj
if(tk∈TCHISetCjbuttkMISetCj)or(tk∈MISetCjbuttkTCHISetCj)
將滿足條件的特征詞放入BNDSetCj中
4)
對邊界域BNDSetCj中的特征詞進(jìn)行處理:
對邊界域BNDSetCj中的特征詞根據(jù)定義2計(jì)算特征判別率F(tk),選擇特征判別率最大的k3個(gè)特征詞作為邊界域的處理結(jié)果,存入FSetCj中。
5)
將每個(gè)情感傾向類別Cj的正域集合POSSetCj和邊界域處理后的集合FSetCj合并,作為該類文本的最終特征存入TWDSetCj中。
6)
根據(jù)定義3,將每個(gè)情感類別Cj得到的TWDSetCj進(jìn)行顯式組合,最終得到三支決策特征集合TWDSet。
7)return TWDSet
程序后
4)根據(jù)算法2得到三支決策最終特征集合TWDSet,對訓(xùn)練集文本和測試集文本利用情感詞典和情感權(quán)值規(guī)則,生成訓(xùn)練集文本情感詞向量和測試集文本情感詞向量。
5)對訓(xùn)練集文本詞向量利用Logistics機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,然后對測試集文本詞向量進(jìn)行預(yù)測,最終輸出其情感傾向性類別。
綜上,面向不平衡文本情感分類的三支決策特征選擇算法整體流程如圖3所示。
3?實(shí)驗(yàn)設(shè)計(jì)和分析
3.1?數(shù)據(jù)集
本文實(shí)驗(yàn)所使用的語料庫為COAE2013中文“蒙?!蔽⒉y試數(shù)據(jù),中文情感分析語料庫,包含酒店、服裝、水果、平板、洗發(fā)水5個(gè)領(lǐng)域的評(píng)價(jià)數(shù)據(jù),從中組合正負(fù)類樣本數(shù)量構(gòu)成不平衡文本情感語料集。所有數(shù)據(jù)的詳細(xì)信息如表2所示。
表2分別列出了6個(gè)數(shù)據(jù)集中正向情感和負(fù)向情感的樣本數(shù)和特征數(shù),并計(jì)算了二者之間的傾斜度,可以看出這6組數(shù)據(jù)不僅存在樣本數(shù)量的不平衡,也存在特征的不平衡。
3.2?評(píng)估方法
本文使用采用經(jīng)典的準(zhǔn)確率P(Precision),召回率R(Recall)和F1評(píng)價(jià)指標(biāo),對于二分類問題,可將樣例根據(jù)其真實(shí)類別與學(xué)習(xí)器預(yù)測類別的組合劃分為真正例(True Positive, TP)、假正例(False Positive, FP)、真反例(True Negative, TN)和假反例(False Negative, FN)四種情形,令TP、FP、TN和FN分別表示其對應(yīng)的樣例數(shù)。計(jì)算公式如下:
P=TP/(TP+FP)(15)
R=TP/(TP+FN)(16)
F1=(2×P×R)/(P+R)(17)
其中:TP表示預(yù)測情感為正向情感同時(shí)實(shí)際情感也是正向情感的文本數(shù);FP表示預(yù)測情感為正向情感但實(shí)際情感是負(fù)向情感的文本數(shù);FN表示預(yù)測情感為負(fù)向情感但實(shí)際情感是正向情感的文本數(shù);TN表示預(yù)測情感為負(fù)向情感同時(shí)實(shí)際情感也是負(fù)向情感的文本數(shù)。
3.3?實(shí)驗(yàn)方案
本文設(shè)計(jì)了2個(gè)實(shí)驗(yàn)來驗(yàn)證TWDFS特征選擇算法的有效性。
實(shí)驗(yàn)1?驗(yàn)證TWDFS算法的特征降維效果,和TWDFS降低正向情感特征和負(fù)向情感特征在數(shù)量上傾斜度的能力。
實(shí)驗(yàn)2?將本文提出的TWDFS特征選擇算法和其他特征選擇算法進(jìn)行比較實(shí)驗(yàn)。
3.4?實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)1?三支決策評(píng)價(jià)函數(shù)TCHI從每個(gè)情感傾向類別篩選出的特征數(shù)k1,和MI分別從每個(gè)情感傾向類別篩選出的特征數(shù)k2,在本實(shí)驗(yàn)中選擇k=k1=k2。根據(jù)定義3顯式組合正類情感特征和負(fù)類情感特征比例ratio。TWDFS算法中,k和ratio對實(shí)驗(yàn)結(jié)果產(chǎn)生影響,并選擇各個(gè)特征維度下最優(yōu)的ratio。表3列出“蒙?!睌?shù)據(jù)在各個(gè)維度下F1值結(jié)果。
根據(jù)表3可以得出,TWDFS算法只使用正向情感特征(ratio=1)和只使用負(fù)向情感特征(ratio=0),在各個(gè)維度上F1值不能取得最優(yōu),在“蒙牛”數(shù)據(jù)各維度下的F1值在ratio值為0.4或0.5取得最大值,即在平衡正負(fù)類情感特征數(shù)量時(shí)F1值到最優(yōu)。這時(shí)還需要考慮特征數(shù)量對實(shí)驗(yàn)結(jié)果的影響,才能使TWDFS方法的實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)。圖4表示對不同的特征數(shù)k,TWDFS算法F1值大時(shí),最終選擇出的正向情感特征數(shù)和負(fù)向情感特征數(shù)的信息。
由表3和圖4可以得到,TWDFS在“蒙?!睌?shù)據(jù)中,三支決策評(píng)價(jià)函數(shù)TCHI和MI分別從每個(gè)情感傾向類別篩選出的1-500個(gè)特征詞時(shí),文本情感傾向性分類F1值達(dá)到最高。此時(shí)的總特征數(shù)僅為2-500維,這和數(shù)據(jù)集剛開始的數(shù)萬維特征比較得到了大幅度的下降,同時(shí)正向特征和負(fù)向特征在數(shù)量上的傾斜度得到了很大的改善。
實(shí)驗(yàn)2?為了驗(yàn)證提出的TWDFS特征選擇算法的有效性和優(yōu)越性,將其分別和王杰[4]提出的雙邊Fisher特征選擇算法(TwoSided Fisher, TSF),姚海英[20]提出的改進(jìn)的卡方統(tǒng)計(jì)量(Improved CHI Square, ICHI),李燕等[21]提出的基于Lasso的互信息(MI)特征選擇算法(LassoMI),張?jiān)奖萚22]提出的語句級(jí)增強(qiáng)情感特征選擇算法(Sentencelevel Sentiment Strengthing, SSS),傳統(tǒng)的信息增益(Information Gain, IG)特征選擇算法這五種算法進(jìn)行對比實(shí)驗(yàn),最終通過十則交叉驗(yàn)證取平均結(jié)果。
圖5表示了TWDFS特征選擇算法和其他5種特征選擇算法在“蒙?!睌?shù)據(jù)上F1值結(jié)果。可以看出,本文提出的TWDFS特征選擇算法相較于其他五種特征選擇算法在各項(xiàng)指標(biāo)上有一定的優(yōu)勢,和傳統(tǒng)的信息增益特征選擇算法IG相比,優(yōu)勢比較突出。
從表4中可以看出,在進(jìn)行對比實(shí)驗(yàn)的6個(gè)領(lǐng)域的數(shù)據(jù)集中,本文提出的TWDFS特征選擇算法相較于其他改進(jìn)的特征選擇算法,在準(zhǔn)確率、召回率和F1值個(gè)指標(biāo)上有一定的優(yōu)勢;和傳統(tǒng)特征選擇算法相比尤為突出。其中平板、水果和洗發(fā)水這三個(gè)領(lǐng)域的情感傾向性分類結(jié)果提升較為明顯,各指標(biāo)均提升了3%~6%;蒙牛、酒店和服裝這個(gè)三個(gè)領(lǐng)域情感傾向性分類結(jié)果提升較小,各指標(biāo)均提升了1.5%~3%。通過分析可以得出,提升較高的三個(gè)領(lǐng)域的數(shù)據(jù)集,它們的樣本和特征傾斜度較高,也就是正向情感類別和負(fù)向情感類別的文本和特征數(shù)量的差距較大,本文提出的TWDFS特征選擇算法可以有效地緩解正負(fù)類樣本和特征的傾斜度。這也充分證明了本文提出的TWDFS特征選擇算法在降低特征維度,緩解樣本和特征傾斜度的同時(shí),能夠有效提高情感傾向性分類的準(zhǔn)確度。
4?結(jié)語
本文針對不平衡文本情感特征分布的特點(diǎn),結(jié)合三支決策的思想,提出了一種面向不平衡文本情感分類的三支決策特征選擇算法TWDFS。有效地將兩種有監(jiān)督特征選擇算法的優(yōu)勢結(jié)合在一起,更加全面和充分地考慮了特征詞對某一個(gè)情感傾向類別的貢獻(xiàn)度,使得最終選擇出的特征詞在文本中的類間離散度達(dá)到最大,和類內(nèi)離散度達(dá)到最小,具有最佳的情感類別代表度,
同時(shí)通過顯式組合正負(fù)類情感特征數(shù)量,進(jìn)一步降低特征的不平衡度。實(shí)驗(yàn)結(jié)果證明,本文提出的TWDFS特征選擇算法能夠有效降低特征維度、文本和特征的傾斜度,同時(shí)還能提高情感傾向性分類的準(zhǔn)確度。相較于其他特征選擇算法,當(dāng)文本和特征的傾斜度較高時(shí),情感傾向性分類效果提升更加明顯;但是本實(shí)驗(yàn)僅考慮了兩個(gè)有監(jiān)督評(píng)價(jià)函數(shù)篩選出的特征詞,對于兩者均未選中的特征詞直接過濾掉了,這會(huì)導(dǎo)致部分文本信息的缺失,
并且本文在特征選擇階段,將具有情感傾向的特征詞和一般的特征詞同等看待,并未考慮具有情感傾向的特征詞對情感類別有更高的貢獻(xiàn)度。接下來的研究將重點(diǎn)考慮具有情感傾向的特征詞在情感類別中的代表度,同時(shí)考慮利用采樣算法進(jìn)一步降低文本和特征的傾斜度,以提高情感傾向性分類的準(zhǔn)確度。
參考文獻(xiàn) (References)
[1]趙立東. 面向文本情感分類的非平衡數(shù)據(jù)采樣方法研究[D]. 太原: 山西大學(xué), 2013. (ZHAO L D. Research on imbalanced data sampling methods for text sentiment classification[D]. Taiyuan: Shanxi University, 2013.)
[2]田鋒, 蘭田, CHAO KuoMing, 等. 領(lǐng)域?qū)嵗w移的交互文本非平衡情感分類方法[J]. 西安交通大學(xué)學(xué)報(bào), 2015, 49(4):67-72. (TIAN F, LAN T, CHAO KM, et al. An unbalanced emotion classification method foe interactive texts based on multipledomain instance transfer[J]. Journal of Xian Jiaotong University, 2015, 49(4):67-72.)
[3]王中卿. 基于不平衡數(shù)據(jù)的情感分類方法研究[D]. 蘇州: 蘇州大學(xué),2012. (WANG Z Q. Research on sentiment classification basedupon imbalanced data[D]. Soochow: Soochow University, 2012.)
[4]王杰, 李德玉, 王素格. 面向非平衡文本情感分類的TSF特征選擇方法[J]. 計(jì)算機(jī)科學(xué), 2016, 43(10):206-210. (WANG J, LI D Y, WANG S G. TSF feature selection method for imbalanced text sentiment classification[J]. Computer Science, 2016, 43(10):206-210.)
[5]WASIKOWSKI M, CHEN X. Combating the small sample class imbalance problem using feature selection[J]. IEEE Transactions on Knowledge & Data Engineering, 2010, 22(10):1388-1400.
[6]YIN L, GE Y, XIAO K. et al. Feature selection for highdimensional imbalanced data[J]. Neurocomputing, 2013, 105(4):3-11.
[7]YU H, WANG X, WANG G. A semisupervised threeway clustering framework for multiview data[C]// IJCRS 2017: International Joint Conference on Rough Sets. Berlin: Springer, 2017: 313-325.
[8]張梅山,鄧知龍,車萬翔,等.統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J].中文信息學(xué)報(bào), 2012, 26(2):8-12. (ZHANG M S, DENG Z L, CHE W X,et al. Combining statistical model and dictionary for domain adaption of Chinese word segmentation[J]. Journal of Chinese Information Processing, 2012, 26(2):8-12.)
[9]史慶偉, 從世源, 唐曉亮. LSI_LDA:一種混合特征降維方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2017, 34(8):2269-2273.(SHI Q W, CONG S Y, TANG X L. LSI_LDA: mixture method for feature dimensionality reduction[J]. Application Research of Computers, 2017, 34(8):2269-2273.)
[10]AL SHAMSI F, AUNG Z. Automatic patent classification by a threephase model with document frequency matrix and boosted tree[C]// Proceedings of the 2016 5th International Conference on Electronic Devices, Systems and Applications. Piscataway: IEEE, 2016: 1-4.
[11]IBRAHIM O A S, LANDASILVA D. Term frequency with average term occurrences for textual information retrieval[J]. Soft Computing, 2016, 20(8):3045-3061.
[12]CHEN K, ZHANG Z, LONG J, et al. Turning from TFIDF to TFIGM for term weighting in text classification[J]. Expert Systems with Applications: an International Journal, 2016, 66(C):245-260.
[13]毛臨川, 吳根秀, 吳恒, 等. 基于信息增益的最優(yōu)組合因子Fisher判別法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2016, 52(19):94-96. (MAO L C, WU G X, WU H, et al. Optimal combination of factor Fisher discrimination method based on information gain[J]. Computer Engineering and Applications, 2016, 52(19):94-96.)
[14]李平, 戴月明, 王艷. 基于混合卡方統(tǒng)計(jì)量與邏輯回歸的文本情感分析[J]. 計(jì)算機(jī)工程, 2017, 43(12):192-196. (LI P, DAI Y M, WANG Y. Text sentiment analysis based on hybrid chisquare statistic and logistics regression[J]. Computer Engineering, 2017, 43(12):192-196.)
[15]段宏湘, 張秋余, 張墨逸. 基于歸一化互信息的FCBF特征選擇算法[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 45(1):52-56.(DUAN H X, ZHANG Q Y, ZHANG M Y. FCBF algorithm based on normalized mutual information for feature selection[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2017, 45(1):52-56.)
[16]張輝宜, 謝業(yè)名, 袁志祥, 等. 一種基于概率的卡方特征選擇方法[J]. 計(jì)算機(jī)工程, 2016, 42(8):194-198.(ZHANG H Y, XIE Y M, YUAN Z X, et al. A method of CHIsquare feature selection based on probability[J]. Computer Engineering, 2016, 42(8):194-198.)
[17]王晨曦, 林耀進(jìn), 劉景華, 等. 基于最近鄰互信息的特征選擇算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2016, 52(18):74-78. (WANG C X, LIN Y J, LIU J H, et al. Feature selection algorithm based on nearestneighbor mutual information[J]. Computer Engineering and Applications, 2016, 52(18):74-78.)
[18]吳金源, 冀俊忠, 趙學(xué)武, 等. 基于特征選擇技術(shù)的情感詞權(quán)重計(jì)算[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2016, 42(1):142-151. (WU J Y, JI J Z, ZHAO X W, et al. Weight calculation of emotional word based on feature selection technique[J]. Journal of Beijing University of Technology, 2016, 42(1):142-151.)
[19]YAO Y. The superiority of threeway decisions in probabilistic rough set models[J]. Information Sciences, 2011, 181(6):1080-1096.
[20]姚海英. 中文文本分類中卡方統(tǒng)計(jì)特征選擇方法和TFIDF權(quán)重計(jì)算方法的研究[D].長春: 吉林大學(xué), 2016. (YAO H Y. Research on chisquare statistic feature selection method and TFIDF feature weighting method for chinese text classification[D]. Changchun: Jilin University, 2016.)
[21]李燕, 衛(wèi)志華, 徐凱. 基于Lasso算法的中文情感混合特征選擇方法研究[J]. 計(jì)算機(jī)科學(xué), 2018, 45(1):39-46. (LI Y, WEI Z H, XU K. Hybrid feature selection method of chinese emotional characteristics based on Lasso algorithm[J]. Computer Science, 2018, 45(1):39-46.)
[22]張?jiān)奖鐘Z謙,張志飛.基于三支決策的多粒度文本情感分類模型[J].計(jì)算機(jī)科學(xué), 2017, 44(12):188-193. (ZHANG Y B, MIAO D Q, ZHANG Z F. Multigranularity text sentiment classification model based on threeway decisions[J]. Computer Science, 2017, 44(12):188-193.)
This work is partially supported by the National Key Research and Development Program of China (2018YFC0832100, 2018YFC0832102), the National Natural Science Foundation of China (61751312, 61533020, 61309014), the Chongqing Research Program of Basic Research and Frontier Technology (cstc2017jcyjAX0408).
WAN Zhichao, born in 1995, M. S. candidate. His research interests include nature language processing, machine learning.
HU Feng, born in 1978, Ph. D., professor. His research interests include rough set, data mining.
DENG Weibin, born in 1978, Ph. D., professor. His research interests include decision making under uncertainty.