吳金源,冀俊忠,趙學(xué)武,2,吳晨生,杜芳華
(1.北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院多媒體與智能軟件技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124;2.南陽(yáng)師范學(xué)院軟件學(xué)院,河南南陽(yáng) 473061;3.北京市科學(xué)技術(shù)情報(bào)研究所,北京 100048)
基于特征選擇技術(shù)的情感詞權(quán)重計(jì)算
吳金源1,冀俊忠1,趙學(xué)武1,2,吳晨生3,杜芳華1
(1.北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院多媒體與智能軟件技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100124;2.南陽(yáng)師范學(xué)院軟件學(xué)院,河南南陽(yáng) 473061;3.北京市科學(xué)技術(shù)情報(bào)研究所,北京 100048)
在文本情感分析中,情感詞典的構(gòu)建至關(guān)重要,然而目前這方面的研究大多集中在簡(jiǎn)單的詞語(yǔ)極性判別上,有關(guān)情感詞的權(quán)重賦值研究較少,且已有的權(quán)重賦值方法基本上都需要人工輔助來(lái)選取基準(zhǔn)詞,這給實(shí)際應(yīng)用帶來(lái)很大的困難.針對(duì)此問(wèn)題,提出了一種自動(dòng)的基于特征選擇技術(shù)的情感詞權(quán)重計(jì)算方法.首先提出了詞語(yǔ)情感權(quán)重與文本情感傾向的相關(guān)假設(shè);然后針對(duì)情感分類,結(jié)合二元分類的特性改進(jìn)了信息增益(information gain,IG)和卡方統(tǒng)計(jì)量(chi-square,CHI),將特征選擇技術(shù)應(yīng)用于情感詞權(quán)重計(jì)算.實(shí)驗(yàn)結(jié)果表明:將計(jì)算所得的帶情感權(quán)重的情感詞庫(kù)用于文本情感分類能夠提升分類精度.
文本情感分類;情感詞典構(gòu)建;特征選擇;權(quán)重計(jì)算
當(dāng)今越來(lái)越多的網(wǎng)民喜歡在各種網(wǎng)絡(luò)平臺(tái)上發(fā)表言論,對(duì)商品、電影、新聞事件等表達(dá)主觀看法,言論中包含的信息量越來(lái)越大.這些評(píng)論中包含了諸如肯定或是否定的情感信息,其中蘊(yùn)涵著一些潛在價(jià)值.面對(duì)這樣的情感文本信息,基于主題的傳統(tǒng)分類技術(shù)已不能有效地對(duì)其進(jìn)行挖掘,于是情感分析(sentiment analysis)應(yīng)運(yùn)而生了.
文本情感分類是情感分析的一個(gè)研究熱點(diǎn),它將傾向積極、肯定和贊揚(yáng)等正面的文本看作正例,將傾向消極、否定和批評(píng)等負(fù)面的文本看作負(fù)例,對(duì)于詞語(yǔ)的情感判別同樣如此.文本情感分類的主要研究途徑有2種[1]:基于情感信息統(tǒng)計(jì)的分類和基于機(jī)器學(xué)習(xí)的分類.無(wú)論采用哪種途徑,由于文本組成的最小粒度是詞,因此充分利用詞語(yǔ)的情感極性信息對(duì)提高文本情感分類精確度至關(guān)重要.可見,情感詞典構(gòu)建是一個(gè)相當(dāng)基礎(chǔ)而且重要的工作.目前有關(guān)情感詞庫(kù)構(gòu)建的研究比較多,研究的思路主要有3種.
一是基于語(yǔ)料的方法.該方法主要是基于一個(gè)大的語(yǔ)料庫(kù),對(duì)詞語(yǔ)進(jìn)行統(tǒng)計(jì)分析,從而挖掘出詞的極性特征.具體的流程是:首先根據(jù)人工判定的一些正面詞和負(fù)面詞來(lái)設(shè)置一些基準(zhǔn)詞;然后基于充分大的語(yǔ)料或者是網(wǎng)絡(luò)搜索引擎,統(tǒng)計(jì)非基準(zhǔn)詞和基準(zhǔn)詞的共現(xiàn)信息并計(jì)算它們的相似度;最后根據(jù)相似度判別一個(gè)詞的正負(fù)極性.點(diǎn)互信息(point mutual information,PMI)[2]是其相似度計(jì)算的最經(jīng)典的方法.例如,朱嫣嵐等[3]通過(guò)計(jì)算待定詞匯和HowNet中已標(biāo)注正負(fù)極性的詞匯間的相似度來(lái)確定待定詞匯的極性.徐琳宏等[4]構(gòu)建的中文情感詞匯本體庫(kù)[4]基于PMI計(jì)算詞語(yǔ)的情感程度.該方法首先人工選取一些帶情感程度(分為5個(gè)等級(jí))的基準(zhǔn)詞,然后基于語(yǔ)料集計(jì)算待定詞和每個(gè)基準(zhǔn)詞的PMI值,將其中與之互信息PMI值最大的基準(zhǔn)詞的程度作為待定詞的情感程度.
二是基于語(yǔ)義詞典的方法[5].它以現(xiàn)有的語(yǔ)義詞典(中文主要是HowNet和同義詞林,英文主要采用WordNet)為基礎(chǔ),先利用同義詞等信息計(jì)算詞語(yǔ)之間的相似度,再判別詞語(yǔ)的正負(fù)極性.如柳位平等[6]以HowNet情感詞語(yǔ)集為基準(zhǔn),從中選取褒貶明顯的詞作為基準(zhǔn)詞,采用知網(wǎng)的語(yǔ)意相似度計(jì)算公式計(jì)算待定詞匯和基準(zhǔn)詞之間的相似度,從而確定詞語(yǔ)的極性和權(quán)重.Esuli等[7-8]利用WordNet語(yǔ)言資源,定量分析確定了每個(gè)詞在不同注釋下的正負(fù)情感及權(quán)值,構(gòu)建了情感詞典SentiWordnet.
三是結(jié)合前2種思路的混合方法.如周詠梅等[9]提出了一個(gè)SLHS構(gòu)建過(guò)程,首先收集并整理幾個(gè)常用的情感詞庫(kù);其次利用HowNet獲取中文情感詞的英文詞語(yǔ)義元組,并通過(guò)文獻(xiàn)[7]構(gòu)建的SentiWordNet查詢每個(gè)英文義元的同義詞集合;然后求取這些同義詞集合的平均情感程度,作為每個(gè)義元的情感權(quán)重;最后計(jì)算每個(gè)中文情感詞對(duì)應(yīng)的義元組的平均權(quán)重,即得到了最終的中文情感詞的情感權(quán)重.
上面的方法大都是需要人工選取基準(zhǔn)詞和賦權(quán)值,結(jié)果不具有穩(wěn)定性,而且沒(méi)有充分利用訓(xùn)練集文本的情感信息.常用的基于統(tǒng)計(jì)的特征選擇方法一般會(huì)對(duì)特征進(jìn)行評(píng)價(jià)和排序,以反映特征的重要程度.因此,文本提出了一種不需要設(shè)置基準(zhǔn)詞,基于特征選擇技術(shù)的情感詞權(quán)重計(jì)算方法.在分析情感詞情感程度與文本情感傾向關(guān)系的基礎(chǔ)上,針對(duì)情感分類對(duì)特征選擇方法信息增益(information gain,IG)和卡方統(tǒng)計(jì)量(chi-square,CHI)作了一些改進(jìn),并將之應(yīng)用于情感詞權(quán)重計(jì)算.最后的實(shí)驗(yàn)結(jié)果表明,利用此方法計(jì)算所得的帶情感權(quán)重的情感詞庫(kù)有利于情感分類,能夠提升分類精度,因此文中提出的方法是合理有效的.
1.1特征選擇方法
特征選擇是一種常用的維數(shù)約減方法,它根據(jù)特征的重要度從原始特征集中選取最重要的特征,是文本分類的一個(gè)預(yù)處理過(guò)程.為了介紹方便約定如下符號(hào):t為特征;{c1,…,ci,…,ck}為類別集合;k為訓(xùn)練集的類別數(shù);A為出現(xiàn)特征t且屬于類別ci的文檔數(shù);B為出現(xiàn)特征t但不屬于類別ci的文檔數(shù);C為不出現(xiàn)特征t但屬于類別ci的文檔數(shù);D為不出現(xiàn)特征t且不屬于類別ci的文檔數(shù);N為訓(xùn)練集中總的文檔數(shù),N=A+B+C+D.
1.1.1文檔頻率
文檔頻率(document frequency,DF)[10]方法的基本思想是:統(tǒng)計(jì)計(jì)算每個(gè)詞的文檔頻率值,根據(jù)預(yù)先設(shè)定最小文檔頻率值和最大文檔頻率值來(lái)去除和保留特征,如果特征t的文檔頻率值在最小和最大閾值之間,則保留t,否則去掉.
這種方法實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單,適用于大規(guī)模數(shù)據(jù)集,但是最小閾值可能設(shè)定得不合理,并且低頻詞不全是噪音詞,導(dǎo)致一些包含類別信息的重要特征被去除,會(huì)影響分類性能.
1.1.2信息增益(IG)
IG[11]能夠度量特征包含類別信息的多少,一個(gè)特征詞的信息增益為該特征出現(xiàn)前后的信息熵之差,通常會(huì)對(duì)某一文檔、類別或是整個(gè)數(shù)據(jù)集來(lái)計(jì)算.根據(jù)IG方法的定義,特征的信息增益越大,表示該特征對(duì)于分類越重要.
針對(duì)某個(gè)具體的類別ci,特征t的信息增益為
1.1.3卡方統(tǒng)計(jì)量(CHI)
CHI[10]能表征2個(gè)變量間的相關(guān)性,兼顧特征存在與不存在時(shí)的情況.根據(jù)CHI的定義可知,特征與類別的CHI值越大,這個(gè)特征就越重要.
對(duì)于某個(gè)具體類別ci,特征t的CHI統(tǒng)計(jì)值為
特征t對(duì)于整個(gè)訓(xùn)練集的CHI值的計(jì)算方式有2種:根據(jù)特征與每個(gè)類別的CHI值,一是計(jì)算其與所有類別的加權(quán)平均值,二是計(jì)算其最大值.2種計(jì)算公式為
基于統(tǒng)計(jì)的特征選擇方法還有很多,如互信息(mutual information,MI)、期望交叉熵(expected cross entropy,ECE)、幾率比(odds ratio,OR)和基尼指數(shù)等.
1.2情感詞典構(gòu)建方法
1.2.1基于語(yǔ)料庫(kù)的方法
這里主要介紹基于PMI的方法,它是一種經(jīng)典的利用語(yǔ)料庫(kù)的方法.互信息能夠刻畫2個(gè)變量之間的相關(guān)性,假設(shè)有2個(gè)特征word1和word2,它們之間也可以計(jì)算互信息值,此時(shí)稱為點(diǎn)間互信息,記為PMI(word1,word2),計(jì)算公式為
其中:P(word1)和P(word2)分別是word1和word2單獨(dú)出現(xiàn)的概率;P(word1&word2)是詞語(yǔ)word1和word2共同出現(xiàn)的概率.PMI(word1,word2)越大,word1和word2相關(guān)性越強(qiáng).基于PMI計(jì)算并判別詞語(yǔ)極性的方法稱為語(yǔ)義取向點(diǎn)互信息(semantic orientation point mutual information,SOPMI).該方法首先從詞庫(kù)中選取一些有代表性的詞作為基準(zhǔn)詞,其中包含等數(shù)量的n個(gè)正面詞poswords(詞語(yǔ)記為Pwordi,i∈[1,n])和n個(gè)負(fù)面詞negwords(詞語(yǔ)記為Nwordi,i∈[1,n]).
對(duì)于一個(gè)特征詞 word,它的 SO-PMI計(jì)算公式為
詞語(yǔ)的極性判定規(guī)定如下:
SO-PMI(word)>0時(shí),詞語(yǔ)word為正面詞;
SO-PMI(word)=0時(shí),詞語(yǔ)word為中性詞;
SO-PMI(word)<0時(shí),詞語(yǔ)word為負(fù)面詞.
此外,詞語(yǔ)的SO-PMI值還常被用于度量情感詞的情感程度.
1.2.2基于語(yǔ)義詞典的方法
基于HowNet的詞語(yǔ)極性判別方法是一種基于電子詞典的方法,同上面的方法類似,也是計(jì)算特征詞與基準(zhǔn)詞之間的相似度來(lái)判別極性.不同的是,基于PMI的方法是基于語(yǔ)料統(tǒng)計(jì)詞語(yǔ)共現(xiàn)來(lái)計(jì)算的,而此方法是基于一個(gè)現(xiàn)有的語(yǔ)義詞典來(lái)實(shí)現(xiàn)的.知網(wǎng)是清華大學(xué)創(chuàng)建的一個(gè)很大的知識(shí)體系,在2007年開始發(fā)布“情感分析用詞語(yǔ)集beta版”,總共有17 887個(gè)詞.這個(gè)詞典被廣泛應(yīng)用于情感分析工作.
WordNet是一種基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典,按照單詞的意義組成了一個(gè)“單詞的網(wǎng)絡(luò)”,是一個(gè)覆蓋范圍寬廣的英語(yǔ)詞匯語(yǔ)義網(wǎng).名詞、動(dòng)詞、形容詞和副詞各自被組織成一個(gè)同義詞的網(wǎng)絡(luò),每個(gè)同義詞集合都代表一個(gè)基本的語(yǔ)義概念,并且這些集合之間也由各種關(guān)系連接.
1.3文本情感分類算法
1.3.1簡(jiǎn)單的情感分類方法
簡(jiǎn)單的基于情感詞極性累加的方法(naive andsentiment words polarity accumulation based algorithm,NP),是一種無(wú)監(jiān)督的方法,其主要思想是:首先依據(jù)已有的情感詞庫(kù)對(duì)測(cè)試文本進(jìn)行分詞處理,文本用詞組成的向量來(lái)表示.
假設(shè)文本為d,詞為wordi,那么d=(word1,…,wordi,…,wordh),詞的正負(fù)極性值為Valuei∈{1,-1}.一個(gè)詞的極性值為1,表示詞為正面詞,否則相反.文本d的傾向函數(shù)f定義為
文本的極性判定規(guī)定如下:
f(d)>0時(shí),文本d為正例;
f(d)≤0時(shí),文本d為負(fù)例.
1.3.2樸素貝葉斯情感分類算法
樸素貝葉斯情感分類算法(naive Bayesian cate gorization algorithm,NB)[12]是一種依賴訓(xùn)練集的方法.該方法利用情感詞在正向和負(fù)向類訓(xùn)練語(yǔ)料中出現(xiàn)的頻率作為情感詞出現(xiàn)的概率,最后用最大后驗(yàn)概率確定待判別文檔的極性.
假設(shè) d為帶判別文檔,d由特征詞{t1,…,tj,…,th}組成.根據(jù)貝葉斯準(zhǔn)則可以得到文檔d屬于類別ci的后驗(yàn)概率為
式中:ci∈{+,-};+表示正向類別;-表示負(fù)向類別;P(ci)為類別ci文檔數(shù)占訓(xùn)練集的比例.對(duì)于每個(gè)類別,P(d)在式(9)中是一個(gè)定值,關(guān)鍵在于P(d| ci)的計(jì)算.為了簡(jiǎn)化計(jì)算,該方法假定每個(gè)特征對(duì)分類的影響?yīng)毩⒂谄渌卣?,所?P(d|ci)=可以采用下面的公式進(jìn)行估算:
依次計(jì)算文檔d屬于每個(gè)類別的概率,那么依據(jù)貝葉斯決策理論可以確定文檔d所屬的類別為
目前,對(duì)于情感詞典構(gòu)建的研究主要局限在簡(jiǎn)單的詞語(yǔ)極性判別,即只將情感詞判別為正面詞(褒義詞)或者是負(fù)面詞(貶義詞).為了更好地利用情感詞進(jìn)行情感分析,在獲得詞庫(kù)后可以采取一些方法給情感詞賦權(quán)重以描述它們的情感程度.文獻(xiàn)[4]等情感詞權(quán)重的計(jì)算依賴于基準(zhǔn)詞,權(quán)重計(jì)算的準(zhǔn)確度受限于基準(zhǔn)詞的選擇及基準(zhǔn)詞情感程度的設(shè)定,并且這種只利用詞語(yǔ)的共現(xiàn)信息存在不足.情感語(yǔ)料庫(kù)訓(xùn)練集包含的文本都具有正負(fù)類別信息,這些信息對(duì)于情感詞的情感程度確定也是非常有益的.
因此,本文提出一種自動(dòng)獲取詞語(yǔ)情感程度的方法,此方法不再需要人工設(shè)定基準(zhǔn)詞,而是充分利用語(yǔ)料的情感類別信息,這樣獲得的情感權(quán)重更適用于文本的情感分類.詞庫(kù)采用臺(tái)灣大學(xué)的NTUSD極性情感詞庫(kù).下面首先提出情感詞情感權(quán)重與文本情感傾向的相關(guān)假設(shè),然后結(jié)合分析一些經(jīng)典的特征選擇方法,將特征選擇技術(shù)拓展應(yīng)用到情感詞的權(quán)重賦值上.應(yīng)用特征選擇技術(shù)給情感詞賦權(quán)重的流程如圖1所示.
2.1詞語(yǔ)情感權(quán)重與文本情感傾向的相關(guān)假設(shè)
對(duì)于一個(gè)富含情感信息的文本進(jìn)行情感分析時(shí)一般會(huì)重點(diǎn)關(guān)注情感詞.這些情感詞不只是具有正面或者負(fù)面這2種特性,它們還具有不同的情感程度.例如,“很好”和“還行”這2個(gè)詞的褒義程度就不一樣,如果它們分別出現(xiàn)在2個(gè)商品評(píng)價(jià)信息中,出現(xiàn)“很好”的評(píng)論是正面評(píng)價(jià)的可能性會(huì)很大,而出現(xiàn)“還行”的評(píng)價(jià)是正面評(píng)價(jià)的可能性就沒(méi)那么大了.因此,情感詞的情感權(quán)重(代表情感程度)對(duì)文本情感分類也非常重要.普遍認(rèn)同下面的假設(shè),可以稱之為詞語(yǔ)情感權(quán)重與文本情感傾向的相關(guān)假設(shè):
1)含有高權(quán)重正面詞的文本比含有低權(quán)重正面詞的文本屬于正例的概率要大;
2)含有高權(quán)重負(fù)面詞的文本比含有低權(quán)重負(fù)面詞的文本屬于負(fù)例的概率要大.
情感詞的情感程度可以由人工設(shè)定,但是人的精力有限,每個(gè)人對(duì)這種強(qiáng)弱程度的判斷也存在偏差,而且在不同的語(yǔ)境中一個(gè)詞的權(quán)重往往是變化的,所以人工設(shè)定情感詞的權(quán)重值的方法存在缺陷,不利于情感分類.
特征選擇作為文本分類的一個(gè)預(yù)處理過(guò)程,可以用來(lái)刻畫一個(gè)特征對(duì)于分類的重要程度.對(duì)于文本情感分類,可以將其看成二元分類:正面類和負(fù)面類.類似地,可以基于特征選擇函數(shù)計(jì)算特征與正負(fù)類別的相關(guān)度,以此來(lái)度量情感詞的情感權(quán)重.
如果對(duì)于正例類別,2個(gè)正面詞word1和word2經(jīng)過(guò)特征選擇函數(shù)的計(jì)算得到的值分別為value1和value2,文本a中有詞word1,文本b中有詞word2,若value1>value2,且只考慮這2個(gè)詞對(duì)a和b的類別判定,則a比b屬于正面類別即正例的概率要大.這種認(rèn)識(shí)和上面的假設(shè)非常契合,因此,情感詞的特征選擇函數(shù)值的大小能夠反映情感詞的情感程度強(qiáng)弱.
2.2基于IG的情感詞權(quán)重計(jì)算
特征對(duì)于某個(gè)類別的信息增益值可以度量特征包含該類別信息的多少.計(jì)算一個(gè)特征對(duì)于訓(xùn)練集的信息增益公式如式(2)所示,它計(jì)算并匯總了特征與所有類別的信息增益值,適合于多元分類.而情感分類中一般只有正類和負(fù)類2個(gè)類別,因此需要對(duì)傳統(tǒng)的IG方法進(jìn)行一些改進(jìn).
1)不再計(jì)算特征與所有類別的特征選擇函數(shù)值,只注重特征與目標(biāo)類別的關(guān)系,這樣更適用于情感分類這樣的二元分類.
2)情感詞庫(kù)分為正面情感詞庫(kù)和負(fù)面情感詞庫(kù),分別計(jì)算正面特征對(duì)于訓(xùn)練集中正例類別的信息增益值和負(fù)面特征對(duì)于訓(xùn)練集中負(fù)例類別的信息增益值.
假設(shè)正面詞庫(kù)為 tPos,包含的特征詞為{tP1,tP2,…,tPi,…,tPm},負(fù)面詞庫(kù)為tNeg,包含的特征詞為{tN1,tN2,…,tNi,…,tNn};正負(fù)類別分別為c+,c-.那么正面詞tP和負(fù)面詞tN的信息增益計(jì)算公式為
計(jì)算完每個(gè)特征對(duì)目標(biāo)類別的信息增益值后,將正面詞庫(kù)和負(fù)面詞庫(kù)中的詞按照信息增益值從大到小排序.依據(jù)前面的介紹,需要給信息增益值大的特征賦予較大的權(quán)重,信息增益值較小的詞賦予較小的權(quán)重.因此,可以根據(jù)排序后情感詞的位置前后衡量詞的情感程度.假設(shè)正面詞庫(kù)有m個(gè)詞,負(fù)面詞庫(kù)有n個(gè)詞,正面情感詞的權(quán)重范圍設(shè)定為0~10,負(fù)面詞的權(quán)重范圍為-10~0,那么正面詞庫(kù)中信息增益值排名(排名從1開始)為i的正面詞tPi和負(fù)面詞庫(kù)中信息增益值排名為j的負(fù)面詞tNj的權(quán)重W的計(jì)算公式為
2.3基于CHI的情感詞權(quán)重計(jì)算
卡方統(tǒng)計(jì)也是一種經(jīng)典的特征選擇方法,特征和類別的卡方統(tǒng)計(jì)量可以表征它們之間的相關(guān)性.在式(3)中,當(dāng)AD-BC≤0時(shí)代表特征和類別負(fù)相關(guān)[13].在考慮正面詞對(duì)正面類別時(shí),當(dāng)出現(xiàn)負(fù)相關(guān)情況時(shí),卡方統(tǒng)計(jì)值度量文本包含該特征時(shí)不屬于正面類別的概率,這與正面詞在正面類別文本中的作用是相違背的,所以這種負(fù)相關(guān)程度越大,卡方統(tǒng)計(jì)值應(yīng)越小.考慮負(fù)面詞對(duì)負(fù)面類別亦是如此.所以需要對(duì)CHI方法進(jìn)行改進(jìn).仍然是將正面特征和負(fù)面特征分開計(jì)算,改進(jìn)后的公式為
在采用改進(jìn)的CHI進(jìn)行特征選擇后,余下的步驟同2.2節(jié).
2.4融入情感權(quán)重的情感分類算法
前面1.3節(jié)介紹了2種情感分類算法NP和NB,本節(jié)將基于這2種算法,融入情感權(quán)重信息形成新的情感分類算法NP-W和NB-W,這2種方法將被用于測(cè)試情感權(quán)重的有效性.
2.4.1NP-W算法
將情感權(quán)重信息融入NP方法后,不再利用詞的極性信息,而是利用權(quán)重信息Wi.那么,文本d的情感傾向計(jì)算函數(shù)f'(d)為
同樣,文本的極性判定規(guī)定為:f(d)>0時(shí),文本d為正例;f(d)≤0時(shí),文本d為負(fù)例.
2.4.2NB-W算法
將情感權(quán)重信息融入NB方法后,P(d|ci)的計(jì)算公式為
式中 ci∈{+,-}.文本的極性判定規(guī)定如下:P(+|d)>P(-|d)時(shí),d屬于正例;P(-|d)>P(+|d)時(shí),d屬于負(fù)例.
3.1實(shí)驗(yàn)設(shè)計(jì)
特征選擇是文本分類的一個(gè)重要的預(yù)處理過(guò)程,能夠?qū)Ω呔S數(shù)據(jù)進(jìn)行有效的維數(shù)約簡(jiǎn).不僅如此,它還可以計(jì)算特征對(duì)于分類的重要程度.本實(shí)驗(yàn)擬基于特征選擇技術(shù)設(shè)計(jì)一種情感詞的情感權(quán)重計(jì)算方法,具體的實(shí)驗(yàn)流程如圖2所示.
1)利用情感分類的訓(xùn)練文本集和已有的極性情感詞庫(kù)(詞的正負(fù)極性確定,但是無(wú)權(quán)重),基于特征選擇技術(shù)給訓(xùn)練集中出現(xiàn)的情感詞賦權(quán)重,生成一個(gè)帶權(quán)重的情感詞庫(kù).
2)為了測(cè)試權(quán)重的有效性,可以將權(quán)重信息融入現(xiàn)有的一些文本情感分類方法,通過(guò)實(shí)驗(yàn)分析其效果.
為了驗(yàn)證基于特征選擇技術(shù)的權(quán)重賦值的方法的有效性,實(shí)驗(yàn)中特征選擇方法有3種:DF特征選擇方法、2.2節(jié)設(shè)計(jì)的基于IG改進(jìn)的方法和2.3節(jié)基于CHI改進(jìn)的方法.DF特征選擇方法相對(duì)比較簡(jiǎn)單,是一種不太精確的特征選擇方法,相對(duì)來(lái)說(shuō)IG和CHI對(duì)特征的重要程度衡量比較準(zhǔn)確.根據(jù)前面的假設(shè)理論,更好的特征選擇方法給情感詞賦的權(quán)重更準(zhǔn)確,那么將之用于情感分類得到的分類效果也就越好.
實(shí)驗(yàn)的測(cè)試部分,會(huì)選取1.3節(jié)和2.4節(jié)中的情感分類算法.依據(jù)融入權(quán)重信息前后分類方法的效果對(duì)比,驗(yàn)證基于特征選擇技術(shù)所賦的權(quán)重的合理性和有效性.
3.2數(shù)據(jù)集
情感詞庫(kù)采用比較權(quán)威的NTUSD極性情感詞庫(kù).情感分類語(yǔ)料采用的是中科院譚松波博士收集整理的一個(gè)較大規(guī)模的實(shí)際商品評(píng)價(jià)語(yǔ)料,包括5個(gè)數(shù)據(jù)源,分別是從當(dāng)當(dāng)和京東獲取的書籍評(píng)論,從攜程獲取的酒店評(píng)論,以及從淘寶和京東獲取的電腦評(píng)論.每個(gè)數(shù)據(jù)源包含正負(fù)文本各2 000篇,分別隨機(jī)選取200篇作為測(cè)試集,其余的作為訓(xùn)練集.基于NTUSD情感詞庫(kù)對(duì)訓(xùn)練集中的文本進(jìn)行分詞處理,最后得到了包含1 420個(gè)正面詞和2 493個(gè)負(fù)面詞的有效詞典.需要對(duì)這些總共為3 913個(gè)情感詞進(jìn)行權(quán)重賦值.
3.3性能評(píng)價(jià)指標(biāo)
正確率P、召回率R和F1值3種度量已被廣泛用于分類效果評(píng)價(jià)[1].對(duì)于類別ci∈{+,-},它們的計(jì)算公式為
式中:bi是測(cè)試集中ci類的文檔數(shù);ai是其中被正確判斷為ci類的文檔數(shù);di是應(yīng)屬于ci類的文檔數(shù).F1值綜合考慮了正確率和召回率,能更全面地反映分類效果的優(yōu)劣.因此,本實(shí)驗(yàn)將采用F1值來(lái)評(píng)價(jià)情感分類的效果,結(jié)果分析中會(huì)給出5個(gè)單獨(dú)數(shù)據(jù)集以及整個(gè)數(shù)據(jù)集的F1測(cè)度,包括正類F1值、負(fù)類F1值和平均F1值.
3.4實(shí)驗(yàn)結(jié)果與分析
情感詞的權(quán)重計(jì)算分別采用了DF、改進(jìn)的IG 和CHI三種方法,生成了3個(gè)不同的帶權(quán)重的情感詞庫(kù).
3.4.1NP和NP-W實(shí)驗(yàn)對(duì)比
表1給出了NP和融入權(quán)重信息后的NP-W兩種方法的實(shí)驗(yàn)結(jié)果.NP-W(DF)表示采用的詞庫(kù)是用DF特征選擇方法計(jì)算生成的,NP-W(IG)和NPW(CHI)對(duì)應(yīng)的帶權(quán)重的情感詞庫(kù)為改進(jìn)的IG和CHI分別計(jì)算得到的.每個(gè)數(shù)據(jù)源分別給出了負(fù)類和正類的分類準(zhǔn)確率P、召回率R和F1測(cè)度.例如,當(dāng)當(dāng)書籍?dāng)?shù)據(jù)集用NP算法分類,負(fù)類的準(zhǔn)確率、召回率和 F1測(cè)度分別為0.758 1、0.815和0.785 5,正類的準(zhǔn)確率、召回率和F1測(cè)度分別為0.800 0、0.740 0和0.768 8.
從表1可以看出,NP-W(IG)和NP-W(CHI)方法的效果明顯好于NP,NP-W(DF)的效果比NP較好,但是提升的效果不如NP-W(IG)和NP-W(CHI)那么顯著.
表1 NP和NP-W的情感分類結(jié)果Table 1 Sentiment classification results of NP and NP-W
圖3顯示了各種方法在5個(gè)數(shù)據(jù)集上的效果F1測(cè)度.圖3(a)顯示的是負(fù)類上的結(jié)果,圖3(b)顯示的是正類上的結(jié)果.從柱狀圖不難發(fā)現(xiàn),無(wú)論是哪個(gè)數(shù)據(jù)集,也無(wú)論是正類還是負(fù)類,NP-W(IG)和NP-W(CHI)方法的F1值都明顯地大于NP方法的F1值,這充分說(shuō)明了采用改進(jìn)的IG和CHI方法給情感詞庫(kù)賦權(quán)重的合理性.
在負(fù)類上NP-W(DF)和原始的NP的效果接近,在正類上NP-W(DF)的效果雖然優(yōu)于NP,但是卻比NP-W(IG)和NP-W(CHI)差了不少,主要有2個(gè)原因:首先,DF特征選擇方法本身不如 IG和CHI,與針對(duì)情感分類進(jìn)行改進(jìn)的IG和CHI相差就更遠(yuǎn),導(dǎo)致賦予特征的權(quán)重不夠準(zhǔn)確,所以效果不理想.其次,對(duì)于一個(gè)情感文本,NP方法通過(guò)簡(jiǎn)單地比較正負(fù)特征的多少來(lái)判別類別,而數(shù)據(jù)集中正面詞比負(fù)面詞少(正面詞1 420個(gè)和負(fù)面詞2 493個(gè)),因此NP方法較其他方法更傾向于負(fù)類,導(dǎo)致NP在正類上的效果很差,這是不合理的.
圖4顯示了上面4種方法在數(shù)據(jù)集正負(fù)類上的平均F1測(cè)度結(jié)果.平均F1值是計(jì)算負(fù)類和正類F1值的平均值.從圖4可以看出,融合權(quán)重后,無(wú)論是在5個(gè)單獨(dú)的數(shù)據(jù)集上,還是在整個(gè)數(shù)據(jù)集上,都能提升情感分類的效果.NP-W(IG)和NP-W(CHI)依舊取得最好的效果,NP-W(DF)的平均F1值也總是高于NP,這表明了NP-W(DF)雖然在負(fù)類上沒(méi)提高多少效果,但是整體上卻有較為明顯的提高.
3.4.2NB和NB-W結(jié)果分析
表2給出了NB和融入權(quán)重信息后的NB-W兩種方法的實(shí)驗(yàn)結(jié)果.從表2可以看出,基于樸素貝葉斯的情感分類方法相比前面簡(jiǎn)單的情感詞統(tǒng)計(jì)方法效果要好很多,尤其是其正類和負(fù)類的分類效果接近,說(shuō)明該方法沒(méi)有類別傾向性,算法的設(shè)計(jì)比較合理.式(10)中P(tj|ci)也同樣計(jì)算了特征詞在各類別中的出現(xiàn)概率,相當(dāng)于也給特征賦了一個(gè)權(quán)值,因此效果相比NP有所提升.融入權(quán)重信息后,效果也都得到了提升,再次說(shuō)明了特征選擇技術(shù)能夠有效地應(yīng)用于情感詞權(quán)重計(jì)算.
圖5顯示了基于NB的4種方法在5個(gè)數(shù)據(jù)集上的F1測(cè)度結(jié)果.NB-W(DF)方法在正類上的效果較差,主要原因是DF特征選擇方法傾向于高頻詞,而數(shù)據(jù)集中負(fù)面詞較多,所以經(jīng)過(guò)DF特征選擇計(jì)算后,負(fù)面詞的權(quán)重賦值相對(duì)較大,因此會(huì)在一定程度傾向于負(fù)類.不難發(fā)現(xiàn),NB-W(DF)方法在負(fù)類上的效果比NB方法好一些,也是該方法傾向于負(fù)類的一個(gè)表現(xiàn).
圖6為4種方法在數(shù)據(jù)集正負(fù)類上的平均F1測(cè)度結(jié)果,在整個(gè)數(shù)據(jù)集上NB-W(DF)方法的平均F1值接近NB方法,NB-W(IG)和NB-W(CHI)相對(duì)NB方法提升了3%,效果較為明顯.
表2 NB和NB-W的情感分類結(jié)果Table 2 Sentiment classification results of NB and NB-W
1)將特征選擇技術(shù)拓展應(yīng)用于情感詞的權(quán)重計(jì)算,從而能夠構(gòu)建帶情感權(quán)重的情感詞庫(kù).實(shí)驗(yàn)結(jié)果表明:該方法是合理有效的,不僅能實(shí)現(xiàn)情感詞權(quán)重的自動(dòng)計(jì)算,而且將計(jì)算所得的帶情感權(quán)重的情感詞庫(kù)用于文本情感分類,能夠有效提升分類精度.
2)文中改進(jìn)的IG和CHI可能不是最適合的特征選擇方法,未來(lái)可以展開的工作之一是研究并設(shè)計(jì)更加適用于情感詞權(quán)重賦值的特征選擇方法.另外,NTUSD詞庫(kù)總共約有1.1萬(wàn)個(gè)詞,此次實(shí)驗(yàn)只對(duì)其中的3 913個(gè)詞進(jìn)行了權(quán)重賦值,是因?yàn)檫x取的5個(gè)評(píng)價(jià)語(yǔ)料集無(wú)法涵蓋NTUSD詞庫(kù)中的所有詞.如果想要完成所有詞的權(quán)重賦值,構(gòu)建一個(gè)更完整的帶權(quán)重的詞庫(kù),可以選取更多的情感語(yǔ)料庫(kù).不過(guò),通過(guò)不同的語(yǔ)料集計(jì)算得到的情感詞庫(kù)可能存在重疊詞,且這些詞的權(quán)重在不同語(yǔ)料中也可能不盡相同,此時(shí)這些詞的權(quán)重計(jì)算也將是一個(gè)未來(lái)的研究?jī)?nèi)容.
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848. ZHAO Y Y,QIN B,LIU T.Text sentiment analysis[J]. Journal of Software,2010,21(8):1834-1848.(in Chinese)
[2]TURNEY P,LITTMAN M L.Measuring praise and criticism:inference of semantic orientation from association [J].ACM Trans on Information Systems,2003,21(4):315-346.
[3]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20. ZHU Y L,MIN J,ZHOU Y Q,et al.Semantic orientation computing based on HowNet[J].Journal of Chinese Information Processing,2006,20(1):14-20.(in Chinese)
[4]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185. XU L H,LIN H F,PAN Y,et al.Constructing the affective lexicon ontology[J].Journal of the China Society for Scientific and Technical Information,2008,27(2):180-185.(in Chinese)
[5]ANDREEVSKAIA A,BERGLER S.Mining WordNet for a fuzzy sentiment:sentiment tag extraction from WordNet glosses[C]∥McCarthy D,Wintner S.Proc of the European Chapter of the Association for Computational Linguistics(EACL).Morristown:ACL,2006:209-216.
[6]柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009,29(11):2882-2884. LIU W P,ZHU Y H,LI C L,et al.Research on building Chinese basic semantic lexicon[J].Journal of Computer Applications,2009,29(11):2882-2884.(in Chinese)
[7]ESULI A,SEBASTIANI F.Sentiwordnet:a publicly available lexical resource for opinion mining[C]∥Proc of LREC.Genoa:LREC,2006:417-422.
[8]BACCIANELLAS,ESULIA,SEBASTIANIF. Sentiwordnet 3.0:anenhancedlexicalresourcefor sentiment analysis and opinion mining[C]∥Proc of the LREC.Valletta,Malta:European Language Resources Association,2010:2201-2204.
[9]周詠梅,楊佳能,陽(yáng)愛民.面向文本情感分析的中文情感詞典構(gòu)建方法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2013,43(6):2-33. ZHOU Y M,YANG J N,YANG A M.A method on building Chinese sentiment lexicon for text sentiment analysis[J].Journal of Shandong University(Engineering Science),2013,43(6):2-33.(in Chinese)
[10]YANG Y,PEDERSON J O.A comparative study on feature selection in text categorization[C]∥ Proc of the 14th International Conference on Machine Learning.San Francisco:Morgan Kaufmann,1997:412-420.
[11]QUINLAN J R.C4.5:programs for machine learning [M].LosAltos,California:MorganKaufmann Publishers,Inc,1993:17-26.
[12]LEWIS D D.Naive Bayes at forty:the independence assumption in information retrieval[M]∥ Machine learning:ECML-98.Berlin:Springer,1998:4-15.
[13]裴英博,劉曉霞.文本分類中改進(jìn)型CHI特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(4):128-130. PEI Y B,LIU X X.Study on improved CHI for feature selection in Chinese text categorization[J].Computer Engineering and Applications,2011,47(4):128-130. (in Chinese)
(責(zé)任編輯 呂小紅)
Weight Calculation of Emotional Word Based on Feature Selection Technique
WU Jinyuan1,JI Junzhong1,ZHAO Xuewu1,2,WU Chensheng3,DU Fanghua1
(1.Beijing Municipal Key Laboratory of Multimedia and Intelligent Software Technology,College of Computer Science and Technology,Beijing University of Technology,Beijing 100124,China;2.School of Software,Nanyang Normal University,Nanyang 473061,Henan,China;3.Beijing Institute Science and Technology Information,Beijing 100048,China)
It is very important for the text sentiment analysis to build an emotional dictionary.However,most of current researches in this area focus on the words’polarity discrimination.Researchers rarely study the weight assignment of emotional words,and methods on this already existed mostly need to select benchmark words through artificial ways.Using artificial ways brings great difficulty in practical application.To solve this problem,an automatic weight calculation approach of emotional words based on feature selection technique was proposed.Firstly some related assumptions between the emotional weight of words and the emotional tendency of texts were proposed;Then,centered around sentiment classification,the properties of binary classification was combined to improve information gain(IG)and chi-squarec(CHI);Finally,the improved feature selection methods to calculate the weight of emotional words were usesd.Experimental results show that using the emotion dictionary with the calculated weights in text sentiment classification can greatly improve the classification accuracy.
text sentiment classification;construction of emotion dictionary;feature selection;weight calculation
TP 181
A
0254-0037(2016)01-0142-10
10.11936/bjutxb2015040085
2015-04-29
國(guó)家自然科學(xué)基金資助項(xiàng)目(61375059)
吳金源(1988—),男,助理工程師,主要從事文本挖掘,機(jī)器學(xué)習(xí)方面的研究,E-mail:wjy9595@qq.com
冀俊忠(1969—),男,教授,主要從事機(jī)器學(xué)習(xí)、Web智能方面的研究,E-mail:jjz01@bjut.edu.cn