国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多通道LSTM的不平衡情緒分類方法

2018-04-04 02:42:19李壽山貢正仙周國棟
中文信息學(xué)報(bào) 2018年1期
關(guān)鍵詞:單通道訓(xùn)練樣本語料

殷 昊,李壽山,貢正仙,周國棟

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

0 引言

隨著社交網(wǎng)站的興起,越來越多的人們習(xí)慣在網(wǎng)絡(luò)上發(fā)表自己的言論,這些言論中大部分都含有用戶的情感信息。分析這些帶有情感的言論不僅有助于問答系統(tǒng)、輿情監(jiān)控等技術(shù)的應(yīng)用,還可以用來幫助心理學(xué)專家檢測用戶的心理狀態(tài)。因此,近些年來情感分析受到了自然語言處理領(lǐng)域研究者們的密切關(guān)注,現(xiàn)已成為一項(xiàng)基本的熱點(diǎn)研究任務(wù)[1]。

情感分析又稱意見挖掘、觀點(diǎn)分析等,是通過計(jì)算機(jī)幫助用戶快速獲取、整理互聯(lián)網(wǎng)上的海量的主觀評(píng)價(jià)信息,對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程[2]。文本情緒分類是情感分析的一項(xiàng)基本任務(wù),該任務(wù)具體是針對(duì)文本表達(dá)的個(gè)人情緒(如高興、傷心、驚訝等)進(jìn)行自動(dòng)分類的方法[3]。表1給出了一些含有情緒的微博文本樣例。

表1 帶有情緒的微博文本樣例

雖然文本情緒分類的研究已經(jīng)開展多年,但是目前大部分的研究都假設(shè)各種情緒類別的樣本分布平衡,即各情緒類別的樣本個(gè)數(shù)相同。然而,現(xiàn)實(shí)情況往往并非如此。在實(shí)際收集到的語料中,不管是產(chǎn)品的評(píng)論文本還是微博文本,各個(gè)情緒類別樣本的分布往往會(huì)非常不平衡。樣本分布的不平衡會(huì)使得應(yīng)用傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法得到的分類結(jié)果嚴(yán)重偏向多樣本類別(樣本數(shù)目多的類別),從而大大地降低分類性能[4]。

不平衡分類問題在自然語言處理領(lǐng)域是一個(gè)經(jīng)典的研究問題。目前主流的不平衡分類方法是基于欠采樣的機(jī)器學(xué)習(xí)分類方法。該方法的主要思想是使用欠采樣技術(shù)得到平衡的樣本,再通過機(jī)器學(xué)習(xí)的分類方法來對(duì)樣本進(jìn)行分類。由于欠采樣方法使得多類樣本只有部分參與訓(xùn)練,從而丟失了很多可能對(duì)分類有幫助的樣本。為了充分利用已有樣本,本文提出了一種基于多通道長短時(shí)記憶(long short-term memory, LSTM)神經(jīng)網(wǎng)絡(luò)[5]的不平衡分類方法,用來解決微博情緒分類中的情緒類別樣本分布不平衡問題。LSTM神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)長期依賴關(guān)系,能夠有助于提高文本情緒分類的性能。具體而言,首先,我們使用欠采樣方法獲取多組平衡訓(xùn)練語料;其次,使用每一組訓(xùn)練語料學(xué)習(xí)一個(gè)LSTM模型;最后,通過Merge層來融合多個(gè)LSTM模型,獲得最終分類結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法與傳統(tǒng)不平衡分類方法相比較,能夠進(jìn)一步提升情緒分類性能。

本文結(jié)構(gòu)安排如下: 第一節(jié)介紹了與本文相關(guān)的一些工作進(jìn)展;第二節(jié)介紹本文提出的基于多通道LSTM神經(jīng)網(wǎng)絡(luò)的不平衡分類方法;第三節(jié)給出實(shí)驗(yàn)結(jié)果及相關(guān)分析;第四節(jié)對(duì)本文做出總結(jié),并對(duì)下一步工作進(jìn)行展望。

1 相關(guān)工作

1.1 情緒分類

目前,針對(duì)社交媒體中的文本情感分析方法的研究大都是面向情感極性的(如正面情感、中性情感、負(fù)面情感),而針對(duì)細(xì)粒度的情緒分類方法的研究還比較缺乏。

計(jì)算語言學(xué)領(lǐng)域著名的語義評(píng)估會(huì)議SemEval在2007年設(shè)立了一個(gè)評(píng)測任務(wù),用來對(duì)新聞標(biāo)題進(jìn)行情緒分類,該評(píng)測任務(wù)提供了一個(gè)包含1 250個(gè)句子的數(shù)據(jù)集。為了更好地理解情緒分析問題,該任務(wù)強(qiáng)調(diào)對(duì)情緒進(jìn)行詞法語義分析[6]。國內(nèi)的相關(guān)會(huì)議也組織了中文情緒分析相關(guān)的評(píng)測任務(wù),如NLP&CC-2013中文微博情緒識(shí)別任務(wù)。該評(píng)測任務(wù)以新浪微博文本作為基礎(chǔ)語料進(jìn)行標(biāo)注[7],目前已完成14 000條微博,45 431條句子的情緒標(biāo)注,構(gòu)建了一個(gè)規(guī)模較大的中文情緒語料庫。該語料庫為相關(guān)科研工作人員分析微博文本的情緒表達(dá)提供了支持,有效地促進(jìn)了相關(guān)領(lǐng)域的研究發(fā)展。Li等[8]提出利用句子的標(biāo)簽因子圖和上下文標(biāo)簽因子圖,進(jìn)行句子級(jí)的情緒分類,很好地解決了數(shù)據(jù)稀疏和情緒的多標(biāo)簽問題。Rana[9]將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于帶有噪聲的文本情感分類,實(shí)驗(yàn)證明了該方法能夠很好地處理噪聲問題。梁軍等[10]將LSTM擴(kuò)展到基于樹結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)上,并根據(jù)句子前后詞語間的關(guān)聯(lián)性引入情感極性轉(zhuǎn)移模型。

已有的情緒分析研究基本都是基于樣本分布平衡的假設(shè),不平衡數(shù)據(jù)的情緒分析方法研究還很缺乏。

1.2 不平衡分類

不平衡分類問題具有一系列傳統(tǒng)模式分類方法所沒有考慮到的特點(diǎn),所以傳統(tǒng)模式分類方法難以很好解決不平衡分類問題。不平衡分類問題在機(jī)器學(xué)習(xí)、模式識(shí)別等領(lǐng)域均受到廣泛關(guān)注,是眾多實(shí)際任務(wù)中共同具有的挑戰(zhàn)性問題。

主流的不平衡分類方法主要以過采樣技術(shù)和欠采樣技術(shù)為主。具體而言,過采樣技術(shù)通過重復(fù)少類樣本使得少類樣本數(shù)和多類樣本數(shù)平衡;欠采樣技術(shù)通過減少多類樣本使得兩類樣本平衡。目前針對(duì)不平衡語料的情感分析研究還很少,王中卿等[4]針對(duì)不平衡數(shù)據(jù)的中文情感分類,提出了一種基于欠采樣和多分類算法的集成學(xué)習(xí)框架。Yan等[11]提出了一種兩階段分類框架,使得不平衡數(shù)據(jù)的分類更準(zhǔn)確。Li等[12]將監(jiān)督學(xué)習(xí)、主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法引入不平衡情感分類問題,取得了很好的分類效果。

2 基于LSTM神經(jīng)網(wǎng)絡(luò)的不平衡情緒分類方法

2.1 情緒分類中的不平衡分布情況

為了更好地理解情緒分類中的不平衡問題,我們分析了NLP&CC-2013中文微博情緒分析評(píng)測提供的微博語料。我們根據(jù)微博的主要情緒將語料分為七個(gè)情緒類別,并統(tǒng)計(jì)了這些類別的分布情況。這七個(gè)情緒分別是高興、喜好、憤怒、悲傷、恐懼、厭惡和驚訝。

表2給出了七個(gè)情緒類別的樣本分布情況。從表中可以看出,七個(gè)情緒類別的樣本分布非常不平衡,最多的類別(喜好類)和最少的類別(恐懼類)之間樣本數(shù)量比高達(dá)15左右。從表中可以看出,恐懼情緒的樣本數(shù)量最少,驚訝和憤怒情緒的樣本數(shù)量較少,高興、悲傷和厭惡情緒的樣本數(shù)量較多,喜好情緒的樣本數(shù)量最多。

表2 有情緒微博文本中各情緒分布情況

2.2 基于單通道LSTM的不平衡情緒分類方法

LSTM神經(jīng)網(wǎng)絡(luò)使用記憶單元來避免反向傳播過程中的梯度消失和梯度爆炸問題,并且可以學(xué)習(xí)長期依賴關(guān)系,充分利用歷史信息。Alex Graves于2013年對(duì)LSTM進(jìn)行了改良和推廣[13],使得LSTM被廣泛應(yīng)用于自然語言處理、語音識(shí)別等領(lǐng)域中。

如圖1所示,LSTM單元設(shè)置了記憶單元c用于保存歷史信息。歷史信息的更新和利用受到三個(gè)門的控制: 輸入門i、遺忘門f和輸出門o。 LSTM單元在t時(shí)刻的更新過程如下:

圖1 LSTM單元

針對(duì)不平衡情緒分類,我們首先使用隨機(jī)欠采樣方法得到各情緒類別平衡的樣本,然后采用單通道LSTM神經(jīng)網(wǎng)絡(luò)作為分類方法。圖2為單通道LSTM神經(jīng)網(wǎng)絡(luò)分類器框架圖,該分類模型只有一個(gè)LSTM層,第一個(gè)虛線框部分為單通道LSTM模型內(nèi)部結(jié)構(gòu), 第二個(gè)虛線框部分為不平衡樣本的處理過程。LSTM模型的輸入為訓(xùn)練樣本的詞向量表示,詞向量具有良好的語義特征,是表示詞語特征的常用方式[14]。輸入特征向量經(jīng)過LSTM層得到高維向量,可以學(xué)習(xí)到更深層次的特征,這些特征能夠更好地描述樣本。全連接層類似于傳統(tǒng)多層感知機(jī)的隱藏層,接收來自上一層的全部輸出,給這些輸出向量加權(quán)求和,加權(quán)后的輸出經(jīng)過激勵(lì)函數(shù)并傳播到Dropout層。本實(shí)驗(yàn)中該層使用Relu作為激勵(lì)函數(shù),Relu減少了參數(shù)之間的相互依存關(guān)系,更接近生物學(xué)的激活模型,激勵(lì)函數(shù)如式(7)所示。

圖2 單通道LSTM神經(jīng)網(wǎng)絡(luò)分類器框架圖

其中x為輸出向量,Relu函數(shù)將小于0的值全部置0,具有引導(dǎo)適度稀疏的能力。

Dropout層在訓(xùn)練和預(yù)測時(shí)隨機(jī)讓網(wǎng)絡(luò)中某些隱含層節(jié)點(diǎn)不工作,減少了特征個(gè)數(shù),有效地防止了網(wǎng)絡(luò)過擬合。Dropout層作為LSTM神經(jīng)網(wǎng)絡(luò)模型中的隱藏層出現(xiàn),如式(8)所示。

其中D表示dropout操作符,p是一個(gè)可調(diào)的超參(保留隱層單元的比率)。

最后,單通道LSTM模型的輸出通過Softmax輸出層來對(duì)樣本進(jìn)行分類。我們選擇后驗(yàn)概率最大的類別作為預(yù)測標(biāo)簽,如式(9)所示。

labelpred=argmaxiP(Y=i|x,W,U,V)

(9)

其中x為上一層輸出向量,i為標(biāo)簽預(yù)測值,W、U、V為LSTM更新方法中的系數(shù)矩陣,labelpred為后驗(yàn)概率最大的預(yù)測標(biāo)簽。

2.3 基于多通道LSTM的不平衡情緒分類方法

應(yīng)用隨機(jī)欠采樣和單通道LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行不平衡情緒分類存在一個(gè)明顯的缺點(diǎn): 由于欠采樣只是從多類中選擇部分樣本,使得大量未選中的樣本在后面的分類過程中未能發(fā)揮作用,從而丟失了很多可能對(duì)分類有幫助的樣本。因此,為了充分利用已標(biāo)注樣本,提高分類器性能,我們提出了一種基于多通道LSTM神經(jīng)網(wǎng)絡(luò)的分類方法。該方法在不平衡樣本中多次欠采樣得到多組平衡樣本,使用每一組平衡樣本學(xué)習(xí)一個(gè)LSTM模型,通過Merge層對(duì)多個(gè)LSTM模型進(jìn)行聯(lián)合學(xué)習(xí),得到最終的分類結(jié)果。

多通道LSTM神經(jīng)網(wǎng)絡(luò)分類器框架如圖3所示。我們首先使用隨機(jī)欠采樣的方法對(duì)各類別樣本進(jìn)行n次欠采樣,每次欠采樣的個(gè)數(shù)為最少類的樣本數(shù)。在得到的n組平衡樣本中,每組對(duì)應(yīng)位置的樣本的情緒類別相同,可以將該n組不同的樣本看作是七種情緒類別所對(duì)應(yīng)的n組不同的特征表示。我們將該n組訓(xùn)練樣本的特征向量同時(shí)作為網(wǎng)絡(luò)的輸入,且每組輸入分別用來訓(xùn)練一個(gè)LSTM模型。圖3中,LSTM_n表示由第n組訓(xùn)練樣本學(xué)習(xí)得到的LSTM模型,該模型的輸出是輸入特征的更好表示。本實(shí)驗(yàn)中n取5,這樣可以保證已標(biāo)注樣本中絕大多數(shù)樣本都能被取到。

圖3 多通道LSTM神經(jīng)網(wǎng)絡(luò)分類器框架圖

Merge層將上述n組LSTM模型的輸出特征進(jìn)行融合,并通過反向傳播算法(back propagation)來對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。Dropout層接收Merge層的輸出作為輸入,該層的功能與其在單通道LSTM神經(jīng)網(wǎng)絡(luò)中的功能相同。網(wǎng)絡(luò)的最后一層是Softmax輸出層,該層用來輸出網(wǎng)絡(luò)模型的預(yù)測標(biāo)簽labelpred。在模型訓(xùn)練的過程中,我們選擇最小化交叉熵誤差作為損失函數(shù),即:

(10)

其中,N是訓(xùn)練樣本的個(gè)數(shù),m是目標(biāo)類別的數(shù)量,y是Softmax層輸出的每個(gè)類別的預(yù)測概率,ti是第i個(gè)訓(xùn)練樣本的真實(shí)標(biāo)簽?!ぁ現(xiàn)表示Frobeniu范數(shù),n是通道的個(gè)數(shù),ω={i,f,o,c},μ={i,f,o,c}和ν={i,f,o}表示不同門的集合(分別為W、U、V),λ是用來指定懲罰權(quán)重的超參。

在損失函數(shù)中,除了極小化負(fù)數(shù)對(duì)數(shù)似然,還增加了W、U、V的L2正則化,原因是Softmax函數(shù)的參數(shù)存在冗余,也就是極小點(diǎn)不唯一,增加正則項(xiàng)可以將極小點(diǎn)唯一化。懲罰因子λ調(diào)節(jié)正則項(xiàng)的權(quán)重,取值越大,對(duì)大參數(shù)的懲罰越大。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

本文選用NLP&CC-2013中文微博情緒分析評(píng)測任務(wù)提供的微博語料作為實(shí)驗(yàn)語料。該語料中共有七種情緒類別,具體情緒類別及樣本分布可參考2.1節(jié)的表2。由于語料中恐懼情緒的樣本數(shù)量太少,根據(jù)其樣本數(shù)生成的測試集得到的實(shí)驗(yàn)結(jié)果具有較大的偶然性,因此我們選取第二少類別(驚訝情緒)里面樣本數(shù)的20%(即362×20%≈72)作為各類別的測試樣本數(shù)。訓(xùn)練樣本則根據(jù)不同的分類方法從各類別的剩余樣本中抽取。各情緒類別的測試樣本數(shù)和剩余樣本數(shù)如表3所示。

實(shí)驗(yàn)中用到的分類算法包括最大熵和LSTM神經(jīng)網(wǎng)絡(luò)。其中最大熵使用MALLET機(jī)器學(xué)習(xí)工具包*http://mallet.cs.umass.edu/;LSTM神經(jīng)網(wǎng)絡(luò)使用深度學(xué)習(xí)開源框架Keras搭建*http://keras.io/。在進(jìn)行實(shí)驗(yàn)之前我們首先采用復(fù)旦大學(xué)公布的分詞工具FudanNLP*http://code.google.com/p/fudannlp/對(duì)中文文本進(jìn)行分詞。在使用最大熵分類器時(shí),我們選取詞的Uni-gram作為特征,得到文本的向量表示。最大熵分類器所有的參數(shù)都使用它的默認(rèn)值。使用LSTM神經(jīng)網(wǎng)絡(luò)分類器時(shí),我們首先使用Python工具包gensim*http://radimrehurek.com/gensim/install.html來生成樣本的詞向量模型。綜合考慮實(shí)驗(yàn)性能和所需時(shí)間,本實(shí)驗(yàn)中詞向量維度設(shè)為100。LSTM神經(jīng)網(wǎng)絡(luò)模型的具體參數(shù)設(shè)置如表4所示。

表3 各情緒類別測試樣本數(shù)和剩余樣本數(shù)

表4 LSTM神經(jīng)網(wǎng)絡(luò)中的參數(shù)設(shè)置

實(shí)驗(yàn)采用正確率(Accuracy)和幾何平均數(shù)(G-mean)作為衡量分類效果的標(biāo)準(zhǔn)。幾何平均數(shù)的計(jì)算方法如式(11)所示。

其中Recalli表示類別i的召回率,n為類別個(gè)數(shù),本實(shí)驗(yàn)n取7。

3.2 實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中,我們實(shí)現(xiàn)了以下幾種處理不平衡情緒分類的方法。

(1) 完全訓(xùn)練+最大熵(FullT+Maxent),各個(gè)類別的全部剩余樣本均作為訓(xùn)練樣本,采用最大熵分類器。

(2) 隨機(jī)過采樣+最大熵(OverS+Maxent),設(shè)最多類(喜好類)的剩余樣本數(shù)為nmax,使用隨機(jī)過采樣技術(shù)從各類別的剩余樣本中抽取nmax個(gè)樣本作為訓(xùn)練樣本,采用最大熵分類器。

(3) 隨機(jī)欠采樣+最大熵(UnderS+Maxent),設(shè)第二少類(驚訝類)的剩余樣本數(shù)為nmin,使用隨機(jī)欠采樣技術(shù)從各類別的剩余樣本中抽取nmin個(gè)樣本作為訓(xùn)練樣本,采用最大熵分類器。

(4) 隨機(jī)欠采樣+單通道LSTM神經(jīng)網(wǎng)絡(luò)(UnderS+LSTM),使用(3)中的采樣方法得到訓(xùn)練樣本,分類器使用單通道的LSTM神經(jīng)網(wǎng)絡(luò)。

(5) 隨機(jī)欠采樣+單通道CNN神經(jīng)網(wǎng)絡(luò)(UnderS+CNN),使用(3)中的采樣方法得到訓(xùn)練樣本,分類器使用單通道的CNN神經(jīng)網(wǎng)絡(luò)。

(6) 隨機(jī)欠采樣+集成學(xué)習(xí)(Ensemble-Maxent),多次使用(3)中的采樣方法得到多組訓(xùn)練樣本(本實(shí)驗(yàn)取5組),并建立多個(gè)基分類器。最后通過融合這些基分類器結(jié)果進(jìn)行集成學(xué)習(xí)[4],其中基分類器選擇最大熵分類器。

(7) 隨機(jī)欠采樣+多通道LSTM神經(jīng)網(wǎng)絡(luò)(Multi-LSTM),使用(5)中的采樣方法得到多組訓(xùn)練樣本(本實(shí)驗(yàn)取5組),分類器使用多通道(5通道)的LSTM神經(jīng)網(wǎng)絡(luò)。

(8) 隨機(jī)欠采樣+多通道CNN神經(jīng)網(wǎng)絡(luò)(Multi-CNN),使用(5)中的采樣方法得到多組訓(xùn)練樣本(本實(shí)驗(yàn)取5組),分類器使用多通道(5通道)的CNN神經(jīng)網(wǎng)絡(luò)。

圖4比較了完全訓(xùn)練、隨機(jī)過采樣和隨機(jī)欠采樣方法在基于不平衡數(shù)據(jù)的情緒分類中的分類效果。我們可以看出隨機(jī)欠采樣的分類性能明顯優(yōu)于前兩者,其優(yōu)勢在G-mean值上表現(xiàn)得尤為突出。該現(xiàn)象的主要原因是在完全訓(xùn)練和隨機(jī)過采樣方法中,分類算法嚴(yán)重趨向樣本數(shù)量較多的類別,使得樣本數(shù)量較少的類別的召回率非常低。

圖4 傳統(tǒng)不平衡分類方法分類性能比較

接下來我們比較最大熵和LSTM神經(jīng)網(wǎng)絡(luò)在隨機(jī)欠采樣方法下的情緒分類性能。從圖5可以看出單通道LSTM神經(jīng)網(wǎng)絡(luò)的分類性能要優(yōu)于最大熵的分類性能,在Accuracy和G-mean上分別提高了1.8%和1.2%。我們分析其主要原因是LSTM神經(jīng)網(wǎng)絡(luò)能夠充分利用歷史信息,可以學(xué)習(xí)到樣本之間的長期依賴關(guān)系。此外,我們還實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的分類方法。從圖5可以看出,LSTM神經(jīng)網(wǎng)絡(luò)和CNN神經(jīng)網(wǎng)絡(luò)的分類性能相當(dāng),在Accuracy上LSTM神經(jīng)網(wǎng)絡(luò)稍占優(yōu)勢,在G-mean上CNN略高一點(diǎn)。

圖5 最大熵和神經(jīng)網(wǎng)絡(luò)的分類性能比較

在不平衡分類問題中,為了充分利用所有標(biāo)注樣本,但又保持訓(xùn)練樣本之間的平衡,基于欠采樣的集成學(xué)習(xí)的方法表現(xiàn)得較為理想。接下來我們將比較基于欠采樣的集成學(xué)習(xí)的分類方法和我們提出的基于多通道LSTM神經(jīng)網(wǎng)絡(luò)的分類方法,二者的分類性能如圖6所示。

圖6 集成學(xué)習(xí)和多通道神經(jīng)網(wǎng)絡(luò)的分類性能比較

對(duì)照?qǐng)D4和圖6,我們可以發(fā)現(xiàn)基于欠采樣的集成學(xué)習(xí)的分類方法在性能上要優(yōu)于以往所有的分類方法,其原因是該方法既能夠保持各類別訓(xùn)練樣本之間的平衡,又能夠充分利用已有樣本的信息。

圖6結(jié)果表明,當(dāng)隱層特征使用相加(sum)融合時(shí),基于多通道LSTM神經(jīng)網(wǎng)絡(luò)的分類方法比集成學(xué)習(xí)方法在Accuracy方面提高了1.5%,在G-mean方面提高了2.8%;當(dāng)隱層特征使用拼接(concatenate)融合時(shí),基于多通道LSTM神經(jīng)網(wǎng)絡(luò)的分類方法比集成學(xué)習(xí)方法在Accuracy方面提高了1.0%,在G-mean方面提高了2.1%。這些結(jié)果表明: 基于多通道LSTM神經(jīng)網(wǎng)絡(luò)的分類方法對(duì)不平衡情緒分類非常有效。該方法不僅可以在各類別樣本分布不平衡時(shí)充分利用已有樣本的信息,而且可以考慮文本上下文之間的關(guān)系。

此外,為了驗(yàn)證多通道方式的有效性,我們還實(shí)現(xiàn)了基于多通道CNN神經(jīng)網(wǎng)絡(luò)并利用該方法進(jìn)行實(shí)驗(yàn)。從圖5和圖6對(duì)比可以看出,多通道CNN神經(jīng)網(wǎng)絡(luò)分類方法與單通道CNN神經(jīng)網(wǎng)絡(luò)分類方法相比,在Accuracy和G-mean方面性能均有所提高。

4 結(jié)語

本文針對(duì)情緒分類任務(wù)中的數(shù)據(jù)不平衡問題,提出了一種基于多通道LSTM神經(jīng)網(wǎng)絡(luò)的分類方法。該方法首先使用隨機(jī)欠采樣方法獲取多組平衡訓(xùn)練語料;其次,使用每一組訓(xùn)練語料學(xué)習(xí)一個(gè)LSTM模型;最后通過融合多個(gè)LSTM模型,獲得最終分類結(jié)果。實(shí)驗(yàn)結(jié)果表明該方法能夠充分利用訓(xùn)練樣本,性能上明顯優(yōu)于傳統(tǒng)的不平衡分類方法。

在下一步工作中,我們將收集其他領(lǐng)域的語料,比如貼吧、QQ空間說說等,并在其上應(yīng)用我們的方法進(jìn)行實(shí)驗(yàn),驗(yàn)證方法的有效性。此外,我們將探索如何改進(jìn)欠采樣技術(shù),使得多類樣本在采樣過程中分布得更合理。今后的工作我們將著力解決上述問題,以便找出性能更佳的不平衡數(shù)據(jù)情緒分類方法。

[1]Jiang L, Yu M, Zhou M, et al. Target-dependent Twitter sentiment classification[C]//Proceedings of Meeting of the Association for Computational Linguistics, 2011:151-160.

[2]趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8):1834-1848.

[3]Aman S, Szpakowicz S. Identifying expressions of emotion in text[M]. Text,Speech and Dialogue. Springer, Berlin Heidelberg, 2007:196-205.

[4]王中卿, 李壽山, 朱巧明,等. 基于不平衡數(shù)據(jù)的中文情感分類[C]. 中國計(jì)算語言學(xué)研究前沿進(jìn)展, 2011:33-37.

[5]Hochreiter S, Schmidhuber J. Flat minima.[J]. Neural Computation, 1997, 9(1):1-42.

[6]Strapparava C, Mihalcea R. Learning to identify emotions in text[J]. Unt Scholarly Works, 2008, 43(3):254-255.

[7]姚源林, 王樹偉, 徐睿峰,等. 面向微博文本的情緒標(biāo)注語料庫構(gòu)建[J]. 中文信息學(xué)報(bào), 2014, 28(5):83-91.

[8]Li S, Huang L, Wang R, et al. Sentence-level emotion classification with label and context dependence[C]//Proceedings of ACL-15, 2015: 1045-1053.

[9]Rana R. Emotion classification from noisy speech—A deep learning approach[J], arXiv preprint arXiv: 1603.05901,2016.

[10]梁軍, 柴玉梅, 原慧斌,等. 基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J]. 中文信息學(xué)報(bào), 2015, 29(5):152-159.

[11]Yan Y, Liu Y,Shyu M L, et al. Utilizing concept correlations for effective imbalanced data classification[C]//Proceedings of IEEE International Conference on Information Reuse and Integration. IEEE, 2014:561-568.

[12]Li S, Zhou G, Wang Z, et al. Imbalanced sentiment classification[C]//Proceedings of ACM Conference on Information and Knowledge Management, CIKM 2011, Glasgow, United Kingdom, October. 2011:2469-2472.

[13]Graves A. Supervised sequence labelling with recurrent neural networks[J]. Studies in Computational Intelligence, 2012: 385.

[14]Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning[C]//Proceedings of Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010:780-781.

猜你喜歡
單通道訓(xùn)練樣本語料
基于聯(lián)合聚類分析的單通道腹部心電信號(hào)的胎心率提取
人工智能
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識(shí)別算法
基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
基于擴(kuò)頻碼周期性的單通道直擴(kuò)通信半盲分離抗干擾算法
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
《苗防備覽》中的湘西語料
昌平区| 阜康市| 璧山县| 榆中县| 金塔县| 洛川县| 公主岭市| 台中县| 井研县| 杭州市| 石阡县| 玉树县| 德清县| 墨竹工卡县| 延津县| 理塘县| 浪卡子县| 高阳县| 徐水县| 青龙| 澄城县| 兴海县| 尉犁县| 区。| 高州市| 孟州市| 台南县| 泗水县| 海伦市| 子洲县| 太和县| 盈江县| 嘉鱼县| 五常市| 岳阳市| 托克逊县| 金寨县| 北流市| 游戏| 瑞安市| 原平市|