国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合通道特征的混合神經(jīng)網(wǎng)絡文本分類模型

2021-03-17 07:48韓永鵬
中文信息學報 2021年2期
關鍵詞:雙通道時序雙向

韓永鵬,陳 彩,蘇 航,梁 毅

(北京工業(yè)大學 信息學部,北京 100124)

0 引言

文本分類是跨越信息檢索、機器學習和自然語言處理的多領域技術,是信息處理和數(shù)據(jù)挖掘的重要研究方向,主要目標是在事先定義好類別的情況下,根據(jù)文本的內(nèi)容特征或者屬性特征,將要分類的文本自動分配到所屬的類別[1]。根據(jù)文本的長度,文本分類分為短文本分類與長文本分類,短文本字符數(shù)通常不超過200[2]。

隨著科學技術的發(fā)展,深度學習被廣泛應用于文本分類,常用于文本分類的神經(jīng)網(wǎng)絡模型主要有循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)與卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)。循環(huán)神經(jīng)網(wǎng)絡是一種對序列數(shù)據(jù)建模的網(wǎng)絡,由于有梯度消失和梯度爆炸等問題,通常使用其變體長短時記憶網(wǎng)絡[3](long short-term memory,LSTM)。由于LSTM只能學習文本的全局時序特征,不能學習文本中的局部空間特征,所以一般先使用CNN學習局部特征,再結合LSTM學習時序特征。然而現(xiàn)有混合模型使用的單通道詞嵌入空間維度低,特征表示單一,導致一維卷積神經(jīng)網(wǎng)絡不能充分發(fā)揮空間特征學習能力,影響了模型的分類性能。

為了彌補現(xiàn)有混合模型的不足,本文提出了一種融合通道特征的混合神經(jīng)網(wǎng)絡文本分類模型,該模型使用基于預測與基于統(tǒng)計的方式構建文本的雙通道詞嵌入。相比于單通道詞嵌入,雙通道詞嵌入能提供更為豐富的特征,并增加文本表示的空間維度。為了充分利用增加的空間維度,本文在卷積的過程中進行了通道特征融合,提高了卷積層的空間特征學習能力。為了更好地將空間特征與時序特征結合,模型在每路卷積后使用雙向LSTM學習各路時序特征,避免了過早進行卷積特征融合對融合后的時序特征造成破壞。在四個數(shù)據(jù)集上進行對比實驗,結果表明,該模型取得了良好的分類效果,分類準確率相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡平均提升了1%。

1 相關工作

傳統(tǒng)機器學習算法[4]在文本分類時往往需要進行特征選擇,而深度學習算法因可以自動進行特征學習而被廣泛使用,常用結構包括卷積神經(jīng)網(wǎng)絡CNN與循環(huán)神經(jīng)網(wǎng)絡RNN。RNN適合處理時間序列數(shù)據(jù),被廣泛應用于文本分類當中。Liu等人[5]提出了基于LSTM的三種模型用于處理多任務學習下的文本分類問題。Xu等人[6]使用雙向LSTM結合前饋型神經(jīng)網(wǎng)絡進行情感分析。由于LSTM只能輸出最后時刻的特征,不能充分利用各時刻的特征,部分學者嘗試使用注意力機制優(yōu)化LSTM的特征表示。Wang等人[7]使用了注意力機制對LSTM的各個時刻的特征進行加權,在情感分類任務中取得良好效果。Long等人[8]在雙向LSTM中引入了Multi-head Attention進行情感分類,取得了優(yōu)于雙向LSTM的效果。由于RNN不能學習空間特征且訓練時間長,CNN在文本領域開始使用。Kim[9]首次將CNN用于文本分類,采用多路卷積提取空間特征,使用全局最大池化保留最重要的特征,通過實驗驗證了CNN在文本分類領域的實用性。由于全局最大池化容易造成特征大量丟失,Kalchbrenner等人[10]提出了一種動態(tài)池化的思想,在不同池化層采取不同的K值,保留了前K個最大特征,有效解決了全局最大池化特征丟失嚴重的問題。Yang 等人[11]首次將膠囊神經(jīng)網(wǎng)絡用于文本分類,在部分數(shù)據(jù)集上取得了超過經(jīng)典CNN的效果。王盛玉等人[12]嘗試在CNN中結合注意力機制,有效提升了CNN學習局部特征的能力。

由于CNN與RNN各有側重,許多學者結合兩者優(yōu)點提出混合模型。Lai等人[13]提出了循環(huán)卷積神經(jīng)網(wǎng)絡RCNN,使用雙向循環(huán)結構對特征的上下文進行建模,實現(xiàn)了卷積的核心思想。Zhou等人[14]提出了混合模型C-LSTM,給出了CNN與RNN結合使用的模式。Hassan等人[15]提出的模型使用多路卷積學習空間特征,融合后經(jīng)由LSTM學習時序特征。Chen等人[16]提出的模型在每一路通過堆疊卷積池化層提取更抽象的空間特征,融合后結合LSTM進行時序特征學習。Zhang等人[17]提出的LSTM-CNN探索了先時序后空間的特征學習方式。在此基礎上,Zheng等人[18]提出的BRCAN模型使用雙向LSTM學習上下文信息,然后結合CNN與注意力機制對關鍵的特征進行加權,在多個數(shù)據(jù)集上取得良好分類效果。江偉等人[19]探索了多種注意力機制,進行了全面的對比評估。程艷等人[20]提出的C-HAN模型將文本表示分為詞—句子、句子—文檔兩個階段,并對比了詞向量、字向量對模型性能的影響。車蕾等人[21]提出的TSOHHAN模型結合了標題在話題分類中的作用,取得了優(yōu)于傳統(tǒng)層級注意力網(wǎng)絡的分類準確率。不同于以上學者的小規(guī)模淺層神經(jīng)網(wǎng)絡模型,Google團隊提出了預訓練語言模型BERT[22],在多項NLP任務中取得了卓越的效果。

盡管學者們提出了多種混合模型,但現(xiàn)有混合模型仍存在以下問題: ①普遍使用單通道詞嵌入,空間維度低,文本的特征表示單一,只能在單通道上使用一維卷積算法,不能充分發(fā)揮卷積的空間特征學習能力; ②現(xiàn)有的CNN-RNN混合模型在融合多路卷積特征時,往往對融合后的特征時序性造成破壞,影響了后續(xù)LSTM層對時序特征的學習過程。為此,本文分別使用基于預測與基于統(tǒng)計的方法構建雙通道詞嵌入,豐富文本表示,增加嵌入層空間維度。在此基礎上,為了充分利用雙通道特征,本文的模型先在兩個通道獨立學習空間特征,然后使用逐點卷積融合通道特征,增強了卷積層的空間特征學習能力。在融合多路卷積特征時,在每一路均使用結合注意力機制的雙向LSTM進行時序特征學習,將每路的特征進行拼接表示文本,有效避免了在進入LSTM之前,多路卷積特征融合的過程對融合后的時序特征造成破壞的問題。實驗表明,本文提出的混合模型在多個數(shù)據(jù)集上取得了良好的分類性能。

2 模型描述

融合通道特征的混合神經(jīng)網(wǎng)絡文本分類模型結構如圖1所示。模型的輸入為雙通道詞嵌入,分別由基于預測與基于統(tǒng)計的詞向量生成模型在海量語料中預訓練得到,使用預訓練詞嵌入將大大提高模型的泛化能力。相比于單通道詞嵌入,雙通道詞嵌入增加了文本表示的空間維度,增加了特征的多樣性,豐富了特征的表達。之后,模型使用多路卷積提取空間特征,每一路使用不同大小的卷積核提取不同感受野的局部空間特征,在提取空間特征的過程中融合了通道間特征。為了避免在進入LSTM之前,多路卷積特征融合的過程對融合后的時序特征造成破壞,在每一路均使用結合注意力機制的雙向LSTM網(wǎng)絡進行時序特征學習,最終將各路特征進行拼接,形成文檔的最終表示,然后經(jīng)過全連接層與Softmax層進行文本分類。

圖1 融合通道特征的混合神經(jīng)網(wǎng)絡文本分類模型

2.1 融合通道特征的多粒度卷積層

以圖1中的一路卷積為例,詳細的卷積層設計原理如圖2所示。

圖2 卷積層設計原理

卷積層的輸入為雙通道預訓練詞嵌入矩陣,不受特定分類任務影響,能增加模型的泛化能力。隨著神經(jīng)網(wǎng)絡的訓練,對雙通道嵌入層的權值進行動態(tài)調(diào)整,使得原本與分類任務無關的詞向量變成與特定分類任務相關的詞向量,加速整個神經(jīng)網(wǎng)絡模型收斂的過程。令詞嵌入矩陣最多包含n個單詞,超出n個單詞的文本被截斷,不足n個單詞的文本用0填充。xi表示當前文本中第i個單詞的預訓練詞向量,則詞嵌入矩陣X1:n可以表示如式(1)所示。

X1:n=x1?x2?…?xn

(1)

其中,?代表詞向量的拼接,卷積操作在詞嵌入矩陣X1:n上進行。定義卷積核Wc,Wc為h×k的二維矩陣,h代表當前卷積核的感受野大小,而k固定為詞嵌入的維度,讓卷積操作只能沿著時間軸自上而下進行滑動,令ci表示滑動過程中提取到的當前位置的局部特征,f代表非線性激活函數(shù),bc為偏置項,則卷積核形成的特征圖C可以由式(2)、式(3)所示。

由于嵌入層有兩個通道,所以在每一個通道上使用同一個卷積核,卷積將形成兩張不同的特征圖,分別記為C1與C2。此時進行逐點卷積,使用1×1,深度為2的卷積核Wf對來自兩個通道的兩張?zhí)卣鲌DC1與C2進行通道特征融合,形成融合通道特征之后的特征圖V,計算如式(4)所示。

V=f(Wf·[C1,C2]+bf)

(4)

其中,f為非線性激活函數(shù),bf為偏置項。

至此可以得到使用一個卷積核Wc在雙通道嵌入層實施卷積后所形成的一張?zhí)卣鲌DV。由于卷積神經(jīng)網(wǎng)絡通常使用多個卷積核進行空間特征學習,令N表示卷積核個數(shù),則使用N個相同尺寸的卷積核在雙通道嵌入層實施卷積后可以形成N張?zhí)卣鲌D組成特征矩陣Mo,如式(5)所示。

Mo=[V1,V2,…,VN]

(5)

由于Mo的行維度往往較大,如果使用池化降維將導致時序特征丟失,所以模型使用步幅為K的卷積核Wp對特征矩陣進行卷積降維,形成降維之后的特征圖矩陣Mk,計算如式(6)所示。

Mk=f(Wp·Mo+bp)

(6)

其中,f為激活函數(shù),bp為偏置項。由式(6)形成特征矩陣Mk保留了時序特征,可以按行的順序依次輸入到LSTM當中,完成時序特征的學習。

2.2 融合多路特征的雙向LSTM層

對于長文本而言,單詞的上下文信息充足,往往存在長距離的語義關聯(lián),相比于特征少、時序信息不足的短文本,長文本對特征的時序性有著更高的要求。在特征輸入LSTM之前,多路卷積先進行特征融合,并不能保證融合后特征的時序性,大大影響了LSTM對長文本的時序特征學習過程。令M1,M2分別表示不同路卷積所形成的特征圖矩陣,若將M1與M2橫向拼接,由于卷積核大小不同造成M1與M2在行維度上不同,只能使用0填充,讓卷積后的特征圖尺寸保持不變,這將導致M1與M2的時序特征不能完全保持對齊,造成整體時序特征質(zhì)量下降的問題。若將M1與M2縱向拼接,則不能保證拼接后整體特征保持全局有序性。

為了避免上述融合方式的不足,本文的模型在每一路均使用雙向LSTM學習時序特征,將每一路的雙向時序特征進行拼接表示最終文本,避免了各路特征在進入LSTM之前就進行融合所導致的時序特征質(zhì)量下降的問題。由于傳統(tǒng)的正向LSTM只能學習特征的上文信息,忽視了特征的下文信息,本文使用了雙向LSTM同時學習特征的上下文信息,極大地提高了模型的時序特征學習能力。為了充分利用LSTM所有時刻的輸出特征,模型通過注意力機制對LSTM每個時刻的特征進行加權求和,提高LSTM的輸出質(zhì)量,本文的雙向LSTM層如圖3所示。

圖3 雙向LSTM層

令i代表第i個時刻且i∈[0,t],xi表示第i個時刻的輸入向量。Mk代表一路卷積所形成的特征圖矩陣,則Mk可以表示成多個行向量的拼接,如式(7)所示。

Mk=x0⊕x1⊕…⊕xt

(7)

LSTM按時間順序接收xi作為輸入向量,ct表示LSTM單元狀態(tài),ht表示LSTM單元最終輸出。ft、it、ot分別表示遺忘門、輸入門與輸出門,σ表示Sigmoid激活函數(shù),Wf、Wi、Wo、Wc、bf、bi、bo、bc為網(wǎng)絡需要學習的參數(shù),LSTM的最終輸出計算如式(8)~式(13)所示。由于模型使用了雙向LSTM學習時序特征,所以雙向LSTM的最終輸出由正向LSTM輸出與反向LSTM輸出拼接得到。

由于LSTM只能學習得到最后一個時刻的輸出向量,不能對每個時刻的輸出充分利用,本文使用注意力機制完成各個時刻輸出特征的加權融合。令Hi表示第i個時刻的雙向LSTM層的輸出向量,ei表示Hi對整個文本語義表示的重要程度,ai表示Hi對整個文本語義表示貢獻的權重。根據(jù)上述定義,雙向LSTM層的注意力權重計算如式(14)、式(15)所示。

其中,uT、Wa、ba是網(wǎng)絡需要學習的參數(shù),tanh為非線性激活函數(shù)。在得到雙向LSTM層的各個時刻的注意力權重后,使用式(16)對雙向LSTM層的所有時刻的輸出向量進行加權求和,最終得到的向量v就是整個雙向LSTM層最終輸出的特征向量。

(16)

令vi表示第i路卷積特征經(jīng)由雙向LSTM層之后學習得到的文檔表示向量,則模型最終形成的文檔表示向量vd可表示為n路卷積文檔表示向量的拼接,如式(17)所示。

vd=v1⊕v2⊕…⊕vn

(17)

在得到文本的最終表示向量vd后,將vd經(jīng)由全連接層與Softmax層進行最終的類別輸出。令c表示某個分類,n表示分類數(shù),d表示文檔向量vd經(jīng)由全連層后的輸出向量,dc表示向量d中屬于類別c的分量值,pc表示文本為分類c的概率,Wc與bc為全連接層網(wǎng)絡需要學習的參數(shù),f為非線性激活函數(shù),則pc計算如式(18)、式(19)所示。

3 實驗設置

3.1 實驗環(huán)境與數(shù)據(jù)集

實驗環(huán)境如表1所示,所有實驗均使用科研機構或學者公開的預訓練詞向量,包括: Word2Vec[23-24](1)https://github.com/Embedding/Chinese-Word-Vectors(2)drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21-pQmM與GloVe[25](3)https://nlp.stanford.edu/projects/glove/。所有數(shù)據(jù)集均為公開數(shù)據(jù)集,詳細信息如表2所示。

表1 實驗環(huán)境

表2 數(shù)據(jù)集詳細信息

各數(shù)據(jù)集均進行了預處理,去除了標點符號、特殊字符,并進行了分詞,對于傳統(tǒng)機器學習方法去除了停止詞,對深度學習方法沒有去除停止詞,數(shù)據(jù)集基本介紹如下:

(1)IMDB(4)http://ai.stanford.edu/~amaas/data/sentiment/: 英文電影評論情感二分類數(shù)據(jù)集,分為積極評論與消極評論,情感極性較為明顯,分類難度較低。

(2)20NewsGroups(20NG)(5)http://qwone.com/~jason/20Newsgroups/: 英文文本分類數(shù)據(jù)集,數(shù)據(jù)集復雜,部分分類之間相似度較高,分類難度大。

(3)復旦大學中文數(shù)據(jù)集(Fudan)(6)https://download.csdn.net/download/lee0_king/10601701: 由復旦大學自然語言處理小組公開,文本多為文獻內(nèi)容,噪聲特征較多,文本篇幅長。

(4)THUCNews新聞數(shù)據(jù)集(THUC)(7)http://thuctc.thunlp.org/: 清華大學公開的中文新聞數(shù)據(jù)集,噪聲特征少,由于數(shù)據(jù)全集樣本數(shù)過多,本文從中隨機抽取了42 000條樣本供實驗使用。

3.2 基線方法

本文對比了如下方法:

(1)SVM、NBSVM: 使用了文獻[4]中結合bi-gram特征的SVM算法與NBSVM算法。

(2)AT-LSTM: 使用全局信息指導局部注意力機制對LSTM各時刻的輸出加權進行情感分類,出自文獻[7]。

(3)BiLSTM-MHAT: 結合Multi-head Attention的雙向LSTM,出自文獻[8]。

(4)CNN-non-static、CNN-multichannel: CNN首次用于文本分類的經(jīng)典模型,前者為單通道,后者為雙通道,出自文獻[9]。

(5)Capsule: 膠囊神經(jīng)網(wǎng)絡在文本分類中的首次探索,使用了文獻[11]中的Capsule-B模型。

(6)RCNN: 對每個特征使用雙向RNN計算特征的前后文信息,出自文獻[13]。

(7)C-LSTM: 使用的是文獻[14]中三路卷積,不使用池化方式的模型。

(8)CNN-LSTM-1: 方法為文獻[15]中使用兩路卷積,不使用任何池化方式的模型。

(9)CNN-LSTM-2: 使用兩路卷積,每一路連續(xù)使用卷積池化堆疊提取特征,出自文獻[16]。

(10)BRCAN: 先用雙向結構學習時序特征,再使用CNN結合注意力機制學習空間特征,出自文獻[18]。

(11)NN-PA: 短語注意力機制的模型,使用了文獻[19]中的NN-PA2方法。

(12)C-HAN: 結合卷積與層次注意力網(wǎng)絡的模型,使用的是文獻[20]中基于單詞特征的模型。

(13)CFC-LSTM-single、CFC-LSTM-multi: 本文的混合模型,全稱為Channel Fusion CNN-LSTM,single代表單路卷積,multi代表多路卷積。

3.3 參數(shù)設置

實驗對所有模型的超參數(shù)進行了調(diào)參范圍限定,在有限的范圍內(nèi)搜索出當前最優(yōu)的超參數(shù)組合,中英文預訓練詞嵌入的維度均為300維,模型結構、卷積核大小與原論文的設定保持相同,卷積核個數(shù)范圍為16~512,LSTM隱藏層神經(jīng)元個數(shù)范圍為16~256,全連接層神經(jīng)元個數(shù)范圍為16~256,取值為2的整數(shù)冪。為了防止模型過擬合,在LSTM層與全接連層均使用了Dropout正則化,Dropout取值范圍為0.2~0.5,模型的初始學習率為0.001,優(yōu)化算法使用Adam。模型最大訓練輪數(shù)為100,數(shù)據(jù)的批尺寸大小為64,在訓練樣本中,80%用于訓練集,20%用于驗證集。

3.4 評價指標

在分類問題中通常使用精度(P)、召回率(R)、F1值、準確率(ACC)等評價模型的性能,令TP表示預測為正的正樣本,F(xiàn)P表示預測為正的負樣本,F(xiàn)N表示預測為負的正樣本,TN表示預測為負的負樣本,混淆矩陣如表3所示,指標計算如式(20)~式(23)所示。本文使用準確率ACC與綜合反映分類器性能的宏平均F1值評估分類效果,宏平均F1值可以看作多個二分類F1指標值的算術平均值。

表3 混淆矩陣

4 結果與分析

4.1 模型在公開數(shù)據(jù)集上的性能對比

表4是各種分類方法在公開數(shù)據(jù)集上的分類準確率與宏平均F1值,第一欄是傳統(tǒng)機器學習模型,第二欄是只學習空間或時序特征的單一模型,第三欄是混合模型,第四欄是本文的模型,single代表單路卷積,multi代表多路卷積。通過實驗結果可以發(fā)現(xiàn),本文的混合模型相比于傳統(tǒng)機器學習模型及單一神經(jīng)網(wǎng)絡模型而言,在各個數(shù)據(jù)集上的分類性能取得了顯著的提升,比傳統(tǒng)SVM的準確率平均提升了4.3%,比經(jīng)典CNN模型CNN-non-static的準確率平均提升了1%。雙通道模型CNN-multichannel相比于單通道模型CNN-non-static并沒有取得穩(wěn)定的性能提升,甚至出現(xiàn)下降,這與文獻[9]實驗結果相同,說明通道數(shù)的簡單增加,引入更多的特征并不一定有利于分類任務,而本文的混合模型即使在一路卷積的情況下,在各數(shù)據(jù)集上的分類性能明顯超過了CNN-multichannel使用三路卷積的模型,原因一方面是本文的混合模型結合了LSTM層進行時序特征學習,另一個關鍵的原因是本文模型使用了更為合理的雙通道構建方式以及更為有效的在雙通道上執(zhí)行卷積的方法。由于本文的混合模型使用了雙通道豐富文本表示,在卷積過程中融合了跨通道的特征,并優(yōu)化了空間特征與時序特征結合的方式,在IMDB、20NG、THUC三個數(shù)據(jù)集上相比于其他混合模型均取得了更好的分類性能。在Fudan數(shù)據(jù)集上所有模型的宏平均F1值明顯低于準確率,這是由于Fudan數(shù)據(jù)集屬于不平衡數(shù)據(jù)集,宏平均F1值受到了少數(shù)類錯分的影響。在Fudan數(shù)據(jù)集上,本文的混合模型分類性能不如RCNN,主要是由于Fudan數(shù)據(jù)集噪聲特征較多。因本文的混合模型沒有使用池化,容易受到噪聲特征的干擾,而RCNN模型模擬了卷積的核心思想,最大池化可以充分過濾噪聲特征,因此分類性能更好,所以本文的混合模型在噪聲特征較少的數(shù)據(jù)集上性能表現(xiàn)更好,更為適用。

表4 各種分類方法在公開數(shù)據(jù)集上的準確率與宏平均F1值(%)

4.2 雙通道嵌入層的有效性驗證

本節(jié)以CNN-multichannel驗證本文雙通道構建方法的有效性。CNN-multichannel使用了同種預訓練詞嵌入構建雙通道,在訓練開始時通道間的差異最小,由于權重只在一個通道更新,隨著訓練過程通道差異會變大,不變的通道代表了通用特征,更新的通道代表向特定任務調(diào)整;本文的雙通道使用不同的詞嵌入,在訓練開始時通道差異最大,權重的更新經(jīng)由雙通道,隨著訓練過程通道間差異變小,均向特定任務調(diào)整。將CNN-multichannel的構建方法命名為Multi-1,本文的方法命名為Multi-2,以單通道作為基準,圖4以Word2Vec構建Multi-1,圖5以GloVe構建Multi-1,Multi-2則由Word2Vec與GloVe分別構成。結果表明,相比于單通道,Multi-2可以取得更為穩(wěn)定的提升效果,而Multi-1并沒有因為雙通道而帶來性能上的穩(wěn)定提升,甚至出現(xiàn)下降,這是由于始終保持權重靜止的通道既有可能為特定任務帶來通用特征從而提升分類效果,也有可能因為通用特征的存在導致特定任務特征的重要程度被平均化,反而不如單通道特征。Multi-2除了引入更豐富的特征以外,在雙通道上同時向特定任務調(diào)整,保證了效果提升更加穩(wěn)定。圖4中,相比Word2Vec,單通道最大提升0.3個百分點;圖5中,相比GloVe,單通道最大提升0.53個百分點。

圖4 使用Word2Vec作為單通道的對比結果

圖5 使用GloVe作為單通道的對比結果

4.3 卷積模式對模型性能的影響

本節(jié)驗證卷積模式對模型性能的影響,對以下兩種卷積過程進行了對比: ①使用CNN-multichannel進行雙通道特征學習,權重的更新在雙通道同時進行; ②本文的卷積方式,在每個通道進行空間特征學習,然后進行跨通道特征融合。在實驗中將CFC-LSTM-multi中的LSTM層取消,保證模型處于同一規(guī)模,實驗結果如圖6所示。

圖6 不同卷積模式下的性能對比

可以發(fā)現(xiàn)方式二的卷積方式相比于方式一在各數(shù)據(jù)集上取得了穩(wěn)定的提升,說明了將空間特征學習過程與通道特征學習過程進行分離,相比于混合學習空間特征與通道特征更加有效,這種設計思路借鑒了谷歌的圖像模型Xception[26],說明了在多通道表示下的文本數(shù)據(jù),將空間特征學習過程與跨通道特征融合過程分離學習是更為有效的卷積模式,在THUC數(shù)據(jù)集上準確率最大提升0.21個百分點。

4.4 時序特征結合方式對模型性能的影響

在公開數(shù)據(jù)集的對比實驗中,C-LSTM并沒有因為LSTM的加入,取得超越CNN-non-static的效果,關鍵的原因是由于多路卷積在拼接時,對特征時序性產(chǎn)生了不良影響,無法保證后續(xù)LSTM層的輸入特征質(zhì)量。本節(jié)探究了多路卷積與LSTM結合方式對混合模型最終性能的影響。方式一先進行多路卷積特征融合,融合后通過LSTM學習時序特征;方式二在每一路卷積之后直接使用LSTM學習時序特征。為了減少模型規(guī)模造成的干擾,通過堆疊方式一的LSTM以增加模型規(guī)模,然后在參數(shù)設置中指定的超參數(shù)范圍內(nèi)進行搜索,實驗結果如圖7所示??梢园l(fā)現(xiàn),方式一的效果在各數(shù)據(jù)集均不如方式二,最差情況下,準確率比方式二要落后0.33個百分點。

圖7 兩種LSTM結合方式對比

4.5 注意力機制對模型性能的影響

由于LSTM在不同時刻所形成的文本表示對最終分類任務的重要程度不同,僅利用最后時刻的輸出表示最終文本并不能充分體現(xiàn)文本不同部分的重要程度。本節(jié)以CFC-LSTM-single為例,探索平均池化、最大池化與注意力機制對分類性能造成的影響,實驗結果如圖8所示。可以發(fā)現(xiàn)平均池化的效果甚至不如直接使用LSTM最后時刻作為輸出。在主題分類任務中更能突出全局關鍵特征的最大池化可以取得接近,甚至超過注意力機制的效果,但是在情感分類IMDB數(shù)據(jù)集上,注意力機制優(yōu)勢明顯,更容易捕獲對全文情感極性造成重要影響的部分。總體而言,相較于原始LSTM,注意力機制的使用對模型的性能有著穩(wěn)定的提升效果,平均提升了0.5個百分點。

圖8 不同池化方式對模型性能的影響

4.6 模型的訓練代價分析

本節(jié)對模型的訓練代價進行分析,以平均特征數(shù)最多的Fudan數(shù)據(jù)集為例,各模型的每輪訓練時間如圖9所示。實驗結果表明,傳統(tǒng)SVM相關模型與單一卷積模型的訓練代價明顯低于使用了RNN結構的模型,說明了RNN在進行長文本建模時具有訓練效率較低的缺點。在與其他混合模型的對比中,可以發(fā)現(xiàn)本文的單路模型CFC-LSTM-single的訓練代價相對較低,但是多路模型CFC-LSTM-multi的訓練代價較大。

圖9 各模型在Fudan數(shù)據(jù)集的每輪訓練時間

為了探索造成CFC-LSTM-multi模型訓練代價較大的具體原因,在圖10的實驗中,將CFC-LSTM-single的卷積部分CFC單獨分離作為對比基準,與CFC-LSTM-single、CFC-LSTM-multi進行了各數(shù)據(jù)集上每輪訓練時間的對比。通過圖10的實驗結果可以發(fā)現(xiàn),相比于單路卷積模型CFC而言,混合模型的訓練時間開銷主要有兩個方面: 一是雙向LSTM層的引入,二是卷積路數(shù)的增加。由于文本數(shù)據(jù)的特征通常較多,LSTM的時間步往往上百甚至上千,如果使用雙向LSTM學習文本的上下文信息,所花費的時間將更長,這也是LSTM作為RNN系列之一在處理長文本時的固有缺點。相比于單路模型,適當增加模型并聯(lián)的路數(shù),混合模型的擬合能力更強,有助于提高模型最終的分類性能,但是模型由于并聯(lián)路數(shù)的增加也帶來了參數(shù)量上的明顯增多,所以需要耗費更大的時間代價去訓練。

圖10 CFC-LSTM相關模型每輪訓練時間對比

4.7 長短文本數(shù)量比例對模型性能的影響

由于THUC數(shù)據(jù)集的樣本數(shù)與分類數(shù)較多,樣本中的噪聲特征少,故本文選取了THUC數(shù)據(jù)集10 000條樣本作為訓練集,10 000條樣本作為測試集,訓練集與測試集均為平衡數(shù)據(jù)集,在各分類下樣本數(shù)量基本相同,避免不平衡因素帶來的干擾。在此基礎上,通過改變樣本中長文本與短文本所占的數(shù)量比例,驗證混合模型在不同長短文本數(shù)量比例之下的分類性能表現(xiàn)。在構建數(shù)據(jù)集時,短文本的最大特征數(shù)不超過100,長文本的最少特征數(shù)不低于300,實驗結果如圖11所示。通過實驗結果可以發(fā)現(xiàn),本文提出的混合模型隨長文本數(shù)量的增加分類性能越來越好,說明了特征少、時序性不足的短文本分類難度要高于長文本。在完全由長文本組成的數(shù)據(jù)集中,本文的混合模型性能達到最優(yōu),因此本文的模型更偏向于長文本分類任務。

圖11 長文本數(shù)量比例對模型性能的影響

5 結束語

本文提出了一種融合通道特征的混合神經(jīng)網(wǎng)絡文本分類模型,使用基于預測與基于統(tǒng)計的方式構建了雙通道詞嵌入,在卷積中進行了通道特征融合,增強了卷積層空間特征學習能力,為了更好地與時序特征結合,模型在每路卷積后使用雙向LSTM學習時序特征,避免了過早進行卷積特征融合對融合后的特征時序性造成破壞。實驗表明,本文的混合模型在各數(shù)據(jù)集準確率相較于傳統(tǒng)CNN模型平均提升了1%。由于長文本特征多,時序信息足,本文模型更適用于長文本分類任務。未來工作中,我們將對各路卷積的重要程度進行研究,選擇最為合適的卷積路數(shù)與感受野大小,降低模型的訓練時間開銷,并嘗試用其他注意力機制進一步優(yōu)化模型性能。

猜你喜歡
雙通道時序雙向
雙向度的成長與自我實現(xiàn)
單側雙通道內(nèi)鏡下腰椎融合術研究進展
基于Sentinel-2時序NDVI的麥冬識別研究
近端胃切除雙通道重建及全胃切除術用于胃上部癌根治術的療效
基于FPGA 的時序信號光纖傳輸系統(tǒng)
一種毫米波放大器時序直流電源的設計
一種軟開關的交錯并聯(lián)Buck/Boost雙向DC/DC變換器
一種工作頻率可變的雙向DC-DC變換器
采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
基于雙向預測的圖像去噪