萬(wàn) 錚,王 芳,黃樹成
(江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江 212114)
文本分類是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)基礎(chǔ)且重要的任務(wù),在新聞推薦、搜索引擎、垃圾郵件檢測(cè)等方面都有著重要應(yīng)用。盡管文本分類已經(jīng)有著多年的發(fā)展歷史,但仍存在著一些不足之處。目前文本分類仍是自然語(yǔ)言處理領(lǐng)域研究的一個(gè)熱點(diǎn)問(wèn)題。文本分類是指通過(guò)一定的算法,給輸入的文本分配一個(gè)或多個(gè)預(yù)先設(shè)定好的標(biāo)簽[1]。若只為每個(gè)文本分配一個(gè)標(biāo)簽,則稱為單標(biāo)簽文本分類;若為每個(gè)文本分配一個(gè)及以上的標(biāo)簽,則稱為多標(biāo)簽文本分類。
隨著信息技術(shù)的快速發(fā)展,人們進(jìn)入了一個(gè)信息爆炸的時(shí)代,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I钪蝎@取信息的主要途徑之一。其中絕大部分信息都是以文本形式存在的,面對(duì)著鋪天蓋地的文本信息,光靠人力維護(hù)是不可能的。那么如何通過(guò)機(jī)器自動(dòng)將這些文本信息進(jìn)行分類以方便人們更好地獲取,成為當(dāng)下的一個(gè)研究難題。人們最先把機(jī)器學(xué)習(xí)方法用于文本分類,如改進(jìn)的TF-IDF、支持向量機(jī)[2]、樸素貝葉斯[3]等。傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法將整個(gè)文本分類問(wèn)題拆分成特征工程和分類器兩部分。特征工程分為文本預(yù)處理、特征提取、文本表示3 部分,最終目的是把文本轉(zhuǎn)換成計(jì)算機(jī)可理解的數(shù)字,并封裝足夠用于分類的信息,再進(jìn)行分類[4]。雖然這些方法在一定程度上解決了文本分類問(wèn)題,但仍存在著一些弊端。這些方法過(guò)于依賴人工設(shè)計(jì)的特征,并且對(duì)于文本的表示還存在數(shù)據(jù)稀疏和特征向量緯度過(guò)高的問(wèn)題,對(duì)于網(wǎng)絡(luò)新聞中出現(xiàn)的大量新詞不能很好地表示其語(yǔ)義特征。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,涌現(xiàn)出越來(lái)越多性能良好的深度學(xué)習(xí)模型。這些模型不僅能很好地解決傳統(tǒng)機(jī)器學(xué)習(xí)方法存在的數(shù)據(jù)稀疏和特征向量維度過(guò)高的問(wèn)題,而且準(zhǔn)確度也明顯提升。但是單一的深度學(xué)習(xí)模型也有其局限性,如TextCNN 只關(guān)注到了局部信息,而往往會(huì)忽略掉全局語(yǔ)義,造成分類效果不佳。基于此,本文提出一種混合多神經(jīng)網(wǎng)絡(luò)的BA-InfoCNN-BiLSTM 模型。
若想要讓計(jì)算機(jī)處理語(yǔ)句或文檔,首先需要將這些語(yǔ)句或文檔轉(zhuǎn)換成數(shù)字,將字或詞轉(zhuǎn)換為向量的過(guò)程稱為詞嵌入。最開始采用One-Hot 編碼,用于判斷文本中是否具有該詞語(yǔ)。后來(lái)發(fā)展成根據(jù)詞語(yǔ)在文本中的分布情況對(duì)詞進(jìn)行表示。近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,直接推動(dòng)了詞嵌入技術(shù)的變革,使得分布式的詞語(yǔ)表達(dá)得到了大量使用。分布式表示可以克服獨(dú)熱表示的缺點(diǎn),解決了詞匯表示與位置無(wú)關(guān)的問(wèn)題。分布式表示通過(guò)計(jì)算向量之間的距離(歐氏距離、余弦距離)體現(xiàn)詞與詞之間的相似性。Bengio 等[5]最早使用神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建語(yǔ)言模型。2013 年,Mikolov 等[6]提出一種淺層神經(jīng)網(wǎng)絡(luò)概模型Word2Vec,其包括Continuous Bag-of-Words[7]和 Skip-Gram[8]兩種模型訓(xùn)練方法,通過(guò)分布式假設(shè)(如果兩個(gè)詞的上下文是相似的,其語(yǔ)義也是相似的)直接學(xué)習(xí)詞的詞向量,同時(shí)為了減少輸出層的計(jì)算量,使用層次softmax 和負(fù)采樣對(duì)其進(jìn)行優(yōu)化。但該方式只考慮了文本的局部信息,未能有效利用整體信息。針對(duì)此問(wèn)題,Pennington 等[9]提出全局詞向量(Global Vectors,Glove)模型,同時(shí)考慮了文本的局部信息與整體信息。但無(wú)論是Word2Vec 還是Glove,本質(zhì)上都是一種靜態(tài)的詞嵌入方式,無(wú)法解決一詞多義的問(wèn)題。2018年,谷歌提出的BERT 模型解決了一詞多義的問(wèn)題[10]。BERT 模型通過(guò)聯(lián)合調(diào)節(jié)所有層中的左右上下文來(lái)預(yù)訓(xùn)練未標(biāo)記的文本深度雙向表示,此外還通過(guò)組裝長(zhǎng)句作為輸入,增強(qiáng)了對(duì)長(zhǎng)距離語(yǔ)義的理解。
在捕獲文本特征方面,Hochreiter 等[11]提出的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)解決了梯度爆炸和梯度消失問(wèn)題;Kalchbrenner 等[12]提出動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)模型處理長(zhǎng)度不同的文本,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于NLP;Kim[13]提出文本分類模型TextCNN,該模型結(jié)構(gòu)更簡(jiǎn)單,利用多個(gè)大小不同的卷積核提取文本中的特征,然后對(duì)這些不同粒度的特征進(jìn)行池化操作,從而得到更準(zhǔn)確的局部特征;陳珂等[14]利用多通道卷積神經(jīng)網(wǎng)絡(luò)模型,從多方面的特征表示學(xué)習(xí)輸入句子的文本信息;Long 等[15]將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與多頭注意力機(jī)制相結(jié)合對(duì)社交媒體文本進(jìn)行分類,克服了傳統(tǒng)機(jī)器學(xué)習(xí)中的不足。本文在前人研究的基礎(chǔ)上,通過(guò)融入前文信息對(duì)傳統(tǒng)的TextCNN 作出了改進(jìn)。
本文提出的BA-InfoCNN-BiLSTM 模型通過(guò)在詞嵌入層后加入注意力機(jī)制進(jìn)行殘差連接來(lái)提升重要詞的比重,再通過(guò)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)分別提取局部和全局特征,最后將特征進(jìn)行融合后用于分類。模型整體結(jié)構(gòu)如圖1 所示,由輸入層、BERT 嵌入層、權(quán)重詞向量層、改進(jìn)的卷積層、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層和輸出層組成。
Fig.1 BA-InfoCNN-BiLSTM model structure圖1 BA-InfoCNN-BiLSTM 模型結(jié)構(gòu)
本模型嵌入層的目的是將文本轉(zhuǎn)化為詞向量,首先需要解決的問(wèn)題就是分詞。對(duì)于英文文本,單詞與單詞之間本就以空格隔開,所以英文文本不需要進(jìn)行額外的分詞操作。與英文文本不同的是,中文文本是由字構(gòu)成,字本身就可以表達(dá)出一定的含義,而字與字之間又可以組成詞,表達(dá)出新的語(yǔ)義。如今兩種比較流行的分詞方式是:一是像英文文本分詞那樣,以字為粒度,直接將文本中的字映射為一個(gè)向量,這種做法雖然方便,但是往往會(huì)割裂文本中字與字所組成的詞的意思;二是利用像Jieba 這樣的分詞工具先對(duì)文本進(jìn)行分詞,再將得到的詞轉(zhuǎn)化為詞向量,但這種方式存在著更嚴(yán)重的弊端,因?yàn)榉衷~的好壞會(huì)在很大程度上影響最后的分類結(jié)果。
如今的分詞工具對(duì)于陌生詞的分詞效果較差,在專業(yè)名詞上更是嚴(yán)重依賴于用戶構(gòu)建的詞典,并且對(duì)長(zhǎng)詞的分詞效果較差。而新聞標(biāo)題中往往會(huì)產(chǎn)生大量新詞,嚴(yán)重影響分詞的正確性,從而干擾最后的分類效果。因此,模型使用基于字粒度的詞嵌入方式來(lái)彌補(bǔ)該弊端。BERT 的中文版本正是以字為單位進(jìn)行嵌入的,十分適合作為嵌入層。BERT 的兩大功能分別是預(yù)訓(xùn)練和微調(diào)。預(yù)訓(xùn)練有兩大任務(wù):一是掩碼語(yǔ)言模型,即隨機(jī)遮掩一部分詞,然后讓模型預(yù)測(cè)這些詞;二是下一句預(yù)測(cè),即判斷兩個(gè)句子之間是否有上下文關(guān)系來(lái)增強(qiáng)模型對(duì)句子的理解能力。微調(diào)則是在進(jìn)行下游任務(wù)時(shí),模型不斷調(diào)整其參數(shù)的過(guò)程,但由于BERT 的結(jié)構(gòu)是由12 個(gè)Transformer 編碼器構(gòu)成,計(jì)算量較大,十分消耗時(shí)間,所以本實(shí)驗(yàn)過(guò)程中并沒(méi)有選擇進(jìn)行微調(diào),而只是使用在大規(guī)模語(yǔ)料上預(yù)訓(xùn)練過(guò)的BERT 模型參數(shù)完成字到詞向量的轉(zhuǎn)換。設(shè)有文本T={t1,t2,t3...tn},文本長(zhǎng)度為n,將其送入BERT 模型,得到該文本的詞向量矩陣E={e1,e2,e3...en}。矩陣大小是n*d,其中d 是每個(gè)字的維度。然后將BERT 生成的矩陣E作為注意力層的輸入。
本模型在BERT 之后引入注意力機(jī)制。注意力機(jī)制最早是由Bahdanau 等提出的,用于模擬人腦的注意力模型,最早用于圖像處理方面。Vaswani 等[16]提出的Transformer便是基于自注意力機(jī)制獲得單詞間的長(zhǎng)距離依賴關(guān)系。本模型之所以在嵌入層后引入注意力機(jī)制,是由于在嵌入層中只使用了BERT 在其他語(yǔ)料上預(yù)訓(xùn)練得到的詞向量。但是為了避免大量運(yùn)算,在實(shí)驗(yàn)過(guò)程中并沒(méi)有進(jìn)行微調(diào),沒(méi)有發(fā)揮BERT 中自注意力機(jī)制的作用,而在新的語(yǔ)義環(huán)境中,每個(gè)詞在新聞標(biāo)題中的重要程度也會(huì)有所不同。所以在得到詞向量之后,需要通過(guò)注意力機(jī)制對(duì)字詞權(quán)重重新進(jìn)行分配,以體現(xiàn)不同詞對(duì)文本全局語(yǔ)義特征的重要程度。注意力分?jǐn)?shù)計(jì)算如式(1)所示。其中,Wa是可訓(xùn)練參數(shù),ba是偏置項(xiàng),tanh 是激活函數(shù),va是可學(xué)習(xí)的上下文向量。at是經(jīng)過(guò)softmax 函數(shù)后得到的ei的權(quán)重(見(jiàn)式(2)),然后將每個(gè)詞向量加權(quán)后進(jìn)行殘差連接得到si(見(jiàn)式(3)),最后將得到加權(quán)的詞嵌入矩陣S={s1,s2,s3...sn}分別送入改進(jìn)的卷積層和Bi-LSTM 層。
在注意力機(jī)制之后引入改進(jìn)的TextCNN 來(lái)提升模型對(duì)特征的捕捉能力。TextCNN 能夠通過(guò)使用不同大小的卷積核實(shí)現(xiàn)對(duì)N-Gram 特征的提取,從而獲取到不同層級(jí)的語(yǔ)義特征。但其短板是TextCNN 通過(guò)卷積只能獲得文本的局部依賴關(guān)系,而忽視了遠(yuǎn)距離語(yǔ)義的影響。所以針對(duì)該問(wèn)題,本模型對(duì)TextCNN 的卷積層進(jìn)行了一些改進(jìn)。從整體上而言,對(duì)語(yǔ)義的理解是以從左到右的順序進(jìn)行的,所以進(jìn)行卷積操作的詞之前的文本信息是十分重要的。為解決TextCNN 只關(guān)注局部信息的問(wèn)題,在進(jìn)行卷積操作的過(guò)程中,通過(guò)不斷融入前文信息來(lái)提升模型性能。InfoCNN 過(guò)程如圖2所示。
Fig.2 InfoCNN process圖2 InfoCNN過(guò)程
首先根據(jù)詞向量矩陣S={s1,s2,s3...sn}生成其前文語(yǔ)義矩陣R={r0,r1,r2...rn},如式(4)所示:
其中,r0為零向量,然后用全連接層進(jìn)行降維,得到前文信息向量G={g0,g1,g2...gn}。接著再用窗口大小為2、3、4 的卷積核W 進(jìn)行卷積操作,每次卷積操作得到特征ci,提取局部特征的公式如式(5)所示:
其中,h為卷積核Wh滑動(dòng)窗口的大小,卷積核Wh的大小是h*d,d是詞向量維度。Si:i+h-1為從S中第i行到i+h-1行的局部文本矩陣,bh為偏置項(xiàng),f代表非線性激活函數(shù)。最后,結(jié)合提取的局部特征和前文信息特征,最終得到的卷積結(jié)果ui如式(6)所示:
最后,在得到的結(jié)果U中,采用最大值池化策略獲取每個(gè)通道的最大值,將這些值送入最后的輸出層。
由于循環(huán)神經(jīng)網(wǎng)絡(luò)特別適合處理序列數(shù)據(jù),已被成功應(yīng)用于自然語(yǔ)言處理等眾多時(shí)序問(wèn)題中。為了能有效解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失或爆炸問(wèn)題,本模型使用Bi-LSTM 對(duì)BERT 和注意力機(jī)制得到的權(quán)重詞向量矩陣進(jìn)行特征提取。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
Fig.3 LSTM structure圖3 LSTM 結(jié)構(gòu)
該網(wǎng)絡(luò)有3 個(gè)門:一是遺忘門,用來(lái)控制上一時(shí)刻Ct-1保存到當(dāng)前時(shí)刻Ct的特征信息,如式(7)所示;二是輸入門,其控制了此時(shí)網(wǎng)絡(luò)的輸入Xt保存到當(dāng)前時(shí)刻Ct的特征信息,計(jì)算方式如式(8)、式(9)所示;三是輸出門,用來(lái)控制當(dāng)前時(shí)刻Ct的輸出值Yt,計(jì)算方式如式(10)—式(12)所示:
但由于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)當(dāng)前時(shí)刻的輸出信息是由前一時(shí)刻的輸出信息和當(dāng)前時(shí)刻的輸入信息共同決定的,即當(dāng)前時(shí)刻的輸出信息只考慮了該時(shí)刻與該時(shí)刻之前的信息,而沒(méi)有考慮該時(shí)刻之后的信息,沒(méi)有充分利用上下文信息。為了解決這一問(wèn)題,Graves 等[17]提出雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)通過(guò)正向和逆向的LSTM 獲得第t時(shí)刻正向隱藏層狀態(tài)向量Ylt與逆向隱藏層狀態(tài)向量Yrt,并將Ylt和Yrt拼接起來(lái)作為最終的隱藏層狀態(tài)向量Yt,該向量包含了上下文信息。計(jì)算方式如式(13)所示:
模型最后的輸出層是把改進(jìn)的卷積層得到的結(jié)果與Bi-LSTM 層得到的結(jié)果進(jìn)行拼接融合,然后引入全連接層進(jìn)行降維,之后用Dropout 方法讓降維后的特征向量以一定的概率失活,從而避免出現(xiàn)過(guò)擬合現(xiàn)象。最后送入softmax函數(shù)[18]進(jìn)行分類,得到最終的預(yù)測(cè)結(jié)果。
為了驗(yàn)證本模型在新聞主題文本分類任務(wù)上的有效性,本文使用兩個(gè)以新聞為主題的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),如表1所示。
Table 1 Data set information表1 數(shù)據(jù)集信息
(1)新浪新聞數(shù)據(jù)集。新浪新聞數(shù)據(jù)集中的數(shù)據(jù)來(lái)自于新浪新聞2018—2022 年間產(chǎn)生的新聞標(biāo)題。通過(guò)收集這些新聞標(biāo)題,然后經(jīng)反復(fù)篩選壓縮及過(guò)濾后,整理生成新浪新聞數(shù)據(jù)集。該數(shù)據(jù)集共包含20 萬(wàn)條短文本,分為電子競(jìng)技、地產(chǎn)、體育、股市、科學(xué)、財(cái)經(jīng)、時(shí)事、教育、政治、明星10個(gè)類別,每類包含2萬(wàn)條數(shù)據(jù)。
(2)搜狐新聞數(shù)據(jù)集。通過(guò)網(wǎng)絡(luò)開源搜狐新聞數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,去除部分缺少標(biāo)簽的數(shù)據(jù),并去除新聞內(nèi)容,只保留新聞主題。數(shù)據(jù)集包含旅游、電子競(jìng)技、地產(chǎn)、軍事、體育、股市、科學(xué)、財(cái)經(jīng)、時(shí)事、教育、政治、明星共 12個(gè)類別。
(1)實(shí)驗(yàn)環(huán)境。本實(shí)驗(yàn)在PyCharm 上進(jìn)行代碼編寫,編程語(yǔ)言選擇Python 3.7 版本,深度學(xué)習(xí)框架選擇Pytorch 1.1 版本,CPU 型號(hào)為AMD EPYC 7302 16-Core Processor,內(nèi)存為252GB,GPU 型號(hào)為GeForce RTX 3080,顯存為10GB。
(2)實(shí)驗(yàn)參數(shù)。由于模型使用BERT 的中文版本進(jìn)行詞嵌入,所以詞向量的維度設(shè)為768。卷積層中使用3 種大小不同的二維卷積核,卷積核的高度分別為2、3 和4,卷積核寬度與詞向量維度相同,每種卷積核的數(shù)量為256。BiLSTM 層中的隱藏單元個(gè)數(shù)為128,dropout 的參數(shù)大小設(shè)置為0.1。每次訓(xùn)練的批次batch_size 大小為128,學(xué)習(xí)率大小為0.000 5,每句話的最大長(zhǎng)度為32,epoch 數(shù)為3。
本文將BA-InfoCNN-BiLSTM 模型與當(dāng)前較流行的幾種分類方法進(jìn)行了比較。
(1)TextCNN。由Kim[13]提出的TextCNN 在CNN 概念的基礎(chǔ)上,讓卷積核寬度與詞向量維度保持一致進(jìn)行特征提取,然后拼接最大值池化后的特征,最后送入softmax 函數(shù)進(jìn)行分類。
(2)TextRNN。由Liu[19]提出的TextRNN 在LSTM 概念的基礎(chǔ)上,取單向LSTM 最后一個(gè)時(shí)間步的隱藏層狀態(tài)向量作為新聞標(biāo)題的語(yǔ)義表示,然后將該向量送入softmax 函數(shù)中進(jìn)行分類。
(3)DPCNN。由Johnson 等[20]提出的一種通過(guò)增加卷積神經(jīng)網(wǎng)絡(luò)的深度來(lái)獲取長(zhǎng)距離語(yǔ)義關(guān)系的模型。
(4)FastText。Facebook 于2016 年開源的一種文本分類方法,F(xiàn)astText 在保證與CNN 和RNN 等深層網(wǎng)絡(luò)同等準(zhǔn)確率的基礎(chǔ)上,提升了訓(xùn)練速度。
(5)Att-BiLSTM。通過(guò)在雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)后引入注意力機(jī)制,對(duì)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取的特征分配不同權(quán)重,從而突出重要詞的作用。
(6)BERT。BERT 是一個(gè)多層雙向的Transformer Encoder 模型,主要分為兩個(gè)階段:預(yù)訓(xùn)練和微調(diào)。在預(yù)訓(xùn)練階段,模型會(huì)在大量沒(méi)有標(biāo)注的語(yǔ)料上進(jìn)行訓(xùn)練;在微調(diào)階段,模型會(huì)對(duì)預(yù)訓(xùn)練得到的參數(shù)進(jìn)行初始化,然后在進(jìn)行下游任務(wù)過(guò)程中對(duì)參數(shù)進(jìn)行調(diào)整。
本文使用準(zhǔn)確率作為評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果如表2、圖4所示。
Table 2 Accuracy表2 準(zhǔn)確率 %
Fig.4 Experimental results圖4 實(shí)驗(yàn)結(jié)果
BA-InfoCNN-BiLSTM 模型在新浪新聞數(shù)據(jù)集和搜狐新聞數(shù)據(jù)集上分別獲得了95.07%與84.95%的準(zhǔn)確率。與前6 個(gè)模型相比,BA-InfoCNN-BiLSTM 模型取得了最好的效果。與6 個(gè)模型中效果最好的Bert 模型相比,BA-Info-CNN-BiLSTM 模型在新浪新聞數(shù)據(jù)集上的準(zhǔn)確率提升了0.66%,在搜狐新聞數(shù)據(jù)集上的準(zhǔn)確率提升了0.71%,從而證明了BA-InfoCNN-BiLSTM 模型通過(guò)在詞嵌入后加入注意力機(jī)制補(bǔ)充詞的重要程度,再分別捕獲多粒度下的局部信息和全局語(yǔ)義信息,可以有效提升模型的準(zhǔn)確率。
為了驗(yàn)證BA-InfoCNN-BiLSTM 模型中不同組件對(duì)于模型的有效性,本文通過(guò)消融實(shí)驗(yàn)進(jìn)行驗(yàn)證。BA-BiLSTM為原模型中去掉了改進(jìn)TextCNN 層的模型,僅將BiLSTM最后一個(gè)時(shí)間步的隱藏狀態(tài)向量作為全局語(yǔ)義特征用于分類輸出。BERT-InfoCNN-BiLSTM 為原模型中去掉了注意力機(jī)制的模型,在嵌入層后使用改進(jìn)的TextCNN 層和BiLSTM 層分別捕捉局部與全局特征,將兩種特征融合后輸出。BA-InfoCNN 為原模型中去掉了BiLSTM 層的模型,使用改進(jìn)的TextCNN 層捕捉多個(gè)粒度下的局部語(yǔ)義特征并將其用于分類,同時(shí)將輸出改為直接輸出。BA-CNNBiLSTM 為了去掉原模型中對(duì)TextCNN 的改進(jìn)部分,使用融合后的結(jié)果用于分類。消融實(shí)驗(yàn)結(jié)果如表3所示。
Table 3 Ablation experiment results表3 消融實(shí)驗(yàn)結(jié)果 %
首先將BA-BiLSTM 的實(shí)驗(yàn)結(jié)果與本文提出的BA-InfoCNN-BiLSTM(以下簡(jiǎn)稱BAIB)進(jìn)行對(duì)比,在兩個(gè)數(shù)據(jù)集上BAIB 的效果都明顯優(yōu)于BA-BiLSTM,說(shuō)明提取局部信息對(duì)分類結(jié)果有一定影響。將BA-InfoCNN 的實(shí)驗(yàn)結(jié)果與BAIB 相比,BAIB 的效果要優(yōu)于BA-InfoCNN,說(shuō)明BiLSTM能夠有效提取全文信息特征,提升模型效果。BAIB 去除注意力機(jī)制之后的效果也不如BAIB,說(shuō)明使用注意力機(jī)制凸出詞在句子中的重要性對(duì)于提升分類效果也是很有必要的。最有意義的是,將沒(méi)有改進(jìn)的BAA-CNN-BiLSTM 融合模型與BAIB 進(jìn)行比較,發(fā)現(xiàn)融入前文信息的卷積網(wǎng)絡(luò)分類更準(zhǔn)確,模型對(duì)文本語(yǔ)義的理解更充分。
本文提出的文本分類模型BA-InfoCNN-BiLSTM 通過(guò)融合改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),解決了傳統(tǒng)的單一深度學(xué)習(xí)網(wǎng)絡(luò)提取信息不充分、分類效果差的問(wèn)題。相比于其他融合模型,本模型直接在詞嵌入后加入注意力機(jī)制,生成權(quán)重詞向量,突出重要詞對(duì)整體語(yǔ)義的影響,然后分別送入卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),同時(shí)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn)。在進(jìn)行卷積操作過(guò)程中融入部分前文信息,讓卷積神經(jīng)網(wǎng)絡(luò)不再僅關(guān)注局部信息。最終的實(shí)驗(yàn)結(jié)果表明,該方法對(duì)分類的準(zhǔn)確率有一定提升。接下來(lái)為了使模型得到進(jìn)一步優(yōu)化,可以從以下方面入手:考慮到文本進(jìn)行分類時(shí),文中存在較多干擾信息以及一些專業(yè)性較強(qiáng)的名詞,可以在詞向量動(dòng)態(tài)訓(xùn)練過(guò)程中加入對(duì)抗擾動(dòng),以進(jìn)一步提升生成的新聞文本詞向量的魯棒性以及表征能力。