武 淵,徐逸卿
(1.山西省人事考試中心,山西 太原 030000;2.南京林業(yè)大學 信息科學技術學院,江蘇 南京 210037)
傳統(tǒng)的互聯(lián)網(wǎng)中,人們獲取信息的方式比較有限,信息的傳遞方式主要是新聞門戶網(wǎng)站、BBS論壇社區(qū)、個人博客及維基百科等.如今,新聞行業(yè)數(shù)字化發(fā)展極大地滿足了人們“足不出戶而知天下事”的心愿;人們交流和溝通的渠道也大大增加,既有微博、抖音等一類的公共信息獲取平臺,還有基于私密信息分享的應用如微信、QQ等,這類新興的媒體每天都在產(chǎn)生海量的短文本信息[1-2].
互聯(lián)網(wǎng)短文本指那些長度較短的文本形式,一般不超過300字,短文本話題涉及經(jīng)濟、政治、文化、生活等各個方面.在互聯(lián)網(wǎng)新時代,人們在不斷地發(fā)出信息,也在持續(xù)不斷地接收信息.如何對呈現(xiàn)出爆炸式增長的以中文短文本形式表示的信息進行歸類、組織和利用是一個亟待解決的問題.一般來說,通常意義上的短文本具有高維、稀疏性、海量、內(nèi)容不規(guī)范、不均衡等特點.短文本的分類任務一般包括短文本預處理、特征選擇、模型訓練并預測三個步驟,如圖1 所示.
圖1 文本分類流程圖Fig.1 Flow chart of text classification
自從2006年加拿大多倫多大學教授Geoffrey Hinton在《科學》上發(fā)表了關于深度神經(jīng)網(wǎng)絡的文章后[3],學術界和工業(yè)界便紛紛刮起了深度學習的鉆研熱潮.深度學習的最終目的是通過模擬人腦的分析和學習過程來對圖像、文本、語音等信息進行抽象表示,本質(zhì)上屬于一種無監(jiān)督學習的方法.最近幾年人們在自然語言處理領域對深度學習相關算法的研究越來越深入,有研究表明,通過利用大規(guī)模語料來訓練語言模型可以在字符、詞、句、段落和篇章等不同結構層次上得到不同抽象層次的表示[4-5].在短文本分類任務上,我們同樣可以利用深度學習的方法來實現(xiàn).例如,Liu等[6]提出了具有兩個通道和三個內(nèi)核的多通道CNN模型,以提高文本分類的準確性.史偉等[7]提出了一種基于遷移學習的情感分析方法,在雙向長短型記憶網(wǎng)絡模型之上引入域適應層,以提高短文本分類能力.范濤等[8]利用基于雙向門循環(huán)單元的神經(jīng)網(wǎng)絡學習文本中不同模態(tài)的上下文關系,利用三重笛卡爾積的方式充分融合雙模態(tài)特征,從而獲得文本情感類別.上述研究往往對所有關鍵詞賦予相同的權重,此時,一個混淆關鍵詞就能對短文本的最終分類產(chǎn)生影響.本文采用多層異構注意力機制發(fā)掘強關鍵詞,并優(yōu)化權重配置,以提高分類精度.
本文從目前主要應用于短文本分類的深度學習方法中,選取實現(xiàn)了四種分類方法:TextCNN,TextRNN,TextRCNN,F(xiàn)astText,基于新聞標題的短文本數(shù)據(jù),進行實驗對比與分析總結,從而方便研究者做出針對性的改進研究,以及利于短文本的處理技術在人性化推薦、政府輿情分析決策、熱點事件發(fā)現(xiàn)、垃圾信息過濾等領域發(fā)揮重要的作用.
傳統(tǒng)的詞向量僅考慮特定詞與臨近上下文的局部關系特征,忽視了非連續(xù)詞的依賴關系.上下文注意力機制考慮了文章整體的連續(xù)性和關聯(lián)性,其關鍵思想如下:
對于一個特定文本,其文本特征矩陣可描述為一系列特征組合
(1)
式中:pi∈Rd是文本序列中第i個特征對應d維詞向量;m是給定文本特征向量個數(shù).
根據(jù)上下文關系,即特征向量之間存在的關聯(lián)性,判定出需要重點注意的特征.例如,對于特征pi,上下文關聯(lián)性決定了需要注意的特征pj(j≠i),上下文向量以及對應注意力權重可根據(jù)式(2)~式(6)得出.
(2)
(3)
relate(pi,pj)=tanh(θ[pi⊕pj]),
(4)
λi,j≥0,?1≤j≤m,j≠i,
(5)
(6)
式中:λi,j是特征對(pi,pj)之間的注意力得分;relate(pi,pj)是特征對(pi,pj)的相關性量化函數(shù);θ是注意力參數(shù)矩陣;?是指串聯(lián).
(7)
(8)
深度學習具有多層神經(jīng)元,隨著網(wǎng)絡層次的加深,不同層對于分類效果的影響不同.因此,本文將特征提取網(wǎng)絡和基于滲透假設的類平衡分層方法結合,將所提出的基于上下文關系的異構注意力機制置于不同層之間,從而構建多層注意力機制.
為克服過擬合現(xiàn)象,采用Dropout(丟棄法)對特征向量進行正則化處理.Dropout方法在深度學習前向訓練過程中隨機跳過神經(jīng)元單元之間的一定比例的隱藏連接,確保訓練后的模型不緊密依賴于某組神經(jīng)元單元.對于給定的一組特征向量,Dropout正則化的方式為
Yk=Wk(U·χ)+bk,
(9)
式中:Yk即為文本特征向量在第k層神經(jīng)網(wǎng)絡進行Dropout正則化后的輸出;Wk為第k層基于注意力機制的權重向量;U即為基于注意力機制的調(diào)制特征向量;χ為概率為1的伯努利隨機向量;bk指第k層的偏差.
圖2 為TextCNN模型圖,TextCNN詳細過程包括:Embedding,Convolution,MaxPolling和FullConnection and Softmax[9].文本分類的重點在于學習詞向量表示,并對學習的詞向量進行分類,而詞向量的本質(zhì)在于提取.本模型的設計思路是:訓練一個簡單的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN),在無監(jiān)督神經(jīng)語言模型得到的詞向量的基礎上進行一層卷積[10].具體流程是將句子映射到嵌入向量,并以矩陣的形式輸入到模型中,再適當?shù)厥褂貌煌笮〉木矸e核對所有輸入的詞執(zhí)行卷積操作;最后使用最大池化層處理得到的特征映射,將提取到的特征進行濃縮或匯總.
圖2 TextCNN模型圖Fig.2 The model diagram of TextCNN
作者在CNN卷積操作中采用了三種尺寸的卷積核,卷積核的大小由單詞個數(shù)與詞向量維度決定,文本分類中卷積核長度一般為詞向量維度,即水平方向沒有滑動,只是從上向下滑動.每個卷積核計算完成之后就得到了1個列向量,代表著該卷積核從句子中提取出來的特征,有多少個卷積核就能提取出多少種特征.不同尺寸的卷積核能夠從句子的不同維度特征,進一步挖掘出詞與詞的關聯(lián)性,從而分析出基本的語義單元.
本模型針對可變長度句子輸入的問題,采用max-pooling方法進行池化,此方法從列向量中提取最大值,即代表最重要的特征,因此,不管特征圖中有多少向量,取其中的最大值即可,最終池化層輸出為各個特征圖的最大值,即一維的向量.
傳統(tǒng)的方法通常是文本轉換成向量,但是忽略了文本上下文的信息,而CNN可以捕捉文本的上下文特征.因為它們能夠在不改變輸入序列位置的情況下提取出顯著的特征,具體到文本分類任務中就可以利用CNN來提取句子中類似N-gram 的關鍵信息,分析得到基本的語義單元,從而在表現(xiàn)方面遠好于經(jīng)典模型.
盡管CNN在很多任務里有不錯的表現(xiàn),但其最大問題是固定了卷積核的視野,因而無法建模更長的序列信息,而且卷積核的超參調(diào)節(jié)也很繁瑣.CNN本質(zhì)是做文本的特征表達工作,而自然語言處理(Natural Language Processing,NLP)中更常用的是循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN),RNN在網(wǎng)絡結構上相比前向深度神經(jīng)網(wǎng)絡多了一個循環(huán)的圈,其思想是假設RNN網(wǎng)絡每一步的預測結果是正確的,然后反復循環(huán)下去,每輸入一次,都得到該輸入對應的輸出.RNN層級結構圖如圖3 所示,RNN能夠更好地表達上下文信息.RNN作為自然語言處理領域的一個標配網(wǎng)絡,在序列標注、命名體識別、seq2seq模型等很多場景都有應用[11].
圖3 RNN層級結構圖Fig.3 The hierarchical structure diagram of RNN
具體實現(xiàn)過程是,首先獲取詞向量表示,即left context,其次將詞向量通過雙向RNN(在實際應用中可以是GRU或者LSTM)得到work embedding和right context,將left context,word embedding和right context三項進行拼接得到新的向量,將得到的新向量輸入到全連接層網(wǎng)絡進行整合,并使用tanh激活網(wǎng)絡進行激活,隨后將全連接神經(jīng)網(wǎng)絡的輸出進行池化操作,最后將池化后的結果輸入到全連接分類器中實現(xiàn)分類操作.
RNN模型具有短期記憶功能,天然就比較適合處理自然語言等序列問題,尤其是引入門控機制后,能夠解決長期依賴問題,可以捕獲輸入樣本之間的長距離聯(lián)系,因此,基于RNN的文本分類模型能夠有效建模文本的長距離依賴關系.且TextRNN的結構非常靈活[12],可以任意改變.例如:把LSTM單元替換為GRU單元,把雙向改為單向,添加dropout或Batch Normalization以及再多堆疊一層,等等.但是,由于RNN模型后一個時間步的輸出依賴于前一個時間步的輸出,無法進行并行處理,導致模型訓練的速度很慢,這是一個致命的弱點.且由于RNN是一個有偏倚的模型,在這個模型中,后面的單詞比前面的單詞更具優(yōu)勢,因此,當它被用于捕獲整個文檔的語義時,可能會降低效率,因為關鍵組件可能出現(xiàn)在文檔中的任何地方,而不一定是出現(xiàn)在最后,所以,考慮到運行效率并不推薦使用這種方法.
FastText是Facebook于2016年開源的一個詞向量計算和文本分類工具,它非常明顯的優(yōu)點就是快,在文本分類任務中,F(xiàn)astText(淺層網(wǎng)絡)往往能取得和深度網(wǎng)絡相媲美的精度,而且在訓練時間上比深度網(wǎng)絡低許多個數(shù)量級.在標準的多核CPU上,F(xiàn)astText能夠在10 min之內(nèi)訓練10億詞級別語料庫的詞向量,并且能夠在1 min內(nèi)分類有著30多種類別的50多萬個句子.
FastText結合了自然語言處理和機器學習中最成功的理念,包括使用詞袋以及N-gram袋表征語句,還有使用子詞(subword)信息,并通過隱藏表征在類別間共享信息.該模型另外采用了一個Softmax層級(利用了類別不均衡分布的優(yōu)勢)來加速運算過程[13].
FastText方法包含模型架構、層次Softmax和N-gram子詞特征三個部分.
FastText模型架構如圖4 所示,其中x1,x2,…,xN-1,xN表示一個文本中的N-gram向量,每個特征是詞向量的平均值,這和word2vec中的CBOW相似,但CBOW是用上下文去預測中心詞,而FastText是用全部的N-gram向量去預測指定類別.
圖4 FastText模型架構Fig.4 The model architecture of FastText
在層次Softmax部分,對于有大量類別的數(shù)據(jù)集,F(xiàn)astText使用了一個分層分類器替代了扁平式架構,使不同的類別被整合進樹形結構中.在某些文本分類任務中類別很多,計算線性分類器的復雜度很高,為了改善運行時間,F(xiàn)astText模型使用了層次 Softmax技巧.層次Softmax 技巧建立在哈弗曼編碼的基礎上,對標簽進行編碼時能夠極大地縮小模型預測目標的數(shù)量.
針對類別不均衡這個事實,即一些類別出現(xiàn)的次數(shù)比其他的更多,F(xiàn)astText通過使用哈弗曼算法建立用于表征類別的樹形結構.因此,頻繁出現(xiàn)類別的樹形結構的深度比不頻繁出現(xiàn)類別的樹形結構的深度要小,這也使得進一步的計算效率更高.層次Softmax結構如圖5 所示.
圖5 層次Softmax結構Fig.5 Hierarchical Softmax structure
最后一個部分為N-gram子詞特征,F(xiàn)astText 可以用于文本分類和句子分類.不管是文本分類還是句子分類,我們常用的特征是詞袋模型.但詞袋模型不能考慮詞之間的順序,因此,F(xiàn)astText 還加入了 N-gram 特征.在FastText 中,每個詞被看作是N-gram字母串包.為了區(qū)分前后綴情況,“<”,“>”符號被加到了詞的前后端.除了詞的子串外,詞本身也被包含進了N-gram字母串包.
FastText與基于神經(jīng)網(wǎng)絡的分類算法相比有兩大優(yōu)點:
1)FastText工具包中內(nèi)含的FastText模型具有十分簡單的網(wǎng)絡結構,并且使用層次Softmax結構來提升超多類別下的模型性能,使用N-gram特征提取來彌補模型過于簡單無法捕捉詞序特征的缺陷,進而提升精度.因此,F(xiàn)astText在保持高精度的情況下加快了訓練速度和測試速度[14].
2)FastText不需要預訓練好的詞向量,其本身在訓練過程中會產(chǎn)生詞向量,即詞向量是FastText分類的產(chǎn)物.
為了解決偏置問題,本文引入了卷積神經(jīng)網(wǎng)絡(CNN),將一個不帶偏見的模型引入到NLP任務中,它可以很好地確定文本中帶有最大池化層的識別性短語.因此,與遞歸或循環(huán)神經(jīng)網(wǎng)絡相比,CNN可以更好地捕捉文本的語義.但是以前對CNN的研究傾向于使用簡單的卷積核,如固定窗[11-13].使用這樣的內(nèi)核時,很難確定窗口大小,小窗口可能導致一些關鍵信息丟失,而大窗口會導致參數(shù)空間過大,從而導致難以訓練到一個魯棒的效果.
為了解決上述模型的局限性,本文提出了一個循環(huán)卷積神經(jīng)網(wǎng)絡(Recurrent Convolutional Neural Network,RCNN),并將其應用于文本分類任務.首先,該模型應用一個雙向的循環(huán)結構,與傳統(tǒng)的基于窗口的神經(jīng)網(wǎng)絡相比,它可以大大減少噪聲,從而最大程度地捕捉上下文信息.此外,該模型在學習文本表示時可以保留更大范圍的詞序.其次,該模型使用了一個可以自動判斷哪些特性在文本分類中扮演關鍵角色的池化層,以捕獲文本中的關鍵組件.本文模型結合了RNN的結構和最大池化層,利用了循環(huán)神經(jīng)模型和卷積神經(jīng)模型的優(yōu)點.此外,該模型顯示了線性階的時間復雜度,它與文本長度是線性相關的,大大降低了運算時間,在運算效率上有著較大的提升.
如圖6 所示,TextRCNN網(wǎng)絡主要由循環(huán)結構層、最大池化層及全連接層三部分構成.循環(huán)結構層只由Embedding層以及雙向RNN組成,Embedding使用的是預訓練的詞向量,使用的模型為word2vec的Skip-Gram模型,中英文的訓練語料都是Wikipedia語料.預訓練完成后,輸入的詞通過Embedding層后由one-hot形式轉為稠密詞向量,接著輸入到一個雙向RNN中.應用最大池化層可以自動篩選出最重要的特征,使向量中每一個位置的值都取所有時序上的最大值,將不同長度的輸入序列都轉化成一樣的維度來得到最終的特征向量.最后接上一個用于分類的全連接層,使用Softmax函數(shù)得到類別的概率分布.
圖6 TextRCNN模型結構圖Fig.6 Structure diagram of TextRCNN model
傳統(tǒng)的TextRNN的分類器只是將各時間步的輸出簡單求和,取平均值,而文本中不同位置的詞在分類任務中的權重不同.為了解決上述問題,并挖掘非連續(xù)詞的上下文關系,進一步提升算法分類精度,將多層異構注意力機制(MLHAM)融入上述構建的TextRCNN網(wǎng)絡.多層注意力機制基于滲透假設的類平衡分層求精方法,在卷積層和循環(huán)層的輸出特征中均加入異構注意力機制,最后經(jīng)過全局平局池化和全連接層進行分類.融合多層異構注意力機制的框架如圖7 所示.
圖7 MLHAM+TextRCNN模型結構圖Fig.7 Structure diagram of MLHAM +TextRCNN model
為了驗證所提出融合多層異構注意力機制和深度學習的短文本分類方法的精確性,下面給出所使用的數(shù)據(jù)集和算法參數(shù),以及算法精確性的衡量標準(Macro-F1)的原理和計算過程,并基于數(shù)據(jù)集分別計算不同組合方法的指標數(shù)值.通過統(tǒng)計比較來分析算法的性能,并挖掘多層異構注意力機制與各傳統(tǒng)深度學習方法融合的優(yōu)劣性.
為體現(xiàn)研究方法的普適性,本研究選擇新聞標題類(THUCNews數(shù)據(jù)集)、短視頻評論類(YouTube視頻評論數(shù)據(jù)集)、電子郵件標題類(個人郵箱數(shù)據(jù)集)三種不同領域的數(shù)據(jù)集作為研究對象.各數(shù)據(jù)集的詳細信息如表1 所示.
表1 實驗所使用數(shù)據(jù)集的特征Tab.1 Data set characteristics used in experiment
部分長文本分類研究指出,神經(jīng)網(wǎng)絡層數(shù)決定了模型的分類精度,當深度較淺時,網(wǎng)絡接收域較窄,無法捕捉到文本的上下文較長間隔的依賴,從而影響最終的分類準確率[14].為驗證上述結論是否適用于短文本分類,本文對神經(jīng)網(wǎng)絡層數(shù)進行靈敏度分析.圖8 給出了不同網(wǎng)絡深度下,基于MLHAM+TextRCNN方法對三種數(shù)據(jù)集分類的精度變化趨勢圖.
圖8 三個數(shù)據(jù)集下準確率與網(wǎng)絡層深度的關系Fig.8 The relationship between accuracy and network layer depth under three data sets
由圖8 可以看出,與長文本不同,對短文本而言,當深度增加時,分類精度會隨之下降.這是由于網(wǎng)絡接收域的擴張因子的影響超過文本本身的長度,不僅增加了不必要的計算,而且會使模型過擬合,導致分類準確率下降.因此,增加網(wǎng)絡深度更適合長文本,而不適用于短文本分類.最佳的網(wǎng)絡深度主要取決于文本長度,需要根據(jù)數(shù)據(jù)集特性確定.
此外,對算法運行多次,最終選擇出最佳的算法參數(shù)設置如表2 所示.
表2 訓練參數(shù)設計Tab.2 Design of training parameter
使用THUCNews數(shù)據(jù)集,新聞標題類別已處理為10個常見類別,分別為金融、房產(chǎn)、股票、教育、科技、社會、政治、體育、游戲、娛樂.
將處理好的數(shù)據(jù)分為訓練集(train.txt),驗證集(dev.txt)以及測試集(test.text),并分別只選取25 000條、2 500條、10 000條.測試四種算法的性能時,使用相同數(shù)據(jù)集進行測試.在測試數(shù)據(jù)集中,每個新聞類別的數(shù)據(jù)數(shù)量均為1 000條.
F1-score是統(tǒng)計學中衡量二分類模型精確度的一種常用指標,而Macro-F1方法是F1-score適用于多分類問題的改進版本.本研究采用Macro-F1方法評價算法性能,該方法計算每個類別對應的Macro-F1值,并取平均,其計算公式為
(10)
(11)
(12)
(13)
式中:i表示類別;D表示類別的數(shù)量,例如數(shù)據(jù)集1的D為10,數(shù)據(jù)集2的D為2;THi(真正)表示標簽為i類的數(shù)據(jù)中歸為i類數(shù)據(jù)的數(shù)量;同理,F(xiàn)Hi(真負)表示標簽為非i類的數(shù)據(jù)中歸為非i類數(shù)據(jù)的數(shù)量;hi為i類別數(shù)據(jù)判斷的精確率;ri為i類別數(shù)據(jù)的召回率;一對 (hi,ri)分別對應于類i的精確度和召回值.為顯示每個分類器的特征選擇方法的平均精度和召回性能,單獨呈現(xiàn)精度和召回值.
可以看出,Macro-F1方法實質(zhì)上是精確度和召回率的均衡.為便于直觀分析,本文展示了不同算法的準確率和Macro-F1值.此外,為驗證算法運行效率,本文各算法運行30代,以運行時間為效率衡量標準.其中,F(xiàn)astTex算法是一種工具箱,其運行時間可直接得出.
本文使用pytorch框架來實現(xiàn)四種算法,使用訓練集數(shù)據(jù)分別對四種算法進行訓練,使用測試集數(shù)據(jù)分別測試四種算法的性能;在此基礎之上,使用Django頁面框架做出一個簡單的前端頁面,可以打印出帶標簽的數(shù)據(jù)集分類結果.
4.3.1 算法準確率對比結果
圖9 展示了對于不同數(shù)據(jù)集采用不同分類方法(TextCNN,TextRNN,FastText,TextRCNN,MLHAM+TextRCNN)進行分類的準確率結果.可以看出:
1)對于涉及多分類情況的數(shù)據(jù)集1,五種算法的精度均隨著訓練代數(shù)的升高而升高,并趨于穩(wěn)定.初始時,本文所提出的MLHAM+TextRCNN 方法訓練精度并不高,這是由于注意力機制的添加增加了訓練難度.隨著訓練代數(shù)的不斷增加,本文所設計算法的準確率顯著增加,最終穩(wěn)定于93.9%,顯著優(yōu)于其他算法.此外,F(xiàn)astText的訓練精度最低,且由于其結果由工具箱直接得出,與訓練代數(shù)無關,因此設為恒定值.
(a)數(shù)據(jù)集1
2)對于涉及二分類情況的數(shù)據(jù)集2和3,由于判別類別較少,較為簡單的緣故,與多類情況相比,所有算法在初始時即可達到較好的劃分結果.其中,本文所提出的MLHAM+ TextRCNN方法仍具有較高的準確率.由此可以看出,本文所提出算法應用于不同數(shù)據(jù)集,具有良好的普適性.
3)對于任意數(shù)據(jù)集,添加多層異構注意力機制(MLHAM)后的算法性能均有所提升.這表明本文所設計的MLHAM能夠顯著提高算法的分類精度.
4.3.2 算法Macro-F1值對比結果
表3 展示了對于不同數(shù)據(jù)集采用不同分類方法(TextCNN,TextRNN,FastText,TextRCNN,MLHAM+ TextRCNN)進行分類的Macro-F1值計算結果.可以看出,對于不同數(shù)據(jù)集,TextCNN,TextRNN和FastText的Macro-F1值排序不同,其中TextRNN方法更適合多類的數(shù)據(jù)集.本文所提出的TextRCNN方法對不同數(shù)據(jù)集上的表現(xiàn)均優(yōu)于上述三種算法,且加入多層異構注意力機制之后,該算法性能能夠進一步提升.
表3 Macro-F1計算結果Tab.3 Macro-F1 calculation results
4.3.3 算法效率對比結果
圖10 顯示了五種算法在不同數(shù)據(jù)集下的運算時間.由圖可以看出,對于任意數(shù)據(jù)集,運行時間排序均為:TextRNN>TextCNN>MLHAM+TextRCNN>TextRCNN>FastText.此外,MLHAM+TextRCNN的運行時間較TextRCNN增加較少,即添加多層異構注意力機制能夠有效增加算法準確率,代價僅為增加少量運行時間.
圖10 各算法運行時間對比結果Fig.10 Comparison results of running time for different algorithm
通過上述實驗可以看出,對于三種不同來源的數(shù)據(jù)集,本文的精確度和Macro-F1值均顯著大于具有傳統(tǒng)算法,這證明本文算法顯著優(yōu)于其他算法,并且其優(yōu)勢具有一定的普適性.通過多次運行可以看出,本文算法運行時間顯著低于TextRNN和TextCNN算法,略高于TextRCNN和FastText算法.引入異構注意力機制后,算法僅增加少量運行時間,即可顯著提高準確率.
上述優(yōu)勢產(chǎn)生的原因主要有以下四點:
1)采用了雙向的循環(huán)結構,與傳統(tǒng)的基于窗口的神經(jīng)網(wǎng)絡相比,它可以大大減少噪聲,從而最大程度地捕捉上下文信息;
2)該方法在學習文本表示時可以保留更大范圍的詞序;
3)將RNN的結構和最大池化層融入CNN中,結合了兩種神經(jīng)網(wǎng)絡框架的優(yōu)點;
4)加入了異構注意力機制,能夠有效提取重要的特征詞向量.
本文提出了一種基于多層異構注意力機制和深度學習的短文本分類方法,考慮上下文非臨近詞的關聯(lián)性,引入了全局上下文注意力機制,并基于滲透假設的類平衡分層求精方法,在短文本分類模型中引入多層注意力機制,使得具有較高辨識度的特征具有更高的權重.深度學習算法方面,本文提出了結合循環(huán)神經(jīng)模型和卷積神經(jīng)模型的優(yōu)點的新型深度學習分類方法.將傳統(tǒng)和本文所提出的方法應用于三個數(shù)據(jù)集中,結果表明,集合循環(huán)神經(jīng)和卷積神經(jīng)的文本分類方法具有較高的效率和準確率,性能優(yōu)于傳統(tǒng)算法.而多層異構注意力機制能夠進一步提升算法效率,且不會對算法運行時間產(chǎn)生顯著影響.