關(guān)立剛,陳平華
(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006)
隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,每天產(chǎn)生的文本數(shù)據(jù)呈爆炸式增長(zhǎng)[1]。由于文本數(shù)據(jù)的混亂,很難通過手工方式進(jìn)行組織和區(qū)分。文本分類是計(jì)算機(jī)應(yīng)用于根據(jù)特定的分類系統(tǒng)或標(biāo)準(zhǔn)自動(dòng)分類文本集[2-3]。在文本分類中,如何通過預(yù)處理獲取文本特征信息,一直是學(xué)界研究的熱點(diǎn)問題[4]。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,相比較于傳統(tǒng)的文本分類算法如樸素貝葉斯、支持向量機(jī)(Support Vector Machine,SVM)等[5-8],深度學(xué)習(xí)在文本分類上的應(yīng)用所取得了更好的效果。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),最初受到貓眼視覺機(jī)制的啟發(fā)[9],它的神經(jīng)元可以響應(yīng)部分覆蓋范圍的周圍區(qū)域,并且在圖像識(shí)別和語(yǔ)音識(shí)別等任務(wù)中具有出色的性能[10]。與其他深度學(xué)習(xí)結(jié)構(gòu)相比,CNN 需要的參數(shù)少。Kalchbrenner 提出將CNN 應(yīng)用于自然語(yǔ)言處理并設(shè)計(jì)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)(DNN)來處理不同長(zhǎng)度的文本[11];Kim 將經(jīng)過預(yù)處理的詞向量作為輸入,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)句子級(jí)別的分類任務(wù)[13]。
對(duì)于序列化數(shù)據(jù)的輸入,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能夠獲取文本的全局特征信息[14],類似于人擁有記憶能力。在RNN 中,對(duì)于輸入的序列數(shù)據(jù),讀取的當(dāng)前單詞輸出與之前的輸出有關(guān)聯(lián)。但是在傳統(tǒng)的RNN 中,會(huì)出現(xiàn)梯度消失和梯度爆炸等問題[15]。
為了解決梯度爆炸問題,可在訓(xùn)練過程中使用梯度裁剪(gradient clipping),即在訓(xùn)練過程中,如果反向傳播的梯度大于所給的定值,將梯度進(jìn)行同比縮放[15]。在解決梯度消失問題時(shí),提出了長(zhǎng)短期記憶(LSTM)。作為RNN 的子類,LSTM 不僅繼承了RNN 模型的優(yōu)點(diǎn),而且解決了RNN 的梯度消失問題。而且,它具有更強(qiáng)的“記憶能力”,可以更好地獲得文本的全局特征信息[17]。以LSTM 為基礎(chǔ)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional LSTM,BiLSTM)不僅可從前往后讀取文本,同時(shí)也從后往前讀取,能進(jìn)一步獲取文本的全局特征,從而提高文本分類的準(zhǔn)確率[18]。
本文的主要貢獻(xiàn)如下:
(1)將CNN 與BiLSTM 進(jìn)行結(jié)合。在提取文本特征信息時(shí),既可以讓CNN 提取文本局部特征,又可以讓BiLSTM 提取文本全局特征。
(2)結(jié)合注意力(Attention)機(jī)制,可以進(jìn)一步獲取對(duì)文本分類結(jié)果產(chǎn)生影響的重點(diǎn)單詞的特征。
(3)引入殘差連接,從而克服神經(jīng)網(wǎng)絡(luò)模型層數(shù)過深時(shí),神經(jīng)網(wǎng)絡(luò)的退化問題。
LSTM 作為升級(jí)版的循環(huán)神經(jīng)網(wǎng)絡(luò),其基本神經(jīng)元由一個(gè)記憶單元(Constant Error Carrousel,CEC)和三種門(Gate)結(jié)構(gòu)組成,其中CEC 是LSTM 的重點(diǎn)。CEC是一種自連接單元,可保留持久的記憶信號(hào),使LSTM能夠編碼遠(yuǎn)距離上下文歷史信息[19]。LSTM 模型中三種門分別是遺忘門(Forget Gate)、輸入門(Input Gate)和輸出門(Output Gate)。LSTM 依靠門信號(hào)對(duì)信息進(jìn)行添加和刪除,其中信號(hào)值1 表示“讓所有信息通過”、信號(hào)值0 表示“不讓任何信息通過”。圖1 是LSTM 神經(jīng)元的網(wǎng)絡(luò)結(jié)構(gòu)圖。
LSTM 中遺忘門表達(dá)式:
LSTM 中輸入門表達(dá)式:
LSTM 中CEC 更新表達(dá)式:
LSTM 中輸出門表達(dá)式:
表1 LSTM 符號(hào)說明
作為傳統(tǒng)的序列模型,LSTM 通常只在一個(gè)方向上讀取文本。圖3 表示從后往前讀取文本的后向LSTM模型。
圖1 LSTM模型
圖2 模型
圖3 模型
由于自然語(yǔ)言具有結(jié)構(gòu)依賴性,依靠實(shí)現(xiàn)文本分類將忽略單詞的語(yǔ)境含義[15],即文本單詞之間的關(guān)系是雙向的。以從前往后讀取文本的模型為例,對(duì)于讀取的當(dāng)前詞而言,不僅僅之前讀取的單詞為其提供信息,之后的單詞也為其提供信息。例如,我身體現(xiàn)在很難受,所以我打算__一天。只依據(jù)“難受”,可以推出我打算“請(qǐng)假”、“去醫(yī)院”、“休息”等。但如果加上后面的“一天”,就排除了“去醫(yī)院”,能選擇的范圍就變小了,類似“請(qǐng)假”、“休息”之類的被選擇概率就會(huì)更大。因此,結(jié)合兩種模型的雙向信息流模型,雙向LSTM(Bidirectional LSTM,BiLSTM),可以更好地表示文本特征[20]。BiLSTM 模型如圖4 所示。
圖4 BiLSTM模型
雖然BiLSTM 模型可用于提取文本中文本的全局信息特征,但是無法獲得文本的局部信息特征。并且文本向量的特征不能進(jìn)一步高維特征表示。因此卷積神經(jīng)網(wǎng)絡(luò)和BiLSTM 模型進(jìn)行融合。利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)BiLSTM 模型獲取的文本信息特征矩陣和文本的輸入信息矩陣進(jìn)行拼接得到新的特征矩陣,對(duì)其進(jìn)行卷積獲取文本信息特征的進(jìn)一步抽取。解決了BiLSTM 無法獲取文本的局部特征和單卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型無法得到單詞在上下文語(yǔ)義的問題。圖5是BiLSTM-CNN 模型的結(jié)構(gòu)圖。
圖5 CNN模塊
在圖5 中,xj(j=1,…,n)是文本中的第j 個(gè)單詞的輸入向量,其維度為K。和是第j 個(gè)單詞的輸入向量xj經(jīng)過BiLSTM 模型得到的特征向量,其維度分別是和。在圖5 中,將拼接后的向量作為該單詞的特征向量,其維度為,作為BiLSTM-CNN 模型的輸出。同時(shí)將其作為CNN 模塊的輸入向量,對(duì)其進(jìn)行一維卷積。CNN 模塊中的濾波器的數(shù)目為K。在圖5 中,使用K 個(gè)大小為的濾波器,padding 形式為same,得到了K 個(gè)特征向量。當(dāng)然,濾波器 的 大 小 可 以 為 其 他,例 如,等。
為了實(shí)現(xiàn)文本的深度挖掘,我們可以通過多層神經(jīng)網(wǎng)絡(luò)的結(jié)果對(duì)BiLSTM-CNN 模型進(jìn)行分層并挖掘文本的深層特征[10]。但當(dāng)神經(jīng)網(wǎng)絡(luò)參數(shù)過多時(shí),會(huì)出現(xiàn)梯度消失和高層網(wǎng)絡(luò)參數(shù)更新停滯等問題,并且基于BiLSTM-CNN 模型的堆疊得到的神經(jīng)網(wǎng)絡(luò)無法獲取對(duì)文本分類結(jié)果產(chǎn)生影響的重點(diǎn)單詞的特征。因此本文針對(duì)BiLSTM-CNN 模型堆疊所產(chǎn)生的上述兩個(gè)問題提出了注意力殘差雙向LSTM(Deeply Attention Hierarchical BiLSTM-CNN ResNet,DAHBLCR)模型進(jìn)行改進(jìn)。在使用了LSTM 取代了傳統(tǒng)的RNN 之后,反向傳播中梯度消失的問題已不存在。但是,隨著網(wǎng)絡(luò)模型堆疊的層數(shù)過深,無法解決網(wǎng)絡(luò)的退化問題。引入殘差連接之后,可以解決網(wǎng)絡(luò)模型過深時(shí),每個(gè)層只有少量的隱藏單元對(duì)不同的輸入改變它們的激活值,而大部分隱藏單元對(duì)不同的輸入都是相同的反應(yīng)??梢詭椭?xùn)練更深層次的神經(jīng)網(wǎng)絡(luò)。注意力機(jī)制會(huì)決定每個(gè)特征向量對(duì)分類結(jié)果的貢獻(xiàn)。例如,中國(guó)成功研發(fā)出一戰(zhàn)略合金,或?qū)⒋龠M(jìn)量產(chǎn)超音速導(dǎo)彈。“導(dǎo)彈”對(duì)于軍事新聞來說屬于重點(diǎn)單詞,而其他單詞為非重點(diǎn)單詞。
圖6 為DAHBLCR 模型結(jié)構(gòu)圖,在整個(gè)堆疊的深度神經(jīng)網(wǎng)絡(luò)模型中,每一層由BiLSTM-CNN、ResNet 和Attention 三個(gè)模塊組成。Attention 模塊如圖7 所示。
為了解決挖掘文本的深層特征信息,網(wǎng)絡(luò)層數(shù)而導(dǎo)致的梯度消失以及高層網(wǎng)絡(luò)中的特征很難有效的傳遞,而引入殘差網(wǎng)絡(luò)連接。如圖6 所示,在ResNeti模塊中輸入是xi-1和ci,輸出為
對(duì)于深度神經(jīng)網(wǎng)絡(luò)中第i 層中的BiLSTM-CNNi模塊來說,殘差網(wǎng)絡(luò)在模塊中的作用可以表示為:
圖6 Deeply Attention Hierarchical BiLSTM-CNN ResNet(DAHBLCR)模型
為了獲取對(duì)分類結(jié)果產(chǎn)生影響的重點(diǎn)單詞的特征,在深度神經(jīng)網(wǎng)絡(luò)第i 層中加入Attentioni模塊,如圖7 所示。在Attentioni模塊中,輸入是,輸出是。其中xi也是深度神經(jīng)網(wǎng)絡(luò)模型中第i+1 層的輸入。在Attentioni模塊中,注意力模型在模塊中的作用通過MLPi結(jié)構(gòu)表現(xiàn)出來。具體表示為:
式中,Wi為第i 層獲取的第j 個(gè)單詞的特征向量經(jīng)過一個(gè)神經(jīng)網(wǎng)絡(luò)獲取其隱層表示向量的狀態(tài)轉(zhuǎn)移參數(shù)矩陣,bi和對(duì)應(yīng)的偏置項(xiàng)。vi為隨機(jī)初始化的權(quán)值向量,用于對(duì)第j 個(gè)單詞的隱層表示向量進(jìn)行Softmax 標(biāo)準(zhǔn)化的參數(shù)向量。為第i 層獲中的第j 個(gè)單詞的權(quán)重。Wi,bi,vi的更新由模型訓(xùn)練時(shí)最小化損失函數(shù)反向傳播所獲得。
圖7 Attentioni 模塊
在文本分類訓(xùn)練和測(cè)試中,本文將上面提出的DHABLCR 引入到文本分類模型中。如圖8 所示。
圖8 文本分類模型
對(duì)于訓(xùn)練中的文本矩陣w={w1,w2,w3,…,wn}由n的單詞組成,并且每個(gè)單詞是由分詞之后的詞向量經(jīng)過Word2Vec 獲得的128 維的詞向量。整個(gè)深度神經(jīng)網(wǎng)絡(luò)(DHABLCR)模型的層數(shù)為m,最終的輸出為,其中Max Pooling 層對(duì)輸入的序列xm中的第j 個(gè)單詞的輸入特征向量選擇最高值作為第j 個(gè)單詞的顯著特征,將上述n 個(gè)顯著特征拼接成一個(gè)n 維的向量,作為文本的顯著特征向量。最后,經(jīng)過一個(gè)Softmax 層進(jìn)行分類。
為了驗(yàn)證模型的有效性與泛化能力,使用的數(shù)據(jù)集如下:
數(shù)據(jù)集1:20Newsgroups 數(shù)據(jù)集,該數(shù)據(jù)集的新聞主題個(gè)數(shù)為20 個(gè),新聞文檔的個(gè)數(shù)為20000 左右。
數(shù)據(jù)集2:復(fù)旦大學(xué)收集的開源數(shù)據(jù)集。其中類別數(shù)為20,本文從中選取了40000 條數(shù)據(jù)。
數(shù)據(jù)3:IDMB,一個(gè)大型的電影評(píng)論數(shù)據(jù)集,其中共有50000 條電影評(píng)論,每條評(píng)論含有積極和消極兩個(gè)情感標(biāo)簽。
并將上述3 份數(shù)據(jù)集,每份數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,大小比例為7:3。
表2 模型的參數(shù)
對(duì)于本文實(shí)驗(yàn)中的中文數(shù)據(jù),采用的是Jieba 工具包對(duì)原始文本數(shù)據(jù)進(jìn)行分詞,英文數(shù)據(jù)直接使用空格進(jìn)行切分。
將3.2 得到的分詞,經(jīng)過預(yù)訓(xùn)練好的Word2Vec 模型,將每個(gè)詞映射成200 維的詞向量。
實(shí)驗(yàn)環(huán)境:Ubuntu 16.04 操作系統(tǒng),CPU 為i7 6800K,顯卡為GTX 1080ti,內(nèi)存為16G Kingston 駭客神條DDR4 3000,以及SSD 硬盤為512G 浦科特M7VC SATA3 固態(tài)。
開發(fā)工具為:主要為TensorFlow,其他的為numpy、pandas、scipy、scikit-learn。
本文比較了文本分類與其他文獻(xiàn)方法的準(zhǔn)確性。
表3 20 Newsgroups 數(shù)據(jù)集
表4 復(fù)旦大學(xué)數(shù)據(jù)集
表5 IDMB 數(shù)據(jù)集
由表3-5 可知,基于上述所用的數(shù)據(jù)集,本文提出的模型不僅與基準(zhǔn)模型相比,如CNN、BiLSTM、CLSTM 和Attention Based LSTM,還與傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,如SVM 和LDA。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在與其他模型對(duì)比中提高了文本分類的準(zhǔn)確率,具有更優(yōu)越的性能。
本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和BiLSTM 網(wǎng)絡(luò)的深度文本表示模型,并將其用于新聞分類任務(wù)中。該模型既能夠利用BiLSTM 雙向讀取文本的全局特征,又可以利用卷積神經(jīng)網(wǎng)絡(luò)獲取文本的局部特征。同時(shí)引入注意力機(jī)制使得能夠獲取文本中重點(diǎn)單詞的特征,同時(shí)引入殘差網(wǎng)絡(luò),使得本文提出的網(wǎng)絡(luò)模型在堆疊多層是不會(huì)出現(xiàn)梯度消失以及高層網(wǎng)絡(luò)中的參數(shù)更新停滯。實(shí)驗(yàn)結(jié)果證明了本文提出的模型在文本分類中遠(yuǎn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型、單CNN 模型和單BiLSTM 等基準(zhǔn)模型。
未來研究的重點(diǎn)是網(wǎng)絡(luò)模型層數(shù)與文本分類準(zhǔn)確度的關(guān)系,以及模型在小數(shù)據(jù)量的微博話題分類上的應(yīng)用。