潘袁湘 黃 林 牛新征
(1.電子科技大學(xué)信息與軟件工程學(xué)院 成都 610000)(2.國網(wǎng)四川省電力公司信息通信公司 成都 610015)(3.電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 610000)
網(wǎng)絡(luò)上的微博等短文本具有內(nèi)容短,語義依賴性強(qiáng)的特點(diǎn),如何對(duì)短文本進(jìn)行高效準(zhǔn)確的分類是自然語言處理領(lǐng)域的學(xué)者們探索的熱點(diǎn)。
中文短文本分類的本質(zhì)是提取已知類型標(biāo)簽的短文本特征,預(yù)測(cè)未知的待分類文本的歸屬類型。目前,短文本分類的主要方法有樸素貝葉斯[1]、支持向量機(jī)[2~3]以及神經(jīng)網(wǎng)絡(luò)[4~5]等。本文采用前沿的深度神經(jīng)網(wǎng)絡(luò)來研究中文短文本分類。
相較于傳統(tǒng)的語言模型,基于神經(jīng)網(wǎng)絡(luò)的語言模型具有有效共享上下文語義信息的特點(diǎn),模型泛化能力強(qiáng)。例如word2vec[6]、glove[7]等模型可以學(xué)習(xí)到良好的向量表示作為特征,以便用于后續(xù)的分類任務(wù)。但word2vec 無法使一詞多義的問題得以解決。基于該現(xiàn)狀,Peters[8]等提出了一種高級(jí)新型語言模型(Embeddings from Language Models,ELMo),該模型生成的詞向量既可以對(duì)詞匯語法與語義進(jìn)行表征,又可以隨語境進(jìn)行多義詞動(dòng)態(tài)變換。2018 年12 月,Google[9]提出的Bert(Bidirectional Encoder Representations from Transformers)語言模型可以捕捉更深層次的語義信息,其突破了多項(xiàng)自然語言處理任務(wù),有力地推動(dòng)了自然語言模型的發(fā)展。
人工神經(jīng)網(wǎng)絡(luò)分類法因其學(xué)習(xí)能力強(qiáng)的優(yōu)點(diǎn),在實(shí)際分類任務(wù)中得以廣泛應(yīng)用。針對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)存在“梯度消失”或“梯度爆炸”[10]的問題,Hochreiter[11]等認(rèn)為長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),通過引入“門控”機(jī)制改善了上述問題。Cho K[12]等改進(jìn)了LSTM 的結(jié)構(gòu),形成“雙門控”的門控循環(huán)單元(Gated Recurrent Unit,GRU)。Wang[13]等提出構(gòu)建雙向LSTM 網(wǎng)絡(luò)模型提取文本序列化的上下文信息,并引入注意力機(jī)制強(qiáng)化重要的文本特征表達(dá),使短文本分類性能得到進(jìn)一步提升。
論文從改善傳統(tǒng)詞向量語義表達(dá)問題和從特征稀疏的短文本中提取重要特征的問題著手,提出融合語義增強(qiáng)的短文本分類方法。該方法使用預(yù)訓(xùn)練語言模型Bert進(jìn)行語義向量增強(qiáng),同時(shí)在雙向GRU 的基礎(chǔ)上引入多頭注意力機(jī)制獲取短文本內(nèi)部依賴關(guān)系。經(jīng)驗(yàn)證,本文提出的方法改善了短文本語義表達(dá)的問題,使短文本的分類精確率得到提升。
Bert 語言模型是由多個(gè)Transformer 的Encoder部分進(jìn)行疊加組合而成的高級(jí)新型網(wǎng)絡(luò)。Transformer 的Encoder 能夠一次性雙向讀取完整的文本序列信息。這個(gè)特征使得模型能夠基于單詞的粒度進(jìn)行上下文語義學(xué)習(xí)。在訓(xùn)練語言模型時(shí),Bert為了克服一種固有地限制語境學(xué)習(xí)的方向性的挑戰(zhàn),創(chuàng)新性提出Masked LM[9]和Next Sentence Prediction[9]的無監(jiān)督預(yù)測(cè)任務(wù)來預(yù)訓(xùn)練Bert。
雙向門控循環(huán)單元網(wǎng)絡(luò)(Bidirectional Gated Recurrent Unit,Bi-GRU)[14]是GRU 的一種雙向結(jié)構(gòu),相較于GRU,Bi-GRU 結(jié)構(gòu)能更好地捕捉雙向語義依賴。它當(dāng)前時(shí)間步的隱狀態(tài)信息由前后兩個(gè)時(shí)間步共同決定。隱狀態(tài)輸出的公式如式(1)所示:
其中,表示前向傳播隱狀態(tài),表示后向傳播隱狀態(tài)。
不同于普通注意力機(jī)制,Google 團(tuán)隊(duì)提出了多頭注意力機(jī)制[15](MultiHead Attention)。
多頭注意力機(jī)制通過“復(fù)制”和“拆分”自注意力機(jī)制的權(quán)重矩陣,形成新的加權(quán)計(jì)算模式,以便學(xué)習(xí)到多個(gè)不同子空間的語義信息。公式如下所示:
為解決中文短文本特征稀疏和上下文依賴性強(qiáng)的問題,以有效提高短文本分類準(zhǔn)確率,論文提出了融合語義增強(qiáng)的中文短文本分類模型。模型結(jié)構(gòu)由語義向量表示層、特征抽取層和輸出層組成。首先將預(yù)處理后的短文本通過Bert 預(yù)訓(xùn)練語言模型生成的語義向量。然后輸入到Bi-GRU 神經(jīng)網(wǎng)絡(luò)中并結(jié)合多頭注意力機(jī)制提取文本全局特征。最后進(jìn)行多分類輸出。
語義向量表示層是文本輸入的第一層,采用預(yù)訓(xùn)練語言模型Bert進(jìn)行短文本語義向量表示。
以“股票的突破形態(tài)股票”為例。輸入表示流程圖如圖1 所示。首先按照“[CLS]股票的突破
圖1 輸入表示層流程圖
特征抽取層將Bert 預(yù)訓(xùn)練語言模型生成的語義向量輸送到Bi-GRU 網(wǎng)絡(luò)中,同時(shí)結(jié)合多頭注意力機(jī)制提取文本全局特征。特征抽取層的結(jié)構(gòu)示意圖如圖2所示。
圖2 特征提取結(jié)構(gòu)示意圖
Bi-GRU網(wǎng)絡(luò)結(jié)構(gòu)的“雙門”可以控制時(shí)序信息的記憶程度,不但使其保留全局時(shí)序的最優(yōu)特征,而且又可以充分提取當(dāng)前時(shí)間步的前后時(shí)間步的隱狀態(tài)信息。因此本文構(gòu)建了Bi-GRU 網(wǎng)絡(luò)以充分提取短文本上下文語義信息。
輸入單元為Bert 預(yù)訓(xùn)練語言模型生成的語義向量集合,即X={x1,x2,…xi,…,xt},其中,xi(i=1,2,…,t)表示字向量。隱藏層包含前后兩個(gè)方向的傳播層。本文使用h→t表示前向傳播隱狀態(tài),h←t表示后向傳播隱狀態(tài)。
論文采用數(shù)量大小為h 的隱藏單元構(gòu)建網(wǎng)絡(luò)。在進(jìn)行網(wǎng)絡(luò)前向推斷過程中,已知小批量輸入為xt,上一個(gè)時(shí)間步隱狀態(tài)為ht-1。Bi-GRU 網(wǎng)絡(luò)的內(nèi)部子結(jié)構(gòu)GRU 在時(shí)間步t時(shí),通過式(4)和式(5)計(jì)算重置門和更新門的狀態(tài)。
其中,wr和wt為權(quán)重參數(shù),σ為激活函數(shù),其取值范圍在0~1之間。
候選隱狀態(tài)的作用是輔助控制當(dāng)前時(shí)間步t的隱狀態(tài)的計(jì)算,計(jì)算公式如式(6)所示:
其中,wh為權(quán)重參數(shù),tanh 為激活函數(shù),其取值范圍在-1~1之間。
至此,通過式(7)可計(jì)算出前向單元的隱狀態(tài)輸出。
通過式(8)可計(jì)算出后向單元的隱狀態(tài)輸出。
綜上,當(dāng)前時(shí)間步t 的前后隱狀態(tài)輸出拼接組成了綜合隱狀態(tài)輸出,其公式如式(9)所示:
由Bi-GRU 網(wǎng)絡(luò)中進(jìn)一步得到融合語義的向量集合O={o1,o2,…,oi,…,ot},其中,oi(i=1,2,…,t)表示語義特征向量。此時(shí),論文采用多頭注意力機(jī)制在獲取強(qiáng)化語義的同時(shí)并進(jìn)行權(quán)重調(diào)整。
多頭注意力機(jī)制是由N 個(gè)自注意力機(jī)制堆疊而成,如圖3 所示。通過“復(fù)制”和“拆分”自注意力機(jī)制的權(quán)重矩陣,構(gòu)成了多頭注意力機(jī)制的計(jì)算模式,如式(10)所示,這使得學(xué)習(xí)到多個(gè)不同子空間的語義信息。
圖3 MultiHead-Attention更新權(quán)重計(jì)算
自注意力機(jī)制堆疊復(fù)制了8 次,形成了8 頭自注意力機(jī)制。通過平分這8 個(gè)Attention 形成了詞向量,然后通過矩陣交互計(jì)算,從而得到了多頭注意力的權(quán)值。
輸出層對(duì)每個(gè)樣本所屬的標(biāo)簽進(jìn)行概率統(tǒng)計(jì)預(yù)測(cè)。在分類問題中,輸出層常用Softmax 層映射為條件概率。將輸入的樣本劃分為類別j的概率公式如式(11)所示:
x(i)表示訓(xùn)練樣本,y(i)∈{1,2,…,k}表示標(biāo)簽,y?則表示其預(yù)測(cè)值。
實(shí)驗(yàn)數(shù)據(jù)來自今日頭條公開新聞數(shù)據(jù)集。數(shù)據(jù)集由38 萬余篇中文新聞文本標(biāo)題組成,其中包含房產(chǎn)、軍事、股票等總共15 個(gè)主題類別。本文選取其中的子集進(jìn)行實(shí)驗(yàn),每個(gè)類別選取5000 條數(shù)據(jù),按照8∶1∶1 的比例進(jìn)行訓(xùn)練集、測(cè)試集和驗(yàn)證集的劃分。
實(shí)驗(yàn)采用精確率(Precision,P)、召回率(Recall,R)和F1 值(F1-Measure,F(xiàn))作為標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo)[16]。實(shí)驗(yàn)環(huán)境為L(zhǎng)inux Ubuntu16.04系統(tǒng),顯卡型號(hào)GTX1070,實(shí)驗(yàn)中涉及到的算法均采用Python3.6 編寫以及Tensorflow1.12 深度學(xué)習(xí)框架實(shí)現(xiàn)。
本實(shí)驗(yàn)將目前在短文本分類任務(wù)中優(yōu)秀的算法[9,14]作為基準(zhǔn)算法,與本論文算法在相同數(shù)據(jù)集上進(jìn)行兩組對(duì)比實(shí)驗(yàn)。
1)第一組實(shí)驗(yàn)
為驗(yàn)證Bert 預(yù)訓(xùn)練語言模型生成的語義向量比Word2Vec 的表征能力強(qiáng),以使得分類準(zhǔn)確率更高。將Word2Vec-GRU 及其改進(jìn)模型與Bert-BiGRU模型進(jìn)行第一組分類實(shí)驗(yàn)。
本組實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置如下。
模型訓(xùn)練的超參數(shù)包括:學(xué)習(xí)率lr 為0.001,隱層單元數(shù)hidden_units 為128,批處理量batch_size為32,網(wǎng)絡(luò)節(jié)點(diǎn)丟棄率dropout 為0.25。具體實(shí)驗(yàn)結(jié)果記錄表如表1所示。
表1 實(shí)驗(yàn)結(jié)果記錄表
2)第二組實(shí)驗(yàn)
為驗(yàn)證本論文提出的模型比主流的引入傳統(tǒng)向量表示或者引入注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)分類模型的準(zhǔn)確率高,本論文進(jìn)行第二組分類實(shí)驗(yàn)。
本組實(shí)驗(yàn)的模型超參數(shù)設(shè)置為學(xué)習(xí)率lr 為0.0005,隱層單元數(shù)hidden_units 為128,批處理量batch_size為32,網(wǎng)絡(luò)節(jié)點(diǎn)丟棄率dropout為0.1。具體實(shí)驗(yàn)結(jié)果記錄表如表2所示。
表2 實(shí)驗(yàn)結(jié)果記錄表
圖4 實(shí)驗(yàn)二分類效果對(duì)比圖
本論文進(jìn)行了兩組對(duì)比實(shí)驗(yàn),具體分析如下。
由實(shí)驗(yàn)一的結(jié)果記錄表可知,通過對(duì)比引入Word2Vec 的S1、S2 兩個(gè)方法和引入Bert 的S3 方法的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)S3方法相較S2方法的精確率、召回率和F1 值分別提升了5.78%、5.96%、4.37%。說明了加入Bert 生成的向量表示法能表達(dá)豐富的上下文語義信息,有利于后續(xù)分類準(zhǔn)確率的提高。
由實(shí)驗(yàn)二的結(jié)果記錄表可知,通過對(duì)比M1、M2 和M3 方法,發(fā)現(xiàn)Bert無論在語義向量表征能力上還是分類準(zhǔn)確率上均表現(xiàn)優(yōu)越。通過對(duì)比M3和M5 方法的結(jié)果,發(fā)現(xiàn)引入多頭注意力機(jī)制比自注意力機(jī)制的分類效果更顯著。
通過對(duì)比實(shí)驗(yàn)一分類準(zhǔn)確率最高的S3(M4)與本論文提出M5方法的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),模型精確率、召回率和F1 值分別提升了1.96%、2.7%、2.54%,證明本論文提出的方法在Bert-BiGRU 的基礎(chǔ)上,利用多頭注意力機(jī)制能充分捕捉到局部關(guān)鍵特征,進(jìn)一步增強(qiáng)短文本上下文語境。綜上兩組實(shí)驗(yàn)可以證明本論文提出的融合語義增強(qiáng)的短文本分類方法的優(yōu)越性。
針對(duì)中文短文本具有內(nèi)容特征稀疏,上下文依賴程度強(qiáng)的問題,結(jié)合目前主流的基于詞向量的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),提出融合語義增強(qiáng)的中文短文本分類方法進(jìn)一步改善分類效果。該方法引入Bert生成融合字、文本以及位置向量的語義向量作為訓(xùn)練文本的詞表征。采用Bi-GRU 網(wǎng)絡(luò)提取上下文關(guān)系特征,并通過多頭注意力機(jī)制調(diào)整權(quán)值強(qiáng)化重要特征表達(dá)。實(shí)驗(yàn)結(jié)果表明該方法應(yīng)用于短文本分類問題的準(zhǔn)確性和優(yōu)越性。