賈洪健,田 剛,王 蕊,宋慶松
(1.山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;2.山東科技大學(xué)能源與礦業(yè)工程學(xué)院,山東青島 266590)
近年來,以云計(jì)算和大數(shù)據(jù)為代表的新一代信息技術(shù)的快速發(fā)展,推動(dòng)了互聯(lián)網(wǎng)新時(shí)代的到來。在互聯(lián)網(wǎng)給人們生活帶來便利的同時(shí),每天也產(chǎn)生大量的文本數(shù)據(jù)。其中,以新聞、評論、問答等碎片化形式出現(xiàn)的短文本具有增長迅速、數(shù)量巨大的特點(diǎn)。這些短文本通常有明顯的局限性,即缺乏足夠的上下文信息、語義模糊和特征維度稀疏。如何快速有效地從海量短文本數(shù)據(jù)中提取真正有價(jià)值的信息,正是自然語言處理領(lǐng)域(NLP)需要解決的問題。
現(xiàn)有方法對于短文本分類主要可以分為兩類:顯性表示和隱性表示[1]。對于顯式表示,短文本被表示為稀疏向量,其中每個(gè)維度是顯式特征,對應(yīng)于包括N-Gram、詞性標(biāo)注和句法分析的短文本句法信息[2],顯式模型對人類而言是可解釋且易于理解的。然而,顯式表示通常忽略短文本的上下文信息,因此可能無法有效提取文本中的細(xì)粒度語義信息。就隱式表示而言,短文本通常被映射到隱式空間,并被表示為密集向量[3]。
基于深度神經(jīng)網(wǎng)絡(luò)的隱式模型善于捕捉短文本中的句法和語義信息,Mikolov 等[4]提出基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的模型,該模型利用RNN 考慮整個(gè)句子的表達(dá),該模型可以捕捉長期的依賴關(guān)系并學(xué)習(xí)單詞的含義;Kim等[5]提出一種多尺度過濾卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型以提取更豐富的文本語義特征,并在文本分類任務(wù)上取得了良好效果;Yang 等[6]提出一種用于文檔分類的層次化注意網(wǎng)絡(luò),該模型不僅將注意力機(jī)制應(yīng)用于文檔層次,還應(yīng)用于單詞和句子層次,從而在構(gòu)建文檔表示時(shí)能夠關(guān)注越來越重要的內(nèi)容;Zhou 等[7]提出一種基于混合注意力機(jī)制的中文短文本分類網(wǎng)絡(luò)模型,該模型不僅考慮了詞級(jí)文本特征和字符級(jí)特征,還通過注意力機(jī)制提取了與分類相關(guān)的語義特征。
然而,如果只使用神經(jīng)網(wǎng)絡(luò)模型提取短文本語義信息的抽象特征,分類效果將在很大程度上取決于神經(jīng)網(wǎng)絡(luò)的層數(shù),因此會(huì)導(dǎo)致整個(gè)模型參數(shù)數(shù)量的幾何級(jí)增加,從而顯著增加模型訓(xùn)練時(shí)間。因此,為了克服短文本語義信息的不足,可以利用外部知識(shí)庫擴(kuò)展短文本的語義,從而豐富短文本的語義特征。
本文將短文本的顯性和隱性表示集成到一個(gè)統(tǒng)一的深層神經(jīng)網(wǎng)絡(luò)模型中,主要貢獻(xiàn)如下:提出一種基于外部知識(shí)注意的中文短文本分類(CSTEKA)方法,這是結(jié)合知識(shí)庫中的先驗(yàn)知識(shí)豐富短文本語義信息的注意力模型;引入面向短文本的概念(C-ST)注意和概念對概念集(C-CS)的注意兩種注意力機(jī)制,從兩個(gè)方面衡量每個(gè)概念的重要性,將它們組合起來,自適應(yīng)地獲取概念的權(quán)重;使用相互注意力機(jī)制集成單詞級(jí)和字符級(jí)的特征,利用卷積神經(jīng)網(wǎng)絡(luò)集成單詞級(jí)、字符級(jí)及概念級(jí)的所有特征;在4 個(gè)公共數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,本文方法優(yōu)于其他現(xiàn)有方法。
傳統(tǒng)的文本分類方法中,在分類過程中通常忽略相應(yīng)的文本語義特征,無法有效提取文本中的細(xì)粒度語義信息,導(dǎo)致最終分類結(jié)果的準(zhǔn)確率較低。為了解決這些問題,Wei 等[2]提出基于N-Grams 的中文文本分類的文本表示和特征選擇策略,在特征選擇策略中,類內(nèi)預(yù)處理與類間特征選擇相結(jié)合;Post 等[8]提出使用詞性標(biāo)注技術(shù)提取文本的顯性和隱性特征;Gautam 等[9]提出一元分詞技術(shù)和語義分析以表示文本特征;Song等[10]利用概率知識(shí)庫對短文本進(jìn)行概念化,從而提高了文本分類過程中對文本語義的理解;張志飛等[11]提出一種基于潛在狄利克雷分配(LDA)主題模型的短文本分類方法,進(jìn)一步解決了短文本的上下文相關(guān)性問題。這些方法雖然可以提取相對豐富的文本特征信息,但也存在一定局限性。
基于詞級(jí)的模型側(cè)重于促進(jìn)模型從詞級(jí)特征獲得精確文本表示的能力,這些模型通常在英語中表現(xiàn)良好。然而,在中文短文本任務(wù)中,它們對分詞有很強(qiáng)的依賴性,有時(shí)會(huì)導(dǎo)致錯(cuò)誤分類?;谧址?jí)的模型利用字符嵌入以避免分詞問題。同時(shí),使用字符級(jí)特征可以減少詞匯外的負(fù)面影響。但是在漢語中,有些詞的含義比字符多,它們在語篇中起著重要作用,尤其是在短文本中。因此,在大多數(shù)情況下,基于字符級(jí)的模型性能低于基于單詞級(jí)的模型。文獻(xiàn)[12]將詞、字符和概念級(jí)特征沿時(shí)間步長維度串聯(lián)起來,再通過卷積神經(jīng)網(wǎng)絡(luò)生成文本表示。然而,在中文中,不同的分割會(huì)產(chǎn)生不同的序列長度。此外,文獻(xiàn)[13]解釋了在不同的語料庫上訓(xùn)練的單詞和字符嵌入是不同的。因此,沿時(shí)間步長維度直接連接特征會(huì)削弱文本表示。
與傳統(tǒng)的機(jī)器學(xué)習(xí)文本分類方法相比,深度神經(jīng)網(wǎng)絡(luò)模型能夠有效模擬人腦的信息處理過程,能夠進(jìn)一步從輸入特征中提取更抽象的語義特征,從而使模型最終分類時(shí)所依賴的信息更加可靠。然而,短文本通常缺乏足夠的上下文信息和語義特征。如果僅僅通過增加神經(jīng)網(wǎng)絡(luò)數(shù)量提高短文本的分類效果,會(huì)導(dǎo)致整個(gè)模型的參數(shù)數(shù)量呈幾何級(jí)增長。文獻(xiàn)[12]提出一種利用外部知識(shí)庫和神經(jīng)網(wǎng)絡(luò)對短文本進(jìn)行分類的方法,在概念化短文本豐富語義特征的同時(shí),也捕捉到字符層面更細(xì)粒度的特征;文獻(xiàn)[14]提出將詞和字符嵌入相結(jié)合,然后利用CNNs 捕獲語義特征,還使用外部知識(shí)庫對目標(biāo)詞進(jìn)行概念化,但沒有考慮單詞和字符級(jí)嵌入位于兩個(gè)獨(dú)立的空間中,幾乎沒有重疊,會(huì)丟失一些特征信息。該文獻(xiàn)中的方法與本文提出的短文本分類方法接近,本文方法是在此基礎(chǔ)上的進(jìn)一步研究和改進(jìn)。
基于注意力機(jī)制,可以動(dòng)態(tài)提取文本的主要特征,而不是直接處理整個(gè)文本信息,因此這種機(jī)制得到了廣泛應(yīng)用。文獻(xiàn)[15]提出一種基于注意力機(jī)制的雙向長短期記憶(BiLSTM)神經(jīng)網(wǎng)絡(luò),用于捕捉句子中最重要的語義信息并將其用于關(guān)系分類;文獻(xiàn)[16]提出雙向門控遞歸單元,該單元將一種新的注意力集中機(jī)制與最大集中操作相結(jié)合,強(qiáng)制模型關(guān)注句子中的關(guān)鍵詞,并自動(dòng)維護(hù)文本中最有意義的信息;文獻(xiàn)[17]提出一種新的CNN 關(guān)系分類架構(gòu),該架構(gòu)使用兩級(jí)注意力機(jī)制以更好地識(shí)別上下文;文獻(xiàn)[18]提出一種用于中文文本分類的詞—字符注意力模型,該模型綜合了兩個(gè)層次的注意力模型:詞級(jí)注意力模型捕捉與文本意義有更密切語義關(guān)系的顯著詞,字符級(jí)注意力模型選取文本中的區(qū)別字符。
Fig.1 CSTEKA model architecture圖1 CSTEKA模型架構(gòu)
通過這些方法,在面對短文本語義信息不足的問題時(shí),沒有同時(shí)充分考慮字符層面、詞層面和概念層面。因此,本文將單詞和字符特征與可訓(xùn)練矩陣相乘,生成兩個(gè)具有兩級(jí)特征對齊信息的矩陣。同時(shí),本文在顯性知識(shí)庫的幫助下豐富了短文本的語義表達(dá),如YAGO[19]和Probase[20]。通過概念化將每篇短文與其知識(shí)庫中的相關(guān)概念聯(lián)系起來,然后將概念信息作為先驗(yàn)知識(shí)納入深層神經(jīng)網(wǎng)絡(luò),最后在卷積神經(jīng)網(wǎng)絡(luò)中堆疊所有特征以形成三維張量從而完成分類。
盡管簡單地將概念信息整合到深層神經(jīng)網(wǎng)絡(luò)中似乎很直觀,但仍然存在兩個(gè)主要問題。一是在對短文本進(jìn)行概念化時(shí),由于實(shí)體的模糊性或知識(shí)庫中的噪聲,容易引入一些不恰當(dāng)?shù)母拍?。例如,在短文本S1中:“小賈已經(jīng)使用蘋果6 年多了”,從知識(shí)庫中獲取“蘋果”的概念是“水果”和“手機(jī)”。顯然,“水果”在這里不是一個(gè)合適的概念,這是由“蘋果”的模糊性引起。二是需要考慮概念的粒度和概念的相對重要性。例如,在短文本S2中:“任正非是華為的創(chuàng)始人”,從知識(shí)庫中檢索任正非的概念是“人”和“企業(yè)家”。雖然兩者都是正確的概念,但“企業(yè)家”比“人”更具體,在這種情況下應(yīng)該被賦予更大的權(quán)重。已有學(xué)者[12]利用網(wǎng)絡(luò)規(guī)模的知識(shí)庫豐富短文本表示,但是沒有很好地解決這兩個(gè)問題。
本文使用面向短文本的概念(C-ST)注意度量短文本與其對應(yīng)概念之間的語義相似度。本文模型對S1的概念“手機(jī)”賦予了更大權(quán)重,因?yàn)樗谡Z義上更類似于短文本,而不是概念“水果”。同時(shí),使用概念對概念集(C-CS)的注意探索每個(gè)概念相對于整個(gè)概念集的重要性。本文模型對S2的概念“企業(yè)家”賦予了更大權(quán)重,這對于特定的分類任務(wù)更具區(qū)別性。
引入一個(gè)軟開關(guān),將兩個(gè)注意力權(quán)重合并成一個(gè),并產(chǎn)生每個(gè)概念的最終注意力權(quán)重,該權(quán)重由本文模型在不同的數(shù)據(jù)集上自適應(yīng)地學(xué)習(xí),然后計(jì)算概念向量的加權(quán)和以產(chǎn)生概念表示。
圖1 顯示了本文模型(CSTEKA)架構(gòu),輸入的短文是“我們喜歡踢足球”,概念包括足球、體育等,類別標(biāo)簽是“體育”。本文模型包含4 個(gè)模塊,由知識(shí)檢索模塊、短文本編碼、知識(shí)編碼和集成層模塊組成。知識(shí)檢索模塊從知識(shí)庫中檢索與短文本相關(guān)的概念信息。短文本編碼模塊通過WCAM 模型(圖2)對短文本進(jìn)行編碼,生成短文本單詞級(jí)和字符級(jí)嵌入的特征,WCAM 模型中的相互關(guān)注層是一個(gè)可訓(xùn)練的矩陣,生成單詞和字符級(jí)特征的兩個(gè)對齊矩陣。知識(shí)編碼模塊對概念向量應(yīng)用兩種注意力機(jī)制,以獲得概念表示特征。集成層是一個(gè)具有5 個(gè)獨(dú)立通道的卷積神經(jīng)網(wǎng)絡(luò),可以將單詞級(jí)特征、字符級(jí)特征、兩個(gè)對齊矩陣特征和概念表示特征堆疊集成到三維張量中。
Fig.2 WCAM model圖2 WCAM模型
本模塊的目標(biāo)是從知識(shí)庫中檢索相關(guān)知識(shí)。本文以isA關(guān)系為例,其他語義關(guān)系如isPropertyOf也可以類似方式加以應(yīng)用。具體而言,給定一個(gè)短文本s,希望找到與之相關(guān)的概念集C。本文通過兩個(gè)主要步驟實(shí)現(xiàn)該目標(biāo):實(shí)體鏈接和概念化。實(shí)體鏈接是自然語言處理中的一項(xiàng)重要任務(wù),用于識(shí)別短文本中提到的實(shí)體[21]。本文通過利用現(xiàn)有的實(shí)體鏈接解決方案獲得短文本的實(shí)體集E[22]。并且,對于每個(gè)實(shí)體e∈E,本文通過概念化從一個(gè)已有的知識(shí)庫中獲取其概念信息,如YAGO[19]、Probase[20]和CNProbase[23]。例如,給定一個(gè)短文本“張杰和李宇春出生在四川”,本文通過實(shí)體鏈接獲得實(shí)體集E={張杰,李宇春};然后,將實(shí)體“張杰”概念化,從CN-Probase 獲得其概念集C={人物、歌手、演員、音樂家}。
2.3.1 嵌入層
輸入是長度為n的短文本s,如圖2 所示,短文本s進(jìn)入WCAM 模型,被分割成兩個(gè)不同的序列(句子):
對于每個(gè)級(jí)別,本文查找預(yù)先訓(xùn)練的嵌入矩陣,并將序列中的每個(gè)標(biāo)記映射到一個(gè)固定大小的向量e。在這項(xiàng)工作中,本文選擇兩個(gè)開源的中文詞向量作為初始預(yù)訓(xùn)練嵌入字典,并將兩級(jí)序列填充到相同的長度n=max(nword,nchar),結(jié)果,獲得兩個(gè)長度相同的嵌入向量:
2.3.2 特征層
在特征層,本文選擇RNN 獲得更深層次的語義特征,因?yàn)镽NN 被認(rèn)為是現(xiàn)有模型中解決序列問題的最佳模型。為了解決梯度消失或爆炸問題,并捕捉過去和未來的上下文信息,本文選擇雙向LSTM 網(wǎng)絡(luò)(BLSTM),該網(wǎng)絡(luò)通過引入第二隱藏層擴(kuò)展單向LSTM 網(wǎng)絡(luò),其中隱藏到隱藏的連接以相反的時(shí)間順序流動(dòng)。
通過組合前向和后向LSTM 的輸出計(jì)算在步驟t的BLSTM 預(yù)測,本文使用分別表示它們,如式(1)所示。
其中,t=1,2,3,...,n,⊕是連接操作。在該模型中,本文將嵌入向量饋入由兩個(gè)獨(dú)立BLSTMs 組成的隱藏層,以獲得兩個(gè)特征級(jí)表示。BLSTMs 的輸出被稱為Hword、Hchar、Hword、Hchar∈Rn×d,其中d是隱藏層單元的數(shù)量。
2.3.3 相互關(guān)注層
注意力機(jī)制用于對齊特征,因?yàn)樽⒁饬C(jī)制的本質(zhì)是句子對的軟對齊。與文獻(xiàn)[24]相同,兩個(gè)新的對齊特征由可訓(xùn)練的注意矩陣A∈Rn×n生成。如圖2 所示,對齊特征由A通過以下等式生成:
其中,?是元素乘法。
本文使用單位這個(gè)術(shù)語定義對齊的矩陣,它們與Hword、Hchar具有相同的形狀。相互注意矩陣可以通過梯度反向傳播在每個(gè)時(shí)間點(diǎn)進(jìn)行修改,它可以被看作是一個(gè)空間轉(zhuǎn)換器,在訓(xùn)練過程中轉(zhuǎn)換空間并保存單詞和字符的信息。每一個(gè)單位的算符都是通過加上某一時(shí)刻的特征維數(shù)進(jìn)行計(jì)算,詞的計(jì)算會(huì)一步步受到影響,反之亦然。該方法簡單有效。
本文從短文本編碼模塊得到Hword、Hchar、Uword、Uchar4 個(gè)表示特征,將先堆疊這4 個(gè)特征獲取短文本表示特征q∈Rn。
從外部知識(shí)庫獲得的先驗(yàn)知識(shí)提供了更豐富的信息,有助于在給定短文本的情況下決定類別標(biāo)簽。本文以概念信息為例說明知識(shí)編碼,其他先驗(yàn)知識(shí)也可以類似方式使用。給定大小為k的概念集C,表示為(c1,c2,...,ck),其中ci是第i個(gè)概念向量,目標(biāo)是產(chǎn)生它的表示特征p。首先引入兩個(gè)注意力機(jī)制并更多地關(guān)注重要概念。
為了減小由于實(shí)體模糊性或知識(shí)庫中的噪聲而引入一些不當(dāng)概念的不良影響,提出基于普通注意[25]的面向短文本注意的概念(C-ST),以測量第i個(gè)概念和短文本表示q之間的語義相似性。使用式(4)計(jì)算短文本注意。
其中,mi表示從第i個(gè)概念到短文本的關(guān)注度。較大的mi意味著第i個(gè)概念在語義上更類似于短文本。f(·)是一個(gè)非線性激活函數(shù),如雙曲正切變換,softmax用于歸一化每個(gè)概念的注意力權(quán)重。是權(quán)重矩陣,w1∈是權(quán)重向量,其中da是超參數(shù),b1是偏移量。
此外,為了考慮概念之間的相對重要性,提出基于source2token自我注意的概念集(C-CS)注意概念[26]以度量每個(gè)概念相對于整個(gè)概念集的重要性。將每個(gè)概念的CCS注意力定義如式(5)所示。
其中,ni表示從第i個(gè)概念到整個(gè)概念集的關(guān)注權(quán)重。是權(quán)重矩陣,w1∈是權(quán)重向量,其中db是超參數(shù),b2是偏移量。C-CS 注意的效果類似于特征選擇,這是一種“軟”特征選擇,對重要的概念賦予較大權(quán)重,對無關(guān)緊要的概念賦予較小權(quán)重(接近于零)。
通過式(6)將mi和ni相結(jié)合,以獲得每個(gè)概念的最終關(guān)注權(quán)重:
這里將最后的注意力權(quán)重從第i個(gè)概念指向短文本,γ ∈[0,1]是調(diào)整兩個(gè)注意力權(quán)重mi和ni重要性的一個(gè)切換。有多種方式設(shè)置參數(shù)γ,γ 可以通過神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)。可在不同的數(shù)據(jù)集上自適應(yīng)地為γ 分配不同的值,以獲得更好的實(shí)驗(yàn)結(jié)果。通過式(7)計(jì)算γ:
其中,向量w和標(biāo)量b是可學(xué)習(xí)參數(shù),σ是sigmoid函數(shù)。最后,使用最終的注意力權(quán)重計(jì)算概念向量的加權(quán)和,產(chǎn)生表示概念的表示特征。
特征向量維上的特征不是相互獨(dú)立的,簡單地在時(shí)間步長維度上獨(dú)立應(yīng)用一維匯集運(yùn)算可能會(huì)破壞特征表示的結(jié)構(gòu)[27]。CNN 利用多個(gè)卷積濾波器執(zhí)行特征映射,可比一維最大池保留更多的特征信息。因此,本文選擇CNN將它們進(jìn)行整合。
將單詞級(jí)特征、字符級(jí)特征、兩個(gè)對齊矩陣特征和概念表示特征視為具有5 個(gè)通道的圖像并疊加成三維張量,然后送入卷積神經(jīng)網(wǎng)絡(luò)。
具體而言,子特征gi由濾波器w∈Rk×d和特征窗口zi:i+k-1生成。
其中,b是偏置項(xiàng),f(·)是非線性函數(shù),這里使用雙曲正切。
該過濾器被應(yīng)用于特征級(jí)表示z={z1:k,z2:k+1,...,zn-k+1}并生成特征向量。
在多通道架構(gòu)中,每個(gè)濾波器應(yīng)用于5 個(gè)通道,并將結(jié)果相加以計(jì)算gi,如式(9)所示。文本表示由具有全連接層的集成層輸出生成,Softmax分類器用于預(yù)測標(biāo)簽。
本文實(shí)驗(yàn)平臺(tái)配置如表1所示。
Table 1 Hardware and software configuration of the experimental platform表1 實(shí)驗(yàn)平臺(tái)軟硬件配置
本文在清華大學(xué)開源的中文新聞數(shù)據(jù)集(THUCNews)、搜狗新聞、中文新聞標(biāo)題(CNT)和微博謠言4 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),如表2 所示。表2 中報(bào)告了每個(gè)數(shù)據(jù)集的實(shí)體和概念的平均數(shù)量,所有4 個(gè)數(shù)據(jù)集都通過Jieba工具進(jìn)行標(biāo)記化。
THUCNews:該數(shù)據(jù)集是清華實(shí)驗(yàn)室收集的社會(huì)新聞集,包含14個(gè)類的4萬個(gè)訓(xùn)練樣本和1萬個(gè)測試樣本。
搜狗新聞:該數(shù)據(jù)集是一個(gè)沒有標(biāo)題的社交新聞集,包含10 個(gè)類的5 萬個(gè)訓(xùn)練樣本和1 萬個(gè)測試樣本。本實(shí)驗(yàn)中截取每個(gè)樣本的前30 個(gè)字符(包括標(biāo)點(diǎn)符號(hào))作為一個(gè)新的數(shù)據(jù)集。
CNT:該數(shù)據(jù)集來自參考文獻(xiàn)[28],它包含32 個(gè)類的47 952 個(gè)訓(xùn)練樣本和15 986 個(gè)測試樣本。在刪除了包含無法處理特殊字符的標(biāo)題后,保留47 850 個(gè)用于訓(xùn)練,15 950個(gè)用于測試。
微博謠言:該數(shù)據(jù)集來自參考文獻(xiàn)[7],數(shù)據(jù)集里有9 079 條微博謠言。在刪除這些記錄中的“x”標(biāo)簽后,保留了5 個(gè)類別。從該數(shù)據(jù)集中,隨機(jī)選擇6 030 個(gè)樣本用于訓(xùn)練,2 160個(gè)樣本用于測試。
Table 2 Summary statistics of the experimental dataset表2 實(shí)驗(yàn)數(shù)據(jù)集匯總統(tǒng)計(jì)
將本文提出的CSTEKA 模型與以下方法進(jìn)行比較:
RCNN[29]:該方法使用遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類。它用RNN 捕捉上下文信息,用CNN 捕捉文本中的關(guān)鍵成分。
CharCNN[30]:該方法使用只有字符級(jí)特征的CNN 作為輸入。
BiLSTM-SA[26]:這種方法使用BiLSTM 和source2token自我注意將句子編碼成固定大小的表示,用于分類。
KPCNN[12]:該模型是短文本分類的最新方法。它利用CNN 根據(jù)短文本和概念的單詞和字符級(jí)別信息進(jìn)行分類。
HANs[7]:混合注意網(wǎng)絡(luò)將中文短文本嵌入到詞級(jí)和字符級(jí)向量中,并運(yùn)用混合注意力機(jī)制生成句子特征。HANs-BLSTM+CNN 表示基于注意力的BLSTM 和基于注意力的CNN 的組合。
BERT[31]:一種基于微調(diào)的方法,被稱為來自Transforms 的雙向編碼器表示,旨在通過在所有層中聯(lián)合調(diào)節(jié)左右上下文預(yù)訓(xùn)練深度雙向表示。在許多自然語言處理任務(wù)中,BERT 是最先進(jìn)的模型。本文針對中文短文本分類任務(wù)對預(yù)先訓(xùn)練的BERT 進(jìn)行微調(diào)。
對于所有模型,使用Adam[32]進(jìn)行學(xué)習(xí),學(xué)習(xí)率為0.01,批量大小設(shè)置為64,訓(xùn)練迭代次數(shù)設(shè)為20。使用在搜狗新聞上預(yù)先訓(xùn)練的50 維跳躍式字符和單詞嵌入,如果一個(gè)單詞未知,會(huì)隨機(jī)初始化它的嵌入。同時(shí),使用隨機(jī)初始化的50 維概念嵌入。所有的字符嵌入、單詞嵌入和概念嵌入在訓(xùn)練階段都可以訓(xùn)練和微調(diào),以期學(xué)習(xí)面向任務(wù)的表示。使用寬度為[2,3,4]且尺寸為50 的一維CNN,總共150個(gè)。
對于本文模型,以下超參數(shù)基于驗(yàn)證集進(jìn)行估計(jì),并用于最終測試集:u=64,da=70,db=35。而γ 由神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí),因?yàn)檫@種方法可以比人工神經(jīng)網(wǎng)絡(luò)獲得更好的分類結(jié)果。評價(jià)指標(biāo)是準(zhǔn)確性,其已廣泛應(yīng)用于文本分類任務(wù)中。
將本文CSTEKA 模型與6 個(gè)強(qiáng)基線進(jìn)行比較,結(jié)果如表3 所示。在不使用任何知識(shí)的情況下,本文模型優(yōu)于傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)(DNNs),包括RCNN、CharCNN、BiLSTM-SA、KPCNN、HANs-BLSTM+CNN 和BERT。主要原因是本文模型借助于知識(shí)庫豐富了短文本的信息,具體而言,本文將知識(shí)庫中的先驗(yàn)知識(shí)作為顯式特征融入DNNs中,這對短文本分類有很大貢獻(xiàn)。本文模型比KPCNN 表現(xiàn)得更好,因?yàn)楸疚哪P陀捎谧⒁饬C(jī)制能夠更多地關(guān)注重要知識(shí)。本文使用C-ST 和C-CS 注意從兩個(gè)方面衡量知識(shí)的重要性,并自適應(yīng)地為不同短文本的每個(gè)知識(shí)分配適當(dāng)?shù)臋?quán)重。并且,本文模型實(shí)現(xiàn)了比HANs-BLSTM+CNN 更好的性能。此外,可以看到本文模型比BERT 取得了更好的性能,原因在于BERT 是一個(gè)基于字符級(jí)別的模型。該結(jié)果證明,集成多種類型的特征有助于提高中文短文本分類性能。
Table 3 Accuracy of different models on different datasets表3 不同數(shù)據(jù)集上模型準(zhǔn)確性比較(%)
3.5.1 注意力機(jī)制
該實(shí)驗(yàn)部分的目的是驗(yàn)證兩種注意力機(jī)制(C-ST 和C-CS 注意)的有效性。手動(dòng)調(diào)節(jié)超參數(shù)γ,以探索C-ST 和C-CS 注意的相對重要性,以0.25 的間隔從0 到1 改變?chǔ)茫Y(jié)果如表4 所示。一般而言,γ=0.25 的模型效果更好,但對于不同的數(shù)據(jù)集,優(yōu)勢并不總是存在。例如,γ=0.50 的模型在CNT 數(shù)據(jù)集上表現(xiàn)最佳。當(dāng)γ 等于0 或1 時(shí),模型在所有4 個(gè)數(shù)據(jù)集上都表現(xiàn)不佳。僅使用C-ST 注意(γ=1.00),模型忽略了每個(gè)概念的相對重要性,導(dǎo)致性能不佳。僅使用C-CS 注意(γ=0.00),模型忽略了短文本和概念之間的語義相似性。在這種情況下,一個(gè)不恰當(dāng)?shù)母拍羁赡軙?huì)被賦予更大權(quán)重,這也會(huì)導(dǎo)致較差的性能。
3.5.2 外部知識(shí)作用
本文使用概念信息作為先驗(yàn)知識(shí)以豐富短文本表示,并提高分類性能。每個(gè)數(shù)據(jù)集的實(shí)體和概念的平均數(shù)量如表2 所示。為了驗(yàn)證本文模型中外部知識(shí)的作用,從CNT 數(shù)據(jù)集中挑選了一些測試示例,并在表中進(jìn)行了說明。如“武昌起義”示例中,該短文本被本文模型正確分類為“歷史”,但是傳統(tǒng)DNNs 錯(cuò)誤地將其分類為“城市”。一般而言,概念信息在短文本分類中起到至關(guān)重要的作用,尤其是當(dāng)短文本的上下文不夠時(shí)?!拔洳鹆x”是一個(gè)連續(xù)名詞,即在訓(xùn)練集中出現(xiàn)的頻率較低,因此很難學(xué)習(xí)認(rèn)知表征,從而導(dǎo)致傳統(tǒng)DNNs 的性能較差。然而,本文模型通過從知識(shí)庫中引入知識(shí),在一定程度上解決了稀有和未知的單詞問題。本文模型中使用的歷史和歷史事件等概念有助于將短文本分類到正確的類別“歷史”中。
Table 4 Settings of the super parameter γ of the proposed model表4 本文模型中超參數(shù)γ的設(shè)置(%)
3.5.3 三維卷積影響
為了證明三維卷積的有效性,本文在兩個(gè)數(shù)據(jù)集上比較了一維匯集和三維卷積。本文沿著時(shí)間步長維度連接單詞級(jí)特征、字符級(jí)特征、兩個(gè)對齊矩陣特征和概念表示特征,稱之為一維匯集。本文堆疊單詞級(jí)特征、字符級(jí)特征、兩個(gè)對齊矩陣特征和概念表示特征5 個(gè)特征,并使用卷積神經(jīng)網(wǎng)絡(luò)集成它們,稱之為三維卷積。圖3 表明,三維卷積在兩種中文短文本分類任務(wù)上可以獲得更高的性能。
Fig.3 Comprehensive study of 1-dimensional collection and 3-dimensional convolution圖3 一維匯集和三維卷積綜合研究
針對現(xiàn)有短文本分類方法嚴(yán)重依賴神經(jīng)網(wǎng)絡(luò)層數(shù),且因短文本語義模糊導(dǎo)致短文本分類效果不佳的問題,提出一種基于外部知識(shí)注意的中文短文本分類模型。由于單詞和字符級(jí)嵌入在向量空間中沒有相關(guān)性,為了減少特征信息丟失,設(shè)置一個(gè)可訓(xùn)練矩陣以獲取單詞和字符級(jí)兩個(gè)對齊特征矩陣。同時(shí),面對短文本所能提供的語義信息有限的問題,將概念信息整合到知識(shí)庫中,以增強(qiáng)短文本的表達(dá)。為了衡量每個(gè)概念的重要性,本文應(yīng)用兩種注意力機(jī)制自動(dòng)獲取用于生成概念表示的概念權(quán)重。實(shí)驗(yàn)表明,本文模型在4 個(gè)中文短文本數(shù)據(jù)集上取得了最好性能。該模型在引入外部知識(shí)庫時(shí),由于一些短文本過短,沒有提到實(shí)體,會(huì)導(dǎo)致概念化失敗。將屬性值信息融入深度神經(jīng)網(wǎng)絡(luò),進(jìn)一步提高短文本分類性能是未來研究重點(diǎn)。