馬雯琦, 何 躍
1(中國(guó)科學(xué)技術(shù)大學(xué) 管理學(xué)院, 合肥 230026)
2(四川大學(xué) 商學(xué)院, 成都 610065)
文本分類是自然語言處理中一類重要任務(wù)[1], 包括主題標(biāo)注[2]、情感分類[3]、垃圾郵件檢測(cè)[4]等應(yīng)用.文檔是文本的一種常見形式, 現(xiàn)實(shí)世界中, 存在大量長(zhǎng)文檔, 例如學(xué)術(shù)期刊論文、商業(yè)報(bào)告和書籍等.文檔分類可用于滿足檢索、查詢等需求, 也可用于識(shí)別并過濾暴力、色情、種族歧視等劣質(zhì)內(nèi)容.從內(nèi)容結(jié)構(gòu)上看,文檔具有層級(jí)結(jié)構(gòu), 即詞語組成句子, 句子組成文檔[1].文檔的特征提取和向量表示是文檔分類中的關(guān)鍵[5].傳統(tǒng)的文本分類方法, 例如詞袋模型[6]、n-Grams[7]使用統(tǒng)計(jì)學(xué)方法把文檔表示為N維特征向量, 并交由SVM[8]或樸素貝葉斯[9]模型來做分類.這些方法簡(jiǎn)單穩(wěn)健, 但是忽略了文檔的結(jié)構(gòu)信息, 丟棄了部分句子間和詞語間的關(guān)系.
近年來, 基于深度學(xué)習(xí)的方法展示出相比于傳統(tǒng)分類方法的優(yōu)越性.Kim[10]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的變體模型自動(dòng)地從由詞向量表示的句子中抽取特征, 再把特征輸入到分類網(wǎng)絡(luò)中預(yù)測(cè)句子類別.Lee等人[11]提出一種同時(shí)使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和CNN的模型, 能夠序列地對(duì)抽取到的卷積特征進(jìn)行編碼, 該模型在短文本分類任務(wù)上取得最高水平的(state-ofthe-art)結(jié)果.這些模型在進(jìn)行特征抽取時(shí), 使用整個(gè)文本的內(nèi)容, 在處理句子或者影評(píng)、短信等形式的短文本時(shí), 計(jì)算開銷是可以容忍的.然而, 如果直接套用在長(zhǎng)文檔上, 一方面, 由于長(zhǎng)文檔的內(nèi)容量往往是普通短文本的成百上千倍, 表示長(zhǎng)文檔的特征向量將是超高維的, 極大增加內(nèi)存壓力; 另一方面, 參照人類閱讀習(xí)慣, 人類僅根據(jù)少數(shù)重要的文檔片段便能判斷文檔類別, 所有詞語或句子對(duì)文檔分類結(jié)果的貢獻(xiàn)并不是均等的[12], 那么使用整個(gè)文檔內(nèi)容構(gòu)建表示向量就是不必要的.從這個(gè)角度出發(fā), 如何從文檔中選取出最重要的、包含判別信息的文檔片段, 是設(shè)計(jì)可行且高效的文檔分類方法的關(guān)鍵.Yang等人[1]提出用于文檔分類的層級(jí)注意力網(wǎng)絡(luò)(HAN), 與文檔的層級(jí)結(jié)構(gòu)相對(duì)應(yīng),HAN也具有層級(jí)結(jié)構(gòu), 它的兩級(jí)注意力機(jī)制分別關(guān)注句子層面和詞語層面, 使模型在構(gòu)造文檔表示時(shí)對(duì)重要性強(qiáng)和重要性弱的內(nèi)容做不同程度的關(guān)注.與Yang等人的思想相類似, He等人[12]同樣使用注意力機(jī)制篩選重要的文檔信息, 模型性能顯著高于基準(zhǔn)模型Kim[10].然而, He等人[12]中用于抽取文本特征的CNN與基準(zhǔn)模型Kim[10]的設(shè)計(jì)完全相同, 側(cè)重提取短語范圍內(nèi)的詞語關(guān)系, 可能不擅長(zhǎng)處理包含長(zhǎng)句的文檔片段; 此外,He等人[12]使用不可微分的硬注意力機(jī)制[13], 大大增加模型訓(xùn)練難度.本研究對(duì)He等人[12]的模型做出改進(jìn),提出基于局部注意力[14]的長(zhǎng)文檔分類(Local-Attentionbased Long Document Classification, LALDC)模型,LALDC利用循環(huán)注意力學(xué)習(xí), 序列地預(yù)測(cè)重要文檔片段的位置, 并抽取該位置附近的文本特征, 經(jīng)過若干次循環(huán), 抽取到的特征向量被整合起來作為文檔的摘要特征, 輸入后續(xù)分類網(wǎng)絡(luò), 獲得預(yù)測(cè)結(jié)果.LALDC的設(shè)計(jì)結(jié)構(gòu)使它能夠很好地適應(yīng)長(zhǎng)文檔分類任務(wù), 原因在于, LALDC沒有使用文檔所有的細(xì)節(jié)信息[15], 僅僅使用少數(shù)文檔片段構(gòu)造判別特征, 就足以支撐分類任務(wù).
此外, 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要大量標(biāo)記數(shù)據(jù), 而獲取標(biāo)記數(shù)據(jù)往往成本高昂, 缺乏標(biāo)記數(shù)據(jù)造成的弱監(jiān)督是阻礙模型性能提升的瓶頸.目前, 對(duì)弱監(jiān)督學(xué)習(xí)還沒有嚴(yán)格的定義.Zhou[16]把弱監(jiān)督分為3種類型:(1) 不完全監(jiān)督, 訓(xùn)練數(shù)據(jù)中僅有一小部分帶有標(biāo)簽;(2) 不確切監(jiān)督, 訓(xùn)練數(shù)據(jù)的標(biāo)簽是粗粒度的; (3) 不精確監(jiān)督, 訓(xùn)練數(shù)據(jù)的標(biāo)簽不總是真實(shí)的.本研究面臨的弱監(jiān)督屬于第1種類型.Meng等人[17]提出一種弱監(jiān)督方法, 解決使用深度學(xué)習(xí)做文本分類任務(wù)時(shí)經(jīng)常面臨的數(shù)據(jù)缺失問題.該方法由兩個(gè)模塊構(gòu)成: (1) 偽文檔生成模塊, 利用種子信息(例如少量標(biāo)記文檔、類別關(guān)鍵詞、類別名稱等)生成偽標(biāo)記文檔, 用于對(duì)基于CNN或RNN的模型做預(yù)訓(xùn)練; (2) 自訓(xùn)練模塊, 在真實(shí)的未標(biāo)記數(shù)據(jù)上通過Bootstrap方法對(duì)模型做參數(shù)微調(diào).Meng等人[17]的方法能夠靈活處理不同類型的弱監(jiān)督信號(hào), 并容易整合到現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)模型中.然而, 使用該方法生成的偽文檔中, 詞語之間沒有前后語義關(guān)系, 并不符合真實(shí)文檔的情況.本研究借鑒Meng等人的偽文檔生成模塊, 并做出實(shí)質(zhì)性改進(jìn), 提出偽文檔生成(Pseudo-Document Generation, PDG)模型, 利用弱監(jiān)督信號(hào)生成接近真實(shí)文檔的偽標(biāo)記文檔, 能夠增強(qiáng)訓(xùn)練數(shù)據(jù), 提升模型精度.
綜上所述, 本研究的貢獻(xiàn)主要在兩方面: PDG模型用于生成偽文檔, 緩解數(shù)據(jù)不足造成的模型精度難以提升的問題; LALDC模型用于長(zhǎng)文檔分類, 解決過往的深度神經(jīng)網(wǎng)絡(luò)模型難以適應(yīng)長(zhǎng)文檔的問題, 在模型精度、訓(xùn)練和推斷速度上均具有實(shí)際應(yīng)用的價(jià)值.
本研究可拆分為偽文檔生成、長(zhǎng)文檔分類兩部分.首先使用PDG模型生成偽文檔以增強(qiáng)訓(xùn)練數(shù)據(jù), 然后使用LALDC 模型預(yù)測(cè)文檔所屬類別.圖1展示了整個(gè)流程.
圖1 弱監(jiān)督長(zhǎng)文檔分類的流程
Meng等人[17]利用種子信息捕捉詞語、文檔、類別之間的語義相關(guān)性, 假設(shè)詞語和文檔共享一個(gè)聯(lián)合語義空間, 基于這個(gè)空間學(xué)習(xí)出能夠?yàn)槊總€(gè)類別生成偽文檔的生成模型.具體而言, 使用Skip-Gram模型[18]學(xué)習(xí)出語料庫中所有詞語的p維向量表示并做歸一化,使得所有詞向量都處在p維單位球空間上, 也就是聯(lián)合語義空間.對(duì)于標(biāo)記文檔形式的種子信息, 先使用TFIDF加權(quán)法提取每個(gè)類別的種子關(guān)鍵詞, 再?gòu)恼Z義空間中尋找與種子關(guān)鍵詞平均相似度最高的前t個(gè)類別關(guān)鍵詞, 使用它們?nèi)M合一個(gè)von Mises Fisher (vMF)分布[19], 也就是該類別在Rp中單位球上的語義模型.
偽文檔生成過程中, Meng等人[17]使用了生成式混合模型: 從由背景分布(整個(gè)語料庫的分布)和特定類別的vMF分布構(gòu)成的混合分布中重復(fù)做單詞采樣來生成偽文檔.這個(gè)方法看似高效穩(wěn)定, 但由于每次采樣都是獨(dú)立的, 導(dǎo)致生成的偽文檔中詞語亂序, 不符合一篇文檔在意思表達(dá)上應(yīng)該連貫通順的認(rèn)知.為使生成的詞語之間具有時(shí)序上的聯(lián)系, 本研究使用基于門控循環(huán)單元(GRU)[20]的循環(huán)神經(jīng)網(wǎng)絡(luò)生成具有意義的偽文檔.具體而言, 基于整個(gè)語料庫訓(xùn)練GRU語言模型, 對(duì)于每個(gè)類別, 從該類別的vMF分布中采樣1個(gè)詞嵌入向量, 并使用嵌入空間中最接近這個(gè)向量的詞語作為序列的第1個(gè)詞語, 然后把這個(gè)序列輸入到GRU模型中生成下一個(gè)詞語, 把它拼接到序列末尾并重復(fù)上個(gè)步驟, 直到序列長(zhǎng)度等于一個(gè)事先設(shè)定好的參數(shù), 最終的序列就作為該類別的一篇偽文檔.圖2展示了整個(gè)流程.
圖2 使用PDG模型生成偽文檔的流程
LALDC由3個(gè)子網(wǎng)絡(luò)和1個(gè)初始特征組成: 摘要網(wǎng)絡(luò)、定位網(wǎng)絡(luò)、分類網(wǎng)絡(luò)和初始文檔表示, 模型架構(gòu)如圖3所示.在每個(gè)時(shí)間步, 給定由定位網(wǎng)絡(luò)輸出的位置post, 摘要網(wǎng)絡(luò)從post前后的文檔片段所包含的詞語中抽取局部特征.LALDC的關(guān)鍵點(diǎn)在于能否準(zhǔn)確找到包含判別信息的文檔片段所在的位置, 定位網(wǎng)絡(luò)通過循環(huán)注意力機(jī)制完成這一任務(wù), 它基于觀察到的上下文信息, 決定要把注意力放在文檔的哪個(gè)片段, 使得摘要網(wǎng)絡(luò)抽取到的信息足以支撐后續(xù)分類任務(wù).初始文檔表示包含文檔的初始上下文信息, 為定位網(wǎng)絡(luò)提供了第1個(gè)輸入, 使得定位網(wǎng)絡(luò)在第1個(gè)時(shí)間步就能準(zhǔn)確找出位置.幾輪特征抽取后, 得到原文檔的摘要特征, 隨后輸入到分類網(wǎng)絡(luò)中預(yù)測(cè)文檔類別.此外, LALDC使用Embedding層把文檔中的詞語轉(zhuǎn)換為詞向量(由預(yù)訓(xùn)練好的GloVe[21]表示).
圖3 LALDC的模型架構(gòu)
(1) 摘要網(wǎng)絡(luò)
在第t個(gè)時(shí)間步, 摘要網(wǎng)絡(luò)從由位置post決定的文檔片段中抽取特征.通過卷積和池化操作, 把詞向量編碼成特征向量, 并連結(jié)位置特征pt, 一起映射為長(zhǎng)度固定的特征st, 作為定位網(wǎng)絡(luò)的輸入.Kim[10]提出用于句子分類的CNN模型, 抽取文本特征的卷積核窗口大小為3、4、5, 模型在多個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異.Zhang等人[22]對(duì)用于句子分類的CNN做了全面實(shí)驗(yàn)分析, 指出對(duì)于非常長(zhǎng)的句子, 應(yīng)當(dāng)嘗試加入更大窗口的卷積核, 以捕捉更大范圍內(nèi)詞語間的關(guān)系.He等人[12]使用與文獻(xiàn)[10]中同樣窗口大小的卷積核抽取文檔片段的特征.考慮到文檔片段在長(zhǎng)度上是超過普通句子的, 可能包含多個(gè)長(zhǎng)句, 參考文獻(xiàn)[22], 本研究設(shè)計(jì)的摘要網(wǎng)絡(luò)同樣使用多核CNN, 卷積核窗口大小為3、5、7、10, 全面捕捉短語和長(zhǎng)句的特征, 如圖4所示.
圖4 摘要網(wǎng)絡(luò)
(2) 定位網(wǎng)絡(luò)
定位網(wǎng)絡(luò)的核心是使用GRU[20]的循環(huán)神經(jīng)網(wǎng)絡(luò)和局部注意力機(jī)制[14].在第t個(gè)時(shí)間步, 定位網(wǎng)絡(luò)的GRU接收由摘要網(wǎng)絡(luò)生成的特征向量st作為輸入, 結(jié)合隱藏狀態(tài)ht產(chǎn)生下一個(gè)狀態(tài)向量ht+1.接下來, 注意力層根據(jù)狀態(tài)向量ht+1計(jì)算下一個(gè)應(yīng)該被摘要網(wǎng)絡(luò)“看到”的文檔片段的位置post+1.通過這樣的循環(huán)計(jì)算, LALDC在若干次特征抽取后形成包含判別信息的摘要特征, 作為類別預(yù)測(cè)的依據(jù).提升模型性能的關(guān)鍵在于, 訓(xùn)練定位網(wǎng)絡(luò), 使它總是把注意力放在重要的文檔片段.
軟注意力(Soft Attention)[23]針對(duì)文檔中的每個(gè)句子或每個(gè)單詞, 計(jì)算權(quán)重向量作為注意力概率分布, 非常適合短文本任務(wù), 比如情感分析、句子分類等.然而,對(duì)于長(zhǎng)文檔, 由于句子和單詞的數(shù)量過多, 為一整篇文檔計(jì)算注意力概率的開銷過大, 不具有實(shí)踐意義[14].He等人[12]使用硬注意力(Hard Attention)機(jī)制[18]來避免軟注意力機(jī)制造成的龐大計(jì)算開銷, 在每個(gè)時(shí)間步,硬注意力直接從整個(gè)文檔中隨機(jī)采樣一組詞語, 提高了計(jì)算效率.然而, 由于硬注意力的選取過程是離散的,導(dǎo)致模型不可微分, 需要更復(fù)雜的技術(shù)(比如減方差、強(qiáng)化學(xué)習(xí))來訓(xùn)練[14].局部注意力[14]可以看作是軟注意力和硬注意力的混合體, 它在計(jì)算上比軟注意力開銷更少, 同時(shí), 與硬注意力不同, 局部注意力幾乎處處可微, 更易于實(shí)施和訓(xùn)練.LALDC的定位網(wǎng)絡(luò)設(shè)計(jì)為循環(huán)局部注意力模型, 如圖5所示.
圖5 定位網(wǎng)絡(luò)
每次循環(huán)局部注意力有選擇性地關(guān)注一個(gè)較小的上下文窗口.具體而言, 在第t個(gè)時(shí)間步, 模型根據(jù)隱藏狀態(tài)ht生成對(duì)齊位置(aligned position)apt, 計(jì)算窗口[apt-D,apt+D]內(nèi)對(duì)象的局部權(quán)重(注意力分布),D根據(jù)經(jīng)驗(yàn)來選擇.隨后, 上下文向量ct計(jì)算為該窗口內(nèi)對(duì)象的加權(quán)平均(這一步類似于軟注意力).最后, 預(yù)測(cè)接下來應(yīng)該抽取特征的片段位置post.
(3) 初始文檔表示
由于定位網(wǎng)絡(luò)需要文檔的上下文信息來預(yù)測(cè)注意力的位置, 僅使用片段信息可能不夠, 此外, 定位網(wǎng)絡(luò)作出第1次預(yù)測(cè)之前, GRU需要接收初始文檔信息作為輸入來產(chǎn)生第1個(gè)隱藏狀態(tài).因此, 對(duì)原始文檔做隨機(jī)采樣, 并編碼成代表初始文檔信息的向量, 作為定位網(wǎng)絡(luò)的第1個(gè)輸入.具體而言, 從原始文檔中隨機(jī)采樣K組詞語(每次采樣的窗口大小相同), 每組詞語由Embedding編碼成詞向量, 再輸入到摘要網(wǎng)絡(luò)中抽取特征, 初始文檔表示s0計(jì)算為K個(gè)特征向量的加和, 這一過程如圖6所示.
圖6 初始文檔表示
(4) 分類網(wǎng)絡(luò)
分類網(wǎng)絡(luò)接收摘要網(wǎng)絡(luò)經(jīng)過若干輪循環(huán)后生成的摘要特征作為輸入, 目標(biāo)是正確預(yù)測(cè)文檔所屬類別, 該網(wǎng)絡(luò)設(shè)計(jì)為典型的全連接層+Softmax層的結(jié)構(gòu).
(5) 模型優(yōu)化
由于LALDC各個(gè)子網(wǎng)絡(luò)都是可微分的, 因此使用典型的有監(jiān)督學(xué)習(xí)訓(xùn)練方法, 通過最小化一個(gè)平滑交叉熵?fù)p失函數(shù)來優(yōu)化參數(shù), 如算法1所示.
算法1.LALDC參數(shù)優(yōu)化算法1.Input: 文檔Doc, 最大迭代次數(shù)maxIter, 定位網(wǎng)絡(luò)循環(huán)次數(shù)T 2.for i = 1, 2, …, maxIter do初始化摘要特征Simages/BZ_62_1796_2043_1825_2068.pngimages/BZ_62_2175_2043_2233_2068.png獲取文檔Doc的初始文檔表示, 輸入到定位網(wǎng)絡(luò)以預(yù)測(cè)3.for t = 1, 2, …, T do images/BZ_62_1590_2143_1645_2168.png images/BZ_62_2045_2143_2070_2168.png摘要網(wǎng)絡(luò)在 附近的文檔片段上抽取特征 , 更新S if t < Timages/BZ_62_1690_2243_1715_2268.pngimages/BZ_62_1932_2243_2015_2268.png定位網(wǎng)絡(luò)接收 作為輸入, 預(yù)測(cè)else分類網(wǎng)絡(luò)接收S作為輸入, 預(yù)測(cè)文檔Doc的類別4.end for 5.更新參數(shù)6.end for 7.Output: 預(yù)測(cè)標(biāo)簽
常用的文檔分類基準(zhǔn)數(shù)據(jù)集, 例如IMDB review、Yahoo Answer、Amazon review等, 它們的平均單篇文檔所含單詞數(shù)都不超過350個(gè)詞語, 也就是說這些數(shù)據(jù)集大部分是短文檔, 并不符合一般長(zhǎng)文檔(比如學(xué)術(shù)論文、書籍等)的字?jǐn)?shù)情況, 因此使用這些數(shù)據(jù)集來檢驗(yàn)本研究的模型是不適合的.He等人[12]使用自主收集的arXiv論文數(shù)據(jù)集來評(píng)估長(zhǎng)文檔分類模型, 為便于與基準(zhǔn)模型做比較, 本研究同樣使用該數(shù)據(jù)集.
arXiv是一個(gè)收集物理學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)等領(lǐng)域預(yù)發(fā)表論文的網(wǎng)站.arXiv數(shù)據(jù)集包含31 363篇論文, 分為10個(gè)類別, 通過arXiv sanity preserver程序[24]收集.注意到某些類別屬于同一個(gè)大類, 比如cs.AI、cs.CE、cs.DS等都屬于計(jì)算機(jī)科學(xué), 大大增加了正確區(qū)分不同類別論文的難度.對(duì)數(shù)據(jù)的清洗包括:只保留有意義的英語單詞, 丟棄詞數(shù)少于1000的文檔,過長(zhǎng)的文檔被截?cái)酁榍?0 000個(gè)詞.表1展示了數(shù)據(jù)集的詳細(xì)信息.
表1 arXiv數(shù)據(jù)集的統(tǒng)計(jì)信息
使用兩組基準(zhǔn)模型.一是Kim[10]中做句子分類的CNN模型, 為簡(jiǎn)潔, 稱作TextCNN; 二是He等人[12]基于硬注意力機(jī)制的長(zhǎng)文檔分類模型, 稱作HeLDC.為使TextCNN適合長(zhǎng)文檔分類, 對(duì)它稍做調(diào)整, 具體如下: 與本研究的LALDC基本思想類似, 從原始文檔中隨機(jī)抽取K個(gè)長(zhǎng)度為w的片段, 把每個(gè)片段分別作為TextCNN的輸入, 卷積池化后得到特征向量, 把這些向量做加和, 再輸入到后續(xù)的分類網(wǎng)絡(luò)做預(yù)測(cè).
(1) 文檔表示
使用開源的GloVe[21]作為初始化詞向量, 向量維數(shù)為100.所有不在GloVe中的詞語都被隨機(jī)初始化,Embedding層與后續(xù)網(wǎng)絡(luò)一起聯(lián)合訓(xùn)練(jointly-train).
(2) 訓(xùn)練參數(shù)
使用TensorFlow搭建模型, 定位網(wǎng)絡(luò)中GRU大小為256, 局部注意力窗口D為12; 摘要網(wǎng)絡(luò)使用3、5、7、10四種窗口大小的卷積層, 每層有100個(gè)核; 使用ADAM優(yōu)化算法[25], 初始學(xué)習(xí)率為0.001, dropout概率為0.5, batch大小為64.
(3) 評(píng)價(jià)指標(biāo)
arXiv數(shù)據(jù)集各類別文檔數(shù)量相差較小, 可采用精度(accuracy)評(píng)估模型性能.
(1) 實(shí)驗(yàn)1
為了驗(yàn)證弱監(jiān)督情況下, 生成偽文檔能夠增強(qiáng)訓(xùn)練數(shù)據(jù), 同時(shí)評(píng)估LALDC與基準(zhǔn)模型的性能, 設(shè)計(jì)以下實(shí)驗(yàn).從arXiv數(shù)據(jù)集中選取0.2比例的文檔作為訓(xùn)練集TrainSet, 剩余文檔作為測(cè)試集TestSet.使用PDG模型為每個(gè)類別生成200、300、400、500篇偽文檔, 和TrainSet一起構(gòu)成5組訓(xùn)練數(shù)據(jù), 即TrainSet、TrainSet+200篇偽文檔、TrainSet+300篇偽文檔等依此類推.使用這5組數(shù)據(jù)訓(xùn)練LALDC和基準(zhǔn)模型, 每次抽取特征的文檔片段窗口大小w為40, 抽取次數(shù)為14.使用TestSet檢驗(yàn)?zāi)P托阅? 實(shí)驗(yàn)結(jié)果如圖7所示.
圖7 不同數(shù)量的偽文檔對(duì)訓(xùn)練數(shù)據(jù)的增強(qiáng)作用
結(jié)果表明, 偽文檔確實(shí)能夠增強(qiáng)訓(xùn)練數(shù)據(jù), 提升模型訓(xùn)練效果.此外, 如果生成的偽文檔數(shù)量過少, 則沒有充分利用種子信息, 對(duì)模型性能提升較小, 如果生成的偽文檔數(shù)量過多, 則會(huì)攜帶過多噪聲, 降低泛化能力,在本次實(shí)驗(yàn)中, 生成400篇偽文檔是比較好的選擇.比較3種模型, TextCNN明顯比HeLDC和LALDC遜色很多.從模型結(jié)構(gòu)分析, 同樣是使用CNN抽取文本特征, 影響性能的關(guān)鍵在于正確選擇出包含判別信息的文檔片段.對(duì)于TextCNN, 實(shí)驗(yàn)設(shè)計(jì)為隨機(jī)從原始文檔中抽取片段作為輸入, 而并沒有去“預(yù)測(cè)”重要的片段應(yīng)該在的位置.HeLDC和LALDC都使用循環(huán)注意力機(jī)制去序列地預(yù)測(cè)下一個(gè)應(yīng)被看到的文檔片段, 毫無疑問, 這種選取方式更可能捕捉到判別信息, 支撐后續(xù)分類任務(wù).LALDC的表現(xiàn)略優(yōu)于HeLDC, 原因在于本研究設(shè)計(jì)的CNN層(摘要網(wǎng)絡(luò))能夠同時(shí)抽取短語和長(zhǎng)句范圍內(nèi)的詞語關(guān)系, 而HeLDC只能捕捉短語級(jí)特征; 此外, 本研究使用局部注意力機(jī)制, 注意力向量是窗口內(nèi)對(duì)象的加權(quán)平均, 相比于HeLDC使用的硬注意力機(jī)制, 局部注意力向量包含更大范圍的信息, 有助于更準(zhǔn)確地預(yù)測(cè)重要文檔片段的位置.
(2) 實(shí)驗(yàn)2
為了評(píng)估本研究基于GRU語言模型的PDG與Meng等人[17]的生成式混合模型(以下簡(jiǎn)稱為GM模型)在偽文檔質(zhì)量上的差異, 同時(shí)觀察不同監(jiān)督強(qiáng)度下偽文檔的數(shù)據(jù)增強(qiáng)作用, 設(shè)計(jì)以下實(shí)驗(yàn).從arXiv數(shù)據(jù)集中選取0.2-0.8之間不同比例的文檔作為訓(xùn)練集TrainSet,剩余文檔作為測(cè)試集TestSet, 構(gòu)成不同標(biāo)記率的數(shù)據(jù)集.參考實(shí)驗(yàn)1的結(jié)果, 對(duì)于每個(gè)數(shù)據(jù)集, 分別使用PDG模型和GM模型為每個(gè)類別生成400篇偽文檔, 和TrainSet一起構(gòu)成3組訓(xùn)練數(shù)據(jù), 即TrainSet、TrainSet+PDG生成的偽文檔、TrainSet+GM生成的偽文檔.使用這3組數(shù)據(jù)訓(xùn)練LALDC和基準(zhǔn)模型, 每次抽取特征的文檔片段窗口大小w為40, 抽取次數(shù)為14.使用TestSet檢驗(yàn)?zāi)P托阅? 實(shí)驗(yàn)結(jié)果如圖8所示.
圖8 不同數(shù)據(jù)標(biāo)記率下兩種偽文檔對(duì)測(cè)試精度的影響
結(jié)果表明, 在數(shù)據(jù)標(biāo)記率較低時(shí)(0.2和0.4), 使用PDG生成的偽文檔對(duì)測(cè)試精度具有顯著提升效果, 而在所有數(shù)據(jù)標(biāo)記率下, 使用GM生成的偽文檔反而降低了測(cè)試精度.從模型結(jié)構(gòu)分析, PDG和GM都使用vMF分布建立語義模型, 差別在于后續(xù)生成偽文檔的方式, PDG使用GRU語言模型生成的偽文檔語句間具有前后語義關(guān)系, 更接近真實(shí)文檔, 對(duì)訓(xùn)練數(shù)據(jù)有切實(shí)的增強(qiáng)作用; 而GM通過從混合分布中重復(fù)做詞語采樣來生成偽文檔, 實(shí)質(zhì)上是詞語的無序堆砌, 類似于真實(shí)文檔被打亂語序后的樣子, 反而會(huì)給訓(xùn)練數(shù)據(jù)帶來噪聲.因此, PDG生成的偽文檔質(zhì)量更高, 更適合于本研究的分類任務(wù).此外, 觀察到隨著數(shù)據(jù)標(biāo)記率提高,PDG偽文檔對(duì)測(cè)試精度的提升幅度逐漸減弱, 也就是說, 強(qiáng)監(jiān)督情況下, 訓(xùn)練集本身已能夠提供充足信息, 沒有偽文檔并不影響模型訓(xùn)練, 弱監(jiān)督情況下, 偽文檔能夠發(fā)揮更明顯的作用, 緩解缺乏訓(xùn)練數(shù)據(jù)造成的困擾.
(3) 實(shí)驗(yàn)3
把重點(diǎn)放在長(zhǎng)文檔分類模型本身, 為了觀察調(diào)整窗口w的大小、抽取特征的次數(shù)會(huì)如何影響模型性能,同時(shí)檢驗(yàn)LALDC的運(yùn)行效率, 設(shè)計(jì)以下實(shí)驗(yàn).從arXiv數(shù)據(jù)集中選取0.8比例的文檔作為訓(xùn)練集TrainSet,剩余文檔作為測(cè)試集TestSet, 參考實(shí)驗(yàn)2的結(jié)果, 不使用偽文檔.設(shè)計(jì)20、40兩種窗口大小, 10、14、18三種抽取次數(shù), 共6種組合, 觀察LALDC和基準(zhǔn)模型基于看到的200、280、360、400、560、720個(gè)詞語對(duì)文檔做類別預(yù)測(cè)的精度, 同時(shí)記錄模型在訓(xùn)練和推斷階段的用時(shí).實(shí)驗(yàn)結(jié)果如圖9、表2所示.
表2 模型運(yùn)行效率(窗口大小為40)
圖9 模型看到的詞語總數(shù)對(duì)測(cè)試精度的影響
結(jié)果表明, 給定抽取特征的次數(shù), 更大的摘要窗口總是產(chǎn)生更高的測(cè)試精度, 總體而言, 模型看到的詞語數(shù)量越多, 抽取到的特征越豐富, 預(yù)測(cè)精度越高.與基準(zhǔn)模型相比, LALDC在看到同樣數(shù)量詞語的情況下,測(cè)試精度顯著高于TextCNN與HeLDC.此外, HeLDC、TextCNN在看到720個(gè)詞語時(shí)分別產(chǎn)生81.2%、77.6%的精度, 與HeLDC相比, LALDC僅看到一半數(shù)量(360個(gè))詞語就能產(chǎn)生80.5%的精度, 與TextCNN相比, LALDC僅看到不足 1/3 (即200個(gè))詞語就能產(chǎn)生77.4%的精度.也就是說, LALDC只需看到數(shù)量少得多的詞語, 就能達(dá)到與基準(zhǔn)模型同等的預(yù)測(cè)精度.觀察LALDC與基準(zhǔn)模型的精度差距, 發(fā)現(xiàn)當(dāng)窗口w變大時(shí)(由20變?yōu)?0), 差距明顯增加, 即LALDC在使用大窗口時(shí)優(yōu)勢(shì)更加顯著.這與本研究設(shè)計(jì)的摘要網(wǎng)絡(luò)密切相關(guān), 根據(jù)前文分析, LALDC能夠抽取長(zhǎng)句范圍內(nèi)的詞語關(guān)系, HeLDC不具備這個(gè)能力.當(dāng)窗口大小為40時(shí), 定位的文檔片段更可能包含完整長(zhǎng)句, LALDC的優(yōu)勢(shì)就展現(xiàn)出來了.
最后, 在模型效率和實(shí)踐性方面, TextCNN由于模型結(jié)構(gòu)簡(jiǎn)單, 在訓(xùn)練時(shí)收斂速度最快, 但是最多能達(dá)到77.63%的預(yù)測(cè)精度.HeLDC雖然訓(xùn)練用時(shí)較長(zhǎng), 但它最高能達(dá)到81.16%的預(yù)測(cè)精度, 彌補(bǔ)了訓(xùn)練收斂速度慢的缺陷.本研究提出的LALDC比兩個(gè)基準(zhǔn)模型的預(yù)測(cè)精度更高, 但在訓(xùn)練用時(shí)上介于兩者之間, 原因在于, LALDC相較于HeLDC, 模型參數(shù)數(shù)量更少, 因此更易于訓(xùn)練.例如, 同樣是使用循環(huán)注意力機(jī)制, HeLDC中的循環(huán)神經(jīng)網(wǎng)絡(luò)使用LSTM單元, 而LALDC使用GRU, 這是因?yàn)镚RU的實(shí)驗(yàn)效果與LSTM相似, 但是更易于計(jì)算[26].更進(jìn)一步地, LALDC在預(yù)測(cè)精度最高時(shí), 每批次(64個(gè)樣本)的訓(xùn)練和測(cè)試用時(shí)分別為0.69 s、0.51 s, 意味著LALDC在訓(xùn)練和測(cè)試階段每秒鐘分別處理93篇、125篇長(zhǎng)文檔, 這樣的計(jì)算效率應(yīng)該是可以被實(shí)際應(yīng)用接受的.
本研究提出弱監(jiān)督情況下基于局部注意力機(jī)制的長(zhǎng)文檔分類方法, 在偽文檔生成和長(zhǎng)文檔分類兩方面均做出貢獻(xiàn).PDG利用少量種子信息產(chǎn)生能夠增強(qiáng)訓(xùn)練數(shù)據(jù)的偽文檔, 在弱監(jiān)督情況下顯著提升預(yù)測(cè)精度.LALDC使用局部注意力機(jī)制, 既能規(guī)避軟注意力龐大的計(jì)算開銷, 又比硬注意力更易于訓(xùn)練.通過循環(huán)注意力學(xué)習(xí), LALDC序列地預(yù)測(cè)重要文檔片段所在位置并抽取特征, 直到摘要特征能夠支撐后續(xù)分類任務(wù).與兩個(gè)基準(zhǔn)模型相比, LALDC在觀察到更少文檔信息的情況下, 就達(dá)到基準(zhǔn)模型的預(yù)測(cè)精度, 而在觀察到充足文檔信息時(shí), LALDC的性能顯著高于基準(zhǔn)模型.同時(shí),LALDC的訓(xùn)練和測(cè)試用時(shí)處于兩個(gè)基準(zhǔn)模型之間, 具有實(shí)際應(yīng)用的價(jià)值.
受歐陽文俊和徐林莉[27]、Yang等人[1]提出的層級(jí)注意力模型的啟發(fā), 在未來研究中, 可以對(duì)LALDC中的定位網(wǎng)絡(luò)做進(jìn)一步改進(jìn).考慮使用層級(jí)注意力機(jī)制, 同時(shí)關(guān)注句子層面和單詞層面.這一嘗試可能使分類模型進(jìn)行更細(xì)粒度的計(jì)算, 不僅定位出文檔中重要的句子, 還能從句子中抽取重要詞匯的信息.