摘要: 新聞主題文本內(nèi)容簡(jiǎn)短卻含義豐富,傳統(tǒng)方法通常只考慮詞粒度或句粒度向量中的一種進(jìn)行研究,未能充分利用新聞主題文本不同粒度向量之間的關(guān)聯(lián)信息。為深入挖掘文本的詞向量和句向量間的依賴關(guān)系,提出一種基于XLNet和多粒度特征對(duì)比學(xué)習(xí)的新聞主題分類方法。首先,利用XLNet對(duì)新聞主題文本進(jìn)行特征提取獲得文本中詞、句粒度的特征表示和潛在空間關(guān)系;然后,通過對(duì)比學(xué)習(xí)R-Drop策略生成不同粒度特征的正負(fù)樣本對(duì),以一定權(quán)重對(duì)文本的詞向量-詞向量、詞向量-句向量和句向量-句向量進(jìn)行特征相似度學(xué)習(xí),使模型深入挖掘出字符屬性和語(yǔ)句屬性之間的關(guān)聯(lián)信息,提升模型的表達(dá)能力。在THUCNews、Toutiao和SHNews數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)模型相比,所提方法在準(zhǔn)確率和F1值上都有更好的表現(xiàn),在三個(gè)數(shù)據(jù)集上的F1值分別達(dá)到了93.88%、90.08%、87.35%,驗(yàn)證了方法的有效性和合理性。
關(guān)鍵詞: 自然語(yǔ)言處理; 文本分類; 新聞主題; XLNet; 對(duì)比學(xué)習(xí)
中圖分類號(hào): TP391.1
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1671-6841(2025)02-0016-08
DOI: 10.13705/j.issn.1671-6841.2023164
A News Topic Text Classification Method Based on XLNet and
Multi-granularity Contrastive Learning
CHEN Min, WANG Leichun, XU Rui, SHI Hanxiao, XU Miao
(College of Computer Science, Hubei University, Wuhan 430062, China)
Abstract: News topic text was typically concise but rich in meaning. However, traditional methods in most studies often only considered one type of granularity vector, either word or sentence-level, and failed to fully utilize the correlated information among different granularity vectors of news topic text. To address this issue and explore the dependence relationship between word vectors and sentence vectors in texts, a news topic classification method based on XLNet and multi-granularity feature contrastive learning was proposed. Firstly, features were extracted from the news topic text using XLNet to obtain the feature representations and potential spatial relationships of words and sentences in the text. Then, positive and negative sample pairs of different granularity features were generated using the R-Drop strategy in contrastive learning. Feature similarity learning was conducted on the word-word embedding, word-sentence embedding, and sentence-sentence embedding with certain weights, allowing the model to more deeply explore the related information between character attributes and sentence attributes, thereby enhancing the model′s expression ability. Experiments were conducted on THUCNews, Toutiao, and SHNews datasets, the results showed that the proposed method outperformed other methods in terms of accuracy and F1 value, with F1 values reached 93.88%, 90.08%, and 87.35% respectively, thus verifying the effectiveness and rationality of the proposed method.
Key words: natural language processing; text classification; news topic; XLNet; contrastive learning
0 引言
新聞主題文本分類通常是對(duì)新聞文稿所蘊(yùn)含的主題類型進(jìn)行總結(jié)和分類。但由于新興媒介的不斷涌現(xiàn),某些自媒體撰寫新聞內(nèi)容缺乏專業(yè)性和規(guī)范性,導(dǎo)致新聞主題文本出現(xiàn)用詞偏離實(shí)際、語(yǔ)義模糊等問題,給新聞主題文本分類研究帶來極大挑戰(zhàn)。
新聞主題文本分類的首要任務(wù)是如何捕捉新聞文本蘊(yùn)含的語(yǔ)義信息并進(jìn)行向量化表示[1]。傳統(tǒng)的機(jī)器學(xué)習(xí)模型利用One-Hot、TF-IDF等方法記錄詞語(yǔ)在文本中出現(xiàn)的頻率以便計(jì)算特征權(quán)重,但無(wú)法處理詞與詞之間的關(guān)系。近年來深度學(xué)習(xí)的快速發(fā)展極大地促進(jìn)了自然語(yǔ)言處理領(lǐng)域的研究,詞向量嵌入技術(shù)Word2Vec[2]和GloVe[3]被相繼提出,可以將詞語(yǔ)映射為高維空間向量并學(xué)習(xí)文本的上下文信息以提取特征,但由于上述兩種詞向量方式使用靜態(tài)編碼,導(dǎo)致詞語(yǔ)在不同語(yǔ)境中出現(xiàn)相同詞向量的問題[4]。預(yù)訓(xùn)練模型BERT(bidirectional encoder representation from transformers)[5]的出現(xiàn)使文本向量化工作更加高效和準(zhǔn)確,通過對(duì)大規(guī)模語(yǔ)料庫(kù)進(jìn)行無(wú)監(jiān)督和動(dòng)態(tài)學(xué)習(xí)上下文信息,使生成的詞向量具有更多的先驗(yàn)知識(shí),XLNet作為BERT模型的改進(jìn)版,結(jié)合了自回歸和自編碼模型的優(yōu)勢(shì),利用更多的語(yǔ)料信息實(shí)現(xiàn)雙向預(yù)測(cè),在新聞主題文本分類任務(wù)中表現(xiàn)更為優(yōu)異。
由于新聞主題文本往往是對(duì)新聞文稿進(jìn)行關(guān)鍵信息提煉,由一些高度概括內(nèi)容的詞匯組成,新聞主題文本的詞、句等粒度都蘊(yùn)含著關(guān)鍵的語(yǔ)義信息,然而當(dāng)前新聞主題分類模型通常只考慮其中一個(gè)粒度向量開展研究工作,未能高效地利用詞向量和句向量的依賴關(guān)系。如何通過模型去理解新聞主題的語(yǔ)義、實(shí)體信息,深入挖掘新聞主題文本的潛在信息,是解決新聞文本分類的關(guān)鍵。事實(shí)上,對(duì)比學(xué)習(xí)作為一種自監(jiān)督學(xué)習(xí)方法,通過相似度學(xué)習(xí)出文本自身所蘊(yùn)含的語(yǔ)義信息,可以有效挖掘出新聞主題文本的語(yǔ)義信息。因此,本文引入對(duì)比學(xué)習(xí)機(jī)制,提出在詞向量-詞向量、詞向量-句向量和句向量-句向量的粒度上進(jìn)行特征相似度對(duì)比,充分學(xué)習(xí)詞、句之間的依賴,相比于相同粒度對(duì)比學(xué)習(xí)方法,能夠更好地理解上下文信息,提升模型的分類能力。本文的主要貢獻(xiàn)如下。
1) 提出一種基于XLNet和多粒度對(duì)比學(xué)習(xí)的新聞主題分類方法,通過學(xué)習(xí)不同粒度向量之間的依賴關(guān)系,挖掘新聞主題數(shù)據(jù)潛在的文本信息,以此提升模型的分類效果。
2) 本文提出的多粒度對(duì)比學(xué)習(xí)機(jī)制具備通用性,兼容不同結(jié)構(gòu)的深度語(yǔ)言模型。實(shí)驗(yàn)結(jié)果表明,融合多粒度對(duì)比學(xué)習(xí)機(jī)制可以有效提升模型性能。
1 相關(guān)工作
1.1 新聞主題文本分類
新聞主題文本分類是指概括總結(jié)和判斷新聞文本所蘊(yùn)含的主題類型,現(xiàn)有的新聞主題文本分類主要分為基于機(jī)器學(xué)習(xí)的方法[6-8]和基于深度學(xué)習(xí)的方法兩類。
基于機(jī)器學(xué)習(xí)的方法參數(shù)量較小,訓(xùn)練速度快,但難以學(xué)習(xí)到新聞文本較深層次的特征信息,因此模型整體泛化能力較差。隨著深度學(xué)習(xí)的快速發(fā)展,研究人員廣泛使用深度神經(jīng)網(wǎng)絡(luò)模型來解決新聞主題文本分類任務(wù)[9-10],例如TextCNN、RCNN等模型學(xué)習(xí)文本的特征語(yǔ)義,但這些方法使用了靜態(tài)詞向量技術(shù),無(wú)法解決一詞多義的問題。預(yù)訓(xùn)練模型的出現(xiàn),利用動(dòng)態(tài)詞向量技術(shù),文本特征得到了更好的表示,在多個(gè)NLP任務(wù)上效果顯著,促進(jìn)了新聞文本分類任務(wù)的研究發(fā)展,例如曾誠(chéng)等[11]融合ALBERT(a lite BERT)與卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network,CRNN),通過ALBERT提取文本中每個(gè)詞向量并輸入CRNN模型中,有效提升了文本分類效果。張海豐等[12]結(jié)合BERT和特征投影網(wǎng)絡(luò),提升了新聞主題文本分類模型的性能,針對(duì)BERT模型忽略了遮掩詞位置之間的依賴關(guān)系。Yang等[13]提出了XLNet模型,用自回歸的特點(diǎn)彌補(bǔ)BERT模型的不足,在新聞文本分類任務(wù)中表現(xiàn)良好,因此本文采用XLNet模型學(xué)習(xí)文本的特征向量表達(dá)。
1.2 預(yù)訓(xùn)練語(yǔ)言模型XLNet
預(yù)訓(xùn)練語(yǔ)言模型分為自回歸(auto regression, AR)和自編碼(auto encoder, AE)兩類。AR模型用于生成類NLP任務(wù),GPT[14]和ELMO[15]便是其中的代表,但無(wú)法同時(shí)利用上下文信息。AE模型可以建模雙向語(yǔ)義信息,但會(huì)導(dǎo)致預(yù)訓(xùn)練和微調(diào)階段不一致。XLNet模型結(jié)合AR和AE模型各自的優(yōu)點(diǎn),通過引入循環(huán)傳遞機(jī)制和編碼相對(duì)位置,克服AR模型的缺點(diǎn),在學(xué)習(xí)語(yǔ)境中上下文信息的同時(shí),更好地表征詞語(yǔ)的多義性。為了與微調(diào)階段保持一致,XLNet模型引入排列組合的方式來重構(gòu)輸入文本。
與BERT模型的隨機(jī)打亂機(jī)制相比,XLNet采用排列組合方式學(xué)習(xí)雙向上下文信息,避免了有效信息的丟失。另外,為保持句子順序和獲得動(dòng)態(tài)向量表示,XLNet使用了雙流自注意力機(jī)制記錄位置信息。在處理長(zhǎng)文檔時(shí),XLNet融合了Transformer-XL框架[16],并利用段循環(huán)機(jī)制拼接狀態(tài)信息以實(shí)現(xiàn)信息傳遞依賴,同時(shí)引入相對(duì)位置編碼來解決分段機(jī)制造成的位置信息丟失問題。XLNet的模型結(jié)構(gòu)如圖1所示。
盡管XLNet在文本分類任務(wù)上表現(xiàn)良好,但是傳統(tǒng)的新聞主題分類通常只考慮了詞粒度或者句粒度中的一種粒度向量,無(wú)法充分利用新聞主題所精練的文字信息。事實(shí)上,對(duì)比學(xué)習(xí)可以很好地解決這個(gè)問題,其可以學(xué)習(xí)到更好的語(yǔ)義表示,因此本文引入對(duì)比學(xué)習(xí)機(jī)制來進(jìn)行不同粒度向量的學(xué)習(xí),提升模型的整體分類性能。
1.3 對(duì)比學(xué)習(xí)
對(duì)比學(xué)習(xí)的主要思想是將相似的文本拉近,將不同的文本推開,從文本自身學(xué)習(xí)出所蘊(yùn)含的語(yǔ)義信息。如圖2所示,充分學(xué)習(xí)同類別文本的相似性和其他類別文本的差異性,將文本進(jìn)行聚類。
Chen等[17]提出自監(jiān)督對(duì)比學(xué)習(xí)SimCLR框架,通過對(duì)原始圖像進(jìn)行數(shù)據(jù)增強(qiáng),包括裁剪、旋轉(zhuǎn)、縮放和顏色變換等方式,學(xué)習(xí)同一圖像的不同表現(xiàn)形式,充分挖掘出圖像自身的特征信息。SimCLR是圖像視覺領(lǐng)域中對(duì)比學(xué)習(xí)研究的重要里程碑。隨后,Gao等[18]提出SimCSE方法,采用簡(jiǎn)單的Dropout方法構(gòu)造正例和負(fù)例,在文本表示方面取得了巨大的成功。Wu等[19]提出有監(jiān)督學(xué)習(xí)下對(duì)比學(xué)習(xí)思路R-Drop,利用兩次Dropout在不改變?cè)薪Y(jié)構(gòu)的情況下增加KL散度損失來進(jìn)行模型訓(xùn)練,在各類任務(wù)中都有顯著的提升。因此,本文引入R-Drop對(duì)比學(xué)習(xí)方法,對(duì)新聞主題文本的各粒度向量進(jìn)行特征表示學(xué)習(xí)。
在新聞文本分類任務(wù)中引入對(duì)比學(xué)習(xí)的關(guān)鍵是通過對(duì)比學(xué)習(xí)思想,學(xué)習(xí)新聞主題所蘊(yùn)含的關(guān)鍵信息,通過挖掘不同粒度之間的潛在信息,使模型既能完成對(duì)比學(xué)習(xí)任務(wù),又能完成分類任務(wù)。
2 XLNet-MGCL(multi-granularity contrastive learning)新聞主題文本分類方法
基于XLNet和多粒度對(duì)比學(xué)習(xí)的新聞主題分類方法的主體思想如圖3所示,輸入文本經(jīng)過兩個(gè)權(quán)重共享的XLNet模型分別獲得文本的詞向量、句向量表示,利用句向量完成模型分類任務(wù),模型優(yōu)化的對(duì)比任務(wù)中采用詞向量和句向量進(jìn)行多粒度對(duì)比學(xué)習(xí)。模型訓(xùn)練過程包括以下主要步驟。
步驟1 數(shù)據(jù)預(yù)處理。新聞主題文本數(shù)據(jù)集中存在著部分不規(guī)范或?qū)Y(jié)果產(chǎn)生影響的特殊字符,因此需要對(duì)數(shù)據(jù)進(jìn)行正則化處理并剔除噪聲數(shù)據(jù)。對(duì)于處理好的實(shí)驗(yàn)數(shù)據(jù)本文隨機(jī)打亂并按照8∶1∶1的比例劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。
步驟2 文本特征生成將已處理好的數(shù)據(jù),利用XLNet模型進(jìn)行特征提取,得到文本的詞向量和句向量表示。輸入文本為
xi=<[CLS],c1,c2,…,cn,[SEP]>,
其中:xi表示訓(xùn)練批次為{(xi,yi)}Ni=1中的第i條樣本;cn表示第n個(gè)詞的序列化表示。
利用XLNet模型得到最后一層中[CLS]位置向量,其包含文本全局語(yǔ)義信息,即句向量特征hsi,同時(shí)每個(gè)token也充分學(xué)習(xí)到了上下文語(yǔ)境,從而獲得詞向量特征為hti。如式(1)所示,本文利用句向量特征hsi作為分類任務(wù)的特征表示。
i=Softmax((W)Thsi+b),(1)
其中:W為參數(shù)矩陣;b為偏置項(xiàng);i為當(dāng)前輸入文本xi的預(yù)測(cè)值。
步驟3 對(duì)比學(xué)習(xí)機(jī)制。對(duì)于該批次訓(xùn)練樣本{(xi,yi)}Ni=1,通過R-Drop策略生成正樣本集合。R-Drop核心思想是對(duì)于同一樣本,經(jīng)過兩次模型輸出,在隨機(jī)失活神經(jīng)元的機(jī)制下會(huì)得到兩個(gè)不同但差異很小的概率分布。因此,利用R-Drop策略可以生成該批次樣本的詞向量和句向量正樣本集合{(hs+i,ht+i)}Ni=1,在有監(jiān)督對(duì)比學(xué)習(xí)模式下,負(fù)樣本的構(gòu)造方式則為從該批次中隨機(jī)挑選其他類別樣本集合,負(fù)樣本集合定義為{(hs-i,ht-i)}Ni=1。
關(guān)于正負(fù)樣本對(duì)的構(gòu)造,本文考慮利用不同粒度向量的信息構(gòu)建出如下樣本對(duì):詞-詞向量(ht+i,ht-i);詞-句向量(ht+i,hs-i)和(hs+i,ht-i);句-句向量(hs+i,hs-i)。在不同粒度對(duì)比下,分別在字符屬性和語(yǔ)句屬性的維度空間上拉近同類別文本,推開不同類別文本,充分挖掘出新聞主題所包含的特征信息,使模型能夠?qū)W習(xí)到更好的向量表示。對(duì)比學(xué)習(xí)損失函數(shù)為
d=-logesim(h(0)i,h(1)i)/τ
∑Nj=1esim(h(0)i,h(1)i)/τ,(2)
sim(h1,h2)=hT1h2‖h1‖·‖h2‖,(3)
其中:溫度系數(shù)τ是超參數(shù),用于調(diào)整模型將重點(diǎn)聚集到困難負(fù)例的懲罰程度。將構(gòu)造好的不同粒度正負(fù)樣本對(duì)傳入到d損失函數(shù)中,得到多粒度對(duì)比學(xué)習(xí)損失函數(shù)
MGCL=cl(ht+i,hs+i)+cl(ht-i,hs-i)+
cl(ht+i,ht-i)+cl(ht+i,hs-i)+
cl(hs+i,ht-i)+cl(hs+i,hs-i)。(4)
步驟4 模型參數(shù)更新。模型的訓(xùn)練目標(biāo)是完成對(duì)比學(xué)習(xí)任務(wù)和分類任務(wù),其中對(duì)比學(xué)習(xí)任務(wù)是約束模型將同類別文本盡可能聚類在一起,以獲得更好的特征向量表示;分類任務(wù)則是利用訓(xùn)練好的文本特征,通過Softmax函數(shù)得到類別預(yù)測(cè)概率,利用交叉熵(cross entropy,CE)損失函數(shù)約束模型將文本往正確類別學(xué)習(xí)。為此,本文設(shè)計(jì)的目標(biāo)函數(shù)為
ce=-∑mj=1gjlog(kj),(5)
=ce+αMGCL,(6)
其中:MGCL為多粒度對(duì)比學(xué)習(xí)損失;ce表示交叉熵?fù)p失;kj為預(yù)測(cè)類別屬于類別j的概率;gj是指示變量;α為超參數(shù),用于調(diào)節(jié)對(duì)比學(xué)習(xí)任務(wù)和分類任務(wù)的權(quán)重。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集
為驗(yàn)證本文方法在新聞主題文本分類任務(wù)上的有效性,采用了三個(gè)新聞主題的數(shù)據(jù)集THUCNews、Toutiao和SHNews進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)按照8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,數(shù)據(jù)集詳細(xì)信息如下。
1) THUCNews數(shù)據(jù)集是根據(jù)新浪新聞RSS訂閱頻道2005—2011年間的歷史數(shù)據(jù)篩選過濾生成,本文對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗并重新整合,劃分出財(cái)經(jīng)、股票、科技、社會(huì)、時(shí)政、娛樂共計(jì)6個(gè)候選分類類別,每個(gè)類別數(shù)據(jù)約1萬(wàn)條,平均長(zhǎng)度約為20。
2) Toutiao數(shù)據(jù)集來源于今日頭條客戶端,本文對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,從中挑選出體育、財(cái)經(jīng)、房產(chǎn)、汽車、科技、旅游共計(jì)6個(gè)分類類別,每個(gè)類別數(shù)據(jù)約5 000條, 平均長(zhǎng)度約為25。
3) SHNews數(shù)據(jù)集來源于搜狐新聞?wù)淼拈_源數(shù)據(jù),包含娛樂、財(cái)經(jīng)、房地產(chǎn)、旅游、科技、體育、健康、教育、汽車、新聞、文化、女人共 12個(gè)分類類別,每個(gè)類別數(shù)據(jù)約2 800條, 平均長(zhǎng)度約為20。
3.2 評(píng)價(jià)指標(biāo)
本文采用準(zhǔn)確率(Acc)和F1值對(duì)分類結(jié)果進(jìn)行評(píng)價(jià),計(jì)算公式如下:
Acc=TP+TNTP+FP+TN+FN,(7)
P=TPTP+FP,(8)
R=TPTP+FN,(9)
F1=2×P×RP+R,(10)
其中:P、R分別為精確率和召回率;TP表示正樣本預(yù)測(cè)為正;FP表示負(fù)樣本預(yù)測(cè)為正;TN表示正樣本預(yù)測(cè)為負(fù);FN表示負(fù)樣本預(yù)測(cè)為負(fù)。
3.3 對(duì)比實(shí)驗(yàn)
為驗(yàn)證所提方法XLNet-MGCL的有效性,本文選擇在新聞主題文本分類上表現(xiàn)較好的以下方法作為對(duì)比實(shí)驗(yàn)。
1) TextRCNN。利用雙向門控單元BiGRU對(duì)文本進(jìn)行雙向訓(xùn)練,加入池化層對(duì)特征輸出進(jìn)行最大池化操作。
2) BERT。利用BERT模型得到文本的句向量表示,采用隨機(jī)掩碼機(jī)制(masked language model,MLM)和下句預(yù)測(cè)任務(wù)(next sentence prediction, NSP)充分學(xué)習(xí)句子中上下文的語(yǔ)境信息,并通過全連接層進(jìn)行分類。
3) XLNet。使用XLNet模型提取文本特征,并連接池化層和全連接層進(jìn)行分類。
4) XLNet-RCNN[20]。利用XLNet模型初步得到文本的特征表示,接著通過RCNN網(wǎng)絡(luò)對(duì)文本特征進(jìn)行雙向訓(xùn)練,獲得文本的深層語(yǔ)義。
5) XLNet-SimCSE。將XLNet模型和SimCSE對(duì)比學(xué)習(xí)策略融合,使用SimCSE思想生成正負(fù)樣本對(duì),以此提升文本特征表達(dá)能力。
6) XLNet-rDrop。對(duì)比學(xué)習(xí)方法采用R-Drop策略,在有監(jiān)督學(xué)習(xí)下,相較于SimCSE分類效果更好。
同時(shí),為說明本文所提出的多粒度對(duì)比學(xué)習(xí)機(jī)制具備通用性,使用預(yù)訓(xùn)練模型BERT、RoBERTa[21]替代本文所選分類模型進(jìn)行實(shí)驗(yàn)。
3.4 實(shí)驗(yàn)參數(shù)設(shè)置
本文實(shí)驗(yàn)參數(shù)包括XLNet模型參數(shù)以及對(duì)比學(xué)習(xí)模塊參數(shù),其中XLNet采用哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文自回歸語(yǔ)言模型[22],隱藏層尺寸為768,隱藏層層數(shù)為12,激活函數(shù)為ReLU。對(duì)比學(xué)習(xí)模塊包括對(duì)比學(xué)習(xí)損失函數(shù)中的溫度系數(shù)τ,以及對(duì)比損失函數(shù)和交叉熵?fù)p失函數(shù)權(quán)重平衡因子α,其中學(xué)習(xí)率可選范圍為[1e-5,2e-5,5e-5],溫度系數(shù)可選范圍為[0.05,0.1,0.15],經(jīng)過多次迭代選擇最佳訓(xùn)練結(jié)果。
實(shí)驗(yàn)使用的Dropout隨機(jī)失活率為0.5,優(yōu)化策略選擇效果較好的Adam優(yōu)化器。模型經(jīng)過多次訓(xùn)練選取的文本輸入長(zhǎng)度為50,權(quán)重平衡因子為0.3。
3.5 實(shí)驗(yàn)結(jié)果與分析
表1展示了不同模型在三個(gè)數(shù)據(jù)集上的表現(xiàn)(表中加粗?jǐn)?shù)據(jù)為較佳數(shù)據(jù)),本文方法XLNet-MGCL在 THUCNews和SHNews數(shù)據(jù)集上的F1值分別為93.88%、87.35%,與XLNet融合學(xué)習(xí)的另外兩種方法XLNet-SimCSE和XLNet-rDrop對(duì)比,本文所提的多粒度對(duì)比學(xué)習(xí)方法效果更好,在 THUCNews和SHNews數(shù)據(jù)集上的F1值相比XLNet-SimCSE模型分別提升了0.36、0.3個(gè)百分點(diǎn),相比XLNet-rDrop模型分別提升了1.19、0.68個(gè)百分點(diǎn)。充分證明了對(duì)不同粒度向量的依賴關(guān)系進(jìn)行學(xué)習(xí)有利于提升模型的整體表達(dá)能力。
由實(shí)驗(yàn)結(jié)果可知,TextRCNN使用靜態(tài)詞向量技術(shù)Word2Vec,整體表現(xiàn)處于低位,難以學(xué)習(xí)到新聞主題文本的內(nèi)在信息。BERT、RoBERTa和XLNet模型使用動(dòng)態(tài)詞向量技術(shù),具有豐富的先驗(yàn)知識(shí),整體表現(xiàn)更好,其中,XLNet作為BERT模型的改進(jìn)版,使用更多的語(yǔ)料信息以及更先進(jìn)的算法策略,因此分類效果相比BERT更優(yōu)。
同時(shí)為驗(yàn)證所提的多粒度對(duì)比學(xué)習(xí)機(jī)制的兼容性,本文使用其他預(yù)訓(xùn)練模型BERT、RoBERTa融合多粒度對(duì)比學(xué)習(xí)機(jī)制,實(shí)驗(yàn)結(jié)果可以看出,在多粒度對(duì)比學(xué)習(xí)機(jī)制下模型分類效果得到明顯提升。在文本表示階段,利用對(duì)比學(xué)習(xí)機(jī)制學(xué)習(xí)字符屬性和語(yǔ)句屬性的依賴關(guān)系,挖掘出詞向量和句向量,可以對(duì)文本特征進(jìn)一步聚類,同時(shí)實(shí)驗(yàn)結(jié)果表明在新聞主題文本分類工作中對(duì)文本的不同粒度向量進(jìn)行深入研究的必要性。
為進(jìn)一步說明多粒度對(duì)比學(xué)習(xí)機(jī)制的有效性,本文選取SHNews數(shù)據(jù)集中財(cái)經(jīng)、健康和汽車三個(gè)類別,使用t-SNE算法(t-distributed stochastic neighbor embedding)對(duì)測(cè)試集進(jìn)行可視化處理,如圖4所示。圖4(a)為基準(zhǔn)模型XLNet最終用于分類任務(wù)的句向量特征在二維空間上的表示,盡管不同類別之間有明顯的分界線,但同類別文本在嵌入空間的分布情況散亂,例如財(cái)經(jīng)類別未能很好地聚合在一起,文本特征信息待充分挖掘。圖4(b)為使用多粒度對(duì)比學(xué)習(xí)機(jī)制優(yōu)化后的模型,明顯看出同類別文本之間聚合程度較高,離群文本減少,這說明多粒度對(duì)比學(xué)習(xí)機(jī)制對(duì)文本的向量特征表達(dá)進(jìn)行了優(yōu)化。
3.6 消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證所提方法的合理性,本文進(jìn)行了消融實(shí)驗(yàn),多粒度對(duì)比學(xué)習(xí)機(jī)制的核心是利用詞、句向量的依賴關(guān)系來約束模型學(xué)習(xí)文本的深層特征表達(dá),因此設(shè)計(jì)分別去除詞-詞向量、詞-句向量、句-句向量對(duì)比模塊所得模型作為實(shí)驗(yàn)對(duì)照組,其中,去除詞-詞向量的實(shí)驗(yàn)為XLNet-MGCL(w/o w-w),去除詞-句向量的實(shí)驗(yàn)為XLNet-MGCL(w/o w-s),去除句-句向量的實(shí)驗(yàn)為XLNet-MGCL(w/o s-s),消融實(shí)驗(yàn)結(jié)果如表2所示(表中加粗?jǐn)?shù)據(jù)為較優(yōu)數(shù)據(jù))。從表中可以看到去除不同向量粒度對(duì)比模塊后,模型的分類性能會(huì)有一定的下降,證明了融合多粒度對(duì)比學(xué)習(xí)來提升新聞主題文本分類的有效性。
4 結(jié)語(yǔ)
本文針對(duì)如何高效利用新聞主題文本的精煉性、高度概括性等特性,提出了基于XLNet和多粒度對(duì)比學(xué)習(xí)的信息主題分類方法XLNet-MGCL。該方法利用XLNet模型獲得文本的詞、句粒度的特征表示,并使用R-Drop策略構(gòu)建出對(duì)比學(xué)習(xí)樣本組合,學(xué)習(xí)出詞-詞向量、詞-句向量和句-句向量不同粒度之間的潛在關(guān)系,充分利用新聞主題文本簡(jiǎn)短卻含義豐富的特點(diǎn),以此對(duì)文本進(jìn)行更好的特征表達(dá)。在三個(gè)公開的新聞主題文本數(shù)據(jù)集上的表現(xiàn)充分證明了所提方法的有效性。在下一步工作中,考慮使用更多策略對(duì)文本不同粒度進(jìn)行學(xué)習(xí),在自監(jiān)督學(xué)習(xí)下充分利用新聞文本自身特性獲得更優(yōu)越性的向量表示,進(jìn)一步提高新聞主題文本分類模型的效果。
參考文獻(xiàn):
[1] 楊朝強(qiáng), 邵黨國(guó), 楊志豪, 等. 多特征融合的中文短文本分類模型[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2020, 41(7): 1421-1426.
YANG Z Q, SHAO D G, YANG Z H, et al. Chinese short text classification model with multi-feature fusion[J]. Journal of Chinese computer systems, 2020, 41(7): 1421-1426.
[2] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]∥Proceedings of the 26th International Conference on Neural Information Processing Systems. New York: ACM Press, 2013: 3111-3119.
[3] PENNINGTON J, SOCHER R, MANNING C. GloVe: global vectors for word representation[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg:ACL Press, 2014: 1532-1543.
[4] 李舟軍, 范宇, 吳賢杰. 面向自然語(yǔ)言處理的預(yù)訓(xùn)練技術(shù)研究綜述[J]. 計(jì)算機(jī)科學(xué), 2020, 47(3): 162-173.
LI Z J, FAN Y, WU X J. Survey of natural language processing pre-training techniques[J]. Computer science, 2020, 47(3): 162-173.
[5] DEVLIN J,CHANG M W,LEE K,et al.BERT: pre-training of deep bidirectional transformers for language un-derstanding[EB/OL].(2018-10-11)[2023-05-10].https:∥arxiv.org/pdf/1810.04805.pdf.
[6] DEY S, WASIF S, TONMOY D S, et al. A comparative study of support vector machine and naive Bayes classifier for sentiment analysis on Amazon product reviews[C]∥2020 International Conference on Contemporary Computing and Applications. Piscataway: IEEE Press, 2020: 217-220.
[7] WANG S D, MANNING C D. Baselines and bigrams: simple, good sentiment and topic classification[C]∥Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. New York:ACM Press, 2012: 90-94.
[8] 許英姿, 任俊玲. 基于改進(jìn)的加權(quán)補(bǔ)集樸素貝葉斯物流新聞分類[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2022, 43(1): 179-185.
XU Y Z, REN J L. Naive Bayesian logistics news classification based on improved weighted complement[J]. Computer engineering and design, 2022, 43(1): 179-185.
[9] KIM Y. Convolutional neural networks for sentence classification[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg:ACL Press, 2014: 1746-1751.
[10]LAI S, XU L, LIU K, et al. Recurrent convolutional neural networks for text classification[C]∥Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 2267-2273.
[11]曾誠(chéng), 溫超東, 孫瑜敏, 等. 基于ALBERT-CRNN的彈幕文本情感分析[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2021, 53(3): 1-8.
ZENG C, WEN C D, SUN Y M, et al. Barrage text sentiment analysis based on ALBERT-CRNN[J]. Journal of Zhengzhou university (natural science edition), 2021, 53(3): 1-8.
[12]張海豐, 曾誠(chéng), 潘列, 等. 結(jié)合BERT和特征投影網(wǎng)絡(luò)的新聞主題文本分類方法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(4): 1116-1124.
ZHANG H F, ZENG C, PAN L, et al. News topic text classification method based on BERT and feature projection network[J]. Journal of computer applications, 2022, 42(4): 1116-1124.
[13]YANG Z, DAI Z, YANG Y M, et al. XlNeT: generalized autoregressive pretrai-ning for language understanding[EB/OL].(2019-12-08)[2023-04-20]. https:∥dl.acm.org/doi/pdf/10.5555/3454287.3454804.
[14]RADFORD A, NARASIMHAN K, SALIMANS T,et al. Improving language understanding by generative pretraining[EB/OL].(2018-08-22)[2023-04-20].https:∥www.cs.ubc.ca/~amuham01/LING530/papers/radford 2018improving.pdf.
[15]PETERS M, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C]∥Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg:ACL Press, 2018: 2227-2237.
[16]DAI Z H, YANG Z L, YANG Y M, et al. Transformer-XL: attentive language models beyond a fixed-length context[C]∥Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg:ACL Press,2019: 2978-2988.
[17]CHEN X L, FAN H Q, GIRSHICK R, et al. Improved baselines with momentum contrastive learning[EB/OL]. (2020-03-09)[2023-04-20].https:∥arxiv.org/pdf/2003.04297.pdf.
[18]GAO T Y, YAO X C, CHEN D Q. SimCSE: simple contrastive learning of sentence embeddings[C]∥Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online and Punta Cana, Dominican Republic. Stroudsburg:ACL Press, 2021: 6894-6910.
[19]WU L, LI J, WANG Y, et al. R-Drop:regularized dropout for neural networks[EB/OL].(2021-06-28)[2023-04-20]. https:∥arxiv.org/pdf/2106.14448.pdf.
[20]潘列, 曾誠(chéng), 張海豐, 等. 結(jié)合廣義自回歸預(yù)訓(xùn)練語(yǔ)言模型與循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的文本情感分析方法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(4): 1108-1115.
PAN L, ZENG C, ZHANG H F, et al. Text sentiment analysis method combining generalized autoregressive pre-training language model and recurrent convolutional neural network[J]. Journal of computer applications, 2022, 42(4): 1108-1115.
[21]LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL].(2019-07-26)[2023-04-20].https:∥arxiv.org/pdf/1907.11692.pdf.
[22]CUI Y M, CHE W X, LIU T, et al. Revisiting pre-trained models for Chinese natural language processing[C]∥Findings of the Association for Computational Linguistics: EMNLP 2020. Stroudsburg:ACL Press, 2020: 657-668.