国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于半監(jiān)督的句子情感分類模型

2024-12-04 00:00:00蘇靜MurtadhaAhmed
重慶大學(xué)學(xué)報(bào) 2024年12期

摘要:句子情感分類致力于挖掘文本中的情感語義,以基于BERT(bidirectional encoder representations from transformers)的深度網(wǎng)絡(luò)模型表現(xiàn)最佳。這類模型的性能極度依賴大量高質(zhì)量標(biāo)注數(shù)據(jù),而現(xiàn)實(shí)中標(biāo)注樣本往往比較稀缺,導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)容易在小規(guī)模樣本集上過擬合,難以準(zhǔn)確捕捉句子的隱含情感特征。盡管現(xiàn)有的半監(jiān)督模型有效利用了未標(biāo)注樣本特征,但對引入未標(biāo)注樣本可能導(dǎo)致錯(cuò)誤逐漸累積問題沒有有效處理。半監(jiān)督模型在對測試數(shù)據(jù)集進(jìn)行預(yù)測后不會(huì)重新評(píng)估和修正上次的標(biāo)注結(jié)果,無法充分挖掘測試數(shù)據(jù)的特征信息。研究提出一種新型的半監(jiān)督句子情感分類模型。該模型首先提出基于K-近鄰算法的權(quán)重機(jī)制,為置信度高的樣本分配較高權(quán)重,盡可能減少錯(cuò)誤信息在模型訓(xùn)練中的傳播。接著,采用兩階段訓(xùn)練策略,使模型能對測試數(shù)據(jù)中預(yù)測錯(cuò)誤的樣本進(jìn)行及時(shí)修正,通過多個(gè)數(shù)據(jù)集的測試,證明本模型在小規(guī)模樣本集上也能獲得良好性能。

關(guān)鍵詞:句子情感分類;半監(jiān)督學(xué)習(xí);K-近鄰;transformer

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1000-582X(2024)12-100-14

基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(62172335)。Supported by the National Natural Science Foundation of China (62172335).

A semi-supervised model for sentence-level sentiment classification

SU Jing, MURTADHA Ahmed

(School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, P. R. China)

Abstract: Sentence sentiment classification is an important task for extracting emotional semantics from text. Currently, the best tools for sentence sentiment classification leverage deep neural networks, particularly BERTbased models. However, these models require large, high-quality labeled datasets to perform effectively. In practice, labeled data is usually limited, leading to overfitting on small datasets and difficulties in capturing subtle sentiment features. Although existing semi-supervised models utilize features from large unlabeled datasets, they still face challenges from errors introduced by pseudo-labeled samples. Additionally, once test data is labeled, these models often do not adapt by incorporating feature information from test data. To address these issues, this paper proposes a semi-supervised sentence sentiment classification model. First, a K-nearest neighbors-based weighting mechanism is designed, assigning higher weights to high confidence samples to minimize error propagation during parameter learning. Second, a two-stage training mechanism is implemented, enabling the model to correct misclassified samples in the test data. Extensive experiments on multiple datasets show that this method achieves strong performance on small datasets.

Keywords: sentence-level sentiment classification; semi-supervised learning; K-nearest neighbors; transformer

句子級(jí)情感分類任務(wù)主要對整個(gè)句子的情感趨向進(jìn)行分析,常見的如電商網(wǎng)站上對商品的評(píng)價(jià)、投資平臺(tái)上金融機(jī)構(gòu)對股市風(fēng)險(xiǎn)評(píng)論、社交媒體中對熱點(diǎn)事件和政策的評(píng)價(jià)等。對這些評(píng)價(jià)內(nèi)容挖掘情感信息蘊(yùn)含著巨大的商業(yè)價(jià)值,如企業(yè)可以利用這些信息來研發(fā)新產(chǎn)品或優(yōu)化服務(wù);金融機(jī)構(gòu)可以據(jù)此進(jìn)行投資預(yù)警;政府可以根據(jù)這類信息來制定或調(diào)整政策。然而,大規(guī)模高質(zhì)量帶標(biāo)簽的句子在實(shí)際應(yīng)用場景中很難獲取,因?yàn)橥枰馁M(fèi)巨大的人力和時(shí)間成本對其進(jìn)行標(biāo)注。因此,這篇文章主要針對在只有少量可用帶標(biāo)簽樣本的場景下進(jìn)行情感分類學(xué)習(xí)。眾所周知,在句子情感分類任務(wù)中,目前最好的模型是基于transformer架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型(如BERT[1],RoBERTa[2],XLNet[3]等),通過在大規(guī)模wikipedia文檔數(shù)據(jù)集上進(jìn)行訓(xùn)練捕獲自然語言中的語義知識(shí),生成1個(gè)預(yù)訓(xùn)練模型,很好地應(yīng)用于特定下游任務(wù)。但這些深度網(wǎng)絡(luò)模型依賴訓(xùn)練樣本集的大小和標(biāo)注質(zhì)量,當(dāng)訓(xùn)練集較小時(shí),容易出現(xiàn)過擬合現(xiàn)象,難以捕捉文本中的隱含情感特征,無法學(xué)習(xí)到多樣化的情感特征。雖然標(biāo)注數(shù)據(jù)難以獲得,但未標(biāo)注數(shù)據(jù)非常豐富且易于獲取,不需要支付大量的人力和物力成本。本文旨在充分利用大量未標(biāo)注數(shù)據(jù),提高小樣本的學(xué)習(xí)性能。雖然傳統(tǒng)的半監(jiān)督學(xué)習(xí)模型,如基于教師—學(xué)生模型的自訓(xùn)練和結(jié)合已標(biāo)注與未標(biāo)注數(shù)據(jù)的協(xié)同訓(xùn)練,嘗試?yán)梦礃?biāo)注數(shù)據(jù)解決小樣本問題,這些方法都致力于挖掘未標(biāo)注數(shù)據(jù)的特征,同時(shí)減少未標(biāo)注數(shù)據(jù)訓(xùn)練引入的噪聲。盡管后續(xù)研究提出了一些優(yōu)化策略,如只選擇一部分高置信度的偽標(biāo)簽樣本參與訓(xùn)練,但這些方法通常基于深度神經(jīng)網(wǎng)絡(luò)(DNN)預(yù)測概率的信息熵來計(jì)算置信度,仍然存在累積錯(cuò)誤的風(fēng)險(xiǎn),因?yàn)镈NN對預(yù)測錯(cuò)誤的樣本也可能給出高概率預(yù)測,不能準(zhǔn)確反映真實(shí)的預(yù)測置信度。因此,筆者提出了一種基于K-近鄰的損失加權(quán)機(jī)制。該機(jī)制在模型訓(xùn)練過程中,對每個(gè)樣本實(shí)例,找到其在同批次中距離最近的K個(gè)樣本。通過比較這些近鄰的預(yù)測標(biāo)簽與當(dāng)前樣本的預(yù)測標(biāo)簽,計(jì)算相同標(biāo)簽的數(shù)量比例,作為該樣本預(yù)測正確的權(quán)重。這個(gè)權(quán)重隨后用于加權(quán)散度損失,參與訓(xùn)練和模型參數(shù)的優(yōu)化。通過給予高置信度樣本較高權(quán)重,低置信度樣本較低權(quán)重,有效降低噪聲的影響,通過在損失函數(shù)中設(shè)置權(quán)重,直接影響模型的學(xué)習(xí)過程。此外,現(xiàn)有的半監(jiān)督學(xué)習(xí)模型主要關(guān)注如何充分學(xué)習(xí)和利用未標(biāo)注數(shù)據(jù)的特征,但在處理測試數(shù)據(jù)集時(shí),一旦為測試數(shù)據(jù)分配了標(biāo)簽,就不再考慮對這些預(yù)測標(biāo)簽進(jìn)行修改。這些模型通常未能充分利用測試數(shù)據(jù)中的特征信息,僅將測試數(shù)據(jù)作為評(píng)估模型準(zhǔn)確率的工具。本文提出一種新方法,旨在通過學(xué)習(xí)測試數(shù)據(jù)集上的特征信息來修正測試數(shù)據(jù)上已有的標(biāo)注標(biāo)簽。不僅關(guān)注如何利用未標(biāo)注數(shù)據(jù)集的特征,還探索如何有效使用測試數(shù)據(jù)集中的特征。本文的方法允許模型在獲取測試數(shù)據(jù)上的預(yù)測標(biāo)簽后,繼續(xù)從測試數(shù)據(jù)中選擇一部分預(yù)測準(zhǔn)確度較高的數(shù)據(jù),將這些數(shù)據(jù)加入訓(xùn)練集共同參與訓(xùn)練。這有助于修正測試數(shù)據(jù)集中的錯(cuò)誤標(biāo)簽,挑戰(zhàn)深度學(xué)習(xí)模型傳統(tǒng)上依賴的獨(dú)立同分布(i.i.d)假設(shè)?,F(xiàn)實(shí)情況中,訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的特征分布存在差異,特征分布不完全對齊[4]。如果僅使用訓(xùn)練集訓(xùn)練的模型參數(shù)直接預(yù)測測試數(shù)據(jù)集的標(biāo)簽,會(huì)導(dǎo)致預(yù)測偏差。為減少這種誤差,必須盡可能學(xué)習(xí)測試數(shù)據(jù)集上的特征,緩解訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集之間的數(shù)據(jù)不對齊問題。通過優(yōu)化模型參數(shù)并修正先前的預(yù)測結(jié)果,可減少分布偏差導(dǎo)致的錯(cuò)誤標(biāo)注。因此,本文的方法不僅利用了未標(biāo)注數(shù)據(jù)的特征,還進(jìn)一步利用測試數(shù)據(jù)集的特征,提高模型的泛化能力和準(zhǔn)確率。

為進(jìn)一步闡釋本研究所提方法與現(xiàn)有相關(guān)方法之間的差異,提供以下說明:

1)當(dāng)前的半監(jiān)督學(xué)習(xí)方法主要通過篩選出噪聲較少的部分未標(biāo)注數(shù)據(jù)參與訓(xùn)練過程,篩選基于深度神經(jīng)網(wǎng)絡(luò)(DNN)對樣本的預(yù)測概率的準(zhǔn)確性。然而,這些方法往往沒有充分考慮DNN對樣本預(yù)測的誤差。本文提出的方法通過將目標(biāo)樣本與其近鄰樣本的信息結(jié)合起來,計(jì)算目標(biāo)樣本的置信度,全面考慮DNN對樣本預(yù)測的準(zhǔn)確性。基于K-近鄰加權(quán)的損失機(jī)制從新的角度選擇高置信度樣本參與訓(xùn)練,展示了該方法的創(chuàng)新性。

2)現(xiàn)有的半監(jiān)督情感分類研究未能進(jìn)一步探索和利用測試數(shù)據(jù)集的特征,僅限于挖掘未標(biāo)注數(shù)據(jù)的特征。本研究提出的2階段優(yōu)化模式,通過在模型訓(xùn)練的第1階段采用K-近鄰加權(quán)方式,對可能預(yù)測錯(cuò)誤的樣本賦予較小權(quán)重,對可能預(yù)測正確的樣本賦予較大權(quán)重,最大程度減少錯(cuò)誤累積。隨后,在第2階段的自訓(xùn)練過程中,通過Teacher模型和Student模型交替標(biāo)注測試集數(shù)據(jù),利用已標(biāo)注測試數(shù)據(jù)集的特征作為訓(xùn)練集特征,參與下1輪的特征學(xué)習(xí)。

筆者提出2階段優(yōu)化模式如圖1所示,采用K-近鄰加權(quán)的方式在模型第1階段訓(xùn)練過程中給予最可能預(yù)測錯(cuò)誤的樣本較小權(quán)重,給予最可能預(yù)測正確的樣本較大權(quán)重,盡可能緩解錯(cuò)誤累積。接著通過第2階段的self-training,Teacher模型和Student模型交替標(biāo)注測試集數(shù)據(jù),已標(biāo)注的測試數(shù)據(jù)集作為訓(xùn)練集用于下1輪特征學(xué)習(xí)過程。

綜上所述,本文的主要貢獻(xiàn)包括3個(gè)方面:

1)提出一種基于K-近鄰正則化樣本權(quán)重機(jī)制的損失機(jī)制, 在模型訓(xùn)練過程中有效降低預(yù)測錯(cuò)誤樣本產(chǎn)生的誤差累積;

2) 提出一種小樣本上基于2階段的半監(jiān)督情感分類模型,學(xué)習(xí)測試數(shù)據(jù)集上的特征信息且對測試數(shù)據(jù)集已經(jīng)標(biāo)注的樣本標(biāo)簽進(jìn)行再修改;

3) 進(jìn)行各種對比實(shí)驗(yàn)驗(yàn)證,且驗(yàn)證了該方案的有效性。

1 相關(guān)工作

文本情感分類依據(jù)文本粒度大小分為文檔級(jí)情感分類、句子級(jí)情感分類和方面級(jí)情感分類。本文聚焦于句子級(jí)情感分類任務(wù),該任務(wù)在情感分析領(lǐng)域占有重要地位。最有效的方法依賴于各種深度網(wǎng)絡(luò)模型,例如,S2SAN[5], 3W-CNN[6],SR-LSTM[7],CHL-PRAE[8]。近期隨著BERT系列模型的出現(xiàn),自然語言處理領(lǐng)域出現(xiàn)了巨大發(fā)展。由于BERT通過預(yù)訓(xùn)練和微調(diào)(finetuning)的方法,不僅使自然語言理解任務(wù)變得更加規(guī)范,而且通過預(yù)訓(xùn)練過程得到的嵌入向量自然地融合了豐富的語義知識(shí),使模型能靈活適應(yīng)各種上下文環(huán)境。只需對特定問題領(lǐng)域的數(shù)據(jù)進(jìn)行微調(diào),就能在目標(biāo)領(lǐng)域?qū)崿F(xiàn)最佳性能,簡化了模型的使用和適應(yīng)過程。隨后,眾多研究致力于對BERT體系結(jié)構(gòu)進(jìn)行優(yōu)化,提升模型性能和效率。例如,ALBERT[9]模型通過減少參數(shù)量來加快訓(xùn)練速度并提高模型效果; DeBERTa[10] 改進(jìn)了注意力機(jī)制增強(qiáng)掩碼解碼器;RoBERTa[2]優(yōu)化了預(yù)訓(xùn)練語言模型(pre-trained language models,PLM),將靜態(tài)掩碼改為動(dòng)態(tài)掩碼,移除了下1句預(yù)測任務(wù);XLNet引入了雙流自注意力機(jī)制。此外,還有研究通過將BERT模型與外部知識(shí)融合進(jìn)一步提升模型性能。例如文獻(xiàn)[11]提出如何將詞性信息融入DNN模型中,這要求在融合外部知識(shí)后重新進(jìn)行預(yù)訓(xùn)練,再進(jìn)行微調(diào)。SKEP[12]模型則是將情感詞融入預(yù)訓(xùn)練過程中。文獻(xiàn)[13-14]提出為了將語言知識(shí)集成到預(yù)訓(xùn)練模型中,設(shè)計(jì)了新的預(yù)訓(xùn)練任務(wù),在給定句子級(jí)情感標(biāo)簽的情況下,預(yù)測單詞、詞性標(biāo)簽和掩碼位置的情感傾向。

上述研究主要集中于如何充分利用帶標(biāo)簽的訓(xùn)練數(shù)據(jù)。在現(xiàn)實(shí)應(yīng)用場景中,獲取大量帶標(biāo)簽數(shù)據(jù)往往是困難的。特別是在小樣本的情況下,這些深度學(xué)習(xí)模型的表現(xiàn)通常不佳,容易發(fā)生過擬合,對超參數(shù)(如迭代次數(shù)、批大小和學(xué)習(xí)率等)的選擇極為敏感。

為了處理目前DNN在有限標(biāo)簽下的預(yù)測性能,根據(jù)帶標(biāo)簽數(shù)據(jù)的分布特征與未帶標(biāo)簽數(shù)據(jù)的分布特征是不同的假設(shè)[15],半監(jiān)督文本分類嘗試?yán)梦礃?biāo)注數(shù)據(jù)來蒸餾多樣化知識(shí)[16]。目前半監(jiān)督情感分類模型主要采用以下2種策略:

1)教師—學(xué)生(Teacher-Student)結(jié)構(gòu)的交替訓(xùn)練模式。Teacher-Student結(jié)構(gòu)的交替訓(xùn)練模式是構(gòu)建2個(gè)獨(dú)立的模型,(Teacher和Student)來捕獲未標(biāo)注數(shù)據(jù)的特征,逐步選取置信度高的偽標(biāo)注數(shù)據(jù)加入訓(xùn)練集。例如,CEST[17]利用提升的相似度圖在self-training過程中更有效地利用數(shù)據(jù)。SRIFT[18]將Teacher-Student作為Stackelberg游戲,應(yīng)用經(jīng)濟(jì)學(xué)中的Stackelberg策略優(yōu)化整個(gè)過程。文獻(xiàn)[19]通過使用2個(gè)Teachers分別在labeled數(shù)據(jù)和有抖動(dòng)的labeled數(shù)據(jù)上提取特征。文獻(xiàn)[16]提出優(yōu)化選擇帶偽標(biāo)簽數(shù)據(jù)的過程。文獻(xiàn)[15]探索在半監(jiān)督關(guān)系抽取中不同模型的不一致性。文獻(xiàn)[20]提出ASTRA,使用弱規(guī)則聚合Student的偽標(biāo)簽。文獻(xiàn)[21]提出一種使用多個(gè)分類器參與分類預(yù)測,設(shè)置不同子分類器的情感貢獻(xiàn)權(quán)重得到分類的情感置信度,選出置信度高的樣本擴(kuò)大訓(xùn)練集。文獻(xiàn)[22]提出TS-Aug,能結(jié)合數(shù)據(jù)增強(qiáng)到交替訓(xùn)練過程中。

2)協(xié)同訓(xùn)練模式(Co-training)。協(xié)同訓(xùn)練模式主要通過把全部未標(biāo)注數(shù)據(jù)帶入訓(xùn)練過程中,根據(jù)已標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)分別設(shè)計(jì)不同的損失函數(shù)用于營造一種區(qū)分性的訓(xùn)練過程[23,17]。比如,文獻(xiàn)[24]提出COSINE,加入比較正則化和基于置信度的權(quán)重機(jī)制。文獻(xiàn)[25]提出了一種協(xié)同訓(xùn)練框架MixTex,采用TMix去增強(qiáng)訓(xùn)練樣本,同時(shí)計(jì)算有監(jiān)督的損失和一致性損失。

盡管現(xiàn)有的半監(jiān)督學(xué)習(xí)模型有效利用了未標(biāo)注數(shù)據(jù),主要局限于這些數(shù)據(jù)的使用,并未解決訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集特征分布不對齊問題。大都基于獨(dú)立同分布(i.i.d)的假設(shè),忽略了訓(xùn)練集和測試集在特征分布上的不一致性。直接使用訓(xùn)練集和未標(biāo)注數(shù)據(jù)集來訓(xùn)練模型參數(shù),并用其預(yù)測測試數(shù)據(jù)集時(shí),并沒有采取措施來縮小訓(xùn)練集和測試集之間的特征偏差。此外,由于引入了帶偽標(biāo)簽的數(shù)據(jù)參與訓(xùn)練過程會(huì)帶來錯(cuò)誤累積問題,雖然已經(jīng)嘗試了各種策略來減少錯(cuò)誤累積,如使用信息熵過濾掉可能預(yù)測錯(cuò)誤的樣本,但這些策略基本上都是在假設(shè)深度神經(jīng)網(wǎng)絡(luò)(DNN)能正確預(yù)測的前提下進(jìn)行。DNN在預(yù)測錯(cuò)誤的樣本上也給出了較高的置信度,這說明需要更深入地解決這個(gè)問題。筆者提出的方案提出一種新的方法,不僅能有效利用未標(biāo)注數(shù)據(jù),而且能處理訓(xùn)練集和測試集之間的特征分布不一致性,減輕偽標(biāo)簽引入的錯(cuò)誤累積效應(yīng),提高半監(jiān)督學(xué)習(xí)的整體性能。

2 句子級(jí)情感分析任務(wù)定義

研究考慮句子情感二分類問題,即分類器只需要標(biāo)注每個(gè)句子是正情感還是負(fù)情感。定義如下:

考慮1個(gè)擁有大量評(píng)論的語料庫{ r0,r1,…,rn},每個(gè)評(píng)論數(shù)據(jù)集rj由一系列句子{ sj1,sj1,…,sjn}組成。句子級(jí)別情感分類的目標(biāo)是為每個(gè)句子預(yù)測1個(gè)情感標(biāo)簽,這個(gè)標(biāo)簽指示該句子是表達(dá)正面情感(標(biāo)簽=1表示正面情感)還是負(fù)面標(biāo)簽(標(biāo)簽=0表示負(fù)面情感)。

3 基于K-近鄰的LOSS權(quán)重機(jī)制

盡管深度神經(jīng)網(wǎng)絡(luò)(DNN)的預(yù)測概率越極端通常意味著對該樣本的預(yù)測置信度越高,現(xiàn)實(shí)情況卻常常并非如此。DNN可能對其預(yù)測結(jié)果過于自信,導(dǎo)致對錯(cuò)誤標(biāo)注的樣本給出了過高的置信度,很難對這些錯(cuò)誤的預(yù)測進(jìn)行糾正。研究提出了一種基于K-近鄰的加權(quán)損失機(jī)制,促使DNN模型能根據(jù)鄰近樣本的預(yù)測標(biāo)簽重新評(píng)估和調(diào)整自己對當(dāng)前樣本的預(yù)測準(zhǔn)確性?,F(xiàn)有研究通常通過計(jì)算DNN預(yù)測概率的信息熵過濾掉置信度低的未標(biāo)注數(shù)據(jù),避免錯(cuò)誤地進(jìn)一步傳播。其他方法可能包括直接過濾出預(yù)測概率低于特定閾值的樣本,或者根據(jù)樣本在2個(gè)類別上的概率差異進(jìn)行排序,選擇置信度較高的部分樣本進(jìn)行下1輪訓(xùn)練。然而,這些方法主要基于DNN對當(dāng)前樣本預(yù)測概率準(zhǔn)確的前提下進(jìn)行計(jì)算的,并沒有充分考慮當(dāng)前樣本的預(yù)測是否準(zhǔn)確。筆者通過將目標(biāo)樣本的鄰近樣本納入置信度計(jì)算過程中,提出一種新的方法,基于對當(dāng)前樣本預(yù)測準(zhǔn)確性的全面考量。因此,所提出的基于K-近鄰加權(quán)的損失機(jī)制能夠從1個(gè)新的角度選擇置信度較高的樣本參與訓(xùn)練,展示了方法的創(chuàng)新性。

具體來說,該方法通過使用K-近鄰算法,基于樣本的嵌入向量(embedding)計(jì)算余弦距離(cosine)(或相似度),識(shí)別每個(gè)樣本在其所在batch內(nèi)的最近鄰居。接下來,統(tǒng)計(jì)這些近鄰中與目標(biāo)樣本預(yù)測標(biāo)簽相同樣本所占的比例。這一比例反映了在所有最接近的鄰居中,有多少比例的樣本與目標(biāo)樣本具有相同標(biāo)簽??梢杂靡韵鹿奖硎?/p>

4 半監(jiān)督訓(xùn)練過程

盡管大多數(shù)現(xiàn)有的半監(jiān)督情感分類研究依賴于教師—學(xué)生(Teacher-Student)訓(xùn)練或協(xié)同訓(xùn)練來降低未標(biāo)注數(shù)據(jù)中的噪聲,往往沒有充分利用測試數(shù)據(jù)集中的特征,而僅集中挖掘未標(biāo)注數(shù)據(jù)的特征。筆者提出了一種2階段的優(yōu)化模式。在模型訓(xùn)練過程中,采用K-近鄰加權(quán)的方法,對可能預(yù)測錯(cuò)誤的樣本賦予較小權(quán)重,對可能預(yù)測正確的樣本賦予較大權(quán)重,最大限度減輕錯(cuò)誤累積的問題。在優(yōu)化的第2階段,采用自訓(xùn)練(self-training)方法,其中Teacher模型和Student模型交替對測試集數(shù)據(jù)進(jìn)行標(biāo)注,利用已標(biāo)注的測試數(shù)據(jù)集特征作為訓(xùn)練數(shù)據(jù),用于下1輪的特征學(xué)習(xí)。這種策略不僅增強(qiáng)了模型對未標(biāo)注數(shù)據(jù)的利用效率,還通過直接引入測試數(shù)據(jù)集進(jìn)一步提高模型的泛化能力和準(zhǔn)確性。

在本文提出的2階段優(yōu)化模式中,第1階段的自訓(xùn)練(self-training)主要依靠有限的帶標(biāo)簽數(shù)據(jù)和初始未標(biāo)注的數(shù)據(jù)共同參與訓(xùn)練,以學(xué)習(xí)未標(biāo)注數(shù)據(jù)的特征,最終為這些未標(biāo)注數(shù)據(jù)分配預(yù)測標(biāo)簽。第2階段的自訓(xùn)練(self-training)將訓(xùn)練集與第1階段標(biāo)注好的未標(biāo)注數(shù)據(jù)合并,形成新的擴(kuò)展訓(xùn)練集。隨后,在迭代過程中,每1輪都會(huì)從測試數(shù)據(jù)中選取部分預(yù)測準(zhǔn)確率較高的樣本,加入到訓(xùn)練集中,持續(xù)優(yōu)化模型。通過這種方式,模型能夠在迭代中不斷提升性能,最終對測試集中的所有樣本進(jìn)行1次性預(yù)測。這個(gè)過程不僅增強(qiáng)了模型對未標(biāo)注數(shù)據(jù)特征的學(xué)習(xí)能力,還通過逐步引入測試數(shù)據(jù)進(jìn)一步優(yōu)化模型,提高對新數(shù)據(jù)的適應(yīng)性和預(yù)測準(zhǔn)確性。

4.1 第1階段self-training

圖2表示所提半監(jiān)督方案的第1階段self-training, 主要流程是使用帶標(biāo)簽據(jù)初始化RoBERTa模型,使用訓(xùn)練好的模型預(yù)測未標(biāo)注數(shù)據(jù)上的偽標(biāo)簽,合并未標(biāo)注數(shù)據(jù)和訓(xùn)練數(shù)據(jù)一起聯(lián)合訓(xùn)練RoBERTa模型,此時(shí)使用所提出的基于K-近鄰的損失權(quán)重機(jī)制最小化模型中的損失。

4.1.1 使用帶標(biāo)簽的數(shù)據(jù)初始訓(xùn)練模型

研究所使用的分類器f=g◎RoBERTa包含2部分,RoBERTa是1個(gè)預(yù)訓(xùn)練的模型,輸出隱藏層向量表示,g是任務(wù)相關(guān)的分類器頭,輸出2維的向量,每個(gè)維度相應(yīng)于指定類的預(yù)測概率,◎表示連接符號(hào)。第1階段self-training框架如圖1所示,使用帶標(biāo)簽的數(shù)據(jù)初始化預(yù)訓(xùn)練模型。此外,類似之前研究,采取early stopping方法在半監(jiān)督中比較廣泛,減輕模型對標(biāo)簽中噪聲的過擬合問題。

4.1.2 聯(lián)合訓(xùn)練過程

聯(lián)合訓(xùn)練過程主要通過同時(shí)利用未標(biāo)注(unlabeled)數(shù)據(jù)集和已標(biāo)注(labeled)數(shù)據(jù)集進(jìn)行微調(diào)(finetuning),旨在減輕可能由于錯(cuò)誤標(biāo)注的數(shù)據(jù)在訓(xùn)練集中引起的誤差傳播問題。首先,利用已標(biāo)注數(shù)據(jù)集對模型進(jìn)行初始訓(xùn)練,預(yù)測未標(biāo)注數(shù)據(jù)集的偽標(biāo)簽,將這些偽標(biāo)注的數(shù)據(jù)與已標(biāo)注數(shù)據(jù)集合并。為了緩解誤差傳播,采用了基于K-近鄰加權(quán)的損失函數(shù)及當(dāng)前被廣泛認(rèn)為有效的對比損失函數(shù)(contrastive loss,CL)。通過這種方法,模型能不斷更新偽標(biāo)簽和模型參數(shù),提高整體訓(xùn)練過程的準(zhǔn)確性和魯棒性。所提方法還結(jié)合了比較損失[6]。比較損失是用于指導(dǎo)DNN學(xué)習(xí)更加清晰的分類邊界,主要通過引導(dǎo)模型學(xué)習(xí)同1個(gè)類別的數(shù)據(jù)具有相似的表示,不同類別的數(shù)據(jù)具有不同表示,否則如果相同類別具有較大距離,或不同類別如果具有較小的距離值則通過在損失函數(shù)中加入距離值作為懲罰。

4.2 第2階段self-training

第2階段主要針對在Test數(shù)據(jù)上抽取部分準(zhǔn)確率較高的數(shù)據(jù)合并到訓(xùn)練集中訓(xùn)練模型,如圖3所示。該過程同樣在前1階段已經(jīng)fine-tuning好模型的基礎(chǔ)上再次訓(xùn)練該模型。training數(shù)據(jù)和test數(shù)據(jù)特征分布不對齊,通過接著學(xué)習(xí)test數(shù)據(jù)上所擁有的特征,能打破現(xiàn)有半監(jiān)督方法存在的獨(dú)立同分布特性(i.i.d假設(shè))。

4.2.1 基于BALD的未標(biāo)注樣本選擇

所提方案采用BALD[16]從測試數(shù)據(jù)中選擇未標(biāo)注樣本。BALD(bayesian active learning by disagreement)方法的目標(biāo)是選擇最大化模型參數(shù)信息熵樣本,或最大化預(yù)測和模型后驗(yàn)之間的信息增益。利用模型對數(shù)據(jù)的不確定性指導(dǎo)數(shù)據(jù)選擇,從最有信息量的樣本中學(xué)習(xí),提高學(xué)習(xí)效率和模型的性能。對具有較低信息增益的樣本,模型更加確定,由于具有較低信息增益,模型從樣本中學(xué)習(xí)到的信息較少,直接使用較低信息增益的樣本訓(xùn)練模型會(huì)導(dǎo)致過擬合,相反,具有較高信息增益的樣本對模型學(xué)習(xí)貢獻(xiàn)較多,但也容易受到錯(cuò)誤偽標(biāo)簽的破壞。為了權(quán)衡這2個(gè)場景,采用不同的權(quán)重抽取樣本,較低熵的樣本抽取得更多一些,較高熵的樣本抽取更少一些。具體計(jì)算過程如下所示公式,對于1個(gè)數(shù)據(jù)樣本xi

∈Test,

4.2.2 訓(xùn)練過程

首先,Teacher模型使用帶標(biāo)簽數(shù)據(jù)和第1階段獲取的帶偽標(biāo)簽的已標(biāo)注數(shù)據(jù)作為訓(xùn)練集參與訓(xùn)練,得到訓(xùn)練好的模型fW,W表示模型參數(shù)。接著采用基于BALD的方法從這些測試數(shù)據(jù)集上選擇部分?jǐn)?shù)據(jù)作為新增的訓(xùn)練集合并到原有的訓(xùn)練集中訓(xùn)練Student模型。Student模型訓(xùn)練好后copy模型參數(shù)給Teacher模型,Teacher模型再次預(yù)測測試數(shù)據(jù)集,得到最新預(yù)測概率,再次應(yīng)用BALD方法最新選擇部分測試數(shù)據(jù)添加到原始的訓(xùn)練數(shù)據(jù)集中訓(xùn)練Student模型。Teacher模型及其模型使用的基礎(chǔ)模型都是RoBERTa模型。因?yàn)镽oBERTa模型在文本分類領(lǐng)域性能比較穩(wěn)定,且擅長做語義理解類相關(guān)任務(wù)[2]。

5 實(shí)驗(yàn)

為了實(shí)驗(yàn)評(píng)估,使用了4個(gè)句子情感分類任務(wù)公開使用的標(biāo)準(zhǔn)數(shù)據(jù)集,分別是MR,CR,Twitter2013和Twitter2016。其中:MR是電影評(píng)論集合;CR是電子商品評(píng)論集合;Twitter2013和Twitter2016是微博評(píng)論,內(nèi)容長度上更加精簡。表1列出所有數(shù)據(jù)集的統(tǒng)計(jì)信息。

5.1 對比實(shí)驗(yàn)

后續(xù)的實(shí)驗(yàn)不僅與目前最好的有監(jiān)督情感分類模型做對比,且與目前最好的半監(jiān)督情感分類模型做對比。由于研究主要是句子級(jí)情感二分類問題,使用的度量標(biāo)準(zhǔn)是準(zhǔn)確率和Macro F1(文章中簡寫為F1)。目前性能最好的有監(jiān)督情感分類模型主要有以下:

1)RoBERTa模型[2]。文本分類主要采用RoBERTa模型,性能比較穩(wěn)定,且擅長執(zhí)行語義理解相關(guān)類任務(wù)。

2)XLNet模型[3]。XLNet是對BERT模型的優(yōu)化改進(jìn),是通用的自回歸預(yù)訓(xùn)練模型,能夠?qū)W習(xí)雙向文本語義。

3)EFL[12]。該模型通過把類標(biāo)簽轉(zhuǎn)化為輔助句子,使更多的任務(wù)能夠統(tǒng)一轉(zhuǎn)化為文本蘊(yùn)含任務(wù)。

4)DualCL[26]。最近提出用于情感分類的模型,能同時(shí)學(xué)習(xí)輸入句子的特征和分類器的參數(shù)特征。

目前性能最好的基于半監(jiān)督的情感分類任務(wù)模型主要有以下:

1)UST[16]。該模型是一種Teacher-Student半監(jiān)督方案,主要用于文本分類,使用不確定度對unlabeled數(shù)據(jù)進(jìn)行采樣的方法選取置信度高的偽標(biāo)注數(shù)據(jù)。

2)COSINE[24]。也是一種文本分類的半監(jiān)督方案,使用比較loss且結(jié)合了信息熵的置信度權(quán)重機(jī)制以減少錯(cuò)誤累積。

3)MTGT[19]。研究提出了一種半監(jiān)督文本分類方案,采用2個(gè)Teacher訓(xùn)練,1個(gè)Teacher在Labeled數(shù)據(jù)上訓(xùn)練,另1個(gè)Teacher在增強(qiáng)后的數(shù)據(jù)中訓(xùn)練,然后加權(quán)這2種偽標(biāo)簽后得到新的unlabeled數(shù)據(jù)集上的偽標(biāo)簽作為Student模型使用的訓(xùn)練集。

4)DisCo[27]。采用一種新穎的協(xié)同訓(xùn)練技術(shù),通過促進(jìn)不同視圖下的Student模型之間的知識(shí)共享來優(yōu)化多個(gè)Student模型。

5)RNT[28]。為了緩解噪聲,采用基于來自標(biāo)簽文本的證據(jù)支持度計(jì)算不確定性排序unlabeled文本,同時(shí)使用負(fù)訓(xùn)練方式訓(xùn)練RNT。

表2展示了在CR和Twitter2016數(shù)據(jù)集上,所提方法(Ours)與當(dāng)前流行的最佳方法之間的性能比較。可以看出提出的方法不僅優(yōu)于最佳的有監(jiān)督模型,也超過了最佳的半監(jiān)督模型。特別是在僅有0.25%訓(xùn)練數(shù)據(jù)的情況下,CR和Twitter2016數(shù)據(jù)集上,相比于有監(jiān)督模型,所提方案在準(zhǔn)確率上分別提高了10.34%和16.06%;與最佳的半監(jiān)督模型相比,分別提高了3.56%和3.12%。當(dāng)訓(xùn)練數(shù)據(jù)增至1%時(shí),CR和Twitter2016數(shù)據(jù)集上,所提方法相比現(xiàn)有最佳半監(jiān)督模型分別提高了1.01%和0.96%。在訓(xùn)練數(shù)據(jù)為3%的情況下,提升分別為0.82%和1.54%。此外,還在MR和Twitter2013數(shù)據(jù)集上進(jìn)行了類似的對比實(shí)驗(yàn)。表3展示了這2個(gè)數(shù)據(jù)集在不同訓(xùn)練數(shù)據(jù)比例下的性能表現(xiàn),證明了方法在不同數(shù)據(jù)集和不同數(shù)據(jù)規(guī)模下的普適性和有效性。

從表3可以看出,在1%的MR和Twitter2013數(shù)據(jù)集上時(shí),本文所提方法在準(zhǔn)確率上分別可以達(dá)到86.22%, 90.02%,macro-F1分別可以達(dá)到86.45%,92.93%,比目前最好的方法半監(jiān)督方法在準(zhǔn)確率上分別超出2.5%,1.18%,在macro-F1上分別超出2.75%,4.09%。在0.5%訓(xùn)練集的時(shí)候,MR和Twitter2013在準(zhǔn)確率上分別比最好的方法超出1.55%和1.11%。當(dāng)數(shù)據(jù)負(fù)載為3%的訓(xùn)練集的MR和Twitter2013時(shí),所提方法在準(zhǔn)確率上可以超出目前最好模型0.33%和0.15%。綜上可以看出,半監(jiān)督模型普遍比有監(jiān)督模型性能好,因?yàn)榘氡O(jiān)督模型利用了unlabeled數(shù)據(jù)上的特征信息,所提方法也同樣利用了unlabeled數(shù)據(jù)上的特征,不僅止步于如何充分利用unlabeled數(shù)據(jù)上的特征,同時(shí)也利用了test數(shù)據(jù)上的特征,試圖縮減訓(xùn)練集和測試集之間特征分布差異。

5.2 敏感性測試

5.2.1 self-training

為了證明所提方法中第2階段self-training的重要性,接著展示了只執(zhí)行第1階段self-training 和同時(shí)執(zhí)行第1階段和第2階段self-training在CR 和twitter2016 2個(gè)數(shù)據(jù)集上的表現(xiàn)結(jié)果。從圖4和圖5中可以看出,在CR和Twitter2016 2個(gè)數(shù)據(jù)集上2階段self-training 比1階段self-training 性能明顯好一些。說明了相比1階段self-training, 2階段的self-training可緩解訓(xùn)練集和測試集之間的特征分布偏差問題。

5.2.2 加入K-近鄰權(quán)重的loss VS 不加入K-近鄰權(quán)重的loss

通過表4中加入K近鄰loss前后在CR和Twitter2016這2個(gè)數(shù)據(jù)集上的效果可看出,在沒有加入K-近鄰loss前,3%CR數(shù)據(jù)集和3%Twitter2016數(shù)據(jù)集的準(zhǔn)確率分別是0.896 7和0.841 3,加入K-近鄰loss后的準(zhǔn)確率分別是0.928 5,0.905 7,分別增加了3.18%和6.44%。說明所提方法采用K-近鄰loss機(jī)制后在模型訓(xùn)練過程中提供不同視角檢查出有可能標(biāo)注錯(cuò)誤的偽標(biāo)簽,同時(shí)給予可能標(biāo)注錯(cuò)誤的偽標(biāo)簽較低的學(xué)習(xí)權(quán)重,這種方法從一定程度上降低錯(cuò)誤偽標(biāo)簽造成的影響。

6 結(jié) 論

1)研究在現(xiàn)有半監(jiān)督方案的基礎(chǔ)上提出一種基于K-近鄰正則化樣本權(quán)重機(jī)制的loss, 有效降低預(yù)測錯(cuò)誤樣本產(chǎn)生的誤差累積問題,通過敏感性實(shí)驗(yàn)觀測到該方法在一定程度上提升準(zhǔn)確率;

2)提出一種小樣本上基于2階段的半監(jiān)督情感分類模型,學(xué)習(xí)Test數(shù)據(jù)上的特征信息且對Test數(shù)據(jù)上已經(jīng)標(biāo)注的樣本標(biāo)簽進(jìn)行再修改,結(jié)果顯示所提出方案的有效性。

參考文獻(xiàn)

[1] Devlin J, Chang M, Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minnesota: Association for Computational Linguistics, 2019: 4171-4186.

[2] Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[EB/OL].(2019-7-27)[2024-11-6]. https:// arxiv.org/abs/1907.11692.

[3] Yang Z, Dai Z, Yang Y, et al. Xlnet generalized autoregressive pretraining for language understanding[C]//33rd International Conference on Neural Information Processing Systems. Red Hook, USA:Curran Associates Inc, 2019:5753-5763.

[4] Zhao Z, Zhou L, Duan Y, et al. DC-SSL: Addressing mismatched class distribution in semi-supervised learning[C]//2022 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022:9747-9755.

[5] Wang P, Li J, Hou J. S2SAN: A sentence-to-sentence attention network for sentiment analysis of online reviews[J]. Decision Support Systems, 2021,149:113603.

[6] Zhang Y, Zhang Z, Miao D, et al. Three-way enhanced convolutional neural networks for sentence-level sentiment classification[J].Information Sciences, 2019, 477:55-64.

[7] Rao G, Huang W, Feng Z, et al. LSTM with sentence representations for document-level sentiment classification[J]. Neurocomputing, 2018, 308(35):49-57.

[8] Fu X, Liu W, Xu Y, et al.Combine HowNet lexicon to train phrase recursive autoencoder for sentence-level sentiment analysis[J].Neurocomputing, 2017, 241(7):18-27.

[9] Lan Z, Chen M, Goodman S, et al. ALBERT: a Lite BERT for self-supervised learning of language representations[EB/OL].(2019-9-26)[2024-11-6]. https://arxiv.org/abs/1909. 11942.

[10] He P, Liu X, Gao J, et al. DeBERTa: decoding-enhanced BERT with disentangled attention[J]. (2020-6-5)[2024-11-6].https:// arxiv.org/abs/2006.03654.

[11] Pasquier C, Da Costa Pereira C, Tettamanzi A G B. Extending a fuzzy polarity propagation method for multi-domain sentiment analysis with word embedding and pos tagging[C]//ECAI 2020-24th European Conference on Artificial Intelligence. Spain:IOS Press, 2020: 2140-2147.

[12] Tian H, Gao C, Xiao X, et al. SKEP: sentiment knowledge enhanced pre-training for sentiment analysis[C]//58th Annual Meeting of the Association for Computational Linguistics. Pennsylvania, United States: Association for Computational Linguistics, 2020:4067-4076.

[13] Zhao Q, Ma S, Ren S. KESA: a knowledge enhanced approach for sentiment analysis[C]// 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing. Pennsylvania,United States: Association for Computational Linguistics, 2022:766-776.

[14] Ke P , Ji H, Liu S, et al. SentiLARE: sentiment-aware language representation learning with linguistic knowledge[C]// 2020 Conference on Empirical Methods in Natural Language Processing. Pennsylvania, United States: Association for Computational Linguistics, 2020:6975-6988.

[15] Li W L, Qian T Y. From consensus to disagreement: multi-teacher distillation for semi-supervised relation extraction[EB/OL].(2021-12-2)[2024-11-6]. https://arxiv.org/abs/2112.01048.

[16] Mukherjee S, Awadallah A H. Uncertainty-aware self-training for few-shot text classification[C]//34th International Conference on Neural Information Processing Systems. Canada:Curran Associates Inc, 2020:21199-21212.

[17] Tsai A C Y, Lin S Y, Fu L C. Contrast-enhanced semi-supervised text classification with few labels[C]//AAAI Conference on Artificial Intelligence.Vancouver, Canada:AAAI Press, 2022:11394-11402.

[18] Zuo S, Yu Y, Liang C, et al. Self-training with differentiable teacher[C]//Findings of the Association for Computational Linguistics. Pennsylvania,United States: Association for Computational Linguistics, 2022:933-949.

[19] Lin Q, Ng H T. A semi-supervised learning approach with two teachers to improve breakdown identification in dialogues[C]//、AAAI Conference on Artificial Intelligence.Vancouver, Canada: AAAI Press, 2022:11011-11019.

[20] Karamanolakis G, Mukherjee S, Zheng G, et al. Self-training with weak supervision[C]//2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Pennsylvania, United States: Association for Computational Linguistics, 2021:845-863.

[21] 陳 珂, 黎樹俊, 謝 博. 基于半監(jiān)督學(xué)習(xí)的微博情感分析[D].茂名:廣東石油化工學(xué)院, 2018. Chen K, Li S J, Xie B. Sentiment analysis of Chinese micro-blog based on semi-supervised[D]. Maoming: University of Petrochemical Technology,2018.

[22] 郭卡, 王芳. TS-Aug架構(gòu)的半監(jiān)督自訓(xùn)練情感分類算法[D].合肥:安徽外國語學(xué)院,2024. Guo K, Wang F. Semi-supervised self-training sentiment classification algorithm based on TS-Aug architecture[D]. Hefei: Anhui University of Foreign Languages, 2024.

[23] Li C, Li X, Ouyang, J. Semi-supervised text classification with balanced deep representation distributions[C]//59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Pennsylvania,United States: Association for Computational Linguistics, 2021:5044-5053.

[24] Yu Y, Zuo S, Jiang H, et al. Fine-tuning pre-trained language model with weak supervision: a contrastive-regularized selftraining[C]//2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Pennsylvania,United States: Association for Computational Linguistics,2020:1063-1077.

[25] Chen J, Yang Z, Yang D. Mixtext: linguistically-informed interpolation of hidden space for semi-supervised text classification[C]//Association for Computational Linguistics. Pennsylvania,United States: Association for Computational Linguistics, 2020: 2147-2157.

[26] Chen Q, Zhang R, Zheng Y, et al. Dual contrastive learning: text classification via label-aware data augmentation[EB/OL].(2022-1-21)[2024-11-6]. https://arxiv.org/abs/2201.08702.

[27] Jiang W, Mao Q, Lin C, et al. DisCo: distilled student models co-training for semi-supervised text mining[C]//2023 Conference on Empirical Methods in Natural Language Processing. Pennsylvania, United States: Association for Computational Linguistics, 2023:4015-4030.

[28] Murtadha A, Pan S, Wen B, et al. Rank-Aware negative training for semi-supervised text classification[J].Transactions of the Association for Computational Linguistics. 2023, 11:771-786.

(編輯 侯湘)

得荣县| 金坛市| 彭山县| 临湘市| 牡丹江市| 长春市| 大同县| 玉溪市| 昌图县| 海城市| 湟源县| 连江县| 新邵县| 台中县| 永平县| 财经| 喀喇沁旗| 东兴市| 民乐县| 湖州市| 社旗县| 团风县| 宜城市| 吉水县| 黄浦区| 盱眙县| 阿鲁科尔沁旗| 曲沃县| 洱源县| 通许县| 公主岭市| 西青区| 东方市| 临清市| 宁海县| 越西县| 丹凤县| 通河县| 抚顺县| 泗水县| 东安县|