穆建媛,朱 毅,周鑫柯,李 云,強繼朋,袁運浩
(揚州大學(xué) 計算機科學(xué)與技術(shù)系,江蘇 揚州 225127)
隨著互聯(lián)網(wǎng)通信新時代的到來,每天都有海量的互聯(lián)網(wǎng)信息產(chǎn)生,并且這些信息以飛快的速度在更迭,如新聞標題[1]、微博推送[2]、論壇討論[3]、手機短信[4]等文本信息,這些大多是非結(jié)構(gòu)化的短文本數(shù)據(jù)。與傳統(tǒng)的長文本數(shù)據(jù)相比較,這些短文本數(shù)據(jù)的最大特點在于語句較短,其中包含的詞匯較少,語義較為發(fā)散,容易產(chǎn)生歧義。這些特點導(dǎo)致了短文本數(shù)據(jù)的關(guān)鍵特征信息難以提取,所以,如何對短文本進行正確的分類處理,已成為熱門的研究方向。
短文本分類是自然語言處理(Natural Language Processing, NLP)的重要任務(wù)之一,已經(jīng)有越來越多的國內(nèi)外學(xué)者對比進行了大量的研究,并取得了很好的效果[5]。近年來,隨著深度學(xué)習的蓬勃發(fā)展,基于深度學(xué)習的分類模型應(yīng)用到短文本分類任務(wù)上也取得了較好的效果[6]。如Kim[6]在2014年提出的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的TextCNN模型,首次將CNN應(yīng)用到文本分類上。隨著研究的進一步推進,預(yù)訓(xùn)練語言模型也被應(yīng)用到自然語言處理的任務(wù)中,如Sun等[7]研究了BERT(Bidirectional Encoder Representation from Transformers)在文本分類任務(wù)上的不同微調(diào)方法,包括文本的預(yù)處理、逐層學(xué)習率和災(zāi)難性遺忘等問題,在短文本分類任務(wù)上取得了較大的性能改進。
盡管傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型以及預(yù)訓(xùn)練語言模型已經(jīng)較為成熟地應(yīng)用到短文本分類任務(wù)中,并且取得了良好的分類效果。但是,這些方法在訓(xùn)練過程中通常需要大量的有標簽或無標簽的數(shù)據(jù)[8],且模型參數(shù)量較大。然而在實際應(yīng)用中,訓(xùn)練分類模型時,訓(xùn)練數(shù)據(jù)的來源是最大的難題之一。我們經(jīng)常面臨資源匱乏的數(shù)據(jù)問題,通常是因為訓(xùn)練時所需的大量數(shù)據(jù)相對來說難以獲取,并且在對大量的數(shù)據(jù)進行訓(xùn)練時成本較高[9]。因此如何在少樣本數(shù)據(jù)的情況下,對短文本進行準確的分類,已經(jīng)成為實際應(yīng)用中巨大挑戰(zhàn)。
為了解決這個問題,本文提出了一種基于提示學(xué)習的中文短文本分類方法,在僅有少樣本數(shù)據(jù)的情況下取得了良好的中文短文本分類效果。提示學(xué)習是自2021年開始自然語言處理領(lǐng)域掀起的一股新的浪潮[10],提示學(xué)習為了更好地利用預(yù)訓(xùn)練語言模型的知識,改變了輸入數(shù)據(jù)的格式,通過加入模板和構(gòu)建標簽詞表的方式,將分類問題轉(zhuǎn)化為一個預(yù)測和標簽詞相關(guān)的問題[11]。本文對以新聞標題、外賣評論等為代表的中文短文本進行分類,手動設(shè)計了不同的模板,通過實驗選擇效果較好的模板對輸入的數(shù)據(jù)進行了新的構(gòu)造,變成了一個帶有mask的短文本,通過詞向量的方式輸入提示學(xué)習的模型,最后將模型的輸出映射到該短文本所屬的真實標簽后進行預(yù)測。據(jù)我們所知,這是第一次將提示學(xué)習運用到中文短文本分類上,并且與其他常用的分類方法相比,分類效果良好。
本文的主要貢獻總結(jié)如下:
(1) 提出了一種新的基于提示學(xué)習的中文短文本分類方法,充分利用了預(yù)訓(xùn)練語言模型的知識,分類效果較為理想。
(2) 不同于以往的需要大量有標簽或無標簽的訓(xùn)練數(shù)據(jù)的分類器模型,本文方法僅僅需要很少的訓(xùn)練樣本就能實現(xiàn)良好的分類。
(3) 實驗結(jié)果證明,本方法在微博評論這種中文短文本數(shù)據(jù)集中,分類的準確率明顯優(yōu)于現(xiàn)有的幾種方法,在僅有40個訓(xùn)練樣本的情況下比BERT預(yù)訓(xùn)練語言模型使用740個樣本的準確率高出近6%。
由于社交網(wǎng)絡(luò)以及互聯(lián)網(wǎng)應(yīng)用的大范圍普及,文本數(shù)據(jù)的交互已成為傳播信息的主要方式。在這個背景下,短文本數(shù)據(jù)大量出現(xiàn)在我們的視野中并正在爆炸式地增長。不同于較為規(guī)范的長文本,短文本通常具有稀疏性、即時性、不規(guī)范性,以及噪聲特征較多、更新迭代較快的特點[12]。這些特征都給短文本分類增加了很大難度,為了更好地解決這個問題,研究人員投入了大量的精力。現(xiàn)有的短文本分類方法可以大致分為基于傳統(tǒng)機器學(xué)習、基于深度神經(jīng)網(wǎng)絡(luò)以及基于預(yù)訓(xùn)練語言模型三種方法。
早期的短文本分類研究集中在傳統(tǒng)機器學(xué)習模型上,如樸素貝葉斯[13]、K近鄰[14]以及支持向量機(Support Vector Machine, SVM)[15]等算法。Peng等[16]提出了將N-gram[17]與樸素貝葉斯結(jié)合起來的方法,克服了樸素貝葉斯獨立假設(shè)的不足,增強了屬性間的聯(lián)系。Lin等[18]結(jié)合KNN與SVM算法,利用反饋改進分類器預(yù)測的概率來提高其性能。但是這些方法往往忽略了文本中詞語和詞語之間的聯(lián)系,同時特征工程的構(gòu)建也較為復(fù)雜。并且由于數(shù)據(jù)的稀疏性問題,傳統(tǒng)機器學(xué)習在短文本分類上效果不佳。
隨著研究的深入,深度神經(jīng)網(wǎng)絡(luò)被廣泛地應(yīng)用到短文本分類的任務(wù)中[19-20]。如Kalchbrenner等[21]在卷積神經(jīng)網(wǎng)絡(luò)[22]的基礎(chǔ)上提出了基于動態(tài)的卷積神經(jīng)網(wǎng)絡(luò)模型DCNN,該模型能處理不同長度的文本并取得了較好的性能表現(xiàn)。Lai等[23]將循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)用于文本分類上。相比于CNN模型來說,RNN這種序列模型更容易捕捉到短文本的特征信息。Hochreiter等[24]對RNN進行改進,提出了長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Network, LSTM)模型,很好地解決了其梯度消失的問題。隨后的雙向長短時記憶網(wǎng)絡(luò)[25]比起RNN以及LSTM模型可以更好地獲取上下文信息。Zhou等[26]提出C-LSTM模型,這種混合模型將CNN與LSTM的優(yōu)勢結(jié)合起來,可以更好地提取句子中的全局信息。為了解決數(shù)據(jù)稀疏性的問題,Wang等[27]提出了一種結(jié)合顯式表示和隱式表示的深度CNN模型,通過詞嵌入、概念嵌入和字符嵌入來捕獲細粒度語義信息。Alam等[28]提出了一種基于CNN的方法,該方法使用單詞和實體來生成短文本表示。
近年來,預(yù)訓(xùn)練語言模型已在短文本分類的實際應(yīng)用中獲得了更好的語言表示能力[29-30]。Devlin等[31]提出了基于雙向Transformer的BERT預(yù)訓(xùn)練模型,通過基于遮掩的語言模型更好地理解了上下文之間的語義。受BERT模型的啟示,Sun等[32]提出了ERNIE模型,該模型是知識增強的語義表示模型,同時在詞向量的表示方面比前者具有更好的泛化能力,并且適應(yīng)性較好,在中文的自然語言處理任務(wù)上取得了較好的性能表現(xiàn)。Lan等[33]提出了ALBERT模型,在縮減了BERT參數(shù)的基礎(chǔ)上性能不變,并且大大縮短了模型的訓(xùn)練時間。OpenAI團隊提出的第一代生成式預(yù)訓(xùn)練語言模型GPT-1[34]、GPT-2[35]以及改進后的GPT-3[36],它們隨著模型的增加以及訓(xùn)練數(shù)據(jù)規(guī)模的加大而實現(xiàn)較強的泛化能力,在自然語言生成任務(wù)上表現(xiàn)得更為突出。Raffel等[37]利用遷移學(xué)習的知識,通過引入一個統(tǒng)一的框架來將所有基于文本語言的問題轉(zhuǎn)換成文本到文本的格式,例如,分類任務(wù)的輸出是單詞而不是標簽。
盡管基于深度神經(jīng)網(wǎng)絡(luò)以及預(yù)訓(xùn)練語言模型的短文本分類方法已經(jīng)取得了較好的分類效果,但由于這些模型往往依賴大量的標注或無標注語料,在缺乏大規(guī)模訓(xùn)練數(shù)據(jù)時很難取得較好的效果。
近期,提示學(xué)習作為自然語言處理的第四范式走進了研究人員的視野。提示學(xué)習的基本思想是將輸入的文本信息按照特定的模板進行處理,把任務(wù)重構(gòu)成一個更能充分利用預(yù)訓(xùn)練語言模型的形式,減少模型對大規(guī)模數(shù)據(jù)的依賴。通過借助合適的prompt減少了預(yù)訓(xùn)練和微調(diào)之間的差異,進而使得模型在少量樣本上微調(diào)即可取得不錯的效果[38]。如Schick等[11]形式化地提出了提示學(xué)習的范式,并且對少樣本進行了實驗。Shin等[39]提出了基于梯度自動化搜索模板的方法,可以根據(jù)具體任務(wù)自動構(gòu)造模板,比手動構(gòu)造模板更為高效。Li等[40]提出參數(shù)化的提示,改善了原先離散的提示難以優(yōu)化的問題,可以根據(jù)不同的模型結(jié)構(gòu)定義不同的提示拼接方式,常用于生成任務(wù)。經(jīng)實踐發(fā)現(xiàn),提示的變化對實驗的性能有較大的影響,Liu等[41]使用非自然語言的提示,將模板的構(gòu)建轉(zhuǎn)化為連續(xù)參數(shù)優(yōu)化問題,可以實現(xiàn)模板的自動構(gòu)建。不同于前人在微調(diào)階段使用提示的方法,Gu等[42]首次提出提示預(yù)訓(xùn)練過程,對預(yù)訓(xùn)練任務(wù)進行調(diào)整,使其在后續(xù)的少樣本中獲得更好的性能。Han等[43]使用邏輯規(guī)則來構(gòu)建提示??紤]到前人工作中的映射基本上都是人工構(gòu)建或基于模型自動搜索獲得,容易帶來高偏差,Hu等[44]通過引入外部知識來擴展標簽詞的搜索空間,取得了較好的效果。大量的實驗表明,基于提示學(xué)習的方法能夠較好地處理自然語言處理領(lǐng)域的下游任務(wù)。
本節(jié)將介紹本文提出的基于提示學(xué)習的中文短文本分類方法。
近代自然語言處理領(lǐng)域技術(shù)的發(fā)展可以分為四種范式,分別是非神經(jīng)網(wǎng)絡(luò)時代的完全監(jiān)督學(xué)習、神經(jīng)網(wǎng)絡(luò)的完全監(jiān)督學(xué)習、預(yù)訓(xùn)練-微調(diào)范式以及近期熱門的預(yù)訓(xùn)練-提示-預(yù)測范式[10]。在提示學(xué)習這一第四范式產(chǎn)生之前,基于預(yù)訓(xùn)練語言模型的分類模型使用預(yù)訓(xùn)練-微調(diào)范式,這個范式利用那些已經(jīng)在大規(guī)模未標記數(shù)據(jù)上通過自監(jiān)督學(xué)習完成預(yù)訓(xùn)練的模型,在下游任務(wù)上使用少量人工標記的數(shù)據(jù)進行微調(diào),這比起傳統(tǒng)的全監(jiān)督學(xué)習更加省時省力高效。而我們利用提示學(xué)習的分類方法,不需要對預(yù)訓(xùn)練模型的參數(shù)進行調(diào)整,而是把下游任務(wù)的輸入輸出形式改造成適合預(yù)訓(xùn)練模型的形式。它可以統(tǒng)一預(yù)訓(xùn)練和微調(diào)的優(yōu)化目標,并實現(xiàn)輕量、高效的下游任務(wù)微調(diào),從而更好地完成任務(wù)[45]。
整個提示學(xué)習分類方法可以大致分為以下流程: 為輸入設(shè)計一個模板,構(gòu)造答案空間的映射,將輸入文本放入模板中,使用預(yù)訓(xùn)練語言模型進行預(yù)測,最后將預(yù)測的結(jié)果映射回真實的標簽。
圖1為該方法的整體框架圖,我們將根據(jù)圖1在以下部分詳細闡述本文方法。
在實際應(yīng)用中,一般在句中或句末設(shè)計模板填充答案。如果位于句中,稱為完型填空提示,適用于預(yù)測任務(wù)(或稱掩碼語言模型任務(wù));如果位于句末,稱為前綴提示,較適用于生成任務(wù)。因此,在中文短文本分類任務(wù)中,我們選擇完型填空提示。
在我們提出的基于提示學(xué)習的中文短文本分類方法中,通過對輸入增加提示信息,我們將輸入的中文短文本形式化為自然的表達,即增加了手工設(shè)計的模板。例如,要對新聞標題進行分類,如圖1所示,假設(shè)需要將輸入的句子x=“國際油價4日繼續(xù)下跌”分類到類別y1=“經(jīng)濟”或是y2=“教育”中,那么這個模板xp可以設(shè)置為如式(1)所示。
這里的[CLS]指的是分類,BERT模型在文本前插入一個[CLS]符號,并將該符號對應(yīng)的輸出向量作為整個短文本的語義表示,然后用于分類。在原始文本中加入模板之后,將作為新的輸入數(shù)據(jù)進入預(yù)訓(xùn)練語言模型。
給定一組輸入的數(shù)據(jù)x={x1,…,xn},它們都將會被分類到類別y∈Y中,類別標簽的集合記作Vy={v1,…,vn},其中,V是整個類別的集合。Vy中每個單詞v被填入[MASK]中的概率表示為p([MASK]=v∈Vy|xp),隨后文本分類任務(wù)可以轉(zhuǎn)化為類別標簽詞的概率計算問題,如式(2)所示。
p(y∈Y|x)=p([MASK]=v∈Vy|xp)
(2)
如在短文本“國際油價4日繼續(xù)下跌”的分類過程中,如果屬于y1=“經(jīng)濟”類別的概率大于y2=“教育”類別的概率,那么該文本就會被分類到“經(jīng)濟”中。
所有的類別標簽詞概率計算好以后,我們需要將每個標簽詞上預(yù)測好的概率映射到對應(yīng)的類別中。假定映射時每個標簽詞對于預(yù)測結(jié)果重要性相同,那么預(yù)測分數(shù)的均值可以用來進行分類。即可以使用目標函數(shù)f進行分類,如式(3)所示。
(3)
最終得到分類結(jié)果。
本實驗的數(shù)據(jù)集采用THUCNews新聞數(shù)據(jù)集[46]、Chinese News Titles[1]數(shù)據(jù)集、中文外賣數(shù)據(jù)集以及微博評論數(shù)據(jù)集,以下簡記為THUC、CNT、WaiMai、WeiBo數(shù)據(jù)集,具體信息如表1所示。
表1 4個數(shù)據(jù)集的具體信息
通過與P-tuing[41]、TextCNN[47]以及預(yù)訓(xùn)練語言模型BERT[31]、ERNIE[32]基線方法進行對比實驗,驗證了本文方法的有效性。
(1)P-tuning: 將模板的構(gòu)建轉(zhuǎn)化成參數(shù)優(yōu)化問題,實現(xiàn)模板的自動生成。
(2)TextCNN: 把詞嵌入后的詞向量再通過卷積層和池化層來更好地構(gòu)造特征向量。
(3)BERT: 利用預(yù)訓(xùn)練模型,將文本嵌入為詞向量,再送到分類器中進行分類。
(4)ERNIE: 將外部知識引入預(yù)訓(xùn)練語言模型中,對掩碼機制進行了改進,更加適用于中文自然語言處理任務(wù)。
為了模擬真實應(yīng)用中訓(xùn)練樣本不足的情況,實驗過程中,我們進行了5-shot、10-shot以及20-shot的k-shot少樣本實驗,最終以準確率來評估模型的分類效果。實驗參數(shù)的設(shè)置如下: 我們對訓(xùn)練輪數(shù)選取迭代輪次數(shù)為5,對于THUC以及CNT數(shù)據(jù)集,訓(xùn)練集的批大小設(shè)為32,學(xué)習率設(shè)為0.000 3;對于外賣評論以及微博評論數(shù)據(jù)集,批大小設(shè)為5,學(xué)習率設(shè)為0.000 3。
同時對模型進行了調(diào)整,選擇了具有較好性能的其他參數(shù)進行實驗,如選取實驗效果最優(yōu)的模板,這將在3.5節(jié)進行展示。對于參數(shù)批大小、迭代輪次、學(xué)習率對實驗結(jié)果的影響將在3.6節(jié)進行展示。
下面是對于實驗訓(xùn)練樣本的說明: 在本文的模型中對于每一個k-shot實驗,我們從原始的訓(xùn)練集中抽取每個類的k個樣本數(shù)據(jù)來形成少量的shot訓(xùn)練集,并在每個類中抽取另外的k個樣本數(shù)據(jù)來構(gòu)成驗證集。由于這些少樣本訓(xùn)練集和驗證集選擇的不同對于實驗結(jié)果有一定的影響,所以我們重復(fù)了三次隨機采樣,并對三次隨機采樣實驗后的結(jié)果取平均值。
由于TextCNN、BERT以及ERNIE各自性能的原因,我們也分別進行了手動隨機采樣。以下是具體的采樣說明:
(1) 在TextCNN的對比實驗中,我們從THUC原始的180 000訓(xùn)練集中分別隨機采樣700(70×10)條、800(80×10)條以及900(90×10)條;從CNT原始的47 850訓(xùn)練集中隨機采樣1 920(60×32)條、2 240(70×32)條以及2 560(80×32)條;從WaiMai原始的5 000訓(xùn)練集中分別隨機采樣140(70×2)條、160(80×2)條、200(100×2)條;從WeiBo原始的100 000訓(xùn)練集中分別隨機采樣800(400×2)條、900(450×2)條、1 000(500×2)條樣本進行實驗,為了避免較大的誤差,各自進行三次不同的采樣后實驗的結(jié)果取平均值。對照本文所提的模型中的5-shot、10-shot、20-shot樣本數(shù)。
(2) 在BERT的對比實驗中,我們從THUC原始的訓(xùn)練集中分別隨機采樣1 200(120×10)條、1 300(130×10)條以及1 400(140×10)條;從CNT原始的訓(xùn)練集中隨機采樣640(20×32)條、800(25×32)條以及960(30×32)條;從WaiMai原始的訓(xùn)練集中分別隨機采樣440(220×2)條、460(230×2)條、500(250×2)條;從WeiBo原始的訓(xùn)練集中分別隨機采樣680(340×2)條、700(350×2)條、740(370×2)條樣本進行實驗。同樣,對三次不同隨機采樣后的實驗結(jié)果取平均值。對比本文的模型中的5-shot、10-shot、20-shot樣本數(shù)。
(3) 在ERNIE的對比實驗中,我們從THUC原始的訓(xùn)練集中分別隨機采樣800(80×10)條、900(90×10)條以及1 000(100×10)條;從CNT原始的訓(xùn)練集中隨機采樣960(30×32)條、1 600(50×32)條以及1 920(60×32)條;從WaiMai原始的訓(xùn)練集中分別隨機采樣240(120×2)條、260(130×2)條、300(150×2)條;從WeiBo原始的訓(xùn)練集中分別隨機采樣400(200×2)條、500(250×2)條、560(280×2)條樣本進行實驗,對三次隨機不同采樣后的實驗結(jié)果取平均值。對照本文所提的模型中的5-shot、10-shot、20-shot樣本數(shù)。
表2及圖2~圖5詳細記錄了4個數(shù)據(jù)集的所有實驗結(jié)果,從實驗中可以得出以下結(jié)論。
表2 4個數(shù)據(jù)集上不同模型的結(jié)果
圖2 數(shù)據(jù)集為THUC時各模型的結(jié)果
圖3 數(shù)據(jù)集為CNT時各模型的結(jié)果
圖4 數(shù)據(jù)集為WaiMai時各模型的結(jié)果
圖5 數(shù)據(jù)集為WeiBo時各模型的結(jié)果
(1) 本實驗所用的樣本數(shù)量不等,但是在樣本數(shù)增加的過程中,所有模型的實驗性能都有所提高,這說明增加訓(xùn)練樣本的數(shù)量可以在少樣本的分類過程中提高分類效果。
(2) 與TexTCNN以及BERT相比,本文方法在訓(xùn)練樣本數(shù)量相差巨大的情況下,仍取得了更好的分類效果。如在THUC和WeiBo數(shù)據(jù)集中,TextCNN訓(xùn)練樣本數(shù)分別達到提示學(xué)習所用樣本數(shù)的14和80倍;在WaiMai數(shù)據(jù)集中,BERT模型所用樣本數(shù)達到提示學(xué)習所用樣本數(shù)的44倍。
(3) 在4個數(shù)據(jù)集中,ERNIE模型所用樣本數(shù)最高達到提示學(xué)習所用樣本數(shù)的40倍。這些實驗結(jié)果說明在絕大多數(shù)情況下,本文的模型與以上三個對比方法相比取得了更為理想的分類效果,這就證明本文方法在少樣本的情況下是有效的。
(4) P-tuing是在提示學(xué)習中自動生成模板的方法,經(jīng)過實驗,分類效果整體上優(yōu)于TextCNN以及BERT模型, 但是不及本文方法中手動設(shè)計模板的實驗結(jié)果,這就說明通過我們手工設(shè)計的模板進行實驗的方法是更加有效的。
模板的設(shè)計與選取在很大程度上也影響了提示學(xué)習的實驗效果,使用好的模板可以得到較高的準確率。在表3中列出了實驗過程中手動設(shè)計的模板。
表3 模板的具體內(nèi)容
經(jīng)過對不同模板多次隨機實驗,我們發(fā)現(xiàn)并使用了分類效果較好的模板。表4列出了我們在 10-shot 樣本數(shù)時不同模板的實驗結(jié)果。
表4 10-shot時不同模板的準確率
在這一部分,本文研究所提方法中不同的參數(shù)對實驗結(jié)果的影響,選取實驗輪數(shù)、學(xué)習率以及批大小作為考察因素,在THUC數(shù)據(jù)集上選取100個樣本進行實驗。經(jīng)過實驗我們發(fā)現(xiàn),隨著迭代輪次數(shù)量的增加分類的正確率在整體上呈現(xiàn)上升趨勢,這表明適當?shù)卦黾佑?xùn)練輪數(shù)可以提高分類效果,但是隨著輪數(shù)的增加,所有模型的實驗效果都有所提高,同時也會增加時間復(fù)雜度,所以主實驗中我們只選擇了迭代輪次輪數(shù)為5。對于批大小的選擇,我們發(fā)現(xiàn)在32時得到較好的效果,由實驗結(jié)果可知,批大小的選擇對實驗結(jié)果有一定程度的影響。并且隨著模型的學(xué)習率的變化,實驗結(jié)果也在一定范圍內(nèi)波動。圖6~圖8展示了具體的實驗結(jié)果。
圖6 10-shot時不同迭代輪次下模型的實驗結(jié)果
圖7 10-shot時不同批大小下模型的實驗結(jié)果
圖8 10-shot時不同學(xué)習率下模型的實驗結(jié)果
本文提出了一種基于提示學(xué)習的中文短文本分類方法,該方法不需要大量的訓(xùn)練數(shù)據(jù),充分利用了預(yù)訓(xùn)練語言模型的強大泛化能力,僅在少樣本的情況下即可解決短文本的分類問題,減少了對下游任務(wù)有監(jiān)督數(shù)據(jù)的依賴,經(jīng)過實驗證明,該方法有效。下一步工作中,我們將嘗試使用高效的方法對分類標簽的空間進行擴展,以便在不同的下游任務(wù)中取得更好的性能表現(xiàn)。