石運(yùn)來,崔運(yùn)鵬*,杜志鋼
(1.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.淄博市數(shù)字農(nóng)業(yè)農(nóng)村發(fā)展中心,淄博 255000)
隨著互聯(lián)網(wǎng)和農(nóng)業(yè)信息化的快速發(fā)展,網(wǎng)絡(luò)上的包括農(nóng)業(yè)主題在內(nèi)的各類新聞內(nèi)容數(shù)量呈現(xiàn)井噴式上升,并且新聞報(bào)道的作者也開始呈現(xiàn)多樣化,除傳統(tǒng)的政府媒外還有許多個(gè)人或社會(huì)組織,新聞在傳播過程中產(chǎn)生了不容忽視的社會(huì)影響,而新聞的內(nèi)容也覆蓋了生活的方方面面。因此為了在農(nóng)業(yè)領(lǐng)域進(jìn)行輿情監(jiān)測(cè),災(zāi)害預(yù)警,產(chǎn)品營(yíng)銷等研究,需要對(duì)大量的新聞文本進(jìn)行挖掘分析,找出有價(jià)值的信息。而這些研究的前提都是要先對(duì)新聞按照主題或者領(lǐng)域進(jìn)行分類和篩選,所以產(chǎn)生了對(duì)新聞按主題進(jìn)行分類的需求。因此新聞主題分類任務(wù)是農(nóng)業(yè)文本挖掘領(lǐng)域的一項(xiàng)基本研究。
基本的新聞分類方式是使用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)模型去進(jìn)行有監(jiān)督的分類模型訓(xùn)練和預(yù)測(cè)。許麗在TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)文本表示的基礎(chǔ)上使用加權(quán)樸素貝葉斯模型構(gòu)建了新聞文本分類算法[1],提升了新聞文本分類效果。但是樸素貝葉斯分類算法由于其數(shù)據(jù)必須滿足貝葉斯樸素假設(shè),因此面對(duì)超大規(guī)模文本數(shù)據(jù)時(shí)候模型性能會(huì)出現(xiàn)較明顯的下降。郭文強(qiáng)基于SVM實(shí)現(xiàn)了新冠疫情虛假新聞檢測(cè)[2],比較了對(duì)虛假新聞檢測(cè)中4 種核函數(shù)的精準(zhǔn)度,發(fā)現(xiàn)線性核函數(shù)分類器作為信息檢測(cè)模型成果最優(yōu)。田沛霖使用了CNN-BiGRU神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了新聞分類[3],進(jìn)一步提高了算法的準(zhǔn)確率和泛化性。可見隨著更復(fù)雜的模型的不斷應(yīng)用,新聞文本分類的效果也在不斷提高。
由于新聞數(shù)量龐大且在不斷增長(zhǎng),故訓(xùn)練主題分類模型需要人工標(biāo)注,耗費(fèi)了大量人力和時(shí)間。而主動(dòng)學(xué)習(xí)(Active Learning,AL)技術(shù)是一種通過自動(dòng)選擇數(shù)據(jù)的標(biāo)注和訓(xùn)練順序可高效準(zhǔn)確完成機(jī)器學(xué)習(xí)任務(wù)的一項(xiàng)技術(shù)。它假設(shè)數(shù)據(jù)的收集相對(duì)容易,但標(biāo)記成本高,這符合許多文本、視覺和語(yǔ)音識(shí)別任務(wù)中的實(shí)際情況。它解決了在迭代式訓(xùn)練流程中的一個(gè)重要問題,即如果因?yàn)闃?biāo)注成本和項(xiàng)目時(shí)間等多方面的限制條件,在整個(gè)訓(xùn)練流程中只能在所有未標(biāo)注數(shù)據(jù)中選擇有限的樣本子集經(jīng)過人工標(biāo)注后作為訓(xùn)練集進(jìn)行模型訓(xùn)練,那么選擇哪些樣本能使得本輪模型迭代中測(cè)試準(zhǔn)確率的最大提升?對(duì)應(yīng)地在主動(dòng)學(xué)習(xí)方法中有各種采樣函數(shù)負(fù)責(zé)實(shí)現(xiàn)不同場(chǎng)景下最有價(jià)值數(shù)據(jù)的篩選。最流行的主動(dòng)學(xué)習(xí)方式是基于池的采樣[4],它假設(shè)有一個(gè)小的標(biāo)記數(shù)據(jù)集L,并訪問一個(gè)大的未標(biāo)記數(shù)據(jù)集U,每次需要從U 中選擇下一批要標(biāo)記的樣本。在迭代過程的每一步,主動(dòng)學(xué)習(xí)算法使用L 和U 中的信息來從U 中選擇要標(biāo)記的最佳樣本x。然后將x 標(biāo)注后添加到L 中,這個(gè)過程重復(fù)直到我們達(dá)到所需的樣本數(shù)量或分類精度。
利用主動(dòng)學(xué)習(xí)方法應(yīng)用到文本分類領(lǐng)域獲得了學(xué)者們的廣泛關(guān)注。黃永毅將主動(dòng)學(xué)習(xí)方法應(yīng)用到SVM支持向量機(jī)模型[5],把新聞文本進(jìn)行了財(cái)經(jīng)、軍事、體育、歷史、科技5 個(gè)主題的分類訓(xùn)練,有效地減少了樣本分布不均衡對(duì)模型性能的影響。邱寧佳[6]利用密度采樣的核心集主動(dòng)學(xué)習(xí)算法對(duì)SVD-CNN 深度模型進(jìn)行訓(xùn)練,利用樣本間的相似度將樣本進(jìn)行聚類,并在每一個(gè)聚類簇中,按照設(shè)定的規(guī)則選擇最具有價(jià)值的樣本進(jìn)行人工標(biāo)注,減少人工標(biāo)注的工作量,出色完成了彈幕文本分類任務(wù)。這些在文本分類任務(wù)中和主動(dòng)學(xué)習(xí)方法配合的是淺層機(jī)器學(xué)習(xí)模型或者輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型。
自然語(yǔ)言處理(NLP)領(lǐng)域最新的一個(gè)重大發(fā)展是引入了預(yù)先訓(xùn)練過的深度文本模型,顯著提高了許多NLP 任務(wù)的最優(yōu)表現(xiàn)。一個(gè)突出的例子是BERT 模型[7],它自出現(xiàn)以來就受到了NLP 研究界的廣泛關(guān)注。BERT 預(yù)訓(xùn)練模型是谷歌公司在2018 年提出的。在BERT 模型中使用了雙向Transformer 編碼器,使得模型能夠充分獲取輸入文本中的語(yǔ)義信息。然而,使用主動(dòng)學(xué)習(xí)與深度預(yù)訓(xùn)練模型(特別是BERT 模型)相結(jié)合的文本分類方法,迄今為止都少有相關(guān)研究。
首先,考慮到預(yù)訓(xùn)模型的特性,盡管預(yù)期這些模型即使使用少量的訓(xùn)練數(shù)據(jù)也能產(chǎn)生足夠的性能,但目前尚不清楚已有的主動(dòng)學(xué)習(xí)方法是否有效以及能在多大程度上進(jìn)一步提高其分類性能。此外,最近的深度主動(dòng)學(xué)習(xí)策略,如核心集[8]和深度貝葉斯方法[9],都是在視覺領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)任務(wù)模型上開發(fā)的。這些策略在BERT 等基于Transformer 架構(gòu)的深度網(wǎng)絡(luò)模型上的適用性尚不可知。
為了探究使用主動(dòng)學(xué)習(xí)方法應(yīng)用訓(xùn)練BERT 模型進(jìn)行新聞文本分類的方案可行性,本研究使用了自制爬蟲數(shù)據(jù)集測(cè)試主動(dòng)學(xué)習(xí)方法的效果,對(duì)比了對(duì)BERT 使用深度主動(dòng)學(xué)習(xí)方法和對(duì)多種機(jī)器學(xué)習(xí)模型使用主動(dòng)學(xué)習(xí)方法進(jìn)行訓(xùn)練的效果。通過多輪實(shí)驗(yàn),驗(yàn)證了BERT 模型的優(yōu)越性并找到了和它最搭配的采樣策略,發(fā)現(xiàn)了一種將深度主動(dòng)學(xué)習(xí)技術(shù)應(yīng)用在新聞文本主題分類任務(wù)中對(duì)預(yù)訓(xùn)練大型網(wǎng)絡(luò)進(jìn)行高效訓(xùn)練的可行方案。
本研究的方法設(shè)計(jì)包括了主動(dòng)學(xué)習(xí)流程設(shè)計(jì),主動(dòng)學(xué)習(xí)采樣策略,主動(dòng)學(xué)習(xí)任務(wù)模型,文本數(shù)據(jù)集構(gòu)建,實(shí)驗(yàn)環(huán)境和評(píng)價(jià)指標(biāo)等部分。其中任務(wù)模型和主動(dòng)學(xué)習(xí)采樣策略相互配合共同組成了完整的主動(dòng)學(xué)習(xí)方法。
主動(dòng)學(xué)習(xí)的工作原理是使用已有的采樣策略從未標(biāo)記樣本集中選擇最有價(jià)值的樣本子集,通過人工標(biāo)記后再對(duì)分類器進(jìn)行訓(xùn)練[10]。這種方式中只需標(biāo)記和迭代訓(xùn)練小部分的無標(biāo)記樣本就能改善任務(wù)模型質(zhì)量,提升分類效果。而基于池的方法是主動(dòng)學(xué)習(xí)方法中常見的一類流程,本研究也使用了這種方法。
維護(hù)一個(gè)未標(biāo)注數(shù)據(jù)的集合,由選擇策略在該集合中選擇當(dāng)前要標(biāo)注和訓(xùn)練的數(shù)據(jù),經(jīng)過標(biāo)注后再加入有標(biāo)簽集合作為新的訓(xùn)練集。其中選擇策略又叫采樣函數(shù),其作用是根據(jù)預(yù)測(cè)的標(biāo)簽概率等信息來選擇出該選擇策略認(rèn)為最有標(biāo)注和訓(xùn)練價(jià)值的、對(duì)模型的預(yù)期提升最大的一批數(shù)據(jù),詳細(xì)流程如圖1 所示。
圖1 主動(dòng)學(xué)習(xí)流程圖Fig.1 Flow chart of the active learning
另外,借鑒其他經(jīng)驗(yàn)[11]直接在每輪模型的迭代訓(xùn)練中使用了全量訓(xùn)練而不是迭代訓(xùn)練。這種方法得到的模型精度更高,尤其是當(dāng)訓(xùn)練深度網(wǎng)絡(luò)的時(shí)候。
2.2.1 最小置信度方法(Least Confidence)
該方法[12]原理是將模型在對(duì)每個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí)產(chǎn)生的置信度(通常是最終輸出層前激活函數(shù)所獲得的浮點(diǎn)值)作為對(duì)數(shù)據(jù)不確定性的度量。置信度越小說明模型對(duì)于這種數(shù)據(jù)越陌生,也就認(rèn)為該數(shù)據(jù)越可能為模型帶來更大的提升。根據(jù)置信度對(duì)未標(biāo)記的樣本進(jìn)行升序排序,并根據(jù)每輪選取量的設(shè)置選出一個(gè)數(shù)據(jù)子集經(jīng)標(biāo)注后作為新的訓(xùn)練數(shù)據(jù),該采樣策略表示為:
2.2.2 深度貝葉斯采樣(Deep Bayesian Active Learning,DBAL)
深度貝葉斯采樣策略專用于處理超大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),具體方法是對(duì)模型多個(gè)激活層之前加入dropout 層,這樣訓(xùn)練以及測(cè)試時(shí)就能夠通過對(duì)dropout層權(quán)重的后驗(yàn)分布進(jìn)行蒙特卡洛采樣(Monte-Carlo Sampling)獲得類別概率的后驗(yàn)分布[13]。在分類問題中,通過使用蒙特卡洛積分對(duì)近似后驗(yàn)概率進(jìn)行求解,該采樣策略表示為:
其中T 是蒙特卡洛采樣次數(shù)(在測(cè)試時(shí)深度學(xué)習(xí)模型中對(duì)給定的測(cè)試集進(jìn)行重復(fù)T 次預(yù)測(cè)),其權(quán)值為qθ(w) 為dropout 的分布結(jié)果[10]。這樣即可利用最低不確定度等采樣方法在每輪迭代中根據(jù)預(yù)測(cè)概率從數(shù)據(jù)中選擇出數(shù)據(jù)進(jìn)行訓(xùn)練,形成改進(jìn)的主動(dòng)學(xué)習(xí)方法。
2.2.3 判別性主動(dòng)學(xué)習(xí)(Discriminative Active Learning,DAL)
判別性主動(dòng)學(xué)習(xí)(DAL)[14]的思路為將主動(dòng)學(xué)習(xí)轉(zhuǎn)換為一個(gè)二元分類任務(wù),通過選擇特定樣本進(jìn)行標(biāo)記,使標(biāo)記池和未標(biāo)記池的差別最小,從而選出最能代表樣本整體的訓(xùn)練集樣本。具體地說,Ψ:X→X 是從原始輸入空間到一些學(xué)習(xí)表示的映射。該方法定義了一個(gè)二值分類問題,X 作為我們的輸入空間,y 作為我們的標(biāo)簽空間,其中l(wèi) 是在標(biāo)記集中的一個(gè)樣本的標(biāo)簽,u 是未標(biāo)記集的標(biāo)簽,再由算法1 即可得到選擇結(jié)果。
2.2.4 隨機(jī)選擇采樣(Random Sampling)
隨機(jī)選擇采樣[15]是指采樣函數(shù)從未標(biāo)記數(shù)據(jù)池中隨機(jī)選出一批數(shù)據(jù)作為本輪新增的訓(xùn)練數(shù)據(jù)。在主動(dòng)學(xué)習(xí)研究中,一般將其作為基線方法與其他主動(dòng)學(xué)習(xí)采樣策略進(jìn)行比較,驗(yàn)證主動(dòng)學(xué)習(xí)方法的有效性。
任務(wù)模型是主動(dòng)學(xué)習(xí)方法的重要組成部分,和采樣策略共同構(gòu)成了完整的主動(dòng)學(xué)習(xí)方法。不同的采樣策略對(duì)所搭配的任務(wù)模型的也有不同要求,例如本文中的最低置信度方法只需要模型能夠在預(yù)測(cè)時(shí)輸出置信度即可,而DAL 方法和DBAL 方法則需要配合含有文本嵌入表示的深度神經(jīng)網(wǎng)絡(luò)模型。
2.3.1 機(jī)器學(xué)習(xí)模型
本研究使用幾種機(jī)器學(xué)習(xí)模型與BERT 模型進(jìn)行對(duì)比,包括隨機(jī)森林分類器[16](Random Forest,RF)、多項(xiàng)式模型樸素貝葉斯分類器[17](Multinomial Naive Bayesian,MNB)、邏輯回歸分類器[18](Logistic Regression,LR)、梯度提升樹分類器[19](Gradient Boosting Tree,GB)、支持向量機(jī)分類器[20](Support Vector Machine,SVM)等。這些機(jī)器學(xué)習(xí)模型的輸入數(shù)據(jù)必須是數(shù)值型數(shù)據(jù),所以先將文本數(shù)據(jù)經(jīng)過分詞、TF-IDF[21]向量化等操作(取語(yǔ)料庫(kù)中頻率排名前1 000的詞語(yǔ)作為TF-IDF 特征),這樣每個(gè)文本樣本就表示為1 000 維的浮點(diǎn)型數(shù)據(jù)。
2.3.2 BERT 模型
BERT[7]模型對(duì)于文本的表示,使用了基于Transformer[22]架構(gòu)的雙向嵌入表示法,并在詞嵌入之外增加了句嵌入和位置嵌入,能夠很好地把握全局信息以及詞與所在句子的關(guān)系,很大程度上改進(jìn)了原有模型,在各項(xiàng)NLP 任務(wù)中均表現(xiàn)突出。Transformer 層是BERT 的主要框架,由多個(gè)編碼器(Encoder)和解碼器(Decoder)組成[23]。Encoder 包括4 層:第一層為多頭注意力機(jī)制(Multi-Head Attention)[24];第二層為殘差網(wǎng)絡(luò);第三層為前饋神經(jīng)網(wǎng)絡(luò);第四層在最后實(shí)現(xiàn)了歸一化操作。Decoder 在Encoder 的基礎(chǔ)上加入Encoder-Decoder Attention 層,實(shí)現(xiàn)了信息的解碼和重新序列化。其中,多頭注意力層是Transformer 層的核心,其主要思想是通過計(jì)算詞與詞之間的關(guān)聯(lián)度來調(diào)整詞的權(quán)重,反映了該詞與同一句話中其他詞之間的聯(lián)系強(qiáng)弱,進(jìn)而反應(yīng)了每個(gè)詞對(duì)于所在句子的語(yǔ)義表達(dá)的重要程度。首先,輸入序列進(jìn)入Encoder,通過線性變換得到表示目標(biāo)字的矩陣、表示上下文各個(gè)字的矩陣以及表示目標(biāo)字與上下文各個(gè)字的原始矩陣。然后,通過放縮點(diǎn)積操作得到自注意值,該值體現(xiàn)了當(dāng)模型對(duì)一個(gè)詞進(jìn)行編碼時(shí),該詞與輸入句子的其他詞的關(guān)聯(lián)程度。最后,將自注意值進(jìn)行拼接和線性變換,得到與模型輸入的文本長(zhǎng)度相同的輸出向量,該向量含有增強(qiáng)語(yǔ)義能夠提升算法整體效果。
2.3.3 BERT 模型參數(shù)
實(shí)驗(yàn)參數(shù)的合理設(shè)置直接影響實(shí)驗(yàn)結(jié)果。模型訓(xùn)練過程的各項(xiàng)初始設(shè)置與訓(xùn)練參數(shù)經(jīng)調(diào)整后實(shí)現(xiàn)了較優(yōu)效果,具體參數(shù)的數(shù)值設(shè)置如表1 所示。
表1 BERT 模型參數(shù)Table 1 Model parameters
在對(duì)BERT 模型或者機(jī)器學(xué)習(xí)模型進(jìn)行主動(dòng)學(xué)習(xí)訓(xùn)練時(shí)候,保持了相同的每輪新增標(biāo)注數(shù)據(jù)批次大小30,從而能對(duì)比其在每次迭代的性能差異,以及在多個(gè)迭代間的性能提升速度。
在每次模型訓(xùn)練過程中還使用了“提前停止(Early Stopping)[25]” 的技巧。當(dāng)在驗(yàn)證集上的準(zhǔn)確率不再上升時(shí)及時(shí)停止訓(xùn)練,以此來避免過擬合、不收斂等問題,并提高模型訓(xùn)練效率。
2.4.1 語(yǔ)料獲取
新聞爬蟲語(yǔ)料。通過爬蟲技術(shù),在新浪財(cái)經(jīng)、新華網(wǎng)等中文新聞網(wǎng)站上分別以 “農(nóng)業(yè)” “農(nóng)產(chǎn)品”“水果” “蔬菜” 等關(guān)鍵詞爬取近6 年的新聞文本數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗后共獲得19 847 條新聞數(shù)據(jù)。其中含有農(nóng)業(yè)領(lǐng)域新聞9 442 條,非農(nóng)業(yè)領(lǐng)域新聞10 405條。農(nóng)業(yè)領(lǐng)域新聞中包括了農(nóng)產(chǎn)品市場(chǎng)、農(nóng)產(chǎn)品價(jià)格、農(nóng)業(yè)政策發(fā)布等內(nèi)容。將整個(gè)數(shù)據(jù)集按照8:1:1 的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2.4.2 數(shù)據(jù)標(biāo)注
通過人工標(biāo)注的方法標(biāo)記每條新聞是否為農(nóng)產(chǎn)品相關(guān)新聞。因?yàn)橹鲃?dòng)學(xué)習(xí)的過程中需要多輪查詢和數(shù)據(jù)標(biāo)注,所以構(gòu)建了簡(jiǎn)單的自動(dòng)化標(biāo)注訓(xùn)練系統(tǒng),能夠方便快速地將主動(dòng)學(xué)習(xí)工作流中采樣策略選擇的未標(biāo)記數(shù)據(jù)送往標(biāo)注系統(tǒng),經(jīng)過四位農(nóng)業(yè)領(lǐng)域的研究生分工標(biāo)注后對(duì)模型進(jìn)行訓(xùn)練。
實(shí)驗(yàn)硬件為專業(yè)深度推理服務(wù)器,配有8 核CPU E5-2678 V3,ECC 內(nèi)存128G,以及4 塊NVIDIA V100 GPU,運(yùn)行Linux 操作系統(tǒng)。在Python3.6 的環(huán)境下,安裝了TensorFlow、Pytorch、Keras 等深度學(xué)習(xí)庫(kù)。
精準(zhǔn)率是預(yù)測(cè)結(jié)果中正確預(yù)測(cè)的占比,召回率則表示樣本中的正例被正確預(yù)測(cè)的占比。F1分?jǐn)?shù)綜合了精準(zhǔn)率和召回率兩個(gè)評(píng)價(jià)指標(biāo),因此更加全面,在本文中作為主要參考指標(biāo),其計(jì)算公式為兩者的調(diào)和平均:F1=2*(精準(zhǔn)率*查全率)/(精準(zhǔn)率+查全率)。
對(duì)比BERT 模型和不同機(jī)器學(xué)習(xí)模型在完整訓(xùn)練集上訓(xùn)練后的測(cè)試集性能。各模型的訓(xùn)練效果如表2所示。
表2 在整個(gè)訓(xùn)練集上訓(xùn)練各個(gè)模型的效果Table 2 The effect of training each model on the whole training set
對(duì)比BERT 模型和其他模型,BERT 模型的分類效果最優(yōu),F(xiàn)1分?jǐn)?shù)達(dá)到0.918。而在其他模型中梯度提升樹分類器(GB)方法最優(yōu),F(xiàn)1分?jǐn)?shù)0.854;隨機(jī)森林分類器(RF)方法最差,F(xiàn)1分?jǐn)?shù)0.784;其他3 種方法表現(xiàn)接近,F(xiàn)1分?jǐn)?shù)在0.824 到0.837 之間。
但在主動(dòng)學(xué)習(xí)過程中,模型的選擇不只由模型的精度決定,模型的運(yùn)行效率也是重要因素。在深度主動(dòng)學(xué)習(xí)或者主動(dòng)學(xué)習(xí)的實(shí)際應(yīng)用場(chǎng)景的人工標(biāo)注和模型訓(xùn)練交替進(jìn)行的過程中,模型響應(yīng)時(shí)間(包括了模型訓(xùn)練和樣本選擇兩個(gè)過程)過長(zhǎng)會(huì)使標(biāo)注工作在每個(gè)輪次間歇等待,浪費(fèi)標(biāo)注人力,降低主動(dòng)學(xué)習(xí)過程的效率。重復(fù)5 次統(tǒng)計(jì)在主動(dòng)學(xué)習(xí)過程0~20 輪次中各個(gè)模型響應(yīng)時(shí)間并平均,結(jié)果如表3 所示。
表3 各個(gè)模型響應(yīng)時(shí)間Table 3 Response time of each model
梯度提升樹(GB)和支持向量機(jī)分類器(SVM)有著遠(yuǎn)超其他方法的時(shí)間消耗(分別為2 分鐘以上和11 分鐘以上),不適合作為主動(dòng)學(xué)習(xí)過程中的任務(wù)模型。分析效率低的原因,支持向量機(jī)由于使用數(shù)據(jù)集的核矩陣(Kernel Matrix)描述樣本之間的相似性,矩陣元素的個(gè)數(shù)隨著數(shù)據(jù)規(guī)模增大成平方增長(zhǎng)。當(dāng)處理TF-IDF 文本表示的1 000 個(gè)維度的數(shù)據(jù)表示且訓(xùn)練樣本量達(dá)到一定規(guī)模時(shí),模型訓(xùn)練速度就會(huì)明顯變慢。而梯度提升樹分類器的弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并行訓(xùn)練數(shù)據(jù),同樣難以處理大規(guī)模數(shù)據(jù)。
BERT 模型與深度主動(dòng)學(xué)習(xí)方法因?yàn)槟軌蚶肎PU 計(jì)算加速計(jì)算過程,所以速度雖然次于隨機(jī)森林等模型在5 秒內(nèi)的響應(yīng)時(shí)間,但其10 秒左右的響應(yīng)時(shí)間也不會(huì)讓標(biāo)注進(jìn)入等待,符合深度主動(dòng)學(xué)習(xí)過程對(duì)模型的響應(yīng)速度要求。
對(duì)比主動(dòng)學(xué)習(xí)和非主動(dòng)學(xué)習(xí)過程的模型響應(yīng)時(shí)間,發(fā)現(xiàn)深度主動(dòng)學(xué)習(xí)或者主動(dòng)學(xué)習(xí)方法的模型處理耗時(shí)一般略高于隨機(jī)采樣,這是因?yàn)橹鲃?dòng)學(xué)習(xí)的采樣策略相比非主動(dòng)學(xué)習(xí)的隨機(jī)采樣需要更多計(jì)算步驟,如不確定性采樣需要計(jì)算未標(biāo)記池中每個(gè)樣本的預(yù)測(cè)概率。
綜合考慮模型精度和模型響應(yīng)時(shí)間,最終在機(jī)器學(xué)習(xí)模型中選擇了隨機(jī)森林分類器(RF),樸素貝葉斯分類器(MNB)和邏輯回歸分類器(LR)作為主動(dòng)學(xué)習(xí)的任務(wù)模型,和BERT 模型的深度主動(dòng)學(xué)習(xí)方法進(jìn)行對(duì)比。
本實(shí)驗(yàn)測(cè)試深度主動(dòng)學(xué)習(xí)算法(DAL、DBAL 和最低置信度3 種方法)搭配BERT 模型在實(shí)際新聞分類篩選任務(wù)中的表現(xiàn)。為了對(duì)比BERT 模型的效果,還使用了幾種經(jīng)典的機(jī)器學(xué)習(xí)模型的主動(dòng)學(xué)習(xí)過程作為對(duì)比。根據(jù)上一節(jié)的預(yù)實(shí)驗(yàn)的模型選擇結(jié)果選擇了隨機(jī)森林分類器(RF),樸素貝葉斯分類器(MNB)和邏輯回歸分類器(LR)。對(duì)于每種機(jī)器學(xué)習(xí)模型,都使用了最低置信度的主動(dòng)學(xué)習(xí)方法,并使用隨機(jī)采樣作為對(duì)照。
實(shí)驗(yàn)進(jìn)行了20 次迭代,共30 次重復(fù)實(shí)驗(yàn)。在主動(dòng)學(xué)習(xí)迭代中各模型的F1分?jǐn)?shù)提升情況如圖2 和表4所示??梢钥闯稣w而言,訓(xùn)練相同模型的主動(dòng)學(xué)習(xí)方法相較于非主動(dòng)學(xué)習(xí),能夠?qū)崿F(xiàn)更快的精度提升,這對(duì)于BERT 模型和3 種機(jī)器學(xué)習(xí)模型是一致的。
圖2 主動(dòng)學(xué)習(xí)過程各模型F1 分?jǐn)?shù)Fig.2 F1 score of each model in the process of active learning
表4 主動(dòng)學(xué)習(xí)過程各模型F1 分?jǐn)?shù)Table 4 F1 score of each model in the process of active learning
將BERT 模型的深度主動(dòng)學(xué)習(xí)和機(jī)器學(xué)習(xí)模型的主動(dòng)學(xué)習(xí)過程對(duì)比??梢钥闯鯞ERT 模型的F1分?jǐn)?shù)上升速度更快,都在6 次迭代內(nèi)就達(dá)到了最高值。而機(jī)器學(xué)習(xí)模型F1分?jǐn)?shù)上升速度較慢,而且一直落后于BERT 模型。
對(duì)于BERT 模型,表現(xiàn)最優(yōu)的深度主動(dòng)學(xué)習(xí)方法是DAL 方法,而作為對(duì)比基線的隨機(jī)采樣方法則稍微低于DAL 和DBAL 兩種方法。3 種方法在前3 次迭代中F1分?jǐn)?shù)快速上升,而在4~6 次迭代中已經(jīng)非常平穩(wěn),總體呈現(xiàn)對(duì)數(shù)型增長(zhǎng)。對(duì)于BERT 模型表現(xiàn)最差的為最低置信度方法,其通過6 次迭代才最終達(dá)到了其他方法在第3 次迭代的性能,整體呈現(xiàn)均勻上升趨勢(shì)??赡苁亲畹椭眯哦确椒ㄖ蠦ERT 模型最后部分softmax 層的輸出值并不適合作為模型的不確定性度量。這導(dǎo)致其性能提升不僅慢于其他兩種主動(dòng)學(xué)習(xí)方法,還慢于隨機(jī)采樣方法。所以在后續(xù)新聞文本分類的實(shí)踐場(chǎng)景中,應(yīng)避免采用最低置信度方法對(duì)BERT模型就行主動(dòng)學(xué)習(xí)訓(xùn)練。
總體來說,實(shí)驗(yàn)驗(yàn)證了在實(shí)際的農(nóng)業(yè)新聞文本篩選任務(wù)中BERT 模型配合深度主動(dòng)學(xué)習(xí)方法的可用性和高效性,具體推薦使用BERT 任務(wù)模型搭配DAL(其次是DBAL)采樣函數(shù)作為深度主動(dòng)學(xué)習(xí)方法。
對(duì)不同的AL 采樣策略所獲得的樣本使用多樣性指標(biāo)和代表性指標(biāo)進(jìn)行比較,從而了解每種策略的特點(diǎn)為以后AL 策略的選擇與改進(jìn)提供啟發(fā)。
多樣性:每次AL 選擇中,一批彼此之間較為不同的樣本通常比選擇一批相互相似甚至重復(fù)的例子更有效果。根據(jù)ZHDANOV 的研究[26],集合B 的多樣性可定義為:
其中,xi表示用L 訓(xùn)練的模型得到的示例i 的[CLS]標(biāo)記的表示,d(xi,xj)表示xi和xj之間的歐氏距離。
代表性:AL 策略(尤其是是基于不確定性的策略)的一個(gè)已知問題是它們傾向于選擇不能正確代表總體數(shù)據(jù)分布的離群例子。因此,檢查樣本代表性能夠檢查是否存在該問題。本文使用ZHU 等提出的KNN-密度度量[27]。其中一個(gè)樣本的密度通過所討論的樣本集合中和它的最相似的K 個(gè)例子的[CLS]表示在U內(nèi)之間的平均距離來量化,而根據(jù)經(jīng)驗(yàn)一般樣本密度越高則越具有代表性。
圖3 描述了不同采樣策略在對(duì)BERT 模型的每輪訓(xùn)練中選擇出的樣本的多樣性和代表性評(píng)估結(jié)果。我們對(duì)多次重復(fù)實(shí)驗(yàn)的結(jié)果取平均值,然后統(tǒng)計(jì)每步迭代上的指標(biāo)均值和方差分布,從而得到指標(biāo)值分布的箱線圖。
圖3 訓(xùn)練BERT 時(shí)采樣策略多樣性和代表性評(píng)估Fig.3 Evaluation of diversity and representativeness of sampling strategies
在多樣性指標(biāo)上,旨在增加多樣性的DAL 方法和核心集方法具有最多樣化的數(shù)據(jù)批次,并且DAL 達(dá)到最高的多樣性值。相比之下,其他策略傾向于選擇選擇較少多樣性的數(shù)據(jù)。因此,將這些方法與強(qiáng)調(diào)多樣性的方法相結(jié)合[26,28]可能會(huì)進(jìn)一步提高其預(yù)測(cè)性能的結(jié)果。最低置信度方法的多樣性又低于DBAL 方法,這部分解釋了對(duì)BERT 模型訓(xùn)練時(shí)最低置信度方法性能提升過慢的原因。
在代表性方面,DAL 作為一種代表性驅(qū)動(dòng)的方法,同樣在整個(gè)場(chǎng)景中始終領(lǐng)先。再考慮到DAL 方法在3個(gè)實(shí)驗(yàn)中都表現(xiàn)除了穩(wěn)定且優(yōu)秀的性能,所以推薦在以后的新聞文本分類的BERT 模型或者類似的Transformer 架構(gòu)模型的主動(dòng)學(xué)習(xí)訓(xùn)練上首選該方法。其他兩種主動(dòng)方法的代表性分?jǐn)?shù)則相互差別不明顯。
最低置信度方法具有最低的多樣性值,并且其代表性值也很低,這表明最低置信度這種簡(jiǎn)單的不確定性度量并不適合于深度網(wǎng)絡(luò)。所以在實(shí)際應(yīng)用時(shí)應(yīng)避免使用該方法,或者將其作為深度模型主動(dòng)學(xué)習(xí)實(shí)驗(yàn)中的一個(gè)基線對(duì)照組。
對(duì)比試驗(yàn)中同一個(gè)模型的主動(dòng)學(xué)習(xí)方法和非主動(dòng)學(xué)習(xí)方法下達(dá)到相同F(xiàn)1分?jǐn)?shù)所需要的迭代次數(shù)(也就是數(shù)據(jù)標(biāo)注數(shù)量),就可以分析深度主動(dòng)學(xué)習(xí)或者主動(dòng)學(xué)習(xí)方法所節(jié)約的數(shù)據(jù)標(biāo)注的數(shù)量和比例。以非主動(dòng)學(xué)習(xí)方法最終輪次的F1分?jǐn)?shù)的不同百分比劃定不同的F1分?jǐn)?shù)標(biāo)準(zhǔn),標(biāo)注成本節(jié)約比例如表5 和圖4 所示。
圖4 各模型在不同標(biāo)準(zhǔn)下節(jié)約標(biāo)注比例Fig.4 Each model saves annotation proportion under different standards
表5 各模型在不同標(biāo)準(zhǔn)下節(jié)約標(biāo)注比例Table 5 Each model saves annotation proportion under different standards
標(biāo)注成本節(jié)約比例結(jié)果中最顯著的特點(diǎn)是:以越高的F1分?jǐn)?shù)為標(biāo)準(zhǔn)對(duì)比主動(dòng)學(xué)習(xí)與非主動(dòng)學(xué)習(xí)的標(biāo)注成本,主動(dòng)學(xué)習(xí)方法的標(biāo)注節(jié)約比例越高。所以代表3個(gè)模型不同標(biāo)準(zhǔn)下標(biāo)注節(jié)約比例的3 組柱狀圖內(nèi)都在組內(nèi)是從左到右逐漸增高的。分析原因是模型性能在隨機(jī)采樣中的提升過程是越來越慢的,當(dāng)前模型F1分?jǐn)?shù)越高,進(jìn)一步提升所花費(fèi)的時(shí)間也越高。而主動(dòng)學(xué)習(xí)過程在模型F1分?jǐn)?shù)越高時(shí),對(duì)于訓(xùn)練過程的優(yōu)化就越明顯,能夠更顯著地提高訓(xùn)練效率。
橫向分析相對(duì)于各性能需求下不同模型的主動(dòng)學(xué)習(xí)方法標(biāo)注節(jié)約比例,可以看出在99%和100%被動(dòng)學(xué)習(xí)最終F1分?jǐn)?shù)兩個(gè)標(biāo)準(zhǔn)下,節(jié)約比例最高的模型是隨機(jī)森林分類器(RF),分別節(jié)約非主動(dòng)學(xué)習(xí)所需標(biāo)注數(shù)據(jù)的0.75 倍和0.94 倍,其次是多項(xiàng)式樸素貝葉斯分類器(MNB)節(jié)約0.74 倍和0.82 倍,最后是邏輯回歸分類器(LR)節(jié)約0.71 倍和0.78 倍。但是在97%和98%最終F1分?jǐn)?shù)兩個(gè)標(biāo)準(zhǔn)下,隨機(jī)森林分類器的標(biāo)注節(jié)約比例相較于其他兩個(gè)模型不再有優(yōu)勢(shì)。
因?yàn)锽ERT 模型的提升迭代主要集中在前5 次,采樣點(diǎn)不夠密集所以無法精確計(jì)算標(biāo)注節(jié)約比例。但BERT 模型的F1分?jǐn)?shù)提升過程同樣是先快后慢的,推測(cè)也會(huì)有模型精度要求越高,標(biāo)注成本節(jié)約比例越高的規(guī)律。例如DAL 方法在第3 個(gè)輪次達(dá)到隨機(jī)采樣在第5 個(gè)輪次的F1分?jǐn)?shù)0.902,但在第6 次就達(dá)到了隨機(jī)采樣在第16 個(gè)輪次的F1分?jǐn)?shù)0.917。
本研究在BERT 深度學(xué)習(xí)模型以及多種機(jī)器學(xué)習(xí)文本分類模型上,以爬蟲收集的中文新聞數(shù)據(jù)為材料,以篩選出農(nóng)業(yè)領(lǐng)域新聞為實(shí)驗(yàn)?zāi)繕?biāo),驗(yàn)證了3 種針對(duì)BERT 深度網(wǎng)絡(luò)的采樣策略與任務(wù)模型配合后的主動(dòng)學(xué)習(xí)效果,為新聞文本分類的深度主動(dòng)學(xué)習(xí)提供了一種可操作可借鑒的實(shí)踐經(jīng)驗(yàn)。并將文本分類常用的機(jī)器學(xué)習(xí)模型,如隨機(jī)森林分類器、多項(xiàng)式樸素貝葉斯分類器、邏輯回歸分類器等結(jié)合最低置信度的主動(dòng)學(xué)習(xí)方法分析與BERT 模型對(duì)比分析。
實(shí)驗(yàn)證明,主動(dòng)學(xué)習(xí)方法加快了深度模型的訓(xùn)練過程,并顯著提高了其分類效果[29]。尤其是BERT 模型配合DAL 采樣函數(shù),是新聞文本主題分類與篩選場(chǎng)景下最佳的主動(dòng)學(xué)習(xí)方案。其次可以選擇BERT 模型配合DBAL 采樣函數(shù)作為備選方案。在實(shí)驗(yàn)時(shí)還可設(shè)置隨機(jī)采樣作為基線對(duì)照方案。如果計(jì)算資源不足無法順利訓(xùn)練BERT 模型或者標(biāo)注數(shù)據(jù)和標(biāo)注資源較為充裕,則可以選擇隨機(jī)森林分類器等機(jī)器學(xué)習(xí)模型搭配最低置信度采樣的主動(dòng)學(xué)習(xí)方法作為替代方案。
通過記錄每輪主動(dòng)查詢獲取數(shù)據(jù)的多樣性和代表性度量,嘗試解釋了不同采樣策略的差異來源。發(fā)現(xiàn)DAL 的多樣性和代表性不僅強(qiáng)于隨機(jī)采樣(也即沒有使用主動(dòng)學(xué)習(xí)的情況),也強(qiáng)于其他兩種主動(dòng)學(xué)習(xí)方法,這部分解釋了DAL 搭配BERT 模型在實(shí)驗(yàn)中為何表現(xiàn)最優(yōu)。
在現(xiàn)有的爬蟲數(shù)據(jù)集上,BERT 模型訓(xùn)練的主動(dòng)學(xué)習(xí)方法和隨機(jī)采樣方法都在經(jīng)過幾次主動(dòng)學(xué)習(xí)迭代后很快就達(dá)到了很高的分類性能,說明該數(shù)據(jù)雖然數(shù)量大但多樣性卻稍有不足,后續(xù)可考慮繼續(xù)豐富新聞文本爬蟲數(shù)據(jù),進(jìn)一步驗(yàn)證本研究方案可行性。
農(nóng)業(yè)圖書情報(bào)學(xué)刊2022年8期