蔣彥廷 吳鈺潔
(1. 成都航空職業(yè)技術(shù)學(xué)院,成都 610100;2. 北京師范大學(xué)文學(xué)院,北京 100875)
隨著經(jīng)濟社會發(fā)展與各領(lǐng)域國際交流日益深化,中國進口外文文獻規(guī)模不斷擴大。在紙質(zhì)文獻方面,根據(jù)國家統(tǒng)計局《中國統(tǒng)計年鑒》的數(shù)據(jù),2020年中國進口外文圖書超過3 200萬冊[1]。2017—2019年,國家圖書館年均訂閱紙質(zhì)西文文獻超過4.9萬種。在電子文獻方面,截至2019年底,國家圖書館外購數(shù)據(jù)庫中的外文電子圖書超過51萬種,電子論文超過120萬篇[2]。
大量引入外文文獻,對圖書館或文獻數(shù)據(jù)庫的分類、編目工作提出了較高的要求,也給相關(guān)工作人員帶來了較重的負擔[3]。與中文文獻的分類編目相比,加工整理外文文獻的難度要更大:一是不同語言、文化之間存在隔閡;二是國內(nèi)外圖書分類體系不同,國內(nèi)大部分圖書館、電子數(shù)據(jù)庫依據(jù)《中國圖書館分類法》(以下簡稱“《中圖法》”)給文獻分類。絕大部分中文圖書版權(quán)頁的圖書在版編目(Cataloguing In Publication,CIP)數(shù)據(jù),都標注了《中圖法》分類號(以下簡稱“中圖分類號”)。而許多英文圖書依據(jù)的是《杜威十進制分類法》(Dewey Decimal Classification)或《美國國會圖書館分類法》(Library of Congress Classification,以下簡稱“《國會圖書館分類法》”),與《中圖法》并未建立直接聯(lián)系。
給英文文獻標注中圖分類號,能保持國內(nèi)圖書館圖書管理的一致性,方便讀者查閱瀏覽。故本文提出一種基于預(yù)訓(xùn)練語言模型BERT(Bidirectional Encoder Representations from Transformers)與文本增強和類目映射策略的英文文獻的中圖分類號自動標注方法。
2022年初筆者調(diào)研了全國代表性圖書館、文獻數(shù)據(jù)庫網(wǎng)站,展現(xiàn)給讀者的英文文獻分類方法如表1所示。
表1 國內(nèi)代表性圖書館、文獻數(shù)據(jù)庫網(wǎng)站采用的英文文獻分類體系
《中圖法》是樹狀圖書資料分類體系,1975年出版第1版,截至2010年已出版到第5版[4],包括22個一級類目、250多個二級類以及更多的小類?!秶鴷D書館分類法》是美國國會圖書館編制的綜合性分類法,包括21個基本大類,每個大類以單個字母作為標記[5]。《中國科學(xué)院圖書館圖書分類法》(以下簡稱“《科圖法》”),在1958年出版了第1版,采用阿拉伯數(shù)字為類目的標記符號,包括25大類和更多的小類?!抖磐M制分類法》將知識分為10個大類,以三位數(shù)字代表分類碼,截至2004年已出版到第22版。
調(diào)查發(fā)現(xiàn):第一,在文獻管理的實際工作中,絕大多數(shù)圖書館與文獻數(shù)據(jù)庫網(wǎng)站給英文文獻分類時,都依據(jù)《中圖法》;第二,另外有一些機構(gòu)雖然兼用《中圖法》《杜威十進制分類法》《國會圖書館分類法》,但也有主次之分(一方面,給英文圖書編制索書號時,仍主要參考《中圖法》,而《國會圖書館分類法》與《杜威十進制分類法》的分類號僅在圖書數(shù)據(jù)庫中作為次要字段出現(xiàn);另一方面,這些機構(gòu)網(wǎng)站中的一部分英文圖書僅有中圖分類號,而缺失《國會圖書館分類法》分類號);第三,《科圖法》目前在國內(nèi)圖書情報機構(gòu)中的使用率比《中圖法》《國會圖書館分類法》《杜威十進制分類法》低。
筆者認為,國內(nèi)圖書館、文獻數(shù)據(jù)庫主要采用《中圖法》給英文文獻分類的原因,一是為了保持與中文文獻分類的一致性,以我為主,為我所用。中外文文獻采用統(tǒng)一的分類號,能提升檢索效率,為科學(xué)計量提供便利,幫助發(fā)現(xiàn)學(xué)科新興熱點與學(xué)科交叉領(lǐng)域[6]。二是對實體圖書館而言,圖書分類號往往是編制索書號的重要基礎(chǔ)。國內(nèi)熟悉《中圖法》的讀者更多,依據(jù)《中圖法》編制索書號,也能方便讀者查閱文獻。上述調(diào)研也反映出給英文文獻標注中圖分類號的必要性。
類目映射(classification mapping)指的是在不同知識分類體系的分類號之間建立聯(lián)系的過程。這對外文圖書的中圖分類號標注也有所裨益。
在映射方法方面,類目映射方法可以分為人工標注與自動映射。人工標注雖然總體上準確率較高,但依賴具體的專業(yè)知識,工作量艱巨,標注效率有限[7]。自動映射方法又可以分為4個小類。①基于分類號同現(xiàn)的方法:當同一批圖書文獻同時標注了兩個體系的分類號時,這兩個體系的分類號就能建立一定聯(lián)系[8]。②基于類目相似度的方法:將分類法的每個條目用若干主題詞或句子來描述。通過計算不同類目間詞句的相似程度,就可以得到兩類分類號的匹配度[9]。③基于交叉檢索的方法:收集分類法A下面某個分類號a的文獻集合,用該文獻集合的關(guān)鍵詞去檢索另一種分類法B表示的文檔。統(tǒng)計出檢索中分類法B中的高頻分類號“b1,b2,b3,…,bn”,就能建立起它們與分類號a之間的關(guān)聯(lián)。但這種映射方法的準確率與覆蓋率不高,且往往建立的是一對多的關(guān)系[10]。④基于機器學(xué)習的類目映射方法。該方法對標注了某個分類號a的文本信息進行訓(xùn)練,得到這個類目的文本二類分類器,然后用該分類器對另一個分類法的類目“b1,b2,b3,…,bn”標識的語料進行分類。分析分類結(jié)果,判斷類目a與類目“b1,b2,b3,…,bn”之間是否能映射[11]。
在映射的分類體系方面,目前已有學(xué)者探索了《中圖法》與國際專利分類法(International Patent Classification,IPC)[9,11],《中圖法》與《杜威十進制分類法》[7,12],《中圖法》與《國會圖書館分類法》[13-14]之間的類目映射工作。但由于每種分類法層次復(fù)雜,類目眾多,加之不同的分類法在編制原則、體系結(jié)構(gòu)、語言文化、類目顆粒度等方面存在差異,相關(guān)研究尚無法給出全面的、精確的類目映射結(jié)果。以童劉奕等[14]在教育、心理、數(shù)學(xué)領(lǐng)域的分析結(jié)果為例,從《中圖法》到《國會圖書館分類法》建立的799對類目映射關(guān)系中,僅有24.5%是完全等同的關(guān)系。這意味著無法僅根據(jù)類目映射單一方法,給英文文獻標注中圖分類號。
文獻分類是自然語言處理(Natural Language Processing,NLP)里文本分類技術(shù)的子領(lǐng)域。在算法模型方面,BP神經(jīng)網(wǎng)絡(luò)、支持向量機[15-16]、決策樹(DT)[17]、長短期記憶(LSTM)[18]和BERT模型以及改進的預(yù)訓(xùn)練模型[19-20]已被應(yīng)用到圖書、論文的分類任務(wù)中。在文獻語種與分類號方面,目前已有較多依據(jù)《中圖法》給中文圖書分類的研究[15,18-19],以及依據(jù)《國會圖書館分類法》[16]《杜威十進制分類法》[17]給英文文獻分類的嘗試。
總的來看,目前的研究只依據(jù)單一體系,給單一語種的文獻分類,還沒有給英文文獻自動標注中圖分類號的探索。究其原因,英文圖書、論文在出版時并不自帶中圖分類號,僅在引進中國的圖書館或文獻數(shù)據(jù)庫時,才會由相關(guān)工作人員標注歸類。這導(dǎo)致既有的標注中圖分類號的英文文獻數(shù)據(jù)十分稀缺。
在文本數(shù)據(jù)稀疏的情況下,運用文本數(shù)據(jù)增強(Data Augmentation for Text)技術(shù)有助于提高文本分類的效果。文本增強具體包括回譯、獨立或依賴上下文的詞匯替換[20-21]、隨機噪聲注入[22]、同類文本交叉增強[23]、強化學(xué)習[24]等方法。其中基于回譯、詞匯替換、強化學(xué)習的文本增強方法,需要依賴外部的算法、知識庫或預(yù)訓(xùn)練模型,具有一定成本。另外,依據(jù)分類法的文獻分類是一個較為特殊的領(lǐng)域,尚未有學(xué)者提出專門針對該領(lǐng)域的文本增強方法。
本文的英文文獻分類與文本增強方法框架如圖1所示。以下將詳細介紹文獻分類方法與各文本增強方法。
圖1 英文文獻分類與文本增強方法框架
在文獻分類方法方面,筆者基于BERT預(yù)訓(xùn)練模型加全連接網(wǎng)絡(luò)(Fully-Connected Network,F(xiàn)CN)分類器,實現(xiàn)除A類“馬列主義,毛澤東思想,鄧小平理論”和Z類“綜合性圖書”之外的中圖法一級分類號B到X的20類文獻分類。BERT是谷歌2018年發(fā)布的基于文本特征提取器Transformer的預(yù)訓(xùn)練語言模型,它極大改善了文本語義表示的效果,并在文本分類等各項下游任務(wù)中取得了明顯突破[25]。一個英文文本輸入該模型后,模型提取頂層的符號[CLS]的768維特征向量v作為該文本的向量表示,再后接一個768×n(n為文本類別數(shù)量)的全連接層矩陣W,得到一個n維的向量x,最后通過Softmax函數(shù)歸一化,輸出文本向量v屬于某個類別c的概率P(c| v)見公式(1),其中Softmax函數(shù)見公式(2)。
筆者將比較基于BERT的分類模型與支持向量機(Support Vector Machine,SVM)模型、全連接神經(jīng)網(wǎng)絡(luò)模型、Fasttext模型[26]、RoBERTa模型、壓縮輕量化的DistilBERT模型的效果。由于BERT等預(yù)訓(xùn)練模型在文本預(yù)處理時會采用Wordpiece算法[27],將英文單詞切分為子詞,不再需要詞干化的預(yù)處理步驟。筆者只在文本輸入SVM與Fasttext模型前,使用NLTK自然語言處理工具庫(nltk.org)將每個單詞詞干化。
文本增強策略一:如前所述,標注中圖分類號的英文文獻數(shù)據(jù)十分稀缺,但標注中圖分類號的中文文獻(圖書、論文等)資源比較豐富。因此筆者嘗試采用中文文獻英譯的方式,擴充英文數(shù)據(jù)集。采用蔣彥廷等[19]采集整理的中文圖書分類數(shù)據(jù)集,調(diào)用百度翻譯、阿里云翻譯、訊飛翻譯的應(yīng)用程序接口,在保留中圖分類號的同時,分別英譯中文文獻的標題、關(guān)鍵詞以擴充數(shù)據(jù),并對比基于3種翻譯接口的文本增強方法,在文本分類任務(wù)上的效果。
類目映射策略:除了將標注中圖分類號的中文文獻英譯的文本增強方法,還可以通過類目映射,將英文圖書的《國會圖書館分類法》的分類號轉(zhuǎn)化為中圖分類號(見表2)。首先,筆者從古登堡電子書項目網(wǎng)站(gutenberg.org),采集了大量英文圖書的標題、關(guān)鍵詞與《國會圖書館分類法》的分類號。其次,筆者邀請了兩位熟悉外文文獻編目的圖書館館員,請他們依據(jù)工作經(jīng)驗,建立了106條映射規(guī)則,盡可能將這些書目的《國會圖書館分類法》分類號單向映射到《中圖法》上。由于現(xiàn)階段只針對《中圖法》一級分類號進行分類,因此采取“就上不就下”的映射方式:對于《國會圖書館分類法》的類目a與《中圖法》的類目b,當人工難以判定a與b是否等同(a=b),且難以判定a是否為b的真子集(a?b)時,就讓類目a向b的某個上位類c建立映射關(guān)系,以保證類目a的含義基本與c等同,或者a的含義能被c囊括。在映射類目顆粒度較粗的情況下,保證映射的穩(wěn)妥性。
表2 《國會圖書館分類法》到《中圖法》的類目映射表(部分)
通過上述類目映射方法,最終將古登堡電子書項目網(wǎng)站里19 870冊英文圖書的《國會圖書分類法》分類號轉(zhuǎn)換成中圖分類號。這批文本數(shù)據(jù)將添加到訓(xùn)練集中來增強模型的能力。具體實驗結(jié)果將在3.2節(jié)敘述。
文本增強策略二:前兩個策略,需要依賴外部的數(shù)據(jù)集(中文文獻數(shù)據(jù)集、標注《國會圖書館分類法》的英文文獻數(shù)據(jù)集)。而文本增強策略二將不再依賴外部的文獻數(shù)據(jù),該策略受到Karimi等[22]的啟發(fā),具體步驟為:按照對于單詞數(shù)為n的文本,按30%的比例,在文本中隨機插入0.3n(向下取整)個的標點符號。標點符號從集合{ “.”, “;”, “?”, “:”, “!”, “,” }中隨機選擇。隨機插入標點符號的文本就作為新的樣本,加入訓(xùn)練集中。筆者認為,由于標點符號也參與了BERT模型預(yù)訓(xùn)練,存在于模型的詞表中,因此在文本分類模型的訓(xùn)練階段時,向文本插入標點符號,相當于加入了語義均衡的適量噪聲信息。這有利于增強模型的泛化能力,從而改進文獻分類的效果。
隨機插入標點的方法不依賴任何外部數(shù)據(jù)集與預(yù)訓(xùn)練模型,實現(xiàn)十分簡易。為驗證該方法的有效性,筆者比較其與其他5種文本增強策略的效果。
(1)基于transformer的回譯。采用2個基于transformer特征提取器[28]的機器翻譯預(yù)訓(xùn)練模型,分別為opusmt-en-zh(英譯中,1.41GB,模型地址:huggingface.co/Helsinki-NLP/opus-mt-en-zh)、opus-mt-zh-en(中譯英,852MB,模型地址:huggingface.co/Helsinki-NLP/opus-mt-zh-en)。采用“英→中→英”回譯路徑,給每個文本生成一個語義近似的文本。
(2)同類文本交叉(crossover)重組。每個文本對半切分,同類文本的片段兩兩交叉,合成新文本。這在保證類別標簽基本正確的前提下,改變文本表述合成新樣本。
(3)隨機插入語法詞(grammatical words)。該方法與文本增強策略二隨機插入標點類似,只是將隨機插入的token集合改為{the,and,of,to,in,on,about,a}。集合中大都是實義較弱,語法功能更強的詞,旨在增強模型的泛化能力,提高模型分類的精度。
(4)基于word2vec詞向量的隨機換詞。選用的預(yù)訓(xùn)練詞向量模型來自GitHub網(wǎng)站(模型地址:github.com/JiangYanting/Pretrained_gensim_word2vec)。對于每個單詞數(shù)為n的原始文本,隨機選中0.3n(向下取整)個除連詞、介詞、人稱代詞、be動詞等停用詞以外的詞語w,利用詞向量模型計算與詞語w相似度最高的另一個詞語w1。用詞語w1替換w,生成近義的新文本。
(5)基于BERT遮罩語言模型的新詞隨機插入。利用BERT-base-uncased的遮罩語言模型(Masked Language Model,MLM)[25]。對于每個單詞數(shù)為n的原始文本,隨機將每個文本中0.1n(向上取整)個非停用詞替換為[MASK]遮罩符號,用MLM模型預(yù)測該符號背后可能的詞語。最后為保證原有信息不損失,將文本還原,并在曾被MLM選中的詞后面,插入MLM預(yù)測的新詞語。
根據(jù)Frank等[16]、鄧三鴻等[18]對中英文文獻的分類經(jīng)驗,每個文本輸入的字段為標題和若干反映主題的關(guān)鍵詞時,分類效果基本達到最佳水平,摘要字段對文本分類的提升效果不明顯。筆者從國家圖書館網(wǎng)站采集了中圖法20類,共計36 459冊文獻的標題與關(guān)鍵詞。這些文獻絕大部分為圖書專著,極少數(shù)為論文集。各類文獻的數(shù)量從高到低依次為:“T工業(yè)技術(shù)”“F經(jīng)濟”“R醫(yī)藥衛(wèi)生”“D政治法律”“B哲學(xué)宗教心理”“O數(shù)理科學(xué)與化學(xué)”“G文化科學(xué)教育”“Q生物科學(xué)”“J藝術(shù)”“C社科總論”“K歷史地理”“I文學(xué)”“H語言文字”“P天文地球科學(xué)”“S農(nóng)業(yè)科學(xué)”“X環(huán)境安全”“U交通運輸”“V航空航天”“E軍事”“N自然科學(xué)總論”。
筆者按20%的比例,從36 459冊文獻中劃分出測試集7 292冊。測試集中各類文獻數(shù)量的比例與訓(xùn)練集保持一致。在后續(xù)文本增強過程中,只擴充訓(xùn)練數(shù)據(jù),測試集始終保持不變。
將每冊文獻的標題與關(guān)鍵詞作為輸入模型的文本。各模型的參數(shù)設(shè)置如下:支持向量機的種類為線性SVM;全連接網(wǎng)絡(luò)的激活函數(shù)為ReLU函數(shù),最大迭代次數(shù)為200次;Fasttext模型向量維數(shù)為300,學(xué)習率參數(shù)lr為0.1,ngram參數(shù)為2-gram,損失函數(shù)為Softmax;三種預(yù)訓(xùn)練模型初始學(xué)習率均為2e-5,每批訓(xùn)練的規(guī)模batch size為32,從訓(xùn)練集中切分出驗證集的比例為10%。預(yù)訓(xùn)練模型均訓(xùn)練到損失在驗證集上不再下降為止。測試集上的正確率與宏F1值分數(shù)表現(xiàn)如表3所示。
表3 基于原始文獻數(shù)據(jù)的分類實驗結(jié)果
第一,無論文本預(yù)處理時是否詞干化,基于SVM和FCN的分類效果均不理想,而Fasttext模型在詞干化后,正確率與宏F1值分別提升約5.7%與8%。第二,雖然Fasttext模型的正確率接近BERT等預(yù)訓(xùn)練模型,但在宏F1值表現(xiàn)上仍比BERT-base-uncased模型低了約14%。這說明BERT模型處理類別不均衡的文本分類任務(wù)時,較Fasttext效果更好。第三,在3個預(yù)訓(xùn)練模型中,BERT-base-uncased在正確率與宏F1值指標上均取得最佳效果。而DistilBERT模型雖然大小只有BERTbase-uncased模型的約60%,但在分類表現(xiàn)上與后者十分接近。在硬件性能條件有限時,采用DistilBERT模型也不失為良好的折中策略。第四,我們也嘗試了文本詞干化后再輸入預(yù)訓(xùn)練模型訓(xùn)練,但分類效果并不及未做詞干化時。這也證明預(yù)訓(xùn)練模型Wordpiece切分子詞方法的良好效果。
統(tǒng)計基于BERT模型分類時,各類別文獻的宏F1值表現(xiàn)如圖2所示。
圖2 基于BERT的各類別文獻分類F1值
第一,雖然如前所述,“T工業(yè)技術(shù)”“F經(jīng)濟”類的文獻數(shù)量分別位居第1、2名,但其分類的表現(xiàn)并不在前5之列。第二,雖然“H語言文字”“J藝術(shù)”“I文學(xué)”“P天文地球科學(xué)”類文獻數(shù)量排名分別位列第13、9、12、14位,但它們的分類表現(xiàn)分別高居第1、2、4、5位。第三,“E軍事”“V航空航天”“X環(huán)境安全”和“N自然科學(xué)總論”類的文獻受限于數(shù)據(jù)量不足,分類的表現(xiàn)還不太理想。綜上所述,T類、F類文獻主題較為廣泛,自動分類對數(shù)據(jù)量的要求較高。而H、J、I、P類文獻的主題較為集中,提升分類效果所依賴的數(shù)據(jù)量相對較少。
在后續(xù)文本增強實驗中,將沿用表3中表現(xiàn)最佳的BERT-base-uncased模型,觀察其效果提升情況。
基于第2章所述的文本增強策略一,調(diào)用訊飛翻譯、阿里云翻譯與百度翻譯的API,分別將45 570冊標注中圖分類號的中文圖書的標題、關(guān)鍵詞翻譯成英文,擴充到訓(xùn)練集中?;诘?章所述的類目映射策略,將19 870冊英文圖書的《國會圖書館分類法》分類號轉(zhuǎn)換成中圖一級分類號。表4記錄了與原始數(shù)據(jù)集的分類結(jié)果相比,文本增強、類目映射擴充數(shù)據(jù)后的指標提升情況。
表4 英譯中文文獻、類目映射策略后的效果上升幅度
采用訊飛翻譯、阿里云翻譯和百度翻譯英譯中文文獻,擴充訓(xùn)練集后,文獻分類的正確率均有提升。具體而言,訊飛翻譯API的效果略優(yōu)于另外兩種,在正確率與宏F1值指標上分別有2.31%與2.95%的提升。這證明了英譯中文文獻的數(shù)據(jù)增強策略的有效性。雖然類目映射擴充的數(shù)據(jù)量不及中文文獻英譯的方法,但在宏F1值指標上也有0.85%的提升。而將訊飛翻譯、類目映射2種方法結(jié)合后,模型正確率與宏F1值分別上升2.75%與3.50%,分別達到87.36%與84.35%。一方面,英譯中文文獻和類目映射能有效改善模型分類的效果;另一方面,效果的提升也反過來證明了機器翻譯和類目映射的準確性。
在經(jīng)由文本增強策略一和類目映射,訓(xùn)練集規(guī)模達到94 587條的基礎(chǔ)上,進而使用第2章所述的文本隨機插入標點方法,給每個文本生成一個新文本,從而使整個訓(xùn)練集規(guī)模增加一倍。同時,比較了第2章所述的其余5種文本增強方法,具體實驗結(jié)果如表5所示。
表5 6種使訓(xùn)練數(shù)據(jù)增加100%的文本增強策略效果比較
可以看出,基于transformer模型的回譯、同類文本交叉重組的2種策略效果較其余策略略差。而隨機插入標點的方法有著最佳表現(xiàn),正確率與宏F1值分別達到90.69%與88.22%,在中圖法20類一級分類號分類的任務(wù)上,基本達到實用水平。而向原文本隨機插入語法詞的策略,也有不錯的表現(xiàn),在6種方法里位居第2名。
向原文本插入標點或語法詞,不依賴任何預(yù)訓(xùn)練模型或復(fù)雜的算法,卻表現(xiàn)不俗。我們認為這可能是由BERT模型預(yù)訓(xùn)練的方式所決定的:在BERT的遮罩語言模型預(yù)訓(xùn)練階段,標點、語法詞參與了預(yù)訓(xùn)練,在模型的詞表中也能查詢到它們的記錄。由于標點符號和語法詞缺乏實義,與它們相鄰的詞語分布無明顯特征規(guī)律。這意味著它們的向量表示不會向任何一類文獻的主題偏斜。在模型訓(xùn)練階段,向文本插入標點符號與語法詞,相當于加入了語義均衡的噪聲信息,十分有利于增強模型的泛化能力,從而顯著提升分類效果。
筆者匯總了文本增強和類目映射策略擴充的文本數(shù)據(jù),在BERT-base-uncased基礎(chǔ)上,訓(xùn)練了一個英文文獻分類模型,并使用Python語言的tkinter、Pillow與Pyintaller工具庫,開發(fā)了一個給英文文獻批量自動標注《中圖法》20類一級分類號的小程序(地址:github.com/JiangYanting/English_books_classification_Program)。用戶將每冊英文文獻的標題與關(guān)鍵詞按一冊一行的格式寫入txt文本文件,上傳該txt文件后,系統(tǒng)能在極短時間里,自動標注每冊英文文獻的中圖分類號,并給出預(yù)測的概率。預(yù)測完畢后,可將預(yù)測結(jié)果自動保存為txt文件。該小程序界面簡潔,使用方便,輸出的文件每行各字段之間用制表符分隔,便于存儲在Excel、MySQL等結(jié)構(gòu)化數(shù)據(jù)表中。該程序已初步在某高校圖書館得以應(yīng)用,有助于提高圖書編目、跨語言知識管理與檢索的效率,有效減輕文獻數(shù)據(jù)庫與圖書館工作人員的負擔。
給英文文獻標注中圖分類號是文獻知識管理中十分實用、必要的環(huán)節(jié),但又面臨訓(xùn)練數(shù)據(jù)不足的問題。本文為基于BERT的文本分類模型提出中文文獻的機器翻譯方法、《國會圖書館分類法》到《中圖法》的類目映射方法、原始英文文本插入標點或語法詞以增強分類模型泛化能力的方法。實驗表明,3種策略均能有效提高自動分類的效果。向原文本隨機插入標點或語法詞的數(shù)據(jù)增強方法簡易有效,效果優(yōu)于原文本回譯方法、基于BERT語言模型的完形填空方法、同類別文本拆分重組的方法、基于詞向量的近義詞替換方法。通過3種策略,分類模型的正確率與宏F1值分別提升約6.1%與7.4%。在未來的工作中,筆者將進一步擴大數(shù)據(jù)規(guī)模,優(yōu)化模型效果,以實現(xiàn)粒度更細的中圖分類號標注功能。