蔣彥廷
北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第59卷 第1期 2023年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)
10.13209/j.0479-8023.2022.070
2022-05-13;
2022-08-03
依據(jù)《中國(guó)圖書(shū)館分類(lèi)法》的英文圖書(shū)分類(lèi)探索
蔣彥廷1,2
1.四川省水文水資源勘測(cè)中心, 成都 610036; 2.中共金堂縣委黨校, 成都 610400; E-mail: jiangyanting@mail.bnu.edu.cn
針對(duì)帶有中圖分類(lèi)號(hào)的英文圖書(shū)數(shù)據(jù)量小以及類(lèi)別不平衡的問(wèn)題, 將圖情領(lǐng)域的文本增強(qiáng)策略(《美國(guó)國(guó)會(huì)圖書(shū)館分類(lèi)法》到《中國(guó)圖書(shū)館分類(lèi)法》的類(lèi)目映射方法和基于中-英文平行的《漢語(yǔ)主題詞表》的語(yǔ)義增強(qiáng)方法)與一般領(lǐng)域文本增強(qiáng)策略(向原始英文文本插入標(biāo)點(diǎn)或連詞)相結(jié)合, 旨在增強(qiáng)模型泛化能力。實(shí)驗(yàn)表明, 綜合后的策略能有效地提高模型在測(cè)試集的表現(xiàn), 正確率和宏 F1 值分別上升 3.61 和 3.35 個(gè)百分點(diǎn), 效果優(yōu)于其他單一的文本增強(qiáng)方法。最后, 通過(guò) BERT 詞向量可視化與詞語(yǔ)信息熵計(jì)算, 分析出豐富的鄰近詞和語(yǔ)法上的連綴功能是插入標(biāo)點(diǎn)或連詞方法有效的原因。
預(yù)訓(xùn)練語(yǔ)言模型; 中國(guó)圖書(shū)館分類(lèi)法; 類(lèi)目映射; 漢語(yǔ)主題詞表; 文本增強(qiáng)
書(shū)籍是承載人類(lèi)知識(shí)思想的重要載體。近年來(lái), 中國(guó)進(jìn)口、加工外文圖書(shū)的規(guī)模相當(dāng)可觀。在紙質(zhì)圖書(shū)方面, 截至 2022 年 7 月, 中國(guó)圖書(shū)進(jìn)出口(集團(tuán))有限公司累計(jì)采選海外圖書(shū)超過(guò) 184 萬(wàn)種, 月均新增超萬(wàn)種[1]。北京大學(xué)圖書(shū)館 2022 年上半年加工編目的外文新書(shū)約 9800 冊(cè)[2]。
外文圖書(shū)的進(jìn)口給國(guó)內(nèi)圖書(shū)館或文獻(xiàn)數(shù)據(jù)庫(kù)的加工編目帶來(lái)挑戰(zhàn)[3]。與中文圖書(shū)相比, 外文圖書(shū)分類(lèi)編目難度更大。第一個(gè)原因, 外文圖書(shū)分類(lèi)編目對(duì)工作人員的外語(yǔ)水平和對(duì)具體領(lǐng)域的熟悉度都有較高的要求。第二個(gè)原因, 國(guó)內(nèi)外圖書(shū)分類(lèi)體系有差異: 國(guó)內(nèi)大部分書(shū)店、圖書(shū)館、電子書(shū)網(wǎng)站參考《中國(guó)圖書(shū)館分類(lèi)法》(簡(jiǎn)稱(chēng)《中圖法》)給圖書(shū)分類(lèi)。大部分中文圖書(shū)在版權(quán)頁(yè)已初步標(biāo)注《中圖法》分類(lèi)號(hào)(簡(jiǎn)稱(chēng)中圖分類(lèi)號(hào)), 大大減輕了圖書(shū)分類(lèi)編目的負(fù)擔(dān)。然而許多英語(yǔ)國(guó)家出版的圖書(shū)并未采用《中圖法》進(jìn)行分類(lèi)。
基于上述背景, 本文利用預(yù)訓(xùn)練語(yǔ)言模型BERT (bidi-rectional encoder representations from transformers), 結(jié)合圖書(shū)情報(bào)(圖情)領(lǐng)域與一般領(lǐng)域的文本增強(qiáng)方法, 對(duì)依據(jù)《中圖法》的英文圖書(shū)分類(lèi)工作進(jìn)行探索, 以期方便讀者索書(shū)查閱, 提高外文圖書(shū)的利用率和使用效益, 優(yōu)化圖書(shū)編目與知識(shí)管理。
國(guó)內(nèi)外代表性圖書(shū)館和文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站的英文圖書(shū)分類(lèi)情況如表 1 所示?!吨袌D法》是新中國(guó)編制出版的圖書(shū)資料分類(lèi)體系, 至 2012 年已經(jīng)出版第五版簡(jiǎn)本[4], 包括 22 個(gè)一級(jí)類(lèi)目①http://www.ztflh.com, 250 多個(gè)二級(jí)類(lèi)乃至更多的細(xì)目?!睹绹?guó)國(guó)會(huì)圖書(shū)館分類(lèi)法》(Lib-rary of Congress Classification, 簡(jiǎn)稱(chēng)《國(guó)會(huì)圖書(shū)分類(lèi)法》)是美國(guó)國(guó)會(huì)圖書(shū)館設(shè)計(jì)的資料分類(lèi)法, 將知識(shí)分為 21 個(gè)基本大類(lèi)②https://www.loc.gov/catdir/cpso/lcco/。《中國(guó)科學(xué)院圖書(shū)館圖書(shū)分類(lèi)法》簡(jiǎn)稱(chēng)《科圖法》 , 1958 年出版第 1 版, 采用阿拉伯?dāng)?shù)字為類(lèi)目的標(biāo)記符號(hào), 包括 25 個(gè)大類(lèi)和更多的小類(lèi)?!抖磐M(jìn)制分類(lèi)法》(Dewey De-cimal Classification, 簡(jiǎn)稱(chēng)《杜威分類(lèi)法》)③https://www.britannica.com/science/Dewey-Decimal-Classification由美國(guó)圖書(shū)館專(zhuān)家麥爾威·杜威發(fā)明, 以 3位數(shù)字作為分類(lèi)碼的開(kāi)頭, 將知識(shí)分為 10 個(gè)大類(lèi), 至 2004 年已出版至第 22 版。
調(diào)查發(fā)現(xiàn), 首先, 在圖書(shū)管理實(shí)務(wù)中, 中國(guó)內(nèi)地的大多數(shù)圖書(shū)館與文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站都依據(jù)《中圖法》給英文圖書(shū)編目。一些機(jī)構(gòu)雖然兼用多種分類(lèi)法, 但在給英文圖書(shū)編制索書(shū)號(hào)時(shí), 仍主要參考《中圖法》, 在數(shù)據(jù)庫(kù)機(jī)讀目錄(Machine-Readable Catalogue, MARC)中將其他分類(lèi)號(hào)作為次要字段。第二, 《國(guó)會(huì)圖書(shū)分類(lèi)法》除在美國(guó)廣泛使用外, 在新加坡、中國(guó)的香港和臺(tái)灣的大學(xué)圖書(shū)館中也有<所應(yīng)用。第三, 英國(guó)和中國(guó)香港的部分圖書(shū)館采用《杜威分類(lèi)法》。< p>所應(yīng)用。第三,
中國(guó)內(nèi)地主要采用《中圖法》給外文圖書(shū)分類(lèi)原因之一是《中圖法》類(lèi)目詳盡, 基本涵蓋知識(shí)的各領(lǐng)域, 并與時(shí)俱進(jìn)?!吨袌D法》還設(shè)置“互見(jiàn)分類(lèi)號(hào)”, 例如隸屬“C 社科總論”的“C8 統(tǒng)計(jì)學(xué)”與“O1數(shù)學(xué)”下轄的“O212 數(shù)理統(tǒng)計(jì)”。雙語(yǔ)對(duì)照的讀物按前一種語(yǔ)言歸類(lèi), 按后一種語(yǔ)言做互見(jiàn)分類(lèi)[4]。作為樹(shù)形分類(lèi)結(jié)構(gòu), 互見(jiàn)分類(lèi)能較好地表示跨學(xué)科、交叉學(xué)科知識(shí)。此外, 《中圖法》還有 L, M, W 和 Y四個(gè)一級(jí)類(lèi)目的字母沒(méi)有使用, 為未來(lái)新興學(xué)科領(lǐng)域留有空間[5]。另一個(gè)原因是中外文圖書(shū)采用統(tǒng)一的分類(lèi)號(hào), 能提升檢索效率, 為科技查新、追蹤考察國(guó)外科學(xué)進(jìn)展夯實(shí)基礎(chǔ)。最后, 實(shí)體書(shū)店與圖書(shū)館通常在圖書(shū)分類(lèi)號(hào)的基礎(chǔ)上編制索書(shū)號(hào)。依據(jù)《中圖法》編制索書(shū)號(hào), 能方便工作人員上架圖書(shū), 也方便讀者查找圖書(shū), 減輕熟悉兩套圖書(shū)分類(lèi)法的記憶負(fù)擔(dān)。
主題詞表又稱(chēng)敘詞表, 是一種闡釋某學(xué)科領(lǐng)域相關(guān)術(shù)語(yǔ)的語(yǔ)義詞典, 是實(shí)現(xiàn)信息智能檢索的重要資源[6]。國(guó)內(nèi)規(guī)模較大的主題詞表有兩部: 《中國(guó)分類(lèi)主題詞表》[7]與《漢語(yǔ)主題詞表》。后者 1980年問(wèn)世, 2009 年由中國(guó)科學(xué)技術(shù)信息研究所重編, 包括工程技術(shù)、自然科學(xué)、生命科學(xué)、社會(huì)科學(xué)四部分。截至 2022 年 7 月初, 《漢語(yǔ)主題詞表》在線(xiàn)服務(wù)系統(tǒng)發(fā)布術(shù)語(yǔ)詞條 131400 個(gè)[8]。大部分詞條由號(hào)組成, 部分術(shù)語(yǔ)還涉及多個(gè)中圖分類(lèi)號(hào)。國(guó)際上, 著名的主題標(biāo)題表有美國(guó)的《國(guó)會(huì)圖書(shū)館主題詞表》(Library of Congress Subject Headings, LCSH)[9]和《醫(yī)學(xué)主題詞表》(Medical Subject Headings, MeSH)[10]等。
表1 國(guó)內(nèi)外代表性圖書(shū)館、文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站采用的英文圖書(shū)分類(lèi)體系
④ 據(jù) 2022 年 7 月初的調(diào)研結(jié)果, 浙江圖書(shū)館圖書(shū)頁(yè)面顯示分類(lèi)法為《科圖法》, 但實(shí)際標(biāo)注的分類(lèi)號(hào)依據(jù)的是《中圖法》。
包括圖書(shū)、論文以及專(zhuān)利文檔在內(nèi)的文獻(xiàn)分類(lèi)是文本分類(lèi)技術(shù)中的特殊領(lǐng)域。在算法模型方面, 支持向量機(jī)(SVM)[11]、膠囊神經(jīng)網(wǎng)絡(luò)[12]、決策樹(shù)(DT)[13]、長(zhǎng)短期記憶(LSTM)[14]、BERT 以及預(yù)訓(xùn)練模型及其改進(jìn)版[15–16]已應(yīng)用到圖書(shū)或論文的分類(lèi)任務(wù)中。在分類(lèi)標(biāo)簽方面, 可以分為單標(biāo)簽與多標(biāo)簽分類(lèi)[15]。在文獻(xiàn)語(yǔ)種與分類(lèi)號(hào)方面, 目前按照《中圖法》對(duì)中文文獻(xiàn)分類(lèi)的研究較豐富, 相關(guān)在線(xiàn)服務(wù)平臺(tái)[8,17]也得以建設(shè), 也有依據(jù)《國(guó)會(huì)圖書(shū)分類(lèi)法》[18]、《杜威十進(jìn)制分類(lèi)法》[13]和 Web of Science 網(wǎng)站學(xué)科分類(lèi)體系[12]對(duì)英文文獻(xiàn)分類(lèi)的探索。目前, 涉及跨分類(lèi)法、跨文獻(xiàn)語(yǔ)種問(wèn)題的探索還較少。
在數(shù)據(jù)稀疏的情況下, 采取文本增強(qiáng)(data aug-mentation for text)技術(shù)有助于生成訓(xùn)練文本的近似樣本, 避免過(guò)擬合, 提高文本分類(lèi)的效果。文本增強(qiáng)包括回譯、隨機(jī)刪詞、詞序打亂、基于靜態(tài)或動(dòng)態(tài)詞向量的詞匯替換[19–20]、適量噪聲注入[21]、同類(lèi)文本交叉重組[22]、引入詞匯釋義[23]、強(qiáng)化學(xué)習(xí)[24]以及文本復(fù)述[25]等方法。依據(jù)特定分類(lèi)法的圖書(shū)分類(lèi)是較為特殊的領(lǐng)域, 該領(lǐng)域的文本增強(qiáng)方法還有待探索。
根據(jù)中英文圖書(shū)論文的分類(lèi)經(jīng)驗(yàn)[14,18], 當(dāng)每個(gè)文本的輸入字段為書(shū)名和若干反映主題的關(guān)鍵詞時(shí), 分類(lèi)效果基本上達(dá)到最佳水平。由于文本較長(zhǎng), 圖書(shū)簡(jiǎn)介字段中非關(guān)鍵信息較多, 對(duì)分類(lèi)的貢獻(xiàn)不明顯, 也不利于模型訓(xùn)練收斂。因此, 我們使用基于圖的 TextRank 關(guān)鍵詞提取方法[26], 首先從圖書(shū)簡(jiǎn)介文本中提取權(quán)重靠前的若干關(guān)鍵詞, 與書(shū)名一起作為訓(xùn)練數(shù)據(jù)。
在分類(lèi)方法方面, 本文基于 BERT 預(yù)訓(xùn)練模型④https://huggingface.co/bert-base-uncased, 結(jié)合全連接神經(jīng)網(wǎng)絡(luò)(FCN)分類(lèi)器, 實(shí)現(xiàn)中圖法一級(jí)分類(lèi)號(hào) B 到 X 的 20 類(lèi)文獻(xiàn)分類(lèi)。將支持向量機(jī)(SVM)模型、隨機(jī)森林(random forests, RF)模型、Fasttext 模型[27]、基于 114 萬(wàn)篇英文文獻(xiàn)預(yù)訓(xùn)練的 SCI-BERT 模型⑤https://huggingface.co/allenai/scibert_scivocab_uncased和蒸餾輕量化的 DistilBERT模型⑥https://huggingface.co/distilbert-base-uncased作為基線(xiàn)模型。由于 BERT 等預(yù)訓(xùn)練模型會(huì)采用 Wordpiece 算法[28], 將英文單詞切分為子詞(subword), 因此我們只在文本輸入非預(yù)訓(xùn)練模型前, 使用 NLTK 工具庫(kù)⑦h(yuǎn)ttps://www.nltk.org/api/nltk.stem.porter.html將單詞詞干化。
本文提出的的英文文獻(xiàn)分類(lèi)與文本增強(qiáng)策略框架如圖1所示。
圖1 英文圖書(shū)分類(lèi)與文本增強(qiáng)策略框架
從《國(guó)會(huì)圖書(shū)館分類(lèi)法》到《中圖法》類(lèi)目映射(classification mapping), 擴(kuò)充分類(lèi)效果較差的類(lèi)別文本。類(lèi)目映射是使不同圖書(shū)文獻(xiàn)分類(lèi)體系關(guān)聯(lián)起來(lái)的過(guò)程, 通常以不同體系間分類(lèi)號(hào)對(duì)應(yīng)規(guī)則的形式表現(xiàn)。如果一冊(cè)英文圖書(shū)帶有其他體系的分類(lèi)號(hào), 通過(guò)既有的映射規(guī)則, 外文圖書(shū)的其他分類(lèi)號(hào)也能轉(zhuǎn)化為中圖分類(lèi)號(hào)。但由于每種分類(lèi)法層次復(fù)雜, 不同的分類(lèi)法在編制原則、體系側(cè)重點(diǎn)和類(lèi)目顆粒度等方面存在差異, 所以只能得到粗略的不全面的類(lèi)目映射結(jié)果[29]。另外, 并非所有英文圖書(shū)都預(yù)先標(biāo)注了其他體系的分類(lèi)號(hào)。因此, 類(lèi)目映射單一方法稍顯力不從心。
我們將類(lèi)目映射視為文本增強(qiáng)的一種手段, 在得到原始文本分類(lèi)結(jié)果的基礎(chǔ)上, 通過(guò)類(lèi)目映射, 擴(kuò)充分類(lèi)效果較差的類(lèi)別的文本。類(lèi)目映射的源文本采集自“古登堡”網(wǎng)站⑧https://www.gutenberg.org/ebooks/。每一個(gè)文本都包含圖書(shū)的標(biāo)題、關(guān)鍵詞和《國(guó)會(huì)圖書(shū)分類(lèi)法》的分類(lèi)號(hào)。映射規(guī)則參考蔣彥廷等[30]構(gòu)建并開(kāi)放的 106 條中從《國(guó)會(huì)圖書(shū)分類(lèi)法》到《中圖法》的單向映射規(guī)則, 部分規(guī)則如表2所示。
通過(guò)上述類(lèi)目映射方法, 我們將古登堡項(xiàng)目網(wǎng)站 19870 冊(cè)英文圖書(shū)的《國(guó)會(huì)圖書(shū)分類(lèi)法》分類(lèi)號(hào)轉(zhuǎn)換為中圖分類(lèi)號(hào), 作為文本增強(qiáng)的備用數(shù)據(jù)。
基于《漢語(yǔ)主題詞表》的語(yǔ)義增強(qiáng)。如 1.2 節(jié)所述, 《漢語(yǔ)主題詞表》(簡(jiǎn)稱(chēng)《主題詞表》)大部分詞條由漢語(yǔ)術(shù)語(yǔ)、英語(yǔ)翻譯和中圖分類(lèi)號(hào)組成, 部分術(shù)語(yǔ)還涉及多個(gè)中圖分類(lèi)號(hào)。我們從漢語(yǔ)主題詞表服務(wù)網(wǎng)站[8]采集各學(xué)科領(lǐng)域詞條共 11886 個(gè)。對(duì)于訓(xùn)練集與測(cè)試集中的文本, 如果出現(xiàn)上述的英文術(shù)語(yǔ), 就在該文本中補(bǔ)充一個(gè)特定的主題詞, 表示中圖分類(lèi)號(hào)的含義。補(bǔ)充的單詞一般是中圖分類(lèi)號(hào)一級(jí)大類(lèi)英譯的關(guān)鍵詞, 例如分類(lèi)號(hào) C 補(bǔ)充 so-cial, 分類(lèi)號(hào) D 補(bǔ)充單詞political, 分類(lèi)號(hào) E 補(bǔ)充單詞 military, 分類(lèi)號(hào) F 補(bǔ)充 economy, 分類(lèi)號(hào) G 補(bǔ)充culture, 分類(lèi)號(hào) H 補(bǔ)充 language, 分類(lèi)號(hào) I 補(bǔ)充lite-rature, 分類(lèi)號(hào) J 補(bǔ)充 art, 分類(lèi)號(hào) K 補(bǔ)充 history, 分類(lèi)號(hào) N 補(bǔ)充 natural, 分類(lèi)號(hào) O 補(bǔ)充 math, 分類(lèi)號(hào) P補(bǔ)充 astronomy, 分類(lèi)號(hào) Q 補(bǔ)充 biology , 分類(lèi)號(hào) R補(bǔ)充 medical, 分類(lèi)號(hào) S 補(bǔ)充 agriculture, 分類(lèi)號(hào) T補(bǔ)充 industry, 分類(lèi)號(hào) U 補(bǔ)充 transport, 分類(lèi)號(hào) V 補(bǔ)充 aviation, 分類(lèi)號(hào) X 補(bǔ)充 environment。如果一個(gè)術(shù)語(yǔ)涉及多個(gè)中圖分類(lèi)號(hào)一級(jí)大類(lèi), 則添加多個(gè)對(duì)應(yīng)的主題詞。
隨機(jī)插入標(biāo)點(diǎn)或連詞。前兩項(xiàng)依據(jù)類(lèi)目映射、主題詞表的增強(qiáng)策略適用于圖書(shū)情報(bào)這一特定領(lǐng)域, 一般領(lǐng)域的文本增強(qiáng)可以推廣到其他領(lǐng)域。受 Karimi 等[21]啟發(fā), 一般領(lǐng)域文本增強(qiáng)策略的具體步驟如下: 對(duì)于單詞數(shù)為的文本, 隨機(jī)插入 0.3(向下取整)個(gè)符號(hào), 符號(hào)從集合={".", ";", "?", ":", "!", ","}或={and, or, so, but, as, since}中隨機(jī)選擇。前者的元素均為英文的標(biāo)點(diǎn)符號(hào), 后者的元素為實(shí)義較弱的連詞。將隨機(jī)插入標(biāo)點(diǎn)符號(hào)的文本作為新樣本加入訓(xùn)練集, 比較它與如下 6 種文本增強(qiáng)策略的效果。
1)機(jī)器翻譯回譯: 我們選用基于 transformer 架構(gòu)的兩個(gè)機(jī)器翻譯模型, 分別為 opus-mt-en-zh⑨https://huggingface.co/Helsinki-NLP/opus-mt-en-zh(英譯中, 1.41 GB)和 opus-mt-zh-en⑩https://huggingface.co/Helsinki-NLP/opus-mt-zh-en(中譯英, 852MB)。采用“英→中→英”回譯路徑, 生成近似文本。
表2 美國(guó)《國(guó)會(huì)圖書(shū)分類(lèi)法》到《中圖法》的類(lèi)目映射表
2)隨機(jī)打亂文本詞序: 每個(gè)文本隨機(jī)打亂詞語(yǔ)順序, 合成新文本。
3)基于 word2vec 詞向量的近義詞替換: 預(yù)訓(xùn)練詞向量來(lái)自用 105MB 圖書(shū)標(biāo)題簡(jiǎn)介語(yǔ)料訓(xùn)練的詞向量項(xiàng)目?https://github.com/JiangYanting/Pretrained_gensim_word2vec。對(duì)于每個(gè)單詞數(shù)為的文本, 隨機(jī)選中 0.1(向上取整)個(gè)詞語(yǔ)(除部分連詞、介詞和冠詞等停用詞), 利用詞向量模型, 計(jì)算與詞語(yǔ)相似度最高的另一個(gè)詞語(yǔ)1。用詞語(yǔ)1替換, 生成新文本。
4)基于 WordNet 的近義詞替換: 方法與基于word2vec 詞向量的近義詞替換方法類(lèi)似, 只是在查找近義詞時(shí), 使用 WordNet 知識(shí)庫(kù)?https://wordnet.princeton.edu, 從單詞的Synonym set 中隨機(jī)選擇一個(gè)近義詞1, 用詞語(yǔ)1替換, 生成新文本。
5)基于 BERT 遮罩語(yǔ)言模型的新詞隨機(jī)插入: 利用 BERT 的遮蔽語(yǔ)言模型(masked language mo-del, MLM)機(jī)制, 對(duì)于單詞數(shù)為的原文本, 隨機(jī)將每個(gè)文本中 0.1(向上取整)個(gè)詞替換為[MASK]符號(hào), 使 BERT-base-uncased 模型完成完形填空任務(wù), 預(yù)測(cè)出可能的候選詞。為了不缺損原有信息, 將文本還原, 并在其末尾插入 MLM 預(yù)測(cè)的新詞語(yǔ)。若向上取整的 0.1大于 1, 則多次遮蔽原文本的單詞, 并預(yù)測(cè)新詞。
6)隨機(jī)插入其他種類(lèi)的標(biāo)點(diǎn)或其他詞性的功能詞: 將上述集合中的逗號(hào)、句號(hào)和問(wèn)號(hào)替換為左括號(hào)、單引號(hào)和雙引號(hào)。將集合中的連詞替換為助動(dòng)詞、介詞、冠詞和代詞等其他實(shí)義較弱的語(yǔ)法詞。將其隨機(jī)插入文本中, 生成新的訓(xùn)練樣本。
已標(biāo)注的中圖分類(lèi)號(hào)的英文圖書(shū)實(shí)驗(yàn)數(shù)據(jù)來(lái)自北京師范大學(xué)圖書(shū)館公開(kāi)的《外文圖書(shū)選購(gòu)目錄》。圖書(shū)領(lǐng)域涵蓋從“B 哲學(xué)”到“X 環(huán)境、安全科學(xué)”共 20 類(lèi)。為保證數(shù)據(jù)平衡, 對(duì)于圖書(shū)超過(guò) 2000冊(cè)的學(xué)科領(lǐng)域, 從中隨機(jī)抽取 2000 冊(cè)。對(duì)于不足2000 冊(cè)圖書(shū)的領(lǐng)域, 將該領(lǐng)域的所有圖書(shū)信息納入實(shí)驗(yàn)數(shù)據(jù)。最終, 除 V 航空航天、U 交通運(yùn)輸、N 自科總論和 E 軍事 4 類(lèi)圖書(shū)數(shù)量分別為 684, 833, 562 和 1430 冊(cè)(少于 2000 冊(cè))外, 其余 16 類(lèi)圖書(shū)數(shù)量均為 2000 冊(cè)。數(shù)據(jù)集共包含 35509 冊(cè)圖書(shū)。
如 1.1 節(jié)所述, 北京師范大學(xué)圖書(shū)館公開(kāi)的外文圖書(shū)選購(gòu)目錄下, 每?jī)?cè)圖書(shū)沒(méi)有標(biāo)引關(guān)鍵詞和主題詞。因此如圖 1 所示, 我們采用 TextRank 方法, 從簡(jiǎn)介文本中提取出若干關(guān)鍵詞, 與書(shū)名字段一起作為輸入模型的文本。按 20%的比例, 從 35509 冊(cè)文獻(xiàn)中劃分出測(cè)試集 7102 冊(cè)。測(cè)試集中各類(lèi)文獻(xiàn)數(shù)量的比例與訓(xùn)練集一致。在文本增強(qiáng)過(guò)程中, 我們只擴(kuò)充訓(xùn)練和驗(yàn)證集, 測(cè)試集始終不變。
我們將每?jī)?cè)文獻(xiàn)的標(biāo)題和關(guān)鍵詞作為輸入模型的文本。實(shí)驗(yàn)所用的 GPU 為一塊 RTX 2080Ti, Cuda 版本為 10.2。各模型參數(shù)設(shè)置如下: 支持向量機(jī)的種類(lèi)為線(xiàn)性 SVM; 隨機(jī)森林的分類(lèi)樹(shù)數(shù)量上限為 200; Fasttext 模型詞向量維數(shù)為 300, 學(xué)習(xí)率為0.1, N-gram 參數(shù)為 2-gram, 損失函數(shù)為Softmax。3種預(yù)訓(xùn)練模型的初始學(xué)習(xí)率均為 2×10–5, batch size為 32, 從訓(xùn)練集中切分出驗(yàn)證集的比例為 10%。模型均采用早停策略, 訓(xùn)練到損失(loss)在驗(yàn)證集上不再下降為止。測(cè)試集上的正確率(Acc)和宏 F1 (Macro- F1)分?jǐn)?shù)表現(xiàn)如表 3 所示。
從表 3 可以發(fā)現(xiàn), 首先, 無(wú)論文本預(yù)處理時(shí)是否詞干化, 基于一元語(yǔ)法的 Random Forests 和 SVM的分類(lèi)效果都比較差, 而 Fasttext 模型在詞干化后, Acc 與 Macro-F1 有所提升, 但是與 BERT 等預(yù)訓(xùn)練模型相比仍有差距。其次, 在 3 個(gè)預(yù)訓(xùn)練模型中, BERT-base-uncased 均取得最佳效果。壓縮蒸餾的 DistilBERT 雖然模型大小只有 BERT-base-uncased的約 60%, 但其表現(xiàn)與后者相差無(wú)幾。SCI-BERT雖然曾在 114 萬(wàn)篇英文論文語(yǔ)料上預(yù)訓(xùn)練, 但其表現(xiàn)不及另外兩個(gè)預(yù)訓(xùn)練模型。我們推測(cè)有如下兩這方面的原因。第一, SCI-BERT 的預(yù)訓(xùn)練論文的分布不平衡。SCI-BERT 的 114 萬(wàn)篇預(yù)訓(xùn)練論文, 有18%來(lái)自計(jì)算機(jī)科學(xué), 其余 82%來(lái)自生物醫(yī)學(xué)領(lǐng)域, 缺乏其他領(lǐng)域的語(yǔ)料[31]。在各類(lèi)的 F1 值表現(xiàn)方面, SCI-BERT 也只有 O 數(shù)理類(lèi)、T 工業(yè)技術(shù)類(lèi)和 Q 生物科學(xué)類(lèi)超過(guò) BERT-base-uncased, 其余類(lèi)別的表現(xiàn)皆低于 BERT-base-uncased。第二, 用于預(yù)訓(xùn)練的論文, 其風(fēng)格與圖書(shū)數(shù)據(jù)集中的標(biāo)題和簡(jiǎn)介語(yǔ)體不盡相同。基于 BERT-base-uncased 模型分類(lèi)時(shí), 各類(lèi)的 F1 分?jǐn)?shù)如圖 2 所示。
表3 基于原始文獻(xiàn)數(shù)據(jù)的分類(lèi)實(shí)驗(yàn)結(jié)果(%)
由圖 2 可以發(fā)現(xiàn), 首先, 在數(shù)據(jù)總規(guī)模均為2000 冊(cè)的情況下, H 語(yǔ)言文字、S 農(nóng)業(yè)、O 數(shù)理科學(xué)和化學(xué)的分類(lèi)表現(xiàn)較好。U 交通運(yùn)輸和 E 軍事類(lèi)的圖書(shū)雖然分別只有 833 和 1430 冊(cè), 但仍居分類(lèi)效果前五位。第二, D 政治法律、T 工業(yè)技術(shù)、C 社科總論和 K 歷史地理四類(lèi)雖然各有 2000 冊(cè)圖書(shū)的數(shù)據(jù), 但分類(lèi)的 F1 分?jǐn)?shù)均低于 70%, 說(shuō)明它們的圖書(shū)主題較為廣泛和分散, 達(dá)到相同分類(lèi)效果需要比其他類(lèi)別更多的訓(xùn)練數(shù)據(jù)。第三, N 自科總論的分類(lèi)效果最不理想, 一方面是由于數(shù)據(jù)量不足造成(N類(lèi)圖書(shū)僅 562 冊(cè), 另一方面也有該類(lèi)本身定位和特征的因素: 自然科學(xué)總論是對(duì)具體各類(lèi)自然科學(xué)門(mén)類(lèi)的抽象綜合和概述, 還涉及科學(xué)技術(shù)史、系統(tǒng)科學(xué)和非線(xiàn)性科學(xué), 不可避免地與 O, P, Q 和 X 等具體門(mén)類(lèi)存在千絲萬(wàn)縷的關(guān)系, 導(dǎo)致分類(lèi)難度較大。
在文本增強(qiáng)實(shí)驗(yàn)中, 我們繼續(xù)使用表現(xiàn)最佳的BERT-base-uncased 模型。從表 4 可以看出, BERT- base-uncased 模型的效果隨圖書(shū)簡(jiǎn)介關(guān)鍵詞個(gè)數(shù)的變化而變化。當(dāng)關(guān)鍵詞在 20 個(gè)以上時(shí), 效果提升不再明顯。因此在后續(xù)實(shí)驗(yàn)中, 我們用 TextRank 從每?jī)?cè)圖書(shū)簡(jiǎn)介里提取最多 20 個(gè)關(guān)鍵詞, 與書(shū)名一起作為輸入文本。
基于圖情領(lǐng)域文本增強(qiáng) 1 方法, 我們將 19870冊(cè)英文圖書(shū)的《國(guó)會(huì)圖書(shū)分類(lèi)法》分類(lèi)號(hào)轉(zhuǎn)換為中圖一級(jí)分類(lèi)號(hào), 并從中提取分類(lèi)效果較弱的 K 歷史地理、C 社科總論、T 工業(yè)技術(shù)、D 政治法律和 Q生物科學(xué)等 10 類(lèi)共 3465 冊(cè)英文圖書(shū)的信息, 補(bǔ)充到訓(xùn)練集中?;趫D情領(lǐng)域文本增強(qiáng) 2 方法, 我們利用中英平行的《主題詞表》, 搜尋匹配訓(xùn)練集、驗(yàn)證集和測(cè)試集中的術(shù)語(yǔ), 給術(shù)語(yǔ)所在的文本增添《中圖法》大類(lèi)的關(guān)鍵詞, 在不增添新訓(xùn)練樣本的條件下, 增強(qiáng)原始數(shù)據(jù)集中各文本的語(yǔ)義信息。表5 列出 BERT 在文本增強(qiáng)后的效果優(yōu)化情況。
由表 5 可知, 經(jīng)由類(lèi)目映射擴(kuò)充弱勢(shì)類(lèi)以及《主題詞表》語(yǔ)義增強(qiáng)后, 圖書(shū)分類(lèi)的結(jié)果均有所上升。專(zhuān)門(mén)擴(kuò)充效果較差的弱勢(shì)類(lèi), 宏 F1 值上升較為明顯, 類(lèi)別不平衡問(wèn)題有所緩解。如果直接將19870 冊(cè)類(lèi)目映射后的圖書(shū)信息全部加入訓(xùn)練集, 分類(lèi)的表現(xiàn)反而下滑。這可能是由于 19870 冊(cè)圖書(shū)中, I 文學(xué)類(lèi)占絕大多數(shù)(15575 冊(cè)), 而文學(xué)類(lèi)的分類(lèi)效果相對(duì)較強(qiáng), 大規(guī)模擴(kuò)充強(qiáng)勢(shì)類(lèi)別的文本, 會(huì)加劇數(shù)據(jù)不平衡, 淹沒(méi)弱勢(shì)類(lèi)文本擴(kuò)充的效果。
圖2 基于BERT的各類(lèi)別文獻(xiàn)分類(lèi)的F1分?jǐn)?shù)
表4 基于BERT的分類(lèi)效果隨TextRank提取的關(guān)鍵詞個(gè)數(shù)變化情況(%)
我們使用文本隨機(jī)插入標(biāo)點(diǎn)方法, 給每個(gè)文本生成一個(gè)新文本, 使整個(gè)訓(xùn)練集規(guī)模擴(kuò)大一倍, 同時(shí)比較其余 6 種文本增強(qiáng)方法的效果。實(shí)驗(yàn)結(jié)果如表 6 所示。
由表 6 可知, 第一, 在 11 種策略里, 隨機(jī)插入標(biāo)點(diǎn)的策略 6 表現(xiàn)最佳, 正確率與宏 F1 值分別提升2.14 和 2.34 個(gè)百分點(diǎn), 優(yōu)于機(jī)器翻譯回譯方法、詞序隨機(jī)交換方法、基于 BERT 的 MLM 新詞插入方法以及基于 word2vec 或 WordNet 的近義詞替換方法。策略 7 中, 將插入文本的逗號(hào)、句號(hào)和問(wèn)號(hào)改為左括號(hào)、雙引號(hào)和單引號(hào)后的效果卻有所下降。第二, 在近義詞替換的策略方面, 基于 WordNet 的方法優(yōu)于基于 word2vec 詞向量的方法。這里由于WordNet 作為人工構(gòu)建的知識(shí)庫(kù), 對(duì)近義詞的選取比詞向量更加嚴(yán)格精準(zhǔn)。第三, 在隨機(jī)插入一些意義較虛的語(yǔ)法詞的策略方面, 隨插入詞性的不同, 總體效果呈現(xiàn)出連詞最佳, 冠詞代詞與介詞次之, 助動(dòng)詞最差的情況。其中, 向文本隨機(jī)插入連詞的策略 8 的效果與策略 6 相差無(wú)幾。
在類(lèi)目映射擴(kuò)充弱勢(shì)類(lèi)文本的基礎(chǔ)上, 通過(guò)策略 6 隨機(jī)插入標(biāo)點(diǎn)和策略 8 隨機(jī)插入連詞, 使訓(xùn)練集和驗(yàn)證集文本總數(shù)達(dá)到 95616, 變?yōu)樵瓉?lái)的 3倍。最后, 查找每個(gè)文本存在于《主題詞表》的學(xué)科術(shù)語(yǔ), 增強(qiáng)每個(gè)文本的語(yǔ)義。模型在測(cè)試集上的正確率和宏 F1 值分別達(dá)到 76.84%和 76.41%, 比文本增強(qiáng)前(表 4 關(guān)鍵詞數(shù)目為 20)分別提升 3.61 和3.35 個(gè)百分點(diǎn)。
向原文本隨機(jī)插入標(biāo)點(diǎn)或連詞的策略較為簡(jiǎn)便, 其表現(xiàn)卻超越基于模型、算法、知識(shí)庫(kù)的其他文本增強(qiáng)方法, 我們認(rèn)為這與 BERT 模型中這些字符/詞的初始表示有關(guān)。本文提取 BERT 模型頂層的若干詞語(yǔ)和字符的 768 維向量, 通過(guò)主成分分析降至2 維投影至平面, 結(jié)果如圖 3 所示。
表5 類(lèi)目映射和《主題詞表》語(yǔ)義增強(qiáng)后的效果上升幅度
表6 一般領(lǐng)域的文本增強(qiáng)策略效果比較
由圖 3 可知, 無(wú)論是標(biāo)點(diǎn)符號(hào), 還是連詞、介詞、助動(dòng)詞和冠詞等一些語(yǔ)法詞, 其向量表示與“math”“medical”“military”“geography”等與特定學(xué)科關(guān)聯(lián)緊密的主題詞界限明顯, 句號(hào)、問(wèn)號(hào)、分號(hào)和感嘆號(hào)等標(biāo)點(diǎn)與學(xué)科主題詞的距離尤其遠(yuǎn), 意味著其向量表示與具體的學(xué)科主題無(wú)關(guān)?;谟⑽木S基百科等海量語(yǔ)料, 在 BERT 完型填空式的預(yù)訓(xùn)練階段, 標(biāo)點(diǎn)和功能詞也參與預(yù)訓(xùn)練, 但由于標(biāo)點(diǎn)符號(hào)和語(yǔ)法詞缺乏實(shí)義, 與它們共現(xiàn)的詞語(yǔ)種類(lèi)眾多, 分布規(guī)律不明顯。我們采集 909MB 的維基百科語(yǔ)料為樣本, 統(tǒng)計(jì)部分字符與詞語(yǔ)相鄰的字符/詞頻次(“相鄰”界定在左右各 3 個(gè)詞的范圍內(nèi)), 并依據(jù)每個(gè)字符/詞所鄰接字符詞的頻率分布情況, 計(jì)算其信息熵(information entropy)并降序排列, 結(jié)果如表 7 所示。
從表 7 可以看出, 除單雙引號(hào)外, 大多數(shù)標(biāo)點(diǎn)符號(hào)、連詞和助動(dòng)詞的相鄰字詞種類(lèi)和信息熵都高于“economy”“math”“l(fā)inguistics”等反映特定學(xué)科領(lǐng)域的詞語(yǔ)。在標(biāo)點(diǎn)符號(hào)方面, 逗號(hào)、句號(hào)和問(wèn)號(hào)的信息熵明顯高于左括號(hào)、單引號(hào)和雙引號(hào), 從而解釋了表 6 中策略 6 的效果優(yōu)于策略 7 的原因: 前三者作為適量的噪聲信息, 鄰接字符/詞分布更加復(fù)雜, 不確定性更強(qiáng)。后三者中的單雙引號(hào)往往成對(duì)出現(xiàn), 且常與“say”等表示說(shuō)話(huà)的單詞共現(xiàn), 意味著前三者的向量表示比后三者更加中立, 無(wú)偏向。
圖3 來(lái)自 BERT-base-uncased 頂層的字詞向量可視化示意圖
表7 部分字詞的相鄰字詞與信息熵統(tǒng)計(jì)
在語(yǔ)法詞方面, 對(duì)比表 6 中策略 8 與策略 10 可知, 隨機(jī)插入連詞的策略明顯優(yōu)于隨機(jī)插入助動(dòng)詞, 但在表 7 中, 6 個(gè)連詞的信息熵并不總高于 4 個(gè)助動(dòng)詞。我們認(rèn)為這可以從語(yǔ)法的角度解釋: 根據(jù)Zhou 等[32]對(duì) BERT 的探針(probing)實(shí)驗(yàn), 即使在不微調(diào)(fine-tune)參數(shù)的情況下, 模型在詞性標(biāo)注任務(wù)中已能取得超過(guò) 93%的正確率, 十分接近微調(diào)的表現(xiàn)。因此, BERT 在相當(dāng)程度上學(xué)習(xí)了單詞的詞性和語(yǔ)法信息。如果向文本隨機(jī)插入助動(dòng)詞、冠詞和介詞, 則文本產(chǎn)生主謂不一致、動(dòng)詞連用、語(yǔ)法角色錯(cuò)誤以及搭配不合語(yǔ)法的概率較大。連詞的主要功能是在詞與詞、短語(yǔ)與短語(yǔ)、句子與句子之間起連綴作用, 尤其在本文中用 TextRank 提取了若干關(guān)鍵詞的情況下, 在關(guān)鍵詞之間插入連詞對(duì)文本原本語(yǔ)法結(jié)構(gòu)的擾動(dòng)相對(duì)較小, 造成嚴(yán)重語(yǔ)法錯(cuò)誤的可能性較低。另外, 連詞的相鄰字詞種類(lèi)和信息熵指標(biāo)都不低, 表 6 中插入連詞的文本增強(qiáng)效果優(yōu)于插入其他語(yǔ)法詞的現(xiàn)象也在一定程度上得以解釋。
本文通過(guò)對(duì)圖書(shū)館和文獻(xiàn)數(shù)據(jù)庫(kù)的實(shí)際調(diào)研, 基于預(yù)訓(xùn)練語(yǔ)言模型 BERT, 結(jié)合圖書(shū)情報(bào)(圖情)領(lǐng)域與一般領(lǐng)域的文本增強(qiáng)方法, 針對(duì)面向《中圖法》的英文圖書(shū)自動(dòng)分類(lèi)進(jìn)行探索。首先利用TextRank 從圖書(shū)簡(jiǎn)介中提取關(guān)鍵詞, 與書(shū)名一起作為輸入, 然后在 BERT 文本分類(lèi)模型下, 對(duì)比多種文本增強(qiáng)方法, 證明了圖情領(lǐng)域的類(lèi)目映射、《主題詞表》語(yǔ)義增強(qiáng)與一般領(lǐng)域的標(biāo)點(diǎn)和連詞隨機(jī)插入策略的有效性。綜合上述 4 種文本增強(qiáng)策略, 模型在測(cè)試集上的正確率和宏 F1 值分別提升 3.61和 3.35 個(gè)百分點(diǎn)。插入分布情況多樣、信息熵較高的標(biāo)點(diǎn)符號(hào)和連詞, 可在不造成文本語(yǔ)法嚴(yán)重錯(cuò)誤的情況下, 為文本提供語(yǔ)義均衡的適量的噪聲信息, 從而防止文本分類(lèi)模型過(guò)擬合, 改進(jìn)模型的表現(xiàn)。
在未來(lái)的工作中, 我們計(jì)劃擴(kuò)大數(shù)據(jù)集規(guī)模, 結(jié)合更多種類(lèi)的文本增強(qiáng)方法, 以期進(jìn)一步優(yōu)化英文圖書(shū)的中圖分類(lèi)號(hào)自動(dòng)標(biāo)注效果。
致謝感謝中國(guó)電子科技集團(tuán)第十研究所提供服務(wù)器支持。
[1]中國(guó)圖書(shū)進(jìn)出口(集團(tuán))總公司. 海外圖書(shū)采選系統(tǒng)[EB/OL]. (2022–07–03) [2022–07–17]. https://www. cnpbook.com/
[2]北京大學(xué)圖書(shū)館. 新書(shū)通報(bào)[EB/OL] (2022–06–29)[2022–07–09]. http://newbooks.lib.pku.edu.cn/index.jsp
[3]曹曉寬. 如何提高英文圖書(shū)分類(lèi)標(biāo)引的效率. 農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊, 2009, 21(8): 74–78
[4]中國(guó)圖書(shū)館分類(lèi)法編輯委員會(huì). 中國(guó)圖書(shū)館分類(lèi)法簡(jiǎn)本. 5 版. 北京: 國(guó)家圖書(shū)館出版社, 2012
[5]周沫. 《中圖法(第五版)》在西文編目中的應(yīng)用與發(fā)展. 江蘇科技信息, 2011(7): 51–53
[6]李景, 錢(qián)平. 敘詞表與本體的區(qū)別與聯(lián)系. 中國(guó)圖書(shū)館學(xué)報(bào), 2004, 30(1): 38–41
[7]中國(guó)圖書(shū)館分類(lèi)法編輯委員會(huì). 《中國(guó)圖書(shū)館分類(lèi)法》[EB/OL]. (2010–03–17) [2022–07–11]. http:// clc.nlc.cn/ztfzfbgk.jsp
[8]中國(guó)科學(xué)技術(shù)信息研究所. 《漢語(yǔ)主題詞表》服務(wù)系統(tǒng)[EB/OL]. (2017–01–01) [2022–07–09]. https:// ct.istic.ac.cn/site/organize/word
[9]The Library of Congress. Introduction to library of congress subject headings [EB/OL]. (2011–04–26)[2022–07–09]. https://id.loc.gov/authorities/subjects. html
[10]邊釗, 唐娉, 閆珺. 關(guān)鍵詞規(guī)范化對(duì)文獻(xiàn)主題信息挖掘的影響——以遙感領(lǐng)域?yàn)槔? 中國(guó)科技期刊研究, 2021, 32(12): 1535–1548
[11]王昊, 嚴(yán)明, 蘇新寧. 基于機(jī)器學(xué)習(xí)的中文書(shū)目自動(dòng)分類(lèi)研究. 中國(guó)圖書(shū)館學(xué)報(bào), 2010, 36(6): 28–39
[12]倪斌, 陸曉蕾, 童逸琦, 等. 膠囊神經(jīng)網(wǎng)絡(luò)在期 刊文本分類(lèi)中的應(yīng)用. 南京大學(xué)學(xué)報(bào)(自然科學(xué)), 2021, 57(5): 750–756
[13]De Luca E, Fallucchi F, Morelato R. Teaching an algorithm how to catalog a book. Computers, 2021, 10(11): No. 155
[14]鄧三鴻, 傅余洋子, 王昊. 基于 LSTM 模型的中文圖書(shū)多標(biāo)簽分類(lèi)研究. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2017, 1(7): 52–60
[15]蔣彥廷, 胡韌奮. 基于 BERT 模型的圖書(shū)表示學(xué)習(xí)與多標(biāo)簽分類(lèi)研究. 新世紀(jì)圖書(shū)館, 2020(9): 38–44
[16]李湘東, 石健, 孫倩茹, 等. 基于 BERT-MLDFA 的內(nèi)容相近類(lèi)目自動(dòng)分類(lèi)研究——以《中圖法》E271和 E712.51 為例. 數(shù)字圖書(shū)館論壇, 2022(2): 18–25
[17]張智雄, 趙旸, 劉歡. 構(gòu)建面向?qū)嶋H應(yīng)用的科技 文獻(xiàn)自動(dòng)分類(lèi)引擎[J/OL]. 中國(guó)圖書(shū)館學(xué)報(bào), 2022[2022–08–03]. http://kns.cnki.net/kcms/detail/11.2746. G2.20220624.1437.002.html
[18]Frank E, Paynter G. Predicting library of congress classifications from library of congress subject hea-dings. Journal of the American Society for Information Science and Technology, 2004, 55(3): 214–227
[19]Wei J, Zou K. EDA: easy data augmentation tech-niques for boosting performance on text classification tasks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, Hong Kong, 2019: 6382–6388
[20]Wu X, Lv S, Zang L, et al. Conditional BERT contex-tual augmentation [EB/OL]. (2018–12–17)[2022–08–03]. https://arxiv.org/abs/1812.06705v1
[21]Karimi A, Rossi L, Prati A. AEDA: an easier data augmentation technique for text classification // Pro-ceedings of the 2021 Conference on Empirical Me-thods in Natural Language Processing. Punta Cana, 2021: 2748–2754
[22]Luque F M. Atalaya at TASS 2019: data augmentation and robust embeddings for sentiment analysis [EB/ OL]. (2019–09–25) [2022–08–03]. https://arxiv.org/ abs/1909.11241
[23]張衛(wèi), 王昊, 陳玥彤, 等. 融合遷移學(xué)習(xí)與文本增強(qiáng)的中文成語(yǔ)隱喻知識(shí)識(shí)別與關(guān)聯(lián)研究. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2022, 6(Z1): 167–183
[24]Ren S, Zhang J, Li L, et al. Text autoaugment: learning compositional augmentation policy for text classification // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Proces-sing (EMNLP 2021). Punta Cana, 2021: 9029–9043
[25]Zhang B, Sun W, Wan X, et al. PKU paraphrase bank: a sentence-level paraphrase corpus for Chinese // CCF International Conference on Natural Language Pro-cessing and Chinese Computing, Dunhuang, 2019: 814–826
[26]Mihalcea R, Tarau P. TextRank: bringing order into text // Proceedings of Empirical Methods in Natural Language Processing. Barcelona, 2004: 404–411
[27]Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification [EB/OL]. (2016–08–09) [2022–08–03]. https://arxiv.org/abs/1607.01759
[28]Schuster M, Nakajima K. Japanese and Korean voice search // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto, 2012: 5149–5152
[29]童劉奕, 張鵬翼. 《中國(guó)圖書(shū)館分類(lèi)法》和《美國(guó)國(guó)會(huì)圖書(shū)館圖書(shū)分類(lèi)法》人工映射分析與差異性探究. 數(shù)字圖書(shū)館論壇, 2018(3): 53–58
[30]蔣彥廷, 吳鈺潔. 英文文獻(xiàn)的《中圖法》分類(lèi)號(hào)自動(dòng)標(biāo)注研究——基于文本增強(qiáng)與類(lèi)目映射策略. 數(shù)字圖書(shū)館論壇, 2022(5): 39–46
[31]Beltagy I, Lo K, Cohan A. SciBERT: a pretrained language model for scientific text // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP- IJCNLP). HongKong, 2019: 3615–3620
[32]Zhou Y, Srikumar V. A closer look at how fine-tuning changes BERT // Proceedings of the 60th Annual Meeting of the Association for Computational Ling-uistics. Dublin, 2022: 1046–1061
English Books Automatic Classification According to CLC
JIANG Yanting1,2
1. Sichuan Hydrological and Water Resources Survey Center, Chengdu 610036; 2. CPC Party School of Jintang County, Chengdu 610400; E-mail: jiangyanting@mail.bnu.edu.cn
Faced with lacking of English books annotated with CLC (Chinese Library Classification) label and imbalance data, this paper combines augmentation strategies from library, information and general fields: 1) classification mapping from Library of Congress Classification (LCC) to CLC; 2) semantic enhancement based on Chinese-English parallel thesaurus; 3) punctuation or 4) conjunction inserting to initial texts. Experiments show that combining 4 strategies can optimize the performance of models on test set. Accuracy and Macro-F1 respectively increase by 3.61 and 3.35 percentage points. Comprehensive methods is superior to other text enhancement strategies. By BERT word embeddings visualization and words information entropy computing, this paper inferred that the reason why punctuation or conjunction inserting works was the various adjacent words and connection function in grammar.
pre-trained language models; Chinese Library Classification; classification mapping; Chinese thesaurus; text augmentation.