国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT模型的圖書表示學(xué)習(xí)與多標(biāo)簽分類研究

2020-11-23 02:03:14蔣彥廷胡韌奮
新世紀(jì)圖書館 2020年9期
關(guān)鍵詞:深度學(xué)習(xí)

蔣彥廷 胡韌奮

摘 要 中文圖書細(xì)粒度多標(biāo)簽分類的自動化,有利于促進(jìn)圖書的檢索與學(xué)科的溝通。文章充分發(fā)揮BERT語言模型的微調(diào)特性,提出一種通過21類粗粒度分類微調(diào)語言模型,學(xué)習(xí)到更好的圖書表示,進(jìn)而實現(xiàn)細(xì)粒度分類的新策略。結(jié)果顯示,在單標(biāo)簽的分類任務(wù)上,BERT模型的正確率分別較LSTM與Fasttext模型提升約4.9%與2.0%。KNN-ML對257類的細(xì)粒度多標(biāo)簽分類證明了前期微調(diào)的有效性。最佳情況下,有75.82%的圖書細(xì)粒度類別恰好全部預(yù)測正確,92.10%的圖書至少被正確預(yù)測了一個細(xì)粒度類別。因此可以得出結(jié)論,該系統(tǒng)有助于實現(xiàn)圖書自動的細(xì)粒度歸類,并幫助圖書標(biāo)引者補(bǔ)充合理的分類號。

關(guān)鍵詞 中文圖書 BERT模型 深度學(xué)習(xí) 微調(diào)策略 多標(biāo)簽分類

分類號 G254.1

DOI 10.16810/j.cnki.1672-514X.2020.09.007

Representation Learning and Multi-label Classification of Books Based on BERT

Jiang Yanting, Hu Renfen

Abstract The automation of the fine-grained multi-label classification of Chinese books is beneficial to the book index and subject communication. This paper makes full use of fine-tuning of BERT model and puts forward a novel strategy which fine-tunes the model on the coarse-grained classification task to learn a better book representation, and then completes the multi-label classification. The result shows that on the single-label classification, the accuracy of BERT has increased by about 4.9% and 2.0% compared with LSTM and Fasttext. The classification result of KNN-ML indicates the effectiveness of fine-tuning. Under the best situation, 75.82% of books are correctly sorted out, and 92.10% of books are predicted with at least one correct label. It draws a conclusion that this system is of great benefit to automatic fine-grained classification, and can help book annotators replenish the potential missing category code.

Keywords Chinese books. BERT. Deep learning. Fine tuning. Multi-label classification.

中國近年來的圖書出版規(guī)模十分可觀。據(jù)統(tǒng)計,2016至2018年國內(nèi)年均申報各類圖書選題29.5萬余種[1]。伴隨各學(xué)科的發(fā)展與相互交融,越來越多跨學(xué)科、邊緣學(xué)科、復(fù)合視野的研究成果以圖書的形式呈現(xiàn)出來。這意味著用《中國圖書館分類法》(以下簡稱《中圖法》)中的單一類別標(biāo)簽,已難以全面、準(zhǔn)確地概括它們的主題與內(nèi)容。然而囿于有限的精力與知識面,人工編制的圖書在版編目(Cataloguing In Publication, CIP)給大多數(shù)圖書只指定了1個分類標(biāo)引,這在一定程度上限制了圖書的檢索與學(xué)科間的交流。因此,如何利用信息技術(shù),自動補(bǔ)全原有圖書可能缺失的分類號,并實現(xiàn)新圖書自動的、細(xì)粒度歸類,打通各專業(yè)學(xué)科之間的屏障,是圖書情報領(lǐng)域值得研究的課題。圖書自動分類是文本分類(Text Classification)的一個子領(lǐng)域,與其他類型的文本相比,學(xué)界對中文圖書分類的研究相對較少。本文擬嘗試一種基于BERT語言模型的模型的圖書的粒度分類引法來解決自動分類中存在的問題。

1 相關(guān)研究回顧

在以往的成果中,中文圖書分類的方法主要分為兩種。一是基于特征工程的經(jīng)典機(jī)器學(xué)習(xí)方法,二是自動編碼提取特征的深度學(xué)習(xí)方法。前者如王昊等[2]在特征加權(quán)的基礎(chǔ)上,采用支持向量機(jī)(SVM),構(gòu)建了一個淺層的中文圖書分類模型;劉高軍等[3]、潘輝[4]混合采用TF-IDF、隱含狄利克雷分布(LDA)主題模型抽取圖書特征,采用極限學(xué)習(xí)機(jī)算法實現(xiàn)圖書分類。后者以鄧三鴻、傅余洋子[5]等的研究為代表,基于字嵌入與LSTM模型,通過構(gòu)造多個二元分類器,對5類圖書進(jìn)行多標(biāo)簽分類實驗。總的來看,目前的研究還存在提升的空間。第一,實驗數(shù)據(jù)集涉及的類別較少,未反映出《中圖法》的基本面貌。第二,總體上缺乏對圖書多標(biāo)簽分類的關(guān)注,既有的圖書多標(biāo)簽分類方法存在計算開銷大、類別不均衡的問題。第三,圖書分類號的精細(xì)程度與分類器的性能難以兼得?!吨袌D法》是一個樹狀的、多層次的圖書分類體系,如果只將一級大類作為分類標(biāo)簽,分類器無法預(yù)測更加具體的分類號;如果采用層次化的細(xì)粒度分類,則會存在類別過多、數(shù)據(jù)稀疏等問題[6],且難以顧及兼類的圖書。因此,如何細(xì)粒度地、準(zhǔn)確地預(yù)測圖書的分類號,是亟待探研的問題。

近年來,自然語言處理界以ELMo[7]、BERT[8]為代表的深度預(yù)訓(xùn)練語言模型(Pre-trained Language Model)極大改善了文本語義表示的效果,并在文本分類等各項下游任務(wù)中取得了明顯突破。預(yù)訓(xùn)練語言模型應(yīng)用于下游任務(wù),主要分為兩種策略:一是基于特征的(Feature-based)策略,將固定的語言特征向量從模型中提取出來,以ELMo為代表;二是微調(diào)(Fine-tuning)策略,一方面,模型頂部接入著眼于具體任務(wù)的分類層,另一方面,語言模型所有的參數(shù)也隨著下游任務(wù)的訓(xùn)練適度優(yōu)化,以BERT為代表[8]。由此,我們嘗試提出一種基于BERT語言模型的圖書細(xì)粒度分類的方法,首先尊重并充分利用原有的圖書信息及分類標(biāo)簽,通過進(jìn)一步預(yù)訓(xùn)練(Further Pre-training)與粗粒度的分類任務(wù),讓BERT模型微調(diào)經(jīng)由圖書向量相似度計算,實現(xiàn)圖書的細(xì)粒度分類。

2 BERT模型介紹

BERT (Bidirectional Encoder Representations from Transformers)是一種基于Transformer架構(gòu)的深度預(yù)訓(xùn)練語言模型,其結(jié)構(gòu)主要如圖1所示。

以中文預(yù)訓(xùn)練模型為例,圖1的E1,E2,…EN表示在首尾分別添加[CLS]和[SEP]標(biāo)記的文本字符。它們依次經(jīng)過12層雙向的Transformer(Trm)編碼器,就可以得到文本字符語境化的向量表示(Contextual Embeddings)。Transformer是一個基于自注意力(Self-attention)機(jī)制的編碼-解碼器。最底層的Transformer編碼器的輸入為字符向量、字符位置向量與句子片段向量之和。模型內(nèi)每一層均由多頭自注意力(Multi-head Self-attention) 和前饋神經(jīng)網(wǎng)絡(luò)(Feed-forward Neural Networks)兩部分構(gòu)成,前者使編碼器在給每個字符編碼時,能關(guān)注到周圍其他字符的信息;后者用于增強(qiáng)模型的擬合能力。模型的每一層經(jīng)過一個相加與歸一化(Add & Norm)操作后,生成新的字符向量,作為下一層編碼器的輸入。頂層編碼器輸出的[CLS]標(biāo)記的編碼向量T1,可以視為整個句子的語義表征,用于后續(xù)的文本分類任務(wù)[9]。

另外,為增強(qiáng)語義表示的能力,BERT提出了遮罩語言模型(Masked LM, MLM)和下句預(yù)測(Next Sentence Prediction, NSP)的概念。MLM實質(zhì)是一個完型填空任務(wù),中文語料中15%的字會被選中,其中的80%被替換為[MASK],10%被隨機(jī)替換為另一個字,剩下的10%保持原字。模型需要經(jīng)由一個線性分類器,預(yù)測被選中的字。出于與后面任務(wù)保持一致的考慮,BERT需按一定的比例在預(yù)測的字的位置放置原字或者某個隨機(jī)字,使得模型更偏向于利用上下文信息預(yù)測被選中字。在下句預(yù)測任務(wù)中,模型選擇若干句子對,其中有50%的概率兩句相鄰,50%的概率兩句不相鄰。模型通過上述兩個目標(biāo)任務(wù),能夠較好地學(xué)習(xí)到字詞和句間的語義信息。

3 基于表示學(xué)習(xí)的圖書粗粒度分類

我們嘗試在圖書粗粒度分類任務(wù)上對模型進(jìn)行微調(diào)(Fine-tuning),提升預(yù)訓(xùn)練模型對圖書數(shù)據(jù)表示的準(zhǔn)確度,為后續(xù)的細(xì)粒度分類任務(wù)奠定基礎(chǔ)。首先進(jìn)行單標(biāo)簽分類,以測試BERT圖書分類的有效字段,檢驗進(jìn)一步預(yù)訓(xùn)練的效果,并與其他模型進(jìn)行比較;既而進(jìn)行多標(biāo)簽實驗并討論其實用性。本文的整體模型架構(gòu)如圖2所示。

3.1 數(shù)據(jù)集與實驗環(huán)境

圖書數(shù)據(jù)①廣泛采集自讀秀學(xué)術(shù)網(wǎng)站。考慮到Z類(綜合性圖書)主要包括辭典、類書、年鑒等類型,出版數(shù)量較少,字段缺失的情況較多,我們采集了A-X共21大類、132 803冊圖書的書名、主題詞、摘要、中圖分類號等字段。在這些圖書中,只有1個分類號的書為128 548冊,占比約96.8%;擁有2個分類號的書達(dá)4152冊,擁有3個及以上分類號的書為103冊。

實驗的操作環(huán)境為Ubuntu16.04.2LTS(GNU/Linux

4.8.0-36-genericx86_64),采用2塊1080ti型號的GPU,預(yù)訓(xùn)練語言模型為BERT基礎(chǔ)(BERT-base-Chinese)版②,為12層的Transformer模型,hidden size為768,自注意力機(jī)制的head數(shù)量為12,總參數(shù)量為110M。

3.2 單標(biāo)簽分類實驗

我們首先對只有1個分類號的圖書進(jìn)行實驗。具體到各類別的圖書數(shù)量如表1所示。

對于單標(biāo)簽文本分類任務(wù),BERT模型提取頂層的符號[CLS]的特征向量v(768維)作為整個文本的特征表示,再后接一個768*n的全連接層(Fully-connected layer)W(n為類別數(shù)量),最后通過softmax函數(shù)歸一化,輸出一個文本分別屬于各個類別的概率:

其中softmax函數(shù):

在訓(xùn)練過程中,模型會調(diào)整全連接層W以及BERT模型的參數(shù),使得正確標(biāo)簽所對應(yīng)的概率最大化。

在訓(xùn)練策略方面,我們將圖書數(shù)據(jù)集的順序隨機(jī)打亂,按8:1:1的比例劃分訓(xùn)練集、驗證集和測試集,并參考Sun(2019)等人[10]在BERT上的分類實驗經(jīng)驗,如下設(shè)置超參數(shù):學(xué)習(xí)率lr=2e-5,衰變因子ξ=0.95。此外,訓(xùn)練遵循早停(Early stopping)原則,當(dāng)模型的損失在驗證集上不再下降,就視為模型在驗證集上已經(jīng)收斂,可以停止訓(xùn)練。

如圖3所示,當(dāng)書名與主題詞字段作為分類字符串時,分類正確率比單一的書名大幅提升近8%。而在此基礎(chǔ)上加入出版社名、摘要等字段,分類正確率上升幅度不明顯,訓(xùn)練收斂需要的迭代次數(shù)卻逐漸增多。綜合考慮性能、訓(xùn)練次數(shù)與字段的常見性,我們認(rèn)為“書名+主題詞”能夠扼要地表示圖書的主要內(nèi)容,將它們作為后續(xù)實驗所用的字段,將對應(yīng)的分類實驗記為BERT-base-Chinese,作為后續(xù)實驗的參考。

在訓(xùn)練基本版BERT中文模型時,Devin 等[8]采用了字粒度的中文維基百科作為訓(xùn)練語料。Sun[10]等人檢驗了進(jìn)一步預(yù)訓(xùn)練(Further pre-train)該語言模型對文本分類的有效性。我們嘗試?yán)脠D書數(shù)據(jù)集增量訓(xùn)練語言模型??紤]到每一本書均表示為一個書名加若干主題詞、按字切分的短文本,我們只采用如前文所述的遮罩語言模型(Masked LM)的訓(xùn)練策略,選擇語料中15%的字進(jìn)行預(yù)測,一共訓(xùn)練5900步,得到增量訓(xùn)練后的語言模型。在此基礎(chǔ)上再進(jìn)行21類圖書的單標(biāo)簽分類實驗,記作BERT-Increse。另外,本文將鄧三鴻、傅余洋子等[5]提出的基于單向長短期記憶網(wǎng)絡(luò)(LSTM)的圖書分類模型,以及基于Facebook的Fasttext文本分類模型④作為基線(Baseline)模型。LSTM設(shè)置1層隱層,每個隱層含128個節(jié)點,并采用Adam優(yōu)化算法[11]與早停策略。Baseline與BERT-base-Chinese、BERT-Increse實驗均使用同樣比例與內(nèi)容的訓(xùn)練、驗證、測試數(shù)據(jù)。

如圖4所示,進(jìn)一步預(yù)訓(xùn)練的語言模型BERT-Incerse較BERT-base-Chinese能再獲得約0.23%的正確率提升,表明通過遮罩語言模型(Masked LM)增量訓(xùn)練BERT對于文本分類也具有一定的功效。BERT-Increse模型在驗證集上的正確率分別高出LSTM和Fasttext模型約4.9%與2.0%,并且前者需要訓(xùn)練的周期數(shù)比后者更少,這證明了我們基于BERT的圖書分類方法的有效性。

此外,如圖5所示,在具體圖書類別的F1值精度方面,A(馬列主義等)、J(藝術(shù))和U(交通運輸)三類圖書具有最佳的分類表現(xiàn),而T(工業(yè)技術(shù))、K(歷史、地理)和N(自然科學(xué)總論)三類圖書的分類F1值較低。這表明A、J、U類圖書至少在書名、關(guān)鍵詞上的分布較為集中。而T、K、N類圖書涉及的子領(lǐng)域較多,話題更為廣闊,數(shù)據(jù)相對稀疏。它們是人們進(jìn)一步優(yōu)化分類模型時,需要著重關(guān)注的對象。

3.3 多標(biāo)簽分類實驗

在單標(biāo)簽分類的基礎(chǔ)上,我們進(jìn)行多標(biāo)簽的分類實驗。除了前一小節(jié)所用的單標(biāo)簽數(shù)據(jù)外,又增加了4152冊兼類的圖書數(shù)據(jù)。雖然多標(biāo)簽的圖書占數(shù)據(jù)集圖書總數(shù)的比例較?。s3.2%),但圖書兼類情況錯綜復(fù)雜,種類高達(dá)181種。兼類最多的兩類情況是F兼D(經(jīng)濟(jì)類兼政法類)、R兼Q(醫(yī)藥衛(wèi)生類兼生物科學(xué)類),圖書分別達(dá)到124、105例。而兼類情況較少的如N兼I(自然科學(xué)總論類兼文學(xué)類)都僅有1例。這意味著在后續(xù)的多標(biāo)簽分類時,不宜簡單地將兼類的圖書單獨劃類,否則將面臨類別過多、數(shù)據(jù)稀疏的問題。

多標(biāo)簽分類是文本自動分類中的一個研究熱點與難點,其目的在于給測試集中每一個文本預(yù)測一個或多個可能的類別。根據(jù)假設(shè)的不同,以往的研究主要分為兩大類。第一,假設(shè)各類別相互獨立,不考慮類別之間的相關(guān)性,進(jìn)而運用3種具體的分類算法:(1)二元相關(guān)(Binary Relevance)算法[12],即把多標(biāo)簽分類轉(zhuǎn)化為多個二類分類任務(wù)。(2)基于K近鄰(KNN)改進(jìn)的惰性學(xué)習(xí)算法[13]。(3)調(diào)整損失函數(shù),獨立地計算、輸出一個文本屬于各類的概率[14]。第二,考慮標(biāo)簽兩兩之間的相關(guān)性,由此設(shè)計出排序支持向量機(jī)(Rank SVM)[15]、雙層的主題模型[16]等方法,以及基于深度學(xué)習(xí)序列生成的多標(biāo)簽分類方法[17]。具體到本任務(wù),由于圖書不存在諸如“屬于甲類就一定屬于乙類”或“屬于丙類就一定不屬于丁類”的情況,因此我們?nèi)约僭O(shè)21個圖書大類相互獨立,將損失函數(shù)調(diào)整為帶有sigmoid函數(shù)的二元交叉熵?fù)p失函數(shù)(Binary Cross Entropy with Logits Loss, BCE with Logits Loss),其中一個樣本的損失如下式計算[14]:

其中sigmoid函數(shù)n為類別總數(shù),xn是模型的輸出值,表示預(yù)測樣本屬于某一類別的概率;yn是樣本在某一類別下的真實標(biāo)簽,1表示屬于該類別,0表示不屬于該類別,是xn的優(yōu)化目標(biāo)。與單標(biāo)簽分類通常采用的softmax交叉熵?fù)p失函數(shù)不同的是,sigmoid函數(shù)使一個樣本屬于各類別的概率分布在(0,1)之間,且沒有進(jìn)行類別之間的歸一化,使各類別的概率之和可能大于1。這允許模型給每一個標(biāo)簽分配獨立的概率。在測試階段,模型將凡是概率大于50%的標(biāo)簽輸出,作為一個樣本多標(biāo)簽分類的預(yù)測結(jié)果。

我們基于上文BERT-Increse實驗的模型進(jìn)行多標(biāo)簽分類的微調(diào)。整個數(shù)據(jù)集按約8:1:1的比例劃分訓(xùn)練集、驗證集、測試集,一共訓(xùn)練2個epoch使模型在驗證集上的損失收斂。模型在測試集13334個樣本上預(yù)測的結(jié)果如表2所示。

值得注意的是,在符合情況(3)的165例樣本里,一些預(yù)測雖然比實際標(biāo)簽數(shù)更多,但經(jīng)人工檢查發(fā)現(xiàn),這些與實際標(biāo)簽不一致的預(yù)測也有其合理性,部分例子如表3所示。

從表3中不難發(fā)現(xiàn),機(jī)器多預(yù)測出的一些分類號其實無可厚非。例如《形式語言與自動機(jī)第2版》,其中論述的形式文法和自動機(jī),既是程序語言編譯技術(shù)的重要理論基礎(chǔ),可歸為工業(yè)技術(shù)類下轄的TP類(計算機(jī)、自動化技術(shù));又是形式語言學(xué)、轉(zhuǎn)換生成語法等語言學(xué)流派的研究內(nèi)容,也可歸為H語言文字類下轄的H087(數(shù)理語言學(xué))類,宜按互見分類處理。經(jīng)過人工檢查統(tǒng)計,這165例樣本中,至少有81%的預(yù)測有一定的合理性。這一方面表明基于BERT的粗粒度、多標(biāo)簽分類已具有一定的實用性,可以初步預(yù)測圖書所屬的學(xué)科大類,并能夠補(bǔ)充一些圖書可能缺失的分類號,為圖書標(biāo)引的工作者提供有益的推薦與參考;另一方面該分類任務(wù)也促使BERT通過微調(diào)(Fine-tuning)學(xué)習(xí)到更好的圖書表示,為后續(xù)的細(xì)粒度分類打下了基礎(chǔ)。

4 基于微調(diào)BERT與多標(biāo)簽K近鄰的圖書細(xì)粒度分類實現(xiàn)

為驗證粗粒度分類任務(wù)對BERT模型圖書表示的影響,我們嘗試從不同階段的模型中提取768維的圖書向量,并通過主成分分析(Primary Component Analysis, PCA)技術(shù)降維可視化,分析圖書分布的變化。我們以圖書館學(xué)情報學(xué)(屬于G3與G2)、語言學(xué)(屬于H0)與計算機(jī)自動化技術(shù)(屬于TP)3類各100冊圖書為例,選取其書名、主題詞字段作為輸入詞,觀察它們的語義表示變遷,見圖6至圖9。

綜合圖6~圖9可以發(fā)現(xiàn),從原始模型到增量訓(xùn)練,再到單標(biāo)簽分類、多標(biāo)簽分類后,三類圖書的分布呈現(xiàn)出同類圖書集聚、類間圖書距離拉大的趨勢。而該趨勢在兩個分類任務(wù)后的模型上表現(xiàn)得尤為明顯。這反映出通過BERT在完成下游任務(wù)的同時,語言模型本身也發(fā)生了顯著變化,通過編碼圖書主題和粗粒度類別的信息,圖書語義表示比原始模型更加精準(zhǔn)。

細(xì)粒度的多標(biāo)簽分類以數(shù)據(jù)集圖書所屬的中圖法各二級學(xué)科作為類別,總計257類。訓(xùn)練集為3.3節(jié)粗粒度多分類實驗中的訓(xùn)練集與驗證集之和;測試集則保持不變。我們首先從粗粒度多標(biāo)簽分類微調(diào)后的BERT模型中提取768維的圖書向量,然后采用基于K近鄰(K-Nearest Neighbor, KNN)的分類方法KNN-ML(KNN-Multi Label)。具體過程如下:

(1)對于測試集中的每一個樣本點yi,查找出訓(xùn)練集中與之向量距離最近的k個近鄰樣本x1,x2,…,xk,記作集合U。

(2)統(tǒng)計集合U中,各樣本所屬的中圖法二級學(xué)科類別Ci及其出現(xiàn)頻次Fi。

(3)設(shè)置閾值L,當(dāng)Fi >=L時,就將對應(yīng)的Ci判定為測試樣本點yi所屬的二級學(xué)科。

基于KNN-ML的多標(biāo)簽分類具有諸多優(yōu)勢,首先,它是一種惰性學(xué)習(xí)方法,節(jié)省了顯性的訓(xùn)練過程;其次,KNN-ML僅以近鄰范圍內(nèi)樣本投票表決的方式進(jìn)行預(yù)測,既實現(xiàn)了多標(biāo)簽分類,也無須計算全部257類的概率;第三,圖書的向量表示直接從BERT模型中繼承而來,增量訓(xùn)練、系統(tǒng)的后期維護(hù)也較為方便。

yi查找近鄰樣本時,KNN-ML利用球樹(Ball Tree)的數(shù)據(jù)結(jié)構(gòu)來優(yōu)化查找的過程。球樹使用超球面對樣本空間進(jìn)行劃分,在查詢一個測試樣本的k近鄰時避免了蠻力計算;此外,球樹運用球心與半徑描述樣本點,樣本點占用的空間對維數(shù)不敏感,這彌補(bǔ)了矩形劃分在高維時存儲較大、查詢較慢的不足[18]。因此球樹適用于本次實驗向量維數(shù)較高的情況。

我們記原始的中文BERT模型為BERT-base-Chinese,在此基礎(chǔ)上,記進(jìn)行粗粒度單標(biāo)簽分類微調(diào)后的模型為BERT-single-clf,記粗粒度多標(biāo)簽分類微調(diào)后的模型為BERT-multi-clf。經(jīng)多次參數(shù)調(diào)優(yōu),KNN-ML設(shè)置近鄰數(shù)目k=10,觀察各模型在閾值L變化時的表現(xiàn)變化。如表4所示。

根據(jù)表4,首先,未經(jīng)微調(diào)的BERT-base-Chinese在指標(biāo)1、2上的表現(xiàn)均不及微調(diào)后的兩個模型。這證明BERT通過微調(diào)融入中圖法一級大類的信息后,也能提高二級類別分類的準(zhǔn)確度。其次,BERT-single-clf模型的總體效果居于第二,在不同閾值L下的9項指標(biāo)評測中,有2項取得最佳。由于它僅在單標(biāo)簽分類任務(wù)上微調(diào),缺乏對兼類圖書的語義編碼,因此BERT-single-clf至少正確預(yù)測出一個標(biāo)簽的能力較強(qiáng)(指標(biāo)1),但其準(zhǔn)確預(yù)測出全部標(biāo)簽的能力(指標(biāo)2)略遜于BERT-multi-clf,且容易將非兼類的圖書預(yù)測為兼類(指標(biāo)3)。最后,綜合3個指標(biāo),BERT-multi-clf模型的表現(xiàn)最佳,在9項指標(biāo)中取得了6項最佳。當(dāng)閾值L=4時,測試集中84.44%的圖書被正確預(yù)測了至少1個二級類別;有75.82%的圖書的分類號完全預(yù)測正確。這對于多達(dá)257個類別的細(xì)粒度多標(biāo)簽分類任務(wù)來說,依然是良好的表現(xiàn),且性能明顯優(yōu)于原始BERT模型與單標(biāo)簽粗粒度分類后的BERT-single-clf。在占比5.94%的多預(yù)測了標(biāo)簽的圖書中,部分例子如表5所示。

可以發(fā)現(xiàn),一些看似預(yù)測有誤的例子,實際上是對既有圖書標(biāo)引的有益補(bǔ)充。例如根據(jù)《中國圖書館分類法第五版(簡本)》的設(shè)定,C8統(tǒng)計學(xué)和O1數(shù)學(xué)下轄的O212“數(shù)理統(tǒng)計”是互見類別[19]。而《定性數(shù)據(jù)統(tǒng)計分析》一書兼屬這兩個類別,這樣分類不僅是圖書管理中兩類書籍相互參證的需要,而且有利于提高圖書的查全率,促進(jìn)學(xué)科的相互交流。

5 結(jié)語

文章著眼于中文圖書的細(xì)粒度多標(biāo)簽分類工作,考慮到預(yù)訓(xùn)練的BERT語言模型的微調(diào)(Fine-tuning)特性,提出一種先通過粗粒度分類微調(diào)語言模型,在此基礎(chǔ)上提取圖書表示,再采取惰性學(xué)習(xí)方法實現(xiàn)細(xì)粒度分類的策略。

首先,在面向21大類圖書表示學(xué)習(xí)的單標(biāo)簽分類中,BERT模型在驗證集上取得了91.94%的正確率,在遮罩語言模型增量預(yù)訓(xùn)練BERT后獲得進(jìn)一步提升,明顯優(yōu)于前人的LSTM與Fasttext模型。

其次,文章運用帶有sigmoid的二元交叉熵?fù)p失函數(shù),實現(xiàn)21類圖書的粗粒度多標(biāo)簽分類,有92.53%的圖書預(yù)測出至少1個分類號,有89.98%的圖書預(yù)測出全部分類號。

最后,文章在微調(diào)BERT模型的基礎(chǔ)上,采用KNN-ML的方法實現(xiàn)257類的細(xì)粒度圖書分類。實驗表明,經(jīng)粗粒度分類微調(diào)的模型效果明顯優(yōu)于未經(jīng)微調(diào)的預(yù)訓(xùn)練模型。在最佳情況下,有75.82%的圖書的類別全部預(yù)測正確,92.10%圖書至少被正確預(yù)測了一個類別。從應(yīng)用角度看,本文提出的分類方法既可以用于圖書的自動預(yù)分類工作,大大減輕人工標(biāo)引的負(fù)擔(dān);也可用于分類號的校對補(bǔ)充,幫助標(biāo)引者查漏補(bǔ)缺,促進(jìn)不同學(xué)科的溝通與交融。在后續(xù)工作中,我們嘗試通過加權(quán)改進(jìn)KNN-ML算法,使圖書分類系統(tǒng)進(jìn)一步完善。

參考文獻(xiàn):

出版商務(wù)周報.最新CIP大數(shù)據(jù)分析,2019圖書選題該做什么?[EB/OL]. (2019-2-28)[2020-04-15].http://www.yidianzixun.com/article/0LOGYM5G.

王昊,嚴(yán)明,蘇新寧.基于機(jī)器學(xué)習(xí)的中文書目自動分類研究[J].中國圖書館學(xué)報, 2010,36(6):28-39.

劉高軍,陳強(qiáng)強(qiáng).基于極限學(xué)習(xí)機(jī)和混合特征的中文書目自動分類模型研究[J].北方工業(yè)大學(xué)學(xué)報,2018,30(5):99-104.

潘輝.基于極限學(xué)習(xí)機(jī)的自動化圖書信息分類技術(shù)[J].現(xiàn)代電子技術(shù),2019,42(17):183-186.

鄧三鴻,傅余洋子,王昊.基于LSTM模型的中文圖書多標(biāo)簽分類研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(7):52-60.

陳志新.分類法研究的十五個問題:我國2009至2016年分類法研究綜述[J]. 情報科學(xué),2018,36(6):149-155.

PETERS M E,NEUMANN M,IYYER M, et al.Deep contextualized word representations[J].arXiv e-prints,2018 :1802-5365.

DEVLIN J, CHANG M, LEE K, et al.BERT: pre-training of deep bidirectional transformers for language understanding[J].arXiv e-prints,2018:1810-4805.

VASWANI A, SHAZEER N, PARMAR N, et al.Attention?is all you need[J]. arXiv e-prints, 2017:1706-3762.

SUN C, QIU X, XU Y, et al. How to fine-tune BERT for text classification?[J].arXiv e-prints, 2019:1905-5583.

KINGMA D P, BA J. ADAM: a method for stochastic optimization[J].arXiv e-prints, 2014:1412-6980.

MATTHEW R B, JIEBO L, XIPENG S,et al. Learning multi-label scene classification[J]. Pattern Recognition: The Journal of the Pattern Recognition Society, 2004,37(9):1757-1771.

ZHANG M, ZHOU Z. ML-KNN: a lazy learning approachto multi-label learning[J]. Pattern Recognition, 2007,40(7):2038-2048.

FACEBOOK. Pytorch Docs :? Docs > Module code > torch> torch.nn.modules.loss[EB/OL](2019-4-25)[2020-04-15]. https://pytorch.org/docs/stable/_modules/torch/nn/modules/loss.html#BCEWithLogitsLoss.

ELISSEEFF A,WESTON J. A Kernel method for multi-labelled classification[C].In Advances in neural informationprocessing systems,2002:681-687.

ZHANG M L, ZHOU Z H. Multi-label learning by instance differentiation[C]. Proceedings of the 22nd Conference on Artificial Intelligence,2007: 669–674.

YANG P, SUN X, LI W, et al. SGM: sequence generationmodel for Multi-label classification[J]. arXiv e-prints,2018:1806-4822.

俞肇元,袁林旺,羅文,等.邊界約束的非相交球樹實體對象多維統(tǒng)一索引[J].軟件學(xué)報, 2012,23(10):2746-2759.

國家圖書館中國圖書館分類法編輯委員會.中國圖書館分類法簡本(第五版)[M].北京: 國家圖書館出版社,2012:14,107.

蔣彥廷 北京師范大學(xué)中文信息處理研究所碩士研究生。 北京海淀,100875。

胡韌奮 北京師范大學(xué)中文信息處理研究所碩士生導(dǎo)師。 北京海淀,100875。

(收稿日期:2019-11-02 編校:左靜遠(yuǎn),陳安琪)

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
南昌县| 庆阳市| 建宁县| 江门市| 定陶县| 壶关县| 周至县| 巴南区| 舞钢市| 固原市| 沁阳市| 荃湾区| 三门县| 隆回县| 博乐市| 大田县| 海阳市| 凯里市| 榆中县| 咸阳市| 达州市| 沂水县| 武穴市| 贵溪市| 谷城县| 安丘市| 葵青区| 丹寨县| 祁门县| 吴忠市| 五常市| 永德县| 民县| 麟游县| 大同市| 米易县| 盖州市| 东安县| 黄石市| 兴业县| 巴塘县|