摘 ?要文本分類是圖書館領(lǐng)域的重要研究方向之一?;谏疃葘W(xué)習(xí)方法對用戶生成的內(nèi)容進行分類有助于圖書館更精準(zhǔn)的了解用戶行為并評估圖書館服務(wù)質(zhì)量。通過對圖書館領(lǐng)域和使用圖書館數(shù)據(jù)的計算機科學(xué)領(lǐng)域使用深度學(xué)習(xí)方法進行文本分類的研究進行批判性審查,調(diào)查圖書館領(lǐng)域使用深度學(xué)習(xí)方法進行文本分類的研究現(xiàn)狀,為未來研究提出建議。研究結(jié)果表明,目前的研究主要集中在文本特征分類、文本情感分類和文本評級分類上。大多數(shù)研究仍采用傳統(tǒng)的深度學(xué)習(xí)方法如前饋神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。近年來在計算機科學(xué)領(lǐng)域提出的具有更好分類性能的深度學(xué)習(xí)算法尚未引入圖書館領(lǐng)域。研究建議引入深度學(xué)習(xí)算法的方法框架、構(gòu)建和開發(fā)更深層次的算法、明晰文本分類的詳細(xì)步驟、明確數(shù)據(jù)標(biāo)注規(guī)范和標(biāo)注步驟并積極使用結(jié)合各自優(yōu)勢的多模型分類方法。
關(guān)鍵詞圖書館;文本分類;深度學(xué)習(xí);批判性反思
分類號G251.2
A Review of Research on the Application of Deep Learning in Library Text Classification
Sun Zhuli
AbsrtactText categorization is a major research direction in the field of library. Classifying user-generated content based on deep learning methods can help libraries understand user behavior more accurately and evaluate the quality of library services. This paper makes recommendations for future research by investigating and critically reviewing research on the use of deep learning methods for text classification in the library field and in the computer science field using library data.?The results show that the current research mainly focuses on text feature classification, text sentiment classification and text rating classification.?Most research still uses traditional deep learning methods such as feedforward neural networks and artificial neural networks.?Deep learning algorithms with better classification performance in computer science have not been introduced to the library domain. The study recommends introducing a methodological framework for deep learning algorithms, building and developing deeper algorithms, clarifying detailed steps for text classification, specifying data annotation specifications and annotation steps, and actively using multi-model classification methods that combine their respective strengths.
KeywordsLibrary.?Text classification.?Deep learning.?Critical reflection.
0 引言
通過對用戶信息或行為記錄等內(nèi)容進行分類可以獲取文本特征,獲取用戶的情緒、感受、體驗、偏好和評級等數(shù)據(jù),從而有助于圖書館了解用戶行為并評估圖書館的服務(wù)質(zhì)量和滿意度[1-2]。文本分類是根據(jù)一定的規(guī)則將文本分為不同類別的過程。分類規(guī)則可以人工構(gòu)建,也可以使用算法從文本數(shù)據(jù)中自動總結(jié)。早期的文本分類是在知識工程的基礎(chǔ)上構(gòu)建人工定義規(guī)則,例如,通過編碼采訪文本和提取關(guān)鍵節(jié)點來構(gòu)建研究維度。近年來,已有學(xué)者充分利用Twitter、Facebook、Google Maps、微博、大眾點評網(wǎng)、微信公眾平臺等網(wǎng)站的大量用戶生成的文本數(shù)據(jù)研究用戶行為和圖書館服務(wù)質(zhì)量[3-4]。文本分類不僅是數(shù)據(jù)挖掘與信息檢索領(lǐng)域的研究熱點,更是數(shù)字圖書館建設(shè)的技術(shù)基礎(chǔ)[5]。同時,對用戶生成的文本數(shù)據(jù)進行準(zhǔn)確的分類還可以幫助圖書館把握用戶的信息需求特征,組織和篩選用戶感興趣的內(nèi)容,進而為用戶提供智能和高效的個性化服務(wù)。另外,提取和計算用戶生成文本中包含的情感信息和情感強度,關(guān)注用戶的情感變化,還可以幫助圖書館不斷改進服務(wù)的設(shè)計和提供方式。因此,文本大數(shù)據(jù)的分類需要引起圖書館領(lǐng)域的關(guān)注,而有關(guān)文本分類的研究已成為統(tǒng)計分析、維度構(gòu)建、量表開發(fā)、預(yù)測建模的重要前提和基礎(chǔ)。
作為自然語言處理領(lǐng)域的經(jīng)典問題,文本分類的算法也在不斷演進,當(dāng)前的算法大致分為兩類:一種是傳統(tǒng)的分類算法(如基于規(guī)則的方法、社會網(wǎng)絡(luò)分析方法等)、一種是基于機器學(xué)習(xí)的算法(如 特征工程、分類器等)[6]。受到算法本身的限制,傳統(tǒng)的分類算法耗時耗力,成本較高,已逐漸被取代。與自然語言處理領(lǐng)域的發(fā)展同步,圖書館文本分類也逐漸從主要使用社會網(wǎng)絡(luò)分析轉(zhuǎn)變?yōu)闄C器學(xué)習(xí)和深度學(xué)習(xí)方法,從簡單的用戶生成文本的詞頻統(tǒng)計轉(zhuǎn)變?yōu)橥诰蛭谋局械纳顚诱Z義關(guān)聯(lián),力求更精確地發(fā)現(xiàn)用戶的感知和情感[7-8]。在大規(guī)模和非結(jié)構(gòu)化的文本中尋找有效的隱含信息挖掘方法已成為自然語言處理(NLP)關(guān)注的焦點和大數(shù)據(jù)研究中的關(guān)鍵問題[9],而深度學(xué)習(xí)的出現(xiàn)可以有效解決以往機器學(xué)習(xí)方法(如樸素貝葉斯和支持向量機)存在的耗時、昂貴的淺層結(jié)構(gòu)算法、表示復(fù)雜函數(shù)的能力有限以及難以處理高維數(shù)據(jù)和泛化能力差等問題[10]。基于深度學(xué)習(xí)的文本分類研究在各種自然語言處理任務(wù)中取得了顯著的成效,為許多問題提供了有效的解決方案,因而正逐漸取代傳統(tǒng)的機器學(xué)習(xí)方法成為文本分類領(lǐng)域的主流研究方向[11]。在圖書館領(lǐng)域,深度學(xué)習(xí)方法同樣處于文本分類的最前沿,已有研究表明在預(yù)測評論可靠性、用戶滿意度、情感分類和預(yù)測評論評級等方面優(yōu)于傳統(tǒng)的機器學(xué)習(xí)模型[12]。
顯然,深度學(xué)習(xí)方法對圖書館的文本分類具有重要意義。2023年7月30日,筆者通過“標(biāo)題/主題”在SCOPUS、WOS、LISTA、LISS、知網(wǎng)等數(shù)據(jù)庫進行了全面的文獻檢索。搜索策略包括系列搜索詞:文本分類、深度學(xué)習(xí)和圖書館的組合搜索,除了關(guān)注于圖書館領(lǐng)域深度學(xué)習(xí)的文章外,還包括計算機科學(xué)領(lǐng)域的相關(guān)研究,這些研究涉及到了深度學(xué)習(xí)技術(shù)與圖書館數(shù)據(jù)的使用。在剔除重復(fù)與不相關(guān)的文獻,并對相關(guān)文獻的參考文獻進行回溯檢索后,共篩選出31篇文章作為本文綜述的文獻集。研究成果數(shù)量不多說明該領(lǐng)域尚未成熟,需要進一步的研究探索,為此,本文設(shè)計的研究問題是:深度學(xué)習(xí)在圖書館文本分類研究中的現(xiàn)狀如何?研究的主題包含那些?未來研究應(yīng)當(dāng)從那些方面拓展?下文將梳理圖書館領(lǐng)域基于深度學(xué)習(xí)進行文本分類的相關(guān)研究內(nèi)容,并探討當(dāng)前存在的問題及優(yōu)化建議,以期為未來的相關(guān)研究提供參考。
1基于深度學(xué)習(xí)開展圖書館文本分類研究的主題分析
近年來,深度學(xué)習(xí)在圖書館領(lǐng)域的應(yīng)用逐漸受到學(xué)者的關(guān)注。在這方面,計算機科學(xué)領(lǐng)域的學(xué)者有著特殊的貢獻。通過對已有文獻的調(diào)研梳理和系統(tǒng)分析,我們發(fā)現(xiàn),當(dāng)前深度學(xué)習(xí)在圖書館領(lǐng)域的應(yīng)用主要包含以下幾個方面:用戶畫像[13]、智慧服務(wù)[14-15]、文本識別[16]、知識庫建設(shè)[17]、文本分類分析[18]等。然而,當(dāng)前尚未有研究系統(tǒng)回顧深度學(xué)習(xí)方法在圖書館領(lǐng)域的使用情況。因此,我們歸納匯總了圖書館領(lǐng)域以及使用圖書館數(shù)據(jù)的計算機科學(xué)領(lǐng)域的深度學(xué)習(xí)文獻,總結(jié)了圖書館領(lǐng)域及使用圖書館數(shù)據(jù)的計算機領(lǐng)域中使用深度學(xué)習(xí)模型的歷史變遷、每種方法的優(yōu)劣勢(見表1),以及不同深度學(xué)習(xí)模型的應(yīng)用場景和主要功能目標(biāo)(見表2)。
從表2可以看出,當(dāng)前基于深度學(xué)習(xí)開展圖書館文本分類的研究主要分為三個主題:文本特征分類、文本情感分類和文本評價分類。
1.1文本特征分類
對于用戶感知和體驗的研究,重要的是識別在線評論中影響用戶評分和行為的關(guān)鍵特征(如服務(wù)質(zhì)量、真實性、環(huán)境等)。盡管對文本特征的分類很重要,但多數(shù)研究使用了相對更為簡單的主題聚類方法,只有少數(shù)研究使用深度學(xué)習(xí)模型對其進行研究。例如,有研究者利用基于深度學(xué)習(xí)的自然語言處理技術(shù),對12582 條人工標(biāo)注的圖書館在線評論進行研究,通過文本特征分析服務(wù)質(zhì)量。在該模型中,神經(jīng)網(wǎng)絡(luò)用于從非結(jié)構(gòu)化文本中發(fā)現(xiàn)模式,并將前饋神經(jīng)網(wǎng)絡(luò)組合起來表示輸入層和輸出層之間的非線性關(guān)系(服務(wù)質(zhì)量的類別概率)[19];有研究者使用深度學(xué)習(xí)模型對手動標(biāo)記的數(shù)據(jù)進行文本分類,以確定用戶體驗的真實性維度。該研究中使用的人工神經(jīng)網(wǎng)絡(luò)(ANN)模型具有兩層網(wǎng)絡(luò),可以將輸入數(shù)據(jù)(句子)映射到期望值(每個維度的概率),從而表示更復(fù)雜的函數(shù)關(guān)系[20];還有研究者通過多標(biāo)簽文本降維、平衡化處理及組合多種深度學(xué)習(xí)算法構(gòu)建文本分類器,實現(xiàn)了多標(biāo)簽文本特征分類[21]。這類型研究一般通過疊加累積卷積層和池化層來持續(xù)對層數(shù)進行加深,從而達到提取更高層文本特征的效果,使得基于文本特征的分類表達能力更強,文本特征更為明顯。
1.2文本情感分類
盡管情感分析在圖書館服務(wù)質(zhì)量的評估中很重要,但目前文本的情感分類主要是使用情感詞典和機器學(xué)習(xí)進行的,使用深度學(xué)習(xí)對文本情感進行分類的研究并不多。一項研究從微博上抓取了112?412 條關(guān)于圖書館的評論,并應(yīng)用雙向 LSTM、簡單嵌入及平均池化這兩種深度學(xué)習(xí)模型,對在線評論的兩種情緒(正面和負(fù)面)進行分類,結(jié)果表明,雙向 LSTM 在情感分類上更有效,該研究旨在為文本情感挖掘任務(wù)提供合適的深度學(xué)習(xí)算法[22];另一項研究使用深度學(xué)習(xí)模型 BERT分析了包含4728 條評論的圖書館數(shù)據(jù)集,將標(biāo)簽分為四類(中性、正面、負(fù)面和沖突),研究結(jié)果表明該模型比其他基線模型具有更好的性能,為圖書館文本情感分類任務(wù)提供了一種新方法[23];還有學(xué)者通過Tensor Flow深度學(xué)習(xí)框架,利用Keras人工神經(jīng)網(wǎng)絡(luò)庫,將卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶網(wǎng)絡(luò)結(jié)合,構(gòu)建了基于CNN-BiLSTM-HAN混合神經(jīng)網(wǎng)絡(luò)的情感分析模型,對高校圖書館社交網(wǎng)絡(luò)平臺用戶評論的21 091條數(shù)據(jù)進行分析[24]。這些研究的重要貢獻在于關(guān)注了圖書館用戶情緒變化,使用雙向LSTM 解決了循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失和梯度爆炸問題,與LSTM相比,這不僅保留了過去的信息,還保留了未來的信息。
1.3文本評級分類
對在線評論中的服務(wù)質(zhì)量進行綜合評價,不僅要采用用戶給出的評價,如圖書館的價值、服務(wù)、位置和整體功能方面的評價,還應(yīng)考慮評論信息中隱含的含義。研究者一般通過查找句子中的情感詞、連詞和否定詞來獲得情感分級,而這需要隨著新詞的出現(xiàn)不斷增加和更新情感詞典,同時還要考慮到每個詞在不同的位置或語境下有不同的應(yīng)用和效果,會表達不同的情感。文本評級分類的深度學(xué)習(xí)研究主要是利用在線文本的評分作為標(biāo)簽,訓(xùn)練用于文本分類的深度學(xué)習(xí)模型。在這方面,深度學(xué)習(xí)模型在提取文本特征時考慮了句子中每個詞的上下文,可以解決同一個詞在不同上下文中可能具有不同含義的問題,但很少有研究在數(shù)據(jù)集上使用深度學(xué)習(xí)來解釋這種不同的含義。例如,一項研究使用深度學(xué)習(xí)算法在公開可用的數(shù)據(jù)集上訓(xùn)練模型,該數(shù)據(jù)集包含6294條在線評論和評級信息,并使用經(jīng)過訓(xùn)練的深度學(xué)習(xí)分類模型內(nèi)核獲得用戶評級[25]。同時,不同算法的性能也有所不同。有學(xué)者使用深度學(xué)習(xí)算法對圖書館評論文本評分預(yù)測進行了比較分析,發(fā)現(xiàn)基于在線評論評分,簡單嵌入和平均池化相比雙向LSTM 表現(xiàn)出更好的預(yù)測性能,評估指標(biāo)R2和F1-score的變化分別提高5.8%和0.3%。此外,為了獲得更適合文本評級分類的深度學(xué)習(xí)模型,該研究對深度學(xué)習(xí)領(lǐng)域的文本分類算法進行了總結(jié),并在包含3500000余條圖書館評論的公開數(shù)據(jù)集上使用八種深度學(xué)習(xí)算法進行了測試。結(jié)果表明,與其他基線深度學(xué)習(xí)模型相比,BERT、XLNet 和通用語言模型微調(diào)等算法的準(zhǔn)確率提高了約10%。在這些最先進的文本分類方法中,XLNet 在數(shù)據(jù)集上產(chǎn)生了最好的五個分類結(jié)果,準(zhǔn)確率為72.2%[26]。
2當(dāng)前研究存在的問題及優(yōu)化建議
2.1存在的問題
2.1.1缺乏引入深度學(xué)習(xí)算法的方法框架
從整體上看,當(dāng)前圖書館領(lǐng)域使用深度學(xué)習(xí)算法進行文本分類的研究仍然處于起步階段,研究成果的數(shù)量不多,研究者對深度學(xué)習(xí)算法的認(rèn)識和運用還有不足,存在盲目使用和跟風(fēng)等問題,尤其是缺乏使用深度學(xué)習(xí)算法的方法框架,很多研究對算法的優(yōu)劣勢和適用性了解不夠,致使研究結(jié)論的準(zhǔn)確性受到影響。
2.1.2缺乏更先進的深度學(xué)習(xí)算法
已有研究來對多個深度學(xué)習(xí)模型文本分類方法的有效性進行了比較 (如fully connected,dense layers,2D convolution neural network,CNN,long short-term memory, LSTM),這些算法在提取文本信息方面的局限性較大:如FC對空間結(jié)構(gòu)的表達能力較差、CNN會丟失相關(guān)信息導(dǎo)致誤分類、LSTM在訓(xùn)練過程中只能保留單一信息等[27]?,F(xiàn)有的許多研究并沒有嘗試使用更先進的深度學(xué)習(xí)方法來對評論進行科學(xué)分類,也缺乏對單個分類模型有效性的關(guān)注。這類型的研究往往依賴于公開可用的數(shù)據(jù)集,這些數(shù)據(jù)集中的每條評論都有用戶給出的評分。然而,由于用戶評級過程中可能存在服務(wù)補償[28],因此后者不一定總是與評論文本所表達的信息相匹配,因此最好將評論和評分綜合分析。
2.1.3文本特征分類的精度和效率有待提升
當(dāng)前圖書館領(lǐng)域的文本特征分類主要使用前饋神經(jīng)網(wǎng)絡(luò)和ANN這兩種深度學(xué)習(xí)算法。盡管前饋神經(jīng)網(wǎng)絡(luò)是經(jīng)典的深度學(xué)習(xí)算法之一,也基本能夠完成文本分類任務(wù),但這種算法將文本視為一個詞袋,并使用文本的向量或平均值來表示文本信息,而忽略了文本中的上下文信息,因而會影響分類的精度和效率。
2.1.4缺乏對文本分類過程的詳細(xì)描述
現(xiàn)有的研究雖然或多或少涉及到文本分類的一些步驟,但很少系統(tǒng)地總結(jié)和說明了文本分類的整個過程(如文本預(yù)處理、多個文本分類模型的比較等),而只有詳細(xì)描述文本分類的整個過程,才能提高研究的透明度,進而評價研究的質(zhì)量、研究方法的嚴(yán)謹(jǐn)性和局限性,從而更好的完成文本分類任務(wù)。
2.1.5數(shù)據(jù)規(guī)模、數(shù)據(jù)預(yù)處理和數(shù)據(jù)標(biāo)注等方面仍然存在局限性
在文本情感分類方面,當(dāng)前的研究僅通過兩種或三種情感分類很難衡量和捕捉用戶復(fù)雜多樣的情感。同時,許多研究的數(shù)據(jù)量不夠大或不充分,導(dǎo)致對深度學(xué)習(xí)文本分類模型訓(xùn)練過程特征提取的要求變得非常高。雖然有研究者通過計算用戶給出的價值、滿意度等評分的平均值來標(biāo)記情感標(biāo)簽,通過劃分分?jǐn)?shù)段來進行標(biāo)注[29],但顯然該研究的數(shù)據(jù)標(biāo)注過程也需要改進。一是研究者未給出分?jǐn)?shù)段分類的解釋和依據(jù),二是三級分類的粗粒度度量會導(dǎo)致有價值信息的丟失。
2.2優(yōu)化建議
2.2.1明確引入深度學(xué)習(xí)算法的方法框架
計算機信息科學(xué)是探索文本分類深度學(xué)習(xí)的專業(yè)領(lǐng)域,因此我們可以在批評性比較和分析的基礎(chǔ)上,結(jié)合圖書館的特征,為圖書館的文本分類任務(wù)引入一個方法框架。本研究認(rèn)為,該方法至少應(yīng)包括如下三個步驟:(1)方法選擇:對于特定場景下的分類任務(wù),不僅要根據(jù)方法的原理和已有的研究成果進行初步篩選,還要對多種方法進行比較,以獲得最適合的方法;(2)數(shù)據(jù)選擇:與圖書館領(lǐng)域的分類任務(wù)大多只在單個數(shù)據(jù)集上進行不同,計算機信息科學(xué)領(lǐng)域的研究是在多個數(shù)據(jù)集上進行測試,這也要求我們進行多數(shù)據(jù)集對比以獲得更可靠的調(diào)查結(jié)果;(3)性能測試:對深度學(xué)習(xí)模型分類性能的評估是必不可少的步驟,每種方法的性能都可以通過完善的指標(biāo)進行客觀的測量。
2.2.2構(gòu)建和開發(fā)更深層次的算法
雙隱層神經(jīng)網(wǎng)絡(luò)比單層神經(jīng)網(wǎng)絡(luò)能表達更復(fù)雜的關(guān)系,分類效果更好。因此,圖書館領(lǐng)域需要不斷加強對深度學(xué)習(xí)算法的理解,并嘗試構(gòu)建和開發(fā)更深層次的算法。與經(jīng)典深度學(xué)習(xí)算法和基線方法(如情感詞典和機器學(xué)習(xí))相比,已經(jīng)有幾種深度學(xué)習(xí)算法具有更好的性能,可以用于文本特征分類任務(wù)。例如,2018年谷歌提出的自然語言模型(NLP)?基于Transformer的雙向編碼器表征(Bidirectional Encoder Representations from Transformers, BERT), 具有標(biāo)記嵌入、片段嵌入和位置嵌入的輸入特征,該模型使用掩碼語言模型(隨機屏蔽句子中的標(biāo)記)進行訓(xùn)練,并通過雙向轉(zhuǎn)換器獲得文本的矢量化表示。BERT結(jié)合單詞的上下文信息,從句子中提取信息,實現(xiàn)了文本的雙向表征,即使在數(shù)據(jù)量很小的情況下也能訓(xùn)練參數(shù),因而可以更好地提取句子的語義關(guān)系,進而很好的完成文本分類任務(wù)。已有研究表明BERT在特征提取方面優(yōu)于用于詞表示的全局向量(Glove)和用于特征提取的詞到向量(word2vec),并且還優(yōu)于諸如多注意力網(wǎng)絡(luò)(MAN)和交互式多頭注意力網(wǎng)絡(luò)(IMAN)等其他模型[30]。值得注意的是,使用BERT模型進行訓(xùn)練和測試所花費的時間與硬件密切相關(guān),如使用張量處理器(TPU)比使用圖形處理器(GPU)更為省時[31]。而BERT優(yōu)化后的變體ALBERT可以更快地訓(xùn)練并且消耗更少的內(nèi)存,這意味著使用ALBERT模型進行分類更為高效且成本更低。
2.2.3明晰文本分類的詳細(xì)步驟
為提高文本分類任務(wù)中詳細(xì)步驟的透明度,需要在收集數(shù)據(jù)并確定文本分類需求之后,進行以下兩個關(guān)鍵步驟:數(shù)據(jù)預(yù)處理和模型訓(xùn)練。第一步是數(shù)據(jù)預(yù)處理,對于不同的語言,處理手段略有不同。以中文為例,其中標(biāo)記化的過程如下:(1)刪除數(shù)據(jù)中重復(fù)的文本;(2)將所有文本數(shù)據(jù)進行格式化;(3)刪除網(wǎng)站鏈接、數(shù)字、符號和特殊字符,如&、*和#等;(4)分詞——根據(jù)文本分類任務(wù)的需要將文本分解成詞,然后進行處理;(5)刪除標(biāo)點符號和停用詞;(6)歸一化,如詞形還原、詞干提取、去除性別/時間/等級差異等。第二步是深度學(xué)習(xí)文本分類模型的訓(xùn)練,這是文本分類任務(wù)的重點。在這一步中,首先是數(shù)據(jù)集的劃分,計算機領(lǐng)域中一般將數(shù)據(jù)集分為訓(xùn)練集(訓(xùn)練模型)、驗證集(優(yōu)化模型)和測試集(評估模型)。在圖書館領(lǐng)域,數(shù)據(jù)集一般分為訓(xùn)練集和測試集。劃分訓(xùn)練集和測試集的一般原則是,當(dāng)數(shù)據(jù)集足夠大(幾十萬或幾百萬)時,測試集所占比例較小,反之亦然。其次,使用預(yù)訓(xùn)練的語言模型將數(shù)據(jù)集(訓(xùn)練集和測試集)轉(zhuǎn)化為向量,即計算機可以理解的形式將分類模型應(yīng)用到訓(xùn)練集和測試集上。最后,評估分類模型的性能。文本分類有多種評估指標(biāo),包括精度Accuracy、準(zhǔn)確率Precision、召回率Recall和F1 score(包括準(zhǔn)確率和召回率)、Cohen′s Kappa(k)和Gwet的一致性系數(shù)(AC1)等。其中,使用最廣泛的評估指標(biāo)是精度。
2.2.4明確數(shù)據(jù)標(biāo)注規(guī)范和標(biāo)注步驟
由于數(shù)據(jù)是文本情感分類任務(wù)的基礎(chǔ),一般而言,文本數(shù)據(jù)量越大,文本分類的效果越好。因此,圖書館領(lǐng)域的文本分類研究有必要進一步擴大研究的數(shù)據(jù)量,并明確標(biāo)注規(guī)范和數(shù)據(jù)標(biāo)注步驟。本文認(rèn)為,文本數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范包括以下幾個方面:(1)明確標(biāo)注的范圍和實體類型;(2)標(biāo)簽和類別要簡潔明晰,并與文本數(shù)據(jù)所表示的概念相符;(3)明確標(biāo)注規(guī)則,避免概念混淆和錯誤;(4)按照特定的格式和結(jié)構(gòu)來標(biāo)注數(shù)據(jù),使其適配標(biāo)注工具或平臺;(5)完善關(guān)系和實體間的一體性,便于之后的關(guān)系抽取和分析;(6)確保標(biāo)注數(shù)據(jù)的復(fù)用性和開放性,以便后續(xù)對模型進行評估、優(yōu)化和升級。另外,對于文本數(shù)據(jù)的標(biāo)注大致可以分為兩個步驟,每一個文本(如評論)需要由至少三位相關(guān)領(lǐng)域人士進行標(biāo)注并達成共識:第1步,隨機抽取少量評論由相關(guān)專家對其進行標(biāo)注,通過討論達成共識,并構(gòu)建分類協(xié)議。第2步,由至少3人組成的小組根據(jù)分類協(xié)議對文本數(shù)據(jù)進行標(biāo)注,結(jié)果相同的3個標(biāo)注可以直接使用,結(jié)果不同的標(biāo)注可以考慮拒絕或討論同意后保留。
2.2.5使用結(jié)合各自優(yōu)勢的多模型分類方法
通過文獻梳理表明,XLNet能更好的完成文本評級分類任務(wù),它集成了自回歸和自編碼預(yù)訓(xùn)練語言模型的思想,允許上下文同時包含左右標(biāo)記(每個位置從所有位置學(xué)習(xí)上下文信息,即捕獲雙向上下文),使其成為通用的順序感知自回歸語言模型。它還引入了雙流自注意模型,以實現(xiàn)位置感知的單詞預(yù)測。同時,開放生成式預(yù)訓(xùn)練(OpenGPT)和統(tǒng)一語言模型(UniLM)也適用于圖書館領(lǐng)域的文本分類。OpenGPT是一個單向(從左到右或從右到左)逐詞預(yù)測文本序列模型,其中每個單詞包含有關(guān)前一個單詞的信息。文本分類任務(wù)可以通過將OpenGPT微調(diào)到特定任務(wù)并將其與特定于任務(wù)的分類器相結(jié)合來完成。而OpenGPT的第4版,即OpenGPT-4已被證實可以大大提高模型在文本分類任務(wù)上的性能[32]。UniLM使用來自單向、雙向和序列到序列方法的三種不同類型的語言建模任務(wù)進行預(yù)訓(xùn)練。 因此,UniLM-2在文本分類任務(wù)上達到了一個新的水平,它可以在文本文檔的每個單詞中包含更多的上下文信息。在圖書館領(lǐng)域,研究者可以通過多模型的組合運用和比較來進行探索和分析。
3總結(jié)與展望
3.1 結(jié)論
本研究首次回顧和梳理了圖書館領(lǐng)域使用深度學(xué)習(xí)方法進行文本分類的研究,指出了當(dāng)前圖書館文本分類任務(wù)中各種方法和數(shù)據(jù)的不足,有助于推進相關(guān)研究。目前圖書館領(lǐng)域使用深度學(xué)習(xí)算法進行文本分類的研究可以大致分為文本特征分類、文本情感分類和文本評級分類三個主題。在研究方法方面,主要使用的是前饋神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò),而計算機科學(xué)領(lǐng)域中更先進的方法尚未引起重視。除研究方法外,現(xiàn)有研究中使用的數(shù)據(jù)還涉及在不同背景下的適用性問題。目前采用的公開數(shù)據(jù)集主要以用戶評論為主,缺乏直接采用用戶評分作為標(biāo)簽的研究。另外,研究發(fā)現(xiàn)目前圖書館領(lǐng)域?qū)ξ谋镜姆诸愡€比較粗放(主要分為兩類或三類),缺乏更細(xì)粒度的文本分割維度?;仡櫖F(xiàn)有的研究,本文建議采用可以從海量大數(shù)據(jù)中更快、更準(zhǔn)確地進行細(xì)粒度文本分類的前沿深度學(xué)習(xí)方法,并提出了數(shù)據(jù)集標(biāo)注的具體方法,為未來研究的方法選擇和創(chuàng)新提供了路徑。此外,本文再次強調(diào)了對文本情感進行準(zhǔn)確分類的重要理論基礎(chǔ)以及基于文本特征的維度構(gòu)建,指出引入新的文本分類算法可以實現(xiàn)更準(zhǔn)確的文本分類。這也有助于在特定圖書館環(huán)境中開發(fā)帶標(biāo)簽的圖書館數(shù)據(jù)集和分類維度,為進一步研究用戶評論對其使用行為的情感影響(如維度構(gòu)建、量表開發(fā)等)奠定基礎(chǔ)。同時,本文對計算機領(lǐng)域新方法的引入,有助于彌合圖書館領(lǐng)域研究方法的差距。
本文的研究結(jié)果對圖書館的管理實踐也有一定啟示。由于當(dāng)前在線文本呈指數(shù)級增長,手動處理可能既昂貴又耗時,而使用深度學(xué)習(xí)技術(shù)可以從文本數(shù)據(jù)中更快、更準(zhǔn)確、成本更低的提取上下文信息。例如,圖書館可以使用基于文本特征的深度學(xué)習(xí)方法來根據(jù)服務(wù)質(zhì)量(響應(yīng)性、可靠性和同理心)對用戶評論進行分類,并使用情感分類器將評論分類為更細(xì)粒度的情感(憤怒、喜悅和厭惡等)。這些方法有助于客觀、快速地了解全面的信息和其中的細(xì)節(jié),幫助圖書館及時響應(yīng)用戶需求,為圖書館的管理和決策提供依據(jù)。
此外,這項研究還為第三方機構(gòu)全面評價圖書館的服務(wù)質(zhì)量提供了有效途徑,用戶也可以通過參考第三方機構(gòu)在分析文本內(nèi)容的基礎(chǔ)上給出的綜合評價來評估圖書館服務(wù)的質(zhì)量。由于服務(wù)補償和心理補償因素的存在,總體評價信息并不能完全反映用戶對圖書館的評價。政府相關(guān)部門或第三方機構(gòu)可以使用深度學(xué)習(xí)算法對文本進行分類,不僅可以單獨使用評分信息,還可以綜合文本分類結(jié)果,更便捷的評估圖書館服務(wù)質(zhì)量,指導(dǎo)圖書館的建設(shè)和發(fā)展。
3.2 局限性和未來研究
首先,盡管一些先進的深度學(xué)習(xí)方法在文本分類任務(wù)中表現(xiàn)出出色的分類性能,但它們在圖書館領(lǐng)域的表現(xiàn)尚未得到證實。例如,當(dāng)前最新的深度學(xué)習(xí)算法,如OpenGPT-3、BERT、XLNET和UniLM等,已經(jīng)在文本分類任務(wù)中實現(xiàn)了新的進展,但尚未有在圖書館領(lǐng)域中的應(yīng)用。因此筆者建議學(xué)者們對這些算法進行實驗。由于訓(xùn)練這些模型的成本并不高,因此可以微調(diào)現(xiàn)有模型或使用它們的變體,特別是對于圖書館領(lǐng)域來說,建議使用和測試集成多種深度學(xué)習(xí)算法的模型。此外,由于基于單一模型的分類對于不同的語料庫、分類和標(biāo)簽可能表現(xiàn)的不夠穩(wěn)定,因此本研究建議在同一數(shù)據(jù)集上使用多個深度學(xué)習(xí)模型,并通過比較找到最適合的深度學(xué)習(xí)文本分類模型。
其次,雖然在圖書館領(lǐng)域有一些大規(guī)模的數(shù)據(jù)集,但這些數(shù)據(jù)集直接或間接地將用戶的評分作為標(biāo)簽,這種做法忽略了用戶在線評分時的服務(wù)補償和心理補償,同時,圖書館領(lǐng)域的相關(guān)數(shù)據(jù)集共享程度不夠,因此,本研究建議學(xué)界和業(yè)界重視數(shù)據(jù)集的標(biāo)注,嚴(yán)格按照完善的步驟對文本數(shù)據(jù)集進行手工標(biāo)注[33],并共享更多的結(jié)構(gòu)化標(biāo)注數(shù)據(jù),促進圖書館領(lǐng)域文本分類的發(fā)展。
再次,由于圖書館用戶情緒的復(fù)雜性,將其劃分為兩類或三類情感維度,其實踐和理論意義有限,后續(xù)研究有必要測試不同的方法,開發(fā)不同的數(shù)據(jù),并在圖書館的不同場景下進行不同層次的工作。因此,本研究建議未來的研究構(gòu)建更細(xì)粒度的文本數(shù)據(jù)分類。例如,基于深度學(xué)習(xí)模型用來研究用戶情感(喜悅、愛、驚訝、憤怒、信任和悲傷)、服務(wù)質(zhì)量(有形的、可靠的、響應(yīng)性、保證和同理心)和其他更細(xì)化的維度。
最后,這項研究是對現(xiàn)有期刊論文中相關(guān)主題的梳理和總結(jié),不包括會議論文、書籍等其他來源的文獻,因而具有一定的局限性。未來的研究可以對多種方法、多種來源的文獻進行比較分析,從而獲得更可靠的研究結(jié)果。
參考文獻:
[1]王芳,夏曉慧,宋家梅.基于文本分析的高校圖書館服務(wù)創(chuàng)新研究[J].圖書館學(xué)研究,2019(21):2-9.
[2]ZHENG X, CHEN W, ZHOU H, et al. Emoji-integrated polyseme probabilistic analysis model: sentiment analysis of short review texts on library service quality[J]. Traitement du signal, 2022, 39(1):313-322.
[3]金武剛,鐘靜涵.技術(shù)時代公共圖書館“場所”價值的社會公眾認(rèn)知研究:基于公共平臺網(wǎng)絡(luò)評論文本分析[J].圖書館雜志,2022,41(1):17-28.
[4]NGUYEN M. Use of social media by academic libraries in australia: review and a case study[J]. Journal of the australian library and information association,2023,72(1):75-99.
[5]李社蕾,周波,楊博雄.圖馬爾可夫卷積神經(jīng)網(wǎng)絡(luò)半監(jiān)督文本分類研究[J].計算機仿真,2022,39(9):288-292.
[6]林鶴,曹磊,夏翠娟. 圖情大數(shù)據(jù)[M].上海:上海科學(xué)技術(shù)出版社,2020:50.
[7]徐彤陽,尹凱.基于深度學(xué)習(xí)的數(shù)字圖書館文本分類研究[J].情報科學(xué),2019,37(10):13-19.
[8]LIU C. Research on library book information resource management based on artificial intelligence and sensors[J]. Journal of sensors,2022: 3720811.
[9]ELNAGGAR A, HEINZINGER M, DALLAGO C, et al. Prottrans: Toward understanding the language of life through self-supervised learning[J]. IEEE transactions on pattern analysis and machine intelligence,2021,44(10):7112-7127.
[10]MINAEE S, KALCHBRENNER N, CAMBRIA E, et al. Deep learning--based text classification: a comprehensive review[J]. ACM computing surveys(CSUR),2021,54(3):1-40.
[11]OTTER D W, MEDINA J R, KALITA J K. A survey of the usages of deep learning for natural language processing[J]. IEEE transactions on neural networks and learning systems,2020,32(2):604-624.
[12]RAGAB M, ALMUHAMMADI A, MANSOUR R F, et al. Natural language processing with deep learning enabled hybrid content retrieval model for digital library management[J]. Expert systems,2022: e13135.
[13]劉海鷗,黃文娜,姚蘇梅等.基于深度學(xué)習(xí)的移動圖書館用戶畫像情境化推薦[J].圖書館學(xué)研究,2019(21):57-64.
[14]李默.基于深度學(xué)習(xí)的智慧圖書館移動視覺搜索服務(wù)模式研究[J].現(xiàn)代情報,2019,39(5):89-96.
[15]SHI X, HAO C, YUE D, et al. Library book recommendation with CNN-FM deep learning approach[J]. Library hi tech,2023(1):48-56.
[16] LIU Z, ZHAO W. Comparative research on structure function recognition based on deep learning[J]. Library hi tech,2022(6):1-16.
[17]張凌云.基于深度學(xué)習(xí)的《資本論》漢英術(shù)語知識庫建設(shè)與應(yīng)用研究[J].圖書館工作與研究,2023(2):20-27+50.
[18]WU Y, WANG X, YU P, et al. ALBERT-BPF: a book purchase forecast model for university library by using ALBERT for text feature extraction[J]. Aslib journal of information management,2022,74(4):673-687.
[19]JOO?S , LU?K , LEE?T. Analysis of content topics, user engagement and library factors in public library social media based on text mining[J].Online information review,2020,44(1):258-277.
[20]WU?P , LI?X , SHEN?S ,et al.Social media opinion summarization using emotion cognition and convolutional neural networks[J].International journal of information management,2020(51):101978.
[21]程雅倩,黃瑋,金曉祥,等.5G環(huán)境下高校圖書館自媒體平臺多標(biāo)簽文本分類方法研究[J].情報科學(xué),2022,40(2):155-161.
[22]ZHENG?X, CHEN?W, ZHOU?H?J, et al. Emoji-Integrated polyseme probabilistic analysis model: sentiment analysis of short review texts on library service quality[J].Traitement du signal,2022(39):313-322.
[23]SCIASCIO C D, STROHMAIER D, ERRECALDE M, et al. Interactive quality analytics of user-generated content: an integrated toolkit for the case of wikipedia[J]. ACM transactions on interactive intelligent systems(TiiS),2019,9(2-3):155-196.
[24]李博,李洪蓮,關(guān)青等.基于CNN-BiLSTM-HAN混合神經(jīng)網(wǎng)絡(luò)的高校圖書館社交網(wǎng)絡(luò)平臺細(xì)粒度情感分析[J].農(nóng)業(yè)圖書情報學(xué)報,2022,34(4):63-73.
[25]馬佳瀅,金武剛.國外公共圖書館“場所”價值的公眾認(rèn)知研究——基于Google Maps在線評論文本分析[J].圖書與情報,2022(3):6-19.
[26]BORREGO ?, COMALAT N M. What users say about public libraries: an analysis of google maps reviews[J]. Online information review,2021,45(1):84-98.
[27]MINAEE S, KALCHBRENNER N, CAMBRIA E, et al. Deep learning: based text classification: a comprehensive review[J]. ACM computing surveys(CSUR),2021,54(3):1-40.
[28]ROSCHK?H, GELBRICH??K. Identifying appropriate compensation types for service failures: a meta-analytic and experimental analysis[J]. Journal of service research,2014,17(2):195-211.
[29]陳信.基于媒介傳播效果框架的圖書館短視頻評論文本分析[J].圖書館學(xué)研究,2023(2):76-81.
[30]?Z?IFT A, AKARSU K, YUMUK F, et al. Advancing natural language processing(NLP) applications of morphologically rich languages with bidirectional encoder representations from transformers(BERT):an empirical case study for Turkish[J]. Automatika: ?asopis za automatiku, mjerenje, elektroniku, ra?unarstvo i komunikacije,2021,62(2):226-238.
[31]LI X, FU X, XU G, et al. Enhancing BERT representation with context-aware embedding for aspect-based sentiment analysis[J]. IEEE access,2020(8):46868-46876.
[32]王靜靜,葉鷹,王婉茹. GPT類技術(shù)應(yīng)用開啟智能信息處理之顛覆性變革[J]. 圖書館雜志,2023,42(5):9-13.
[33]RAVE J I P, ?LVAREZ G P J, MORALES J C C.Multi-criteria decision-making leveraged by text analytics and interviews with strategists[J]. Journal of marketing analytics,2022(10):30-49.
孫祝麗 ?紹興圖書館館員。浙江紹興,312000。
(收稿日期:2023-10-20?編校:謝艷秋)