解登峰 李靚 宋相濡
摘 要 我國(guó)每年出版圖書50多萬(wàn)種,造成圖書館特藏文獻(xiàn)資源建設(shè)工作面臨信息過(guò)載的問(wèn)題,基于人工智能的推薦系統(tǒng)可以有效緩解信息過(guò)載,解決特藏文獻(xiàn)難發(fā)現(xiàn)、難收全的現(xiàn)實(shí)問(wèn)題。本研究通過(guò)將深度學(xué)習(xí)技術(shù)融入推薦系統(tǒng)中,構(gòu)建圖書館特藏文獻(xiàn)需求模型,設(shè)計(jì)出特藏文獻(xiàn)自動(dòng)識(shí)別系統(tǒng),通過(guò)介紹其工作流程與效果,為圖書館開(kāi)發(fā)個(gè)性化、高性能的特藏文獻(xiàn)推薦工具提供參考與借鑒。
關(guān)鍵詞 深度學(xué)習(xí) 特藏文獻(xiàn) 推薦系統(tǒng) 人工智能
分類號(hào) G250
DOI 10.16810/j.cnki.1672-514X.2021.05.008
Artificial Intelligence Applies to Special Collections Acquisition of Library
Xie Dengfeng, Li Liang, Song Xiangru
Abstract In China, more than 500,000 books are published every year, which causes the problem of information overload in the construction of special collections. The artificial intelligence-based recommendation system can effectively alleviate the information overload and solve the practical problems of hard to find and collect special collections. This study integrates deep learning technology into the recommendation system, constructs the demand model of librarys special collection literature, designs the automatic recognition system of special collection literature, and introduces its workflow and effect, so as to provide reference for the library to develop personalized and high-performance special collection literature recommendation tools.Keywords Deep learning. Special collections. Recommendation system. Artificial intelligence.
0 引言
1957年,我國(guó)圖書館學(xué)的奠基人之一杜定友先生根據(jù)實(shí)踐經(jīng)驗(yàn)提出:“各館藏書除供應(yīng)一般讀者的需要外,必須根據(jù)當(dāng)?shù)氐乩憝h(huán)境、建設(shè)需要、歷史傳統(tǒng)、藏書基礎(chǔ)和讀者的要求,做重點(diǎn)配備、重點(diǎn)發(fā)展。各館應(yīng)有若干專藏,每個(gè)專藏應(yīng)配備??蒲芯繂T,為讀者服務(wù)。”[1]在他的提倡下,高校圖書館越來(lái)越重視重點(diǎn)學(xué)科文獻(xiàn)資源的建設(shè),努力建設(shè)反映學(xué)科特色、結(jié)構(gòu)完整的專題性的特色文獻(xiàn)資源。美國(guó)研究型圖書館協(xié)會(huì)(Association of Research Libraries, ARL) 在《作為核心的特藏》報(bào)告中也指出:由于特藏(Special collections)的卓越特性,特藏的建設(shè)可以為研究型圖書館的發(fā)展提供豐富的機(jī)會(huì),以實(shí)現(xiàn)其教學(xué)和科研任務(wù)[2]。在館藏資源日益同質(zhì)化的當(dāng)下,特藏資源日益成為圖書館聲譽(yù)、地位及核心競(jìng)爭(zhēng)力的根本保障,建設(shè)特色鮮明的館藏體系成為圖書館界的共識(shí),加強(qiáng)特藏資源建設(shè)也成為圖書館資源建設(shè)的發(fā)展趨勢(shì)。但文獻(xiàn)數(shù)量迅猛增加帶來(lái)了嚴(yán)重的“信息過(guò)載”問(wèn)題,如何快速、有效地從紛繁復(fù)雜的信息中獲取特藏文獻(xiàn)信息成為了當(dāng)前特藏文獻(xiàn)資源建設(shè)的關(guān)鍵難題,利用人工智能技術(shù)提升特藏資源建設(shè)的必要性和重要性變得愈發(fā)突出。
基于機(jī)器學(xué)習(xí)技術(shù)的推薦系統(tǒng)作為解決信息過(guò)載問(wèn)題的有效方法,已經(jīng)成為學(xué)術(shù)界關(guān)注的熱點(diǎn)并得到了廣泛應(yīng)用。推薦系統(tǒng)本質(zhì)上是從一堆看似雜亂無(wú)章的原始數(shù)據(jù)中,抽象出用戶的興趣特征,挖掘用戶的偏好。因深度學(xué)習(xí)技術(shù)具有優(yōu)秀的自動(dòng)提取抽象特征的能力,所以將深度學(xué)習(xí)與推薦系統(tǒng)相結(jié)合已成為近年來(lái)推薦系統(tǒng)發(fā)展的一個(gè)新方向[3]。以學(xué)科為標(biāo)準(zhǔn)的特藏文獻(xiàn)書目數(shù)據(jù)具有鮮明的屬性特征,基于機(jī)器學(xué)習(xí)的人工智能技術(shù)可感知和理解這些特征數(shù)據(jù),從而實(shí)現(xiàn)從海量文獻(xiàn)信息中自動(dòng)識(shí)別特藏文獻(xiàn)。
1 研究現(xiàn)狀
圖書館一直都是信息技術(shù)應(yīng)用的先行者,對(duì)于信息技術(shù)的發(fā)展有著高度敏感性,持續(xù)關(guān)注人工智能技術(shù)在圖書館領(lǐng)域的應(yīng)用。Smith在1976年對(duì)AI在圖書館信息檢索系統(tǒng)中扮演的角色和潛在作用進(jìn)行了調(diào)查[4]。Burger在1984年討論了四種與信息檢索系統(tǒng)相關(guān)的AI概念——模式識(shí)別、表示、問(wèn)題解決、學(xué)習(xí),并將其應(yīng)用于自動(dòng)化編目中的權(quán)限控制領(lǐng)域[5]。Watsein在1986年回顧了自然語(yǔ)言處理、專家系統(tǒng)、機(jī)器人和傳感系統(tǒng)在圖書館編目、在線信息和推薦咨詢中的使用和限制[6]。Teodorescu在1987年比較了AI的自然語(yǔ)言理解和信息檢索范式的進(jìn)展,并概述了AI在問(wèn)答咨詢系統(tǒng)中的適用性[7]。Fenly于1988年報(bào)告了美國(guó)國(guó)會(huì)圖書館使用專家系統(tǒng)技術(shù)在其職能部門,例如采購(gòu)、編目和期刊控制中的應(yīng)用[8]。Hjerppe等人在1985年和1989年分別探討了專家系統(tǒng)輔助編目特別是選擇入口上的作用和AACR2作為專家系統(tǒng)的知識(shí)庫(kù)與編目的關(guān)系[9]?!?017新媒體聯(lián)盟地平線報(bào)告:圖書館版》將人工智能技術(shù)列為4到5年內(nèi)重點(diǎn)關(guān)注的技術(shù)之一[10],Gartner將其列為“十大戰(zhàn)略技術(shù)”之首[11],吳建中認(rèn)為其是影響圖書館發(fā)展的十大熱點(diǎn)問(wèn)題之一[12],李晨暉等認(rèn)為其是“未來(lái)十年圖書館顛覆性技術(shù)”[13]。不過(guò),當(dāng)前學(xué)界對(duì)于人工智能與圖書館的研究呈現(xiàn)出同質(zhì)化的態(tài)勢(shì),絕大多數(shù)研究局限于從宏觀層面討論技術(shù)的應(yīng)用[14]。在應(yīng)用上還處于探索期和實(shí)踐期,更多使用了一些具有人工智能作用的設(shè)備,如ATM自助圖書、智能書架、倉(cāng)儲(chǔ)式圖書館、自動(dòng)傳送設(shè)備等,也包括一些具有智能化的服務(wù)類機(jī)器人的應(yīng)用[15]。
筆者通過(guò)中國(guó)知網(wǎng)以關(guān)鍵詞“機(jī)器學(xué)習(xí)、人工智能”“資源建設(shè)、特藏資源”進(jìn)行搭配組合式檢索,搜索出的文獻(xiàn)少之又少,可見(jiàn)當(dāng)前機(jī)器學(xué)習(xí)或人工智能在圖書館文獻(xiàn)資源建設(shè)領(lǐng)域的研究極為有限。因此,本研究將從涉海圖書這一特藏文獻(xiàn)中提取相關(guān)文獻(xiàn)特征,利用由監(jiān)督學(xué)習(xí)方法構(gòu)建、可隨特藏文獻(xiàn)建設(shè)同步變化的自適應(yīng)智能識(shí)別系統(tǒng),實(shí)現(xiàn)從海量圖書出版信息中人工智能識(shí)別涉海圖書,對(duì)業(yè)界研究人工智能技術(shù)在文獻(xiàn)資源建設(shè)中的應(yīng)用具有借鑒意義。
2 基于深度學(xué)習(xí)的推薦方法
傳統(tǒng)的推薦方法主要包括協(xié)同過(guò)濾、基于內(nèi)容的推薦方法和混合推薦方法,其中協(xié)同過(guò)濾是利用用戶與項(xiàng)目之間的交互信息為用戶進(jìn)行推薦,需要大量的評(píng)分記錄,因此存在評(píng)分?jǐn)?shù)據(jù)稀疏的問(wèn)題以及新項(xiàng)目的冷啟動(dòng)問(wèn)題;基于內(nèi)容的推薦方法是利用用戶已選擇的項(xiàng)目來(lái)尋找其他類似屬性的項(xiàng)目進(jìn)行推薦,但是這種方法需要有效的特征提取。隨著互聯(lián)網(wǎng)中越來(lái)越多的數(shù)據(jù)能夠被感知獲取,包括圖像、文本、標(biāo)簽在內(nèi)的多源異構(gòu)數(shù)據(jù)蘊(yùn)含著豐富的用戶行為信息及個(gè)性化需求信息,融合多源異構(gòu)輔助信息的混合推薦方法因其能夠緩解傳統(tǒng)推薦系統(tǒng)中的數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題,而越來(lái)越受到重視[16]。
近年來(lái),深度學(xué)習(xí)在圖像處理、自然語(yǔ)言理解和語(yǔ)音識(shí)別等領(lǐng)域取得了突破性進(jìn)展,為推薦系統(tǒng)的研究帶來(lái)了新的機(jī)遇。一方面,深度學(xué)習(xí)可通過(guò)學(xué)習(xí)一種深層次非線性網(wǎng)絡(luò)結(jié)構(gòu),表征用戶和項(xiàng)目相關(guān)的海量數(shù)據(jù),具有強(qiáng)大的從樣本中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力,能夠獲取用戶和項(xiàng)目的深層次特征表;另一方面,深度學(xué)習(xí)通過(guò)從多源異構(gòu)數(shù)據(jù)中進(jìn)行自動(dòng)特征學(xué)習(xí),從而將不同數(shù)據(jù)映射到一個(gè)相同的隱空間,能夠獲得數(shù)據(jù)的統(tǒng)一表征[17]?;谏疃葘W(xué)習(xí)的推薦系統(tǒng)研究的新進(jìn)展,其越來(lái)越多地受到國(guó)際學(xué)術(shù)界和工業(yè)界的關(guān)注。ACM推薦系統(tǒng)年會(huì)(ACMRecSys)在2016年專門召開(kāi)了第一屆基于深度學(xué)習(xí)的推薦系統(tǒng)研究專題研討會(huì)(DLRS16),研討會(huì)指出深度學(xué)習(xí)將是推薦系統(tǒng)的下一個(gè)重要方向,基于深度學(xué)習(xí)的推薦系統(tǒng)研究目前已經(jīng)成為推薦系統(tǒng)領(lǐng)域的研究熱點(diǎn)之一。
深度學(xué)習(xí)包括有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),其中有監(jiān)督學(xué)習(xí)通過(guò)對(duì)數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練,獲得對(duì)應(yīng)數(shù)據(jù)隱含規(guī)律的模型,對(duì)事實(shí)真相進(jìn)行描述,并能夠利用模型進(jìn)行有效預(yù)測(cè)[18]。有監(jiān)督學(xué)習(xí)是建立在人類先驗(yàn)的經(jīng)驗(yàn)基礎(chǔ)上,已經(jīng)對(duì)事物進(jìn)行一定的描述、概括、分類,讓監(jiān)督學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),獲得可靠的描述模型。圖書館現(xiàn)有的數(shù)據(jù),絕大部分為有標(biāo)記數(shù)據(jù),因此人工智能圖書館當(dāng)前主要采用有監(jiān)督學(xué)習(xí)技術(shù)[19]。特藏文獻(xiàn)資源的識(shí)別就是基于已有館藏特藏文獻(xiàn)資源數(shù)據(jù),并基于采訪館員工作經(jīng)驗(yàn)構(gòu)建特藏文獻(xiàn)描述模型,從而實(shí)現(xiàn)特藏文獻(xiàn)資源的自動(dòng)識(shí)別。
3 圖書書目數(shù)據(jù)特點(diǎn)與涉海圖書書目數(shù)據(jù)特征
我國(guó)大陸圖書在出版發(fā)行前就有CIP(Cataloguing In Publication)數(shù)據(jù),是依據(jù)相關(guān)的國(guó)家標(biāo)準(zhǔn)《普通圖書著錄規(guī)則》(GBT 3792.2-2006)、《文獻(xiàn)敘詞標(biāo)引規(guī)則》(GB/T 3860-1995)以及《中國(guó)圖書館圖書分類法》和《漢語(yǔ)主題詞表》對(duì)圖書進(jìn)行著錄、分類標(biāo)引、主題標(biāo)引。數(shù)據(jù)項(xiàng)目包括書名與著作責(zé)任者項(xiàng)、版本項(xiàng)、出版項(xiàng)、叢書項(xiàng)、附注項(xiàng)、標(biāo)準(zhǔn)書號(hào)項(xiàng)、主題詞、分類號(hào)等。圖書發(fā)行后,各圖書供應(yīng)商、圖書館等機(jī)構(gòu)都會(huì)編制各種圖書書目數(shù)據(jù),這些數(shù)據(jù)在結(jié)構(gòu)上屬于格式化數(shù)據(jù),受控于中國(guó)機(jī)讀目錄(CNMARC)格式標(biāo)準(zhǔn)、《中國(guó)圖書館分類法》、《中國(guó)分類主題詞表》等。這些書目數(shù)據(jù)原本就是滿足機(jī)讀要求的格式化數(shù)據(jù),可以滿足機(jī)器學(xué)習(xí)的需要,另外通過(guò)書目數(shù)據(jù)對(duì)圖書的選題、基本內(nèi)容做了基本描述,內(nèi)容附注數(shù)據(jù)又進(jìn)一步揭示圖書的主要內(nèi)容。特藏文獻(xiàn),尤其是以學(xué)科為標(biāo)準(zhǔn)的專題圖書都有明顯特征,并且集中體現(xiàn)在題名、提要、分類、主題詞四個(gè)數(shù)據(jù)項(xiàng)目上。
涉海圖書的篩選一直采用人工識(shí)別的方式,通過(guò)人工逐條瀏覽中標(biāo)圖書供應(yīng)商提供的征訂書目數(shù)據(jù),發(fā)現(xiàn)涉海信息后作為特藏文獻(xiàn)予以標(biāo)記,其本質(zhì)是根據(jù)書目數(shù)據(jù)中的題名、分類、主題、內(nèi)容等多維度、多源化的數(shù)據(jù)項(xiàng)進(jìn)行綜合評(píng)價(jià)和判斷。機(jī)器完全可以通過(guò)學(xué)習(xí)掌握涉海圖書特征,對(duì)上述數(shù)據(jù)項(xiàng)目進(jìn)行自動(dòng)識(shí)別和判斷,通過(guò)機(jī)器學(xué)習(xí)特藏文獻(xiàn)特征來(lái)輔助或代替人工處理海量新書數(shù)據(jù)具有技術(shù)、工作邏輯可行性。在新書出版種類巨大,采訪館員無(wú)法收集更無(wú)法處理完整、全面的出版信息的情況下,機(jī)器自動(dòng)識(shí)別無(wú)疑具有巨大優(yōu)勢(shì)。
為全面標(biāo)記涉海圖書特征,筆者十余年來(lái)分別對(duì)涉海古文獻(xiàn)、民國(guó)時(shí)期涉海圖書、2016年我國(guó)出版的涉海圖書、中國(guó)海洋大學(xué)圖書館館藏涉海圖書等2萬(wàn)多種圖書進(jìn)行了分析,共整理出涉海圖書中圖分類號(hào)386個(gè),其中,出現(xiàn)即可判定涉海圖書的中圖分類號(hào)103個(gè),需要組配主題詞、高頻詞才能識(shí)別涉海圖書的中圖分類號(hào)283個(gè);涉海主題詞2594個(gè),其中,出現(xiàn)即可判定涉海圖書的主題詞1240個(gè),需要組配高頻詞、分類號(hào)才能識(shí)別涉海圖書的主題詞1354個(gè);涉海高頻詞471個(gè)。
4 涉海圖書識(shí)別系統(tǒng)的模型設(shè)計(jì)及模塊
涉海圖書識(shí)別是一個(gè)明顯的二分類任務(wù),本研究選擇將注意力機(jī)制引入模型中,更多地專注于提取文本序列中字與字之間的影響力,實(shí)現(xiàn)了基于BiLSTM-Attention的文本二分類命名實(shí)體識(shí)別模型,該模型由Embedding模塊、BiLSTM模塊及Self-Attention-CRF模塊組成,其框架結(jié)構(gòu)如圖1所示。該模型首先對(duì)待分類的圖書信息文本進(jìn)行預(yù)處理,通過(guò)Embedding模塊將經(jīng)過(guò)分詞處理后的輸入文本表示成向量的形式,再將Embedding模塊對(duì)應(yīng)的向量輸入至BiLSTM模塊中進(jìn)行上下文特征的提取,然后將BiLSTM模塊的輸出輸入至Attention模塊中,最后得到涉海圖書識(shí)別結(jié)果。
4.1 Embedding與BiLSTM模塊
Embedding模塊主要負(fù)責(zé)將輸入的中文詞語(yǔ)轉(zhuǎn)換成向量的形式,每個(gè)詞語(yǔ)對(duì)應(yīng)的向量由預(yù)訓(xùn)練得到的詞向量構(gòu)成,中文詞向量來(lái)源于詞向量工具在中文語(yǔ)料庫(kù)上的語(yǔ)言模型訓(xùn)練結(jié)果。BiLSTM模塊的輸入為Embedding模塊的輸出,使用雙向LSTM結(jié)構(gòu)提取輸入文本的上下文特征,該模塊由LSTM前向?qū)?、LSTM后向?qū)雍推唇訉咏M成,其結(jié)構(gòu)如圖2所示。
BiLSTM模塊組成一種網(wǎng)絡(luò),即長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Neural Network),簡(jiǎn)稱LSTM,在網(wǎng)絡(luò)的每一層中都通過(guò)“門”向單元狀態(tài)中移除或添加信息,每個(gè)“門”由sigmoid函數(shù)和逐點(diǎn)乘法運(yùn)算組成,sigmoid函數(shù)輸出0到1之間的數(shù)值,描述了信息可以通過(guò)門限的程度,0為不讓任何信息通過(guò),1為讓所有信息通過(guò)?!伴T”通過(guò)權(quán)重參數(shù)和偏置參數(shù)對(duì)信息進(jìn)行篩選,決定信息通過(guò)的多少,這些參數(shù)在網(wǎng)絡(luò)訓(xùn)練過(guò)程中得到。每個(gè)LSTM單元通過(guò)遺忘門、輸入門和輸出門三個(gè)“門”來(lái)控制信息對(duì)單元狀態(tài)的影響。設(shè)上一記憶單元輸出為ct-1、上一隱藏層輸出為ht-1、當(dāng)前時(shí)序?yàn)閠、輸入為wt、當(dāng)前候選記憶單元輸出為c't、當(dāng)前記憶單元輸出為ct、當(dāng)前隱藏層輸為ht,用到的激活函數(shù)為sigmoid或tanh函數(shù):
遺忘門(forget gate)主要負(fù)責(zé)控制有多少上一時(shí)刻記憶單元中的信息可以累積到當(dāng)前時(shí)刻的記憶單元中,計(jì)算該門輸出值ft:
其中Wfc、Wfh、Wfw分別為Ct-1、ht-1、Wt的權(quán)值參數(shù),bf為偏置參數(shù),選用sigmoid函數(shù)為激活函數(shù)。
候選記憶單元:計(jì)算輸出值c't:
其中Wch、WcW分別為ht-1、Wt的權(quán)值參數(shù),bC為偏置參數(shù),選用tanh函數(shù)為激活函數(shù)。
輸入門(input gate)主要控制有多少候選記憶單元的信息可以進(jìn)入該時(shí)序的記憶單元,計(jì)算該門輸出值it:
其中Wic、Wih、WiW分別為Ct-1、ht-1、Wt的權(quán)值參數(shù),bi為偏置參數(shù),選用sigmoid函數(shù)為激活函數(shù)。
記憶單元的值Ct來(lái)源于遺忘門調(diào)節(jié)的上一記憶單元輸出以及輸入門調(diào)節(jié)的候選記憶單元的輸出:
其中ft、it為遺忘門與輸入門的輸出值。
輸出門(output gate)主要控制有多少記憶單元的信息可以進(jìn)入當(dāng)前隱藏層的計(jì)算,計(jì)算輸出門輸出值Ot:
其中Woc、Woh、Wow分別為Ct、ht-1、Wt的權(quán)值參數(shù),bo為偏置參數(shù),選用sigmoid函數(shù)為激活函數(shù)。
當(dāng)前隱藏層:當(dāng)前隱藏層的值來(lái)源于輸出門調(diào)節(jié)的經(jīng)過(guò)非線性激活函數(shù)tanh的Ct:
遺忘門、輸入門、輸出門以及記憶單元的設(shè)計(jì),使得LSTM單元有保存、讀取和更新長(zhǎng)距離歷史信息的能力。
對(duì)于每個(gè)文本序列時(shí)刻t,Embedding模塊對(duì)應(yīng)的輸出為et,LSTM前向?qū)釉跁r(shí)刻t的輸出? ? ?可通過(guò)? ? ? ? ? ? ? ? ? ? ?以上各公式進(jìn)行計(jì)算。LSTM后向?qū)拥挠?jì)算也是類似,但其計(jì)算起始位置是從文本序列的末端開(kāi)始,按照相反的順序進(jìn)行。因此,? ? 、? ? ?可表示為:
其中? ? ? ? ? ? ? ? ? 是LSTM單元的輸出維度。
拼接層將LSTM前向?qū)拥妮敵? ?和LSTM后向?qū)拥妮敵? ? 拼接起來(lái)得到當(dāng)前時(shí)序t的輸出? ? :
可知BiLSTM模塊的輸出H為:
其中n為輸入文本序列長(zhǎng)度。
4.2 Attention模塊
Attention模塊主要完成文本分類任務(wù),其輸入為BiLSTM模塊的輸出H,輸出為該文本的分類結(jié)果。設(shè)W為輸入文本的矩陣表示、n為文本長(zhǎng)度、dim為Wt的維度(即 LSTM_dim*2)、S1為權(quán)值參數(shù),計(jì)算權(quán)重矩陣α:
可知α為長(zhǎng)度n的一維矩陣,α的值代表該詞在整個(gè)輸入文本中的權(quán)重信息。而后將原文本的表示矩陣W與權(quán)重矩陣α相乘,得到經(jīng)過(guò)注意力矩陣賦予權(quán)重后的特征向量H:
該層選用tanh為激活函數(shù)。最后經(jīng)過(guò)輸出層得到預(yù)測(cè)的關(guān)系分類標(biāo)簽 y':
其中Wh為H的權(quán)值參數(shù),bh為偏置參數(shù),y'為最后輸出的預(yù)測(cè)文本二分類結(jié)果。
5 涉海圖書識(shí)別系統(tǒng)的實(shí)現(xiàn)
為了對(duì)模型進(jìn)行充分的實(shí)驗(yàn)驗(yàn)證,先進(jìn)行了詞向量的預(yù)訓(xùn)練,然后基于TensorFlow框架實(shí)現(xiàn)了涉海圖書信息識(shí)別模型,系統(tǒng)實(shí)現(xiàn)流程見(jiàn)圖3。
5.1 詞向量預(yù)訓(xùn)練與特征處理
通過(guò)隨機(jī)采樣,提取了2009—2020年每年2萬(wàn)條書目信息,共24萬(wàn)條書目信息,只標(biāo)注了2440條數(shù)據(jù),比例為0.01%,數(shù)據(jù)樣本嚴(yán)重不平衡,考慮到樣本嚴(yán)重不平衡會(huì)導(dǎo)致模型過(guò)擬合的問(wèn)題,于是又從書目庫(kù)中標(biāo)注了6,069條涉海數(shù)據(jù),擴(kuò)充正樣本總量,占比提高到3.42%。提取每條書目記錄中的主題名、題名、出版題名、作者、出版社、出版地、讀者對(duì)象、主題詞、簡(jiǎn)介9個(gè)屬性內(nèi)容,經(jīng)過(guò)預(yù)處理后,調(diào)用jieba庫(kù)進(jìn)行分詞處理得到161M的中文分詞文本;將分詞文本作為Word2vec工具(gensim庫(kù))的輸入,使用Skip-gram模型進(jìn)行訓(xùn)練,得到中文詞向量。另對(duì)書目記錄中的中圖分類號(hào)、出版社這種帶有類別信息的字段進(jìn)行One-Hot編碼,離散化能提升模型的非線性能力。
5.2 模型實(shí)現(xiàn)及訓(xùn)練參數(shù)設(shè)置
模型的代碼實(shí)現(xiàn)基于Google開(kāi)源的機(jī)器學(xué)習(xí)框架TensorFlow,將數(shù)據(jù)集隨機(jī)等分為10份,其中8份作為訓(xùn)練集,1份作為驗(yàn)證集,1份作為測(cè)試集。
由于涉海圖書數(shù)量較少,在提取的書目數(shù)據(jù)中占比很低,造成數(shù)據(jù)集中正、負(fù)樣本極度不平衡,為保證模型效果,對(duì)訓(xùn)練集中的負(fù)樣本按照與正樣本1:1的比例進(jìn)行采樣。模型參數(shù)設(shè)置如表1所示。
其中BiLSTM模塊中的隱含層維度是指單向LSTM隱含層的維度,該模塊輸出是拼接了前向LSTM和后向LSTM的輸出,輸出維度為100*2,即200。
5.3 評(píng)價(jià)指標(biāo)
在文本二分類任務(wù)中,根據(jù)測(cè)試集標(biāo)注的正確結(jié)果與模型預(yù)測(cè)的結(jié)果可分為真正例(True Positives)、假正例(False Positives)、真負(fù)例(True Negatives)和假負(fù)例(False Negatives),以計(jì)算模型對(duì)預(yù)測(cè)輸入條目為涉海圖書的評(píng)價(jià)指標(biāo)為例,得到其混淆矩陣如表2所示。
而評(píng)估模型在判斷輸入條目為涉海圖書上的準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1-Measure)是基于上述混淆矩陣中TP、FN、FP、TN四個(gè)類別的數(shù)量計(jì)算得來(lái)。
準(zhǔn)確率是計(jì)算被預(yù)測(cè)為涉海圖書的條目數(shù)量中,實(shí)際標(biāo)注為涉海圖書條目所占的百分比,衡量了模型“找準(zhǔn)”的能力。召回率是計(jì)算實(shí)際標(biāo)注為涉海圖書的條目數(shù)量中,也被模型預(yù)測(cè)為涉海圖書條目所占的百分比,衡量了模型“找全”的能力。在實(shí)際的實(shí)驗(yàn)結(jié)果評(píng)價(jià)中,使用以上公式計(jì)算涉海圖書條目預(yù)測(cè)的準(zhǔn)確率、召回率及F1值。
5.4 調(diào)參結(jié)果
按照表1設(shè)置的參數(shù),按照驗(yàn)證集、測(cè)試集中正、負(fù)樣本的比例,計(jì)算加權(quán)后的準(zhǔn)確率、召回率及F1值,得到如表3的實(shí)驗(yàn)結(jié)果。
考慮到樣本中的正樣本偏少,實(shí)驗(yàn)結(jié)果會(huì)有誤差,于是我們重新把數(shù)據(jù)集隨機(jī)等分為10份,其中6份作為訓(xùn)練集,2份作為驗(yàn)證集,2份作為測(cè)試集,進(jìn)行訓(xùn)練,得到如表4實(shí)驗(yàn)結(jié)果。
learning rate(學(xué)習(xí)率)作為最重要的超參數(shù),調(diào)整該參數(shù),一般取值在0.001~0.05之間,將其調(diào)為0.05后的結(jié)果如表5所示。
將learning rate(學(xué)習(xí)率)調(diào)為0.001,實(shí)驗(yàn)結(jié)果如表6所示。
根據(jù)評(píng)級(jí)指標(biāo)以及模型的訓(xùn)練表現(xiàn),考慮到模型的泛化能力,最終選擇表3的參數(shù)作為模型的最終參數(shù)如表7所示。
6 涉海圖書自動(dòng)識(shí)別系統(tǒng)效果與評(píng)價(jià)
目前,涉海圖書自動(dòng)識(shí)別系統(tǒng)支持ISO數(shù)據(jù)包及Excel文件的批量導(dǎo)入、批量識(shí)別,識(shí)別結(jié)果支持Excel輸出。為驗(yàn)證該算法模型及涉海圖書自動(dòng)識(shí)別系統(tǒng)的有效性、人工識(shí)別與機(jī)器識(shí)別的差異,筆者在圖書供應(yīng)商的征訂目錄中隨機(jī)抽取了2萬(wàn)條書目記錄,分為10個(gè)書目數(shù)據(jù)包,每包均有2000條書目數(shù)據(jù)。在機(jī)器識(shí)別前,先由具有十余年涉海特藏建設(shè)經(jīng)驗(yàn)的館員按每天1000條書目數(shù)據(jù)的速度進(jìn)行人工識(shí)別,后通過(guò)涉海圖書識(shí)別工具進(jìn)行機(jī)器識(shí)別,二者的識(shí)別結(jié)果對(duì)比如表8所示。
通過(guò)表8可以發(fā)現(xiàn),在2萬(wàn)條書目記錄中,共有300條涉海圖書,占比為1.5%,人工識(shí)別率為88.7%、漏檢率為11.3%、錯(cuò)檢率為1.0%;機(jī)器識(shí)別率為83.3%、漏檢率為16.7%、錯(cuò)檢率為17.7%。通過(guò)上述數(shù)據(jù)可以得出以下結(jié)論。
6.1 機(jī)器識(shí)別較人工識(shí)別效率高、成本低
數(shù)量少是特藏圖書之所以被稱之為特藏的根本特征,這在涉海圖書中表現(xiàn)得尤為明顯,涉海圖書占比僅有1.5%。目前我國(guó)每年出版50多萬(wàn)種圖書,如果以人工識(shí)別的方式來(lái)發(fā)現(xiàn)這1.5%,需要投入大量人力及時(shí)間,這在圖書館的人力資源越來(lái)越緊張的形勢(shì)下顯得尤為困難。機(jī)器識(shí)別可以在幾分鐘內(nèi)處理上萬(wàn)條書目信息,快速發(fā)現(xiàn)特藏文獻(xiàn),能夠?yàn)閳D書館特藏資源建設(shè)提供助力。
6.2 機(jī)器識(shí)別的正確率有待提高
機(jī)器學(xué)習(xí)工具是建立在書目文本信息基礎(chǔ)上的,對(duì)自然語(yǔ)言的正確認(rèn)知能力還非常有限,尤其是帶有修辭性質(zhì)的自然語(yǔ)言極易造成機(jī)器錯(cuò)檢。表4中機(jī)器識(shí)別的錯(cuò)檢率為17.7%,主要是由文本信息雖然涉海,但其本意卻并非涉海造成的,比如內(nèi)容簡(jiǎn)介中出現(xiàn)“從浩瀚的成語(yǔ)海洋中”“就像是一片智慧的海洋”“作者徜徉于文字的海洋里”時(shí),機(jī)器識(shí)別直接將其歸為了涉海圖書。這一點(diǎn)還需要后期對(duì)其不斷進(jìn)行數(shù)據(jù)訓(xùn)練,以更好地應(yīng)對(duì)這類特殊情況。人工識(shí)別的錯(cuò)檢率雖然很低,只有1.0%,但也表明其在處理大量數(shù)據(jù)時(shí)也存在操作及判斷失誤的情況。
6.3 書目數(shù)據(jù)質(zhì)量直接影響了人工及機(jī)器識(shí)別率
為準(zhǔn)確判斷人工識(shí)別與機(jī)器識(shí)別的差異,二者都在同樣的書目信息基礎(chǔ)上進(jìn)行識(shí)別,館員基于豐富的經(jīng)驗(yàn)和知識(shí)積累,人工識(shí)別正確率達(dá)到88.7%,機(jī)器識(shí)別正確率為83.3%,二者相差5.4%,差距相對(duì)較小。機(jī)器識(shí)別漏檢的圖書多為年鑒、舊方志、舊史料、游記等,產(chǎn)生的原因主要是沿海地名、舊名不具有現(xiàn)代海洋語(yǔ)言特征,機(jī)器無(wú)法判斷,而書目中的其他信息也沒(méi)有體現(xiàn)出海洋相關(guān)信息。人工識(shí)別漏選的主要原因一方面在于原書目信息特別少,導(dǎo)致難以判斷,另一方面在于書目信息雜亂,不易發(fā)現(xiàn)涉海信息。由此可見(jiàn),書目數(shù)據(jù)質(zhì)量直接影響了特藏圖書的發(fā)現(xiàn)。
7 結(jié)語(yǔ)
人工智能等新一代信息技術(shù)被引入圖書館服務(wù),將有效促進(jìn)圖書館提升服務(wù)質(zhì)量。目前,圖書館部分工作已經(jīng)開(kāi)始擺脫對(duì)圖書館員直接的依賴,逐漸能夠利用計(jì)算機(jī)自動(dòng)處理和完成大量的服務(wù)性工作,從根本上實(shí)現(xiàn)圖書館業(yè)務(wù)模式的轉(zhuǎn)型發(fā)展[20]。在圖書館業(yè)務(wù)研究中也已有許多學(xué)者圍繞人工智能技術(shù)開(kāi)展了一系列理論研究與探索,相信在不斷的研究實(shí)踐探索中,人工智能技術(shù)會(huì)在圖書館的業(yè)務(wù)和服務(wù)中越來(lái)越成為圖書館人和讀者的好幫手。從本研究的結(jié)果來(lái)看,基于人工智能技術(shù)實(shí)現(xiàn)特藏文獻(xiàn)資源的自動(dòng)識(shí)別,能夠有效地緩解信息過(guò)載,提升了特藏文獻(xiàn)資源建設(shè)工作的質(zhì)量和效率,證實(shí)了人工智能應(yīng)用理論、技術(shù)與算法的有效,在圖書館基礎(chǔ)業(yè)務(wù)領(lǐng)域廣泛應(yīng)用人工智能值得繼續(xù)深入研究與實(shí)踐。
參考文獻(xiàn):
[ 1 ]杜定友.圖書館怎樣更好地為科學(xué)研究服務(wù)[J].圖書館學(xué)通訊,1957(2):49-51.
[ 2 ]
Special at the core: aligning,integrating,and mainstreaming special collections in the research library[EB/OL].[2016-06-01].http://publications.arl.org/rli283 /1.
[ 3 ]王俊淑,張國(guó)明,胡斌.基于深度學(xué)習(xí)的推薦算法研究綜述[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2018,18(4):33-43.
[ 4 ]
SMITH L.Artificial intelligence in information retrieval systems[J].information Processing and Management.1976,12(3):189-222.
[ 5 ]
BURGER R H.Artificial intelligence and authority control[J].Library Resources and Technical Services,
1984,28(4):337-45.
[ 6 ]WATSTEIN S,KESSEIMAN M.In pursuit of artificial intelligence[J].Library Hi Tech News,1986(30):1-9.
[ 7 ]
TEODORRESCU I.Artificial intelligence and information
retrieval[J].Canadian Library Journal,1987,44(1):29-32.
[ 8 ]FENLY C,HARRIS H.Expert systems:concepts and applications[J].Advances in Library Information Technology,1988(1):44.
[ 9 ]HIERPPE R,OlANDER B.Cataloging and expert systems:
[10]AACR2 as a knowledge base[J].Journal of the American Society for Information Science,1989,40(1):27-44.
[11]NMC Horizon Report (2017Library Edition)[EB/OL].[2018-07-12]. http://cdn.nmc.org/media/2017-nmc-horizon-report-library-EN.pdf.
[12]
PETTEY C. Gartner identifies the top 10 strategic technology trendsfor 2018[EB/OL].[2018-07-12].https://www.gartner.com/smarterwithgartner/gartner-top-10-strategic-technology-trends-for-2018/.
[13]
吳建中.再議圖書館發(fā)展的十個(gè)熱門話題[J].中國(guó)圖書館學(xué)報(bào),2017,43(4):4-17.
[14]
李晨暉,張興旺,秦曉珠.圖書館未來(lái)的技術(shù)應(yīng)用與發(fā)展:基于近五年Gartner《十大戰(zhàn)略技術(shù)趨勢(shì)》及相關(guān)報(bào)告的對(duì)比分析[J].圖書與情報(bào),2017(6):37-47.
[15]黃曉斌,吳高.人工智能時(shí)代圖書館的發(fā)展機(jī)遇與變革趨勢(shì)[J].圖書與情報(bào),2017(6):19-29.
[16]傅云霞.人工智能在智慧圖書館建設(shè)中應(yīng)用研究[J].圖書館工作與研究,2018(9):47-51,79.
WANG H,WANG N,YEUNG D Y.Collaborative deep learning for recommender systems[C]Proceedings of the 21st ACMSIGKDD International Conference on Knowledge Discovery and Data Mining.Sydney,Australia,2015:1235-1244.
[17]
PENG Y,ZHU W,ZHAO Y,et al.Cross-media analysis
and reasoning:Advances and directions. Frontiers of
Information Technology & Electronic Engineering,2017,18
(1):44-57.
[18]MEHRYAR M, AFSHINf R, AMEET T. Foundations of machine learning [M].Cambridge City the MIT Press,2012:7.
[19]王紅,袁小舒,雷菊霞.人工智能:圖書館應(yīng)用架構(gòu)和服務(wù)模式的重塑[J].現(xiàn)代情報(bào),2019,39(9):101-108.
[20]初景利,段美珍.從智能圖書館到智慧圖書館[J].國(guó)家圖書館學(xué)刊,2019,28(1):3-9.