佘欣媛 林娜 哈爾濱工業(yè)大學(威海)圖書館
當前,圖書館面臨的主要現(xiàn)狀如下:一是館藏資源類型越來越多,資料不再局限于紙質(zhì)圖書、電子圖書,視頻、音頻、圖片資料庫也越來越龐大;二是讀者閱讀習慣改變,移動設(shè)備的便捷性讓人們更傾向于無紙化閱讀;三是圖書館角色改變,圖書館已經(jīng)不是讀者唯一的知識提供者,網(wǎng)絡(luò)世界豐富多樣的信息有時更能吸引讀者的目光;四是人工智能程序迅速發(fā)展,有成為下一代信息中心的趨勢。然而,雖然網(wǎng)絡(luò)資源數(shù)量龐大,但讀者進行信息篩選的代價也不小;雖然人工智能程序能夠與人類無障礙交流,但其資料庫并不專業(yè),無法給用戶提供高質(zhì)量的信息。面對這些問題,圖書館應(yīng)肩負起知識傳遞者的責任,做好業(yè)務(wù)轉(zhuǎn)型,明確建設(shè)智慧圖書館的發(fā)展方向。
智慧圖書館建設(shè)研究主要有以下幾個方面:元宇宙背景下虛實結(jié)合、數(shù)字孿生技術(shù)在圖書館中的應(yīng)用,建立多元學習空間模型,將用戶部分學習行為放到網(wǎng)絡(luò)上提高用戶互動性[1-4];用5G、區(qū)塊鏈等技術(shù)改變圖書館底層數(shù)據(jù)存儲邏輯和網(wǎng)絡(luò)拓撲結(jié)構(gòu),增加數(shù)據(jù)安全性[5];人工智能生成程序(Artificial Intelligence Generative Content,AIGC)與圖書館信息咨詢業(yè)務(wù)結(jié)合[6];智慧圖書館開放性和共享性研究,將公司、政府、技術(shù)小組等多類對象納入圖書館服務(wù)平臺中來,減少交流障礙,提高服務(wù)效率[7];使用物聯(lián)網(wǎng)射頻技術(shù)打造智慧圖書館硬件體系,如智慧書架等設(shè)施。[8-9]
信息時代的圖書館尤其是讀者信息質(zhì)量需求更高的高校圖書館,應(yīng)該重視加強信息管理及分析。所以,本文嘗試從智慧信息平臺架構(gòu)、元數(shù)據(jù)組織格式、檢索算法等方面闡述高校智慧圖書館框架下信息組織與分析挖掘方法。
高校智慧圖書館背景下的信息平臺應(yīng)為用戶提供24小時全天候的實時信息服務(wù),并滿足用戶個性化的需求。同時,不同于網(wǎng)絡(luò)資源多而雜,圖書館應(yīng)為讀者提供更深層次的精細化的知識,減少檢索代價,提高信息質(zhì)量。因此,高校智慧圖書館的信息平臺架構(gòu)自底向上設(shè)計主要包括三個層次:數(shù)據(jù)層、算法層、用戶接口層(如下頁圖1)。
圖1 智能信息平臺框架
數(shù)據(jù)層按存儲對象不同分為兩大庫:用戶信息庫和知識庫。其中,用戶信息庫用于存儲每位用戶個人特征數(shù)據(jù),便于后續(xù)程序進行特性化服務(wù)處理;知識庫按照數(shù)據(jù)類型不同又包括紙質(zhì)圖書庫、電子圖書庫、電子期刊庫、視頻庫、音頻庫、圖片庫等。所有這些館藏數(shù)據(jù)庫合并在一起組成綜合信息平臺。
算法層是在數(shù)據(jù)層的基礎(chǔ)上對館藏數(shù)據(jù)進行文本分詞、特征提取等操作,將信息細化并挖掘其中關(guān)聯(lián)關(guān)系。數(shù)據(jù)類型不同處理方式也有所區(qū)別,圖像信息需要進行圖像識別工作,音頻信息需要進行語音文字提取工作。
當用戶接入信息平臺咨詢或檢索信息時,接口層的人工智能生成程序—如ChatGPT,通過交流獲取用戶輸入信息并傳遞給算法層,算法層提取信息中的關(guān)鍵詞并在綜合信息平臺中檢索,檢索結(jié)果根據(jù)用戶個人特征排名后通過人工智能程序使用自然語言反饋給用戶。
高校智慧圖書館框架下的信息資源平臺區(qū)別于傳統(tǒng)平臺的其中一個特征就是建立以用戶為中心的信息管理、組織、檢索模式。一改以往無差別的信息反饋形式,以用戶為中心的信息平臺搜集、存儲用戶日常行為數(shù)據(jù),為每位用戶建立特征庫。當用戶使用平臺咨詢、檢索信息時,平臺根據(jù)用戶特征數(shù)據(jù)對檢索結(jié)果篩選、排序后再將最終結(jié)果傳遞給用戶。平臺搜集的用戶特征類別如圖2所示。
圖2 用戶特征分類
數(shù)據(jù)庫記錄用戶的身份信息、日常瀏覽習慣、年級年限、學科專業(yè)、重要的瀏覽記錄等。其中,身份信息包括在讀學生、教師、科研員、機關(guān)管理員等;年級年限指用戶所處年級或在校時長,通常認為在校時間越長信息需求深度越深、知識領(lǐng)域越窄;專業(yè)涵蓋學校所涉及的學科領(lǐng)域如海洋、汽車等;瀏覽習慣包括用戶日常慣用的數(shù)據(jù)庫平臺、瀏覽及下載的信息類型、高重復的檢索關(guān)鍵詞等。不同身份及年齡的用戶信息需求深度及寬度有所差別,大一、大二等低年級學生可能較為關(guān)注本專業(yè)基礎(chǔ)學科知識的學習和積累,研究型教師的學科領(lǐng)域更細化且對信息質(zhì)量要求更高。同樣,不同專業(yè)之間權(quán)威數(shù)據(jù)庫不盡相同,平臺在用戶個性化服務(wù)中要參考用戶研究的細分領(lǐng)域有針對地進行檢索。
圖書館的信息資源來源于多個平臺,包含多種類型,主要有館藏的紙質(zhì)圖書、電子圖書、各期刊數(shù)據(jù)庫、專利數(shù)據(jù)庫、視頻資料庫、音頻資料庫、圖片資料庫等。雖然大部分圖書館均提供一站式檢索,但基本是以商用平臺為主,很少自己開發(fā),這導致了商家之間購買協(xié)議及接口不兼容的問題,統(tǒng)一檢索不能針對本館館藏的所有資源,并且館內(nèi)用戶均使用同一個賬戶或IP地址段訪問,無法做到用戶區(qū)分及個性化服務(wù)。高校智慧圖書館的信息服務(wù)應(yīng)該具備全面、智能、高質(zhì)量、個性化等特點,建立圖書館自己的綜合信息平臺是圖書館服務(wù)深化的必然需求。不同類型的資源信息內(nèi)容不同、格式不同,要實現(xiàn)統(tǒng)一管理及檢索,首先需要設(shè)計資源間可關(guān)聯(lián)的統(tǒng)一的元數(shù)據(jù)格式。全方位的檢索應(yīng)該能夠根據(jù)用戶需求檢全、檢準,并為用戶提供關(guān)聯(lián)知識及交叉領(lǐng)域的信息推薦。為了體現(xiàn)信息資源之間的關(guān)系,筆者使用實體-關(guān)系模型(Entity-relationship model,ER)對元數(shù)據(jù)進行概念模型設(shè)計(如圖3)。
圖3 元數(shù)據(jù)ER圖
在圖3中,數(shù)據(jù)被分為實體、屬性、關(guān)系三種,每個實體包含若干個屬性,實體與實體間存在不同類型關(guān)系。例如,新中國成立前及新中國成立初期文學家林徽因與徐志摩的相關(guān)內(nèi)容就可以作為兩個實體存儲在數(shù)據(jù)庫中,他們各自包含若干屬性,如代表作、所處時間、地點、關(guān)系等。林徽因的代表作《你是人間的四月天》、徐志摩的代表作《徐志摩詩集》等都是館藏書籍,且林徽因與徐志摩之間經(jīng)常有學術(shù)上的往來,是朋友關(guān)系。當用戶搜索林徽因時,信息平臺應(yīng)能夠自動聯(lián)想出與林徽因關(guān)聯(lián)的以上信息供用戶選擇(如圖4)。
圖4 元數(shù)據(jù)ER圖示例
根據(jù)館藏資源類別及ER圖,還可以設(shè)計多資源融合信息平臺元數(shù)據(jù)組織格式,如下頁表所示。
每條元數(shù)據(jù)都包括表中的各個字段。其中,名稱字段指元數(shù)據(jù)的標題或信息標識,如果是圖書可以是書名,如果是人物、事件等信息可以是人物名稱、事件名稱;資源類型字段指該條元數(shù)據(jù)描述信息的類型,是紙質(zhì)圖書、期刊文章,還是某個文學作家、歷史事件等;標簽字段存儲了元數(shù)據(jù)的描述性關(guān)鍵詞,如某個教學視頻主要講解了Python面向?qū)ο蟮拇a解釋方式,那么標簽屬性就可以概括成“Python”“編譯”“解釋性語言”等;內(nèi)容字段包括元數(shù)據(jù)的重點內(nèi)容、名言名句等代表性信息,提高用戶內(nèi)容檢索效率;時間、地點字段表明了作者、關(guān)聯(lián)地點、重要時間節(jié)點等信息,便于用戶根據(jù)時間段檢索資源;學科字段存儲了數(shù)據(jù)所屬學科領(lǐng)域,該字段可以存儲多個學科字段,是交叉學科發(fā)現(xiàn)以及用戶定制檢索的基礎(chǔ)字段;互動數(shù)據(jù)字段用于表明元數(shù)據(jù)質(zhì)量或者受歡迎程度,可以是文章下載量、瀏覽量,圖書借閱量以及其他類型資源轉(zhuǎn)發(fā)、點贊、評論量,一般認為該項數(shù)值越高,用戶感興趣可能性越大;其他關(guān)聯(lián)關(guān)系字段可以存儲多個值,用于指明該元數(shù)據(jù)與其他元數(shù)據(jù)之間的關(guān)系,如人物關(guān)系、包含關(guān)系、類別關(guān)系等。
不同類型信息檢索算法有所區(qū)別,按照處理對象類型不同可將其分為文本檢索、圖像檢索、音頻檢索等。其中,文本檢索最基礎(chǔ)、應(yīng)用最廣泛。文本檢索過程包括清洗、分詞、特征提取等方面,如下頁圖5所示。
圖5 綜合檢索算法流程圖
首先,去掉文本中的重復項、空值、邏輯錯誤等影響分析的臟數(shù)據(jù),即數(shù)據(jù)清洗;其次,對文本進行分詞,也就是將一整句話劃分為若干個有實際意義的詞,分詞處理時需要根據(jù)文本語種分別采用不同程序處理,Python語言框架下的NLTK(Natural Language Toolkit)庫實現(xiàn)了多種英文分詞算法,但是在中文分詞方面表現(xiàn)不佳。相對而言,Jieba庫的分詞算法則比較適合中文分詞場景。
元數(shù)據(jù)信息組織格式
在得到詞庫后,需要根據(jù)停用詞表去掉已經(jīng)不用的詞匯,NLTK和Jieba庫中都有相應(yīng)的停用詞表。在去停后,通過主題分析算法找出文本主題詞,主流主題詞提取算法有文檔主題生成模型(Latent Dirichlet Allocation,LDA)以及詞頻逆文本頻率指數(shù)算法(term frequency–inverse document frequency,TF-IDF)。前者根據(jù)實體詞在文檔中出現(xiàn)概率高低找出文檔主題;后者認為在本文檔中出現(xiàn)概率高而在其他文檔中出現(xiàn)率低的詞具有很強的代表性,使用哪種算法需視情況而定。
在主題分析后,通過聚類算法在主題詞中選出最具有代表性的幾個詞作為文檔的特征標簽項,并存儲在數(shù)據(jù)庫文檔元數(shù)據(jù)標簽字段中。同時,根據(jù)主題詞分析結(jié)果使用神經(jīng)網(wǎng)絡(luò)算法,如膨脹卷積模型(Dilated convolution Model)提取文本特征并找出實體之間的關(guān)聯(lián)關(guān)系,將實體作為元數(shù)據(jù)存儲到數(shù)據(jù)庫中并記錄該關(guān)系。
檢索算法有很多種,如哈希搜索、分支界限搜索(Branch and Bound Search Algorithm)等,無論使用哪種檢索算法,針對高校智慧圖書館的智能信息平臺這種用戶信息需求專業(yè)性較強的場景,垂直搜索要比普通的頁面搜索更能為用戶提供有深度的服務(wù)。原因是,頁面搜索注重信息廣度和普遍性,垂直搜索追求信息挖掘深度和精度,所以垂直搜索更適用于高校智慧圖書館這種專業(yè)性高的場景。同時,高校智慧圖書館框架下的信息檢索結(jié)果需要根據(jù)用戶特征對結(jié)果進行排序后再反饋給用戶。
同樣檢索關(guān)鍵詞“神經(jīng)網(wǎng)絡(luò)”,對于借閱書籍較多的低年級學生平臺將圖書檢索結(jié)果排在前面,而對于科研型教師則更多地將期刊、專利等方面的信息反饋給用戶。
與文本檢索不同,圖像檢索和音頻檢索均需要提取視頻、圖片、音頻中主要信息,需要將其轉(zhuǎn)成文字后再進入文本檢索過程。在圖像特征提取方面,常用算法有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),它模擬生物視覺神經(jīng)信息處理過程,輸入圖像經(jīng)過模型卷積層、池化層、全連接層等多層處理輸出特征信息,CNN主要用于物體識別、行為認知等領(lǐng)域。音頻內(nèi)容提取已有很多較為成熟的音頻文字提取工具,如百度AI、訊飛聽見等。
用戶接口層的人工智能生成程序接收到檢索結(jié)果后,使用自然語言將結(jié)果反饋給用戶。為了更直觀地展現(xiàn)檢索結(jié)果之間的關(guān)系以及衍生信息,平臺同時使用知識圖譜形式呈現(xiàn)檢索結(jié)果內(nèi)容。知識圖譜工具有citespace、Gephi、vosviewer、SATI等。
仍以檢索關(guān)鍵詞“林徽因”為例,通過檢索算法識別關(guān)鍵詞“林徽因”,將數(shù)據(jù)庫中與“林徽因”相關(guān)的元數(shù)據(jù)及彼此關(guān)系以圖的形式反饋給用戶,如果用戶屬于低年級學生,平臺主要反饋館藏圖書相關(guān)信息。平臺不但將“林徽因”的個人情況及文學作品《你是人間的四月天》反饋給用戶,而且與“林徽因”相關(guān)的其他作家如“徐志摩”及其代表作也被顯示了出來,同時也給出各個作品的鏈接平臺,用戶可以通過點擊直接跳轉(zhuǎn)到書籍頁面。
高校智慧圖書館要重視信息的分析與處理,保證用戶信息服務(wù)質(zhì)量。智能信息平臺使用融合的信息平臺和綜合檢索算法為AIGC提供了與前臺用戶交流的資源庫,但是圖書館的很多數(shù)據(jù)都有版權(quán)限制,能否將其直接傳遞給AIGC進行學習還需要進一步討論。為了盡可能多地利用多個館的館藏資源,設(shè)計館與館之間通用的元數(shù)據(jù)組織格式也是智能信息平臺未來改進需要考慮的問題。