柳益君 羅 燁 蔡秋茹 吳智勤 何 勝
(1.江蘇理工學(xué)院計算機工程學(xué)院 江蘇常州 213001)
(2.江蘇理工學(xué)院圖書館 江蘇常州 213001)
個性化推薦是高校圖書館個性化服務(wù)的重要內(nèi)容之一,準(zhǔn)確而深入地了解用戶是個性化推薦的前提?!盎ヂ?lián)網(wǎng)+”、社交網(wǎng)絡(luò)等技術(shù)在圖書館的應(yīng)用給用戶分析提供了多源數(shù)據(jù),學(xué)者們重點關(guān)注如何挖掘用戶的偏好和興趣并通過推薦服務(wù)滿足之。李樹青等人[1]根據(jù)圖書館借閱記錄,挖掘圖書閱讀相關(guān)性,利用圖書類別相關(guān)性鏈接關(guān)系,提出用戶個性化模式的表達(dá)方法,從長期興趣和短期興趣兩方面為用戶提供個性化圖書推薦服務(wù)。劉海鷗等人[2]融合圖書館用戶的情境信息進(jìn)行面向大數(shù)據(jù)的協(xié)同過濾推薦。王剛等人[3]根據(jù)用戶社交行為,通過分析用戶之間社交密切程度、資源使用情況和用戶近期偏好因素,為用戶提供個性化推薦服務(wù)。柳益君等人[4]提出一種基于社交網(wǎng)絡(luò)分析的閱讀推薦方法,發(fā)現(xiàn)用戶的多樣興趣,進(jìn)而提供主題多樣性的閱讀推薦服務(wù)。劉愛琴等人[5]應(yīng)用SOM神經(jīng)網(wǎng)絡(luò)對用戶Web訪問行為進(jìn)行聚類和優(yōu)化,識別用戶的興趣點,進(jìn)而提供主題推薦、圖書推薦和專家推薦。
圖書館個性化推薦服務(wù)受到廣泛關(guān)注,取得了諸多成果,但是依然面臨著挑戰(zhàn)。圖書館發(fā)展至今,文獻(xiàn)、資料、內(nèi)容日趨繁多復(fù)雜,個性化推薦服務(wù)面臨的“信息過載”“信息迷航”“情感缺失”問題仍然嚴(yán)重。用戶興趣是情感的顯性表達(dá),用戶需求則是潛在的隱性情感需要。現(xiàn)實中,推薦符合用戶顯性興趣的資源往往并不能滿足用戶潛在需求。例如,一位計算機專業(yè)的學(xué)生借閱了圖書《數(shù)據(jù)結(jié)構(gòu)》,顯示了他對“數(shù)據(jù)結(jié)構(gòu)”有明顯興趣,但是如果給他推薦此類圖書文獻(xiàn),他很可能未必需要。也許他會覺得一本《數(shù)據(jù)結(jié)構(gòu)》已經(jīng)夠了,不需要更多,他需要的是算法分析和設(shè)計類書籍。初景利[6]指出,圖書館依附于用戶而存在,用戶需求是圖書館存在的基礎(chǔ)與發(fā)展的動力。圖書館要留住用戶、壯大用戶群,僅著眼于用戶顯性興趣是不夠的,更應(yīng)捕捉用戶的潛在需求。分析目前的研究,推薦的個性化主要體現(xiàn)在滿足用戶的顯性偏好和興趣,對于如何滿足用戶的潛在需求尚缺乏深入探索。為了實現(xiàn)以用戶為中心的推薦服務(wù),有必要研究如何滿足用戶深層潛在需求,而非僅僅是顯性興趣,從而最終提供用戶高滿意度的個性化推薦服務(wù)。
目前,我國各行各業(yè)都在推進(jìn)人工智能技術(shù)的應(yīng)用。通過人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等現(xiàn)代信息技術(shù),對行業(yè)實行顛覆性重構(gòu)和革命性改造。人工智能在圖書館應(yīng)用甚多,使圖書館升華為智能圖書館的新形態(tài),圖書館服務(wù)也走向適應(yīng)時代的智能服務(wù)[7-9]。在智能服務(wù)的背景下,圖書館需要提升傳統(tǒng)推薦服務(wù)的智能化水平。個性化智能推薦服務(wù)是傳統(tǒng)個性化服務(wù)的進(jìn)一步發(fā)展,充分利用智能技術(shù),不僅能夠發(fā)現(xiàn)用戶的顯性興趣,也能夠深入挖掘用戶的深層需求,實現(xiàn)升級的個性化推薦服務(wù),主動為用戶推薦其所需的資源,全面、深層地滿足用戶個性化需求,并提高資源的利用率。
作為人工智能的重要分支之一,機器學(xué)習(xí)在分析用戶數(shù)據(jù),發(fā)現(xiàn)用戶需求,進(jìn)而提供個性化智能推薦服務(wù)上有很大優(yōu)勢。《人工智能標(biāo)準(zhǔn)化白皮書(2018版)》指出,人工智能的特征之一是“由人類設(shè)計,為人類服務(wù),本質(zhì)為計算,基礎(chǔ)為數(shù)據(jù)”[10],而機器學(xué)習(xí)是一種基于數(shù)據(jù)的重要智能技術(shù)。我國著名機器學(xué)習(xí)專家周志華教授[11]在專著《機器學(xué)習(xí)》中談到,機器學(xué)習(xí)在大數(shù)據(jù)時代是必不可少的核心技術(shù),沒有機器學(xué)習(xí)技術(shù)分析數(shù)據(jù),則數(shù)據(jù)利用無從談起,“數(shù)據(jù)分析”是機器學(xué)習(xí)技術(shù)的舞臺,各種機器學(xué)習(xí)技術(shù)已經(jīng)在這個舞臺上大放異彩。物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)在圖書館日益廣泛的應(yīng)用使圖書館積累了海量用戶數(shù)據(jù)。用戶數(shù)據(jù)中既有宏觀層面群體涌現(xiàn)的大數(shù)據(jù),也有微觀層面?zhèn)€人和團(tuán)體的小數(shù)據(jù),蘊含了大量的特征、模式和關(guān)系,為用戶分析提供了寶貴資源,也為機器學(xué)習(xí)提供了用武之地。
梁少博等人[12]認(rèn)為,機器學(xué)習(xí)的相關(guān)工具、算法能夠幫助圖書館分析用戶行為數(shù)據(jù)、業(yè)務(wù)處理數(shù)據(jù)等,從而為用戶提供更加智能的信息服務(wù)。張坤等人[13]指出,個性化推薦服務(wù)是機器學(xué)習(xí)在圖書情報領(lǐng)域的重要應(yīng)用之一,應(yīng)用機器學(xué)習(xí)技術(shù)可以對用戶的檢索、閱讀、瀏覽等記錄進(jìn)行識別與分析,進(jìn)而判斷出用戶的潛在信息需求及興趣偏好,最終提供滿足用戶需求的資源。機器學(xué)習(xí)在深入分析和學(xué)習(xí)用戶數(shù)據(jù),提取數(shù)據(jù)智能,進(jìn)而深層地洞察用戶、理解用戶中有巨大的應(yīng)用前景,是構(gòu)建個性化智能推薦服務(wù)的支撐技術(shù)。
本文設(shè)計基于機器學(xué)習(xí)的圖書館個性化智能推薦服務(wù)方案,如圖1所示。該方案由圖書館用戶數(shù)據(jù)采集與清洗、個性化興趣提取和需求發(fā)現(xiàn)、個性化智能推薦三部分組成。其中,機器學(xué)習(xí)主要用于個性化需求發(fā)現(xiàn)。
圖1 基于機器學(xué)習(xí)的高校圖書館個性化智能推薦服務(wù)方案
在數(shù)據(jù)采集與清洗階段,全面收集高校圖書館用戶數(shù)據(jù)。除了用戶基本信息、借閱記錄、網(wǎng)站行為(點擊、瀏覽、下載、收藏等)、“互聯(lián)網(wǎng)+”、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等現(xiàn)代信息技術(shù)在高校圖書館的應(yīng)用產(chǎn)生了各種新類型的用戶數(shù)據(jù)。高校圖書館應(yīng)用微博社交平臺開展服務(wù)產(chǎn)生了社交數(shù)據(jù),學(xué)校的教務(wù)系統(tǒng)和科研系統(tǒng)可以提供師生的學(xué)習(xí)數(shù)據(jù)、科研數(shù)據(jù)等,移動圖書館、眼動儀、生理監(jiān)測儀等智能終端可以提供關(guān)于用戶情境、生理、狀態(tài)等各方面的感知數(shù)據(jù)。對多源異構(gòu)的用戶數(shù)據(jù)進(jìn)行清洗、規(guī)范化和整合,為進(jìn)一步分析用戶數(shù)據(jù)并從中進(jìn)行個性化興趣提取和需求發(fā)現(xiàn)奠定基礎(chǔ)。
3.2.1 個性化興趣提取
個性化顯性興趣是用戶情感的顯性表達(dá),而個性化潛在需求是用戶的隱性情感體現(xiàn)。在個性化興趣提取和需求發(fā)現(xiàn)階段,首先通過關(guān)鍵字提取、協(xié)同過濾、統(tǒng)計分析等傳統(tǒng)的方法技術(shù)獲取用戶情感的顯性表達(dá),提取用戶的個性化顯性興趣;然后通過機器學(xué)習(xí)技術(shù),進(jìn)行用戶隱性情感挖掘,克服圖書館資源推薦服務(wù)面臨的用戶情感缺失的困難,發(fā)現(xiàn)用戶的個性化潛在需求。
3.2.2 基于機器學(xué)習(xí)的個性化需求發(fā)現(xiàn)
圖書館用戶的個性化需求發(fā)現(xiàn)主要包含三部分內(nèi)容:當(dāng)前需求挖掘、需求趨勢預(yù)測、需求特征識別。①當(dāng)前需求挖掘:當(dāng)前需求挖掘旨在發(fā)現(xiàn)用戶在當(dāng)前較短一段時間內(nèi)的需求,比如當(dāng)前一個月、一周的需求,甚至一個學(xué)習(xí)或一個科研場景下的需求。②需求趨勢預(yù)測:用戶對資源的需求常常具有時間上和內(nèi)容上的連貫性,需求趨勢預(yù)測旨在根據(jù)用戶當(dāng)前的興趣和需求去預(yù)測用戶未來一段時期內(nèi)的需求。③需求特征識別:需求特征識別旨在發(fā)現(xiàn)某個個體用戶或某個群體用戶的特有的需求,例如,一位從事數(shù)據(jù)結(jié)構(gòu)課程教學(xué)的教師會需要這門課程的多種教材和教學(xué)參考書,一個研究圖書館服務(wù)的團(tuán)隊特別需要圖書館學(xué)、圖書館管理、讀者工作等相關(guān)方向的圖書、論文等文獻(xiàn)。
采用監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、主動學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等機器學(xué)習(xí)方法發(fā)現(xiàn)個性化需求。機器學(xué)習(xí)主要研究在計算機上從數(shù)據(jù)中產(chǎn)生模型的算法,即學(xué)習(xí)算法,把經(jīng)驗數(shù)據(jù),即訓(xùn)練數(shù)據(jù)提供給學(xué)習(xí)算法,學(xué)習(xí)算法就能基于這些數(shù)據(jù)產(chǎn)生模型,面對新情況時模型能給出判斷和預(yù)測。用于機器學(xué)習(xí)的用戶數(shù)據(jù)可以分為有標(biāo)記和無標(biāo)記兩類,具有已知標(biāo)簽或結(jié)果的訓(xùn)練數(shù)據(jù)是有標(biāo)記數(shù)據(jù),反之是無標(biāo)記數(shù)據(jù)。根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)記信息,機器學(xué)習(xí)任務(wù)大致分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)兩大類,它們分別用于從有標(biāo)記數(shù)據(jù)和無標(biāo)記數(shù)據(jù)中學(xué)習(xí)。此外還有主動學(xué)習(xí)、半監(jiān)督學(xué)習(xí),用于從有標(biāo)記和無標(biāo)記的混合數(shù)據(jù)中學(xué)習(xí)[11]。應(yīng)用各類機器學(xué)習(xí)算法在海量用戶數(shù)據(jù)中進(jìn)行分布探索、關(guān)系探索、特征探索、異常探索、推測探索、趨勢探索等,發(fā)現(xiàn)高校圖書館用戶在學(xué)習(xí)、科研、教學(xué)等方面潛在的個性化需求。
(1)監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)在需求發(fā)現(xiàn)中的應(yīng)用
在監(jiān)督學(xué)習(xí)中,輸入的訓(xùn)練數(shù)據(jù)具有已知標(biāo)簽或結(jié)果,對訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練以構(gòu)建模型,并通過接受反饋預(yù)測對模型進(jìn)行持續(xù)改進(jìn),當(dāng)模型在訓(xùn)練數(shù)據(jù)上達(dá)到期望的精度時學(xué)習(xí)停止;在無監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)沒有標(biāo)注已知結(jié)果,通過探索訓(xùn)練數(shù)據(jù)中存在的結(jié)構(gòu)而生成模型,該模型可能是提取一般規(guī)則、通過數(shù)學(xué)過程減少冗余,或者通過相似性測試組織數(shù)據(jù)[14]。
從服務(wù)對象的角度看,高校圖書館個性化智能推薦服務(wù)對象可以是個體用戶,比如一位學(xué)生、一位教師,也可以是某一特定用戶群,比如一個科研團(tuán)隊。無監(jiān)督學(xué)習(xí)適于在眾多用戶中識別特殊用戶群體,并對其進(jìn)行需求分析。監(jiān)督學(xué)習(xí)在發(fā)現(xiàn)個體用戶需求中更有優(yōu)勢,如預(yù)測用戶對資源的評分或情感,克服用戶的情感缺失。表1列出了常用監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)算法及其在個性化需求發(fā)現(xiàn)中的應(yīng)用。
表1 常用監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)算法及其在個性化需求發(fā)現(xiàn)中的應(yīng)用
(2)主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)在需求發(fā)現(xiàn)中的應(yīng)用
監(jiān)督學(xué)習(xí)要求所有訓(xùn)練數(shù)據(jù)均有標(biāo)記信息,而現(xiàn)實中圖書館的很多數(shù)據(jù)標(biāo)記不完全。例如,通過推薦系統(tǒng)向用戶推薦文獻(xiàn)時請用戶標(biāo)記出需要的文獻(xiàn),以獲取用戶對于推薦結(jié)果的反饋,但并非所有的用戶都愿意花時間來提供標(biāo)記,愿意這么做的用戶常常是少數(shù)。專門組織大量人力來標(biāo)記數(shù)據(jù)顯然不現(xiàn)實。主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)為圖書館充分利用大量的未標(biāo)記數(shù)據(jù)提供了方法和技術(shù)。主動學(xué)習(xí)在模型訓(xùn)練過程中選取一部分最有價值的數(shù)據(jù)請用戶或?qū)<疫M(jìn)行標(biāo)注,通過與外界的交互使部分未標(biāo)記數(shù)據(jù)獲得標(biāo)記,最終不需要大量標(biāo)記數(shù)據(jù)便能獲得高效的模型。半監(jiān)督學(xué)習(xí)同時使用未標(biāo)記數(shù)據(jù)和標(biāo)記數(shù)據(jù)來進(jìn)行模式識別工作,建模過程不需要與用戶或?qū)<医换11]。有了半監(jiān)督學(xué)習(xí)和主動學(xué)習(xí),大量未標(biāo)記數(shù)據(jù)也可以用于圖書館用戶當(dāng)前需求挖掘、需求特征識別、需求趨勢分析等。
根據(jù)所提取的個性化興趣和發(fā)現(xiàn)的個性化需求關(guān)聯(lián)書目庫、論文庫、專利庫、知識庫等數(shù)據(jù)庫中的資源,形成個性化智能推薦列表提供給用戶。個性化智能推薦列表由基于個性化興趣的推薦和基于個性化需求的推薦兩部分組成,且以基于個性化需求的推薦為主。這樣,興趣和需求相結(jié)合、以需求驅(qū)動為主的個性化智能推薦服務(wù)得以實現(xiàn),有助于高校圖書館獲得用戶高滿意度。
本文以“圖書推薦服務(wù)”為例,提出機器學(xué)習(xí)應(yīng)用下的高校圖書館個性化智能推薦服務(wù)。應(yīng)用樸素貝葉斯算法發(fā)現(xiàn)目標(biāo)用戶的當(dāng)前圖書需求,為其提供個性化智能圖書推薦服務(wù)。
用戶U1是目標(biāo)用戶,即推薦服務(wù)的對象。近一個月內(nèi)用戶U2-U5與目標(biāo)用戶U1有部分相同的借閱書籍。對用戶U2-U5的圖書借閱記錄進(jìn)行分析,以發(fā)現(xiàn)目標(biāo)用戶U1的當(dāng)前需求。5位用戶U2-U5近一個月內(nèi)圖書借閱目錄如表2所示,他們共借閱8本圖書b1-b8。用戶對圖書的評分如圖2所示,由于目標(biāo)用戶U1未借閱圖書b5-b8,故對b5-b8的評分用“?”表示。評分分?jǐn)?shù)有1、2、3、4、5五種,根據(jù)評分判斷用戶情感,若用戶對圖書的評分大于等于3分,則將用戶對該圖書的情感歸為“正向”類,否則歸為“負(fù)向”類。將圖2用戶-圖書評分矩陣轉(zhuǎn)換為圖3用戶-圖書情感矩陣,用表情圖表示正向和負(fù)向情感。圖3展現(xiàn)了用戶對圖書的顯性情感。
表2 用戶圖書借閱目錄
圖2 用戶-圖書評分矩陣
圖3 用戶-圖書情感矩陣
個性化智能圖書推薦服務(wù)兼顧用戶的顯性興趣和潛在需求,首先提取目標(biāo)用戶顯性興趣,基于興趣進(jìn)行推薦,然后應(yīng)用機器學(xué)習(xí)算法挖掘目標(biāo)用戶對圖書資源的隱性情感,克服情感缺失,發(fā)現(xiàn)用戶當(dāng)前潛在需求,進(jìn)行基于需求的推薦,最終為目標(biāo)用戶提供符合興趣且以滿足潛在需求為主的圖書推薦。
由圖3可見,目標(biāo)用戶U1對圖書b1-b4表達(dá)了顯性情感。U1對圖書b1、b2、b3的情感是正向的,說明他對這3本圖書有顯性興趣,而U1對圖書b4的情感為負(fù)向,說明他對圖書b4缺乏興趣,如表3所示。
表3 目標(biāo)用戶的個性化興趣和需求
在眾多機器學(xué)習(xí)算法中,樸素貝葉斯算法(Naive Bayes Algorithm,NBA)是一種簡單有效且應(yīng)用廣泛的監(jiān)督學(xué)習(xí)算法[15]。它基于概率論,具有數(shù)學(xué)基礎(chǔ)堅實、分類效率穩(wěn)定、對缺失數(shù)據(jù)敏感性不高等優(yōu)點。在近期借閱記錄數(shù)據(jù)上訓(xùn)練得到的樸素貝葉斯分類器可以預(yù)測用戶對圖書的隱性情感,進(jìn)而發(fā)現(xiàn)用戶的當(dāng)前圖書需求。
樸素貝葉斯算法的思想和過程如下[11]。假設(shè)類別標(biāo)記集合C={ci} (i=1, 2, …, n),樣本a有m個屬性aj(j=1,2, …, m),樸素貝葉斯分類器采用“屬性條件獨立假設(shè)”,按公式(1)計算類條件概率P(ci|a):
選擇能使P(ci|a)最大的類別標(biāo)記作為樣本a的分類。由于P(a)對每個類別都相同,貝葉斯判定準(zhǔn)則見公式(2):
訓(xùn)練樸素貝葉斯分類器的過程就是根據(jù)訓(xùn)練數(shù)據(jù)集來估計類先驗概率P(ci),并為每個屬性估計條件概率P(aj|ci)。
表4 個性化智能圖書推薦列表
應(yīng)用樸素貝葉斯算法,根據(jù)圖3所示的用戶-情感矩陣預(yù)測目標(biāo)用戶U1對未評分圖書b5-b8的隱性情感,即判別隱性情感類別。情感分為“正向”和“負(fù)向”兩類,類別標(biāo)記集合C={C1=正,C2=負(fù)}。屬性aj(j=1, 2, …, 8)表示對圖書bj的情感,例如,用戶U5對圖書b1情感是“負(fù)向”,則用戶U5這個樣本在a1的屬性值是“負(fù)”。由樸素貝葉斯算法判別得到目標(biāo)用戶U1對圖書b5-b8的隱性情感依次是“正向”“正向”“正向”“負(fù)向”。U1對圖書b5、b6、b7具有正向的隱性情感,說明U1對這3本圖書具有潛在需求(如表3所示)。
個性化智能圖書推薦列表如表4所示,由基于個性化興趣的推薦和基于個性化需求的推薦兩部分組成,共9本圖書。
由表3可知,目標(biāo)用戶對于圖書b1、b2、b3具有個性化興趣。采用基于圖書的協(xié)同過濾得到與b1、b2、b3相似的3本圖書,包括《新編數(shù)據(jù)結(jié)構(gòu)案例教程》《數(shù)據(jù)結(jié)構(gòu)精講與習(xí)題詳解(C語言版)》和《離散數(shù)學(xué)及其應(yīng)用》,將其作為基于興趣的推薦結(jié)果。
由表3可知,目標(biāo)用戶對于圖書b5、b6、b7具有個性化需求。首先,將目標(biāo)用戶U1具有潛在需求的3本圖書b5、b6、b7,即《你也能看得懂的Python算法書》《精通數(shù)據(jù)科學(xué)算法》《機器學(xué)習(xí):算法視角》加入表4基于個性化需求的推薦部分。其次,通過協(xié)同過濾得到與圖書b5、b6、b7相似的3本算法類和機器學(xué)習(xí)類圖書《Python算法指南》《面向數(shù)據(jù)挖掘的算法設(shè)計與分析》和《機器學(xué)習(xí)案例實戰(zhàn)》,也將其加入表4基于個性化需求的推薦部分。
表4所示的推薦列表不僅考慮到了用戶個性化顯性興趣,更洞察了用戶對圖書的隱性情感,為其推薦滿足當(dāng)前個性化潛在需求的圖書,因此獲得了目標(biāo)用戶的高滿意度。
機器學(xué)習(xí)是人工智能最重要的分支之一,已經(jīng)有效應(yīng)用于互聯(lián)網(wǎng)搜索、醫(yī)學(xué)數(shù)據(jù)分析、客戶信息分析、天氣預(yù)報等諸多領(lǐng)域,也必將在智能圖書館建設(shè)和圖書館智能服務(wù)構(gòu)建中發(fā)揮重要作用。本文對應(yīng)用機器學(xué)習(xí)技術(shù)構(gòu)建圖書館個性化智能推薦服務(wù)進(jìn)行探討,提出了基于機器學(xué)習(xí)的個性化智能推薦服務(wù)方案,以傳統(tǒng)統(tǒng)計分析、協(xié)同過濾、關(guān)鍵字提取等方法從用戶數(shù)據(jù)發(fā)現(xiàn)個性化顯性興趣,以機器學(xué)習(xí)方法進(jìn)行用戶的個性化當(dāng)前需求挖掘、需求特征識別、需求趨勢分析等,為用戶提供合乎興趣而又滿足潛在需求的智能推薦服務(wù)。最后給出圖書推薦服務(wù)的案例,應(yīng)用經(jīng)典機器學(xué)習(xí)算法之一的樸素貝葉斯算法在近期借閱記錄中提取顯性化興趣并發(fā)現(xiàn)當(dāng)前潛在需求,為用戶高滿意度的個性化智能推薦服務(wù)。