連鍥
(上海財(cái)經(jīng)大學(xué),上海 200433)
個(gè)性化推薦技術(shù)在1990年代一經(jīng)提出,國(guó)外就開(kāi)始嘗試應(yīng)用于數(shù)字圖書(shū)館的個(gè)性化推薦服務(wù)。受到亞馬遜、Yahoo等大型電子商務(wù)網(wǎng)站個(gè)性化服務(wù)成功應(yīng)用的啟發(fā),一些國(guó)外高校經(jīng)過(guò)多年廣泛的研究和實(shí)踐,紛紛建立了Mylibrary。其中比較典型的有美國(guó)Cornell University圖書(shū)館Mylibrary@cornell和North Carolina State University圖書(shū)館的 Mylibrary@NCState[1]。Mylibrary@cornell系統(tǒng)于1999年正式上線,該系統(tǒng)已經(jīng)發(fā)展成為數(shù)字化圖書(shū)館個(gè)性化推薦服務(wù)的原型[2]。近年來(lái),我國(guó)高校圖書(shū)館加強(qiáng)了對(duì)個(gè)性化推薦技術(shù)和服務(wù)的研究。2000年初,國(guó)家社科資金項(xiàng)目資助并由北京大學(xué)承擔(dān)了——“基于Web的數(shù)字圖書(shū)館定制系統(tǒng)”。中國(guó)人民大學(xué)的數(shù)字圖書(shū)館Kingbase DL,通過(guò)記錄和分析用戶描述信息,構(gòu)建讀者概貌,進(jìn)而產(chǎn)生與之匹配的圖書(shū)推薦[3]。國(guó)家科學(xué)數(shù)字圖書(shū)館對(duì)北卡羅萊納州立大學(xué)Myli-brary@NCState進(jìn)行了二次開(kāi)發(fā)[4]。
高校圖書(shū)館是學(xué)校的文獻(xiàn)信息中心,其目標(biāo)是滿足讀者信息需求。讀者在圖書(shū)館的借閱行為直接反映了讀者的閱讀興趣情況,因此,研究當(dāng)代大學(xué)借閱行為模式對(duì)圖書(shū)館開(kāi)展推薦服務(wù)有著直接意義。
(1)讀者借閱的動(dòng)機(jī)
首先,輔助學(xué)業(yè)的需要。筆者在本校和兄弟院校調(diào)研中發(fā)現(xiàn)許多大學(xué)生到圖書(shū)館借閱目的明確,就是輔助課業(yè)學(xué)習(xí),在讀者借閱中占最大比重;其次,求職的需要。大學(xué)生畢業(yè)后選擇進(jìn)入社會(huì)時(shí)面對(duì)一個(gè)直接的課題就是求職。當(dāng)今社會(huì)競(jìng)爭(zhēng)激烈,他們?cè)诖髮W(xué)內(nèi)對(duì)專業(yè)知識(shí)和技能方面作為必要的準(zhǔn)備,因此與之相關(guān)的圖書(shū)借閱頻次也是蠻高的。最后,滿足興趣愛(ài)好和娛樂(lè)生活的需要。興趣愛(ài)好包括語(yǔ)言文學(xué)、攝影、音樂(lè)、繪畫(huà)、各種體育項(xiàng)目等,因此這些圖書(shū)借閱比例也是比較高。
(2)讀者借閱行為模式研究
筆者分析了上海財(cái)經(jīng)大學(xué)圖書(shū)館信息借還系統(tǒng)中2011-2017年每年9月1日到12月30日當(dāng)年入學(xué)新生的借閱歷史記錄和文獻(xiàn)查閱中國(guó)部分高校圖書(shū)館借閱情況,得出當(dāng)代大學(xué)生借閱行為中的一些共性規(guī)律,發(fā)現(xiàn)了現(xiàn)階段大學(xué)生借閱的一些特點(diǎn)。大學(xué)生的借閱狀況受到年級(jí)、學(xué)科、讀者類型等因素影響。
借此共性特點(diǎn)解決“新用戶”的問(wèn)題。新生進(jìn)校后,專業(yè)、學(xué)科等信息能夠被直接獲取,用聚類的方法,推薦系統(tǒng)能夠方便的建立用戶描述文件。在讀者使用的初期,系統(tǒng)依據(jù)初始的描述文件中群體讀者興趣信息來(lái)提供服務(wù),并且在讀者不斷使用系統(tǒng)的過(guò)程中收集和分析用戶行為數(shù)據(jù),主要是讀者對(duì)圖書(shū)的借閱數(shù)據(jù)。系統(tǒng)根據(jù)這些數(shù)據(jù)不斷地預(yù)測(cè)用戶的興趣狀況,包括推斷新的興趣愛(ài)好、已有興趣權(quán)重的動(dòng)態(tài)變化等。讀者對(duì)系統(tǒng)的使用過(guò)程就是讀者興趣模型動(dòng)態(tài)更新的過(guò)程,初始時(shí)讀者得到的是一個(gè)群體共同興趣模型,隨著讀者對(duì)系統(tǒng)的不斷使用,模型將會(huì)越來(lái)越“個(gè)性化”,并最終形成與讀者借閱行為匹配的興趣模式。
(1)讀者初始興趣模型的創(chuàng)建
當(dāng)一個(gè)新生入學(xué)時(shí),系統(tǒng)無(wú)法獲得新讀者的興趣狀況,也就不能對(duì)其產(chǎn)生有效的推薦。但高校課程教學(xué)計(jì)劃在一段時(shí)間內(nèi)具有連續(xù)性,并且通過(guò)前面讀者借閱行為模式分析,知道歷年來(lái)高校同一學(xué)院的新生讀者在借閱規(guī)律上有一定的相似性,因此本文創(chuàng)新地提出用歷年新生借閱記錄統(tǒng)計(jì)評(píng)價(jià)來(lái)表征讀者的初始興趣情況。讀者借閱記錄能較好地反映讀者興趣的變化,當(dāng)讀者借閱某類圖書(shū)時(shí),說(shuō)明該讀者對(duì)此相關(guān)的興趣產(chǎn)生聯(lián)系。本文使用向量空間模型來(lái)建立用戶的興趣模型,即讀者借閱了f(經(jīng)濟(jì))、t(工業(yè)技術(shù))類圖書(shū),則用戶的初始興趣集合表示為{f、t}。通過(guò)對(duì)上海財(cái)經(jīng)大學(xué)2011年至2017年新生的借閱記錄分析,結(jié)合學(xué)科分類,利用中圖法22個(gè)基類概念表示讀者的興趣,計(jì)算出各學(xué)院新生的主要借閱類別在借閱總數(shù)中的比重,并以此確定對(duì)應(yīng)的興趣權(quán)重值。將初始興趣集合與對(duì)應(yīng)的權(quán)重值結(jié)合,最終生成讀者的初始興趣描述文件:F={w1,t1,(w2,t2)…(wn,tn)},其中n為興趣數(shù),ti為興趣圖書(shū)分類,wi是對(duì)應(yīng)的興趣權(quán)重值。
(2)讀者興趣模型的更新
由于讀者的興趣不是固定不變,一個(gè)好的興趣模式應(yīng)該能夠迅速地捕捉讀者興趣的變化,并及時(shí)調(diào)整。根據(jù)讀者的借閱行為,本文在更新讀者的興趣模型時(shí),采用下面的策略:
①興趣項(xiàng)的減弱策略
當(dāng)讀者多次借閱中,興趣模型某些類別圖書(shū)均沒(méi)有被借閱到,則表示讀者對(duì)這些項(xiàng)目的興趣度在下降。需要調(diào)整讀者的興趣模型,其相應(yīng)的興趣權(quán)重值應(yīng)減小。
遺忘曲線模擬人的記憶模式和行為習(xí)慣,更貼近讀者興趣的真實(shí)表達(dá),本文采用其函數(shù)來(lái)調(diào)整興趣項(xiàng)的權(quán)重:wi=wi0e-0.2(1+2+…j),其中 wi0是第 i項(xiàng)分類興趣的初始權(quán)重,j∈(1…n),表示在時(shí)間點(diǎn)n時(shí)項(xiàng)i類目圖書(shū)距離最近一次出現(xiàn)時(shí)的間隔。根據(jù)趙家輝在《個(gè)性化信息服務(wù)中的用戶興趣遷移研究》中的分析,結(jié)合筆者工作經(jīng)驗(yàn),遺忘速度取0.2(1+2+…+j)值能較好地?cái)M合讀者認(rèn)知的遺忘曲線[5]。
②興趣項(xiàng)的新增策略
讀者借閱某類圖書(shū)時(shí),下次借閱該類圖書(shū)可能性較高。因而當(dāng)讀者借閱了某類不在描述文件中的圖書(shū),表示讀者有新的興趣項(xiàng)產(chǎn)生。
新出現(xiàn)項(xiàng)歸屬為短期興趣,本文假設(shè)新項(xiàng)目經(jīng)過(guò)兩次遺忘后就會(huì)低于剔除閥值,則新項(xiàng)目權(quán)重值要小于0.1÷e-0.2(1+2)=0.18,本文權(quán)重設(shè)置為0.15,從而將項(xiàng)目從興趣模型中刪除,符合短期興趣快速變化和易遺忘的特征。
③興趣項(xiàng)的加強(qiáng)策略
如果讀者在一定時(shí)間段內(nèi)頻繁借閱某類圖書(shū),也就表現(xiàn)出讀者對(duì)對(duì)應(yīng)項(xiàng)目感興趣程度在提高,該類圖書(shū)對(duì)應(yīng)的興趣權(quán)重值應(yīng)增加。本文假設(shè)興趣加強(qiáng)是第一次興趣遺忘的逆過(guò)程,即加強(qiáng)系數(shù)為1.22(e0.2),也就是說(shuō)本期的權(quán)重Wj=1.22Wj-1。
④興趣項(xiàng)的保持策略
當(dāng)讀者在一段時(shí)間段沒(méi)有借閱行為發(fā)生時(shí),則用戶的興趣模型仍然保持不變,無(wú)需進(jìn)行更新。
⑤興趣項(xiàng)的剔除策略
當(dāng)讀者的興趣模型中某一興趣項(xiàng)在多次借閱行為中都沒(méi)發(fā)生,其興趣權(quán)重值根據(jù)減弱策略不斷調(diào)整小于一定閥值時(shí),我們可以認(rèn)為讀者已“遺忘”該興趣項(xiàng),本文取0.1閥值。
在圖書(shū)館信息管理系統(tǒng)中,有每個(gè)讀者的詳細(xì)借閱記錄。系統(tǒng)后臺(tái)將記錄經(jīng)過(guò)抽取、轉(zhuǎn)換、加載入數(shù)據(jù)庫(kù),并進(jìn)行分析。前端在線提供給讀者個(gè)性化的推薦功能,主動(dòng)推送符合讀者需求的圖書(shū),借此提高圖書(shū)館圖書(shū)資源的利用率。
(1)圖書(shū)館圖書(shū)推薦功能設(shè)計(jì)系統(tǒng)分析
系統(tǒng)服務(wù)對(duì)象:由于上海財(cái)經(jīng)大學(xué)在校博士樣本少,在一定時(shí)期借閱統(tǒng)計(jì)沒(méi)有體現(xiàn)類別共性規(guī)律。所以本文設(shè)計(jì)推薦服務(wù)對(duì)象設(shè)定為在校本科生和碩士生。
系統(tǒng)功能描述:根據(jù)圖書(shū)館信息管理系統(tǒng)運(yùn)行的特點(diǎn),可以將推薦功能分為基礎(chǔ)數(shù)據(jù)維護(hù)、圖書(shū)評(píng)價(jià)數(shù)據(jù)維護(hù)、推薦算法模塊和模型更新四個(gè)部分:
基礎(chǔ)數(shù)據(jù)維護(hù):包括讀者信息、圖書(shū)信息管理、圖書(shū)評(píng)價(jià)數(shù)據(jù)維護(hù)等。
推薦算法模塊:包括讀者推薦信息、推薦策略管理等。
模型更新:包括評(píng)分信息收集和更新、讀者初始模型個(gè)性和本人興趣模型更新等。
學(xué)校圖書(shū)館個(gè)性化推薦系統(tǒng)在收集各學(xué)院新生借閱規(guī)律基礎(chǔ)上,構(gòu)建讀者初始興趣模型,并分析讀者對(duì)圖書(shū)的評(píng)價(jià)信息,在推薦算法的幫助下選擇讀者可能感興趣的圖書(shū)產(chǎn)生推薦。系統(tǒng)從讀者的借閱記錄中不斷學(xué)習(xí),動(dòng)態(tài)校正讀者的興趣模型,從讀者圖書(shū)評(píng)價(jià)記錄中不斷學(xué)習(xí),及時(shí)改變推薦類別中圖書(shū)排序。從而保證下一次產(chǎn)生的推薦結(jié)果更符合讀者的個(gè)性需求,最終提高推薦的準(zhǔn)確性。
本推薦系統(tǒng)算法功能的具體操作過(guò)程如下:①按照中國(guó)圖書(shū)分類法,將圖書(shū)館館藏資源分為22個(gè)類目。②對(duì)每個(gè)類目,由讀者對(duì)圖書(shū)評(píng)價(jià)構(gòu)成評(píng)分?jǐn)?shù)據(jù)矩陣,評(píng)分可以設(shè)定為1-5五個(gè)等級(jí),數(shù)字越高表示讀者對(duì)圖書(shū)評(píng)級(jí)越高。讀者的評(píng)價(jià)圖書(shū)數(shù)量越多,評(píng)分矩陣越完整,由此產(chǎn)生的推薦結(jié)果就越準(zhǔn)確。③使用Apache Mahout機(jī)器學(xué)習(xí)工具實(shí)現(xiàn)基于項(xiàng)目的Slope one協(xié)同過(guò)濾推薦,其中有些沒(méi)有對(duì)任何圖書(shū)評(píng)價(jià)的讀者使用圖書(shū)評(píng)價(jià)的平均值來(lái)表征讀者的評(píng)價(jià)。④將針對(duì)讀者的推薦結(jié)果以頁(yè)面形式在讀者個(gè)人系統(tǒng)中輸出。
分析各時(shí)間點(diǎn)內(nèi)讀者借閱記錄,當(dāng)有記錄發(fā)生時(shí),推薦系統(tǒng)根據(jù)借閱圖書(shū)種類動(dòng)態(tài)修改興趣模型,調(diào)整模型的項(xiàng)目類和項(xiàng)目權(quán)重值,最終導(dǎo)致對(duì)讀者推薦的圖書(shū)類別和對(duì)應(yīng)推薦數(shù)量產(chǎn)生變化。當(dāng)讀者評(píng)價(jià)某本圖書(shū)時(shí),系統(tǒng)收集讀者對(duì)圖書(shū)的評(píng)價(jià)矩陣,調(diào)用推薦算法模塊,運(yùn)算完成后調(diào)整該類別圖書(shū)的推薦順序。最終結(jié)果將以頁(yè)面的形式呈現(xiàn)給讀者。
為了驗(yàn)證上述讀者興趣模型以及推薦系統(tǒng)的有效性,論文抽取了12位讀者(涵蓋4個(gè)學(xué)院,本科生和碩士?jī)煞N類型)來(lái)實(shí)際進(jìn)行評(píng)價(jià)。根據(jù)每個(gè)樣本讀者具體的借閱記錄,為每個(gè)讀者推薦20本書(shū),并讓他們?cè)u(píng)價(jià)是否對(duì)推薦圖書(shū)有興趣。之后使用最常用查準(zhǔn)率(precision)來(lái)驗(yàn)證推薦質(zhì)量。查準(zhǔn)率表達(dá)式precisiona/sum,其中a是推薦成功的圖書(shū)數(shù)量,sum是推薦的圖書(shū)總數(shù)。反饋結(jié)果表明,12位讀者之間評(píng)價(jià)的查準(zhǔn)率差別比較大,平均值為70.4%。發(fā)現(xiàn)不同類型讀者的推薦效果也不同,碩士群體平均值為73.6%,本科群體是66%。原因應(yīng)該是碩士群體關(guān)注面比較集中,推薦效果比較理想;而本科群體閱讀比較分散,推薦成功率不高。
本文對(duì)基于興趣漂移和協(xié)同過(guò)濾的高校圖書(shū)館推薦系統(tǒng)進(jìn)行了詳細(xì)的討論和分析,得出如下結(jié)論:與傳統(tǒng)的推薦系統(tǒng)相比,本文推薦系統(tǒng)可動(dòng)態(tài)跟蹤用戶的興趣改變。用戶興趣的漂移是傳統(tǒng)推薦系統(tǒng)較難解決的問(wèn)題,本推薦系統(tǒng)基于興趣漂移理論來(lái)動(dòng)態(tài)調(diào)整用戶的興趣模型,較好地解決了這個(gè)問(wèn)題。
[1]李靈芝.數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用研究[D].長(zhǎng)春:吉林大學(xué),2014.
[2]蘇明忠.新媒體環(huán)境下圖書(shū)館更應(yīng)挖掘特色資源[J].中國(guó)教育網(wǎng)絡(luò),2017(8):74-75.
[3]張紅燕.移動(dòng)閱讀的生態(tài)發(fā)展策略[J].圖書(shū)情報(bào)研究,2017(4):56-57.
[4]徐紅.個(gè)性化網(wǎng)上圖書(shū)館的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2013.
[5]趙家輝.個(gè)性化信息服務(wù)中的用戶興趣遷移研究[D].成都:電子科技大學(xué),2009.