郭淑紅 徐玉梅
[摘要]本文通過對圖書館個性推薦概念、原理、圖書推薦系統(tǒng)概況及存在問題進行深入分析,提出個性化圖書推薦創(chuàng)新策略,并對數(shù)據(jù)挖掘技術在個性化圖書推薦系統(tǒng)實施過程中出現(xiàn)的用戶隱私問題、用戶信息獲取局限性問題以及信息安全問題進行仔細思考與展望,以期對圖書館界同行提供有益幫助。
[關鍵詞]高校圖書館;個性化;圖書推薦;研究
[中圖分類號]G250.7 [文獻標識碼]A 文章編號:1671-0037(2016)12-79-3
隨著新興網(wǎng)絡媒體的日益盛行和高校辦學規(guī)模的不斷擴大,高校傳統(tǒng)圖書與電子圖書的數(shù)量劇增,每年以幾萬冊不等的數(shù)量增長,一方面,在校大學生要在茫茫書海中快速尋找符合自己需要的圖書,面對繁冗信息無從下手。另一方面,用戶需求多樣化、個性化,傳統(tǒng)的檢索系統(tǒng)滿足不了讀者的個性需求。這就需要采取數(shù)據(jù)挖掘技術,將讀者的信息、圖書的信息及讀者借閱信息進行深度挖掘與數(shù)據(jù)分析,將用戶的隱性信息搜集整理成讀者喜好的借閱模式的顯性信息,便于對不同用戶信息需求提供精準個性化圖書推薦。當前,加強精準個性化圖書推薦及提高用戶滿意度已成為圖書館界研究的熱點和重點。
1
圖書館個性推薦概念及原理
1.1圖書館個性推薦的概念
圖書館個性推薦是指以讀者的個人背景、專業(yè)、習慣、愛好和提出的特別要求等為依據(jù),對每一位讀者提供個性化推薦服務。
1.2個性化推薦原理
個性化推薦是信息的重組過程,是信息資源的再分配,是一種基于用戶需求的個性化信息服務模式。其原理是以充分挖掘用戶的個性化需求信息為前提,主動組織信息資源,并向用戶推送其感興趣的信息資源和信息服務。一方面是社會進步與圖書館自身發(fā)展的需要,有利于提高圖書館的科技能力與服務水平。另一方面節(jié)省用戶獲取有效文獻信息時間,激發(fā)讀者閱讀興趣,提高圖書的使用效率,提高用戶的滿意度。
2圖書推薦系統(tǒng)概況
2.1推薦系統(tǒng)背景
推薦系統(tǒng)最初廣泛應用于電子商務、電影推薦、音樂推薦等領域。它不僅為不同用戶提供了方便商品、信息資源,還為網(wǎng)站獲得了不菲的贏利空間。亞馬遜是最早使用推薦系統(tǒng)的網(wǎng)站,其每年20%-30%的銷售來源于推薦系統(tǒng)。如今將個性化推薦系統(tǒng)應用于圖書館,深度挖掘個性化推薦的精準度及用戶滿意度已是圖書館界研究的熱點,無疑將對圖書館自身發(fā)展與建設起著較大的推動作用。
2.2傳統(tǒng)推薦系統(tǒng)種類
2.2.1基于內容的推薦方法。根據(jù)用戶購買過的商品,計算將要購買的商品與已購商品的相似度,按相似度的大小排序向用戶進行推薦。該方法優(yōu)點是操作簡便,推薦質量相對較高。缺點是算法復雜,處理復雜結構難度大。
2.2.2基于用戶的協(xié)同過濾方法。根據(jù)用戶的基本信息和行為數(shù)據(jù),尋找與該用戶相似的其他用戶,把其他用戶的感興趣的商品或信息推薦給該用戶。該推薦方法不需對圖書內涵進行深入分析,只需對讀者的特征及借閱記錄進行分析,就能獲得讀者感興趣的個性化圖書推薦。該方法優(yōu)點是能作音頻、視頻處理,算法簡便,針對用戶評價提供個性化推薦程度高。缺點是易產(chǎn)生冷啟動、數(shù)據(jù)稀疏問題。
2.2.3基于關聯(lián)規(guī)則的推薦方法。該方法是如何建立關聯(lián)規(guī)則,根據(jù)用戶關聯(lián)規(guī)則的相似性,向用戶推薦所需個性化信息。該推薦方法能夠分析隱藏的關聯(lián)規(guī)則,不足是由于圖書管理系統(tǒng)中數(shù)據(jù)量大、類型復雜、學科跨度大等原因,造成圖書特征展示不全面,推薦質量較低,推薦效果不佳。
2.2.4混合推薦方法。該方法使用多種推薦方法,各種方法博采眾長,查漏補缺。
總之,本文通過中國知網(wǎng)搜索“個性化圖書推薦系統(tǒng)”,共獲得56 318條結果,1979-1999年發(fā)表文章不足100篇,2000-2003年達到近1 000篇,2004-2014年增速較快,且2014年達到最高值6 172篇,表明我國圖書推薦系統(tǒng)研究進入快速發(fā)展、重點關注及熱門研究階段,2015年達3 320篇,稍有回落,說明我國此方面研究進入良性發(fā)展、逐步完善與理性研究階段。從發(fā)表文章及研究成果進行分析來看,我國圖書推薦系統(tǒng)理論研究居多,用于實踐居少;開發(fā)人員雖然也進行了針對性的開發(fā)技術研究,但不能完全滿足讀者的個性化需求。這就要求我們在以后的工作中,要充分借鑒已取得數(shù)據(jù)挖掘技術的相關成果,根據(jù)學校定位、館藏特色及讀者需求,研究、設計出符合本館特色的個性化圖書推薦系統(tǒng)。
3傳統(tǒng)推薦系統(tǒng)存在問題
3.1數(shù)據(jù)分布不均
圖書館的信息資源大多由自建信息資源、外購數(shù)據(jù)資源和共享數(shù)據(jù)資源構成。在數(shù)字資源引進上,高校圖書館或采購部門根據(jù)學校特色、學科需求、資源需求、現(xiàn)有資源等因素合理建立所需館藏資源,每所高校都有不同辦學特色,因此,不同高校館藏資源分布無論種類、數(shù)量都存在分布不均衡的現(xiàn)象。而公共圖書館偏重于讀者喜好、需求與使用量來采購圖書資源,這就造成某些類圖書資源過多,而另一些類圖書資源相對匱乏的現(xiàn)象。
3.2數(shù)據(jù)整體稀疏
隨著傳統(tǒng)圖書館向數(shù)字圖書館、智慧圖書館轉變,圖書館的信息資源越來越豐富,讀者使用數(shù)字資源的人數(shù)也呈逐年上升趨勢。如果圖書館的信息資源與讀者之間產(chǎn)生關系與所有關系占比來看,由于圖書館的信息資源有一定重復率,而讀者是唯一的沒有重復性,且大部分讀者所選信息資源重復率較低,所以,相對而言,圖書館的信息資源數(shù)據(jù)存在整體稀疏性。另外,隨著辦學規(guī)模與招生人數(shù)的增加,大部分高校圖書館圖書的數(shù)量是在校生人數(shù)的100倍,且圖書每年以6%左右的數(shù)量遞增,而圖書館75%的圖書未被借閱,這也造成圖書館歷史借閱數(shù)據(jù)的極大稀疏性。數(shù)據(jù)的稀疏性直接影響個性化信息推薦,且推薦效果不佳。
3.3傳統(tǒng)個性化服務方式不足
在傳統(tǒng)的個性化信息服務中,通常采用問卷調查、網(wǎng)絡訪談、電話咨詢等方式針對讀者不同信息需求,由學科館員進行搜集、整理、加工、分析,提供針對性的個性化圖書推薦服務。隨著大數(shù)據(jù)時代的到來,圖書館信息繁冗而復雜,傳統(tǒng)的個性化服務方式越來越不能滿足讀者的信息需求。
3.4用戶流失現(xiàn)象
面對互聯(lián)網(wǎng)的快速發(fā)展與信息技術高速增長,由于圖書館個性化信息服務不強及使用不便等原因,當今大學生讀者對圖書館的依賴性越來越低。表現(xiàn)為到館率低,紙質圖書與期刊借閱率呈逐年下降的趨勢,他們更多的是借助百度、谷歌、SNS等獲得信息支持。
3.5社交網(wǎng)站的信息反饋參考
隨著互聯(lián)網(wǎng)信息快速發(fā)展及web2.0、web3.0在社交網(wǎng)站的廣泛應用,廣大的讀者在豆瓣網(wǎng)(中文網(wǎng)站中除新浪微博、人人網(wǎng)而排名第三)、讀書網(wǎng)站、電影電視劇網(wǎng)站、電子購物網(wǎng)站等留下了大量的評論信息,這些網(wǎng)站擁有大量的來自不同職業(yè)類型層次的讀者,其龐大的信息評論可以作為深入挖掘數(shù)據(jù)的重要參考依據(jù)。
4個性化圖書推薦創(chuàng)新策略
4.1擴大宣傳渠道,加大采購力度
圖書館信息資源分布不均,極易產(chǎn)生冷啟動問題。為此,一方面,圖書館要加大宣傳渠道,對讀者因不了解館藏信息資源而借閱率不高的圖書加大宣傳力度,主動向讀者宣傳推介,激發(fā)讀者閱讀興趣,提高資源的使用率。另一方面,加大類別欠缺圖書的采購力度,豐富館藏資源,加大貧乏資源的引進力度。另外,利用多維數(shù)據(jù)交叉推薦的方法,也能在一定程度上解決冷啟動問題。
4.2減少圖書復本,增加購書品種
國家對本科高校水平評估指標中,每年采購一定數(shù)量的新書,對采購圖書的復本數(shù)沒有嚴格的限制,導致只注重數(shù)量而不注重品種及質量,加之各高校經(jīng)費有限,用于圖書館購買新書的經(jīng)費更是有限,所以,不能保質保量地完成每年新增圖書的采購,導致庫存資源因復本多而整體稀疏。所以,采購圖書,應側重增加圖書種類,嚴格限定復本數(shù),以此緩解整個庫存資源的圖書稀疏問題。另外,可以把讀者或資源進行粗?;?,使數(shù)據(jù)變得稠密,從而有效緩解數(shù)據(jù)整體稀疏問題。
4.3針對不同用戶,實施信息推送
一是智能手機終端、IPAD等移動設備的普及,高校圖書館師生普遍通過移動終端獲取信息服務已成共識。為此,高校圖書館適時推出微信、微博、掌上電腦、移動圖書館等服務,通過信息瀏覽記錄獲取讀者地理位置、閱讀興趣的行為信息,從而進行深入挖掘與分析,為用戶提供精準個性化信息服務;二是針對讀者借閱館內信息資源,為讀者提供相似讀者的圖書推薦信息,向讀者推薦尚未發(fā)現(xiàn)的館藏資源;三是針對讀者使用移動終端位置及類型,向讀者及時提供新進圖書、書展、講座等信息服務。
4.4借鑒信息評論,提供挖掘參考
針對高校校內讀者信息、圖書信息、借閱行為信息相對充足,校外高校館、公共館、社交網(wǎng)站讀者信息欠缺現(xiàn)象,高校圖書館應加強館際交流,加強與資源供應商的交流與互動,充分借鑒他們的網(wǎng)站讀者評論信息及推薦結果,有效節(jié)省圖書挖掘推薦時間,提高圖書推薦使用效率,加大閱讀推廣范圍與力度,擴大文化宣傳作用與效果,從而達到弘揚中華文化、傳承人類文明及促進全民閱讀的文化氛圍。
5思考與展望
5.1用戶隱私問題
隨著數(shù)據(jù)挖掘技術在圖書館的廣泛應用,系統(tǒng)對用戶的閱讀信息進行篩查、甄別、分析、整理,用戶的上網(wǎng)信息數(shù)據(jù)被系統(tǒng)隱性跟蹤與實時監(jiān)控,用戶的隱私受到一定程度的侵犯及威脅。因此,一定要征求用戶的同意,及時刪除與數(shù)據(jù)挖掘不相關的讀者信息,盡量避免因讀者的信息隱私外泄而產(chǎn)生不良糾紛。
5.2用戶信息獲取的局限性
高校圖書館的讀者信息大多來源于校園內,而校園以外的讀者信息大多被數(shù)據(jù)供應商和電信運營商所擁有,而對數(shù)據(jù)的深度挖掘與深入分析,只有對讀者行為數(shù)據(jù)達到一定存儲規(guī)模和數(shù)據(jù)耦合度時,才能獲得精準化個性圖書推薦??梢?,數(shù)據(jù)來源的局限性,在一定程度上降低了個性化圖書推薦的精準性。社交網(wǎng)站擁有大量用戶的社交信息、文本信息以及個人基本信息,這些數(shù)據(jù)信息的獲取有利于對讀者進行個性化圖書的精準推薦。
5-3信息安全問題
隨著大數(shù)據(jù)時代的到來,云計算、物聯(lián)網(wǎng)等技術高度開放,新讀者和新資源快速增長,云數(shù)據(jù)中心一旦遭到病毒攻擊、黑客入侵,其數(shù)據(jù)中心不僅包括豐富的數(shù)據(jù)資源、讀者信息、行為信息、閱讀興趣等,可能引起因數(shù)據(jù)資源使用不確定性而導致版權問題,以及因讀者信息外泄引起的不必要爭端問題。
6結語
隨著圖書數(shù)據(jù)資源日益豐富,讀者在浩瀚的書海中快速尋找到自己所需圖書確屬難事。因此,圖書館要充分發(fā)揮自己的人力、物力和技術資源優(yōu)勢,深入挖掘讀者信息、行為信息和圖書館自身資源信息,加大進行深入精準挖掘數(shù)據(jù)信息和用戶滿意度的研究,提高圖書使用效率,激發(fā)讀者閱讀興趣,提升圖書館的整體科研能力與服務水平,擴大高校圖書館的社會地位及影響力。