趙秀靜
關(guān)鍵詞:個性化信息服務;高校圖書館;目標用戶;信息挖掘;大數(shù)據(jù)
摘要:文章從高校個性化信息服務的發(fā)展瓶頸出發(fā),進行了相關(guān)的可行性分析,進而提出高校圖書館個性化信息服務模型,同時提出高校圖書館個性化信息服務過程中需要注意用戶的隱私和數(shù)據(jù)來源的約束等問題。
中圖分類號:G252文獻標識碼:A文章編號:1003-1588(2017)12-0056-03
1構(gòu)建個性化信息服務系統(tǒng)的可行性分析
1.1已有的系統(tǒng)在分析用戶需求方面存在不足
高校圖書館開展個性化信息服務的一個前提條件,是需要準確獲知用戶實時的信息需求。目前,已有的個性化信息服務系統(tǒng)獲取用戶信息需求的途徑是通過事前的各種調(diào)查問卷、網(wǎng)絡訪談等方式獲取,然后對獲取的結(jié)果進行綜合分析并得出結(jié)論,再由相關(guān)的學科館員或參考館員根據(jù)需求結(jié)果調(diào)整相應的服務內(nèi)容。但是,用戶的信息需求每時每刻都在發(fā)生變化,前一刻和下一刻可能都會不一樣,這種明顯有時間差的需求分析,已經(jīng)不能滿足現(xiàn)今高校師生在大數(shù)據(jù)環(huán)境下的信息需求[1]。
1.1.1用戶建模的非實時性。已有的個性化信息服務系統(tǒng)以一種傳統(tǒng)的信息需求方式獲取用戶的需求情況,所得的結(jié)果不可避免會存在一定的偏差,因為已有的個性化信息服務系統(tǒng)的信息需求獲取方式不外乎問卷調(diào)查或網(wǎng)絡訪談,這本身就受制于調(diào)查問卷的設計是否合理、用戶表述是否清晰、用戶是否會出于對自身隱私的保護而不愿意配合等情況。高校圖書館在獲取這些存在偏差的信息需求結(jié)果的基礎(chǔ)上實施個性化信息服務,很難達到預期的效果。
1.1.2服務針對性有所缺失。綜觀現(xiàn)今高校圖書館已有的個性化信息服務系統(tǒng),普遍存在與用戶需求脫節(jié)、服務精準度不高的問題,其根源在于高校圖書館已有的個性化信息服務系統(tǒng)無法隨時獲取用戶的信息需求,因此也就不能根據(jù)實時的用戶需求情況隨時隨地調(diào)整服務策略。與公共圖書館不同,高校圖書館主要服務于高校師生,很多因素導致高校圖書館無法實時獲取用戶的需求情況,無法根據(jù)師生的教學、學習進度和研究任務的變化而隨時調(diào)整服務內(nèi)容,進而直接影響高校圖書館個性化服務的針對性。
1.2建立一個對用戶需求進行分析的個性化系統(tǒng)的必要性
1.2.1實時感知用戶的信息需求。對于高校師生來說,高校圖書館充當著“信息樞紐”的角色,他們在科研、教學及學習中產(chǎn)生信息需求時,往往借助于圖書館和網(wǎng)絡進行信息資源的自我服務。高校師生在借閱書籍、檢索書目、下載電子資源的過程中會產(chǎn)生海量的信息行為數(shù)據(jù),圖書館相關(guān)人員通過對這些行為數(shù)據(jù)進行深入的挖掘和分析,很容易獲取用戶的實時信息需求[2]。這些數(shù)據(jù)對于個性化系統(tǒng)準確分析實時的用戶信息需求,具有非常重要的參考價值。
1.2.2目標群體區(qū)分度較高。高校圖書館個性化信息服務系統(tǒng)所面臨的首要難題是識別目標用戶的身份。該系統(tǒng)需要隨時隨地跟蹤用戶不斷變化的信息需求和信息獲取行為,并加以分析,進而鎖定目標人群,進行精準信息推送,這就需要在技術(shù)層面上應用Web數(shù)據(jù)挖掘技術(shù)。由于經(jīng)費等的限制,高校圖書館的主要服務對象是在校師生,目標人群總體上還是較容易識別的,因為在校師生大都在圖書館完成了個人登記手續(xù),即使他們使用校內(nèi)網(wǎng)訪問館外的網(wǎng)絡資源,其電腦IP地址也已在校園網(wǎng)網(wǎng)絡中心備案在冊。因此,高校圖書館通過師生的信息記錄,并聯(lián)合校園網(wǎng)絡中心提供的客戶端用戶名等,就可以較為精確地區(qū)分目標人群與非目標人群,輕松完成目標用戶的識別。
2個性化信息服務系統(tǒng)構(gòu)建
2.1系統(tǒng)構(gòu)建目標和模型
個性化信息服務系統(tǒng)是在高校圖書館信息服務平臺的基礎(chǔ)上,通過不同數(shù)據(jù)倉庫獲取的用戶使用痕跡、用戶檢索記錄等,并應用Web數(shù)據(jù)挖掘技術(shù),獲取此時此刻相對準確的用戶信息需求,以便有針對性地完成高校圖書館信息資源的推送服務。個性化信息服務系統(tǒng)模型
的目標是獲取用戶實時的信息需求,其功能包括整合和規(guī)范數(shù)據(jù),數(shù)據(jù)分析和信息推送等。
2.2個性化信息服務系統(tǒng)模塊功能
2.2.1數(shù)據(jù)集成模塊。該模塊主要是為下一步的數(shù)據(jù)規(guī)范化做準備。在邏輯層面上,該模塊將從各種渠道獲取的、格式不一、含義各異的數(shù)據(jù)記錄進行系統(tǒng)集中。高校師生的信息行為數(shù)據(jù)分散于高校圖書館的信息系統(tǒng)、館藏電子資源數(shù)據(jù)庫、校園網(wǎng)等處,數(shù)據(jù)集成模塊就是要完成對所有這些分散數(shù)據(jù)的鏈接工作。
2.2.2數(shù)據(jù)規(guī)范化處理模塊。該模塊流程圖見圖1,主要目的是規(guī)范處理上一步集成后的數(shù)據(jù),使其適用于數(shù)據(jù)分析相關(guān)算法。①合成記錄。高校圖書館所使用的自動化系統(tǒng)由各種軟件開發(fā)商提供,它們各自所屬的系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)表述格式和形態(tài)都不一樣,因此高校圖書館有必要進行相應的合成。該模塊通過將各個自動化系統(tǒng)中的用戶行為信息以唯一的符號格式來表示,從而實現(xiàn)跨系統(tǒng)的記錄合成。針對本校師生,這個唯一的數(shù)據(jù)庫表述符號可以用讀者編號來表示,因為他們事前都辦理過圖書館借閱證,會得到唯一的讀者編號,因此其可以作為標記該用戶的跨數(shù)據(jù)庫標識符。②數(shù)據(jù)規(guī)約。該功能是專門對含義相同但是標識名不同的數(shù)據(jù)進行統(tǒng)一的規(guī)約處理,目的是最大限度地讓數(shù)據(jù)管理清晰化,為準確的數(shù)據(jù)分析工作掃除障礙。所謂“含義相同但是標識名不同的數(shù)據(jù)”,舉個簡單的例子,就是在高校圖書館的讀者信息庫性別標識為“男”的,在校園網(wǎng)的用戶日志里標識為“Male”,因此在客觀上會造成歧義,也就有必要進行數(shù)據(jù)規(guī)約。③數(shù)據(jù)清理。該模塊的目的是實現(xiàn)對噪音數(shù)據(jù)、污染數(shù)據(jù)以及錯誤或不一致數(shù)據(jù)的清除。用戶在不同數(shù)據(jù)庫的記錄經(jīng)過了合成以及數(shù)據(jù)規(guī)約處理后,將匯集到同一字段值中,但是這部分字段還存在屬性重復的情況,這時就僅需保留一個屬性值,而將其余的剔除;同時,字段值中也會出現(xiàn)缺漏現(xiàn)象,需做適當補充;對于出現(xiàn)錯誤的數(shù)據(jù),需及時更正;對于實數(shù)形式的字段值,需做離散處理。④數(shù)據(jù)變換。該模塊主要是將各種格式的數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為適用于下一步信息分析算法所需要的數(shù)據(jù)格式。不同的信息分析算法,都有其適用的數(shù)據(jù)格式。該模塊通過各種方式,比如數(shù)據(jù)概化、平滑聚集等完成數(shù)據(jù)的變換。
2.2.3信息分析模塊。高校師生在信息資源獲取和利用的過程中,會產(chǎn)生三種信息的格式:結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化信息。①結(jié)構(gòu)化信息。用戶接受高校圖書館提供的信息服務時,相應的數(shù)據(jù)庫會在圖書館回復用戶信息咨詢,以及對用戶提交的服務進行反饋的過程中,以表格化的形式,即以結(jié)構(gòu)化的數(shù)據(jù)格式存儲相關(guān)的記錄,那么這部分數(shù)據(jù)由結(jié)構(gòu)化數(shù)據(jù)分析模塊負責處理。②半結(jié)構(gòu)化信息。用戶通過網(wǎng)上搜索引擎進行信息檢索,會在相應的服務器日志留下使用痕跡,這部分信息由網(wǎng)絡日志分析模塊負責處理。③非結(jié)構(gòu)化信息。用戶通過移動終端向微信朋友圈等社交網(wǎng)絡發(fā)送信息請求時,這部分數(shù)據(jù)就由移動信息分析模塊進行處理。結(jié)構(gòu)化信息分析模塊的目的是根據(jù)不同的用戶信息行為,將其細化成以“粒度”為單位的數(shù)據(jù),從而精確區(qū)分不同用戶近似信息行為的信息需求的差異。考慮到結(jié)構(gòu)化數(shù)據(jù)的格式規(guī)范且固定,因此該模塊只需在上述步驟的基礎(chǔ)上,即對經(jīng)過合成和規(guī)約的相關(guān)數(shù)據(jù)再進行必要的聚類和分類即可完成。網(wǎng)絡日志分析模塊通過對用戶訪問互聯(lián)網(wǎng)的使用痕跡進行分析,獲取用戶實時的信息需求。該模塊的流程分為三大步驟(見圖2),最終目的是提升系統(tǒng)的響應速度,最大限度地降低海量的數(shù)據(jù)規(guī)模,采取的途徑是通過區(qū)分用戶身份,過濾掉無關(guān)用戶的信息需求數(shù)據(jù)。經(jīng)過處理,該模式可得出如表1所示的用戶訪問日志?;ヂ?lián)網(wǎng)的用戶信息行為具有一定的特征,若用戶對某一頁面的訪問頻率較高,或者說停留的時間較長,就從一個側(cè)面反映了該頁面對該用戶有十分重要的意義。因此,高校圖書館可以通過表1中訪問頻次字段的內(nèi)容,判定該用戶的信息需求。移動信息分析模塊設計的初衷是通過對用戶瀏覽移動網(wǎng)絡的痕跡進行挖掘,獲取相應的物理定位、愛好等用戶信息行為特征,針對用戶的愛好完成高校圖書館信息資源與用戶移動終端的有效對接。目前,國內(nèi)高校范圍內(nèi)智能移動終端設備已經(jīng)普及,高校圖書館也與時俱進地推出了微信、微博等服務方式,借此吸收用戶的行為痕跡,以便進行信息挖掘,為個性化信息服務打下基礎(chǔ)。
2.2.4信息匹配模塊。該模塊是高校圖書館工作人員在獲取實時的用戶信息需求的前提下,對需求進行分類,根據(jù)不同的需求找到對應的館藏資源和網(wǎng)絡信息資源,采取因人而異的服務策略,實現(xiàn)真正的“個性化”信息服務。
2.2.5信息推送模塊。該模塊通過以下三種信息推送方式,因人而異地實現(xiàn)精準化的信息推送服務:①當用戶在需要借閱或使用相關(guān)書籍、電子資源時,尚未發(fā)現(xiàn)對自己可能更有價值的一些信息資源,那么此時該模塊就會在對其他用戶信息選擇的數(shù)據(jù)挖掘的基礎(chǔ)上,自動地、有針對性地為該用戶推薦一些信息資源。②在用戶使用高校圖書館的微博、微信等服務時,該模塊會盡快地分析出用戶的需求,然后進行相關(guān)的信息資源的推薦提示。③針對用戶所使用的不同移動終端的類型或者所在位置,及時地向用戶推送其訂閱的相關(guān)資源。
2.2.6用戶使用評價模塊。該模塊主要通過系統(tǒng)后臺,收集每一位用戶對每次接收到的高校圖書館個性化服務推送的信息資源所反饋的評價信息。該模塊可為高校圖書館工作人員修正相關(guān)的數(shù)據(jù)分析算法,為提升個性化服務效能提供重要的參考依據(jù)[3]。
3個性化信息服務系統(tǒng)在應用方面面臨的困境
3.1用戶隱私權(quán)可能受損
為了深入挖掘用戶的信息需求,個性化信息服務系統(tǒng)通過實時監(jiān)控用戶的信息行為,對其進行數(shù)據(jù)集成、數(shù)據(jù)分析、聚類及分類處理等,從而挖掘出用戶信息需求的特征,這本身是為了更好地提供信息服務,但在此過程中不可避免地會涉及用戶的隱私,使用戶的隱私存在一定的風險。因此,高校圖書館必須在充分尊重用戶隱私的前提下,在征得用戶本人同意后,才能對用戶行為進行數(shù)據(jù)分析,并引進數(shù)據(jù)清洗步驟,過濾掉與個性化服務無關(guān)的用戶行為信息數(shù)據(jù),最大限度地保護用戶隱私不受侵犯[4]。
3.2數(shù)據(jù)來源的限制
在高校范圍內(nèi)開展個性化服務,只有當師生在校園網(wǎng)內(nèi)的信息行為與其在校園網(wǎng)外的信息行為之間達成一定的數(shù)據(jù)耦合度,才能有助于對數(shù)據(jù)的分析和信息的深入挖掘。因此,高校圖書館有必要與相關(guān)網(wǎng)絡運營商達成一個相互協(xié)調(diào)和溝通的機制,從而打破用戶行為信息來源的限制。
4結(jié)語
大數(shù)據(jù)環(huán)境下,高校圖書館信息服務產(chǎn)生了海量的用戶信息行為數(shù)據(jù)。筆者為此設計了一套個性化信息服務系統(tǒng)模型,從理論上完成了前期的研究工作,但高校圖書館如何與相關(guān)網(wǎng)絡運營商進行深入?yún)f(xié)調(diào),并且與用戶達成一個隱私保護的協(xié)議,還需要在今后的工作中多次進行實踐修正,最終完善該個性化信息服務系統(tǒng)。
參考文獻:
[1]馬曉亭.大數(shù)據(jù)時代圖書館個性化服務讀者隱私保護研究[J].圖書館論壇,2014(2):84-89.
[2]李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項目查重模型研究[J].圖書館論壇,2014(2):78-83.
[3]艾春艷,游越,劉素清.讀者參與的高校圖書館學科服務新模式探討[J].大學圖書館學報,2011(5):70-72.
[4]吳新年,陳永平.關(guān)于學科化信息服務的思考與建議[J].情報科學,2007(12):1833-1837,1858.
(編校:崔萌)