宋愛(ài)香,吳 丹,馬 沖
(1.西安工程大學(xué)網(wǎng)絡(luò)與信息化管理處,陜西西安 710048;2.西安工程大學(xué)圖書(shū)館,陜西西安 710048)
信息通信技術(shù)的快速發(fā)展為信息獲取與服務(wù)創(chuàng)造了有利條件,使受眾可以方便快捷地獲取多渠道的信息[1-2]。但在這個(gè)信息來(lái)源紛繁復(fù)雜的時(shí)代,如何直接跳過(guò)一些與目標(biāo)信息關(guān)聯(lián)性較差的信息,直接得到關(guān)聯(lián)性強(qiáng)的目標(biāo)信息便顯得尤為重要。否則,源源不斷的信息將變成“信息騷擾”,影響用戶(hù)體驗(yàn)[3]。而現(xiàn)在大多數(shù)字圖書(shū)館的推送服務(wù)存在推送內(nèi)容單一、推送內(nèi)容關(guān)聯(lián)度低、推送內(nèi)容針對(duì)性較差等局限性,未對(duì)學(xué)科資源和用戶(hù)進(jìn)行深度開(kāi)發(fā)和關(guān)聯(lián),不了解高校師生的真實(shí)需求,推送模式較簡(jiǎn)單層次較低[4-5]。因此提高高校數(shù)字圖書(shū)館推送信息的準(zhǔn)確性,有著十分重要的意義。
了解用戶(hù)的需求是改善數(shù)字圖書(shū)館推送服務(wù)的關(guān)鍵環(huán)節(jié)。2019年4月至2019年6月,本文通過(guò)網(wǎng)上發(fā)布問(wèn)卷的方式對(duì)西安工程大學(xué)在校師生進(jìn)行圖書(shū)館推送服務(wù)滿(mǎn)意度調(diào)研。
問(wèn)卷通過(guò)問(wèn)卷星進(jìn)行發(fā)布與調(diào)研,采用5分量化,越接近5分說(shuō)明期望值越大。調(diào)研期間共發(fā)出問(wèn)卷400份,收回問(wèn)卷388份。通過(guò)第一題“你使用過(guò)西安工程大學(xué)數(shù)字圖書(shū)館嗎?”進(jìn)行問(wèn)卷過(guò)濾,將答案為“否”的50份問(wèn)卷予以刪除,最終確定338份有效問(wèn)卷,其中本科生136人、碩士生103人、博士生12人、教職工87人。
利用LibQUAl+TM模型對(duì)用戶(hù)的滿(mǎn)意度進(jìn)行調(diào)查。計(jì)算公式包括:平均期望值=Σ期望值/問(wèn)卷份數(shù),平均感受值=Σ感受值/問(wèn)卷份數(shù),平均最低接受值=Σ最低接受值/問(wèn)卷份數(shù)。從表1可以看出,閱讀推薦服務(wù)和個(gè)人數(shù)字圖書(shū)館推送服務(wù)的用戶(hù)實(shí)際感受明顯小于期望值。通過(guò)校園隨機(jī)的走訪調(diào)查發(fā)現(xiàn),用戶(hù)一致認(rèn)為圖書(shū)館的閱讀推薦僅僅憑借熱度,缺乏智能化。對(duì)于學(xué)生而言,更多的是獲取與科研和教學(xué)相關(guān)的書(shū)籍,并非新上架熱度高的書(shū)籍。針對(duì)西安工程大學(xué)圖書(shū)館用戶(hù)的需求,本文展開(kāi)了基于聚類(lèi)算法的數(shù)字圖書(shū)館知識(shí)推送原理研究。
由于讀者身份、專(zhuān)業(yè)以及目的不同,導(dǎo)致讀者的屬性不同,而在以往的高校數(shù)字圖書(shū)館推薦系統(tǒng)中,僅向用戶(hù)推送目前熱度較高的書(shū),并沒(méi)有考慮讀者的身份以及需求,這便會(huì)造成借閱需求與資源推薦不匹配[6-7],如向理工科學(xué)生推薦文學(xué)類(lèi)書(shū)籍的現(xiàn)象。本文通過(guò)用戶(hù)信息進(jìn)行聚類(lèi)的方式解決這一問(wèn)題,其流程圖如圖1所示。首先對(duì)不同用戶(hù)的身份信息進(jìn)行識(shí)別,并進(jìn)行聚類(lèi)處理。其次將具有多數(shù)相同特征的用戶(hù)歸為一類(lèi)。另外根據(jù)用戶(hù)的需求構(gòu)建需求數(shù)據(jù)庫(kù),并將數(shù)據(jù)庫(kù)進(jìn)行細(xì)化,使有同類(lèi)型需求用戶(hù)的歸入一個(gè)子需求數(shù)據(jù)庫(kù)。緊接著對(duì)每個(gè)子需求數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)計(jì)算,使得每個(gè)關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù)只包含同類(lèi)型用戶(hù)的規(guī)則。最后向用戶(hù)推薦借閱資源時(shí),僅限于在包含該用戶(hù)的關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù)中進(jìn)行匹配操作。
表1 被調(diào)查者對(duì)知識(shí)推送服務(wù)的滿(mǎn)意度
圖1 用戶(hù)聚類(lèi)流程
用戶(hù)特征屬性的劃分是實(shí)現(xiàn)多信息聚類(lèi)的關(guān)鍵,本文采用k-means算法用戶(hù)特征屬性進(jìn)行劃分。將用戶(hù)的特征屬性分別劃分為身份、專(zhuān)業(yè)和目的。其中,身份屬性為順序關(guān)系,將不同用戶(hù)按照身份順序排列,進(jìn)行數(shù)字轉(zhuǎn)換計(jì)算;而專(zhuān)業(yè)和目的屬性為符號(hào)關(guān)系。在距離函數(shù)中,可以將身份屬性轉(zhuǎn)化為對(duì)應(yīng)的數(shù)值關(guān)系。當(dāng)定義不同用戶(hù)身份為status1和status2時(shí),就可以計(jì)算年紀(jì)差值為:
用戶(hù)的專(zhuān)業(yè)如“電氣工程”是一個(gè)字符串定義為符號(hào)關(guān)系。要計(jì)算不同專(zhuān)業(yè)之間的距離關(guān)系時(shí),將不同專(zhuān)業(yè)中不同的字符去除,利用剩余相同字符計(jì)算距離:
目的關(guān)系的定義過(guò)程與專(zhuān)業(yè)關(guān)系類(lèi)似,目的串的距離計(jì)算公式被定義為:
為了實(shí)現(xiàn)多信息的聚類(lèi)分析,需要將用戶(hù)的年級(jí)、專(zhuān)業(yè)和目的都應(yīng)用到一個(gè)距離模型中,為此采用下式進(jìn)行計(jì)算。
本文將用戶(hù)分為不同的k類(lèi),使每一類(lèi)特征用戶(hù)都具有較高的相似性。確定聚類(lèi)個(gè)數(shù)為k,在被蕨類(lèi)的n個(gè)用戶(hù)里面,選擇k個(gè)特征用戶(hù)作為一開(kāi)始的聚類(lèi)中心,其聚類(lèi)中心選擇如圖2所示。將每一個(gè)特征用戶(hù)分別與各聚類(lèi)中心值進(jìn)行距離計(jì)算,尋找用戶(hù)與初始中心值的最小距離,并將其劃入該類(lèi)。直至將所有特征用戶(hù)劃分完畢后,再重新計(jì)算新的中心值。然后重復(fù)上述步驟,進(jìn)行第二次劃分,直到算法終止。
圖2 聚類(lèi)中心選擇示意
圖3 用戶(hù)聚類(lèi)算法的實(shí)現(xiàn)示意
用戶(hù)聚類(lèi)算法的實(shí)現(xiàn)的流程圖如圖3所示,首先輸入各類(lèi)用戶(hù)的信息,并設(shè)定循環(huán)次數(shù)以及用戶(hù)分組變化數(shù)的閾值。聚類(lèi)算法開(kāi)始后,如果循環(huán)次數(shù)大于設(shè)定值或戶(hù)分組變化數(shù)超過(guò)閾值時(shí),聚類(lèi)算法結(jié)束。反之則進(jìn)行下一步分析,判斷所有用戶(hù)是否完成遍歷。如果沒(méi)有完成,更新聚類(lèi)中心值,直到遍歷完成為止。否則進(jìn)入屬性距離函數(shù)進(jìn)行求解,得到聚類(lèi)中心的最小值,并將具有相同特征的歸入統(tǒng)一聚類(lèi)中。之后更新目的串、年紀(jì)的累加值、專(zhuān)業(yè)串、用戶(hù)數(shù)量及聚類(lèi)中心,進(jìn)行下一次循環(huán),直至聚類(lèi)結(jié)束。
本文采用k-means聚合算法,建立了多信息的距離模型??紤]到高校數(shù)字圖書(shū)館受眾的特殊性,并將其特殊屬性關(guān)系加入距離函數(shù)的計(jì)算中,對(duì)用戶(hù)進(jìn)行有效聚類(lèi),使用戶(hù)在按照對(duì)應(yīng)的年紀(jì)信息、專(zhuān)業(yè)信息及目的信息所劃分的數(shù)據(jù)庫(kù)中得到有效的推薦信息,使原有相似信息對(duì)用戶(hù)的模糊推薦得到有效解決。