基于聚類(lèi)算法的數(shù)字圖書(shū)館知識(shí)推送原理

2020-03-18 16:34宋愛(ài)香

江蘇科技信息 2020年1期

關(guān)鍵詞：聚類(lèi)問(wèn)卷數(shù)據(jù)庫(kù)

宋愛(ài)香，吳丹，馬沖

（1.西安工程大學(xué)網(wǎng)絡(luò)與信息化管理處，陜西西安 710048；2.西安工程大學(xué)圖書(shū)館，陜西西安 710048）

0 引言

信息通信技術(shù)的快速發(fā)展為信息獲取與服務(wù)創(chuàng)造了有利條件，使受眾可以方便快捷地獲取多渠道的信息［1-2］。但在這個(gè)信息來(lái)源紛繁復(fù)雜的時(shí)代，如何直接跳過(guò)一些與目標(biāo)信息關(guān)聯(lián)性較差的信息，直接得到關(guān)聯(lián)性強(qiáng)的目標(biāo)信息便顯得尤為重要。否則，源源不斷的信息將變成“信息騷擾”，影響用戶(hù)體驗(yàn)［3］。而現(xiàn)在大多數(shù)字圖書(shū)館的推送服務(wù)存在推送內(nèi)容單一、推送內(nèi)容關(guān)聯(lián)度低、推送內(nèi)容針對(duì)性較差等局限性，未對(duì)學(xué)科資源和用戶(hù)進(jìn)行深度開(kāi)發(fā)和關(guān)聯(lián)，不了解高校師生的真實(shí)需求，推送模式較簡(jiǎn)單層次較低［4-5］。因此提高高校數(shù)字圖書(shū)館推送信息的準(zhǔn)確性，有著十分重要的意義。

1 數(shù)字圖書(shū)館推送滿(mǎn)意度調(diào)研

了解用戶(hù)的需求是改善數(shù)字圖書(shū)館推送服務(wù)的關(guān)鍵環(huán)節(jié)。2019年4月至2019年6月，本文通過(guò)網(wǎng)上發(fā)布問(wèn)卷的方式對(duì)西安工程大學(xué)在校師生進(jìn)行圖書(shū)館推送服務(wù)滿(mǎn)意度調(diào)研。

問(wèn)卷通過(guò)問(wèn)卷星進(jìn)行發(fā)布與調(diào)研，采用5分量化，越接近5分說(shuō)明期望值越大。調(diào)研期間共發(fā)出問(wèn)卷400份，收回問(wèn)卷388份。通過(guò)第一題“你使用過(guò)西安工程大學(xué)數(shù)字圖書(shū)館嗎？”進(jìn)行問(wèn)卷過(guò)濾，將答案為“否”的50份問(wèn)卷予以刪除，最終確定338份有效問(wèn)卷，其中本科生136人、碩士生103人、博士生12人、教職工87人。

利用LibQUAl+TM模型對(duì)用戶(hù)的滿(mǎn)意度進(jìn)行調(diào)查。計(jì)算公式包括：平均期望值=Σ期望值/問(wèn)卷份數(shù)，平均感受值=Σ感受值/問(wèn)卷份數(shù)，平均最低接受值=Σ最低接受值/問(wèn)卷份數(shù)。從表1可以看出，閱讀推薦服務(wù)和個(gè)人數(shù)字圖書(shū)館推送服務(wù)的用戶(hù)實(shí)際感受明顯小于期望值。通過(guò)校園隨機(jī)的走訪調(diào)查發(fā)現(xiàn)，用戶(hù)一致認(rèn)為圖書(shū)館的閱讀推薦僅僅憑借熱度，缺乏智能化。對(duì)于學(xué)生而言，更多的是獲取與科研和教學(xué)相關(guān)的書(shū)籍，并非新上架熱度高的書(shū)籍。針對(duì)西安工程大學(xué)圖書(shū)館用戶(hù)的需求，本文展開(kāi)了基于聚類(lèi)算法的數(shù)字圖書(shū)館知識(shí)推送原理研究。

2 用戶(hù)聚合類(lèi)算法分析

由于讀者身份、專(zhuān)業(yè)以及目的不同，導(dǎo)致讀者的屬性不同，而在以往的高校數(shù)字圖書(shū)館推薦系統(tǒng)中，僅向用戶(hù)推送目前熱度較高的書(shū)，并沒(méi)有考慮讀者的身份以及需求，這便會(huì)造成借閱需求與資源推薦不匹配［6-7］，如向理工科學(xué)生推薦文學(xué)類(lèi)書(shū)籍的現(xiàn)象。本文通過(guò)用戶(hù)信息進(jìn)行聚類(lèi)的方式解決這一問(wèn)題，其流程圖如圖1所示。首先對(duì)不同用戶(hù)的身份信息進(jìn)行識(shí)別，并進(jìn)行聚類(lèi)處理。其次將具有多數(shù)相同特征的用戶(hù)歸為一類(lèi)。另外根據(jù)用戶(hù)的需求構(gòu)建需求數(shù)據(jù)庫(kù)，并將數(shù)據(jù)庫(kù)進(jìn)行細(xì)化，使有同類(lèi)型需求用戶(hù)的歸入一個(gè)子需求數(shù)據(jù)庫(kù)。緊接著對(duì)每個(gè)子需求數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)計(jì)算，使得每個(gè)關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù)只包含同類(lèi)型用戶(hù)的規(guī)則。最后向用戶(hù)推薦借閱資源時(shí)，僅限于在包含該用戶(hù)的關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù)中進(jìn)行匹配操作。

表1 被調(diào)查者對(duì)知識(shí)推送服務(wù)的滿(mǎn)意度

圖1 用戶(hù)聚類(lèi)流程

2.1 k-means算法對(duì)用戶(hù)特征屬性進(jìn)行劃分

用戶(hù)特征屬性的劃分是實(shí)現(xiàn)多信息聚類(lèi)的關(guān)鍵，本文采用k-means算法用戶(hù)特征屬性進(jìn)行劃分。將用戶(hù)的特征屬性分別劃分為身份、專(zhuān)業(yè)和目的。其中，身份屬性為順序關(guān)系，將不同用戶(hù)按照身份順序排列，進(jìn)行數(shù)字轉(zhuǎn)換計(jì)算；而專(zhuān)業(yè)和目的屬性為符號(hào)關(guān)系。在距離函數(shù)中，可以將身份屬性轉(zhuǎn)化為對(duì)應(yīng)的數(shù)值關(guān)系。當(dāng)定義不同用戶(hù)身份為status1和status2時(shí)，就可以計(jì)算年紀(jì)差值為：

用戶(hù)的專(zhuān)業(yè)如“電氣工程”是一個(gè)字符串定義為符號(hào)關(guān)系。要計(jì)算不同專(zhuān)業(yè)之間的距離關(guān)系時(shí)，將不同專(zhuān)業(yè)中不同的字符去除，利用剩余相同字符計(jì)算距離：

目的關(guān)系的定義過(guò)程與專(zhuān)業(yè)關(guān)系類(lèi)似，目的串的距離計(jì)算公式被定義為：

為了實(shí)現(xiàn)多信息的聚類(lèi)分析，需要將用戶(hù)的年級(jí)、專(zhuān)業(yè)和目的都應(yīng)用到一個(gè)距離模型中，為此采用下式進(jìn)行計(jì)算。

2.2 用戶(hù)推薦系統(tǒng)聚類(lèi)分析

本文將用戶(hù)分為不同的k類(lèi)，使每一類(lèi)特征用戶(hù)都具有較高的相似性。確定聚類(lèi)個(gè)數(shù)為k，在被蕨類(lèi)的n個(gè)用戶(hù)里面，選擇k個(gè)特征用戶(hù)作為一開(kāi)始的聚類(lèi)中心，其聚類(lèi)中心選擇如圖2所示。將每一個(gè)特征用戶(hù)分別與各聚類(lèi)中心值進(jìn)行距離計(jì)算，尋找用戶(hù)與初始中心值的最小距離，并將其劃入該類(lèi)。直至將所有特征用戶(hù)劃分完畢后，再重新計(jì)算新的中心值。然后重復(fù)上述步驟，進(jìn)行第二次劃分，直到算法終止。

圖2 聚類(lèi)中心選擇示意

3 用戶(hù)聚類(lèi)算法的實(shí)現(xiàn)

圖3 用戶(hù)聚類(lèi)算法的實(shí)現(xiàn)示意

用戶(hù)聚類(lèi)算法的實(shí)現(xiàn)的流程圖如圖3所示，首先輸入各類(lèi)用戶(hù)的信息，并設(shè)定循環(huán)次數(shù)以及用戶(hù)分組變化數(shù)的閾值。聚類(lèi)算法開(kāi)始后，如果循環(huán)次數(shù)大于設(shè)定值或戶(hù)分組變化數(shù)超過(guò)閾值時(shí)，聚類(lèi)算法結(jié)束。反之則進(jìn)行下一步分析，判斷所有用戶(hù)是否完成遍歷。如果沒(méi)有完成，更新聚類(lèi)中心值，直到遍歷完成為止。否則進(jìn)入屬性距離函數(shù)進(jìn)行求解，得到聚類(lèi)中心的最小值，并將具有相同特征的歸入統(tǒng)一聚類(lèi)中。之后更新目的串、年紀(jì)的累加值、專(zhuān)業(yè)串、用戶(hù)數(shù)量及聚類(lèi)中心，進(jìn)行下一次循環(huán)，直至聚類(lèi)結(jié)束。

4 結(jié)語(yǔ)

本文采用k-means聚合算法，建立了多信息的距離模型?？紤]到高校數(shù)字圖書(shū)館受眾的特殊性，并將其特殊屬性關(guān)系加入距離函數(shù)的計(jì)算中，對(duì)用戶(hù)進(jìn)行有效聚類(lèi)，使用戶(hù)在按照對(duì)應(yīng)的年紀(jì)信息、專(zhuān)業(yè)信息及目的信息所劃分的數(shù)據(jù)庫(kù)中得到有效的推薦信息，使原有相似信息對(duì)用戶(hù)的模糊推薦得到有效解決。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡