王敏 嵇紹春
〔摘 要〕為提高圖書(shū)館個(gè)性化推薦的效果,采用模糊聚類(lèi)和模糊識(shí)別技術(shù)建立數(shù)字圖書(shū)館的個(gè)性化推薦系統(tǒng)。通過(guò)分析用戶(hù)的信息素質(zhì)、興趣愛(ài)好、網(wǎng)絡(luò)和電子資源檢索情況,對(duì)讀者進(jìn)行數(shù)學(xué)模糊聚類(lèi)分析,確定最佳閾值λ,得到最佳聚類(lèi)。根據(jù)個(gè)體用戶(hù)的基本情況進(jìn)行模糊識(shí)別,由識(shí)別結(jié)果的歸屬給出針對(duì)當(dāng)前用戶(hù)的個(gè)性化推薦。實(shí)驗(yàn)結(jié)果表明,在模糊聚類(lèi)與模糊識(shí)別基礎(chǔ)上的個(gè)性化推薦方案是可行的和有效的,為創(chuàng)新數(shù)字圖書(shū)館個(gè)性化服務(wù)提供了一種新的方法。
〔關(guān)鍵詞〕數(shù)字圖書(shū)館;個(gè)性化;推薦系統(tǒng);模糊聚類(lèi);模糊識(shí)別
DOI:10.3969/j.issn.1008-0821.2016.04.010
〔中圖分類(lèi)號(hào)〕G251 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2016)04-0052-05
〔Abstract〕In order to improve the effect of library personalized recommendation,personalized recommendation system of digital library is designed based on fuzzy clustering and fuzzy pattern recognition.The paper analyzed the users information literacy,discipline background,interests,electronic resources retrieval and history information.Then the readers were classified by using fuzzy clustering.The best threshold λ is determined and the optimal clustering is obtained.According to the basic situation of individual user,the paper used fuzzy pattern recognition to give the personalized recommendation for the current user.From the experiment result,it showed that the proposed approach is feasible and effective,and it provided a new way for the innovation of digital library personalized service.
〔Key words〕digital library;personalized;recommendation system;fuzzy clustering;fuzzy recognition
數(shù)字圖書(shū)館的個(gè)性化推薦是指通過(guò)有效利用不同層次、不同類(lèi)別的數(shù)據(jù)資源,向不同興趣特點(diǎn)、專(zhuān)業(yè)背景的讀者推薦其期待看的信息資源,以滿(mǎn)足不同用戶(hù)的個(gè)性化需求。數(shù)字圖書(shū)館的個(gè)性化推薦系統(tǒng)已成為當(dāng)前提高數(shù)字圖書(shū)館的服務(wù)質(zhì)量、效率和信息資源利用水平的一種重要工具[1]。目前,很多高校也以不同的形式向其讀者提供個(gè)性化的服務(wù)信息,如康奈爾大學(xué)圖書(shū)館的MyLibrary[2]、Stanford大學(xué)數(shù)字圖書(shū)館Fab系統(tǒng)[3]、NEC研究院的CiteSeer系統(tǒng)[4]等。圖書(shū)館構(gòu)建一個(gè)有效的個(gè)性化信息推薦系統(tǒng),快速高效地從海量的數(shù)據(jù)和信息中獲取有關(guān)知識(shí),提高資源檢索和推薦的智能水平,滿(mǎn)足各類(lèi)用戶(hù)不同的個(gè)性化需求,已成為數(shù)字圖書(shū)館領(lǐng)域研究的一項(xiàng)重要內(nèi)容[5-11]。個(gè)性化推薦系統(tǒng)的核心是利用目標(biāo)用戶(hù)興趣、專(zhuān)業(yè)背景、信息素質(zhì)的相似程度產(chǎn)生對(duì)用戶(hù)的個(gè)性化推薦。數(shù)學(xué)上的模糊聚類(lèi)方法具有模糊特性,可以更好地體現(xiàn)用戶(hù)興趣的多樣性特點(diǎn),適合數(shù)字圖書(shū)館用戶(hù)的分類(lèi)需求。
本文提出一種基于模糊聚類(lèi)和模糊識(shí)別相結(jié)合的推薦技術(shù),通過(guò)對(duì)用戶(hù)全體進(jìn)行聚類(lèi)分析并統(tǒng)計(jì)每類(lèi)群體的文獻(xiàn)資源使用及瀏覽記錄,得到最佳聚類(lèi)中各類(lèi)別用戶(hù)的文獻(xiàn)偏好,建立最佳分類(lèi)的用戶(hù)推薦模型庫(kù)。在此基礎(chǔ)上,對(duì)于目標(biāo)用戶(hù),根據(jù)其注冊(cè)信息、圖書(shū)借閱記錄、用戶(hù)定制信息、Web 服務(wù)器日志等情況,通過(guò)模糊識(shí)別的方式歸屬在最佳聚類(lèi)中的一類(lèi),為其推薦相應(yīng)類(lèi)別的圖書(shū)。我們將這種個(gè)性化推薦模式應(yīng)用于淮陰工學(xué)院圖書(shū)館,實(shí)踐證明基于模糊聚類(lèi)與模糊識(shí)別模式的個(gè)性化推薦系統(tǒng)是一個(gè)比較成功的推薦系統(tǒng)。
模糊聚類(lèi)分析是模糊集與傳統(tǒng)的聚類(lèi)分析相結(jié)合的一種分析方法,常用的模糊聚類(lèi)方法有:基于模糊等價(jià)矩陣的聚類(lèi)方法、基于模糊相似矩陣的直接聚類(lèi)法、基于目標(biāo)函數(shù)的模糊聚類(lèi)分析法[12-14]。近年來(lái),模糊聚類(lèi)分析在圖書(shū)館中也得到了應(yīng)用:盤(pán)美英利用模糊聚類(lèi)分析法對(duì)圖書(shū)館績(jī)效進(jìn)行評(píng)價(jià)[15],秦小鐵等人利用模糊聚類(lèi)分析提供了圖書(shū)館的選書(shū)決策方法[16]。我們利用等價(jià)矩陣的聚類(lèi)方法對(duì)圖書(shū)館的用戶(hù)進(jìn)行模糊聚類(lèi)分析,根據(jù)最佳聚類(lèi)中的每類(lèi)用戶(hù)的瀏覽、借閱歷史及電子資源的使用情況給出個(gè)性化推薦。針對(duì)目標(biāo)用戶(hù)的個(gè)體情況進(jìn)行模糊識(shí)別,由識(shí)別結(jié)果給出推薦方案。具體思路如圖1。
1 模糊聚類(lèi)分析
數(shù)字圖書(shū)館的個(gè)性化系統(tǒng)推薦的前提是要了解用戶(hù)需求,根據(jù)用戶(hù)的個(gè)體特點(diǎn)進(jìn)行推薦服務(wù)。模糊聚類(lèi)需要了解用戶(hù)特點(diǎn)、興趣愛(ài)好、學(xué)科背景等,根據(jù)相關(guān)數(shù)據(jù)對(duì)其進(jìn)行聚類(lèi)。廣泛開(kāi)展對(duì)用戶(hù)特點(diǎn)的調(diào)查,可以通過(guò)問(wèn)卷調(diào)查、座談、借閱情況等方式了解圖書(shū)館用戶(hù),并得到原始數(shù)據(jù)。
1.1 數(shù)據(jù)標(biāo)準(zhǔn)化
設(shè)X={x1,x2,…,xn}是收集到用戶(hù)信息的全體,每個(gè)用戶(hù)調(diào)查其m個(gè)特征,則每個(gè)對(duì)象都可由一組數(shù)據(jù)xi1,xi2,…,xm來(lái)表征第i個(gè)用戶(hù)的m個(gè)特征,從而得到一個(gè)n×m階的原始資料數(shù)據(jù)矩陣,即
(xij)n×m=x11x12…x1m
x21x22…x2m
xn1xn2…xnm
對(duì)得到的原始矩陣根據(jù)模糊矩陣的需要進(jìn)行變換,可以進(jìn)行平移標(biāo)準(zhǔn)差變換和平移極差變換:
x′ik=xik-ksk(i=1,2,…,n;k=1,2,…,m)
其中,k=1n∑ni=1xik?"sk=1n∑ni=1(xik-k)2
x″ik=x′ik-min1≤i≤n{x′ik}max1≤i≤n{x′ik}-min1≤i≤n{x′ik}?"(k=1,2,…,m)
1.2 建立模糊相似矩陣并求其模糊等價(jià)矩陣
根據(jù)變換后的模糊矩陣計(jì)算對(duì)象xi與xj間的相似程度rij,即相似系數(shù),我們利用最大最小法得到相似系數(shù),即:
rij=∑mk=1(xik∧xjk)∑mk=1(xik∨xjk)
從而,建立起了圖書(shū)館用戶(hù)的模糊相似矩陣R。
檢驗(yàn)得到的相似矩陣R是否具有傳遞性,如果有傳遞性,即R為模糊等價(jià)矩陣,直接聚類(lèi)即可,如果沒(méi)有傳遞性,為了進(jìn)行聚類(lèi),我們要求其等價(jià)矩陣,即通過(guò)逐次平方求其傳遞閉包t(R),由其性質(zhì)知t(R)為模糊等價(jià)矩陣。對(duì)t(R)再取適當(dāng)?shù)摩恕蔥0,1],由λ截矩陣Rλ便可得到動(dòng)態(tài)聚類(lèi)。
1.3 確定最佳閾值λ
設(shè)P為分類(lèi)方案數(shù),顯然P≤n。設(shè)r為對(duì)應(yīng)于λ值的類(lèi)數(shù),ni為第i類(lèi)元素的個(gè)數(shù),記ik=1ni∑nij=1xjk,k=1,2,…,m,為第i類(lèi)元素的第k個(gè)特征的平均值,記k=1n∑nj=1xjk,k=1,2,…,m,為全體樣本第k個(gè)特征的平均值。
引入F統(tǒng)計(jì)量:
F=∑ri=1ni∑mk=1(ik-k)2/(r-1)∑ri=1∑ni〖〗j(luò)=1∑mk=1(xik-jk)2/(n-r)F(r-1,n-r)
它服從自由度為r-1、n-r的F分布,其分子表征類(lèi)與類(lèi)間的距離,分母表征類(lèi)內(nèi)元素距離,因此F值越大,說(shuō)明類(lèi)與類(lèi)間的距離越大,則分類(lèi)就越好[17]。
對(duì)給定的信度α,查F臨界值表得到Fα,然后將各F值與Fα作比較。如果F>Fα,根據(jù)數(shù)理統(tǒng)計(jì)方差理論,知類(lèi)間差異顯著,說(shuō)明分類(lèi)比較合理;在滿(mǎn)足F>Fα的所有情況中,取F-Fα最大者的F所對(duì)應(yīng)的λ作為最佳λ值,其所對(duì)應(yīng)的分類(lèi)即為最佳分類(lèi)。
根據(jù)對(duì)讀者的分析,本文給出可能影響讀者使用圖書(shū)館的相關(guān)因素,根據(jù)相關(guān)因素進(jìn)行讀者的模糊聚類(lèi)分析,聚類(lèi)指標(biāo)如表1。
表1中的各項(xiàng)指標(biāo)值為7度量值,其中1最差,7最好。根據(jù)對(duì)讀者的最佳模糊聚類(lèi)中每一讀者的歷史借閱、瀏覽和查找歷史、電子資源的使用和下載情況及在問(wèn)卷中讀者感興趣圖書(shū)和資源的反饋情況,統(tǒng)計(jì)并分析給出每個(gè)聚類(lèi)的讀者最佳推薦圖書(shū)及電子資源類(lèi)型。
2 模糊識(shí)別
在模糊識(shí)別的過(guò)程中,我們利用擇近原則,設(shè){A1,A2,…,An}是論域U上的n個(gè)模糊集A1,A2,…,An構(gòu)成一個(gè)標(biāo)準(zhǔn)模型庫(kù),B為待識(shí)別模型。若存在i∈{1,2,…,n},使得σ0(Ai,B)=max1≤j≤nσ0(Aj,B),則認(rèn)為B與Ai最貼近,應(yīng)把B歸為模型Ai。其中σ0(A,B)=12[AB+(1-AB)],這里AB=∨x∈U(A(x)∧B(x))和AB=∧x∈U(A(x)∨B(x))分別為A與B的內(nèi)積和外積。
對(duì)每個(gè)具體讀者根據(jù)其注冊(cè)時(shí)提供的基本信息及其借閱、瀏覽和下載情況自動(dòng)進(jìn)行模糊識(shí)別,根據(jù)識(shí)別結(jié)果的類(lèi)別進(jìn)行數(shù)字圖書(shū)館個(gè)性化的讀者推薦服務(wù)。對(duì)于個(gè)體用戶(hù)進(jìn)行模糊識(shí)別時(shí),由于收集到的信息可能會(huì)缺項(xiàng),所以對(duì)缺項(xiàng)的部分可以暫時(shí)不去考慮,根據(jù)收集到的相關(guān)信息進(jìn)行識(shí)別,給出推薦方案,根據(jù)推薦效果情況的收集可以重新調(diào)整識(shí)別信息,直到推薦效果滿(mǎn)意為止。
3 實(shí)驗(yàn)結(jié)果分析
以淮陰工學(xué)院圖書(shū)館為例,我們通過(guò)對(duì)讀者的聚類(lèi)分析和模糊識(shí)別,對(duì)數(shù)字圖書(shū)館個(gè)性化推薦方案進(jìn)行了模擬測(cè)試。我們采用問(wèn)卷調(diào)查形式收集原始的聚類(lèi)數(shù)據(jù),發(fā)放問(wèn)卷1 000份,發(fā)放范圍覆蓋淮陰工學(xué)院全部13個(gè)院系的4個(gè)年級(jí)、在校碩士研究生、教師及繼續(xù)教育學(xué)院的成人大學(xué)生,其范圍覆蓋了所有可能用戶(hù),收到的數(shù)據(jù)有普及性和代表性,共收回問(wèn)卷982份,其中有效問(wèn)卷980份。問(wèn)卷調(diào)查中除了上述50個(gè)聚類(lèi)指標(biāo)的調(diào)查,另外還添加了“您的年級(jí)和專(zhuān)業(yè)”、“感興趣和喜歡閱讀的圖書(shū)類(lèi)別”、“喜歡或常用的電子資源及數(shù)據(jù)庫(kù)”3個(gè)問(wèn)題。調(diào)查結(jié)束后,我們通過(guò)圖書(shū)館的后臺(tái),調(diào)出每個(gè)用戶(hù)的借閱歷史,瀏覽和下載電子資源情況的記錄,為了便于得到最佳聚類(lèi)后,詳細(xì)的了解該類(lèi)群用戶(hù)的喜好及特點(diǎn),從而給出各類(lèi)別的用戶(hù)的推薦目錄。
根據(jù)用戶(hù)給出的資料信息得到聚類(lèi)的原始數(shù)據(jù)(xij)980×50。利用數(shù)學(xué)工具M(jìn)atlab對(duì)收集到的數(shù)據(jù)進(jìn)行平移標(biāo)準(zhǔn)差變換和平移極差變換得到模糊矩陣(x″ij)980×50
x′ik=xik-ksk(i=1,2,…,980;k=1,2,…,50)
其中,k=1980∑980i=1xik,?"sk=1980∑980i=1(xik-k)2
x″ik=x′ik-min1≤i≤980{x′ik}max1≤i≤980{x′ik}-min1≤i≤980{x′ik}?"(k=1,2,…,50)
利用最大最小法建立起了980×980模糊相似矩陣R。
利用Matlab計(jì)算模糊相似矩陣R的傳遞閉包t(R),得到模糊等價(jià)矩陣t(R)。對(duì)t(R)再取適當(dāng)?shù)摩恕蔥0,1],由λ截矩陣Rλ便可得到動(dòng)態(tài)聚類(lèi)。
通過(guò)對(duì)F統(tǒng)計(jì)量的運(yùn)算,對(duì)給定的信度α=0.05,查F臨界值表得到Fα,得到表2:
通過(guò)對(duì)t(R)的聚類(lèi)分析,可以看出淮陰工學(xué)院圖書(shū)館讀者用戶(hù)的調(diào)查中最佳聚類(lèi)結(jié)果為50類(lèi)。從最佳聚類(lèi)結(jié)果,得到教師和碩士研究生其分類(lèi)基本上是按照學(xué)科聚類(lèi),其借閱和瀏覽情況也大多數(shù)與自己的學(xué)科背景相關(guān),所以對(duì)教師及研究生的推薦目錄基本上可以結(jié)合問(wèn)卷調(diào)查中用戶(hù)感興趣的圖書(shū)及資源并請(qǐng)相關(guān)專(zhuān)業(yè)的學(xué)者綜合制定。本科生群體的用戶(hù),從分類(lèi)結(jié)果看到,聚類(lèi)因素中學(xué)科、興趣、社會(huì)實(shí)踐、人生觀(guān)等對(duì)其分類(lèi)均有影響。例如在理科學(xué)生中有近1/4的學(xué)生用戶(hù)感興趣的資源非專(zhuān)業(yè)信息,這部分讀者大致又分為兩類(lèi):一類(lèi)趨向于文學(xué)、歷史類(lèi)圖書(shū)資源;一類(lèi)取向于管理和計(jì)算機(jī)類(lèi)資源。工科類(lèi)學(xué)生讀者的情況更為復(fù)雜,根據(jù)統(tǒng)計(jì)結(jié)果工科類(lèi)學(xué)生的分類(lèi)高達(dá)32類(lèi),幾乎每類(lèi)中都有來(lái)自工科不同專(zhuān)業(yè)的學(xué)生用戶(hù)群體。我們統(tǒng)計(jì)在問(wèn)卷調(diào)查中每個(gè)聚類(lèi)感興趣的圖書(shū)情況及讀者的歷史借閱、瀏覽和查找歷史、電子資源的使用和下載情況給出最佳推薦書(shū)目和資源。在實(shí)踐過(guò)程中,我們利用Matlab對(duì)大量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了處理和分析,這是一個(gè)較為困難和具體挑戰(zhàn)性的工作,它對(duì)獲取準(zhǔn)確聚類(lèi)結(jié)果又是必需的。
選取淮陰工學(xué)院的在校本科生、碩士研究生、教師100名,利用擇近原則對(duì)其模糊識(shí)別并推薦相應(yīng)的書(shū)目和電子資源,跟蹤調(diào)查其對(duì)推薦結(jié)果的滿(mǎn)意情況。實(shí)驗(yàn)證明通過(guò)模糊識(shí)別的個(gè)性化推薦系統(tǒng)得到用戶(hù)的認(rèn)可,其中56名用戶(hù)對(duì)最佳聚類(lèi)推薦的結(jié)果滿(mǎn)意并使用了我們推薦的資源和圖書(shū),32名用戶(hù)經(jīng)過(guò)再次收集相關(guān)的信息資料,重新調(diào)整識(shí)別信息后對(duì)推薦結(jié)果給出滿(mǎn)意答復(fù),12名用戶(hù),經(jīng)過(guò)三次識(shí)別分析后,對(duì)其推薦結(jié)果表示滿(mǎn)意。實(shí)驗(yàn)結(jié)果表明本文提出的基于模糊聚類(lèi)和模糊識(shí)別的數(shù)字圖書(shū)館個(gè)性化推薦系統(tǒng)方案是可行和有效的。
4 結(jié) 語(yǔ)
利用模糊聚類(lèi)分析方法對(duì)圖書(shū)館用戶(hù)的資源使用情況進(jìn)行聚類(lèi),其先決條件是收集并得到大量的用戶(hù)資源數(shù)據(jù)信息,并進(jìn)行最佳聚類(lèi)的分析整理。實(shí)踐證明,基于模糊聚類(lèi)和模糊識(shí)別數(shù)字圖書(shū)館的個(gè)性化推薦系統(tǒng)的推薦結(jié)果是得到用戶(hù)認(rèn)可的。利用推薦系統(tǒng)提供個(gè)性化信息服務(wù),是數(shù)字圖書(shū)館發(fā)展的必然趨勢(shì),也是目前研究的一個(gè)熱點(diǎn)問(wèn)題。本文提出的個(gè)性化推薦系統(tǒng)方案,在提高數(shù)字圖書(shū)館個(gè)性化服務(wù)水平方面做了有益的探索與嘗試。
參考文獻(xiàn)
[1]徐偉芬.基于模糊聚類(lèi)的數(shù)字圖書(shū)館個(gè)性化推薦系統(tǒng)方案設(shè)計(jì)[J].價(jià)值工程,2013,32(6):174-176.
[2]Balabanovic M,Shoham Y.Fab:Content-based,Collaborative Recommendation[J].Communications of the ACM,2007,40(3):6672.
[3]Rucker J,Polance M J.Siteseer:Personalized Navigation for the Web[J].Communications of the ACM,1997,40(3):7375.
[4]Giles L,Bollacker K,Lawrence S.CiteSeer:An Automatic Citation Indexing System[J].In:Proceedings of the 3rd ACM Conference on Digital Libraries.1998:89-98.
[5]劉劍濤.個(gè)性化推薦系統(tǒng)中用戶(hù)多態(tài)聚類(lèi)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012,28(2):18-22.
[6]黃曉斌.基于協(xié)同過(guò)濾的數(shù)字圖書(shū)館推薦系統(tǒng)研究[J].大學(xué)圖書(shū)館學(xué)報(bào),2006,(1):53-57.
[7]張紅燕.高校圖書(shū)館新書(shū)推薦系統(tǒng)的研究與實(shí)現(xiàn)[J].大學(xué)圖書(shū)館學(xué)報(bào),2013,(5):106-113.
[8]唐秋鴻,曹紅兵,唐小新,等.高校圖書(shū)館個(gè)性化專(zhuān)題推薦研究[J].圖書(shū)館學(xué)研究,2012,(13):53-58,24.
[9]何金晶.個(gè)性化信息推薦服務(wù)中用戶(hù)潛在興趣挖掘研究[J].現(xiàn)代情報(bào),2013,33(4):8-11,16.
[10]楊亮,雷智雁.大數(shù)據(jù)環(huán)境下圖書(shū)館個(gè)性化服務(wù)研究[J].現(xiàn)代情報(bào),2014,34(4):74-77.
[11]李微娜,馬小琪,馮艷光.基于MADM方法的個(gè)性化推薦研究[J].現(xiàn)代情報(bào),2011,31(4):20-22,25.
[12]秦如新,田英杰,陳靜,等.雙聚類(lèi)的關(guān)聯(lián)規(guī)則挖掘方法[J].北京工業(yè)大學(xué)學(xué)報(bào),2009,(4):561-565.
[13]杜靜,敖富江,楊學(xué)軍,等.基于模糊聚類(lèi)分析的構(gòu)件并行技術(shù)研究[J].計(jì)算機(jī)學(xué)報(bào),2007,30(11):1939-1946.
[14]CHATZIS S,VARVARIGOU T.Factor analysis latent subspace modeling and robust fuzzy clustering using t-distributions[J].IEEE Transactions on Fuzzy Systems,2009,17(3):505-517.
[15]盤(pán)美英.模糊聚類(lèi)分析方法在圖書(shū)館績(jī)效評(píng)估中的應(yīng)用[J].現(xiàn)代情報(bào),2008,28(10):210-213,216.
[16]秦小鐵,鄭輝昌.基于模糊聚類(lèi)分析的圖書(shū)館選書(shū)決策方法[J].重慶科技學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2011,(11):165-166.
[17]梁保松,曹殿立.模糊數(shù)學(xué)及其應(yīng)用[M].北京,科學(xué)出版社,2007.
(本文責(zé)任編輯:孫國(guó)雷)