杜宗宴,景英川
(太原理工大學(xué) 數(shù)學(xué)學(xué)院,山西 晉中 030600)
?
基于項目云的有序秩聚類在推薦系統(tǒng)中的應(yīng)用
杜宗宴,景英川
(太原理工大學(xué) 數(shù)學(xué)學(xué)院,山西 晉中 030600)
為進(jìn)一步提高推薦系統(tǒng)的推薦精度,提出一種新的基于項目云的有序秩聚類協(xié)同過濾推薦算法,其中包括三大步:數(shù)據(jù)處理,有序聚類,生成推薦。該方法不僅借助定性分析思想利用項目云有效地填充了缺失數(shù)據(jù),而且通過對項目分布的數(shù)字特征做排序、分割、聚類,在類內(nèi)產(chǎn)生“鄰居”,大大縮短了計算時間。通過在MovieLens數(shù)據(jù)集上的實驗表明,在平均絕對誤差和預(yù)測精確度上,該算法確實優(yōu)于傳統(tǒng)推薦算法。
協(xié)同過濾;云模型;有序秩聚類;評分可靠度;推薦系統(tǒng)
近年來,隨著科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)與日俱增。特別是像Facebook, Amazon, Alibaba[1]等這樣的商務(wù)網(wǎng)站,其在線用戶對產(chǎn)品的評分?jǐn)?shù)據(jù)更是呈指數(shù)趨勢迅猛增加。因此,建立一個有效的個性化推薦系統(tǒng)對于商家推廣產(chǎn)品及用戶挖掘新品都是十分重要的。
目前,協(xié)同過濾是推薦系統(tǒng)中應(yīng)用最廣泛、最成功的一種算法,該算法最初由TYPESTRY提出,它認(rèn)為目標(biāo)用戶會與其相關(guān)用戶表現(xiàn)出相同偏好[2]。之后,GROUPLENS提出一個專門用于推送新聞、電影等的開放自主協(xié)同過濾推薦系統(tǒng),認(rèn)為用戶會對相似的項目產(chǎn)生相同興趣[3]?;诖?為進(jìn)一步提高推薦精度,國內(nèi)外學(xué)者將協(xié)同過濾算法系統(tǒng)地分為兩大類:基于內(nèi)存和基于模型?;趦?nèi)存的協(xié)同過濾算法又包括User-based、Item-based協(xié)同過濾,其實質(zhì)都是通過對用戶-項目信息進(jìn)行統(tǒng)計分析,最終為目標(biāo)用戶(或目標(biāo)項目)挖掘一些具有歷史相似性行為的用戶(或項目)[4]。而基于模型的協(xié)同過濾則是依托統(tǒng)計或機器學(xué)習(xí)方法,利用歷史數(shù)據(jù)構(gòu)成用戶偏好模型進(jìn)行預(yù)測與推薦的方法,其中最典型的有基于關(guān)聯(lián)規(guī)則、貝葉斯網(wǎng)絡(luò)等的推薦算法[5]。
協(xié)同過濾技術(shù)雖已廣泛應(yīng)用于許多電子商務(wù)過程中,但與之相伴的用戶-項目評分矩陣的極端稀疏性、冷啟動[6]等問題也日益凸顯。HUANG et al提出了基于關(guān)聯(lián)規(guī)則的協(xié)同過濾算法[7];WENG et al深入探索用戶分類與評分偏好的內(nèi)部關(guān)系[8];BACKSTROM et al采用社交網(wǎng)絡(luò)模型進(jìn)行預(yù)測和推薦[9];CAI et al提出了基于典型度的協(xié)同過濾推薦算法[10]。這些方法雖然都不同程度的提高了推薦精度,但并未改善數(shù)據(jù)稀疏性。同時,還有許多學(xué)者試圖從模糊學(xué)的角度來解除冷啟動對預(yù)測結(jié)果的影響。張光衛(wèi)等引入了云模型相似性度量方法(LICM)[11];余志虎等提出了云模型數(shù)據(jù)填充算法來彌補數(shù)據(jù)缺失性[12];孫金剛等提出了基于項目屬性和云填充的協(xié)同推薦算法[13]。這些算法填充數(shù)據(jù)時均是采用均值填充、眾數(shù)填充或隨機填充等,并未充分考慮項目本身的性質(zhì)特征,因此預(yù)測精度也不盡如人意。
基于此,本文借鑒模糊聚類的思想,結(jié)合云模型[14]與有序秩聚類[15]的優(yōu)點,提出了一種基于項目云的有序秩聚類協(xié)同過濾推薦算法(Ordered Rank Cluster in Collaborative Filtering Recommendation Based on Item Cloud, ICORC)。較之于傳統(tǒng)算法,該方法從以下三點進(jìn)行了改進(jìn)。首先,通過擬合項目的分布情況來填充原始數(shù)據(jù)矩陣,不僅彌補了原始數(shù)據(jù)矩陣的極端稀疏性,而且緩解了冷啟動問題引起的推薦不精確;其次,該算法依據(jù)項目分布的統(tǒng)計信息和評分概率分布情況恢復(fù)原始項目矩陣,較完整的還原了原始項目的數(shù)據(jù)特征;最后,該算法僅在相鄰用戶間進(jìn)行有序秩聚類為目標(biāo)項目產(chǎn)生最近鄰用戶,大大縮短了計算時間。據(jù)了解,目前尚未有研究將有序秩聚類與傳統(tǒng)推薦算法結(jié)合。
協(xié)同過濾推薦算法的假設(shè)前提是用戶對于同類型的項目通常會表現(xiàn)出相似的興趣。由于用戶評分行為具有極大的不確定性、主觀性和模糊性,因此,本文從模糊角度出發(fā),提出了一種基于項目云的有序秩聚類協(xié)同過濾推薦算法。該方法的推薦機制如下。
1) 通過項目云數(shù)字特征C(E,En,H)來擬合每一個項目的分布情況;
2) 根據(jù)所擬合的項目分布來生成缺失數(shù)據(jù)以恢復(fù)原始稀疏評分陣;
3) 將所有的項目按其數(shù)字特征排序,并計算相鄰兩者間的相似度;
4) 根據(jù)相似度進(jìn)行有序秩聚類;
5) 對目標(biāo)用戶在類內(nèi)選擇“鄰居”并作出推薦和預(yù)測。
1.1 數(shù)據(jù)預(yù)處理
在協(xié)同過濾推薦系統(tǒng)中,用戶-項目評分矩陣可以用一個m×n階矩陣Am×n來表示,如表1所示。我們將m個用戶的集合記為U={U1,U2,…,Um},n個項目的集合記為I={I1,I2,…,In},用戶的評分集合記為X={xij, i=1,2,…,m; j=1,2,…,n}。其中,xij表示用戶Ui對項目Ij的評分值(“NA”表示缺失值)。通常,用戶對項目的評分都用1到5之間的整數(shù)值來表示,即{1,2,3,4,5},且不同分值表示用戶對項目的不同偏好程度,本文選取的實證數(shù)據(jù)集采用的正是此種評分機制。
表1 用戶-項目評分矩陣Am×n
1.1.1 數(shù)據(jù)缺失及分布假設(shè)
一般而言,用戶的個人偏好、周遭環(huán)境、事務(wù)本身等都會為其行為決策帶來極大的不確定性和隨機性?;诖?本文對數(shù)據(jù)的缺失機制作出假設(shè),認(rèn)為用戶對項目是否進(jìn)行評分是完全隨機的。換言之,用戶對某個項目是否評分是一個隨機事件,且評分與否并不代表用戶對該項目的喜惡。但是,用戶的評分高低卻可以直觀反映其對項目的偏好程度,即分值越大,表明用戶對該項目越感興趣;反之,分值越小,興趣越低。因此,本文假設(shè)數(shù)據(jù)的缺失機制為隨機缺失。
另外,由于在推薦系統(tǒng)的研究中多數(shù)采用的是用戶對一些項目的評分?jǐn)?shù)據(jù),然而在用戶未對項目作出評分之前,每個用戶給出1,2,3,4,5分的可能性是相同的。因此,這些評分值可看作是相互獨立的隨機變量,且事件1, 2, 3, 4, 5的發(fā)生可認(rèn)為是等概率事件。故從理論角度出發(fā),根據(jù)伯努利大數(shù)定律及中心極限定理,我們假設(shè)每一個項目的用戶評分均可近似看成是服從正態(tài)分布且相互獨立的隨機變量。
1.1.2 數(shù)據(jù)填充
研究資料表明,稀疏性是用戶-項目評分矩陣最明顯的問題,傳統(tǒng)的協(xié)同過濾推薦算法,雖然采用了多種方法去克服這種稀疏性,但結(jié)果都不理想。原因在于,用戶打分存在主觀性、局限性。特別是當(dāng)用戶參與打分項目較少時,其評分的可參考價值就會很小。基于此,本文提出了用戶評分可靠度如下,認(rèn)為參與評分項目越多的用戶,其評分結(jié)果越具代表性。
定義1(評分可靠度) 設(shè)用戶Ui對所有項目的評分向量為Xi=(xi1,xi2,…,xin),(xij表示用戶Ui對項目Ij的評分值,n為項目總數(shù)),記Xi=(xi1,xi2,…,xin)中非零項的個數(shù)為fi(i=1,2,…,m)(m為用戶總數(shù)),則用戶Ui的評分可靠度可用ωi來表示,如式(1),且滿足:
(1)
另一方面,現(xiàn)實生活中用戶對項目的評分行為本身就具有強烈的主觀性、模糊性以及不精確性。因此,我們引入云模型概念以及其基本數(shù)字特征:期望、熵、超熵[14],來描述項目的分布情況,稱之為項目云。其中,期望E為用戶對某項目的平均評分;熵En表示用戶對該項目評分的方差;超熵H是熵的熵。本文的研究中將依據(jù)項目云的數(shù)字特征,對比使用普通云發(fā)生器與加權(quán)云發(fā)生器來填充缺失值。其具體操作步驟如下:
1) 利用式(2),式(3)逆向云發(fā)生器(Backward Cloud Generator,BCG)來擬合每一個項目的分布情況,并通過云模型數(shù)字特征C(E,En,H)來表示。其中,ωi為用戶Ui的評分可靠度;Ej,En,j,Hj分別表示項目Ij的期望、熵、超熵;nj表示項目Ij的評分中非零值的個數(shù);Sj表示項目Ij的標(biāo)準(zhǔn)差;Cj(Ej,En,j,Hj)為項目Ij的分布特征向量。則普通逆向云發(fā)生器計算見式(2),加權(quán)逆向云發(fā)生器計算見式(3):
(2)
(3)
2) 利用正向云發(fā)生器(ForwardCloudGenerator,FCG)生成每個項目對應(yīng)數(shù)量的隨機數(shù),并計算每個隨機數(shù)隸屬于該模型的隸屬度
3) 根據(jù)已評分值中各項目得分情況,對生成的隨機數(shù)進(jìn)行劃分和數(shù)值轉(zhuǎn)換,填充缺失值。設(shè)pkj為項目Ij評分為k(k=1,…,5)的理論概率,若p(k-1)j<μij≤pkj,則xij=k.
在整個數(shù)據(jù)填充過程中,我們假設(shè)數(shù)據(jù)缺失機制為完全缺失;在獲取項目分布時充分考慮到用戶評分可靠度,因此對比采用普通云發(fā)生器和加權(quán)云發(fā)生器分別獲得項目分布,生成缺失數(shù)據(jù),并通過隸屬度將生成的連續(xù)數(shù)值離散化,最終實現(xiàn)用戶-項目評分矩陣的稠密化。
1.2 有序秩聚類
1.2.1 相似度計算
在之前的討論中,我們已經(jīng)知道可以用項目云C(E,En,H)來反映項目的性質(zhì)特征。因此,處于相同位置、擁有相似形狀的云,其數(shù)字特征可能更相近,也更可能屬于同一類別。基于此,本文在計算項目相似度之前,首先將所有項目按一定的排序準(zhǔn)則重新排列,保證相鄰項目盡可能相似。值得注意的是,在項目云數(shù)字特征E、En、H中,E是最能代表用戶對項目的平均偏好程度,E值越高表明項目越受歡迎,故排序時優(yōu)先考慮E;其次排列En,因為En代表用戶對項目評分的離散程度,En值越小表明該項目評分值越集中;而H相當(dāng)于En的方差,反映的是用戶對項目評分的不確定性,H值越高表明該項目評分值越不穩(wěn)定,所以最后考慮H值。據(jù)此,本文定義排序準(zhǔn)則如下。
定義2(排序準(zhǔn)則) 設(shè)用戶-項目評分矩陣Am×n中有n個項目,Ck(Ek,En,k,Hk)表示第k個項目的分布特征,k=1,…,n?,F(xiàn)將所有項目按Ek從小到大依次排列;當(dāng)Ei=Ej(i,j=1,…,n且i≠j)時,將并列項目按En,k從小到大排列;同理,當(dāng)En,k相同時,再將并列項目按Hk從小到大依次排列,本文將此視為排列準(zhǔn)則。
該準(zhǔn)則通過簡單排序方法最大化的實現(xiàn)了同質(zhì)項目集中化、異質(zhì)項目分散化,完成了項目初次分類,為下一步的相似度計算奠定了基礎(chǔ)?;诖?提出本文相似度計算的具體方法:首先,對填充之后的稠密矩陣Am×n,采用式(2)重新計算各個項目的數(shù)字特征Ck(Ek,En,k,Hk),k=1,…,n;其次,按照排序準(zhǔn)則對所有項目Ck(Ek,En,k,Hk)重新排列,并將排序后的用戶-項目評分信息用有序云向量C=(C(1),C(2),…,C(n))來表示;最后,按照式(4)計算相鄰項目的云相似度,并將所有項目的相似性指標(biāo)記作向量S,如式(5)所示。
(4)
(5)
1.2.2 聚類
聚類分析的實質(zhì)就是使得類內(nèi)項目差異盡可能小,類間差異盡可能大的一種分類方法。因此,同一類別內(nèi)的項目就很可能擁有相同的性質(zhì),那么將目標(biāo)項目納入某一特定類別就可以為其產(chǎn)生相關(guān)推薦。目前,聚類技術(shù)已經(jīng)廣泛應(yīng)用于協(xié)同過濾推薦系統(tǒng)中,如K-Means,自組織映射(self-organizingmaps,SOM)等[16]。本文在云模型基礎(chǔ)上,采取有序秩聚類算法[15],并將其與K-Means結(jié)果進(jìn)行對比。其具體操作步驟如下:
1) 為項目間相似度進(jìn)行排秩。將式(5)得到的相似性指標(biāo)向量S中的所有相似度按照由小及大的原則排秩,即:相似度最小的項秩為1,相似度最大的項秩為(n-1),最終構(gòu)成相似性指標(biāo)的秩向量R=(r1,2,r2,3,…,rn-1,n),其中,ri,i+1表示第i個項目的秩。由此可知,秩越小,代表相鄰的這兩個項目之間差異性越大;秩越大,表明相鄰兩項目相似性越大。
2) 確定聚類數(shù)目k,進(jìn)行分類。假設(shè)我們想將所有樣本聚成5類,則就應(yīng)該將有序云C=(C(1),C(2),…,C(n))在其相似度秩為1,2,3,4(即rij=1,2,3,4)的地方同時斷開,這樣原始的樣本就被分成了5類。同理,如果我們需要將項目聚成k類,則應(yīng)該在rij=1,2,…,k-1的地方同時斷開,這樣相鄰斷點之間的項目就視作一類。
3) 計算每一類的中心。這個聚類的過程可以看作是云聚類,其中每一類別可看做是一個由成百上千個項目云滴組成的云團(tuán)。因此,每一類的中心完全可以用綜合云來代替。令Ct(Et,En,t,Ht)為第t類的綜合云數(shù)字特征,其中t=1,2,…,k,則第t類的中心可以用式(5)來表示。其中,Nt表示第t類中的項目個數(shù),Et,En,t,Ht分別表示第t類綜合項目云的期望、熵、超熵,Eti,En,ti,Hti分別表示第t類中第i個項目的期望、熵、超熵。
(6)
值得注意的是,上述步驟中對項目相似度進(jìn)行排序時可能會出現(xiàn)相同秩的情形,即:ri,i+1=ri+1,i+2…rj-1,j=rj,j+1(i,j=1,…,n-1且i≠j),此時無法確定該在i還是j處斷開時,就需要分別計算在i,i+1…j-1,j等處斷開時的分類誤差[15],選擇使得分類誤差達(dá)到最小的劃分方法作為本文的最終分類決策。
1.3 推薦和預(yù)測機制
推薦和預(yù)測是協(xié)同過濾推薦系統(tǒng)的終極目標(biāo)。本文提出的方法區(qū)別于傳統(tǒng)算法,僅僅在目標(biāo)項目所屬的類內(nèi)尋找鄰居,進(jìn)行推薦。因此,我們首先要計算目標(biāo)項目與每一類別中心的距離,將其劃入合適的類中;下一步就可以進(jìn)行推薦了。同樣借鑒Top-N推薦算法的思想,但僅在目標(biāo)項目所屬的這一類別內(nèi)選擇與其相似度最為接近的N個鄰居進(jìn)行推薦。這一新的算法極大的降低了計算復(fù)雜度,縮短了程序運行時間。
預(yù)測是根據(jù)最近鄰居的評分情況來估計目標(biāo)項目的可能得分的一個過程。眾所周知,目標(biāo)項目與其最近鄰居有極大的相似性,但是,即便如此,不同的鄰居其相似程度還是有所差異。因此,本文將相似度視為權(quán)重對未評分項目進(jìn)行加權(quán)預(yù)測,其預(yù)測式(7)如下:
(7)
式中:rj表示目標(biāo)項目Ij的得分;nj為Ij的最近鄰居數(shù);sim(i,j)表示目標(biāo)項目Ij與其第i個鄰居Ii的相似性;ri表示項目Ii的評分值。綜上所述,將本文提出的基于項目云的有序秩聚類協(xié)同過濾推薦算法(ICORC)大致分為三大步,數(shù)據(jù)處理,有序秩聚類和推薦與預(yù)測。其操作步驟可通過流程圖1來形象描述。
圖1 ICORC算法流程圖Fig.1 The flow chart of ICORC algorithm
2.1 實驗設(shè)計
為了評估本文提出的方法ICORC的有效性,我們將采用R語言軟件在MovieLens數(shù)據(jù)集(http:∥movielens.umn.edu)上進(jìn)行試驗。該數(shù)據(jù)集要求每個用戶評分項目數(shù)至少要20條,其分值從1分到5分不等,分別代表用戶對項目不同程度的偏好,“1”表示很不喜歡,“5”表示特別喜歡,稀疏度為93.69%。文中將采用EMA(meanabsoluteerror)和P(Precision)來分別評估預(yù)測結(jié)果。EMA為平均絕對誤差,反映的是樣本實際值與預(yù)測值之間的絕對偏差,因此EMA值越小越好,如式(8)所示,其中pi,xi分別表示第i個樣本的預(yù)測值與實際觀測值,n為總的樣本數(shù)。P為預(yù)測精確度,如式(9),其中TP(TruePositive)表示預(yù)測為推薦項目且實際也是推薦項目的個數(shù);FP(FalsePositive)表示預(yù)測為推薦項目,但實際為非推薦項目的個數(shù)。因此,P值反映的是預(yù)測結(jié)果中能正確推薦的比例,其值越大表明推薦精確度越高,推薦效果越好。
(8)
(9)
在本研究中,將呈現(xiàn)通過普通填充由基于云模型的有序秩聚類協(xié)同過濾算法(ICORC)獲得的結(jié)果,以及通過加權(quán)填充算法(WICORC)得到的結(jié)果,并將其與兩個經(jīng)典的協(xié)同過濾算法:基于K-Means聚類的協(xié)同過濾算法(KMCF)和基于云模型相似度的協(xié)同過濾算法(LICM)進(jìn)行比較。最終逐一解答以下問題:聚類數(shù)K對推薦質(zhì)量有何影響,最近鄰居數(shù)N對推薦質(zhì)量有何影響,ICORC在處理數(shù)據(jù)稀疏性問題方面是否有效,ICORC是否真的優(yōu)于傳統(tǒng)的CF算法(KMCF,LICM).
2.2 實驗結(jié)果
圖2 聚類數(shù)K對推薦結(jié)果的影響Fig.2 The influence of cluster number K for recommend result
通過MovieLensdataset實驗結(jié)果可知,見圖2,隨著聚類數(shù)目的增加,EMA值呈大幅度降低的趨勢,當(dāng)聚類數(shù)K=15時,EMA值已經(jīng)很小,之后EMA值呈現(xiàn)較為平緩的趨勢。由圖3可以看出,隨著最近鄰數(shù)目的增加,EMA的趨勢變化較為平緩,且當(dāng)最近鄰居數(shù)目N>15時,EMA值基本不再變化。因此,當(dāng)聚類數(shù)K=15,最近鄰居數(shù)N=15時,EMA值降到穩(wěn)定狀態(tài),推薦結(jié)果達(dá)到最優(yōu)。
圖3 鄰居數(shù)N對推薦結(jié)果的影響Fig.3 The influence of neighbor number N for recommend result
圖4 鄰居數(shù)N對預(yù)測精確度的影響Fig.4 The influence of neighbor number N for precision
對比四種算法(KMCF,LICM,ICORC,WICORC),綜合圖2-圖4可以看出,無論聚類數(shù)目,最近鄰居數(shù)如何變化,ICORC都具有最小的EMA和最大的P值。因此認(rèn)為ICORC推薦效果更優(yōu)。且就P值而言,ICORC與WICORC算法都優(yōu)于傳統(tǒng)的LICM和KMCF算法,原因就在于ICORC算法綜合考慮了用戶評分隨機性、模糊性等特點,最大限度地挖掘用戶評分信息,獲取每個項目的近似分布,進(jìn)而去填充原始稀疏矩陣,既保留了原始矩陣的評分特征,又緩解了推薦中的冷啟動問題,因此ICORC算法在數(shù)據(jù)稀疏性問題上比傳統(tǒng)的LICM和KMCF算法有更好的預(yù)測效果。
筆者從一個全新的視角出發(fā),借鑒定性分析與有序秩聚類的思想,提出了一種新型的基于項目云的有序秩聚類的協(xié)同過濾推薦算法,并將這一算法同傳統(tǒng)的KMCF和LICM算法在MovieLensdata集上做比較。實驗表明,較于傳統(tǒng)的協(xié)同過濾算法該方法有兩大優(yōu)勢。
1) 該算法從定性分析的層面考慮,由于不同的用戶其評分偏好在某種程度上一定存在差異性,因此引入項目云來填充缺失數(shù)據(jù),不僅能較好地解釋用戶在選擇項目時的隨機性,以及用戶評分的不確定性、模糊性,而且能克服數(shù)據(jù)的稀疏性,同時高度還原原始評分矩陣中所含信息的特征。
2) 該算法依據(jù)每個項目評分值的分布特征進(jìn)行有序秩聚類,并在類內(nèi)尋找項目“鄰居”,區(qū)別于傳統(tǒng)的計算所有項目的相似度的聚類算法,該算法僅需要計算擁有相似特征的相鄰項目間的相似性,其計算時間復(fù)雜度為o(n),而傳統(tǒng)算法計算相似度的時間復(fù)雜度為o(n2)。因此,該算法不僅能夠緩解數(shù)據(jù)稀疏性以及冷啟動問題,提高推薦精度,而且能大量節(jié)省時間。尤其是對于高維大數(shù)據(jù),ICORC算法的優(yōu)勢就更為明顯。
在本文的研究中,盡管我們對原始數(shù)據(jù)的稀疏性進(jìn)行了很大的改善,而且在某種程度上極大的減少了EMA,提高了P值,但依然有許多問題亟需解決。首先,本文沒有充分考慮到用戶之間的潛在關(guān)系;其次,在推薦過程中,本文也沒有考慮推薦數(shù)目對推薦精度的影響,從理論上來講,應(yīng)該是推薦數(shù)目越多,推薦精度越高。因此,未來我們可以考慮從這幾個方向去做深入研究:分析影響用戶評分的因素;或者探索用戶評分值的真實分布。另外,進(jìn)一步提高協(xié)同過濾推薦系統(tǒng)的推薦精度以及計算速度仍是我們需要努力的方向。
[1]XURZ,WANGSQ,ZHENGXW,etal.Distributedcollaborativefilteringwithsingularratingforlargescalerecommendation[J].TheJournalofSystemsandSoftware,2014,(95):231-241.
[2]GOLDBERGD,NICHOLSD,OKIBM,etal.Usingcollaborativefilteringtoweaveaninformationtypestry[J].CommunACM,1992,35(12):61-70.
[3]RENSICKP,IACOVOUN,SUCHAKM,etal.GroupLens:anopenarchitectureforcollaborativefilteringofnetnews[C]∥ACM.Proceedingsofthe1994ACMConferenceonComputerSupportedCooperativeWork(CSCW)UnitedStates:NorthCarolina,1994:175-186.
[4]SARWARB,KARYPISG,KONSTANJ,etal.Item-basedcollaborativefilteringrecommendationalgorithms[C].Proceedingsofthe10thinternationalconferenceonWorldWideWeb.HongKong:ACM,2001:285-295.
[5]CECHINELC,SICILIAM,SALVADORSA,etal.Evaluatingcollaborativefilteringrecommendationsinsidelargelearningobjectrepositorise[J].InformationProcessingandManagement,2013(49):34-50.
[6] 孫小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動問題研究[D].杭州:浙江大學(xué),2005.
[7]HUANGZ,CHENH,ZENGD.Applyingassociativeretrievaltechniquestoalleviatethesparsityproblemincollaborativefiltering[J].ACMTransInformationSystems,2004,22(1):116-142.
[8]WENGLT,XUY,LIY,etal.Exploitingitemtaxonomyforsolvingcold-startprobleminrecommendationmaking[C].Proceedingsofthe20thIEEEInternationalConferenceonToolswithArtificalIntelligence,Dayton,USA,2008:113-120.
[9]BACKSTROML,LESKOVECJ.Supervisedrandomwalks:predictingandrecommendinglinksinsocialnetworks[J].ComputerScience,2011(11):635-644.
[10]CAIY,LEUNGHF,LIQ,etal.Typicality-basedcollaborativefilteringrecommendation[J].IEEETrans.KnowledgeandDataEng,2014,26(3):766-779.
[11] 張光衛(wèi),李德毅,李鵬.基于云模型的協(xié)同過濾推薦算法[J].軟件學(xué)報,2007,18(10):2403-2411.
[12] 余志虎,戚玉峰.一種基于云模型數(shù)據(jù)填充的算法[J].計算機技術(shù)與發(fā)展,2010,20(12):34-37.
[13] 孫金剛,艾麗蓉.基于項目屬性和云填充的協(xié)同過濾推薦算法[J].計算機應(yīng)用,2012,32(3):658-660.
[14] 王國胤,李德毅,姚一豫,等.云模型與粒計算[M].科學(xué)出版社,2012(inChina).
[15] 朱建平,方匡南.有序秩聚類及對地震活躍期的分析[J].統(tǒng)計研究,2009,26(1):83-87.
[16]TSAICF,HUNGC.Clusterensemblesincollaborativefilteringrecommendation[J].AppliedSoftComputing,2012(12):1417-1425.
(編輯:朱 倩)
Application of Ordered Rank Cluster in Recommendation Systems Based on Item Cloud
DU Zongyan,JING Yingchuan
(College of Mathematics, Taiyuan University of Technology, Jinzhong Shanxi 030600, China)
In order to further improve recommender accuracy, in this paper we propose a novel ordered rank cluster in collaborative filtering based on the item cloud (ICORC) method, which includes three steps: data processing, ordered rank clustering, and recommendation generating. This method has two advantages. One is that it can tackle the data sparsity problem by filling in missing data using the item cloud. Another distinct feature is that it can save time and obtain more accuracy through finding “neighbors” of items among the clusters, which are formed by sorting, partition and clustering for the numerical characteristics of item distribution. To the best of our knowledge, there has been no prior work on investigating CF recommendation by combining ordered rank cluster.We conducted this experiment on the MovieLens datasets and found that ICORC is superior to other collaborative filtering (CF) algorithms on the mean absolute error and Precision.
collaborative filtering;cloud model;ordered rank cluster;rating reliability;recommender system
1007-9432(2016)05-0673-07
2015-10-06
國家自然科學(xué)基金資助項目:高維數(shù)據(jù)變量間非線性交互作用的研究(11571009)
杜宗宴(1990- ),女,山西孝義人,碩士,主要從事數(shù)理統(tǒng)計及數(shù)據(jù)挖掘方向的研究,(E-mail)duzongyan908@126.com
景英川,副教授,主要從事數(shù)理統(tǒng)計及數(shù)據(jù)挖掘方向的研究,(E-mail)shyjyc1970@163.com,
F224;F713.36
A
10.16355/j.cnki.issn1007-9432tyut.2016.05.021