紀(jì)文璐,王海龍,蘇貴斌,柳 林
1.內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特010020
2.內(nèi)蒙古師范大學(xué) 教務(wù)處,呼和浩特010020
伴隨互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)以及移動(dòng)技術(shù)的迅猛發(fā)展,其產(chǎn)生的數(shù)據(jù)已呈現(xiàn)爆炸式增長(zhǎng)[1]。由于數(shù)據(jù)規(guī)模龐大、繁瑣,重疊信息過多等問題,導(dǎo)致用戶對(duì)數(shù)據(jù)利用率不高,無法準(zhǔn)確提取有價(jià)值的數(shù)據(jù)。因此,從繁雜的數(shù)據(jù)海洋中捕獲有效數(shù)據(jù),為用戶提供高質(zhì)量信息,成為推薦系統(tǒng)領(lǐng)域的研究目標(biāo)[2]。例如大型電子商務(wù)平臺(tái)亞馬遜的個(gè)性化產(chǎn)品推薦、潘多拉播放器的音樂推薦、Facebook社交網(wǎng)絡(luò)的好友推薦以及YouTube網(wǎng)站的視頻推薦等著名的推薦系統(tǒng)以及其他各類個(gè)性化領(lǐng)域[3],它們從各自擅長(zhǎng)的角度提供不同領(lǐng)域的內(nèi)容推薦,運(yùn)營(yíng)商在獲得可觀的利潤(rùn)的同時(shí)也為廣大用戶提供便利。開心的時(shí)候適合聽什么樣的歌曲,剛有寶寶的父母喜歡什么商品的可能性更大等一系列問題的解決,都使得被推薦用戶得到更好的體驗(yàn)[4]。由此可見,推薦系統(tǒng)已經(jīng)成為現(xiàn)代化社會(huì)一種極其有效解決用戶需求的方式[5]。推薦系統(tǒng)的本質(zhì)是從一堆毫無條理的原始數(shù)據(jù)中,通過提取用戶數(shù)據(jù)的特征屬性、興趣愛好,和對(duì)用戶的偏好挖掘來進(jìn)行相似的信息推送,從而完成構(gòu)建。推薦系統(tǒng)是以推薦算法為核心,融合各類模型以及通過建立用戶與項(xiàng)目之間的數(shù)學(xué)二元組關(guān)系,并利用存在的相似性來判斷并分析數(shù)據(jù),進(jìn)而挖掘每個(gè)用戶潛在的感興趣物品。不僅可以讓用戶在繁雜的內(nèi)容中發(fā)現(xiàn)所中意的信息,也會(huì)將興趣度高的信息展現(xiàn)給用戶,同時(shí)應(yīng)用各式推薦方法[6-8],達(dá)到優(yōu)質(zhì)推薦的目的。
推薦系統(tǒng)的概念最早在1992 年的郵件過濾系統(tǒng)[9]中被提出,目的是為了解決郵件過載問題。文中首次使用了協(xié)同過濾的概念,之后被廣泛引用,它通過用戶使用的歷史記錄以及各物品之間的相似程度,進(jìn)而深入挖掘用戶潛在的感興趣物品[10]。推薦系統(tǒng)的主要構(gòu)成內(nèi)容包括用戶、物品和推薦算法,其中推薦算法的高效性、魯棒性都決定著推薦系統(tǒng)性能的優(yōu)劣[11]。傳統(tǒng)的推薦算法一般可以分為三大類,即基于內(nèi)容的推薦算法[12]、協(xié)同過濾推薦算法[13]以及混合推薦算法[14]。
由于傳統(tǒng)推薦算法中未能考慮到物品與物品之間的深層關(guān)系,IBM 公司于1993 年首次提出了關(guān)聯(lián)規(guī)則模型后,Manchanda等人[15]緊接著于1999年在實(shí)際的商業(yè)交易數(shù)據(jù)應(yīng)用中指出,消費(fèi)者在多選項(xiàng)場(chǎng)景下,一個(gè)共同主線上所供選擇的項(xiàng)目之間可能以某種特殊的關(guān)系進(jìn)行關(guān)聯(lián),即用戶會(huì)在不同情況下做出不同選擇。例如在購(gòu)物時(shí),一個(gè)類別選擇的結(jié)果會(huì)影響到另一個(gè)類別,因?yàn)檫@兩者之間可能使用關(guān)系互補(bǔ)(如面粉和酵母),也可能因?yàn)橘?gòu)買周期相似(如啤酒和尿布),或者更多無法被容易發(fā)現(xiàn)的深層規(guī)則。因此在實(shí)際應(yīng)用中,研究人員將關(guān)聯(lián)規(guī)則技術(shù)運(yùn)用到推薦算法中來提高推薦性能,從而彌補(bǔ)傳統(tǒng)推薦算法的不足[16]。
通過歸納總結(jié)一些學(xué)者在推薦算法中使用關(guān)聯(lián)規(guī)則技術(shù)的研究結(jié)果,分別從不同角度來分析和解決傳統(tǒng)推薦算法在推薦過程中存在的各類問題。例如緩解基于內(nèi)容推薦中的冷啟動(dòng)問題,消除協(xié)同過濾推薦中的數(shù)據(jù)稀疏問題以及擴(kuò)展當(dāng)下熱門的社交網(wǎng)絡(luò)推薦中用戶友好匹配的問題,進(jìn)而從介紹、分析、實(shí)驗(yàn)的角度將關(guān)聯(lián)規(guī)則技術(shù)引入到各類模型中去解決問題,并在研究過程中指出其優(yōu)缺點(diǎn)、研究結(jié)果以及未來的研究熱點(diǎn)方向。
自協(xié)同過濾(Collaborative Filtering,CF)算法被提出之后,推薦系統(tǒng)就成為一類新興的、有較高實(shí)用價(jià)值和關(guān)注度的學(xué)科被廣大學(xué)者進(jìn)行深入研究。推薦系統(tǒng)的核心就是推薦算法,傳統(tǒng)的推薦算法主要由三類組成,協(xié)同過濾算法、基于內(nèi)容的推薦算法以及混合推薦算法。
協(xié)同過濾推薦算法的核心思想就是充分利用與目標(biāo)用戶興趣偏好相同的用戶群體喜好來進(jìn)行高精度推薦。其中協(xié)同過濾推薦算法主要有兩種形式,分別是基于用戶[17]的推薦和基于項(xiàng)目[18]的推薦,推薦方式如圖1、圖2 所示,兩者當(dāng)中基于用戶的推薦出現(xiàn)較早,但二者的推薦原理基本相同?;谟脩敉扑]的基本原理就是通過提取所有用戶在使用過程中產(chǎn)生的歷史數(shù)據(jù)特征值,去發(fā)現(xiàn)他們對(duì)某一種或多種項(xiàng)目的偏好程度,然后經(jīng)由算法對(duì)數(shù)據(jù)進(jìn)行相似度處理,最后根據(jù)鄰居用戶數(shù)據(jù)組的歷史偏好信息向目標(biāo)用戶進(jìn)行高效且精確的推薦[19]?;陧?xiàng)目的推薦則是將基于用戶推薦中用戶之間的相似度計(jì)算變成了項(xiàng)目之間的相似度計(jì)算,據(jù)此來獲得相應(yīng)的預(yù)測(cè)結(jié)果,并將排名結(jié)果較好的項(xiàng)目信息反饋給用戶,從而獲取高質(zhì)量推薦。由于協(xié)同過濾主要是根據(jù)用戶的歷史行為數(shù)據(jù)發(fā)掘偏好,因此它在推薦過程中產(chǎn)生的優(yōu)缺點(diǎn)也非常明顯,詳見表1。為解決數(shù)據(jù)稀疏等問題[20],廣大學(xué)者通過研究用戶矩陣對(duì)其進(jìn)行改進(jìn)[21],以緩解由于數(shù)據(jù)稀疏導(dǎo)致的推薦效果不佳等問題。
圖1 基于用戶相似的推薦
圖2 基于項(xiàng)目相似的推薦
基于內(nèi)容的推薦是一種極其經(jīng)典且重要的推薦方法,應(yīng)用較為廣泛[22],其原理就是通過對(duì)比目標(biāo)用戶的中意項(xiàng)目元數(shù)據(jù),根據(jù)內(nèi)容相似程度為目標(biāo)用戶產(chǎn)生新的推薦。例如常見購(gòu)物網(wǎng)站的“猜你喜歡”功能,便是使用基于內(nèi)容的推薦算法來為大家推薦感興趣的商品。在電子商務(wù)模式下,推薦系統(tǒng)會(huì)根據(jù)目標(biāo)用戶的興趣喜好來對(duì)商品的特征進(jìn)行提取,構(gòu)建一個(gè)用戶興趣特征向量,之后根據(jù)提取的特征值對(duì)商品進(jìn)行比對(duì),從而為目標(biāo)用戶推薦優(yōu)質(zhì)商品。雖然基于內(nèi)容的推薦原理簡(jiǎn)單,但與協(xié)同過濾相比,新項(xiàng)目“冷啟動(dòng)”[23]和“數(shù)據(jù)稀疏”[24]問題的緩解是其重要優(yōu)勢(shì)。另外一個(gè)優(yōu)勢(shì)就是用戶間的獨(dú)立性。因?yàn)槊總€(gè)用戶的興趣描述模型僅僅基于該用戶本身的經(jīng)歷,所以用戶之間不會(huì)相互影響[25],但同時(shí)也存在新用戶的冷啟動(dòng)以及無法處理其他類型數(shù)據(jù)等問題,詳見表1。
表1 傳統(tǒng)推薦算法分析比較表
混合推薦是通過組合多種推薦技術(shù)來解決各單體算法模型的不足。文獻(xiàn)[26]提出一種基于特征變換和概率矩陣分解的混合社交網(wǎng)絡(luò)推薦算法,該方法針對(duì)數(shù)據(jù)稀疏和冷啟動(dòng)問題,以概率矩陣因式分解方法作為框架,將社交網(wǎng)絡(luò)中用戶的信任特征作為推薦的有效依據(jù),其中各類特征值在推薦系統(tǒng)中所占權(quán)重還需研究改善。根據(jù)用戶需求和興趣特征,文獻(xiàn)[27]提出一種基于學(xué)習(xí)風(fēng)格和個(gè)性化的混合推薦策略,通過獲取學(xué)習(xí)者不同的學(xué)習(xí)興趣和風(fēng)格,對(duì)不同的學(xué)習(xí)風(fēng)格進(jìn)行聚類處理,使用關(guān)聯(lián)規(guī)則算法挖掘?qū)W習(xí)者的頻繁序列,對(duì)學(xué)習(xí)者的興趣進(jìn)行分析,最后通過評(píng)級(jí)來完成個(gè)性化推薦。該方法做出了個(gè)性化的推薦引導(dǎo),但對(duì)于如何準(zhǔn)確獲取學(xué)習(xí)者的特殊學(xué)習(xí)情況與需求,仍需更加深入地發(fā)現(xiàn)和獲取。文獻(xiàn)[28]針對(duì)新用戶冷啟動(dòng)問題較為嚴(yán)重的情況,提出一種綜合評(píng)分和對(duì)稀疏邊緣降噪以及矩陣模型分解相結(jié)合的混合推薦算法,以用來提高推薦精度并對(duì)冷啟動(dòng)問題做出相應(yīng)改善,但是冷啟動(dòng)問題依然存在,如何使用改善的混合方法模型去優(yōu)化推薦效果將會(huì)是下一個(gè)研究任務(wù)。文獻(xiàn)[29]總結(jié)了6 類混合推薦算法,分別是加權(quán)混合、交叉調(diào)和、特征混合、瀑布型混合、特征擴(kuò)充以及元模型混合推薦算法,但仍有更為針對(duì)性和特定條件下的混合算法等待研究者的發(fā)現(xiàn)。
所謂關(guān)聯(lián),即反映一個(gè)事件與其他事件存在一定程度上的依賴或者關(guān)聯(lián),并可以根據(jù)相關(guān)規(guī)則進(jìn)行預(yù)測(cè)。關(guān)聯(lián)規(guī)則[30]是一種使用較為廣泛的模式識(shí)別方法,例如購(gòu)物分析、網(wǎng)絡(luò)分析等,其中購(gòu)物分析典型的應(yīng)用場(chǎng)景就是在商場(chǎng)中找出共同購(gòu)買的集合。關(guān)聯(lián)規(guī)則用于表述數(shù)據(jù)內(nèi)隱含的關(guān)聯(lián)性,一般用三個(gè)指標(biāo)來衡量關(guān)聯(lián)規(guī)則,分別是置信度、支持度和提升度。支持度表示規(guī)則中兩者同時(shí)出現(xiàn)的概率,且無先后順序之分;置信度表示A 出現(xiàn),同時(shí)B 出現(xiàn)的概率;提升度描述了關(guān)聯(lián)規(guī)則中A 與B 的相關(guān)性。其定義分別如下所示:
定義1 設(shè)I={i1,i2,…,im}為所有項(xiàng)目的集合,設(shè)A是一個(gè)由項(xiàng)目構(gòu)成的集合,稱為項(xiàng)集,事務(wù)T 是一個(gè)項(xiàng)目子集,每個(gè)事務(wù)對(duì)應(yīng)項(xiàng)目上的一個(gè)子集,即T ?I 。關(guān)聯(lián)規(guī)則就是形如X ?Y 的邏輯蘊(yùn)含關(guān)系,其中X ?I,Y ?I 且X ∩Y=?。
定義2 支持度(Support),是指規(guī)則中A 與B 同時(shí)出現(xiàn)的概率,如果兩者同時(shí)出現(xiàn)的概率小,則關(guān)系不大,若同時(shí)出現(xiàn)的概率非常頻繁,則說明A、B 是相關(guān)的,即:
定義3 置信度(Confidence),展示當(dāng)A 出現(xiàn)時(shí)B 也會(huì)出現(xiàn)的概率,若置信度為100%,則AB 可以捆綁推出,否則將不考慮將AB 置為關(guān)系親密,即:
定義4 提升度(Lift),表示包含A 同時(shí)包含B 的比例,與包含B 的比例的比值。提升度大于1 且越高,正相關(guān)性越高,提升度小于1且越低則相反,即:
通常使用這三個(gè)指標(biāo)來對(duì)一個(gè)關(guān)聯(lián)規(guī)則進(jìn)行衡量,根據(jù)三個(gè)“度”篩選出滿足使用條件的關(guān)聯(lián)規(guī)則。特別的,滿足最小支持度和最小置信度的規(guī)則被稱為強(qiáng)關(guān)聯(lián)規(guī)則,此條件下如果提升度大于1則是有效的強(qiáng)關(guān)聯(lián)規(guī)則,提升度小于1則是無效的強(qiáng)關(guān)聯(lián)規(guī)則,提升度等于1則表示兩者相互獨(dú)立無關(guān)系。
數(shù)據(jù)挖掘指從大量數(shù)據(jù)中經(jīng)算法來搜索潛藏信息的過程[31],它是用來獲取關(guān)聯(lián)規(guī)則屬性篩選數(shù)據(jù)的一種重要方法,優(yōu)質(zhì)關(guān)聯(lián)屬性的獲取也為基于關(guān)聯(lián)規(guī)則推薦算法提供較好的基礎(chǔ)支撐。數(shù)據(jù)挖掘?qū)儆谝环N決策支持過程,主要基于人工智能、機(jī)器學(xué)習(xí)以及模式識(shí)別等,還可以與用戶或知識(shí)庫(kù)進(jìn)行交互。挖掘?qū)ο笠膊痪窒抻谀愁愋偷臄?shù)據(jù)源,可以是關(guān)系數(shù)據(jù)庫(kù),也可以是數(shù)據(jù)倉(cāng)庫(kù)、文本、多媒體數(shù)據(jù)等包含半結(jié)構(gòu)化數(shù)據(jù)甚至異構(gòu)性數(shù)據(jù)的數(shù)據(jù)源。
對(duì)數(shù)據(jù)挖掘[32]而言,其目的就是從源數(shù)據(jù)庫(kù)中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。最著名的算法是1993年Agrawal等人提出的Apriori算法[33],其算法思想是:首先找出頻繁性至少和預(yù)測(cè)最小支持度相同的所有頻集,然后由其產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,最小支持度和最小可信度是為發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則而預(yù)先設(shè)定的兩個(gè)閾值。文獻(xiàn)[34]對(duì)上述算法進(jìn)行優(yōu)化研究。文獻(xiàn)[35]針對(duì)挖掘效率的不足,提出一種基于時(shí)間戳和垂直格式的關(guān)聯(lián)規(guī)則挖掘算法,用于解決效率較低的問題。
關(guān)聯(lián)規(guī)則反映了事物之間的相互依賴性和關(guān)聯(lián)性,關(guān)聯(lián)規(guī)則技術(shù)則是將數(shù)據(jù)資料中產(chǎn)生的高關(guān)聯(lián)性項(xiàng)目組進(jìn)行收集處理,然后構(gòu)建起一定的規(guī)則。它本質(zhì)上是根據(jù)大量的數(shù)據(jù)來發(fā)現(xiàn)項(xiàng)與項(xiàng)之間存在的有趣而密切的相關(guān)關(guān)系,根據(jù)定義又可歸納為大于或等于最小支持度閾值和最小置信度閾值的規(guī)則,被稱作為強(qiáng)關(guān)聯(lián)規(guī)則,而關(guān)聯(lián)規(guī)則技術(shù)的最終目標(biāo)就是為了尋找強(qiáng)關(guān)聯(lián)規(guī)則并應(yīng)用它。具體步驟為:根據(jù)歷史記錄準(zhǔn)備數(shù)據(jù),計(jì)算項(xiàng)與項(xiàng)之間支持度、置信度以及提升度的主要指數(shù),隨之產(chǎn)生可信的有效關(guān)聯(lián)推薦。
在運(yùn)用關(guān)聯(lián)規(guī)則技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理的過程中,所處理的變量可分為布爾型和數(shù)值型。其中布爾型基本都是離散化和種類化的數(shù)據(jù),而這些恰恰可以反映出變量之間的關(guān)聯(lián)規(guī)則。例如在沃爾瑪購(gòu)物時(shí),首先使用關(guān)聯(lián)規(guī)則挖掘技術(shù)對(duì)交易資料庫(kù)中的數(shù)據(jù)進(jìn)行挖掘,并且設(shè)定Support 和Confidence 兩個(gè)最小閾值,符合需求的關(guān)聯(lián)規(guī)則應(yīng)同時(shí)滿足這兩個(gè)條件。例如經(jīng)過挖掘獲取了關(guān)聯(lián)規(guī)則「啤酒,尿布」,滿足兩個(gè)閾值后,便可以獲得「啤酒,尿布」的關(guān)聯(lián)規(guī)則,且該關(guān)聯(lián)規(guī)則行為將會(huì)被記錄,由此商品的推薦行為則根據(jù)相應(yīng)的關(guān)聯(lián)規(guī)則進(jìn)行。另外關(guān)聯(lián)規(guī)則技術(shù)對(duì)數(shù)據(jù)的處理分類除變量類別外,還有數(shù)據(jù)的抽象層數(shù)以及維數(shù)。
傳統(tǒng)推薦算法一般情況下并不會(huì)考慮兩者間被推薦前存在何種深層關(guān)系,推薦質(zhì)量的提升因此會(huì)受到一定影響,而基于關(guān)聯(lián)規(guī)則的推薦算法則可以發(fā)現(xiàn)被推薦物品兩者間的深層關(guān)系[36],將數(shù)據(jù)進(jìn)行歸類處理,并可以處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)等,準(zhǔn)確率也會(huì)隨著數(shù)據(jù)積累不斷提高[37]。本文將會(huì)圍繞關(guān)聯(lián)規(guī)則推薦算法在國(guó)內(nèi)外的研究現(xiàn)狀以及進(jìn)展,將數(shù)據(jù)的規(guī)則處理問題以變量類別、抽象層次、數(shù)據(jù)維度三個(gè)角度分析并應(yīng)用關(guān)聯(lián)規(guī)則技術(shù),從傳統(tǒng)推薦算法和社交網(wǎng)絡(luò)推薦[38]中尋找存在問題的解決辦法,并對(duì)研究方法進(jìn)行總結(jié)。
關(guān)聯(lián)規(guī)則處理數(shù)據(jù)的變量類別有布爾型和數(shù)值型兩種。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散化、種類化的,可以顯示變量之間的某種關(guān)系。而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理。例如:性別=“男”=>職業(yè)=“教師”,是布爾型關(guān)聯(lián)規(guī)則;性別=“男”=>age(年齡)=33,涉及的年齡是數(shù)值類型,因此是一個(gè)數(shù)值型關(guān)聯(lián)規(guī)則。數(shù)值型和布爾型的關(guān)聯(lián)規(guī)則在推薦過程中廣泛存在,例如非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域應(yīng)用的推薦以及電子商務(wù)推薦等。
推薦依靠的數(shù)據(jù)通常是根據(jù)目標(biāo)用戶的興趣偏好獲得,并通過與預(yù)測(cè)物品之間的數(shù)據(jù)分析匹配,從而完成基于內(nèi)容推薦的效果。該方法雖可以直接獲取推薦結(jié)果,但是由于方法簡(jiǎn)單,只考慮數(shù)據(jù)信息等問題,會(huì)導(dǎo)致推薦結(jié)果的多樣性下降,同時(shí)還伴隨著新用戶的冷啟動(dòng)問題。為解決冷啟動(dòng)問題,Osadchiy等人[39]建立了一種獨(dú)立于個(gè)人用戶興趣的集體偏好模型,該模型無需復(fù)雜過程進(jìn)行評(píng)分,而是通過成對(duì)的關(guān)聯(lián)規(guī)則標(biāo)準(zhǔn)來進(jìn)行推薦。實(shí)驗(yàn)表明了基于成對(duì)關(guān)聯(lián)規(guī)則的推薦在對(duì)抗冷啟動(dòng)問題上有較好的推薦效果。同時(shí),多媒體等非結(jié)構(gòu)化數(shù)據(jù)的處理在推薦過程中表現(xiàn)不佳,因此嘗試將數(shù)值型關(guān)聯(lián)規(guī)則技術(shù)融入其中,根據(jù)數(shù)據(jù)之間存在的相關(guān)規(guī)則對(duì)其進(jìn)行挖掘,通過相互的關(guān)聯(lián)特征進(jìn)行更為準(zhǔn)確的和高效的推薦。例如文獻(xiàn)[40]提出了一個(gè)智能音樂系統(tǒng),系統(tǒng)根據(jù)用戶先前的收聽模式風(fēng)格、當(dāng)前播放等數(shù)據(jù)內(nèi)容對(duì)用戶可能更喜歡聽的下一曲進(jìn)行預(yù)測(cè)。為了計(jì)算更精確的音樂相似性,文中使用關(guān)聯(lián)規(guī)則技術(shù)來挖掘發(fā)現(xiàn)用戶的收聽模式,從而進(jìn)行預(yù)測(cè)。伴隨音樂發(fā)現(xiàn)服務(wù),利用音樂收聽模式信息和音樂數(shù)據(jù)相似度來對(duì)新歌進(jìn)行推薦,研究結(jié)果充分展示了系統(tǒng)以及推薦效果的可行性。
伴隨著項(xiàng)目數(shù)據(jù)的不斷積累,稀疏性加劇,為使用關(guān)聯(lián)規(guī)則技術(shù)解決協(xié)同過濾的數(shù)據(jù)稀疏等問題,文獻(xiàn)[41]提出一種基于關(guān)聯(lián)規(guī)則的協(xié)同過濾改進(jìn)算法。針對(duì)由于協(xié)同過濾算法過分依賴用戶歷史數(shù)據(jù)集的交易數(shù)據(jù)而導(dǎo)致的數(shù)據(jù)稀疏性問題,該算法首先使用Apriori 算法將規(guī)則進(jìn)行拆分,得到一對(duì)一或者多對(duì)一形式的規(guī)則,在形成不同的關(guān)聯(lián)規(guī)則匹配方法后根據(jù)相似度閾值的大小選擇對(duì)應(yīng)的算法進(jìn)行推薦,將高評(píng)分項(xiàng)目推送給用戶。實(shí)驗(yàn)證明,基于關(guān)聯(lián)規(guī)則的協(xié)同過濾改進(jìn)算法在一定程度上緩解了數(shù)據(jù)稀疏性問題,提高了推薦精度,但是推薦作用的提升還需要取決于推薦項(xiàng)目之間的關(guān)聯(lián)性多少。因此發(fā)掘項(xiàng)目之間更多不同層次之間的關(guān)聯(lián)關(guān)系,匹配更多的關(guān)聯(lián)規(guī)則將會(huì)從另一個(gè)方向來提高推薦準(zhǔn)確性,變量類別推薦方法目前已被運(yùn)用到音樂推薦、電子商務(wù)等個(gè)性化推薦中,并取得了不錯(cuò)的成效。
基于變量類別的推薦方法,主要推薦機(jī)制是根據(jù)用戶對(duì)數(shù)據(jù)的使用情況,發(fā)掘用戶與數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。使用關(guān)聯(lián)規(guī)則算法對(duì)使用情況進(jìn)行預(yù)測(cè),對(duì)其獲取的關(guān)聯(lián)規(guī)則進(jìn)行拆分整合,并形成對(duì)應(yīng)的規(guī)則形式,在此基礎(chǔ)上根據(jù)對(duì)支持度、置信度的約束獲取推薦效果的改變。這樣的方法雖可以在一定程度上緩解傳統(tǒng)協(xié)同過濾算法中的數(shù)據(jù)稀疏和冷啟動(dòng)問題,但是只考慮用戶對(duì)數(shù)據(jù)的使用則會(huì)影響推薦的覆蓋面和準(zhǔn)確度。因此,將變量類別的關(guān)聯(lián)規(guī)則技術(shù)與傳統(tǒng)推薦算法相結(jié)合雖可以緩解經(jīng)典推薦問題,應(yīng)用于一些領(lǐng)域中進(jìn)行高效推薦,但在研究中仍需要更多考慮相關(guān)用戶及數(shù)據(jù)的潛在關(guān)聯(lián)內(nèi)容和規(guī)則特性,使其可以得到充分發(fā)掘,并據(jù)此進(jìn)行合理高質(zhì)量的推薦。
關(guān)聯(lián)規(guī)則中數(shù)據(jù)的抽象層次分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則,但是在單層關(guān)聯(lián)規(guī)則中所有變量未考慮它們的層次不盡相同,具體表現(xiàn)在協(xié)同過濾推薦中最重要的用戶與物品相似度關(guān)系。例如:聯(lián)想筆記本=>華為筆記本,是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;但計(jì)算機(jī)=>華為筆記本,是一個(gè)高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。
文獻(xiàn)[42]提出一種基于多層關(guān)聯(lián)規(guī)則的推薦算法,主要目的是為了解決當(dāng)下傳統(tǒng)推薦算法存在的數(shù)據(jù)稀疏性問題和可擴(kuò)展性問題。該算法通過挖掘多層關(guān)聯(lián)規(guī)則條件下用戶對(duì)商品的興趣偏好,對(duì)用戶建立預(yù)測(cè)模型。文章通過建立一套基于關(guān)聯(lián)規(guī)則的電商推薦系統(tǒng),將系統(tǒng)的規(guī)則挖掘分為兩個(gè)核心部分:一部分以多層關(guān)聯(lián)規(guī)則模型為基礎(chǔ)獲取可靠規(guī)則并寫入規(guī)則庫(kù);另一部分則是通過用戶的使用操作來實(shí)時(shí)產(chǎn)生推薦結(jié)果,并將結(jié)果以特定的形式反饋系統(tǒng)。實(shí)驗(yàn)證明,對(duì)比協(xié)同過濾推薦而言,多層關(guān)聯(lián)規(guī)則推薦有效地緩解了協(xié)同過濾中數(shù)據(jù)稀疏和可擴(kuò)展性的問題。
劉君強(qiáng)等人在文獻(xiàn)[43]中將關(guān)聯(lián)規(guī)則中的一種分類標(biāo)準(zhǔn)以單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則進(jìn)行劃分。其中單層關(guān)聯(lián)規(guī)則挖掘算法為經(jīng)典Apriori 算法,但在多層關(guān)聯(lián)規(guī)則中卻并不能較優(yōu)地使用,因此產(chǎn)生了針對(duì)于多層關(guān)聯(lián)規(guī)則的挖掘算法,但該方法無法對(duì)關(guān)聯(lián)規(guī)則進(jìn)行跨層挖掘。文章由此定義了一種跨層擴(kuò)展頻繁項(xiàng)目圖Clefig,并據(jù)此提出相應(yīng)算法用來高效地挖掘單層、多層特別是跨層之間的關(guān)聯(lián)規(guī)則。實(shí)驗(yàn)結(jié)果表明,該方法在多層、跨層以及支持率閾值較小的單層挖掘中有較大的算法優(yōu)勢(shì),并且可以進(jìn)一步推廣到數(shù)值型的跨層關(guān)聯(lián)規(guī)則挖掘中。
協(xié)同過濾推薦一般是依靠用戶評(píng)分和存在的大量歷史數(shù)據(jù)集,由此便會(huì)存在數(shù)據(jù)稀疏和冷啟動(dòng)問題?;谠擃悊栴},研究學(xué)者將關(guān)聯(lián)規(guī)則技術(shù)引入?yún)f(xié)同過濾推薦中,在協(xié)同過濾計(jì)算相似度的過程中加入了多層關(guān)聯(lián)規(guī)則推薦技術(shù),使得數(shù)據(jù)稀疏和冷啟動(dòng)問題得到一定程度上的緩解,并且增強(qiáng)推薦的拓展性。對(duì)于興趣相似度問題,文獻(xiàn)[44]就電影推薦提出了一種針對(duì)產(chǎn)品特征進(jìn)行Vague值提取與表示的方法,由于通常需要根據(jù)產(chǎn)品特征屬性的相似度對(duì)產(chǎn)品提前分類,因此又引入了產(chǎn)品分類樹的概念,經(jīng)過將產(chǎn)品分類樹、關(guān)聯(lián)規(guī)則、特征提取與相似度分析結(jié)合,得出了多樣化的推薦效果。實(shí)驗(yàn)結(jié)果表明,該方法與傳統(tǒng)推薦方法相比,無論在推薦精度還是推薦多樣性上都更為有效。通過研究發(fā)現(xiàn)[45],在基于內(nèi)容的推薦中使用抽象層次的關(guān)聯(lián)規(guī)則技術(shù)可以發(fā)掘物品之間存在的隱含關(guān)系,從而挑選大量高質(zhì)量的規(guī)則,并快速匹配用戶瀏覽記錄和關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù),提高關(guān)聯(lián)規(guī)則的推薦效率,以此來更好地為海量在線用戶形成實(shí)時(shí)推薦。
基于抽象層次的推薦機(jī)制主要是通過發(fā)現(xiàn)被推薦內(nèi)容之間更為隱含的不同層次知識(shí),并且根據(jù)發(fā)掘的用戶與物品的深層次偏好,通過相似度的計(jì)算來獲取更為優(yōu)質(zhì)的推薦內(nèi)容。但通常情況下,單一層次的規(guī)則結(jié)構(gòu)往往伴隨著準(zhǔn)確度不足等問題,因此更多的研究指向多層次的規(guī)則發(fā)現(xiàn),并由此獲取更為多樣的關(guān)聯(lián)規(guī)則,挖掘出隱藏于表層之下的豐富知識(shí),為用戶實(shí)現(xiàn)高質(zhì)量的信息推薦需求。綜上分析可知,基于抽象層次的關(guān)聯(lián)規(guī)則推薦,也可以有效地緩解由于數(shù)據(jù)稀疏、用戶相似度帶來的一系列問題,而且還能夠提高算法的可擴(kuò)展性和多樣性,對(duì)預(yù)測(cè)未評(píng)分待推薦的高質(zhì)量物品提供了一個(gè)全新的高效的展示平臺(tái)。相比于變量類別的方法,抽象層次的推薦方式將使得隱含知識(shí)和推薦內(nèi)容更為豐富。但是單一層次的規(guī)則化推薦對(duì)于推薦的準(zhǔn)確性仍力不從心,而多層規(guī)則的使用算法則需要繼續(xù)從數(shù)據(jù)挖掘精度和算法運(yùn)算速度等方面進(jìn)行改進(jìn),以此來獲取更高質(zhì)量的規(guī)則內(nèi)容和推薦效果,為實(shí)際的使用帶來更多的研究空間。
現(xiàn)實(shí)存在的大部分?jǐn)?shù)據(jù),例如商品購(gòu)置等通常只能涉及到一個(gè)維度的數(shù)據(jù)關(guān)聯(lián),在處理和推薦社交網(wǎng)絡(luò)等不同環(huán)境下多屬性和多維度的數(shù)據(jù)時(shí),關(guān)聯(lián)規(guī)則技術(shù)的優(yōu)勢(shì)就會(huì)凸顯。例如:性別=“女”=>職業(yè)=“醫(yī)生”=>年齡“28”=>愛好=“旅行”,這條規(guī)則就涉及到多種維度的各類字段信息,是幾個(gè)維度上的一條共同關(guān)聯(lián)規(guī)則。
王俊紅等人在文獻(xiàn)[46]中提出了一種基于多維概念格的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,目的是為了在引用多維數(shù)據(jù)序列對(duì)概念內(nèi)涵進(jìn)行不同維度描述的過程中,同時(shí)使用關(guān)聯(lián)規(guī)則提取方法,由此來發(fā)現(xiàn)最大頻繁多維數(shù)據(jù)序列與不同維度屬性數(shù)據(jù)之間的緊密關(guān)系。實(shí)驗(yàn)結(jié)果表明,在同樣的算法作用但不同的數(shù)據(jù)屬性背景下,獲取的規(guī)則也不盡相同,多維概念格所獲得的規(guī)則不單單描述了概念格之間的關(guān)系,也顯示了各不同屬性背景彼此之間的關(guān)系。因此,多維度的關(guān)聯(lián)規(guī)則更容易發(fā)現(xiàn)內(nèi)容豐富的高質(zhì)量信息。同時(shí)協(xié)同過濾算法在推薦過程中將用戶-項(xiàng)目評(píng)分矩陣作為數(shù)據(jù)的獲取來源,導(dǎo)致推薦時(shí)無法準(zhǔn)確發(fā)現(xiàn)用戶與項(xiàng)目屬性之間的關(guān)聯(lián)關(guān)系。黎丹雨等人在文獻(xiàn)[47]中提出了一種運(yùn)用于推薦算法系統(tǒng)的多層多維數(shù)據(jù)模型,該模型在挖掘數(shù)據(jù)多維序列之后輸出關(guān)聯(lián)規(guī)則,并用得到的關(guān)聯(lián)規(guī)則進(jìn)行評(píng)分矩陣的修改,從而對(duì)原有用戶與項(xiàng)目之間的關(guān)聯(lián)關(guān)系進(jìn)行多維改進(jìn)。實(shí)驗(yàn)結(jié)果表明,該模型對(duì)推薦系統(tǒng)的性能有較大的提升,由此證明用戶與物品屬性之間的多維規(guī)則對(duì)推薦系統(tǒng)的影響不容忽視,但該模型在挖掘多維關(guān)聯(lián)規(guī)則時(shí)由于“祖先”關(guān)系,會(huì)存在一定的冗余規(guī)則,如何更好地發(fā)現(xiàn)冗余規(guī)則仍需要探索研究。
通常社交網(wǎng)絡(luò)中產(chǎn)生的部分用戶數(shù)據(jù)都會(huì)是多維度下的一條關(guān)聯(lián)規(guī)則,基于社會(huì)網(wǎng)絡(luò)的推薦可以完美地模擬現(xiàn)實(shí),并且通過好友的推薦增加彼此信任度。由于移動(dòng)設(shè)備以及互聯(lián)網(wǎng)的興起,更多的人希望通過社交平臺(tái)來拓展自己的人際關(guān)系,但同樣社會(huì)化的推薦也存在一定的缺陷。例如由于不是根據(jù)共同興趣愛好而匹配在一起的好友,他們的興趣愛好也會(huì)不盡相同,導(dǎo)致算法的準(zhǔn)確率偏低,也存在數(shù)據(jù)稀疏等問題。于是將多維度的關(guān)聯(lián)規(guī)則技術(shù)融合進(jìn)社交化推薦當(dāng)中,用來保證推薦品質(zhì)。
部分學(xué)者通過分析社交網(wǎng)絡(luò)中的興趣類別推薦和交換差異數(shù)據(jù),運(yùn)用不同手段將關(guān)聯(lián)規(guī)則技術(shù)融合到社交網(wǎng)絡(luò)的推薦過程中,其中最重要的切入點(diǎn)就是興趣相似點(diǎn)的發(fā)掘和使用。文獻(xiàn)[48]提出了一種碎片信息相似度的計(jì)算方法,隨著信息方式的快速變化發(fā)展,長(zhǎng)文博客減少,傳播信息的主要方式變?yōu)橥ㄟ^碎片化進(jìn)行。但由于沒有上下文作為參考,使用句子相似度來判斷其是否為一類信息則是最為顯著和有效的辦法。相似度包含了多種維度的數(shù)據(jù)關(guān)聯(lián)屬性,根據(jù)多維數(shù)據(jù)條件下獲取的關(guān)聯(lián)規(guī)則便可以更為全面地匹配好友信息。胡文江等人[49]提出了一種基于關(guān)聯(lián)規(guī)則的社會(huì)網(wǎng)絡(luò)改進(jìn)好友推薦算法,利用關(guān)聯(lián)規(guī)則算法建立用戶關(guān)系矩陣,獲取關(guān)系矩陣下的多維關(guān)聯(lián)規(guī)則后計(jì)算并且排列結(jié)果,同時(shí)對(duì)用戶之間的友好關(guān)系以及用戶標(biāo)簽相似度進(jìn)行改進(jìn),以提高推薦效率,增加推薦權(quán)重。文獻(xiàn)[50]指出,用戶興趣是社交媒體分析的重要組成部分,而興趣則由多個(gè)不同維度屬性的數(shù)據(jù)構(gòu)成一個(gè)完整的用戶興趣數(shù)據(jù)集,作者通過對(duì)其捕捉和理解來發(fā)現(xiàn)社交媒體網(wǎng)站的獨(dú)立用戶通常屬于多個(gè)不同的興趣社區(qū),并且他們的興趣隨著時(shí)間而不斷變化。因此,建模和預(yù)測(cè)動(dòng)態(tài)用戶興趣,對(duì)社交媒體分析研究中的個(gè)性化推薦提出了一個(gè)巨大的挑戰(zhàn)。通過研究基于時(shí)間加權(quán)關(guān)聯(lián)規(guī)則挖掘的時(shí)間重疊社區(qū)檢測(cè)方法,提出了一種針對(duì)該研究問題的新穎解決方案,并使用Movie Lens 和Netflix 數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法在推薦精度和多樣性方面優(yōu)于幾種現(xiàn)有方法。
用戶社交網(wǎng)絡(luò)中產(chǎn)生的推薦對(duì)用戶可以快速匹配好友,使得好友圈子更加豐富,雖然在關(guān)聯(lián)規(guī)則技術(shù)的運(yùn)用下,多維社交化網(wǎng)絡(luò)的推薦日益成熟,但對(duì)于用戶使用而言,有關(guān)用戶隱私安全的保護(hù)[51]仍然是值得關(guān)注和解決的一個(gè)重要內(nèi)容。李學(xué)國(guó)等人[52]針對(duì)社交網(wǎng)絡(luò)中大量隱私數(shù)據(jù)的保護(hù)問題,提出了一個(gè)基于有損分解來保護(hù)隱私數(shù)據(jù)的策略,通過對(duì)數(shù)據(jù)特征重構(gòu)、分散存儲(chǔ)、隨機(jī)干擾、設(shè)置密碼保護(hù)等方式,將社交網(wǎng)絡(luò)隱私保護(hù)的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘工作進(jìn)行實(shí)現(xiàn)。黃海平等人[53]則從圖結(jié)構(gòu)入手,針對(duì)現(xiàn)在研究中對(duì)于社交網(wǎng)絡(luò)圖數(shù)據(jù)隱私保護(hù)采取無權(quán)值的方法做出改進(jìn),提出了一種基于非交互的差分隱私保護(hù)模型的帶權(quán)值的社交網(wǎng)絡(luò)圖擾動(dòng)方法。該方法通過添加擾動(dòng)噪音、根據(jù)權(quán)值將邊劃分等步驟,獲得較好的運(yùn)行效率和數(shù)據(jù)效用,從而有效保證了用戶數(shù)據(jù)的隱私安全,但該方法更適用于數(shù)據(jù)量較為龐大的社交網(wǎng)絡(luò)數(shù)據(jù)分析,具有一定局限性。
運(yùn)用處理數(shù)據(jù)維度較多的關(guān)聯(lián)規(guī)則技術(shù),主要是發(fā)掘更多的屬性特質(zhì),從而獲取更豐富的高質(zhì)量信息內(nèi)容。其一方面在社交網(wǎng)絡(luò)推薦的使用中能有效解決推薦時(shí)所產(chǎn)生的稀疏性問題,提高推薦精度,增加用戶興趣好友的獲取質(zhì)量,同時(shí)保證用戶的數(shù)據(jù)使用得到安全保障。另一方面相比于上文其他的兩種推薦方法,多維度數(shù)據(jù)屬性下的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)和使用,會(huì)發(fā)現(xiàn)更多用戶與項(xiàng)目屬性、項(xiàng)目與用戶屬性之間的豐富關(guān)聯(lián)關(guān)系和內(nèi)容知識(shí),這將極大地保證推薦效果的品質(zhì),提升推薦的多樣性,以及拓展更為便捷的推薦服務(wù)。如此,基于關(guān)聯(lián)規(guī)則的推薦方法將會(huì)以現(xiàn)有傳統(tǒng)推薦方法為基礎(chǔ),更好地完善推薦的種類、效果、覆蓋面以及豐富度。
但是數(shù)據(jù)維度推薦方法中同樣存在著一些重要的問題,例如單維度的規(guī)則并不會(huì)對(duì)更多的新內(nèi)容提供豐富的支持,因此推薦效果也會(huì)大打折扣;而多維度的關(guān)聯(lián)規(guī)則也并非最優(yōu)方法,還需從評(píng)分矩陣或用戶相似度方面著手改進(jìn),亦可將抽象層次和多維度數(shù)據(jù)進(jìn)行結(jié)合,構(gòu)建多層模型并融入多維數(shù)據(jù)序列,以尋求更為準(zhǔn)確和豐富的用戶推薦使用方法。
本文基于關(guān)聯(lián)規(guī)則中三種不同的推薦方法,通過分析和總結(jié)部分研究學(xué)者對(duì)關(guān)聯(lián)規(guī)則技術(shù)的運(yùn)用,來闡述關(guān)聯(lián)規(guī)則技術(shù)在推薦中可以解決的相關(guān)問題以及仍存在的相關(guān)問題,詳細(xì)優(yōu)缺點(diǎn)對(duì)比及相關(guān)內(nèi)容見表2。在推薦算法中使用關(guān)聯(lián)規(guī)則技術(shù),不僅僅可以更深入地發(fā)現(xiàn)被推薦內(nèi)容彼此之間的關(guān)聯(lián),并且對(duì)于傳統(tǒng)推薦算法消除存在的缺陷及其他問題的改進(jìn)都有一定程度的提升,但存在的部分問題也迫在眉睫,仍需要做出更多的研究和改進(jìn),以謀求對(duì)推薦結(jié)果準(zhǔn)確性的提升和豐富度的保證。
上述的三種基于關(guān)聯(lián)規(guī)則的推薦方法雖然在推薦過程中各具優(yōu)勢(shì),但是它們的局限性也是有目共睹的。第一,使用變量類別的推薦方法雖可以緩解傳統(tǒng)算法中的經(jīng)典問題并應(yīng)用于非結(jié)構(gòu)化個(gè)性推薦中,但其過分地依賴用戶歷史數(shù)據(jù)是一大問題,并且研究中發(fā)現(xiàn)僅使用簡(jiǎn)單的關(guān)聯(lián)規(guī)則算法獲取的成對(duì)規(guī)則效果單一,并沒有更豐富的屬性和關(guān)聯(lián),因此推薦效率不高,應(yīng)用范圍有限。第二,使用抽象層次推薦方法較上一類方法性能有所提升,并對(duì)算法的可擴(kuò)展性有所幫助,也可以發(fā)現(xiàn)物品之間的深層次隱含關(guān)系,但對(duì)于單層次規(guī)則和部分?jǐn)?shù)據(jù)屬性而言,它的局限性也較為明顯,例如單層次規(guī)則提取準(zhǔn)確度較低,從而導(dǎo)致推薦的精度下降,也存在由于無法正??鐚荧@取和處理內(nèi)容導(dǎo)致的推薦效果不佳,因此存在方法的局部使用局限性。第三,在數(shù)據(jù)維度推薦方法中,雖可以更好地執(zhí)行推薦,但單維規(guī)則不能較好地獲取新內(nèi)容中隱含的規(guī)則知識(shí)和屬性,同時(shí)用戶相似度和不同背景下發(fā)掘的海量屬性也會(huì)對(duì)推薦結(jié)果造成不小的影響,關(guān)聯(lián)屬性值的過多獲取對(duì)于推薦效果而言也并非多多益善,因此如何獲取有效的、關(guān)鍵的、非冗余的多維數(shù)據(jù)規(guī)則屬性將會(huì)是改變推薦效果局限性的主要辦法之一。
經(jīng)過幾十年的發(fā)展,推薦系統(tǒng)憑借其可以高效、獨(dú)特地為用戶獲取信息的特性,已成為諸多領(lǐng)域中不可或缺的重要因子,其研究已經(jīng)體現(xiàn)出了重大的社會(huì)價(jià)值、經(jīng)濟(jì)效益以及技術(shù)創(chuàng)新,同時(shí)對(duì)推薦技術(shù)不斷更新的研究也是現(xiàn)代社會(huì)用于有效解決信息科學(xué)的中心問題之一。盡管基于關(guān)聯(lián)規(guī)則的推薦算法在幾個(gè)方面已經(jīng)取得較好的研究成果,但其應(yīng)用研究在取得長(zhǎng)足發(fā)展的過程中仍然面臨著諸多的挑戰(zhàn)和新的難題,值得深入調(diào)研。
(1)基于關(guān)聯(lián)規(guī)則的推薦雖然可以較好地緩解數(shù)據(jù)稀疏性和冷啟動(dòng)的問題,但它們?nèi)詫⑹峭扑]算法的難題,雖使用了不同的方法去改進(jìn),但問題依然存在。如何通過抽取強(qiáng)規(guī)則來獲取用戶特征,提高推薦性能,挖掘多領(lǐng)域之間的復(fù)雜關(guān)系,并由此給出更好的推薦,將會(huì)是未來一個(gè)重要的研究方向。
(2)雖然基于關(guān)聯(lián)規(guī)則的推薦解決了許多傳統(tǒng)推薦算法的局限性難題,但是其性能評(píng)價(jià)標(biāo)準(zhǔn)以及可擴(kuò)展性問題,包括用戶對(duì)算法的敏感度、適應(yīng)度、優(yōu)化規(guī)則以及質(zhì)量效果都應(yīng)該成為研究的重要目標(biāo)和方向。
(3)當(dāng)前數(shù)據(jù)流在推薦算法運(yùn)行過程中普遍存在算法安全性較差和推薦精確度較低的情況,現(xiàn)對(duì)其安全性的主流研究主要通過對(duì)用戶使用的行為數(shù)據(jù)進(jìn)行分析和處理,以此來改善算法存在的問題。例如文獻(xiàn)[54]使用數(shù)據(jù)挖掘、頻繁項(xiàng)集等方式將用戶屬性內(nèi)容與蟻群算法進(jìn)行融合,將蟻群收斂路徑判斷為安全隱患路徑,并由此去除異常值,再根據(jù)挖掘算法獲取頻繁項(xiàng)集,基于頻繁項(xiàng)集計(jì)算用戶相似度,最終獲得最符合用戶使用的安全數(shù)據(jù)流。還有部分研究根據(jù)對(duì)用戶數(shù)據(jù)的擬合來對(duì)算法的安全性和推薦的準(zhǔn)確性做出相應(yīng)改善,但僅對(duì)用戶數(shù)據(jù)的屬性進(jìn)行分析仍存在著一定的研究局限性。因此保證算法更加安全可靠,從而為用戶提供高效準(zhǔn)確的推薦環(huán)境一直都是極其重要的研究方向。在改進(jìn)時(shí),可以從算法模型優(yōu)化、用戶的模糊聚類等方面進(jìn)行考慮,不過分地追求用戶屬性的詳細(xì)情況,使其通過更合適的聚類方式進(jìn)行相似度計(jì)算,為用戶獲取更準(zhǔn)確的數(shù)據(jù)流。還可以引入使用頻率較高的差分隱私機(jī)制數(shù)據(jù)保護(hù)方法,在推薦過程中保證數(shù)據(jù)流具有更高安全性的同時(shí),保證推薦結(jié)果高效和準(zhǔn)確。
表2 關(guān)聯(lián)規(guī)則技術(shù)處理的三種方式在推薦算法中的使用
(4)規(guī)則化數(shù)據(jù)在數(shù)值處理過程中會(huì)出現(xiàn)由于數(shù)值的離散化導(dǎo)致關(guān)鍵信息丟失的現(xiàn)象,從而影響關(guān)聯(lián)規(guī)則推薦的準(zhǔn)確性。過往主流研究通常通過平均數(shù)、中位數(shù)、隨機(jī)值等相關(guān)值或預(yù)測(cè)模型來獲取丟失的關(guān)鍵信息,對(duì)于更多的規(guī)則化數(shù)據(jù),則將其映射到高維空間進(jìn)行缺失值的處理,它會(huì)保留數(shù)據(jù)的原始全部信息,但同時(shí)也存在較大的缺陷,譬如計(jì)算量較大,并且需要在數(shù)據(jù)樣本規(guī)模較大時(shí)效果才顯著。在未來的對(duì)于數(shù)據(jù)處理時(shí)由于離散化導(dǎo)致關(guān)鍵信息丟失的研究中,可以從幾個(gè)方面來尋求改進(jìn)。例如為丟失數(shù)據(jù)信息引入?yún)^(qū)別于已有數(shù)據(jù)屬性值的特殊值對(duì)其進(jìn)行虛擬標(biāo)記,通過其獨(dú)特的表征來發(fā)現(xiàn)數(shù)值的缺失并進(jìn)行相應(yīng)的補(bǔ)全;或?qū)?shù)據(jù)使用過程中無關(guān)緊要的丟失值選擇性地忽略不處理;或根據(jù)歐式距離計(jì)算缺失數(shù)據(jù)值樣本周圍的k 個(gè)數(shù)據(jù),并通過k 個(gè)值的加權(quán)平均值來預(yù)測(cè)丟失值的具體內(nèi)容信息等方法,都將會(huì)在一定程度上保證對(duì)關(guān)鍵數(shù)據(jù)信息的獲取和保護(hù),從而提升推薦效果。
關(guān)聯(lián)規(guī)則及其相關(guān)研究已經(jīng)逐步從互聯(lián)網(wǎng)電子商務(wù)走向復(fù)雜程度更高的非結(jié)構(gòu)化數(shù)據(jù)等處理當(dāng)中,迎來更多新的研究方向?;陉P(guān)聯(lián)規(guī)則推薦算法的研究一直以來有著較大的科學(xué)研究?jī)r(jià)值和社會(huì)經(jīng)濟(jì)效益,備受應(yīng)用者與研究者的關(guān)注,學(xué)者們紛紛就基于關(guān)聯(lián)規(guī)則的推薦提出不同的見解和研究結(jié)果。本文通過不同的研究角度對(duì)基于關(guān)聯(lián)規(guī)則的推薦算法進(jìn)行了綜述,并總結(jié)和展望了發(fā)展趨勢(shì),以便更好地被研究使用以及進(jìn)一步提高推薦質(zhì)量,未來也將會(huì)有更為深入的研究?jī)?nèi)容等待著探索。