張春霽
摘要:為更好地改進(jìn)電子推薦系統(tǒng)課程教學(xué),本文從影響電子商務(wù)推薦質(zhì)量與效率的三個(gè)主要問(wèn)題:完整的基礎(chǔ)評(píng)價(jià)數(shù)據(jù)、準(zhǔn)確的推薦方法及適宜的計(jì)算復(fù)雜度展開評(píng)述,對(duì)目前國(guó)內(nèi)外參考文獻(xiàn)進(jìn)行梳理,闡述了針對(duì)這三個(gè)問(wèn)題的目前研究現(xiàn)狀及對(duì)策,并進(jìn)行了評(píng)析,同時(shí)指出了電子商務(wù)推薦的進(jìn)一步發(fā)展方向,為該課程的教學(xué)提供了更好的支撐。
關(guān)鍵詞:電子商務(wù)推薦課程;基于內(nèi)容推薦;協(xié)同過(guò)濾推薦;計(jì)算復(fù)雜度
中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2014)11-0160-02
電子商務(wù)推薦系統(tǒng)課程教學(xué)中,推薦瓶頸問(wèn)題是教學(xué)中的一個(gè)難點(diǎn),為此本文對(duì)推薦的瓶頸問(wèn)題展開綜述。在這個(gè)過(guò)程中基礎(chǔ)評(píng)價(jià)數(shù)據(jù)是否完整將影響到推薦系統(tǒng)是否能準(zhǔn)確地獲取用戶購(gòu)物偏好,推薦方法是否準(zhǔn)確將會(huì)影響推薦質(zhì)量與精度,基礎(chǔ)評(píng)價(jià)數(shù)據(jù)的分析處理及推薦方法的計(jì)算復(fù)雜度將會(huì)影響推薦系統(tǒng)的推薦效率和系統(tǒng)的擴(kuò)展性。
一、基礎(chǔ)評(píng)價(jià)數(shù)據(jù)的完整性研究現(xiàn)狀
推薦系統(tǒng)的基礎(chǔ)評(píng)價(jià)數(shù)據(jù)可分為顯性數(shù)據(jù)和隱性數(shù)據(jù)。顯性數(shù)據(jù)主要包括:用戶注冊(cè)信息、用戶對(duì)產(chǎn)品的顯性評(píng)分、用戶歷史交易記錄、用戶評(píng)論、產(chǎn)品關(guān)鍵字屬性等。隱性數(shù)據(jù)一般指通過(guò)Web數(shù)據(jù)挖掘技術(shù)獲得的數(shù)據(jù),完整的基礎(chǔ)數(shù)據(jù)可以使推薦系統(tǒng)更準(zhǔn)確地獲取用戶購(gòu)物偏好,從而提高推薦的準(zhǔn)確性。為保證數(shù)據(jù)完整性,國(guó)內(nèi)外學(xué)者通常采用數(shù)據(jù)補(bǔ)值和數(shù)據(jù)預(yù)測(cè)兩種處理方法。常見(jiàn)的數(shù)據(jù)補(bǔ)值方法有:Pazzani提出使用用戶個(gè)人社會(huì)屬性信息對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行補(bǔ)值,但是這種方法有可能會(huì)侵犯到個(gè)人社會(huì)信息的隱私。K.W.Cheung提出應(yīng)用Web數(shù)據(jù)挖掘?qū)Ψ?wù)器日志進(jìn)行數(shù)據(jù)分析,并在此基礎(chǔ)上提出了一種基于隱性評(píng)價(jià)數(shù)據(jù)的推薦方法,在此基礎(chǔ)上,李曉昀等提出了一種隱性數(shù)據(jù)的分析處理方法,詳細(xì)闡述建立用戶興趣模型的過(guò)程。D.R.Liu and Y.Y.Shih提出由RFM(最近購(gòu)買時(shí)間,購(gòu)買頻率,購(gòu)買金額)指標(biāo)來(lái)度量的客戶終身價(jià)值(CLV)可以讓商家發(fā)現(xiàn)更有價(jià)值的客戶,進(jìn)而提出一種基于客戶終身價(jià)值的推薦方法。常見(jiàn)的數(shù)據(jù)預(yù)測(cè)處理方法有:鄧愛(ài)林等提出根據(jù)產(chǎn)品之間的相似性來(lái)預(yù)測(cè)用戶對(duì)未評(píng)價(jià)產(chǎn)品的評(píng)價(jià)值。陳逸、于洪進(jìn)一步提出了相同評(píng)分矩陣的概念。M K Kavitha Devi提出對(duì)相似評(píng)分用戶進(jìn)行預(yù)聚類,基于聚類簇內(nèi)用戶的相似性對(duì)用戶未評(píng)分?jǐn)?shù)據(jù)進(jìn)行預(yù)測(cè)。
二、推薦方法研究現(xiàn)狀
在保證基礎(chǔ)數(shù)據(jù)完整的同時(shí),推薦系統(tǒng)推薦質(zhì)量的關(guān)鍵在于是否采用了合理的推薦方法。推薦系統(tǒng)的主流推薦方法分為:基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦、混合推薦算法、其他推薦算法等。
1.基于內(nèi)容推薦系統(tǒng)的研究?;趦?nèi)容的推薦通過(guò)分析并獲取用戶感興趣產(chǎn)品的特征作為用戶的購(gòu)物偏好,通過(guò)用戶特征偏好與產(chǎn)品特征的匹配程度,以實(shí)施推薦。孟憲福,陳莉提出采用貝葉斯理論對(duì)產(chǎn)品特征和用戶興趣特征進(jìn)行提取與表示,取得了較好的推薦效果。基于內(nèi)容的推薦目前遇到的最大挑戰(zhàn)有兩個(gè):一是只能為用戶發(fā)現(xiàn)與用戶原有興趣特征相匹配項(xiàng)目作推薦;二是如何對(duì)產(chǎn)品與用戶興趣特征進(jìn)行更準(zhǔn)確的提取?;趦?nèi)容的推薦需要準(zhǔn)確的用戶模板來(lái)描述用戶的偏好,否則推薦可能與用戶的興趣根本不相關(guān),所以資源特征的提取與表示及用戶偏好特征的提取與表示一直是其進(jìn)一步發(fā)展的瓶頸。
2.基于協(xié)同過(guò)濾推薦系統(tǒng)的研究。協(xié)同過(guò)濾推薦方法最早由Goldberg提出,其基本思想我們往往會(huì)利用好朋友的推薦來(lái)進(jìn)行一些選擇。即在具有相似購(gòu)物偏好的用戶之間進(jìn)行交叉推薦。目前經(jīng)典的協(xié)同過(guò)濾推薦算法有兩種:一種為基于內(nèi)存的協(xié)同過(guò)濾(memory-based collaborative filtering),另一種為基于模型的協(xié)同過(guò)濾(model-based collaborative filtering),其中神經(jīng)網(wǎng)絡(luò)技術(shù)、潛在語(yǔ)義檢索(latent semantic indexing)和貝葉斯網(wǎng)絡(luò)技術(shù)(bayesian networks)等是此類方法的典型代表,Breese認(rèn)為基于內(nèi)存的協(xié)同推薦比基于模型的協(xié)同推薦具有更好的推薦精度但計(jì)算復(fù)雜度要差很多。針對(duì)此問(wèn)題,Sarwar教授于2001年又提出了一種新的協(xié)同過(guò)濾推薦技術(shù),我們稱為基于項(xiàng)目的協(xié)同推薦(item-based collaborative filtering algorithms),Sawar教授同時(shí)在論文中指出了該推薦算法相對(duì)基于內(nèi)存推薦算法的優(yōu)勢(shì)。PREMM教授具有不同的觀點(diǎn),指出基于項(xiàng)目的協(xié)同過(guò)濾推薦算法準(zhǔn)確度與采用的實(shí)驗(yàn)規(guī)模數(shù)據(jù)有關(guān),大多數(shù)情況下還是基于用戶的協(xié)同過(guò)濾推薦好。協(xié)同過(guò)濾推薦會(huì)導(dǎo)致相似用戶的聚類效果不佳,從而產(chǎn)生稀疏性以及冷啟動(dòng)等問(wèn)題。協(xié)同過(guò)濾雖然取得了巨大成功,但受其原理所限,以下幾個(gè)缺點(diǎn)是影響其進(jìn)一步發(fā)展的瓶頸。(1)精確性(accuracy):即提高推薦系統(tǒng)的推薦質(zhì)量,用戶如果對(duì)推薦系統(tǒng)不信任,推薦的項(xiàng)目經(jīng)常不符合用戶需求,導(dǎo)致用戶亂投票的現(xiàn)象,評(píng)分不準(zhǔn)確導(dǎo)致推薦質(zhì)量進(jìn)一步下降,形成惡性循環(huán)。(2)稀疏性(sparstiy):隨著購(gòu)物網(wǎng)站產(chǎn)品與用戶數(shù)量的增長(zhǎng),用戶參與評(píng)分的項(xiàng)目通常是有限的,而且有些用戶因?yàn)楦鞣N原因不愿意留下評(píng)分?jǐn)?shù)據(jù)。有些購(gòu)物網(wǎng)站的評(píng)分記錄甚至只占需要評(píng)分項(xiàng)目的1%~2%,從而導(dǎo)致評(píng)分?jǐn)?shù)據(jù)的稀疏性問(wèn)題,評(píng)分值的稀疏會(huì)導(dǎo)致最近鄰居相似性聚類的不準(zhǔn)確,從而導(dǎo)致推薦質(zhì)量降低。(3)冷啟動(dòng)(coldstart):也稱為初始評(píng)價(jià)問(wèn)題,又分為新項(xiàng)目(newitem)問(wèn)題和新用戶(newuser)問(wèn)題。如果新產(chǎn)品剛剛上架,沒(méi)有任何用戶對(duì)其進(jìn)行評(píng)價(jià),即使它有很好的質(zhì)量,也不可能獲得推薦。同樣,如果一個(gè)新用戶剛剛注冊(cè),還沒(méi)有開始對(duì)任何產(chǎn)品進(jìn)行評(píng)價(jià),推薦系統(tǒng)也不可能獲得他的購(gòu)物興趣,也就無(wú)法對(duì)該用戶進(jìn)行推薦。這種現(xiàn)象在協(xié)同過(guò)濾推薦技術(shù)中尤其明顯。(4)擴(kuò)展性(scalabality):隨著用戶和產(chǎn)品數(shù)量的大幅度增加,數(shù)據(jù)的處理和計(jì)算也會(huì)成倍增長(zhǎng),對(duì)于如此巨大的計(jì)算量,算法將遭遇到嚴(yán)重的擴(kuò)展性問(wèn)題,導(dǎo)致推薦的效率也大幅度降低。endprint
3.混合推薦算法的研究。很多學(xué)者設(shè)想將這兩種推薦策略組合起來(lái),取長(zhǎng)補(bǔ)短,這也就是混合推薦算法的思想。依據(jù)不同的組合思路我們將研究人員提出的混合算法大致分為以下幾類:(1)混合集成:把來(lái)自不同推薦技術(shù)的推薦結(jié)果一起推薦給用戶,這種集成技術(shù)沒(méi)什么新意,目前采用的比較少。(2)加權(quán)集成:把不同推薦技術(shù)預(yù)測(cè)的推薦產(chǎn)品的分值按照不同推薦技術(shù)特點(diǎn)賦予不同的權(quán)重,然后再對(duì)待推薦產(chǎn)品的預(yù)測(cè)分值進(jìn)行加權(quán)求和,依據(jù)加權(quán)后的預(yù)測(cè)分值排序并實(shí)施推薦。(3)轉(zhuǎn)換集成:按照不同的推薦環(huán)境,選擇不同的推薦技術(shù)實(shí)施推薦,歸根結(jié)底還是使用其中的某一種推薦技術(shù)。(4)瀑布型集成:應(yīng)用一種推薦技術(shù)對(duì)另一種推薦技術(shù)的推薦結(jié)果實(shí)施優(yōu)化。這種方法可以過(guò)濾掉前一種推薦技術(shù)中不太好的推薦結(jié)果??梢允腔趦?nèi)容對(duì)協(xié)同過(guò)濾進(jìn)行優(yōu)化,也可以協(xié)同過(guò)濾對(duì)基于內(nèi)容推薦進(jìn)行優(yōu)化。(5)特征組合集成:把不同推薦技術(shù)的推薦結(jié)果混合后,使用一種推薦技術(shù)來(lái)處理,同瀑布型集成類似,該方法也是基于采用某種推薦技術(shù)對(duì)混合推薦結(jié)果進(jìn)行過(guò)濾的思想。(6)特征增值集成:把其中一種推薦技術(shù)的推薦輸出結(jié)果作為另一種推薦技術(shù)的輸入。Pazzani M,Billsus D等提出將幾種推薦方法的各自推薦結(jié)果進(jìn)行合并。Soboroff I,Good N,Melville P等提出可以以一種推薦方法主要推薦技術(shù),同時(shí)以另一種推薦技術(shù)為輔,并與主要推薦技術(shù)進(jìn)行融合。Ansari A提出直接將兩種推薦方法進(jìn)行有機(jī)集成,如將基于內(nèi)容和協(xié)同過(guò)濾的方法整合到一個(gè)統(tǒng)一的框架下,使其作為一種推薦算法實(shí)施推薦。以上不同的混合集成方法中,無(wú)論采用哪種混合集成策略,混合推薦的關(guān)鍵是如何發(fā)揮不同推薦技術(shù)的優(yōu)點(diǎn),并有機(jī)融合在一個(gè)完整的推薦框架內(nèi)。雖然混合推薦技術(shù)的初衷是進(jìn)行優(yōu)勢(shì)互補(bǔ),但實(shí)際應(yīng)用中卻有很大困難。同時(shí)有實(shí)驗(yàn)表明,混合推薦并不一定比單獨(dú)的某個(gè)推薦技術(shù)更好。同時(shí),由于混合了多種推薦技術(shù),增加了計(jì)算復(fù)雜度,在推薦效率上會(huì)有一定程度的降低。
4.其他推薦算法的研究。以上三種方法是推薦方法研究最熱點(diǎn)的領(lǐng)域,但在不同的應(yīng)用場(chǎng)景下也有一些其他的推薦算法取得了不錯(cuò)的成績(jī)。Burke R提出利用飯店的菜式方面的規(guī)則知識(shí)進(jìn)行基于知識(shí)的推薦?;陉P(guān)聯(lián)規(guī)則的推薦,以產(chǎn)品間關(guān)聯(lián)規(guī)則為基礎(chǔ),把已購(gòu)商品作為規(guī)則頭,推薦對(duì)象作為規(guī)則體。通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)項(xiàng)目之間潛在的聯(lián)系以實(shí)施連帶推薦。
三、計(jì)算復(fù)雜度研究現(xiàn)狀
隨著產(chǎn)品數(shù)量和用戶數(shù)量的擴(kuò)大,需要處理的基礎(chǔ)數(shù)據(jù)會(huì)成倍增加,基礎(chǔ)數(shù)據(jù)的處理會(huì)使推薦系統(tǒng)的計(jì)算復(fù)雜度成指數(shù)級(jí)增長(zhǎng),成為推薦系統(tǒng)推薦效率的瓶頸。為此國(guó)內(nèi)外學(xué)者也提出了很多方法以降低計(jì)算復(fù)雜度,推薦系統(tǒng)計(jì)算復(fù)雜性的降低可以分為:評(píng)價(jià)數(shù)據(jù)降維法、產(chǎn)品分類降維法、離線計(jì)算與在線推薦相結(jié)合法。
綜上所述,國(guó)內(nèi)外學(xué)者為保證電子商務(wù)推薦質(zhì)量和推薦效率從電子商務(wù)推薦的三個(gè)不同角度提出了很多經(jīng)典的推薦方法,每種方法在特定的領(lǐng)域和應(yīng)用環(huán)境下都取得了較好的效果,同時(shí)我們也可以看到?jīng)]有一種通用的推薦方法,在電子商務(wù)推薦系統(tǒng)教學(xué)中我們將會(huì)依據(jù)前期研究重點(diǎn)展開,更好地提高該課程的教學(xué)效果。
參考文獻(xiàn):
[1]余力,劉魯,羅掌華.我國(guó)電子商務(wù)推薦策略的比較分析[J].系統(tǒng)工程理論與實(shí)踐,2004,8(8):96-99.
[2]許海玲,吳瀟,李曉東.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.
[3]李聰.電子商務(wù)推薦系統(tǒng)中協(xié)同過(guò)濾瓶頸問(wèn)題研究[D].合肥:合肥工業(yè)大學(xué),2009.
[4]Pazzani.A framework for collaborative,content-based,and demographic filtering[J].Artificial Intelligence Review,1999,13(5-6):393-408.
[5] K.W. Cheung,J. T. K.,M.H. Law. ining customer product ratings for personalized marketing[J].Decision Support Systems,2003,(35):231-243.
[6]李曉鈞,陽(yáng)小華,余穎.基于隱性反饋分析的個(gè)性化推薦研究J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(16):3794-3796.
[7]D.R. Liu ,Y.Y.S.Hybrid approaches to product recommendation based on customer lifetime value and purchase preferencesJ].Journal of Systems and Software,2005,77(2):181-191.
[8]D.R.Liu,Y.Y.S.Integrating AHP and data mining for product recommendation based on customer lifetime value[J].Information & Management,2005,(42):387-400.
[9]鄧愛(ài)林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué),2003.
[10]Xue G,L.C,Yang Q,Xi W.Scalable collaborative filtering using cluster-based smoothing[C].Paper presented at:28th Annual International ACMSIGIR Conference on Research and Development in Information Retrieval(Salvador,Brazil).2005.
基金項(xiàng)目:本文系教育部人文社科青年項(xiàng)目(Grant NO.13YJC630195)的研究成果之一。endprint