国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

個(gè)性化學(xué)習(xí)資源推薦算法研究

2018-12-12 10:44衛(wèi)文婕付宇博
關(guān)鍵詞:奇異值分解

衛(wèi)文婕 付宇博

摘 要:互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展使得越來越多的學(xué)習(xí)者采取在線學(xué)習(xí)的方式獲取知識(shí),但是海量的網(wǎng)絡(luò)信息讓學(xué)習(xí)者很難及時(shí)有效地找到滿足自己需求的學(xué)習(xí)資源,因此,個(gè)性化學(xué)習(xí)資源推薦技術(shù)日益成為教育技術(shù)領(lǐng)域的研究熱點(diǎn)。文章針對(duì)教育技術(shù)領(lǐng)域常用的個(gè)性化學(xué)習(xí)資源推薦技術(shù)及算法做了綜述,主要介紹了基于內(nèi)容的推薦算法,基于協(xié)同過濾的推薦算法以及混合推薦算法,并對(duì)這些算法的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比總結(jié),最后分析了現(xiàn)有個(gè)性化學(xué)習(xí)資源推薦技術(shù)中可能存在的不足,以期為個(gè)性化學(xué)習(xí)推薦方面的研究提供參考。

關(guān)鍵詞:基于內(nèi)容的推薦;奇異值分解;基于用戶/項(xiàng)目的協(xié)同過濾推薦;混合推薦

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2018)18-0091-06

一、引言

近年來,基于互聯(lián)網(wǎng)的在線學(xué)習(xí)平臺(tái)越來越普及,依據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心頒布的報(bào)告,2017年在線學(xué)習(xí)用戶的規(guī)模已達(dá)1.44個(gè)億。隨之而來的問題是,大多數(shù)在線教育平臺(tái)為不同學(xué)習(xí)者提供的往往是相同的學(xué)習(xí)界面和學(xué)習(xí)資源,沒有充分考慮到個(gè)體間的差異提供針對(duì)性的學(xué)習(xí)資源。另一方面,學(xué)習(xí)者面對(duì)海量的數(shù)據(jù)信息,也很難快速有效地找到滿足自己需要的學(xué)習(xí)資源,甚至?xí)霈F(xiàn)認(rèn)知過負(fù)、迷航等問題[1]。所以,個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)日益受到教育領(lǐng)域?qū)<业年P(guān)注,并逐漸成為了教育技術(shù)領(lǐng)域的研究熱點(diǎn)。個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)就是在傳統(tǒng)網(wǎng)絡(luò)教育平臺(tái)的基礎(chǔ)上,加入個(gè)性化的思想理念,使得學(xué)習(xí)者在學(xué)習(xí)過程中可以擁有更大的針對(duì)性以及能動(dòng)性,并且能夠根據(jù)其背景知識(shí)水平、學(xué)習(xí)手段和風(fēng)格、興趣愛好以及學(xué)習(xí)需求,結(jié)合學(xué)習(xí)者當(dāng)前的認(rèn)知結(jié)構(gòu)以及學(xué)習(xí)能力,有針對(duì)性地給學(xué)習(xí)者提供滿足其偏好和需求的個(gè)性化學(xué)習(xí)資源,以此來激發(fā)他們的學(xué)習(xí)熱情,提高其學(xué)習(xí)積極性,讓學(xué)習(xí)者能夠自主高效地學(xué)習(xí),從而實(shí)現(xiàn)最好的學(xué)習(xí)效果[2]。

個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)就是在傳統(tǒng)的在線教育平臺(tái)的基礎(chǔ)之上,加入了個(gè)性化的思想理念,使得學(xué)習(xí)者在學(xué)習(xí)的過程中可以擁有更大的針對(duì)性與能動(dòng)性,并且能夠根據(jù)學(xué)習(xí)者的個(gè)性特征構(gòu)建學(xué)習(xí)者模型,從而有針對(duì)性地向?qū)W習(xí)者推薦學(xué)習(xí)資源[2]。個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)的建立需要有個(gè)性化學(xué)習(xí)資源推薦技術(shù)(算法)的支持,在現(xiàn)有的研究中,最常用的個(gè)性化學(xué)習(xí)資源推薦技術(shù)(算法)主要包括基于內(nèi)容(Content-based,簡稱CB)的推薦、基于協(xié)同過濾(Collaborative Filtering,簡稱CF)的推薦以及混合推薦(Hybrid Recommendation,簡稱HR)三種類型。

推薦技術(shù)的核心是算法,算法的使用能夠讓學(xué)習(xí)者快速高效地找到滿足自己需求及偏好的學(xué)習(xí)資源,提高學(xué)習(xí)效率。在個(gè)性化學(xué)習(xí)推薦系統(tǒng)中,每一種推薦技術(shù)(算法)都有其優(yōu)缺點(diǎn),單獨(dú)的一種技術(shù)很難實(shí)現(xiàn)最好的推薦效果,因此,在實(shí)際的應(yīng)用當(dāng)中,研究者通常會(huì)使用兩種或多種推薦技術(shù)混合的方式來實(shí)現(xiàn)更好的推薦效果[3],即混合推薦。個(gè)性化學(xué)習(xí)資源推薦技術(shù)的核心是算法,由于混合推薦大多是建立在基于內(nèi)容(CB)的推薦和基于協(xié)同過濾(CF)推薦的算法之上的混合策略,其基本的思想還是源于前兩者,因此,本文將重點(diǎn)介紹CB推薦和CF推薦及其常用算法,并就算法的優(yōu)缺點(diǎn)進(jìn)行比較分析和總結(jié),而對(duì)于混合推薦只做簡要論述。

二、基于內(nèi)容的推薦

基于內(nèi)容的推薦(CB)是最早被應(yīng)用的推薦方法,它是通過計(jì)算與學(xué)習(xí)者喜好程度較高的資源或項(xiàng)目(item)的相似度,來為其推薦與之喜好相同或相似的item [4]。由于CB推薦可以不依靠巨大的用戶群體或者是評(píng)分記錄來產(chǎn)生推薦列表,也即只有一個(gè)用戶(學(xué)習(xí)者)也能夠進(jìn)行推薦,因此實(shí)時(shí)性較好[5]。基于內(nèi)容(CB)的推薦流程一般可以分成三步:①項(xiàng)目表征(Item Representation):為每個(gè)學(xué)習(xí)資源抽取出一些特征來表示此項(xiàng)目(特征提?。?;②興趣建模(Profile Learning):根據(jù)學(xué)習(xí)者過去喜歡(以及不喜歡)的資源的特征數(shù)據(jù)來學(xué)習(xí)訓(xùn)練出其喜好特征(建立profile文件);③產(chǎn)生推薦(Recommendation Generation):通過比較上兩步得到的學(xué)習(xí)者的profile文件和候選資源的特征,為該學(xué)習(xí)者推薦一組相關(guān)性最大的資源[6]。CB推薦的過程如圖1所示。在基于內(nèi)容的推薦技術(shù)中,最常用的算法是向量空間模型(Vector Space Model, 簡稱VSM)算法。

向量空間模型是一種能夠簡單地把非結(jié)構(gòu)化的學(xué)習(xí)資源變成結(jié)構(gòu)化的內(nèi)容的方法,也是一個(gè)可以把文本內(nèi)容表示成數(shù)學(xué)向量的代數(shù)模型[7]。它能夠把對(duì)文本內(nèi)容的處理轉(zhuǎn)化成數(shù)學(xué)空間中的向量運(yùn)算,用數(shù)學(xué)空間上的相似度來表征語句含義的相似度,很直觀并且容易理解。VSM多用于文本類資源的推薦。

如給學(xué)習(xí)者推薦一篇喜歡的文章。假設(shè)已知學(xué)習(xí)者喜歡一篇文章j,利用VSM方法首先把該文章表示成一個(gè)多維向量,即aj=(W1,W2,…,Wn),其中Wi表示第i個(gè)詞在文章j中的權(quán)重。如果向量維數(shù)很多,計(jì)算起來會(huì)比較麻煩,因此需要降維處理,也就是特征提取,可以采用開方擬和檢驗(yàn)方法選出資源中較具代表性的特征詞來表示該資源,從而降低向量維數(shù)[8]。然后,需要計(jì)算特征詞的權(quán)重,最常用的計(jì)算權(quán)重的方法是信息檢索中的詞頻-逆文檔頻率(Term Frequency–Inverse Document Frequency,簡稱TF-IDF)[9]。計(jì)算完成后,我們得出學(xué)習(xí)者喜歡的文章aj=(ω1j,ω2j,…,ωmj)。給出一篇文章c,首先把文章c向量化并降維處理,得到c=(ω1c,ω2c,…,ωmc),判斷它是否是學(xué)習(xí)者喜歡的文章,就要計(jì)算文章c和aj的相似度,如果相似度很高的話,則可以認(rèn)為c也是學(xué)習(xí)者喜歡的文章。計(jì)算相似度可以用數(shù)學(xué)中的向量夾角余弦的計(jì)算公式[6]:

兩篇文章的相似度可以通過兩個(gè)多維空間向量的夾角余弦值來體現(xiàn),余弦值越大,就表示向量之間的夾角越小,也就表示文章的相似度也越高。

向量空間模型(VSM)的優(yōu)勢在于:它是基于線性代數(shù)的簡單模型,直觀易懂;可以在文本類的學(xué)習(xí)資源集之間計(jì)算出連續(xù)的相似度和關(guān)聯(lián)度,并按照關(guān)聯(lián)度對(duì)文檔集進(jìn)行排序,從而依次推薦給學(xué)習(xí)者。它的不足之處在于相似度的計(jì)算量較大,當(dāng)有新的文本加入文檔集時(shí),則需要重新計(jì)算全部詞組的權(quán)重及文本相似度;并且對(duì)語言的識(shí)別敏感度不佳,檢索的詞組必須和文檔中的詞組完全相同,無法進(jìn)行近義詞之間的關(guān)聯(lián)[7];另外,VSM算法是基于文本類的推薦,因此它的推薦結(jié)果的多樣性不足。針對(duì)VSM語言識(shí)別敏感度不佳的缺點(diǎn),相關(guān)專家對(duì)VSM進(jìn)行了擴(kuò)展和優(yōu)化,研究出潛在語義學(xué)模型[10]、潛在語義索引模型[11]等,極大提高了語言識(shí)別的效果。但因?yàn)镃B推薦多采用基于內(nèi)容相似度檢索以及基于概率的方法來產(chǎn)生推薦,所以它多用于文本類資源的推薦,對(duì)于視頻音頻等多媒體資源的推薦效果不是很好,即推薦的多樣化不足[3],于是有研究者提出了基于協(xié)同過濾的推薦算法[12]。由于CF算法是基于學(xué)習(xí)者對(duì)資源的評(píng)分矩陣進(jìn)行推薦的,與資源的形式和內(nèi)容沒有太大關(guān)系,因此CF算法能夠給學(xué)習(xí)者提供滿足其偏好及需求的更多樣化(如文本類、視頻音頻類等)的個(gè)性化學(xué)習(xí)資源。

三、基于協(xié)同過濾的推薦

協(xié)同過濾(CF)技術(shù)是根據(jù)用戶(學(xué)習(xí)者)對(duì)資源的評(píng)分矩陣,利用相似度算法找到待測(目標(biāo))資源或用戶的最近“鄰居”,根據(jù)鄰居用戶或鄰居資源來預(yù)測未評(píng)分的目標(biāo)資源,通過預(yù)測結(jié)果為學(xué)習(xí)者提供較準(zhǔn)確的個(gè)性化推薦[13]。CF推薦技術(shù)根據(jù)算法運(yùn)行期間需要用到的數(shù)據(jù)的差異可以分為基于內(nèi)存的協(xié)同過濾(Memory-Based CF)和基于模型的協(xié)同過濾(Model-Based CF)?;趦?nèi)存的協(xié)同過濾又可以細(xì)分為兩類:基于用戶的協(xié)同過濾(User-based CF)和基于項(xiàng)目的協(xié)同過濾(Item-based CF)[14]。協(xié)同過濾技術(shù)(算法)是個(gè)性學(xué)習(xí)化推薦領(lǐng)域目前研究較多并且也是最成熟的推薦技術(shù),它的應(yīng)用廣泛,推薦的效率及精確性也比較高。

1.基于內(nèi)存的協(xié)同過濾

(1)基于用戶的協(xié)同過濾

基于用戶的協(xié)同過濾(UB-CF)算法的核心思想是:首先收集用戶信息,包括用戶注冊(cè)信息(年齡、性別、興趣愛好、知識(shí)水平等)和用戶評(píng)分記錄,算法根據(jù)用戶(學(xué)習(xí)者)的注冊(cè)信息可以生成用戶模型,利用學(xué)習(xí)者對(duì)資源的評(píng)價(jià)記錄來構(gòu)建評(píng)分矩陣[4];再根據(jù)評(píng)分矩陣并使用相似度算法計(jì)算出學(xué)習(xí)者之間的相似度,形成最近“鄰居”用戶集合;最后利用最近鄰居用戶的評(píng)分記錄來預(yù)測目標(biāo)(待推薦)用戶對(duì)學(xué)習(xí)資源的評(píng)分,并基于評(píng)分的高低來判斷目標(biāo)用戶對(duì)學(xué)習(xí)資源的喜好程度,從而實(shí)現(xiàn)推薦[15]。UB-CF算法采用的是“相似的用戶對(duì)學(xué)習(xí)資源的評(píng)分也是相似的”這樣的一種思想,它的詳細(xì)步驟為:

公式2中,Si、Sj分別表示的是學(xué)習(xí)者i和j的資源評(píng)分集合,Si,j=Si∩Sj表示的是學(xué)習(xí)者i和j共同評(píng)過分的學(xué)習(xí)資源集合,Ris、Rjs分別表示的是學(xué)習(xí)者i和j對(duì)學(xué)習(xí)資源s的評(píng)分,i、j表示學(xué)習(xí)者i和j對(duì)學(xué)習(xí)資源評(píng)分的平均值。

上文的余弦相似度算法對(duì)于絕對(duì)的數(shù)值不是特別敏感,它更多的是從方向上來進(jìn)行差異的比較和分析,因此不能較精確地衡量數(shù)值之間的差異[16]。而改進(jìn)后的余弦相似度算法減去了用戶對(duì)學(xué)習(xí)資源的平均評(píng)分,并且考慮到了用戶共同評(píng)過分的資源集合,以此來改善因?yàn)椴煌瑢W(xué)習(xí)者的評(píng)分標(biāo)準(zhǔn)而產(chǎn)生的結(jié)果的誤差。

相似度計(jì)算完成之后,會(huì)得到一個(gè)和待推薦(目標(biāo))學(xué)習(xí)者相似度較高的學(xué)習(xí)者用戶集合,選擇合適的閾值m,確定待推薦學(xué)習(xí)者的最近鄰學(xué)習(xí)者用戶集合為Um= {u1,u2,…ul…um}。

最后產(chǎn)生推薦。得到了目標(biāo)用戶的最近鄰用戶集合Um之后,可以通過對(duì)Um進(jìn)行加權(quán)來預(yù)測目標(biāo)(待推薦)學(xué)習(xí)者o對(duì)學(xué)習(xí)資源t的評(píng)分Rot:[15]

Rot=+公式3

公式3中,、分別代表的是學(xué)習(xí)者o和j對(duì)學(xué)習(xí)資源的平均評(píng)分, Sim(o,j)代表的是學(xué)習(xí)者o和j的相似度,Rjt代表的是學(xué)習(xí)者j對(duì)學(xué)習(xí)資源t的評(píng)分。得到了學(xué)習(xí)者對(duì)不同學(xué)習(xí)資源的預(yù)測得分之后,選取評(píng)分值最高且不在學(xué)習(xí)者已經(jīng)評(píng)過分的資源集合中的前N個(gè)項(xiàng)目作為Top-N推薦集,為學(xué)習(xí)者進(jìn)行推薦。

基于用戶的協(xié)同過濾算法依據(jù)學(xué)習(xí)者(用戶)對(duì)學(xué)習(xí)資源的評(píng)分矩陣得到學(xué)習(xí)者之間的相似度,其推薦結(jié)果相對(duì)準(zhǔn)確且形式比較多樣化,另外它還能夠發(fā)現(xiàn)目標(biāo)學(xué)習(xí)者潛在的新興趣。但同時(shí)UB-CF也存在著一些不足之處,比如用戶資源評(píng)分矩陣的數(shù)據(jù)稀疏性與系統(tǒng)的擴(kuò)展性等問題[14]。

(2)基于項(xiàng)目的協(xié)同過濾

基于項(xiàng)目的協(xié)同過濾(IB-CF)和基于用戶的協(xié)同過濾的算法思想基本相同,核心都是計(jì)算最近鄰居集合及生成推薦列表。區(qū)別是IB-CF算法中最近鄰居集合的確定依據(jù)是項(xiàng)目(學(xué)習(xí)資源)之間的相似度。IB-CF技術(shù)基于的是“學(xué)習(xí)者對(duì)于相似的資源(項(xiàng)目),評(píng)分也是相似的”這樣的一種思想,詳細(xì)步驟為:

首先,收集用戶(學(xué)習(xí)者)信息以及對(duì)每個(gè)資源項(xiàng)目有過評(píng)分的學(xué)習(xí)者,構(gòu)建項(xiàng)目—學(xué)習(xí)者的二維評(píng)分矩陣。

第二,通過評(píng)分矩陣計(jì)算目標(biāo)資源t和用戶已經(jīng)評(píng)價(jià)過的資源之間的相似度,計(jì)算公式可以利用公式2,不過i和j表示的應(yīng)是資源(項(xiàng)目),S表示的是用戶集合。然后根據(jù)相似度計(jì)算的結(jié)果和用戶模型(知識(shí)水平、興趣以及歷史行為數(shù)據(jù))來選擇k個(gè)與已被評(píng)價(jià)過的資源最相似的item組成目標(biāo)項(xiàng)目t的最近鄰項(xiàng)目集合Tk={t1,t2,…,tk }。

第三,產(chǎn)生推薦。最后將用戶u對(duì)Tk的評(píng)分及相似度Sim的加權(quán)平均值作為對(duì)目標(biāo)學(xué)習(xí)資源t的預(yù)測評(píng)分Put[15]。根據(jù)計(jì)算得出的預(yù)測評(píng)分值的高低來判斷是否推薦給學(xué)習(xí)者。

Put=公式4

公式4中,S(t,n)代表的是項(xiàng)目t和項(xiàng)目n的相似度,Run代表的是用戶u對(duì)鄰居集合中學(xué)習(xí)資源的評(píng)分值,Tk代表的是待推薦項(xiàng)目t的鄰居集合。

在基于項(xiàng)目的協(xié)同過濾推薦中,因?yàn)楦鱾€(gè)學(xué)習(xí)資源之間的相似度比較固定,因此可以把各個(gè)項(xiàng)目之間的相似度放在線下計(jì)算,這樣就能夠節(jié)省計(jì)算時(shí)間,進(jìn)而可以在一定程度上保證推薦的實(shí)時(shí)性。IB-CF的局限性在于冷啟動(dòng)問題較嚴(yán)重[17],即它只能對(duì)系統(tǒng)中已經(jīng)有信息或者評(píng)分的用戶和資源進(jìn)行推薦或是被推薦,而對(duì)于新用戶或資源則無法進(jìn)行。

2.基于模型的協(xié)同過濾

基于模型的協(xié)同過濾推薦技術(shù)是依據(jù)學(xué)習(xí)者的興趣愛好、學(xué)習(xí)需求、背景知識(shí)、歷史行為等,利用數(shù)據(jù)挖掘或者是機(jī)器學(xué)習(xí)的算法從獲取到的數(shù)據(jù)中訓(xùn)練出一個(gè)學(xué)習(xí)者模型,然后根據(jù)這個(gè)模型對(duì)學(xué)習(xí)資源的評(píng)分進(jìn)行預(yù)測,進(jìn)而產(chǎn)生推薦[18]。一般模型的建立速度會(huì)比較慢,但是一旦模型訓(xùn)練成功,進(jìn)行預(yù)測的速度會(huì)很快[14]。在模型建立的過程中,當(dāng)出現(xiàn)維數(shù)較多的信息矩陣時(shí),計(jì)算起來會(huì)很麻煩,因此降維算法是基于模型的協(xié)同過濾中最重要的算法之一。所以,接下來詳細(xì)介紹一種Model-based CF中常用的降維算法:奇異值分解(Singular Value Decomposition,簡稱SVD)算法。

2000年,Sarwar為了改善用戶評(píng)分矩陣中的數(shù)據(jù)稀疏問題提出了SVD算法[19]。SVD是一種降低維度的協(xié)同過濾算法,是一種有效的特征提取方法,它利用學(xué)習(xí)者(用戶)與資源之間的潛在關(guān)系,通過去除一些沒有代表性的或者不重要的用戶或者學(xué)習(xí)資源來對(duì)初始的評(píng)分矩陣進(jìn)行奇異值分解,并提取一些本質(zhì)特征,從而實(shí)現(xiàn)對(duì)初始矩陣的降維處理。

SVD是線性代數(shù)中的一種矩陣分解技術(shù),它揭示的是矩陣的內(nèi)部結(jié)構(gòu)。SVD可以將一個(gè)m×n的矩陣R分解為U、S、V[20], U是m×n的正交矩陣(UUT=1),V是n×n的正交矩陣(VVT=1),S是m×n的矩陣,且R=U×S×VT[21],其中U、S、V的計(jì)算步驟為:①計(jì)算S。首先,計(jì)算RT和RT R(RT是R的轉(zhuǎn)置矩陣,即把R的行換成相應(yīng)的列),然后計(jì)算RT R的特征值,再把特征值進(jìn)行排序然后開方,由此就得到了S。②計(jì)算V和VT。利用RT R的特征值來計(jì)算特征向量,而V就是特征向量的組合集合。③計(jì)算U。R=USVT,RV=USVT V=US,RVS-1=USS-1=U,U=RVS-1。

用SVD將矩陣R分解成U、S、V以后,如果只保留前k個(gè)最大的奇異值,也就是把U、S、V變成Uk、Sk、Vk,那么就實(shí)現(xiàn)了對(duì)矩陣降維的目的。

SVD算法的優(yōu)勢是通過對(duì)矩陣的降維,極大地減少了運(yùn)算量,在一定程度上提高了推薦系統(tǒng)的擴(kuò)展性,而且較好地改善了協(xié)同過濾推薦中用戶—學(xué)習(xí)資源(項(xiàng)目)評(píng)分矩陣中的數(shù)據(jù)稀疏問題[22]。它的不足之處是在降低維度時(shí),k值的選取較困難:如果k值過大,降維的意義就不大了,而如果k值過小,則可能會(huì)丟失原矩陣中比較重要的有用信息[23]。

綜上所述,對(duì)基于內(nèi)存的協(xié)同過濾和基于模型的協(xié)同過濾的總結(jié)對(duì)比如表1所示。

四、基于內(nèi)容的推薦和基于協(xié)同過濾推薦的比較

綜上所述,無論是基于內(nèi)容的推薦算法,還是基于協(xié)同過濾的推薦算法,都存在一定的優(yōu)勢和不足,這兩類算法的優(yōu)缺點(diǎn)對(duì)比總結(jié)如表2所示。

CB推薦和基于內(nèi)存的CF推薦的相同點(diǎn)是都采用統(tǒng)計(jì)學(xué)的方法,通過計(jì)算用戶之間或資源之間的相似度來進(jìn)行推薦,核心任務(wù)都是相似度的計(jì)算。不同的是CB推薦的相似度計(jì)算是根據(jù)資源的屬性向量來計(jì)算的,而基于內(nèi)存的CF推薦是利用用戶對(duì)資源的評(píng)分矩陣計(jì)算的。另外,基于內(nèi)容推薦的優(yōu)勢在于它的推薦結(jié)果直觀易懂,而且覆蓋率較高,實(shí)時(shí)性好;缺點(diǎn)是推薦形式多限于文本類資源,多樣性不足,且相似度計(jì)算量太大,當(dāng)有新的文本加入學(xué)習(xí)資源文檔集時(shí),相似度就需要重新進(jìn)行計(jì)算。基于內(nèi)存的CF推薦是基于用戶對(duì)資源的評(píng)分矩陣來計(jì)算相似度并進(jìn)行推薦的,與資源的形式無關(guān),因此推薦結(jié)果的形式更多樣化;基于模型的協(xié)同過濾推薦可以使用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的算法基于學(xué)習(xí)者的個(gè)性化特征為其構(gòu)建專屬的用戶模型,然后根據(jù)用戶模型為學(xué)習(xí)者進(jìn)行資源推薦,因此,CF推薦的資源個(gè)性化和自動(dòng)化程度相對(duì)較高,但用戶模型建立的難度比較大,并且存在冷啟動(dòng)問題,即當(dāng)有新的學(xué)習(xí)者或資源加入系統(tǒng)時(shí),沒有足夠的數(shù)據(jù)來對(duì)其進(jìn)行推薦或被推薦。

五、混合推薦策略

在個(gè)性化學(xué)習(xí)推薦系統(tǒng)中,各種推薦技術(shù)中的算法都有其優(yōu)缺點(diǎn),單獨(dú)的一種技術(shù)很難實(shí)現(xiàn)最好的推薦效果,因此在實(shí)際應(yīng)用中,研究者通常會(huì)采用兩種或兩種以上推薦技術(shù)混合的方式來綜合各種推薦技術(shù)的長處,為用戶提供更加快速精確的學(xué)習(xí)資源推薦,從而實(shí)現(xiàn)更好的推薦效果。Burke在論述了幾種混合推薦的方法,包括加權(quán)、切換、級(jí)聯(lián)、特征增強(qiáng)以及元級(jí)。[24]

1.加權(quán)(Weighted)

系統(tǒng)綜合采用多種推薦算法對(duì)同一資源進(jìn)行評(píng)分,并把這些評(píng)分按照一定的規(guī)則加權(quán)處理,得到一個(gè)總分?jǐn)?shù),根據(jù)這個(gè)總分來判斷是否進(jìn)行推薦。最簡單的加權(quán)混合推薦策略就是把由多種推薦技術(shù)(算法)得到的幾個(gè)評(píng)分進(jìn)行有權(quán)重的線性組合。加權(quán)混合推薦的好處是系統(tǒng)的推薦能力可以用一個(gè)直觀的方式呈現(xiàn),并且可以根據(jù)學(xué)習(xí)者對(duì)推薦資源的反饋評(píng)價(jià)來調(diào)整權(quán)重的分配,從而不斷改善混合策略的推薦效果。

2.切換(Switching)

資源推薦系統(tǒng)同時(shí)提供多種推薦技術(shù),在推薦過程中,根據(jù)不同學(xué)習(xí)者的需求,采用一些特定的標(biāo)準(zhǔn)來變換不同的推薦方法以達(dá)到最好的推薦結(jié)果。該策略的優(yōu)勢是系統(tǒng)對(duì)各個(gè)推薦技術(shù)的優(yōu)缺點(diǎn)很敏感,可以根據(jù)不同情況及時(shí)切換推薦技術(shù),但不足是切換標(biāo)準(zhǔn)的制定為推薦過程帶來了額外的復(fù)雜性,增加了系統(tǒng)的負(fù)擔(dān)。

3.級(jí)聯(lián)(Cascade)

在級(jí)聯(lián)混合策略中,系統(tǒng)會(huì)根據(jù)推薦技術(shù)的優(yōu)先級(jí)先采用某一種推薦技術(shù)(優(yōu)先級(jí)較高)給出一個(gè)粗略的推薦結(jié)果,然后再使用另外一種推薦技術(shù)(算法)在這個(gè)推薦結(jié)果的基礎(chǔ)上進(jìn)行更細(xì)致準(zhǔn)確的處理,進(jìn)而產(chǎn)生更精確的推薦結(jié)果。由于級(jí)聯(lián)是分階段的推薦,第二步的推薦技術(shù)是在第一步的基礎(chǔ)上進(jìn)行的,因此只需要應(yīng)用于部分資源即可,所以它比將所有技術(shù)應(yīng)用于所有項(xiàng)目的加權(quán)混合更高效。

4.特征增強(qiáng)(Feature Augmentation)

首先使用一種推薦技術(shù)(算法)將源資源數(shù)據(jù)經(jīng)過處理輸出特征結(jié)果,然后將該結(jié)果作為下一個(gè)推薦技術(shù)的輸入。特征增強(qiáng)技術(shù)提供了一種在不修改核心系統(tǒng)的條件下改進(jìn)系統(tǒng)性能的的方法。

5.元級(jí)(Meta-level)

組合兩種推薦技術(shù),將一種推薦技術(shù)產(chǎn)生的模型作為另一種推薦技術(shù)的輸入。元級(jí)和特征增強(qiáng)有些類似,都是把一種技術(shù)的輸出作為另一種技術(shù)的輸入,但不同的是,在特征增強(qiáng)混合中,輸入第二種技術(shù)的是特征結(jié)果;而在元級(jí)混合中,輸入第二種技術(shù)的是整個(gè)模型。元級(jí)方法的優(yōu)勢在于推薦技術(shù)作用于數(shù)據(jù)信息密集的模型上要比作用于原始評(píng)分?jǐn)?shù)據(jù)更容易,且推薦結(jié)果也會(huì)相對(duì)更個(gè)性化更準(zhǔn)確。

在個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)中,最常用也是最基本的推薦技術(shù)就是基于內(nèi)容的推薦和基于協(xié)同過濾的推薦,因此,大多數(shù)的混合推薦策略都是基于這兩種技術(shù)來實(shí)現(xiàn)更好的推薦效果。需要注意的是,為了最優(yōu)化推薦效果,混合推薦中的算法都需要調(diào)整到最優(yōu)化狀態(tài)。

六、結(jié)束語

本文圍繞個(gè)性化學(xué)習(xí)資源推薦這一主題,重點(diǎn)闡述了兩大類學(xué)習(xí)資源推薦技術(shù)的代表算法,并對(duì)比分析了各類算法的優(yōu)缺點(diǎn)。此外還簡要論述了混合推薦中常用的組合策略,并對(duì)各類混合策略的優(yōu)缺點(diǎn)進(jìn)行了簡單的分析和總結(jié)。雖然個(gè)性化學(xué)習(xí)資源的推薦已經(jīng)成為教育領(lǐng)域的研究熱點(diǎn),但仍然存在一些問題有待進(jìn)一步的研究和優(yōu)化。比如,如何保證推薦的實(shí)時(shí)性和準(zhǔn)確性的平衡,混合推薦中如何有效地分配各類算法的權(quán)重;以及模型建立問題、冷啟動(dòng)問題等。隨著機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究越來越成熟,未來預(yù)計(jì)將會(huì)有更多的機(jī)器學(xué)習(xí)算法被運(yùn)用到學(xué)習(xí)資源推薦中來,從而進(jìn)一步提高推薦結(jié)果的精確性以及個(gè)性化程度,并使學(xué)習(xí)者可以快速高效地獲取所需知識(shí),提高學(xué)習(xí)效率。

參考文獻(xiàn):

[1]Eppler MJ,Mengis J. The Concept of Information Overload - A Review of Literature from Organization Science, Accounting , Marketing , MIS, and Related Disciplines[J]. Journal of Academic Librarianship,2008,38(1):325-344.

[2]樊麗.基于Web日志挖掘的學(xué)習(xí)資源個(gè)性化推薦方法研究[D].長春:吉林大學(xué),2012.

[3]李娜.基于混合協(xié)同過濾的用戶在線學(xué)習(xí)資源系統(tǒng)個(gè)性化推薦方法研究[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2015,18(2):1-2.

[4]王凱.支持個(gè)性化學(xué)習(xí)資源推薦的在線輔助學(xué)習(xí)系統(tǒng)的研究與設(shè)計(jì)[D].西安:陜西師范大學(xué),2014.

[5]蒲彬.個(gè)性化推薦系統(tǒng)研究綜述[J].現(xiàn)代職業(yè)教育,2016(23):36-137.

[6]李連,朱愛紅,蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):282-284.

[7]維基百科.向量空間模型[DB/OL ].https://zh.wikipedia. org/wiki/向量空間模型.

[8]William_Fu_Z.向量空間模型(VSM)算法——一種簡單的文本相似度算法.新浪博客[EB/OL].http://blog.sina.com.cn/s/blog_a1304cff0101aj29.html.

[9]張振峰.基于向量空間模型的文本分類算法研究[D].杭州:杭州電子科技大學(xué),2011.

[10]維基百科.潛在語義學(xué)[DB/OL]. https://zh.wikipedia. org/wiki/潛在語義學(xué).

[11]維基百科.潛在語義索引(Latent Semantic Indexing,LSI). [DB/OL]. https://zh.wikipedia.org/wiki/潛在語義索引.

[12]Xiaoyuan Su,Taghi M.Khoshgoftaar.A survey of collaborative filtering techniques[J].Advances in Artificial Intelligence,2009,2009(12):1-19.

[13]林麗金,李文翔,楊俊賢等.基于協(xié)同過濾在高校學(xué)習(xí)資源個(gè)性化推薦系統(tǒng)中應(yīng)用研究[J].價(jià)值工程,2016,35(4):191-193.

[14]李高敏.基于協(xié)同過濾的教學(xué)資源個(gè)性化推薦技術(shù)的研究及應(yīng)用[D].北京:北京交通大學(xué),2011.

[15]羅文.協(xié)同過濾推薦算法綜述[J].科技傳播,2015,7(7): 115+196.

[16]百度文庫.Pato421226.相似度計(jì)算[DB/OL]. https://wenku.baidu.com/view/cc75b9a84693daef5ff73d3f.html.

[17]馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(7):1282-1288.

[18]趙亮,胡乃靜,張守志.個(gè)性化推薦算法設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2002,39(8):986-991.

[19]Sarwar B, Karypis G, Konstan J, Riedl J.Application of Dimensionality Reduction in Recommender Systems[J].In Acm Webkdd Workshop,2000.

[20]Jung K Y.User preference through Bayesian categorization for recommendation[C].Pacific Rim International Conference on Artificial Intelligence. Springer-Verlag, 2006:112-119.

[21]LeftNotEasy.機(jī)器學(xué)習(xí)中的數(shù)學(xué)(5)——強(qiáng)大的矩陣奇異值分解(SVD)及其應(yīng)用[EB/OL].http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html.

[22]Vozalis MG, Margaritis KG.Applying SVD on item-based filtering[C].International Conference on Intelligent Systems Design and Applications,2005:464-469.

[23]Aggarwal CC.On the effects of dimensionality reduction on high dimensional similarity search[C].Twentieth ACM Sigmod-Sigact-Sigart Symposium on Principles of Database Systems,2001:256-266.

[24]Robin Burke. Hybrid recommender systems: survey and experiments.[J].User Model User-adapt Interact, 2002,12(4): 331-370

(編輯:魯利瑞)

猜你喜歡
奇異值分解
基于奇異值分解的銀行客戶數(shù)據(jù)隱私保護(hù)算法研究
k—means聚類算法在提高圖書館數(shù)字文獻(xiàn)服務(wù)效能中的應(yīng)用
結(jié)合PCA及字典學(xué)習(xí)的高光譜圖像自適應(yīng)去噪方法
基于分塊DWT和SVD的魯棒性數(shù)字水印算法
一種基于奇異值分解的魯棒水印算法
基于HOG—SVD特征的人臉識(shí)別
基于奇異熵和隨機(jī)森林的人臉識(shí)別
基于SVD確定NMF初始化矩陣維數(shù)
協(xié)同過濾算法改進(jìn)及研究
基于本地人工信道的新型OFDM信道估計(jì)方法