個(gè)性化學(xué)習(xí)資源推薦算法研究

2018-12-12 10:44衛(wèi)文婕付宇博

中國教育信息化·基礎(chǔ)教育 2018年9期

衛(wèi)文婕付宇博

摘要：互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展使得越來越多的學(xué)習(xí)者采取在線學(xué)習(xí)的方式獲取知識(shí)，但是海量的網(wǎng)絡(luò)信息讓學(xué)習(xí)者很難及時(shí)有效地找到滿足自己需求的學(xué)習(xí)資源，因此，個(gè)性化學(xué)習(xí)資源推薦技術(shù)日益成為教育技術(shù)領(lǐng)域的研究熱點(diǎn)。文章針對(duì)教育技術(shù)領(lǐng)域常用的個(gè)性化學(xué)習(xí)資源推薦技術(shù)及算法做了綜述，主要介紹了基于內(nèi)容的推薦算法，基于協(xié)同過濾的推薦算法以及混合推薦算法，并對(duì)這些算法的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比總結(jié)，最后分析了現(xiàn)有個(gè)性化學(xué)習(xí)資源推薦技術(shù)中可能存在的不足，以期為個(gè)性化學(xué)習(xí)推薦方面的研究提供參考。

關(guān)鍵詞：基于內(nèi)容的推薦；奇異值分解；基于用戶/項(xiàng)目的協(xié)同過濾推薦；混合推薦

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1673-8454（2018）18-0091-06

一、引言

近年來，基于互聯(lián)網(wǎng)的在線學(xué)習(xí)平臺(tái)越來越普及，依據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心頒布的報(bào)告，2017年在線學(xué)習(xí)用戶的規(guī)模已達(dá)1.44個(gè)億。隨之而來的問題是，大多數(shù)在線教育平臺(tái)為不同學(xué)習(xí)者提供的往往是相同的學(xué)習(xí)界面和學(xué)習(xí)資源，沒有充分考慮到個(gè)體間的差異提供針對(duì)性的學(xué)習(xí)資源。另一方面，學(xué)習(xí)者面對(duì)海量的數(shù)據(jù)信息，也很難快速有效地找到滿足自己需要的學(xué)習(xí)資源，甚至?xí)霈F(xiàn)認(rèn)知過負(fù)、迷航等問題[1]。所以，個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)日益受到教育領(lǐng)域?qū)＜业年P(guān)注，并逐漸成為了教育技術(shù)領(lǐng)域的研究熱點(diǎn)。個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)就是在傳統(tǒng)網(wǎng)絡(luò)教育平臺(tái)的基礎(chǔ)上，加入個(gè)性化的思想理念，使得學(xué)習(xí)者在學(xué)習(xí)過程中可以擁有更大的針對(duì)性以及能動(dòng)性，并且能夠根據(jù)其背景知識(shí)水平、學(xué)習(xí)手段和風(fēng)格、興趣愛好以及學(xué)習(xí)需求，結(jié)合學(xué)習(xí)者當(dāng)前的認(rèn)知結(jié)構(gòu)以及學(xué)習(xí)能力，有針對(duì)性地給學(xué)習(xí)者提供滿足其偏好和需求的個(gè)性化學(xué)習(xí)資源，以此來激發(fā)他們的學(xué)習(xí)熱情，提高其學(xué)習(xí)積極性，讓學(xué)習(xí)者能夠自主高效地學(xué)習(xí)，從而實(shí)現(xiàn)最好的學(xué)習(xí)效果[2]。

個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)就是在傳統(tǒng)的在線教育平臺(tái)的基礎(chǔ)之上，加入了個(gè)性化的思想理念，使得學(xué)習(xí)者在學(xué)習(xí)的過程中可以擁有更大的針對(duì)性與能動(dòng)性，并且能夠根據(jù)學(xué)習(xí)者的個(gè)性特征構(gòu)建學(xué)習(xí)者模型，從而有針對(duì)性地向?qū)W習(xí)者推薦學(xué)習(xí)資源[2]。個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)的建立需要有個(gè)性化學(xué)習(xí)資源推薦技術(shù)（算法）的支持，在現(xiàn)有的研究中，最常用的個(gè)性化學(xué)習(xí)資源推薦技術(shù)（算法）主要包括基于內(nèi)容（Content-based，簡稱CB）的推薦、基于協(xié)同過濾（Collaborative Filtering，簡稱CF）的推薦以及混合推薦（Hybrid Recommendation，簡稱HR）三種類型。

推薦技術(shù)的核心是算法，算法的使用能夠讓學(xué)習(xí)者快速高效地找到滿足自己需求及偏好的學(xué)習(xí)資源，提高學(xué)習(xí)效率。在個(gè)性化學(xué)習(xí)推薦系統(tǒng)中，每一種推薦技術(shù)（算法）都有其優(yōu)缺點(diǎn)，單獨(dú)的一種技術(shù)很難實(shí)現(xiàn)最好的推薦效果，因此，在實(shí)際的應(yīng)用當(dāng)中，研究者通常會(huì)使用兩種或多種推薦技術(shù)混合的方式來實(shí)現(xiàn)更好的推薦效果[3]，即混合推薦。個(gè)性化學(xué)習(xí)資源推薦技術(shù)的核心是算法，由于混合推薦大多是建立在基于內(nèi)容（CB）的推薦和基于協(xié)同過濾（CF）推薦的算法之上的混合策略，其基本的思想還是源于前兩者，因此，本文將重點(diǎn)介紹CB推薦和CF推薦及其常用算法，并就算法的優(yōu)缺點(diǎn)進(jìn)行比較分析和總結(jié)，而對(duì)于混合推薦只做簡要論述。

二、基于內(nèi)容的推薦

基于內(nèi)容的推薦（CB）是最早被應(yīng)用的推薦方法，它是通過計(jì)算與學(xué)習(xí)者喜好程度較高的資源或項(xiàng)目（item）的相似度，來為其推薦與之喜好相同或相似的item [4]。由于CB推薦可以不依靠巨大的用戶群體或者是評(píng)分記錄來產(chǎn)生推薦列表，也即只有一個(gè)用戶（學(xué)習(xí)者）也能夠進(jìn)行推薦，因此實(shí)時(shí)性較好[5]。基于內(nèi)容（CB）的推薦流程一般可以分成三步：①項(xiàng)目表征（Item Representation）：為每個(gè)學(xué)習(xí)資源抽取出一些特征來表示此項(xiàng)目（特征提?。?；②興趣建模（Profile Learning）：根據(jù)學(xué)習(xí)者過去喜歡（以及不喜歡）的資源的特征數(shù)據(jù)來學(xué)習(xí)訓(xùn)練出其喜好特征（建立profile文件）；③產(chǎn)生推薦（Recommendation Generation）：通過比較上兩步得到的學(xué)習(xí)者的profile文件和候選資源的特征，為該學(xué)習(xí)者推薦一組相關(guān)性最大的資源[6]。CB推薦的過程如圖1所示。在基于內(nèi)容的推薦技術(shù)中，最常用的算法是向量空間模型（Vector Space Model，簡稱VSM）算法。

向量空間模型是一種能夠簡單地把非結(jié)構(gòu)化的學(xué)習(xí)資源變成結(jié)構(gòu)化的內(nèi)容的方法，也是一個(gè)可以把文本內(nèi)容表示成數(shù)學(xué)向量的代數(shù)模型[7]。它能夠把對(duì)文本內(nèi)容的處理轉(zhuǎn)化成數(shù)學(xué)空間中的向量運(yùn)算，用數(shù)學(xué)空間上的相似度來表征語句含義的相似度，很直觀并且容易理解。VSM多用于文本類資源的推薦。

如給學(xué)習(xí)者推薦一篇喜歡的文章。假設(shè)已知學(xué)習(xí)者喜歡一篇文章j，利用VSM方法首先把該文章表示成一個(gè)多維向量，即aj=（W1，W2，…，Wn），其中Wi表示第i個(gè)詞在文章j中的權(quán)重。如果向量維數(shù)很多，計(jì)算起來會(huì)比較麻煩，因此需要降維處理，也就是特征提取，可以采用開方擬和檢驗(yàn)方法選出資源中較具代表性的特征詞來表示該資源，從而降低向量維數(shù)[8]。然后，需要計(jì)算特征詞的權(quán)重，最常用的計(jì)算權(quán)重的方法是信息檢索中的詞頻-逆文檔頻率（Term Frequency–Inverse Document Frequency，簡稱TF-IDF）[9]。計(jì)算完成后，我們得出學(xué)習(xí)者喜歡的文章aj=（ω1j，ω2j，…，ωmj）。給出一篇文章c，首先把文章c向量化并降維處理，得到c=（ω1c，ω2c，…，ωmc），判斷它是否是學(xué)習(xí)者喜歡的文章，就要計(jì)算文章c和aj的相似度，如果相似度很高的話，則可以認(rèn)為c也是學(xué)習(xí)者喜歡的文章。計(jì)算相似度可以用數(shù)學(xué)中的向量夾角余弦的計(jì)算公式[6]：

兩篇文章的相似度可以通過兩個(gè)多維空間向量的夾角余弦值來體現(xiàn)，余弦值越大，就表示向量之間的夾角越小，也就表示文章的相似度也越高。

向量空間模型（VSM）的優(yōu)勢在于：它是基于線性代數(shù)的簡單模型，直觀易懂；可以在文本類的學(xué)習(xí)資源集之間計(jì)算出連續(xù)的相似度和關(guān)聯(lián)度，并按照關(guān)聯(lián)度對(duì)文檔集進(jìn)行排序，從而依次推薦給學(xué)習(xí)者。它的不足之處在于相似度的計(jì)算量較大，當(dāng)有新的文本加入文檔集時(shí)，則需要重新計(jì)算全部詞組的權(quán)重及文本相似度；并且對(duì)語言的識(shí)別敏感度不佳，檢索的詞組必須和文檔中的詞組完全相同，無法進(jìn)行近義詞之間的關(guān)聯(lián)[7]；另外，VSM算法是基于文本類的推薦，因此它的推薦結(jié)果的多樣性不足。針對(duì)VSM語言識(shí)別敏感度不佳的缺點(diǎn)，相關(guān)專家對(duì)VSM進(jìn)行了擴(kuò)展和優(yōu)化，研究出潛在語義學(xué)模型[10]、潛在語義索引模型[11]等，極大提高了語言識(shí)別的效果。但因?yàn)镃B推薦多采用基于內(nèi)容相似度檢索以及基于概率的方法來產(chǎn)生推薦，所以它多用于文本類資源的推薦，對(duì)于視頻音頻等多媒體資源的推薦效果不是很好，即推薦的多樣化不足[3]，于是有研究者提出了基于協(xié)同過濾的推薦算法[12]。由于CF算法是基于學(xué)習(xí)者對(duì)資源的評(píng)分矩陣進(jìn)行推薦的，與資源的形式和內(nèi)容沒有太大關(guān)系，因此CF算法能夠給學(xué)習(xí)者提供滿足其偏好及需求的更多樣化（如文本類、視頻音頻類等）的個(gè)性化學(xué)習(xí)資源。

三、基于協(xié)同過濾的推薦

協(xié)同過濾（CF）技術(shù)是根據(jù)用戶（學(xué)習(xí)者）對(duì)資源的評(píng)分矩陣，利用相似度算法找到待測（目標(biāo)）資源或用戶的最近“鄰居”，根據(jù)鄰居用戶或鄰居資源來預(yù)測未評(píng)分的目標(biāo)資源，通過預(yù)測結(jié)果為學(xué)習(xí)者提供較準(zhǔn)確的個(gè)性化推薦[13]。CF推薦技術(shù)根據(jù)算法運(yùn)行期間需要用到的數(shù)據(jù)的差異可以分為基于內(nèi)存的協(xié)同過濾（Memory-Based CF）和基于模型的協(xié)同過濾（Model-Based CF）?；趦?nèi)存的協(xié)同過濾又可以細(xì)分為兩類：基于用戶的協(xié)同過濾（User-based CF）和基于項(xiàng)目的協(xié)同過濾（Item-based CF）[14]。協(xié)同過濾技術(shù)（算法）是個(gè)性學(xué)習(xí)化推薦領(lǐng)域目前研究較多并且也是最成熟的推薦技術(shù)，它的應(yīng)用廣泛，推薦的效率及精確性也比較高。

1.基于內(nèi)存的協(xié)同過濾

（1）基于用戶的協(xié)同過濾

基于用戶的協(xié)同過濾（UB-CF）算法的核心思想是：首先收集用戶信息，包括用戶注冊(cè)信息（年齡、性別、興趣愛好、知識(shí)水平等）和用戶評(píng)分記錄，算法根據(jù)用戶（學(xué)習(xí)者）的注冊(cè)信息可以生成用戶模型，利用學(xué)習(xí)者對(duì)資源的評(píng)價(jià)記錄來構(gòu)建評(píng)分矩陣[4]；再根據(jù)評(píng)分矩陣并使用相似度算法計(jì)算出學(xué)習(xí)者之間的相似度，形成最近“鄰居”用戶集合；最后利用最近鄰居用戶的評(píng)分記錄來預(yù)測目標(biāo)（待推薦）用戶對(duì)學(xué)習(xí)資源的評(píng)分，并基于評(píng)分的高低來判斷目標(biāo)用戶對(duì)學(xué)習(xí)資源的喜好程度，從而實(shí)現(xiàn)推薦[15]。UB-CF算法采用的是“相似的用戶對(duì)學(xué)習(xí)資源的評(píng)分也是相似的”這樣的一種思想，它的詳細(xì)步驟為：

公式2中，Si、Sj分別表示的是學(xué)習(xí)者i和j的資源評(píng)分集合，Si，j=Si∩Sj表示的是學(xué)習(xí)者i和j共同評(píng)過分的學(xué)習(xí)資源集合，Ris、Rjs分別表示的是學(xué)習(xí)者i和j對(duì)學(xué)習(xí)資源s的評(píng)分，i、j表示學(xué)習(xí)者i和j對(duì)學(xué)習(xí)資源評(píng)分的平均值。

上文的余弦相似度算法對(duì)于絕對(duì)的數(shù)值不是特別敏感，它更多的是從方向上來進(jìn)行差異的比較和分析，因此不能較精確地衡量數(shù)值之間的差異[16]。而改進(jìn)后的余弦相似度算法減去了用戶對(duì)學(xué)習(xí)資源的平均評(píng)分，并且考慮到了用戶共同評(píng)過分的資源集合，以此來改善因?yàn)椴煌瑢W(xué)習(xí)者的評(píng)分標(biāo)準(zhǔn)而產(chǎn)生的結(jié)果的誤差。

相似度計(jì)算完成之后，會(huì)得到一個(gè)和待推薦（目標(biāo)）學(xué)習(xí)者相似度較高的學(xué)習(xí)者用戶集合，選擇合適的閾值m，確定待推薦學(xué)習(xí)者的最近鄰學(xué)習(xí)者用戶集合為Um= {u1，u2，…ul…um}。

最后產(chǎn)生推薦。得到了目標(biāo)用戶的最近鄰用戶集合Um之后，可以通過對(duì)Um進(jìn)行加權(quán)來預(yù)測目標(biāo)（待推薦）學(xué)習(xí)者o對(duì)學(xué)習(xí)資源t的評(píng)分Rot：[15]

Rot=+公式3

公式3中，、分別代表的是學(xué)習(xí)者o和j對(duì)學(xué)習(xí)資源的平均評(píng)分， Sim（o，j）代表的是學(xué)習(xí)者o和j的相似度，Rjt代表的是學(xué)習(xí)者j對(duì)學(xué)習(xí)資源t的評(píng)分。得到了學(xué)習(xí)者對(duì)不同學(xué)習(xí)資源的預(yù)測得分之后，選取評(píng)分值最高且不在學(xué)習(xí)者已經(jīng)評(píng)過分的資源集合中的前N個(gè)項(xiàng)目作為Top-N推薦集，為學(xué)習(xí)者進(jìn)行推薦。

基于用戶的協(xié)同過濾算法依據(jù)學(xué)習(xí)者（用戶）對(duì)學(xué)習(xí)資源的評(píng)分矩陣得到學(xué)習(xí)者之間的相似度，其推薦結(jié)果相對(duì)準(zhǔn)確且形式比較多樣化，另外它還能夠發(fā)現(xiàn)目標(biāo)學(xué)習(xí)者潛在的新興趣。但同時(shí)UB-CF也存在著一些不足之處，比如用戶資源評(píng)分矩陣的數(shù)據(jù)稀疏性與系統(tǒng)的擴(kuò)展性等問題[14]。

（2）基于項(xiàng)目的協(xié)同過濾

基于項(xiàng)目的協(xié)同過濾（IB-CF）和基于用戶的協(xié)同過濾的算法思想基本相同，核心都是計(jì)算最近鄰居集合及生成推薦列表。區(qū)別是IB-CF算法中最近鄰居集合的確定依據(jù)是項(xiàng)目（學(xué)習(xí)資源）之間的相似度。IB-CF技術(shù)基于的是“學(xué)習(xí)者對(duì)于相似的資源（項(xiàng)目），評(píng)分也是相似的”這樣的一種思想，詳細(xì)步驟為：

首先，收集用戶（學(xué)習(xí)者）信息以及對(duì)每個(gè)資源項(xiàng)目有過評(píng)分的學(xué)習(xí)者，構(gòu)建項(xiàng)目—學(xué)習(xí)者的二維評(píng)分矩陣。

第二，通過評(píng)分矩陣計(jì)算目標(biāo)資源t和用戶已經(jīng)評(píng)價(jià)過的資源之間的相似度，計(jì)算公式可以利用公式2，不過i和j表示的應(yīng)是資源（項(xiàng)目），S表示的是用戶集合。然后根據(jù)相似度計(jì)算的結(jié)果和用戶模型（知識(shí)水平、興趣以及歷史行為數(shù)據(jù)）來選擇k個(gè)與已被評(píng)價(jià)過的資源最相似的item組成目標(biāo)項(xiàng)目t的最近鄰項(xiàng)目集合Tk={t1，t2，…，tk }。

第三，產(chǎn)生推薦。最后將用戶u對(duì)Tk的評(píng)分及相似度Sim的加權(quán)平均值作為對(duì)目標(biāo)學(xué)習(xí)資源t的預(yù)測評(píng)分Put[15]。根據(jù)計(jì)算得出的預(yù)測評(píng)分值的高低來判斷是否推薦給學(xué)習(xí)者。

Put=公式4

公式4中，S（t，n）代表的是項(xiàng)目t和項(xiàng)目n的相似度，Run代表的是用戶u對(duì)鄰居集合中學(xué)習(xí)資源的評(píng)分值，Tk代表的是待推薦項(xiàng)目t的鄰居集合。

在基于項(xiàng)目的協(xié)同過濾推薦中，因?yàn)楦鱾€(gè)學(xué)習(xí)資源之間的相似度比較固定，因此可以把各個(gè)項(xiàng)目之間的相似度放在線下計(jì)算，這樣就能夠節(jié)省計(jì)算時(shí)間，進(jìn)而可以在一定程度上保證推薦的實(shí)時(shí)性。IB-CF的局限性在于冷啟動(dòng)問題較嚴(yán)重[17]，即它只能對(duì)系統(tǒng)中已經(jīng)有信息或者評(píng)分的用戶和資源進(jìn)行推薦或是被推薦，而對(duì)于新用戶或資源則無法進(jìn)行。

2.基于模型的協(xié)同過濾

基于模型的協(xié)同過濾推薦技術(shù)是依據(jù)學(xué)習(xí)者的興趣愛好、學(xué)習(xí)需求、背景知識(shí)、歷史行為等，利用數(shù)據(jù)挖掘或者是機(jī)器學(xué)習(xí)的算法從獲取到的數(shù)據(jù)中訓(xùn)練出一個(gè)學(xué)習(xí)者模型，然后根據(jù)這個(gè)模型對(duì)學(xué)習(xí)資源的評(píng)分進(jìn)行預(yù)測，進(jìn)而產(chǎn)生推薦[18]。一般模型的建立速度會(huì)比較慢，但是一旦模型訓(xùn)練成功，進(jìn)行預(yù)測的速度會(huì)很快[14]。在模型建立的過程中，當(dāng)出現(xiàn)維數(shù)較多的信息矩陣時(shí)，計(jì)算起來會(huì)很麻煩，因此降維算法是基于模型的協(xié)同過濾中最重要的算法之一。所以，接下來詳細(xì)介紹一種Model-based CF中常用的降維算法：奇異值分解（Singular Value Decomposition，簡稱SVD）算法。

2000年，Sarwar為了改善用戶評(píng)分矩陣中的數(shù)據(jù)稀疏問題提出了SVD算法[19]。SVD是一種降低維度的協(xié)同過濾算法，是一種有效的特征提取方法，它利用學(xué)習(xí)者（用戶）與資源之間的潛在關(guān)系，通過去除一些沒有代表性的或者不重要的用戶或者學(xué)習(xí)資源來對(duì)初始的評(píng)分矩陣進(jìn)行奇異值分解，并提取一些本質(zhì)特征，從而實(shí)現(xiàn)對(duì)初始矩陣的降維處理。

SVD是線性代數(shù)中的一種矩陣分解技術(shù)，它揭示的是矩陣的內(nèi)部結(jié)構(gòu)。SVD可以將一個(gè)m×n的矩陣R分解為U、S、V[20]， U是m×n的正交矩陣（UUT=1），V是n×n的正交矩陣（VVT=1），S是m×n的矩陣，且R=U×S×VT[21]，其中U、S、V的計(jì)算步驟為：①計(jì)算S。首先，計(jì)算RT和RT R（RT是R的轉(zhuǎn)置矩陣，即把R的行換成相應(yīng)的列），然后計(jì)算RT R的特征值，再把特征值進(jìn)行排序然后開方，由此就得到了S。②計(jì)算V和VT。利用RT R的特征值來計(jì)算特征向量，而V就是特征向量的組合集合。③計(jì)算U。R=USVT，RV=USVT V=US，RVS-1=USS-1=U，U=RVS-1。

用SVD將矩陣R分解成U、S、V以后，如果只保留前k個(gè)最大的奇異值，也就是把U、S、V變成Uk、Sk、Vk，那么就實(shí)現(xiàn)了對(duì)矩陣降維的目的。

SVD算法的優(yōu)勢是通過對(duì)矩陣的降維，極大地減少了運(yùn)算量，在一定程度上提高了推薦系統(tǒng)的擴(kuò)展性，而且較好地改善了協(xié)同過濾推薦中用戶—學(xué)習(xí)資源（項(xiàng)目）評(píng)分矩陣中的數(shù)據(jù)稀疏問題[22]。它的不足之處是在降低維度時(shí)，k值的選取較困難：如果k值過大，降維的意義就不大了，而如果k值過小，則可能會(huì)丟失原矩陣中比較重要的有用信息[23]。

綜上所述，對(duì)基于內(nèi)存的協(xié)同過濾和基于模型的協(xié)同過濾的總結(jié)對(duì)比如表1所示。

四、基于內(nèi)容的推薦和基于協(xié)同過濾推薦的比較

綜上所述，無論是基于內(nèi)容的推薦算法，還是基于協(xié)同過濾的推薦算法，都存在一定的優(yōu)勢和不足，這兩類算法的優(yōu)缺點(diǎn)對(duì)比總結(jié)如表2所示。

CB推薦和基于內(nèi)存的CF推薦的相同點(diǎn)是都采用統(tǒng)計(jì)學(xué)的方法，通過計(jì)算用戶之間或資源之間的相似度來進(jìn)行推薦，核心任務(wù)都是相似度的計(jì)算。不同的是CB推薦的相似度計(jì)算是根據(jù)資源的屬性向量來計(jì)算的，而基于內(nèi)存的CF推薦是利用用戶對(duì)資源的評(píng)分矩陣計(jì)算的。另外，基于內(nèi)容推薦的優(yōu)勢在于它的推薦結(jié)果直觀易懂，而且覆蓋率較高，實(shí)時(shí)性好；缺點(diǎn)是推薦形式多限于文本類資源，多樣性不足，且相似度計(jì)算量太大，當(dāng)有新的文本加入學(xué)習(xí)資源文檔集時(shí)，相似度就需要重新進(jìn)行計(jì)算。基于內(nèi)存的CF推薦是基于用戶對(duì)資源的評(píng)分矩陣來計(jì)算相似度并進(jìn)行推薦的，與資源的形式無關(guān)，因此推薦結(jié)果的形式更多樣化；基于模型的協(xié)同過濾推薦可以使用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的算法基于學(xué)習(xí)者的個(gè)性化特征為其構(gòu)建專屬的用戶模型，然后根據(jù)用戶模型為學(xué)習(xí)者進(jìn)行資源推薦，因此，CF推薦的資源個(gè)性化和自動(dòng)化程度相對(duì)較高，但用戶模型建立的難度比較大，并且存在冷啟動(dòng)問題，即當(dāng)有新的學(xué)習(xí)者或資源加入系統(tǒng)時(shí)，沒有足夠的數(shù)據(jù)來對(duì)其進(jìn)行推薦或被推薦。

五、混合推薦策略

在個(gè)性化學(xué)習(xí)推薦系統(tǒng)中，各種推薦技術(shù)中的算法都有其優(yōu)缺點(diǎn)，單獨(dú)的一種技術(shù)很難實(shí)現(xiàn)最好的推薦效果，因此在實(shí)際應(yīng)用中，研究者通常會(huì)采用兩種或兩種以上推薦技術(shù)混合的方式來綜合各種推薦技術(shù)的長處，為用戶提供更加快速精確的學(xué)習(xí)資源推薦，從而實(shí)現(xiàn)更好的推薦效果。Burke在論述了幾種混合推薦的方法，包括加權(quán)、切換、級(jí)聯(lián)、特征增強(qiáng)以及元級(jí)。[24]

1.加權(quán)（Weighted）

系統(tǒng)綜合采用多種推薦算法對(duì)同一資源進(jìn)行評(píng)分，并把這些評(píng)分按照一定的規(guī)則加權(quán)處理，得到一個(gè)總分?jǐn)?shù)，根據(jù)這個(gè)總分來判斷是否進(jìn)行推薦。最簡單的加權(quán)混合推薦策略就是把由多種推薦技術(shù)（算法）得到的幾個(gè)評(píng)分進(jìn)行有權(quán)重的線性組合。加權(quán)混合推薦的好處是系統(tǒng)的推薦能力可以用一個(gè)直觀的方式呈現(xiàn)，并且可以根據(jù)學(xué)習(xí)者對(duì)推薦資源的反饋評(píng)價(jià)來調(diào)整權(quán)重的分配，從而不斷改善混合策略的推薦效果。

2.切換（Switching）

資源推薦系統(tǒng)同時(shí)提供多種推薦技術(shù)，在推薦過程中，根據(jù)不同學(xué)習(xí)者的需求，采用一些特定的標(biāo)準(zhǔn)來變換不同的推薦方法以達(dá)到最好的推薦結(jié)果。該策略的優(yōu)勢是系統(tǒng)對(duì)各個(gè)推薦技術(shù)的優(yōu)缺點(diǎn)很敏感，可以根據(jù)不同情況及時(shí)切換推薦技術(shù)，但不足是切換標(biāo)準(zhǔn)的制定為推薦過程帶來了額外的復(fù)雜性，增加了系統(tǒng)的負(fù)擔(dān)。

3.級(jí)聯(lián)（Cascade）

在級(jí)聯(lián)混合策略中，系統(tǒng)會(huì)根據(jù)推薦技術(shù)的優(yōu)先級(jí)先采用某一種推薦技術(shù)（優(yōu)先級(jí)較高）給出一個(gè)粗略的推薦結(jié)果，然后再使用另外一種推薦技術(shù)（算法）在這個(gè)推薦結(jié)果的基礎(chǔ)上進(jìn)行更細(xì)致準(zhǔn)確的處理，進(jìn)而產(chǎn)生更精確的推薦結(jié)果。由于級(jí)聯(lián)是分階段的推薦，第二步的推薦技術(shù)是在第一步的基礎(chǔ)上進(jìn)行的，因此只需要應(yīng)用于部分資源即可，所以它比將所有技術(shù)應(yīng)用于所有項(xiàng)目的加權(quán)混合更高效。

4.特征增強(qiáng)（Feature Augmentation）

首先使用一種推薦技術(shù)（算法）將源資源數(shù)據(jù)經(jīng)過處理輸出特征結(jié)果，然后將該結(jié)果作為下一個(gè)推薦技術(shù)的輸入。特征增強(qiáng)技術(shù)提供了一種在不修改核心系統(tǒng)的條件下改進(jìn)系統(tǒng)性能的的方法。

5.元級(jí)（Meta-level）

組合兩種推薦技術(shù)，將一種推薦技術(shù)產(chǎn)生的模型作為另一種推薦技術(shù)的輸入。元級(jí)和特征增強(qiáng)有些類似，都是把一種技術(shù)的輸出作為另一種技術(shù)的輸入，但不同的是，在特征增強(qiáng)混合中，輸入第二種技術(shù)的是特征結(jié)果；而在元級(jí)混合中，輸入第二種技術(shù)的是整個(gè)模型。元級(jí)方法的優(yōu)勢在于推薦技術(shù)作用于數(shù)據(jù)信息密集的模型上要比作用于原始評(píng)分?jǐn)?shù)據(jù)更容易，且推薦結(jié)果也會(huì)相對(duì)更個(gè)性化更準(zhǔn)確。

在個(gè)性化學(xué)習(xí)資源推薦系統(tǒng)中，最常用也是最基本的推薦技術(shù)就是基于內(nèi)容的推薦和基于協(xié)同過濾的推薦，因此，大多數(shù)的混合推薦策略都是基于這兩種技術(shù)來實(shí)現(xiàn)更好的推薦效果。需要注意的是，為了最優(yōu)化推薦效果，混合推薦中的算法都需要調(diào)整到最優(yōu)化狀態(tài)。

六、結(jié)束語

本文圍繞個(gè)性化學(xué)習(xí)資源推薦這一主題，重點(diǎn)闡述了兩大類學(xué)習(xí)資源推薦技術(shù)的代表算法，并對(duì)比分析了各類算法的優(yōu)缺點(diǎn)。此外還簡要論述了混合推薦中常用的組合策略，并對(duì)各類混合策略的優(yōu)缺點(diǎn)進(jìn)行了簡單的分析和總結(jié)。雖然個(gè)性化學(xué)習(xí)資源的推薦已經(jīng)成為教育領(lǐng)域的研究熱點(diǎn)，但仍然存在一些問題有待進(jìn)一步的研究和優(yōu)化。比如，如何保證推薦的實(shí)時(shí)性和準(zhǔn)確性的平衡，混合推薦中如何有效地分配各類算法的權(quán)重；以及模型建立問題、冷啟動(dòng)問題等。隨著機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究越來越成熟，未來預(yù)計(jì)將會(huì)有更多的機(jī)器學(xué)習(xí)算法被運(yùn)用到學(xué)習(xí)資源推薦中來，從而進(jìn)一步提高推薦結(jié)果的精確性以及個(gè)性化程度，并使學(xué)習(xí)者可以快速高效地獲取所需知識(shí)，提高學(xué)習(xí)效率。

參考文獻(xiàn)：

[1]Eppler MJ，Mengis J. The Concept of Information Overload - A Review of Literature from Organization Science， Accounting ， Marketing ， MIS， and Related Disciplines[J]. Journal of Academic Librarianship，2008，38（1）：325-344.

[2]樊麗.基于Web日志挖掘的學(xué)習(xí)資源個(gè)性化推薦方法研究[D].長春：吉林大學(xué)，2012.

[3]李娜.基于混合協(xié)同過濾的用戶在線學(xué)習(xí)資源系統(tǒng)個(gè)性化推薦方法研究[J].計(jì)算機(jī)光盤軟件與應(yīng)用，2015，18（2）：1-2.

[4]王凱.支持個(gè)性化學(xué)習(xí)資源推薦的在線輔助學(xué)習(xí)系統(tǒng)的研究與設(shè)計(jì)[D].西安：陜西師范大學(xué)，2014.

[5]蒲彬.個(gè)性化推薦系統(tǒng)研究綜述[J].現(xiàn)代職業(yè)教育，2016（23）：36-137.

[6]李連，朱愛紅，蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件，2012，29（2）：282-284.

[7]維基百科.向量空間模型[DB/OL ].https：//zh.wikipedia. org/wiki/向量空間模型.

[8]William_Fu_Z.向量空間模型（VSM）算法——一種簡單的文本相似度算法.新浪博客[EB/OL].http：//blog.sina.com.cn/s/blog_a1304cff0101aj29.html.

[9]張振峰.基于向量空間模型的文本分類算法研究[D].杭州：杭州電子科技大學(xué)，2011.

[10]維基百科.潛在語義學(xué)[DB/OL]. https：//zh.wikipedia. org/wiki/潛在語義學(xué).

[11]維基百科.潛在語義索引（Latent Semantic Indexing，LSI）. [DB/OL]. https：//zh.wikipedia.org/wiki/潛在語義索引.

[12]Xiaoyuan Su，Taghi M.Khoshgoftaar.A survey of collaborative filtering techniques[J].Advances in Artificial Intelligence，2009，2009（12）：1-19.

[13]林麗金，李文翔，楊俊賢等.基于協(xié)同過濾在高校學(xué)習(xí)資源個(gè)性化推薦系統(tǒng)中應(yīng)用研究[J].價(jià)值工程，2016，35（4）：191-193.

[14]李高敏.基于協(xié)同過濾的教學(xué)資源個(gè)性化推薦技術(shù)的研究及應(yīng)用[D].北京：北京交通大學(xué)，2011.

[15]羅文.協(xié)同過濾推薦算法綜述[J].科技傳播，2015，7（7）： 115+196.

[16]百度文庫.Pato421226.相似度計(jì)算[DB/OL]. https：//wenku.baidu.com/view/cc75b9a84693daef5ff73d3f.html.

[17]馬宏偉，張光衛(wèi)，李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng)，2009，30（7）：1282-1288.

[18]趙亮，胡乃靜，張守志.個(gè)性化推薦算法設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展，2002，39（8）：986-991.

[19]Sarwar B， Karypis G， Konstan J， Riedl J.Application of Dimensionality Reduction in Recommender Systems[J].In Acm Webkdd Workshop，2000.

[20]Jung K Y.User preference through Bayesian categorization for recommendation[C].Pacific Rim International Conference on Artificial Intelligence. Springer-Verlag， 2006：112-119.

[21]LeftNotEasy.機(jī)器學(xué)習(xí)中的數(shù)學(xué)（5）——強(qiáng)大的矩陣奇異值分解（SVD）及其應(yīng)用[EB/OL].http：//www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html.

[22]Vozalis MG， Margaritis KG.Applying SVD on item-based filtering[C].International Conference on Intelligent Systems Design and Applications，2005：464-469.

[23]Aggarwal CC.On the effects of dimensionality reduction on high dimensional similarity search[C].Twentieth ACM Sigmod-Sigact-Sigart Symposium on Principles of Database Systems，2001：256-266.

[24]Robin Burke. Hybrid recommender systems： survey and experiments.[J].User Model User-adapt Interact， 2002，12（4）： 331-370

（編輯：魯利瑞）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

個(gè)性化學(xué)習(xí)資源推薦算法研究