郝 杰
(江蘇旅游職業(yè)學(xué)院 江蘇·揚(yáng)州 225131)
當(dāng)今社會(huì)正處于一個(gè)信息爆炸的時(shí)代,隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)一步普及,人們能夠隨時(shí)隨地在信息的海洋中暢游。信息的數(shù)量已不再成為問(wèn)題,如何能夠方便快捷地獲取有效信息,乃至得到個(gè)性化的信息服務(wù),日益成為各行各業(yè)研究的重點(diǎn),隨著計(jì)算機(jī)技術(shù)的不斷深入,各類推薦算法應(yīng)運(yùn)而生。
近年來(lái),隨著國(guó)家大力發(fā)展高等教育,高校在智慧校園建設(shè)方面的投入越來(lái)越多,順應(yīng) “互聯(lián)網(wǎng)+”的時(shí)代要求,高校的學(xué)習(xí)資源平臺(tái)已經(jīng)成為促進(jìn)在校生學(xué)習(xí)專業(yè)知識(shí)技能的重要工具。傳統(tǒng)的學(xué)習(xí)資源平臺(tái)一般對(duì)學(xué)習(xí)資源有兩種呈現(xiàn)方式:一是資源分類索引的方式,即采用類似門(mén)戶網(wǎng)站的資源庫(kù)界面,學(xué)習(xí)圖書(shū)館資源管理的模式,將學(xué)習(xí)資源按預(yù)設(shè)的分類標(biāo)準(zhǔn)進(jìn)行分組,學(xué)習(xí)者需要按一定的層級(jí)目錄查詢內(nèi)容。二是搜索引擎輔助的方式,即采用搜索引擎對(duì)學(xué)習(xí)者給出的關(guān)鍵字進(jìn)行檢索,匹配出目標(biāo)內(nèi)容推薦給用戶。以上兩種方式都較為成熟,但也存在著一些問(wèn)題,歸納起來(lái)主要有:
首先資源獲取效率不高。用戶獲取資源有賴于系統(tǒng)對(duì)標(biāo)簽或關(guān)鍵字的認(rèn)定,對(duì)資源內(nèi)容的優(yōu)劣無(wú)法判定,學(xué)習(xí)者易獲得無(wú)效資源或低質(zhì)資源;其次資源的檢索,受用戶關(guān)鍵字選取的準(zhǔn)確性和自身知識(shí)的有限性影響,海量的信息資源無(wú)法進(jìn)入學(xué)習(xí)者視野。再次個(gè)性化程度較低。資源的組織方式嚴(yán)重依賴于資源的管理者,系統(tǒng)無(wú)法根據(jù)用戶的個(gè)人學(xué)習(xí)狀況或?qū)W習(xí)偏好給出推薦。
綜上,推薦算法在高校學(xué)習(xí)資源平臺(tái)的應(yīng)用必將成為趨勢(shì)。本文構(gòu)建了采用協(xié)同過(guò)濾算法優(yōu)化學(xué)習(xí)資源平臺(tái),使其能夠主動(dòng)為廣大學(xué)習(xí)者提供個(gè)性化推薦服務(wù)。
協(xié)同過(guò)濾算法(collaborative filtering)是一種產(chǎn)生較早,應(yīng)用相對(duì)較為廣泛的推薦算法。通過(guò)對(duì)用戶歷史行為的數(shù)據(jù)挖掘,進(jìn)行用戶特征分析,歸納出相似性較高的用戶集合,從其偏好中計(jì)算得出推薦內(nèi)容的集合。協(xié)同過(guò)濾算法主要分為兩類,分別是基于用戶的協(xié)同過(guò)濾算法 (user-based collaborative filtering),和基于物品的協(xié)同過(guò)濾算法 (itembased collaborative filtering)。
基于用戶的協(xié)同過(guò)濾算法,是建立在“偏好接近的不同用戶對(duì)同一資源的評(píng)價(jià)接近”這一基本思路上的。是通過(guò)分析用戶的歷史操作,以相近偏好作為評(píng)價(jià)標(biāo)準(zhǔn)劃分出相似的鄰近用戶集合,進(jìn)一步計(jì)算出集合中與目標(biāo)用戶相似度最高的鄰近用戶,并將其偏好內(nèi)容推薦給目標(biāo)用戶。如圖1所示,對(duì)圖中用戶的歷史操作進(jìn)行分析后,可以看出A 用戶與目標(biāo)用戶相似度最高,為最鄰近用戶,故將學(xué)習(xí)資源“數(shù)據(jù)結(jié)構(gòu)”推薦給目標(biāo)用戶。
圖1:基于用戶的協(xié)同過(guò)濾算法示意圖
基于物品的協(xié)同過(guò)濾算法,其基本原理和基于用戶的協(xié)同過(guò)濾算法類似,區(qū)別在于基于物品的協(xié)同過(guò)濾算法是從資源的角度尋找推薦資源,是建立在“同一個(gè)用戶所選擇的不同資源之間具有相似特征”這一基本思路上的。如圖2所示,凡是選擇了“微課2”資源的用戶均同樣選擇了“微課4”,則認(rèn)為這兩個(gè)資源具有較高相似度。此時(shí),當(dāng)目標(biāo)用戶選擇了“微課2”資源后,可將“微課4”資源推薦給他。
圖2:基于物品的協(xié)同過(guò)濾算法示意圖
兩種協(xié)同過(guò)濾算法各有其優(yōu)缺點(diǎn),但考慮到高校學(xué)習(xí)資源智能推薦平臺(tái)面對(duì)的用戶群體相對(duì)固定,結(jié)構(gòu)單一,用戶數(shù)據(jù)維護(hù)較為簡(jiǎn)單,且多以專業(yè)背景聚合,推薦平臺(tái)更需要解決的是多樣性不足的問(wèn)題,以開(kāi)拓用戶的學(xué)習(xí)視野,故而偏向以基于用戶的協(xié)同過(guò)濾算法作為平臺(tái)推薦算法的基礎(chǔ)。
推薦算法的核心在于構(gòu)建具有較強(qiáng)相似性的鄰近用戶集合。為此,首先要做的就是得出每個(gè)用戶對(duì)資源評(píng)價(jià)的矩陣。
用戶對(duì)資源的評(píng)分可以根據(jù)平臺(tái)系統(tǒng)的需要設(shè)計(jì)評(píng)分項(xiàng)目及其所占權(quán)重。由于用戶在使用資源過(guò)程中,對(duì)資源的評(píng)價(jià)存在惰性和隨意性,為進(jìn)一步提高學(xué)習(xí)資源智能推薦平臺(tái)所推薦資源的有效性,在構(gòu)建評(píng)價(jià)矩陣過(guò)程中,設(shè)計(jì)評(píng)分項(xiàng)目既需要有顯式評(píng)分項(xiàng)目,也需要設(shè)置足夠的隱式評(píng)分項(xiàng)目,以便更加準(zhǔn)確的建立用戶偏好檔案。具體評(píng)分項(xiàng)目及權(quán)重構(gòu)成如表1。
表1:用戶—資源評(píng)分項(xiàng)目表
我們假設(shè)平臺(tái)注冊(cè)用戶集合為U={u1,u2,……,um},平臺(tái)擁有的資源集合為 R={r1,r2,……,rn},則全部用戶對(duì)資源的歷史評(píng)分構(gòu)成的 “用戶—資源”評(píng)分矩陣為P,其中Pmn 為用戶um 對(duì)資源rn 的評(píng)分,如圖3。
圖3:“用戶—資源”評(píng)分矩陣
得到“用戶—資源”評(píng)分矩陣后,即可根據(jù)其中的分值構(gòu)建鄰近用戶集合。我們以假定的5個(gè)用戶對(duì)2 個(gè)資源的評(píng)分為例找尋特征相似用戶,截取用戶歷史操作評(píng)分表如表2。
表2:“用戶—資源評(píng)分表”
將評(píng)分?jǐn)?shù)據(jù)放入二維坐標(biāo)內(nèi),得到散點(diǎn)圖。在圖4中可以明顯看出用戶A、C、D相似性較高。
圖4:“用戶—資源評(píng)分”散點(diǎn)圖
根據(jù)以上內(nèi)容,為了能夠進(jìn)一步量化復(fù)雜狀態(tài)下多個(gè)用戶對(duì)多個(gè)資源的評(píng)價(jià)的相似度,我們采用皮爾遜相似度計(jì)算方法,其計(jì)算公式如下:
其中Ui表示指定用戶的評(píng)分向量,即ui={pi1,pi2,……,pin}。Yi表示用戶Ui評(píng)分制非空的項(xiàng)目集合。i表示用戶Ui所有評(píng)分的平均值。計(jì)算得出的皮爾遜相關(guān)性系數(shù),通常認(rèn)為取值在0.0-0.2為極弱相關(guān)或無(wú)相關(guān),取值在0.8-1.0為極強(qiáng)相關(guān),取值越偏向1,則正相關(guān)性越強(qiáng)。
完成目標(biāo)用戶與其他用戶之間的相似度計(jì)算之后,可以采用設(shè)置相似度系數(shù)閾值或者取Top-n最鄰近用戶等方式,最終形成目標(biāo)用戶的最鄰近用戶集合。
推薦算法的最終目的是向目標(biāo)用戶推薦其可能喜好的資源,資源的來(lái)源為最鄰近用戶集合中已評(píng)分資源得分均值較高、且為目標(biāo)用戶尚未評(píng)分的資源。我們根據(jù)以下公式求得最鄰近用戶對(duì)項(xiàng)目評(píng)分的均值。
本文提出的高校學(xué)習(xí)資源智能推薦平臺(tái)如圖5所示,主要由資源檔案管理模塊、用戶檔案管理模塊、網(wǎng)頁(yè)管理模塊、智能推薦模塊等方面構(gòu)成。其中,用戶檔案管理模塊需在記錄用戶主動(dòng)提供的注冊(cè)信息的基礎(chǔ)上,記錄和整理用戶的行為數(shù)據(jù),形成完整的用戶檔案。智能推薦模塊匹配資源檔案和用戶檔案中的數(shù)據(jù),建立預(yù)測(cè)評(píng)分,并使用協(xié)同過(guò)濾算法生成推薦列表后提交至網(wǎng)頁(yè)管理模塊。
圖5:高校學(xué)習(xí)資源智能推薦平臺(tái)架構(gòu)
協(xié)同過(guò)濾算法的使用,提高了資源推薦的有效性,能夠?yàn)槠脚_(tái)用戶提供動(dòng)態(tài)更新的個(gè)性化推薦服務(wù),但其不能作為整個(gè)平臺(tái)的唯一推薦策略。根據(jù)新老用戶的不同特性,根據(jù)平臺(tái)不同板塊的功能劃分,可以采用多種策略分工組合的方式。
平臺(tái)首頁(yè):可以對(duì)于新上傳資源進(jìn)行廣告式推薦;根據(jù)用戶專業(yè)、年級(jí)等基本信息,排序符合基本特征的資源進(jìn)行直接推薦;根據(jù)平臺(tái)限時(shí)活動(dòng)進(jìn)行資源推薦等。
商品搜索頁(yè):采用關(guān)鍵字匹配;相同關(guān)鍵字優(yōu)先級(jí)排序策略等。
猜你喜歡:用戶點(diǎn)擊量及時(shí)序綜合排序推薦;協(xié)同過(guò)濾算法推薦。
協(xié)同過(guò)濾算法的應(yīng)用非常廣泛,但其本身也存在冷啟動(dòng)問(wèn)題、稀疏性問(wèn)題、可拓展新問(wèn)題等不足,可以通過(guò)調(diào)整預(yù)測(cè)評(píng)分計(jì)算的相應(yīng)指標(biāo)或改進(jìn)算法加以優(yōu)化。
宿州教育學(xué)院學(xué)報(bào)2019年6期