楊 卓,周魯東,李鳳岐,夏 鋒
(大連理工大學 軟件學院,遼寧 大連 116620)
隨著信息技術的不斷發(fā)展,網(wǎng)絡學習已經成為當代教育背景下學習的重要方式,而且許多地區(qū)和院校都建立了區(qū)域性的資源共享網(wǎng)絡,網(wǎng)絡資源十分豐富。然而在網(wǎng)絡為學習者提供學習便捷的同時也存在著一些需要解決的問題。比如在如此豐富的網(wǎng)絡資源中,學習者經常迷失于大量的信息空間中,無法及時找到自己需要的資源。這種現(xiàn)象的存在,一方面使優(yōu)質的資源得不到充分的利用;另一方面,浪費了用戶大量的時間,因此有必要實現(xiàn)高效的優(yōu)質資源推薦策略,來幫助學習者更高效的找到其所需的資源信息,以提高學習的效率[1]。
資源推薦策略一般分為兩種:顯式的推薦和隱式的推薦。顯式的推薦指的是傳統(tǒng)意義上的資源檢索服務,根據(jù)用戶的請求,服務器被動響應,為了使這種推薦更為高效,有時會輔以專家評價;與之相對的是隱式的推薦,隱式的推薦指的是根據(jù)用戶的歷史學習記錄,展開有針對性的個性化資源推薦。而個性化的資源推薦能夠最大程度的考慮學習者的個人喜好,學習習慣和學習需求,因而對用戶本身的學習顯得意義重大。當前,我國的教育資源推薦發(fā)展緩慢,且尚未出現(xiàn)十分高效的優(yōu)質資源推薦策略。然而在電子商務中,購物推薦發(fā)展比較迅速,比如Amazon、當當網(wǎng)的購物推薦,均能給我們帶來比較有效的,符合需求的商品推薦,這對我們研究針對優(yōu)質教學資源的推薦策略有重要的指導意義,因此,我們可以借助鑒購物推薦的經驗,展開對于優(yōu)質教學資源推薦的研究[2]。
基于此,本文作者提出了結合Pearson相關性計算和標簽的教學資源推薦策略,這種策略將傳統(tǒng)意義上的Pearson相關性計算進行“倒置”,即將Pearson相關性計算的對象進行轉換,即通過將用戶對資源的評價轉化成資源相關性分析的驅動因子而非資源的聚類,結合資源的標簽,綜合獲得資源之間的相關性,并利用用戶的下載記錄來進行有針對性的個性化資源推薦[3]。
基于資源相關性的教學資源推薦機制:資源被上傳后,用戶可進行下載,該機制提供評價系統(tǒng),供用戶對其瀏覽或下載后資源的優(yōu)良做出自己的主觀評價,資源的質量優(yōu)劣由1~5的分值來量化:1分代表很差,以此遞增,5分代表很好,值得推薦。用戶可根據(jù)自己的體驗,對資源進行主觀的基于分值的量化,用戶對資源的評價將被儲存到數(shù)據(jù)庫中。經過長時間的數(shù)據(jù)積累,特定類型和質量的資源會具有相對固定的特征,從而呈現(xiàn)出資源之間質量的差異性和資源類型之間的差異性,這樣就可以對相似的資源進行聚類。進行聚類的一種比較容易和直接的算法是歐幾里的距離評價,基本思想是:對于資源 A 和 B 的評分組成以下向量 VA(a1,a2,a3,…,am)和VB(b1,b2,b3,…,bn),其中,a 和 b 為資源的評分,篩選出同一用戶對資源A和B都進行了評價的向量:VA’(a1,a2,a3,…,ak)和 VB’(b1,b2,b3,…,bk),其中 ai和 bi為同一用戶對資源A和B的評分。ai-bi體現(xiàn)了用戶對于資源A和B相關性的主觀評價的差值,很顯然,當兩個資源的相關性比較好的時候,距離較短,此差值比較小。計算:sqrt=√(ai-bi)2,可以得出資源相似性的估計值,sqrt越小,相似性越大。此算法比較容易計算,但存在缺陷,即當某些用戶總是傾向于給出更高的評價時,會產生較大的偏差。因此,在用戶要求比較苛刻,或者需要更加精確的結果的時候,此方法并不適用[4]。
目前比較受認可的是Pearson的相關度評價算法。Pearson的算法較為復雜,但是它在數(shù)據(jù)不是很規(guī)范時,相比歐幾里的距離評價算法能得到更好的結果,因此,在不是顯著增加計算負擔的時候,采用此算法是合適的。
本文還認為用戶對自己上傳的資源應有較深刻的認識,因此基于資源相關性的資源推薦機制還設置了資源標簽。資源在上傳時,提供資源標簽,供上傳用戶對資源進行描述。該描述能夠從整體上定位資源的分類,會對資源的聚類結果產生影響。
綜合以上兩點,可以得出整體的相關性描述為——基于評分的相關性+基于標簽的相關性,因此可進行如下的推薦:根據(jù)用戶對資源評分和資源本身的標簽,綜合計算資源的相關性,如果用戶對某些資源比較感興趣,根據(jù)資源的相關性,推薦相似的資源。
Pearson的基本思想是擬合,在本次應用中,本文將原始Pearson算法中的計算對象“倒置”,將計算對象轉化成資源的相關性。首先在二維坐標中,(ai,bi)代表一個點,通過對所有{(ai,bi)|ai∈VA,bi∈VB}點進行線性的擬合,可以得出量化的擬合效果,如果擬合的效果比較好,表明資源A和B具有較好的相關性。由于這種擬合是基于用戶對資源的主觀感受計算出來的,因此這種相關性不僅體現(xiàn)在質量,而且對資源的類型也有適當?shù)捏w現(xiàn)。通過擬合的效果可以對資源進行分類。
具體計算步驟如下[5]:
(1)得到對特定資源A和B的用戶評分的向量VA(a1,a2,a3,…,am)和 VB(b1,b2,b3,…,bn)。
(2)過濾 VA和 VB,使 VA和 VB中包含的 ai和 bi為同一用戶的評價(i≤m,i≤n),這樣得到 VA’(a1,a2,a3,…,ak)和 VB’(b1,b2,b3,…,bk)。
(3)如果統(tǒng)計的結果k為0,則當前沒有用戶對這兩個資源都進行了評價,暫時無法得出資源的相關性,默認返回0。否則進入第4步。
(7)計算皮爾遜相關性:
如果den=0,則說明資源的相關性為0,返回0
否則,r1=(num/den)
返回r1。
r1即為基于評分的資源相關性的計算值。
資源在上傳時,本推薦機制要求用戶提供資源描述的關鍵字,即標簽,關鍵字的描述能夠從整體上定位資源的分類,并對資源的聚類結果產生影響,基于標簽的相關性的具體算法如下:
(1)得到對特定資源 A 和 B 的標簽 TA(ta1,ta2,…,tam)和 TB(tb1,tb2,…,tbn)。
(2)比較 tai和 tbi,其中 0≤i≤m,0≤j≤n。獲得 ta和 tb相等的個數(shù),賦值給count。
(3)獲得 max=max(m,n)。
(4)規(guī)定 r2=(count/max)。
r2即為基于標簽的資源相關性的計算值。
最后對結果進行歸一化處理:
綜合相關性:r=α*r1+(1-α)*r2,0≤α≤1。 α 的值根據(jù)具體環(huán)境和推薦效果進行調整。
最后考慮用戶最近的下載情況,當用戶下載了某一資源時,本機制將從資源的相關性表中選擇與用戶所下載的資源相關性最高的資源,更新到用戶的資源推薦列表中并顯示出來。
需要特別注意的問題——
更新策略:在資源比較多的情況下,鑒于每兩個資源之間都需要進行計算,計算量較大,故此選擇合適的時間點進行以上過程以更新數(shù)據(jù)顯得尤為重要。例如:可采用數(shù)據(jù)庫中的在某一具體時間觸發(fā)的Job的機制,在某一特定的,用戶在線量較少的時間點觸發(fā)計算過程,以進行數(shù)據(jù)更新。
新用戶的資源推薦:由于新添加的用戶并未下載任何資源,故此以上過程對于新用戶無效。這種情況下需要根據(jù)歷史的統(tǒng)計信息,為用戶推薦下載量最高的資源,或者是用戶質量評價最高的資源[6]。
資源的特殊性:當用戶下載某一資源,且在此資源與其他的資源均相關性不高的情況下(設定某一閾值),本推薦機制向用戶推薦的是下載量最高的資源,或者是用戶質量評價最高的資源。
假設本文作者所提出的優(yōu)質資源推薦策略應用系統(tǒng)擁有N個資源,則進行基于評分的相關性計算需要進行N*(N-1)次,而且本機制采用在特定時間進行計算的方式,故此計算負擔不是很重。而基于標簽的相關性計算更為便捷,資源的標簽是描述資源的關鍵字,有嚴格的長度限制。加入標簽的額平均長度是M(一般不超過5),在擁有N個資源的系統(tǒng)中,需要關鍵字之間的比較次數(shù)是N*M2。因此,以上本推薦機制所采用的資源相關性算法,在計算上具有很高的實用性。
以上所闡述的過程經過計算所得到的是資源的相關性,以往,用戶在進行資源的搜索時,很少能夠在一次搜索的結果下得到其所需要的資源。而在本推薦機制下,用戶根據(jù)其他用戶下載的歷史記錄,被推薦與下載結果最為相近的資源,在一定程度上滿足了用戶的資源需求。
如果想要比較及時的根據(jù)用戶需求的改變進行更加準確的推薦,可以調整以上算法對資源更新的計算頻率,以達到資源的實時推薦,從而達到動態(tài)的個性化推薦。
本文所提出的資源推薦策略是需要進行自我學習的,即經過對歷史數(shù)據(jù)的處理和過濾,通過以上方式得到推薦的資源屬于經過過濾的優(yōu)質資源,隨著歷史數(shù)據(jù)的不斷積累,資源推薦的準確性將會越來越高。
本文作者在Talent教學管理系統(tǒng)中部署了該優(yōu)質資源推薦策略,當用戶下載某一資源時,系統(tǒng)會自動將與被下載資源相關性較強的資源推薦給用戶,以試圖減少用戶的資源搜索時間,提高優(yōu)質資源的利用率。系統(tǒng)實現(xiàn)效果如圖1所示。
圖1 系統(tǒng)實現(xiàn)效果圖
信息技術高速發(fā)展,網(wǎng)絡學習已成為當代教育背景下學習的重要方式之一,而且許多地區(qū)或者院校都建立了區(qū)域性的資源共享網(wǎng)絡,網(wǎng)絡資源十分豐富。然而在資源紛繁復雜的情況下,用戶很難在短時間內尋找到自己真正需要的資源,因此,優(yōu)質教學資源的推薦成為網(wǎng)絡學習應用中的一個重要環(huán)節(jié)。
本文提出了基于Pearson相關度和標簽相結合的優(yōu)質資源推薦策略,它根據(jù)用戶本身特點,提供個性化的優(yōu)質教學資源推薦。本文作者將其部署到Talent教學資源管理系統(tǒng)中,進行了實際檢驗,結果表明,本策略比較好的實現(xiàn)了優(yōu)質教學資源的推薦。一方面使得優(yōu)質的教學資源得到充分的利用;另一方面,節(jié)約了用戶的時間,提高了學習效率,說明此策略具有較好的實用性。隨著科技的不斷發(fā)展,智能化成為時代發(fā)展的方向,我們有理由相信,未來的網(wǎng)絡學習將會更加智能、高效。
[1]荊永君,李兆君,李昕.基礎教育資源網(wǎng)中個性化資源推薦服務研究[J].中國電化教育,2009(8):102-105.
[2]G.Linden,B.Smith and J.York.Amazon.com Recommendations:Item-to-item Collaborative Filtering[J],IEEE Internet Computing,2003(7):76–80.
[3]楊焱,孫鐵利,邱春艷.個性化推薦技術的研究[J].信息工程大學學報,2005(6):84-87.
[4]Toby Segaran.Programming Collective Intelligence:Building Smart Web 2.0 Applications[M]. O'Reilly Media,2007.
[5]項亮.推薦系統(tǒng)實踐[M].人民教育出版社,2012.
[6]王永固,邱飛岳,趙建龍,劉暉.基于協(xié)同過濾技術的學習資源個性化推薦研究[J].遠程教育雜志,2011(3).