李寧 劉志勤 王耀彬
摘 要:本平臺通過引入社會化標簽,改進了推薦算法,彌補了協(xié)同過濾算法的數(shù)據(jù)稀疏問題,通過社會化標簽對學(xué)習(xí)資源進行標注,進而計算出學(xué)習(xí)資源間的相似度,得到用戶對未評分資源的評分,填充了評分矩陣。本平臺對學(xué)習(xí)者和學(xué)習(xí)資源建模的過程進行了詳細的闡述,尤其注重了對學(xué)習(xí)者隱形數(shù)據(jù)的提取和收集,為學(xué)習(xí)者更準確地推薦他們感興趣的學(xué)習(xí)資源。
關(guān)鍵詞:社會化標簽;學(xué)習(xí)平臺;協(xié)同過濾
中圖分類號:TP311.56 文獻標志碼:B 文章編號:1673-8454(2014)19-0044-04
引言
泛在學(xué)習(xí)是一種隨時隨地的、個性化的學(xué)習(xí)過程,是人們最喜歡的一種學(xué)習(xí)模式。泛在學(xué)習(xí)是現(xiàn)在信息社會最流行的一種非正式學(xué)習(xí)方式,它彌補了數(shù)字學(xué)習(xí)的不足和限制,也是構(gòu)建學(xué)習(xí)型社會的主要途徑之一。泛在學(xué)習(xí)環(huán)境中需要數(shù)量巨大的各類學(xué)習(xí)資源,但由于泛在學(xué)習(xí)的隨時隨地性與個性化等特點,學(xué)習(xí)主體對各類資源的需求層出不窮,如果能在數(shù)量巨大的各類學(xué)習(xí)資源中找到學(xué)習(xí)者需要的學(xué)習(xí)資源,屏蔽那些學(xué)習(xí)者不喜歡的學(xué)習(xí)資源,建立起這種學(xué)習(xí)者與學(xué)習(xí)資源的匹配機制,將大大提高學(xué)習(xí)者的學(xué)習(xí)效率。[1]不同的學(xué)習(xí)者興趣愛好不同,為不同的學(xué)習(xí)者提供自己喜歡的學(xué)習(xí)資源,讓學(xué)習(xí)資源來適應(yīng)學(xué)習(xí)者,這將是以后研究的熱點。
一、個性化學(xué)習(xí)的現(xiàn)狀
目前絕大多數(shù)的網(wǎng)絡(luò)學(xué)習(xí)資源平臺都可以對本平臺的資源進行管理,可以進行資源的分類瀏覽和基于關(guān)鍵知識點的資源檢索功能,當不同的學(xué)習(xí)者訪問網(wǎng)絡(luò)學(xué)習(xí)資源平臺,平臺為所有學(xué)習(xí)者的服務(wù)是完全一樣的,未考慮每位學(xué)習(xí)者的個性化需求,不能為學(xué)習(xí)者提供他們需要的、想要的服務(wù)和需求。 “大量資源”和個性化學(xué)習(xí)網(wǎng)絡(luò)的人的需求之間的矛盾就已經(jīng)存在,這種矛盾的存在,一方面降低了資源的有效利用、造成了資源的浪費;另一方面給學(xué)習(xí)者使用資源帶來了諸多困難。[2]
個性化推薦是目前一種重要的解決“信息過載”問題和提供個性化服務(wù)的方案。個性化推薦是利用已有的Web用戶興趣愛好和行為信息,講web學(xué)習(xí)者和學(xué)習(xí)資源關(guān)聯(lián)起來,通過Web用戶與Web用戶、Web用戶與學(xué)習(xí)資源之間相似性、相關(guān)性關(guān)系挖掘和發(fā)現(xiàn)學(xué)習(xí)者潛在感興趣的學(xué)習(xí)資源,進而對Web學(xué)習(xí)者進行個性化推薦服務(wù)。本質(zhì)上是對信息進行帥選、提取,它根據(jù)Web用戶的偏好、興趣等,對其提供具有個性化特征的信息產(chǎn)品推薦。
二、推薦策略的組合使用
1.社會化標簽的引入
社會化標簽是近幾年新使用的一種標注網(wǎng)絡(luò)資源的工具,其思想是根據(jù)用戶的訪問內(nèi)容來判斷用戶的行為和需求,和基于內(nèi)容的推薦很類似?;趦?nèi)容的推薦技術(shù)是以資源信息為研究對象,利用信息檢索技術(shù)來分析項目的內(nèi)容,通常應(yīng)用鄰居函數(shù)和分類技術(shù)來分析和聚類項目的文本內(nèi)容,并基于項目特征與用戶檔案產(chǎn)生推薦。[3]通過使用社會化標簽,資源信息變得更加準確和明白,進而給資源信息定義了一種新的社會屬性。
標簽由用戶定義,反應(yīng)了用戶的興趣偏好,我們可以通過分析用戶標簽來判斷出用戶的興趣愛好。同時,標簽表達了與資源之間的語義關(guān)系,可以用來分析資源的潛在屬性。我們可以根據(jù)標簽建立相似資源集,為目標用戶找到感興趣的學(xué)習(xí)資源,同時社會化標簽還提供了解決冷啟動問題的方法。
因為標簽可以由用戶自己定義,會遇到同義詞標簽的問題,解決方法為:通過窮舉的方式查詢同義詞庫,對同義詞標簽進行歸一。
2.協(xié)同過濾算法的改進
(1)通過社會化標簽計算資源之間的相似度
對于新增的學(xué)習(xí)者,由于學(xué)習(xí)者對資源的評分很少,不能進行很好的協(xié)同過濾的推薦,這就是冷啟動問題。這里我們根據(jù)用戶注冊時填寫的興趣標簽,向?qū)W習(xí)者推送學(xué)習(xí)者所感興趣標簽相似度最大的資源。
對于評分數(shù)據(jù)稀疏的問題,我們通過社會化標簽計算資源之間的相似度,通過資源間的相似度來對評分矩陣進行進一步的填充。其流程如圖1所示。
1)計算資源之間的相似度。這里使用向量空間模型(VSM)對資源和社會化標簽進行描述,向量空間模型就是用一組關(guān)鍵詞及其權(quán)重(形如((key1,weighty1),(key2,weight2),(key3,weighty3),(keyn,weightyn)),其中n為關(guān)鍵詞維度)。這里的關(guān)鍵詞即轉(zhuǎn)換為社會化標簽,而權(quán)重通過TF-IDF算法計算得來(具體計算時,對于資源——標簽,weight的計算公式為:tag在該資源中年出現(xiàn)的次數(shù)/該資源所有的標簽數(shù) + tag標識過的資源數(shù)量/總的資源數(shù)量),形成(tag1,weight1), (tag2,weight2), (tag3,weight3)……(tagn,weightn)再根據(jù)標簽和資源形成資源—標簽矩陣表。[4]
2)通過Pearson算法計算資源之間的相似度,選取相似度最大K個資源。Pearson算法:Tij表示標簽i和標簽j所標注的資源的交集,j表示標簽j所占的平均權(quán)重,i表示標簽i所占的平均權(quán)重。
3)根據(jù)資源的相似度來填充學(xué)習(xí)者——資源評分矩陣,解決數(shù)據(jù)稀疏問題。相似資源的集合Su,Rn,表示資源n的評分,sim(u,n)表示資源u、n的相似度,u表示資源u所得到的平均評分。
(2)通過協(xié)同過濾算法得到最相似的Top-N個學(xué)習(xí)者
協(xié)同過濾算法是根據(jù)學(xué)習(xí)者和資源的評分矩陣,計算出學(xué)習(xí)者之間的相似度,來推算出那些學(xué)習(xí)者沒有進行評分的資源的評分,并且系統(tǒng)綜合學(xué)習(xí)者的興趣愛好,給學(xué)習(xí)者推送他們可能會評分高的資源[10]?;趨f(xié)同過濾的個性化推薦具體流程:
1)得到m個用戶對n個資源的評分矩陣。
2)通過Pearson算法計算用戶的相似度,選取相似度最大的前k個用戶。
Pearson算法:Iij表示用戶i評過分的項目和j評過分的項目的交集,j表示用戶j評分的平均分。endprint
3)根據(jù)用戶的相似度得到用戶對其他的沒有評過分的項目的評分,產(chǎn)生推薦。相似用戶的集合Su,Rn,j表示用戶n對項目i的評分,sim(u,n)表示用戶u、n的相似度,u表示用戶u對項目的平均評分。
三、學(xué)習(xí)平臺的架構(gòu)
本學(xué)習(xí)平臺設(shè)計主要分為三部分:學(xué)習(xí)者管理模塊、資源管理模塊、個性化推薦模塊。其總體架構(gòu)如圖2所示。
學(xué)習(xí)資源建設(shè)主要通過兩種方式:服務(wù)器中存放的大部分的學(xué)習(xí)資源、學(xué)習(xí)者自己上傳自己感興趣的資源。學(xué)習(xí)者模塊主要是記錄學(xué)習(xí)者的學(xué)習(xí)情況,分析學(xué)習(xí)者的興趣愛好。學(xué)習(xí)者和資源之間有一個資源描述文件,該文件記錄了資源本身的內(nèi)容特征、學(xué)習(xí)者訪問的次數(shù)、訪問的時間和各種行為,形成一種學(xué)習(xí)者和資源之間的關(guān)系表。
個性化推薦模塊是平臺的主要功能模塊。該模塊中最主要的是推薦算法,推薦算法的使用直接會影響到本系統(tǒng)的準確性。該平臺采組合使用了多種推薦算法,引入了社會化標簽,并且對協(xié)同過濾算法做了一定的改進。
四、學(xué)習(xí)者模型和資源模型的具體構(gòu)建
1.學(xué)習(xí)者模型
對學(xué)習(xí)者的學(xué)習(xí)興趣抽取,并對興趣愛好進行量化,建立學(xué)習(xí)者模型,并且不斷地更新用戶的興趣變化,進一步地完善學(xué)習(xí)者模型,凸顯出以學(xué)習(xí)者為中心的學(xué)習(xí)理念[2]。其創(chuàng)建流程如圖3所示。
(1)顯性數(shù)據(jù)的獲取
顯性數(shù)據(jù)主要包括學(xué)習(xí)者注冊時填寫的學(xué)習(xí)者的基本學(xué)習(xí)情況和相關(guān)的興趣愛好以及學(xué)習(xí)者的直接評分和評價。學(xué)習(xí)者注冊信息主要有學(xué)習(xí)者的教育層次、正在學(xué)習(xí)的課程資源、使用的資源標簽、喜歡觀看視頻還是文字等。其相關(guān)數(shù)據(jù)如表所示。
(2)隱性數(shù)據(jù)的獲取
學(xué)習(xí)者在平臺中學(xué)習(xí)時,對學(xué)習(xí)資源就會產(chǎn)生收藏、下載、瀏覽、在頁面停留的時間、瀏覽的次數(shù)和評價等學(xué)習(xí)行為,這些學(xué)習(xí)行為就表現(xiàn)出了他的學(xué)習(xí)興趣,我們將學(xué)習(xí)者的學(xué)習(xí)動作收集并記錄下來。根據(jù)學(xué)習(xí)者的行為的不同進行打分,作為學(xué)習(xí)者對資源的評分。[5]例如:瀏覽一次得2分、瀏覽并且收藏了得4.5分等。
用戶特征的提取中,不同用戶的瀏覽行為反映了不同用戶的興趣愛好,而且,用戶的興趣總會隨著時間的變化,具有一定的漂移性,動態(tài)轉(zhuǎn)移的。這樣,在用戶模型中,用戶的興趣度值也會相應(yīng)變化的;用戶對感興趣的資源也會在一段時間內(nèi)是高頻點擊瀏覽的,時間也是會越長的,那么,用戶就會對其相應(yīng)感興趣的資源的興趣度值也會提高。[6]
2.學(xué)習(xí)資源模型
學(xué)習(xí)資源是學(xué)習(xí)者學(xué)習(xí)、交流、互動的根本和媒介,建立符合學(xué)習(xí)者的學(xué)習(xí)資源模型同樣重要,目前大多數(shù)學(xué)習(xí)資源的建立都是根據(jù)學(xué)習(xí)者的學(xué)習(xí)需求建立的,但是學(xué)習(xí)資源之間的聯(lián)系很松散,學(xué)習(xí)資源都是在雜亂無序的生長,所以我們對學(xué)習(xí)資源進行統(tǒng)一的管理和歸類。[7]
學(xué)習(xí)資源分為學(xué)習(xí)主題、學(xué)習(xí)文檔、學(xué)習(xí)序列,每個資源都必須要用兩個以上的標簽進行標注,這樣每個學(xué)習(xí)資源都用標簽來代替,標簽的引入有助于對資源內(nèi)容進行分類,實現(xiàn)資源的統(tǒng)一管理和高度共享。
五、展望
1.推薦系統(tǒng)實時性的提高
推薦系統(tǒng)都需要學(xué)習(xí)者的反饋,所以會產(chǎn)生一個冷啟動的問題,一個新的資源很難很快地推薦給學(xué)習(xí)者。如果系統(tǒng)可以及時地向?qū)W習(xí)者推薦新的學(xué)習(xí)資源,推薦的質(zhì)量就要受到很大的影響,如何保證這兩個的協(xié)調(diào)需要進一步的研究。
2.深化學(xué)習(xí)資源特征的描述
可以把學(xué)習(xí)資源先根據(jù)某些標準進行分類,并且和學(xué)習(xí)者的教育級別相結(jié)合,在大的方向上向?qū)W習(xí)者推薦。隨著信息時代的發(fā)展,信息量的擴大,數(shù)據(jù)挖掘技術(shù)的發(fā)展,我們可以將協(xié)同過濾算法和數(shù)據(jù)挖掘相結(jié)合,向?qū)W習(xí)者更準確地推薦學(xué)習(xí)資源。同時加大對新的資源的引入和分類,將信息更及時地推向給學(xué)習(xí)者。
參考文獻:
[1]楊麗娜,肖克曦,劉淑霞.面向泛在學(xué)習(xí)環(huán)境的個性化資源服務(wù)框架[J].中國電化教育,2012(7):84-88.
[2]楊麗娜,顏志軍,孟昭寬.基于個性化推薦思想的虛擬社區(qū)學(xué)習(xí)共同體動態(tài)構(gòu)建[J].現(xiàn)代教育技術(shù),2012(1):88-92.
[3]王永固.基于協(xié)同過濾技術(shù)的學(xué)習(xí)資源個性化推薦研究[J].遠程教育雜志,2011(3): 66-71.
[4]李高敏.基于協(xié)同過濾的教學(xué)資源個性化推薦技術(shù)的研究及應(yīng)用[D].北京交通大學(xué),2011:58.
[5]程成.基于社會化標簽和混合模式的教學(xué)資源個性化推薦系統(tǒng)的設(shè)計[D].北京交通大學(xué),2012:66.
[6]余勝泉,楊現(xiàn)民,程罡.泛在學(xué)習(xí)環(huán)境中的學(xué)習(xí)資源設(shè)計與共享——學(xué)習(xí)元的理念與結(jié)構(gòu)[J].開放教育研究,2009,15(1):47-53.
[7]韓李俠.網(wǎng)絡(luò)資源個性化推薦技術(shù)研究及應(yīng)用[D].西北大學(xué),2012:79.
(編輯:楊馥紅)endprint