黃金晶
(蘇州工業(yè)園區(qū)服務(wù)外包職業(yè)學(xué)院 軟件與服務(wù)外包學(xué)院,江蘇 蘇州 215104)
一種基于Web挖掘技術(shù)的遠(yuǎn)程個(gè)性化學(xué)習(xí)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
黃金晶
(蘇州工業(yè)園區(qū)服務(wù)外包職業(yè)學(xué)院 軟件與服務(wù)外包學(xué)院,江蘇 蘇州 215104)
將Web挖掘技術(shù)應(yīng)用于遠(yuǎn)程教育,設(shè)計(jì)一種個(gè)性化學(xué)習(xí)平臺(tái),通過(guò)收集用戶的訪問(wèn)行為,分析用戶的訪問(wèn)模式,為教師進(jìn)行分組網(wǎng)絡(luò)教學(xué)、資源推送提供依據(jù),有助于用戶實(shí)現(xiàn)個(gè)性化學(xué)習(xí)。
遠(yuǎn)程教育;Web挖掘;個(gè)性化學(xué)習(xí)
遠(yuǎn)程教育是傳統(tǒng)教育的補(bǔ)充,它建立在現(xiàn)代信息技術(shù)平臺(tái)上,是一種新的教學(xué)模式[1]。隨著計(jì)算機(jī)技術(shù)不斷發(fā)展,遠(yuǎn)程教育逐漸展現(xiàn)了其突破時(shí)間、空間限制的優(yōu)勢(shì),體現(xiàn)了以學(xué)習(xí)者為中心,并能為用戶提供更加豐富的教學(xué)資源。用戶在網(wǎng)站上訪問(wèn)的過(guò)程中,會(huì)留下大量的訪問(wèn)數(shù)據(jù),將Web數(shù)據(jù)挖掘技術(shù)[2]運(yùn)用于遠(yuǎn)程教育平臺(tái)中,通過(guò)分析用戶在學(xué)習(xí)過(guò)程中的相關(guān)數(shù)據(jù),獲得用戶學(xué)習(xí)的特征信息,建立相應(yīng)的學(xué)習(xí)模型,為用戶提供個(gè)性化的學(xué)習(xí)環(huán)境。
目前,網(wǎng)絡(luò)教學(xué)在國(guó)外已成為主流教學(xué)方式之一。EML-ART是最早的個(gè)性化網(wǎng)絡(luò)教學(xué)平臺(tái)之一,現(xiàn)在美國(guó)已有超過(guò)350所高校通過(guò)網(wǎng)絡(luò)平臺(tái)來(lái)授課,如Blackboard、eCollege等。將Web挖掘技術(shù)應(yīng)用于個(gè)性化學(xué)習(xí),國(guó)內(nèi)外有較為深入的研究,利用貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等構(gòu)建學(xué)生的學(xué)習(xí)模型,預(yù)測(cè)學(xué)習(xí)者的學(xué)習(xí)動(dòng)態(tài),為學(xué)習(xí)者提供相關(guān)的學(xué)習(xí)資源。文獻(xiàn)[3]將數(shù)據(jù)挖掘技術(shù)用于在線輔助教學(xué)平臺(tái)的設(shè)計(jì)。文獻(xiàn)[4]將ID3和Apriori的算法融入個(gè)性化網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)中。文獻(xiàn)[5]根據(jù)學(xué)習(xí)者的認(rèn)知水平為用戶推薦難度適合的學(xué)習(xí)資源。本研究主要從學(xué)習(xí)者的學(xué)習(xí)興趣出發(fā),根據(jù)學(xué)生個(gè)性化的學(xué)習(xí)需求,利用top-k查詢?yōu)橛脩敉扑]最具價(jià)值的k個(gè)節(jié)點(diǎn)。
遠(yuǎn)程教育通常是通過(guò)在網(wǎng)站上的信息展示來(lái)進(jìn)行的。一個(gè)遠(yuǎn)程教育網(wǎng)站由若干頁(yè)面構(gòu)成,頁(yè)面間存在交叉鏈接。如圖1所示的是一個(gè)網(wǎng)站結(jié)構(gòu)的示意圖。用戶在學(xué)習(xí)過(guò)程中,會(huì)在各頁(yè)面間切換,且在某些特定頁(yè)面會(huì)停留一定的時(shí)間,從而形成一個(gè)學(xué)習(xí)模式,如圖2和圖3所示。
圖1 網(wǎng)站結(jié)構(gòu)圖
圖2 用戶A的學(xué)習(xí)模式
圖3 用戶B的學(xué)習(xí)模式
由圖1至圖3可以看出,用戶在學(xué)習(xí)系統(tǒng)中的學(xué)習(xí)是通過(guò)在某網(wǎng)頁(yè)(節(jié)點(diǎn))的停留來(lái)體現(xiàn)的,同時(shí)不同的用戶訪問(wèn)頁(yè)面和在頁(yè)面間切換的順序是不同的,體現(xiàn)了用戶的個(gè)性。為了便于描述系統(tǒng)的設(shè)計(jì)目標(biāo),特給出如下定義。
定義1(學(xué)習(xí)):一次學(xué)習(xí)是一個(gè)二元組〈v,t〉,其中v代表網(wǎng)站結(jié)構(gòu)圖中的某一個(gè)節(jié)點(diǎn)(即頁(yè)面),t是用戶在該節(jié)點(diǎn)停留的時(shí)長(zhǎng)。
定義2(學(xué)習(xí)模式):學(xué)習(xí)模式是由若干次學(xué)習(xí)構(gòu)成的序列S=(〈v1,t1〉,〈v2,t2〉,…,〈vn,tn〉)。
個(gè)性化學(xué)習(xí)平臺(tái)的設(shè)計(jì)目標(biāo)是建立從歷史學(xué)習(xí)模式樣本庫(kù)到某一特定用戶user的可能最感興趣的前k個(gè)節(jié)點(diǎn)的映射關(guān)系,即從網(wǎng)站訪問(wèn)歷史中為特定用戶user求出一個(gè)節(jié)點(diǎn)集合,構(gòu)成映射關(guān)系fuser∶{S1,1,S1,2,…,S1,n}→{v1,v1,…,vk}。
個(gè)性化學(xué)習(xí)平臺(tái)可以根據(jù)用戶的訪問(wèn)模式,挖掘用戶的興趣、愛好,通過(guò)相關(guān)的推送技術(shù)將用戶所需的學(xué)習(xí)資源動(dòng)態(tài)地呈現(xiàn)在頁(yè)面上,最大程度地滿足了用戶個(gè)性化學(xué)習(xí)的需求,有利于提升學(xué)習(xí)的效率。
個(gè)性化學(xué)習(xí)平臺(tái)的目標(biāo)是為某特定用戶推薦可能最感興趣的前k個(gè)節(jié)點(diǎn)。給定某特定用戶,系統(tǒng)通過(guò)top-k查詢方法[6]求出對(duì)該用戶最具推薦價(jià)值的k個(gè)節(jié)點(diǎn)。
top-k查詢方法的節(jié)點(diǎn)評(píng)價(jià)函數(shù)f(v)=αA+βB+γC,
式中:v為某一特定網(wǎng)頁(yè);A為某用戶訪問(wèn)v的頻度;B為全部用戶訪問(wèn)v的頻度;C為該用戶的相似用戶訪問(wèn)v的頻度;α、β和γ均大于0,且α+β+γ=0。
單純使用A值做推薦的缺陷是無(wú)法推薦出用戶未訪問(wèn)過(guò)的節(jié)點(diǎn);單純使用B值做推薦是基于無(wú)差別的平均值,缺乏推薦的針對(duì)性和特異性;使用f(v)=αA+βB+γC做推薦可以兼顧個(gè)人、群體和同類人群訪問(wèn)偏好,推薦效果較好。
使用f(v)值進(jìn)行推薦的難點(diǎn)是求出C值。為方便敘述C值的求解方法,特給出如下相關(guān)概念的定義。
定義3(學(xué)習(xí)模式的節(jié)點(diǎn)序列):設(shè)有學(xué)習(xí)模式S=(〈v1,t1〉,〈v2,t2〉,…,〈vn,tn〉),則稱ρ(S)=(v1,v2,…,vn)為學(xué)習(xí)模式S的節(jié)點(diǎn)序列。
定義4(學(xué)習(xí)模式的Levenshtein距離):設(shè)有學(xué)習(xí)模式S1=(〈v1,1,t1,1〉,…,〈v1,n,t1,n〉)和S2=(〈v2,1,t2,1〉,…,〈v2,m,t2,m〉),則學(xué)習(xí)模式S1和S2的Levenshtein距離[7]是指ρ(S1)和ρ(S2)之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)節(jié)點(diǎn)替換成另一個(gè)節(jié)點(diǎn),插入一個(gè)節(jié)點(diǎn),刪除一個(gè)節(jié)點(diǎn)。
定義5(學(xué)習(xí)模式相似度):設(shè)S1和S2是兩個(gè)學(xué)習(xí)模式,則S1和S2的Levenshtein距離η(S1,S2)被稱為這兩個(gè)學(xué)習(xí)模式的相似度。
定義6(用戶相似度):設(shè){S1,1,S1,2,…,S1,n}和{S2,1,S2,2,…,S2,m}分別為用戶1和用戶2的學(xué)習(xí)歷史。不失一般性,假設(shè)n 由上述定義可以看出,求f(v)值的關(guān)鍵在于求出兩個(gè)學(xué)習(xí)模式的Levenshtein距離。算法1描述了用動(dòng)態(tài)規(guī)劃方法[8]求兩個(gè)學(xué)習(xí)模式的Levenshtein距離的方法。 算法1:整數(shù)Levenshtein距離(ρ1=(v1,1,v1,2,…,v1,n),ρ2=(v2,1,v2,2,…,v2,m)) // 聲明變量,d[n,m]用于記錄(v1,1,v1,2,…,v1,n)與(v2,1,v2,2,…,v2,m)的Levenshtein距離 int d[n,m] // 初始化 for i from 0 to m do d[i,0]:=i for j from 0 to n do d[0,j]:=j // 用動(dòng)態(tài)規(guī)劃方法計(jì)算Levenshtein距離 for i from 1 to m do { for j from 1 to n do { // 計(jì)算替換操作的代價(jià),如果兩個(gè)字符相同,則替換操作代價(jià)為0,否則為1 if ρ1[i]==ρ2[j] then cost:=0 else cost:=1 // d[i,j]的Levenshtein距離,可以有 d[i,j]:=minimum ( // 在ρ1上ρ1[i]位置刪除 (或者在ρ2上i位置插入ρ1[i]) d[i-1,j]+1, // 在ρ1上j位置插入ρ2[j](或者在ρ2上j位置刪除ρ2[j]) d[i-1,j]+1, // 替換操作 d[i-1,j-1]+1+cost ) } } return d[n,m] 網(wǎng)站中的日志[9]記錄了用戶的訪問(wèn)信息,從這些日志中可以分析出不同用戶的訪問(wèn)行為。用戶的訪問(wèn)日志記錄如表1所示。 此外,當(dāng)用戶登錄到系統(tǒng),通過(guò)跟蹤用戶的行為,比如用戶點(diǎn)擊的URL、訪問(wèn)信息的類型、學(xué)習(xí)課件的內(nèi)容及時(shí)間,獲得用戶的訪問(wèn)興趣。 根據(jù)挖掘的內(nèi)容,將原始采集到的數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,將其轉(zhuǎn)變成適合挖掘的模型。比如想要對(duì)學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)的用戶進(jìn)行聚類,教師根據(jù)學(xué)生不同的學(xué)習(xí)進(jìn)度進(jìn)行資源的推送[10],可以將原始數(shù)據(jù)轉(zhuǎn)換成如表2所示的結(jié)構(gòu)。 表1 用戶訪問(wèn)日志 表2 轉(zhuǎn)換后的數(shù)據(jù)表 由表2所示的數(shù)據(jù)表明,“數(shù)據(jù)結(jié)構(gòu)”這門課程,學(xué)生在最近一段時(shí)間每個(gè)章節(jié)累計(jì)的訪問(wèn)時(shí)間,以分鐘為單位。比如Alice在章節(jié)1訪問(wèn)了5 min,在章節(jié)2訪問(wèn)了93 min,其他章節(jié)沒有訪問(wèn)。 取數(shù)據(jù)集中的80%作為推薦的素材,余下20%作為檢測(cè)推薦結(jié)果的素材。推薦結(jié)果的準(zhǔn)確率、召回率和F值見表3。 表3 推薦結(jié)果的準(zhǔn)確率、召回率和F值 圖4所示的是個(gè)性化學(xué)習(xí)模塊,通過(guò)分析用戶的學(xué)習(xí)行為,給他推送了相關(guān)學(xué)習(xí)資料,包括學(xué)習(xí)文檔、書籍等。 文獻(xiàn)[3]主要利用關(guān)聯(lián)規(guī)則挖掘,找到各章節(jié)易錯(cuò)知識(shí)的聯(lián)系,對(duì)學(xué)生的學(xué)習(xí)行為進(jìn)行指導(dǎo)。文獻(xiàn)[4]側(cè)重于利用分類算法和關(guān)聯(lián)規(guī)則挖掘算法,為用戶進(jìn)行學(xué)習(xí)策略的推薦。文獻(xiàn)[5]更多地考慮學(xué)生認(rèn)知能力水平和學(xué)習(xí)資源難度之間關(guān)系,構(gòu)建適合學(xué)習(xí)者能力水平的個(gè)性化學(xué)習(xí)機(jī)制。本文則更加關(guān)注學(xué)習(xí)者的學(xué)習(xí)興趣,利用top-k查詢,設(shè)計(jì)了相關(guān)評(píng)價(jià)函數(shù),為特定用戶推薦可能最感興趣的前k個(gè)學(xué)習(xí)資源,幫助用戶能快速找到自己感興趣的學(xué)習(xí)內(nèi)容。 圖4 個(gè)性化學(xué)習(xí)模塊實(shí)現(xiàn)圖 遠(yuǎn)程教學(xué)不同于傳統(tǒng)教學(xué)模式,學(xué)習(xí)者可以通過(guò)網(wǎng)絡(luò)根據(jù)自己的興趣、水平選擇相關(guān)的學(xué)習(xí)內(nèi)容。本研究在遠(yuǎn)程教學(xué)平臺(tái)中引入個(gè)性化服務(wù),設(shè)計(jì)了一種基于Web挖掘技術(shù)的遠(yuǎn)程個(gè)性化學(xué)習(xí)平臺(tái),教師可以根據(jù)不同類別的用戶組織網(wǎng)絡(luò)教學(xué),推送用戶感興趣的學(xué)習(xí)資源,真正做到因材施教。 [1] 王春旸.網(wǎng)絡(luò)遠(yuǎn)程教育學(xué)習(xí)行為及效果的分析研究[D].成都:西南交通大學(xué),2011. [2] 韓家煒.?dāng)?shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001. [3] 樊妍妍.基于數(shù)據(jù)挖掘個(gè)性化在線教學(xué)輔助系統(tǒng)的研究與設(shè)計(jì)[D].合肥:安徽大學(xué),2011. [4] 林真真.基于個(gè)性化學(xué)習(xí)的網(wǎng)絡(luò)教學(xué)平臺(tái)研究—以衡水科技工程學(xué)校為例[D].石家莊:河北師范大學(xué),2016. [5] 葛慶敏.基于WEB的個(gè)性化學(xué)習(xí)指導(dǎo)系統(tǒng)設(shè)計(jì)與開發(fā)[D].濟(jì)南:山東師范大學(xué),2016. [6] ROCHA-JUNIOR J B, GKORGKAS O, JONASSEN S, et al. Ef fi cient processing of top-k spatial keyword queries,2011[C]// Advances in Spatial and Temporal Database 12th Intl Symp, Minneapolis: Springer Press, 2011. [7] 姜華,韓安琪,王美佳,等.基于改進(jìn)編輯距離的字符串相似度求解算法[J].計(jì)算機(jī)工程, 2014,40(1):222-227. [8] 唐名華.?dāng)?shù)據(jù)結(jié)構(gòu)與算法[M].北京:電子工業(yè)出版社,2016. [9] 張小娣.一種改進(jìn)的Web日志挖掘數(shù)據(jù)預(yù)處理方法[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(17):160-162. [10] 朱楠.個(gè)性化推薦算法在網(wǎng)絡(luò)教學(xué)中的應(yīng)用[J].科技通報(bào),2013,29(4):127-129. Design and Implementation of a Web Mining Based on Distance Personalized Learning Platform HUANG Jin jing (School of Software and Service Outsourcing,Industrial Park Institute of Services Qutsourcing,Suzhou 215104,China) This paper applies web mining technology to the distance education and designs an individual learning platform. It collects users’ accessing behavior and analyzes their access patterns, providing the basis for group teaching with Internet and resource pushing. It is beneficial for users to realize personalized learning. distance education;Web mining;personalized learning TP391 A 1008-5475(2017)04-0020-05 10.16219/j.cnki.szxbzk.2017.04.006 2017-08-02; 2017-08-20 江蘇省現(xiàn)代教育技術(shù)課題(2015-R-41388) 黃金晶(1984-),女,安徽黃山人,講師,博士生,主要從事數(shù)據(jù)挖掘研究。 黃金晶.一種基于Web挖掘技術(shù)的遠(yuǎn)程個(gè)性化學(xué)習(xí)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].蘇州市職業(yè)大學(xué)學(xué)報(bào),2017,28(4):20-24. (責(zé)任編輯:李 華)4 驗(yàn)證與效果
4.1 數(shù)據(jù)采集與處理
4.2 方法與結(jié)果
4.3 實(shí)現(xiàn)效果
4.4 方法對(duì)比
5 結(jié)論
蘇州市職業(yè)大學(xué)學(xué)報(bào)2017年4期