吳振慧,繆 勇
(揚州職業(yè)大學(xué),江蘇揚州 225009)
隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的發(fā)展,越來越多的人開始通過互聯(lián)網(wǎng)進(jìn)行學(xué)習(xí)。相比于傳統(tǒng)的學(xué)習(xí)方式,網(wǎng)絡(luò)學(xué)習(xí)的優(yōu)勢在于學(xué)習(xí)者的學(xué)習(xí)活動完全不受時間、空間限制,使學(xué)習(xí)者實現(xiàn)了真正的自主學(xué)習(xí)。但目前的狀況是多數(shù)網(wǎng)絡(luò)教學(xué)平臺仍以系統(tǒng)為中心,并沒有充分考慮學(xué)生的需求與習(xí)慣,無法滿足學(xué)習(xí)者的個性化要求。主要表現(xiàn)在:
(1)現(xiàn)有的網(wǎng)絡(luò)教學(xué)網(wǎng)站基本上都是靜態(tài)的,通常只是將教師的各種教學(xué)資料堆砌在網(wǎng)站中,缺乏對不同學(xué)習(xí)內(nèi)容之間的合理性設(shè)計。
(2)不同層次的學(xué)生所能夠利用的網(wǎng)絡(luò)資源都是相同的,缺乏對學(xué)生自主學(xué)習(xí)的個性化引導(dǎo)和推薦。
(3)現(xiàn)有網(wǎng)絡(luò)教學(xué)平臺對資源信息的檢索支持程度還比較弱,學(xué)習(xí)者難以高效地尋找到自己真正需要的學(xué)習(xí)資源。[1]
上述這些問題制約了網(wǎng)絡(luò)教學(xué)的進(jìn)一步發(fā)展。如何建立一個個性化智能化的網(wǎng)絡(luò)教學(xué)環(huán)境,成為網(wǎng)絡(luò)教學(xué)平臺開發(fā)和利用中的一個關(guān)鍵問題。
針對這個問題,本文提出將智能推薦技術(shù)運用到網(wǎng)絡(luò)教學(xué)平臺中,并以基于頻繁項集的資源推薦為例進(jìn)行具體的推薦,以此為學(xué)習(xí)者提供智能化服務(wù)。
智能推薦就是能夠根據(jù)不同用戶的興趣愛好提供有針對性服務(wù)的一種技術(shù)。智能推薦系統(tǒng)能夠根據(jù)不同用戶的個性特征,為他們做出個性化的推薦。目前,智能推薦系統(tǒng)比較廣泛地應(yīng)用于電子商務(wù)和數(shù)字圖書館等領(lǐng)域,能夠根據(jù)用戶的商品購買歷史或圖書借閱記錄,按照相應(yīng)的推薦算法幫助用戶完成對其它商品或圖書的選擇。目前,幾乎所有大型的電子商務(wù)系統(tǒng),如Amazon、eBay等,都在一定程度上使用各種形式的推薦系統(tǒng),如Amazon能夠充分利用用戶的瀏覽體驗、購買歷史,以及用戶購買商品后的評價,為其他用戶做出有效的商品推薦。
所以,如果在網(wǎng)絡(luò)教學(xué)平臺中增加智能推薦服務(wù)的功能,就能有效提高學(xué)習(xí)者獲取學(xué)習(xí)資源的智能化水平,滿足不同學(xué)習(xí)者的個性化需求。[2]
學(xué)習(xí)者在利用網(wǎng)絡(luò)教學(xué)平臺學(xué)習(xí)的過程中,常常會下載自己所需的資源(如word文件、ppt文件或視頻文件等)。這些資源通常由管理員或教學(xué)工作者提供,如果規(guī)定上傳資源時必須提供關(guān)鍵字,則針對所下載資源的關(guān)鍵字組可進(jìn)行頻繁項集的挖掘。這樣,學(xué)習(xí)者在下次登錄時,系統(tǒng)就可以根據(jù)挖掘結(jié)果對學(xué)習(xí)者進(jìn)行其他相關(guān)學(xué)習(xí)資源的推薦。
類似地,學(xué)習(xí)者也會使用系統(tǒng)提供的搜索功能,尋找平臺中提供的各種教學(xué)資源,針對學(xué)習(xí)者的搜索關(guān)鍵字進(jìn)行頻繁項集挖掘,其結(jié)果也可以用于資源推薦。
對于某個數(shù)據(jù)庫的記錄而言,通常每個記錄都是由多個數(shù)據(jù)項來組成的,我們將多個數(shù)據(jù)項的集合稱為項集(Itemset),那么含有k個數(shù)據(jù)項的集合就稱k-項集。某個項集的出現(xiàn)頻率則是整個數(shù)據(jù)集中含有該項集的記錄的數(shù)量,這也被稱為這個項集的支持度(supportcount)。如果某一項集的出現(xiàn)頻率大于一定閾值的頻率就可以稱為頻繁項目集,記為Lk。
下面以2017年全國高考北京卷理科的第18題為例,對題目條件相關(guān)問題進(jìn)行了探究,以揭示看似簡單的條件背后的秘密.
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。在該算法中,尋找最大項集(頻繁項集)的基本思想是:算法需要對數(shù)據(jù)集進(jìn)行多步處理。第一步,簡單統(tǒng)計所有含一個元素項集出現(xiàn)的頻數(shù),并找出那些不小于最小支持度的項集,即1項頻繁集。從第二步開始循環(huán)處理直到再沒有頻繁項集生成。循環(huán)過程是:第k步中,根據(jù)第k-1步生成的(k-1)項頻繁項集產(chǎn)生k項頻繁侯選集,然后對數(shù)據(jù)庫進(jìn)行搜索,得到侯選項集的項集支持度,與最小支持度進(jìn)行比較,從而找到k項頻繁集。對于Apriori算法的詳細(xì)過程在此不再贅述。[3]
利用Apriori算法的頻繁項集挖掘思路,可以對登錄用戶下載資源關(guān)鍵字進(jìn)行頻繁項集挖掘,其挖掘流程如圖1所示。
在圖1所示的頻繁項集挖掘流程中,Apriori-Gen運算運用連接定理根據(jù)k項頻繁集生成k+1項頻繁候選集。若有兩個k項集,每個項集按照“屬性-值”(一般按值)的字母順序進(jìn)行排序。如果兩個k項集的前k-1個項相同,而最后一個項不同,則證明它們是可連接的,即這兩個k項集可連接生成k+1項集。如有兩個3項集:{a,b,c}{a,b,d},這兩個 3項集就是可連接的,它們可以連接生成4項集{a,b,c,d}。又如兩個3項集{a,b,c}{a,d,e},這兩個3項集顯示是不能連接生成3項集的。
假設(shè)有如下9組下載資源關(guān)鍵字:
java jsp struts,jsp spring,jsp hibernate,java jsp spring,java hibernate,jsp hibernate,java hibernate,java jsp hibernate struts,java jsp hibernate。
按上述算法及流程挖掘頻繁項集步驟如下所示:
(1)對上述9組下載資源關(guān)鍵字進(jìn)行一次掃描,對每個項進(jìn)行計數(shù)(即計算支持度),得到1項頻繁候選集 C1,其中{java}、{jsp}、{hibernate}、{spring}和{struts}支持度分別為 6、7、6、2和2。
(2)舍掉C1中支持度小于閾值(假設(shè)閾值為2)的項集,得到1項頻繁集L1,L1=C1。
圖1 基于下載資源關(guān)鍵字的頻繁項集挖掘流程圖
(3)運用Apriori-Gen運算,由1項頻繁集L1生成2項頻繁候選集C2。對上述9組下載資源關(guān)鍵字進(jìn)行第二次掃描,對C2中的每個項進(jìn)行計數(shù)。其中{java jsp}、{java hibernate}、{java spring}、{java struts}、{jsp hibernate}、{jsp spring}、{jsp struts}、{hibernate spring}、{hibernate struts}、{spring struts}的支持度分別為 4、4、1、2、4、2、2、0、1、0。
(4)舍掉C2中支持度小于閾值2的項集,得到2項頻繁集L2。L2中包括的項有:{java jsp}、{java hibernate}、{java struts}、{jsp hibernate}、{jsp spring}、{jsp struts}。
(5)運用 Apriori-Gen運算,由2項頻繁集L2產(chǎn)生3項頻繁候選集C3。C3中包括的項有:{java jsp hibernate}和{java jsp struts}。對上述9組下載資源關(guān)鍵字進(jìn)行第三次掃描,對C3中的每個項進(jìn)行計數(shù)。其中,{java jsp hibernate}和{java jsp struts}的支持度分別為2、2。
(6)舍掉C3中支持度小于閾值2的項集,得到3項頻繁集L3。L3=C3。
(7)運用Apriori-Gen運算,由3項頻繁集L3產(chǎn)生4項頻繁候選集C4。C4中只有一項,即{java jsp hibernate struts},掃描下載資源關(guān)鍵字組,計算其支持度為0,小于閾值2,因此4頻繁項集不存在。頻繁項集挖掘結(jié)束。
在網(wǎng)絡(luò)教學(xué)平臺中,當(dāng)學(xué)習(xí)者登錄后,根據(jù)學(xué)習(xí)者下載資源的頻繁項集,從系統(tǒng)其他資源(該學(xué)習(xí)者未下載或未發(fā)現(xiàn))中獲取包含頻繁項集的資源,將其通過頁面彈窗或超鏈接等方式推薦給學(xué)習(xí)者,可以有效提高學(xué)習(xí)者查找資源的效率和對平臺的滿意度。
當(dāng)某個學(xué)生登錄后,單擊“根據(jù)頻繁項集推薦”超鏈接,頁面中列出不同頻繁項集下推薦結(jié)果列表,如圖2所示。
圖2 根據(jù)關(guān)鍵字頻繁項集推薦結(jié)果
從圖2可以看出,頻繁度越高,推薦資源數(shù)越少,此時推薦的資源越接近用戶的需求。
用于推薦的資源來源于系統(tǒng)資源庫,假如系統(tǒng)中包含如圖3所示的課件資源。
圖3 系統(tǒng)課件資源列表
備注用于記錄了資源的關(guān)鍵字,資源關(guān)鍵字由教師或管理員上傳資源時提供。根據(jù)關(guān)鍵字計算頻繁項集時,不是針對所有資源的關(guān)鍵字,而是只考慮該學(xué)生已下載過(或訪問)的資源關(guān)鍵字,這樣更能反映用戶對資源的需求情況。學(xué)生下載(或訪問)資源記錄表如圖4所示。
圖4 下載(或訪問)資源記錄表
其中,stuid字段表示下載(或訪問)資源的學(xué)生編號,coursewareid表示資源的編號(課件號),以學(xué)生編號2為例,先根據(jù)其所下載(或訪問)課件資源編號獲得這些資源的關(guān)鍵字集合,然后依次計算它們的頻繁2項集、3項集…,直到找到最大頻繁項集。進(jìn)行資源推薦時,從資源庫中將該用戶未下載(或訪問)且關(guān)鍵字包含在頻繁項集中的資源顯示出來,推薦給用戶。
本文的主要任務(wù)是在網(wǎng)絡(luò)教學(xué)平臺中研究并初步實現(xiàn)智能推薦的功能。首先對智能推薦技術(shù)及挖掘頻繁項集的Apriori算法進(jìn)行簡要介紹,然后給出基于在線輔助教學(xué)系統(tǒng)中下載資源關(guān)鍵字的頻繁項集的挖掘流程,并基于頻繁項集給出推薦策略,最后對推薦結(jié)果進(jìn)行展示與分析,驗證了文中所研究的推薦技術(shù)具有一定的可行性。
[1]吳飛.新一代網(wǎng)絡(luò)教學(xué)平臺特征和技術(shù)難點的分析與探討[J].開放教育研究,2009(1):10-20.
[2]丁雪.基于數(shù)據(jù)挖掘的圖書智能推薦系統(tǒng)研究[J].情報理論與實踐,2010(5):107-110.
[3]曾子明,余小鵬.電子商務(wù)推薦系統(tǒng)與智能談判技術(shù)[M].武漢:武漢大學(xué)出版社,2008.