李艷紅 樊同科
摘要:
近年來,隨著移動互聯(lián)網(wǎng)的快速發(fā)展,各種新型的在線學(xué)習(xí)平臺開始涌現(xiàn),越來越多的人參與其中。在線平臺中課程豐富,種類繁多,如何選擇課程進行高效學(xué)習(xí)學(xué)習(xí)仍然是開放性的問題。通過對在線教育數(shù)據(jù)進行分析挖掘,構(gòu)建用戶個性化學(xué)習(xí)策略的模型。首先通過情感分析模型對課程評分進行打分,形成用戶的喜好矩陣,然后利用推薦算法,給新用戶推薦個性化的課程。實踐結(jié)果表明,該方法能在某種程度上幫助用戶進行個性化高效學(xué)習(xí)。
關(guān)鍵詞:
在線教育; 情感分析; 個性化推薦; 數(shù)據(jù)挖掘
中圖分類號: G 643
文獻(xiàn)標(biāo)志碼: A
Research on Personalized Learning Strategies Based on
Online Education Data Mining
LI Yanhong, FAN Tongke
(Institute of Technology, Xian International University, Xian, Shanxi 710077, China)
Abstract:
With the rapid development of mobile Internet, various new online learning platforms have emerged, and more and more people are participating. There are a wide variety of courses on the online platform, but how to choose courses for efficient learning is still an open question. This paper builds a model of user personalized learning strategies by analyzing and mining online education data. First, the course scores are scored through the sentiment analysis model to form the user's preference matrix, and then the recommendation algorithm is used to recommend personalized courses to new users. The practical results show that this method can help users to learn personalized and efficient to some extent.
Key words:
online education; sentiment analysis; personalized recommendation; data mining
0引言
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,涌現(xiàn)了多種多樣的在線學(xué)習(xí)平臺,類似網(wǎng)易公開課、Coursera等平臺,為人們提供了豐富的教學(xué)資源,也吸引了更多了用戶。但由于在線教學(xué)平臺豐富多樣,課程資源呈井噴式涌現(xiàn),這就使人們面臨有效選擇課程資源的問題。同時,由于網(wǎng)絡(luò)的開放性和包容性,課程教學(xué)質(zhì)量參差不齊,充斥著各種低質(zhì)量,內(nèi)容完全相同的教學(xué)資源[1]。并且,人們都有自己的學(xué)習(xí)進度,如何在已有的學(xué)習(xí)進度基礎(chǔ)上,有效的“因材施教”式推薦學(xué)習(xí)資源,從而可以幫助用戶更加高效的學(xué)習(xí)。基于此,本文通過對在線教育數(shù)據(jù)進行分析挖掘,構(gòu)建用戶個性化學(xué)習(xí)策略的模型。首先通過情感分析模型對課程評分進行打分,形成用戶的喜好矩陣,然后利用推薦算法,給新用戶推薦個性化的課程。研究結(jié)果表明,該方法能一定程度上幫助用戶進行個性化高效學(xué)習(xí)。
在線教育數(shù)據(jù)挖掘研究,屬于交叉學(xué)科研究,內(nèi)容研究相對開放,國內(nèi)外很多學(xué)者進行了探索。但是較少有將用戶行為數(shù)據(jù)、課程質(zhì)量數(shù)據(jù)和個性化學(xué)習(xí)策略等信息聯(lián)合建模?;诖?,本文通過對在線教育數(shù)據(jù)進行分析挖掘,構(gòu)建用戶個性化學(xué)習(xí)策略的模型。首先通過情感分析模型對課程評分進行打分,形成用戶的喜好矩陣,然后利用推薦算法,給新用戶推薦個性化的課程。研究結(jié)果表明,該方法能一定程度上幫助用戶進行個性化高效學(xué)習(xí)。
1數(shù)據(jù)挖掘和在線教育
數(shù)據(jù)挖掘經(jīng)常被人們稱作數(shù)據(jù)信息勘探、采礦等,主要以數(shù)據(jù)信息為對象,將現(xiàn)代信息技術(shù)手段、模式識別技術(shù)、在線統(tǒng)計分析技術(shù)、處理技術(shù)和和機器學(xué)習(xí)技術(shù)等相互融合實現(xiàn)數(shù)據(jù)信息更深層次的開發(fā)、探究、整合、分析以及處理的過程[2]。在線教育數(shù)據(jù)挖掘就是數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用,指從人們教育及學(xué)習(xí)過程所產(chǎn)生的數(shù)據(jù)中自動提取出有價值信息的技巧、工具和研究,這些信息可以為教育者、學(xué)習(xí)者、管理者和教育研究者等所利用。
在線教育數(shù)據(jù)的類型,從來源上分類,主要分為用戶信息、課程信息、習(xí)題信息、論壇信息、用戶行為信息以及知識圖譜。用戶信息是指用戶個人信息、用戶的成績等信息;課程信息是指課程介紹、課程內(nèi)容、課程時長等課程本身的信息;習(xí)題信息和課程信息類似;論壇信息包含用戶對課程的評價和帖子本身的內(nèi)容;用戶行為信息是指用戶對課程的評論、用戶選擇的課程、用戶觀看的課程時間等用戶在線教學(xué)平臺中產(chǎn)生的行為;知識圖譜是知識點的集合,由自動化和人工標(biāo)注產(chǎn)生[34]。
基于數(shù)據(jù)挖掘的在線教育的應(yīng)用,主要包括以下幾個方面:
(1) 知識圖譜的應(yīng)用研究。從學(xué)生學(xué)習(xí)與教師教學(xué)的角度出發(fā),將學(xué)生學(xué)習(xí)與教師教學(xué)的知識點進行總結(jié)匯總,從而構(gòu)建知識框架,并對每門課程的知識模塊進行構(gòu)建,便于學(xué)習(xí)與授課。
(2) 在線教育平臺中的個性化研究。為了更好地為用戶提供服務(wù),從多個數(shù)據(jù)維度研究個性化推薦服務(wù)。
(3) 智能化習(xí)題訓(xùn)練研究。通過借助知識圖譜及習(xí)題庫階段性地對知識進行鞏固,并根據(jù)學(xué)生答題的情況挑選出相關(guān)知識點,并從習(xí)題庫中智能地進行習(xí)題提取,便于學(xué)生鞏固和加強練習(xí)。
(4) 學(xué)生的多方位評價模型研究。通過利用學(xué)生觀看視頻、完成習(xí)題及課程討論等行為數(shù)據(jù)的挖掘整理,能夠?qū)W(xué)生的學(xué)習(xí)狀況進行評價,同時,能夠主動發(fā)現(xiàn)學(xué)生學(xué)習(xí)的弱點,從而給教師提供更多的輔助信息,幫助教師有效優(yōu)化課程,甚至有效改進線下教學(xué)流程。
2在線教育個性化推薦模型
用戶對于課程的評論能一定程度上反映用戶對課程的喜好程度。所以本文通過收集用戶和課程對應(yīng)的評論信息,利用文本分類模型,對課程評論進行打分,以此來構(gòu)建用戶的喜好矩陣,在此基礎(chǔ)上利用經(jīng)典的推薦算法,對用戶進行個性化課程的推薦。本文先描述評論打分模型,然后介紹推薦算法,最后在數(shù)據(jù)集上說明算法的效果。
2.1評論打分模型
用戶對課程評論的結(jié)果對于后期個性化推薦具有重要的影響。課程評論,具有文本短小,有效信息較少,傳統(tǒng)的文本分類模型,一般效果不太好[56]。本文通過利用深度學(xué)習(xí)的算法對評論進行打分,通過借助Word2vector,將短文本信息表示成低維的向量,在此基礎(chǔ)上利用神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,該方法相對于傳統(tǒng)的方法,可以有效的提高打分模型的準(zhǔn)確度和召回率。本文對于評論的打分分為1/1,1表示不喜歡該課程(實際采用0表示不喜歡該課程),1表示喜歡該課程。問題的定義具體如下。
R={r1,r2,…,rn}表示課程評論數(shù)據(jù)集合,每條課程評論樣本的特征集合用X表示,相應(yīng)的類別標(biāo)簽用Y表示:{正面評論,負(fù)面評論}。P表示正負(fù)面評論的可能概率。P∈[0, 1]。F表示n*m的特征矩陣,n表示樣本的總數(shù),m表示特征的總數(shù)|X|,yi表示第i條樣本的預(yù)測結(jié)果如式(1)。
其中Θ表示分類模型的閾值。實驗過程中該值是0.45。
在問題定義的基礎(chǔ)上,通過設(shè)計具體的神經(jīng)網(wǎng)絡(luò)模型來對課程評論進行打分。課程評論打分的深度學(xué)習(xí)模型,如圖1所示。
該神經(jīng)網(wǎng)絡(luò),主要分為5個模塊。依次是輸入層、卷積層、池化層、全連接層和輸出層。輸入層是對評論文本進行切詞,利用onehot對文本進行表示。卷積層是在將輸入層的onehot特征,利用embedding方法轉(zhuǎn)換為低維向量表示,
然后利用不同大小的卷積抽取文本特征[7]。池化層對卷積
層的數(shù)據(jù)進行歸一化處理,將不同維度的卷積核轉(zhuǎn)換為相同
維度。全連接層,對池化層的輸出進行線性關(guān)系學(xué)習(xí),學(xué)習(xí)更多的文本特征表示。輸出層主要是對樣本進行預(yù)測,首先利用ReLu函數(shù)對全連接層的線性關(guān)系進行非線性變換,然后利用SoftMax函數(shù)具體進行分類打分。該網(wǎng)絡(luò)結(jié)構(gòu)能夠有效學(xué)習(xí)短文本的潛在的語義空間,從而有效學(xué)習(xí)用戶對課程的打分預(yù)測。
2.2課程推薦模型
在用戶對課程打分的基礎(chǔ)上,通過收集用戶、課程以及對應(yīng)評論的關(guān)系,來構(gòu)建用戶的喜好矩陣,在此基礎(chǔ)上利用推薦算法訓(xùn)練在線課程的個性化學(xué)習(xí)模型。文本采用協(xié)同過濾的推薦算法進行模型訓(xùn)練和預(yù)測。算法的具體流程,如圖2所示。
在協(xié)同過濾推薦算法中,用m × n的喜好矩陣表示用戶對課程的喜好程度,一般打分越高表示用戶越喜歡這個課程。0表示沒有選擇該課程。圖2中喜好矩陣的行表示擁護,列表示一門課程,Uij表示用i對課程j的喜好程度。CF算法分為兩個流程:預(yù)測和推薦。預(yù)測過程主要是預(yù)測用戶對沒有選擇課程的可能打分,推薦過程是根據(jù)預(yù)測階段的結(jié)果,推薦用戶最可能喜歡的TopN個課程。
3實驗結(jié)果與分析
為使得研究結(jié)果具有真實意義,本實驗采用案例分析法,以西安外事學(xué)院網(wǎng)絡(luò)綜合教學(xué)平臺上開展的網(wǎng)絡(luò)教學(xué)課程為數(shù)據(jù)來源,采集了自2015年9月到2018年9月平臺可到的用戶信息數(shù)據(jù),其中包括55 688名學(xué)習(xí)者,992門課程。
3.1實驗設(shè)置
在實驗中為了與標(biāo)準(zhǔn)數(shù)據(jù)格式相統(tǒng)一,篩選了記錄數(shù)大于20條的用戶,數(shù)據(jù)源是從隨機篩選出的5500名用戶及992門課程中進行選取,在選取的數(shù)據(jù)集中,對用戶學(xué)習(xí)過的課程的進度進行統(tǒng)計,并根據(jù)課程學(xué)習(xí)進度的百分比映射為相應(yīng)的等級表示用戶對課程的真實反饋。從而對用戶的基本信息進行處理和提取,作為模型輸入的一部分,我們將按照用戶的性別、所屬專業(yè)總共提取了25個用戶屬性類別,包括計算機科學(xué)與技術(shù)、會計、工商管理、電子商務(wù)等。從課程信息中,按照網(wǎng)絡(luò)綜合平臺對課程的分類,一共選取了45個課程類別。
通過爬蟲程序+人工標(biāo)注的方法收集數(shù)據(jù)來進行實驗,其主要包含兩份數(shù)據(jù)集:課程評論數(shù)據(jù)集和推薦課程Top 5數(shù)據(jù)集。DataSet1數(shù)據(jù)集包含18 121條課程評論信息,通過人工篩選和校準(zhǔn)的方式進行標(biāo)注,課程評論可能存在無效重復(fù)的評論信息,為了消除重復(fù)的內(nèi)容,需要進行文本去重,本文認(rèn)為信息有超過90%的 bigram 匹配,則認(rèn)為數(shù)據(jù)是重復(fù)的。通過特征選擇,從數(shù)據(jù)集的多門課程中得到相關(guān)的推薦課程數(shù)據(jù)集DataSet2,其數(shù)據(jù)集包含1 031個學(xué)生的Top 5推薦課程。
3.2評價指標(biāo)
實驗采用評估分類性能方面的常用評價指標(biāo):召回率、準(zhǔn)確率[8]。召回率和準(zhǔn)確率是分類任務(wù)借鑒信息檢索任務(wù)中的評價指標(biāo)。在信息檢索中,通常采用精準(zhǔn)率(Precision)和召回率(Recall)來衡量檢索出來的信息的質(zhì)量。一般將相關(guān)文檔稱為為正例(Positive),不相關(guān)文檔稱為負(fù)例(Negative)。在整個信息檢索過程中[9],一般會產(chǎn)生四種結(jié)果:TP、TN、FP和FN。TP是指搜索引擎正確地檢索到相關(guān)文檔;TN是指正確地未檢索到不相關(guān)文檔,即將不相關(guān)的文檔正確進行過濾了;FP是錯誤地檢索到相關(guān)文檔,即將不相關(guān)的文檔認(rèn)為是相關(guān)文檔了;FN是錯誤地未檢索到相關(guān)文檔,也就是相關(guān)文檔沒有被檢索到。對應(yīng)關(guān)系如表1所示。
3.3實驗結(jié)果與分析
在訓(xùn)練數(shù)據(jù)集 DataSet1采用傳統(tǒng)詞特征+SVM和深度學(xué)習(xí)改進算法的對比實驗所獲得的效果,如下表2所示:
從上表可以看出,傳統(tǒng)詞特征+SVM算法的分類效果,比本文提出的深度學(xué)習(xí)方法的分類效果表現(xiàn)稍差,本文通過利用Word2vec的詞向量表示,極大豐富了短文本的語義信息,在此基礎(chǔ)上利用深度網(wǎng)絡(luò)結(jié)構(gòu)進行學(xué)習(xí),能夠極大提高打分模型的精準(zhǔn)度和召回率。
將采用多次隨機分隔數(shù)據(jù)集,選取學(xué)校網(wǎng)絡(luò)綜合平臺課程其中的80%打分?jǐn)?shù)據(jù)作為訓(xùn)練集,其它的作為測試集,實驗通過對數(shù)據(jù)多次計算得到的平均值作為最終結(jié)果。
在學(xué)生課程評論的喜好矩陣的前提下,推薦算法在DataSet2中的實驗結(jié)果如表3所示:
從上表中可以看出,基于課程評論的喜好矩陣基礎(chǔ)上,利用推薦算法構(gòu)建在線課程的個性化學(xué)習(xí)模型效果較好,能夠滿足實際需要,從而幫助學(xué)生進行個性化高效學(xué)習(xí)。
4總結(jié)
文本首先分析了在線教育存在的問題,并具體介紹了數(shù)據(jù)挖掘?qū)τ谠诰€教育的助益,在此基礎(chǔ)上上提出了基于在線教育數(shù)據(jù)挖掘的個性化學(xué)習(xí)模型。首先利用深度學(xué)習(xí)算法預(yù)測用戶對課程的喜好程度,以此來構(gòu)建用戶的喜好矩陣,然后在此基礎(chǔ)上利用協(xié)同過濾算法學(xué)習(xí)個性化推薦模型,實驗結(jié)果表明,基于深度學(xué)習(xí)的課程評分模型,相較于傳統(tǒng)文本處理模型,有較大提升,同時實驗結(jié)果表明,本文提出的個性化學(xué)習(xí)策略能夠滿足實際需要,能夠有效改進用戶的學(xué)習(xí)體驗和效率。
參考文獻(xiàn)
[1]
West Darrell M. Big Data for Education: Data Mining, Data Analytics, and Web Dashboards.
Governance Studiesat Brookings [R].Washington: Brookings Institution, 2012:110.
[2]Ensan F, Du WC. A semantic metrics suite for evaluating modular ontologies[J].Information System, 2013,38(5): 745770.
[3]W. Feng and Jie Tang and Tracy Xiao Liu.Understanding Dropauts in MOOCs[C].The ThirtyThird AAAI Conference on Artifical Intelligence (AAAI19), pages 517524, Hilton Hawaiian Village, Honolulu, Hawaii, USA, January 27February 1,2019.
[4]Maeve Duggan, Nicole B Ellison.Social Media Update 2014[R].Washington: Pew Research Center, 2015.
[5]Tair M M A, ElHalees A M. Mining educational data to improve students' performance: a case study[J].International Journal of Information, 2012, 2(2): 140146.
[6]Iyyer M, Manjunatha V, BoydGraber J, et al. Deep unordered composition rivals syntactic methods for text classification[C].Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing:papes 1681—1691, Beijing, China, July 2631, 2015.
[7]Shen T, Zhou T, Long G, et al. Disan: Directional selfattention network for rnn/cnnfree language understanding[C].The ThirtySecond AAAI Conference on Artificial Intelligence:(AAAI—18), pages 5446—5455, New Orleans, Louisiana USA, February 27, 2018.
[8]Wang M, Zheng X, Yang Y, et al. Collaborative filtering with social exposure: A modular approach to social recommendation[C].The ThirtySecond AAAI Conference on Artificial Intelligence (AAAI18), pages 2516—2523, New Orleans, Louisiana USA, February 27, 2018.
[9]Mansour Y, Mohri M, Rostamizadeh A. Domain Adaptation with Multiple Sources.[J].Nips, 2008(2):10411048.
(收稿日期: 2019.05.21)
基金項目:
陜西省教科所十三五規(guī)劃項目(SGH18H535);
陜西省2019年重點研發(fā)計劃項目(2019NY055)
作者簡介:
李艷紅(1978),女,碩士,講師,研究方向:大數(shù)據(jù)、教育技術(shù)。
樊同科(1979),男,碩士,副教授,研究方向:數(shù)據(jù)挖掘。
文章編號:1007757X(2020)08004503