国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機器學習的中文MOOC教育學員流失預測研究*

2019-07-12 09:24:58王曉芳賈宗維
中國教育信息化 2019年11期
關鍵詞:學堂特征提取預測

王曉芳,賈宗維

(1.晉中師范高等??茖W校,山西 晉中 030600;2.山西農(nóng)業(yè)大學 信息科學與工程學院,山西 太谷 030801)

一、引言

2013年10月清華大學基于edX平臺的開源代碼,開發(fā)建設的第一個中文MOOC平臺“學堂在線”正式上線,開啟了中國MOOC教育的先河。[1]教育以一種全新的視角呈現(xiàn)在世人面前,上至高等教育,下至中小學教育,MOOC給整個教育領域帶來了巨大的影響。[2]

截至2018年12月底,全球已有900多所大學加入MOOC,上線1.14萬門課程,注冊學員數(shù)達1.01億,其中學堂在線平臺擁有1400萬學員。[3]如此眾多的MOOC課程產(chǎn)生了前所未有的、海量的、多樣化的教育大數(shù)據(jù),國內(nèi)外研究人員已在學習行為分析、效果評估、學員流失、教學模式等方面開展了諸多卓有成效的應用研究。Akshay Agrawal和Shane Leonard[4]以機器學習算法分析研究了學生對論壇不同主題的關注程度,Ravichandran等[5]利用論壇分數(shù)建立回歸模型用于預測學員最終成績,哈佛大學Ho A D.Harvard X和 MITx[6]研究了edX平臺上17門課程在線學員的課程注冊與完成率之間的相互關系。國內(nèi)學者王雪宇等[7]分析對比了中美學習者MOOC學習行為,并對學員的輟學進行了預測研究,盧曉航等[8]利用滑動窗口模型動態(tài)預測Coursera平臺上學員的輟學行為,獲得了較高的準確率。近期學堂在線發(fā)布了39門課程,共計800多萬條學員學習日志記錄,為中文MOOC教育學員流失分析研究提供了重要數(shù)據(jù)支撐。

二、數(shù)據(jù)分析

1.數(shù)據(jù)集描述

學堂在線公布數(shù)據(jù)集采用CSV格式發(fā)布,該格式主要應用在程序間相互轉移表格數(shù)據(jù),在科學研究和商業(yè)領域被廣泛應用。數(shù)據(jù)集共包含5類8個CSV格式文件,分為訓練集、測試集、課程基本信息、開課周期、驗證集等。數(shù)據(jù)集情況說明如表1所示。

表1 學堂在線數(shù)據(jù)集說明

其中,數(shù)據(jù)集中 enrollment_train,enrollment_test、log_train和log_test、true_train主要文件各字段涵義說明如表2所示。

表2 數(shù)據(jù)文件說明

2.數(shù)據(jù)預處理

(1)加密字段數(shù)字化映射

通過對數(shù)據(jù)集的觀察發(fā)現(xiàn),多個文件中username、course_id列是以加密字符顯示,為了后續(xù)數(shù)據(jù)處理,需要把這些加密字符映射為不同的數(shù)字化形式,通過Python中的dictionary對這些字符進行一對一字典數(shù)字化處理。最終形成如圖1所示的情況。

圖1 username、course_id加密字符數(shù)字化映射

(2)date.csv文件記錄了課程的開始和結束時間,通過增加一列day_num數(shù)值型數(shù)據(jù),用來統(tǒng)計每門課程持續(xù)的天數(shù),以方便后續(xù)特征提取時使用。結果如圖2所示。

圖2 課程持續(xù)天數(shù)day_nums

(3)將數(shù)據(jù)文件date.csv分別與enrollment_test.csv、enrollment_train.csv進行左連接處理,新生成的文件將包含MOOC學員所選每門課程的編號、起止時間、開課天數(shù)等數(shù)據(jù)信息,同樣作為后續(xù)特征提取使用。

(4)學員對課程的每一種學習事件的產(chǎn)生時間與課程的起始時間間隔,反映了每位學員對每門課程的學習積極程度,這一重要的學習行為特征將是學員流失預測的主要因素。通過對數(shù)據(jù)文件的操作,增加interval數(shù)值列用于存放該數(shù)據(jù),操作結果如圖3所示。

圖3 interval關鍵特征

(5)對數(shù)據(jù)文件 truth_trian、enrollment_train 連接處理,生成enrollment_dropout文件,并增加course_num、nondropout_num、dropout三列。前者表示學員選課門數(shù),后者表示學員持續(xù)學習(未流失)課程門數(shù)。假如后者大于前者的一半,則置dropout(流失)為0,否則為1。操作結果如圖4所示。

圖4 enrollment_dropout.csv文件說明

三、特征提取

1.基本特征選擇

通過對 “學堂在線”公開日志訓練數(shù)據(jù)集進行分析和處理操作,篩選反映學習行為狀態(tài)的四個基本特征,分別是選課門數(shù)、持續(xù)學習課程門數(shù)、是否輟學、持續(xù)課程與選課總數(shù)的占比關系。 具體在數(shù)據(jù)集中用course_num、nondropout_num、dropout、nondrop_precent表示,詳細描述如表3所示。

表3 基本特征信息

2.特征優(yōu)化擴選

(1)關鍵事件

學堂在線對學員學習行為事件通過event屬性值不同,表現(xiàn)為七種情形,分別是problem=1、video=2、access=3、wiki=4、discussion=5、navigate=6、page_close=7, 其中acess、navigate、page_close情形與學員的學習行為聯(lián)系不緊密,暫不考慮,故選取四種關鍵事件,分別是1、2、4、5。

(2)有效特征

通過對日志數(shù)據(jù)研究發(fā)現(xiàn),學員每天學習所產(chǎn)生的各種事件都會持續(xù)一段時間,如果該事件不是點播視頻(event=2)且持續(xù)時長超過60分鐘,則認為這是一個無效事件,忽略并重新計算新的事件持續(xù)時長。由此我們可以確定每位學員每天學習產(chǎn)生的事件總數(shù)、關鍵事件總數(shù)、所有事件持續(xù)時長總和共3種有效特征,基于此再分別計算30天發(fā)生的情況,共計產(chǎn)生90個有效特征。具體描述如表4所示。

表4 有效特征信息

(3)統(tǒng)計特征

為了更加準確地反映學員在線學習的真實寫照,每10天看成一個階段進行統(tǒng)計分析,將30天分割為3個階段,分階段統(tǒng)計每個學員所有學習事件的Min(最小值)、Max(最大值)、Sum(求和)、Mean(平均值)、std(離散值)等統(tǒng)計量,形成新的有效統(tǒng)計特征。如表5所示。

表5 有效統(tǒng)計特征信息

通過以上特征工程處理,得到114個反映學員MOOC學習行為的主要特征值,其中包含4個基本特征、90個有效特征和20個統(tǒng)計特征。

四、學員流失預測

1.模型選擇

機器學習算法是目前數(shù)據(jù)挖掘領域的主流分析算法。其主要思想就是如何使計算機從給定的數(shù)據(jù)中學習法則,即從觀察到的數(shù)據(jù)(樣本)中找到規(guī)律,并使用學習的規(guī)則(模型)來預測未知或無法觀測的數(shù)據(jù)。學堂在線日志數(shù)據(jù)集中分析獲取的訓練數(shù)據(jù)均具有清晰的標簽和結果,在一系列特征優(yōu)選的前提下,通過Python語言分別實現(xiàn) Logistic regression、Random forests、Gradient boosting三種機器學習模型進行學堂在線學員流失預測對比研究。

2.實驗環(huán)境

硬件環(huán)境:Intel(R)Core(TM)i7-4600U CPU@2.60GHz/8G內(nèi)存;

軟件環(huán)境:Windows10 專業(yè)版(1803)/Python3.6(64 位);

第三方庫:NumPy、Pandas、Sklearn。

3.模型預測

通過公布的學堂在線日志數(shù)據(jù)集利用機器學習模型預測學員流失的概率,但是對于如何確定學員是否真正流失,官方給出的定義是:如果學員在未來10天內(nèi)沒有任何學習事件產(chǎn)生,則認為該學員從平臺流失。基于此,分別選用4個基本特征和114個具有時間序列特點的優(yōu)化特征,通過Python編程實現(xiàn)Logistic regression、Random forests、Gradient boosting三種機器學習模型,然后進行學員流失預測對比分析。預測結果對比如表6所示。

表6 優(yōu)化特征提取前后運行結果比較

通過表6可知,對于具有時間序列特點的優(yōu)化特征,三種機器學習模型上都表現(xiàn)為準確率顯著提升,而時間均在可以接受的范圍內(nèi),故實驗評估部分主要從優(yōu)化特征提取前后預測模型在精確率、召回率、F-Score等評估指標方面對比研究。

五、實驗評估

1.評估指標

假設學員流失的樣本數(shù)記為P,學員繼續(xù)學習(未放棄)的樣本數(shù)記為N,正確預測到學員流失的樣本數(shù)定義為TP,正確預測到學員未放棄的樣本數(shù)定義為TN,學員本身是流失而預測為繼續(xù)學習的樣本數(shù)量記為FP,反之,學員本身未放棄課程,而預測為流失的樣本數(shù)量記為FN。具體說明如表7所示。由此可得預測模型的準確率、召回率、精確率等評價指標。

表7 模型預測評估

上述評價指標中P和R指標在大規(guī)模數(shù)據(jù)集中會相互制約,為了同時考慮預測結果的精確率和召回率,M.Pazzani[9]等人提出了F指標,其內(nèi)涵就是P和R的加權調(diào)和平均,具體如下:

2.模型評估

由表8數(shù)據(jù)可以得出,不同預測模型在優(yōu)化特征提取之后的精確率、召回率和F值三類指標都有大幅提升,說明學員學習行為中關鍵事件的統(tǒng)計信息對學員流失預測起到至關重要的作用。學員在MOOC平臺上的關鍵事件總數(shù)和持續(xù)時長統(tǒng)計,很大程度上反映了學員對所選課程的興趣和互動性;另一方面,從時間序列上對學員學習行為事件的分階段統(tǒng)計的特征值反映了學員近期學習的變化情況,同樣對學員流失的預測起到積極正面的作用。

表8 優(yōu)化特征提取前后評估指標對比

由此可見,特征提取的手段、特征數(shù)量對分類預測模型的結果有極大影響,此外,Gradient boosting(梯度提升)算法在預測的準確率和執(zhí)行時間都有較好的表現(xiàn),明顯優(yōu)于其他兩種方法。

六、結束語

實驗結果表明,機器學習方法及優(yōu)化特征提取對學員流失問題有極高的準確率,能夠幫助教師及時跟進學生、改進教學策略、把握課堂進度。通過提取有效和高效的統(tǒng)計特征,進而提高預測模型精度,以便幫助MOOC平臺及時更新課程授課方案,從而降低學員流失率,提升在線教學質(zhì)量和教學效果,最終實現(xiàn) MOOC的預期價值和意義。

猜你喜歡
學堂特征提取預測
古稀之年上學堂
無可預測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
不必預測未來,只需把握現(xiàn)在
Bagging RCSP腦電特征提取算法
森林學堂
寶寶國學堂
娃娃畫報(2015年6期)2015-07-30 04:48:07
基于MED和循環(huán)域解調(diào)的多故障特征提取
桑日县| 陕西省| 临漳县| 福安市| 高要市| 银川市| 塔河县| 西盟| 雷山县| 招远市| 习水县| 新龙县| 达拉特旗| 达孜县| 苗栗市| 农安县| 昭平县| 贵定县| 仁怀市| 京山县| 洛宁县| 东至县| 成安县| 千阳县| 平乐县| 华容县| 普兰店市| 尼玛县| 荣成市| 嘉兴市| 渭南市| 木兰县| 平远县| 彭水| 池州市| 英山县| 合川市| 林西县| 高淳县| 手机| 青河县|