国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向非平衡數(shù)據(jù)集的隨機森林算法對學生學業(yè)問題的預測分析

2019-02-09 09:37:28盧婷婷陳國磊
宜賓學院學報 2019年12期
關鍵詞:分類器學業(yè)樣本

劉 博,盧婷婷,陳國磊,趙 璐

(中國民航大學空中交通管理學院,天津300300)

在大數(shù)據(jù)的背景下,我國高校在教育管理過程中產(chǎn)生和積累的數(shù)據(jù)也開始進入研究者的視野.傳統(tǒng)學生學習成績的評定多局限于結果的“高”或者“低”,同時在學生管理方面,管理者往往依據(jù)“事后”的歷史數(shù)據(jù)對學業(yè)方面存在問題的學生進行管理,缺乏事前預警機制的建立,如果將數(shù)據(jù)挖掘技術應用到學生學習成績的分析與預測,對存在學業(yè)問題的學生群體進行“事前”精準預測并且展開針對性的干預,能夠在一定程度上輔助學校教務和學生工作管理部門,提高學生整體的學業(yè)水平.

目前,關于學生學業(yè)問題的預測分析研究取得了一定成果. 尤佳鑫等[1]基于實體課堂和云學習平臺,提出了多元回歸模型對成績進行預測,指出績點、在線學習參與度、前導課成績和學習興趣是影響學業(yè)成績的重要因素. 曹歆雨等[2]考慮到學生前序課程成績殘缺情況,提出基于K 近鄰局部最優(yōu)重建的殘缺數(shù)據(jù)插補方法結合隨機森林算法建立成績預測模型.文鴻瑩[3]通過對獲取的493份非智力樣本數(shù)據(jù)的挖掘,采用回歸分析方法得出學習興趣、學習自律、學習意志、學習態(tài)度、學習動機和學習效能感6個維度組成的非智力因素能夠?qū)W生學業(yè)進行有效預測.龍鈞宇[4]運用壓縮矩陣Apriori關聯(lián)規(guī)則算法,詳細分析了學生各科成績的關聯(lián)度. 陳勇[5]通過關聯(lián)規(guī)則找出與目標課程成績相關程度較高的5門課程作為輸入特征,運用融合遺傳算法的神經(jīng)網(wǎng)絡模型進行回歸分析,預測精度較高.劉俊嶺等[6]利用電子簽到系統(tǒng)進行數(shù)據(jù)集的構建,提出了基于成績分布的教室座位分區(qū)劃分方法和同伴影響的預測結果修正方法,在驗證數(shù)據(jù)集上成績回歸誤差在10分以內(nèi). Tsiakmaki 等[7]搜集592 個學生樣本,使用第一學期學生性別、8 門課程的考試次數(shù)和考試成績等特征,采用機器學習領域8種模型對第二學期的6門課程進行回歸分析,得出隨機森林模型性能最優(yōu).Hoffait等[8]利用學生入學注冊時的早期數(shù)據(jù),基于隨機森林、邏輯回歸和人工神經(jīng)網(wǎng)絡算法對學生可能存在的學業(yè)問題進行分類預測,在真實數(shù)據(jù)集上得出12.2%的學生面臨極高的學業(yè)失敗風險.

綜合以上研究現(xiàn)狀:首先,部分研究人員關注點將大數(shù)據(jù)技術融合到學生學業(yè)分析方面,僅僅提出了相關的理論框架,未進行實際的應用;其次,部分研究人員針對學生學業(yè)問題試圖挖掘影響學業(yè)成績的因素,構建特征空間,同時研究方向上多數(shù)使用回歸算法;然后,絕大多數(shù)的分類器在平衡數(shù)據(jù)上表現(xiàn)良好,但是面對學業(yè)問題非平衡性,想要精準的預測“差”(少數(shù)類)學生,很多分類器表現(xiàn)較差,而針對此問題少有研究.對此,本文采用混合采樣的方法,結合使用集成分類器對少數(shù)類——即學業(yè)存在問題學生進行分類預測,并對不同采樣方法下的假設空間中的多種模型的性能進行分析,以期找到更為有效的分類方法.

1 非平衡數(shù)據(jù)集處理與隨機森林算法

數(shù)據(jù)集的非平衡性可以使用數(shù)據(jù)平衡率[9](The balancing ratio of the data sets)R進行度量:

其中 ||xmin和 ||xmax代表樣表標簽中少數(shù)類數(shù)量和多數(shù)類數(shù)量,R等于0.5時為平衡數(shù)據(jù)集.

目前關于非平衡數(shù)據(jù)集的研究主要集中在數(shù)據(jù)重新采樣、算法改進和兩者相結合方面. 本文從數(shù)據(jù)集入手,對原始非平衡數(shù)據(jù)集進行重構.

針對非平衡數(shù)據(jù)集,使用重新采樣[10](Re-sampling the data set)方法可以在很大程度上提高分類器效果. 重新采樣技術包括4 類,分別是向下采樣(Under-sampling the majority classes),向上采樣(Over-sampling the minority class),混合采樣(Combining over- and under-sampling),生成集成平衡數(shù)據(jù)集(Create ensemble balanced sets). 虛擬少數(shù)類向上采樣方法(Synthetic Minority Over-sampling Technique, SMOTE)結合編輯最近鄰方法(Edited Nearest Neighbours, ENN),即SMOTE+ENN 采樣方法,為先向上采樣后,再向下采樣的混合方法.

SMOTE 算法[11]是針對特征空間中位置相近的少數(shù)類樣本中插入新樣本的方法,優(yōu)點是避免過擬合.對于少數(shù)類中每一個樣本x,以歐氏距離為標準計算它到少數(shù)類樣本集中所有樣本的距離,得到其K近鄰,在K個最近鄰樣本中隨機選擇N個樣本,記為y1,y2,y3,…,yN,在少數(shù)類樣本x與yj之間進行隨機線性差值,構造新的少數(shù)類樣本Pj:

其中rand(0,1)表示區(qū)間(0,1)內(nèi)的一個隨機數(shù).

為了消除SMOTE 算法泛化性過強的缺點,在其基礎上,將欠采樣與過采樣方法相結合,即將SMOTE 算法與最近鄰規(guī)則(Edited Nearest Neighbours,ENN)相結合,即:對于其中一種類型樣本,當與其最近的3個近鄰樣本中屬于相異類型的樣本數(shù)超過3個時,刪除這些相異類型樣本[13].

隨機森林是基于Bagging 思路改進實現(xiàn)的決策樹群體模型.隨機森林在實現(xiàn)上不僅使用訓練集的子集,同時在決策樹建立樹節(jié)點時只在特征集的子集中挑選.傳統(tǒng)決策樹在選擇劃分屬性時是在當前結點的屬性集合中選擇一個最優(yōu)屬性;而在隨機森林中,對基決策樹的每個結點,先從該結點屬性集合中隨機選擇一個包含K 個屬性的子集,然后再從這個子集匯總選擇一個最優(yōu)屬性用于劃分.隨機森林算法[14]過程如下:

Random Forest (D,T,d): 從Bootstrap 樣本集和隨機子空間訓練一個集成模型

輸入: 數(shù)據(jù)集D;集成尺寸T;子空間的維數(shù)d

輸出: 需要通過投票或者取平均的方式來實現(xiàn)預測的集成樹模型

for t=1 to T do

從D的|D|個數(shù)據(jù)點中按有放回隨機抽樣構建Bootstrap樣本集Dt;

隨機選擇d個特征,由此降低Dt的維數(shù);

以無剪枝的方式在Dt上訓練,得到一個樹模型Mt;

end

返回{Mt|1≤t≤T}

2 實驗步驟及特征空間構建與數(shù)據(jù)預處理

2.1 實驗步驟

步驟1:首先對原始數(shù)據(jù)進行采集,構建特征空間,同時進行數(shù)據(jù)探索和預處理;

步驟2:將原始數(shù)據(jù)集采用隨機分層方法劃分為訓練集和測試集,比例為7:3,重復10次;

步驟3:在步驟2每次劃分的數(shù)據(jù)集上,依次計算出5種分類器的10組性能指標,對10組性能指標取算術平均,對比分析模型的性能差異;

步驟4:將原始數(shù)據(jù)集采用10 種非平衡數(shù)據(jù)集處理方法,重構10 個新數(shù)據(jù)集,在每個新數(shù)據(jù)集上重復步驟2和步驟3;基于5種分類器,計算、對比分析10 種非平衡數(shù)據(jù)處理方法下的不同模型的性能差異.

總體思路如圖1所示.

圖1 實驗總體思路圖

2.2 特征空間的構建

通過采集1 個年級所有學生基本信息數(shù)據(jù),結合教務處的學生平均績點,共計得到650條數(shù)據(jù).學生的基本信息數(shù)據(jù)如表1所示,其中第1-19項為特征數(shù)據(jù),第20項為標簽數(shù)據(jù).

平均績點是學生大學期間各科成績的綜合指標,其計算方法為:

表1 原始特征及標簽

2.3 數(shù)據(jù)的預處理

數(shù)據(jù)預處理[15]包括處理缺失數(shù)據(jù)、去除無效特征、數(shù)據(jù)的離散化. 缺失值采用拉格朗日插值法進行處理,無效特征使用專家咨詢方法進行舍棄,數(shù)據(jù)的離散化采取等寬法和人工法相結合方式劃分.

考慮到數(shù)據(jù)的可獲得性及與本研究的相關性,通過咨詢相關專家,最終選取14項特征作為特征空間數(shù)據(jù),包括:性別、政治面貌、大學英語四級、大學英語六級、公共英語三級至五級、計算機等級、是否延長學業(yè)、掛科門數(shù)、是否學生干部、家庭經(jīng)濟困難、獎學金情況、是否有學業(yè)警告,具體見表2,將以上特征中標稱數(shù)據(jù)0/1 賦值,連續(xù)性數(shù)值型數(shù)據(jù)離散化.

對于標稱數(shù)據(jù)中的性別、政治面貌、學生干部、家庭經(jīng)濟困難、是否有學業(yè)警告等特征,離散化后數(shù)據(jù)排序及大小會影響“非樹類模型”的分類器性能,因此以上特征采用獨熱編碼(One Hot Encoder)方式,將離散后的屬性映射為二進制特征.

3 模型的選擇

3.1 模型性能度量

對于分類問題常用的性能度量指標[16]包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F測量(F1-Score)、ROC與AUC.面對非平衡數(shù)據(jù)集問題,F(xiàn)1-Score、AUC和Recall作為模型性能度量指標較為客觀,本研究使用上述3 個指標進行模型性能的評估.

表2 數(shù)據(jù)離散化

將樣例根據(jù)其真實類別與學習器預測類別的組合劃分為真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四種情形.令TP、FP、TN、FN分別表示其對應的樣例數(shù),TP+FP+TN+FN=樣例總數(shù).分類結果的混淆矩陣(confusion matrix)如表3所示.

表3 分類結果混淆矩陣

查準率基于預測結果,表明預測為正的樣例中有多少是真正的正樣例,計算公式為:

查全率基于原始樣本,表明原始樣本中的正例有多少被預測正確. 在非平衡數(shù)據(jù)集中,往往關注對于少數(shù)類的召回情況,查全率對于此類問題有很好的描述作用,其計算方法為:

AUC被定義為ROC曲線下與坐標軸圍成的面積(ROC曲線是分類器的真正率與假正率之間的關系),即:

其中:n+為少數(shù)類樣本數(shù)量,n-為多數(shù)類樣本數(shù)量,f為分類器.

AUC 越大表示模型區(qū)分正例和負例的能力越強,一般認為AUC值0.8以上模型可以應用到實踐,而1為完美分類器.

3.2 模型評估

3.2.1 實驗環(huán)境

實驗環(huán)境為:Windows 7 系統(tǒng),3.5 GHz 英特爾i5 處理器,8 GB 內(nèi)存,Pycharm IDE 開發(fā)環(huán)境,Python 3.7;隨機森林(Decision Tree)、邏輯回歸(Logistic Regression)、K-近鄰(KNN)、決策樹(Random Forest)、支持向量機(Radial Svm)等分類器調(diào)用Scikit-learn,非平衡數(shù)據(jù)集使用imbalanced開發(fā)包.

首先將原始非平衡數(shù)據(jù)集按照7∶3分成訓練集和測試集,采用隨機分層劃分10 次,確保每次劃分的訓練集和測試集的數(shù)據(jù)分布一致性. 劃分后,每次訓練集和測試集的平衡率均為0.17(平均績點≤2.2 為少數(shù)類,其余為多數(shù)類),在10 次劃分的數(shù)據(jù)集上分別計算性能指標,然后取均值. 采取10 種非平衡數(shù)據(jù)方法處理原始數(shù)據(jù)(見表4)后,重復上述過程,得出性能指標的均值.

模型中的超參數(shù)使用默認值,SMOTE 方法中的K=5,倍率Ratio=1,抽樣后正負樣例比例為1∶1.

表4 十種非平衡數(shù)據(jù)集抽樣方法[17-21]

3.2.2 模型選擇

(1)依據(jù)F1-Score 評價指標的問題學生(少數(shù)類)學業(yè)表現(xiàn)評價模型選擇結果如表5所示.對原始數(shù)據(jù)集未進行非平衡數(shù)據(jù)處理的情況下,所列5種模型少數(shù)類F1-Score 的均值為0.84,最大值為Random Forest 分類器的0.85,最小值為Logistic Regression分類器的0.83.對原始數(shù)據(jù)集采用10種非平衡方法處理時,SMOTEENN 抽樣方法下5 種分類器F1-Score值都達到峰值,其中Random Forest 分類器表現(xiàn)最優(yōu),F(xiàn)1-Score 值為0.98,比未進行采樣的情況下F1-Score 提高了0.13;熱度圖2 顯示,CNN 和NearMiss 采樣下5 種分類器對應區(qū)域顏色較淺,分類效果一般,SMOTEENN對應區(qū)域顏色最深,分類效果最好.

(2)依據(jù)AUC 評價指標的問題學生(少數(shù)類)學業(yè)表現(xiàn)模型選擇結果如表6 所示. 對原始數(shù)據(jù)集未進行非平衡數(shù)據(jù)處理的情況下,所列5 種模型AUC 均值為0.82,最大值為Logistic Regression 分類器的0.86,最小值為Decision Tree 分類器的0.79. 對原始數(shù)據(jù)集采用10 種非平衡方法處理時,SMOTEENN 抽樣方法下5 種分類器AUC 值都達到峰值,其中Random Forest 和Radial SVM 分類器表現(xiàn)最優(yōu),AUC 值為0.97,比未進行采樣的情況下的AUC分別提高了0.17和0.13.熱度圖3顯示,None、CNN 和NearMiss 采樣下5 種分類器對應區(qū)域顏色較淺,分類效果一般,SMOTEENN對應區(qū)域顏色最深,分類效果最好.

表5 F1-Score評價指標

圖2 F1-Score評價指標熱度圖

表6 AUC評價指標

圖3 AUC評價指標熱度圖

3)依據(jù)Recall 評價指標的問題學生(少數(shù)類)學業(yè)表現(xiàn)模型選擇結果如表7 所示. 對原始數(shù)據(jù)集未進行非平衡數(shù)據(jù)處理的情況下,所列5 種模型針對少數(shù)類Recall均值為0.68,最大值為Random Forest 分類器的0.71,最小值為Decision Tree 分類器的0.64. 對原始數(shù)據(jù)集采用10 種非平衡方法處理時,SMOTEENN 抽樣方法下5 種分類器Recall 值都達到峰值,其中Random Forest 和Radial SVM 分類器表現(xiàn)最優(yōu),Recall 值分別為0.97 和0.96,比未進行采樣的情況下Recall 分別提高了0.26 和0.3. 熱度圖4顯示,None、CNN 和NearMiss 采樣下5 種分類器對應區(qū)域顏色較淺,分類效果一般,SMOTE 和SMOTEENN對應區(qū)域顏色最深,分類效果最好.

表7 Recall評價指標

圖4 Recall評價指標熱度圖

3.2.3 十種非平衡數(shù)據(jù)處理方法下分類器性能趨勢分析

針對10 種非平衡數(shù)據(jù)集處理方法,計算出5 種分類器的均值,圖5展示了分類器的性能趨勢.

圖5 分類器性能趨勢圖

由圖5可見,均值曲線趨勢呈現(xiàn)逐漸上升態(tài)勢,在CNN 方法下,F(xiàn)1-Score、AUC 和Recall 均值最低,分別為0.72、0.79 和0.73;在SMOTEENN 方法下,F(xiàn)1-Score、AUC 和Recall 均值最高,分別為0.96、0.96 和0.95. 通過以上分析可以看出,SMOTEENN方法對于學生學業(yè)非平衡數(shù)據(jù)集表現(xiàn)最好.

4 總結

本文提出了面向非平衡數(shù)據(jù)集的下的SER 分類預測模型來處理學生學業(yè)表現(xiàn)的方法;構造了包含與學生學業(yè)相關的9 個特征為輸入空間,以學生的平均績點為標簽進行分類;同時在SER 的基礎上,對比分析了Decision Tree 算法、Logistic Regression 算法、KNN 算法、Radial SVM 算法在10 種非平衡數(shù)據(jù)處理方法下的模型的性能,實驗結果表明,使用SER方法對學生學業(yè)表現(xiàn)情況預測最優(yōu),對少數(shù)類召回率為0.97.因而,此方法可為學生管理和教務部門提供決策依據(jù),改善高校教學管理水平,幫助相關部門對存在學業(yè)問題的學生進行事前干預,提高學生的學習能力.

今后研究改進的方向:在數(shù)據(jù)集構建方面,在現(xiàn)有的智力和非智力因素上,添加更多的特征,從而提高模型預測的魯棒性;在非平衡數(shù)據(jù)集上,除了在數(shù)據(jù)層面上優(yōu)化外,繼續(xù)研究算法本身的改進.

猜你喜歡
分類器學業(yè)樣本
艱苦的學業(yè)
用樣本估計總體復習點撥
音樂提升學生學業(yè)表現(xiàn)
樹起學業(yè)擔當之心
中學語文(2019年34期)2019-12-27 08:03:46
推動醫(yī)改的“直銷樣本”
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
隨機微分方程的樣本Lyapunov二次型估計
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
村企共贏的樣本
孝义市| 伊宁市| 贺州市| 合江县| 宣城市| 手机| 水富县| 岳阳市| 台东县| 汝州市| 嘉峪关市| 临武县| 建德市| 年辖:市辖区| 衡阳县| 高州市| 从江县| 岳阳县| 池州市| 乌拉特后旗| 曲周县| 淳化县| 瑞金市| 东丽区| 开阳县| 乡宁县| 钦州市| 南投县| 东台市| 石河子市| 蓬莱市| 池州市| 华阴市| 连南| 万载县| 达日县| 济源市| 遂平县| 吉安县| 利辛县| 新河县|