国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘下機(jī)器學(xué)習(xí)算法對(duì)學(xué)生成績(jī)影響因素的研究

2021-11-21 11:47胡柳青
關(guān)鍵詞:三科決策樹(shù)學(xué)歷

胡柳青,趙 剛

(南昌航空大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,南昌 330063)

引 言

隨著信息量的增加,數(shù)據(jù)的計(jì)算和分析方法也在不斷地創(chuàng)新,機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用于實(shí)際生活中。數(shù)據(jù)挖掘是一個(gè)對(duì)海量信息進(jìn)行沙里淘金的過(guò)程,它能將多元異構(gòu)的信息轉(zhuǎn)化成可以直接應(yīng)用的知識(shí)和商業(yè)價(jià)值。致力于利用大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)算法解決各類應(yīng)用問(wèn)題的技術(shù)。而決策樹(shù)技術(shù)在數(shù)字化教育領(lǐng)域中的信息挖掘和知識(shí)發(fā)現(xiàn)這兩個(gè)層面的研究具有明顯的預(yù)測(cè)效果。大數(shù)據(jù)背景下在線學(xué)習(xí)數(shù)據(jù)分析方案設(shè)計(jì)[1-2],大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析是數(shù)據(jù)價(jià)值挖掘的重要過(guò)程,該方法用于在線學(xué)習(xí)課程成績(jī)預(yù)測(cè)分析項(xiàng)目中,對(duì)其他數(shù)據(jù)分析項(xiàng)目也具有通用性。

基于學(xué)習(xí)分析的在線學(xué)業(yè)成績(jī)影響因素的研究[3-4],對(duì)現(xiàn)有文獻(xiàn)分析出目前研究中主要影響學(xué)業(yè)成績(jī)的要素。結(jié)合對(duì)原始數(shù)據(jù)的深度處理,得到和學(xué)習(xí)相關(guān)的高級(jí)行為指標(biāo)利用機(jī)器學(xué)習(xí)中決策樹(shù)算法進(jìn)行建模分析?;诮逃龜?shù)據(jù)挖掘的大學(xué)生實(shí)驗(yàn)課成績(jī)預(yù)測(cè)研究[5-6],可以根據(jù)過(guò)去的行動(dòng)數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的行為。模型預(yù)測(cè)為學(xué)習(xí)分析提出更有意義的組成部分,通過(guò)教育技術(shù)方法幫助學(xué)習(xí)者不斷提高學(xué)習(xí)成績(jī)[7-10]?;跀?shù)據(jù)挖掘的高校學(xué)生成績(jī)預(yù)測(cè)分析[11-13],以數(shù)據(jù)為基礎(chǔ)的知識(shí)規(guī)則研究已經(jīng)成為當(dāng)前高校改進(jìn)教學(xué)手段和提高教學(xué)質(zhì)量的重要方法?;跊Q策樹(shù)算法的成績(jī)預(yù)測(cè)模型研究及應(yīng)用[14-15],很好的運(yùn)用機(jī)器學(xué)習(xí)方法能幫助老師更好的預(yù)測(cè)學(xué)生成績(jī),能及時(shí)發(fā)現(xiàn)學(xué)生在學(xué)習(xí)中存在的問(wèn)題,為學(xué)生更好地學(xué)習(xí)提出建議。隨著電化教育的興起,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用到了各個(gè)科學(xué)領(lǐng)域。決策樹(shù)算法是機(jī)器學(xué)習(xí)中常用的一種數(shù)據(jù)分析算法,它既可用于解決分類問(wèn)題,也可用于解決回歸問(wèn)題,本文通過(guò)介紹決策樹(shù)算法對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè),通過(guò)決策樹(shù)來(lái)擬合數(shù)據(jù)建立模型,通過(guò)模型可以直觀的反映數(shù)據(jù)所反饋的信息,從而進(jìn)行預(yù)測(cè)。

1 數(shù)據(jù)收集和預(yù)處理

1.1 數(shù)據(jù)收集與流程概述

通過(guò)數(shù)據(jù)收集、數(shù)據(jù)清理、特征處理、誤差分析等步驟,建立了良好的線性回歸模型,尋找學(xué)生表現(xiàn)的最佳模型來(lái)預(yù)測(cè)學(xué)生成績(jī)。數(shù)據(jù)如表1所示。

表1 學(xué)生考試成績(jī)數(shù)據(jù)集文件

這是一個(gè)國(guó)外高中學(xué)生在校的學(xué)習(xí)行為和考試成績(jī)的一個(gè)數(shù)據(jù)集,可以看出這是一個(gè)分類變量的數(shù)據(jù)集。

1.2 數(shù)據(jù)預(yù)處理

機(jī)器學(xué)習(xí)在進(jìn)行數(shù)據(jù)建模時(shí),要求數(shù)據(jù)集不包含無(wú)關(guān)數(shù)據(jù)和缺失值,但原始數(shù)據(jù)集不滿足這一要求。因此,在建模之前應(yīng)該通過(guò)數(shù)據(jù)清理來(lái)刪除缺失值。

1) 用pandas,numpy來(lái)讀取csv數(shù)據(jù),利用sklearn來(lái)實(shí)現(xiàn)決策樹(shù)的形成。

2) 導(dǎo)入數(shù)據(jù)集。該數(shù)據(jù)集是某高中學(xué)生在校學(xué)習(xí)行為,家庭背景及學(xué)生成績(jī)的一個(gè)數(shù)據(jù)集,這是一個(gè)經(jīng)典的決策樹(shù)數(shù)據(jù)集。

3) 用pandas來(lái)讀取csv文件,得到一個(gè)分類變量的數(shù)據(jù)集。為了方便建模,把數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)換成數(shù)值變量,結(jié)果如表2所示。

表2 標(biāo)簽編碼后量化后的學(xué)生成績(jī)數(shù)據(jù)集

4) 提取訓(xùn)練集與測(cè)試集。

5) 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(standardScale),使處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。

2 決策樹(shù)

2.1 決策樹(shù)簡(jiǎn)介

決策樹(shù)算法是一種有監(jiān)督機(jī)器學(xué)習(xí)算法,通過(guò)樹(shù)狀圖的結(jié)構(gòu)直觀反應(yīng)數(shù)據(jù)的規(guī)則,達(dá)到數(shù)據(jù)可視化從而解決分類和回歸的問(wèn)題。其模型在機(jī)器學(xué)習(xí)中常被用于分類構(gòu)成。

2.2 決策樹(shù)生成

1)創(chuàng)建或載入數(shù)據(jù)集。

創(chuàng)建或載入訓(xùn)練的數(shù)據(jù)集,更常用的是利用numpy這個(gè)庫(kù)來(lái)讀取csv文件,載入一個(gè)數(shù)據(jù)集。Sklearn.tree中的決策樹(shù)的類都在“tree”這個(gè)模塊下處理流程如圖1所示。

圖1 數(shù)據(jù)預(yù)處理流程

2)生成決策樹(shù)模型。

生成決策樹(shù),分割后的數(shù)據(jù)不一定都屬于同一類,需要根據(jù)多數(shù)投票標(biāo)準(zhǔn)對(duì)子數(shù)據(jù)集進(jìn)行分類。具體步驟如下:

(1) 實(shí)例化,用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,從接口中調(diào)用需要的信息;

(2) 交叉驗(yàn)證,決策樹(shù)是基于決策及其對(duì)情況的可能后果的樹(shù)狀結(jié)構(gòu)或圖形,并且子節(jié)點(diǎn)的不純度一定低于父節(jié)點(diǎn)的不純度,決策樹(shù)的擬合程度越好,模型預(yù)測(cè)的精準(zhǔn)度就越高。通常使用基尼系數(shù)來(lái)選取參數(shù),數(shù)據(jù)準(zhǔn)備后劃分訓(xùn)練集與測(cè)試集。

3)決策樹(shù)可視化。

以字典的形式表示決策樹(shù)更加抽象,通常以圖像的形式呈現(xiàn)(如圖2)。Matplotlib可視化決策樹(shù)通過(guò)jupyter notebook直接生成圖像。將treePlotter.py拷貝到文件的根目錄,調(diào)繪決策樹(shù)函數(shù)即可構(gòu)建決策樹(shù)模型,從sklearn,tree中調(diào)用DecisionTree-Classifier運(yùn)行來(lái)畫(huà)出一顆決策樹(shù),并且得到一個(gè)訓(xùn)練集和測(cè)試集的一個(gè)分?jǐn)?shù)1分,可以得到結(jié)果1,說(shuō)明決策樹(shù)算法很適用于該數(shù)據(jù)集。決策樹(shù)算法用來(lái)創(chuàng)建到達(dá)目標(biāo)規(guī)劃,并用來(lái)輔助決策,判其預(yù)測(cè)數(shù)據(jù)的可行性。

4)決策樹(shù)結(jié)論。

該決策樹(shù)基于gini系數(shù)大小比較首先來(lái)得到這個(gè)決策樹(shù)分類的根節(jié)點(diǎn),決策樹(shù)的本質(zhì)上通過(guò)是一層一層地根據(jù)條件遞歸從而做出判斷,葉節(jié)點(diǎn)對(duì)應(yīng)決策結(jié)果。在這個(gè)數(shù)據(jù)集展現(xiàn)出來(lái)的決策樹(shù)中其預(yù)測(cè)的綜合得分率為80%,顯示預(yù)測(cè)結(jié)果具有一定程度上的可參考性,其中,其基尼系數(shù)越小,表示該數(shù)據(jù)純度越高。當(dāng)基尼系數(shù)最小趨近于0時(shí),每一個(gè)參數(shù)對(duì)應(yīng)的預(yù)測(cè)結(jié)果比例如表3所示。

表3 決策樹(shù)基尼系數(shù)各參數(shù)預(yù)測(cè)比例

由表3可得:“父母學(xué)歷水平”這個(gè)參數(shù)在整個(gè)參數(shù)比例系數(shù)達(dá)到80%最高,可預(yù)測(cè)學(xué)生成績(jī)的參數(shù)評(píng)價(jià)比例最大,其次是“為考試做準(zhǔn)備”這個(gè)參數(shù)在整個(gè)參數(shù)比例達(dá)到75%,可預(yù)測(cè)學(xué)生成績(jī)比例很大。

3 學(xué)生成績(jī)預(yù)測(cè)

3.1 數(shù)據(jù)預(yù)處理

1) 把學(xué)生的數(shù)學(xué)成績(jī)及格分?jǐn)?shù)定為40分,以這個(gè)分?jǐn)?shù)來(lái)作為劃分等級(jí)的起征點(diǎn)。

2) 利用pandas來(lái)讀取數(shù)據(jù)集csv文件,使用pandas庫(kù)中的數(shù)據(jù)框架描述函數(shù),來(lái)觀察數(shù)據(jù)的范圍、大小、波動(dòng)趨勢(shì)、可以得到該數(shù)據(jù)集中學(xué)生成績(jī)的各科分?jǐn)?shù)的特征,包含了各科分?jǐn)?shù)的平均數(shù),標(biāo)準(zhǔn)差和方差,最大值和最小值。

3) 判斷該數(shù)據(jù)是否存在缺失值。

4) 數(shù)據(jù)集包括8個(gè)參數(shù):gender 性別,race/ethnicity 種族,parental level of education 父母教育水平,lunch 午餐,test preparation course 考試準(zhǔn)備課程,math score 數(shù)學(xué),reading score 閱讀和writting score 寫(xiě)作。

5) 對(duì)數(shù)據(jù)集進(jìn)行標(biāo)簽編碼,并在數(shù)據(jù)框增加一列三科平均成績(jī),如圖3所示。

圖3 學(xué)生三科成績(jī)總平均分

3.2 數(shù)據(jù)可視化

1) 父母的教育水平是否會(huì)影響該數(shù)據(jù)集學(xué)生三科總成績(jī)的平均成績(jī);通過(guò)箱線圖展示會(huì)加直觀,運(yùn)行數(shù)據(jù)如下圖4所示;有沒(méi)有為考試課程準(zhǔn)備對(duì)該數(shù)據(jù)集學(xué)生三科總的平均成績(jī)的影響,運(yùn)行數(shù)據(jù)如圖5所示。

圖4中0,1,2,3,4,5分別表示副學(xué)士學(xué)歷,學(xué)士學(xué)位,高中學(xué)歷,碩士學(xué)位,大學(xué)學(xué)歷,一些高中學(xué)歷。從圖5可知有為考試課程做準(zhǔn)備的學(xué)生三科總的平均成績(jī)比沒(méi)有為考試做準(zhǔn)備的學(xué)生三科總的平均成績(jī)更高,其中父母具有研究生學(xué)歷的孩子的三科總成績(jī)的平均分?jǐn)?shù)最高,其次是學(xué)士學(xué)位,副學(xué)士學(xué)位等。

圖4 學(xué)生家長(zhǎng)教育水平對(duì)學(xué)生成績(jī)的影響圖示

圖5 學(xué)生有無(wú)考試準(zhǔn)備對(duì)成績(jī)的影響圖示

3.3 學(xué)生成績(jī)分等級(jí)

1) 如果以一個(gè)指標(biāo)作為依據(jù)實(shí)現(xiàn)起來(lái)就比較簡(jiǎn)單;比如是平均成績(jī)小于40即為掛科的話,在這一千個(gè)數(shù)據(jù)的數(shù)據(jù)集里,我們可以看到,三科合并GHA通過(guò)的有970人,三科合并GPA不通過(guò)的有30人。

2) 讓我們來(lái)分配學(xué)生成績(jī)分?jǐn)?shù),定等級(jí) 80以上 = A分,70 至 80 = B級(jí),60 至70 = C級(jí),50 至60 = D級(jí),40 至50 = E級(jí),40以下 = F級(jí)(表示不及格),我們將把獲得的學(xué)生三科總的平均成績(jī)按順序畫(huà)出來(lái),運(yùn)行代碼,得到如下圖6所示,通過(guò)圖6可知A等級(jí)198人,B等級(jí)261人,C等級(jí)256人,D等 級(jí)178人,E等 級(jí)56人,F(xiàn)等 級(jí)51人。

圖6 各等級(jí)數(shù)據(jù)分布條形圖

3.4 影響學(xué)生成績(jī)等級(jí)的各個(gè)參數(shù)的分布情況

1) 父母的教育水平是否會(huì)影響該數(shù)據(jù)集學(xué)生的三科總成績(jī)平均分成績(jī)等級(jí),數(shù)據(jù)可視化如圖7所示。有沒(méi)有為考試課程做準(zhǔn)備影響該數(shù)據(jù)集學(xué)生的三科總成績(jī)平均分成績(jī)等級(jí)的分布,數(shù)據(jù)可視化如圖8所示。有沒(méi)有吃午飯對(duì)該數(shù)據(jù)集學(xué)生三科總的平均成績(jī)等級(jí)的劃分有沒(méi)有合格的影響,如圖9所示。男生女生的性別對(duì)該數(shù)據(jù)集學(xué)生三科總的平均成績(jī)等級(jí)劃分有沒(méi)有合格的影響,如圖10所示。

圖7 “家長(zhǎng)不同教育學(xué)歷”與學(xué)生成績(jī)的分布條形圖

圖8 “考試準(zhǔn)備課程”與學(xué)生成績(jī)的分布條形圖

圖9 “午飯”與學(xué)生成績(jī)的分布條形圖

圖7中bd、sc、md、ad、sc和hs分 別 表 示bachelor’s degree,somecollege,master ’s degree,associate’s degree、some college和highschool,可得學(xué)生父母學(xué)歷在“碩士”這個(gè)學(xué)位這一類A等級(jí)最高,在“一些大學(xué)?本科”這個(gè)學(xué)歷這一類B等級(jí)最高。從圖8可知有為考試課程做準(zhǔn)備的這一類A等級(jí)最高,沒(méi)有為考試做準(zhǔn)備的這一類B等級(jí)最高。圖9表明有標(biāo)準(zhǔn)午餐的學(xué)生在A等級(jí)最多,B等級(jí)最多。圖10表明在女生這一類中A等級(jí)最多,在B等級(jí)最多。

圖10 “性別”與學(xué)生成績(jī)的分布條形圖

4 結(jié) 論

根據(jù)以上的分析可知,“父母的教育水平”;“有沒(méi)有為考試課程準(zhǔn)備”;“來(lái)自不同種族和不同民族”;“有沒(méi)有吃午飯”;“學(xué)生的性別”。根據(jù)數(shù)據(jù)的分析,我們發(fā)現(xiàn)在‘父母的教育水平’這個(gè)參數(shù)中的“研究生學(xué)歷”的父母的小孩三科總成績(jī)的平均分?jǐn)?shù)通過(guò)率最高,成績(jī)最為明顯。本篇數(shù)據(jù)集中學(xué)生成績(jī)?nèi)频目偲骄謹(jǐn)?shù)在(70~80)B等級(jí)最明顯,人數(shù)占有量最高,學(xué)生成績(jī)?nèi)频目偲骄謹(jǐn)?shù)在(60~70)C等級(jí)的人數(shù)在總排名的第二位;其次是(80以上)A等級(jí)的人數(shù);(50~60)D等級(jí)的人數(shù);(40~50)E等級(jí)的人數(shù)排第三位;最后是(40以下)F等級(jí)即不及格的人數(shù)?!案改笇W(xué)歷”這個(gè)參數(shù)中“研究生學(xué)歷”這一列屬性‘A等級(jí)’人數(shù)最為明顯和集中;‘有沒(méi)有為考試課程做準(zhǔn)備’這個(gè)參數(shù)中“準(zhǔn)備”這一列屬性“A等級(jí)”人數(shù)最為明顯和集中;“有沒(méi)有吃午飯”這個(gè)參數(shù)中“合格標(biāo)準(zhǔn)”屬性這一列“A等級(jí)”人數(shù)最為明顯和集中;最后“性別”這個(gè)參數(shù)中“女生”這一列屬性“A等級(jí)”人數(shù)最為明顯和集中。得出可以通過(guò)數(shù)據(jù)挖掘下機(jī)器學(xué)習(xí)等一系列算法來(lái)分析學(xué)生成績(jī)的影響因素。

猜你喜歡
三科決策樹(shù)學(xué)歷
簡(jiǎn)述一種基于C4.5的隨機(jī)決策樹(shù)集成分類算法設(shè)計(jì)
立德樹(shù)人,培育時(shí)代之花
膨脹學(xué)歷
三科微生物復(fù)合菌劑707新疆棉花施用效果試驗(yàn)
決策樹(shù)學(xué)習(xí)的剪枝方法
知識(shí)無(wú)力感
以科技為帆 創(chuàng)行業(yè)品牌
學(xué)歷是工作的敲門磚
決策樹(shù)在施工項(xiàng)目管理中的應(yīng)用
“學(xué)歷塔”
绥江县| 方正县| 新密市| 宁远县| 随州市| 历史| 施秉县| 三明市| 炎陵县| 西贡区| 绥化市| 郯城县| 察雅县| 尼勒克县| 潜江市| 库尔勒市| 丰镇市| 克什克腾旗| 五华县| 乡城县| 龙川县| 徐州市| 黄大仙区| 同仁县| 开封市| 呼伦贝尔市| 绥棱县| 金塔县| 平原县| 灯塔市| 晋宁县| 泰来县| 囊谦县| 都昌县| 合川市| 巴彦淖尔市| 东兰县| 东丽区| 多伦县| 克拉玛依市| 出国|