国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹(shù)C4.5模型的數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用研究

2023-12-07 12:11:12田飛展金梅
電腦知識(shí)與技術(shù) 2023年30期
關(guān)鍵詞:實(shí)驗(yàn)成績(jī)考勤信息熵

田飛,展金梅

(1.海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院,海南 ???571127;2.瓊臺(tái)師范學(xué)院,海南 ???571127)

0 引言

在這個(gè)人工智能快速發(fā)展的時(shí)代,每所高校都擁有自己的教務(wù)管理系統(tǒng),里面儲(chǔ)存了學(xué)生在校期間的所學(xué)課程信息及考試成績(jī)等數(shù)據(jù),而很多高校只是用這些數(shù)據(jù)評(píng)價(jià)一個(gè)學(xué)生是否達(dá)到評(píng)優(yōu)的標(biāo)準(zhǔn)、是否達(dá)到畢業(yè)標(biāo)準(zhǔn)等簡(jiǎn)單的審核與查詢(xún)功能。其實(shí),這些數(shù)據(jù)中還蘊(yùn)含了許多更重要的信息,比如:影響學(xué)生學(xué)習(xí)的主要因素有哪些?這些因素又反映出什么問(wèn)題?學(xué)校的校領(lǐng)導(dǎo)、教學(xué)管理者以及教師迫切希望從這些數(shù)據(jù)中挖掘出自己所關(guān)注的信息,這些信息可以通過(guò)決策樹(shù)C4.5模型的數(shù)據(jù)挖掘技術(shù)來(lái)獲得。

近年來(lái),國(guó)內(nèi)外許多學(xué)者運(yùn)用數(shù)據(jù)挖掘技術(shù)分析學(xué)生的考試成績(jī)方面進(jìn)行得如火如荼,在中國(guó)知網(wǎng)總庫(kù)中,同時(shí)以“數(shù)據(jù)挖掘”“學(xué)習(xí)成績(jī)”檢索,共檢索出中文文獻(xiàn)467 篇,其中學(xué)術(shù)期刊184 篇,學(xué)位論文279篇,會(huì)議論文4 篇;外文文獻(xiàn)42 篇。其中,班文靜等(2022) 基于多算法的在線學(xué)習(xí)成績(jī)預(yù)測(cè)框架,融合神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、K-近鄰、隨機(jī)森林和邏輯回歸算法預(yù)測(cè)學(xué)習(xí)者在線學(xué)習(xí)成績(jī),并進(jìn)行了預(yù)測(cè)性能分析[1]。趙磊等(2021) 基于數(shù)據(jù)挖掘的MOOC 學(xué)習(xí)者學(xué)業(yè)成績(jī)的行為指標(biāo)及算法模型、群體學(xué)習(xí)特征和教學(xué)干預(yù)策略進(jìn)行了探究[2];李海洋等(2020) 利用Apriori 算法建立關(guān)聯(lián)分析挖掘模型,通過(guò)SPSS Clementine 軟件學(xué)生成績(jī)與洗浴時(shí)間關(guān)聯(lián)性[3],何普亮、張戰(zhàn)勝(2019) 從教育數(shù)據(jù)挖掘的一般過(guò)程、教育數(shù)據(jù)挖掘的典型方法、常用工具以及目前國(guó)內(nèi)外的相關(guān)典型應(yīng)用等幾個(gè)方面,對(duì)大數(shù)據(jù)時(shí)代的教育數(shù)據(jù)挖掘進(jìn)行介紹和分析[4]。

1 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)是人工智能快速發(fā)展時(shí)代的熱點(diǎn)問(wèn)題,它是利用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、人工智能等理論及方法,借助Matlab、Python、SPSS 等相關(guān)軟件,從龐大的數(shù)據(jù)庫(kù)中,提取有效數(shù)據(jù),進(jìn)行科學(xué)的深度分析,為了尋求人們以前沒(méi)有發(fā)現(xiàn)的,但對(duì)今后的工作是非常有用的知識(shí)的過(guò)程[5-6]。

數(shù)據(jù)挖掘是一個(gè)反復(fù)進(jìn)行、不斷優(yōu)化的過(guò)程,主要包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、數(shù)據(jù)挖掘和結(jié)果反饋四個(gè)階段,如圖1所示。

圖1 數(shù)據(jù)挖掘流程圖

2 決策樹(shù)C4.5模型[7]

C4.5 算法是對(duì)Ross Quinlan 開(kāi)發(fā)的ID3 算法的改進(jìn),是用在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的分類(lèi)問(wèn)題中的算法,由J.Ross Quinlan提出,它與ID3算法一樣使用了信息熵的概念,并通過(guò)學(xué)習(xí)數(shù)據(jù)來(lái)建立決策樹(shù)。

2.1 信息熵

它是信息的數(shù)學(xué)期望,一般用來(lái)表示信息混亂、無(wú)序的程度。設(shè)數(shù)據(jù)樣本集T,類(lèi)別屬性具有m個(gè)不同值C1,C2,…,Cm,則信息熵的計(jì)算公式為:

數(shù)據(jù)樣本集S的一個(gè)屬性A有k個(gè)不同取值a1,a2,…,ak,利用屬性A將數(shù)據(jù)樣本集T劃分為k個(gè)子集T1,T2,…,Tk,而且對(duì)于任意一個(gè)子集Tj類(lèi)別屬性也具有m個(gè)不同值Cj1,Cj2,…,Cjm,則Tj的信息熵計(jì)算公式為:

2.2 條件熵

以屬性A為根進(jìn)行分類(lèi)的信息熵,其計(jì)算公式為:

2.3 信息增益

以屬性A的信息增益定義為:

2.4 信息增益率

屬性A的信息增益率定義為:

3 實(shí)例分析

3.1 數(shù)據(jù)準(zhǔn)備

文中數(shù)據(jù)采用海南省某高校21 級(jí)軟件專(zhuān)業(yè)2 個(gè)班級(jí)90名學(xué)生考試信息,主要包括學(xué)生的學(xué)號(hào)、實(shí)驗(yàn)成績(jī)、考勤成績(jī)、課堂表現(xiàn)、考試成績(jī)等,如表1所示。

表1 學(xué)生成績(jī)信息表

3.2 數(shù)據(jù)處理

由于學(xué)生退學(xué)、當(dāng)兵、休學(xué)、緩考、缺考等原因,導(dǎo)致部分學(xué)生成績(jī)信息不完整,從學(xué)生成績(jī)信息表中剔除這些數(shù)據(jù),剩下81條符合條件的數(shù)據(jù),從21級(jí)軟件1 班、2 班分別選取30 名同學(xué)的考試成績(jī)信息作為訓(xùn)練集數(shù)據(jù),其余21 名同學(xué)的考試信息作為測(cè)試集數(shù)據(jù)。

為了方便構(gòu)建決策樹(shù)C4.5 模型,對(duì)81 條有效數(shù)據(jù)進(jìn)行預(yù)處理,實(shí)驗(yàn)成績(jī)(A≥88,優(yōu)秀,82 ≤A< 88,一般,A< 82,差),考勤成績(jī)(B= 100,好,95 ≤B<100,中,B< 95,差),課堂表現(xiàn)(C≥90,好;80 ≤C<90,中;C< 80,差),考試成績(jī)(T≥75,優(yōu)良,60 ≤T<75,及格,T< 60,不及格)。得到學(xué)生成績(jī)分析表,如表2所示。

表2 學(xué)生成績(jī)分析表

3.3 數(shù)據(jù)挖掘

借助于matlab軟件,對(duì)表2進(jìn)行數(shù)據(jù)挖掘,分別計(jì)算信息熵、條件熵、信息增益與信息增益率。

1) 信息熵

神意存在于永恒當(dāng)中?!秳蛘軐W(xué)研究指針:中世紀(jì)哲學(xué)》第二章中給出了兩種類(lèi)型的永恒定義:“‘不間斷’的永恒(P-eternity)——一種沒(méi)有開(kāi)端或沒(méi)有終結(jié)或兩者都沒(méi)有的永恒;或是(O-eternity)——一種存在于時(shí)間之外,不受時(shí)間規(guī)定的永恒”。經(jīng)過(guò)理性理智之辨,波愛(ài)修開(kāi)始了對(duì)永恒的探討。這里的永恒更類(lèi)似于上面所說(shuō)的“O-eternity”。

考試成績(jī)(T) 分為優(yōu)良、及格和不及格三個(gè)等級(jí),其中優(yōu)良有6人、及格18人、不及格36人。根據(jù)公式(1) 計(jì)算得到信息熵為

對(duì)于實(shí)驗(yàn)成績(jī)(A) 也分為優(yōu)秀、一般、差三個(gè)等級(jí),根據(jù)公式(2) 分別計(jì)算實(shí)驗(yàn)成績(jī)優(yōu)秀、一般、差的條件下考試成績(jī)的信息熵為:

2) 條件熵

利用公式(3) 計(jì)算以實(shí)驗(yàn)成績(jī)(A) 分類(lèi)的條件熵:

3) 信息增益

利用公式(4) 計(jì)算實(shí)驗(yàn)成績(jī)(A) 的信息增益:

利用公式(5) 計(jì)算實(shí)驗(yàn)成績(jī)(A) 的信息增益率為:

運(yùn)用同樣的辦法,分別計(jì)算考勤成績(jī)(B) 、課堂表現(xiàn)(C) 的信息增益率分別為:

3.4 結(jié)果與反饋

由于GainR(C) >GainR(B) >GainR(A),所以選擇課堂表現(xiàn)(C) 作為決策樹(shù)的根節(jié)點(diǎn),然后在每個(gè)分支上重復(fù)采用3.3的方法遞歸計(jì)算,構(gòu)建決策樹(shù)如圖2所示。

圖2 學(xué)生成績(jī)分析決策樹(shù)

為了避免決策樹(shù)C4.5模型對(duì)訓(xùn)練集30名同學(xué)的考試成績(jī)信息實(shí)現(xiàn)較好的預(yù)測(cè),而對(duì)測(cè)試集21名同學(xué)的考試信息預(yù)測(cè)較差,即出現(xiàn)“過(guò)渡擬合”現(xiàn)象,需要對(duì)圖2的決策樹(shù)進(jìn)行剪枝操作,決策樹(shù)的剪枝策略分為預(yù)剪枝和后剪枝兩種。在此,采用后剪枝的方法對(duì)圖2決策樹(shù)進(jìn)行剪枝,保留課堂表現(xiàn)、考勤成績(jī)對(duì)學(xué)生成績(jī)影響較大的屬性值,剪去影響較小的屬性值實(shí)驗(yàn)成績(jī),得到?jīng)Q策樹(shù)圖3。

圖3 修剪后的學(xué)生成績(jī)分析決策樹(shù)

通過(guò)決策樹(shù)圖2、圖3可以發(fā)現(xiàn),學(xué)生只有課堂表現(xiàn)、考勤成績(jī)、實(shí)驗(yàn)成績(jī)同時(shí)為優(yōu)的時(shí)候,最終考試成績(jī)才能達(dá)到優(yōu)良水平,有一項(xiàng)為一般水平的情況下考試成績(jī)?yōu)榧案?,兩?xiàng)及以上表現(xiàn)不好,考試成績(jī)就會(huì)不及格。實(shí)際上,在訓(xùn)練集60名學(xué)生的考試信息中,優(yōu)良的人數(shù)僅有6 人,不及格的人數(shù)卻高達(dá)36 人,學(xué)生的考試成績(jī)偏低,導(dǎo)致這一結(jié)果的原因可能是由于試卷的難度過(guò)大,還需進(jìn)一步深度地挖掘。

最后采用測(cè)試集21 名學(xué)生的考試信息對(duì)該決策樹(shù)進(jìn)行檢驗(yàn),準(zhǔn)確率達(dá)到了85%以上,說(shuō)明該模型是有效的。

4 結(jié)論

文中構(gòu)建了決策樹(shù)C4.5 模型,對(duì)21 級(jí)軟件81 名同學(xué)的考試信息進(jìn)行深度挖掘,并驗(yàn)證了該模型的可行性,該模型表明學(xué)生的期末考試成績(jī)與課堂表現(xiàn)、考勤和平時(shí)實(shí)驗(yàn)有著密切的關(guān)系,因此,各任課教師應(yīng)該加強(qiáng)過(guò)程管理,首先,課堂上調(diào)動(dòng)學(xué)生積極參與到的教學(xué)過(guò)程中來(lái),主動(dòng)回答問(wèn)題;其次,要加強(qiáng)考勤,避免學(xué)生出現(xiàn)遲到早退現(xiàn)象,有事要提前請(qǐng)假;最后,要注重平時(shí)實(shí)驗(yàn)指導(dǎo),提高學(xué)生的動(dòng)手操作能力。這對(duì)提高學(xué)生考試成績(jī)有著至關(guān)重要的作用。

猜你喜歡
實(shí)驗(yàn)成績(jī)考勤信息熵
基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
基于關(guān)聯(lián)規(guī)則Apriori算法的物理實(shí)驗(yàn)成績(jī)分析研究
基于人臉識(shí)別技術(shù)的考勤應(yīng)用研究
電子制作(2019年12期)2019-07-16 08:45:28
智能人臉識(shí)別考勤系統(tǒng)
電子制作(2019年9期)2019-05-30 09:42:00
生物工程專(zhuān)業(yè)實(shí)驗(yàn)個(gè)性化綜合性實(shí)驗(yàn)教學(xué)的探索
基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
分析化學(xué)實(shí)驗(yàn)成績(jī)?cè)u(píng)定方法改革與探索
便攜式指紋考勤信息管理系統(tǒng)設(shè)計(jì)
一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
基于信息熵的IITFN多屬性決策方法
江北区| 文昌市| 黄陵县| 敖汉旗| 堆龙德庆县| 富宁县| 正阳县| 密云县| 宜城市| 尖扎县| 大理市| 肥乡县| 明水县| 荣成市| 子洲县| 肇州县| 许昌县| 龙州县| 宜君县| 永登县| 洛浦县| 建宁县| 高淳县| 太仆寺旗| 轮台县| 龙川县| 磐安县| 襄汾县| 天全县| 海阳市| 门头沟区| 砚山县| 阜宁县| 类乌齐县| 汝州市| 瑞丽市| 晋州市| 鹰潭市| 南召县| 德安县| 延寿县|