国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹算法在高職學生學業(yè)目標評價中的應用研究

2023-10-02 11:41:50周璇
電腦知識與技術 2023年24期
關鍵詞:剪枝信息熵決策樹

周璇

(天津商務職業(yè)學院,天津 300350)

0 引言

數(shù)據(jù)挖掘技術是一門在大數(shù)據(jù)背景下基于統(tǒng)計學、計算機科學和人工智能等多個領域生成的交叉學科,它從海量數(shù)據(jù)中篩選出有應用價值和研究價值的信息數(shù)據(jù),深層次地分析多維度的信息數(shù)據(jù)的特點,揭示不同類別信息數(shù)據(jù)之間的內(nèi)在關聯(lián),從而為決策者提供決策支持。數(shù)據(jù)挖掘技術包括關聯(lián)規(guī)則挖掘、K-Means 聚類分析、貝葉斯分類分析、人工神經(jīng)網(wǎng)絡分析、決策樹分類分析等[1]。決策樹算法作為當前應用最廣的數(shù)據(jù)挖掘算法之一,能夠對數(shù)據(jù)進行分類和預測,其中C4.5 算法理論清晰、方法簡單、學習能力強,是數(shù)據(jù)挖掘和機器學習領域中一個有效的數(shù)據(jù)處理工具[2]。

本文通過使用C4.5 決策樹算法對影響高職學生學業(yè)目標評價的各項因素及內(nèi)在關聯(lián)進行數(shù)據(jù)挖掘與深入分析,提取分類規(guī)則并聯(lián)系教學管理工作實際提出建議,以期為開展高職學生的學業(yè)指導工作提供決策基礎和數(shù)據(jù)參考。

1 決策樹算法

決策樹算法是一種典型的分類方法,是一種類似于流程圖的樹狀結構,其中心思想是IF-THEN 的規(guī)則,用于數(shù)值型因變量的預測和離散型因變量的分類[3]。通過構造決策樹,可以發(fā)現(xiàn)數(shù)據(jù)當中蘊涵著的分類規(guī)則,它能夠表示人們?yōu)榱俗龀瞿撤N決策而進行的一系列判斷過程,生成一套“在什么條件下會得到什么結果”的規(guī)則。

決策樹算法簡單直觀、易解釋,在實際應用中有著其他算法難以比肩的速度優(yōu)勢。一般情況下,一棵決策樹包含一個根節(jié)點、若干個決策節(jié)點和若干個葉節(jié)點[4]:整棵決策樹最頂端的節(jié)點被稱為根節(jié)點,包含樣本全集;每個決策節(jié)點表示一種特征或屬性,包含數(shù)據(jù)集中滿足從根節(jié)點到該節(jié)點所有條件的數(shù)據(jù)的集合;每個葉節(jié)點代表一種可能的分類結果,如果數(shù)據(jù)被包含在該葉節(jié)點中,則屬于該類別。在沿著決策樹由上至下的遍歷過程中,每個節(jié)點都會遇到一個測試,每個節(jié)點對于問題的不同測試結果將導致不同的分支[5],最后到達一個葉節(jié)點,從根節(jié)點到每個葉結點的路徑對應一個判定測試序列,表現(xiàn)出的是一種映射關系。

2 決策樹的構造

構造一棵高精度、小規(guī)模、泛化性能好,能夠高效、有效處理未知數(shù)據(jù)的決策樹,通常有兩個過程:第一個過程是通過預處理劃分好的數(shù)據(jù)集構建決策樹,即生成決策樹;第二個過程是對構建的決策樹進行檢驗和校正,即決策樹剪枝。

2.1 生成決策樹

將原始數(shù)據(jù)作為訓練樣本數(shù)據(jù)集,根據(jù)決策的實際需要對樣本數(shù)據(jù)進行預處理,選擇最能夠體現(xiàn)樣本特殊性的屬性作為決策屬性,并確定每個樣本的決策屬性取值;對訓練樣本數(shù)據(jù)集進行處理,選擇影響決策屬性是何取值的最主要屬性作為根節(jié)點,根據(jù)根節(jié)點屬性的不同取值,將完整的訓練樣本數(shù)據(jù)集劃分為幾個不同的數(shù)據(jù)子集;分別對每一個數(shù)據(jù)子集進行處理,在當前數(shù)據(jù)子集中選擇對決策屬性是何取值影響最大的屬性作為一個決策節(jié)點,繼續(xù)對當前數(shù)據(jù)子集進行劃分,當某個數(shù)據(jù)子集中所有樣本的決策屬性取值都相同時則停止,并將該數(shù)據(jù)子集的決策屬性作為一個葉節(jié)點;重復上述步驟,形成若干個決策節(jié)點和若干個葉節(jié)點,從而生成一棵完整的決策樹。

2.2 決策樹剪枝

隨著決策樹深度的增加,模型的準確度將會得到顯著提升,但對于新的未知數(shù)據(jù),決策樹會出現(xiàn)過分適應數(shù)據(jù)的情況。而且,由于數(shù)據(jù)中存在著噪聲和孤立點,許多分支反映的是訓練數(shù)據(jù)中的異常,將導致對新樣本數(shù)據(jù)的預測不準確的情況。為防止構建的決策樹出現(xiàn)過度擬合,需要對決策樹進行剪枝。

決策樹的剪枝方法一般有預剪枝和后剪枝。預剪枝(Pres-Pruning)是指對劃分前后的兩棵樹的泛化性能進行評估,根據(jù)評估結果決定該節(jié)點是否進行劃分,事先指定決策樹生長的最大深度,使很多節(jié)點沒有提前展開,降低了過擬合的風險,也減少了訓練決策樹花費的時間。后剪枝(Post-Pruning)是在構造完成一棵完整的決策樹后,從上至下計算每個節(jié)點的經(jīng)驗熵,遞歸地從決策樹的葉節(jié)點進行回縮,通過計算與比較回縮前后的損失函數(shù)來判斷是否進行剪枝。后剪枝可進行局部剪枝,通常比預剪枝方法保留了更多的分支。在一般情況下,后剪枝決策樹欠擬合的風險很小,泛化性能優(yōu)于預剪枝決策樹,但訓練時間會比預剪枝方法長。

3 決策樹算法C4.5

3.1 算法思想

20 世紀80 年代初期,機器學習研究人員昆蘭開發(fā)了決策樹迭代二叉樹3 代(Iterative Dichotomiser3,ID3)算法,使決策樹在機器學習領域得到極大發(fā)展,他后來又提出ID3 的改進——C4.5 算法,成為新的監(jiān)督學習算法的性能比較基準。C4.5算法在沿用ID3算法的信息熵和信息增益兩種概念的基礎上,又加入分裂信息熵的概念,使用信息增益率作為屬性選擇度量,選取具有最高信息增益率的屬性作為每個節(jié)點的劃分標準,尋找最佳分組變量和分割點,然后重復這個過程,直到生成的決策樹能分類訓練樣本[6]。較ID3算法而言,C4.5算法能夠處理非離散數(shù)據(jù)或不完整數(shù)據(jù),能夠應用于對新的未知類別的分類,提升了算法的有效性。

3.2 基本概念

1)信息熵

信息熵是對于數(shù)據(jù)集純度的描述指標,用來描述數(shù)據(jù)集信息量的大小,是所有樣本各種類別出現(xiàn)的不確定性之和。數(shù)據(jù)集的變量越不穩(wěn)定,則信息量越大,信息熵值越高。數(shù)據(jù)集X={X1,X2,…,Xn}的信息熵Entropy(X)表示為:

其中,p(xi)表示數(shù)據(jù)為xi時的概率。

對于根據(jù)屬性A劃分的m個子集,各種類別出現(xiàn)的不確定性之和,即屬性A的信息熵Entropy(X,A)表示為:

其中,Xi表示根據(jù)屬性A劃分的數(shù)據(jù)集X的第i個子集;|X|和|Xi|分別表示數(shù)據(jù)集X和子集Xi中的樣本數(shù)目。

2)信息增益

信息增益是原本數(shù)據(jù)集的信息熵與劃分之后的新數(shù)據(jù)集的信息熵之間的差值,用來衡量信息熵的期望減小值,表示在使用某種屬性對樣本進行劃分之后,樣本各種類別出現(xiàn)的不確定性的減少程度。信息增益越大,則信息熵的期望減小值越大。使用屬性A對數(shù)據(jù)集X進行劃分獲得的信息增益Gain(A)表示為:

3)分裂信息

分裂信息用來將信息增益規(guī)范化[7],表示在使用某種屬性進行劃分時分支的數(shù)量信息和尺寸信息,通常將其稱為屬性的內(nèi)在信息,類似于信息熵Entropy(X)。由數(shù)據(jù)集X劃分成的對應于屬性A輸出的m個子集產(chǎn)生的分裂信息熵SplitEntropy(X,A)表示為:

4)信息增益率

信息增益和分裂信息熵的比值就是信息增益率。C4.5 算法選擇具有最大信息增益率的屬性作為分裂屬性,將該屬性作為決策節(jié)點。屬性A的信息增益率GainRate(A)表示為:

4 C4.5在高職學生學業(yè)目標評價中的應用

4.1 確定研究對象與設計問卷

本文選定某高職院校大二年級學生作為研究對象,該年級的學生正面臨著升學或者就業(yè)的選擇,個體之間關于有無學業(yè)目標、是何學業(yè)目標等問題已經(jīng)基本呈現(xiàn)出差異。

經(jīng)過對學生的個人訪談可知,學生對自己學業(yè)目標的定位大致可分為參加升學考試、評選保送升學、專業(yè)就業(yè)、靈活就業(yè)、不升學不就業(yè)五種方向。本文將有升學和就業(yè)意愿的學業(yè)目標均評價為“明確”,將無升學和就業(yè)意愿的學業(yè)目標評價為“不明確”,選定自我效能水平、學業(yè)投入程度、時間管理傾向三個維度設計調(diào)查問卷(見表1),對學生的升學和就業(yè)意愿進行測量,以進行學生學業(yè)目標的評價。自我效能水平維度包含入學成績、現(xiàn)在班級排名、是否任學生干部、是否獲得獎學金、是否評得榮譽稱號五個方面,學業(yè)投入程度維度包含職業(yè)技能競賽獲獎情況、專業(yè)實踐活動參加情況、社團協(xié)會活動參加情況、專升本考試報名情況、職業(yè)資格考試報名情況五個方面,時間管理傾向維度則主要考量學生課余時間的分配情況。

表1 關于高職學生學業(yè)目標評價的調(diào)查問卷

4.2 數(shù)據(jù)采集與預處理

使用調(diào)查問卷共采集到80 份數(shù)據(jù),從中篩選出73 份有效數(shù)據(jù)作為此次實驗的訓練數(shù)據(jù)集。在設計問卷時已對連續(xù)屬性字段進行了離散化處理,為了方便后續(xù)處理,對收集到的離散化數(shù)據(jù)進行重新定義。

在自我效能水平維度中:將入學成績400 分及以上定義為“高”,300 分至400 分定義為“中”,300 分及以下定義為“低”;將現(xiàn)在班級排名1~10 名定義為“優(yōu)”,11~25名定義為“良”,26名及以后定義為“差”;在學業(yè)投入程度維度中:將職業(yè)技能競賽獲獎情況獲得市級及以上獎項定義為“優(yōu)秀”,獲得校級獎項定義為“一般”,從不參加、未獲過獎定義為“無”;將專業(yè)實踐活動參加情況和社團協(xié)會活動參加情況兩個題目的三個選項均依次定義為“經(jīng)?!薄芭紶枴薄皬牟弧保粚I究荚噲竺闆r和職業(yè)資格考試報名情況兩個題目的兩個選項均分別定義為“是”和“否”;將時間管理傾向維度的課余時間分配情況題目的作答情況作為目標變量,使用“學業(yè)目標”標識,包含有備賽備考或是實踐實習任一選項的數(shù)據(jù)則表示有升學和就業(yè)意愿,定義為“明確”,否則定義為“不明確”。

為了簡化訓練數(shù)據(jù)表,將題目1~10 分別對應屬性1~10。經(jīng)過預處理的訓練數(shù)據(jù)表(部分)和完整的訓練數(shù)據(jù)表中各屬性的數(shù)據(jù)量統(tǒng)計表分別見表2、表3。

表2 訓練數(shù)據(jù)表(部分)

表3 數(shù)據(jù)量統(tǒng)計表

4.3 創(chuàng)建決策樹

為了深入分析影響高職學生學業(yè)目標評價的各項因素及內(nèi)在關聯(lián),使用訓練數(shù)據(jù)集中的73條數(shù)據(jù),生成一棵能夠預測高職學生學業(yè)目標是否明確的決策樹。

1)目標變量“學業(yè)目標”屬性有“明確”和“不明確”兩個取值,因此可將訓練數(shù)據(jù)集劃分為兩個類,類“明確”有56 個樣本,類“不明確”有17 個樣本。計算訓練數(shù)據(jù)集的信息熵:

2)計算各屬性的信息熵:

依次計算出屬性2 至屬性10 的信息熵分別為:0.749、0.753、0.761、0.774、0.711、0.759、0.639、0.669、0.745。

3)計算各屬性的信息增益:

依次計算出屬性2至屬性10的信息增益分別為:0.034、0.03、0.022、0.009、0.072、0.024、0.144、0.114、0.038。

4)計算各屬性的分裂信息熵:

依次計算出屬性2 至屬性10 的分裂信息熵分別為:1.474、0.847、0.806、0.914、1.355、1.387、1.461、0.939、0.914。

5)計算各屬性的信息增益率:

依次計算出屬性2 至屬性10 的信息增益率分別為:0.0231、0.0354、0.0272、0.0098、0.0531、0.0173、0.0985、0.1214、0.0416。

選取信息增益率最大的屬性作為分裂屬性,因此將屬性9“專升本考試報名情況”作為決策樹的根節(jié)點,用“升學考試”標識,并生成“是”和“否”兩個分支。使用同樣方法在每個分支上對其他屬性進行進一步的處理,最終選取屬性2、4、6、7、8、10作為決策樹的決策節(jié)點,依次用“班級排名”“獎學金”“競賽獲獎”“專業(yè)實踐”“社團協(xié)會”“職業(yè)證書”標識。根據(jù)各個屬性取值的不同生成若干個分支,當分支上目標變量取值完全相同時則生成葉節(jié)點。通過后剪枝的方法剪枝后,最終生成的決策樹如圖1所示。

圖1 高職學生學業(yè)目標評價決策樹

4.4 提取分類規(guī)則

從決策樹中可以提取出學業(yè)目標為“不明確”的分類規(guī)則如下:

IF“升學考試=是”AND“專業(yè)實踐=從不”AND“職業(yè)證書=是”AND“獎學金=否”AND“競賽獲獎=從不”THEN“學業(yè)目標=不明確”;

IF“升學考試=是”AND“專業(yè)實踐=從不”AND“職業(yè)證書=否”AND“班級排名=差”THEN“學業(yè)目標=不明確”;

IF“升學考試=否”AND“社團協(xié)會=偶爾”AND“專業(yè)實踐=偶爾”AND“競賽獲獎=無”AND“職業(yè)證書=否”THEN“學業(yè)目標=不明確”;

IF“升學考試=否”AND“社團協(xié)會=從不”THEN“學業(yè)目標=不明確”。

4.5 數(shù)據(jù)分析

從決策樹和上述分類規(guī)則可以看出:

1)影響高職學生學業(yè)目標評價是否明確的最主要因素是專升本考試報名情況,有意愿報名、參加專升本考試的學生普遍擁有著更明確的學業(yè)目標;

2)經(jīng)常積極參與各項各類專業(yè)實踐活動、社團協(xié)會活動和職業(yè)技能競賽的學業(yè)投入意愿較強、程度較高的學生,普遍擁有著明確的學業(yè)目標;

3)不參加升學考試和職業(yè)證書考試,對各項各類專業(yè)實踐活動、社團協(xié)會活動和職業(yè)技能競賽均持中等意愿的學生,普遍擁有著不明確的學業(yè)目標;

4)參加升學考試或職業(yè)證書考試,但成績落后、未評得過獎學金、未獲得過競賽獎項等自我效能水平較低的學生,普遍擁有著不明確的學業(yè)目標。

因此,在高職學生的培養(yǎng)過程中,教育工作者應當首先注重加強學生對升學考試和專業(yè)相關職業(yè)資格證書的認識,可以開展學生間的學業(yè)經(jīng)驗交流活動,同伴群體間的榜樣作用能夠幫助學生對學業(yè)目標產(chǎn)生更清晰的認知,其次要為學生創(chuàng)設更多參加專業(yè)實踐活動、社團協(xié)會活動和職業(yè)技能競賽的機會,讓學生在實際參與的過程中認識到個人興趣所在以及明確就業(yè)方向,提升學生學業(yè)投入程度的精度和深度,在經(jīng)驗增長的過程中,促使學生的自我效能水平也得到相應提升。

5 結束語

本文以某高職院校大二年級學生作為研究對象,設計高職學生學業(yè)目標評價的調(diào)查問卷并進行數(shù)據(jù)收集,利用C4.5 決策樹算法進行數(shù)據(jù)挖掘,并對挖掘結果進行深入分析,認為影響高職學生學業(yè)目標評價是否明確的最主要因素是專升本考試報名情況,在進行高職學生的學業(yè)指導工作時,教育工作者應當注重為學生提供有關升學考試和職業(yè)資格證書的講解與經(jīng)驗交流機會,積極組織開展更多專業(yè)實踐活動、社團協(xié)會活動和職業(yè)技能競賽,著眼于提升學生學業(yè)投入程度的精度和深度及其自我效能水平,引導學生在此過程中逐步明確其學業(yè)目標。

猜你喜歡
剪枝信息熵決策樹
人到晚年宜“剪枝”
基于信息熵可信度的測試點選擇方法研究
基于YOLOv4-Tiny模型剪枝算法
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
基于信息熵的實驗教學量化研究
電子測試(2017年12期)2017-12-18 06:35:48
一種基于信息熵的雷達動態(tài)自適應選擇跟蹤方法
雷達學報(2017年6期)2017-03-26 07:52:58
剪枝
天津詩人(2017年2期)2017-03-16 03:09:39
基于決策樹的出租車乘客出行目的識別
基于信息熵的IITFN多屬性決策方法
宣城市| 斗六市| 隆回县| 万安县| 舒城县| 二手房| 桑植县| 河津市| 厦门市| 盐津县| 蒙自县| 二手房| 永安市| 新化县| 永德县| 教育| 奇台县| 英超| 元阳县| 贵南县| 湟中县| 天水市| 麟游县| 名山县| 和龙市| 大石桥市| 西充县| 宜春市| 和政县| 大庆市| 潞西市| 内黄县| 宁晋县| 巩义市| 曲水县| 广河县| 台中县| 苗栗市| 金阳县| 柘城县| 南皮县|