国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于糊模ID3算法的高校學(xué)生流失數(shù)據(jù)挖掘研究

2014-04-29 00:44:03趙永暉
計(jì)算機(jī)時(shí)代 2014年3期
關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

趙永暉

摘 要: 目前高校不斷擴(kuò)招,生源卻逐漸減少,于是預(yù)防和減少學(xué)生流失正成為各高校必須面對(duì)的問題。通過對(duì)高校學(xué)生流失情況進(jìn)行數(shù)據(jù)挖掘,可發(fā)現(xiàn)一些有價(jià)值的信息,為解決高校學(xué)生流失問題提供幫助?;诤@碚撎岢隽撕D3算法,并將該算法運(yùn)用于分析高校學(xué)生流失原因之中。通過實(shí)驗(yàn)證明,該算法生成的決策樹更加合理,分類速度更快,為解決高校學(xué)生流失問題提供了理論依據(jù)。

關(guān)鍵詞: 學(xué)生流失; 數(shù)據(jù)挖掘; 糊模ID3算法; 決策樹

中圖分類號(hào):TP311.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2014)03-36-02

0 引言

我國高等教育歷經(jīng)十多年的改革發(fā)展,各高校不斷擴(kuò)大招生規(guī)模,學(xué)校也越來越多,而參加高考的人數(shù)近年來卻逐漸減少,所以生源競爭日趨激烈,生源質(zhì)量也有所下降,同時(shí),學(xué)生流失在當(dāng)前各高校是一個(gè)十分普遍的現(xiàn)象,這些對(duì)高校的管理和教學(xué)是一個(gè)挑戰(zhàn),而如何預(yù)防和減少學(xué)生的流失則成為各高校需要迫切解決的問題[1]。

高校在發(fā)展的同時(shí),也積累了大量的學(xué)生個(gè)人信息數(shù)據(jù)。在這些海量的數(shù)據(jù)中隱藏著一些內(nèi)在的聯(lián)系和規(guī)律,對(duì)分析研究高校學(xué)生流失的原因有很大的幫助。從海量數(shù)據(jù)中挖掘出有價(jià)值的信息,是預(yù)防和減少學(xué)生流失的一個(gè)重要手段。傳統(tǒng)的統(tǒng)計(jì)分析方法,只能獲取一些表面的信息,有很大的局限性,分析和預(yù)測的結(jié)果不夠理想。

目前,以ID3算法為代表的決策樹算法是數(shù)據(jù)挖掘中一種重要的方法,該算法是1986年由Quinlan提出的[2],但該算法對(duì)不精確、不確定信息的處理能力較弱。糊模ID3算法基于糊模理論提出對(duì)ID3算法的一種推廣,綜合了模糊理論和決策樹的優(yōu)點(diǎn),不僅具有很強(qiáng)的分類處理能力,而且能很好地處理模糊性和不確定性問題[3]。

1 模糊決策樹

1.1 ID3算法

決策樹的算法中最典型的是ID3學(xué)習(xí)算法,它采用分治策略,通過遞歸構(gòu)造決策樹,在樹的結(jié)點(diǎn)上采用信息增益最大的屬性作為分枝屬性,具有容易理解、處理速度快等優(yōu)點(diǎn)。

1.2 糊模ID3算法

模糊決策樹學(xué)習(xí)算法有很多,比較常見的是糊模ID3算法,它是模糊理論在ID3算法中的運(yùn)用,主要用于處理模糊和不確定的信息。它也采用了分治策略,在構(gòu)造模糊決策樹時(shí),選取最小模糊信息熵作為節(jié)點(diǎn)屬性選擇標(biāo)準(zhǔn)。

設(shè)有經(jīng)過模糊后的示例集合V={V1,V2,…,Vn},模糊特征屬性A={A1,A2,…,Am},模糊類屬性C={C1,C2,…,Cj},每個(gè)屬性Ai的屬性值K(Ai)={ai1,ai2,…,aiki}(i=1,2,…,m),隸屬度umn表示第m個(gè)示例Vm關(guān)于第n個(gè)屬性的值,它是K(Am)上的模糊子集。

對(duì)于數(shù)據(jù)集V的信息增益G(Ai,V)的計(jì)算公式如下:

公式⑴

其中,,j為分類個(gè)數(shù),。

構(gòu)建模糊決策樹過程如下:選取一個(gè)結(jié)點(diǎn)中的任一個(gè)屬性值A(chǔ)i,根據(jù)公式⑴計(jì)算出每個(gè)屬性Ai對(duì)于數(shù)據(jù)集V的信息增益G(Ai,V),從所有屬性值中選取最大信息增益的屬性作為測試屬性,根據(jù)這個(gè)屬性進(jìn)行模糊分割,得到其他節(jié)點(diǎn),并依次判別是否葉子節(jié)點(diǎn),重復(fù)以上的過程,直到每一個(gè)結(jié)點(diǎn)都是葉子為止。

葉子節(jié)點(diǎn)產(chǎn)生的條件:①測試屬性全部用完;②當(dāng)前節(jié)點(diǎn)的模糊分割的隸屬度之和小于給定的閾值α;③當(dāng)前節(jié)點(diǎn)中僅包含一類的示例。

2 利用模糊決策樹分析學(xué)生流失

各高校都有學(xué)生信息管理系統(tǒng),積累了大量的學(xué)生考試成績數(shù)據(jù)和其他學(xué)生基本情況信息,這為數(shù)據(jù)挖掘提供了基礎(chǔ)條件。通過把糊模決策樹算法運(yùn)用于學(xué)生信息數(shù)據(jù)庫中,利用數(shù)據(jù)挖掘技術(shù),挖掘出有價(jià)值的信息,以供分析學(xué)生流失的原因。

2.1 數(shù)據(jù)模糊化處理

分析學(xué)生流失的原因,勢(shì)必要討論評(píng)測學(xué)生的各項(xiàng)指標(biāo),如學(xué)生專業(yè)課考試成績、大學(xué)英語、技能水平和性別等。其中專業(yè)課考試成績、大學(xué)英語是百分制數(shù)據(jù),比較特殊,是離散型數(shù)據(jù)。

在以往的數(shù)據(jù)挖掘過程中,離散型數(shù)據(jù)劃分成若干個(gè)區(qū)間,得到一個(gè)符號(hào)類屬性,但在臨界處會(huì)突變,從而增加誤差。如規(guī)定大學(xué)英語成績?cè)?0到100之間為優(yōu),若甲學(xué)生的成績?yōu)?0分,評(píng)價(jià)為優(yōu),而乙同學(xué)成績?yōu)?9分,評(píng)價(jià)為良,其實(shí)兩個(gè)同學(xué)成績非常接近,英語水平相差無幾,現(xiàn)強(qiáng)行區(qū)分成兩個(gè)等級(jí),很明顯增加了誤差。這是采用決策樹ID3算法的一個(gè)缺點(diǎn),所以對(duì)于模糊數(shù)據(jù),采用糊糊決策樹算法是比較科學(xué)。

本文的原始數(shù)據(jù)是我校2006級(jí)到2010級(jí)學(xué)生的成績和相關(guān)一些基本情況信息,主要包括學(xué)生的姓名、性別、身份證號(hào)、地址、民族、籍貫、各門功課的成績、技能成績等。收集數(shù)據(jù)后,把各門功課的成績求出平均值作為學(xué)生的專業(yè)課成績,抽取了一部分作為訓(xùn)練集,同時(shí)根據(jù)分析學(xué)生流失原因的需要,去掉了學(xué)生的民族、籍貫和地址等一些與流失不太相關(guān)的屬性,并對(duì)數(shù)據(jù)進(jìn)行了模糊化處理,處理后得到數(shù)據(jù)如表1所示。

表1 模糊處理后的訓(xùn)練集(學(xué)生信息表)

[編號(hào)\&性別\&專業(yè)成績\&專業(yè)技能\&文理科\&是否流失\&男\&女\&優(yōu)\&良\&中\&差\&強(qiáng)\&中\&弱\&文\&理\&是\&否\&1\&0\&0\&0.7\&0.2\&0.1\&0\&0.1\&0.6\&0.3\&0\&1\&0\&1\&2\&1\&0\&0.1\&0.7\&0.2\&0.1\&0.7\&0.1\&0.2\&1\&0\&0\&1\&3\&1\&0\&0.8\&0.1\&0.1\&0\&0.3\&0.6\&0.1\&1\&0\&0\&1\&4\&0\&1\&0.8\&0.1\&0\&0.1\&0.1\&0.2\&0.7\&0\&1\&0\&1\&5\&1\&0\&0.5\&0.2\&0.1\&0.2\&0.2\&0.3\&0.5\&0\&1\&1\&0\&6\&0\&1\&0.7\&0.2\&0.1\&0\&0.1\&0.3\&0.6\&0\&1\&0\&1\&7\&1\&1\&0.6\&0.2\&0.1\&0.1\&0.5\&0.3\&0.2\&0\&1\&0\&1\&8\&0\&1\&0.6\&0.2\&0.1\&0.1\&0.8\&0.1\&0.1\&1\&0\&0\&1\&9\&1\&0\&0.1\&0.2\&0.6\&0.1\&0.4\&0.1\&0.5\&0\&1\&1\&0\&……\&90\&1\&0\&0.8\&0.2\&0\&0\&1\&0\&0\&0\&1\&1\&0\&]

2.2 構(gòu)造模糊決策樹

采用1.2節(jié)介紹的構(gòu)建模糊決策樹過程構(gòu)造模糊決策樹,閾值α=0.7。由于計(jì)算過程比較復(fù)雜,在這里不詳細(xì)敘述,僅給出糊模ID3算法生成的部分模糊決策樹,如圖1所示。

[D\&專業(yè)成績\&][D∩優(yōu)\&0.89\&][D∩良\&專業(yè)技能\&][D∩中\&0.34\&][D∩差\&0.27\&] [優(yōu)][良][中] [差][0.72\&][0.90\&][0.46\&] [強(qiáng)][中][弱]

圖1 部分模糊決策樹

2.3 決策推理

一個(gè)嚴(yán)格決策樹可以轉(zhuǎn)變成一個(gè)規(guī)則集合[4]。模糊決策樹與ID3決策樹一樣可以轉(zhuǎn)變成相應(yīng)的模糊規(guī)則。從根節(jié)點(diǎn)開始,沿著決策樹的分支,通過屬性值向下搜索到葉節(jié)點(diǎn),即為一個(gè)規(guī)則。輸入一個(gè)樣本,依次從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的順序進(jìn)行決策,由于模糊決策樹中的樣本可能同時(shí)被劃分到多個(gè)葉節(jié)點(diǎn)上,因此結(jié)果為[0 1]之間的隸屬度。

在本例中,根據(jù)模糊決策樹轉(zhuǎn)換得到的一組模糊規(guī)則挖掘到一些有價(jià)值的信息。

專業(yè)成績優(yōu)秀學(xué)生流失可能性小,這是因?yàn)閷I(yè)成績優(yōu)秀的學(xué)生學(xué)習(xí)興趣高,自信心足,學(xué)習(xí)目標(biāo)明確。專業(yè)技能強(qiáng)但專業(yè)成績良的學(xué)生也不太會(huì)流失,主要原因是這類學(xué)生動(dòng)手能力強(qiáng),學(xué)習(xí)技能熱情高,就業(yè)前景好。專業(yè)成績中等,專業(yè)技能一般的學(xué)生流失與不流失概率差不多,因此這部分學(xué)生是最需要關(guān)注的,要及時(shí)指導(dǎo)他們的學(xué)習(xí),培養(yǎng)其學(xué)習(xí)興趣,加強(qiáng)溝通,了解原因,防止學(xué)生流失。專業(yè)成績和技能都比較差的學(xué)生流失可能性最大,主要原因是對(duì)專業(yè)不感興趣,學(xué)習(xí)動(dòng)力不足,基礎(chǔ)較差等。

2.4 實(shí)驗(yàn)結(jié)果比較與分析

為了驗(yàn)證本文提出的模糊決策樹算法的有效性,針對(duì)表1中模糊處理后的高校學(xué)生流失數(shù)據(jù)信息,分別采有ID3算法和糊模ID3算法進(jìn)行了分析,結(jié)果如表2所示。其實(shí)驗(yàn)環(huán)境如下:Intel Core(TM2) Duo CPU 1.83GHz,2G內(nèi)存,Windows Vista,Matlab7.0[5]。

表2 實(shí)驗(yàn)結(jié)果

[算法名稱\&訓(xùn)練精度\&測試精度\&運(yùn)行時(shí)間/s\&ID3算法\&0.86%\&0.72\&9.7\&糊模ID3算法\&0.84%\&0.79\&7.6\&]

實(shí)驗(yàn)結(jié)果表明,在測試精度和運(yùn)行時(shí)間兩個(gè)方面糊模ID3算法比ID3算法更優(yōu)。由于ID3算法與訓(xùn)練數(shù)據(jù)過度適應(yīng),ID3算法比糊模ID3算法的訓(xùn)練精度更高。在各種現(xiàn)象中,往往存在著許多事物,不能簡單劃分到某一個(gè)區(qū)間,存在著不確定性,而糊模ID3算法能很好地體現(xiàn)不確性。ID3算法由于生成規(guī)則是明確的,沒有反映出不確定性,所以糊模ID3算法具有較強(qiáng)的分類能力及穩(wěn)健性,規(guī)則以一定的隸屬度表示,知識(shí)的表示更為自然,更加容易理解。

3 結(jié)束語

為了解決ID3算法對(duì)不精確、不確定信息的處理能力較弱的問題,基于糊模理論提出了糊模ID3算法,并將算法應(yīng)用于高校學(xué)生流失原因分析和預(yù)測,并利用我校的學(xué)生信息數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,糊模ID3算法用于高校學(xué)生流失原因分析中,生成的決策樹更加合理,精度和速度更優(yōu),知識(shí)的表示更為自然,更容易理解。這些優(yōu)勢(shì)能很好地為高校管理提供準(zhǔn)確的學(xué)生流失信息,為預(yù)防和減少學(xué)生流失提供了強(qiáng)而有力的理論依據(jù)。

參考文獻(xiàn):

[1] 楊清波.高校學(xué)生流失問題分析及對(duì)策[J].科學(xué)咨詢(科技·管理),

2012.10:12-13

[2] Quinkm J R.Induction of decision tree[J]. Machine Learning,

1986.1(1):81-106

[3] 楊斷利,張銳,王文顯.基于模糊決策樹的高校就業(yè)數(shù)據(jù)挖掘研究[J].

河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2012.35(2):111-113

[4] 張朝杰.一種基于模糊決策樹的軟件工作量估算方法[D].國防科學(xué)技

術(shù)大學(xué),2010:21-22

[5] 張化光,劉鑫蕊,孫秋野.MATLIB/SIMULINK實(shí)用教程[M].人民郵電

出版社,2009.

猜你喜歡
決策樹數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于改進(jìn)決策樹的故障診斷方法研究
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
基于決策樹的出租車乘客出行目的識(shí)別
基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
電測與儀表(2016年2期)2016-04-12 00:24:40
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
庆城县| 兴仁县| 哈密市| 正宁县| 双牌县| 阿瓦提县| 万源市| 宜兰县| 张掖市| 汾西县| 铁岭县| 平和县| 石泉县| 拉孜县| 莎车县| 石景山区| 富蕴县| 克拉玛依市| 秦皇岛市| 太谷县| 白朗县| 韶山市| 当涂县| 花莲市| 原阳县| 灵丘县| 六盘水市| 五大连池市| 杭锦旗| 封丘县| 花莲县| 罗源县| 洮南市| 闵行区| 缙云县| 白水县| 中宁县| 甘肃省| 常宁市| 兖州市| 齐齐哈尔市|