国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進的C4.5算法在成績分析中的應(yīng)用

2015-12-17 01:53:53卞歡平
電腦知識與技術(shù) 2015年28期
關(guān)鍵詞:前導合格課外

卞歡平

摘要:該文介紹了數(shù)據(jù)挖掘中的一種改進的C4.5算法,簡化了原C4.5算法中復雜的對數(shù)運算問題。并將該C4.5算法應(yīng)用于《網(wǎng)站建設(shè)管理與維護》的成績分析中,為教學提供相應(yīng)的指導。

關(guān)鍵字:數(shù)據(jù)挖掘;改進的C4.5

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)27-0164-03

數(shù)據(jù)挖掘(Data Mining) 是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規(guī)則[1]。隨著高校信息化的推進,僅是簡單統(tǒng)計成績分布的需求已不能滿足當前教學的需要,如何從龐大的教學數(shù)據(jù)中提取出有價值的知識,用于指導并提高教學,成為了當今大數(shù)據(jù)時代所關(guān)注的焦點。數(shù)據(jù)分類算法是數(shù)據(jù)挖掘中最重要的技術(shù)之一。決策樹作為一種重要的數(shù)據(jù)分類方法,它能從一組沒有任何關(guān)聯(lián)的數(shù)據(jù)中尋找出它們的分類規(guī)則,并利用這些規(guī)則對這組數(shù)據(jù)以外的相似數(shù)據(jù)進行分類或預(yù)測。常見的決策樹算法有:CART、ID3、C4.5等[2]。其中:C4.5算法是通過信息增益率進而進行屬性的選擇,可以支持對連續(xù)值和空缺值屬性的處理。然而C4.5算法的缺點在于:在計算每個屬性的信息量的時候,都需要用到對數(shù)函數(shù)來進行計算,由此增加了許多計算的時間和復雜度。因此,本文找到一種對C4.5進行改進的算法,來盡可能少地減少計算量,從而加快樹的生成速度。

1 改進的C4.5算法

2 改進C4.5算法在成績分析中的應(yīng)用舉例

《網(wǎng)站建設(shè)管理與維護》作為高職院校大三計算機專業(yè)實訓課程,是將之前所學專業(yè)知識應(yīng)用于網(wǎng)站實際開發(fā)中的綜合技能的檢驗與提升。應(yīng)用改進的C4.5算法來找出影響《網(wǎng)站建設(shè)管理與維護》的成績因素,對教與學而言都起著重要的作用。

1) 數(shù)據(jù)采集

根據(jù)本門課程的特點,本次研究所采集的數(shù)據(jù)來自兩個部分:一部分源自于學校教務(wù)管理系統(tǒng)中的學生基本信息以及與《網(wǎng)站建設(shè)管理與維護》這門課相關(guān)的前導課程的成績數(shù)據(jù)。它們?yōu)椋簩W號、姓名、性別、《ASP.net》、《Web編程基礎(chǔ)(DW,div,css,ajax+HTML+JS)》、《XML Web Service開發(fā)》、《ADO.NET2.0》、《網(wǎng)站建設(shè)管理與維護》成績。另一部分數(shù)據(jù)來自于學生問卷調(diào)查表的結(jié)果。包括:本課程興趣程度、本課程課外所花時間。第三部分數(shù)據(jù)是由授課老師所提供學生本門課程的出勤率。本次共采集了1220條數(shù)據(jù)。

2) 數(shù)據(jù)集成

數(shù)據(jù)挖掘一般都需要涉及多個數(shù)據(jù)源的數(shù)據(jù)。數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來,存于統(tǒng)一的數(shù)據(jù)表中。根據(jù)上一步所采集到的數(shù)據(jù),以學生的“學號”為主鍵,將它們匯總在一起。

3) 數(shù)據(jù)清理

數(shù)據(jù)清理目的是去除數(shù)據(jù)中存在的噪聲。針對第2) 步收集成好的數(shù)據(jù)表,發(fā)現(xiàn)其中有些學生的某些成績存在缺考的情況,則將它們直接刪除。

4) 數(shù)據(jù)歸約

數(shù)據(jù)歸約是在原數(shù)據(jù)集的各屬性中,選取與本次的挖掘任務(wù)關(guān)系密切的屬性。因此,在第1)步所采集到的各成績屬性中,由于我們不是要研究某個前導課程對《網(wǎng)站建設(shè)管理與維護》這門課程成績的影響,而是想了解學生之前所學的前導課程的總體學習情況對本門課程的影響程度。因此,對第1)步所采集到《ASP.net》、《Web編程基礎(chǔ)(DW,div,css,ajax+HTML+JS)》、《XML Web Service開發(fā)》、《ADO.NET2.0》這幾門前導課程的成績?nèi)∑骄?,形成“前導課程學習情況”列的數(shù)據(jù)。并將“學號、姓名、性別”這些相關(guān)度較小的屬性刪除。最后構(gòu)建的相關(guān)屬性表如下表1所示:

5) 數(shù)據(jù)泛化

將“前導課程學習情況”所獲得的成績泛化為:85以上的為“優(yōu)”,84~70分的為“良”,60~69分的為“中”,60以下的為“差”。由于前導課程60以下的,在《網(wǎng)站建設(shè)管理與維護》這門課最后的成績基本也為不及格,對本次挖掘沒有實質(zhì)性意義,故將“前導課程學習情況”不及格的這部分數(shù)據(jù)刪除。然后以“《網(wǎng)站建設(shè)管理與維護》成績”為本次挖掘任務(wù)的類別屬性,規(guī)定:成績中大于60分的為“合格”,小于60分的為“不合格”。最后所得到的數(shù)據(jù)共1170條。數(shù)據(jù)表的各屬性如下表2所示:

6) 利用改進的C4.5算法生成決策樹

在表2中,以“前導課程學習情況”、“本課程到課率”“本課程興趣程度”、“本課程課外所花時間”四個屬性為決策屬性,以“成績”為類別標識屬性。根據(jù)改進C4.5算法所得到的公式(1-7)、(1-8)、(1-9),計算各個決策屬性的信息熵,信息量和信息增益率,以“前導課程學習情況”為例,計算如下:

7) 從決策樹提取分類規(guī)則

從上圖2-1中提取出如下的分類規(guī)則,其中成績“合格”的為:

①IF 到課率=“滿勤”and前導課程成績=“優(yōu)”,then 成績?yōu)椤昂细瘛薄?/p>

②IF 到課率=“滿勤”and前導課程成績=“良”,then 成績?yōu)椤昂细瘛薄?/p>

③IF 到課率=“滿勤”and前導課程成績=“中” and 課外時間=“大于4小時”,and (興趣=“有興趣”or興趣=“一般興趣”) then 成績?yōu)椤昂细瘛薄?/p>

④IF 到課率=“滿勤”and前導課程成績=“中” and 課外時間=“2-4小時”,and 興趣=“有興趣” then 成績?yōu)椤昂细瘛薄?/p>

⑤IF 到課率=“基本滿勤”and 課外時間=“大于4小時”then 成績?yōu)椤昂细瘛薄?/p>

⑥IF 到課率=“基本滿勤”and 課外時間=“2-4小時”and 興趣=“有興趣” and (前導課程成績=“優(yōu)”or前導課程成績=“良”) then 成績?yōu)椤昂细瘛薄?/p>

⑦IF 到課率=“中等”and興趣=“有興趣” then 成績?yōu)椤昂细瘛薄?/p>

成績?yōu)椤安缓细瘛钡臑椋?/p>

①IF 到課率=“滿勤”and前導課程成績=“中” and (課外時間=“2-4小時”or課外時間=“小于2小時”) and 興趣=“一般興趣” then 成績?yōu)椤安缓细瘛薄?/p>

②IF 到課率=“基本滿勤”and 課外時間=“2-4小時”and (興趣=“一般興趣”or興趣=“不感興趣”) and前導課程成績=“中”then 成績?yōu)椤安缓细瘛薄?/p>

③IF 到課率=“基本滿勤”and 課外時間=“小于2小時”then 成績?yōu)椤安缓细瘛薄?/p>

④IF 到課率=“中等”and (興趣=“一般興趣”or 興趣=“不興趣”) then 成績?yōu)椤安缓细瘛薄?/p>

⑤IF 到課率=“嚴重曠課”,then 成績?yōu)椤安缓细瘛薄?/p>

由此可見:首先:學生的“高到課率”和“興趣”因素是通過本課程的重要先決條件,其次:若前導課程成績的“優(yōu)良”的學生,說明對于網(wǎng)站建設(shè)所需要的基本知識與實驗操作技巧,之前的前導課程已基本涵蓋,所以對于學習本實訓課程基礎(chǔ)打得較扎實,學起來較為輕松,基本上是全員通過的;若前導課程成績?yōu)椤爸小钡膶W生,說明之前的基礎(chǔ)知識方面掌握得有所欠缺,但這些學生只要愿意在課外多花些時間去研究和補足之前的缺漏,完成每堂實訓課所提出的實驗任務(wù),跟上整個課程的實訓進度,也是可以通過本門課程的。而在“成績不通過”的規(guī)則中,存在的共性是之前的前導課程掌握不好,使得本實訓課所需知識儲備不足,本實訓課學習跟不上,因此對本門課的興趣普遍不高,最后沒有通過此課程。

計算機的實訓課是以案例為導向,按照項目的開發(fā)周期按進度循序漸進所進行的一項綜合性課程的學習,作為教學的老師而言,需要抓好學生的到課率,并且在課程教學中,選取合適的案例和教學方法,以提高學生的學習興趣。同時,由于前導課程的學習情況參差不齊,而且前導課程開課跨度大,有些在大一開,有些在大二開,學生對于前導知識遺忘率高,因此在每次實訓課結(jié)束,可針對下節(jié)課的案例,讓學生先回去復習下節(jié)課在操作案例中所需的前導知識點,并在每節(jié)課上課前,用一小部分時間復習和強調(diào),以提高學生知識點的熟悉程度,對于指導實驗提高興趣有較好的效果。而對于學生而言,要想真正掌握實訓課程的技能,必須在課后花一定的時間進行研究與操作,以達到掌握并精通課程的實踐技能。最后,針對一些同學前導課程掌握不好,進而導致跟不上進度,失去本課程興趣的學生,建議給予分班教學,一方面給他們輔導前導知識學習的漏洞,另一方面選取適合他們程度的實訓案例,縮小他們的學習差距,提高學習興趣。

參考文獻:

[1] 陳燕.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:清華大學出版社,2011.

[2] 李雄飛,杜欽生,吳昊.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:機械工業(yè)出版社,2013.

[3] 黃愛輝.基于決策樹算法的考試成績分析系統(tǒng)的研究與開發(fā)[D].湖南:湖南大學,2008.

猜你喜歡
前導合格課外
小滿課外班
我的“課外老師”
基于“三思而行”的數(shù)學章前導學課設(shè)計——以《數(shù)的開方》(導學課)為例
一種S模式ADS-B前導脈沖檢測方法
我是合格的小會計
誰不合格?
消費者報道(2016年4期)2016-11-23 19:48:47
做合格黨員
大江南北(2016年8期)2016-02-27 08:22:46
轉(zhuǎn)動小腦瓜
課外實踐豐富多彩
中國火炬(2014年2期)2014-07-24 14:16:57
句子的合格與不合格
當代修辭學(2014年1期)2014-01-21 02:30:04
瑞安市| 佛教| 德令哈市| 察雅县| 县级市| 保定市| 建宁县| 葫芦岛市| 正宁县| 鄄城县| 贺兰县| 乐安县| 高阳县| 阜南县| 湘阴县| 海晏县| 佳木斯市| 即墨市| 浠水县| 青神县| 温宿县| 丁青县| 延长县| 洱源县| 新龙县| 邹平县| 桐庐县| 昭苏县| 祁东县| 南汇区| 共和县| 霍林郭勒市| 兴安盟| 德庆县| 汉阴县| 灵寿县| 奉化市| 辉县市| 许昌县| 沁阳市| 双牌县|