国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據挖掘在學生評優(yōu)管理中的應用研究

2014-07-07 10:02:03孫斌
科教導刊 2014年16期
關鍵詞:決策支持決策樹數(shù)據挖掘

孫斌

摘 要 隨著數(shù)字化校園建設步伐的加快,各大高校都有了比較完善的校園網系統(tǒng)。與此同時,高校在日常教學管理過程中積累了大量的數(shù)據,這些數(shù)據都是寶貴的信息資源。但是目前,這些數(shù)據主要的用途只是提供簡單的查詢和報表統(tǒng)計,對這些數(shù)據所隱藏的深層次的信息沒有充分地利用。如何更好地利用這些數(shù)據,為高校學生管理部門提供重要決策依據,從而進一步提高高校學生管理水平和效率,成為一個新的研究課題。

關鍵詞 學生綜合測評 決策支持 數(shù)據挖掘 決策樹

中圖分類號:G647 文獻標識碼:A

Application of Data Mining in Students' Appraised Management

SUN Bin

(School of Economics and Management, Inner Mongolia University

of Science &Technology, Baotou, Inner Mongolia 014010)

Abstract With digital speed up the pace of campus construction, major colleges and universities have a fairly complete campus network system. At the same time, the university has accumulated a large amount of data in daily teaching and management process, these data are a valuable information resource. But for now, the main purpose of these data only provide a simple query and reporting statistics, these data are hidden depth information is not fully utilized. How to make better use of these data provide an important basis for decision making for the college student management departments, so as to further improve the management level and efficiency of university students has become a new research topic.

Key words students' comprehensive evaluation; decision support; data mining; decision tree

1 數(shù)據挖掘技術

1.1 數(shù)據挖掘概述

數(shù)據挖掘(Data Ming)是建立在數(shù)據庫與人工智能技術上的一種新技術。目前,一個普遍的對數(shù)據挖掘的定義是:數(shù)據挖掘是一個基于某種目的,從數(shù)據集合中提取出彼此之間有著特殊關系的信息處理過程。數(shù)據挖掘可以說一個決策支持過程,涉及到的技術有:模式識別、統(tǒng)計學、數(shù)據庫、數(shù)據倉庫、人工智能、可視化技術等,數(shù)據挖掘可以幫助用戶自動分析數(shù)據,并進行歸納性推理,發(fā)現(xiàn)潛在模式,為決策者調整策略提供科學性指導,從而減少風險。

傳統(tǒng)的數(shù)據分析方法,例如報表、查詢、聯(lián)機應用等手段,通常是帶著明確目標,分析固定數(shù)據而追求預期結果。數(shù)據挖掘與這些方法有著本質不同,數(shù)據挖掘是在沒有明確假設的條件下去發(fā)現(xiàn)信息、挖掘信息。主要任務是關聯(lián)、聚類、分類、預測、分析偏差等等,常見的數(shù)據挖掘方法有決策樹、遺傳算法、貝葉斯網絡等等。

1.2 數(shù)據挖掘的處理流程

下面介紹一下數(shù)據挖掘的一般處理流程,數(shù)據挖掘是個復雜的多階段過程,一般分為如下幾個階段:

(1) 挖掘對象確定:這是數(shù)據挖掘的第一步,包括理解數(shù)據,提出問題,明確挖掘目標。

(2) 數(shù)據準備:數(shù)據準備是整個挖掘過程中所占比例最大的一個階段,是保證挖掘成功的前提條件,主要目的就是選取合適數(shù)據,統(tǒng)一數(shù)據格式,建立數(shù)據倉庫,數(shù)據準備階段可以分為三個子過程:數(shù)據選取、數(shù)據預處理、數(shù)據轉換。

(3) 數(shù)據挖掘:此階段核心在于模式的發(fā)現(xiàn),就是利用相關算法和挖掘工具對準備的數(shù)據進行分析,產生預期結果。

(4) 對結果分析、評價:就是將數(shù)據挖掘的結果分析驗證,得到有價值的信息,比如挖掘出的規(guī)則、模式等等,決定了挖掘的有效性,以一種直觀、容易理解的形式呈現(xiàn)給客戶,通常會用到可視化技術,計算機圖形學等等。

2 數(shù)據挖掘中的決策樹技術

在分類預測技術中,最常用的就是決策樹算法。決策樹的具有結構簡單,效率高,適用于大規(guī)模、非數(shù)值型數(shù)據處理,分類精度高等優(yōu)點。決策樹是基于貪心算法,通過自然而下遞歸的方法構造,由分枝與節(jié)點組成,節(jié)點則又分為根節(jié)點、內部節(jié)點、葉子節(jié)點,分類對象的屬性由根節(jié)點與內部節(jié)點對應,葉子節(jié)點則代表一種可能的分類結果,在內部節(jié)點進行屬性比較然后判斷向下的分支。依此遞歸,就形成了一條從根節(jié)點到葉節(jié)點的比較路徑,從而形成一套完成取向表達。本文研究采用的是ID3算法:

算法流程簡述如下:

(1) 相關數(shù)據的計算:假設是個對象的數(shù)據集,數(shù)據集的類別屬性數(shù)為,即(=1,2,3...),計算對象分類所需的期望信息,如下公式得出: = (,,…,) = (),其中是樣本屬于的概率估計。

然后設屬性由個不同值,用{,,…,}集合表示,然后將數(shù)據集劃分為{,,…}的子集,其中包含的樣本,此樣本在上有相同的值,即為。如果被選定為測試屬性,那么{,,…}就是從節(jié)點擴展的新節(jié)點。那么從劃分出的數(shù)據子集的信息熵由公式得出:

= (,,…)

其中, (,,…) = (), = 最后即可得出信息增益值:= (,,…)

(2) 構建決策樹:根據上述步驟計算的值進行決策樹構建。首先,用最大信息增益值的屬性變量作為決策樹的根節(jié)點,對屬性的值創(chuàng)建分支,并且劃分樣本。然后再遞歸形成決策樹。如果分組下的數(shù)據有相同的目標變量值,則決策樹就到達了葉結點,否則在分組內再次確立分支準則,繼續(xù)遞歸構建樹的下一層分枝。決策樹停止構建的條件為:屬性劃分完畢,結點數(shù)據集為空集,給定節(jié)點的樣本為同一類樣本。

3 決策樹技術在學生綜合測評管理工作中的應用

在學生綜合測評管理工作中,可以通過決策樹進行分類規(guī)劃。首先是建立決策樹的根節(jié)點,利用表征數(shù)據的關鍵屬性段建立,從而確定數(shù)據訓練集,然后輸入已有數(shù)據,建立可以預測學生信息的決策樹,便于學生的評優(yōu)與定位。

一般學校的學生評優(yōu)工作是圍繞綜合測評進行,而綜合測評涉及到很多方面,政治覺悟修養(yǎng)、學業(yè)成績、實踐動手能力、身體素質等等,這些數(shù)據很多都不能量化,因此學校對這些數(shù)據采取層次分析或者模糊分析等人工測評方法,人工評測的準確性與公平性得不到保證。利用決策樹可以很方便解決這個問題。首先將幾方面的素質分成等級,比如政治覺悟修養(yǎng),按照“優(yōu)、良、中、差”四個等級表征,以學生的學號作為索引關鍵字,對數(shù)據分類來表征不同的數(shù)據對象,建立“政治修養(yǎng)”決策樹;至于分析成績工作方面,可以列出若干因素,然后構建決策樹,比較影響因子大小,從而得出結論。而且還可以對得到的決策樹再次分類預測,包括:預測離散值,構建模型對現(xiàn)有數(shù)據分類,提出學生評優(yōu)管理中無用數(shù)據等;將原本數(shù)據分為具有一定特征的數(shù)據分類,便于管理者直接定位所需數(shù)據。

4 應用舉例

決策樹在學生成績分析管理工作中用途十分廣泛,下面結合一個具體實例來介紹常見的數(shù)據處理、數(shù)據挖掘的過程,并且根據決策樹分析影響學生成績的因素。

4.1 數(shù)據預處理

表1是某職業(yè)學院2011級財務信息學生的成績與基本狀況表。

表1

首先對以上數(shù)據進行離散化處理,得到的結果如表2:

表2

其中,學生是按照學號順序排列,共51名學生,性別只有男女兩種,下面對其他幾個選項說明:

(1)出勤情況中,0表示經常不出勤,0.5表示全勤,1表示偶爾不出勤;(2)政治面貌中,0表示群眾,0.2表示團員,0.4表示黨員;(3)生源地中,0表示城市,0.2表示農村。

4.2 構建模型

此例研究的是觀察學生的綜合評價與哪些因素有關,希望發(fā)現(xiàn)學生評價與學生性別、出勤、政治面貌、生源地等因素的關系,以確定很多問題,例如黨員是否可以嚴格要求自身學習,城市生源學生的成績是否優(yōu)于農村生源學生等等。首先根據決策樹算法構建模型,先進行對數(shù)據的處理,然后應用算法建立決策樹,并根據決策樹分析上述問題。流程簡介如下:(1)對數(shù)據表中的幾個屬性進行信息熵的計算,計算過程是根據上節(jié)提供的公式;(2)將得到的信息增益最大的屬性當做決策樹的根節(jié)點,然后進行數(shù)據子集劃分;(3)重復1、2步驟,對每個數(shù)據子集劃分,知道所有樣本是同一類或者屬性劃分完畢為止。如圖1所示:

圖1

4.3 具體計算過程,以性別屬性為例

(1)計算分類屬性信息量。在數(shù)據表中,有51個樣本,其中優(yōu)秀為10個,良好為10個,一般有17個,較差有14個,下面計算每個信息的信息熵:

由公式,計算得到:(,,,)= (11,10,16,15)= 1.9732。

(2)計算每個屬性的信息量。對于性別屬性,該屬性只有“男”、“女”兩種,其中對于男性,簇結論為優(yōu)秀、良好、一般,較差的樣本數(shù)分別為4、4、13、11個;對于女性,簇結論為優(yōu)秀、良好、一般、較差的樣本個數(shù)分別為7、6、4、2個。

對于男性的評價表信息量的計算:(4,4,13,11)=1.708;

對于女性的評價信息表的計算:(7,6,4,2)=1.877。

對于性別屬性的信息熵的計算則是:

(性別) = (4,4,13,11) + (7,6,4,2)=1.7709。

同理,計算得到:(出勤) = 1.3923;(政治面貌) = 1.7965;(生源地) = 1.8232.

(1) 信息增量的計算

Gain(性別)=1.9732-1.7709=0.2023

Gain(出勤)=1.9732-1.3923=0.5809

Gain(政治面貌)=1.9732-1.7965=0.1767

Gain(生源地)=1.9732-1.8232=0.15

4.4 構造決策樹

有上述計算結果知,出勤信息增益最大,因此作為根節(jié)點,然后再計算剩下三個屬性字段,得到的結果是剩下三個字段,政治面貌的信息增益大于其余兩個,因此作為剩下兩個屬性的根節(jié)點,然后依次類推,形成的決策樹如下所示:

圖2

4.5 決策樹分析

通過上面決策樹分析,我們可以得出如下結論:(1)最學生成績影響最大的因素是出勤率,出勤率不高的學生成績不好;(2)性別、生源地對學生成績沒有太大影響,還沒有政治面貌的影響大。因此,學生如果想提高學習成績,應該做到不缺課、不曠課,教師在教學過程中,對待男女生、城市鄉(xiāng)村學生一視同仁。

通過這個例子,我們剔除了數(shù)據集合中無關的屬性,還將對學生成績影響因素按照影響大小進行了排序,從而找出真正影響學生成績的原因,得到有助于教學決策改進的重要信息。

5 總結與展望

由本文的研究可以看出,數(shù)據挖掘技術在學生成績管理分析工作中的作用還是比較明顯的,特別是決策樹的應用,對綜合評價學生素質有著巨大的啟示與現(xiàn)實意義。在今后的工作中還有如下幾個方面需要進行思考、改進:(1)在對挖掘結果的分析研究中,生成的分類規(guī)則與實際情況存在一定的誤差,有些研究數(shù)據存在一定的片面性,還應該采取一定改進手段,優(yōu)化挖掘效率。(2)本文的研究方法主要采用的是決策樹手段,對其他的數(shù)據挖掘方式還有待進一步研究,以期采取多種挖掘方式改進對學生的成績管理工作。

參考文獻

[1] 范明,孟小峰等譯.數(shù)掘挖掘概念與技術[M].北京:機械工業(yè)出版社,2000.

[2] Han Jiawei、Kamber Micheline.數(shù)掘挖掘:概念與技術(影印版)[M].北京:高等教育出版社,2000.

[3] 董彩云等.數(shù)掘挖掘及其在高校教學系統(tǒng)中的應用[J].濟南大學學報(自然科學版),2004.18(1):65-68.

[4] 倪現(xiàn)君.基于數(shù)據挖掘分類技術的高校教學方法研究[J].科學技術與工程,2006.6(4):390-392.

[5] Minos Garofalakis、Dongjoon Hyun,Bui iding Decision Trees with Constraints,Data Mining and Knowledge Discovery,2003.2:187-214.

[6] J.Han,J.pei and Y.Yin.Mining Frequent patterns without candidate enerateion In proc,2000 ACM—SIGMOD Int Conf Management of Data[C].2000.5:I-I.

猜你喜歡
決策支持決策樹數(shù)據挖掘
探討人工智能與數(shù)據挖掘發(fā)展趨勢
一種針對不均衡數(shù)據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
基于并行計算的大數(shù)據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
商業(yè)智能分析模式在醫(yī)保病人住院化管理當中的應用研究
建立跨區(qū)域、多維度、品種一體化預算管控體系
秦山核電應急決策支持系統(tǒng)開發(fā)與研究
科技視界(2016年15期)2016-06-30 00:32:07
基于決策樹的出租車乘客出行目的識別
基于RFID的汽車零件銷售策略支持模型
一種基于Hadoop的大數(shù)據挖掘云服務及應用
漠河县| 长岛县| 额尔古纳市| 雅安市| 汝城县| 平邑县| 高州市| 启东市| 隆子县| 绍兴县| 牟定县| 溆浦县| 博客| 成都市| 镇安县| 鸡泽县| 临邑县| 开远市| 疏附县| 新疆| 漳浦县| 蕉岭县| 钟山县| 安远县| 泗阳县| 鸡东县| 临夏市| 恩施市| 沧州市| 武隆县| 南康市| 姚安县| 杨浦区| 自治县| 乌拉特后旗| 高陵县| 连江县| 远安县| 鹤壁市| 洪泽县| 淄博市|