姜 蕓
(西安交通大學(xué) 理學(xué)院,陜西 西安 710049)
數(shù)據(jù)挖掘技術(shù)在高校教學(xué)實(shí)踐中的應(yīng)用
姜蕓
(西安交通大學(xué) 理學(xué)院,陜西 西安 710049)
摘要:闡述了經(jīng)典的決策樹ID3算法,并利用該算法對(duì)高校大學(xué)物理實(shí)驗(yàn)課程學(xué)生成績(jī)進(jìn)行數(shù)據(jù)挖掘,從中提取有價(jià)值的信息,并對(duì)得到的結(jié)果進(jìn)行分析,得出了影響學(xué)生成績(jī)的原因,為提高高校教學(xué)管理水平提供了依據(jù).
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;ID3算法
1引言
當(dāng)今社會(huì),人們利用高速發(fā)展的信息技術(shù)得到了大量數(shù)據(jù),在給生活提供方便的同時(shí),也帶來了一些問題,由于積累的數(shù)據(jù)不斷增多,對(duì)所隱藏的數(shù)據(jù)知識(shí)挖掘方法知道的又比較少,使得數(shù)據(jù)囤積量大爆炸,盡管數(shù)據(jù)庫在技術(shù)上不斷成熟,可是卻沒有充分地發(fā)揮與利用數(shù)據(jù)庫里蘊(yùn)含的豐富的知識(shí)和信息. 由于現(xiàn)代社會(huì)數(shù)據(jù)庫的量以幾何狀態(tài)不斷地增長(zhǎng)[1],要在數(shù)據(jù)的汪洋中對(duì)信息去粗存精、去偽存真,靠傳統(tǒng)方法是不行的,要想高效地管理、組織這些數(shù)據(jù)并對(duì)其進(jìn)行分析和應(yīng)用并非是一件易事,這就要求計(jì)算機(jī)系統(tǒng)能夠提供更高層次的數(shù)據(jù)分析,而數(shù)據(jù)挖掘是最有效的方法. 數(shù)據(jù)挖掘(Data mining)則是知識(shí)發(fā)現(xiàn)(KDD)的核心部分,它指的是從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等. 數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索和空間數(shù)據(jù)分析等多個(gè)領(lǐng)域的理論和技術(shù). 進(jìn)入21世紀(jì),數(shù)據(jù)挖掘已經(jīng)成為一門比較成熟的交叉學(xué)科,并且數(shù)據(jù)挖掘技術(shù)也伴隨著信息技術(shù)的發(fā)展日益成熟起來.
2數(shù)據(jù)挖掘在高校教學(xué)實(shí)踐中的初步應(yīng)用
在高等學(xué)校教學(xué)實(shí)踐中,學(xué)生是主體,存在著學(xué)生學(xué)籍管理、教學(xué)儀器管理,以及教師對(duì)學(xué)生課程管理、成績(jī)管理等各種數(shù)據(jù)系統(tǒng). 在這些數(shù)據(jù)庫中存儲(chǔ)了大量的數(shù)據(jù),然而隱藏在這些數(shù)據(jù)背后的信息一直未得到開發(fā)應(yīng)用. 學(xué)生是學(xué)校的核心,學(xué)生的學(xué)習(xí)成績(jī)作為一種總結(jié)性評(píng)價(jià),能反映出他們的知識(shí)掌握情況和相應(yīng)知識(shí)技能的獲得情況,學(xué)習(xí)成績(jī)是加權(quán)綜合值,它不僅包括書面考試成績(jī),而且還包括人文的考核項(xiàng)目,比如出勤率、課堂表現(xiàn)、各種活動(dòng)等. 學(xué)生成績(jī)不僅對(duì)學(xué)生的學(xué)習(xí)效果和教師的教學(xué)效果具有檢測(cè)作用,而且還能反饋教學(xué)活動(dòng),反作用于教師的教和學(xué)生的學(xué). 在高校的教務(wù)數(shù)據(jù)庫中學(xué)生成績(jī)記錄非常龐大,對(duì)學(xué)生成績(jī)的評(píng)定分2種:一種是定量評(píng)價(jià),一種是定性評(píng)價(jià). 定量評(píng)價(jià)也就是平時(shí)所說的某門課程考了多少分,而定性評(píng)價(jià)一般分優(yōu)、良、中、差等4個(gè)級(jí)別. 僅僅從單獨(dú)一門課進(jìn)行分析,很少關(guān)注到學(xué)生取得這些成績(jī)背后的影響因素和原因. 數(shù)據(jù)庫是從定性的角度分析學(xué)生成績(jī),缺點(diǎn)是得到的結(jié)果不精確;而數(shù)據(jù)倉庫是從定量的角度對(duì)學(xué)生成績(jī)進(jìn)行分析,能精確地得到各個(gè)方面的數(shù)據(jù). 因此使用數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生成績(jī)進(jìn)行深層的分析,挖掘出隱藏在數(shù)據(jù)背后的規(guī)律或模式,根據(jù)挖掘結(jié)構(gòu)提出指導(dǎo)性建議,從而更好地指導(dǎo)教師教學(xué),提高教學(xué)效率,進(jìn)而有效地提高學(xué)生成績(jī).
3決策樹法中的ID3算法
數(shù)據(jù)挖掘技術(shù)主要有集合論法、決策樹法、遺傳算法、神經(jīng)網(wǎng)絡(luò)方法等. 決策樹法又分為ID3算法、CLS算法、IBLE算法等. ID3算法(Iterative Dichotomiser 3)是由Ross Quinlan首先提出的[2],該算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn)[3],實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類.
已知有C個(gè)結(jié)果的訓(xùn)練集S:
Entropy(S)=∑-p(I)log2p(I).
(1)
這里p(I)是屬于類I的S的比例. ∑是對(duì)C求和. log2以2為底的對(duì)數(shù).
如果所有S屬于相同的類,熵為 0(數(shù)據(jù)分類完畢),熵的范圍是 0(分類完畢)到 1(完全隨機(jī)). 注意:S不但是屬性而且也是整個(gè)樣本集.
(2)
Gain(S,A) 是屬性A在集S上的信息增益,定義為:
Gain(S,A) = Entropy(S)-Entropy(S,A) .
(3)
Gain(S,A)是指已知屬性A的值后導(dǎo)致熵的減少. Gain(S,A)越大,說明選擇測(cè)試屬性A對(duì)分類提供的信息越多.
4實(shí)例分析
通過對(duì)大學(xué)物理實(shí)驗(yàn)課程學(xué)生成績(jī)?cè)u(píng)定的典型實(shí)例,說明數(shù)據(jù)挖掘的步驟及決策樹方法在高校教學(xué)實(shí)踐中的應(yīng)用.
大學(xué)物理實(shí)驗(yàn)課程基本每學(xué)年考核1次,考評(píng)由3部分組成:課內(nèi)教學(xué)、課后實(shí)驗(yàn)報(bào)告及每學(xué)年期末考核. 整個(gè)實(shí)驗(yàn)課程成績(jī)主要依據(jù)在規(guī)定時(shí)間內(nèi)完成的課后實(shí)驗(yàn)報(bào)告的內(nèi)容和質(zhì)量來決定,實(shí)驗(yàn)課和期末考核作為較次要的考核內(nèi)容. 由上述物理實(shí)驗(yàn)教學(xué)內(nèi)容之間的關(guān)系,可以建立數(shù)據(jù)模型:學(xué)生情況數(shù)據(jù)庫,含學(xué)號(hào)、性別、實(shí)驗(yàn)報(bào)告、實(shí)驗(yàn)課、期末考核、平均成績(jī)、名次等項(xiàng)目.
選擇2個(gè)班,每班25人,對(duì)學(xué)生情況數(shù)據(jù)庫進(jìn)行如下的量化、轉(zhuǎn)換、清理、集成等處理工作,得到了相應(yīng)的數(shù)據(jù)庫(如表1所示).
表1 學(xué)生情況數(shù)據(jù)庫
學(xué)號(hào)字段定義為:1~50. 性別字段定義為:男或女. 實(shí)驗(yàn)報(bào)告加分定義為:0表示沒有通過,0.5表示通過,1表示較好. 實(shí)驗(yàn)課加分定義為: 0表示基本不上實(shí)驗(yàn)課,0.2表示適當(dāng)上實(shí)驗(yàn)課,0.5表示按期上實(shí)驗(yàn)課. 期末考核加分定義為: 0表示基本不參加期末考核,0.5表示參加期末考核并取得了較好的成績(jī). 平均成績(jī)定義為:學(xué)習(xí)成績(jī)總體情況,字段值為0~100. 名次定義為1~50,且記錄按名次從高到低排列.
應(yīng)用ID3算法建立相應(yīng)的決策樹,先確定正例個(gè)數(shù)p和反例個(gè)數(shù)n. 將名次排在前15名成績(jī)好的學(xué)生定義為正例,后35名成績(jī)不好的學(xué)生定義為反例,即p=15,n=35.
為及時(shí)了解滑坡體的演化過程,準(zhǔn)確捕捉特征信息,需對(duì)滑坡進(jìn)行監(jiān)測(cè),內(nèi)容包括地表變形、地下變形、地聲、應(yīng)變、水文以及降水量、地溫等其他環(huán)境因素。眾多可測(cè)量的數(shù)據(jù)中,位移是滑坡的最直接狀態(tài)量,且施測(cè)簡(jiǎn)單,文章介紹了位移監(jiān)測(cè)的常用方法,簡(jiǎn)述它們的基本原理和優(yōu)缺點(diǎn)。
gain(實(shí)驗(yàn)報(bào)告加分)=I(p,n)-E(實(shí)加)=
0.881-0.616=0.265,
gain(實(shí)驗(yàn)課加分)=I(p,n)-E(課加)=
0.881-0.801=0.08,
gain(期末考核加分)=I(p,n)-E(測(cè)加)=
0.881-0.879=0.002.
通過計(jì)算可知,實(shí)驗(yàn)報(bào)告加分具有最大的信息增益,故將實(shí)驗(yàn)報(bào)告加分選為根節(jié)點(diǎn)并向下擴(kuò)展,最終生成的決策樹,如圖1所示.
圖1 成績(jī)分析決策樹
通過分析圖1的決策樹,可以得到以下結(jié)論:
1)學(xué)生上完實(shí)驗(yàn)課后,如按期且獨(dú)立保質(zhì)保量完成實(shí)驗(yàn)報(bào)告,成績(jī)均較好.
2)學(xué)生實(shí)驗(yàn)報(bào)告完成得較好,也就是在實(shí)驗(yàn)課上動(dòng)手能力較強(qiáng),善于思考和分析,可以看出他們?cè)趯?shí)驗(yàn)的基礎(chǔ)上較為重視歸納和總結(jié),均沒有過重的課內(nèi)實(shí)驗(yàn)壓力,其中課內(nèi)實(shí)驗(yàn)課安排適度的學(xué)生學(xué)習(xí)成績(jī)也好.
3)對(duì)于剛通過實(shí)驗(yàn)報(bào)告測(cè)評(píng)的學(xué)生,情況就顯得較為復(fù)雜,要視具體情況而定,一方面學(xué)生的大作業(yè)、課內(nèi)實(shí)驗(yàn)、期末考核安排合理時(shí)學(xué)習(xí)成績(jī)也好,另一方面,如果學(xué)生經(jīng)常不參加課內(nèi)實(shí)驗(yàn)或不參加期末考核時(shí),也會(huì)影響到他們的學(xué)習(xí)成績(jī),造成學(xué)習(xí)成績(jī)不好.
根據(jù)表1和圖1,對(duì)學(xué)生情況數(shù)據(jù)庫所建決策樹進(jìn)行分析,可以初步判別:實(shí)驗(yàn)報(bào)告、實(shí)驗(yàn)課、期末考核是相輔相成的,互相影響和制約的,一般而言,學(xué)習(xí)成績(jī)較好的學(xué)生,其實(shí)驗(yàn)課和期末考核也是積極參加者.
這樣,教師就可以針對(duì)不同的學(xué)生進(jìn)行事先輔導(dǎo),使教學(xué)內(nèi)容在時(shí)間上得到延伸,學(xué)生能夠提前預(yù)習(xí)和掌握實(shí)驗(yàn)教學(xué)內(nèi)容,這樣,就可以減輕學(xué)生在實(shí)驗(yàn)課上的壓力,既緊張又輕松地完成預(yù)期實(shí)驗(yàn). 同時(shí),也要看到,如果僅重視上實(shí)驗(yàn)課和參加期末考核而不重視實(shí)驗(yàn)報(bào)告同樣也會(huì)影響到自身的學(xué)習(xí)成績(jī). 對(duì)于大學(xué)物理實(shí)驗(yàn)這門課程,學(xué)習(xí)成績(jī)好的學(xué)生,他們的上進(jìn)心、責(zé)任心也都相對(duì)較強(qiáng),能夠很好地處理上述三者之間的關(guān)系;反之,對(duì)自己約束力較差、經(jīng)常不上課或不認(rèn)真完成作業(yè)的學(xué)生,學(xué)習(xí)成績(jī)自然就較差.
5數(shù)據(jù)挖掘技術(shù)在高校教學(xué)實(shí)踐中的改進(jìn)與探索
雖然數(shù)據(jù)挖掘技術(shù)在商業(yè)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域已有比較成功的應(yīng)用,但在高校教學(xué)實(shí)踐中仍處于初級(jí)階段,其主要原因一是數(shù)據(jù)量有限,二是各學(xué)科、各院系之間缺少廣泛的數(shù)據(jù)交流. 要想更好地將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校教學(xué),筆者認(rèn)為有以下幾方面需要改進(jìn)與探索.
1)在有限的數(shù)據(jù)庫中要經(jīng)常挖掘、搜集和整理有價(jià)值的數(shù)據(jù). 由于高校除了大面積教學(xué)以外,剩余主要是科研,教學(xué)環(huán)境中數(shù)據(jù)量較少,無法與商業(yè)環(huán)境中的大量數(shù)據(jù)相比,因此,要在相對(duì)有限的環(huán)境中做數(shù)據(jù)挖掘的基礎(chǔ)工作.
2)各學(xué)科、各院系之間相對(duì)獨(dú)立,教師和科研人員手中的數(shù)據(jù)有的集中在學(xué)校、有的則在家里,彼此間缺少廣泛的數(shù)據(jù)交流,無法形成有效的數(shù)據(jù)鏈,這也是亟待改進(jìn)的任務(wù)之一.
3)重視人才培養(yǎng)和開發(fā). 數(shù)據(jù)挖掘技術(shù)對(duì)于人員素質(zhì)要求較高,不僅要求了解和初步掌握該技術(shù),而且還要求懂得數(shù)據(jù)定義和挖掘算法等技能,只有這樣,才能夠應(yīng)用好這個(gè)工具,進(jìn)而對(duì)結(jié)果做出科學(xué)的分析和評(píng)價(jià).
4)加強(qiáng)和優(yōu)化硬件環(huán)境. 數(shù)據(jù)挖掘技術(shù)的所有基礎(chǔ)性工作都是建立在可靠的硬件設(shè)施上的,數(shù)據(jù)挖掘需要有一定存儲(chǔ)量和運(yùn)算能力的計(jì)算機(jī),要有能夠提供信息傳遞和信息共享的暢通網(wǎng)絡(luò). 目前,有些高校硬件建設(shè)尚不能滿足數(shù)據(jù)挖掘技術(shù)的進(jìn)一步提升,同時(shí)內(nèi)部也未建立MIS系統(tǒng),使得信息的收集、傳遞、存貯等受到一定的影響. 相信隨著信息的不斷擴(kuò)大和需求,最終一定會(huì)形成適合于數(shù)據(jù)挖掘技術(shù)的信息鏈.
6結(jié)束語
數(shù)據(jù)挖掘技術(shù)經(jīng)過了十幾年的充實(shí)和發(fā)展,到目前為止已經(jīng)成功地運(yùn)用在各個(gè)不同的領(lǐng)域. 伴隨著科學(xué)技術(shù)的不斷發(fā)展和信息量的海量增加,如依靠傳統(tǒng)的方法要在龐大的數(shù)據(jù)庫中找到具有科學(xué)決策的信息是非常困難的,數(shù)據(jù)挖掘技術(shù)從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)和線索,借助于數(shù)據(jù)挖掘本身的技術(shù)去挖掘蘊(yùn)藏在數(shù)據(jù)庫中的客觀規(guī)律,從而為科學(xué)合理的決策提供有力的支持. 將數(shù)據(jù)挖掘技術(shù)引入到高校教學(xué)實(shí)踐中,一是發(fā)展的必然,二是有助于在日常教學(xué)管理中不斷獲得有規(guī)律的信息,為學(xué)校管理層提供決策依據(jù),從而不斷提高教學(xué)質(zhì)量. 本文通過對(duì)大學(xué)物理實(shí)驗(yàn)課程學(xué)生成績(jī)?cè)u(píng)定的實(shí)例分析,簡(jiǎn)述了數(shù)據(jù)挖掘技術(shù)在分析影響學(xué)生
參考文獻(xiàn):
[1]路延. 數(shù)據(jù)挖掘技術(shù)在高等學(xué)校教學(xué)中的應(yīng)用研究[J]. 科技資訊,2013(13):201.
[2]王惠中,彭安群. 數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)[J]. 工礦自動(dòng)化,2011(2):29-32.
[3]王小巍,蔣玉明. 決策樹ID3算法的分析與改進(jìn)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2011,32(9):3069-3072,3076.
[責(zé)任編輯:尹冬梅]
Application of data mining in university teaching practices
JIANG Yun
(School of Science, Xi’an Jiaotong University, Xi’an 710049, China)
Abstract:A classical method-decision tree ID3 was expounded. Using this method, the work of data mining on students’ achievement in college physical experiments was carried out. A lot of useful information was retrieved and analyzed. Some reasons that influenced students’ achievement were obtained. It would provide a scientific basis for college teaching management.
Key words:data mining; decision tree; ID3 algorithm
中圖分類號(hào):G642.423
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1005-4642(2015)03-0015-03
作者簡(jiǎn)介:姜蕓(1963-),女,陜西西安人,西安交通大學(xué)理學(xué)院物理實(shí)驗(yàn)中心工程師,學(xué)士,主要從事物理實(shí)驗(yàn)教學(xué)研究及管理工作.
收稿日期:2014-08-19;修改日期:2014-09-11