国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在高校教學(xué)實(shí)踐中的應(yīng)用

2015-03-09 11:02
物理實(shí)驗(yàn) 2015年3期
關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

姜 蕓

(西安交通大學(xué) 理學(xué)院,陜西 西安 710049)

數(shù)據(jù)挖掘技術(shù)在高校教學(xué)實(shí)踐中的應(yīng)用

姜蕓

(西安交通大學(xué) 理學(xué)院,陜西 西安 710049)

摘要:闡述了經(jīng)典的決策樹ID3算法,并利用該算法對(duì)高校大學(xué)物理實(shí)驗(yàn)課程學(xué)生成績(jī)進(jìn)行數(shù)據(jù)挖掘,從中提取有價(jià)值的信息,并對(duì)得到的結(jié)果進(jìn)行分析,得出了影響學(xué)生成績(jī)的原因,為提高高校教學(xué)管理水平提供了依據(jù).

關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;ID3算法

1引言

當(dāng)今社會(huì),人們利用高速發(fā)展的信息技術(shù)得到了大量數(shù)據(jù),在給生活提供方便的同時(shí),也帶來了一些問題,由于積累的數(shù)據(jù)不斷增多,對(duì)所隱藏的數(shù)據(jù)知識(shí)挖掘方法知道的又比較少,使得數(shù)據(jù)囤積量大爆炸,盡管數(shù)據(jù)庫在技術(shù)上不斷成熟,可是卻沒有充分地發(fā)揮與利用數(shù)據(jù)庫里蘊(yùn)含的豐富的知識(shí)和信息. 由于現(xiàn)代社會(huì)數(shù)據(jù)庫的量以幾何狀態(tài)不斷地增長(zhǎng)[1],要在數(shù)據(jù)的汪洋中對(duì)信息去粗存精、去偽存真,靠傳統(tǒng)方法是不行的,要想高效地管理、組織這些數(shù)據(jù)并對(duì)其進(jìn)行分析和應(yīng)用并非是一件易事,這就要求計(jì)算機(jī)系統(tǒng)能夠提供更高層次的數(shù)據(jù)分析,而數(shù)據(jù)挖掘是最有效的方法. 數(shù)據(jù)挖掘(Data mining)則是知識(shí)發(fā)現(xiàn)(KDD)的核心部分,它指的是從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等. 數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索和空間數(shù)據(jù)分析等多個(gè)領(lǐng)域的理論和技術(shù). 進(jìn)入21世紀(jì),數(shù)據(jù)挖掘已經(jīng)成為一門比較成熟的交叉學(xué)科,并且數(shù)據(jù)挖掘技術(shù)也伴隨著信息技術(shù)的發(fā)展日益成熟起來.

2數(shù)據(jù)挖掘在高校教學(xué)實(shí)踐中的初步應(yīng)用

在高等學(xué)校教學(xué)實(shí)踐中,學(xué)生是主體,存在著學(xué)生學(xué)籍管理、教學(xué)儀器管理,以及教師對(duì)學(xué)生課程管理、成績(jī)管理等各種數(shù)據(jù)系統(tǒng). 在這些數(shù)據(jù)庫中存儲(chǔ)了大量的數(shù)據(jù),然而隱藏在這些數(shù)據(jù)背后的信息一直未得到開發(fā)應(yīng)用. 學(xué)生是學(xué)校的核心,學(xué)生的學(xué)習(xí)成績(jī)作為一種總結(jié)性評(píng)價(jià),能反映出他們的知識(shí)掌握情況和相應(yīng)知識(shí)技能的獲得情況,學(xué)習(xí)成績(jī)是加權(quán)綜合值,它不僅包括書面考試成績(jī),而且還包括人文的考核項(xiàng)目,比如出勤率、課堂表現(xiàn)、各種活動(dòng)等. 學(xué)生成績(jī)不僅對(duì)學(xué)生的學(xué)習(xí)效果和教師的教學(xué)效果具有檢測(cè)作用,而且還能反饋教學(xué)活動(dòng),反作用于教師的教和學(xué)生的學(xué). 在高校的教務(wù)數(shù)據(jù)庫中學(xué)生成績(jī)記錄非常龐大,對(duì)學(xué)生成績(jī)的評(píng)定分2種:一種是定量評(píng)價(jià),一種是定性評(píng)價(jià). 定量評(píng)價(jià)也就是平時(shí)所說的某門課程考了多少分,而定性評(píng)價(jià)一般分優(yōu)、良、中、差等4個(gè)級(jí)別. 僅僅從單獨(dú)一門課進(jìn)行分析,很少關(guān)注到學(xué)生取得這些成績(jī)背后的影響因素和原因. 數(shù)據(jù)庫是從定性的角度分析學(xué)生成績(jī),缺點(diǎn)是得到的結(jié)果不精確;而數(shù)據(jù)倉庫是從定量的角度對(duì)學(xué)生成績(jī)進(jìn)行分析,能精確地得到各個(gè)方面的數(shù)據(jù). 因此使用數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生成績(jī)進(jìn)行深層的分析,挖掘出隱藏在數(shù)據(jù)背后的規(guī)律或模式,根據(jù)挖掘結(jié)構(gòu)提出指導(dǎo)性建議,從而更好地指導(dǎo)教師教學(xué),提高教學(xué)效率,進(jìn)而有效地提高學(xué)生成績(jī).

3決策樹法中的ID3算法

數(shù)據(jù)挖掘技術(shù)主要有集合論法、決策樹法、遺傳算法、神經(jīng)網(wǎng)絡(luò)方法等. 決策樹法又分為ID3算法、CLS算法、IBLE算法等. ID3算法(Iterative Dichotomiser 3)是由Ross Quinlan首先提出的[2],該算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn)[3],實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類.

已知有C個(gè)結(jié)果的訓(xùn)練集S:

Entropy(S)=∑-p(I)log2p(I).

(1)

這里p(I)是屬于類I的S的比例. ∑是對(duì)C求和. log2以2為底的對(duì)數(shù).

如果所有S屬于相同的類,熵為 0(數(shù)據(jù)分類完畢),熵的范圍是 0(分類完畢)到 1(完全隨機(jī)). 注意:S不但是屬性而且也是整個(gè)樣本集.

(2)

Gain(S,A) 是屬性A在集S上的信息增益,定義為:

Gain(S,A) = Entropy(S)-Entropy(S,A) .

(3)

Gain(S,A)是指已知屬性A的值后導(dǎo)致熵的減少. Gain(S,A)越大,說明選擇測(cè)試屬性A對(duì)分類提供的信息越多.

4實(shí)例分析

通過對(duì)大學(xué)物理實(shí)驗(yàn)課程學(xué)生成績(jī)?cè)u(píng)定的典型實(shí)例,說明數(shù)據(jù)挖掘的步驟及決策樹方法在高校教學(xué)實(shí)踐中的應(yīng)用.

4.1 分析對(duì)象

大學(xué)物理實(shí)驗(yàn)課程基本每學(xué)年考核1次,考評(píng)由3部分組成:課內(nèi)教學(xué)、課后實(shí)驗(yàn)報(bào)告及每學(xué)年期末考核. 整個(gè)實(shí)驗(yàn)課程成績(jī)主要依據(jù)在規(guī)定時(shí)間內(nèi)完成的課后實(shí)驗(yàn)報(bào)告的內(nèi)容和質(zhì)量來決定,實(shí)驗(yàn)課和期末考核作為較次要的考核內(nèi)容. 由上述物理實(shí)驗(yàn)教學(xué)內(nèi)容之間的關(guān)系,可以建立數(shù)據(jù)模型:學(xué)生情況數(shù)據(jù)庫,含學(xué)號(hào)、性別、實(shí)驗(yàn)報(bào)告、實(shí)驗(yàn)課、期末考核、平均成績(jī)、名次等項(xiàng)目.

4.2 已知條件

選擇2個(gè)班,每班25人,對(duì)學(xué)生情況數(shù)據(jù)庫進(jìn)行如下的量化、轉(zhuǎn)換、清理、集成等處理工作,得到了相應(yīng)的數(shù)據(jù)庫(如表1所示).

表1 學(xué)生情況數(shù)據(jù)庫

學(xué)號(hào)字段定義為:1~50. 性別字段定義為:男或女. 實(shí)驗(yàn)報(bào)告加分定義為:0表示沒有通過,0.5表示通過,1表示較好. 實(shí)驗(yàn)課加分定義為: 0表示基本不上實(shí)驗(yàn)課,0.2表示適當(dāng)上實(shí)驗(yàn)課,0.5表示按期上實(shí)驗(yàn)課. 期末考核加分定義為: 0表示基本不參加期末考核,0.5表示參加期末考核并取得了較好的成績(jī). 平均成績(jī)定義為:學(xué)習(xí)成績(jī)總體情況,字段值為0~100. 名次定義為1~50,且記錄按名次從高到低排列.

4.3 數(shù)據(jù)挖掘

應(yīng)用ID3算法建立相應(yīng)的決策樹,先確定正例個(gè)數(shù)p和反例個(gè)數(shù)n. 將名次排在前15名成績(jī)好的學(xué)生定義為正例,后35名成績(jī)不好的學(xué)生定義為反例,即p=15,n=35.

為及時(shí)了解滑坡體的演化過程,準(zhǔn)確捕捉特征信息,需對(duì)滑坡進(jìn)行監(jiān)測(cè),內(nèi)容包括地表變形、地下變形、地聲、應(yīng)變、水文以及降水量、地溫等其他環(huán)境因素。眾多可測(cè)量的數(shù)據(jù)中,位移是滑坡的最直接狀態(tài)量,且施測(cè)簡(jiǎn)單,文章介紹了位移監(jiān)測(cè)的常用方法,簡(jiǎn)述它們的基本原理和優(yōu)缺點(diǎn)。

gain(實(shí)驗(yàn)報(bào)告加分)=I(p,n)-E(實(shí)加)=

0.881-0.616=0.265,

gain(實(shí)驗(yàn)課加分)=I(p,n)-E(課加)=

0.881-0.801=0.08,

gain(期末考核加分)=I(p,n)-E(測(cè)加)=

0.881-0.879=0.002.

通過計(jì)算可知,實(shí)驗(yàn)報(bào)告加分具有最大的信息增益,故將實(shí)驗(yàn)報(bào)告加分選為根節(jié)點(diǎn)并向下擴(kuò)展,最終生成的決策樹,如圖1所示.

圖1 成績(jī)分析決策樹

4.4 結(jié)論分析

通過分析圖1的決策樹,可以得到以下結(jié)論:

1)學(xué)生上完實(shí)驗(yàn)課后,如按期且獨(dú)立保質(zhì)保量完成實(shí)驗(yàn)報(bào)告,成績(jī)均較好.

2)學(xué)生實(shí)驗(yàn)報(bào)告完成得較好,也就是在實(shí)驗(yàn)課上動(dòng)手能力較強(qiáng),善于思考和分析,可以看出他們?cè)趯?shí)驗(yàn)的基礎(chǔ)上較為重視歸納和總結(jié),均沒有過重的課內(nèi)實(shí)驗(yàn)壓力,其中課內(nèi)實(shí)驗(yàn)課安排適度的學(xué)生學(xué)習(xí)成績(jī)也好.

3)對(duì)于剛通過實(shí)驗(yàn)報(bào)告測(cè)評(píng)的學(xué)生,情況就顯得較為復(fù)雜,要視具體情況而定,一方面學(xué)生的大作業(yè)、課內(nèi)實(shí)驗(yàn)、期末考核安排合理時(shí)學(xué)習(xí)成績(jī)也好,另一方面,如果學(xué)生經(jīng)常不參加課內(nèi)實(shí)驗(yàn)或不參加期末考核時(shí),也會(huì)影響到他們的學(xué)習(xí)成績(jī),造成學(xué)習(xí)成績(jī)不好.

根據(jù)表1和圖1,對(duì)學(xué)生情況數(shù)據(jù)庫所建決策樹進(jìn)行分析,可以初步判別:實(shí)驗(yàn)報(bào)告、實(shí)驗(yàn)課、期末考核是相輔相成的,互相影響和制約的,一般而言,學(xué)習(xí)成績(jī)較好的學(xué)生,其實(shí)驗(yàn)課和期末考核也是積極參加者.

這樣,教師就可以針對(duì)不同的學(xué)生進(jìn)行事先輔導(dǎo),使教學(xué)內(nèi)容在時(shí)間上得到延伸,學(xué)生能夠提前預(yù)習(xí)和掌握實(shí)驗(yàn)教學(xué)內(nèi)容,這樣,就可以減輕學(xué)生在實(shí)驗(yàn)課上的壓力,既緊張又輕松地完成預(yù)期實(shí)驗(yàn). 同時(shí),也要看到,如果僅重視上實(shí)驗(yàn)課和參加期末考核而不重視實(shí)驗(yàn)報(bào)告同樣也會(huì)影響到自身的學(xué)習(xí)成績(jī). 對(duì)于大學(xué)物理實(shí)驗(yàn)這門課程,學(xué)習(xí)成績(jī)好的學(xué)生,他們的上進(jìn)心、責(zé)任心也都相對(duì)較強(qiáng),能夠很好地處理上述三者之間的關(guān)系;反之,對(duì)自己約束力較差、經(jīng)常不上課或不認(rèn)真完成作業(yè)的學(xué)生,學(xué)習(xí)成績(jī)自然就較差.

5數(shù)據(jù)挖掘技術(shù)在高校教學(xué)實(shí)踐中的改進(jìn)與探索

雖然數(shù)據(jù)挖掘技術(shù)在商業(yè)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域已有比較成功的應(yīng)用,但在高校教學(xué)實(shí)踐中仍處于初級(jí)階段,其主要原因一是數(shù)據(jù)量有限,二是各學(xué)科、各院系之間缺少廣泛的數(shù)據(jù)交流. 要想更好地將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校教學(xué),筆者認(rèn)為有以下幾方面需要改進(jìn)與探索.

1)在有限的數(shù)據(jù)庫中要經(jīng)常挖掘、搜集和整理有價(jià)值的數(shù)據(jù). 由于高校除了大面積教學(xué)以外,剩余主要是科研,教學(xué)環(huán)境中數(shù)據(jù)量較少,無法與商業(yè)環(huán)境中的大量數(shù)據(jù)相比,因此,要在相對(duì)有限的環(huán)境中做數(shù)據(jù)挖掘的基礎(chǔ)工作.

2)各學(xué)科、各院系之間相對(duì)獨(dú)立,教師和科研人員手中的數(shù)據(jù)有的集中在學(xué)校、有的則在家里,彼此間缺少廣泛的數(shù)據(jù)交流,無法形成有效的數(shù)據(jù)鏈,這也是亟待改進(jìn)的任務(wù)之一.

3)重視人才培養(yǎng)和開發(fā). 數(shù)據(jù)挖掘技術(shù)對(duì)于人員素質(zhì)要求較高,不僅要求了解和初步掌握該技術(shù),而且還要求懂得數(shù)據(jù)定義和挖掘算法等技能,只有這樣,才能夠應(yīng)用好這個(gè)工具,進(jìn)而對(duì)結(jié)果做出科學(xué)的分析和評(píng)價(jià).

4)加強(qiáng)和優(yōu)化硬件環(huán)境. 數(shù)據(jù)挖掘技術(shù)的所有基礎(chǔ)性工作都是建立在可靠的硬件設(shè)施上的,數(shù)據(jù)挖掘需要有一定存儲(chǔ)量和運(yùn)算能力的計(jì)算機(jī),要有能夠提供信息傳遞和信息共享的暢通網(wǎng)絡(luò). 目前,有些高校硬件建設(shè)尚不能滿足數(shù)據(jù)挖掘技術(shù)的進(jìn)一步提升,同時(shí)內(nèi)部也未建立MIS系統(tǒng),使得信息的收集、傳遞、存貯等受到一定的影響. 相信隨著信息的不斷擴(kuò)大和需求,最終一定會(huì)形成適合于數(shù)據(jù)挖掘技術(shù)的信息鏈.

6結(jié)束語

數(shù)據(jù)挖掘技術(shù)經(jīng)過了十幾年的充實(shí)和發(fā)展,到目前為止已經(jīng)成功地運(yùn)用在各個(gè)不同的領(lǐng)域. 伴隨著科學(xué)技術(shù)的不斷發(fā)展和信息量的海量增加,如依靠傳統(tǒng)的方法要在龐大的數(shù)據(jù)庫中找到具有科學(xué)決策的信息是非常困難的,數(shù)據(jù)挖掘技術(shù)從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)和線索,借助于數(shù)據(jù)挖掘本身的技術(shù)去挖掘蘊(yùn)藏在數(shù)據(jù)庫中的客觀規(guī)律,從而為科學(xué)合理的決策提供有力的支持. 將數(shù)據(jù)挖掘技術(shù)引入到高校教學(xué)實(shí)踐中,一是發(fā)展的必然,二是有助于在日常教學(xué)管理中不斷獲得有規(guī)律的信息,為學(xué)校管理層提供決策依據(jù),從而不斷提高教學(xué)質(zhì)量. 本文通過對(duì)大學(xué)物理實(shí)驗(yàn)課程學(xué)生成績(jī)?cè)u(píng)定的實(shí)例分析,簡(jiǎn)述了數(shù)據(jù)挖掘技術(shù)在分析影響學(xué)生

參考文獻(xiàn):

[1]路延. 數(shù)據(jù)挖掘技術(shù)在高等學(xué)校教學(xué)中的應(yīng)用研究[J]. 科技資訊,2013(13):201.

[2]王惠中,彭安群. 數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)[J]. 工礦自動(dòng)化,2011(2):29-32.

[3]王小巍,蔣玉明. 決策樹ID3算法的分析與改進(jìn)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2011,32(9):3069-3072,3076.

[責(zé)任編輯:尹冬梅]

Application of data mining in university teaching practices

JIANG Yun

(School of Science, Xi’an Jiaotong University, Xi’an 710049, China)

Abstract:A classical method-decision tree ID3 was expounded. Using this method, the work of data mining on students’ achievement in college physical experiments was carried out. A lot of useful information was retrieved and analyzed. Some reasons that influenced students’ achievement were obtained. It would provide a scientific basis for college teaching management.

Key words:data mining; decision tree; ID3 algorithm

中圖分類號(hào):G642.423

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1005-4642(2015)03-0015-03

作者簡(jiǎn)介:姜蕓(1963-),女,陜西西安人,西安交通大學(xué)理學(xué)院物理實(shí)驗(yàn)中心工程師,學(xué)士,主要從事物理實(shí)驗(yàn)教學(xué)研究及管理工作.

收稿日期:2014-08-19;修改日期:2014-09-11

猜你喜歡
決策樹數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于決策樹的出租車乘客出行目的識(shí)別
基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
基于模糊關(guān)聯(lián)規(guī)則和決策樹的圖像自動(dòng)標(biāo)注
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
广宗县| 蒲城县| 宜兰市| 东乡| 榆林市| 织金县| 平湖市| 德钦县| 砀山县| 广河县| 武穴市| 富顺县| 米脂县| 南涧| 民权县| 鄢陵县| 炉霍县| 龙里县| 香格里拉县| 天台县| 武平县| 洪湖市| 仪征市| 锡林浩特市| 内乡县| 宁海县| 普洱| 汝州市| 颍上县| 闻喜县| 湘潭市| 高雄市| 建瓯市| 霍林郭勒市| 普定县| 武邑县| 福安市| 林州市| 巩义市| 平利县| 西吉县|