許蕊
[摘 要]隨著社會的不斷發(fā)展,教育事業(yè)也得到了長足的進(jìn)步,如何衡量一個學(xué)生的學(xué)業(yè),需要利用學(xué)生的成績。在高校中,學(xué)生成績的計算比較復(fù)雜,各種學(xué)科以及不相同的學(xué)分比重給學(xué)生成績的綜合計算帶來了很大困難。數(shù)字挖掘技術(shù)是一種良好的處理大量的、隨機(jī)的、模糊的數(shù)據(jù)的一種有效的方法,所以數(shù)據(jù)挖掘技術(shù)被運用于學(xué)生成績統(tǒng)計中,接下來重點分析數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用研究。
[關(guān)鍵詞]數(shù)字挖掘技術(shù);學(xué)生成績;分析應(yīng)用;
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2016)30-0090-01
數(shù)字挖掘技術(shù)是一種處理數(shù)據(jù)的方法技術(shù),具體是從大量的、隨機(jī)的、模糊的數(shù)據(jù)中提出隱藏其中又是有效信息的一個過程。在數(shù)據(jù)挖掘中,需要選擇合適的分析工具和具體的統(tǒng)計方法,主要的方法包括事例推理、決策樹、規(guī)則推理、模糊集、甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法等等,通過這些方法對數(shù)據(jù)進(jìn)行有效的分析,同時還需要經(jīng)過反復(fù)循環(huán)的過程,并且在過程中檢查是否在每一步達(dá)到預(yù)期的目標(biāo),否則就要進(jìn)行返回,重新進(jìn)行調(diào)整,直到完成相應(yīng)的目標(biāo)。這一技術(shù)目前已經(jīng)有了很大的發(fā)展,而且在進(jìn)行有效的結(jié)合過程中,對社會有很大的促進(jìn)作用。數(shù)據(jù)挖掘技術(shù)主要的流程包括信息收集、數(shù)據(jù)集成數(shù)據(jù)規(guī)約等等,但是具體分析來說,因為情況的復(fù)雜性,數(shù)據(jù)的挖掘需要經(jīng)過信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^程、模式評估和知識表示等八個步驟,這樣才能夠得到準(zhǔn)確的結(jié)果。高校教學(xué)中,學(xué)生的成績是最重要的一部分,但是高校學(xué)生成績并不像初高中那樣簡單的試卷成績,而是試卷成績與平時成績百分比的綜合,而且在某些時候,看的并不是均分或者總分,而是學(xué)分績點,所以高校學(xué)生成績的計算需要運用數(shù)據(jù)挖掘處理技術(shù)。所以,數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用研究就是本文需要討論的重點。
一、數(shù)據(jù)挖掘技術(shù)簡介
(一)數(shù)據(jù)挖掘技術(shù)的挖掘?qū)ο?/p>
數(shù)據(jù)挖掘技術(shù)作為一項重要的數(shù)據(jù)分析技術(shù)是在進(jìn)行大數(shù)據(jù)處理分析的時候首先考慮的一種方法。數(shù)據(jù)挖掘技術(shù)也有一個范圍廣的挖掘?qū)ο螅粌H包括關(guān)系數(shù)據(jù)庫、對象數(shù)據(jù)庫、數(shù)據(jù)倉庫等各種數(shù)據(jù)庫,還有文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫等復(fù)雜數(shù)據(jù)庫,所以目前數(shù)據(jù)挖掘技術(shù)在各方面的數(shù)據(jù)處理中有很大的幫助作用,同時對于整個數(shù)據(jù)分析模塊也是一個大的突破。
(二)數(shù)據(jù)挖掘技術(shù)的主要步驟
數(shù)據(jù)挖掘技術(shù)是一項復(fù)雜的數(shù)據(jù)分析處理的技術(shù),在進(jìn)行數(shù)據(jù)處理的過程中有幾個重要的步驟,包括對信息的收集、數(shù)據(jù)的集成、數(shù)據(jù)的規(guī)約、數(shù)據(jù)的清理。在進(jìn)行完這些基本的數(shù)據(jù)處理之后,還要進(jìn)行數(shù)據(jù)的變化和挖掘,最后對整理分析完成的數(shù)據(jù)進(jìn)行表示。下面簡要介紹這些具體的步驟。
1.信息的收集
信息的收集是數(shù)據(jù)挖掘技術(shù)中首要的工作步驟,在這一步驟中,需要選擇一個合適的數(shù)據(jù)庫和數(shù)據(jù)存儲,在將抽象的數(shù)據(jù)分析之后,把有效的特征和數(shù)據(jù)存入其中,進(jìn)行接下來的具體分析。對于學(xué)生成績的信息收集,就是把學(xué)生的總成績、單科成績以及各個學(xué)科中錯誤題的分?jǐn)?shù)進(jìn)行有效的錄入,從而可以進(jìn)行接下來的工作。
2.數(shù)據(jù)的集成
數(shù)據(jù)的集成也就是對數(shù)據(jù)的整理,把不同來源、格式和特點的數(shù)據(jù)進(jìn)行集成,可以是物力集成,也可以是邏輯集成,從而把企業(yè)或者學(xué)校提供的數(shù)據(jù)進(jìn)行全面的共享。在學(xué)生成績統(tǒng)計的過程中,各個學(xué)科的成績有學(xué)科教師進(jìn)行錄入,包括總成績,每一道題目學(xué)生所得的分?jǐn)?shù)等等,但是在此之前學(xué)校應(yīng)該對每一種數(shù)據(jù)規(guī)定一定的格式,這樣在數(shù)據(jù)集成的時候會有很大的方便。
3.數(shù)據(jù)的規(guī)約
在執(zhí)行數(shù)據(jù)挖掘算法的時候需要用很長的時間,即使是少量的數(shù)據(jù),所以商業(yè)運營的時候所使用的數(shù)據(jù)挖掘信息技術(shù)所需要的時間更長。數(shù)據(jù)規(guī)約技術(shù)雖然會很小,但是能夠保持原始數(shù)據(jù)的完整性,并且在規(guī)約以后執(zhí)行的數(shù)據(jù)挖掘的結(jié)果與之前執(zhí)行的結(jié)果幾乎保持一致。學(xué)生的成績是不能有半點差錯的,所以執(zhí)行規(guī)約是一項重要的步驟。
4.數(shù)據(jù)的清理
數(shù)據(jù)的清理主要是對數(shù)據(jù)庫中一些不完整的、有噪聲的和不一致的數(shù)據(jù)進(jìn)行清理,從而得到一些完整的、正確的、一致的數(shù)據(jù)信息,存入數(shù)據(jù)倉庫中,否則,數(shù)據(jù)挖掘的結(jié)果會差強(qiáng)人意。在學(xué)生成績的信息處理過程中,由于工作量很大,所以偶爾會對學(xué)生的有著成績的錄入漏掉,在規(guī)約的過程中,可以根據(jù)數(shù)據(jù)的綜合將部分的數(shù)據(jù)進(jìn)行補(bǔ)充完整。
5.數(shù)據(jù)的變換
數(shù)據(jù)的轉(zhuǎn)換主要進(jìn)行的就是將數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式,運用的主要方法是平滑聚集,數(shù)據(jù)概化,規(guī)范化。在學(xué)生統(tǒng)計的過程中,主要是對學(xué)生的各種成績的形式進(jìn)行轉(zhuǎn)換,對于不同成績展現(xiàn)方式需要轉(zhuǎn)換成為不同的形式,數(shù)據(jù)的轉(zhuǎn)換是方便學(xué)生、家長對成績的分析和比較。
6.挖掘的過程
數(shù)據(jù)挖掘的過程是根據(jù)倉庫中數(shù)據(jù)信息進(jìn)行分析,主要應(yīng)用的方法包括事例推理、決策樹、模糊集、遺傳算法等的方法。
7.模式評估
模式評估從商業(yè)角度來說,主要是由行業(yè)專家進(jìn)行數(shù)據(jù)驗證,但是在學(xué)校學(xué)生成績的統(tǒng)計過程中,這一步不需要進(jìn)行。
8.知識表示
知識表示所表示的就是將所得到的數(shù)據(jù)分析用可視化的方式呈現(xiàn)給用戶,或者是用新的知識存在知識庫中,提供給其他的程序使用。為了能夠給用戶呈現(xiàn)更加清楚明了的方式,在表示的時候應(yīng)該用所熟知的方式表示。
二、數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中應(yīng)用的具體方法
(一)遺傳算法
遺傳算法是一種隨機(jī)搜索方法,主要是基于生物自然選擇和遺傳的機(jī)理,也是一種仿生全局的優(yōu)化方法。在這種算法中,具有隱含并行性,所以非常容易和其他的模型進(jìn)行結(jié)合。這些性質(zhì)在數(shù)據(jù)挖掘中能夠被加以應(yīng)用。在學(xué)生數(shù)據(jù)統(tǒng)計的過程中,利用遺傳算法對學(xué)生成績的分析有簡化的作用。
(二)決策樹方法
決策樹是一種常用于預(yù)測模型的算法,主要是將大量的數(shù)據(jù)進(jìn)行分析,可以將其中有價值的信息進(jìn)行分析。這種方法有很多的優(yōu)點,包括描述的簡單、分類的速度快、適合大規(guī)模數(shù)據(jù)的處理等等。在對學(xué)生的成績進(jìn)行分析整理的過程中,可以使用決策樹的方法,因為學(xué)生的數(shù)量之多,學(xué)生所學(xué)習(xí)的科目之多,使得數(shù)據(jù)有了一個翻倍,所以用決策樹可以將這些成績進(jìn)行簡單快速的分析。
(三)粗集方法
粗集方法主要針對的研究對象是不精確、不確定知識的一種數(shù)學(xué)工具,其主要優(yōu)點在于不需要額外的信息、算法簡單容易操作??梢杂么旨椒▽︻愃婆c二維關(guān)系表的信息表進(jìn)行處理,而且學(xué)生成績就是以這種表現(xiàn)形式呈現(xiàn)的。
三、結(jié)束語
通過分析數(shù)據(jù)挖掘信息技術(shù)的執(zhí)行步驟和具體的方法,進(jìn)一步分析數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用,從而促進(jìn)教育事業(yè)的發(fā)展。
參考文獻(xiàn)
[1] 數(shù)據(jù)挖掘技術(shù)在高校成人教育學(xué)生成績分析中的應(yīng)用研究;紀(jì)雅楠,魏振鋼;中國海洋大學(xué),2010年.
[2] 數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用研究;康艷霞,朱敏;華東師范大學(xué),2009年.
[3] 數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用研究;李杰,劉天時;西安石油大學(xué),2010年.