陳志忠
(四川郵電職業(yè)技術(shù)學院,四川成都610067)
數(shù)據(jù)挖掘聚類算法在學生信息管理系統(tǒng)中的應(yīng)用
陳志忠
(四川郵電職業(yè)技術(shù)學院,四川成都610067)
針對傳統(tǒng)的K-means聚類算法在學生信息管理中受隨機中心地址的影響,提出了數(shù)據(jù)分段方法進行中心地址選擇。該算法將數(shù)據(jù)源進行K段劃分,接著在每段內(nèi)中選擇中心地址,使用迭代回歸方法進行中心選擇。在現(xiàn)有部分學生信息上進行仿真結(jié)果表明,算法的迭代次數(shù)降低,所改進算法提高了傳統(tǒng)K-means算法。
K-means;中心選擇;學生信息
隨著高校擴張,各高校在校人數(shù)不斷增多,學生管理難度加大。同時對學生來講,在學校中接受教育時,希望學生能接受多樣化的管理制度,為學生提供輕松、自由的學習環(huán)境。在信息化進程日益加快的今天,學校管理中也開始引入計算機、互聯(lián)網(wǎng)等信息技術(shù),通過先進技術(shù)的應(yīng)用提高管理水平。學生人數(shù)的增多,給學校管理帶來了挑戰(zhàn),為了提高學生管理效率和水平,很多學校都開始致力于學生信息管理系統(tǒng)的研究和應(yīng)用。在學生信息管理系統(tǒng)中,除了實現(xiàn)學生基本信息如專業(yè)、學籍、班級等的管理外,還將學生選課服務(wù)、學習進度、畢業(yè)論文管理、就業(yè)信息管理等相關(guān)內(nèi)容融入其中,實現(xiàn)了學生所有信息管理的“一條龍”服務(wù)。通過專門的學生信息管理系統(tǒng),將學生各項信息都融合在一起,實現(xiàn)了所有信息的高水平管理。
當今時代屬于信息時代,各類信息數(shù)據(jù)較多。在學校中,學生相關(guān)信息也多,而在互聯(lián)網(wǎng)的幫助下,學生信息也呈現(xiàn)出價值、海量特點。學校在開展學生信息管理時,需要根據(jù)學生信息情況合理進行分類,并根據(jù)學生具體需求開展相應(yīng)的信息管理,以提高信息管理水平。而要實現(xiàn)這些就需要借助學生數(shù)據(jù)信息的分析,如何從海量的信息中提取到真正有用的信息,則成為學校開展學生信息管理時面臨的一個重要問題。在這種情況下,就需要用到數(shù)據(jù)挖掘技術(shù),通過數(shù)據(jù)挖掘?qū)A康膶W生信息進行深度挖掘、分析,提取到真正有用的學生信息,并用到學生信息管理中,提高學生信息管理水平。數(shù)據(jù)挖掘技術(shù)較多,如聚類算法、分類算法、回歸分析、關(guān)聯(lián)規(guī)則算法等,都是數(shù)據(jù)挖掘中經(jīng)常采用的方法。本文主要對數(shù)據(jù)挖掘中的聚類算法在學生信息管理系統(tǒng)中的應(yīng)用進行了分析,為數(shù)據(jù)挖掘在學生信息管理中的具體應(yīng)用提供參考建議。
數(shù)據(jù)挖掘是計算機學科中的一門重要技術(shù)方法。數(shù)據(jù)挖掘是從好靚數(shù)據(jù)信息中搜索出有用或潛在的信息。一般情況下,數(shù)據(jù)挖掘主要通過統(tǒng)計、分析等實現(xiàn)。數(shù)據(jù)挖掘技術(shù)產(chǎn)生以后,最初在統(tǒng)計、數(shù)據(jù)庫、人工智能等行業(yè)和領(lǐng)域內(nèi)進行應(yīng)用。隨著大數(shù)據(jù)時代的到來,各行各業(yè)都開始加大數(shù)據(jù)挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘時,在數(shù)據(jù)信息來源判斷的基礎(chǔ)上,獲取到相關(guān)數(shù)據(jù)信息,并將相關(guān)數(shù)據(jù)信息整合到一起,進行數(shù)據(jù)檢查,將不符合要求的數(shù)據(jù)去除,然后建構(gòu)數(shù)據(jù)模型,實現(xiàn)數(shù)據(jù)的挖掘、分析,從而完成數(shù)據(jù)挖掘工作。在數(shù)據(jù)挖掘過程中,最重要的一步工作是對數(shù)據(jù)進行預處理,保證數(shù)據(jù)信息、格式等和要求相符,從而進行深度挖掘、分析。
數(shù)據(jù)挖掘技術(shù)較多,如聚類算法、分類算法、回歸分析、關(guān)聯(lián)規(guī)則算法等,都是數(shù)據(jù)挖掘中經(jīng)常采用的方法。如下是對幾種方法的具體分析:
關(guān)聯(lián)規(guī)則分析:關(guān)聯(lián)規(guī)則分析方法主要是對數(shù)據(jù)信息中隱藏的關(guān)系進行挖掘分析。采用關(guān)聯(lián)規(guī)則分析法進行數(shù)據(jù)挖掘時,主要是通過兩個環(huán)節(jié)實現(xiàn):第一個環(huán)節(jié)是從海量的數(shù)據(jù)信息中尋找出真正符合要求的數(shù)據(jù);第二環(huán)節(jié)則是對這些數(shù)據(jù)信息中存在的關(guān)系進行挖掘。在金融行業(yè)中,關(guān)聯(lián)規(guī)則分析法應(yīng)用較為廣泛。
分類:將海量數(shù)據(jù)中的具有相同點的數(shù)據(jù)按照類別歸為一類,并通過分類模型等實現(xiàn)數(shù)據(jù)的挖掘分析。在應(yīng)用分類、趨勢預測等領(lǐng)域中該方法應(yīng)用方法,如目前電商平臺都會采用分類算法向用戶推薦相關(guān)聯(lián)的商品信息。
聚類算法:將海量數(shù)據(jù)中相似的數(shù)據(jù)聚集到一起歸為一類,從而實現(xiàn)數(shù)據(jù)挖掘分析。
在聚類算法中,相似的數(shù)據(jù)在一個聚集內(nèi),實現(xiàn)了數(shù)據(jù)挖掘。聚類算法在學生信息管理系統(tǒng)中應(yīng)用時,將具有相似特征的學生信息聚在一起;基于學習目標將選課相同的學生匯集一起等。聚類算法也較多,如下對幾種聚類算法在學生信息管理系統(tǒng)中的具體應(yīng)用了詳細分析。
假設(shè)樣本數(shù)據(jù)用Y={y1,y2,..yn}表示,其中yi(1<i<n)表示一個對象;用C={c1,c2,..cm}表示有m個類;對于兩個對象之間的距離使用歐式距離其中m表示維數(shù)y表示第k個類中的中心類。
1)從數(shù)據(jù)Y中隨機選擇K個對象作為初始中心;
2)根據(jù)歐式距離方法計算所有的yi(1<i<n)到中心的距離;根據(jù)最小距離將對象進行劃分;
3)計算聚類均值;
4)計算目標函數(shù),如果函數(shù)值最小則算法終止;如果算法不滿足則跳轉(zhuǎn)到(2)。
在K-means聚類算法中,初始點的選擇直接影響到聚類效果。為了防止初始點選擇過于集中導致聚類效果不佳,本文提出了一種選擇中心點盡可能互相原理的算法,這樣既可提高聚類效果也可使得算法性能得到提高。算法過程如下所示:
1)假設(shè)Y={y1,y2,..yn}表示聚類樣品數(shù)據(jù),采用矩陣Dist=表示聚類距離矩陣,在該矩陣dij表達式中d(xi,xj)。
在學生信息管理系統(tǒng)中包含的結(jié)構(gòu)主要有:學生信息、學生班級、學生專業(yè)、學生考試成績等。表1為某部分學生信息表。
表1 某部分學生信息表
如圖1為距離代價函數(shù)很K值的關(guān)系。從圖中可以看出隨著K值增加距離變化逐漸降低,這表明算法性能有效。
圖1 K值和距離函數(shù)的關(guān)系
圖2 改進算法和傳統(tǒng)算法效率比較
從圖2中可以看出隨著K值的增加改進算法性能逐漸優(yōu)于傳統(tǒng)K-means算法。表明對距離進行多次劃分可以提高算法性能。
傳統(tǒng)的K-means算法中心地址選擇是隨機選擇,這樣算法需要經(jīng)歷多次遞歸才能收斂,使得算法性能不高。本文提出了分段中心地址選擇,通過對性能分析,結(jié)果顯示改進算法能夠提高算法性能。
[1]李紹中.數(shù)據(jù)挖掘改進算法在學生成績分析中的應(yīng)用[J].科技通報,2012,28(8):208-209.
[2]劉美玲,李熹,李永勝.數(shù)據(jù)挖掘技術(shù)在高校教學與管理中的應(yīng)用[J].計算機工程與設(shè)計,2010,31(5):1130-1133.
[3]王全旺,趙兵川.數(shù)據(jù)挖掘技術(shù)在Moodle課程管理系統(tǒng)中的應(yīng)用研究[J].電化教育研究,2011(11):69-73.
[4]孫力,程玉霞.大數(shù)據(jù)時代網(wǎng)絡(luò)教育學習成績預測的研究與實現(xiàn)——以本科公共課程統(tǒng)考英語為例[J].開放教育研究,2015(3):74-80.
[5]王華,劉萍.改進的關(guān)聯(lián)規(guī)則算法在學生成績預警中的應(yīng)用[J].計算機工程與設(shè)計,2015(3):679-682.
TP311
A
1009-3044(2017)24-0021-02
2017-07-06