錢輝煌 朱國華 吳芬
摘要摘要:數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中,通過算法搜索隱藏于其中的信息的過程,通過將數(shù)據(jù)轉(zhuǎn)化為信息,實現(xiàn)數(shù)據(jù)的價值。以江漢大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院學(xué)生為研究對象,通過數(shù)據(jù)挖掘分類預(yù)測分析數(shù)據(jù)信息,以Rapidminer軟件作為分析工具,采用關(guān)聯(lián)分析和神經(jīng)網(wǎng)絡(luò)算法,對成功考研學(xué)生的群體特征進(jìn)行分析,研究學(xué)習(xí)成績、身體素質(zhì)、性別、專業(yè)差別對考研結(jié)果的影響。
關(guān)鍵詞關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;神經(jīng)網(wǎng)絡(luò)算法
DOIDOI:10.11907/rjdk.162876
中圖分類號:TP391
文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2017)005014303
0引言
“考研熱”已經(jīng)成為一種社會現(xiàn)象,并持續(xù)升溫。為進(jìn)一步了解當(dāng)代大學(xué)生的考研現(xiàn)狀和成功考取研究生的因素,展開此次實驗研究,研究對象為江漢大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院(簡稱數(shù)計學(xué)院)的學(xué)生,通過數(shù)據(jù)挖掘分析,得出哪些因素會影響大學(xué)生成功考取研究生。因收集數(shù)據(jù)量較少,本文將從收集到的數(shù)計學(xué)院2012級學(xué)生的學(xué)習(xí)成績、身體素質(zhì)測試成績、考研錄取情況和基本信息等這些數(shù)據(jù)中,選取大學(xué)四年加權(quán)平均成績、身體素質(zhì)測試成績、性別和專業(yè)差別這幾方面展開分析。
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)有趣模式的過程。作為知識發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示這6個方面[1]。其中前4個是數(shù)據(jù)預(yù)處理的不同形式,是為挖掘準(zhǔn)備數(shù)據(jù),本文將依次介紹本次數(shù)據(jù)挖掘?qū)嶒灥木唧w分析過程。
本次實驗基于Rapidminer 軟件的數(shù)據(jù)分析平臺,將收集的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理(數(shù)據(jù)清理、數(shù)據(jù)規(guī)約、數(shù)據(jù)集成和數(shù)據(jù)導(dǎo)入)[2],研究各數(shù)據(jù)項與成功考取研究生的關(guān)系。實驗研究發(fā)現(xiàn),考研成功除去與學(xué)習(xí)成績相關(guān)外,還與身體素質(zhì)、性別和專業(yè)差別相關(guān)。此次實驗研究結(jié)果可為學(xué)校指導(dǎo)學(xué)生考研提供參考。
1相關(guān)算法
本次數(shù)據(jù)挖掘運用了目前常用數(shù)據(jù)挖掘算法中的兩個算法:關(guān)聯(lián)分析和神經(jīng)網(wǎng)絡(luò)算法。
(1)關(guān)聯(lián)分析(Association Analysis)?,F(xiàn)有的關(guān)聯(lián)分析算法有基于概率相似度的關(guān)聯(lián)方法、基于機器學(xué)習(xí)的關(guān)聯(lián)方法、基于Bayesian分類器的關(guān)聯(lián)方法及基于先決條件的關(guān)聯(lián)方法等?;跈C器學(xué)習(xí)的關(guān)聯(lián)方法只能對存在于線程中的數(shù)據(jù)進(jìn)行關(guān)聯(lián),無法對未知數(shù)據(jù)進(jìn)行關(guān)聯(lián),導(dǎo)致最后的分析結(jié)果存在較大誤差。而基于Bayesian分類器的關(guān)聯(lián)方法雖然時效性很好,但關(guān)聯(lián)需要的知識依賴于知識庫,無法獲得計算所需的先驗概率和條件概率[3]。
(2)神經(jīng)網(wǎng)絡(luò)(Neural Network)。人工神經(jīng)網(wǎng)絡(luò)是一種通過模仿生物神經(jīng)網(wǎng)路的工作特征進(jìn)行分布式信息處理的算法數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)是目前具有非常強大的預(yù)測功能的一種算法模型。一個完整的神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成,而每一層都由多個神經(jīng)元組成[4]。
2數(shù)據(jù)預(yù)處理
噪聲是數(shù)據(jù)結(jié)果出現(xiàn)偏差的原因之一,由于采集的數(shù)據(jù)中有噪聲影響因素,因此要對采集到的數(shù)據(jù)進(jìn)行去噪處理,有效的數(shù)據(jù)預(yù)處理可以提高數(shù)據(jù)挖掘?qū)嶒灥臏?zhǔn)確率,經(jīng)過系統(tǒng)導(dǎo)出來的原始數(shù)據(jù)存在不一致、不完整和噪聲,根據(jù)實驗需要,排除其它不良可忽視因素,結(jié)合教學(xué)實踐對學(xué)生數(shù)據(jù)空缺、不一致數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理操作。
本次實驗數(shù)據(jù)源是江漢大學(xué)數(shù)計學(xué)院2012級學(xué)生在校四年加權(quán)平均成績、身體素質(zhì)測試各項成績、考研錄取情況和基本信息?;拘畔⒅邪?個專業(yè):數(shù)學(xué)與應(yīng)用數(shù)學(xué)、計算機科學(xué)與技術(shù)、網(wǎng)絡(luò)工程。身體素質(zhì)測試項目有:身高、體重、肺活量、50米跑、立定跳遠(yuǎn)、1000/800米跑、坐體前屈、仰臥起坐/引體向上。數(shù)據(jù)庫極易受噪聲、缺失值和不一致的侵?jǐn)_,數(shù)據(jù)庫龐大并且大多數(shù)是來自多個異種數(shù)據(jù)源。低質(zhì)量的數(shù)據(jù)會將導(dǎo)致低質(zhì)量的挖掘結(jié)果,引起數(shù)據(jù)的具體真實性偏差[5]。因此,本次實驗進(jìn)行數(shù)據(jù)預(yù)處理主要為3個方面:一是缺失數(shù)據(jù)(數(shù)據(jù)屬性中部分記錄顯示為空),二是噪聲數(shù)據(jù),三是重復(fù)數(shù)據(jù)(數(shù)據(jù)屬性相同的記錄)[6]。
本次實驗數(shù)據(jù)預(yù)處理因數(shù)據(jù)量小,故采用Excel進(jìn)行初步簡單處理。首先針對考研錄取情況、身體素質(zhì)測試各項成績、學(xué)習(xí)成績、基本信息4個表將學(xué)號作為關(guān)鍵字整合到1個表中,數(shù)據(jù)收集過程中會有部分?jǐn)?shù)據(jù)不完整,因此需將信息殘缺的元組和與此次實驗無關(guān)的屬性都剔除;其次數(shù)據(jù)要符合算法要求,部分文字表達(dá)的數(shù)據(jù)是不符合的,故將其用數(shù)字來代替,如男、女分別用0、1表示,3個專業(yè)數(shù)學(xué)與應(yīng)用數(shù)學(xué)、計算機科學(xué)與技術(shù)和網(wǎng)絡(luò)工程則分別用0、1、2表示,考研錄取情況用0、1分別表示未錄取和錄取;最后需構(gòu)建一個預(yù)測模型進(jìn)行預(yù)測,需訓(xùn)練數(shù)據(jù)集和預(yù)測數(shù)據(jù)集,故從整合后新生成的數(shù)據(jù)表中隨機抽取10個元組作為預(yù)測數(shù)據(jù)集,其余作為訓(xùn)練數(shù)據(jù)集。這是簡單的數(shù)據(jù)預(yù)處理,后面將會運用關(guān)聯(lián)分析進(jìn)一步對數(shù)據(jù)進(jìn)行處理。
3數(shù)據(jù)挖掘平臺Rapidminer
RapidMiner(前身是Rapid-I,YALE)是一個十分流行的開源數(shù)據(jù)挖掘軟件,近年來變得非常受歡迎,并得到了一個大型社區(qū)的支持。其視覺吸引力、用戶友好的GUI(圖形用戶界面)和基于WiKi的上下文幫助,允許輕松使用和快速學(xué)習(xí)曲線。它有多個擴展提供數(shù)據(jù)和適合于特定的預(yù)定義過程應(yīng)用領(lǐng)域(例如營銷、金融等)和社區(qū),在RapidMiner“市場”上分享流程非?;钴S。
RapidMiner的一個重要優(yōu)勢是其在過程設(shè)計中的靈活性,通過“過程/子過程”結(jié)構(gòu)和“宏”表示環(huán)境的全局變量,這使得復(fù)雜過程的可視設(shè)計和高水平自動化得以實現(xiàn)。RapidMiner還提供大量的機器學(xué)習(xí)算法,用于預(yù)處理和可視化的工具包括大多數(shù)Weka算子和用于合并定制的R和Python腳本的簡單工具。并且,對深度學(xué)習(xí)方法和一些更先進(jìn)的特定機器學(xué)習(xí)算法(例如,極端隨機樹)的支持目前受到限制,但是可以通過并入R和Python腳本加以解決[7]。
4數(shù)據(jù)建模
4.1數(shù)據(jù)導(dǎo)入
經(jīng)過數(shù)據(jù)預(yù)處理的訓(xùn)練數(shù)據(jù)集導(dǎo)入Rapidminer平臺,在屬性類型設(shè)置時將考研錄取情況屬性類型設(shè)置為Binominal類型,作為實驗預(yù)測對象,如圖1所示。
4.2關(guān)聯(lián)分析
通過關(guān)聯(lián)分析算法對數(shù)據(jù)進(jìn)行建模,調(diào)用Set Role和Correlation Matrix算子得到所需要的關(guān)聯(lián)系數(shù)矩陣,進(jìn)一步對數(shù)據(jù)進(jìn)行處理。本次實驗采集數(shù)據(jù)量較少,故相關(guān)系數(shù)普遍偏小,經(jīng)過多次實驗嘗試,發(fā)現(xiàn)剔除相關(guān)系數(shù)小于0.05的屬性,得到新的數(shù)據(jù)集再通過神經(jīng)網(wǎng)絡(luò)算法建立的預(yù)測模型最為準(zhǔn)確,如圖2所示。
4.3神經(jīng)網(wǎng)絡(luò)模型建立
通過上述關(guān)聯(lián)分析得到相關(guān)系數(shù),可以在接下來建模時通過調(diào)用Select Attributes算子來選擇合適的屬性(將相關(guān)系數(shù)小于0.05的屬性,如肺活量和坐體前屈屬性剔除)形成新的數(shù)據(jù)集。姓名屬于不相關(guān)屬性但可用來識別元組,因此調(diào)用Set Role算子將其設(shè)置為id屬性用來識別,考研錄取情況屬性為要預(yù)測屬性故將其設(shè)置為Label屬性,最后調(diào)用Neural Net算子建立神經(jīng)網(wǎng)絡(luò)模型,如圖3所示。
4.4模型驗證及預(yù)測
將預(yù)測數(shù)據(jù)集導(dǎo)入Rapidminer平臺中,將其屬性進(jìn)行篩選和設(shè)置,調(diào)用Apply Model算子應(yīng)用神經(jīng)網(wǎng)絡(luò)模型,將其連接全部,如圖4所示。
運行程序得出預(yù)測結(jié)果,對得到的預(yù)測模型進(jìn)行驗證和判斷,預(yù)測數(shù)據(jù)集的學(xué)生考研錄取情況,如圖5所示。
5實驗結(jié)果分析
如圖5所示,從得出的預(yù)測結(jié)果可以看出,預(yù)測結(jié)果的置信度較高,且預(yù)測值與實際值一致,說明該預(yù)測模型較為成功。在作關(guān)聯(lián)分析得出相關(guān)系數(shù)矩陣時,選取多大相關(guān)系數(shù)為合適屬性時不能按常規(guī)方法,因為本次實驗的數(shù)據(jù)量較小,而且數(shù)據(jù)項較少,得出的相關(guān)系數(shù)也較小,所以只能逐個剔除當(dāng)前最小相關(guān)系數(shù)屬性進(jìn)行建模,將結(jié)果一一對比,最后得出保留大于0.05相關(guān)系數(shù)的屬性最為合理。
由圖2可知,四年加權(quán)平均成績的相關(guān)系數(shù)最高且為0.260,呈正相關(guān),表明學(xué)習(xí)成績對于考研是重中之重??佳胁粌H是最后一年的沖刺復(fù)習(xí),同樣要注重大學(xué)四年平時的學(xué)習(xí)和知識積累。
其次身體素質(zhì)成績中的健康成績、立定跳遠(yuǎn)成績、1000米/800米成績相關(guān)系數(shù)都在0.100左右,其中1000米/800米成績相關(guān)系數(shù)是-0.128。驗證那句俗語“身體是革命的本錢”,在備戰(zhàn)考研的同時,不能以犧牲身體為代價,要加強鍛煉,以提高身體的各項基本素質(zhì),特別是長跑,其相關(guān)系數(shù)在這些身體素質(zhì)測試項目中略高一籌,在考研備戰(zhàn)期間制定一個合理的運動計劃也尤為關(guān)鍵。
再是專業(yè),其相關(guān)系數(shù)為-0.125,數(shù)據(jù)顯示網(wǎng)絡(luò)工程專業(yè)選擇繼續(xù)攻讀碩士研究生人數(shù)最少,根據(jù)進(jìn)一步調(diào)查了解,更多這個專業(yè)的學(xué)生選擇畢業(yè)后直接找工作,因就業(yè)前景好,而數(shù)學(xué)專業(yè)選擇考研的人數(shù)最多,說明專業(yè)差別和就業(yè)情況也決定是否選擇考研及最后能否成功考取。
最后是性別,從采集的數(shù)據(jù)得知,考研成功的學(xué)生中女生占很大比例,并且其相關(guān)系數(shù)為0.144,說明性別也是成功考取研究生的一個因素,并且在漫長的備戰(zhàn)考研中女生更容易堅持下來并取得成功。
6結(jié)語
本次研究針對采集到的江漢大學(xué)數(shù)計學(xué)院2012級學(xué)生的數(shù)據(jù),利用關(guān)聯(lián)分析算法對預(yù)處的數(shù)據(jù)作進(jìn)一步處理產(chǎn)生新的數(shù)據(jù)集,提高預(yù)測模型的準(zhǔn)確率,最后運用神經(jīng)網(wǎng)絡(luò)算法得出預(yù)測模型,并用預(yù)測數(shù)據(jù)集進(jìn)行驗證。實驗結(jié)果表明,影響學(xué)生成功考取研究生的因素不僅包括學(xué)習(xí)成績,還與性別、專業(yè)、身體素質(zhì)相關(guān)。最后的預(yù)測模型和驗證也證明,本次實驗結(jié)果具有可參考的準(zhǔn)確性,實驗結(jié)果能夠?qū)W(xué)校輔導(dǎo)員指導(dǎo)學(xué)生考研提供部分依據(jù)和建議。但本次實驗也存在數(shù)據(jù)量偏小、數(shù)據(jù)偏少等方面的不足,以后可收集更多數(shù)據(jù),進(jìn)一步深入探究,得出更為實質(zhì)性的結(jié)果,提高模型準(zhǔn)確率。
參考文獻(xiàn)參考文獻(xiàn):
[1]HAN JIAWEI,MICHELINE KAMBER.數(shù)據(jù)挖掘:概念與技術(shù)[M].第3版.北京:機械工業(yè)出版社,2012.
[2]黃炎,王紫玉,黃方亮.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用與研究[J].蘭州文理學(xué)院學(xué)報:自然科學(xué)版,2016,30(3):6468.
[3]李燕,曹寶香,馬兆豐,等.關(guān)聯(lián)分析算法在安全管理平臺中的研究與應(yīng)用[J].計算機技術(shù)與發(fā)展,2013,23(10):107110.
[4]徐京薇,謝人超,黃濤,等.基于神經(jīng)網(wǎng)絡(luò)算法的ICN網(wǎng)絡(luò)傳輸控制研究[J].重慶郵電大學(xué)學(xué)報:自然科學(xué)版,2016,28(4):539544.
[5]HAN JIAWEI,MICHELINE KAMBER.數(shù)據(jù)挖掘:概念與技術(shù)[M].第3版.北京:機械工業(yè)出版社,2012.
[6]徐俊,夏驕雄,周時強.數(shù)據(jù)斷層分析在廣播電視臺數(shù)據(jù)處理中的應(yīng)用[J].計算機應(yīng)用與軟件,2016,33(9):40.
[7]SVEN VAN POUCKE,ZHONGHENG ZHANG,MARTIN SCHMITZ,et al.Scalable predictive analysis in critically Ill patients using a visual open data analysis platform[J].Plos ONE,2016,11(1):421.
責(zé)任編輯(責(zé)任編輯:孫娟)