齊權(quán)
摘 要:當前,中職學校學生流失研究主要以基于專家經(jīng)驗的人腦學習為主,但隨著職業(yè)教育信息化建設(shè)的不斷推進,各學校已經(jīng)積累了大量的教育教學數(shù)據(jù),并且數(shù)據(jù)仍在迅速增長。面對如此龐大的數(shù)據(jù),再以人腦學習模式來研究學生流失的問題已無成效,基于此,本文提出一種基于數(shù)據(jù)挖掘的機器學習模式來代替人腦學習模式,幫助教育管理者挖掘出有價值的流生數(shù)據(jù),準確分析影響流生的因素,建立相應的流生數(shù)據(jù)模型,對在校生進行即時預測,以便于學校制定相應的挽留策略,減少學生流失的概率。
關(guān)鍵詞:機器學習;數(shù)據(jù)挖掘;貝葉斯算法;職業(yè)教育信息化;流生預測
中圖分類號:G202 文獻標志碼:A 文章編號:1673-8454(2018)23-0028-04
一、引言
近年來,國家高度重視發(fā)展職業(yè)教育,支持各級各類職業(yè)教育辦出水平、辦出特色,各級職業(yè)學校的發(fā)展規(guī)模日益壯大。然而在規(guī)模擴大的背后,職業(yè)學校的學生流失現(xiàn)象十分嚴重,與大規(guī)模的招生數(shù)量形成了較大的反差。據(jù)福建省教育統(tǒng)計年鑒統(tǒng)計,2013-2015屆中等職業(yè)學校學生的流失率分別為26.2%、39.6%和42.6%,中職學校學生的流失率不僅高且有逐年上升的趨勢,甚至還有部分中職學校專業(yè)的流生率超過了50%,試問中職學校如此高的流生率背后,又能培養(yǎng)出多少符合社會經(jīng)濟發(fā)展的畢業(yè)生呢?然而,導致一個學生流失的因素或許有許多,但一定與學校管理是密不可分的。本文中提到的學生流失統(tǒng)稱為流生。
二、傳統(tǒng)的流生研究
職業(yè)學校學生流失的因素是多方面的,但歸納起來分為內(nèi)因和外因。內(nèi)因主要是指由學生自身的原因所引起的流生,而外因是指受家庭、學校和社會等因素的影響而導致的流生。其中,內(nèi)因?qū)α魃鹬钪苯拥?、決定性的作用,然而內(nèi)因的形成也是外因作用的結(jié)果。因此,外因?qū)W生流生的影響起著至關(guān)重要的作用。目前,多數(shù)中職學校對流生的研究主要是以人腦學習的模式為主,即相關(guān)管理人員以學習到的先進理論結(jié)合自己的實踐經(jīng)驗來分析流生產(chǎn)生的因素,最后給出相應的整改措施來加強學校的管理工作,以達到減少流生的目的。
基于專家經(jīng)驗的人腦學習模式的流程如圖1所示。
人腦學習的模式對于解決流生問題確實取得了一定的成效,但隨著職業(yè)教育信息化建設(shè)的不斷推進,在日常的教育教學工作中積累的數(shù)據(jù)量越來越大,數(shù)據(jù)種類也越來越多,面對如此繁雜而又龐大的教育教學數(shù)據(jù),這種傳統(tǒng)研究模式的局限性逐漸顯現(xiàn),一方面很大程度上受限于專家本身的知識與經(jīng)驗水平,另一方面也無法從海量的數(shù)據(jù)中分析出與流生相關(guān)的數(shù)據(jù)以及數(shù)據(jù)間的關(guān)聯(lián),而且與流生相關(guān)的因素越多,越容易干擾管理者的決策。因此,這種模式對于解決中職學校流生問題也是十分有限的,無法精準分析每所學校產(chǎn)生流生以及每個流失學生之所以產(chǎn)生的關(guān)鍵因素,也就無法幫助管理者做出正確的決策,學校也無法建立一套科學合理的精細化管理體系。
三、基于機器學習的流生預測研究
針對當前職業(yè)教育中傳統(tǒng)人腦學習模式的不足,本文提出一種基于機器學習的新模式來代替人腦學習的模式,這種機器學習新模式的使用也是一個數(shù)據(jù)挖掘的過程。數(shù)據(jù)挖掘是集數(shù)據(jù)庫、統(tǒng)計學、人工智能等技術(shù)形成的一個新興領(lǐng)域,它不僅可以處理海量的復雜數(shù)據(jù),還能夠處理不確定數(shù)據(jù)和不完整的數(shù)據(jù),能夠在海量的數(shù)據(jù)中發(fā)現(xiàn)有價值的數(shù)據(jù)。
基于機器學習的流程如圖2所示。
新模式的核心主要是通過數(shù)據(jù)挖掘算法來訓練出數(shù)據(jù)模型,針對本文研究內(nèi)容的特點,主要采用的是貝葉斯算法來訓練流生數(shù)據(jù)模型。貝葉斯算法是數(shù)據(jù)挖掘技術(shù)的經(jīng)典算法之一,它是一種利用概率統(tǒng)計知識對樣本數(shù)據(jù)進行分類和預測的算法,在某些特定的條件下,樸素貝葉斯分類算法的準確率已經(jīng)超過了決策樹和神經(jīng)網(wǎng)絡(luò)等分類算法,并且該算法能夠運用到大型數(shù)據(jù)庫中,具有易實現(xiàn)、精度高和速度快的特點。新研究模式的主要研究過程如下:
1.流生分析
職業(yè)學校學生流失的因素是多方面的,但歸納起來分為內(nèi)因和外因。內(nèi)因主要是指由學生自身的原因所引起的流生,而外因包含的是家庭、學校和社會等因素的影響而導致的流生。其中,內(nèi)因是對流生起著最直接的、決定性的作用,然而內(nèi)因的形成也是外因作用的結(jié)果,因此,外因?qū)W生流生的影響起著至關(guān)重要的作用。對于中職學校流生原因的分析可以從個人、家庭、學校、社會等四個方面展開。
2.數(shù)據(jù)理解
通過以上流生原因分析,基本確定了影響學生流失各個環(huán)節(jié)的因素,因此,可以根據(jù)學校實際情況結(jié)合流生分析的四個方面來收集、整理數(shù)據(jù)。例如,學生學籍信息數(shù)據(jù)、學生在校(含初中)成績數(shù)據(jù)、學生在校表現(xiàn)(含初中)數(shù)據(jù)、學生的社交能力數(shù)據(jù)、學校的專業(yè)建設(shè)數(shù)據(jù)等。
3.數(shù)據(jù)處理
采集的原始流生數(shù)據(jù)一般是有噪聲的、不完整的和不一致的,需要通過預處理技術(shù)對數(shù)據(jù)進行清理、集成和離散。數(shù)據(jù)清理主要是去除掉一些可能影響流生預測的噪點數(shù)據(jù),補充缺失部分的數(shù)據(jù),讓數(shù)據(jù)格式符合機器學習的規(guī)范;數(shù)據(jù)集成主要是將數(shù)據(jù)采集過程中的片斷數(shù)據(jù)整理成一個流生數(shù)據(jù)集;數(shù)據(jù)離散化則是將集成后的數(shù)據(jù)值域差別比較大的屬性,離散化為差別較小的屬性,更有利于數(shù)據(jù)挖掘的效率和挖掘模式的理解,從而提高數(shù)據(jù)自身的質(zhì)量,提高數(shù)據(jù)挖掘過程中的效率和準確率。
4.建立流生數(shù)據(jù)模型
處理后的數(shù)據(jù)屬性少則幾十個,多則上百個,然而,對于數(shù)據(jù)模型的構(gòu)建并不是樣本數(shù)據(jù)屬性越多越好,如此多的屬性可能很多是冗余的數(shù)據(jù)屬性,也可能許多數(shù)據(jù)屬性與結(jié)果的關(guān)聯(lián)度很弱,這些都會影響數(shù)據(jù)模型的質(zhì)量,從而影響流生預測結(jié)果的準確率。因此,在流生數(shù)據(jù)模型構(gòu)建過程中,首先需要進行樣本屬性選擇,通過基于關(guān)聯(lián)規(guī)則的特征選擇(Correlation-based Feature Selection,CFS),評估出一個最佳屬性子集,以降低樣本屬性的冗余度和關(guān)聯(lián)度;然后,采用樸素貝葉斯算法進行分類預測,這種分類器在實際應用過程中十分簡單且有效,又因為它的分類算法思想很樸素,所以又叫樸素貝葉斯分類法。這種分類法雖然十分簡單有效,但是需要基于屬性之間相互條件獨立的假設(shè),因此,針對算法的不足之處,本文主要采用一種加權(quán)后的樸素貝葉斯算法——k-最近鄰局部加權(quán)樸素貝葉斯算法(k-LW+NBC)來建立流生數(shù)據(jù)模型。
5.評估流生數(shù)據(jù)模型
由于流生數(shù)據(jù)模型采用的本身是一種簡單高效的算法,因此,對于數(shù)據(jù)模型的評估,主要以分類模型的精準度為主。評估模型的精準度主要分成兩個階段:第一階段,將樣本數(shù)據(jù)采用隨機算法分成兩份,選取其中一份數(shù)據(jù)作為訓練數(shù)據(jù),將訓練數(shù)據(jù)分別采用樸素貝葉斯算法(NBC)、決策樹算法(ID3)、k-最近鄰局部加權(quán)樸素貝葉斯算法(k-LW+NBC)訓練出三種算法的流生數(shù)據(jù)模型;第二階段,選取另一份數(shù)據(jù)作為評估數(shù)據(jù),分別帶入訓練出來的三種流生數(shù)據(jù)模型進行N叉校驗,將三者校驗的結(jié)果進行對比,以驗證流生模型的精準度。
6.應用流生數(shù)據(jù)模型
本文應用的數(shù)據(jù)來自于福建省內(nèi)一所招生規(guī)模較大、辦學條件較好并且具有一定代表性的中等職業(yè)學校近三年的數(shù)據(jù)。通過前期的數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)構(gòu)建、數(shù)據(jù)集成和數(shù)據(jù)的離散化處理,我們最終選擇了11個屬性、1414條數(shù)據(jù)作為本次流生研究的實驗數(shù)據(jù),作為該校的流生樣本數(shù)據(jù),部分數(shù)據(jù)樣本如表1所示。
在整個模型建立的過程中,本文主要使用Weka工具進行了實驗,通過實驗數(shù)據(jù)表明,這種基于屬性評估的局部加權(quán)樸素貝葉斯算法(CFS+k-LW+NBC),能夠很好地處理噪聲數(shù)據(jù)、降低數(shù)據(jù)維度、提高分類效率和精準度,在對職業(yè)學校學生流失預測的應用中,體現(xiàn)出了較好的效果,以某一職業(yè)學校的實驗數(shù)據(jù)為例,該算法對于學籍狀態(tài)為“退學”的學生預測準度最高達93.7%,足以說明該分類器的準度。最后,將評估數(shù)據(jù)集分別應用于樸素NBC算法和ID3算法進行交叉校驗,三種算法的精準度如表2所示。
通過前面的模型評估結(jié)果可知,基于屬性評估的局部加權(quán)樸素貝葉斯算法(CFS+k-LW+NBC)是三種算法中精準度最高的,因此,我們可以運用該算法訓練所得到的模型來對某職業(yè)學校的在校生進行流生的預測。
截至2017年8月,某職業(yè)學校擁有在校生人數(shù)5362人,通過數(shù)據(jù)清理后,得到有效的數(shù)據(jù)為5112條。現(xiàn)將5112條數(shù)據(jù)帶入到訓練的模型中,獲得的預測結(jié)果如表3所示。
通過該校的流生情況預測表可知,該校學生流生傾向可信度達70%以上的人數(shù)為1794人,占到總?cè)藬?shù)的35.1%,可信度達80%以上的人數(shù)為1513人,占總?cè)藬?shù)的30%。結(jié)合條件屬性的分析可知,學生的不及格科目數(shù)量、違紀次數(shù)、選擇專業(yè)的情況和是否為學生干部為類別屬性的強關(guān)聯(lián)屬性。
四、結(jié)論
在即將到來的大數(shù)據(jù)時代,職業(yè)學校傳統(tǒng)的基于專家經(jīng)驗的人腦學習模式已無法適應當前信息化、精細化管理的要求,因此,針對人腦學習模式的弊端,本文提出了一種基于機器學習的流生預測研究的新模式,以適應當前數(shù)字化的發(fā)展需求,實現(xiàn)職業(yè)學校精細化管理的目標。通過本文應用案例中建立的流生數(shù)據(jù)模型可知,學生的不及格科目數(shù)量、違紀次數(shù)、選擇專業(yè)的情況和是否為學生干部對中職學生流失的影響非常大,這些關(guān)鍵因子同時也折射出該校在教學管理、學生管理、專業(yè)建設(shè)以及校園文化中的不足,在后期的管理決策中應該重點考慮。例如,通過加強學生德育工作和學生管理工作以減少學生違紀現(xiàn)象;通過創(chuàng)新教學方法和評價模式來提高課堂教學質(zhì)量和學生成績,以減少學生的不及格科目;開展形式多樣的社團活動,以此來帶動校園文化的建設(shè);加大校企合作力度,重新調(diào)研專業(yè)方向和制定課程體系結(jié)構(gòu)來增強專業(yè)活力等等。而對于在校生的流生預測,則可以結(jié)合學校的信息化系統(tǒng)建設(shè),監(jiān)測相應流生模型中的關(guān)鍵因素,對在校學生進行實時的預測,同時結(jié)合學校自身的實際情況,設(shè)置一個可信度的值作為閾值,對可能流失的學生進行預警,將預警的學生以及影響學生流失的因素報送給相關(guān)管理部門,幫助管理者有針對性地制定策略,以減少在校學生的流失率。
參考文獻:
[1]吳閱帆.基于內(nèi)容的音樂信息檢索[J].信息與電腦(理論版),2011(12):65-66.
[2]魏浩,丁要軍.基于屬性相關(guān)的樸素貝葉斯分類算法[J].河南科學,2014(1):42-46.
[3]算法雜貨鋪——分類算法之樸素貝葉斯分類[DB/OL].https://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html.
[4]黃小勇.中等職業(yè)學校學生流失的研究[D].福建師范大學,2009.
[5]楊育斌.中職學生流失的原因與對策分析[J].職業(yè)教育研究,2013(1):58-60.
[6]魏浩,丁要軍.一種基于相關(guān)的屬性選擇改進算法[J].計算機應用與軟件,2014(8):280-284.
[7]袁梅宇.數(shù)據(jù)挖掘與機器學習:WEKA應用技術(shù)與實踐[M].北京:清華大學出版社,2016.
(編輯:王天鵬)