梁 健
(錦州師范高等??茖W(xué)校 成人教育部,遼寧 錦州 121000)
近年來,我國職業(yè)教育迅猛發(fā)展,各院校之間競爭日趨激烈,越來越多的院校意識到擁有更多優(yōu)質(zhì)生源在競爭中的重要性[1].如何從招生的海量數(shù)據(jù)中獲取有價值信息呢? 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生解決了這一問題.數(shù)據(jù)挖掘技術(shù)就是從大量的實際數(shù)據(jù)中,提取隱含在其中的有用信息和知識的過程.關(guān)聯(lián)規(guī)則則是數(shù)據(jù)挖掘技術(shù)中最為簡單、有效的挖掘方法之一.利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進行全面分析,提取出隱藏在海量的招生數(shù)據(jù)中深層次的、潛在的、有價值的信息,為決策者提供決策支持是十分必要的[2].
關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘技術(shù)中應(yīng)用范圍廣泛,是實際應(yīng)用當(dāng)中比較容易理解而且實用性強的規(guī)則,它所采用的是描述型模型,體現(xiàn)出數(shù)據(jù)的特征.應(yīng)用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘最為經(jīng)典的應(yīng)用是美國沃爾瑪超市的“購物籃”問題,它可以尋找出不同商品之間所隱藏的聯(lián)系,讓經(jīng)營者明確消費者的購物習(xí)慣和喜好,從而更好地提供決策幫助.
數(shù)據(jù)挖掘過程整體上比較復(fù)雜,我們可以簡單地把數(shù)據(jù)挖掘分為三個步驟:第一,從特定的數(shù)據(jù)源當(dāng)中搜尋一些用戶相對感興趣的數(shù)據(jù),同時將這些數(shù)據(jù)組織成為更適合數(shù)據(jù)系統(tǒng)挖掘的組織形式;第二,借助于相應(yīng)的算法來完成知識積累的過程;第三,對生成的知識模式進行評估和評價[3].
本文進行挖掘的數(shù)據(jù)來自某高職院校近年來招生存檔數(shù)據(jù),以Excel表格的形式提供.通過挖掘?qū)W生性別、專業(yè)、生源地、畢業(yè)類別、成績等對報到率的影響,找出影響學(xué)生報到率的因素,為院校的招生宣傳、專業(yè)規(guī)劃及招生計劃的投放提供決策依據(jù)[4].
在數(shù)據(jù)挖掘過程中,數(shù)據(jù)的預(yù)處理是其中的重要階段.由于數(shù)據(jù)量大,一些數(shù)據(jù)項會存在錯誤,比如數(shù)據(jù)值冗余、異常和丟失等情況,這些問題都會對數(shù)據(jù)挖掘工作造成不良影響,所以需要選擇相應(yīng)的數(shù)據(jù)預(yù)處理方法對原始數(shù)據(jù)進行相應(yīng)的處理[5].在數(shù)據(jù)表中,準(zhǔn)考證號第一位和學(xué)生類型相關(guān),因此只需要對準(zhǔn)考證號的第一位數(shù)據(jù)進行捕捉即可,舍棄其他位的信息;一個學(xué)生由一個唯一的序號來表示,所以學(xué)生姓名在本次挖掘過程中沒有作用;總成績的分布可以看作是離散的,但是離散程度太大,實際過程中還需要采用分段的方式進行歸納.表1為預(yù)處理后數(shù)據(jù)表結(jié)構(gòu).
表1 預(yù)處理后數(shù)據(jù)表結(jié)構(gòu)
該高職院校2018年入學(xué)的學(xué)生中,325~350分區(qū)間人數(shù)最多,為370人.從學(xué)生的成績來看,報到入學(xué)的學(xué)生成績主要是在300~475分之間,475~500分以及500分以上的人極少.影響新生入學(xué)的因素比較多,以下將結(jié)合學(xué)生的類別屬性和成績來對學(xué)生的報到率進行分析.圖1為該高職院校報到入學(xué)的學(xué)生人數(shù)與成績之間的關(guān)系直方圖結(jié)果,圖2為該高職院校在2018年錄取的不同類別、不同生源地的學(xué)生入學(xué)情況.通過對數(shù)據(jù)進行簡要的分析之后發(fā)現(xiàn),該校的新生報到率與未入學(xué)率結(jié)果主要如下:
(1)2018年該高職院校錄取的新生中城鎮(zhèn)應(yīng)屆生與農(nóng)村應(yīng)屆生入學(xué)率分別為20%與14%,城鎮(zhèn)應(yīng)屆生與農(nóng)村應(yīng)屆生未入學(xué)率分別為12%與14%;城鎮(zhèn)往屆生與農(nóng)村往屆生入學(xué)率分別為13%與14%,未入學(xué)率分別為5%和4%.由此可以看出該高職院校往屆新生入學(xué)率普遍低于應(yīng)屆新生入學(xué)率.
(2)對該校2018年入學(xué)學(xué)生的成績進行分析發(fā)現(xiàn),城鎮(zhèn)地區(qū)應(yīng)屆學(xué)生,成績處于一般水平的入學(xué)率較高,為76%;未入學(xué)率為24%;成績處于中等水平的入學(xué)率次之,為59%;成績處于高等水平的入學(xué)率最低,為27%.農(nóng)村地區(qū)應(yīng)屆學(xué)生,成績水平一般的入學(xué)率為62.5%;成績處于中等水平的入學(xué)率為38.5%;成績處于高等水平的入學(xué)率只有1.4%.
我們能夠發(fā)現(xiàn)生源地不同、類別不同,學(xué)生的錄取率也會隨之發(fā)生相應(yīng)的變化.圖中數(shù)據(jù)呈現(xiàn)出的結(jié)果為,農(nóng)村應(yīng)屆生報到入學(xué)以及未報到的人數(shù)均高于農(nóng)村往屆生比例;城鎮(zhèn)應(yīng)屆生報到入學(xué)及未報到的比例也都高于城鎮(zhèn)往屆生.從整體上來看,農(nóng)村往屆生和城市往屆生的總?cè)藬?shù)與農(nóng)村應(yīng)屆生與城市應(yīng)屆生相比明顯更低.
綜合該高職院校新生的報到信息數(shù)據(jù),在對高考成績進行挖掘之前需要對其進行概化處理,即將其分為不同的成績范圍值;在對戶口所在地進行數(shù)據(jù)挖掘之前需要將新生分為不同的類型,如“城鎮(zhèn)新生”“農(nóng)村新生”;考生類別則是分為“應(yīng)屆”與“往屆”.本次設(shè)計的基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘平臺,其置信度控制在20%左右,支持度設(shè)置在0.1%左右.利用對本次所設(shè)計的影響新生報到入學(xué)的因素數(shù)據(jù)挖掘平臺進行數(shù)據(jù)挖掘之后,所獲得的關(guān)聯(lián)規(guī)則共達到了400余條,挑選其中比較有代表性的10條數(shù)據(jù),如下所示:
(1)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆錄取新生>入學(xué)報到;[sup=20.8%;conf=60.5%]
(2)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆錄取新生>入學(xué)報到;[sup=23.8%.conf=65.9%]
(3)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆/女生>入學(xué)報到;[sup=8.15%;conf=72.3%]
(4)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆/男生>入學(xué)報到;[sup=14.6%;conf=62.8%]
(5)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆/女生>入學(xué)報到;[sup=7.6%;conf=68.1%]
(6)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆/男生>入學(xué)報到;[sup=12.8%;conf=58.7%]
(7)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆/女生/省會>入學(xué)報到;[sup=0.6%;conf=61.8%]
(8)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆/男生>入學(xué)報到;[sup=1.3%;conf=66.4%]
(9)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆/女生/省會>入學(xué)報到;[sup=0.2%;conf=55.6%]
(10)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆/男生/省會>入學(xué)報到;[sup=0.8%;conf=54.9%]
根據(jù)關(guān)聯(lián)規(guī)則分析結(jié)果,我們能夠看出城鎮(zhèn)應(yīng)屆生報到率與農(nóng)村應(yīng)屆生報到率相比明顯更高;女生的報到率與男生相比更高;成績處于“好”范圍之內(nèi)的學(xué)生報到率與成績處于“較好”與“一般”范圍的學(xué)生相比其報到率會更低一些.這些規(guī)律在實際的工作當(dāng)中我們也有所體會.比如農(nóng)村地區(qū)的一些學(xué)生受到家境及經(jīng)濟條件等因素的影響,他們可能會選擇學(xué)費更低的學(xué)校學(xué)習(xí)或者是希望考上更好的學(xué)校,但并未如愿,而選擇放棄,直接就業(yè).
隨著招生制度的改革,各院校的招生向著自主化、多元化的方向發(fā)展.如何利用好現(xiàn)有的數(shù)據(jù)來解決招生決策中面臨的問題,變得十分重要.通過對新生報到影響因素數(shù)據(jù)挖掘系統(tǒng)的研究分析能夠發(fā)現(xiàn)在高職院校錄取工作過程中所出現(xiàn)的表象或是潛在的特征與規(guī)律,這樣可以幫助學(xué)校實現(xiàn)更好的針對性管理,讓學(xué)校在教學(xué)管理、學(xué)生公寓安排、專業(yè)設(shè)置、班級設(shè)置等方面提前做好準(zhǔn)備和調(diào)整,避免由于招生盲目性所帶來的不良影響.