傅振南
(福建教育學(xué)院,福建 福州 350025)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘被廣泛應(yīng)用于新零售、金融商業(yè)、科學(xué)研究、數(shù)據(jù)云服務(wù)、高校管理等領(lǐng)域。隨著教育改革的進(jìn)一步深化,成人高等教育面臨著諸多挑戰(zhàn),在普通高等教育擴(kuò)招的沖擊下,生源萎縮相當(dāng)嚴(yán)重,競(jìng)爭(zhēng)日趨白熱化,在招生高校數(shù)量不變而生源急劇減少的情況下,拿出更管用更精準(zhǔn)的招生宣傳方法是制勝的關(guān)鍵點(diǎn)。文章以F院校成人招生錄取數(shù)據(jù)為例,通過(guò)聚類(lèi)分析數(shù)據(jù)挖掘技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行挖掘分析,為招生宣傳工作提供有力決策支持。
常用的數(shù)據(jù)挖掘技術(shù)包括:神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、聚類(lèi)分析、統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、粗糙集方法、支持向量機(jī)、遺傳算法等。數(shù)據(jù)挖掘?qū)嶋H上是挖掘算法的選擇、執(zhí)行階段。文章首先根據(jù)挖掘任務(wù),從常用的技術(shù)中選擇適合數(shù)據(jù)分析提取的聚類(lèi)分析技術(shù)算法。聚類(lèi)分析被廣泛應(yīng)用于模式識(shí)別、市場(chǎng)研究、數(shù)據(jù)分析等眾多應(yīng)用領(lǐng)域,是數(shù)據(jù)挖掘研究領(lǐng)域一個(gè)重要分支。它適合探討樣本數(shù)據(jù)的內(nèi)部關(guān)系,因?yàn)槊總€(gè)樣本數(shù)據(jù)的類(lèi)別都是未知的,它是用一定的關(guān)聯(lián)標(biāo)準(zhǔn)將所提供的樣本數(shù)據(jù)劃分成不同的族,同一族內(nèi)的樣本數(shù)據(jù)相似度較高,相似度用距離作為度量方式,根據(jù)對(duì)象的屬性值來(lái)進(jìn)行分析評(píng)估。K-Means是典型的基于劃分的一種聚類(lèi)算法。其中K表示類(lèi)別數(shù),Means表示均值,因此K-Means不難理解是一種通過(guò)均值對(duì)數(shù)據(jù)單元進(jìn)行聚類(lèi)的算法。下面利用K-means 聚類(lèi)算法的特性,去分析招生宣傳對(duì)象所在單位類(lèi)型存在不同的特征,并加以分析應(yīng)用。
做任何工作首先都要確定它的目的任務(wù),數(shù)據(jù)挖掘也不例外,確定任務(wù)后再細(xì)分選擇數(shù)據(jù),清洗一些屬性缺失、錯(cuò)誤數(shù)據(jù)值、違反完整約束規(guī)則的數(shù)據(jù),并搜集遺漏數(shù)據(jù),然后進(jìn)行數(shù)據(jù)整合,整合完有重復(fù)記錄須清洗去除。接著做數(shù)據(jù)預(yù)處理分析,進(jìn)一步考證數(shù)據(jù)質(zhì)量,為進(jìn)一步分析做好準(zhǔn)備,根據(jù)事先確定的分析任務(wù),從準(zhǔn)備好的數(shù)據(jù)中提取與任務(wù)相關(guān)的數(shù)據(jù),并選擇挖掘操作類(lèi)型。最后將數(shù)據(jù)轉(zhuǎn)換成針對(duì)挖掘算法建立的分析模型,這也是數(shù)據(jù)挖掘成功與否的關(guān)鍵。
從成人高校招生系統(tǒng)導(dǎo)出F院校2017年19張錄取數(shù)據(jù)表,主要包括考生投檔單表、專(zhuān)業(yè)代碼表、職業(yè)類(lèi)別表、性別代碼表等。
(1)數(shù)據(jù)提取。根據(jù)原先確定的分析目標(biāo)提取出樣本數(shù)據(jù)字段,主要從主表——考生的投檔單表(T_TDD.DBF)中提取分析目標(biāo)相關(guān)的樣本數(shù)據(jù)字段,主要是考生的畢業(yè)學(xué)校、所在單位、從業(yè)類(lèi)別、性別等。由于數(shù)據(jù)庫(kù)設(shè)計(jì)的原因,T_TDD.DBF表中有些字段是用代碼表示,無(wú)法直接讀取它的真正表達(dá)意思,如性別用“0”和“1”代碼表示,民族、政治面貌、招生類(lèi)別、招生層次、招生專(zhuān)業(yè)等字段也均用數(shù)字代碼標(biāo)記,因此需要先做好這些代碼的轉(zhuǎn)換工作,將其整理成一目了然的標(biāo)識(shí),表達(dá)出它的實(shí)際意思。轉(zhuǎn)換好相關(guān)樣本數(shù)據(jù)表的格式,將其用SQL Server 2000或ACCESS 2003以及更高版本的數(shù)據(jù)庫(kù)操作軟件進(jìn)行表間的數(shù)據(jù)關(guān)聯(lián)操作,然后通過(guò)菜單操作或SQL語(yǔ)句進(jìn)行連接。
(2)數(shù)據(jù)清洗。連接整合處理后的考生投檔單表(T_TDD.DBF)由68個(gè)字段組成,要進(jìn)行有效的邏輯轉(zhuǎn)換前需要根據(jù)分析目標(biāo)所需的相關(guān)樣本數(shù)據(jù)字段,可使用可視化分析技術(shù)工具如分布圖、條形圖、直方圖去除對(duì)目標(biāo)分析不存在任何意義的字段。比如招生類(lèi)別字段,99.6%的字段值都為“統(tǒng)一考試”,對(duì)目標(biāo)分析結(jié)果無(wú)任何意義,如圖1,另如果一個(gè)表內(nèi)的字段值超過(guò)97%都為“NULL”,該字段對(duì)目標(biāo)分析結(jié)果也毫無(wú)意義,將這些字段及跟分析結(jié)果不相關(guān)的考生號(hào)、準(zhǔn)考證號(hào)、政治面貌等字段去除,經(jīng)前后對(duì)照考慮,選取考生投檔單表(T_TDD.DBF)中的與任務(wù)挖掘高度關(guān)聯(lián)的教學(xué)站點(diǎn)、畢業(yè)學(xué)校、錄取專(zhuān)業(yè)、職業(yè)類(lèi)別、性別、成績(jī)等6個(gè)字段。
圖1 招生類(lèi)別字段分布圖
(3)數(shù)據(jù)邏輯轉(zhuǎn)換。通過(guò)這個(gè)步驟,將考生投檔單表(T_TDD.DBF)的考生數(shù)據(jù)按歸屬教學(xué)站點(diǎn)進(jìn)行聚合,根據(jù)以往錄取直觀經(jīng)驗(yàn)考慮,不同教學(xué)站點(diǎn)分布的專(zhuān)業(yè)不同,增加專(zhuān)業(yè)錄取人數(shù)、錄取平均分等字段信息,整合轉(zhuǎn)換后的探索性數(shù)據(jù)集字段如下:教學(xué)站點(diǎn)、錄取人數(shù)、錄取平均分、人力資源管理人數(shù)、行政管理人數(shù)、學(xué)前教育人數(shù)、會(huì)計(jì)人數(shù)、工商企業(yè)管理人數(shù)、小學(xué)教育人數(shù)、電子商務(wù)人數(shù)、市場(chǎng)營(yíng)銷(xiāo)人數(shù)、工程造價(jià)人數(shù)、機(jī)電一體化技術(shù)人數(shù)、建筑工程技術(shù)人數(shù)、計(jì)算機(jī)應(yīng)用技術(shù)人數(shù)、電氣自動(dòng)化技術(shù)人數(shù)、電子信息工程技術(shù)人數(shù)、數(shù)控技術(shù)人數(shù)、各畢業(yè)學(xué)校人數(shù)、各職業(yè)類(lèi)別人數(shù)。
(4)數(shù)據(jù)規(guī)范化。不同教學(xué)站點(diǎn)樣本數(shù)據(jù)屬性的度量單位不致相同,特別是職業(yè)類(lèi)別、投檔成績(jī)和專(zhuān)業(yè)人數(shù),采用Max-MAX規(guī)范化方式對(duì)此類(lèi)樣本數(shù)據(jù)集進(jìn)行線性變換標(biāo)準(zhǔn)化操作,可防止初始值域的屬性權(quán)重兩極化。。
3.結(jié)果可視化
K-means聚類(lèi)算法產(chǎn)生教學(xué)站點(diǎn)探索性數(shù)據(jù)集時(shí),重點(diǎn)要將學(xué)生所在教學(xué)站點(diǎn)分成幾個(gè)簇,因?yàn)樗鞬-means算法中k的確定。本方案采用探索性方法,分別創(chuàng)建了包含4,5,6,7,8,9,10個(gè)簇的聚類(lèi)模型,對(duì)結(jié)果進(jìn)行分析比較,綜合可用性、可解釋性原則,發(fā)現(xiàn)6個(gè)簇聚類(lèi)模型信息提供最多,也相對(duì)容易將結(jié)果進(jìn)行展示。
為便于對(duì)聚類(lèi)挖掘結(jié)果進(jìn)行解釋和分析,采用可視化技術(shù)工具條形圖,找出各簇所表示的獨(dú)特性質(zhì),比較各簇在不同字段上的分布情況,以便提取有用的信息,共生成10幅條形圖,因?yàn)槠拗?,文章只選取圖2展示聚類(lèi)1在學(xué)前教育和會(huì)計(jì)相對(duì)于其他聚類(lèi)的顯著特性,表1顯示了各個(gè)聚類(lèi)簇的特征。
圖2 聚類(lèi)1在學(xué)前教育和會(huì)計(jì)相對(duì)于其他聚類(lèi)的顯著特性展示
表1 各簇的特征匯總
通過(guò)聚類(lèi)結(jié)果分析得出1-6簇的特征匯總,結(jié)合筆者日常招生宣傳的經(jīng)驗(yàn)總結(jié)、實(shí)際情況,可在以下幾方面進(jìn)行精準(zhǔn)招生宣傳工作:1.族1可以看出職業(yè)中專(zhuān)學(xué)校對(duì)這兩個(gè)專(zhuān)業(yè)提升學(xué)歷有需求,此類(lèi)專(zhuān)業(yè)重點(diǎn)宣傳對(duì)象為職業(yè)中專(zhuān)學(xué)校學(xué)生。2.族2可以看出技工類(lèi)學(xué)校對(duì)理工類(lèi)專(zhuān)業(yè)提升學(xué)歷有需求,此類(lèi)專(zhuān)業(yè)重點(diǎn)宣傳對(duì)象為技工類(lèi)學(xué)?;蚬た祁?lèi)學(xué)校學(xué)生。3.族3可以看出這些教學(xué)站點(diǎn)生源主要是在城鄉(xiāng)結(jié)合部或農(nóng)村的男性打工或務(wù)農(nóng)人員,文化水平不高,可重點(diǎn)在這些區(qū)域的地方媒介進(jìn)行宣傳,為這類(lèi)人群進(jìn)行考前輔導(dǎo),避免想學(xué)沒(méi)考上的問(wèn)題出現(xiàn)。4.族4可以看出負(fù)責(zé)電子商務(wù)、工程造價(jià)的教學(xué)站點(diǎn)對(duì)這兩個(gè)專(zhuān)業(yè)招生宣傳不夠,沒(méi)針對(duì)性在行業(yè)里進(jìn)行招生宣傳,須加強(qiáng)。5.族5可以看出這個(gè)教學(xué)站點(diǎn)報(bào)考專(zhuān)業(yè)很集中,考生的職業(yè)類(lèi)別大部分為“辦事人員”,對(duì)專(zhuān)業(yè)要求不高,招生宣傳時(shí)統(tǒng)一引導(dǎo)到一個(gè)專(zhuān)業(yè),以便更好教學(xué)管理,節(jié)省人力物力。
綜上,通過(guò)對(duì)成人招生錄取數(shù)據(jù)的挖掘分析,為招生宣傳決策提供了一定的參考。但未對(duì)分析結(jié)果適用高校的范圍進(jìn)行挖掘,通用性值得進(jìn)一步研究。