王新龍
(長治學(xué)院 計算機(jī)系,山西 長治 046011)
聚類分析在中等職業(yè)學(xué)校學(xué)生專業(yè)選擇分析中的應(yīng)用
王新龍
(長治學(xué)院 計算機(jī)系,山西 長治 046011)
利用聚類分析能比較清晰的獲得數(shù)據(jù)分布的情況,根據(jù)每一個簇的特點(diǎn),可以對特定的簇作進(jìn)一步分析。對中等職業(yè)學(xué)校學(xué)生入學(xué)成績進(jìn)行聚類分析是學(xué)生專業(yè)選擇的重要參考。傳統(tǒng)的專業(yè)選擇方法存在一些不足,使用聚k-平均聚類分析算法對學(xué)生的入學(xué)成績進(jìn)行聚類分析,為學(xué)生提出專業(yè)選擇的建議,可以有效地克服傳統(tǒng)專業(yè)選擇方法的不足。
聚類分析;k-平均算法;專業(yè)選擇
中等職業(yè)學(xué)校主要招收十五、六歲的初中畢業(yè)生,學(xué)生年齡較小,多數(shù)家長和學(xué)生對專業(yè)要求了解不多或根本就不了解,往往有從眾心理,出現(xiàn)盲目選報專業(yè)。而后期又會因?qū)I(yè)學(xué)習(xí)困難,需要重新更換專業(yè),造成學(xué)校資源及家庭時間、精力、資金的浪費(fèi),尤其是加重了貧困家庭的負(fù)擔(dān)。我們經(jīng)過調(diào)查、討論認(rèn)為,影響專業(yè)選擇的主要因素有:學(xué)生的理科(數(shù)學(xué)、物理、化學(xué))基礎(chǔ)、文科(語文、政治、英語)基礎(chǔ)、職業(yè)能力成績、就業(yè)情況、個人愛好及性格特點(diǎn)等。通過對學(xué)生成績的聚類分析,可以將學(xué)生群體按其成績分為全面、偏理、偏文、一般等4類,以此聚類分析結(jié)果作為參考我們可以為學(xué)生專業(yè)選擇提出比較合理的建議。
數(shù)據(jù)挖掘可以簡單的理解為從大量數(shù)據(jù)中提取或挖掘知識,許多人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)。因此數(shù)據(jù)挖掘一般可表述為:從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程[1]。
聚類分析僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。其目標(biāo)是:組內(nèi)的對象相互之間是相似的(相關(guān)的),而不同組中的對象是不同的(不相關(guān)的)。組內(nèi)的相似性(同質(zhì)性)越大,組間差別越大,聚類就越好。
聚類技術(shù)發(fā)展迅速,在數(shù)據(jù)挖掘、模式識別、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、心理學(xué)、生物學(xué)、信息檢索、空間數(shù)據(jù)庫技術(shù)、市場營銷等領(lǐng)域有著非常廣泛的應(yīng)用前景。由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù),聚類分析已經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域一個非?;钴S的研究課題。
聚類分析主要針對的數(shù)據(jù)類型包括:區(qū)間標(biāo)度變量(如:重量、高度、工資);二元變量(如:0,1,或 Yes,No);標(biāo)稱變量(如:traffic light具有紅、黃、綠三種狀態(tài)/停、看、行三種狀態(tài));序數(shù)型變量(如:教授、副教授、講師、助教;或者:總經(jīng)理、部門經(jīng)理、科長、職員);以及由這些變量類型構(gòu)成的復(fù)合類型。
一些基本的聚類算法通常采用數(shù)據(jù)矩陣和相異度矩陣兩種典型的數(shù)據(jù)結(jié)構(gòu)。
①數(shù)據(jù)矩陣:設(shè)有n個數(shù)據(jù)對象,可用p個屬性來描述每個對象,則n×p矩陣稱為數(shù)據(jù)矩陣。
②相異度矩陣:按n個數(shù)據(jù)對象兩兩間的相異度構(gòu)建的n階矩陣(因為相異度矩陣是對稱的,只需寫出上三角或下三角即可)稱為相異度矩陣。
目前存在大量的聚類算法,具體應(yīng)用時應(yīng)根據(jù)數(shù)據(jù)的類型和聚類的目的以及應(yīng)用范圍而選擇相應(yīng)的舉法。到目前為止聚類的算法大體可分為如下幾類:
①基于劃分的方法。常見的算法有:k-平均算法,在該算法中每個簇用該簇中對象的平均值來表示;k-中心點(diǎn)算法,在該算法中,每個簇用接近聚類中心的一個對象來表示。
②基于層次的方法。常見的算法有:CURE、BIRCH和Chameleon等算法。
③基于密度的方法。常見的算法有:DBSCAN和OPTICS等算法。
④基于網(wǎng)格的方法。常見的算法有:WaveCluster和CLIQUE等算法。
⑤基于模型方法。常見的算法有:神經(jīng)網(wǎng)絡(luò)算法和COBWEB等算法。
K-平均算法如下。
輸入:蔟的數(shù)目個數(shù)k和包含n個對象的數(shù)據(jù)庫;
輸出:k個蔟,使平方誤差準(zhǔn)則最??;
方法:
(1)任意選擇k個對象作為初始的簇中心;
(2)repeat;
(3)根據(jù)簇中對象的平均值,將每個對象(重新)賦給最類似的蔟;
(4)更新簇的平均值,即計算每個蔟中對象的平均值;
(5)until不再發(fā)生變化;
中等職業(yè)學(xué)校主要培養(yǎng)學(xué)生既要具備一定的專業(yè)理論,更應(yīng)該具有一定的職業(yè)技能水平,以適應(yīng)社會的需求。但是每年大多數(shù)新生在專業(yè)選擇上無章可循,不清楚自己應(yīng)該學(xué)什么專業(yè)。例如:前幾年計算機(jī)專業(yè)比較熱,很多家長、學(xué)生也不考慮自己是否適合就要求上計算機(jī)專業(yè),更不考慮市場需求量?,F(xiàn)在進(jìn)行畢業(yè)生跟蹤調(diào)查并與其他專業(yè)作比較,我們會發(fā)現(xiàn)有不少學(xué)生認(rèn)為當(dāng)初的專業(yè)選擇是錯誤的。
每年新生入學(xué)都要進(jìn)行文化課和職業(yè)能力測試,如何科學(xué)地根據(jù)入學(xué)成績和本人的實際情況給出學(xué)生比較適合的專業(yè)建議,是職業(yè)教育工作的首要問題。本文中主要使用了k-平均聚類分析算法來分析學(xué)生情況,從而給出專業(yè)建議及指導(dǎo)。
表1所示的是某職業(yè)學(xué)校09級100名學(xué)生的入學(xué)成績(部分),為便于計算,考慮到多數(shù)專業(yè)對學(xué)生的數(shù)學(xué)、物理、化學(xué)基礎(chǔ)要求較高,而對語文、政治、英語要求相對較弱,因此對數(shù)據(jù)進(jìn)行如下處理:
理科成績=(數(shù)學(xué)+理化)/2,文科成績=(語文+政治+英語)/3;
均分=理科成績×0.6+文科成績×0.4,處理后的成績見表2;
表1 某職業(yè)學(xué)校學(xué)生入學(xué)成績表(部分)
表2 經(jīng)過數(shù)據(jù)處理的成績表(部分)
職業(yè)能力成績作為選報專業(yè)的參考成績。
根據(jù)表2的均分成績,按照k-平均聚類算法。若初始簇中心為 50、65、80、90,則劃分的結(jié)果,如表3所示。
表3 k-平均算法分類結(jié)果
類1基本對應(yīng)于學(xué)習(xí)成績較好的一類學(xué)生,理科、文科、職業(yè)能力成績都比較高,這類學(xué)生比較適合的專業(yè)比較多,如機(jī)械加工、電工、數(shù)控、物業(yè)管理、市場營銷等。
類2基本對應(yīng)理科成績較好的學(xué)生,比較適合的專業(yè)為機(jī)械加工、電工、數(shù)控等專業(yè)。
因為這些專業(yè)對數(shù)學(xué)、物理基礎(chǔ)要求較高,就業(yè)后有大量的故障分析和計算工作。
類3基本對應(yīng)文科成績較好的學(xué)生,比較適合的專業(yè)為:物業(yè)管理、旅游管理、文秘等專業(yè)。
類4基本對應(yīng)各科成績較差的學(xué)生,比較適合餐飲服務(wù)、市場營銷、藝術(shù)類等專業(yè)或初級工種的學(xué)習(xí)。
這樣在專業(yè)選擇的時候,我們可以根據(jù)學(xué)生的成績及個人特點(diǎn),給學(xué)生提供較好的專業(yè)選擇建議。
通過對應(yīng)用以上方法的09級100名學(xué)生實際專業(yè)選擇情況調(diào)查,我們發(fā)現(xiàn)由于近年來數(shù)控加工技術(shù)工人短缺,就業(yè)形式較好,再加上媒體的報道宣傳,這100名學(xué)生報數(shù)控加工專業(yè)的人數(shù)多達(dá)63人,與聚類分析結(jié)果有較大差別。經(jīng)過這一年的學(xué)習(xí),由于有數(shù)控編程、工程力學(xué)、加工工藝相關(guān)計算等課程難度較大,當(dāng)初理科成績較低現(xiàn)在還沒有明顯提高的少部分學(xué)生要求更換專業(yè),給教學(xué)管理及正常教學(xué)工作的實施帶來了一定的難度和資源的浪費(fèi)。因此在未來的新生專業(yè)設(shè)置、選報專業(yè)指導(dǎo)等工作中,在充分做好市場調(diào)研的基礎(chǔ)上,可以用聚類分析方法,結(jié)合學(xué)生興趣、特點(diǎn)等給出比較科學(xué)的專業(yè)選擇建議,幫助學(xué)生選擇好專業(yè)。
本文針對中等職業(yè)學(xué)校學(xué)生選擇專業(yè)的有關(guān)問題,側(cè)重在成績方面通過聚類分析得到的結(jié)果給出了專業(yè)選擇的建議,通過實際應(yīng)用取得了預(yù)期效果。
[1]范明,范宏建等譯.數(shù)據(jù)挖掘?qū)д摚跰].北京:人民郵電出版社,2006.223-260.
[2]范明,孟小峰等譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.355-397.
(責(zé)任編輯 李學(xué)斌)
TP311
A
1673-2014(2010)05-0068-03
2010—08—10
長治學(xué)院2007年校級資助項目(編號:20072007)。
王新龍(1964— ),男,山西沁水人,副教授,主要從事數(shù)據(jù)庫、數(shù)據(jù)挖掘、信息技術(shù)教學(xué)法研究。