鄒全+常程威+賈月月
摘 要: 根據(jù)2010年到2013年我院校大學(xué)生就業(yè)情況,對(duì)大學(xué)生的就業(yè)數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)分析有很多方法,本文主要采用譜系聚類、K均值聚類、模糊C均值聚類三種聚類方法,并得出了結(jié)論。
關(guān)鍵詞: MATLAB 聚類分析 就業(yè)數(shù)據(jù)
隨著中國(guó)高校教育的發(fā)展,大學(xué)生人數(shù)急劇增加,就業(yè)問(wèn)題日益突出,大學(xué)生就業(yè)難的問(wèn)題已成為社會(huì)熱點(diǎn)、難點(diǎn)。根據(jù)2010年到2013年近四年我院校大學(xué)生就業(yè)情況,對(duì)大學(xué)生的就業(yè)數(shù)據(jù)進(jìn)行聚類分析。根據(jù)就業(yè)數(shù)據(jù)可以對(duì)學(xué)生選擇就讀的專業(yè)及學(xué)校本科辦學(xué)提供一定的參考價(jià)值。
聚類分析是多元統(tǒng)計(jì)分析的一種,也是非監(jiān)督模式識(shí)別的重要分支,在模式分類、圖像處理和模糊規(guī)則處理等眾多領(lǐng)域獲得最廣泛應(yīng)用。它把一個(gè)沒(méi)有類別標(biāo)記的樣本集按某種準(zhǔn)則劃分為若干個(gè)子集(類),使相似樣本盡可能歸為一類,而將不相似樣本盡量劃分到不同類中。
收集和整理2010年到2013年這四年我院校的就業(yè)數(shù)據(jù),對(duì)就業(yè)數(shù)據(jù)中的就業(yè)率、考研升學(xué)率和男女生首次平均月收入進(jìn)行MATLAB編程,得出散點(diǎn)圖,并進(jìn)行分析。對(duì)就業(yè)數(shù)據(jù)中畢業(yè)生的就業(yè)流向分別采用譜系聚類、K均值聚類和模糊C均值聚類三種聚類分析方法進(jìn)行分析。如表1。
1.譜系聚類算法的步驟
譜系聚類首先將每個(gè)樣品看成一類,然后把最相似的樣品聚為一小類,再將已聚類的小類按各類之間的相似性進(jìn)行再聚類,隨著相似度減弱,最后將一切子類都聚為一大類,從而得到一個(gè)按相似度大小聚集起來(lái)的譜系圖[1]。
利用譜系聚類算法對(duì)表1的就業(yè)流向數(shù)據(jù)進(jìn)行聚類分析。將數(shù)據(jù)分成3類,從程序輸出的結(jié)果得出結(jié)論,共可分成3類,常州單獨(dú)為一類,南京、蘇州、無(wú)錫為一類,剩下的鎮(zhèn)江、揚(yáng)州、南通之類的歸為一類。也就是說(shuō),很多外地畢業(yè)生就在常州發(fā)展,很大一部分畢業(yè)生去南京、蘇州、無(wú)錫工作,還有一小部分畢業(yè)生去了鎮(zhèn)江、揚(yáng)州、南通,還有省外等地。
2.K均值聚類算法的步驟
譜系聚類法是先將每一個(gè)樣品看成一類,通過(guò)比較距離的大小逐步擴(kuò)充類,因此,對(duì)于給定的數(shù)據(jù),譜系聚類一定能將樣品合并成為一類,分類結(jié)果唯一,但譜系聚類有一個(gè)缺點(diǎn),就是樣品一旦被分到某一類中就不能改變了,且當(dāng)樣品容量較大時(shí),計(jì)算量相應(yīng)變大??朔@一缺點(diǎn)的辦法就是K均值聚類法,又稱之為快速聚類法或動(dòng)態(tài)聚類法。
利用K均值聚類算法對(duì)表1的就業(yè)流向數(shù)據(jù)進(jìn)行聚類分析。
從圖1可知,將地區(qū)分成3類?!鯙橐活悾謩e表示常州、蘇州、南京、無(wú)錫;一類,分別表示省外、鎮(zhèn)江、揚(yáng)州;○為一類,表示剩下的幾個(gè)地區(qū),如鹽城、南通、泰州、宿遷等。換句話說(shuō),大部分畢業(yè)生選擇在蘇南地區(qū)工作,一部分畢業(yè)生選擇去省外,如上海和鎮(zhèn)江、揚(yáng)州工作,只有少數(shù)一部分人選擇去淮安、宿遷、鹽城等地工作。
3.模糊C均值聚類算法的步驟
模糊聚類得到了樣本屬于各個(gè)類別的不確定性程度,表達(dá)了樣本類屬的中介性,即建立起了樣本對(duì)類別的不確定性描述,能更客觀地反映現(xiàn)實(shí)世界,從而成為聚類分析研究的主流[2]。
采用模糊C均值聚類算法對(duì)表1的就業(yè)流向數(shù)據(jù)進(jìn)行分析。從輸出聚類的結(jié)果來(lái)看,常州、南京、蘇州、無(wú)錫這四個(gè)城市為一類,表示很大一部分畢業(yè)生愿意在這幾個(gè)城市發(fā)展;鎮(zhèn)江、揚(yáng)州、省外三地為一類,表示有一部分畢業(yè)生選擇在這些地方發(fā)展;剩下的如南通、鹽城、泰州等七個(gè)城市為一類,說(shuō)明少部分人愿意去這些城市工作發(fā)展。
4.三種聚類算法對(duì)就業(yè)流向的分析結(jié)論
從三種聚類算法的結(jié)果可以看出,譜系聚類算法與K均值聚類算法和模糊C均值聚類兩種算法的聚類結(jié)果不同。通過(guò)比較可以看出,譜系聚類算法的結(jié)論不是很理想。K均值聚類算法得出的散點(diǎn)圖更直觀地表現(xiàn)了數(shù)據(jù)的聚類,所以K均值聚類算法更好一些。
通過(guò)對(duì)就業(yè)流向的聚類分析,可以看出極大一部分畢業(yè)生選擇在江蘇經(jīng)濟(jì)發(fā)達(dá)地區(qū)工作,如蘇州、南京、無(wú)錫、常州這些城市,其中由于我院校在常州,因此很大一部分畢業(yè)生愿意留在這個(gè)生活了四年的地方工作。畢竟在大城市的選擇和發(fā)展機(jī)會(huì)都比較多。還有一部分畢業(yè)生選擇在鎮(zhèn)江、揚(yáng)州和省外如上海等地工作。只有少數(shù)一部分人愿意去如泰州、鹽城、宿遷等地工作。
參考文獻(xiàn):
[1]吳志遠(yuǎn),王遠(yuǎn)干.大學(xué)生身體數(shù)據(jù)的FCM算法聚類及MATLAB實(shí)現(xiàn)[J].科技通報(bào),2013.
[2]周紅進(jìn),王秀森.基于MATLAB的海量數(shù)據(jù)處理方法[J].計(jì)算機(jī)與數(shù)字工程,2012.