国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聚類分析在中等職業(yè)學(xué)校學(xué)生專業(yè)選擇分析中的應(yīng)用

2010-09-12 05:16:58王新龍
長治學(xué)院學(xué)報 2010年5期
關(guān)鍵詞:中等職業(yè)數(shù)據(jù)挖掘聚類

王新龍

(長治學(xué)院 計算機(jī)系,山西 長治 046011)

聚類分析在中等職業(yè)學(xué)校學(xué)生專業(yè)選擇分析中的應(yīng)用

王新龍

(長治學(xué)院 計算機(jī)系,山西 長治 046011)

利用聚類分析能比較清晰的獲得數(shù)據(jù)分布的情況,根據(jù)每一個簇的特點(diǎn),可以對特定的簇作進(jìn)一步分析。對中等職業(yè)學(xué)校學(xué)生入學(xué)成績進(jìn)行聚類分析是學(xué)生專業(yè)選擇的重要參考。傳統(tǒng)的專業(yè)選擇方法存在一些不足,使用聚k-平均聚類分析算法對學(xué)生的入學(xué)成績進(jìn)行聚類分析,為學(xué)生提出專業(yè)選擇的建議,可以有效地克服傳統(tǒng)專業(yè)選擇方法的不足。

聚類分析;k-平均算法;專業(yè)選擇

中等職業(yè)學(xué)校主要招收十五、六歲的初中畢業(yè)生,學(xué)生年齡較小,多數(shù)家長和學(xué)生對專業(yè)要求了解不多或根本就不了解,往往有從眾心理,出現(xiàn)盲目選報專業(yè)。而后期又會因?qū)I(yè)學(xué)習(xí)困難,需要重新更換專業(yè),造成學(xué)校資源及家庭時間、精力、資金的浪費(fèi),尤其是加重了貧困家庭的負(fù)擔(dān)。我們經(jīng)過調(diào)查、討論認(rèn)為,影響專業(yè)選擇的主要因素有:學(xué)生的理科(數(shù)學(xué)、物理、化學(xué))基礎(chǔ)、文科(語文、政治、英語)基礎(chǔ)、職業(yè)能力成績、就業(yè)情況、個人愛好及性格特點(diǎn)等。通過對學(xué)生成績的聚類分析,可以將學(xué)生群體按其成績分為全面、偏理、偏文、一般等4類,以此聚類分析結(jié)果作為參考我們可以為學(xué)生專業(yè)選擇提出比較合理的建議。

1 聚類技術(shù)的相關(guān)概念

數(shù)據(jù)挖掘可以簡單的理解為從大量數(shù)據(jù)中提取或挖掘知識,許多人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)。因此數(shù)據(jù)挖掘一般可表述為:從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程[1]。

聚類分析僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。其目標(biāo)是:組內(nèi)的對象相互之間是相似的(相關(guān)的),而不同組中的對象是不同的(不相關(guān)的)。組內(nèi)的相似性(同質(zhì)性)越大,組間差別越大,聚類就越好。

聚類技術(shù)發(fā)展迅速,在數(shù)據(jù)挖掘、模式識別、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、心理學(xué)、生物學(xué)、信息檢索、空間數(shù)據(jù)庫技術(shù)、市場營銷等領(lǐng)域有著非常廣泛的應(yīng)用前景。由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù),聚類分析已經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域一個非?;钴S的研究課題。

2 聚類分析中的數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)

聚類分析主要針對的數(shù)據(jù)類型包括:區(qū)間標(biāo)度變量(如:重量、高度、工資);二元變量(如:0,1,或 Yes,No);標(biāo)稱變量(如:traffic light具有紅、黃、綠三種狀態(tài)/停、看、行三種狀態(tài));序數(shù)型變量(如:教授、副教授、講師、助教;或者:總經(jīng)理、部門經(jīng)理、科長、職員);以及由這些變量類型構(gòu)成的復(fù)合類型。

一些基本的聚類算法通常采用數(shù)據(jù)矩陣和相異度矩陣兩種典型的數(shù)據(jù)結(jié)構(gòu)。

①數(shù)據(jù)矩陣:設(shè)有n個數(shù)據(jù)對象,可用p個屬性來描述每個對象,則n×p矩陣稱為數(shù)據(jù)矩陣。

②相異度矩陣:按n個數(shù)據(jù)對象兩兩間的相異度構(gòu)建的n階矩陣(因為相異度矩陣是對稱的,只需寫出上三角或下三角即可)稱為相異度矩陣。

3 聚類分析的算法分類

目前存在大量的聚類算法,具體應(yīng)用時應(yīng)根據(jù)數(shù)據(jù)的類型和聚類的目的以及應(yīng)用范圍而選擇相應(yīng)的舉法。到目前為止聚類的算法大體可分為如下幾類:

①基于劃分的方法。常見的算法有:k-平均算法,在該算法中每個簇用該簇中對象的平均值來表示;k-中心點(diǎn)算法,在該算法中,每個簇用接近聚類中心的一個對象來表示。

②基于層次的方法。常見的算法有:CURE、BIRCH和Chameleon等算法。

③基于密度的方法。常見的算法有:DBSCAN和OPTICS等算法。

④基于網(wǎng)格的方法。常見的算法有:WaveCluster和CLIQUE等算法。

⑤基于模型方法。常見的算法有:神經(jīng)網(wǎng)絡(luò)算法和COBWEB等算法。

4 k-平均算法

K-平均算法如下。

輸入:蔟的數(shù)目個數(shù)k和包含n個對象的數(shù)據(jù)庫;

輸出:k個蔟,使平方誤差準(zhǔn)則最??;

方法:

(1)任意選擇k個對象作為初始的簇中心;

(2)repeat;

(3)根據(jù)簇中對象的平均值,將每個對象(重新)賦給最類似的蔟;

(4)更新簇的平均值,即計算每個蔟中對象的平均值;

(5)until不再發(fā)生變化;

5 聚類分析在中等職業(yè)學(xué)校學(xué)生專業(yè)選擇分析中的應(yīng)用

中等職業(yè)學(xué)校主要培養(yǎng)學(xué)生既要具備一定的專業(yè)理論,更應(yīng)該具有一定的職業(yè)技能水平,以適應(yīng)社會的需求。但是每年大多數(shù)新生在專業(yè)選擇上無章可循,不清楚自己應(yīng)該學(xué)什么專業(yè)。例如:前幾年計算機(jī)專業(yè)比較熱,很多家長、學(xué)生也不考慮自己是否適合就要求上計算機(jī)專業(yè),更不考慮市場需求量?,F(xiàn)在進(jìn)行畢業(yè)生跟蹤調(diào)查并與其他專業(yè)作比較,我們會發(fā)現(xiàn)有不少學(xué)生認(rèn)為當(dāng)初的專業(yè)選擇是錯誤的。

每年新生入學(xué)都要進(jìn)行文化課和職業(yè)能力測試,如何科學(xué)地根據(jù)入學(xué)成績和本人的實際情況給出學(xué)生比較適合的專業(yè)建議,是職業(yè)教育工作的首要問題。本文中主要使用了k-平均聚類分析算法來分析學(xué)生情況,從而給出專業(yè)建議及指導(dǎo)。

5.1 數(shù)據(jù)預(yù)處理

表1所示的是某職業(yè)學(xué)校09級100名學(xué)生的入學(xué)成績(部分),為便于計算,考慮到多數(shù)專業(yè)對學(xué)生的數(shù)學(xué)、物理、化學(xué)基礎(chǔ)要求較高,而對語文、政治、英語要求相對較弱,因此對數(shù)據(jù)進(jìn)行如下處理:

理科成績=(數(shù)學(xué)+理化)/2,文科成績=(語文+政治+英語)/3;

均分=理科成績×0.6+文科成績×0.4,處理后的成績見表2;

表1 某職業(yè)學(xué)校學(xué)生入學(xué)成績表(部分)

表2 經(jīng)過數(shù)據(jù)處理的成績表(部分)

職業(yè)能力成績作為選報專業(yè)的參考成績。

根據(jù)表2的均分成績,按照k-平均聚類算法。若初始簇中心為 50、65、80、90,則劃分的結(jié)果,如表3所示。

表3 k-平均算法分類結(jié)果

5.2 對上述結(jié)果進(jìn)行解釋

類1基本對應(yīng)于學(xué)習(xí)成績較好的一類學(xué)生,理科、文科、職業(yè)能力成績都比較高,這類學(xué)生比較適合的專業(yè)比較多,如機(jī)械加工、電工、數(shù)控、物業(yè)管理、市場營銷等。

類2基本對應(yīng)理科成績較好的學(xué)生,比較適合的專業(yè)為機(jī)械加工、電工、數(shù)控等專業(yè)。

因為這些專業(yè)對數(shù)學(xué)、物理基礎(chǔ)要求較高,就業(yè)后有大量的故障分析和計算工作。

類3基本對應(yīng)文科成績較好的學(xué)生,比較適合的專業(yè)為:物業(yè)管理、旅游管理、文秘等專業(yè)。

類4基本對應(yīng)各科成績較差的學(xué)生,比較適合餐飲服務(wù)、市場營銷、藝術(shù)類等專業(yè)或初級工種的學(xué)習(xí)。

這樣在專業(yè)選擇的時候,我們可以根據(jù)學(xué)生的成績及個人特點(diǎn),給學(xué)生提供較好的專業(yè)選擇建議。

5.3 聚類分析結(jié)果與實際選報專業(yè)對比分析

通過對應(yīng)用以上方法的09級100名學(xué)生實際專業(yè)選擇情況調(diào)查,我們發(fā)現(xiàn)由于近年來數(shù)控加工技術(shù)工人短缺,就業(yè)形式較好,再加上媒體的報道宣傳,這100名學(xué)生報數(shù)控加工專業(yè)的人數(shù)多達(dá)63人,與聚類分析結(jié)果有較大差別。經(jīng)過這一年的學(xué)習(xí),由于有數(shù)控編程、工程力學(xué)、加工工藝相關(guān)計算等課程難度較大,當(dāng)初理科成績較低現(xiàn)在還沒有明顯提高的少部分學(xué)生要求更換專業(yè),給教學(xué)管理及正常教學(xué)工作的實施帶來了一定的難度和資源的浪費(fèi)。因此在未來的新生專業(yè)設(shè)置、選報專業(yè)指導(dǎo)等工作中,在充分做好市場調(diào)研的基礎(chǔ)上,可以用聚類分析方法,結(jié)合學(xué)生興趣、特點(diǎn)等給出比較科學(xué)的專業(yè)選擇建議,幫助學(xué)生選擇好專業(yè)。

6 結(jié)束語

本文針對中等職業(yè)學(xué)校學(xué)生選擇專業(yè)的有關(guān)問題,側(cè)重在成績方面通過聚類分析得到的結(jié)果給出了專業(yè)選擇的建議,通過實際應(yīng)用取得了預(yù)期效果。

[1]范明,范宏建等譯.數(shù)據(jù)挖掘?qū)д摚跰].北京:人民郵電出版社,2006.223-260.

[2]范明,孟小峰等譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.355-397.

(責(zé)任編輯 李學(xué)斌)

TP311

A

1673-2014(2010)05-0068-03

2010—08—10

長治學(xué)院2007年校級資助項目(編號:20072007)。

王新龍(1964— ),男,山西沁水人,副教授,主要從事數(shù)據(jù)庫、數(shù)據(jù)挖掘、信息技術(shù)教學(xué)法研究。

猜你喜歡
中等職業(yè)數(shù)據(jù)挖掘聚類
2021年廣州市中等職業(yè)教育招生學(xué)校名單
ViVi美眉(2021年5期)2021-07-08 17:57:04
2021年廣州市中等職業(yè)教育招生學(xué)校名單
ViVi美眉(2021年6期)2021-07-08 13:01:06
以就業(yè)為導(dǎo)向的中等職業(yè)教育教學(xué)改革探索
青年心理(2021年29期)2021-05-23 13:29:44
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于改進(jìn)的遺傳算法的模糊聚類算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
數(shù)據(jù)
清涧县| 平阴县| 内乡县| 武夷山市| 襄汾县| 大理市| 临泉县| 织金县| 呼和浩特市| 西宁市| 屏南县| 永顺县| 工布江达县| 勃利县| 惠来县| 龙门县| 石首市| 永顺县| 湘阴县| 蓬莱市| 无棣县| 肇东市| 和政县| 茂名市| 齐齐哈尔市| 广宗县| 旺苍县| 嘉祥县| 灵丘县| 甘孜县| 阿荣旗| 龙里县| 安新县| 金溪县| 信宜市| 乌苏市| 环江| 桦甸市| 勃利县| 大名县| 西贡区|