国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在高職學(xué)生職業(yè)發(fā)展分析中的應(yīng)用

2019-07-16 03:14武文廷
電腦知識與技術(shù) 2019年15期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘要:隨著職業(yè)教育改革的不斷深化和畢業(yè)生人數(shù)的逐年遞增,學(xué)生就業(yè)工作和職業(yè)生涯發(fā)展指導(dǎo)工作任務(wù)越來越重。該文以甘肅林業(yè)職業(yè)技術(shù)學(xué)院信息工程學(xué)院近四年的畢業(yè)生數(shù)據(jù)作為挖掘?qū)ο?,采用了改進(jìn)的ID3決策樹算法對高職學(xué)校應(yīng)往屆畢業(yè)生的基本信息、學(xué)業(yè)成績、實踐能力、就業(yè)狀況等數(shù)據(jù)予以挖掘,把挖掘到的規(guī)則運用到高職學(xué)生管理服務(wù)和教育教學(xué)中,為高職院校就業(yè)指導(dǎo)部門提供更多的理論決策支持。

關(guān)鍵詞:數(shù)據(jù)挖掘;ID3算法;職業(yè)發(fā)展分析

中圖分類號:TP311 ? ? ? ?文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2019)15-0025-03

目前,許多高職院校都建立了諸如學(xué)生成績管理系統(tǒng)、就業(yè)數(shù)據(jù)一站式管理系統(tǒng)等。但因缺乏數(shù)據(jù)挖掘技術(shù),因而只能用于數(shù)據(jù)統(tǒng)計與匯總,潛在的和有價值的信息得不到充分發(fā)掘。本文采用決策樹技術(shù),探索和分析與高職學(xué)生職業(yè)發(fā)展相關(guān)的數(shù)據(jù),利用改進(jìn)后的ID3算法試圖找出其中的規(guī)則,構(gòu)造分類決策樹,建立數(shù)據(jù)挖掘模型,利用該模型預(yù)測新數(shù)據(jù),發(fā)掘高職學(xué)生職業(yè)發(fā)展的影響因素相關(guān)性研究及應(yīng)用,以在學(xué)生職業(yè)規(guī)劃中提供幫助和指導(dǎo)。

1 數(shù)據(jù)挖掘?qū)嵤┻^程

1.1 挖掘?qū)ο蠹澳繕?biāo)確定

本文選取甘肅林業(yè)職業(yè)技術(shù)學(xué)院信息工程學(xué)院2015-2018年的畢業(yè)生資料。通過數(shù)據(jù)挖掘和分析,管理者可以根據(jù)高職學(xué)生的不同特點制定對應(yīng)的職業(yè)生涯規(guī)劃指導(dǎo)方案。

1.2 數(shù)據(jù)采集

本文的數(shù)據(jù)主要來源渠道為:畢業(yè)生的基本信息和就業(yè)信息由招生就業(yè)處就業(yè)指導(dǎo)中心獲取,計算機(jī)等級成績、實踐能力數(shù)據(jù)由二級學(xué)院競賽情況數(shù)據(jù)獲得。學(xué)業(yè)成績、英語AB級成績來自教務(wù)管理系統(tǒng)。

1.3 數(shù)據(jù)預(yù)處理

因為學(xué)院各部門業(yè)務(wù)重點不同,各自的數(shù)據(jù)庫中所存儲的數(shù)據(jù)也會和預(yù)期的數(shù)據(jù)格式有很大的差異,因此需要進(jìn)行合理的數(shù)據(jù)預(yù)先處理,以解決該問題。

1.3.1 數(shù)據(jù)集成

把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中稱之為數(shù)據(jù)集成?!皩W(xué)生基本信息表”“學(xué)業(yè)成績表”“畢業(yè)生就業(yè)匯總表”等數(shù)據(jù)表眾多,需要跨數(shù)據(jù)庫去查找多個表,因此在收集到數(shù)據(jù)之后,根據(jù)數(shù)據(jù)屬性間以及屬性所在表之間的關(guān)系,去除所有代碼項和無關(guān)的數(shù)據(jù)項,將全部所需數(shù)據(jù)項集成到一個數(shù)據(jù)表,命名為“就業(yè)信息匯總表”,如圖1所示。

1.3.2 數(shù)據(jù)清理

在數(shù)據(jù)庫中的數(shù)據(jù)中含有噪聲、數(shù)據(jù)表示方式不一致等,有些數(shù)據(jù)不完整,有些感興趣的屬性可能缺少屬性值,例如學(xué)生的全國計算機(jī)等級考試,如果未參加考試或者考試沒有通過,則該項數(shù)據(jù)為Null,需要通過一些方式予以補(bǔ)充。同時對數(shù)據(jù)庫中無效的數(shù)據(jù)記錄進(jìn)行清除,如有退學(xué)、開除的學(xué)生等,可將其記錄予以刪除。對于休學(xué)、留級的學(xué)生數(shù)據(jù)需要歸集到復(fù)學(xué)后的班級中再予以挖掘。

1.3.3 數(shù)據(jù)歸約

在收集到的學(xué)生相關(guān)信息數(shù)據(jù)庫中所包含屬性非常多,但是有些數(shù)據(jù)和數(shù)據(jù)挖掘并不是很相關(guān),并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果與規(guī)約前執(zhí)行結(jié)果相同或幾乎相同,可通過冗余屬性的刪除,將屬性有大量不同的值但是這個值影響因子較小的刪掉;將各屬性值進(jìn)行轉(zhuǎn),如把就業(yè)狀態(tài)分為“就業(yè)”“應(yīng)征入伍”“升學(xué)”“待就業(yè)”四種情況;對連續(xù)數(shù)據(jù)值數(shù)據(jù)離散化,如學(xué)業(yè)課程成績通常以百分比表示,需將所有課程的成績進(jìn)行匯總后計算平均值,利用GPA標(biāo)準(zhǔn)公式計算后將其離散為“優(yōu)秀”“良好”和“一般”三類。

1.4 訓(xùn)練集與測試集的選擇

本文對收集到1048條的學(xué)生相關(guān)信息進(jìn)行整理,將2015-2017屆畢業(yè)生數(shù)據(jù)處理后得到的629條有效記錄作為訓(xùn)練樣本數(shù)據(jù),通過改進(jìn)的ID3算法生成決策樹模型,然后用2018屆畢業(yè)生的228條數(shù)據(jù)作為測試數(shù)據(jù)集,作為驗證模型驗證規(guī)則。通過數(shù)據(jù)的歸約,最終得到的數(shù)據(jù)樣本集統(tǒng)計如表1所示。

2 改進(jìn)的ID3算法在畢業(yè)生就業(yè)分析中的實施

改進(jìn)的ID3決策樹構(gòu)造的步驟為:

(l)將表中屬性值作數(shù)據(jù)源,通過公式[IX=-j=1mPjlog2Pj]分別計算各個屬性的信息熵;

(2)通過改進(jìn)的基于動態(tài)屬性權(quán)值的ID3算法公式Gain(S,C)=I(S)–[ωI]*E(S,C)計算信息增益,將最大信息增益的屬性設(shè)置為根節(jié)點;

(3)遞歸計算每個子集,步驟(1)和(2)被每一個子集依次調(diào)用。用相同的算法計算其余各屬性值的信息增益并進(jìn)行分類,直到每個屬性對應(yīng)于單一值或者樹的增長超過一定的規(guī)模為止。

2.1 構(gòu)造決策樹

根據(jù)就業(yè)信息訓(xùn)練樣本集記錄統(tǒng)計表(表1),將其中2015-2017屆畢業(yè)生數(shù)據(jù)共629條,作為訓(xùn)練樣本數(shù)據(jù)集S,根據(jù)畢業(yè)生就業(yè)狀況分為四類:就業(yè)(A)、應(yīng)征入伍(B)、升學(xué)(C)、待就業(yè)(D)。

訓(xùn)練樣本集S中有629個元組,A、B、C、D四個子集中元組個數(shù)分別為:S1=467,S2=25,S3=76,S4=61。

所以性別的熵值為:

用相同方式分別計算專業(yè)、是否為學(xué)生干部、學(xué)業(yè)成績、實習(xí)實踐成績、英語AB級獲得情況、計算機(jī)等級證獲得情況、競賽能力的熵值。

根據(jù)改進(jìn)的屬性權(quán)值選擇方法,在此對訓(xùn)練樣本集的計算屬性權(quán)值和信息增益,最終結(jié)果如下表2:

通過以上結(jié)果分析發(fā)現(xiàn),改進(jìn)后的算法計算所得的實習(xí)實踐成績的信息增益值為0.360,遠(yuǎn)高于其余屬性的信息增益值,所以“實習(xí)實踐成績”將作為決策樹的根節(jié)點。計算每個分支并根據(jù)信息增益導(dǎo)出下一個決策屬性,通過改進(jìn)后的ID3算法計算信息增益,構(gòu)建了初始決策樹,通過后修剪決策樹的方法,剪枝后的決策樹如下圖2所示:

2.2 規(guī)則提取

決策樹分類規(guī)則的信息表示一般為生成規(guī)則方法,即對生成的決策樹先序遍歷,使用已建立的決策樹,在每個節(jié)點上生成“IF...THEN”規(guī)則。根據(jù)上面生成的決策樹,本文生成以的部分重要分類規(guī)則如下:

(1)IF(實習(xí)實踐成績=“優(yōu)秀”)AND(是否班干部=“是”)THEN Prediction='就業(yè)'Probability=0.673

(2)IF(實習(xí)實踐成績=“優(yōu)秀”)AND(是否班干部!=“是”)AND(學(xué)業(yè)成績=“優(yōu)秀”)THEN Prediction='就業(yè)'Probability=0.860

(3)IF(實習(xí)實踐成績=“優(yōu)秀”)AND(是否班干部!=“是”)AND(學(xué)業(yè)成績=“良好”)THEN Prediction='就業(yè)'Probability=1

(4)IF(實習(xí)實踐成績=“良好”)AND(競賽能力=“強(qiáng)”)THEN Prediction='就業(yè)'Probability=0.848

(5)IF(實習(xí)實踐成績=“良好”)AND(競賽能力=“中”)AND(性別=“男”)THEN Prediction='應(yīng)征入伍'Probability=0.089

(6)IF(實習(xí)實踐成績=“良好”)AND(競賽能力=“弱”)THEN Prediction='升學(xué)'Probability=0.508

(7)IF(實習(xí)實踐成績=“良好”)AND(競賽能力=“弱”)THEN Prediction='就業(yè)'Probability=0.426

(8)IF(實習(xí)實踐成績=“一般”)THEN Prediction=“待就業(yè)” Probability=0.633

從決策樹規(guī)則中可以得出,對于高職院校畢業(yè)生,實習(xí)實踐成績、計算機(jī)水平、專業(yè)課成績、競賽能力和是否班干部對職業(yè)發(fā)展的影響因子比較大,實習(xí)實踐成績、專業(yè)課成績、競賽能力和是否班干部高效的投入力度將對畢業(yè)生的職業(yè)發(fā)展起到極其重要的作用。

2.3 分類規(guī)則驗證

將生成的規(guī)則按照IBMSPSS語法進(jìn)行規(guī)范后,連同驗證數(shù)據(jù)集導(dǎo)入SPSS軟件,通過決策樹分類預(yù)測功能,生成2018屆228條畢業(yè)生的就業(yè)狀態(tài)數(shù)據(jù),預(yù)測結(jié)果保存到畢業(yè)去向字段中。

通過實驗所得預(yù)測結(jié)果如表3所示。將預(yù)測得到的分類結(jié)果與學(xué)生初次就業(yè)情況統(tǒng)計表予以比較,其中正確的記錄有172個,不正確的記錄56條,正確率為75.4%,分類的準(zhǔn)確度還是比較高的,模型可用于對準(zhǔn)畢業(yè)生數(shù)據(jù)進(jìn)行預(yù)測和決策支持。

對預(yù)測結(jié)論和誤差分析,2018屆畢業(yè)生中選擇就業(yè)的人數(shù)大于了70%,為高職畢業(yè)生的發(fā)展主渠道,基本符合實際情況。應(yīng)征入伍預(yù)測為4,屬性對結(jié)果影響較小,很難準(zhǔn)確預(yù)測。升學(xué)人數(shù)誤差較大,這是因為部分學(xué)生會放棄升學(xué)而選擇就業(yè)的情況。而待就業(yè)誤差,主要是因政策原因有業(yè)不就的影響,但隨著甘肅省就業(yè)政策的變動,因各類招考而有業(yè)不就的情況將有所減少。對于預(yù)測結(jié)果為未就業(yè)的學(xué)生,要加大關(guān)注度,從而提高畢業(yè)生的就業(yè)質(zhì)量。

3 職業(yè)發(fā)展決策支持系統(tǒng)的實現(xiàn)

在前文得出模型的基礎(chǔ)上,進(jìn)一步建立決策支持系統(tǒng),針對本文內(nèi)容,經(jīng)過分析系統(tǒng)的需求和功能之后,開發(fā)一個就業(yè)決策支持系統(tǒng),系統(tǒng)中應(yīng)用前文所得決策規(guī)則,實現(xiàn)學(xué)生就業(yè)狀態(tài)的統(tǒng)計和預(yù)測,獲得“職業(yè)生涯預(yù)測”結(jié)果,也可通過學(xué)生或姓名抽取學(xué)生信息,將預(yù)測出個體學(xué)生的就業(yè)狀態(tài),顯示在預(yù)測狀態(tài)欄中,如圖3所示。

4 結(jié)語

本文首先提出了目前高職院校就業(yè)制度的實際情況,然后指出利用決策樹技術(shù)挖掘?qū)W生職業(yè)發(fā)展信息的必要性,完成了問題確定、數(shù)據(jù)收集、集成、清理和轉(zhuǎn)換等一系列的數(shù)據(jù)挖掘和處理任務(wù),并利用改進(jìn)的基于動態(tài)屬性權(quán)值的ID3算法利用生成的決策樹產(chǎn)生的分類規(guī)則,建立就業(yè)狀態(tài)預(yù)測模型,通過在高職院校學(xué)生職業(yè)發(fā)展預(yù)測中的應(yīng)用,并利用信息工程學(xué)院2018屆畢業(yè)生的信息對就業(yè)狀態(tài)預(yù)測模型進(jìn)行驗證。利用所得規(guī)則開發(fā)了職業(yè)發(fā)展決策支持系統(tǒng)。經(jīng)分析驗證,優(yōu)化后的ID3算法——基于動態(tài)屬性權(quán)值的ID3算法應(yīng)用于解決高職院校學(xué)生職業(yè)發(fā)展預(yù)測問題效果良好,所得結(jié)論可為學(xué)院管理者做出合適的決策有所幫助,進(jìn)一步提升職業(yè)生涯指導(dǎo)工作效果。

參考文獻(xiàn):

[1] 孫麗爽.決策樹技術(shù)在高校就業(yè)分析系統(tǒng)中的應(yīng)用[D].西安理工大學(xué),2017.

[2] 武文廷.一種基于動態(tài)屬性權(quán)值的ID3算法改進(jìn)[J].電腦知識與技術(shù),2019(2).

[3] 陰亞芳,孫朝陽.決策樹算法在實踐教學(xué)中的應(yīng)用研究[J].計算機(jī)與數(shù)字工程,2018(06):1078-1088.

【通聯(lián)編輯:代影】

猜你喜歡
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議