宋 夏
(淮北職業(yè)技術(shù)學(xué)院 建筑工程系,安徽 淮北 235000)
爬蟲算法在淮北職業(yè)技術(shù)學(xué)院就業(yè)指導(dǎo)系統(tǒng)中的應(yīng)用研究
宋 夏
(淮北職業(yè)技術(shù)學(xué)院 建筑工程系,安徽 淮北 235000)
目前,由于高校擴(kuò)招,高校畢業(yè)生逐年增加,就業(yè)難的問題逐漸凸顯?;幢甭殬I(yè)技術(shù)學(xué)院每年面臨20%的學(xué)生難就業(yè)的問題。另外,該校的就業(yè)指導(dǎo)系統(tǒng)不完善,無法滿足就業(yè)處進(jìn)行就業(yè)預(yù)測(cè),制定科學(xué)就業(yè)指導(dǎo)方案的需要。運(yùn)用決策樹算法構(gòu)建就業(yè)分析模型,并進(jìn)行進(jìn)一步的驗(yàn)證,可以改進(jìn)就業(yè)指導(dǎo)系統(tǒng),提高就業(yè)指導(dǎo)工作效率。
爬蟲技術(shù);就業(yè)指導(dǎo)系統(tǒng);決策樹算法
海量信息的涌現(xiàn)和科學(xué)技術(shù)的不斷進(jìn)步,越來越多的行業(yè)開始運(yùn)用爬蟲技術(shù)進(jìn)行數(shù)據(jù)挖掘。網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,是一個(gè)從互聯(lián)網(wǎng)中自動(dòng)抓取網(wǎng)頁的程序。[1]2016年高效畢業(yè)生人數(shù)達(dá)到765萬,大學(xué)生就業(yè)壓力大、找工作難成為一大困境。[2]對(duì)于高校來說,畢業(yè)學(xué)生信息數(shù)據(jù)龐大,利用簡單的搜索、查詢難以滿足大量信息的處理需要。爬蟲技術(shù)能夠按照一定的順序爬取相關(guān)的信息,并且能夠?qū)λ鸭男畔⑦M(jìn)行數(shù)據(jù)處理。因此,很多高校也在逐漸引進(jìn)數(shù)字挖掘技術(shù)并運(yùn)用到學(xué)校的日常管理工作中,利用數(shù)字挖掘技術(shù)有針對(duì)性地分析學(xué)生和用人單位的信息,為高效人才培養(yǎng)計(jì)劃的制定提供數(shù)據(jù)支持。目前,數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,爬蟲策略的廣泛應(yīng)用,相關(guān)研究人員開發(fā)了一系列的算法。其中,決策樹算法能夠?qū)崿F(xiàn)對(duì)于數(shù)據(jù)的自動(dòng)歸類,以樹形的形態(tài)進(jìn)行呈現(xiàn)。該算法具備其他算法所不具有的直觀性、易學(xué)性以及快速性等優(yōu)點(diǎn)。利用決策樹算法進(jìn)行數(shù)據(jù)預(yù)測(cè),可以幫助高職畢業(yè)生規(guī)避就業(yè)風(fēng)險(xiǎn),正確認(rèn)識(shí)自身價(jià)值,同時(shí)能夠?yàn)楦咝I(yè)設(shè)置、培養(yǎng)方案制定以及就業(yè)指導(dǎo)提供科學(xué)的依據(jù)。[3]
淮北職業(yè)技術(shù)學(xué)院是1999年7月經(jīng)國家教育部批準(zhǔn)的公辦全日制普通高等學(xué)校。學(xué)院高度重視畢業(yè)生就業(yè)工作,以社會(huì)就業(yè)形勢(shì)為風(fēng)向標(biāo),以人才的高質(zhì)量輸出為己任,對(duì)于學(xué)生的實(shí)習(xí)、技能培訓(xùn)以及就業(yè)指導(dǎo)等提供全方位的支持和幫助,為學(xué)生高質(zhì)量就業(yè)創(chuàng)造良好的條件。盡管淮北職業(yè)技術(shù)學(xué)院的就業(yè)工作取得了很大的進(jìn)展,但是由于各種主客觀原因的影響,每年仍有20%以上同學(xué)處于待就業(yè)或者“慢就業(yè)”狀態(tài)。
1.1 淮北職業(yè)技術(shù)學(xué)院就業(yè)情況
1.1.1 畢業(yè)生概況
淮北職業(yè)技術(shù)學(xué)院2016屆畢業(yè)生共有3067人,其中高職(統(tǒng)招)畢業(yè)生人數(shù)2892人,中專部(“3+2”及五年一貫制)畢業(yè)生人數(shù)175人,分屬41專業(yè)。2016屆畢業(yè)生男女比例約為1:1.47,女生人數(shù)偏多,主要集中在適合女生性別優(yōu)勢(shì)的專業(yè),如護(hù)理、空乘、財(cái)會(huì)、服裝等,這些專業(yè)所在系部的招生規(guī)模也比較大。該院畢業(yè)生以漢族生源居多且多為省內(nèi)生源,省內(nèi)省外比例約為59:1,省內(nèi)生源以淮北市生源最多,占省內(nèi)生源的36.77%,淮北與省內(nèi)其他城市生源比例約為1:1.72,省內(nèi)其他城市的生源也多為淮北周邊城市,如宿州、亳州、阜陽等。由此可見,淮北職業(yè)技術(shù)學(xué)院生源多來自以院校所在地——淮北為核心的皖北地區(qū)。2016屆畢業(yè)生具體情況如表1所示。
表1 2016屆畢業(yè)生概況
1.1.2 畢業(yè)生就業(yè)情況
截至2016年12月底,淮北職業(yè)技術(shù)學(xué)院2016屆已就業(yè)畢業(yè)生為2685人,就業(yè)率為87.54%。2016屆畢業(yè)生流向主要集中在衛(wèi)生和社會(huì)工作、制造業(yè)、居民服務(wù)、修理和其他服務(wù)業(yè)、建筑業(yè)、信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)等行業(yè),充分體現(xiàn)出學(xué)院以機(jī)械制造、金融商貿(mào)、電子信息等作為主干專業(yè)的特點(diǎn)。畢業(yè)生所從事的職業(yè)多為各類技術(shù)人員、業(yè)務(wù)人員、服務(wù)人員和操作人員;所從業(yè)的單位也多為城鎮(zhèn)社區(qū)、中小微企業(yè)等,與畢業(yè)生專業(yè)和學(xué)歷相吻合,充分體現(xiàn)國家對(duì)職業(yè)院校畢業(yè)生面向基層就業(yè)的號(hào)召。但由于各種主客觀原因,有20%以上同學(xué)處于待就業(yè)或者“慢就業(yè)”狀態(tài)。其中非困難生的就業(yè)率要低于困難生的就業(yè)率,占87.27%。
1.2 淮北職業(yè)技術(shù)學(xué)院學(xué)生就業(yè)存在的問題
第一,對(duì)于就業(yè)指導(dǎo)老師而言,信息采集工作困難,就業(yè)指導(dǎo)系統(tǒng)落后,缺乏先進(jìn)的數(shù)據(jù)挖掘技術(shù)來提高就業(yè)指導(dǎo)工作的效率。
第二,對(duì)于學(xué)生本身而言,很多學(xué)生好高騖遠(yuǎn)、眼高手低,對(duì)工作標(biāo)準(zhǔn)要求過高,難以溝通疏導(dǎo)。
面對(duì)學(xué)生的信息采集工作費(fèi)時(shí)費(fèi)力的現(xiàn)狀,就業(yè)指導(dǎo)老師很難通過人工采集的方式來全面搜集學(xué)生的信息,也無法精確地為學(xué)生匹配相應(yīng)的崗位信息。因此,需要借助于有針對(duì)性、高效的計(jì)算機(jī)技術(shù)建立高效的就業(yè)信息服務(wù)平臺(tái)來解決“慢就業(yè)”和“難就業(yè)”問題。
2.1 數(shù)據(jù)挖掘的決策樹技術(shù)
決策樹方法是數(shù)據(jù)挖掘的核心技術(shù)之一。[4]作為一種預(yù)測(cè)模型,該算法能夠呈現(xiàn)對(duì)象屬性和對(duì)象值之間的對(duì)應(yīng)聯(lián)系。在決策樹模型當(dāng)中,節(jié)點(diǎn)代表對(duì)象,分叉代表對(duì)應(yīng)的對(duì)象值,葉節(jié)點(diǎn)所關(guān)聯(lián)的是從根節(jié)點(diǎn)到葉節(jié)點(diǎn)對(duì)應(yīng)的對(duì)象值。決策樹是數(shù)據(jù)挖掘技術(shù)中的一種典型的技術(shù),不僅能夠?qū)?shù)據(jù)進(jìn)行分析,還可以通過數(shù)據(jù)分析進(jìn)行預(yù)測(cè)。
2.2 C5.0算法
C5.0決策樹算法是從跟節(jié)點(diǎn)不斷地分枝生長,該根節(jié)點(diǎn)包含了所有訓(xùn)練集數(shù)據(jù),并最終將所有訓(xùn)練集數(shù)據(jù)歸到某一葉節(jié)點(diǎn)。該算法中,最為關(guān)鍵的問題是選取最佳的分類變量與切分點(diǎn)。
在經(jīng)典的ID3決策樹算法中,最佳分類變量是根據(jù)信息增益來選取的。信息增益即是信息熵,用來衡量系統(tǒng)的不確定性大小,信息增益越大,即信息熵越小,表明系統(tǒng)不確定性越低,反之,信息增益越小,則信息熵越大,表明系統(tǒng)不確定性越高。所以,在構(gòu)建決策樹的時(shí)候如果選取某一分類變量時(shí)使得相應(yīng)的信息增益率增大,則表明分類與預(yù)測(cè)效果越好。在本章節(jié)的研究中,采用C5.0算法來構(gòu)建決策樹的時(shí)候便是依據(jù)信息增益率來確定最優(yōu)的分類變量。信息增益率的數(shù)學(xué)公式如下:
其中,InfoGainRation(A)即是決策樹的信息增益率,而InfoGain(A)即是決策樹的信息增益。一般來說,信息增益難以評(píng)估決策樹分類變量選取的優(yōu)劣,主要是因?yàn)槿菀资艿椒纸M變量劃分?jǐn)?shù)目的影響與干擾,如當(dāng)類目數(shù)增加時(shí)會(huì)導(dǎo)致信息增益增加,影響分組變量選取的正確性。因此,本文中選取信息增益率來代替信息增益,保證分組變量的選取更加準(zhǔn)確。
同分組變量的選取一樣,劃分點(diǎn)的選取也依據(jù)信息增益率。由于C5.0算法生成的是二叉樹,所以優(yōu)化劃分點(diǎn)的選取時(shí)將數(shù)據(jù)一分為二。在構(gòu)建決策樹的過程中,計(jì)算不同的分類變量與切分點(diǎn)組合下的信息增益率,并將信息增益率取最大值的分類變量與切分點(diǎn)視作最優(yōu)。
2.3 就業(yè)分析模型構(gòu)建與結(jié)果分析
用C5.0算法進(jìn)行分析要經(jīng)過三個(gè)環(huán)節(jié),首先是數(shù)據(jù)的選取階段,然后就業(yè)分析模型構(gòu)建,最后對(duì)模型加以驗(yàn)證,對(duì)結(jié)果進(jìn)行評(píng)估。
2.3.1 數(shù)據(jù)選取
數(shù)據(jù)準(zhǔn)備階段比較重要,因?yàn)閿?shù)據(jù)的質(zhì)量會(huì)最終影響模型的構(gòu)建及結(jié)果的輸出。在大學(xué)生就業(yè)分析模型中,選取淮北職業(yè)技術(shù)學(xué)院3年來共計(jì)12450名畢業(yè)生的相關(guān)數(shù)據(jù)信息作為研究樣本。
但是,在學(xué)校教學(xué)管理系統(tǒng)的就業(yè)管理模塊中存儲(chǔ)的原始數(shù)據(jù)的維度屬性太多。考慮到不相關(guān)屬性約簡與冗余屬性約簡,最后選取了畢業(yè)生的個(gè)人基本情況、在校表現(xiàn)以及就業(yè)意向三個(gè)方面的16個(gè)屬性,包括性別、政治情況、專業(yè)分?jǐn)?shù)、期望月薪、就業(yè)單位性質(zhì)等。其中,以就業(yè)單位類型為標(biāo)識(shí)屬性,剩下的則是決策屬性。屬性名和對(duì)應(yīng)類型如表2所示:
表2 屬性名以及類型
屬性名類型類別離散值所學(xué)專業(yè)名離散值所學(xué)專業(yè)分?jǐn)?shù)連續(xù)值家庭經(jīng)濟(jì)狀況離散值身高連續(xù)值特長離散值學(xué)校職務(wù)離散值獎(jiǎng)勵(lì)離散值技能證書離散值就業(yè)意向離散值期望月薪連續(xù)值就業(yè)地區(qū)離散值就業(yè)單位類型離散值
其中,部分樣本數(shù)據(jù)如表3所示:
表3 部分樣本數(shù)據(jù)集
由于樣本數(shù)據(jù)無法直接用來建模,還需要進(jìn)行相應(yīng)的預(yù)處理,即數(shù)據(jù)離散化與分層處理,主要采用分箱、直方圖分析以及直觀劃分等。對(duì)專業(yè)分?jǐn)?shù)、身高、期望月薪三個(gè)屬性進(jìn)行離散化處理后,結(jié)果如表4至表6示:
表4 專業(yè)分?jǐn)?shù)離散化處理
表5 身高離散化處理
表6 期望月薪離散化處理
而對(duì)于其他屬性則按期不同類別來賦予相應(yīng)的標(biāo)簽化數(shù)值,如表7至表9所示:
表7 就業(yè)單位性質(zhì)離散化處理
表8 個(gè)人特長離散化處理
表9 政治面貌離散化處理
采取上述方法對(duì)數(shù)據(jù)進(jìn)行處理化之后,即轉(zhuǎn)化為計(jì)算機(jī)語言可以識(shí)別的知識(shí),其中部分樣本數(shù)據(jù)經(jīng)過數(shù)據(jù)處理之后如表10所示:
表10 離散化處理后的部分樣本數(shù)據(jù)集
2.3.2 就業(yè)分析模型
本實(shí)驗(yàn)旨在通過升級(jí)后的決策樹算法對(duì)于就業(yè)單位類型進(jìn)行預(yù)測(cè),接著對(duì)該預(yù)測(cè)模型加以測(cè)試,查看其是否準(zhǔn)確。實(shí)驗(yàn)主要有三個(gè)步驟:第一,構(gòu)建就業(yè)單位類型預(yù)測(cè)模型;第二,對(duì)比預(yù)測(cè)結(jié)果與實(shí)際的樣本數(shù)據(jù);第三,對(duì)預(yù)測(cè)結(jié)果進(jìn)行分析。其中,將12450名畢業(yè)生的相關(guān)數(shù)據(jù)分為兩份,8300份為訓(xùn)練數(shù)據(jù)集,用來學(xué)習(xí)與構(gòu)建決策樹,而4150份為測(cè)試數(shù)據(jù)集,用來評(píng)估模型的準(zhǔn)確率。
由于樣本數(shù)據(jù)維度比較大,所構(gòu)建的決策樹分支較多,不能一一羅列,所以這里將以專業(yè)成績?yōu)榻Y(jié)點(diǎn)的分支為例,對(duì)其挖掘的結(jié)果進(jìn)行分析。其中,該決策樹分支如圖1所示:
圖1 決策樹部分分支結(jié)構(gòu)
現(xiàn)將上述決策樹得到的推理結(jié)果轉(zhuǎn)換為IF…THEN的形式,其中部分結(jié)果如下所示:
IF“專業(yè)分?jǐn)?shù)=優(yōu)” and “所學(xué)專業(yè)名=生物工程”and“獎(jiǎng)勵(lì)=國家獎(jiǎng)學(xué)金”THEN“讀書深造”。
IF“專業(yè)分?jǐn)?shù)=優(yōu)” and “所學(xué)專業(yè)名=生物工程”and “獎(jiǎng)勵(lì)=無” and “個(gè)人特長=文藝” THEN “事業(yè)單位”。
IF“專業(yè)分?jǐn)?shù)=優(yōu)” and “所學(xué)專業(yè)名=生物工程”and “獎(jiǎng)勵(lì)=無” and “個(gè)人特長=無” and “技能證書=無” THEN“私營企業(yè)”。
IF“專業(yè)分?jǐn)?shù)=中” and “所學(xué)專業(yè)名=計(jì)算機(jī)” and “期望月薪=6000以上” THEN “私營企業(yè)”。
IF“專業(yè)分?jǐn)?shù)=中” and “所學(xué)專業(yè)名=計(jì)算機(jī)” and “期望月薪=6000以上”and “就業(yè)意向=區(qū)內(nèi)”THEN “私營企業(yè)”。
IF“專業(yè)分?jǐn)?shù)=中” and “所學(xué)專業(yè)名=計(jì)算機(jī)” and “期望月薪=3500-4000” and “就業(yè)意向=區(qū)內(nèi)” THEN “國有企業(yè)”。
IF“專業(yè)分?jǐn)?shù)=中” and “所學(xué)專業(yè)名=汽車服務(wù)” and “學(xué)校職務(wù)=無” and “就業(yè)意向=區(qū)內(nèi)” THEN “國有企業(yè)”。
IF“專業(yè)分?jǐn)?shù)=中” and “所學(xué)專業(yè)名=汽車服務(wù)” and “學(xué)校職務(wù)=無” and “就業(yè)意向=區(qū)內(nèi)” THEN “合資企業(yè)”。
通過對(duì)決策樹所提供的規(guī)則進(jìn)行深入分析,能對(duì)學(xué)生的就業(yè)規(guī)律有清晰的認(rèn)識(shí),如專業(yè)成績優(yōu),在校期間獲得過國家獎(jiǎng)學(xué)金,則多為選擇升學(xué)深造;若成績?yōu)榱蓟蛘咧?,專業(yè)偏理科,就業(yè)意向?yàn)閰^(qū)內(nèi),則大部分選擇公務(wù)員或者事業(yè)單位;若專業(yè)成績中等,專業(yè)為工科,在校期間擔(dān)任過學(xué)生干部,則多數(shù)選擇了國有企業(yè);若專業(yè)為計(jì)算機(jī),意向月薪為6000以上,就業(yè)意向?yàn)閰^(qū)內(nèi),則多數(shù)選了私營企業(yè)等等。
同時(shí)從相關(guān)規(guī)則的分析中可以發(fā)現(xiàn),影響學(xué)生就業(yè)單位選擇的關(guān)鍵外因在于學(xué)生的專業(yè)分?jǐn)?shù)、所學(xué)專業(yè)名、獎(jiǎng)勵(lì)、學(xué)校職務(wù)、就業(yè)意向、意向月薪等。所以,對(duì)于學(xué)生的就業(yè)率和就業(yè)質(zhì)量的提高,高校應(yīng)著重培養(yǎng)學(xué)生的專業(yè)技能,并對(duì)學(xué)生的就業(yè)觀念加以引導(dǎo)。
2.3.3 結(jié)果評(píng)估
在上述決策樹模型與相應(yīng)的推理規(guī)則之后,為了驗(yàn)證其有效性與準(zhǔn)確性,我們采用之前劃分出來的測(cè)試集樣本對(duì)上述模型進(jìn)行測(cè)試。在這里用預(yù)測(cè)準(zhǔn)確率來衡量算法的優(yōu)劣,其中預(yù)測(cè)準(zhǔn)確率=對(duì)比結(jié)果一致的樣本數(shù)/測(cè)試集總樣本數(shù)。首先,將得到的部分預(yù)測(cè)分類結(jié)果和實(shí)際就業(yè)結(jié)果進(jìn)行對(duì)比,具體情況如表11所示:
表11 部分預(yù)測(cè)結(jié)果與實(shí)際結(jié)果對(duì)比表
從上面部分測(cè)試結(jié)果來看,十位學(xué)生就業(yè)單位預(yù)測(cè)中有8位是正確的,2位為預(yù)測(cè)錯(cuò)誤。此外,統(tǒng)計(jì)所有測(cè)試數(shù)據(jù)集的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果,其中4150個(gè)樣本數(shù)據(jù)中預(yù)測(cè)準(zhǔn)確的共計(jì)3527,預(yù)測(cè)錯(cuò)誤的是598,即模型的準(zhǔn)確率為84.9%(表12):
表12 就業(yè)預(yù)測(cè)模型準(zhǔn)確率
根據(jù)上面的驗(yàn)證結(jié)果,發(fā)現(xiàn)所構(gòu)建的學(xué)生就業(yè)分析模型準(zhǔn)確度較高,具有非常大的參考價(jià)值,能夠?yàn)橹笇?dǎo)大學(xué)生進(jìn)行職業(yè)規(guī)劃提高決策支持。
隨著爬蟲的研究不斷深入,爬行策略與算法也在不斷完善,爬蟲技術(shù)對(duì)于收集信息方面的應(yīng)用也日趨廣泛。[5-6]利用決策樹算法能夠提高爬蟲程序的爬取準(zhǔn)確率。[7]本文結(jié)合了淮北職業(yè)技術(shù)學(xué)院的就業(yè)現(xiàn)狀,運(yùn)用決策樹算法創(chuàng)建大學(xué)生就業(yè)分析模型,并以大學(xué)生成績與就業(yè)信息為數(shù)據(jù)來源進(jìn)行實(shí)證研究,驗(yàn)證了模型的有效性。通過該算法能夠分析出專業(yè)分?jǐn)?shù)、獎(jiǎng)勵(lì)、就業(yè)意向等因素對(duì)于學(xué)生的就業(yè)選擇的影響最大,因此能夠?yàn)楦咝U猩蜆I(yè)處工作人員提供就業(yè)指導(dǎo)依據(jù),提高就業(yè)指導(dǎo)決策的效率,促進(jìn)學(xué)生就業(yè)率的提升。
[1] 田俊. 淺談主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)[J]. 天津職業(yè)院校聯(lián)合學(xué)報(bào),2017(3):78-85.
[2] 韓冰. 基于數(shù)據(jù)挖掘的就業(yè)困難學(xué)生認(rèn)定研究[J]. 中國大學(xué)生就業(yè),2017(1):44-50.
[3] 王彥新,王紅. 用大數(shù)據(jù)助推高職畢業(yè)生就業(yè)難題化解的研究[J]. 辦公自動(dòng)化,2016(7):26-28.
[4] 劉哲,趙志剛. 數(shù)據(jù)挖掘技術(shù)在大學(xué)生就業(yè)分析中的實(shí)證研究[J]. 沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016(1):105-108.
[5] 于娟,劉強(qiáng). 主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 計(jì)算機(jī)工程與科學(xué),2015(2):231-237.
[6] Houqing Lu,Donghui Zhan,Lei Zhou,etc.An Improved Focused Crawler:Using Web Page Classification and Link Priority Evaluation[J].Mathematical Problems in Engineering,2016(3).
[7] Ali Seyfi,Ahmed Patel,Joaquim Celestino Júnior. Empirical evaluation of the link and content-based focused Treasure-Crawler[J]. Computer Standards & Interfaces,2016(44).
責(zé)任編輯:何玉付
2017-07-01
宋夏(1987—),女,安徽淮北人,助教,研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。
TP315;G718.5
:A
:1671-8275(2017)05-0136-05