摘 要:近年來(lái),隨著大數(shù)據(jù)技術(shù)的應(yīng)用普及,大數(shù)據(jù)正在改變各行業(yè)的發(fā)展。在教育領(lǐng)域,大數(shù)據(jù)技術(shù)在解決畢業(yè)生就業(yè)“難”和教育數(shù)據(jù)“閑置”問(wèn)題方面產(chǎn)生了巨大的作用。本文在大數(shù)據(jù)時(shí)代背景下,使用Visual FoxPro開發(fā)了關(guān)聯(lián)規(guī)則興趣度挖掘工具,并使用該工具對(duì)影響學(xué)生就業(yè)的各項(xiàng)事務(wù)進(jìn)行挖掘分析,找出影響就業(yè)的原因,為及時(shí)調(diào)整就業(yè)指導(dǎo)提供依據(jù)。
關(guān)鍵詞:大數(shù)據(jù);關(guān)聯(lián)規(guī)則;興趣度;就業(yè)策略
中圖分類號(hào):TP311.1 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-1472(2018)-11-25-03
1 引言(Introduction)
隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,大數(shù)據(jù)逐漸被應(yīng)用于各行各業(yè)發(fā)展中,使用大數(shù)據(jù)技術(shù)采集和分析用戶活動(dòng)信息數(shù)據(jù),掌握用戶行為動(dòng)態(tài)和愛好,為用戶提供便捷的服務(wù)。利用大數(shù)據(jù)技術(shù)對(duì)畢業(yè)生就業(yè)相關(guān)事務(wù)數(shù)據(jù)進(jìn)行詳細(xì)的統(tǒng)計(jì)分析,找出影響畢業(yè)生就業(yè)的因素,及時(shí)調(diào)整就業(yè)策略,為畢業(yè)生順利就業(yè)創(chuàng)造條件,切實(shí)提高就業(yè)率和就業(yè)質(zhì)量。
2008年9月,《Nature》首次發(fā)布“大數(shù)據(jù)”專欄,引發(fā)了學(xué)術(shù)界對(duì)大數(shù)據(jù)的關(guān)注。當(dāng)前“大數(shù)據(jù)”已成網(wǎng)絡(luò)熱點(diǎn),受到了各界高度關(guān)注,作為信息社會(huì)發(fā)展的新事物,大數(shù)據(jù)正在逐步被認(rèn)識(shí)和應(yīng)用,大數(shù)據(jù)及時(shí)、高效、多樣、量大及應(yīng)用廣泛的特點(diǎn)得到了各領(lǐng)域一致認(rèn)可。麥肯錫全球研究所指出:“大數(shù)據(jù)是超出傳統(tǒng)數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)等能力的數(shù)據(jù)集,并不是大于一定數(shù)量的數(shù)據(jù)。因?yàn)殡S著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)標(biāo)準(zhǔn)也會(huì)增加,不同行業(yè)標(biāo)準(zhǔn)也會(huì)發(fā)生變化”。
隨著高等學(xué)校的發(fā)展和入學(xué)人數(shù)的增加,畢業(yè)生人數(shù)從2000年的107萬(wàn)增加到2018年的820萬(wàn),畢業(yè)生就業(yè)“難”的問(wèn)題已成為學(xué)校必須面對(duì)的嚴(yán)峻挑戰(zhàn)。同時(shí),學(xué)校使用的各種信息管理軟件在日常教學(xué)、管理和就業(yè)工作中積累了大量的管理數(shù)據(jù),這些數(shù)據(jù)沒(méi)有被利用,處在“閑置”狀態(tài)。為了解決畢業(yè)生就業(yè)“難”和教育數(shù)據(jù)“閑置”的問(wèn)題,學(xué)??墒褂么髷?shù)據(jù)技術(shù)對(duì)學(xué)生的個(gè)人、學(xué)習(xí)、就業(yè)等數(shù)據(jù)進(jìn)行分析研究,找出影響就業(yè)的因素,及時(shí)調(diào)整就業(yè)指導(dǎo)和教育策略,引導(dǎo)學(xué)生順利就業(yè)。
如今,大數(shù)據(jù)應(yīng)用工具普遍存在,許多大數(shù)據(jù)工具都是在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上開發(fā)的。目前對(duì)數(shù)據(jù)挖掘技術(shù)的討論尚未過(guò)時(shí),研究數(shù)據(jù)挖掘技術(shù)是為了更好地利用大數(shù)據(jù)奠定基礎(chǔ)。關(guān)聯(lián)規(guī)則興趣度挖掘正好能將“閑置”教育數(shù)據(jù)用起來(lái),為學(xué)校各項(xiàng)教育決策服務(wù)。
2 關(guān)聯(lián)規(guī)則挖掘及興趣度(Association rule mining and interestingness)
2.1 關(guān)聯(lián)規(guī)則挖掘
R.A Grawal等人在1993年的SIGMOD會(huì)議上提出了關(guān)聯(lián)規(guī)則挖掘,并將其定義為:設(shè)I={i1,i2,…,in}是項(xiàng)集,D是事務(wù)集,T是I上子集,TI,TID是單個(gè)事務(wù),則關(guān)聯(lián)規(guī)則表示為XY,其中XI,YI且XY=,X叫做規(guī)則的條件,Y叫做規(guī)則的結(jié)果[1]。
為了提高關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確性,引入了計(jì)算式為(1)和(2)的兩個(gè)參數(shù),它們分別叫做支持度(S)和置信度(C)。
其中,D表示事務(wù)數(shù)據(jù)庫(kù),N表示事務(wù)數(shù)的總和,而Count(X)表示事務(wù)X的發(fā)生次數(shù),Count(X∪Y)表示事務(wù)X和Y同時(shí)發(fā)生的次數(shù)。支持度S是事務(wù)X發(fā)生的頻度,置信度C是事務(wù)X出現(xiàn)時(shí)事務(wù)Y發(fā)生的頻度。
2.2 興趣度
在關(guān)聯(lián)規(guī)則挖掘中,僅使用支持S和置信度C的兩個(gè)參數(shù)來(lái)測(cè)量規(guī)則的價(jià)值,會(huì)導(dǎo)致部分強(qiáng)關(guān)聯(lián)規(guī)則無(wú)使用價(jià)值。當(dāng)最小支持閾值和最小置信度閾值太小時(shí),會(huì)生成沖突規(guī)則;當(dāng)太大時(shí),會(huì)遺漏有意義的規(guī)則[2]。因此,提出了一種新的度量關(guān)聯(lián)度規(guī)則挖掘參數(shù)——興趣度,用來(lái)彌補(bǔ)支持度與置信度的缺陷,提高數(shù)據(jù)挖掘結(jié)果的價(jià)值。
目前,現(xiàn)成的關(guān)聯(lián)規(guī)則挖掘興趣度模型很多,有概率興趣度模型、Symth函數(shù)興趣度模型、Gini指標(biāo)興趣度模型、Piantesky-Shapiro興趣度模型、基于差異思想的興趣度模型等[3]。本文將使用一種由文獻(xiàn)[4]提出的興趣度模型,具體描述如下:
設(shè)I={i1,i2,…,in}是項(xiàng)目集,D是事務(wù)數(shù)據(jù)庫(kù),關(guān)聯(lián)規(guī)則XY的興趣度由(3)式計(jì)算,興趣度值越大關(guān)聯(lián)規(guī)則挖掘結(jié)果越有趣越具有參考價(jià)值[5]。
3 關(guān)聯(lián)規(guī)則興趣度挖掘(Interestingness mining of association rules implementation)
3.1 數(shù)據(jù)準(zhǔn)備
挖掘?qū)ο笾饕褂萌雽W(xué)數(shù)據(jù)、學(xué)業(yè)成績(jī)數(shù)據(jù)和就業(yè)數(shù)據(jù),通過(guò)篩選、合并等將這些數(shù)據(jù)組合成二維表,并進(jìn)行預(yù)處理。預(yù)處理后的就業(yè)事務(wù)數(shù)據(jù)表結(jié)構(gòu)見表1所示。
3.2 算法實(shí)現(xiàn)
就業(yè)事務(wù)挖掘工具使用FoxPro作為后臺(tái)數(shù)據(jù)庫(kù)管理工具,以Visual FoxPro 6.0作為系統(tǒng)開發(fā)平臺(tái)。
3.2.1 數(shù)據(jù)庫(kù)實(shí)現(xiàn)
就業(yè)事務(wù)表包括學(xué)號(hào)、性別、專業(yè)、高考成績(jī)、學(xué)業(yè)成績(jī)、就業(yè)地區(qū)類型、單位性質(zhì)等七個(gè)屬性,其結(jié)構(gòu)見表2所示。
3.2.2 關(guān)聯(lián)規(guī)則挖掘的實(shí)現(xiàn)
就業(yè)事務(wù)挖掘工具的操作對(duì)象是就業(yè)事務(wù)數(shù)據(jù),以文本的形式產(chǎn)生關(guān)聯(lián)規(guī)則,格式為:屬性A……→屬性B…興趣度:I。
關(guān)聯(lián)規(guī)則挖掘算法由編程工具Visual FoxPro實(shí)現(xiàn),其算法流程圖見圖1所示。
4 關(guān)聯(lián)規(guī)則興趣度挖掘結(jié)果分析(Analysis of association rules interestingness mining results)
4.1 挖掘結(jié)果顯示
根據(jù)預(yù)先設(shè)定的興趣度閾值,顯示滿足條件的規(guī)則,其挖掘界面如圖2所示。詳細(xì)規(guī)則顯示如下:
規(guī)則1 性別=男→單位性質(zhì)=黨政機(jī)關(guān) 興趣度:2
規(guī)則2 性別=男→單位性質(zhì)=地方基層項(xiàng)目 興趣度:2
規(guī)則3 性別=男→單位性質(zhì)=高等教育單位 興趣度:2
規(guī)則4 性別=男→單位性質(zhì)=國(guó)有企業(yè) 興趣度:2
規(guī)則5 性別=男→單位性質(zhì)=應(yīng)征入伍 興趣度:7
規(guī)則6 性別=男→單位性質(zhì)=自主創(chuàng)業(yè) 興趣度:3
規(guī)則7 性別=男→就業(yè)地區(qū)類型=非生源地就業(yè) 興趣度:2
規(guī)則8 性別=女→就業(yè)地區(qū)類型=生源地就業(yè) 興趣度:1
規(guī)則9 專業(yè)=初等教育→單位性質(zhì)=國(guó)家基層項(xiàng)目 興趣度:36
規(guī)則10 專業(yè)=會(huì)計(jì)→單位性質(zhì)=事業(yè)單位 興趣度:31
規(guī)則11 專業(yè)=計(jì)算機(jī)多媒體技術(shù)→單位性質(zhì)=自主創(chuàng)業(yè) 興趣度:56
規(guī)則12 專業(yè)=計(jì)算機(jī)應(yīng)用技術(shù)→單位性質(zhì)=醫(yī)療衛(wèi)生單位 興趣度:30
規(guī)則13 專業(yè)=歷史教育→單位性質(zhì)=應(yīng)征入伍 興趣度:368
規(guī)則14 專業(yè)=美術(shù)教育→單位性質(zhì)=升學(xué) 興趣度:33
規(guī)則15 專業(yè)=社區(qū)管理與服務(wù)→單位性質(zhì)=事業(yè)單位 興趣度:37
規(guī)則16 專業(yè)=生物教育→單位性質(zhì)=升學(xué) 興趣度:81
規(guī)則17 專業(yè)=體育教育→單位性質(zhì)=地方基層項(xiàng)目 興趣度:32
規(guī)則18 專業(yè)=體育教育→單位性質(zhì)=自主創(chuàng)業(yè) 興趣度:64
規(guī)則19 專業(yè)=物理教育→單位性質(zhì)=國(guó)家基層項(xiàng)目 興趣度:30
規(guī)則20 專業(yè)=音樂(lè)教育→單位性質(zhì)=升學(xué) 興趣度:39
規(guī)則21 專業(yè)=會(huì)計(jì)電算化→就業(yè)地區(qū)類型=生源地就業(yè) 興趣度:23
規(guī)則22 專業(yè)=歷史教育→就業(yè)地區(qū)類型=生源地就業(yè) 興趣度:35
規(guī)則23 專業(yè)=學(xué)前教育→就業(yè)地區(qū)類型=生源地就業(yè) 興趣度:20
規(guī)則24 高考成績(jī)=一般→單位性質(zhì)=黨政機(jī)關(guān) 興趣度:1
規(guī)則25 高考成績(jī)=一般→單位性質(zhì)=地方基層項(xiàng)目 興趣度:1
規(guī)則26 高考成績(jī)=一般→單位性質(zhì)=國(guó)家基層項(xiàng)目 興趣度:4
規(guī)則27 高考成績(jī)=一般→單位性質(zhì)=應(yīng)征入伍 興趣度:1
規(guī)則28 高考成績(jī)=優(yōu)良→單位性質(zhì)=高等教育單位 興趣度:1
規(guī)則29 高考成績(jī)=優(yōu)良→單位性質(zhì)=國(guó)有企業(yè) 興趣度:1
規(guī)則30 高考成績(jī)=優(yōu)良→單位性質(zhì)=私有企業(yè) 興趣度:1
規(guī)則31 高考成績(jī)=一般→就業(yè)地區(qū)類型=生源地就業(yè) 興趣度:2
規(guī)則32 高考成績(jī)=優(yōu)良→就業(yè)地區(qū)類型=非生源地就業(yè) 興趣度:2
規(guī)則33 學(xué)業(yè)成績(jī)=一般→單位性質(zhì)=黨政機(jī)關(guān) 興趣度:2
規(guī)則34 學(xué)業(yè)成績(jī)=一般→單位性質(zhì)=地方基層項(xiàng)目 興趣度:2
規(guī)則35 學(xué)業(yè)成績(jī)=一般→單位性質(zhì)=自主創(chuàng)業(yè) 興趣度:3
規(guī)則36 學(xué)業(yè)成績(jī)=優(yōu)良→單位性質(zhì)=升學(xué) 興趣度:2
規(guī)則37 學(xué)業(yè)成績(jī)=一般→就業(yè)地區(qū)類型=生源地就業(yè) 興趣度:1
規(guī)則38 學(xué)業(yè)成績(jī)=優(yōu)良→就業(yè)地區(qū)類型=非生源地就業(yè) 興趣度:1
4.2 挖掘結(jié)果分析
關(guān)聯(lián)規(guī)則興趣度挖掘主要任務(wù)是找出就業(yè)事務(wù)中各數(shù)據(jù)項(xiàng)間的關(guān)系,更好地服務(wù)于學(xué)校就業(yè)指導(dǎo)工作。對(duì)38條挖掘結(jié)果作進(jìn)一步分析得出如下結(jié)論:
第一,規(guī)則1—6只顯示了男生的就業(yè)領(lǐng)域,而沒(méi)有顯示女生的,說(shuō)明男生就業(yè)范圍比女生大。因此,學(xué)校相關(guān)就業(yè)管理部門要加大對(duì)女生的就業(yè)范圍宣傳和就業(yè)考試輔導(dǎo),擴(kuò)大女生就業(yè)面。
第二,從規(guī)則7—8可看出,男生主要在非生源地就業(yè),而女生則主要在生源地就業(yè)。說(shuō)明男生就業(yè)區(qū)域更廣,而女生則正好相反,主要在生源地區(qū)(家鄉(xiāng))就業(yè)。因此,學(xué)校要針對(duì)性的對(duì)女生進(jìn)行就業(yè)思想觀念教育,鼓勵(lì)其到非生源地就業(yè),擴(kuò)大就業(yè)區(qū)域范圍。
第三,從規(guī)則9—20可看出,各專業(yè)畢業(yè)生就業(yè)主要分布在升學(xué)、國(guó)家或地方項(xiàng)目、事業(yè)單位、自主創(chuàng)業(yè)等方面。因此,學(xué)校要加強(qiáng)就業(yè)宣傳,引進(jìn)私有企業(yè)等單位到校招聘畢業(yè)生。
第四,從規(guī)則21—23可看出,顯示了三個(gè)專業(yè)的就業(yè)地區(qū)類型都為“生源地就業(yè)”。由此可推斷出,各專業(yè)畢業(yè)生主要就業(yè)地區(qū)為生源地。所以,學(xué)校要通過(guò)教育改變學(xué)生的就業(yè)觀念,鼓勵(lì)到非生源地就業(yè),擴(kuò)大就業(yè)區(qū)域范圍。
第五,從規(guī)則24—30可看出,高考成績(jī)“一般”和“優(yōu)秀”的學(xué)生在各種企業(yè)單位基本都有就業(yè)。所以,高考分?jǐn)?shù)高低對(duì)于學(xué)生就業(yè)的單位沒(méi)有太大影響。
第六,從規(guī)則31、32可看出,高考成績(jī)“一般”的學(xué)生主要回生源地就業(yè),而高考成績(jī)“優(yōu)秀”的學(xué)生主要在非生源地就業(yè)。因此,學(xué)校要引導(dǎo)高考成績(jī)“一般”的學(xué)生去非生源地就業(yè),引導(dǎo)高考成績(jī)“優(yōu)良”的學(xué)生回生源地就業(yè),擴(kuò)大畢業(yè)生就業(yè)區(qū)域范圍。
第七,從規(guī)則33—36可看出,在校期間學(xué)習(xí)成績(jī)“一般”的學(xué)生就業(yè)領(lǐng)域?yàn)辄h政機(jī)關(guān)、地方基層項(xiàng)目、自主創(chuàng)業(yè)等,在校期間學(xué)習(xí)成績(jī)“優(yōu)良”的學(xué)生主要出路為升學(xué)。由此可知,在校期間學(xué)習(xí)成績(jī)“一般”的學(xué)生就業(yè)領(lǐng)域更廣,而學(xué)習(xí)成績(jī)“優(yōu)良”的學(xué)生更適合考試升學(xué)進(jìn)修。因此,學(xué)校要對(duì)學(xué)習(xí)成績(jī)一般的學(xué)生加強(qiáng)考試輔導(dǎo),引導(dǎo)其參加升學(xué)考試;對(duì)學(xué)習(xí)成績(jī)較好的學(xué)生除了繼續(xù)進(jìn)行升學(xué)考試輔導(dǎo)外,還要引導(dǎo)其向其他領(lǐng)域就業(yè),促進(jìn)各領(lǐng)域均衡就業(yè)。
第八,從規(guī)則37、38可看出,在校期間學(xué)習(xí)成績(jī)“一般”的學(xué)生主要回生源地就業(yè),而在校期間學(xué)習(xí)成績(jī)“優(yōu)良”的學(xué)生主要去非生源地就業(yè)。由此可知,在校期間學(xué)習(xí)成績(jī)好的學(xué)生更有“闖勁”,敢于挑戰(zhàn)陌生環(huán)境。由此,學(xué)校要對(duì)學(xué)習(xí)成績(jī)一般的學(xué)生開展就業(yè)觀念教育,引導(dǎo)他們?nèi)シ巧吹鼐蜆I(yè)。
5 結(jié)論(Conclusion)
本文在大數(shù)據(jù)時(shí)代背景下對(duì)關(guān)聯(lián)規(guī)則興趣度挖掘在畢業(yè)生就業(yè)分析中的應(yīng)用進(jìn)行了研究,把興趣度引入了數(shù)據(jù)分析中,提高了數(shù)據(jù)挖掘結(jié)果的使用價(jià)值。使用Visual FoxPro開發(fā)的數(shù)據(jù)挖掘工具對(duì)學(xué)生就業(yè)各項(xiàng)事務(wù)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則興趣度挖掘分析,找到各事務(wù)間存在的聯(lián)系,對(duì)學(xué)校開展就業(yè)管理工作具有重要意義。同時(shí)為學(xué)校利用大數(shù)據(jù)技術(shù)分析就業(yè)數(shù)據(jù)增添了新的思路,為學(xué)校就業(yè)管理工作者開展工作提供新的依據(jù)。
參考文獻(xiàn)(References)
[1] Jiawei Han,Micheline Kamber[加].范明,孟小峰,譯.數(shù)據(jù)挖掘概念及技術(shù)[M].北京:機(jī)械工業(yè)出版,2008:147-154.
[2] 董輝.基于興趣度的高職課程關(guān)聯(lián)規(guī)則挖掘[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,2012,33(3):41-46.
[3] 吳杰.基于興趣度的關(guān)聯(lián)規(guī)則挖掘[D].哈爾濱工業(yè)大學(xué),2009:41-42.
[4] 李永立,吳沖,王崑聲.一種新的關(guān)聯(lián)規(guī)則興趣度度量方法[J].情報(bào)科學(xué),2011,30(5):503-507.
[5] 李佐軍.基于關(guān)聯(lián)規(guī)則興趣度的課程設(shè)置研究[J].大理學(xué)院學(xué)報(bào),2014,6:20-23.
作者簡(jiǎn)介:
李佐軍(1980-),男,碩士,副教授.研究領(lǐng)域:數(shù)據(jù)挖掘,大數(shù)據(jù)應(yīng)用技術(shù).