練佳熠,黃婉平
(1.柳州市城市職業(yè)學(xué)院,廣西 柳州 545036;2.柳州市第十二中學(xué),廣西 柳州 545006)
高校畢業(yè)生就業(yè)指導(dǎo)工作一直是關(guān)乎國(guó)家經(jīng)濟(jì)發(fā)展、民生改善和社會(huì)穩(wěn)定的重要工作。為了更好地完成這項(xiàng)工作,高校需要全面了解本校學(xué)生的就業(yè)現(xiàn)狀,深入分析當(dāng)前形勢(shì)下學(xué)生存在的就業(yè)問(wèn)題及其產(chǎn)生的原因。這樣,才能夠有針對(duì)性地為相關(guān)學(xué)生提供全面、及時(shí)、個(gè)性化的就業(yè)信息,幫助其實(shí)現(xiàn)就業(yè)。在實(shí)現(xiàn)高校畢業(yè)生就業(yè)這個(gè)目標(biāo)的過(guò)程中,除了不斷優(yōu)化學(xué)校的就業(yè)管理工作,還需要完善相關(guān)的信息化建設(shè),從中獲取大量精準(zhǔn)有效的數(shù)據(jù)來(lái)協(xié)助就業(yè)工作。
就業(yè)信息缺乏專(zhuān)門(mén)的存儲(chǔ)整合流程,容易導(dǎo)致造成大量數(shù)據(jù)信息丟失。在就業(yè)工作中產(chǎn)生的數(shù)據(jù)通常來(lái)源于就業(yè)信息化系統(tǒng)和文檔收集兩大渠道。其中就業(yè)系統(tǒng)中的數(shù)據(jù)基本都存儲(chǔ)在業(yè)務(wù)數(shù)據(jù)庫(kù)中,通常就業(yè)系統(tǒng)會(huì)每隔幾年便升級(jí)或更換,此時(shí)原有數(shù)據(jù)通常會(huì)因?yàn)檫w移工作的難度造成損失;通過(guò)各種電子文檔收集的就業(yè)信息,也會(huì)因?yàn)楸4娌划?dāng)、人員的變動(dòng)等各種原因隨著時(shí)間的推移而逐漸丟失,使得寶貴的就業(yè)信息資源被浪費(fèi)。
高校各信息系統(tǒng)之間整合困難,就業(yè)系統(tǒng)很難獲取其他系統(tǒng)的數(shù)據(jù)支持。高校信息平臺(tái)缺乏統(tǒng)一的規(guī)劃,各個(gè)部門(mén)雖然都建立了自己的信息平臺(tái),但數(shù)據(jù)標(biāo)準(zhǔn)沒(méi)有統(tǒng)一并且數(shù)據(jù)基本都存在各自的業(yè)務(wù)數(shù)據(jù)庫(kù)中,有效信息相互之間不能實(shí)時(shí)共享,導(dǎo)致信息資源利用率低,無(wú)法對(duì)就業(yè)工作提供有效的支持,造成在工作中對(duì)類(lèi)似數(shù)據(jù)出現(xiàn)重復(fù)獲取的情況,嚴(yán)重影響工作效率和參與者情緒[1]。
隨著時(shí)代的不斷發(fā)展,高校對(duì)就業(yè)工作的要求在不斷提升,不再是過(guò)去的管理好應(yīng)屆畢業(yè)生的就業(yè)就行了,還要從就業(yè)的信息中提煉出對(duì)學(xué)院各層面發(fā)展都有用的信息,但是在智能手機(jī)大量使用的今天,不僅每年數(shù)據(jù)量都在大幅增加,數(shù)據(jù)類(lèi)型也從過(guò)去的一些簡(jiǎn)單數(shù)據(jù)變?yōu)榘纛l、圖表、圖像、視頻等多種類(lèi)型的復(fù)雜數(shù)據(jù)。此時(shí)無(wú)論是以人工方式對(duì)Excel等辦公文檔的分析,還是傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)提供的插入、查詢(xún)、統(tǒng)計(jì)等技術(shù),都無(wú)法發(fā)現(xiàn)隱藏在數(shù)據(jù)中的關(guān)系和規(guī)則,也無(wú)法通過(guò)現(xiàn)在已有的數(shù)據(jù)來(lái)預(yù)測(cè)將來(lái)的發(fā)展趨勢(shì)和挖掘數(shù)據(jù)背后隱藏信息的手段。
由于缺少對(duì)就業(yè)數(shù)據(jù)深入統(tǒng)計(jì)、分析和預(yù)測(cè)的手段,無(wú)法提煉有效信息,當(dāng)前大部分院校的就業(yè)信息工作還是基本停留在對(duì)就業(yè)信息發(fā)布和管理的應(yīng)用層面上,以服務(wù)好應(yīng)屆畢業(yè)生的就業(yè)工作為主要目標(biāo),無(wú)法提供信息去支持學(xué)校發(fā)展、專(zhuān)業(yè)建設(shè)、課程設(shè)計(jì)、教師發(fā)展、在校學(xué)生職業(yè)生涯規(guī)劃和就業(yè)指導(dǎo),使得學(xué)校中存儲(chǔ)的大量就業(yè)數(shù)據(jù)無(wú)法發(fā)揮應(yīng)有的作用[2]。
使用Hadoop生態(tài)圈搭建圖1所示的大數(shù)據(jù)平臺(tái),制定就業(yè)工作的數(shù)據(jù)標(biāo)準(zhǔn)化管理,根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)去采集相應(yīng)的數(shù)據(jù),將數(shù)據(jù)經(jīng)過(guò)清洗處理后,存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)如Hive、HBase中,可以供多個(gè)應(yīng)用系統(tǒng)共享,解決數(shù)據(jù)共享的問(wèn)題,然后通過(guò)對(duì)就業(yè)數(shù)據(jù)的分析,將結(jié)果以決策者最容易理解和接收的方式呈現(xiàn)出來(lái),幫助決策者從多個(gè)角度理解當(dāng)前的就業(yè)情況、發(fā)展趨勢(shì)等,能對(duì)學(xué)校、專(zhuān)業(yè)、課程、學(xué)生的發(fā)展提出指導(dǎo)性建議[3]。
圖1 基于大數(shù)據(jù)的高校就業(yè)決策系統(tǒng)
建立大數(shù)據(jù)平臺(tái)的核心意義是能對(duì)多個(gè)來(lái)源的數(shù)據(jù)進(jìn)行整合并進(jìn)行關(guān)聯(lián)分析,從而避免出現(xiàn)每個(gè)部門(mén)一套數(shù)據(jù),基層教師和學(xué)生疲于應(yīng)付的情況。要實(shí)現(xiàn)這個(gè)目標(biāo),就必須提前制定所有參與方在使用大數(shù)據(jù)平臺(tái)時(shí)都必須遵循的數(shù)據(jù)標(biāo)準(zhǔn)。本平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn)主要針對(duì)平臺(tái)內(nèi)的底層數(shù)據(jù)相關(guān)要素進(jìn)行規(guī)范,包含數(shù)據(jù)資源和數(shù)據(jù)交換共享2個(gè)部分,其中數(shù)據(jù)資源包括元數(shù)據(jù)、數(shù)據(jù)元素、數(shù)據(jù)字典和數(shù)據(jù)目錄等,數(shù)據(jù)交換共享包括數(shù)據(jù)交易和數(shù)據(jù)開(kāi)放共享相關(guān)標(biāo)準(zhǔn)。
在本系統(tǒng)中,首先根據(jù)教育部、教育廳等上級(jí)部門(mén)對(duì)就業(yè)工作的要求去制定基礎(chǔ)業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn),再結(jié)合本校的就業(yè)工作特色,制定適合本校就業(yè)工作的數(shù)據(jù)標(biāo)準(zhǔn),這樣就可以約定數(shù)據(jù)在采集、預(yù)處理、存儲(chǔ)、分析、可視化和應(yīng)用等流程需要遵循的數(shù)據(jù)標(biāo)準(zhǔn),在系統(tǒng)中實(shí)現(xiàn)數(shù)據(jù)身份的識(shí)別,提高數(shù)據(jù)共享和復(fù)用的質(zhì)量。
這一階段的主要工作是將物理上存儲(chǔ)在各處的就業(yè)數(shù)據(jù)提取出來(lái),實(shí)現(xiàn)數(shù)據(jù)的邏輯集中,從而成為一個(gè)統(tǒng)一的視圖,解決以往多系統(tǒng)分散建設(shè)無(wú)法數(shù)據(jù)整合的問(wèn)題。由于原始數(shù)據(jù)種類(lèi)多樣,格式、位置、存儲(chǔ)、時(shí)效性等迥異,該階段的重點(diǎn)是如何從異構(gòu)數(shù)據(jù)源中收集數(shù)據(jù)并轉(zhuǎn)換成相應(yīng)的格式進(jìn)行處理。
首先是確定數(shù)據(jù)的種類(lèi),就業(yè)數(shù)據(jù)的來(lái)源主要包含就業(yè)系統(tǒng)在內(nèi)的校內(nèi)信息系統(tǒng)的數(shù)據(jù)庫(kù)、日志和接口數(shù)據(jù)等,外部信息系統(tǒng)的數(shù)據(jù)和其他信息技術(shù)手段如Excel、Word等收集的就業(yè)數(shù)據(jù)[4]。
接下來(lái)需要根據(jù)不同的數(shù)據(jù)源采用相應(yīng)的采集方法,對(duì)于信息系統(tǒng)里的數(shù)據(jù)庫(kù),可以使用sqoop組件,該組件是一款開(kāi)源的工具,可以在Hadoop與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)間進(jìn)行大量數(shù)據(jù)的傳遞,通過(guò)它可以將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS上,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中;信息系統(tǒng)中的相關(guān)日志,通常以log文件或是通過(guò)HTTP接口傳遞出去,可以通過(guò)flume組件進(jìn)行實(shí)時(shí)采集。flume是一個(gè)高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),通過(guò)它可以高效率地將多個(gè)信息系統(tǒng)中采集到相關(guān)的日志或接口數(shù)據(jù),并配合Kafka進(jìn)行實(shí)時(shí)數(shù)據(jù)處理。其他信息技術(shù)手段如Excel、Word等電子文檔的數(shù)據(jù),一般是根據(jù)臨時(shí)增加的就業(yè)業(yè)務(wù)編寫(xiě)和收集的,也可以是其他系統(tǒng)如釘釘、智慧校園等導(dǎo)出的數(shù)據(jù)形式,是就業(yè)工作中常見(jiàn)的辦公形式,如果不進(jìn)行歸檔則很容易造成數(shù)據(jù)流失,這類(lèi)數(shù)據(jù)也必須存儲(chǔ)到大數(shù)據(jù)平臺(tái)中,通常使用Python技術(shù)按照數(shù)據(jù)標(biāo)準(zhǔn)從這些文檔中提取有用的數(shù)據(jù)再存儲(chǔ)到大數(shù)據(jù)平臺(tái)中[5]。
在圖2中,對(duì)上述采集的數(shù)據(jù)進(jìn)行舉例說(shuō)明。大數(shù)據(jù)平臺(tái)中的基礎(chǔ)性數(shù)據(jù)如學(xué)生基本信息、課程成績(jī)、就業(yè)崗位信息等,通常存儲(chǔ)在學(xué)工管理系統(tǒng)和就業(yè)系統(tǒng)的數(shù)據(jù)庫(kù)中,應(yīng)該設(shè)計(jì)一個(gè)固定的周期,定時(shí)將這些數(shù)據(jù)庫(kù)存儲(chǔ)的相關(guān)數(shù)據(jù)通過(guò)sqoop組件導(dǎo)入到大數(shù)據(jù)平臺(tái)的存儲(chǔ)組件中;對(duì)于一些實(shí)時(shí)變動(dòng)的數(shù)據(jù),如學(xué)生的就業(yè)崗位實(shí)時(shí)信息,數(shù)據(jù)量一般比較小且變化頻繁,sqoop組件就不適用了,此時(shí)可以在就業(yè)系統(tǒng)開(kāi)發(fā)一個(gè)就業(yè)崗位變動(dòng)的業(yè)務(wù)日志,通過(guò)flume組件實(shí)時(shí)監(jiān)控這個(gè)業(yè)務(wù)日志文件,當(dāng)日志文件添加了新的信息時(shí),flume組件就會(huì)采集新增的數(shù)據(jù)到大數(shù)據(jù)平臺(tái)中進(jìn)行處理。
圖2 針對(duì)學(xué)生就業(yè)崗位信息的數(shù)據(jù)采集
采集的數(shù)據(jù)一般并不能夠直接使用,除了要將無(wú)效的數(shù)據(jù)刪除,還需要根據(jù)業(yè)務(wù)需要對(duì)數(shù)據(jù)進(jìn)行變形與增強(qiáng)再進(jìn)行使用。在圖2的例子中,通過(guò)sqoop采集到的學(xué)生基礎(chǔ)數(shù)據(jù),因?yàn)槭侵苯訌臄?shù)據(jù)庫(kù)中導(dǎo)入,數(shù)據(jù)的格式、種類(lèi)和數(shù)量通常不能直接在大數(shù)據(jù)平臺(tái)中使用,需要進(jìn)行相應(yīng)處理,如將學(xué)生信息表中的班級(jí)和輔導(dǎo)員外鍵編號(hào)替換為班級(jí)名稱(chēng)和輔導(dǎo)員名稱(chēng);通過(guò)flume采集的實(shí)時(shí)數(shù)據(jù)一般是json格式的,需要結(jié)合Kafka將json格式進(jìn)行轉(zhuǎn)換和處理后再使用。
大數(shù)據(jù)平臺(tái)常見(jiàn)的存儲(chǔ)組件是HDFS、Hive、HBase和Kafka,可以將采集的數(shù)據(jù)根據(jù)業(yè)務(wù)需求選擇相應(yīng)的存儲(chǔ)組件和處理方式。
HDFS是Hadoop的分布式文件系統(tǒng),可以部署在廉價(jià)的機(jī)器上,通過(guò)多個(gè)服務(wù)器的集群實(shí)現(xiàn)高吞吐量的數(shù)據(jù)訪(fǎng)問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用,適合存儲(chǔ)視頻文件、海量文檔等超大文件,可以將采集到的數(shù)據(jù)存儲(chǔ)到HDFS上,不僅效率更高還可以保證數(shù)據(jù)的可靠性。
Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,通常用于保存采集到的關(guān)系型數(shù)據(jù),然后可以通過(guò)HQL語(yǔ)句進(jìn)行離線(xiàn)查詢(xún)分析。例如圖2中通過(guò)sqoop導(dǎo)入的學(xué)生基本數(shù)據(jù)如畢業(yè)生基本信息、課程成績(jī)、在校表現(xiàn)情況、公司信息、歷史就業(yè)數(shù)據(jù)等,一般存儲(chǔ)在Hive中。如果需要對(duì)數(shù)據(jù)進(jìn)行分析,例如需要分析學(xué)生在校的專(zhuān)業(yè)成績(jī)和專(zhuān)業(yè)對(duì)口率之間的關(guān)系,可以通過(guò)HQL語(yǔ)句或是按照相應(yīng)算法編寫(xiě)mapreduce程序進(jìn)行處理。
Kafka是高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),適合于存儲(chǔ)和處理高吞吐量的流式數(shù)據(jù),如學(xué)生的登錄日志、實(shí)習(xí)簽到日志、學(xué)生的實(shí)時(shí)就業(yè)/離職日志等,還可以通過(guò)Kafka Streaming或Spark Streaming來(lái)對(duì)Kafka中的流式數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。例如圖2中通過(guò)flume導(dǎo)入的學(xué)生實(shí)時(shí)就業(yè)崗位變動(dòng)信息,可以先存儲(chǔ)在Kfaka中,通過(guò)Spark或Storm進(jìn)行實(shí)時(shí)處理和分析得出結(jié)果。
HBase是適合實(shí)時(shí)存儲(chǔ)大量數(shù)據(jù)的數(shù)據(jù)庫(kù),可以將主數(shù)據(jù)、部分被頻繁使用或有實(shí)時(shí)性需要的數(shù)據(jù)存儲(chǔ)到這里,例如學(xué)生的賬號(hào)信息、實(shí)時(shí)就業(yè)信息、公司的招聘信息等,基于大數(shù)據(jù)平臺(tái)的業(yè)務(wù)系統(tǒng)可以通過(guò)根據(jù)需要實(shí)時(shí)查詢(xún)、更新、分析HBase中的相關(guān)數(shù)據(jù),如果數(shù)據(jù)量太大,可以選擇Spark集群來(lái)進(jìn)行實(shí)時(shí)分析處理或是MapReduce進(jìn)行離線(xiàn)處理。例如,圖2中通過(guò)sqoop導(dǎo)入的學(xué)生基本數(shù)據(jù)中需要用于應(yīng)用系統(tǒng)作為交換數(shù)據(jù),例如就業(yè)崗位數(shù)據(jù),可以存儲(chǔ)在HBase中;通過(guò)flume采集到的實(shí)時(shí)崗位變動(dòng)信息,可以在處理后存儲(chǔ)到HBase中,再結(jié)合學(xué)生的基礎(chǔ)數(shù)據(jù)和原有崗位數(shù)據(jù),可以生成完整且實(shí)時(shí)的學(xué)生就業(yè)信息崗位表,提供給上層系統(tǒng)使用。
在大多數(shù)院校的信息系統(tǒng)中,僅僅是對(duì)數(shù)據(jù)進(jìn)行了簡(jiǎn)單的統(tǒng)計(jì)和展示,用匯報(bào)的方式將數(shù)據(jù)交給決策者,然后讓決策者去分析和處理數(shù)據(jù),期待其找出存在的問(wèn)題,結(jié)果反而讓決策者迷失在海量的數(shù)據(jù)中。在本平臺(tái)當(dāng)中,強(qiáng)調(diào)的是信息對(duì)使用者的價(jià)值,從業(yè)務(wù)角度對(duì)數(shù)據(jù)進(jìn)行分析,然后將結(jié)果以使用者最容易理解和接收的形式呈現(xiàn)出來(lái),下面將通過(guò)2個(gè)案例進(jìn)行展示。
2.5.1 就業(yè)駕駛艙
圖3是構(gòu)建方案中供決策者看的就業(yè)駕駛艙,管理者可從多個(gè)角度查看當(dāng)前的就業(yè)形勢(shì)。最中間的儀表盤(pán)是學(xué)院當(dāng)前的就業(yè)率,左側(cè)儀表盤(pán)是已工作但是未簽約學(xué)生比例,右側(cè)的上半部分是即將就業(yè)的學(xué)生比例,右側(cè)的下半部分是即將離職的學(xué)生比例。通過(guò)這個(gè)駕駛艙,決策者不僅可以了解當(dāng)前的就業(yè)率,也可以預(yù)測(cè)到將來(lái)的就業(yè)率是朝著什么方向發(fā)展。例如已工作未簽約的比例或預(yù)計(jì)就業(yè)的比例較高時(shí),意味著就業(yè)率在未來(lái)會(huì)進(jìn)一步提升;預(yù)計(jì)離職的比例較高,未來(lái)就業(yè)率就會(huì)下降。在這樣的數(shù)據(jù)支撐下做決策將更有效率、更加準(zhǔn)確。
圖3 就業(yè)駕駛艙
2.5.2 學(xué)生崗位預(yù)測(cè)
將該生的當(dāng)前的基本信息、課程信息等特征,歷屆學(xué)生的特征和就業(yè)信息等數(shù)據(jù),通過(guò)隨機(jī)森林決策樹(shù)、貝葉斯模型、GBDT等算法進(jìn)行分析和預(yù)測(cè),得到該生的崗位預(yù)測(cè)情況。這樣不僅可以對(duì)學(xué)生的職業(yè)規(guī)劃起指導(dǎo)作用,同時(shí)學(xué)生如果對(duì)崗位預(yù)測(cè)不滿(mǎn)意,也可以及時(shí)調(diào)整自己的校園規(guī)劃來(lái)實(shí)現(xiàn)崗位目標(biāo)。學(xué)生崗位預(yù)測(cè)如圖4所示。
圖4 學(xué)生崗位預(yù)測(cè)
如何促進(jìn)大學(xué)生就業(yè)是當(dāng)前高校關(guān)注的一個(gè)重點(diǎn)問(wèn)題,關(guān)系到高校教育持續(xù)健康的發(fā)展?;诖髷?shù)據(jù)的高校就業(yè)決策系統(tǒng),通過(guò)大數(shù)據(jù)平臺(tái)和就業(yè)信息的數(shù)據(jù)標(biāo)準(zhǔn)化管理,將各平臺(tái)資源進(jìn)行整合,對(duì)數(shù)據(jù)進(jìn)行深入分析和可視化展示,能有效提高就業(yè)信息的時(shí)效性和價(jià)值性,不僅幫助高校就業(yè)工作更有效地開(kāi)展,還能實(shí)時(shí)反饋信息供學(xué)校各專(zhuān)業(yè)更好地根據(jù)當(dāng)前的就業(yè)形勢(shì)進(jìn)行調(diào)整,有助于培養(yǎng)更符合社會(huì)和時(shí)代要求的優(yōu)秀學(xué)生,對(duì)高校就業(yè)工作信息化建設(shè)有較大的意義。