劉國強
(蘭州職業(yè)技術(shù)學(xué)院 電子信息工程系, 甘肅 蘭州 730070)
近年來,我國高校畢業(yè)生人數(shù)不斷增加(圖1),2021屆全國普通高校畢業(yè)生總數(shù)更是達(dá)到歷史最高值909萬[1]。隨著畢業(yè)人數(shù)的逐年攀升,就業(yè)壓力更加凸顯。
目前大學(xué)生就業(yè)存在幾個現(xiàn)象:一是“后疫情時代”全國各地尤其是大中城市疫情時有突發(fā),高校畢業(yè)生畢業(yè)找不到工作,畢業(yè)等于失業(yè);二是隨著我國社會人口老齡化,很多行業(yè)人才短缺出現(xiàn)了用工荒;三是我國各地區(qū)經(jīng)濟(jì)發(fā)展不平衡,用工需求不平衡,導(dǎo)致很多畢業(yè)生不知到何處就業(yè),而很多用人單位又找不到所需要的人才;四是我國近幾年大力開展鄉(xiāng)村振興,急需大量的高校畢業(yè)生投入到家鄉(xiāng)建設(shè)中去。解決這些問題需要對影響大學(xué)生就業(yè)的各個方面的數(shù)據(jù)進(jìn)行收集分析,從而為高校畢業(yè)生就業(yè)提供就業(yè)指導(dǎo),為高校教育教學(xué)調(diào)整給出參考數(shù)據(jù),設(shè)計開發(fā)就業(yè)預(yù)測平臺隨之應(yīng)用而生。
圖1 2016—2021年中國高校畢業(yè)生人數(shù)變化趨勢
大數(shù)據(jù)分析和預(yù)測各城市的某職位飽和度,并通過多個角度分析職位熱度,受歡迎度等信息,并以此來觀測某區(qū)域的職位容納、待遇等指標(biāo),預(yù)測其未來的趨勢,為平臺發(fā)布透明的分析結(jié)果,為求職者給予可信的職業(yè)建議。
從2015—2021年中國就業(yè)人員數(shù)據(jù)統(tǒng)計情況表1所示入手,利用大數(shù)據(jù)分析職位給出預(yù)測及建議是一種非常有用且有效的方法。利用Hadoop搭建大數(shù)據(jù)平臺,結(jié)合近兩年新冠肺炎疫情突發(fā)時間地點進(jìn)行分析,并且將其不斷優(yōu)化及改善,為大學(xué)生就業(yè)提供可參考的數(shù)據(jù)。
表1 2015—2021年中國就業(yè)人員數(shù)據(jù)統(tǒng)計情況
在現(xiàn)有的市場中,作為就業(yè)預(yù)測的平臺并不多見,更為平常的則是形如“2020年就業(yè)調(diào)查報告”“2020年就業(yè)形勢分析報告”“2021中國就業(yè)形勢及職業(yè)發(fā)展前景大數(shù)據(jù)分析”這樣的以文本內(nèi)容和邏輯分析為核心的報告說明。在諸如此類的報告中,對于數(shù)據(jù)的把控,以及對求職者的具體需求涉及程度較淺[2]。故本平臺在數(shù)據(jù)存儲的成本相對便宜的前提下,將會爬取大量數(shù)據(jù)進(jìn)行基礎(chǔ)的相關(guān)分析,并進(jìn)行分析結(jié)果的透明展示,以增加可行性以及真實性。
經(jīng)大數(shù)據(jù)的分析,平臺可以將大量的結(jié)果展示給用戶,從而可以讓用戶更為直觀的接收到我們的信息。再對用戶的習(xí)慣,偏好,需求了解的基礎(chǔ)上,可以進(jìn)行一定程度上的定制、具體建議以及相關(guān)的服務(wù),這將有助于提高平臺的用戶轉(zhuǎn)化率。
傳統(tǒng)的就業(yè)分析報告沒有統(tǒng)一的標(biāo)準(zhǔn),某些用語晦澀難懂,并且內(nèi)容繁雜的問題勢必造成不良影響。在將此平臺化之后,各方面的問題將會得到一定程度的解決,將為用戶提供優(yōu)質(zhì)的服務(wù)。平臺將圖形化展示所查詢職業(yè)在各個地區(qū)具體需求情況、工資分布、學(xué)歷要求、經(jīng)驗需求等等,而且通過多元線性回歸模型輸入本人城市、學(xué)歷、經(jīng)驗可預(yù)測薪資等。
利用大數(shù)據(jù)分析職位的數(shù)量,爬取選定的城市或地區(qū)的職位信息,再參考行業(yè)信息、地區(qū)職位飽和度等因素,多維度的分析職位數(shù)據(jù),并以此來評估其接納能力、發(fā)展?jié)摿?、晉升情況等指標(biāo),并且參考評價內(nèi)容來預(yù)測其未來的發(fā)展趨勢給出合理的建議,給用戶提供詳細(xì)的數(shù)據(jù)支撐,為用戶提供最為合理貼心的服務(wù)。
本文所涉及的技術(shù)及平臺:ECS上面的 CentOS、Linux 7.3、Hadoop、JDK 1.8、Echarts。根據(jù)平臺分析,大數(shù)據(jù)分析就業(yè)情況時,結(jié)合用戶因素和具體數(shù)據(jù)等幾大要素,對于用戶或某行業(yè)發(fā)展都具有極大的參考價值。在疫情影響后的就業(yè)整體情況來看,多數(shù)職位都在要求、待遇方面都做出了相應(yīng)的調(diào)整,使其更貼合當(dāng)下趨勢。
總體功能結(jié)構(gòu)圖2所示。
圖2 總體功能結(jié)構(gòu)圖
該平臺主要進(jìn)行數(shù)據(jù)展示、數(shù)據(jù)獲取以及數(shù)據(jù)分析三方面,以確保達(dá)到目的。為了直觀簡潔,我們以網(wǎng)頁為載體進(jìn)行效果呈現(xiàn)。在數(shù)據(jù)獲取方面,主要以爬蟲為主的具體數(shù)據(jù)獲取。數(shù)據(jù)分析方面分為兩個重點:數(shù)據(jù)存儲和Hadoop架構(gòu)的大數(shù)據(jù)分析平臺[3],利用這個平臺將我們的數(shù)據(jù)進(jìn)行清洗得到有價值的數(shù)據(jù),再通過數(shù)據(jù)可視化進(jìn)行呈現(xiàn),最后結(jié)合統(tǒng)計學(xué)知識提取有效信息。
1.數(shù)據(jù)管理設(shè)計
數(shù)據(jù)層面主要涉及到數(shù)據(jù)的爬取、清洗、存儲以及在展示和預(yù)測所需的查詢。系統(tǒng)要求具有海量數(shù)據(jù),在此前提下,盡量保證數(shù)據(jù)的更新。因為少量的數(shù)據(jù)會提升預(yù)測的局限性,過時數(shù)據(jù)將會極大的提升預(yù)測的不確定性。除此之外對數(shù)據(jù)的相應(yīng)處理是必要的,例如:刪除空白數(shù)據(jù)、剔除敏感數(shù)據(jù)、預(yù)測涉及不到的臟數(shù)據(jù)等,處理過后所產(chǎn)生的數(shù)據(jù)才可以提供給預(yù)測作為基本數(shù)據(jù)。大量的數(shù)據(jù)存儲和查詢勢必造成數(shù)據(jù)庫壓力,適當(dāng)?shù)牟捎盟阉饕鎸崿F(xiàn)低延遲的數(shù)據(jù)檢索是解覺該問題的有效方案,故采用基于Lucene的Elasticsearch適合該場景[4]。
2.設(shè)計流程
調(diào)查發(fā)現(xiàn),很多同學(xué)碰到的最大問題是在各類平臺上了解的職位信息較為片面,對于社會反響、滿意度、城市的人員飽和度等因素了解較少,或者根本不了解,因而發(fā)現(xiàn)找到的工作并不滿意等等一系列問題[5],該系統(tǒng)針對這一現(xiàn)象,給同學(xué)們提供最為全面的信息以及未來一段時間的預(yù)測,設(shè)計流程圖3所示。
圖3 設(shè)計流程
3.數(shù)據(jù)庫設(shè)計
本系統(tǒng)涉及到多張表,數(shù)據(jù)職位數(shù)據(jù)存儲設(shè)計到兩張表。一是存放職位數(shù)據(jù)的主表,二是存放城市編號和城市名映射的城市表。
職位數(shù)據(jù)關(guān)系模式:職位信息關(guān)系(work_id,post_name, comp_name, salary, edu,experi, tags,ter_name,id);單個城市編號和城市名映射關(guān)系(id, city_name, city_num)[6]。
4.系統(tǒng)流程圖
通過系統(tǒng)的分析,設(shè)計該系統(tǒng)的流程圖如圖4所示
使用Java語言編寫,以MySQL存儲數(shù)據(jù),以Web應(yīng)用的形式進(jìn)行信息查看,利用大數(shù)據(jù)爬取數(shù)據(jù)、分析數(shù)據(jù)技術(shù)進(jìn)行職業(yè)評估[7]?,F(xiàn)以數(shù)據(jù)分析師中Python崗位為例進(jìn)行分析報告。數(shù)據(jù)來源與51job,實現(xiàn)過程如下:
1.數(shù)據(jù)爬取
分析網(wǎng)頁信息,爬取關(guān)鍵字段信息。
2.對爬取數(shù)據(jù)進(jìn)行清洗,將空缺或雜亂數(shù)據(jù)進(jìn)行處理
選取需要的特征,對數(shù)據(jù)進(jìn)行差分和必要的計算,例如對城市字符串進(jìn)行處理。
3.數(shù)據(jù)分析和可視化,分別進(jìn)行區(qū)域分析;工資情況分析等
圖4 基于JAVA的網(wǎng)絡(luò)爬蟲系統(tǒng)流程圖
由圖5可得結(jié)論:在一線城市中,Python崗位的需求最多,對于想要從事該行業(yè)的,一線城市選擇就業(yè)機(jī)會大,不過人才比較集中,也意味著競爭壓力也較大。
圖5 前五個城市崗位需求量(萬人)
由圖6可得結(jié)論:從總體薪酬可以看出,Python的收入還是可觀的。薪酬主要集中在5k-18k,但也有明顯的斷層,主要分為5k-10k,11K-13K,15K-16K,17K-18K幾個階段,中間有幾個小分水嶺,起薪相對較高,薪酬的提升幅度也很可觀。
圖6 工資分布
由圖7可得結(jié)論:北京的工資最高,其次是上海,杭州,深圳,廣州。
圖7 前五個城市工資比較
由圖8可得結(jié)論:2-3年經(jīng)驗的需求比較大,主要集中在這兩個年限。從這個情況看,雖然該崗位需求大,但是不能盲目轉(zhuǎn)行,畢竟對經(jīng)驗要求比較大。從長遠(yuǎn)看,5年以上經(jīng)驗的需求還是比較少的,10年以上近乎無,可以看出5年這個點是比較關(guān)鍵的,職業(yè)規(guī)劃需要在前幾年做好,盡快提升自己。
圖8 經(jīng)驗要求分布
由圖9可得結(jié)論:Python對本科生的需求最大,其次是大專,其他學(xué)歷需求很少,對于博士需求基本沒有。
圖9 學(xué)歷分布
由圖10可得結(jié)論:隨著工作經(jīng)驗的增加,相應(yīng)的工資也會隨著增加。
由圖11可得出結(jié)論:隨著學(xué)歷的上升,相應(yīng)的工資也會隨著增加。這些均符合我們的常識判斷。
圖10 工作經(jīng)驗與薪酬相關(guān)情況
圖11 學(xué)歷與薪酬相關(guān)情況
4.疫情造成的就業(yè)數(shù)據(jù)分析
新冠疫情突發(fā)以來,對就業(yè)造成了許多不利影響。從國家統(tǒng)計局公布的城鎮(zhèn)失業(yè)率如圖12所示,2019—2020年期間,新冠疫情突發(fā)后就業(yè)總量比突發(fā)前減少約750萬人,我國2019年各月城鎮(zhèn)調(diào)查失業(yè)率均保持在5.0%至5.3%之間。而2020年1月城鎮(zhèn)調(diào)查失業(yè)率同比上升0.2%,自2月起陡升至6.2%同比上升了0.9%,且連續(xù)數(shù)月均維持在6.0%左右的較高水平。預(yù)計2022年我國城鎮(zhèn)失業(yè)率將進(jìn)一步上升[8]。
圖12 2019年1月—2020年5月城鎮(zhèn)失業(yè)率
2020年2月13日,根據(jù)BOSS直聘網(wǎng)發(fā)布的《2020年春節(jié)后十天人才趨勢觀察》顯示,2020年春節(jié)后十天,就業(yè)市場新增招聘需求較2019年同期有明顯的減少,3月以后隨著各地疫情得到控制,就業(yè)需求有明顯的的增加。疫情突發(fā)后企業(yè)的招聘方式發(fā)生了變化如圖13所示。疫情突發(fā)后傳統(tǒng)的招聘方式所占比例有較為明顯的下降,跨區(qū)域的招聘比例下降,現(xiàn)場招聘和校園招聘會比例下降。網(wǎng)上招聘方式和企業(yè)內(nèi)部員工推薦所占比例明顯增大[8]。
圖13 疫情突發(fā)前后企業(yè)招聘渠道變化
5.數(shù)據(jù)分析
通過大學(xué)生就業(yè)預(yù)測平臺對近幾年的大學(xué)生就業(yè)進(jìn)行分析可得出以下參考結(jié)論:
第一,就業(yè)機(jī)會主要集中在一線城市,如上海、深圳、北京等城市;但由于近幾年受到新冠疫情的影響,一線城市疫情爆發(fā)頻率較高,大學(xué)生就業(yè)崗位多但不穩(wěn)定。
第二,崗位的薪資主要集中在5k-18k,中間有幾個小分水嶺,薪資有較大的發(fā)展空間,且一線城市中北京的工資最高,其次是上海,杭州,深圳,廣州。
第三,崗位的經(jīng)驗要求集中在2-3年,該崗位對經(jīng)驗方面比較看重,且工作經(jīng)驗和工資呈正相關(guān)。值得注意的是從長遠(yuǎn)看,5年以上經(jīng)驗的需求還是比較少的,可以看出5年這個時間點是比較關(guān)鍵的,需要做好職業(yè)規(guī)劃。
新冠疫情突發(fā),致使很多就業(yè)崗位不穩(wěn)定。很多大學(xué)畢業(yè)生一邊做著不穩(wěn)定的工作,一邊又要為應(yīng)對隨時到來的失業(yè)做好準(zhǔn)備。在這種情況下,大學(xué)生就業(yè)觀念、就業(yè)意向和態(tài)度都得發(fā)生根本性的轉(zhuǎn)變才能適應(yīng)后疫情時期。針對現(xiàn)在大學(xué)生就業(yè)給出以下幾點建議:
第一,大學(xué)生就業(yè)不能一味的以薪資作為標(biāo)準(zhǔn),更不能扎堆到一線城市;第二,鼓勵大學(xué)生到基層就業(yè);第三鼓勵大學(xué)生創(chuàng)新創(chuàng)業(yè);第四,鼓勵大學(xué)生投身到家鄉(xiāng)建設(shè)中去,為建設(shè)美麗新農(nóng)村做出貢獻(xiàn);第五,對于大學(xué)生來說,一定要行動起來,做好簡歷,找好目標(biāo)崗位和公司,通過多種就業(yè)渠道,加快求職進(jìn)度;第六,新冠疫情期間,很多公司都選擇了遠(yuǎn)程互聯(lián)網(wǎng)辦公的方式,大學(xué)生完全可以選擇居家網(wǎng)絡(luò)就業(yè)的方式來解決工作;第七,建議這段時間加強自身專業(yè)能力,分析下自己到底能力在哪,興趣在哪,為就業(yè)做好準(zhǔn)備。
本平臺開發(fā)過程中,主要遇到3個技術(shù)難點,具體技術(shù)難點及解決方法如下:
本平臺使用的數(shù)據(jù)主要來自各大招聘網(wǎng)站,在爬取數(shù)據(jù)過程中,由于其反扒措施的影響,我們使用了其力度較低的 51job招聘網(wǎng)站和國家統(tǒng)計局網(wǎng)站。在后續(xù)使用過程中,在爬蟲技術(shù)成熟的前提下,可以采用其他的招聘網(wǎng)站,使數(shù)據(jù)更加全面。
在研究數(shù)據(jù)存儲時:頁面數(shù)據(jù)解析,平臺的不同導(dǎo)致了數(shù)據(jù)格式不盡相同(異步數(shù)據(jù)、js數(shù)據(jù)、頁面數(shù)據(jù)),在存儲時不得不提前將數(shù)據(jù)格式進(jìn)行統(tǒng)一,并采用不同的方法進(jìn)行解析數(shù)據(jù),以便于將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫的時候不會發(fā)生錯誤。
WebMagic 強大的頁面抽取API、模塊化的設(shè)計、靈活簡潔嵌入、分布式多線程的支持使其在絕大數(shù)的情況下都可以應(yīng)用,但是并不支持一些特殊資源的爬取,而且在超大數(shù)據(jù)量的爬取情況下,耗時較為嚴(yán)重。在使用過程并結(jié)合其上手難度來說,WebMagic是極為優(yōu)秀的爬蟲框架。
大學(xué)生就業(yè)相關(guān)數(shù)據(jù)只是被相關(guān)人員進(jìn)行簡單的展示和統(tǒng)計,其背后蘊含的寶貴價值并沒有得到最大化的利用,因此這一部分的數(shù)據(jù)需要我們進(jìn)一步的開發(fā)和利用。筆者主要使用大數(shù)據(jù)技術(shù)對后疫情時期大學(xué)生就業(yè)情況數(shù)據(jù)進(jìn)行了分析研究,主要目的是為了給大學(xué)生就業(yè)提供參考建議,助力完善高校就業(yè)指導(dǎo)工作。
蘭州職業(yè)技術(shù)學(xué)院學(xué)報2022年4期