摘? 要:網(wǎng)絡(luò)招聘已成為市場招聘的主流方式,網(wǎng)絡(luò)招聘的崗位數(shù)據(jù)可以反映市場對人才的真實需求。為培養(yǎng)社會需要的人才,高校普遍對網(wǎng)絡(luò)招聘的大數(shù)據(jù)分析需求強(qiáng)烈,但往往受到技術(shù)條件與成本的困擾。云計算的普惠發(fā)展,為高校的崗位招聘需求大數(shù)據(jù)分析提供了便利。文章通過對網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)進(jìn)行需求分析,依托阿里云數(shù)加,設(shè)計并實現(xiàn)了網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng),助力高校人才培養(yǎng)內(nèi)容優(yōu)化。
關(guān)鍵詞:阿里云數(shù)加;網(wǎng)絡(luò)招聘;大數(shù)據(jù)分析
Abstract:Online recruitment has become the mainstream way of market recruitment,and the job data of online recruitment can reflect the real demand for talents in the market. In order to cultivate talents needed by society,colleges and universities generally have a strong demand for big data analysis of online recruitment,but they are often troubled by technical conditions and costs. The inclusive development of cloud computing has facilitated big data analysis of job recruitment needs in universities. Based on the demand analysis of the online recruitment big data analysis system,and relying on Alibaba cloud data plus,the article designs and implements the online recruitment big data analysis system to help optimize the content of talent training in universities.
Keywords:Alibaba cloud data plus;online recruitment;big data analysis
0? 引? 言
大數(shù)據(jù)在化解大學(xué)生就業(yè)困難具有重要作用[1]。高校應(yīng)對照崗位職業(yè)素質(zhì)要求,構(gòu)建學(xué)生綜合素質(zhì)培養(yǎng)體系,才能提升學(xué)生的職業(yè)綜合素質(zhì)[2]。對高校教學(xué)工作者而言,其對網(wǎng)絡(luò)招聘文本數(shù)據(jù)的分析需求是強(qiáng)烈的。但是網(wǎng)絡(luò)招聘數(shù)據(jù)體量巨大,且處于不斷更新中。數(shù)據(jù)的獲取需要實現(xiàn)自動化、周期性執(zhí)行,需要流式的大數(shù)據(jù)分析技術(shù)支持。云計算發(fā)展帶來的普惠性,較好地彌補(bǔ)了高職院校的大數(shù)據(jù)分析底層技術(shù)支持不足,依托云計算數(shù)據(jù)分析產(chǎn)品進(jìn)行網(wǎng)絡(luò)招聘數(shù)據(jù)的分析成為可能。本文基于作者主持的“依托阿里云DataWorks的大數(shù)據(jù)分析技術(shù)在高職實訓(xùn)教學(xué)質(zhì)量監(jiān)控中的應(yīng)用研究及實踐”(重慶市教育教學(xué)改革項目)項目研究,設(shè)計并實現(xiàn)了依托阿里云數(shù)加的網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)。
阿里云大數(shù)據(jù)平臺簡稱數(shù)加,是阿里云計算的普惠大數(shù)據(jù)產(chǎn)品,旗下包含一系列的大數(shù)據(jù)產(chǎn)品及服務(wù),極大地方便了教學(xué)研究人員,在大數(shù)據(jù)時代快速擁有企業(yè)級大數(shù)據(jù)分析條件[3]。阿里云數(shù)加平臺數(shù)據(jù)開發(fā)套件包括:
(1)大數(shù)據(jù)開發(fā):集成可視化開發(fā)環(huán)境,可實現(xiàn)數(shù)據(jù)開發(fā)、調(diào)度、部署、運(yùn)維,及數(shù)據(jù)倉庫設(shè)計、數(shù)據(jù)質(zhì)量管理等功能;
(2)報表工具:海量數(shù)據(jù)的實時在線分析、豐富的可視化效果,所見即所得;
(3)機(jī)器學(xué)習(xí)工具:集數(shù)據(jù)處理、特征工程、建模、離線預(yù)測為一體的機(jī)器學(xué)習(xí)平臺,提供算法匯集,可視化編輯。
1? 網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)需求分析
網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)的功能需求主要包括網(wǎng)絡(luò)招聘大數(shù)據(jù)自動化獲取需求、網(wǎng)絡(luò)招聘大數(shù)據(jù)的分析需求、網(wǎng)絡(luò)招聘大數(shù)據(jù)分析結(jié)果的展示需求。
1.1? 網(wǎng)絡(luò)招聘大數(shù)據(jù)自動化獲取需求
網(wǎng)絡(luò)招聘大數(shù)據(jù)從主流互聯(lián)網(wǎng)招聘網(wǎng)站獲得。為了使數(shù)據(jù)反映市場真實情況,數(shù)據(jù)應(yīng)盡可能全面詳盡,但互聯(lián)網(wǎng)招聘網(wǎng)站的信息往往存在過期機(jī)制,即一段時間后該招聘信息可能不再存在。這也就意味著一次性的獲取歷史招聘數(shù)據(jù)是不可行的,網(wǎng)絡(luò)招聘數(shù)據(jù)獲取需要持續(xù)進(jìn)行,必須依靠爬取程序自動化周期性進(jìn)行。
因此,需要一個統(tǒng)一的招聘數(shù)據(jù)結(jié)構(gòu)模式,統(tǒng)一不同數(shù)據(jù)來源的招聘數(shù)據(jù)。同時,需要實現(xiàn)一個容錯機(jī)制好、可持續(xù)運(yùn)行的爬蟲。此外,在保證低頻次爬取數(shù)據(jù)的同時,也需要準(zhǔn)備一個代理IP池,保證數(shù)據(jù)爬取效率。原始數(shù)據(jù)獲取后,進(jìn)行簡單加工即可提供給大數(shù)據(jù)分析平臺進(jìn)行分析。
1.2? 網(wǎng)絡(luò)招聘大數(shù)據(jù)的分析需求
網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)需從兩方面對數(shù)據(jù)進(jìn)行分析:
(1)通過統(tǒng)計月度崗位招聘的發(fā)布數(shù)與薪酬范圍,反應(yīng)崗位招聘需求趨勢;
(2)通過對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析,提取崗位技能關(guān)鍵詞,反映市場中崗位重要技能點。由于數(shù)據(jù)量較大,大數(shù)據(jù)分析平臺需要能夠支持此類大規(guī)模文本數(shù)據(jù)的分析,并提供文本分析中常用的分詞、關(guān)鍵詞提取、相似度計算等模塊。
1.3? 網(wǎng)絡(luò)招聘大數(shù)據(jù)分析結(jié)果的展示需求
為了更加直觀的展示網(wǎng)絡(luò)招聘大數(shù)據(jù)分析結(jié)果以方便教學(xué)工作者的理解與使用,網(wǎng)絡(luò)招聘數(shù)據(jù)分析結(jié)果需要采用圖表方式進(jìn)行展示,且提供各崗位的查詢。對崗位招聘的招聘數(shù)量需求與薪酬趨勢,宜采用折線圖方式呈現(xiàn);對崗位技能關(guān)鍵詞,采用詞云圖方式展示。
2? 網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)設(shè)計
2.1? 總體設(shè)計
網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)主要包含數(shù)據(jù)采集、數(shù)據(jù)加工與分析、數(shù)據(jù)展現(xiàn)三大部分。數(shù)據(jù)采集部分使用容器服務(wù)編排構(gòu)建Python爬蟲與MongoDB服務(wù);數(shù)據(jù)加工與分析部分采用DataWorks中的數(shù)據(jù)集成服務(wù)同步數(shù)據(jù),使用其配套的MaxCompute與機(jī)器學(xué)習(xí)PAI服務(wù)進(jìn)行數(shù)據(jù)分析;數(shù)據(jù)展現(xiàn)使用QuickBI的可視化圖表模板實現(xiàn)。總體設(shè)計如圖1所示。
2.2? 數(shù)據(jù)采集設(shè)計
為了方便異常日志查詢與服務(wù)的快速重建,本文基于容器服務(wù)采用容器方式運(yùn)行Python爬蟲、IP代理池服務(wù)、MongoDB數(shù)據(jù)庫。MongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫,內(nèi)核由C++語言編寫,可提供可擴(kuò)展的高性能數(shù)據(jù)存儲解決方案[4]。采集到網(wǎng)絡(luò)招聘原始數(shù)據(jù)采用MongoDB存儲,核心字段如表1所示。
2.3? 數(shù)據(jù)加工與分析設(shè)計
爬蟲采集后的原始數(shù)據(jù),由數(shù)據(jù)集成服務(wù),定時同步到MaxCompute數(shù)據(jù)表中。依托MaxCompute與機(jī)器學(xué)習(xí)PAI服務(wù),構(gòu)建統(tǒng)計月度崗位招聘的發(fā)布數(shù)與薪酬范圍以及對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析任務(wù),合理規(guī)劃調(diào)度執(zhí)行。
統(tǒng)計月度崗位招聘的發(fā)布數(shù)與薪酬范圍的工作流任務(wù)中,需要將薪酬范圍數(shù)據(jù)字段、學(xué)歷要求、發(fā)布日期等進(jìn)行加工,通過SQL完成拆分、合并等。然后按崗位、月份在MaxCompute中聚合數(shù)據(jù),形成崗位的月度招聘發(fā)布數(shù)以及薪酬范圍統(tǒng)計。
對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析任務(wù),需要對崗位需求的描述文本進(jìn)行文本分析,主要采用機(jī)器學(xué)習(xí)PAI完成。在分析之前,要通過文本合并、摘要提取、子句劃分、文本過濾等方式進(jìn)行數(shù)據(jù)加工。
2.4? 數(shù)據(jù)展現(xiàn)設(shè)計
數(shù)據(jù)展現(xiàn)采用的是阿里云QuickBI,其是一個基于云計算的靈活的輕量級的自助BI工具服務(wù)平臺。針對本文中數(shù)據(jù)分析目標(biāo),QuickBI主要提供崗位查詢、崗位月度招聘趨勢數(shù),崗位月度薪酬范圍趨勢圖以及崗位需求的關(guān)鍵技能點云圖。
3? 網(wǎng)絡(luò)招聘大數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)
3.1? 數(shù)據(jù)集成
將數(shù)據(jù)采集后存儲到的MongoDB數(shù)據(jù)庫設(shè)置為數(shù)據(jù)源,再創(chuàng)建數(shù)據(jù)同步任務(wù)。MongoDB數(shù)據(jù)庫的數(shù)據(jù)同步不支持向?qū)J?,必須采用腳本方式設(shè)置。最后,設(shè)置數(shù)據(jù)同步的調(diào)度方式。本文將其設(shè)置為每日凌晨1:00進(jìn)行數(shù)據(jù)全量同步。
3.2? 對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析
通過對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求進(jìn)行文本分析,提取崗位技能關(guān)鍵詞,可反映市場中崗位重要技能點。需要指出的是,按照分詞、關(guān)鍵詞詞頻等方式進(jìn)行的關(guān)鍵詞提取,由于詞匯過于短小,提取會丟失原有崗位需求描述的大量信息。因此,本文在實現(xiàn)對網(wǎng)絡(luò)招聘數(shù)據(jù)中的用人需求分析時,采用句子拆分方式進(jìn)行,意在找出“關(guān)鍵子句”,流程如圖2所示。
3.2.1? 提取崗位需求子句
按照崗位對崗位需求描述文本Detail字段使用分號進(jìn)行了拼接,合并后的det字段進(jìn)行文本摘要,參數(shù)保持默認(rèn)。以“
”標(biāo)簽以及中英文狀態(tài)的逗號、句號、分號、冒號作為間隔字符,進(jìn)行句子拆分。對子句進(jìn)行過濾,剔除如“崗位要求:”“崗位職責(zé):”這類明顯無關(guān)內(nèi)容。并將崗位需求描述中常見的數(shù)字序號開頭,子句結(jié)束位置的符號采用正則表達(dá)式剔除。語句如下所示:
由于數(shù)據(jù)處理過程中遺棄了jobid,需重新加入,以便后續(xù)使用。最終結(jié)果寫入數(shù)據(jù)表job_format_requirement_sentence中。
3.2.2? 找出“關(guān)鍵子句”
為了提取出每個崗位的關(guān)鍵技能點要求,需要從句子拆分?jǐn)?shù)據(jù)中找出“關(guān)鍵子句”,主要使用數(shù)加中的機(jī)器學(xué)習(xí)PAI“字符串相似度TopN”組件進(jìn)行實現(xiàn)。流程如圖3所示。
每次調(diào)用分析只取出一個崗位的數(shù)據(jù)。本文通過一個tmp_job_analysis_list表來記錄全部的崗位分析狀態(tài),數(shù)據(jù)表的字段結(jié)構(gòu)如表2所示。每次取出一個尚未進(jìn)行的崗位進(jìn)行分析。從job_format_requirement_sentence表取出該崗位已準(zhǔn)備好的崗位需求子句。采用機(jī)器學(xué)習(xí)PAI中的“字符串相似度TopN”組件,對子句進(jìn)行字符串相似度分析。將每個子句的相似度值output求和并倒序取出前20條,作為該崗位的“關(guān)鍵子句”并寫入數(shù)據(jù)表存儲。
3.3? 數(shù)據(jù)展現(xiàn)實現(xiàn)
數(shù)據(jù)集是QuickBI圖表的數(shù)據(jù)來源。創(chuàng)建數(shù)據(jù)集之前需要把MaxCompute設(shè)置為數(shù)據(jù)源后才可以將數(shù)據(jù)分析的結(jié)果數(shù)據(jù)設(shè)置為數(shù)據(jù)集提供給圖表使用。添加成功后可以查看我的數(shù)據(jù)源,在左側(cè)列表中可以看到剛創(chuàng)建的MaxCompute數(shù)據(jù)源。點擊后可在右側(cè)列表瀏覽該數(shù)據(jù)源中的全部數(shù)據(jù)表。將數(shù)據(jù)源中g(shù)z_jobs_analysis_res數(shù)據(jù)表、job_requirement_result數(shù)據(jù)表設(shè)置為數(shù)據(jù)集。如圖4所示,圖表可以直觀地查看具體崗位的月度崗位招聘低值與高值的平均薪酬變化趨勢。
崗位的關(guān)鍵技能點提取效果亦達(dá)到預(yù)期。以Java崗位為例,實現(xiàn)效果如表3所示。
4? 結(jié)? 論
本文通過對網(wǎng)絡(luò)招聘大數(shù)據(jù)系統(tǒng)的自動化獲取、分析、展示的需求進(jìn)行分析,依托阿里云數(shù)加進(jìn)行了總體設(shè)計,數(shù)據(jù)加工與分析設(shè)計以及數(shù)據(jù)展現(xiàn)設(shè)計,實現(xiàn)了月度崗位招聘的發(fā)布數(shù)與薪酬范圍趨勢的直觀展示以及崗位關(guān)鍵需求的獲取,在此基礎(chǔ)上通過添加更多的關(guān)鍵詞過濾后可直接為高校技術(shù)技能人才的培養(yǎng)內(nèi)容提供參考。
參考文獻(xiàn):
[1] 陳鈞.大數(shù)據(jù)時代條件下大學(xué)生就業(yè)促進(jìn)論析 [J].繼續(xù)教育研究,2017(5):98-100.
[2] 趙建,程丹.高職人才培養(yǎng)與企業(yè)需求匹配度研究——基于珠江三角區(qū)域的實證分析 [J].教育評論,2015(12):103-106.
[3] 阿里云.飛天大數(shù)據(jù)平臺 [EB/OL].(2020-05-07)https://www.aliyun.com/product/bigdata/apsarabigdata.
[4] 陳敬靜,馬明棟,王得玉.MongoDB負(fù)載均衡算法優(yōu)化研究 [J].計算機(jī)技術(shù)與發(fā)展,2020,30(3):88-92.
作者簡介:黃小冬(1986—),男,漢族,江西贛州人,講師,碩士研究生,研究方向:教育學(xué)、教育信息化。