韋婷婷,方宏宇,宋世領(lǐng),駱威,張建桃,熊俊濤
(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院,廣州510642)
隨著大數(shù)據(jù)應(yīng)用于各行各業(yè),數(shù)據(jù)分析相關(guān)崗位的需求也越來(lái)越大。根據(jù)數(shù)聯(lián)尋英發(fā)布的《大數(shù)據(jù)人才報(bào)告》顯示,國(guó)內(nèi)近幾年大數(shù)據(jù)人才需求量巨大,眾多大型企業(yè)的招聘名單里半數(shù)以上崗位都從屬于數(shù)據(jù)分析類[1]。但是,目前學(xué)校這方面的人才培養(yǎng),還滿足不了社會(huì)的需要。作為人才培養(yǎng)的搖籃,高校應(yīng)根據(jù)大數(shù)據(jù)發(fā)展對(duì)人才的需求特征,進(jìn)行有針對(duì)性的培養(yǎng)計(jì)劃。此外,目前針對(duì)數(shù)據(jù)分析崗位需求特征的研究比較少,僅有的少數(shù)研究對(duì)特征的分類則采用人工分類的方式,缺乏客觀性[2],也難以為求職者提供有效的相關(guān)信息。為此,本文從各大主流招聘網(wǎng)站上爬取招聘信息,通過(guò)相關(guān)的數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)了以下特征分析:基于TF-IDF 算法的各福利待遇權(quán)重計(jì)算;基于Kmeans 算法的數(shù)據(jù)分析崗位需求特征聚類分析;基于統(tǒng)計(jì)學(xué)知識(shí)的工作經(jīng)驗(yàn)薪資統(tǒng)計(jì)圖、需求特征詞云圖、數(shù)據(jù)分析崗位全國(guó)熱力圖。本文的研究成果將有助于高校相關(guān)專業(yè)有針對(duì)性地培養(yǎng)適應(yīng)市場(chǎng)需求的人才,并為求職者的能力構(gòu)建及就業(yè)選擇提供參考依據(jù)。
本文調(diào)研了國(guó)內(nèi)多家招聘網(wǎng)站,綜合考慮了數(shù)據(jù)抓取難度、數(shù)據(jù)量以及網(wǎng)站權(quán)威性等方面,最終選擇拉勾網(wǎng)、智聯(lián)招聘、獵聘網(wǎng)、前程無(wú)憂四個(gè)招聘網(wǎng)站作為本實(shí)驗(yàn)的數(shù)據(jù)源,部分示例數(shù)據(jù)如圖1 所示。
圖1 部分抓取數(shù)據(jù)
本文根據(jù)抓取數(shù)據(jù)各字段不同特點(diǎn)選取不同的分析方法。本文的研究思路主要分為以下六個(gè)步驟,如圖2 所示。第一,選取數(shù)據(jù)源并實(shí)現(xiàn)招聘數(shù)據(jù)的抓取。第二,從抓取的網(wǎng)絡(luò)文本集中選取結(jié)構(gòu)化字段,直接進(jìn)行詞頻統(tǒng)計(jì)。第三,實(shí)現(xiàn)以成段文本形式出現(xiàn)的福利待遇和職位描述字段的數(shù)據(jù)預(yù)處理。第四,統(tǒng)計(jì)福利待遇各關(guān)鍵詞詞頻并計(jì)算其TF-IDF 值。第五,統(tǒng)計(jì)職位描述各關(guān)鍵詞詞頻并實(shí)現(xiàn)職位描述字段各關(guān)鍵詞的K-means 聚類分析。第六,以可視化的方式展示上述各實(shí)驗(yàn)結(jié)果并加以分析。
圖2 實(shí)驗(yàn)流程設(shè)計(jì)
本文從各個(gè)數(shù)據(jù)字段中選取城市、薪資、工作經(jīng)驗(yàn)、學(xué)歷要求、福利待遇、職位描述字段進(jìn)行數(shù)據(jù)預(yù)處理[3],具體流程如圖3 所示。為防止專業(yè)短語(yǔ)在分詞中被分解,本文抽取了相關(guān)的大量關(guān)鍵詞短語(yǔ)添加到詞庫(kù)中,提高分析的準(zhǔn)確性。
圖3 數(shù)據(jù)預(yù)處理步驟
本文選擇TF-IDF 算法計(jì)算某關(guān)鍵詞對(duì)一個(gè)文件系統(tǒng)的重要程度[4]。其中TF 值代表詞頻,通常會(huì)做歸一化處理。對(duì)于某一關(guān)鍵詞ti來(lái)說(shuō)其TF 值計(jì)算如公式(1)所示。
在上式中ni,j是某關(guān)鍵字詞在文件集合中的出現(xiàn)頻次,而分母nk,j則是在文件集合中進(jìn)行中文分詞后,所有詞出現(xiàn)次數(shù)的總和[5]。IDF 值代表反文檔頻率,其計(jì)算公式如公式(2)所示。
其中|D|表示文本系統(tǒng)中文件的總數(shù);|{j:ti∈di}|代表包含關(guān)鍵詞的文件數(shù)目[6]。最后再計(jì)算該關(guān)鍵詞的TF-IDF 值:tfidfi,j=tfi,j×idfi。
本文將福利待遇字段內(nèi)容預(yù)處理后作為詞頻統(tǒng)計(jì)的輸入,再根據(jù)詞頻統(tǒng)計(jì)結(jié)果計(jì)算各關(guān)鍵詞的TF-IDF值并選擇權(quán)重值前30 的關(guān)鍵詞分析。此處將每個(gè)網(wǎng)站福利待遇字段內(nèi)容存為一個(gè)文件,四個(gè)網(wǎng)站的福利待遇文件構(gòu)成文件系統(tǒng)。
根據(jù)相似性原理科學(xué)分類[7],K-means 算法較人工分類更具客觀性。本文利用K-means 算法對(duì)數(shù)據(jù)分析崗位需求詞典進(jìn)行聚類分析,由于在實(shí)現(xiàn)K-means 算法之前需要將文本進(jìn)行向量化處理,選取了Word2Vec模型實(shí)現(xiàn)文本向量化,再根據(jù)生成各關(guān)鍵詞對(duì)應(yīng)的向量值進(jìn)行聚類。
K-means 算法以各關(guān)鍵詞對(duì)應(yīng)向量間的距離作為判斷其相似性的標(biāo)準(zhǔn),本文采用歐氏距離計(jì)算向量間的距離,其計(jì)算公式如公式(3)所示。
在K-means 的計(jì)算過(guò)程要通過(guò)多次迭代動(dòng)態(tài)地確定分類中心Centerk,每次聚類結(jié)束后要調(diào)整所有數(shù)據(jù)對(duì)象的mean 值并確定下次分類的中心。定義第K 個(gè)類的類簇中心Centerk的方程如公式(4)所示。
其中Ck代表第k 個(gè)類簇,|Ck|代表第k 個(gè)類簇中所有數(shù)據(jù)對(duì)象的總數(shù)。K-means 算法停止迭代的方式有兩種,一種為設(shè)定迭代次數(shù)T,當(dāng)達(dá)到設(shè)定迭代次數(shù)時(shí)停止迭代。另一種是采用誤差平方和準(zhǔn)則函數(shù),此數(shù)學(xué)模型如公式(5)所示。
其中K 的值代表的是類簇個(gè)數(shù),此方法首先要設(shè)定δ值再計(jì)算,直到ΔJ<δ時(shí)終止迭代,此時(shí)得到的聚類結(jié)果為最終結(jié)果。最后根據(jù)聚類分析結(jié)果將職位描述高頻關(guān)鍵詞進(jìn)行分類。
(1)數(shù)據(jù)分析崗位全國(guó)熱力圖
本文選取“城市”(工作地點(diǎn))字段制作了數(shù)據(jù)分析崗位全國(guó)熱力圖,探究數(shù)據(jù)分析崗位需求量的地域因素以及其全國(guó)分布情況,如圖4 所示。
圖4 數(shù)據(jù)分析崗位全國(guó)熱力圖
熱力圖中顏色越深,點(diǎn)越密集代表數(shù)據(jù)分析崗位的需求量越大。從圖4 可以看出數(shù)據(jù)分析行業(yè)作為新興行業(yè)并沒(méi)有在全國(guó)廣泛分布,崗位主要分布在東南沿海地區(qū)其中上海、北京、深圳、廣州需求量最大,而杭州、南京、合肥、廈門、天津、福州等城市次之。內(nèi)陸地區(qū)重慶、成都、石家莊等城市數(shù)據(jù)分析崗位需求人數(shù)較多,而我國(guó)東北地區(qū)和西北地區(qū)數(shù)據(jù)分析崗位需求量較少。
(2)工作經(jīng)驗(yàn)與薪資關(guān)系分析
本文將工作經(jīng)驗(yàn)字段與薪資字段結(jié)合分析二者之間關(guān)系,兩者之間的統(tǒng)計(jì)圖如下圖5 所示。由圖中可知數(shù)據(jù)分析崗位對(duì)應(yīng)屆畢業(yè)生以及從業(yè)經(jīng)驗(yàn)1 年以下的應(yīng)聘者需求量很少,而且工資水平主要在6 千元到1萬(wàn)元之間。而需求的高峰主要集中在經(jīng)驗(yàn)1-3 年和經(jīng)驗(yàn)3-5 年的從業(yè)者,并且月薪水平在1 萬(wàn)5 千元以上的占比很大。經(jīng)驗(yàn)1-3 年的人群中月薪在1 萬(wàn)5 千元以上的占比接近一半,而在經(jīng)驗(yàn)3-5 年的人群中月薪在1 萬(wàn)5 千元以上的占比已明顯超過(guò)一半,可見(jiàn)工作經(jīng)驗(yàn)在3-5 年的數(shù)據(jù)分析從業(yè)者最容易找到高薪工作。經(jīng)驗(yàn)5-10 年的需求量已明顯減少,但高薪資的占比依然很高。
圖5 工作經(jīng)驗(yàn)薪資統(tǒng)計(jì)圖
計(jì)算福利待遇字段各關(guān)鍵詞的TF-IDF 值如表1所示,此處選取權(quán)重排行前三十的關(guān)鍵詞展示。
表1 福利待遇權(quán)重統(tǒng)計(jì)表
從總體上看,五險(xiǎn)一金的權(quán)重遠(yuǎn)遠(yuǎn)高于其他福利待遇,帶薪年假和發(fā)展空間位于第二和第三,說(shuō)明數(shù)據(jù)分析類崗位也都普遍提供這三種福利。通過(guò)進(jìn)一步深入分析發(fā)現(xiàn):人數(shù)規(guī)模較大的企業(yè),通常還提供績(jī)效獎(jiǎng)金、午餐補(bǔ)助等福利待遇;有些注重員工發(fā)展的企業(yè)則提供發(fā)展空間、崗位晉升、出國(guó)進(jìn)修等待遇;另外還有一些企業(yè)提供了人文關(guān)懷待遇,例如定期體檢、彈性工作、節(jié)日福利和外出旅游等。綜合而言,上市公司、互聯(lián)網(wǎng)、高新技術(shù)企業(yè)所提供的福利待遇更為全面。
(1)職位描述需求詞云圖
基于“職位描述”字段制作職位描述需求詞云圖,如圖6 所示。
圖6 職位描述需求詞云圖
(2)職位描述聚類分析結(jié)果
基于詞頻統(tǒng)計(jì)結(jié)果,將高頻關(guān)鍵詞作為K-means算法的輸入,探究數(shù)據(jù)分析崗位需求類型的劃分。本文通過(guò)經(jīng)驗(yàn)調(diào)參方式將K-means 聚類的類別數(shù)定為5類,并展示每類的前15 個(gè)關(guān)鍵詞,如圖7 所示。
圖7 聚類分析結(jié)果
綜合上述兩圖可知,第一類關(guān)鍵詞的主題可概括為業(yè)務(wù)能力,尤其是與需求分析以及數(shù)據(jù)分析相關(guān)的業(yè)務(wù)能力。其中分析報(bào)告,產(chǎn)品運(yùn)營(yíng)和需求分析權(quán)重較高。第二類主題較明確,可概括為專業(yè)及學(xué)歷方面的需求,其中本科學(xué)歷,統(tǒng)計(jì)學(xué)和數(shù)學(xué)專業(yè)權(quán)重較高。第三類主題為技能需求,其中SQL、Python、SAS、SPSS、Excel 權(quán)重較高。第四類主題為個(gè)人素質(zhì),其中學(xué)習(xí)能力,邏輯思維能力和溝通能力最為重要,此外還應(yīng)具備團(tuán)隊(duì)合作能力。第五類主題較模糊,主要與招聘崗位所在公司領(lǐng)域有關(guān),其中互聯(lián)網(wǎng)公司數(shù)據(jù)分析人才需求量最大,在銀行以及通信行業(yè)也有一定的崗位需求。
通過(guò)上述分析結(jié)果,總體結(jié)論如下:在工作地點(diǎn)上,北京、上海、廣州、深圳等一線城市或東南沿海發(fā)達(dá)城市的數(shù)據(jù)分析崗位需求量大,行業(yè)發(fā)展較成熟;在工作經(jīng)驗(yàn)方面,求職者經(jīng)驗(yàn)1 年以下從業(yè)者需求量很少,對(duì)工作1-5 年的從業(yè)者需求量較大薪資也較高,可以看出行業(yè)內(nèi)急需經(jīng)驗(yàn)豐富的數(shù)據(jù)分析人才;福利待遇方面,基本與公司實(shí)力相匹配;求職者能力要求方面,主要包括業(yè)務(wù)能力、職業(yè)技能、個(gè)人素質(zhì)三方面。此外,數(shù)據(jù)分析類崗位普遍要求數(shù)學(xué)和統(tǒng)計(jì)學(xué)相關(guān)專業(yè)。
大數(shù)據(jù)如今備受企業(yè)關(guān)注,高校人才培養(yǎng)應(yīng)該與時(shí)俱進(jìn),以市場(chǎng)需求為基準(zhǔn),設(shè)置合理的專業(yè),注重產(chǎn)學(xué)研結(jié)合,加強(qiáng)學(xué)生的項(xiàng)目經(jīng)歷,才能提升學(xué)生的就業(yè)競(jìng)爭(zhēng)力。另外,相關(guān)專業(yè)的求職者也應(yīng)進(jìn)行一定的能力儲(chǔ)備,才能進(jìn)入福利待遇較好的企業(yè)就業(yè)。