姚超
摘要:為了更加客觀且全面地了解當(dāng)下各企業(yè)對(duì)大數(shù)據(jù)崗位的職業(yè)技能要求,他首先通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)針對(duì)前程無(wú)憂網(wǎng)站上各個(gè)企業(yè)所發(fā)布與大數(shù)據(jù)相關(guān)的崗位進(jìn)行信息提取并保存,然后通過(guò)分詞技術(shù)對(duì)提取到的崗位信息進(jìn)行分詞,最后對(duì)分詞后的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。通過(guò)分析,他得到了相對(duì)客觀的大數(shù)據(jù)崗位職業(yè)技能需求信息,這為后續(xù)地大數(shù)據(jù)人才培養(yǎng)方案制定提供了更加客觀全面的數(shù)據(jù)支撐。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;大數(shù)據(jù);職業(yè)技能;信息抽取;數(shù)據(jù)分析
中圖分類號(hào):TP319? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)27-0001-02
Abstract: In order to be more objective and comprehensive about the understanding of the various enterprises vocational skill requirements for big data posts, firstly, he extracted and saved the information of posts related to big data released by various enterprises` on 51job.com through web crawler technology, and then divided the extracted post information into words by word segmentation technology. Finally, he analyzed the data after word segmentation by statistics. Through the analysis, he obtained relatively objective information about the vocational skill demands of the big data posts, and provided more objective and comprehensive data support for the subsequent formulation of big data talent training plan .
Key words:web crawler; big data; vocational skills; Information Extraction; data analysis
2015年國(guó)務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》[1]這一重要文件極大地加速了大數(shù)據(jù)行業(yè)及大數(shù)據(jù)職業(yè)教育的發(fā)展,同時(shí)也促使社會(huì)對(duì)大數(shù)據(jù)專業(yè)人才需求的激增。2016年,《普通高等學(xué)校高等職業(yè)教育專業(yè)(??疲┠夸洝吩鲅a(bǔ)了“大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)”[2],2017年高職院校正式以“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)開(kāi)始招生。截至目前,“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)還沒(méi)有畢業(yè)生,各高職院校的“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)均處于探索研究階段。為了能夠更加客觀且全面地了解當(dāng)下各企業(yè)對(duì)大數(shù)據(jù)崗位的職業(yè)技能要求,從而實(shí)現(xiàn)對(duì)當(dāng)前高職院?!按髷?shù)據(jù)技術(shù)與應(yīng)用”專業(yè)人才培養(yǎng)方案的修訂與完善,本文將通過(guò)網(wǎng)絡(luò)爬蟲等技術(shù)從前程無(wú)憂招聘網(wǎng)站上獲取有關(guān)大數(shù)據(jù)崗位相關(guān)信息并做分析。
1 整體設(shè)計(jì)
為了實(shí)現(xiàn)獲取大數(shù)據(jù)崗位信息并進(jìn)行分析,本文的功能涉及三個(gè)模塊:網(wǎng)絡(luò)爬蟲、數(shù)據(jù)儲(chǔ)存和數(shù)據(jù)處理與分析。其中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)方案有很多,因?yàn)镾crapy框架具體高效和功能強(qiáng)大等特點(diǎn)[3],本文采用Scrapy框架實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲以獲取的大數(shù)據(jù)崗位相關(guān)信息。由于MongoDB具有高性能、易部署、易使用、存儲(chǔ)數(shù)據(jù)非常方便等特點(diǎn)[4],本文的數(shù)據(jù)存儲(chǔ)模塊采用MongoDB來(lái)保存獲取到的大數(shù)據(jù)崗位信息。因?yàn)橥ㄟ^(guò)爬蟲獲取到的崗位信息數(shù)據(jù)均是中文文本信息,本文需要對(duì)中文文本信息進(jìn)行分詞處理然后再分析,jieba模塊是目前最好的Python中文分詞組件[5],因此本文采用jieba模塊來(lái)對(duì)崗位描述的文本信息進(jìn)行處理并使用pyecharts模塊來(lái)對(duì)分析的結(jié)果進(jìn)行展示。具體的設(shè)計(jì)方案如圖1所示。
2 大數(shù)據(jù)崗位信息獲取與存儲(chǔ)
2.1 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)
1) 明確爬蟲目標(biāo)。
根據(jù)需求,本文將關(guān)注的焦點(diǎn)放在前程無(wú)憂招聘網(wǎng)站上有關(guān)專科學(xué)歷的大數(shù)據(jù)崗位信息。如果只搜索以上信息,將會(huì)出現(xiàn)大量與大數(shù)據(jù)崗位不符合的信息,如:銷售員、電話客服等。為避免此種情況出現(xiàn),本文將搜索范圍限定在有1-3年工作經(jīng)歷的招聘崗位上,此時(shí)得到的信息將更加符合大數(shù)據(jù)專業(yè)。具體的搜索結(jié)果如圖2所示,其中被矩形框標(biāo)記的內(nèi)容則是本文所需要的部分信息。在圖2中可以發(fā)現(xiàn)其中仍然包含有極少量無(wú)效信息,因此本文將在后面的數(shù)據(jù)處理過(guò)程中對(duì)這些數(shù)據(jù)進(jìn)行更深入地篩選過(guò)濾。此外,以上頁(yè)面的內(nèi)容并不能滿足本文用于職業(yè)技能分析的要求,還需要將每個(gè)崗位的詳細(xì)信息提取出來(lái),詳細(xì)頁(yè)面如圖3所示,其中矩形框標(biāo)記的內(nèi)容則是本文所需要的核心信息。
2) 分析待解析的頁(yè)面信息。
通過(guò)第1步得到兩個(gè)待解析的頁(yè)面:大數(shù)據(jù)崗位搜索結(jié)果頁(yè)面、崗位詳情頁(yè)面。這里可以通過(guò)瀏覽器所提供的“查看元素”功能來(lái)分析整個(gè)頁(yè)面的文檔結(jié)果及要爬取信息在頁(yè)面中的位置。通過(guò)分析可以得到每個(gè)頁(yè)面上所要爬取信息如下:搜索結(jié)果頁(yè)面的職位名、公司名、工作地點(diǎn)、薪資、崗位詳情鏈接、下一頁(yè)鏈接等;崗位詳情頁(yè)面的職位信息。
2.2 大數(shù)據(jù)崗位信息儲(chǔ)存
當(dāng)scrapy獲取到數(shù)據(jù)后,這些數(shù)據(jù)將會(huì)被傳遞到pipeline中進(jìn)行下一步處理。本文通過(guò)編寫實(shí)現(xiàn)pipeline中的process_item(self, item, spider)方法,將傳遞過(guò)來(lái)的數(shù)據(jù)通過(guò)MongoDB的insert()方法直接寫入MongoDB數(shù)據(jù)庫(kù)中。為了能夠讓數(shù)據(jù)可以被傳遞到pipeline中,這里需要提前設(shè)置好setting.py中的“ITEM_PIPELINES”信息,要確保該參數(shù)存在且未被注釋。
3? 大數(shù)據(jù)崗位信息處理與分析
3.1 數(shù)據(jù)篩選
在2.1節(jié)中已經(jīng)發(fā)現(xiàn)爬取到的數(shù)據(jù)中還有少量崗位信息為客服和銷售崗,因此在進(jìn)行數(shù)據(jù)處理與分析前,要把這些信息從有效數(shù)據(jù)中過(guò)濾掉。這里最直接的思路是在查詢數(shù)據(jù)庫(kù)是將這些數(shù)據(jù)過(guò)濾掉,但是MongoDB數(shù)據(jù)庫(kù)在查詢過(guò)濾功能與其他數(shù)據(jù)庫(kù)不同,它所采用的是正則表達(dá)式。本文所需要的數(shù)據(jù)中其崗位名稱不包含“銷售”和“客服”等字符,結(jié)合正則表達(dá)式相關(guān)語(yǔ)法規(guī)則設(shè)計(jì)出符合該功能的正則表達(dá)式為“^((?!銷售|客服).)*$”[6]。
3.2 數(shù)據(jù)處理與分析
常見(jiàn)的數(shù)據(jù)處理包含:數(shù)據(jù)錯(cuò)誤處理、缺失值處理、離群值處理、中文jieba分詞、去停用詞處理等[7]。本文主要采用中文jieba分詞和去停用詞處理兩種數(shù)據(jù)處理方法。如果不采用去停用詞處理,這里將得到大量與最終要求無(wú)關(guān)的統(tǒng)計(jì)信息,如:優(yōu)先、熟悉、掌握等。去停用詞處理可以節(jié)省存儲(chǔ)空間和提高搜索效率,停用詞專指在處理自然語(yǔ)言數(shù)據(jù)或文本時(shí)自動(dòng)過(guò)濾掉的字或詞[8]。
大數(shù)據(jù)崗位信息處理完成后,本文采用TF-IDF(term frequency-inverse document frequency)[9]統(tǒng)計(jì)方法來(lái)對(duì)其進(jìn)行分析,以確定各種計(jì)算機(jī)專業(yè)相關(guān)的職業(yè)技能在大數(shù)據(jù)崗位中的重要程度。
3.3 結(jié)果展示
通過(guò)3.2節(jié)中對(duì)大數(shù)據(jù)崗位信息的處理,并使用TF-IDF統(tǒng)計(jì)方法進(jìn)行分析后,為了更加清晰明了地展現(xiàn)分析后的結(jié)果,本文采用pyecharts模塊中的柱狀圖Bar來(lái)呈現(xiàn)結(jié)果,具體如圖4所示。通過(guò)該分析結(jié)果可以非常明顯看出:對(duì)于大數(shù)據(jù)崗位來(lái)說(shuō),數(shù)據(jù)庫(kù)、數(shù)據(jù)分析、Java、MySQL、Linux、Python、Hadoop等是非常重要的職業(yè)技能;此外可視化等相關(guān)技術(shù)、數(shù)據(jù)結(jié)構(gòu)、網(wǎng)絡(luò)爬蟲等職業(yè)技能也是較多企業(yè)對(duì)大數(shù)據(jù)人才的要求。
4? 結(jié)束語(yǔ)
以前,我們要想知道指定崗位所需要的職業(yè)技能都是通過(guò)調(diào)查部分企業(yè)來(lái)實(shí)現(xiàn)的。通過(guò)這種方式,我們所得到的結(jié)果不全面,有時(shí)還會(huì)因?yàn)槠髽I(yè)給出的信息較隨意使得結(jié)果不客觀,甚至?xí)霈F(xiàn)偏差。本文通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)爬取前程無(wú)憂網(wǎng)站上各個(gè)企業(yè)所發(fā)布與大數(shù)據(jù)相關(guān)的崗位進(jìn)行信息并保存到MongoDB中,同時(shí)使用中文jieba分詞、去停用詞處理等對(duì)數(shù)據(jù)進(jìn)行處理并使用TF-IDF統(tǒng)計(jì)方法對(duì)處理后的數(shù)據(jù)進(jìn)行分析,最后得到了一組相對(duì)客觀的大數(shù)據(jù)崗位職業(yè)技能需求信息,這為后續(xù)地大數(shù)據(jù)人才培養(yǎng)方案制定提供了更加客觀全面的數(shù)據(jù)支撐。
參考文獻(xiàn):
[1] 中華人民共和國(guó)國(guó)務(wù)院.促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要[Z].北京:中華人民共和國(guó)國(guó)務(wù)院,2015.
[2] 中華人民共和國(guó)教育部.《普通高等學(xué)校高等職業(yè)教育(??疲I(yè)目錄》2016年增補(bǔ)專業(yè)[Z].北京:中華人民共和國(guó)教育部,2016.
[3] 黑馬程序員.解析Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、Scrap框架、分布式爬蟲[M].北京:中國(guó)鐵道出版社,2018:175-178.
[4] 百度百科.mongodb[DB/OL].[2019-07-10].https://baike.baidu.com/item/mongodb.
[5] Gaius_Yao.簡(jiǎn)明jieba中文分詞教程[M/OL].[2019-07-10].https://www.jianshu.com/p/883c2171cdb5.
[6] (美)Goyvaerts Jan, Levithan Steven.正則表達(dá)式經(jīng)典實(shí)例[M].郭耀譯.北京:人民郵電出版社,2010:273-304.
[7] 李光明,潘以鋒,周宗萍.基于自然語(yǔ)言處理技術(shù)的學(xué)生管理論壇文本挖掘與分析[J].智庫(kù)時(shí)代,2019(29):122+127.
[8] 百度百科.停用詞[DB/OL].[2019-07-10].https://baike.baidu.com/item/停用詞.
[9] 馮勇,屈渤浩,徐紅艷,等.融合TF-IDF和LDA的中文FastText短文本分類方法[J].應(yīng)用科學(xué)學(xué)報(bào),2019,37(03):378-388.
【通聯(lián)編輯:朱寶貴】