梁天友 邱敏
摘要:大數(shù)據(jù)是一門新興技術(shù),為了進(jìn)一步了解與之有關(guān)的就業(yè)崗位情況,通過(guò)使用Java程序爬取出真實(shí)的大數(shù)據(jù)就業(yè)崗位數(shù)據(jù),再結(jié)合Hadoop技術(shù)進(jìn)行統(tǒng)計(jì)分析,最后使用可視化技術(shù)呈現(xiàn)大數(shù)據(jù)技術(shù)崗位不同地區(qū)招聘的薪資、數(shù)量、職業(yè)技能需求等詳細(xì)信息,為各應(yīng)聘者做參考和決策分析。
關(guān)鍵詞:大數(shù)據(jù);崗位招聘;Hadoop;統(tǒng)計(jì)分析;可視化
中圖分類號(hào):TP391 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)31-0047-04
Big Data Employment Data Analysis Based on Hadoop Technology
LIANG Tian-you, QIU Min
(School of Information Engineering, Nanning University, Nanning 530200,China)
Abstract: Big data is a new technology, in order to further understand the related employment situation, through the use of Java program climb out real big jobs data, combining the Hadoop technologies were analyzed, and finally using visualization techniques to present big data technology jobs in different area, the hiring salary, quantity, detailed information, such as professional skill requirements for the candidates for your reference and decision analysis.
Key words: Big data; Job recruitment; Hadoop; Statistical analysis; visualization
據(jù)IBM統(tǒng)計(jì),全球近90%的數(shù)據(jù)是在過(guò)去2年中生成的,每天都在增加2.5 EB(1 EB=1 024 PB)數(shù)據(jù)。其中,約有90%的數(shù)據(jù)是非結(jié)構(gòu)化的。所以這些來(lái)自網(wǎng)絡(luò)和云平臺(tái)的大數(shù)據(jù)為價(jià)值創(chuàng)造和商業(yè)智能提供了新的機(jī)會(huì)。隨著大數(shù)據(jù)的到來(lái),大數(shù)據(jù)崗位人才稀缺,治理大數(shù)據(jù)技術(shù)問(wèn)題成為政府和各公司的問(wèn)題【1】。政府治理(government governance)主要管理政府大數(shù)據(jù)和利用政府大數(shù)據(jù),收集突發(fā)公共安全、突發(fā)衛(wèi)生健康、犯罪、自然災(zāi)害、恐怖主義、國(guó)防等,并且向社會(huì)輸送大數(shù)據(jù)技術(shù)人才,根據(jù)教育部公布的2017-2020年普通高等學(xué)校本科專業(yè)備案和審批結(jié)果顯示,獲批新增“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)的高校高達(dá)616所【2】。公司治理(corporation governance)以信息技術(shù)(information technology)治理,即IT治理為主,更新技術(shù)處理設(shè)備,招納大數(shù)據(jù)技術(shù)人才。
在如此的大數(shù)據(jù)技術(shù)背景下各公司會(huì)把所需人才崗位發(fā)布到互聯(lián)網(wǎng)上,求職者根據(jù)自身需求和技能對(duì)位各公司的崗位,而使用爬蟲(chóng)和大數(shù)據(jù)相關(guān)技能爬取、統(tǒng)計(jì)、分析出來(lái)的數(shù)據(jù)能夠幫助求職者起到一個(gè)借鑒和決策的作用。
1研究數(shù)據(jù)及技術(shù)方法
本次研究以Java和Hadoop技術(shù)為基礎(chǔ),“大數(shù)據(jù)”為關(guān)鍵詞,爬取某IT互聯(lián)網(wǎng)招聘網(wǎng)站各公司的招聘信息到Hadoop分布式文件系統(tǒng)(HDFS)上,爬取信息包括地區(qū)、崗位名稱、薪資、教育背景、經(jīng)驗(yàn)要求、公司福利六個(gè)字段,對(duì)爬取的數(shù)據(jù)進(jìn)行處理后存儲(chǔ)在Hive數(shù)據(jù)倉(cāng)庫(kù)上,使用MapReduce對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,然后再使用大數(shù)據(jù)遷移工具Sqoop把數(shù)據(jù)導(dǎo)入到本地MySQL數(shù)據(jù)庫(kù)中,最后按地區(qū)招聘數(shù)量、薪資、教育背景、經(jīng)驗(yàn)要求、公司福利等使用Echarts進(jìn)行可視化分析展示。
1.1 Hadoop
Hadoop是一個(gè)由Apache基金會(huì)旗下的開(kāi)源分布式系統(tǒng)基礎(chǔ)架構(gòu)。具有高可靠性、高效、高可擴(kuò)展性、高容錯(cuò)性、低成本、支持多種語(yǔ)言編程等特點(diǎn)。它可以充分利用集群的威力實(shí)現(xiàn)高速運(yùn)算和存儲(chǔ)。Hadoop有兩大核心分別是分布式文件系統(tǒng)(Hadoop Distributed File System)和MapReduce。HDFS是針對(duì)谷歌文件系統(tǒng)(Google File System,GFS)的開(kāi)源實(shí)現(xiàn),具有高容錯(cuò)性、較高的讀寫(xiě)速度、可伸縮性支持大規(guī)模數(shù)據(jù)存儲(chǔ)等特點(diǎn)。HDFS放寬了一部分(relax)POSIX的約束,可以實(shí)現(xiàn)以流的形式訪問(wèn)(streaming access)文件系統(tǒng)中的數(shù)據(jù)。MapReduce是針對(duì)谷歌MapReduce的開(kāi)源實(shí)現(xiàn),為海量的數(shù)據(jù)提供了計(jì)算,并且允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開(kāi)發(fā)并行應(yīng)用程序。
1.2 Sqoop
Sqoop是一款開(kāi)源的工具,是SQL-to-Hadoop的縮寫(xiě),主要用于在Hadoop與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的交換,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(如:MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。主要通過(guò)JDBC(Java DataBase Connectivity)進(jìn)行交互【3】。
1.3 Echarts
Echarts是一個(gè)純Javascript的圖表庫(kù),通過(guò)Web頁(yè)面引入該庫(kù),就可在PC和移動(dòng)設(shè)備的瀏覽器中以表、圖等方式繪制數(shù)據(jù)。通過(guò)輕量級(jí)ZRender類庫(kù)內(nèi)部的MVC(Stroage(M)、Painter(V)、Handler(C))封裝,開(kāi)源實(shí)現(xiàn)圖形的顯示、視圖渲染、動(dòng)畫(huà)擴(kuò)展和交互控制等,為用戶提供了生動(dòng)、直觀、可交互、高度個(gè)性化設(shè)計(jì)的可視化圖表。Echarts具有支持多種坐標(biāo)系獨(dú)立使用與組合、可按需打包、支持大規(guī)模數(shù)據(jù)顯示、支持多維數(shù)據(jù)顯示、可通過(guò)圖表的方式展現(xiàn)動(dòng)態(tài)數(shù)據(jù)等特點(diǎn)【4】。
1.4整體流程
此項(xiàng)目整體構(gòu)架與流程如圖1所示:
2 研究結(jié)果及分析
本次項(xiàng)目爬取了450條崗位信息發(fā)布記錄,包含了全國(guó)18個(gè)熱門城市,即此網(wǎng)站18個(gè)熱門城市中大數(shù)據(jù)技術(shù)崗位需求量至少為450。大數(shù)據(jù)崗位職稱有93個(gè),其中大數(shù)據(jù)開(kāi)發(fā)工程師和大數(shù)據(jù)架構(gòu)師獨(dú)占多數(shù),大數(shù)據(jù)崗位所要用到的技術(shù)包括了Hadoop、Spark、Java、數(shù)據(jù)倉(cāng)庫(kù)、Flink、ETL、Python等91種,學(xué)歷包括了不限學(xué)歷、大專、本科、碩士,工作經(jīng)驗(yàn)在0到10年之間。
2.1地區(qū)崗位需求量
從數(shù)據(jù)分析及可視化展示圖2可知,全國(guó)18個(gè)城市地區(qū)大數(shù)據(jù)技術(shù)崗位需求量各不相同,其中,北京市需求量最高,占比29.56%,其次往下的是上海和深圳,分別達(dá)到了18.89%和16%占比量的崗位需求,石家莊、蘇州、金華和青島對(duì)大數(shù)據(jù)技術(shù)崗位需求比例最少。分析原因,后者這幾個(gè)城市科技發(fā)展和經(jīng)濟(jì)發(fā)展沒(méi)有前者高,而北京市的中關(guān)村又是科技之鄉(xiāng),所以對(duì)于處理數(shù)據(jù)方面的需求后者沒(méi)有前者高。
2.2大數(shù)據(jù)崗位薪資情況
從數(shù)據(jù)分析及可視化展示圖3和圖4可知,全國(guó)大數(shù)據(jù)崗位薪資最高為100k,最低為3k,大數(shù)據(jù)技術(shù)崗位薪資大多集中在10k-30k之間,低于6k的很少。由圖5可知在城市大數(shù)據(jù)崗位平均薪資上,可以看出北京的大數(shù)據(jù)崗位的平均薪資最高,達(dá)到27.7k,后四位為金華、杭州、上海、深圳。分析原因,北京有字節(jié)跳動(dòng)、美團(tuán)、京東、百度、新浪等互聯(lián)網(wǎng)巨頭的加持、并且這些企業(yè)產(chǎn)生的數(shù)據(jù)量都是巨大的,所以要引入具有大數(shù)據(jù)技術(shù)高技術(shù)人才處理這些海量的數(shù)據(jù),類似的,其他企業(yè)也需要技術(shù)型人才處理他們公司的數(shù)據(jù),所以這些企業(yè)帶動(dòng)了崗位工資的提升,而后四位平均薪資也不低于23k,這是由于這幾個(gè)城市都是我國(guó)的經(jīng)濟(jì)發(fā)展區(qū)并且都與國(guó)際對(duì)軌,高新科技發(fā)展也都離不開(kāi)這幾個(gè)城市,公司注冊(cè)總數(shù)也在全國(guó)前列,所以這些公司也會(huì)花上巨資來(lái)鞏固公司的數(shù)據(jù)量與安全。而平均薪資最低的城市也不低于9.8k,從此可以看出各個(gè)地方對(duì)于大數(shù)據(jù)技術(shù)人才都比較渴望,也可以看出對(duì)于大數(shù)據(jù)技術(shù)崗位的未來(lái)也擁有光明的前景。
2.3教育背景及經(jīng)驗(yàn)分析
從數(shù)據(jù)分析及可視化展示圖6可知,各公司對(duì)求職者學(xué)歷上的要求占比最多為本科,占比88.89%,而不限學(xué)歷的占比僅為3.33%,由此可知在應(yīng)聘大數(shù)據(jù)這些崗位上學(xué)歷的確是塊敲門磚,而針對(duì)于大數(shù)據(jù)這門技術(shù)開(kāi)設(shè)的專業(yè)本科院校就高達(dá)616所。再?gòu)膱D7看,平均薪資對(duì)學(xué)歷最高的也為本科,由于國(guó)內(nèi)市場(chǎng)的需求和本科院校開(kāi)設(shè)專業(yè)的原因,國(guó)內(nèi)各公司都肯花錢聘請(qǐng)本科層次以上的大數(shù)據(jù)專業(yè)人才來(lái)處理公司產(chǎn)生的大量數(shù)據(jù)。從圖8和圖9分析圖可知,各公司對(duì)于招聘的要求不僅是學(xué)歷的要求,在工作經(jīng)驗(yàn)上也要做上1到3年,一部分企業(yè)還要招聘工作經(jīng)驗(yàn)在6年以上的,因?yàn)楹苌儆衅髽I(yè)把自己公司的數(shù)據(jù)交給一個(gè)本科在讀或是剛畢業(yè)的年輕小伙去處理,不僅加大了處理數(shù)據(jù)的時(shí)間,還加大了數(shù)據(jù)安全的風(fēng)險(xiǎn),得不償失。而薪資方面,當(dāng)然也是工作經(jīng)驗(yàn)越久,薪資也就越高。
2.4技能分析
從數(shù)據(jù)分析及可視化展示圖10可知,絕大多部分企業(yè)需要求職者掌握Hadoop、Spark、Java等技能,因?yàn)楝F(xiàn)在主流的大數(shù)據(jù)框架都是Hadoop和Spark,而這兩個(gè)開(kāi)源集群的大數(shù)據(jù)計(jì)算集群底層是用Java語(yǔ)言編寫(xiě),所以各公司會(huì)讓你了解熟悉Hadoop和Spark的生態(tài)環(huán)境,再用Java語(yǔ)言去開(kāi)發(fā)編寫(xiě)相應(yīng)的程序處理數(shù)據(jù)集。圖11為大數(shù)據(jù)崗位需要掌握的主流開(kāi)發(fā)技能薪資對(duì)比,從數(shù)倉(cāng)建模再到大數(shù)據(jù)生態(tài)環(huán)境各組件的熟悉,也體現(xiàn)了學(xué)習(xí)大數(shù)據(jù)環(huán)境技能所對(duì)應(yīng)的價(jià)值。
2.5公司福利分析
從數(shù)據(jù)分析及可視化展示圖12可知,全國(guó)大部分企業(yè)都有帶薪年假、五險(xiǎn)一金、績(jī)效獎(jiǎng)金、彈性工資、年底雙薪這五項(xiàng)福利,而往后的幾項(xiàng)福利也很不錯(cuò),這些都是公司特色,同時(shí)也可以吸引有技術(shù)的求職者入職,在同等薪資的情況下福利越好越吸引人,求職者也可以按照自己對(duì)福利的需求來(lái)選擇合適企業(yè)。
2.6總體分析
從以上的可視化分析,再結(jié)合所獲取的數(shù)據(jù)可以得知,北京、上海和深圳這三個(gè)城市是大數(shù)據(jù)崗位需求量最大的城市,同時(shí)也是薪資最高的城市,這也取決于這三座城市經(jīng)濟(jì)的快速發(fā)展和國(guó)際化,面對(duì)大數(shù)據(jù)人才缺口,這些城市的企業(yè)都會(huì)花上重金去聘請(qǐng)有能力的大數(shù)據(jù)技術(shù)人才,隨著時(shí)代的發(fā)展,大數(shù)據(jù)的普及,大數(shù)據(jù)技術(shù)應(yīng)用的領(lǐng)域越來(lái)越廣,醫(yī)療、公共衛(wèi)生、人口普查、智能科學(xué)等都能夠應(yīng)用上,所以大數(shù)據(jù)所帶來(lái)崗位也越來(lái)越多,其他城市的企業(yè)也同樣重視大數(shù)據(jù)領(lǐng)域技術(shù)的應(yīng)用,所以也會(huì)從薪資上福利上想盡辦法吸引大數(shù)據(jù)人才,大部分企業(yè)的需求都是本科畢業(yè),工作經(jīng)驗(yàn)在3-5年,熟悉大數(shù)據(jù)集群Hadoop或Spark的生態(tài)環(huán)境并用Java語(yǔ)言去開(kāi)發(fā),這也為現(xiàn)在開(kāi)設(shè)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的高校提供了教學(xué)方向,讓學(xué)生在學(xué)校就能吸收到實(shí)踐項(xiàng)目所帶來(lái)的經(jīng)驗(yàn)與方法,對(duì)以后就業(yè)就有很大的幫助,而社會(huì)自學(xué)者也可以根據(jù)崗位需求不斷調(diào)整學(xué)習(xí)方向和吸收開(kāi)發(fā)經(jīng)驗(yàn)就可以跨上更好的公司升職加薪。
3結(jié)束語(yǔ)
此次爬取分析也為大數(shù)據(jù)技術(shù)實(shí)現(xiàn)的基本流程之一,包括了數(shù)據(jù)爬取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)導(dǎo)入與導(dǎo)出、數(shù)據(jù)分析再到可視化的過(guò)程,爬取的數(shù)據(jù)量雖然不是很多,但是也基本能體現(xiàn)大數(shù)據(jù)技術(shù)崗位上的整體狀況?;ヂ?lián)網(wǎng)招聘由于時(shí)代的發(fā)展,也成為IT人員應(yīng)聘的主流方式之一,獲取其中數(shù)據(jù),分析挖掘便可得知未來(lái)規(guī)劃發(fā)展的方向,大數(shù)據(jù)崗位求職者閱讀此文章也可以為自己的職業(yè)規(guī)劃與選擇做出合理的決策做參考。
參考文獻(xiàn):
[1] 楊孟輝,杜小勇.政府大數(shù)據(jù)治理:政府管理的新形態(tài)[J].大數(shù)據(jù),2020,6(2):3-18.
[2] 梁婷婷,邱素貞,陸珊.本科層次大數(shù)據(jù)人才需求可視化分析[J].智能計(jì)算機(jī)與應(yīng)用,2020,10(4):276-279.
[3] 林子雨.大數(shù)據(jù)技術(shù)原理與應(yīng)用[M].北京.2版:人民郵電出版社,2017:28-32.
[4] 何光威.大數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社,2018.
【通聯(lián)編輯:唐一東】
收稿日期:2021-06-25
基金項(xiàng)目:本文為南寧學(xué)院大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目階段性成果,項(xiàng)目名稱:視途,視在必行——大數(shù)據(jù)可視化分析服務(wù),項(xiàng)目編號(hào):202011549097
作者簡(jiǎn)介:梁天友(1999—),男,廣西人,本科在讀,專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù);邱敏(1998—),女,廣西人,本科在讀,專業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)。