陳偉龍,邱梁泉,張小華(通訊作者)
(仲愷農(nóng)業(yè)工程學(xué)院 廣東 廣州 510225)
近年來,隨著互聯(lián)網(wǎng)、云計算、物聯(lián)網(wǎng)、三網(wǎng)融合等通信與IT技術(shù)的迅猛發(fā)展,數(shù)據(jù)的快速增長,信息社會己經(jīng)進(jìn)入了大數(shù)據(jù)時代。本文收集2016年度拉勾網(wǎng)的網(wǎng)頁招聘信息作為分析所用數(shù)據(jù)。數(shù)據(jù)采集工具使用Python的Scrapy框架,同時配置redis和MongoDB數(shù)據(jù)庫,分別用于爬蟲URL池和數(shù)據(jù)存儲。采集的招聘信息中包括數(shù)據(jù)分析師職位的數(shù)據(jù)2053行,數(shù)據(jù)工程師的數(shù)據(jù)192行,數(shù)據(jù)科學(xué)家的數(shù)據(jù)65行。
按照崗位職責(zé)和要求差異,將數(shù)據(jù)處理類崗位分為三類:數(shù)據(jù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家,三種不同職業(yè)的定義為:數(shù)據(jù)分析師指的是不同行業(yè)中,專門從事行業(yè)數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)研究、評估和預(yù)測的專業(yè)人員。數(shù)據(jù)工程師一般被定義成“深刻理解統(tǒng)計學(xué)科的明星軟件工程師”,他們的核心價值在于他們借由清晰數(shù)據(jù)創(chuàng)建數(shù)據(jù)管道的能力。數(shù)據(jù)科學(xué)家是指能采用科學(xué)方法、運用數(shù)據(jù)挖掘工具對復(fù)雜多量的數(shù)字、符號、文字、網(wǎng)址、音頻或視頻等信息進(jìn)行數(shù)字化重現(xiàn)與認(rèn)識,并能尋找新的數(shù)據(jù)洞察的工程師或?qū)<摇?/p>
數(shù)據(jù)處理類崗位地域分布顯示,數(shù)據(jù)科學(xué)職位需求量較多的是北京、上海、深圳、杭州和廣州,越是發(fā)達(dá)的城市越多數(shù)據(jù)處理人才需求。數(shù)據(jù)處理類崗位行業(yè)分布顯示,移動互聯(lián)網(wǎng)行業(yè)職位需求數(shù)量為610171,占比51%,居于首位。電子商務(wù)次之,占比19%。金融和O2O、企業(yè)服務(wù)和數(shù)據(jù)服務(wù)排名依次遞減。排名前六的行業(yè)基本屬于互聯(lián)網(wǎng)行業(yè),互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)處理人才需求旺盛。
本文用Kruskal-Wallis檢驗分析多組數(shù)據(jù)之間的差異性是否顯著,對三種崗位的工資水平進(jìn)行Kruskal-Wallis檢驗。在0.05置信水平下,檢驗結(jié)果顯示P值為0,說明數(shù)據(jù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的工資存在顯著差異。不同類崗位的薪資水平影響因素不同,本文從公司實力影響和崗位人才兩個維度,選取公司規(guī)模、公司融資情況、工作經(jīng)驗要求、學(xué)歷要求四個指標(biāo),分析三種崗位薪資的影響因素。
根據(jù)公司規(guī)模、融資情況、工作經(jīng)驗和學(xué)歷要求四個影響因素,分別與數(shù)據(jù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家三種崗位的薪資進(jìn)行Kruskal-Wallis檢驗,結(jié)果顯示,在0.05的顯著性水平下:公司規(guī)模、融資情況、工作經(jīng)驗和學(xué)歷要求的差異均對數(shù)據(jù)分析師工資有顯著影響;學(xué)歷要求的差異對數(shù)據(jù)工程師的平均工資有顯著影響,而其他變量P值均大于0.05,公司規(guī)模、融資情況和工作經(jīng)驗的差異對數(shù)據(jù)工程師沒有顯著影響;公司規(guī)模、融資情況、工作經(jīng)驗和學(xué)歷要求四個因素均對數(shù)據(jù)科學(xué)家工資有顯著影響。
以數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的崗位職責(zé)和職位要求進(jìn)行分詞處理,根據(jù)詞匯詞頻進(jìn)行基本的分析,詞頻以詞云形式展示如下(以下圖左均為崗位職責(zé)的詞云,圖右均為職位要求的詞云)。數(shù)據(jù)分析師頻繁用到數(shù)據(jù)庫的SQL語句、R語言、SAS或者SPSS等軟件。在學(xué)歷和經(jīng)驗方面,學(xué)歷要求中最多的是本科學(xué)歷,經(jīng)驗要求是熟練,說明數(shù)據(jù)分析師是一個更多依靠經(jīng)驗的職位。
圖2 數(shù)據(jù)工程師的崗位職責(zé)和職位要求
由圖2可知,數(shù)據(jù)工程師的主要職責(zé)是根據(jù)業(yè)務(wù)需求進(jìn)行數(shù)據(jù)架構(gòu)平臺的搭建,能數(shù)據(jù)分析、數(shù)據(jù)挖掘的方法進(jìn)行的建模,基本報表生成能力。在理論知識方面,數(shù)據(jù)工程師要求任職者掌握數(shù)據(jù)庫、數(shù)據(jù)分析、數(shù)據(jù)挖掘的知識,具備獨立編程和建模能力,自主搭建數(shù)據(jù)的數(shù)據(jù)架構(gòu)平臺。在軟件操作方面,數(shù)據(jù)工程師需學(xué)會操作Linux操作系統(tǒng),數(shù)據(jù)庫操作需掌握C++或C語言,Hadoop,mysql;數(shù)據(jù)建模需掌握R語言,Python,SAS等軟件的使用;分布式計算中要掌握MapReduce,Spark等軟件;網(wǎng)頁操作要求PHP的使用。在學(xué)歷和經(jīng)驗方面,數(shù)據(jù)工程師學(xué)歷要求最多是本科,經(jīng)驗要求是熟練。
圖3 數(shù)據(jù)科學(xué)家的崗位職責(zé)和職位要求
由圖3可知,數(shù)據(jù)科學(xué)家的主要職責(zé)是根據(jù)用戶的需求,利用數(shù)據(jù)分析方法、數(shù)據(jù)挖掘算法和機器學(xué)習(xí)的技術(shù),將海量數(shù)據(jù)中處理并建模,不斷改進(jìn)算法效率。在理論知識方面,數(shù)據(jù)挖掘要求任職者掌握數(shù)學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)挖掘和機器學(xué)習(xí)的知識,具備獨立建模和編程的能力;能結(jié)合業(yè)務(wù)需求挖掘數(shù)據(jù)中的價值。在軟件操作方面,數(shù)據(jù)科學(xué)家需學(xué)會使用Linux操作系統(tǒng),數(shù)據(jù)庫操作需掌握C++或C語言,Java,Hadoop,mysql;數(shù)據(jù)建模需掌握R語言,Python,SAS等軟件的使用。在學(xué)歷和經(jīng)驗方面,數(shù)據(jù)科學(xué)家學(xué)歷要求最多是碩士,經(jīng)驗要求是熟練。在學(xué)歷和經(jīng)驗上,三個職業(yè)要要求有豐富的經(jīng)驗,可見數(shù)據(jù)科學(xué)更是經(jīng)驗的科學(xué);數(shù)據(jù)分析師和數(shù)據(jù)工程師學(xué)歷要求偏向本科,數(shù)據(jù)科學(xué)家學(xué)歷要求偏向研究生。
在軟件使用上,三種職業(yè)都要求對Linux系統(tǒng)有所了解,對數(shù)據(jù)庫操作上要求掌握sql,Hadoop等數(shù)據(jù)庫操作語句;軟件Excel、SPSS、SAS、R和Python都有使用,只是側(cè)重的比例不一樣。
由圖1可知,數(shù)據(jù)分析師的崗位職責(zé)主要是根據(jù)用戶需求進(jìn)行相關(guān)行業(yè)數(shù)據(jù)產(chǎn)品的分析,結(jié)合自身的經(jīng)驗和模型結(jié)果提出相應(yīng)的建議,給予決策者決策的方向。在理論知識方面,數(shù)據(jù)分析師不僅要求任職者熟悉數(shù)學(xué)、統(tǒng)計學(xué)、計算機相關(guān)的知識,對數(shù)據(jù)有一定的敏感度,具備獨立建模的能力,熟練掌握建模流程;而且還要求掌握相關(guān)業(yè)務(wù)知識,能結(jié)合統(tǒng)計學(xué)和業(yè)務(wù)知識建模。在軟件操作方面,