国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

簡歷數(shù)據(jù)分析與可視化

2020-02-22 03:58:10朱劍林李林潔宮托婭
電腦知識與技術(shù) 2020年36期
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲數(shù)據(jù)可視化

朱劍林 李林潔 宮托婭

摘要:簡歷是求職者能力、經(jīng)歷、技能等簡要的總結(jié),是求職者全面素質(zhì)和能力體現(xiàn)的縮影。但是目前互聯(lián)網(wǎng)上的簡歷數(shù)據(jù)分散、格式不統(tǒng)一等問題,該論文圍繞簡歷數(shù)據(jù)可視化分析,以就業(yè)理論和生涯規(guī)劃理論為指導,爬取了互聯(lián)網(wǎng)上公開發(fā)布的求職簡歷相關(guān)的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、特征工程,構(gòu)建了職業(yè)發(fā)展相關(guān)的特征并將結(jié)果進行可視化分析。這些可視化的圖表數(shù)據(jù)以量化、直觀的方式為求職者的職業(yè)生涯指導提供輔助指導,為大規(guī)模細粒度研究人才職業(yè)流動行為打下基礎(chǔ)。

關(guān)鍵詞:簡歷數(shù)據(jù)分析;網(wǎng)絡(luò)爬蟲;數(shù)據(jù)可視化

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2020)36-0189-03

1 背景

根據(jù)Super(舒伯)[1-2]的職業(yè)生涯發(fā)展理論,人的職業(yè)生涯可以劃分為五個主要階段:成長階段、探索階段、建立階段、維持階段和退出階段,職業(yè)選擇和生涯規(guī)劃是人重要的發(fā)展任務(wù)之一[1-3]。職業(yè)是指人們從事的相對穩(wěn)定的、有收入、專門類別的工作,它是人們的生活方式、經(jīng)濟狀況、文化水平、行為模式、思想情感的綜合反映,也是一個人的權(quán)力、義務(wù)、利益和職責,從而是一個人社會地位的一般性表征。選擇職業(yè)是人的一生中最復雜和最重要的決定之一[1-2],人們對職業(yè)的選擇可以滿足他們的基本生存需求、價值觀和興趣,從而影響他們的生活質(zhì)量。Guay等人[4]強調(diào),職業(yè)發(fā)展是一個持續(xù)的過程,包括尋找、獲取和處理關(guān)于自己和環(huán)境的信息,個人在職業(yè)生涯中的工作變動引起的人才流動現(xiàn)象稱為職業(yè)流動行為[5]。

求職者的能力、教育水平、經(jīng)歷、技能、職業(yè)追求等均濃縮在簡歷中,簡歷可以說是求職者全面素質(zhì)和能力體現(xiàn)的縮影。隨著社會信息化的快速發(fā)展,互聯(lián)網(wǎng)上積累了大量的簡歷相關(guān)數(shù)據(jù),同時信息處理能力的快速增長、信息可視化理論和技術(shù)的不斷發(fā)展,為職業(yè)流動行為的科學研究和創(chuàng)新提供了機遇。本項目擬從簡歷數(shù)據(jù)的角度對職業(yè)流動相關(guān)問題進行可視化分析,根據(jù)Super[1-2]的職業(yè)發(fā)展理論認為人的職業(yè)選擇不是一次完成的,而是隨著環(huán)境以及個人的成長而不斷動態(tài)地發(fā)展變化,這些交互直接或者間接影響了自我的認知和職業(yè)決策能力。

本文以求職者簡歷中的性別、年齡、學歷、預(yù)期薪水、自我評價、崗位變遷等為基礎(chǔ),通過自身比對與比較不同城市的可視化數(shù)據(jù),將計算機行業(yè)中“通信/網(wǎng)絡(luò)/計算機”的職位類別在市場與人才競爭中的特點一一展現(xiàn)。這些可視化的圖表數(shù)據(jù)以量化、直觀的方式為求職者的職業(yè)生涯指導提供輔助材料,幫助求職者對該類型崗位有所理解并能找準自己的定位,招聘單位借此類圖表數(shù)據(jù)也能對崗位或人才的緊缺有所了解,并能提供符合市場需要的合理的薪酬與待遇,為大規(guī)模細粒度研究人才職業(yè)流動行為打下基礎(chǔ)。

2 相關(guān)研究工作

本論文圍繞簡歷數(shù)據(jù)爬取與可視化這一研究主題,以就業(yè)理論和生涯規(guī)劃理論為指導[6-7],采集互聯(lián)網(wǎng)上公開的簡歷相關(guān)數(shù)據(jù),自適應(yīng)抽取相關(guān)數(shù)據(jù),從這些數(shù)據(jù)中構(gòu)建職業(yè)發(fā)展相關(guān)的特征,并盡可能無損將這些特征融合在一起動態(tài)、實時、可視化展示職業(yè)發(fā)展相關(guān)指標。

與本研究相關(guān)的研究內(nèi)容,胥皇[5]提出基于屬性圖挖掘技術(shù)研究職業(yè)流動行為(職業(yè)生涯中的工作變動引起的人才流動現(xiàn)象),將流量源發(fā)現(xiàn)和流動量預(yù)估問題分別轉(zhuǎn)換成了靜態(tài)圖聚類和動態(tài)圖預(yù)測問題。Wu K等[8]一個人的職業(yè)軌跡是由他/她在不同時期的工作或?qū)W習經(jīng)歷(機構(gòu))組成的,了解人們尤其是學者的職業(yè)軌跡,可以幫助政府制定更科學的戰(zhàn)略,以分配資源和吸引人才,幫助公司制定明智的招聘計劃,以及個人找到合適的合作研究者或工作機會。Huaxiu Yao等[9]試圖從基于在多個地點共同出現(xiàn)的行為記錄構(gòu)建校園的社交網(wǎng)絡(luò),并驗證了校園社交網(wǎng)絡(luò)和學業(yè)成績的關(guān)系,表明學生的學業(yè)成績與他們的朋友圈相關(guān)。在校園社交網(wǎng)絡(luò)對學業(yè)成績有影響的基礎(chǔ)上,提出了一種新的基于多重網(wǎng)絡(luò)的標簽傳播算法來預(yù)測學業(yè)成績。Nie M.等[10]基于學生校園行為提取了四種行為特征,提出了一種基于數(shù)據(jù)驅(qū)動的職業(yè)選擇預(yù)測框架,發(fā)現(xiàn)所提取的職業(yè)技能、行為規(guī)律性和經(jīng)濟狀況與職業(yè)選擇顯著相關(guān)?;谝陨系难芯炕A(chǔ),教育管理者可以更好地指導學生的職業(yè)生涯規(guī)劃,并在必要時在早期實施有效的干預(yù)措施。

3 簡歷數(shù)據(jù)的獲取與處理

本文數(shù)據(jù)爬取、處理、可視化均是基于Python語言編寫,并使用anaconda3進行包的管理。Python語言是一種開放源代碼、一個高層次的結(jié)合了解釋性,編譯性,互動性和面向?qū)ο蟮拿赓M的跨平臺的高級語言,被稱為“膠水語言”——可以非常容易地把Java和C++等主流語言粘在一起,實現(xiàn)程序之間的聯(lián)動。

3.1 簡歷數(shù)據(jù)的獲取

本文數(shù)據(jù)主要通過網(wǎng)絡(luò)爬蟲爬取某簡歷發(fā)布與查詢網(wǎng)站而獲得。網(wǎng)絡(luò)爬蟲英文Web Crawler[11-12],是一種能按照既定的規(guī)則自動抓取互聯(lián)網(wǎng)信息的程序或者腳本,已廣泛地運用于互聯(lián)網(wǎng)的搜索引擎或者其他類似的網(wǎng)站中。從功能上來講,爬蟲通常分為網(wǎng)頁獲取、網(wǎng)頁分析、數(shù)據(jù)儲存三個部分。爬蟲的核心模塊有三個部分:URL管理器、網(wǎng)頁下載器和網(wǎng)頁解析器。

3.2 簡歷數(shù)據(jù)的處理

數(shù)據(jù)處理的基本目的是從大量的、復雜的、難以理解的數(shù)據(jù)中去粗取精,抽取并推導出有價值、有意義的信息。處理數(shù)據(jù)需要一些軟件及算法的支持,數(shù)據(jù)處理相關(guān)軟件包括:支持數(shù)據(jù)下載、模式識別等的程序設(shè)計語言及其編譯程序,管理維護數(shù)據(jù)的管理系統(tǒng),以及整合了多種數(shù)據(jù)處理方法的應(yīng)用軟件包。本文中對數(shù)據(jù)進行處理使用到的第三方庫有Jieba、re、Collections、Numpy、Pandas等。

3.3 簡歷數(shù)據(jù)的可視化

數(shù)據(jù)可視化[13-14],是針對數(shù)據(jù)視覺表現(xiàn)形式的科學技術(shù)研究,這種數(shù)據(jù)的視覺表現(xiàn)形式被定義為以某種概要形式抽提出來的信息,包括相應(yīng)信息的各種屬性、變量等。數(shù)據(jù)可視化技術(shù)主要通過圖形化手段對需要的數(shù)據(jù)進行處理,目的是展示出直觀、鮮明、分而有類的數(shù)據(jù)。數(shù)據(jù)的可視化通過直觀地傳達關(guān)鍵的方面與特征,美學形式與功能需要齊頭并進,從而實現(xiàn)對于相當稀疏而又復雜的數(shù)據(jù)集的深入洞察。論文中使用到的第三方庫有wordcloud、PIL、matplotlib.pyplotis、PyEcharts等。

4 簡歷數(shù)據(jù)可視化

本節(jié)數(shù)據(jù)選取中國五個不同城市、所求職位類別為“通信/網(wǎng)絡(luò)/計算機”的求職者簡歷,對他們簡歷中的基本信息內(nèi)容進行可視化分析。

4.1 個人簡歷可視化

針對單個簡歷數(shù)據(jù),生成該簡歷的思維導圖,如圖1所示。

隨機選取的個人簡歷在自我評價一欄,其自我評價的詞云圖如圖2所示。

4.2 簡歷基本信息數(shù)據(jù)的圖表可視化

求職者中的性別分布:性別屬性構(gòu)成僅分為“男”“女”兩種,選擇簡單明了的餅圖最為合適,不同顏色的面積大小表現(xiàn)了數(shù)值的多少。

求職者年齡組成:由于年齡跨度可能為十年甚至更多,且呈現(xiàn)明顯的男女差別需要具體到單一年齡段才能使數(shù)據(jù)更為翔實。論文中選擇以面積圖來展示求職者中男女的年齡分布,不僅僅顯示不同年齡數(shù)量的差別,更進一步顯示男女之間在求職中的年齡體現(xiàn)。

求職者學歷區(qū)別:不同求職者受教育程度在很大程度上決定了求職崗位的難度及薪水等關(guān)鍵問題,而對于同一崗位,競爭者間的學歷劃分與分布能為市場及招聘公司的人才采納規(guī)劃提供有力的支持,圖3的南丁格爾圖為求職者學歷比例,展示不同學歷的數(shù)量分布。

求職者預(yù)期薪水分布:對于同一行業(yè)同一職位,不同的求職者根據(jù)市場規(guī)律及自身條件會有不同的薪水預(yù)期,明確了解薪水的期望數(shù)值,能為招聘公司對不同職位給出的薪水標準提供有力的支持。而由于職場中男女性別的自身差異較大,對預(yù)期薪水的判斷也有明顯差別,因此特別區(qū)分男女性別在相同職位“通信/網(wǎng)絡(luò)/計算機”上的預(yù)期薪水分布。

4.3 圖表整合優(yōu)化

論文中繪制了超過20多張圖表,為了能夠方便觀察,需要在一個界面顯示多個圖表。PyEcharts可支持圖表組合,組合類型有四種:Grid、Overlap、Page、Timeline。它們的不同功能如下:

1)Grid:可將多個不同類型的圖表放在一個界面中。

2)Overlap:可將多個類型功能不同的圖表放在一張圖種同時顯示。

3)Page:可將多個圖表按順序展示在一張網(wǎng)頁中,且能放置Grid、Overlap、Timeline這三種類型的圖表。

4)Timeline:可將多個圖表繪制成輪播圖,動態(tài)播放。

根據(jù)所繪制的圖表,論文中應(yīng)用了Timeline和Page這兩種組合。論文中將所有圖表按照所代表的地區(qū)劃分,則分別有全部地區(qū)和北京、上海等五個城市的圖表,這樣的分法用Page模塊生成了6頁不同的圖表組合。同時為了能將不同城市的同一屬性進行對比,本文按照不同圖表所展示的內(nèi)容,將不同地區(qū)作為輪播圖的選擇條件,并將顯示不同內(nèi)容的輪播圖放置在同一頁面中。

5 論文總結(jié)

本論文圍繞簡歷數(shù)據(jù)可視化分析這一主題,以就業(yè)理論和生涯規(guī)劃理論為指導,爬取了互聯(lián)網(wǎng)上公開發(fā)布的求職簡歷相關(guān)的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、特征工程后,聚焦在計算機行業(yè)中“通信/網(wǎng)絡(luò)/計算機”的職位類別,以求職者簡歷中的性別、年齡、學歷、預(yù)期薪水、自我評價、崗位變遷等為基礎(chǔ),構(gòu)建了職業(yè)發(fā)展相關(guān)的特征并將結(jié)果進行了可視化分析。這些可視化的圖表數(shù)據(jù)以量化、直觀的方式為求職者的職業(yè)生涯指導提供輔助材料,幫助求職者對該類型崗位有所理解并能找準自己的定位,招聘單位借此類圖表數(shù)據(jù)也能對崗位或人才的緊缺有所了解,并能提供符合市場需要的合理的薪酬與待遇,為大規(guī)模細粒度研究人才職業(yè)流動行為打下基礎(chǔ)。

參考文獻:

[1] Super D E.A theory of vocational development[J].Theory &Practice of Vocational Guidance,1953,8(5):13-24.

[2] Super D E.A life-span,life-space approach to career development[J].Journal of Vocational Behavior,1980,16(3):282-298.

[3] 馮嘉慧.美國生涯指導理論范式研究[D].上海:華東師范大學,2019.

[4] Guay F,Ratelle C F,Senécal C,et al.Distinguishing developmental from chronic career indecision:self-efficacy,autonomy,and social support[J].Journal of Career Assessment,2006,14(2):235-251.

[5] 胥皇.基于屬性圖挖掘的職業(yè)流動行為研究[D].西安:西北工業(yè)大學, 2019.

[6] 張淼.大學生就業(yè)質(zhì)量評價指標開發(fā)及其實證檢驗[D].西安:西北工業(yè)大學,2017.

[7] 劉洋.遼寧省大學生就業(yè)偏好識別及影響因素研究[D].阜新:遼寧工程技術(shù)大學,2017.

[8] Wu K,Tang J,Zhang C H.Where have You been?inferring career trajectory from academic social network[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. 2018.

[9] Yao H X,Nie M,Su H,et al.Predicting academic performance via semi-supervised learning with constructed campus social network[M]//Database Systems for Advanced Applications.Cham:Springer International Publishing,2017:597-609.

[10] Nie M,Yang L,Sun J,et al.Advanced forecasting of career choices for college students based on campus big data[J].Frontiers of Computer Science,2018,12(3):494-503.

[11] 瑞安·米切爾. Python網(wǎng)絡(luò)爬蟲權(quán)威指南[M].神煩小寶,譯.2版.北京:人民郵電出版社,2019:92-168.

[12] 呂云翔,張揚.Python網(wǎng)絡(luò)爬蟲實戰(zhàn)[M].北京:清華大學出版社,2019:20-35.

[13] 魏世超,李歆,張宜弛,等.基于E-t-SNE的混合屬性數(shù)據(jù)降維可視化方法[J].計算機工程與應(yīng)用,2020,56(6):66-72.

[14] 張杰.Python數(shù)據(jù)可視化之美:專業(yè)圖表繪制指南(全彩)[M].北京:電子工業(yè)出版社,2020.

【通聯(lián)編輯:謝媛媛】

猜你喜歡
網(wǎng)絡(luò)爬蟲數(shù)據(jù)可視化
移動可視化架構(gòu)與關(guān)鍵技術(shù)綜述
軟件導刊(2016年12期)2017-01-21 16:36:18
大數(shù)據(jù)時代背景下本科教學質(zhì)量動態(tài)監(jiān)控系統(tǒng)的構(gòu)建
可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計研究
煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
科技傳播(2016年19期)2016-12-27 14:53:29
基于R語言的大數(shù)據(jù)審計方法研究
基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
中國市場(2016年23期)2016-07-05 04:35:08
網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究
和顺县| 哈巴河县| 开化县| 章丘市| 象山县| 额敏县| 成武县| 马边| 当阳市| 镇宁| 广灵县| 西平县| 德江县| 北辰区| 中牟县| 开阳县| 甘谷县| 广西| 巨鹿县| 景洪市| 五华县| 安阳县| 巴林左旗| 鄂尔多斯市| 郎溪县| 宁武县| 都兰县| 乐都县| 罗甸县| 漠河县| 镇坪县| 呼玛县| 普格县| 金华市| 凭祥市| 玉田县| 阿拉善盟| 万年县| 增城市| 麻城市| 章丘市|