国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于NLP的IT崗位需求分析研究

2022-07-07 06:46:12劉邵宏
現(xiàn)代信息科技 2022年4期
關鍵詞:大數(shù)據(jù)技術

摘? 要:文章以IT高水平專業(yè)群建設為例,通過自然語言處理(NLP)對IT產(chǎn)業(yè)崗位需求進行了大數(shù)據(jù)分析,依次采用DBSCAN聚類和LDA概率主題模型,分析得到了4類崗位簇與5個技能模塊關系矩陣。文章采用LTP依存句法提取崗位簇技能、知識、素質(zhì)模塊,進一步為厘清高水平專業(yè)群組群邏輯、完善人才培養(yǎng)模式、增強職業(yè)技術教育適應性提供了技術支持。

關鍵詞:大數(shù)據(jù)技術;NLP;IT崗位;高水平專業(yè)群

中圖分類號:TP391.1;G717? ? ? ? ? ? ?文獻標識碼:A文章編號:2096-4706(2022)04-0161-04

Research on IT Post Demand Analysis Based on NLP

—Take the Construction of IT High Level Professional Group As an Example

LIU Shaohong

(Guangdong Nanhua Vocational College of Industry and Commerce, Guangzhou? 510095, China)

Abstract: This paper takes IT high level professional group construction as an example, analyses the big data of IT industry post demand through natural language processing (NLP), uses the DBSCAN clustering and the LDA probability theme model successively, analyzes and obtains four kinds of post clusters and five skill module relationship matrices. This paper uses the LTP dependence syntactic extraction post cluster skill, knowledge, quality module, and then further provides technical support of clarifying the logic of high level professional group, improving talent training mode, enhancing the adaptability of vocational and technical education.

Keywords: big data technology; NLP; IT post; high level professional group

0? 引? 言

針對中辦、國辦印發(fā)《關于推動現(xiàn)代職業(yè)教育高質(zhì)量發(fā)展的意見》[1]和《“十四五”規(guī)劃和2035年遠景目標綱要》[2]提出的增強職業(yè)技術教育適應性目標,文章[3]提出“雙高建設”背景下提升高職教育質(zhì)量的路徑為構(gòu)建特色化人才培養(yǎng)模式,構(gòu)建與地方的產(chǎn)業(yè)形態(tài)、行業(yè)特點、企業(yè)經(jīng)營相輔相成,與勞動力市場需求緊密貼合的人才培養(yǎng)模式。

按照教育部頒發(fā)的《中國特色高水平高職學校和專業(yè)群建設計劃申報書》[4]中提出“組群邏輯”一欄專業(yè)群組群邏輯敘述要求,文章[5]指出當前高水平專業(yè)群組群邏輯普遍研究不足、內(nèi)部邏輯較少涉及,以及在組建過程中并未遵循嚴格的組群邏輯問題,需要厘清組群邏輯的結(jié)構(gòu)與機理等。文章[6]提出從技術鏈出發(fā)深化專業(yè)群頂層設計,依據(jù)組群邏輯重組群內(nèi)資源,推進制度體系保障工作,實現(xiàn)專業(yè)群可持續(xù)發(fā)展。

針對以上問題和解決思路,借助自然語言處理(NLP)等大數(shù)據(jù)分析挖掘技術,通過常態(tài)化實時準確感知勞動力市場需求,對解決當前高水平專業(yè)群建設組群邏輯問題、完善人才培養(yǎng)方案、增強職業(yè)教育適應性具有現(xiàn)實而長遠的指導意義。

1? 算法框架

如圖1所示算法主要包括6個步驟:第一步:數(shù)據(jù)采集,應用Requests技術收集崗位信息;第二步:數(shù)據(jù)清洗,進行數(shù)據(jù)查重、變換和清洗;第三步:崗位簇聚類分析,利用DBSCAN聚類與專家判斷相結(jié)合的方法提煉;第四步:LDA主題分析,應用LDA概率主題模型提煉崗位簇和技能集關系矩陣;第五步:依存句法分析,應用依存句法分析提煉崗位簇知識、技能和素質(zhì)技能特征集;第六步:分析專業(yè)群組群邏輯,構(gòu)建專業(yè)群人才培養(yǎng)模式。

2? 數(shù)據(jù)來源及清洗

2.1? 數(shù)據(jù)來源

以某招聘網(wǎng)站發(fā)布的13+萬條IT崗位數(shù)據(jù)為數(shù)據(jù)來源,數(shù)據(jù)包括招聘信息ID、公司名稱、崗位名稱、薪酬、工作地點、工作年限要求、學歷要求、信息公布時間、崗位描述等特征。

2.2? 數(shù)據(jù)清洗

數(shù)據(jù)清洗包括去除同一崗位的招聘重復信息,去除崗位名稱中包含的異常符號、數(shù)字和無效數(shù)據(jù)。經(jīng)Jieba分詞、去除停用詞、無效詞后進行分析。

3? 數(shù)據(jù)挖掘分析

3.1? 產(chǎn)業(yè)崗位、城市和學歷分布

IT產(chǎn)業(yè)涵蓋上游、中游和下游產(chǎn)業(yè),具體包括電子電路/傳感器、網(wǎng)絡通信、計算機硬件、計算機軟件、信息中介/服務業(yè)等。通過對行業(yè)字段統(tǒng)計分析,如圖2(a,b)所示,IT崗位需求占整個崗位需求的36.6%崗位,共計69 579條。

從城市分布圖3(a,b)看,IT產(chǎn)業(yè)人才需求80%主要集中在一線城市(北京、上海、廣州、深圳)以及新一線城市(成都、杭州、武漢、南京、長沙、天津等15個)。而廣州、深圳核心城市及珠海、惠州、東莞、肇慶、佛山、中山、江門、澳門等粵港澳大灣區(qū)城市群崗位占比達34.2%。

3.2? 崗位簇聚類分析

因主題數(shù)量未知,故與文章[7]采用基于質(zhì)心的K-means聚類算法需要事先確定主題數(shù)量不同,本文采用基于密度的DBSCAN聚類算法,該算法能夠自動確定聚類簇數(shù),并有效消除噪聲和異常點的干擾,尤其可以發(fā)現(xiàn)任意形狀的聚類簇。

從學歷分布圖4看,IT崗位對本科學歷的需求最大,占44%,其次??茷?1%,表明產(chǎn)業(yè)對專科及以上層次高素質(zhì)技能人才的需求較大。

依次對崗位名稱進行分詞、詞性標注、TF-IDF詞權(quán)重、基于詞性的新權(quán)重、并調(diào)整距離閾值和鄰域樣本數(shù)閾值參數(shù)分別為eps=0.5,min_samples=3最終聚類得到前200簇類名稱,分析得到IT需求量較大的4大崗位簇及對應崗位名稱、數(shù)量情況,如表1所示,其中以大數(shù)據(jù)分析為代表的新一代信息技術崗位需求逐漸增多。

3.3? LDA主題聚類分析

使用Gensim LDA聚類分析方法對崗位簇相應主題和技能進行聚類,輸入崗位描述,輸出為相應的主題概率和關鍵詞。首先計算了主題數(shù)量N取值為2~10時的多個模型主題數(shù)困惑度和一致度曲線,如圖5所示,綜合困惑度最小化、一致性最大化原則,取主題數(shù)量N=7可視化輸出為pyLDAvis主題模型如圖6所示。

分析圖6可知,除了主題3為員工福利外,其余6個主題均與專業(yè)技能有關,其中主題5包含在主題7中,可以合并為一個主題,故可聚類開發(fā)、測試、軟件、實驗、運維5個主題技能集,以及對應頻次最高的15個技能詞,如表2所示。

3.4? 需求矩陣分析

按照崗位簇中所有崗位對每一個技能集需求程度的平均值歸一化[7]后,得到4個崗位簇對于5個技能集的需求矩陣表3和重要度指數(shù)表4(其中的重要度指數(shù)*的數(shù)量為表3數(shù)據(jù)整數(shù)部分)。

3.5? 結(jié)果可視化

將表4崗位簇技能集重要度指數(shù)可視化為?;鶊D,如圖7所示,中間連接線寬度表示指數(shù)大小。分析可知:開發(fā)、軟件技能與軟件開發(fā)崗位簇強相關;軟件、測試、實驗技能與軟件測試崗位簇強相關;測試、實驗技能與大數(shù)據(jù)分析崗位簇強相關;而運維技能與網(wǎng)絡運維崗位簇強相關。由技能難度分析,4類崗位簇中軟件開發(fā)難度最大;而大數(shù)據(jù)分析崗位的技能難度相對較低,一定程度反映當前大數(shù)據(jù)分析崗位技能要求與??茖哟嗡讲罹噍^大。

4? LTP依存句法分析

本文使用哈工大的PYLTP分析算法如圖8所示,別對4類崗位簇進行主謂賓關系句法分析,精準抽取知識、技能和素質(zhì)關系事實三元組,這里以軟件開發(fā)崗位簇分析為例,可視化輸出詞云圖如圖9所示。

分析詞云圖可知,4大崗位簇均涵蓋操作系統(tǒng)和服務器原理、數(shù)據(jù)庫原理、編程等知識技能,以及學習、溝通、協(xié)作、責任、服務等素質(zhì),以上可作為專業(yè)群平臺模塊。而項目經(jīng)驗可作為拓展模塊納入人才培養(yǎng)方案中。以人才培養(yǎng)方案為基礎構(gòu)建IT專業(yè)群組群邏輯如圖10所示。

5? 結(jié)? 論

本研究基于13+萬的崗位大數(shù)據(jù),依次采用DBSCAN聚類分析、LDA主題模型、LTP依存句法分析,對崗位簇和技能集分別進行了大數(shù)據(jù)分析挖掘,以下為具體結(jié)論:(1)IT產(chǎn)業(yè)崗位占比整個崗位需求的36.6%;其中面向粵港澳大灣區(qū)城市占比33%;面向?qū)?茖哟握急?9%,故面向粵港澳大灣區(qū)城市群高職IT崗位需求數(shù)(占比)為5 800(4.5%)確保了專業(yè)覆蓋面和地域特色。(2)由表4可知:軟件開發(fā)崗位簇以開發(fā)、軟件技能培養(yǎng)為主;軟件測試崗位簇培養(yǎng)測試、軟件、實驗技能為主;大數(shù)據(jù)分析崗位簇培養(yǎng)測試、實驗技能為主;網(wǎng)絡運維崗位簇培養(yǎng)運維技能為主;以上較真實地反映了當前IT崗位對人才技能的需求,可作為IT專業(yè)(群)人才培養(yǎng)技能目標。(3)按照4類崗位簇對應4個專業(yè)(群),并結(jié)合5個技能模塊需求關系,加上平臺和拓展2個技能模塊,作為IT專業(yè)群組群邏輯圖10,并以此為基礎構(gòu)建高水平專業(yè)群人才培養(yǎng)模式,能夠較好地適應IT產(chǎn)業(yè)對人才的需求。

參考文獻:

[1] 中共中央辦公廳 國務院辦公廳印發(fā)《關于推動現(xiàn)代職業(yè)教育高質(zhì)量發(fā)展的意見》[EB/OL].[2021-12-12].http://www.gov.cn/zhengce/2021-10/12/content_5642120.htm.

[2]打造現(xiàn)代化職業(yè)教育體系(人民時評) [EB/OL].[2021-12-12].http://paper.people.com.cn/rmrb/html/2021-11/02/nw.D110000renmrb_20211102_1-05.htm.

[3] 李明慧,曾紹瑋.“雙高計劃”背景下高職教育質(zhì)量提升的方向、難點與路徑 [J].教育與職業(yè),2021(13):42-47.

[4] 教育部辦公廳、財政部辦公廳關于開展中國特色高水平高職學校和專業(yè)建設計劃項目申報的通知 [EB/OL].(2019-04-19).http://www.moe.gov.cn/srcsite/A07/moe_737/s3876_qt/201904/t20190419_378876.html.

[5] 張新民,楊文濤.論高職院校專業(yè)群建設的組群邏輯 [J].職教論壇,2021,37(7):6-12.

[6] 沈建根,石偉平.高職教育專業(yè)群建設概念、內(nèi)涵與機制 [J].中國高教研究,2011(11):78-80.

[7] 徐正麗,文博奚,謝梅英,等.基于大數(shù)據(jù)技術的AI崗位需求分析研究 [J].廣西科學,2021.28(3):321-329.

作者簡介:劉邵宏(1972—),男,漢族,湖南邵陽人,副教授,工學碩士,主要研究方向:大數(shù)據(jù)技術、智能裝備設計與制造。

猜你喜歡
大數(shù)據(jù)技術
善用“互聯(lián)網(wǎng)+” 提升政府善治能力
前線(2016年12期)2017-01-14 03:54:04
大數(shù)據(jù)技術之一“數(shù)據(jù)標識”
科技資訊(2016年25期)2016-12-27 18:38:16
基于大數(shù)據(jù)技術的O2O跨境電商客戶信息研究
大數(shù)據(jù)技術在霧霾治理中的應用
淺談大數(shù)據(jù)技術在互聯(lián)網(wǎng)金融中的應用
大數(shù)據(jù)技術在電子商務中的應用
大數(shù)據(jù)技術對新聞業(yè)務的影響研究
論大數(shù)據(jù)技術在智能電網(wǎng)中的應用
高校檔案管理信息服務中大數(shù)據(jù)技術的應用
大數(shù)據(jù)技術在電氣工程中的應用探討
安顺市| 浙江省| 离岛区| 平山县| 扎鲁特旗| 扎囊县| 亚东县| 武平县| 湾仔区| 增城市| 额尔古纳市| 奎屯市| 淮阳县| 正定县| 如东县| 岐山县| 永平县| 曲沃县| 丰城市| 锡林郭勒盟| 洮南市| 商河县| 黄山市| 婺源县| 南乐县| 怀远县| 洮南市| 遵义市| 犍为县| 雅安市| 聊城市| 扬中市| 黄浦区| 油尖旺区| 于都县| 澄城县| 高要市| 金塔县| 隆化县| 云和县| 新巴尔虎左旗|