国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本挖掘的園林專業(yè)人才需求分析

2022-05-12 09:25鄭康樂韋婷婷張建桃
現(xiàn)代計算機 2022年5期
關鍵詞:分詞薪資園林

鄭康樂,曾 莉,韋婷婷,張建桃

(華南農(nóng)業(yè)大學數(shù)學與信息學院,廣州 510642)

0 引言

近年來,伴隨新型城鎮(zhèn)化、美麗中國建設的不斷推進以及旅游產(chǎn)業(yè)的持續(xù)繁榮,園林行業(yè)呈現(xiàn)出良好的發(fā)展勢頭,對人才的需求不斷增加。雖然目前畢業(yè)生人數(shù)逐年增多,但依然存在企業(yè)人才需求與學生就業(yè)需求同時得不到滿足的情況。且當前高校園林專業(yè)畢業(yè)生還存在專業(yè)能力較低、社會能力缺乏,以及對職業(yè)生涯規(guī)劃不完善等問題。

針對園林人才培養(yǎng)與就業(yè)市場需求不相適應這一現(xiàn)狀,許多研究者從定性分析的角度,面向就業(yè)市場、區(qū)域產(chǎn)業(yè)需求,對園林專業(yè)的人才培養(yǎng)提出了改革建議。如胡金龍針對地方高校風景園林人才培養(yǎng)中存在的問題,從人才培養(yǎng)目標、專業(yè)課程體系、實踐教學體系、人才培養(yǎng)保障等方面提出了改革策略。洪艷鈮指出要形成以校企合作為重點、以政府監(jiān)管為支撐的“校企協(xié)同,工學結合”人才培養(yǎng)模式,為切實提高風景園林專業(yè)人才培養(yǎng)質量夯實基礎。邵長芬和李得發(fā)研究園林技術專業(yè)實踐教學的特點及存在問題,構建出適合園林技術專業(yè)人才市場需求的實踐教學模式和教學體系。溫娜等根據(jù)風景園林課程和專業(yè)特點,從“雙線條”“雙導師”及“雙評價”3個層面優(yōu)化了教學方式,為培養(yǎng)復合型和專業(yè)型人才、提高學生的專業(yè)技能和市場競爭力提供參考。

但鮮有利用招聘信息的文本數(shù)據(jù)對園林專業(yè)人才需求進行定量分析的研究,鑒于此,本文結合網(wǎng)絡招聘數(shù)據(jù),以市場需求為導向,利用文本挖掘技術分析招聘單位對園林專業(yè)人才的需求,幫助求職者快速找到市場需求定位,有效指導高校園林人才培養(yǎng)。

1 研究方法

利用自然語言處理及文本挖掘技術對園林專業(yè)相關的招聘信息進行文本分析,挖掘園林專業(yè)崗位的核心需求。技術路線如圖1所示,總體上對園林專業(yè)崗位的人才需求分析可以概括為以下三個階段:數(shù)據(jù)采集、數(shù)據(jù)預處理以及數(shù)據(jù)可視化。

圖1 技術路線

1.1 數(shù)據(jù)采集

2021年3月10 日,以“園林”為關鍵詞,利用Python 爬取前程無憂網(wǎng)上全國范圍內(nèi)有關園林專業(yè)的招聘信息,共獲取24313 條招聘數(shù)據(jù)。數(shù)據(jù)的字段分別為:崗位名稱、薪資、地點、相關信息、公司名稱、公司類型以及崗位要求。

1.2 數(shù)據(jù)預處理

招聘網(wǎng)站上信息抓取有時會爬取到重復的崗位,且由于部分字段是非必填項,比如公司福利等,這就會難免會出現(xiàn)缺失值,因此必須先進行去重、去缺失值處理。同時,考慮到后續(xù)需要對崗位要求文本進行分析,本文將崗位要求文本字符串長度小于30且特殊字符(如?)占全字符串長度40%以上的文本都認為是無效文本,剔除該數(shù)據(jù)。

薪資單位不統(tǒng)一:經(jīng)統(tǒng)計后發(fā)現(xiàn),薪資字段共有9 種表示方法。為方便后續(xù)可視化分析,統(tǒng)一規(guī)范為“千/月”的形式。其中,天以每月30 天進行換算,日以每天8 小時進行換算,若薪資存在上下限區(qū)間則對其進行求和平均。

地點表達不規(guī)范:通過分析地點字段,發(fā)現(xiàn)第一個詞都對應著中國的某個地級市,反之則顯示異地招聘。因此,本文搜集31個省級行政區(qū)(除香港、澳門和臺灣)下所屬的各個地級市,以及東北、華北、華南等7大地區(qū)分布,遍歷提取每一行地點中的地級市,與各省及地區(qū)所屬地級市進行匹配,若匹配成功,則返回對應省份和地區(qū),反之,則將地點標注為“其它”。

通過分析相關信息字段,發(fā)現(xiàn)大部分格式都遵從著“市區(qū),工作經(jīng)驗,學歷,招聘人數(shù)”這種寫法,比如“成都-高新區(qū),5-7年經(jīng)驗,大專,招若干人”。因此,本文從相關信息字段中提取“經(jīng)驗、學歷、招聘人數(shù)”這三個特征字段,若提取不到對應字段,則對此數(shù)據(jù)進行剔除。至此,經(jīng)過上述數(shù)據(jù)預處理后,本文保留了15569條有效的招聘數(shù)據(jù),字段分別為:崗位名稱、薪水(千/月)、招聘人數(shù)、經(jīng)驗、學歷、地區(qū)、省份、公司類型及崗位要求。

在進行中文分詞時,為了提高分詞的準確率,防止一些專有名詞被機器隨機切分開,比如“風景園林、綠化工作、工程造價”等,往往需要自定義詞典來降低切分錯誤率。本文以“園林、招聘、崗位、社會工作”等為關鍵字搜索并下載搜狗細胞詞庫中相關詞典,并通過觀察崗位要求這一列字段手動添加園林專業(yè)崗位的相關詞匯。然后,使用Python 中的jieba 加載自定義詞典。而對于崗位要求文本中的語氣詞、人稱、標點符號等特殊字符,本文則采用哈工大停用詞,并根據(jù)文本實際情況,手動添加了“備注、任職要求、崗位要求、有限公司”等相關詞匯,便于提高文本分詞的準確度。圖2是經(jīng)過分詞和去除停用詞后的文本。

圖2 分詞及去除停用詞部分結果

由于進行jieba 分詞后文本間可能會出現(xiàn)重復值,且分詞后每行文本的字符串長度都會遞減,有些甚至會減少到0。因此,有必要對文本進行進一步的清洗。本文對崗位要求中所有分詞字符串總長度小于30 的數(shù)據(jù)進行剔除,再進行去重操作。經(jīng)文本預處理后,崗位要求全部文本平均長度約為203個,最小值為31個,最大值為3828個。

1.3 LDA提取主題詞

潛在狄利克雷分配(Latent Dirichlet Alloca?tion,LDA)模型是由Blei DM 等人于2003年提出的,它采用無監(jiān)督的學習方法找出文本中所隱含的主題,其中的主題是一篇文檔中所包含的中心思想,在模型中主題被看作由一些服從特定概率分布的詞語構成,可用此模型得到文檔的主題分布,通過分析文檔的主題分布和主題對應的詞分布,可以進行主題詞的提取。

主題數(shù)的選取是LDA 建模最為關鍵的一步。一般地,主題數(shù)若選取過多,會導致主題提取過細,各部分重合度過高;主題數(shù)過少又會導致不同概念可能會歸納到同一個主題里,降低文本主題的可讀性。

本文采取LDA模型的困惑度指標(perplex?ity)以及基于經(jīng)驗和主觀判斷對實際模型不斷調參,繪制崗位要求字段困惑度的學習曲線,來選取最佳的主題數(shù)。LDA 模型的困惑度計算公式如下所示。

其中,表示語料庫中的測試集,本文采用隨機選擇語料庫中20%的文檔作為測試集,剩下80%的文檔作為訓練集。是文檔的篇數(shù),N表示文檔中詞,(W)表示文檔中W一詞產(chǎn)生的概率。一般來說,困惑度越低,提取主題的效果越好。

2 數(shù)據(jù)可視化展示及分析

2.1 公司類型描述

由圖3可知,共有11 種不同類型的公司。其中,發(fā)布園林類崗位招聘信息最多的是民營公司,共計12548 家,占比約為80.6%;其次是國企,共計1052 家,占比約為6.76%;發(fā)布量排名第三的則是上市公司,共計980家,占比約為6.29%;合資和外資公司也對園林類崗位人才有所需求,在樣本中有470 家(3.02%)合資公司和332 家(2.13%)外資公司發(fā)布了招聘信息;而創(chuàng)業(yè)公司、非營利組織、事業(yè)單位、政府機關以及政企代表處對園林類崗位發(fā)布招聘信息較少。

圖3 發(fā)布招聘信息公司類型及其數(shù)量分布

2.2 工作經(jīng)驗分析

從圖4可以看出,在工作經(jīng)驗要求上,有28.96%的公司要求園林人才有4年工作經(jīng)驗,要求6年工作經(jīng)驗的公司占比達到了20.84%,而要求2年、1年以及無工作經(jīng)驗的公司占比差別不大(分別為16.71%、14.66%和11.78%),要求有8年和10年工作經(jīng)驗的公司累計占比約為7.04%。由此可見,公司比較看重有豐富工作經(jīng)驗的園林人才。因而,園林專業(yè)的學生需通過實踐不斷充實工作經(jīng)歷,在提升能力的同時積累自身經(jīng)驗。

圖4 工作經(jīng)驗分析

2.3 學歷與薪資分析

本文將薪資大于40 千/月的數(shù)據(jù)作為異常值進行剔除,繪制圖5的學歷與薪資箱線圖??梢钥闯?,大專、中專以及高中的箱線圖較為類似,薪資的中位數(shù)也較為接近,基本上穩(wěn)定在6~8千/月,但大專薪資內(nèi)限以外的異常值較多,部分人最高薪資甚至可以達到40 千/月;本科與碩士的薪資中位數(shù)在10~13 千/月,從數(shù)據(jù)分布上來看,本科的薪資相比碩士來說更為分散,但兩者就業(yè)薪資趨勢大體上基本一致;初中及以下薪資中位數(shù)最低,為3~5 千/月,而博士薪資中位數(shù)最高,為19~22 千/月,其下四分位數(shù)也基本等同于本科薪資的中位數(shù)。由此可見,園林人才學歷越高,就業(yè)競爭中優(yōu)勢越明顯,薪資水平也會更高。

圖5 學歷與薪資箱線圖

2.4 學歷和地區(qū)需求分析

從圖6可以看到,大專的招聘人數(shù)需求最為旺盛,共計18687人,占比59.86%;其次是本科,共計9309人,占比29.82%;中專所招人數(shù)1856人(5.95%); 高 中 所 招人 數(shù) 為964人(3.09%);初中及以下所招人數(shù)183人(0.59%);碩士所招人數(shù)199人(0.64%);而博士在累計招聘人數(shù)為31217人中只招19人。由此可見,園林專業(yè)崗位的招聘人數(shù)所需學歷主要以大專和本科為主,占市場需求89.68%。

圖6 學歷招聘人數(shù)折線圖

從圖7、圖8可以直觀地看出,園林專業(yè)崗位人才在地理位置上的需求差異。

圖7 招聘人數(shù)地區(qū)條形圖

圖8 招聘人數(shù)省份分布

華東地區(qū)招聘人數(shù)最多,為9199人,占全國園林崗位招聘需求的29.47%,其中華東地區(qū)以江蘇、浙江、上海等發(fā)達省市為主,分別提供了3112、2708、1714個招聘名額;華南地區(qū)招聘人數(shù)為6691人,占全國園林崗位招聘需求的21.43%,其中以廣東省為主力軍,為整個華

南地區(qū)提供了6395個招聘名額,需求量在全國省市中最為旺盛;地區(qū)分布中標注為“其它”表示異地招聘,并不直接說明工作地點,但其招聘人數(shù)也達到了5695人,占比18.24%;西南地區(qū)招聘4143人,占比13.27%,其中四川、重慶、云南分別為西南地區(qū)提供了2183、1123、765個招聘名額;華中地區(qū)招聘3111人,占比9.97%,其中湖北、湖南、河南分別提供2231、538、342個招聘名額;西北地區(qū)招聘1024人,占比3.28%,其中陜西、甘肅分別提供962、36個招聘名額;華北地區(qū)招聘815人,占比2.61%,其中北京、天津、河北分別提供607、120、71個招聘名額;東北地區(qū)招聘人數(shù)最少,為539人,占比1.73%,其中遼寧、黑龍江、吉林分別提供423、60、56個招聘名額。綜上所述,園林專業(yè)的招聘單位主要集中在華東和華南地區(qū),其中以廣東、江蘇、浙江、湖北、四川、上海、重慶等發(fā)達省市為主。

2.5 “崗位要求”字段的LDA可視化

本文在不同主題數(shù)下計算崗位要求字段的LDA困惑度如圖9所示??梢钥闯?,當主題數(shù)取值在1~3 時,困惑度斜率變化最大,而當主題數(shù)大于3時,斜率變化較為平緩,此時的困惑度也相對較小,說明主題數(shù)為3可以較好提取崗位要求文本中的主題。因此,本文將3作為崗位要求字段LDA主題模型訓練的主題數(shù)。

圖9 崗位要求字段的LDA困惑度

運用LDA 模型可得到崗位要求字段中3個主題分布下的特征詞,而對于那些與主題無關且實際意義不大的詞語,進行人工剔除后選取每個主題下前30個權重值最大的特征詞,接著利用Python 中封裝好的WordCloud 包對3個主題的特征詞進行可視化繪制,效果如圖10—圖12所示。下列各主題的前30個特征詞占120 萬個分詞的權重值依次為29.42%、 32.86%和12.37%。

圖10 主題1工程能力詞云圖

圖11 主題2設計能力詞云圖

圖12 主題3業(yè)務和管理能力詞云圖

圖10—圖12可以看出,輸出的詞云圖分別代表企業(yè)招聘信息中蘊含著對園林專業(yè)崗位的三方面要求。從主題1和主題2 輸出的特征詞可以發(fā)現(xiàn),兩個主題所反映的能力均與園林專業(yè)所學知識密切相關,可以將兩者概括為專業(yè)上的“硬技能”,且兩者在所有分詞中的綜合權重為62.28%,說明招聘單位極為看重這方面的能力。從高校園林人才培養(yǎng)的角度出發(fā),結合園林專業(yè)綜合性和實踐性較強的特點,可以將主題1 的前30個特征詞概括為工程能力,主要體現(xiàn)在園林工程學和園林建設項目管理等課程上,強調園林人才需要以項目為驅動來夯實專業(yè)基礎知識,培養(yǎng)工程師思維,以及在項目運營中充分鍛煉計劃、組織、控制以及現(xiàn)場施工能力;主題2 的前30個特征詞則可以概括為設計能力,主要體現(xiàn)在中國園林設計和園林建筑學等課程上,強調園林人才需要提高自主設計與創(chuàng)新能力,熟練掌握CAD、PS和SU等軟件的使用方法,在實際項目中能獨立進行方案和景觀設計,且需在團隊中具備溝通、合作以及高度的責任感。主題3的特征詞則更多的從市場的角度出發(fā),注重園林人才“軟實力”方面上的要求,因而可以將前30個特征詞概括為業(yè)務和管理能力,強調園林人才需要投身于社會實踐中不斷提高自身的產(chǎn)品和服務意識,培養(yǎng)科學、全面及文檔化的管理思維,在市場中磨練銷售、營銷和業(yè)務能力,從而敏銳判斷行業(yè)的發(fā)展趨勢,并做出準確的評估。

3 建議和結論

3.1 建議

結合上文對數(shù)據(jù)可視化的結果,對高校園林專業(yè)人才培養(yǎng)提出以下建議。

從工作經(jīng)驗分析中可知,88.22%的招聘單位對工作經(jīng)驗有一定的要求,說明企業(yè)十分看重求職者的實踐經(jīng)驗。因此學??梢酝ㄟ^強化教育服務體系建設,將職業(yè)指導與日常的專業(yè)學習密切結合等方式,為學生爭取更多的企業(yè)實踐機會,可將目光重點聚焦在廣東、江蘇、浙江、湖北等園林專業(yè)崗位需求旺盛的發(fā)達省市中,為學生爭取到寶貴的實習機會,讓他們將所學知識充分運用到實踐中。

由LDA 提取崗位要求字段的“硬技能”可知,工程能力和設計能力相關詞語在所有分詞文本中占綜合權重為62.28%,說明大多數(shù)招聘單位都重視園林專業(yè)學生的工程思維、自主創(chuàng)新能力和綜合實踐水平,強調學生對基礎知識的理解和運用。因此,在課程設置上,各大高校可在充分調研用人單位和往屆畢業(yè)生的基礎上,合理修訂原有人才培養(yǎng)方案,適當增加實踐課的比重,如生態(tài)園林設計和園林工程學的課程實訓等。綜合類院校則需要增加更貼合招聘單位需求的實踐應用課程,讓學生能在交流中進行思維共享和理論碰撞,充分將所學知識運用到園林規(guī)劃設計項目的各個環(huán)節(jié)中,夯實專業(yè)基礎知識,真正培養(yǎng)學生的工程能力和設計能力,提高專業(yè)核心素養(yǎng)。

綜合LDA 所提取的“硬技能”和“軟實力”來看,3個主題的前30個特征詞在所有分詞文本中累計權重為74.65%,說明招聘單位十分注重園林人才將專業(yè)知識與實際項目融會貫通,以及在工作中交流、表達的能力,著重從多方面考察學生在專業(yè)上的綜合素質。因此,各大高校可以通過完善校企協(xié)同育人相關制度建設、出臺保障措施等方式,圍繞應用型、復合型、高素質園林人才的培養(yǎng)目標,引導民營公司等企業(yè)積極參與到人才培養(yǎng)方案制定和具體課程設置改革中來,豐富課堂教學形式,培養(yǎng)學生橫向和縱向思維能力,擴寬個人眼界,全面提高學生的實踐創(chuàng)新能力和綜合素質。

3.2 結論

隨著新型城鎮(zhèn)化、美麗中國建設的不斷推進以及旅游產(chǎn)業(yè)的持續(xù)繁榮,新常態(tài)下園林行業(yè)及相關產(chǎn)業(yè)對園林人才的需求變得越來越旺盛。通過對園林專業(yè)網(wǎng)絡招聘信息進行文本分析,可以幫助致力于往園林方向發(fā)展的求職者,并有效指導高校園林人才培養(yǎng)。在生態(tài)文明建設日益加強的背景下,高等院校作為園林專業(yè)人才的主要供給主體,應當從提升學生的“硬技能”和“軟實力”兩方面入手,以面向就業(yè)市場需求為導向,既要改革自身的教育教學體系,又要強化校企協(xié)同育人,全方面提升學生的實踐創(chuàng)新能力,培養(yǎng)具有核心就業(yè)競爭力的園林人才。

猜你喜歡
分詞薪資園林
《園林清音》
園林一角與位置經(jīng)營
不簡單以“住房薪資”引才——遵循“一步一重天”的人才發(fā)展規(guī)律
分詞在英語教學中的妙用
在園林里遇見自己
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
聚焦現(xiàn)在完成進行時
新兴县| 三门县| 上虞市| 虞城县| 茂名市| 宁津县| 多伦县| 习水县| 阿城市| 奇台县| 栾川县| 乌海市| 广东省| 道真| 德安县| 泸溪县| 达日县| 博野县| 新建县| 云梦县| 武夷山市| 青州市| 阿合奇县| 五台县| 勃利县| 枣强县| 贵州省| 项城市| 文安县| 新绛县| 临夏市| 宜昌市| 巴林左旗| 台江县| 广德县| 洛南县| 荥阳市| 聂荣县| 和硕县| 徐汇区| 丰镇市|