摘 要:近年來高校學(xué)生就業(yè)壓力逐漸增加,國家相關(guān)部門出臺了許多政策、舉措促進(jìn)就業(yè)。為了幫助學(xué)生實(shí)現(xiàn)合理就業(yè),輔助高校更好地制定和實(shí)施就業(yè)政策、開展就業(yè)教育工作,文章開發(fā)并實(shí)現(xiàn)了畢業(yè)生數(shù)據(jù)分析與就業(yè)服務(wù)可視化平臺。通過對就業(yè)數(shù)據(jù)開展多維度分析,直觀展示就業(yè)基本情況。并采集招聘網(wǎng)站上每個(gè)專業(yè)的熱門崗位的技能需求,再利用自然語言處理算法建立崗位能力所需要的知識圖譜與學(xué)習(xí)地圖,整合構(gòu)建就業(yè)服務(wù)可視化交互平臺。通過平臺輔助學(xué)生學(xué)習(xí)與就業(yè),實(shí)現(xiàn)技術(shù)賦能高校就業(yè)管理工作。
關(guān)鍵詞:數(shù)據(jù)可視化;TF-IDF;就業(yè)服務(wù);設(shè)計(jì)與實(shí)現(xiàn)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2024)17-0083-06
0 引 言
近年來,部分行業(yè)市場主體遇到暫時(shí)性困難,同時(shí)受經(jīng)濟(jì)形勢的影響,部分企業(yè)已經(jīng)出現(xiàn)減招、縮招現(xiàn)象,客觀上加大了求職難度,使得青年失業(yè)率階段性升高?!胺€(wěn)就業(yè)—多措并舉保持就業(yè)形勢穩(wěn)定”是中央針對就業(yè)提出的舉措,作為“六穩(wěn)”工作之首,高校畢業(yè)生就業(yè)問題成為高校工作重點(diǎn),同時(shí)也被放在我國經(jīng)濟(jì)工作突出位置,成為社會矚目的焦點(diǎn)[1]。
在當(dāng)前高校培養(yǎng)細(xì)分專業(yè)技能,以及豐富資源與碎片化課程學(xué)習(xí)模式下,大學(xué)生如果自我認(rèn)識不足,就業(yè)方向需求與自身能力培養(yǎng)未能形成正確的認(rèn)識,則往往難以聚焦關(guān)鍵。所掌握技能與崗位需求不能有效匹配已成為影響大學(xué)生就業(yè)難的重要因素之一。在信息化時(shí)代,大數(shù)據(jù)的發(fā)展也給學(xué)校的管理帶來了方便。每年對畢業(yè)生的各類情況進(jìn)行分析,是提高教育質(zhì)量的一個(gè)重要抓手和舉措,對進(jìn)一步完善就業(yè)狀況反饋機(jī)制,引導(dǎo)高校調(diào)整專業(yè)結(jié)構(gòu)、創(chuàng)新培養(yǎng)模式、強(qiáng)化以學(xué)生為本,及時(shí)回應(yīng)社會關(guān)切、接受社會監(jiān)督具有重要意義。
新技術(shù)的應(yīng)用正當(dāng)其時(shí),基于上述要求,我們借助Python和自然語言處理算法[2],對某高校的畢業(yè)生就業(yè)數(shù)據(jù)進(jìn)行多維度分析,其次,利用爬蟲技術(shù)對當(dāng)前熱門招聘崗位技能進(jìn)行爬取,分析不同崗位的核心技能需求,構(gòu)造學(xué)生的知識地圖,幫助引導(dǎo)學(xué)生進(jìn)行知識構(gòu)建,從而選擇合適崗位,同時(shí)提高學(xué)校的就業(yè)質(zhì)量。
1 研究設(shè)計(jì)
1.1 數(shù)據(jù)來源
為了能夠更加直觀地了解高校大學(xué)生就業(yè)現(xiàn)狀,本項(xiàng)目收集了某高校2020屆畢業(yè)生相關(guān)數(shù)據(jù),包括不同學(xué)院、不同專業(yè)畢業(yè)生人數(shù)、就業(yè)方向、工資待遇、崗位等多個(gè)維度信息,同時(shí)結(jié)合收集得到的企業(yè)關(guān)于畢業(yè)生的問卷調(diào)查,包含工作與專業(yè)相關(guān)性、用人單位需求與學(xué)生掌握程度、聘用本校畢業(yè)生渠道等字段。同時(shí),為了構(gòu)造不同專業(yè)熱門崗位的核心技能,爬取了2022年拉勾網(wǎng)招聘平臺對崗位詳細(xì)信息。因此,本文研究均來源于以上數(shù)據(jù)。
1.2 研究方法及工具
本文采用基于ECharts的可視化分析框架進(jìn)行數(shù)據(jù)展示與分析,頁面上的各類圖表實(shí)現(xiàn)采用ECharts。
ECharts是一個(gè)基于JavaScript和HTML5的數(shù)據(jù)可視化庫,具有高度的可定制性、交互性、動(dòng)態(tài)性和兼容性,支持多種圖表類型,包括折線圖、柱狀圖、散點(diǎn)圖、餅圖等,我們可以根據(jù)不同的需求選擇最合適的圖表類型,更好地展示數(shù)據(jù)信息[3]。通過這些技術(shù)和工具的有機(jī)組合,構(gòu)建出的數(shù)據(jù)可視化系統(tǒng),為研究和實(shí)踐提供了更好的支持和保障。
2 可視化分析平臺系統(tǒng)設(shè)計(jì)
2.1 總體架構(gòu)設(shè)計(jì)
根據(jù)數(shù)據(jù)分析及系統(tǒng)功能需求,后端開發(fā)采用Spring+Spring MVC+MyBatis框架,前端開發(fā)采用Vue+I(xiàn)viewUI,頁面上的各類圖表實(shí)現(xiàn)采用ECharts[4]。平臺任務(wù)分為三大模塊:就業(yè)基本情況、就業(yè)相關(guān)分析、就業(yè)知識圖譜。
該平臺的總體架構(gòu)設(shè)計(jì)采用微服務(wù)架構(gòu)、前后端分離的模式[5],共分為4個(gè)部分:數(shù)據(jù)存儲層、數(shù)據(jù)訪問層、業(yè)務(wù)邏輯層和數(shù)據(jù)可視化層,如圖1所示。
根據(jù)總體分析需求,各層的主要功能如下:
1)數(shù)據(jù)存儲層。將收集到的畢業(yè)生個(gè)人信息、就業(yè)相關(guān)數(shù)據(jù)和爬取到的崗位信息數(shù)據(jù)位基礎(chǔ)構(gòu)建數(shù)據(jù)庫,采用MySQL作為數(shù)據(jù)庫管理系統(tǒng),對數(shù)據(jù)可視化平臺提供數(shù)據(jù)支持。
2)數(shù)據(jù)訪問層。采用JDBC數(shù)據(jù)鏈接管理方法與數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行交互,將結(jié)果集轉(zhuǎn)換為實(shí)體對象,傳輸給下一層業(yè)務(wù)邏輯層[6]。
3)業(yè)務(wù)邏輯層。包含一些復(fù)雜的計(jì)算和數(shù)據(jù)處理操作,例如數(shù)據(jù)的篩選、排序、聚合等,以Json數(shù)據(jù)形式發(fā)送給數(shù)據(jù)表示層。
4)使用Servlet和動(dòng)態(tài)網(wǎng)頁開發(fā)技術(shù)可以方便地構(gòu)建交互式的Web應(yīng)用程序[7]。通過Servlet,可以將業(yè)務(wù)邏輯層的數(shù)據(jù)處理和算法計(jì)算結(jié)果傳遞給前端頁面進(jìn)行展示。而采用ECharts可視化工具可以將數(shù)據(jù)以圖表的形式直觀地展示在Web平臺的前端頁面上,為用戶提供清晰、易于理解的數(shù)據(jù)視圖。
2.2 功能架構(gòu)設(shè)計(jì)
根據(jù)數(shù)據(jù)分析及系統(tǒng)功能需求,平臺功能設(shè)計(jì)為:數(shù)據(jù)獲取、數(shù)據(jù)可視化分析展示、系統(tǒng)維護(hù),其中三大模塊,模塊一為就業(yè)基本情況、就業(yè)相關(guān)分析、就業(yè)知識圖譜,如圖2所示。
各功能模塊具體內(nèi)容如下:
1)數(shù)據(jù)獲取。通過訪問畢業(yè)生相關(guān)信息、就業(yè)相關(guān)數(shù)據(jù)、崗位基本情況的數(shù)據(jù)庫,用戶查詢當(dāng)前針對自身需求的相關(guān)崗位信息。
2)數(shù)據(jù)可視化分析展示:利用ECharts可視化庫展示3個(gè)模塊內(nèi)容,包括就業(yè)基本情況、就業(yè)相關(guān)分析、就業(yè)知識圖譜。在就業(yè)知識圖譜模塊,根據(jù)不同專業(yè)、不同崗位的選擇,可展示TF-IDF算法計(jì)算結(jié)果得到的不同崗位內(nèi)容展示。
3)系統(tǒng)維護(hù)。該模塊包括用戶管理和數(shù)據(jù)維護(hù),實(shí)現(xiàn)對畢業(yè)生就業(yè)數(shù)據(jù)的維護(hù)和用戶的管理功能。
2.3 TF-IDF算法研究與應(yīng)用
在信息檢索當(dāng)中,詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)是一種數(shù)字統(tǒng)計(jì),旨在反映單詞對集合或語料庫中的文檔的重要程度。它經(jīng)常被用作搜索信息檢索,文本挖掘和用戶建模的加權(quán)因子[8]。
TF-IDF實(shí)際上是:TF×IDF,如式(1)所示,一層是“詞頻”(Term Frequency, TF),指文檔中給定單詞的出現(xiàn)次數(shù)。n表示某個(gè)詞在文檔中出現(xiàn)的次數(shù),N表示文檔中所有詞出現(xiàn)的次數(shù)總和,這是一個(gè)歸一化的過程,目的是消除文檔篇幅長短上的差異。這個(gè)數(shù)字通常是標(biāo)準(zhǔn)化的,以防止它偏向長文件。另一層是IDF逆文檔頻率(Inverse Document Frequency)。IDF用于衡量一個(gè)術(shù)語的重要性。具體來說,如果包含某個(gè)詞條t的文檔越少,那么IDF就越大,說明該詞條具有很好的類別區(qū)分能力[9],如式(3)所示,其中,N表示全部文檔數(shù),n表示包含詞條t的文檔數(shù)量。
(1)
(2)
(3)
最終TF-IDF值為兩者的乘積,用TF-IDF值可以弱化常見詞,保留重要的詞,某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。
TF-IDF主要的應(yīng)用場景包括:搜索引擎、關(guān)鍵詞提取、文本相似性、文本摘要。本文重要應(yīng)用在關(guān)鍵詞提取,將爬取到的文本數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,得到所需要的崗位核心技能。算法步驟如圖3所示。
具體應(yīng)用流程如下:
1)首先,數(shù)據(jù)來源于拉勾網(wǎng)招聘平臺所爬取的崗位詳細(xì)信息,通過數(shù)據(jù)預(yù)處理,存儲到數(shù)據(jù)庫中,再進(jìn)行讀出。
2)分詞。使用分詞工具,如jieba對給定的崗位詳細(xì)信息進(jìn)行分詞,將文本轉(zhuǎn)化為詞語序列。使用默認(rèn)的精確模式words= jieba.lcut(sentence)。
3)去除停用詞。在進(jìn)行文本關(guān)鍵詞提取前,需要對文本進(jìn)行停用詞處理,主要目的是去除一些重復(fù)出現(xiàn)但意義不大的高頻詞匯。這些詞本身對于關(guān)鍵詞提取的結(jié)果無幫助,同時(shí)也為了減少計(jì)算復(fù)雜度,因此需要建立一個(gè)停用詞表,將這類無用詞匯包含在內(nèi)。當(dāng)在進(jìn)行文本處理時(shí),當(dāng)出現(xiàn)停用詞表中的詞,就將其剔除,否則保留。本文為提高過濾的準(zhǔn)確性,對比了3個(gè)常用的中文停用詞表后,決定使用百度停用詞表過濾停用詞,停用詞表適用類型如表1所示。并在已有停用此表基礎(chǔ)上,加入自定義停用詞語料庫,主要目的為了去除分詞結(jié)果中,如“前端”“掌握”“工程師”等于技能無關(guān)詞匯。
4)利用jieba.analyse.extract_tag方法[10]提取結(jié)果的關(guān)鍵詞,得到不同崗位權(quán)重最大的前20個(gè)關(guān)鍵詞,并按照降序排列。表2中數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)為例,列舉了TOP5關(guān)鍵詞結(jié)果,再根據(jù)結(jié)果展示不同的雷達(dá)圖。
3 可視化平臺具體實(shí)現(xiàn)
根據(jù)數(shù)據(jù)分析及系統(tǒng)功能需求,系統(tǒng)三大模塊中,第一模塊為就業(yè)基本情況、就業(yè)相關(guān)分析、就業(yè)知識圖譜。頁面主體使用Bootstrap實(shí)現(xiàn)頁面布局,設(shè)置統(tǒng)一的背景圖在容器內(nèi)顯示,在每個(gè)模塊上規(guī)劃出不同的DOM容器,每個(gè)DOM容器根據(jù)需求放入不同的圖表,最終實(shí)現(xiàn)整體模塊可視化。模塊一分為8個(gè)部分,包括學(xué)校概況、學(xué)院畢業(yè)人數(shù)、近兩年就業(yè)率、畢業(yè)生就業(yè)地區(qū)分布、畢業(yè)生就業(yè)行業(yè)流向、畢業(yè)生生源分布、畢業(yè)生各專業(yè)人數(shù)、畢業(yè)生去向分布;模塊二分為6個(gè)部分,包括畢業(yè)生月收入分布、聘用本校畢業(yè)生的渠道、用人單位需求程度及學(xué)生掌握度、工作與專業(yè)相關(guān)度、選擇專業(yè)無關(guān)工作原因;模塊三分為兩部分,通過搜索框匹配圖譜中的崗位信息,獲取算法分析結(jié)果,得到崗位核心技能雷達(dá)圖。
3.1 主要功能實(shí)現(xiàn)過程
如圖4所示,數(shù)據(jù)可視化系統(tǒng)的架構(gòu)分成前端和后端兩大部分,即后端提供接口,前端獲取利用Ajax等異步技術(shù)獲取數(shù)據(jù)。系統(tǒng)后端使用Flask Web開發(fā)框架,編寫可供前端數(shù)據(jù)展示調(diào)用的接口,增強(qiáng)系統(tǒng)的穩(wěn)定性和可擴(kuò)展性,降低開發(fā)難度,提高開發(fā)效率。前端通過Ajax局部刷新技術(shù)獲取后端處理后的數(shù)據(jù),通過Vue和ECharts動(dòng)態(tài)地渲染到圖表之中。
其主要功能實(shí)現(xiàn)如下:
1)首先通過登錄頁面,進(jìn)入該平臺系統(tǒng)首頁,登錄頁面核心代碼如下:
@app.route('/login', methods=['GET', 'POST'])
def login():
if request.method == 'POST':
my_form = request.form
if my_form['userid'] == 'liaoj' and my_form['userpwd'] == '123456':
# return redirect(url_for('success'))
return render_template('index1.html')
else:
abort(401) # 401 Unauthorized(未授權(quán))
else:
return redirect(url_for('index'))
2)通過Ajax技術(shù)調(diào)用后端API,將數(shù)據(jù)保存到Vue組件實(shí)例的data中,通過ECharts的setOption函數(shù)將數(shù)據(jù)渲染到圖表中,部分關(guān)鍵代碼如下:
export default {
data( ) {
stuData:{ } ,
stuOption:null,
stuChart:null
},
mounted( ) {
var _this=this;
$.ajax({
url:’http: http://127.0.0.1:5000//api/stuData’,
type:’get’,
dataType:’json’ ,
success:function(data) {
_this.stuOption = data.stuOption;
_this.stuOption.series[0].data = data.geoData[years];
_this.stuChart.setOption(this. stuOption);
}
});
}
}
3.2 可視化分析結(jié)果
平臺依照設(shè)計(jì)原則,根據(jù)畢業(yè)生數(shù)據(jù)類型、特點(diǎn),選取相應(yīng)的ECharts可視化圖表進(jìn)行數(shù)據(jù)展示,具體可視化分析結(jié)果如下:
如圖5為就業(yè)基本情況,根據(jù)分析數(shù)據(jù),柱狀圖及滾動(dòng)數(shù)據(jù)較好地展示了高校不同專業(yè)、學(xué)院的畢業(yè)生情況,其次通過折線圖展現(xiàn)近兩年的就業(yè)率情況,并通過地圖、餅圖展示畢業(yè)生地區(qū)分布及去向分布情況。
如圖6為就業(yè)相關(guān)分析的可視化結(jié)果,主要有:
1)畢業(yè)生月收入分布折線圖:通過折線圖展示畢業(yè)生的月收入分布情況,幫助學(xué)生了解畢業(yè)生的收入水平。
2)用人單位需求程度及學(xué)生掌握度條形圖:以條形圖展示用人單位對畢業(yè)生的需求程度以及學(xué)生對就業(yè)知識的掌握程度,幫助學(xué)生了解用人單位對學(xué)生的要求和自身的就業(yè)準(zhǔn)備情況。
3)工作與專業(yè)相關(guān)度餅圖:通過餅圖展示畢業(yè)生的工作與專業(yè)的相關(guān)度,幫助學(xué)生了解自己的專業(yè)在就業(yè)市場中的競爭情況。
通過這些可視化圖表,學(xué)生可以直觀地了解學(xué)校的畢業(yè)生情況、就業(yè)地區(qū)分布、行業(yè)分布、收入水平、用人單位要求以及自身的就業(yè)準(zhǔn)備情況,從而更好地為就業(yè)做出規(guī)劃和準(zhǔn)備。
最后在第三模塊中展示了利用TF-IDF算法實(shí)現(xiàn)的專業(yè)相關(guān)崗位技能,通過圖7搜索框搜索想要了解的崗位,將返回結(jié)果圖8。以前端工程師崗位為例,圖8顯示該崗位的核心技能雷達(dá)圖,可用于幫助學(xué)生篩選與自身匹配技能崗位,提供就業(yè)咨詢與推薦服務(wù)。
4 結(jié) 論
本就業(yè)數(shù)據(jù)可視化系統(tǒng)為高校提供更為便捷的統(tǒng)計(jì)功能,以及更為直觀的數(shù)據(jù)展示,既提高了高校就業(yè)信息化建設(shè)水平,又為學(xué)生提供熱門崗位學(xué)習(xí)地圖,助力學(xué)生匹配崗位技能,找到更適合的崗位。同時(shí)幫助學(xué)校管理部門有效把握學(xué)生就業(yè)狀態(tài),從而有的放矢地制定、實(shí)施高校就業(yè)政策、輔助教育管理,實(shí)現(xiàn)學(xué)生的合理就業(yè)。
參考文獻(xiàn):
[1] 劉志興,嚴(yán)嘉,陳慧.“互聯(lián)網(wǎng)+”背景下發(fā)展型學(xué)生就業(yè)工作模式探析——以中國地質(zhì)大學(xué)(武漢)為例 [J].中國大學(xué)生就業(yè),2020(2):39-42+47.
[2] ESPOSITO M,F(xiàn)UJITA H,MINUTOLO AO,et al. Special Issue “Deep Learning for Natural Language Processing: Emerging Methods and Applications” [J/OL].Array,2022,14:100138[2024-01-16].https://doi.org/10.1016/j.array.2022.100138.
[3] 范路橋,高潔,段班祥.基于Python+Flask+ECharts的國內(nèi)熱門旅游景點(diǎn)數(shù)據(jù)可視化系統(tǒng) [J].現(xiàn)代電子技術(shù),2023,46(9):126-130.
[4] 周洪斌,陳立平,劉連浩.基于ECharts的數(shù)據(jù)可視化應(yīng)用 [J].沙洲職業(yè)工學(xué)院學(xué)報(bào),2021,24(1):3-9.
[5] 吳文福,張娜,徐文,等.吉林大米5T管理綜合信息系統(tǒng) [J].現(xiàn)代農(nóng)業(yè)裝備,2021,42(2):51-56+62.
[6] 張毅宇,徐夢雨,馬建勇.軟件工程中Web開發(fā)技術(shù)的應(yīng)用研究 [J].中國高新科技,2023(20):120-122.
[7] 汪超.基于WebGIS的地鐵工程信息承載平臺研制與應(yīng)用研究 [D].徐州:中國礦業(yè)大學(xué),2022.
[8] 張玉芳,彭時(shí)名,呂佳.基于文本分類TFIDF方法的改進(jìn)與應(yīng)用 [J].計(jì)算機(jī)工程,2006(19):76-78.
[9] 郝秀慧,方賢進(jìn),楊高明.基于TFIDF+LSA算法的新聞文本聚類與可視化 [J].計(jì)算機(jī)技術(shù)與發(fā)展,2022,32(7):34-38+45.
[10] XU Q,WANG Z Y. A Data-Driven Model for Automated Chinese Word Segmentation and POS Tagging [J/OL].Computational Intelligence and Neuroscience,2022,2022:1-10[2024-01-16].https://doi.org/10.1155/2022/7622392.
作者簡介:廖潔(1992—),女,漢族,福建三明人,講師,碩士研究生,研究方向:大數(shù)據(jù)分析與數(shù)據(jù)可視化。
DOI:10.19850/j.cnki.2096-4706.2024.17.016
收稿日期:2024-02-04
基金項(xiàng)目:福建省中青年項(xiàng)目(JAT200870)
Design and Implementation of Data Analysis and Visualization Platform for College Students Employment Services
LIAO Jie1,2, SU Hualing1,2, CHEN Tingting1,2, WANG Ning1,2
(1.Xiamen Huaxia University, Xiamen 361024, China; 2. New Generation Information Communication Technology and Smart Education of Fujian Engineering Research Center, Xiamen 361024, China)
Abstract: In recent years, the employment pressure on college students has gradually increased, and relevant departments of the state have introduced policies and measures to promote employment. In order to help students achieve reasonable employment and assist universities in better formulating and implementing employment policies and conducting employment education work, this paper develops and implements a graduate data analysis and employment service visualization platform. By conducting multidimensional analysis of employment data, the basic employment situation is visually displayed. The skill requirements for popular positions in each major are collected from job recruitment websites, and NLP algorithms are used to establish knowledge graphs and learning maps required by job skills, so as to integrate and build a visual interactive platform for employment service. The learning and employment of students are assisted through the platform, and it achieves technological empowerment in college employment management work.
Keywords: data visualization; TF-IDF; employment service; design and implementation