張 波
(天津電子信息職業(yè)技術(shù)學(xué)院,天津 300312)
采用爬蟲技術(shù),針對性收集了某知名招聘網(wǎng)站軟件技術(shù)類聘任崗位數(shù)據(jù),并保存在結(jié)構(gòu)化數(shù)據(jù)庫中。根據(jù)數(shù)據(jù)庫中的原始數(shù)據(jù),按照相關(guān)信息準(zhǔn)確和完整性要求,建立清洗規(guī)則,并進(jìn)行數(shù)據(jù)初步清洗。
圖1 系統(tǒng)工作過程示意圖
數(shù)據(jù)清洗完畢后,利用高頻詞分析手段,分析高關(guān)注的技術(shù)和能力核心詞匯,得出量化高頻詞匯表及對比結(jié)果,用于確定核心崗位。
根據(jù)核心崗位相關(guān)高頻詞匯,對現(xiàn)有數(shù)據(jù)篩選,形成篩選結(jié)果。然后根據(jù)崗位描述信息,針對各目標(biāo)崗位展開自然語言詞句分析,形成崗位能力描述。
爬取數(shù)據(jù)部分采用成熟的Scrapy架構(gòu),結(jié)合報頭自定義和IP代理池實現(xiàn)。主要爬取如下信息:
數(shù)據(jù)初步清洗采用擬定詞語規(guī)則的方式,主要清洗了崗位名稱過短和非崗位名稱等情況。
高頻詞分析利用TextRank算法,利用結(jié)巴模塊和Count模塊,量化得到各專業(yè)技術(shù)高頻詞數(shù)量,按照連續(xù)3個月的結(jié)果,排序決定各崗位主要技術(shù)能力方向。
表1 爬取信息表
數(shù)據(jù)篩選主要使用同義詞庫歸并相似崗位,并篩選描述中包括高頻詞的崗位描述記錄。
利用WordVector等自然語言處理技術(shù)方式,進(jìn)行崗位能力部分的挖掘和提取。
該系統(tǒng)采用了目前自然語言分析的諸多高新技術(shù)實現(xiàn),實現(xiàn)了從以前人工手段崗位調(diào)研向半自動崗位調(diào)研的方式,節(jié)省了大量人力物力,并且數(shù)據(jù)客觀性凸出,為高校專業(yè)人才培養(yǎng)方案調(diào)整積累了最有價值的數(shù)據(jù)。
本文重點描述了職業(yè)院校人才培養(yǎng)崗位能力挖掘系統(tǒng)的基本工作過程,給出了主要技術(shù)和手段,歸納出了技術(shù)優(yōu)勢和價值。該系統(tǒng)為職業(yè)院校人才培養(yǎng)崗位能力整理建設(shè)給出了重要參考,并為職業(yè)院校專業(yè)人才培養(yǎng)方案的建立提供重要支撐。