張毅 高元榮 黃宗財 吳升 王毅青 黃幼姑
摘 要:受中美貿(mào)易摩擦不斷升級、國內(nèi)經(jīng)濟結(jié)構(gòu)調(diào)整和金融市場波動等環(huán)境壓力影響,目前全國就業(yè)形勢整體較為嚴(yán)峻?;ヂ?lián)網(wǎng)中海量崗位信息的存在,為求職者和招聘單位帶來了便捷,也為精準(zhǔn)人崗匹配提出了挑戰(zhàn)?;趦?nèi)容的推薦算法較適用于人崗匹配,但是目前大多數(shù)方法使用的特征較少,特別是對提供的長文本信息利用不夠。本文提出一種結(jié)合深度語義特征的人崗精準(zhǔn)匹配算法,在構(gòu)建較為完善的人崗特征體系基礎(chǔ)上,利用自然語言處理技術(shù),采用Doc2vec方法充分挖掘長文本中包含的語義信息,實現(xiàn)求職者與崗位之間信息的精準(zhǔn)匹配。該方法既能克服數(shù)據(jù)稀疏和冷啟動問題,同時能充分利用求職者和崗位提供的信息,有利于實現(xiàn)更加準(zhǔn)確、個性化的就業(yè)推薦服務(wù)。
關(guān)鍵詞:人崗特征體系;深度語義特征;Word2vec;Doc2vec;人崗精準(zhǔn)匹配
中圖分類號:TP301.6
文獻標(biāo)志碼:A
近些年,我國面臨較大經(jīng)濟下行壓力,就業(yè)形勢嚴(yán)峻,產(chǎn)業(yè)結(jié)構(gòu)需要轉(zhuǎn)型升級,勞動力市場需求發(fā)生重大改變,人才供給與崗位需求出現(xiàn)不對稱[1-3]。雖然互聯(lián)網(wǎng)為就業(yè)提供了海量的崗位需求數(shù)據(jù),但是同時也增加了準(zhǔn)確獲取所需信息的時間和復(fù)雜度。目前就業(yè)部門、各大招聘網(wǎng)站(BOSS直聘、智聯(lián)招聘、拉勾網(wǎng))等為廣大求職者提供了海量崗位招聘信息,業(yè)務(wù)系統(tǒng)除了支持傳統(tǒng)的崗位檢索,也支持根據(jù)求職者的簡歷信息進行崗位推薦?,F(xiàn)有崗位推薦系統(tǒng)通過分析求職者的歷史搜索記錄,挖掘其求職意愿、需求和求職傾向,為他們提供準(zhǔn)確、快速、個性化的崗位推薦服務(wù)。
近年來很多學(xué)者推出崗位推薦系統(tǒng)[4-5],能夠為用工崗位與求職者搭建匹配推送平臺,努力實現(xiàn)就業(yè)崗位精準(zhǔn)對接。隨著互聯(lián)網(wǎng)的迅速發(fā)展,將崗位推薦算法應(yīng)用于移動互聯(lián)網(wǎng)、電子商務(wù)、新聞媒體、網(wǎng)站、社交軟件等對外發(fā)布招聘崗位信息的網(wǎng)絡(luò)發(fā)布平臺,將為求職者找工作提供更便捷的通道,特別是在公共就業(yè)服務(wù)領(lǐng)域的職業(yè)介紹業(yè)務(wù)中得到有效的應(yīng)用。例如,尹傳城等[6]針對高校畢業(yè)生,提出了一種綜合在校歷史信息的高校畢業(yè)生互惠就業(yè)推薦方法,該方法具有較高的推薦準(zhǔn)確率和用戶滿意度,可以為高校畢業(yè)生就業(yè)提供有效指導(dǎo)。在人力資源應(yīng)用方面,古振威[7]將推薦技術(shù)應(yīng)用于人力資源領(lǐng)域,提出了基于隱語義模型與深度森林的人力資源推薦算法,挖掘用戶潛在興趣并推薦用戶感興趣的崗位,從而更好地進行人力資源推薦。于海棠[8]將知識地圖、人崗匹配理論與人力資源配置方法相結(jié)合,首先根據(jù)知識地圖構(gòu)建方法構(gòu)建人員知識地圖與崗位知識地圖,然后利用二分圖匹配算法進行匹配,從而實現(xiàn)一個基于知識地圖的人崗匹配模型。歐俊[9]通過對鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部人崗匹配現(xiàn)狀進行分析,綜合運用行為事件訪談法、統(tǒng)計分析法、問卷調(diào)查法等研究方法,構(gòu)建了鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部勝任力模型;然后,以構(gòu)建的鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部勝任力模型為基準(zhǔn),把人崗匹配相關(guān)理論應(yīng)用到知崗、知人、匹配和培訓(xùn)各環(huán)節(jié)工作中,為鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部人崗匹配的實現(xiàn)提出有針對性的對策和建議。
目前,就業(yè)推薦的方法主要有兩種:(1)基于內(nèi)容匹配的推薦算法;(2)基于協(xié)同過濾的推薦算法?;趦?nèi)容匹配的方法[10-11]是根據(jù)招聘單位崗位要求信息和應(yīng)聘者簡歷信息進行匹配,其利用的是崗位屬性中的文本內(nèi)容與簡歷中對應(yīng)屬性的文本內(nèi)容進行匹配。基于協(xié)同過濾的方法[12-13]是根據(jù)招聘方與求職者瀏覽彼此信息的行為記錄來標(biāo)記用戶與項目之間的喜愛程度。基于協(xié)同過濾的方法面臨著冷啟動和數(shù)據(jù)稀疏的問題,而基于內(nèi)容匹配的方法中最為關(guān)鍵的是匹配規(guī)則的制定,諸如崗位中“崗位要求”屬性信息和簡歷中“掌握技能”屬性信息對于人崗精準(zhǔn)匹配至關(guān)重要。而這屬性內(nèi)容大部分是長文本組成,充分利用長文本特征項的深度語義進行特征匹配仍然存在一定的挑戰(zhàn)。隨著自然語言處理技術(shù)的發(fā)展,長文本的向量化表示為深度語義挖掘提供了技術(shù)支持,本文將結(jié)合深度語義特征構(gòu)建人崗精準(zhǔn)匹配模型,充分利用人崗特征中長文本蘊含的豐富語義信息,實現(xiàn)求職者與崗位之間的精準(zhǔn)匹配。
1 精準(zhǔn)人崗匹配算法
結(jié)合深度語義特征的精準(zhǔn)人崗匹配算法如圖1所示,首先對招聘崗位和求職者進行特征構(gòu)建,明確不同層次特征的匹配規(guī)則:(1)直接匹配過濾層,對人崗特征中相對應(yīng)的屬性實行文本直接匹配;(2)量化計算過濾層,首先對人崗中相關(guān)特征進行標(biāo)簽量化,然后使用數(shù)值比較計算的方法,確定相關(guān)特征的匹配度;(3)文本相似計算層,通過采用Doc2vec的方法對人崗匹配特征中具有長文本的屬性值進行向量化,然后通過計算對應(yīng)特征之間的余弦距離,評價對應(yīng)特征的匹配度;(4)行為特征層加權(quán),通過求職者對崗位的投遞和收藏等操作,在之前純粹人崗特征屬性上進行加權(quán)處理;(5)綜合上述4層特征,計算求職者和崗位之間的匹配程度,實現(xiàn)人崗信息之間的精準(zhǔn)匹配。
1.1 人崗特征體系構(gòu)建
人崗匹配模型的構(gòu)建基礎(chǔ)在于人崗特征體系的建立。人崗特征體系主要是根據(jù)求職者和用人單位雙方的信息需求構(gòu)建的。通過調(diào)研各種在線求職招聘網(wǎng)站發(fā)現(xiàn),求職者在求職過程中想要了解招聘方所發(fā)布的崗位信息,而招聘單位則關(guān)注求職者的個人基本信息和求職意向。因此,可根據(jù)求職者和招聘單位在招聘應(yīng)聘過程中所關(guān)注的資料需求,構(gòu)建招聘崗位特征和求職者特征,而眾多在線就業(yè)推薦網(wǎng)站同時也關(guān)注招聘和求職用戶在平臺上的行為記錄,包括求職者和招聘方相互閱覽信息和投遞情況的行為,這些行為記錄間接反映了求職者與崗位之間的匹配意愿,所以據(jù)此來構(gòu)建求職者-崗位的行為特征,在推薦系統(tǒng)起到加強推薦的功能。
(1)崗位特征
這里的招聘崗位特征指的是針對崗位進行特征構(gòu)建,主要包括招聘崗位情況(崗位類別、崗位名稱、崗位簡介、福利待遇、薪資水平)、公司情況(公司名稱、公司地址、公司性質(zhì)、公司簡介)、崗位要求(學(xué)歷、性別、專業(yè)、崗位職責(zé)、任職要求、工作經(jīng)驗),其屬性大部分能夠反映此崗位的特征和需求。
(2)求職者特征
求職者特征也主要是針對崗位推薦中的主體求職者用戶構(gòu)建的特征,主要包括崗位要求(性別、學(xué)歷、專業(yè)、崗位職責(zé)、任職要求、工作年限),而招聘單位則關(guān)注求職者的基本信息(姓名、年齡、性別、電話、籍貫、郵箱)、求職意向(崗位、城市、薪資)、教育背景(學(xué)歷、畢業(yè)學(xué)校、學(xué)院、專業(yè)、畢業(yè)成績、畢業(yè)時間、獎勵證書)、掌握技能、工作經(jīng)驗、個人評價,其特征屬性反映了求職者本身的背景信息及求職意愿。
(3)用戶行為特征
用戶行為特征是用來記錄求職者在人崗匹配系統(tǒng)中瀏覽和投遞招聘崗位的行為,其屬性反映了求職者對系統(tǒng)中某崗位的喜好程度和投遞意愿程度。此特征對于推薦有優(yōu)化作用。
1.2 人崗匹配模型構(gòu)建
人崗匹配模型是建立在構(gòu)建崗位特征和求職者特征基礎(chǔ)之上,是充分利用求職者和崗位的部分特征屬性之間存在著內(nèi)容的相互匹配關(guān)系,所以基于特征的匹配是最簡單有效的匹配。然而,參與匹配的特征中因為其屬性值的表達方式不一樣,在特征屬性進行匹配過程中需要使用不同的匹配規(guī)則,我們根據(jù)其特征屬性表達方式的類型進行了分層,主要分為3層,如圖1所示:(1)直接匹配過濾層;(2)計算過濾層;(3)文本相似性計算層。直接過濾層是根據(jù)文本進行匹配;計算過濾層是通過值得對應(yīng)屬性值的比較而完成匹配,需要每一項屬性都匹配成功;文本相似計算層是針對匹配特征屬性值為長文本,需要通過文本相似計算進行匹配。
1.2.1 直接匹配過濾層特征
崗位特征屬性“崗位名稱”、“專業(yè)要求”、“性別要求”、“工作城市”和求職者特征屬性“投遞崗位”、“專業(yè)”、“性別”、“意愿城市”是一一對應(yīng)的匹配項,其屬性值為簡單的短語,詞語都是較為固定的詞語,可以使用屬性值直接匹配進行過濾。如其中只要有一對匹配特征的屬性值中短文本字符匹配不成功,則直接匹配過濾層的值為零。使用如公式(1)表示:
pdir=mi1j1×mi2j2×mi3j3×mi4j4。(1)
其中:pdir表示直接過濾層計算得到的匹配值;ij={崗位名稱投遞崗位,專業(yè)要求專業(yè),性別要求性別,工作城市意愿城市};m表示直接匹配過濾層特征對應(yīng)人崗特征屬性的匹配度,其值為1或0。
1.2.2 量化計算過濾層特征
在崗位和求職者特征屬性中,學(xué)歷、薪資等屬性也是較為固定的短文本。但是在匹配過程中文本語義又存在相互包含或者大小概念之分,如崗位特征屬性中“學(xué)歷要求”為“中?!保舐氄咛卣鲗傩浴皩W(xué)歷”為“碩士”,使用文本直接匹配,則會丟失語義上“碩士”大于“中?!钡碾[喻內(nèi)涵記錄。所以,本文將3對特征屬性進行標(biāo)簽泛化,如表1所示,將屬性值轉(zhuǎn)化為數(shù)字,然后通過數(shù)學(xué)運算來判斷兩者之間的大小以及包含關(guān)系,實現(xiàn)進一步的匹配過濾。
1.2.3 文本相似計算層特征
在人崗特征中還存在使用長文本進行描述的特征屬性,而這些對應(yīng)的長文本具體描述了崗位的具體能力要求以及求職者的掌握技能,是崗位與求職者之間精準(zhǔn)匹配的關(guān)鍵信息。其長文本隱含的深度語義信息反映求職者或崗位的特征。如表2和表3所示,求職者特征“掌握技能”和對應(yīng)匹配的崗位特征中的“任職要求”屬性值都為長文本,崗位特征屬性“任職要求”中的文本“有扎實的美術(shù)功底”和“精通Photoshop\\Dreamweaver\\Illustrator等設(shè)計軟件”與求職者特征“掌握技能”中“熟悉掌握Photoshop\\Dreamweaver\\Illustrator等軟件操作”等信息具有很高的匹配度,而這些特征屬性中蘊含的重要信息往往促成求職者和崗位之間的匹配。但是長文本匹配度計算較為困難,本文將引入自然語言處理技術(shù),采用Doc2vec的方法將文本進行向量化,計算求職者特征屬性中的“項目經(jīng)歷”、“掌握技能”與崗位特征屬性中的“任職要求”、“崗位職責(zé)”相互對應(yīng)的兩個長文本之間的相似度,來判斷兩對特征的匹配度。
Doc2Vec是Le Q和Mikolov T在2014年提出的一種非監(jiān)督式算法[14],基于Word2vec[15]進而獲取句子/段落/文檔的向量表達,學(xué)習(xí)出來的向量可以通過計算距離,獲得句子/段落/文檔之間的相似性。
在Doc2vec向量模型中,長文本的唯一標(biāo)志ID被映射成矩陣D的列向量,而文檔中的每個詞也被映射為一個獨立向量,作為權(quán)重矩陣W的一列。然后,對這個文檔標(biāo)記向量以及對這些詞向量求平均或者首尾相連構(gòu)建,用來預(yù)測文本中的下一個詞。Doc2vec與Word2vec唯一不同之處在于從W和D兩個矩陣中構(gòu)建H。文檔的標(biāo)識被當(dāng)做另外一個“詞”看待,用來記憶當(dāng)前文本或者文章主題。因此,把這個模型稱為文檔向量的分布記憶模型(distributed memory model of paragraph vectors,PV-DM)。在訓(xùn)練的每個步驟中,從隨機段落中采樣固定長度的上下文,用于計算誤差梯度,以更新模型中的參數(shù)。如圖2所示,以求職者特征屬性“掌握技能”中的長文本為例,將其文本ID映射為矩陣向量,通過聯(lián)合后續(xù)“熟練”、“掌握”和“Photoshop”的詞向量,構(gòu)建聯(lián)合矩陣,用來預(yù)測下一個詞匯“Dreamweaver”的向量表示。
這個算法有兩個關(guān)鍵階段:1)通過訓(xùn)練獲得詞向量矩陣W,softmax權(quán)重U,偏置項b以及文檔向量D;2)第二個階段是推斷階段,用于取得一個新文檔的文檔向量D,通過在矩陣D里增加更多的列,并保持 W,U, b不變,在矩陣D上進行梯度下降。使用輸出的V作為文檔的向量表示。
本文中采用Doc2vec技術(shù),將所有求職者和崗位樣本數(shù)據(jù)中的求職者特征和崗位特征屬性“項目經(jīng)歷”與“任職要求”、“崗位職責(zé)”與“掌握技能”的長文本屬性值作為兩個語料庫,分別進行文檔向量的訓(xùn)練。在訓(xùn)練之后,獲取求職者或崗位相對應(yīng)特征屬性的文檔向量;然后,通過計算文檔之間的余弦距離,獲取對應(yīng)特征屬性的相似度;最后,累加獲得文本相似計算層特征的匹配度。
Sij=Vi×VjVi×Vj,(6)
pdoc=Si1j1+Si2j2+Si3j3。(7)
其中:Vi表示特征屬性i的文檔向量,Vj表示特征屬性j的文檔向量;Si1j1表示特征屬性i和j長文本的相似度,ij={項目經(jīng)歷任職要求,崗位職責(zé)掌握技能};pdoc表示為求職者和崗位之間文本相似計算層的相似度。
1.2.4 綜合人崗匹配度計算
通過綜合直接過濾層特征匹配式(1)、泛化后計算層特征式(5)和文本相似性計算層式(6),獲得求職者和崗位之間的匹配度,計算公式如式(8)所示:
Pcom=pdir×pqua×pdoc×pact。(8)
其中:pact表示求職者針對崗位的行為特征,如果收藏或者投遞,則pact=1。Pcom表示求職者和崗位之間的綜合匹配度,其值如果小于1,則表示人崗匹配不成功;當(dāng)1 2 結(jié)論 鑒于求職者本人的簡歷信息和招聘單位發(fā)布的崗位信息之間存在天然信息匹配項,所以本文在基于內(nèi)容的推薦算法基礎(chǔ)上,構(gòu)建人崗特征體系,采用分層法對人崗特征進行分層處理,針對不同特征屬性進行匹配。然后綜合計算崗位與求職者特征之間的匹配度,充分考慮人崗不同的特征屬性具有獨特的特性,同時在匹配過程中不同屬性具有不同的權(quán)重大小。利用自然語言處理技術(shù),通過引入Doc2vec方法挖掘具有長文本的人崗特征屬性的深度語義,解決了求職者和崗位特征中長文本匹配難題,提高了長文本特征屬性深度語義在人崗精準(zhǔn)匹配中的應(yīng)用。本文所提結(jié)合深度語義特征的人崗精準(zhǔn)匹配算法對于提供更加精準(zhǔn)、全面、個性化的就業(yè)服務(wù)具有較大的應(yīng)用價值。 參考文獻: [1] 楊宜勇,黃燕東.2014~2015年中國就業(yè)形勢分析與預(yù)測[J].經(jīng)濟研究參考,2015(3): 26-31. [2]陳彬.2017年就業(yè)形勢分析與2018年展望[J].中國物價,2018(1): 17-20. [3]童玉芬, 王靜文. 當(dāng)前和今后一段時期我國的勞動力市場與就業(yè)形勢[J]. 勞動經(jīng)濟評論, 2018, 11(1): 1-16. [4]劉玉華,陳建國,張春燕.基于數(shù)據(jù)挖掘的國內(nèi)大學(xué)生就業(yè)信息雙向推薦系統(tǒng)[J].沈陽大學(xué)學(xué)報(自然科學(xué)版),2015, 27(3): 226-232. [5]胡宜疑.基于. NET的就業(yè)信息推薦系統(tǒng)的設(shè)計與實現(xiàn)[D]. 長沙:湖南大學(xué), 2015. [6]尹傳城,王洪國,丁艷輝.一種基于在校歷史信息的就業(yè)推薦算法[J].計算機與數(shù)字工程,2015, 43(10): 1742-1745. [7]古振威.基于隱語義模型與深度森林的人力資源推薦算法[D]. 廣州:華南理工大學(xué),2018. [8]于海棠.基于知識管理的高校人力資源配置[J].研究與發(fā)展管理,2006(1):122-127,135. [9]歐俊.基于勝任力的山區(qū)縣鄉(xiāng)鎮(zhèn)領(lǐng)導(dǎo)干部人崗匹配研究[D].廣州:華南理工大學(xué),2018. [10]PAZZANI M J,BILLSUS D.Content-based recommendation systems[J].The Adaptive Web, 2007:325-341. [11]GOPALAN P K,CHARLIN L,BLEI D.Content-based recommendations with poisson factorization[J].Advances in Neural Information Processing Systems,2014,27:3176-3184. [12]黃梅娟.協(xié)同過濾算法在個性化就業(yè)推薦系統(tǒng)中研究[J].電腦知識與技術(shù),2015, 11(8): 20-22. [13]SCHAFER J B,F(xiàn)RAMKOWSKI D,HERLOCKER J,et al.Collaborative filtering recommender systems[J].Acm Transactions on Information Systems,2004, 22(1): 5-53. [14]LE Q, MIKOLOV T. Distributed representations of sentences and documents[J/OL]. arXiv preprint arXiv:1405.4053,2014.https://arxiv.org/abs/1405.4053. [15]MIKOLOV T,SUTSKEVER I,KAI C,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013, 26: 3111-3119. (責(zé)任編輯:曾 晶) Research on Accurate Matching Algorithms for Personnel-post Combining Depth Semantic Features ZHANG Yi1, GAO Yuanrong1, HUANG Zongcai2, WU Sheng*2, WANG Yiqing1, HUANG Yougu1 (1. Fujian Star Big Data Application Service Co., Ltd., Fuzhou 350003, China; 2.Digital China Research Institute, Fuzhou University, Fuzhou 350002, China) Abstract: Influenced by the escalating trade friction between China and the United States, the adjustment of domestic economic structure and the fluctuation of financial market, the employment situation in China is more severe as a whole. The existence of a large amount of job information on the Internet has brought convenience to job seekers and recruiters, as well as challenges to accurate job matching. Content-based recommendation algorithm is more suitable for job-to-post matching, but at present most methods use fewer features,especially the use of the long text information provided is not enough.. This paper proposes an accurate human-post matching algorithm combined with deep semantic features. On the basis of building a relatively complete human-post feature system, natural language processing technology and Doc2vec method are used to fully mine the semantic information contained in long texts, so as to realize the accurate matching of information between job seekers and positions. This method can not only overcome the problem of data sparseness and cold start, but also make full use of the information provided by job seekers and positions, which is conducive to achieving more accurate and personalized employment recommendation services. Key words: person-post feature system; deep semantic feature; Word2vec; Doc2vec; person-post precise matching