結(jié)合深度語義特征的人崗精準匹配算法

2021-04-06 07:47高元榮黃宗財王毅青黃幼姑

貴州大學學報(自然科學版) 2021年1期

張毅，高元榮，黃宗財，吳升*，王毅青，黃幼姑

(1.福建省星云大數(shù)據(jù)應(yīng)用服務(wù)有限公司，福建福州 350003; 2.福州大學數(shù)字中國研究院(福建)，福建福州 350002)

近些年，我國面臨較大經(jīng)濟下行壓力，就業(yè)形勢嚴峻，產(chǎn)業(yè)結(jié)構(gòu)需要轉(zhuǎn)型升級，勞動力市場需求發(fā)生重大改變，人才供給與崗位需求出現(xiàn)不對稱[1-3]。雖然互聯(lián)網(wǎng)為就業(yè)提供了海量的崗位需求數(shù)據(jù)，但是同時也增加了準確獲取所需信息的時間和復(fù)雜度。目前就業(yè)部門、各大招聘網(wǎng)站(BOSS直聘、智聯(lián)招聘、拉勾網(wǎng))等為廣大求職者提供了海量崗位招聘信息，業(yè)務(wù)系統(tǒng)除了支持傳統(tǒng)的崗位檢索，也支持根據(jù)求職者的簡歷信息進行崗位推薦?，F(xiàn)有崗位推薦系統(tǒng)通過分析求職者的歷史搜索記錄，挖掘其求職意愿、需求和求職傾向，為他們提供準確、快速、個性化的崗位推薦服務(wù)。

近年來很多學者推出崗位推薦系統(tǒng)[4-5]，能夠為用工崗位與求職者搭建匹配推送平臺，努力實現(xiàn)就業(yè)崗位精準對接。隨著互聯(lián)網(wǎng)的迅速發(fā)展，將崗位推薦算法應(yīng)用于移動互聯(lián)網(wǎng)、電子商務(wù)、新聞媒體、網(wǎng)站、社交軟件等對外發(fā)布招聘崗位信息的網(wǎng)絡(luò)發(fā)布平臺，將為求職者找工作提供更便捷的通道，特別是在公共就業(yè)服務(wù)領(lǐng)域的職業(yè)介紹業(yè)務(wù)中得到有效的應(yīng)用。例如，尹傳城等[6]針對高校畢業(yè)生，提出了一種綜合在校歷史信息的高校畢業(yè)生互惠就業(yè)推薦方法，該方法具有較高的推薦準確率和用戶滿意度，可以為高校畢業(yè)生就業(yè)提供有效指導。在人力資源應(yīng)用方面，古振威[7]將推薦技術(shù)應(yīng)用于人力資源領(lǐng)域，提出了基于隱語義模型與深度森林的人力資源推薦算法，挖掘用戶潛在興趣并推薦用戶感興趣的崗位，從而更好地進行人力資源推薦。于海棠[8]將知識地圖、人崗匹配理論與人力資源配置方法相結(jié)合，首先根據(jù)知識地圖構(gòu)建方法構(gòu)建人員知識地圖與崗位知識地圖，然后利用二分圖匹配算法進行匹配，從而實現(xiàn)一個基于知識地圖的人崗匹配模型。歐俊[9]通過對鄉(xiāng)鎮(zhèn)領(lǐng)導干部人崗匹配現(xiàn)狀進行分析，綜合運用行為事件訪談法、統(tǒng)計分析法、問卷調(diào)查法等研究方法，構(gòu)建了鄉(xiāng)鎮(zhèn)領(lǐng)導干部勝任力模型；然后，以構(gòu)建的鄉(xiāng)鎮(zhèn)領(lǐng)導干部勝任力模型為基準，把人崗匹配相關(guān)理論應(yīng)用到知崗、知人、匹配和培訓各環(huán)節(jié)工作中，為鄉(xiāng)鎮(zhèn)領(lǐng)導干部人崗匹配的實現(xiàn)提出有針對性的對策和建議。

目前，就業(yè)推薦的方法主要有兩種：(1)基于內(nèi)容匹配的推薦算法；(2)基于協(xié)同過濾的推薦算法?；趦?nèi)容匹配的方法[10-11]是根據(jù)招聘單位崗位要求信息和應(yīng)聘者簡歷信息進行匹配，其利用的是崗位屬性中的文本內(nèi)容與簡歷中對應(yīng)屬性的文本內(nèi)容進行匹配?；趨f(xié)同過濾的方法[12-13]是根據(jù)招聘方與求職者瀏覽彼此信息的行為記錄來標記用戶與項目之間的喜愛程度?；趨f(xié)同過濾的方法面臨著冷啟動和數(shù)據(jù)稀疏的問題，而基于內(nèi)容匹配的方法中最為關(guān)鍵的是匹配規(guī)則的制定，諸如崗位中“崗位要求”屬性信息和簡歷中“掌握技能”屬性信息對于人崗精準匹配至關(guān)重要。而這屬性內(nèi)容大部分是長文本組成，充分利用長文本特征項的深度語義進行特征匹配仍然存在一定的挑戰(zhàn)。隨著自然語言處理技術(shù)的發(fā)展，長文本的向量化表示為深度語義挖掘提供了技術(shù)支持，本文將結(jié)合深度語義特征構(gòu)建人崗精準匹配模型，充分利用人崗特征中長文本蘊含的豐富語義信息，實現(xiàn)求職者與崗位之間的精準匹配。

1 精準人崗匹配算法

結(jié)合深度語義特征的精準人崗匹配算法如圖1所示，首先對招聘崗位和求職者進行特征構(gòu)建，明確不同層次特征的匹配規(guī)則：(1)直接匹配過濾層，對人崗特征中相對應(yīng)的屬性實行文本直接匹配；(2)量化計算過濾層，首先對人崗中相關(guān)特征進行標簽量化，然后使用數(shù)值比較計算的方法，確定相關(guān)特征的匹配度；(3)文本相似計算層，通過采用Doc2vec的方法對人崗匹配特征中具有長文本的屬性值進行向量化，然后通過計算對應(yīng)特征之間的余弦距離，評價對應(yīng)特征的匹配度；(4)行為特征層加權(quán)，通過求職者對崗位的投遞和收藏等操作，在之前純粹人崗特征屬性上進行加權(quán)處理；(5)綜合上述4層特征，計算求職者和崗位之間的匹配程度，實現(xiàn)人崗信息之間的精準匹配。

圖1 基于人崗特征的精準匹配算法Fig.1 Accurate matching algorithm based on human post features

1.1 人崗特征體系構(gòu)建

人崗匹配模型的構(gòu)建基礎(chǔ)在于人崗特征體系的建立。人崗特征體系主要是根據(jù)求職者和用人單位雙方的信息需求構(gòu)建的。通過調(diào)研各種在線求職招聘網(wǎng)站發(fā)現(xiàn)，求職者在求職過程中想要了解招聘方所發(fā)布的崗位信息，而招聘單位則關(guān)注求職者的個人基本信息和求職意向。因此，可根據(jù)求職者和招聘單位在招聘應(yīng)聘過程中所關(guān)注的資料需求，構(gòu)建招聘崗位特征和求職者特征，而眾多在線就業(yè)推薦網(wǎng)站同時也關(guān)注招聘和求職用戶在平臺上的行為記錄，包括求職者和招聘方相互閱覽信息和投遞情況的行為，這些行為記錄間接反映了求職者與崗位之間的匹配意愿，所以據(jù)此來構(gòu)建求職者-崗位的行為特征，在推薦系統(tǒng)起到加強推薦的功能。

(1)崗位特征

這里的招聘崗位特征指的是針對崗位進行特征構(gòu)建，主要包括招聘崗位情況(崗位類別、崗位名稱、崗位簡介、福利待遇、薪資水平)、公司情況(公司名稱、公司地址、公司性質(zhì)、公司簡介)、崗位要求(學歷、性別、專業(yè)、崗位職責、任職要求、工作經(jīng)驗)，其屬性大部分能夠反映此崗位的特征和需求。

(2)求職者特征

求職者特征也主要是針對崗位推薦中的主體求職者用戶構(gòu)建的特征,主要包括崗位要求(性別、學歷、專業(yè)、崗位職責、任職要求、工作年限)，而招聘單位則關(guān)注求職者的基本信息(姓名、年齡、性別、電話、籍貫、郵箱)、求職意向(崗位、城市、薪資)、教育背景(學歷、畢業(yè)學校、學院、專業(yè)、畢業(yè)成績、畢業(yè)時間、獎勵證書)、掌握技能、工作經(jīng)驗、個人評價，其特征屬性反映了求職者本身的背景信息及求職意愿。

(3)用戶行為特征

用戶行為特征是用來記錄求職者在人崗匹配系統(tǒng)中瀏覽和投遞招聘崗位的行為，其屬性反映了求職者對系統(tǒng)中某崗位的喜好程度和投遞意愿程度。此特征對于推薦有優(yōu)化作用。

1.2 人崗匹配模型構(gòu)建

人崗匹配模型是建立在構(gòu)建崗位特征和求職者特征基礎(chǔ)之上，是充分利用求職者和崗位的部分特征屬性之間存在著內(nèi)容的相互匹配關(guān)系，所以基于特征的匹配是最簡單有效的匹配。然而，參與匹配的特征中因為其屬性值的表達方式不一樣，在特征屬性進行匹配過程中需要使用不同的匹配規(guī)則，我們根據(jù)其特征屬性表達方式的類型進行了分層，主要分為3層，如圖1所示：(1)直接匹配過濾層；(2)計算過濾層；(3)文本相似性計算層。直接過濾層是根據(jù)文本進行匹配；計算過濾層是通過值得對應(yīng)屬性值的比較而完成匹配，需要每一項屬性都匹配成功；文本相似計算層是針對匹配特征屬性值為長文本，需要通過文本相似計算進行匹配。

1.2.1直接匹配過濾層特征

崗位特征屬性“崗位名稱”、“專業(yè)要求”、“性別要求”、“工作城市”和求職者特征屬性“投遞崗位”、“專業(yè)”、“性別”、“意愿城市”是一一對應(yīng)的匹配項，其屬性值為簡單的短語，詞語都是較為固定的詞語，可以使用屬性值直接匹配進行過濾。如其中只要有一對匹配特征的屬性值中短文本字符匹配不成功，則直接匹配過濾層的值為零。使用如公式(1)表示：

pdir=mi1?j1×mi2?j2×mi3?j3×mi4?j4。

(1)

其中：pdir表示直接過濾層計算得到的匹配值；i?j={崗位名稱?投遞崗位，專業(yè)要求?專業(yè)，性別要求?性別，工作城市?意愿城市}；m表示直接匹配過濾層特征對應(yīng)人崗特征屬性的匹配度，其值為1或0。

1.2.2量化計算過濾層特征

在崗位和求職者特征屬性中，學歷、薪資等屬性也是較為固定的短文本。但是在匹配過程中文本語義又存在相互包含或者大小概念之分，如崗位特征屬性中“學歷要求”為“中專”，而求職者特征屬性“學歷”為“碩士”，使用文本直接匹配，則會丟失語義上“碩士”大于“中專”的隱喻內(nèi)涵記錄。所以，本文將3對特征屬性進行標簽泛化，如表1所示，將屬性值轉(zhuǎn)化為數(shù)字，然后通過數(shù)學運算來判斷兩者之間的大小以及包含關(guān)系，實現(xiàn)進一步的匹配過濾。

表1 特征屬性量化標準Tab.1 Quantitative criteria of characteristic attributes

量化計算過濾層特征匹配計算公式如式(2)～(5)：

(2)

(3)

(4)

pqua=mi1?j1×mi2?j2×mi3?j3。

(5)

其中：pqua表示量化計算層人崗特征的總匹配度；Vper、Vpos分別表示求職者和崗位對應(yīng)特征屬性數(shù)值，其數(shù)值由表1轉(zhuǎn)化而來；i?j={學歷?學歷要求，期望薪資?薪資酬勞，工作經(jīng)驗?工作年限}。量化計算過濾層只有當pqua等于1，才可以通過過濾。

1.2.3文本相似計算層特征

在人崗特征中還存在使用長文本進行描述的特征屬性，而這些對應(yīng)的長文本具體描述了崗位的具體能力要求以及求職者的掌握技能，是崗位與求職者之間精準匹配的關(guān)鍵信息。其長文本隱含的深度語義信息反映求職者或崗位的特征。如表2和表3所示，求職者特征“掌握技能”和對應(yīng)匹配的崗位特征中的“任職要求”屬性值都為長文本，崗位特征屬性“任職要求”中的文本“有扎實的美術(shù)功底”和“精通PhotoshopDreamweaverIllustrator等設(shè)計軟件”與求職者特征“掌握技能”中“熟悉掌握PhotoshopDreamweaverIllustrator等軟件操作”等信息具有很高的匹配度，而這些特征屬性中蘊含的重要信息往往促成求職者和崗位之間的匹配。但是長文本匹配度計算較為困難，本文將引入自然語言處理技術(shù)，采用Doc2vec的方法將文本進行向量化，計算求職者特征屬性中的“項目經(jīng)歷”、“掌握技能”與崗位特征屬性中的“任職要求”、“崗位職責”相互對應(yīng)的兩個長文本之間的相似度，來判斷兩對特征的匹配度。

表2 崗位長文本特征案例Tab.2 Cases of long text characteristics of posts

表3 求職者長文本特征案例Tab.3 Longtext characteristics of job seekers

Doc2Vec是Le Q和Mikolov T在2014年提出的一種非監(jiān)督式算法[14]，基于Word2vec[15]進而獲取句子/段落/文檔的向量表達，學習出來的向量可以通過計算距離，獲得句子/段落/文檔之間的相似性。

在Doc2vec向量模型中，長文本的唯一標志ID被映射成矩陣D的列向量，而文檔中的每個詞也被映射為一個獨立向量，作為權(quán)重矩陣W的一列。然后，對這個文檔標記向量以及對這些詞向量求平均或者首尾相連構(gòu)建，用來預(yù)測文本中的下一個詞。Doc2vec與Word2vec唯一不同之處在于從W和D兩個矩陣中構(gòu)建H。文檔的標識被當做另外一個“詞”看待，用來記憶當前文本或者文章主題。因此，把這個模型稱為文檔向量的分布記憶模型(distributed memory model of paragraph vectors,PV-DM)。在訓練的每個步驟中，從隨機段落中采樣固定長度的上下文，用于計算誤差梯度,以更新模型中的參數(shù)。如圖2所示,以求職者特征屬性“掌握技能”中的長文本為例，將其文本ID映射為矩陣向量，通過聯(lián)合后續(xù)“熟練”、“掌握”和“Photoshop”的詞向量,構(gòu)建聯(lián)合矩陣,用來預(yù)測下一個詞匯“Dreamweaver”的向量表示。

圖2 PV-DM模型Fig.2 PV-DM model

這個算法有兩個關(guān)鍵階段：1)通過訓練獲得詞向量矩陣W，softmax權(quán)重U，偏置項b以及文檔向量D；2)第二個階段是推斷階段，用于取得一個新文檔的文檔向量D，通過在矩陣D里增加更多的列，并保持W，U，b不變,在矩陣D上進行梯度下降。使用輸出的V作為文檔的向量表示。

本文中采用Doc2vec技術(shù)，將所有求職者和崗位樣本數(shù)據(jù)中的求職者特征和崗位特征屬性“項目經(jīng)歷”與“任職要求”、“崗位職責”與“掌握技能”的長文本屬性值作為兩個語料庫,分別進行文檔向量的訓練。在訓練之后,獲取求職者或崗位相對應(yīng)特征屬性的文檔向量；然后，通過計算文檔之間的余弦距離，獲取對應(yīng)特征屬性的相似度；最后，累加獲得文本相似計算層特征的匹配度。

(6)

pdoc=Si1?j1+Si2?j2+Si3?j3。

(7)

其中：Vi表示特征屬性i的文檔向量，Vj表示特征屬性j的文檔向量；Si1?j1表示特征屬性i和j長文本的相似度，i?j={項目經(jīng)歷?任職要求，崗位職責?掌握技能}；pdoc表示為求職者和崗位之間文本相似計算層的相似度。

1.2.4綜合人崗匹配度計算

通過綜合直接過濾層特征匹配式(1)、泛化后計算層特征式(5)和文本相似性計算層式(6)，獲得求職者和崗位之間的匹配度，計算公式如式(8)所示：

Pcom=pdir×pqua×pdoc×pact。

(8)

其中：pact表示求職者針對崗位的行為特征，如果收藏或者投遞，則pact=1。Pcom表示求職者和崗位之間的綜合匹配度，其值如果小于1，則表示人崗匹配不成功；當1

2 結(jié)論

鑒于求職者本人的簡歷信息和招聘單位發(fā)布的崗位信息之間存在天然信息匹配項，所以本文在基于內(nèi)容的推薦算法基礎(chǔ)上，構(gòu)建人崗特征體系，采用分層法對人崗特征進行分層處理，針對不同特征屬性進行匹配。然后綜合計算崗位與求職者特征之間的匹配度，充分考慮人崗不同的特征屬性具有獨特的特性，同時在匹配過程中不同屬性具有不同的權(quán)重大小。利用自然語言處理技術(shù)，通過引入Doc2vec方法挖掘具有長文本的人崗特征屬性的深度語義，解決了求職者和崗位特征中長文本匹配難題，提高了長文本特征屬性深度語義在人崗精準匹配中的應(yīng)用。本文所提結(jié)合深度語義特征的人崗精準匹配算法對于提供更加精準、全面、個性化的就業(yè)服務(wù)具有較大的應(yīng)用價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

結(jié)合深度語義特征的人崗精準匹配算法

1 精準人崗匹配算法

1.1 人崗特征體系構(gòu)建

1.2 人崗匹配模型構(gòu)建

2 結(jié)論