国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互信息最大化的多視圖協(xié)作學習算法在智能崗位推薦上的應(yīng)用

2022-05-30 00:18戈弋張磊
電腦知識與技術(shù) 2022年16期
關(guān)鍵詞:人崗編碼器語義

戈弋 張磊

摘要:為了解決在線求職平臺中大量求職數(shù)據(jù)和企業(yè)招聘數(shù)據(jù)之間的精準匹配問題,文章設(shè)計了一種基于互信息最大化的多視角協(xié)作學習算法,以特定的預(yù)測分析和分值計算模型為基礎(chǔ),提前對人崗的基礎(chǔ)信息做基礎(chǔ)訓(xùn)練,對冷信息做預(yù)測模型,對熱數(shù)據(jù)做取向加權(quán)計算,以解決就業(yè)信息中人崗匹配精準度和速度性能的相悖性問題,并將算法成果應(yīng)用到公共服務(wù)云平臺的智能崗位推薦工作場景中。

關(guān)鍵詞:互信息最大化;人崗匹配

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)16-0074-03

1概述

隨著社會經(jīng)濟和計算機技術(shù)的不斷發(fā)展,運用數(shù)字技術(shù)實現(xiàn)線上求職的平臺越來越受到求職者的青睞。大量的求職數(shù)據(jù)和企業(yè)發(fā)布的招聘數(shù)據(jù)的不斷增長,使得如何為求職者進行職位匹配成為求職平臺亟須解決的一項重要任務(wù)。如何將企業(yè)的招聘需求能夠自動匹配到合適的簡歷,通常的做法是將該任務(wù)轉(zhuǎn)換為監(jiān)督文本匹配問題。在用戶提交的簡歷中能夠被標注出的信息監(jiān)測點和個人數(shù)據(jù)充分且完備時,監(jiān)督文本匹配的學習算法是能夠?qū)崿F(xiàn)相應(yīng)的人崗匹配功能。然而,由于很多的招聘求職平臺對求職人提交的簡歷或者個人信息未做嚴格的審核和監(jiān)測,導(dǎo)致求職人員提交的信息和招聘人員與平臺的交互信息繁雜,導(dǎo)致數(shù)據(jù)的不準確和信息缺失(即噪聲數(shù)據(jù)),影響了求職匹配算法在人崗匹配方面所能夠發(fā)揮的性能。

許多研究人員都對解決上述問題提出了各自的解決思路,本文從不同的角度設(shè)計了基于多視點協(xié)作學習算法的多維預(yù)測分數(shù)計算方法,在求職平臺的簡歷匹配功能模塊中發(fā)揮了重要作用。本文提出的多維預(yù)測分數(shù)計算方法中,將計算模型分為兩大類:一類是根據(jù)文本數(shù)據(jù)集構(gòu)建的匹配模型,另一類是根據(jù)關(guān)系數(shù)據(jù)集構(gòu)建的匹配模型,這兩部分捕獲并增強了兩種不同觀點的語義兼容性。為了解決稀疏和噪聲數(shù)據(jù)帶來的影響,本研究提出了兩種不同的方法來組合這兩個組件,其目的是在原始數(shù)據(jù)集的基礎(chǔ)上提高人崗匹配算法的精準度。

2 國內(nèi)外研究現(xiàn)狀

許多國內(nèi)的研究人員在求職平臺的智能工作推薦領(lǐng)域進行了必要的研究。在崗位推薦中,Zhang等人[1]集中研究了基于客戶端的協(xié)同篩選和基于項目的協(xié)同過濾計算的某些場景。戴衛(wèi)東等[2]根據(jù)BP網(wǎng)絡(luò)構(gòu)建了求職崗位匹配評估模型,并進行了二次實驗驗證,檢驗了BP網(wǎng)絡(luò)中功能完備的自聯(lián)想、自變異和自學習能力,實驗成功地評估了大型企業(yè)招聘和技術(shù)人員求職的職業(yè)匹配。最近,一些大型互聯(lián)網(wǎng)招聘組織提出的工作參考管理部門對招聘調(diào)查給出了另一種觀點。例如,在L公司的大型求職推薦系統(tǒng)中,Zhang等人[3]提出了一個綜合直接混合模型(GLMix),這是一個在客戶或風險企業(yè)層面更為復(fù)雜的模型,在該框架中,就業(yè)申請量將增加20%~40%。徐等人[4]提出了一個基于職業(yè)變動網(wǎng)絡(luò)的能力圈揭示模型,以幫助企業(yè)識別足夠的符合本企業(yè)需求的求職人員,為求職者提供求職崗位建議,并追蹤合適的職位。Yu等人[5]從不同的在線社交軟件中收集與業(yè)務(wù)相關(guān)的信息,通過跨組織的網(wǎng)絡(luò)發(fā)現(xiàn)跳槽人員與企業(yè)之間的關(guān)系,并展示人才的流動與國家和企業(yè)政策制度之間的關(guān)系趨勢。Wang等人[6]利用具有職業(yè)特征因素的信息預(yù)測員工流動??紤]到應(yīng)聘者的語義特征,張毅等人[7]改進了職業(yè)搜索數(shù)據(jù)的內(nèi)外語義處理,針對求職者提出了一種更精確的語義匹配的創(chuàng)新算法。利用自然語言處理創(chuàng)新,Doc2vec策略被用來完全挖掘長文本中包含的語義數(shù)據(jù),以實現(xiàn)求職人員和招聘崗位之間的數(shù)據(jù)精確匹配。

國外研究人員同樣對崗位推薦和人崗匹配保持著極高的研究興趣。專家們目前更傾向于使用定量的方法處理招聘情況調(diào)查,因為企業(yè)在招聘時需要求職者的大量信息[5]。也許主要的問題是專注于能力和工作原則之間的匹配水平,通常被稱為人員與工作匹配[8]。Malinowski等人[9]利用求職人員和職位的文件數(shù)據(jù),在工作匹配的早期檢查中,構(gòu)建了一個互惠工作建議框架,以追蹤求職人員和職位之間的合理匹配。根據(jù)提議框架的思想,Lee等人根據(jù)基本的工作傾向和興趣提出了一個任務(wù)候選工作建議框架[10]。Huang[11]通過將語義數(shù)據(jù)從卷積層中提取出來,做出了最后的求職崗位預(yù)測。為了預(yù)測匹配情況,Wang[12]建議將個人職位匹配問題作為一項分類任務(wù),并將簡歷作為分類任務(wù)中的重要信息來源。他們提出了一種學習聯(lián)合表示的策略,該策略利用兩個卷積神經(jīng)網(wǎng)絡(luò)(CNN)對簡歷和職位數(shù)據(jù)進行自由編碼,并計算出余弦可比性作為匹配分數(shù)。Yan[13]利用互聯(lián)網(wǎng)日志,通過記憶網(wǎng)絡(luò)將求職人員和招聘人員的人才需求整合到他們的研究中。He[14]最近提出了一個卷積神經(jīng)網(wǎng)絡(luò),用于協(xié)同過濾、學習比較、推薦求職人員和招聘平臺的植入向量后的推薦結(jié)果。事實上,智能工作推薦已經(jīng)從多個角度得到了廣泛探索,包括以工作為導(dǎo)向的能力評估、求職者匹配和工作建議,目前已經(jīng)成為企業(yè)招聘平臺的一項基本功能。

3 互信息最大化多視角協(xié)作學習算法的計算過程

3.1 問題定義

假設(shè)有一組崗位:[Γ={j1,j2,…,jn}],一組簡歷[R={r1,r2,…,rm}],其中[n]代表的是求職平臺上發(fā)布的招聘崗位總數(shù),[m]代表的是求職平臺上求職人提交的簡歷總數(shù),招聘崗位需求和求職簡歷中求職人的技能都以文本數(shù)據(jù)的形式展現(xiàn)。本文還設(shè)定一個觀察(訓(xùn)練)匹配集[Y={|j∈Γ,r∈R}],其中[yj,r]是一個Flag標識,它以二進制的形式表示獲得的工作和發(fā)布的個人簡歷之間的匹配結(jié)果?;赱yj,r]這個標識,本文根據(jù)匹配集[Y]學習預(yù)測函數(shù)[f(j',r')],以便它能夠準確估計未知(崗位-簡歷)匹配對[f(j',r')]的匹配度。實際上,持續(xù)匹配簡歷的直觀信息通常非常少,用于人崗匹配算法學習的數(shù)據(jù)也有可能包含很多不符合要求的噪聲數(shù)據(jù)。在以前的研究中,研究人員的訓(xùn)練數(shù)據(jù)主要選擇人崗匹配成功的文本信息,如貝葉斯網(wǎng)絡(luò)分類器等數(shù)據(jù)挖掘算法會首先篩選出人崗匹配成功的數(shù)據(jù)集,再根據(jù)匹配成功的數(shù)據(jù)集進行數(shù)據(jù)訓(xùn)練。但是這種做法得出的人崗匹配模型在數(shù)據(jù)質(zhì)量不高的情況下,執(zhí)行結(jié)果達不到理想的效果。本文提出了一個多視角協(xié)同網(wǎng)絡(luò)來解決這些問題,根據(jù)不同的視圖描繪崗位匹配的模式,并利用它們相應(yīng)的優(yōu)勢進一步開發(fā)具有巨大改進的訓(xùn)練實例。

3.2 算法設(shè)計

本節(jié)介紹崗位匹配的設(shè)計策略。從一個角度來看,求職人員的文本檔案中描述了其求職傾向和個人簡歷。首先設(shè)計了一個文本匹配模型,該模型運用漸進式的文本編碼器,獲取個人簡歷和招聘信息中的文本語義。然后,以招聘信息和個人簡歷為基礎(chǔ),構(gòu)建“崗位—簡歷”關(guān)系圖,找出他們之間的潛在相關(guān)性。將人崗匹配任務(wù)轉(zhuǎn)化為崗位與簡歷之間的關(guān)聯(lián)性預(yù)測,利用“崗位—簡歷”神經(jīng)網(wǎng)絡(luò)關(guān)系圖建立一個基于關(guān)系的匹配模型。如前所述,這兩種模式各有優(yōu)勢,本文進一步將它們協(xié)調(diào)成一個多視角的協(xié)同學習網(wǎng)絡(luò)。

對于基于文本的匹配策略,尋找合適的方法處理招聘信息和簡歷信息,通過語義分析找出兩類信息之間的相似關(guān)聯(lián)關(guān)系,構(gòu)建匹配模型。實現(xiàn)這種基于文本匹配策略的關(guān)鍵是如何構(gòu)建應(yīng)聘者獲取到的工作和當初其投遞的簡歷文件之間聯(lián)系的方法。

1)基于Bert的句子編碼器

本文模型的主體層是一個由標準BERT模型執(zhí)行的句子編碼器,它是一個多層雙向轉(zhuǎn)換器。給定一個招聘需求或者個人求職簡歷的一段文本語句,文本語句的開頭會嵌入一個獨特的CLS印記。對于文本語句中的每個令牌,本文將兩種嵌入式標記視為輸入,其中令牌植入解決了每個令牌的含義,令牌的安裝位置表示的是每個令牌在消息排列中的位置。設(shè)定一個單獨的信息向量,在該信息向量中保存這兩種嵌入式標記,并由BERT編碼器對該信息向量進行處理,以習得的CLS符號描述為句子的描述。

2)分級變壓器編碼器

歸檔編碼器是根據(jù)BERT的句子編碼器創(chuàng)建的。給定一個招聘信息或個人求職簡歷,它將插入句子作為輸入信息,并生成整個檔案描述。通過采用分級式設(shè)計,編碼器可以顯示非常長的報告,并保持語義上的條件限制。文檔編碼器的更新方案如下:對于基于消息的匹配策略,跟蹤處理功能消息和恢復(fù)消息的適當方法,然后根據(jù)語義相似性構(gòu)建匹配模型。

[h(l)r=LN(h(l-1)r+MHAtt(h(l-1)r))]? ? ? ? ? ? (1)

[h(l)j=LN(h(l-1)j+MHAtt(h(l-1)j))]? ? ? ? ? ? (2)

[h(l)r=LN(h(l-1)r+FFN(h(l)r))]? ? ? ? ? ? ? ? ? ?(3)

[h(l)j=LN(h(l-1)j+FFN(h(l)j))]? ? ? ? ? ? ? ? ? ?(4)

式中,[j]為工作文檔,[r]為簡歷文檔,[h(l)r]和[h(l)j]為第[i]層輸入簡歷和工作向量,[LN]為層歸一化運算,MHAtt為多頭注意運算。設(shè)[L]表示變壓器網(wǎng)絡(luò)的層數(shù)。最后的輸出層是sigmoid分類器,定義為:

[yj,r=σ(W1[h(L)j;h(L)r]+b1)]? ? ? ? ? ? ? ? ? ? (5)

公式(5)中[h(L)j]和[h(L)r]是分別表示在最后一層(即第L層)的工作文檔[j]和簡歷文檔[r],[W1]是一個參數(shù)矩陣轉(zhuǎn)換,表示連接崗位-簡歷文檔間的轉(zhuǎn)移系數(shù), [b1]是一個偏移量,[yj,r∈(0,1)]表明工作文檔[j]和簡歷文檔[r]之間的匹配程度。

4 多維人崗匹配算法的算法設(shè)計

本文通過兩種整合策略,設(shè)計了一個多維人崗匹配算法。首先,共享學習到的信息或參數(shù),以增強每個組件的原始表示。其次,對于平臺中存在的噪聲數(shù)據(jù)或者負樣本,如何減少它們對模型訓(xùn)練的影響是需要重點關(guān)注的問題。在很多的機器學習算法中,為了減少噪聲影響,采用多樣本聯(lián)合訓(xùn)練的方法,通過選擇更加接近于真實的訓(xùn)練實例,讓這兩個部分能夠相互改進,提升算法質(zhì)量。

由于在匹配過程中包含文本表示和關(guān)系表示兩類表示方法,為了在初始表示學習的過程中互相增強,在初始學習文本模塊的表示時會拼接關(guān)系圖上節(jié)點的表示。類似地,為了增強圖關(guān)系上節(jié)點的表示,會采用文本模塊學習到的表示作為關(guān)系圖訓(xùn)練時的初始表示。

該算法的關(guān)鍵前提是真實樣本經(jīng)常在多個模型視角下提供相對比較類似的預(yù)測,但噪聲樣本很難在所有模型被消除。在對原始數(shù)據(jù)進行機器學習的背景下,該算法的兩個組成部分可以被視為兩個相互印證的學習。一個學習者的樣本首先由另一個學習者進行檢查,被評為“良好質(zhì)量”的樣本保留在機器學習的短語中。由于這兩種樣本學習方法對數(shù)據(jù)特征建模的立足點截然不同,他們可以互相補充,選擇“高質(zhì)量”的培訓(xùn)樣本,以提高整體性能。

5 多維人崗匹配算法的優(yōu)勢分析

本文在國內(nèi)主流的在線招聘平臺和合肥市現(xiàn)代職業(yè)教育集團公共信息服務(wù)云平臺上提供的真實數(shù)據(jù)來檢測模型的有效性。為了防止個人信息的泄露,所有的個人簡歷、招聘信息和企業(yè)與個人之間的溝通信息都做了脫敏處理。將原始數(shù)據(jù)集分為三類,以測試模型對不同領(lǐng)域的魯棒性。處理后的數(shù)據(jù)統(tǒng)計匯總?cè)绫?所示。

從表1可以看出:1)所有的信息指標的密度都非常少,其范圍在0.0142%和0.0431%之間;2)不同的分類與不同的信息質(zhì)量有關(guān)。例如,銷售分類則是一個更為小眾卻又密度較高的信息數(shù)據(jù)集,而技術(shù)分類是一個龐大而密度極其稀疏的信息數(shù)據(jù)集。3)不可否認,對于每一種分類,不符合需求的數(shù)據(jù)樣本(即否定實例)的數(shù)量遠遠小于符合需求的數(shù)據(jù)樣本(即肯定實例)的數(shù)量。由于這種不均勻的信息數(shù)據(jù)集可能會誘發(fā)模型學習的偏差,因此需要經(jīng)常使用調(diào)整信息分散度的策略來增加崗位與簡歷之間匹配的隨機性,增加隨機抽樣的可信度。本文認為有兩種數(shù)據(jù)匹配的模式是不符合需求的負面案例:1)企業(yè)在搜索者的登錄頁上點擊鏈接,在閱讀簡歷后在線聊天,但不發(fā)送最終的錄用通知(點擊錄用該求職者);2)企業(yè)在閱讀簡歷時沒有進一步的行為方式(下鉆式瀏覽)。如前所述,負面案例可能會是“誤導(dǎo)性噪聲數(shù)據(jù)”:盡管沒有合理的在線錄用的通知,但他們兩方可能已經(jīng)通過線下構(gòu)成了雇傭關(guān)系。為了將這些負面案例添加到準備信息中,本文需要研究模型從喧囂信息中獲得有用的雇傭信息的能力。通過相似性檢查這兩項指標,正面案例和負面案例的數(shù)量比例設(shè)置為1:1。需要注意的是,本文只是在準備階段使用這些負面案例,而對于確認集和測試集,本文使用具有明確承認或拒絕狀態(tài)的測試來保證本文評估的準確性和高質(zhì)量。

5 結(jié)論

本文針對三個不同崗位的數(shù)據(jù)集,運用多種算法進行人崗匹配,比較不同算法之間的性能和優(yōu)勢,經(jīng)過實驗,得出如下結(jié)論。首先,NFM很難在實驗的任務(wù)上取得良好的效果。原因是該任務(wù)比傳統(tǒng)推薦場景數(shù)據(jù)更加稀疏;同時,DSSM在大多數(shù)情況下表現(xiàn)不佳,因為它無法捕獲文本信息中的時序信息;BPJFNN、PJFNN、APJFNN、JRMPM和DGMN之間的性能差異很小,并且針對不同指標或不同領(lǐng)域會有微小差別;此外,UBD是唯一訓(xùn)練時解決噪聲問題的基線方法,與其他基線方法相比,該方法的效果有顯著提升,這也側(cè)面證實了該任務(wù)下處理噪聲數(shù)據(jù)的必要性。其次,本文提出的模型在不同數(shù)據(jù)集的所有指標上均獲得了最佳性能。與其他方法相比,模型中的協(xié)作學習機制能夠識別更多信息量豐富且更可靠的樣本來學習參數(shù),也更容易削弱噪聲數(shù)據(jù)帶來的影響,因此優(yōu)于其他方法。最后,對比篩選過濾和重加權(quán)這兩種策略,本文發(fā)現(xiàn)后者在大多數(shù)情況下更優(yōu)異??赡芤驗橹匦录訖?quán)策略采用了“軟”降噪的方法,該方法在處理噪聲數(shù)據(jù)時魯棒性更強。

參考文獻:

[1] Zhang Y Y,Yang C,Niu Z X.A research of job recommendation system based on collaborative filtering[C]//Hangzhou,China:2014 Seventh International Symposium on Computational Intelligence and Design.IEEE,2014:533-538.

[2] 戴衛(wèi)東,蔣蓉,李鐵欣.基于BP神經(jīng)網(wǎng)絡(luò)的科技人員人崗匹配測評模型[J].沈陽工業(yè)大學學報(社會科學版),2018,11(2):160-164.

[3] Zhang X X,Zhou Y T,Ma Y M,et al.Glmix: Generalized linear mixed models for largescale response prediction[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2016.

[4] Xu H,Yu Z W,Yang J Y,et al.Talent Circle Detection in Job Transition Networks[C].Knowledge Discovery and Data Mining,2016.

[5] ChengY,Xie Y S,Chen Z Z,et al.JobMiner:a real-time system for mining job-related patterns from social media[C]//Proceedingsof the 19th ACM SIGKDD international conference on knowledge discovery and data mining.Chicago Illinois USA.New York,NY,USA:ACM,2013.

[6] Wang J,Zhang Y,Posse C,et al.Is it time for a career switch?[C].World Wide Web,2013.

[7] 張毅,高元榮,黃宗財,等.結(jié)合深度語義特征的人崗精準匹配算法[J].貴州大學學報(自然科學版),2021,38(1):65-70.

[8] Sekiguchi T.Person-Organization Fit and Person-Job Fit in Employee Selection: A Review of the Literature[C].osaka keidaironshu,2004.

[9] Malinowski J,KeimT,Wendt O,et al.Matching people and jobs:abilateral recommendation approach[C]//Kauai,HI,USA:Proceedings of the 39th Annual Hawaii International Conference on System Sciences (HICSS'06).IEEE,2006:137c.

[10] Lee D H,Brusilovsky P.Fighting information overflow with personalized comprehensive information access:aproactive job recommender[C]//Athens,Greece:Third International Conference on Autonomic and Autonomous Systems (ICAS'07).IEEE,2007:21.

[11] Huang P S,He X D,Gao J F,et al.Learning deep structured semantic models for web search using clickthrough data[C].Information & Knowledge Management,2013.

[12] Wang J,Zhang Y,Posse C,et al.Is it time for a career switch?[C].World Wide Web,2013.

[13] Yan R,Le R,Song Y,et al.Interview choice reveals your preference on the market:to improve job-resume matching through profiling memories[C]//Anchorage AK USA:Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.NewYork,NY,USA:ACM,2019.

[14] He X, Deng K, Wang X, et al.Lightgcn: Simplifying and powering graph convolution network for recommendation[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval,2020:639-648.

【通聯(lián)編輯:唐一東】

猜你喜歡
人崗編碼器語義
語言與語義
人崗匹配在企業(yè)人力資源管理中的應(yīng)用研究
基于FPGA的同步機軸角編碼器
人崗匹配對員工創(chuàng)新行為的影響機制研究
——內(nèi)部人身份感知和創(chuàng)新自我效能感的作用
基于PRBS檢測的8B/IOB編碼器設(shè)計
“上”與“下”語義的不對稱性及其認知闡釋
雙向選擇 人崗和諧——長春市社會福利院人力資源改革見成效
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
認知范疇模糊與語義模糊
基于不確定偏好序信息的人崗匹配決策模型與計算