国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

詞向量在崗位描述與簡(jiǎn)歷中的分布特征及其應(yīng)用

2020-03-02 11:36曾澤明陳志軒鄧一星
軟件 2020年1期
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

曾澤明 陳志軒 鄧一星

摘 ?要: 崗位與簡(jiǎn)歷的自動(dòng)化和智能化匹配在人力資源開(kāi)發(fā)與管理中具有重要意義,目前的主流方法是根據(jù)與崗位有關(guān)的幾個(gè)關(guān)鍵字詞來(lái)匹配查詢,未能考慮崗位描述中的有關(guān)職責(zé)、技能和成果等方面的綜合要求。針對(duì)此問(wèn)題,提出了一種基于詞向量和行業(yè)近義詞表的崗位匹配與推薦方法。該方法利用Skip-gram模型進(jìn)行了詞向量學(xué)習(xí),然后依據(jù)詞向量相似度對(duì)簡(jiǎn)歷進(jìn)行行業(yè)分類(lèi),最后考慮專(zhuān)業(yè)近義詞的近義程度指數(shù)和崗位描述與簡(jiǎn)歷文本的匹配結(jié)果提出崗位推薦。

關(guān)鍵詞: 詞向量;神經(jīng)網(wǎng)絡(luò);崗位描述;崗位匹配

中圖分類(lèi)號(hào): TP391.3 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.01.011

本文著錄格式:曾澤明,陳志軒,鄧一星. 詞向量在崗位描述與簡(jiǎn)歷中的分布特征及其應(yīng)用[J]. 軟件,2020,41(01):5054

【Abstract】: It is of great significance in the development and management of human resources in organizations to automatic and intelligent in pre-screening resumes and matching to the job descriptions of opening positions. The current mainstream method is still to match the query according to several key words related to the job, but fails to consider the comprehensive requirements such as responsibilities, skills and achievements. To solve this problem, a position matching and recommendation method based on word vector and industry synonym table is proposed. This method uses skip gram model to learn the word vector, and then classifies the resume according to the word vector similarity. Finally, it proposes the position recommendation considering the similarity index of the professional synonyms and the matching result of the position description and the resume text.

【Key words】: Word vector; Neural network; Job description; Job matching

0 ?引言

隨著互聯(lián)網(wǎng)的日益普及,招聘網(wǎng)站及網(wǎng)上社交媒體已經(jīng)為人才招聘的主要來(lái)源[1],崗位的招聘信息與各種求職簡(jiǎn)歷數(shù)量也呈爆炸型增長(zhǎng)。對(duì)雇主和求職者而言,分析和匹配崗位信息顯得愈發(fā)困難。傳統(tǒng)的關(guān)鍵詞查詢很難達(dá)到精準(zhǔn)匹配的要求,而招聘信息與求職簡(jiǎn)歷這類(lèi)短文本所具有的信息稀疏等特點(diǎn)使得智能化處理與分析更為復(fù)雜。本文用基于神經(jīng)網(wǎng)絡(luò)和詞向量的方法,通過(guò)對(duì)不同行業(yè)的相同的詞的詞向量在向量空間上的分布規(guī)律的研究,進(jìn)而對(duì)簡(jiǎn)歷以行業(yè)為類(lèi)別進(jìn)行分類(lèi)、結(jié)合簡(jiǎn)歷和崗位描述文本的特點(diǎn)探索簡(jiǎn)歷和崗位描述之間的近義詞表,以及計(jì)算簡(jiǎn)歷與崗位描述之間的匹配度,為智能化職業(yè)推薦提供依據(jù)。

1 ?文本特點(diǎn)和表示學(xué)習(xí)

本文的研究對(duì)象是崗位描述及求職者簡(jiǎn)歷的短文本。根據(jù)Harris等提出的分布假說(shuō),文本分析的對(duì)象是詞和上下文。并且認(rèn)為具有相似上下文的詞,會(huì)有相似的語(yǔ)義,并且其詞向量的向量空間相對(duì)距離會(huì)更接近。因此,針對(duì)本文的研究場(chǎng)合,首先對(duì)文本特點(diǎn)進(jìn)行分析,進(jìn)而選擇表示學(xué)習(xí)的模型。

1.1 ?文本特點(diǎn)

本文所使用的文本數(shù)據(jù)來(lái)源于招聘平臺(tái)上的實(shí)時(shí)招聘信息中的崗位描述和求職者的簡(jiǎn)歷,此兩者的文本長(zhǎng)度較短,都具有相應(yīng)行業(yè)的語(yǔ)言信息,其中職位描述專(zhuān)業(yè)詞較多,而簡(jiǎn)歷文本偏口語(yǔ)化。通過(guò)對(duì)崗位描述和簡(jiǎn)歷內(nèi)容的比對(duì),發(fā)現(xiàn)其中崗位職能的描述與簡(jiǎn)歷中技能的表述不盡相同。文本特點(diǎn)的比較如表1所示,比如專(zhuān)業(yè)詞匯和職位的公司發(fā)展描述在簡(jiǎn)歷里是沒(méi)有的,而簡(jiǎn)歷中的項(xiàng)目經(jīng)歷和未來(lái)愿景在職位描述中也是沒(méi)有與之對(duì)應(yīng)的,只有崗位能力要求與知識(shí)點(diǎn)能相互對(duì)應(yīng)。

1.2 ?表示學(xué)習(xí)與詞向量

目前在使用深度學(xué)習(xí)處理NLP任務(wù)上,詞向量的表示方法應(yīng)用廣泛。詞向量是一種分布式的詞表示方式,它能從大量無(wú)標(biāo)注的語(yǔ)料中學(xué)習(xí)到詞與詞之間的語(yǔ)言信息,能夠表示詞與詞之間存在的“距離”概念和包含更多信息,并且每一維都有特定的含義。與傳統(tǒng)的詞袋模型(bag of words, BOW)表示相比,詞向量具有低維度和稠密的特點(diǎn)[2]。目前已有很多開(kāi)源工具可以訓(xùn)練學(xué)習(xí)詞向量,如word2vec和GolVe等。

1.3 ?Skip-gram模型和CBOW模型

Mikolov等人在文獻(xiàn)中,同時(shí)提出了CBOW (Continuous Bag of Words)和Skip-gram模型,圖1為兩個(gè)模型的模型圖。

CBOW模型的訓(xùn)練輸入是某一個(gè)特征詞的上下文相關(guān)的詞對(duì)應(yīng)的詞向量,而輸出就是這特定的一個(gè)詞的詞向量。

Skip-Gram模型和CBOW的思路是反著來(lái)的,即輸入是特定的一個(gè)詞的詞向量,而輸出是特定詞對(duì)應(yīng)的上下文詞向量。

根據(jù)來(lái)斯惟等的實(shí)驗(yàn)結(jié)論,一個(gè)領(lǐng)域相似的語(yǔ)料,語(yǔ)料越大越好。語(yǔ)料小的時(shí)候用Skip-gram模型效果要優(yōu)于CBOW模型。根據(jù)崗位描述和簡(jiǎn)歷的短文本和數(shù)據(jù)量少的特點(diǎn),本文選用Skip-gram模型進(jìn)行訓(xùn)練,選用50維的詞向量表示。

2 ?文本匹配過(guò)程

本文認(rèn)為文本相似度就是詞向量的相似度,即詞向量相似的文本,其文本語(yǔ)義也是相似的。通過(guò)特定行業(yè)的詞向量庫(kù)與從簡(jiǎn)歷訓(xùn)練出的詞向量計(jì)算相似度并分類(lèi),得到分類(lèi)后的簡(jiǎn)歷,然后通過(guò)行業(yè)近義詞表計(jì)算簡(jiǎn)歷與所屬行業(yè)的崗位描述的相似度,最后做出崗位推薦。

2.1 ?文本預(yù)處理

文本預(yù)處理是在訓(xùn)練詞向量前必要的一步,其主要包括分詞、去停用詞和無(wú)效的字[4-8]。中文分詞處理的優(yōu)劣直接影響到后續(xù)自然語(yǔ)言處理任務(wù)的優(yōu)劣。現(xiàn)今的分詞算法主要分為傳統(tǒng)的機(jī)器學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)分詞模型。神經(jīng)網(wǎng)絡(luò)分詞模型短短數(shù)年間取得長(zhǎng)足進(jìn)步,但整體上仍然不敵傳統(tǒng)模型。無(wú)論是分詞精度還是計(jì)算效率上,和傳統(tǒng)方法相比并不具有顯著優(yōu)勢(shì)。Jieba是比較好的分詞開(kāi)源工具,本文采用的分詞算法使用jieba開(kāi)源工具實(shí)現(xiàn)。該算法基于前綴詞典實(shí)現(xiàn)詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG),采用動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合。對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,采用Viterbi算法進(jìn)行計(jì)算。然后使用哈爾濱工業(yè)大學(xué)停用詞表去除停用詞和無(wú)效的字符(比如,標(biāo)點(diǎn)符號(hào)等),最后得到分詞后的行業(yè)語(yǔ)料庫(kù)。

2.2 ?文本詞向量的獲取

為了獲得高質(zhì)量的詞向量,將其按行業(yè)分類(lèi)得到行業(yè)崗位描述的語(yǔ)料庫(kù),隨后利用word2vec開(kāi)源工具中Skip-gram模型對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,獲得了50維的詞向量表示,這些詞向量就作為特定行業(yè)的詞向量庫(kù)。

2.3 ?相似度計(jì)算

將簡(jiǎn)歷訓(xùn)練成詞向量后與各個(gè)行業(yè)的詞向量進(jìn)行相似度計(jì)算。將簡(jiǎn)歷分詞后的每個(gè)詞在行業(yè)語(yǔ)料庫(kù)中找與之相同的詞,將匹配的詞的詞向量進(jìn)行相似度計(jì)算累加后平均,計(jì)算公式為:

2.5 ?職位推薦方法

由于崗位描述和簡(jiǎn)歷相對(duì)應(yīng)的文本較短,故直接使用傳統(tǒng)詞向量的方法效果較差。對(duì)此本文提出基于崗位描述與簡(jiǎn)歷在特定行業(yè)的相似度確定行業(yè)內(nèi)的詞與詞的近義程度,量化了行業(yè)知識(shí)點(diǎn)之間的相似度。圖2描述了崗位推薦的過(guò)程,將崗位描述和簡(jiǎn)歷中的知識(shí)點(diǎn)關(guān)鍵詞提取出來(lái),逐一查該領(lǐng)域的近義詞表累加得分,最終得到與該簡(jiǎn)歷較為相似的職位排名,取前n個(gè)做出推薦。

3 ?實(shí)驗(yàn)分析

3.1 ?數(shù)據(jù)來(lái)源

本文數(shù)據(jù)來(lái)源于前程無(wú)憂(NASDAQ:JOBS,https://www.51job.com)網(wǎng)上平臺(tái)的公開(kāi)數(shù)據(jù),包括行業(yè)、職能、公司基本情況和崗位描述等文本信息。本文使用了2018年1月至2019年6月期間的招聘信息,包括IT、教育、金融和財(cái)務(wù)、醫(yī)療衛(wèi)生和房地產(chǎn)5行業(yè)400000條崗位描述。表2展示了數(shù)據(jù)集的構(gòu)成。

3.2 ?實(shí)驗(yàn)設(shè)置

根據(jù)表3描述的數(shù)據(jù)集,本文模型使用的實(shí)驗(yàn)參數(shù)如表3。

3.3 ?實(shí)驗(yàn)結(jié)果

本文首先對(duì)訓(xùn)練出來(lái)的行業(yè)詞向量進(jìn)行分析,確定行業(yè)近義詞表。表4是IT和醫(yī)療衛(wèi)生行業(yè)的部分近義詞和近義程度的示例。

醫(yī)療衛(wèi)生和房地產(chǎn)兩大行業(yè)詞向量庫(kù)進(jìn)行比對(duì),提取出相同的30個(gè)詞的詞向量使用PCA (Principal Component Analysis)降維,在二維平面上可視化,如圖3所示。

從這兩張圖的對(duì)比可知,不同行業(yè)的相同的詞的詞向量分布(空間上的方向和長(zhǎng)度)表示不同,這意味著它們所攜帶的語(yǔ)言信息不同。

本文進(jìn)一步對(duì)醫(yī)療衛(wèi)生和房地產(chǎn)兩大行業(yè)詞向量庫(kù)中的單個(gè)詞進(jìn)行分析,針對(duì)相同的詞與其相似的詞的詞向量進(jìn)行可視化分析。圖3是在醫(yī)療衛(wèi)生行業(yè)和房地產(chǎn)行業(yè)中關(guān)鍵詞“銷(xiāo)售”及空間分布相近15個(gè)詞的詞向量分布的比較。

從圖4可知,詞與之相近詞的詞向量分布因行業(yè)不同有很大差異,其相近詞的詞向量分布也截然不同。這表明某個(gè)詞在不同行業(yè)的語(yǔ)言意義也不同,與之相近詞的關(guān)系也具有很大差異。

基于以上分析結(jié)論,不同行業(yè)的簡(jiǎn)歷對(duì)特定行業(yè)的描述也具有偏向性。因此,可先將簡(jiǎn)歷用詞向量來(lái)表示,再與各行業(yè)詞向量做相似度計(jì)算,來(lái)對(duì)簡(jiǎn)歷進(jìn)行行業(yè)分類(lèi)。本文采用了歐式距離、曼哈頓距離和余弦相似度等3種計(jì)算向量相似度的函數(shù)進(jìn)行了相似度計(jì)算。對(duì)于相同行業(yè)3種相似度函數(shù)的相似度計(jì)算結(jié)果的比較如表5所示。

該對(duì)比試驗(yàn)中,不同的函數(shù)計(jì)算行業(yè)語(yǔ)料庫(kù)與簡(jiǎn)歷文本相似度的結(jié)果有較大的差異,其中使用曼哈頓距離作為衡量相似度的函數(shù)準(zhǔn)確率最高。本文所使用的崗位描述和簡(jiǎn)歷實(shí)質(zhì)上是短文本類(lèi)型語(yǔ)料,其訓(xùn)練出的詞向量,特征較為稀疏,對(duì)特定行業(yè)有偏向性,而曼哈頓距離函數(shù)只對(duì)特定維度的距離進(jìn)行計(jì)算。而余弦相似度函數(shù)更注重向量在方向上的差異,而對(duì)距離或長(zhǎng)度不敏感,歐式距離在數(shù)據(jù)較為稠密且連續(xù)時(shí)效果會(huì)更好,從而導(dǎo)致兩者效果較差。

分類(lèi)后的簡(jiǎn)歷與行業(yè)中的崗位描述,通過(guò)行業(yè)近義詞表計(jì)算相似度、排序、做出推薦。系統(tǒng)推薦的崗位與簡(jiǎn)歷的理想崗位基本吻合,崗位所要求的知識(shí)點(diǎn)技能全都具備。表6展示了計(jì)算機(jī)、數(shù)據(jù)、房地產(chǎn)和金融行業(yè)的部分實(shí)驗(yàn)結(jié)果。

4 ?總結(jié)與展望

通過(guò)神經(jīng)網(wǎng)絡(luò)詞向量的計(jì)算,以及不同行業(yè)的相同詞的詞向量分布的比較,發(fā)現(xiàn)由于不同行業(yè)詞的文本語(yǔ)義不同在其詞向量分布特征上表現(xiàn)出明顯的差異,并對(duì)特定行業(yè)有顯著的偏向性。據(jù)此特性,采用詞向量曼哈頓距離函數(shù)相似度進(jìn)一步對(duì)簡(jiǎn)歷進(jìn)行了行業(yè)分類(lèi)。本文還對(duì)相同行業(yè)中的近義詞的近義程度指數(shù)做了初步探討,結(jié)合神經(jīng)網(wǎng)絡(luò)詞向量的分布特征,量化了崗位描述和簡(jiǎn)歷之間的關(guān)聯(lián)關(guān)系,并應(yīng)用于簡(jiǎn)歷與崗位描述的匹配,進(jìn)一步提出了基于詞向量的崗位推薦流程。實(shí)驗(yàn)表明,基于詞向量相似度的崗位推薦方法的計(jì)算結(jié)果與實(shí)際比較吻合,該方法及流程對(duì)短文本信息稀疏的智能化處理與分析有較好的參考意義。

參考文獻(xiàn)

[1] Spherion Staffing Services. Latest Emerging Workforce Study Discovers New Workplace Realities and Signifi-cant Employer/Employee Disconnects.www.Spherion. com/Documents/ 2013EWSQ1_FINAL. pdf, January 2013.

[2] 于政. 基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用[D]. 華東師范大學(xué), 2016.

[3] 王彬宇, 劉文芬, 胡學(xué)先, 魏江宏. 基于余弦距離選取初始簇中心的文本聚類(lèi)研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018(10):

13-17.

[4] 陳磊磊. 不同距離測(cè)度的K-Means 文本聚類(lèi)研究[J]. 軟件, 2015, 36(1): 56-61.

[5] 謝子超. 非結(jié)構(gòu)化文本的自動(dòng)分類(lèi)檢索平臺(tái)的研究與實(shí)現(xiàn)[J]. 軟件, 2015, 36(11): 112-114.

[6] 劉騰飛, 于雙元, 張洪濤, 等. 基于循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)研究[J]. 軟件, 2018, 39(01): 64-69.

[7] 陳海紅. 多核SVM文本分類(lèi)研究[J]. 軟件, 2015, 36(5): 7-10.

[8] 張曉明, 尹鴻峰. 基于卷積神經(jīng)網(wǎng)絡(luò)和語(yǔ)義信息的場(chǎng)景分類(lèi)[J]. 軟件, 2018, 39(01): 29-34.

[9] 于政. 基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用[D]. 華東師范大學(xué), 2016.

[10] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.

[11] Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]. Proc of the 2014 Conf on Empirical Methods in Natural Language Processing(EMNLP), 2014: 1532-1543.

[12] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. International Conference on Learning Representations Workshop Track, CoRR abs/1301. 3781 2013.

[13] 來(lái)斯惟. 基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語(yǔ)義向量表示方法研究[D]. 2016.

[14] 黃昌寧, 趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報(bào), 2007, 21(3): 8-19.

猜你喜歡
神經(jīng)網(wǎng)絡(luò)
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
BP神經(jīng)網(wǎng)絡(luò)在路標(biāo)識(shí)別上的應(yīng)用研究
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
基于Alexnet神經(jīng)網(wǎng)絡(luò)的物體識(shí)別研究
基于BP神經(jīng)網(wǎng)絡(luò)的旋轉(zhuǎn)血泵生理控制
基于神經(jīng)網(wǎng)絡(luò)MRAS的速度辨識(shí)仿真研究
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
集安市| 潼关县| 翼城县| 衡水市| 嘉峪关市| 平塘县| 石狮市| 永登县| 响水县| 大英县| 法库县| 德庆县| 贵南县| 交城县| 商水县| 镇远县| 大荔县| 隆子县| 砚山县| 成安县| 庄河市| 阿勒泰市| 清涧县| 抚顺县| 阳泉市| 庆城县| 革吉县| 襄城县| 车致| 麻城市| 昌黎县| 汝南县| 肃南| 绍兴市| 邻水| 潞城市| 许昌市| 临湘市| 乐昌市| 马山县| 惠东县|