基于混合神經(jīng)網(wǎng)絡(luò)的開源社區(qū)軟件開發(fā)者人力資源價(jià)值預(yù)測

2021-08-12 08:32:56湯佳杰曹永忠朱俊武

計(jì)算機(jī)應(yīng)用與軟件 2021年8期

湯佳杰曹永忠朱俊武顧浩

(揚(yáng)州大學(xué)信息工程學(xué)院江蘇揚(yáng)州 225127)

0 引言

隨著社會(huì)經(jīng)濟(jì)取得前所未有的發(fā)展，人力資源在推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展中的作用不斷提高。特別是21世紀(jì)以來，作為國家競爭力來源的人力資源已上升至國家戰(zhàn)略層面的高度。但是，在如此激烈的競爭環(huán)境下，人力資源價(jià)值評估理論和實(shí)踐卻相對滯后，導(dǎo)致企業(yè)在招聘時(shí)需要通過多重環(huán)節(jié)對應(yīng)聘者進(jìn)行考核來確定其各項(xiàng)技能水平，整個(gè)招聘過程包括筆試、面試等預(yù)估環(huán)節(jié)將長達(dá)數(shù)月；同時(shí)，對企業(yè)內(nèi)部已招聘的員工的人力資源價(jià)值沒有進(jìn)行量化分析，以至于許多經(jīng)過企業(yè)培養(yǎng)，具有豐富管理經(jīng)驗(yàn)及高新技術(shù)技能的員工因自身價(jià)值得不到體現(xiàn)而另謀出路。此現(xiàn)象在人力資源密集型、知識(shí)密集型的IT行業(yè)中十分常見，因此對IT行業(yè)中軟件開發(fā)者的人力資源價(jià)值進(jìn)行正確評估就顯得尤為重要。

近幾年以來，以大數(shù)據(jù)、云計(jì)算、人工智能、物聯(lián)網(wǎng)、區(qū)塊鏈等時(shí)代前沿技術(shù)為基礎(chǔ)的數(shù)字科技正在不斷加速各行各業(yè)的產(chǎn)業(yè)融合與轉(zhuǎn)型，不斷改變著人們的生活方式。因此，作為前沿技術(shù)開發(fā)者的高技術(shù)軟件開發(fā)者被各企業(yè)所爭搶。開源社區(qū)作為各層次水平的軟件開發(fā)者的聚集地，其中積累了大量的軟件開發(fā)者人力資源數(shù)據(jù)、軟件開發(fā)數(shù)據(jù)及軟件開發(fā)者日?；顒?dòng)數(shù)據(jù)。為了充分利用這些數(shù)據(jù)，GitHub根據(jù)注冊用戶在社區(qū)中的日常行為數(shù)據(jù)開發(fā)了“Discover repositories”向使用者推薦相關(guān)存儲(chǔ)庫。除此以外，我們?nèi)钥梢詮倪@些數(shù)據(jù)中挖掘高水平或高潛力的軟件開發(fā)者信息，并用于公司招聘。

然而，GitHub并沒有專門為招聘人員提供相關(guān)信息來推斷軟件開發(fā)者的技能水平。因此，為了評估開發(fā)人員的質(zhì)量，招聘人員必須手工檢索相應(yīng)軟件開發(fā)者的個(gè)人信息及存儲(chǔ)倉庫。Marlow等[1]認(rèn)為，招聘人員必須投入大量精力和時(shí)間來收集和評估GitHub上軟件開發(fā)者展示的某些相關(guān)技能方面信息。因此，本文將重點(diǎn)利用GitHub用戶信息及其存儲(chǔ)庫相關(guān)指標(biāo)來解決招聘者在招聘軟件開發(fā)者時(shí)無法評價(jià)其價(jià)值的問題，為企業(yè)的高效招聘提供一種新的解決方案。

1 相關(guān)理論與方法

人們對人力資源研究的熱情始于美國經(jīng)濟(jì)學(xué)家舒爾茨和貝克爾，他們提出的人力資本理論在經(jīng)濟(jì)學(xué)中具有舉足輕重的地位。人力資源價(jià)值評估主要是根據(jù)被評估者自身現(xiàn)有條件，并參考在未來可能創(chuàng)造的價(jià)值，反映人力資源在當(dāng)前時(shí)間點(diǎn)的勞動(dòng)能力。從人力資源個(gè)體價(jià)值的角度出發(fā)，國內(nèi)外一些學(xué)者先后提出了一系列計(jì)量模型。其中作為所有模型基礎(chǔ)的理論是馬克思的勞動(dòng)價(jià)值論[2]，其認(rèn)為人力資源成長過程中積累的知識(shí)、技能和經(jīng)驗(yàn)等因素可作為人力資源價(jià)值的組成部分，并在工作時(shí)將其中的價(jià)值轉(zhuǎn)移到商品中。

目前，國內(nèi)外人力資源個(gè)體價(jià)值評估方法分為兩種：第一種為傳統(tǒng)管理學(xué)評估模型，這些模型通過統(tǒng)計(jì)人力資源價(jià)值形成過程中的投入，并把工資作為評價(jià)個(gè)體人力資源價(jià)值的方式，如未來工資報(bào)酬折現(xiàn)法[3-4]、人力資本加工成本法[4]、隨機(jī)報(bào)酬價(jià)值法[5]和完全價(jià)值測定法[6]等；第二種為機(jī)器學(xué)習(xí)的方法，如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等。文獻(xiàn)[7]在問卷調(diào)查選擇人力資源價(jià)值影響因素的基礎(chǔ)上，對藍(lán)領(lǐng)階層價(jià)值影響因素進(jìn)行聚類，通過聚類把人員劃分為5個(gè)重要程度并針對情況對相應(yīng)人員提出激勵(lì)措施。文獻(xiàn)[8]通過BP神經(jīng)網(wǎng)絡(luò)對電力企業(yè)員工績效做出評估，首先由評估人員對設(shè)定的17個(gè)指標(biāo)打分，把分?jǐn)?shù)作為神經(jīng)網(wǎng)絡(luò)輸入向量，并把當(dāng)期考核結(jié)果作為輸出向量對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，驗(yàn)證了神經(jīng)網(wǎng)絡(luò)評估的有效性與高效性。文獻(xiàn)[9]通過Elman神經(jīng)網(wǎng)絡(luò)對歷年員工創(chuàng)造價(jià)值、員工人數(shù)、員工離職率的學(xué)習(xí)，預(yù)測當(dāng)年可創(chuàng)造價(jià)值與員工離職概率，為企業(yè)人力資源配置的研究和實(shí)踐提供了一種新的方法，具有一定現(xiàn)實(shí)意義。文獻(xiàn)[10]設(shè)計(jì)了19項(xiàng)可能會(huì)為高校人力資源帶來風(fēng)險(xiǎn)的因素，建立了高校人力資源風(fēng)險(xiǎn)評估模型，并通過RBF神經(jīng)網(wǎng)絡(luò)對風(fēng)險(xiǎn)做出分類評估，實(shí)證研究識(shí)別錯(cuò)誤率為6%，能夠較好地識(shí)別高風(fēng)險(xiǎn)樣本。

近年來，隨著計(jì)算機(jī)硬件的發(fā)展，深度學(xué)習(xí)也再次受到人們的關(guān)注，卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)作為其中的代表，被廣泛應(yīng)用于各種領(lǐng)域，如計(jì)算機(jī)視覺[11]、自然語言處理[12]、語音識(shí)別[13]、機(jī)器翻譯[14]、醫(yī)療[15]和金融[16]等領(lǐng)域。為了完成以上各項(xiàng)任務(wù)，構(gòu)建的神經(jīng)網(wǎng)絡(luò)規(guī)模不斷增大，并且為了獲得更好的性能，多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)堆疊使用。文獻(xiàn)[17]構(gòu)造了CNN-LSTM結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，通過CNN提取樣本特征，輸入LSTM中預(yù)測設(shè)備故障，通過一周內(nèi)采集的60萬組數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練，預(yù)測值的準(zhǔn)確率達(dá)83.27%。文獻(xiàn)[18]提出了一種基于CNN-LSTM框架的繪畫作品作者分類方法，對中國畫的作者進(jìn)行預(yù)測分類，給出其可能作者及其概率，較深度卷積神經(jīng)網(wǎng)絡(luò)精確率、召回率、F1-score分別提高8.45%、8.08%、8.27%。

綜上，只要確定了合理的價(jià)值評估體系并將之科學(xué)地轉(zhuǎn)換為量化的變量值，在樣本足夠的情況下，神經(jīng)網(wǎng)絡(luò)可以較準(zhǔn)確地完成軟件開發(fā)者人力資源價(jià)值評估。但僅僅知道軟件開發(fā)者當(dāng)前價(jià)值是不夠的，招聘者無法預(yù)知其未來價(jià)值，所以需要使用LSTM神經(jīng)網(wǎng)絡(luò)對其未來價(jià)值進(jìn)行預(yù)測。因此，本文提出一種基于CNN-LSTM混合神經(jīng)網(wǎng)絡(luò)的軟件開發(fā)者人力資源價(jià)值評估及預(yù)測方法。

2 開源社區(qū)軟件開發(fā)者價(jià)值評估要素

2.1 軟件開發(fā)者價(jià)值評估指標(biāo)體系構(gòu)建

文獻(xiàn)[19]研究了GitHub中流行的項(xiàng)目及受歡迎的軟件開發(fā)者，使用PageRank算法評估用戶的影響力，并根據(jù)影響力向招聘人員推薦GitHub軟件開發(fā)者。文獻(xiàn)[20]研究了存儲(chǔ)倉庫的流行度與其使用的編程語言、特征之間的關(guān)系，并使用存儲(chǔ)倉庫的Fork與Watch數(shù)來確定其流行程度。研究發(fā)現(xiàn)大多數(shù)對GitHub的研究單一地集中于用戶或項(xiàng)目，而少數(shù)聯(lián)合研究的多為項(xiàng)目推薦系統(tǒng)，如文獻(xiàn)[21]基于用戶行為及其關(guān)注項(xiàng)目特性構(gòu)造用戶行為矩陣，通過TF-IDF統(tǒng)計(jì)源代碼文件和項(xiàng)目文檔中每個(gè)單詞，獲取項(xiàng)目關(guān)鍵詞并構(gòu)造相似性矩陣，通過矩陣相似性向用戶推薦相似項(xiàng)目。

鑒于未有GitHub軟件開發(fā)者人力資源價(jià)值的相關(guān)研究，本文從軟件開發(fā)者現(xiàn)有價(jià)值和未來價(jià)值分析了GitHub軟件開發(fā)者價(jià)值的影響因素，將影響因素分為編程能力、項(xiàng)目管理能力、學(xué)習(xí)能力、團(tuán)隊(duì)合作能力和技術(shù)影響力，并提出敬業(yè)度概念，建立如圖1所示的軟件開發(fā)者價(jià)值評估指標(biāo)體系。

圖1 開源社區(qū)軟件開發(fā)者人力資源價(jià)值評估體系

定義1編程能力PA：表示為一個(gè)三元組PA=(PR,W,S)。其中：PR表示軟件開發(fā)者自身創(chuàng)建的存儲(chǔ)倉庫的集合，在一定程度上創(chuàng)建的存儲(chǔ)倉庫越多編程能力越強(qiáng)；W表示存儲(chǔ)倉庫被標(biāo)記數(shù)的集合，被標(biāo)記數(shù)量表示有多少軟件開發(fā)者對此倉庫感興趣，可以反映該存儲(chǔ)倉庫的質(zhì)量與創(chuàng)新度；S表示存儲(chǔ)倉庫被其他軟件開發(fā)者贊同數(shù)的集合，其反映內(nèi)容與W相同。如果PR=?，則W、S均為?。

定義2項(xiàng)目管理能力MA：表示為一個(gè)六元組MA=(R,Prs,CM,RE,B,CT)。其中：R表示軟件開發(fā)者所有存儲(chǔ)倉庫的集合；Prs表示項(xiàng)目拉取請求數(shù)量的集合，其表示倉庫創(chuàng)建者對其他軟件開發(fā)者提交修改的審核情況，數(shù)量越多，管理能力越強(qiáng)；CM表示存儲(chǔ)倉庫提交修改次數(shù)的集合；RE存儲(chǔ)倉庫擁有版本數(shù)的集合；B表示存儲(chǔ)倉庫擁有分支數(shù)的集合；CT表示為存儲(chǔ)倉庫作出貢獻(xiàn)的人員數(shù)的集合，為項(xiàng)目作出貢獻(xiàn)的人越多，管理者要審核的代碼就越多，其管理能力也就越強(qiáng)。

定義3學(xué)習(xí)能力LA：表示為一個(gè)二元組LA=(LN,FR)。其中：LN表示軟件開發(fā)者所掌握的編程語言集合，所掌握的編程語言反映軟件開發(fā)者所能完成的工作領(lǐng)域，越多表示學(xué)習(xí)能力越強(qiáng)；FR表示拷貝的存儲(chǔ)倉庫的集合，拷貝的倉庫需要時(shí)間熟悉其代碼構(gòu)成，軟件開發(fā)者作出貢獻(xiàn)的拷貝倉庫越多，其學(xué)習(xí)能力越強(qiáng)。

定義4團(tuán)隊(duì)合作能力TA：表示為一個(gè)二元組TA=(FK,CT)。其中：FK表示存儲(chǔ)倉庫被拷貝數(shù)的集合，數(shù)量越多，倉庫擁有者與其他軟件開發(fā)者合作的概率越大；CT表示為存儲(chǔ)倉庫作出貢獻(xiàn)的人員數(shù)的集合，其數(shù)量越多，表明為該倉庫作出貢獻(xiàn)的團(tuán)隊(duì)成員越多，倉庫擁有者與其他軟件開發(fā)者的合作就越多。

定義5技術(shù)影響力I：表示為一個(gè)三元組I=(FE,FI,SS)。其中：FE為關(guān)注該軟件開發(fā)者的用戶集合，關(guān)注該軟件開發(fā)者的人數(shù)越多，表示越多的軟件開發(fā)者認(rèn)為其技術(shù)水平高超；FI為該軟件開發(fā)者關(guān)注的用戶集合，表示該軟件開發(fā)者認(rèn)為其技術(shù)值得學(xué)習(xí)；SS為該軟件開發(fā)者被其他軟件開發(fā)者贊同的信息集合，表示其對這些存儲(chǔ)倉庫的認(rèn)可。

定義6敬業(yè)度LY，分為每日貢獻(xiàn)度CD、工作態(tài)度WA。敬業(yè)度為二元組LY=(CD,WA)，其中：WA表示軟件開發(fā)者活躍天數(shù)占全年天數(shù)的比例，活躍天數(shù)越多表示其對工作越滿意，其工作態(tài)度越端正；CD表示軟件開發(fā)者每日貢獻(xiàn)占全年活躍日平均貢獻(xiàn)次數(shù)的比例。CD=(EC,AD)，WA=(AD)，其中：AD表示軟件開發(fā)者在一年內(nèi)的活躍天數(shù)；EC表示軟件開發(fā)者每日貢獻(xiàn)次數(shù)的集合。

(1)

(2)

LY=CD×WA

(3)

定義7軟件開發(fā)者人力資源價(jià)值為七元組V=(P,PA,MA,LA,TA,I,LY)。其中：P表示待評估價(jià)值的軟件開發(fā)者；PA表示軟件開發(fā)者的編程能力，即項(xiàng)目經(jīng)歷的集合；MA表示軟件開發(fā)者項(xiàng)目管理能力；I表示軟件開發(fā)者的技術(shù)影響力；LA表示軟件開發(fā)者的學(xué)習(xí)能力；TA表示軟件開發(fā)者的團(tuán)隊(duì)合作能力；LY表示軟件開發(fā)者的敬業(yè)度。V表示軟件開發(fā)者的價(jià)值分類的集合。

2.2 數(shù)據(jù)獲取及預(yù)處理

本文數(shù)據(jù)集為GitHub中真實(shí)用戶信息，首先根據(jù)GitHub的advanced search搜索找出各個(gè)用戶、用戶項(xiàng)目之間的URL鏈接關(guān)系，再找出網(wǎng)頁中存放所需數(shù)據(jù)的HTML標(biāo)簽，之后使用Python編寫爬蟲程序，獲取整個(gè)網(wǎng)頁結(jié)構(gòu)。使用Beautiful Soup解析網(wǎng)頁HTML標(biāo)簽，獲得標(biāo)簽中數(shù)據(jù)，同時(shí)記錄數(shù)據(jù)采集時(shí)間，本文中采集的數(shù)據(jù)集記錄了部分軟件開發(fā)者連續(xù)2年每日各項(xiàng)屬性值的變化情況。

研究發(fā)現(xiàn)GitHub中軟件開發(fā)者人數(shù)與其價(jià)值呈現(xiàn)冪律分布，即大多數(shù)軟件開發(fā)者在GitHub中沒有貢獻(xiàn)，少數(shù)軟件開發(fā)者貢獻(xiàn)占據(jù)總貢獻(xiàn)的80%，所以爬取的數(shù)據(jù)樣本分布不均衡，為了解決這一問題，本文使用SMOTE算法[22]對訓(xùn)練樣本進(jìn)行擴(kuò)充。

由于采集的17種參數(shù)大小范圍都不同，為了防止大數(shù)吞小數(shù)的情況發(fā)生，同時(shí)為了加快模型的收斂速度與評估準(zhǔn)確度，所以需要對數(shù)據(jù)進(jìn)行歸一化處理。本文把樣本值與樣本特征最大值的比值作為輸入，計(jì)算公式如(4)所示，計(jì)算后，樣本特征各數(shù)值將會(huì)在[0,1]范圍之間。

(4)

式中：Xi表示某組樣本的輸入值；X和Xmax分別表示特征真實(shí)值和特征的最大值。

本文采用最小-最大規(guī)范化方法歸一化后的17種輸入特征來評估軟件開發(fā)者當(dāng)前的價(jià)值，并根據(jù)招聘人員對軟件開發(fā)者的招聘欲望作為軟件開發(fā)者價(jià)值，把軟件開發(fā)者價(jià)值分為5類，如表1所示。

表1 軟件開發(fā)者價(jià)值類別說明

3 價(jià)值評估模型

3.1 模型搭建

本文構(gòu)建了包含一個(gè)卷積層、一個(gè)池化層、一個(gè)全連接層、一個(gè)輸出層的卷積神經(jīng)網(wǎng)絡(luò)，因?yàn)檩斎霐?shù)據(jù)維度較低，所以不需要過于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。首先卷積層經(jīng)過卷積核提取出不同的特征，再經(jīng)過池化層的最大池化使得后續(xù)計(jì)算復(fù)雜度降低并提取樣本主要特征。因?yàn)樵u估樣本數(shù)據(jù)量有限，為降低過擬合風(fēng)險(xiǎn)，引入池化層Dropout[23]，以此增加可訓(xùn)練模型數(shù)量。最后通過全連接層及Softmax分類器輸出層得到軟件開發(fā)者所屬價(jià)值類別的概率，并反歸一化為對應(yīng)類別。類別數(shù)據(jù)同時(shí)與對應(yīng)的日期信息作為特征輸入構(gòu)建的LSTM神經(jīng)網(wǎng)絡(luò)中預(yù)測軟件開發(fā)者未來價(jià)值。本文采用的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示，其中：Ti表示輸入的第i種元素；T表示為此組數(shù)據(jù)采集時(shí)間。

圖2 混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

3.1.1卷積神經(jīng)網(wǎng)絡(luò)

輸入樣本Xi∈V包含17個(gè)元素，設(shè)卷積核尺寸為F，步長為S，補(bǔ)零層數(shù)為P，卷積核個(gè)數(shù)為N，則經(jīng)過卷積后的特征圖大小為：

(5)

對于每一個(gè)卷積層的神經(jīng)元i：

neti=Xi×Fi+bi

(6)

outi=f(neti)=max(0,neti)

(7)

式中：neti表示卷積核輸出的第i個(gè)元素；Fi表示卷積核的第i個(gè)元素；bi表示卷積核的偏置；f表示卷積層的ReLU激活函數(shù)。

池化層使用最大池化，設(shè)池化尺寸為Q×1，步長為S，那么卷積后每個(gè)特征圖對應(yīng)的池化輸出大小為:

(8)

經(jīng)過池化層的降維，然后再經(jīng)過全連接層的計(jì)算，最后通過輸出層的Softmax分類器，得到軟件開發(fā)者對應(yīng)每一類價(jià)值的概率，五類概率總和為1，其中概率最大的為軟件開發(fā)者對應(yīng)的價(jià)值類別。

模型使用反向傳播算法進(jìn)行訓(xùn)練，通過不斷的迭代使誤差函數(shù)收斂到最小，本文使用的誤差函數(shù)為交叉熵?fù)p失函數(shù)，公式如下：

(9)

式中：ai表示實(shí)際輸出；yi表示期望的輸出；C表示誤差。

模型通過Adam優(yōu)化器[24]進(jìn)行優(yōu)化，該算法基于梯度的一階矩估計(jì)與二階矩估計(jì)計(jì)算更新步長，結(jié)合AdaGrad和RMSProp優(yōu)化算法的優(yōu)點(diǎn)，使得參數(shù)更新不受梯度變化影響，且能夠自動(dòng)調(diào)整學(xué)習(xí)率。首先計(jì)算時(shí)間t時(shí)刻的梯度：

gt=▽θJ(θt-1)

(10)

其次計(jì)算梯度的指數(shù)移動(dòng)平均數(shù)，更新有偏第一矩估計(jì)和有偏二階原始矩估計(jì)，指數(shù)衰減率β1=0.9，β2=0.999。

mt=β1mt-1+(1-β1)gt

(11)

(12)

然后計(jì)算偏差修正的一階矩估計(jì)和偏差修正的二階矩估計(jì)：

(13)

(14)

最后用以上計(jì)算出來的值更新模型的目標(biāo)函數(shù)θ，初始學(xué)習(xí)率設(shè)置η=0.001，ε=10-8。

(15)

算法流程如算法1所示。

算法1軟件開發(fā)者價(jià)值評估算法

輸入：數(shù)據(jù)樣本訓(xùn)練集U={X1,X2,…,X992},測試集T={X993,X994,…,X1 416},其中Xi=(PR,W,S,R,CM,RE,B,Prs,CT,LN,FR,FK,FE,FI,SS,EC,AD,V),V∈{1,2,3,4,5}，ε，學(xué)習(xí)率η，迭代次數(shù)E，卷積核FC，卷積核個(gè)數(shù)N，卷積步長SC，池化窗口FS，池化步長SS，指數(shù)衰減率β1、β2。

輸出：軟件開發(fā)者價(jià)值類別概率V′。

1.T←SMOTE(U)；

//均衡擴(kuò)充樣本

2.form←1 to length(T) do

//最大最小化歸一

4.Yi,i=m←one-hot(V)；

//樣本標(biāo)簽轉(zhuǎn)化為獨(dú)熱編碼

5.end for

6.fore←1 toEdo

//多次迭代訓(xùn)練網(wǎng)絡(luò)

7.form←1 to length(U) do

//訓(xùn)練集訓(xùn)練

8.forn←1 toNdo

//不同卷積核的訓(xùn)練

//一維卷積

//激活函數(shù)

//最大池化

12.end for

//池化展平

//全連接層

//SoftMax分類器

16.Lm←Cross_Entropy_Loss(Yi,Ym)；

//交叉熵?fù)p失函數(shù)

17.Adam(β1,β2,η,ε)；

//Adam優(yōu)化器更新參數(shù)

18.end for

19.end for

20.forn←1 to length(T) do

//測試集評估

21.Yn←trained_CNN(Tn)；

//訓(xùn)練后CNN測試集樣本評估價(jià)值

22.V′←decode(Yn)；

//獨(dú)熱編碼解碼為對應(yīng)價(jià)值類別

23.acc,recall,fscore←compare(V′,Tn.V)；

//樣本真實(shí)值與評估值計(jì)算評價(jià)指標(biāo)

24.end for

3.1.2LSTM神經(jīng)網(wǎng)絡(luò)

使用訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對軟件開發(fā)者歷史價(jià)值做出評估，結(jié)果隨對應(yīng)時(shí)間輸入LSTM神經(jīng)網(wǎng)絡(luò)中。LSTM通過神經(jīng)元中的輸入門、遺忘門、輸出門來控制神經(jīng)元對歷史信息的記憶與遺忘，使得神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)序列中的長期依賴關(guān)系。

輸入門：

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(16)

遺忘門：

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(17)

當(dāng)前時(shí)刻的單元狀態(tài)：

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(18)

輸出門：

ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

(19)

ht=ottanh(ct)

(20)

式中：Wxi、Wxf、Wxcv和Wxo分別表示輸入門、遺忘門、當(dāng)前單元狀態(tài)和輸出門第i層權(quán)重矩陣；xt、ht-1和ct-1分別表示當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入值、上一時(shí)刻的輸出值和上一時(shí)刻的單元狀態(tài)；bi、bf、bc和bo分別表示對應(yīng)門的偏置；σ為Sigmoid非線性函數(shù)。通過式(16)-式(20)得出模型輸出，并根據(jù)式(21)計(jì)算其反向傳播誤差。

(21)

算法流程如算法2所示。

算法2軟件開發(fā)者價(jià)值預(yù)測算法

輸入：注冊時(shí)間大于三年的軟件開發(fā)者三年內(nèi)每日所有指標(biāo)經(jīng)過CNN評估后產(chǎn)生的數(shù)據(jù)集D={D1,D2,…,D1 095}，訓(xùn)練集T1={D1,D2,…,D730}，測試集T2={D731,D732,…,D1 095}，其中Dm=(d,V′)，d為數(shù)據(jù)采集日期，V′∈{1,2,3,4,5}；lookback=2。

1.U←create_dataset(T1,lookback)；

//根據(jù)條件劃分訓(xùn)練集

2.form←1 to length(D) do

//LSTM訓(xùn)練

3.Lm←LSTM(Um)；

4.Dm←Dense(Lm)；

//全連接層得到預(yù)測值

5.Loss←MSE(Dm,Um)；

//計(jì)算誤差

6.Adam(β1,β2,η,ε)；

//更新參數(shù)

7.end for

8.MPAE,RMSE←LSTM(T2)；

//計(jì)算網(wǎng)絡(luò)評價(jià)指標(biāo)

//預(yù)測未來價(jià)值類別

3.2 模型訓(xùn)練

采用GitHub中采集并由專家做出評估的共992組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，在采用SMOTE算法平衡數(shù)據(jù)集后，對不同參數(shù)設(shè)置下的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到其準(zhǔn)確率，卷積神經(jīng)網(wǎng)絡(luò)各參數(shù)對模型準(zhǔn)確率的影響如表2所示。

表2 卷積神經(jīng)網(wǎng)絡(luò)各參數(shù)對模型準(zhǔn)確率的影響

續(xù)表2

可以看出隨著卷積核尺寸的增加，模型準(zhǔn)確率先提升再下降，訓(xùn)練時(shí)間則不斷增加，因?yàn)檩^小的卷積核能夠提取樣本中更為細(xì)化的特征，但是過于細(xì)化會(huì)導(dǎo)致過擬合，影響模型的分類能力。同時(shí)較大的卷積核會(huì)使卷積產(chǎn)生的特征輸出增加，計(jì)算量暴增，這就導(dǎo)致了訓(xùn)練時(shí)間的增加，因此根據(jù)訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間確定3×1的卷積核尺寸。

確定卷積核尺寸之后，對卷積核的個(gè)數(shù)進(jìn)行實(shí)驗(yàn)。從表2中可以看出增加卷積核個(gè)數(shù)，訓(xùn)練集的準(zhǔn)確率開始時(shí)有所提升，但是再繼續(xù)增加卷積核個(gè)數(shù)時(shí)，模型的準(zhǔn)確率反而降低，訓(xùn)練時(shí)間卻大大增加，因此根據(jù)訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間，本文選取的卷積核個(gè)數(shù)為128。

最后確定池化窗口大小，從表2中可以看出隨著池化尺寸的增加，模型的準(zhǔn)確率、訓(xùn)練時(shí)間則不斷降低。這是因?yàn)樽钚〉?×1池化尺寸輸入輸出相同，學(xué)習(xí)到的特征精細(xì)，但是訓(xùn)練時(shí)間將大幅增加且可能導(dǎo)致過擬合，較大的池化尺寸則可能忽略了樣本特征，因此綜合考慮訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間，本文選取了2×1的池化尺寸。

在選定各參數(shù)后，計(jì)算準(zhǔn)確率最高情況下卷積神經(jīng)網(wǎng)絡(luò)在測試集上各項(xiàng)評價(jià)指標(biāo)，如表3所示，其訓(xùn)練誤差、準(zhǔn)確率和迭代次數(shù)關(guān)系如圖3、圖4所示。

表3 測試集分類評價(jià)指標(biāo)

圖3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差

圖4 卷積神經(jīng)網(wǎng)絡(luò)評估準(zhǔn)確率

使用訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對注冊時(shí)間大于三年的軟件開發(fā)者歷史數(shù)據(jù)進(jìn)行評估，使用前兩年歷史數(shù)據(jù)作為訓(xùn)練集，并以2019年數(shù)據(jù)作為驗(yàn)證集，對LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，訓(xùn)練誤差如圖5所示；為了說明本文LSTM神經(jīng)網(wǎng)絡(luò)的預(yù)測性能，選擇MSE(均方誤差)、RMSE(均方根誤差)、MAE(平均絕對誤差)、MAPE(平均絕對百分比誤差)和SMAPE(對稱平均絕對百分比誤差)對建立的模型預(yù)測效果進(jìn)行評估，結(jié)果如表4所示。

圖5 LSTM訓(xùn)練誤差

表4 預(yù)測模型評價(jià)指標(biāo)

4 實(shí)例分析

利用已建立的評估模型對測試集軟件開發(fā)者進(jìn)行價(jià)值評估及預(yù)測，部分評估結(jié)果見表5。

表5 部分軟件開發(fā)者價(jià)值評估結(jié)果

取序號(hào)為4的軟件開發(fā)者歷史記錄，通過卷積神經(jīng)網(wǎng)絡(luò)評估人力資源價(jià)值后輸入LSTM進(jìn)行擬合，通過訓(xùn)練集樣本的人力資源價(jià)值變化數(shù)據(jù)對LSTM進(jìn)行擬合訓(xùn)練，預(yù)測開發(fā)者在測試集上的人力資源價(jià)值類別變化情況。

通過驗(yàn)證集數(shù)據(jù)分析可得:

(1) 424組驗(yàn)證數(shù)據(jù)得出的軟件開發(fā)者價(jià)值評估結(jié)果與實(shí)際價(jià)值相符，評估正確率為98.59%。

(2) 通過表5中序號(hào)為1和2的軟件開發(fā)者數(shù)據(jù)可以看出，在軟件開發(fā)者無存儲(chǔ)倉庫或者有存儲(chǔ)倉庫無活躍的情況下，軟件開發(fā)者是無價(jià)值的，符合管理學(xué)中人力資源價(jià)值評估的預(yù)測性特點(diǎn)。即當(dāng)前的評估值能夠在一定程度上反映未來其能夠創(chuàng)造的價(jià)值，且未來不能創(chuàng)造價(jià)值的人力資源，是無法評估其當(dāng)前價(jià)值的。

(3) 通過價(jià)值評估得到的軟件開發(fā)者價(jià)值類別，可以幫助招聘人員快速發(fā)現(xiàn)GitHub中高價(jià)值技術(shù)人才，為企業(yè)人才戰(zhàn)略提供基礎(chǔ)保障。并且根據(jù)預(yù)測結(jié)果，能夠大致判斷該用戶的職業(yè)，如圖6和圖7所示，用戶在兩年內(nèi)價(jià)值為1的時(shí)間階段較長且集中于寒暑假，可判斷大致職業(yè)為教師或者學(xué)生，此類軟件開發(fā)者招聘概率較高；而在職用戶價(jià)值為1的時(shí)間較短且頻繁，此種情況下招聘概率較低，若其前期價(jià)值變化符合規(guī)律而近期出現(xiàn)大幅變化，則招聘成功率將會(huì)增加。

圖6 LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練集擬合

圖7 LSTM神經(jīng)網(wǎng)絡(luò)測試集擬合

5 結(jié) 語

本文提出一種使用混合神經(jīng)網(wǎng)絡(luò)對GitHub軟件開發(fā)者進(jìn)行人力資源價(jià)值評估的方法，并對軟件開發(fā)人才未來價(jià)值進(jìn)行預(yù)測。首先分析了影響軟件開發(fā)者的價(jià)值的因素，選取17種參數(shù)作為特征參數(shù)構(gòu)建模型并訓(xùn)練；然后對GitHub軟件開發(fā)者進(jìn)行實(shí)例驗(yàn)證，通過對歷史數(shù)據(jù)的學(xué)習(xí)，其預(yù)測結(jié)果符合當(dāng)前人力資源，能夠有效為企業(yè)招聘高技術(shù)人力資源及為企業(yè)內(nèi)部人力資源考核提供參考，具有廣泛的現(xiàn)實(shí)意義。

因?yàn)镚itHub中無軟件開發(fā)者的貨幣性特征，本文只選取了其中對評估影響較大的非貨幣性且可數(shù)值化的參數(shù)，后續(xù)應(yīng)考慮把一些文本參數(shù)量化后作為特征，如軟件開發(fā)者使用編程語言、項(xiàng)目使用編程語言等，并且根據(jù)這些數(shù)據(jù)評估軟件開發(fā)者在不同編程領(lǐng)域的價(jià)值，以此作為推薦系統(tǒng)中Top-N排序的一項(xiàng)指標(biāo)實(shí)現(xiàn)人力資源個(gè)性化推薦。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡