国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合神經(jīng)網(wǎng)絡(luò)的開源社區(qū)軟件開發(fā)者人力資源價(jià)值預(yù)測

2021-08-12 08:32:56湯佳杰曹永忠朱俊武
關(guān)鍵詞:開發(fā)者倉庫卷積

湯佳杰 曹永忠 朱俊武 顧 浩

(揚(yáng)州大學(xué)信息工程學(xué)院 江蘇 揚(yáng)州 225127)

0 引 言

隨著社會(huì)經(jīng)濟(jì)取得前所未有的發(fā)展,人力資源在推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展中的作用不斷提高。特別是21世紀(jì)以來,作為國家競爭力來源的人力資源已上升至國家戰(zhàn)略層面的高度。但是,在如此激烈的競爭環(huán)境下,人力資源價(jià)值評估理論和實(shí)踐卻相對滯后,導(dǎo)致企業(yè)在招聘時(shí)需要通過多重環(huán)節(jié)對應(yīng)聘者進(jìn)行考核來確定其各項(xiàng)技能水平,整個(gè)招聘過程包括筆試、面試等預(yù)估環(huán)節(jié)將長達(dá)數(shù)月;同時(shí),對企業(yè)內(nèi)部已招聘的員工的人力資源價(jià)值沒有進(jìn)行量化分析,以至于許多經(jīng)過企業(yè)培養(yǎng),具有豐富管理經(jīng)驗(yàn)及高新技術(shù)技能的員工因自身價(jià)值得不到體現(xiàn)而另謀出路。此現(xiàn)象在人力資源密集型、知識(shí)密集型的IT行業(yè)中十分常見,因此對IT行業(yè)中軟件開發(fā)者的人力資源價(jià)值進(jìn)行正確評估就顯得尤為重要。

近幾年以來,以大數(shù)據(jù)、云計(jì)算、人工智能、物聯(lián)網(wǎng)、區(qū)塊鏈等時(shí)代前沿技術(shù)為基礎(chǔ)的數(shù)字科技正在不斷加速各行各業(yè)的產(chǎn)業(yè)融合與轉(zhuǎn)型,不斷改變著人們的生活方式。因此,作為前沿技術(shù)開發(fā)者的高技術(shù)軟件開發(fā)者被各企業(yè)所爭搶。開源社區(qū)作為各層次水平的軟件開發(fā)者的聚集地,其中積累了大量的軟件開發(fā)者人力資源數(shù)據(jù)、軟件開發(fā)數(shù)據(jù)及軟件開發(fā)者日?;顒?dòng)數(shù)據(jù)。為了充分利用這些數(shù)據(jù),GitHub根據(jù)注冊用戶在社區(qū)中的日常行為數(shù)據(jù)開發(fā)了“Discover repositories”向使用者推薦相關(guān)存儲(chǔ)庫。除此以外,我們?nèi)钥梢詮倪@些數(shù)據(jù)中挖掘高水平或高潛力的軟件開發(fā)者信息,并用于公司招聘。

然而,GitHub并沒有專門為招聘人員提供相關(guān)信息來推斷軟件開發(fā)者的技能水平。因此,為了評估開發(fā)人員的質(zhì)量,招聘人員必須手工檢索相應(yīng)軟件開發(fā)者的個(gè)人信息及存儲(chǔ)倉庫。Marlow等[1]認(rèn)為,招聘人員必須投入大量精力和時(shí)間來收集和評估GitHub上軟件開發(fā)者展示的某些相關(guān)技能方面信息。因此,本文將重點(diǎn)利用GitHub用戶信息及其存儲(chǔ)庫相關(guān)指標(biāo)來解決招聘者在招聘軟件開發(fā)者時(shí)無法評價(jià)其價(jià)值的問題,為企業(yè)的高效招聘提供一種新的解決方案。

1 相關(guān)理論與方法

人們對人力資源研究的熱情始于美國經(jīng)濟(jì)學(xué)家舒爾茨和貝克爾,他們提出的人力資本理論在經(jīng)濟(jì)學(xué)中具有舉足輕重的地位。人力資源價(jià)值評估主要是根據(jù)被評估者自身現(xiàn)有條件,并參考在未來可能創(chuàng)造的價(jià)值,反映人力資源在當(dāng)前時(shí)間點(diǎn)的勞動(dòng)能力。從人力資源個(gè)體價(jià)值的角度出發(fā),國內(nèi)外一些學(xué)者先后提出了一系列計(jì)量模型。其中作為所有模型基礎(chǔ)的理論是馬克思的勞動(dòng)價(jià)值論[2],其認(rèn)為人力資源成長過程中積累的知識(shí)、技能和經(jīng)驗(yàn)等因素可作為人力資源價(jià)值的組成部分,并在工作時(shí)將其中的價(jià)值轉(zhuǎn)移到商品中。

目前,國內(nèi)外人力資源個(gè)體價(jià)值評估方法分為兩種:第一種為傳統(tǒng)管理學(xué)評估模型,這些模型通過統(tǒng)計(jì)人力資源價(jià)值形成過程中的投入,并把工資作為評價(jià)個(gè)體人力資源價(jià)值的方式,如未來工資報(bào)酬折現(xiàn)法[3-4]、人力資本加工成本法[4]、隨機(jī)報(bào)酬價(jià)值法[5]和完全價(jià)值測定法[6]等;第二種為機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等。文獻(xiàn)[7]在問卷調(diào)查選擇人力資源價(jià)值影響因素的基礎(chǔ)上,對藍(lán)領(lǐng)階層價(jià)值影響因素進(jìn)行聚類,通過聚類把人員劃分為5個(gè)重要程度并針對情況對相應(yīng)人員提出激勵(lì)措施。文獻(xiàn)[8]通過BP神經(jīng)網(wǎng)絡(luò)對電力企業(yè)員工績效做出評估,首先由評估人員對設(shè)定的17個(gè)指標(biāo)打分,把分?jǐn)?shù)作為神經(jīng)網(wǎng)絡(luò)輸入向量,并把當(dāng)期考核結(jié)果作為輸出向量對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,驗(yàn)證了神經(jīng)網(wǎng)絡(luò)評估的有效性與高效性。文獻(xiàn)[9]通過Elman神經(jīng)網(wǎng)絡(luò)對歷年員工創(chuàng)造價(jià)值、員工人數(shù)、員工離職率的學(xué)習(xí),預(yù)測當(dāng)年可創(chuàng)造價(jià)值與員工離職概率,為企業(yè)人力資源配置的研究和實(shí)踐提供了一種新的方法,具有一定現(xiàn)實(shí)意義。文獻(xiàn)[10]設(shè)計(jì)了19項(xiàng)可能會(huì)為高校人力資源帶來風(fēng)險(xiǎn)的因素,建立了高校人力資源風(fēng)險(xiǎn)評估模型,并通過RBF神經(jīng)網(wǎng)絡(luò)對風(fēng)險(xiǎn)做出分類評估,實(shí)證研究識(shí)別錯(cuò)誤率為6%,能夠較好地識(shí)別高風(fēng)險(xiǎn)樣本。

近年來,隨著計(jì)算機(jī)硬件的發(fā)展,深度學(xué)習(xí)也再次受到人們的關(guān)注,卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)作為其中的代表,被廣泛應(yīng)用于各種領(lǐng)域,如計(jì)算機(jī)視覺[11]、自然語言處理[12]、語音識(shí)別[13]、機(jī)器翻譯[14]、醫(yī)療[15]和金融[16]等領(lǐng)域。為了完成以上各項(xiàng)任務(wù),構(gòu)建的神經(jīng)網(wǎng)絡(luò)規(guī)模不斷增大,并且為了獲得更好的性能,多種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)堆疊使用。文獻(xiàn)[17]構(gòu)造了CNN-LSTM結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),通過CNN提取樣本特征,輸入LSTM中預(yù)測設(shè)備故障,通過一周內(nèi)采集的60萬組數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,預(yù)測值的準(zhǔn)確率達(dá)83.27%。文獻(xiàn)[18]提出了一種基于CNN-LSTM框架的繪畫作品作者分類方法,對中國畫的作者進(jìn)行預(yù)測分類,給出其可能作者及其概率,較深度卷積神經(jīng)網(wǎng)絡(luò)精確率、召回率、F1-score分別提高8.45%、8.08%、8.27%。

綜上,只要確定了合理的價(jià)值評估體系并將之科學(xué)地轉(zhuǎn)換為量化的變量值,在樣本足夠的情況下,神經(jīng)網(wǎng)絡(luò)可以較準(zhǔn)確地完成軟件開發(fā)者人力資源價(jià)值評估。但僅僅知道軟件開發(fā)者當(dāng)前價(jià)值是不夠的,招聘者無法預(yù)知其未來價(jià)值,所以需要使用LSTM神經(jīng)網(wǎng)絡(luò)對其未來價(jià)值進(jìn)行預(yù)測。因此,本文提出一種基于CNN-LSTM混合神經(jīng)網(wǎng)絡(luò)的軟件開發(fā)者人力資源價(jià)值評估及預(yù)測方法。

2 開源社區(qū)軟件開發(fā)者價(jià)值評估要素

2.1 軟件開發(fā)者價(jià)值評估指標(biāo)體系構(gòu)建

文獻(xiàn)[19]研究了GitHub中流行的項(xiàng)目及受歡迎的軟件開發(fā)者,使用PageRank算法評估用戶的影響力,并根據(jù)影響力向招聘人員推薦GitHub軟件開發(fā)者。文獻(xiàn)[20]研究了存儲(chǔ)倉庫的流行度與其使用的編程語言、特征之間的關(guān)系,并使用存儲(chǔ)倉庫的Fork與Watch數(shù)來確定其流行程度。研究發(fā)現(xiàn)大多數(shù)對GitHub的研究單一地集中于用戶或項(xiàng)目,而少數(shù)聯(lián)合研究的多為項(xiàng)目推薦系統(tǒng),如文獻(xiàn)[21]基于用戶行為及其關(guān)注項(xiàng)目特性構(gòu)造用戶行為矩陣,通過TF-IDF統(tǒng)計(jì)源代碼文件和項(xiàng)目文檔中每個(gè)單詞,獲取項(xiàng)目關(guān)鍵詞并構(gòu)造相似性矩陣,通過矩陣相似性向用戶推薦相似項(xiàng)目。

鑒于未有GitHub軟件開發(fā)者人力資源價(jià)值的相關(guān)研究,本文從軟件開發(fā)者現(xiàn)有價(jià)值和未來價(jià)值分析了GitHub軟件開發(fā)者價(jià)值的影響因素,將影響因素分為編程能力、項(xiàng)目管理能力、學(xué)習(xí)能力、團(tuán)隊(duì)合作能力和技術(shù)影響力,并提出敬業(yè)度概念,建立如圖1所示的軟件開發(fā)者價(jià)值評估指標(biāo)體系。

圖1 開源社區(qū)軟件開發(fā)者人力資源價(jià)值評估體系

定義1編程能力PA:表示為一個(gè)三元組PA=(PR,W,S)。其中:PR表示軟件開發(fā)者自身創(chuàng)建的存儲(chǔ)倉庫的集合,在一定程度上創(chuàng)建的存儲(chǔ)倉庫越多編程能力越強(qiáng);W表示存儲(chǔ)倉庫被標(biāo)記數(shù)的集合,被標(biāo)記數(shù)量表示有多少軟件開發(fā)者對此倉庫感興趣,可以反映該存儲(chǔ)倉庫的質(zhì)量與創(chuàng)新度;S表示存儲(chǔ)倉庫被其他軟件開發(fā)者贊同數(shù)的集合,其反映內(nèi)容與W相同。如果PR=?,則W、S均為?。

定義2項(xiàng)目管理能力MA:表示為一個(gè)六元組MA=(R,Prs,CM,RE,B,CT)。其中:R表示軟件開發(fā)者所有存儲(chǔ)倉庫的集合;Prs表示項(xiàng)目拉取請求數(shù)量的集合,其表示倉庫創(chuàng)建者對其他軟件開發(fā)者提交修改的審核情況,數(shù)量越多,管理能力越強(qiáng);CM表示存儲(chǔ)倉庫提交修改次數(shù)的集合;RE存儲(chǔ)倉庫擁有版本數(shù)的集合;B表示存儲(chǔ)倉庫擁有分支數(shù)的集合;CT表示為存儲(chǔ)倉庫作出貢獻(xiàn)的人員數(shù)的集合,為項(xiàng)目作出貢獻(xiàn)的人越多,管理者要審核的代碼就越多,其管理能力也就越強(qiáng)。

定義3學(xué)習(xí)能力LA:表示為一個(gè)二元組LA=(LN,FR)。其中:LN表示軟件開發(fā)者所掌握的編程語言集合,所掌握的編程語言反映軟件開發(fā)者所能完成的工作領(lǐng)域,越多表示學(xué)習(xí)能力越強(qiáng);FR表示拷貝的存儲(chǔ)倉庫的集合,拷貝的倉庫需要時(shí)間熟悉其代碼構(gòu)成,軟件開發(fā)者作出貢獻(xiàn)的拷貝倉庫越多,其學(xué)習(xí)能力越強(qiáng)。

定義4團(tuán)隊(duì)合作能力TA:表示為一個(gè)二元組TA=(FK,CT)。其中:FK表示存儲(chǔ)倉庫被拷貝數(shù)的集合,數(shù)量越多,倉庫擁有者與其他軟件開發(fā)者合作的概率越大;CT表示為存儲(chǔ)倉庫作出貢獻(xiàn)的人員數(shù)的集合,其數(shù)量越多,表明為該倉庫作出貢獻(xiàn)的團(tuán)隊(duì)成員越多,倉庫擁有者與其他軟件開發(fā)者的合作就越多。

定義5技術(shù)影響力I:表示為一個(gè)三元組I=(FE,FI,SS)。其中:FE為關(guān)注該軟件開發(fā)者的用戶集合,關(guān)注該軟件開發(fā)者的人數(shù)越多,表示越多的軟件開發(fā)者認(rèn)為其技術(shù)水平高超;FI為該軟件開發(fā)者關(guān)注的用戶集合,表示該軟件開發(fā)者認(rèn)為其技術(shù)值得學(xué)習(xí);SS為該軟件開發(fā)者被其他軟件開發(fā)者贊同的信息集合,表示其對這些存儲(chǔ)倉庫的認(rèn)可。

定義6敬業(yè)度LY,分為每日貢獻(xiàn)度CD、工作態(tài)度WA。敬業(yè)度為二元組LY=(CD,WA),其中:WA表示軟件開發(fā)者活躍天數(shù)占全年天數(shù)的比例,活躍天數(shù)越多表示其對工作越滿意,其工作態(tài)度越端正;CD表示軟件開發(fā)者每日貢獻(xiàn)占全年活躍日平均貢獻(xiàn)次數(shù)的比例。CD=(EC,AD),WA=(AD),其中:AD表示軟件開發(fā)者在一年內(nèi)的活躍天數(shù);EC表示軟件開發(fā)者每日貢獻(xiàn)次數(shù)的集合。

(1)

(2)

LY=CD×WA

(3)

定義7軟件開發(fā)者人力資源價(jià)值為七元組V=(P,PA,MA,LA,TA,I,LY)。其中:P表示待評估價(jià)值的軟件開發(fā)者;PA表示軟件開發(fā)者的編程能力,即項(xiàng)目經(jīng)歷的集合;MA表示軟件開發(fā)者項(xiàng)目管理能力;I表示軟件開發(fā)者的技術(shù)影響力;LA表示軟件開發(fā)者的學(xué)習(xí)能力;TA表示軟件開發(fā)者的團(tuán)隊(duì)合作能力;LY表示軟件開發(fā)者的敬業(yè)度。V表示軟件開發(fā)者的價(jià)值分類的集合。

2.2 數(shù)據(jù)獲取及預(yù)處理

本文數(shù)據(jù)集為GitHub中真實(shí)用戶信息,首先根據(jù)GitHub的advanced search搜索找出各個(gè)用戶、用戶項(xiàng)目之間的URL鏈接關(guān)系,再找出網(wǎng)頁中存放所需數(shù)據(jù)的HTML標(biāo)簽,之后使用Python編寫爬蟲程序,獲取整個(gè)網(wǎng)頁結(jié)構(gòu)。使用Beautiful Soup解析網(wǎng)頁HTML標(biāo)簽,獲得標(biāo)簽中數(shù)據(jù),同時(shí)記錄數(shù)據(jù)采集時(shí)間,本文中采集的數(shù)據(jù)集記錄了部分軟件開發(fā)者連續(xù)2年每日各項(xiàng)屬性值的變化情況。

研究發(fā)現(xiàn)GitHub中軟件開發(fā)者人數(shù)與其價(jià)值呈現(xiàn)冪律分布,即大多數(shù)軟件開發(fā)者在GitHub中沒有貢獻(xiàn),少數(shù)軟件開發(fā)者貢獻(xiàn)占據(jù)總貢獻(xiàn)的80%,所以爬取的數(shù)據(jù)樣本分布不均衡,為了解決這一問題,本文使用SMOTE算法[22]對訓(xùn)練樣本進(jìn)行擴(kuò)充。

由于采集的17種參數(shù)大小范圍都不同,為了防止大數(shù)吞小數(shù)的情況發(fā)生,同時(shí)為了加快模型的收斂速度與評估準(zhǔn)確度,所以需要對數(shù)據(jù)進(jìn)行歸一化處理。本文把樣本值與樣本特征最大值的比值作為輸入,計(jì)算公式如(4)所示,計(jì)算后,樣本特征各數(shù)值將會(huì)在[0,1]范圍之間。

(4)

式中:Xi表示某組樣本的輸入值;X和Xmax分別表示特征真實(shí)值和特征的最大值。

本文采用最小-最大規(guī)范化方法歸一化后的17種輸入特征來評估軟件開發(fā)者當(dāng)前的價(jià)值,并根據(jù)招聘人員對軟件開發(fā)者的招聘欲望作為軟件開發(fā)者價(jià)值,把軟件開發(fā)者價(jià)值分為5類,如表1所示。

表1 軟件開發(fā)者價(jià)值類別說明

3 價(jià)值評估模型

3.1 模型搭建

本文構(gòu)建了包含一個(gè)卷積層、一個(gè)池化層、一個(gè)全連接層、一個(gè)輸出層的卷積神經(jīng)網(wǎng)絡(luò),因?yàn)檩斎霐?shù)據(jù)維度較低,所以不需要過于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。首先卷積層經(jīng)過卷積核提取出不同的特征,再經(jīng)過池化層的最大池化使得后續(xù)計(jì)算復(fù)雜度降低并提取樣本主要特征。因?yàn)樵u估樣本數(shù)據(jù)量有限,為降低過擬合風(fēng)險(xiǎn),引入池化層Dropout[23],以此增加可訓(xùn)練模型數(shù)量。最后通過全連接層及Softmax分類器輸出層得到軟件開發(fā)者所屬價(jià)值類別的概率,并反歸一化為對應(yīng)類別。類別數(shù)據(jù)同時(shí)與對應(yīng)的日期信息作為特征輸入構(gòu)建的LSTM神經(jīng)網(wǎng)絡(luò)中預(yù)測軟件開發(fā)者未來價(jià)值。本文采用的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示,其中:Ti表示輸入的第i種元素;T表示為此組數(shù)據(jù)采集時(shí)間。

圖2 混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

3.1.1卷積神經(jīng)網(wǎng)絡(luò)

輸入樣本Xi∈V包含17個(gè)元素,設(shè)卷積核尺寸為F,步長為S,補(bǔ)零層數(shù)為P,卷積核個(gè)數(shù)為N,則經(jīng)過卷積后的特征圖大小為:

(5)

對于每一個(gè)卷積層的神經(jīng)元i:

neti=Xi×Fi+bi

(6)

outi=f(neti)=max(0,neti)

(7)

式中:neti表示卷積核輸出的第i個(gè)元素;Fi表示卷積核的第i個(gè)元素;bi表示卷積核的偏置;f表示卷積層的ReLU激活函數(shù)。

池化層使用最大池化,設(shè)池化尺寸為Q×1,步長為S,那么卷積后每個(gè)特征圖對應(yīng)的池化輸出大小為:

(8)

經(jīng)過池化層的降維,然后再經(jīng)過全連接層的計(jì)算,最后通過輸出層的Softmax分類器,得到軟件開發(fā)者對應(yīng)每一類價(jià)值的概率,五類概率總和為1,其中概率最大的為軟件開發(fā)者對應(yīng)的價(jià)值類別。

模型使用反向傳播算法進(jìn)行訓(xùn)練,通過不斷的迭代使誤差函數(shù)收斂到最小,本文使用的誤差函數(shù)為交叉熵?fù)p失函數(shù),公式如下:

(9)

式中:ai表示實(shí)際輸出;yi表示期望的輸出;C表示誤差。

模型通過Adam優(yōu)化器[24]進(jìn)行優(yōu)化,該算法基于梯度的一階矩估計(jì)與二階矩估計(jì)計(jì)算更新步長,結(jié)合AdaGrad和RMSProp優(yōu)化算法的優(yōu)點(diǎn),使得參數(shù)更新不受梯度變化影響,且能夠自動(dòng)調(diào)整學(xué)習(xí)率。首先計(jì)算時(shí)間t時(shí)刻的梯度:

gt=▽θJ(θt-1)

(10)

其次計(jì)算梯度的指數(shù)移動(dòng)平均數(shù),更新有偏第一矩估計(jì)和有偏二階原始矩估計(jì),指數(shù)衰減率β1=0.9,β2=0.999。

mt=β1mt-1+(1-β1)gt

(11)

(12)

然后計(jì)算偏差修正的一階矩估計(jì)和偏差修正的二階矩估計(jì):

(13)

(14)

最后用以上計(jì)算出來的值更新模型的目標(biāo)函數(shù)θ,初始學(xué)習(xí)率設(shè)置η=0.001,ε=10-8。

(15)

算法流程如算法1所示。

算法1軟件開發(fā)者價(jià)值評估算法

輸入:數(shù)據(jù)樣本訓(xùn)練集U={X1,X2,…,X992},測試集T={X993,X994,…,X1 416},其中Xi=(PR,W,S,R,CM,RE,B,Prs,CT,LN,FR,FK,FE,FI,SS,EC,AD,V),V∈{1,2,3,4,5},ε,學(xué)習(xí)率η,迭代次數(shù)E,卷積核FC,卷積核個(gè)數(shù)N,卷積步長SC,池化窗口FS,池化步長SS,指數(shù)衰減率β1、β2。

輸出:軟件開發(fā)者價(jià)值類別概率V′。

1.T←SMOTE(U);

//均衡擴(kuò)充樣本

2.form←1 to length(T) do

//最大最小化歸一

4.Yi,i=m←one-hot(V);

//樣本標(biāo)簽轉(zhuǎn)化為獨(dú)熱編碼

5.end for

6.fore←1 toEdo

//多次迭代訓(xùn)練網(wǎng)絡(luò)

7.form←1 to length(U) do

//訓(xùn)練集訓(xùn)練

8.forn←1 toNdo

//不同卷積核的訓(xùn)練

//一維卷積

//激活函數(shù)

//最大池化

12.end for

//池化展平

//全連接層

//SoftMax分類器

16.Lm←Cross_Entropy_Loss(Yi,Ym);

//交叉熵?fù)p失函數(shù)

17.Adam(β1,β2,η,ε);

//Adam優(yōu)化器更新參數(shù)

18.end for

19.end for

20.forn←1 to length(T) do

//測試集評估

21.Yn←trained_CNN(Tn);

//訓(xùn)練后CNN測試集樣本評估價(jià)值

22.V′←decode(Yn);

//獨(dú)熱編碼解碼為對應(yīng)價(jià)值類別

23.acc,recall,fscore←compare(V′,Tn.V);

//樣本真實(shí)值與評估值計(jì)算評價(jià)指標(biāo)

24.end for

3.1.2LSTM神經(jīng)網(wǎng)絡(luò)

使用訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對軟件開發(fā)者歷史價(jià)值做出評估,結(jié)果隨對應(yīng)時(shí)間輸入LSTM神經(jīng)網(wǎng)絡(luò)中。LSTM通過神經(jīng)元中的輸入門、遺忘門、輸出門來控制神經(jīng)元對歷史信息的記憶與遺忘,使得神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)序列中的長期依賴關(guān)系。

輸入門:

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(16)

遺忘門:

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(17)

當(dāng)前時(shí)刻的單元狀態(tài):

ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

(18)

輸出門:

ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

(19)

ht=ottanh(ct)

(20)

式中:Wxi、Wxf、Wxcv和Wxo分別表示輸入門、遺忘門、當(dāng)前單元狀態(tài)和輸出門第i層權(quán)重矩陣;xt、ht-1和ct-1分別表示當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入值、上一時(shí)刻的輸出值和上一時(shí)刻的單元狀態(tài);bi、bf、bc和bo分別表示對應(yīng)門的偏置;σ為Sigmoid非線性函數(shù)。通過式(16)-式(20)得出模型輸出,并根據(jù)式(21)計(jì)算其反向傳播誤差。

(21)

算法流程如算法2所示。

算法2軟件開發(fā)者價(jià)值預(yù)測算法

輸入:注冊時(shí)間大于三年的軟件開發(fā)者三年內(nèi)每日所有指標(biāo)經(jīng)過CNN評估后產(chǎn)生的數(shù)據(jù)集D={D1,D2,…,D1 095},訓(xùn)練集T1={D1,D2,…,D730},測試集T2={D731,D732,…,D1 095},其中Dm=(d,V′),d為數(shù)據(jù)采集日期,V′∈{1,2,3,4,5};lookback=2。

1.U←create_dataset(T1,lookback);

//根據(jù)條件劃分訓(xùn)練集

2.form←1 to length(D) do

//LSTM訓(xùn)練

3.Lm←LSTM(Um);

4.Dm←Dense(Lm);

//全連接層得到預(yù)測值

5.Loss←MSE(Dm,Um);

//計(jì)算誤差

6.Adam(β1,β2,η,ε);

//更新參數(shù)

7.end for

8.MPAE,RMSE←LSTM(T2);

//計(jì)算網(wǎng)絡(luò)評價(jià)指標(biāo)

//預(yù)測未來價(jià)值類別

3.2 模型訓(xùn)練

采用GitHub中采集并由專家做出評估的共992組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),在采用SMOTE算法平衡數(shù)據(jù)集后,對不同參數(shù)設(shè)置下的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到其準(zhǔn)確率,卷積神經(jīng)網(wǎng)絡(luò)各參數(shù)對模型準(zhǔn)確率的影響如表2所示。

表2 卷積神經(jīng)網(wǎng)絡(luò)各參數(shù)對模型準(zhǔn)確率的影響

續(xù)表2

可以看出隨著卷積核尺寸的增加,模型準(zhǔn)確率先提升再下降,訓(xùn)練時(shí)間則不斷增加,因?yàn)檩^小的卷積核能夠提取樣本中更為細(xì)化的特征,但是過于細(xì)化會(huì)導(dǎo)致過擬合,影響模型的分類能力。同時(shí)較大的卷積核會(huì)使卷積產(chǎn)生的特征輸出增加,計(jì)算量暴增,這就導(dǎo)致了訓(xùn)練時(shí)間的增加,因此根據(jù)訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間確定3×1的卷積核尺寸。

確定卷積核尺寸之后,對卷積核的個(gè)數(shù)進(jìn)行實(shí)驗(yàn)。從表2中可以看出增加卷積核個(gè)數(shù),訓(xùn)練集的準(zhǔn)確率開始時(shí)有所提升,但是再繼續(xù)增加卷積核個(gè)數(shù)時(shí),模型的準(zhǔn)確率反而降低,訓(xùn)練時(shí)間卻大大增加,因此根據(jù)訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間,本文選取的卷積核個(gè)數(shù)為128。

最后確定池化窗口大小,從表2中可以看出隨著池化尺寸的增加,模型的準(zhǔn)確率、訓(xùn)練時(shí)間則不斷降低。這是因?yàn)樽钚〉?×1池化尺寸輸入輸出相同,學(xué)習(xí)到的特征精細(xì),但是訓(xùn)練時(shí)間將大幅增加且可能導(dǎo)致過擬合,較大的池化尺寸則可能忽略了樣本特征,因此綜合考慮訓(xùn)練集準(zhǔn)確率及訓(xùn)練時(shí)間,本文選取了2×1的池化尺寸。

在選定各參數(shù)后,計(jì)算準(zhǔn)確率最高情況下卷積神經(jīng)網(wǎng)絡(luò)在測試集上各項(xiàng)評價(jià)指標(biāo),如表3所示,其訓(xùn)練誤差、準(zhǔn)確率和迭代次數(shù)關(guān)系如圖3、圖4所示。

表3 測試集分類評價(jià)指標(biāo)

圖3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差

圖4 卷積神經(jīng)網(wǎng)絡(luò)評估準(zhǔn)確率

使用訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對注冊時(shí)間大于三年的軟件開發(fā)者歷史數(shù)據(jù)進(jìn)行評估,使用前兩年歷史數(shù)據(jù)作為訓(xùn)練集,并以2019年數(shù)據(jù)作為驗(yàn)證集,對LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練誤差如圖5所示;為了說明本文LSTM神經(jīng)網(wǎng)絡(luò)的預(yù)測性能,選擇MSE(均方誤差)、RMSE(均方根誤差)、MAE(平均絕對誤差)、MAPE(平均絕對百分比誤差)和SMAPE(對稱平均絕對百分比誤差)對建立的模型預(yù)測效果進(jìn)行評估,結(jié)果如表4所示。

圖5 LSTM訓(xùn)練誤差

表4 預(yù)測模型評價(jià)指標(biāo)

4 實(shí)例分析

利用已建立的評估模型對測試集軟件開發(fā)者進(jìn)行價(jià)值評估及預(yù)測,部分評估結(jié)果見表5。

表5 部分軟件開發(fā)者價(jià)值評估結(jié)果

取序號(hào)為4的軟件開發(fā)者歷史記錄,通過卷積神經(jīng)網(wǎng)絡(luò)評估人力資源價(jià)值后輸入LSTM進(jìn)行擬合,通過訓(xùn)練集樣本的人力資源價(jià)值變化數(shù)據(jù)對LSTM進(jìn)行擬合訓(xùn)練,預(yù)測開發(fā)者在測試集上的人力資源價(jià)值類別變化情況。

通過驗(yàn)證集數(shù)據(jù)分析可得:

(1) 424組驗(yàn)證數(shù)據(jù)得出的軟件開發(fā)者價(jià)值評估結(jié)果與實(shí)際價(jià)值相符,評估正確率為98.59%。

(2) 通過表5中序號(hào)為1和2的軟件開發(fā)者數(shù)據(jù)可以看出,在軟件開發(fā)者無存儲(chǔ)倉庫或者有存儲(chǔ)倉庫無活躍的情況下,軟件開發(fā)者是無價(jià)值的,符合管理學(xué)中人力資源價(jià)值評估的預(yù)測性特點(diǎn)。即當(dāng)前的評估值能夠在一定程度上反映未來其能夠創(chuàng)造的價(jià)值,且未來不能創(chuàng)造價(jià)值的人力資源,是無法評估其當(dāng)前價(jià)值的。

(3) 通過價(jià)值評估得到的軟件開發(fā)者價(jià)值類別,可以幫助招聘人員快速發(fā)現(xiàn)GitHub中高價(jià)值技術(shù)人才,為企業(yè)人才戰(zhàn)略提供基礎(chǔ)保障。并且根據(jù)預(yù)測結(jié)果,能夠大致判斷該用戶的職業(yè),如圖6和圖7所示,用戶在兩年內(nèi)價(jià)值為1的時(shí)間階段較長且集中于寒暑假,可判斷大致職業(yè)為教師或者學(xué)生,此類軟件開發(fā)者招聘概率較高;而在職用戶價(jià)值為1的時(shí)間較短且頻繁,此種情況下招聘概率較低,若其前期價(jià)值變化符合規(guī)律而近期出現(xiàn)大幅變化,則招聘成功率將會(huì)增加。

圖6 LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練集擬合

圖7 LSTM神經(jīng)網(wǎng)絡(luò)測試集擬合

5 結(jié) 語

本文提出一種使用混合神經(jīng)網(wǎng)絡(luò)對GitHub軟件開發(fā)者進(jìn)行人力資源價(jià)值評估的方法,并對軟件開發(fā)人才未來價(jià)值進(jìn)行預(yù)測。首先分析了影響軟件開發(fā)者的價(jià)值的因素,選取17種參數(shù)作為特征參數(shù)構(gòu)建模型并訓(xùn)練;然后對GitHub軟件開發(fā)者進(jìn)行實(shí)例驗(yàn)證,通過對歷史數(shù)據(jù)的學(xué)習(xí),其預(yù)測結(jié)果符合當(dāng)前人力資源,能夠有效為企業(yè)招聘高技術(shù)人力資源及為企業(yè)內(nèi)部人力資源考核提供參考,具有廣泛的現(xiàn)實(shí)意義。

因?yàn)镚itHub中無軟件開發(fā)者的貨幣性特征,本文只選取了其中對評估影響較大的非貨幣性且可數(shù)值化的參數(shù),后續(xù)應(yīng)考慮把一些文本參數(shù)量化后作為特征,如軟件開發(fā)者使用編程語言、項(xiàng)目使用編程語言等,并且根據(jù)這些數(shù)據(jù)評估軟件開發(fā)者在不同編程領(lǐng)域的價(jià)值,以此作為推薦系統(tǒng)中Top-N排序的一項(xiàng)指標(biāo)實(shí)現(xiàn)人力資源個(gè)性化推薦。

猜你喜歡
開發(fā)者倉庫卷積
倉庫里的小偷
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
填滿倉庫的方法
四行倉庫的悲壯往事
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
16%游戲開發(fā)者看好VR
CHIP新電腦(2016年3期)2016-03-10 13:06:42
iOS開發(fā)者調(diào)查
電腦迷(2015年8期)2015-05-30 12:27:10
iOS開發(fā)者調(diào)查
電腦迷(2015年4期)2015-05-30 05:24:09
消防設(shè)備
望奎县| 铜川市| 安阳市| 平武县| 孙吴县| 车险| 天峨县| 凤阳县| 灵武市| 项城市| 娱乐| 鸡东县| 元江| 东乌珠穆沁旗| 称多县| 淅川县| 汉中市| 西青区| 阳曲县| 城步| 忻城县| 广水市| 广德县| 油尖旺区| 九寨沟县| 保康县| 辽源市| 南开区| 饶平县| 左权县| 古丈县| 镇宁| 金溪县| 重庆市| 松阳县| 景洪市| 元氏县| 台南县| 奎屯市| 南部县| 平武县|