王煜龍 楊凌雯
摘要:大學(xué)生行為特征和企業(yè)特征為就業(yè)推薦算法提供了建模依據(jù),其實(shí)現(xiàn)方式為采集數(shù)據(jù)、提取特征、訓(xùn)練算法模型。數(shù)據(jù)采集階段需進(jìn)行分類和預(yù)處理,確保數(shù)據(jù)格式、數(shù)值等符合要求。文章依托深度神經(jīng)網(wǎng)絡(luò),提取了大學(xué)生行為序列特征,建立了PRHN推薦算法的理論模型。關(guān)系網(wǎng)可充分發(fā)掘?qū)W生數(shù)據(jù)和企業(yè)數(shù)據(jù)的圖譜結(jié)構(gòu),有助于提升PRHN就業(yè)推薦算法的命中率,改善推薦集內(nèi)的企業(yè)排序。因而可將關(guān)系網(wǎng)融入推薦算法,輔助完成推薦任務(wù),提升算法性能和效果。
關(guān)鍵詞:行為特征;關(guān)系網(wǎng);大學(xué)生就業(yè);推薦算法
中圖分類號(hào):TP391.3文獻(xiàn)標(biāo)志碼:A0引言當(dāng)前,國(guó)內(nèi)已經(jīng)研究出多種大學(xué)生就業(yè)推薦算法,其出發(fā)點(diǎn)和理論依據(jù)各有差異。筆者查閱文獻(xiàn)后發(fā)現(xiàn),基于大學(xué)生行為特征的就業(yè)推薦算法研究相對(duì)較少,且相關(guān)理論模型中未充分考慮學(xué)生關(guān)系網(wǎng)和企業(yè)關(guān)系網(wǎng)對(duì)就業(yè)的影響。鑒于此,本文針對(duì)大學(xué)生行為特征及關(guān)系網(wǎng)開(kāi)展就業(yè)推薦算法研究工作,旨在優(yōu)化理論模型。
1基于行為特征的大學(xué)生就業(yè)推薦算法1.1算法框架大學(xué)生的行為特征能夠反映其職業(yè)偏好、能力特點(diǎn)以及綜合素養(yǎng),在就業(yè)服務(wù)中以行為特征為線索,借助推薦算法為其匹配適宜的企業(yè),精確求職范圍,進(jìn)而提升求職效率和成功率,相關(guān)算法的邏輯框架如圖1所示。顯然,該算法的核心邏輯是提取大學(xué)生基本信息和行為模式信息,形成學(xué)生行為特征,然后按照特定的邏輯在學(xué)生行為特征和企業(yè)特征之間建立聯(lián)系,最終產(chǎn)生適合學(xué)生的企業(yè)推薦集。
1.2數(shù)據(jù)采集和處理大學(xué)生就業(yè)推薦算法涉及大量的學(xué)生信息和企業(yè)信息,研究時(shí)引入關(guān)系型數(shù)據(jù)庫(kù)MySQL,存儲(chǔ)各類基礎(chǔ)數(shù)據(jù)。
1.2.1學(xué)生信息采集數(shù)據(jù)庫(kù)中以表區(qū)分不同類型的數(shù)據(jù),每一張表中設(shè)計(jì)多個(gè)字段,學(xué)生信息可分為5張表,表名稱及其字段的注釋信息如下:
(1)學(xué)生基礎(chǔ)信息表。涉及字段為姓名、性別、年齡、民族、籍貫、院校名稱、專業(yè)名稱、政治面貌、學(xué)業(yè)狀態(tài)。
(2)學(xué)業(yè)成績(jī)信息表。主要字段為專業(yè)課成績(jī)、英語(yǔ)四級(jí)成績(jī)、英語(yǔ)六級(jí)成績(jī)、計(jì)算機(jī)等級(jí)考試成績(jī)、平均績(jī)點(diǎn)、專業(yè)綜合排名、從業(yè)資質(zhì)考試成績(jī)(如法律職業(yè)資格考試、注冊(cè)會(huì)計(jì)師考試)。
(3)校內(nèi)活動(dòng)信息表。主要字段包括班干部、學(xué)生社團(tuán)、校內(nèi)文藝活動(dòng)以及各類校內(nèi)活動(dòng)的起止時(shí)間。
(4)獎(jiǎng)助信息表。表內(nèi)字段為助學(xué)金、獎(jiǎng)學(xué)金、獲取時(shí)間。
(5)競(jìng)賽信息表。字段為競(jìng)賽名稱、競(jìng)賽類別、競(jìng)賽時(shí)間、競(jìng)賽名次。
1.2.2企業(yè)信息采集企業(yè)分布在不同地區(qū),因而學(xué)生難以直接與企業(yè)溝通人才需求信息。為收集企業(yè)信息,采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)抓取企業(yè)相關(guān)的網(wǎng)頁(yè)信息。由于網(wǎng)絡(luò)信息的質(zhì)量參差不齊,為防止收集到無(wú)效信息和虛假信息,將信息抓取的重點(diǎn)選定為企業(yè)信用查詢類網(wǎng)站,如愛(ài)企查、天眼查,然后將抓取到的網(wǎng)頁(yè)信息存儲(chǔ)為兩種表。
(1)企業(yè)基本信息表。
企業(yè)基本信息表主要字段包括經(jīng)營(yíng)狀態(tài)、成立日期、注冊(cè)資本、所屬行業(yè)、參保人數(shù)、企業(yè)規(guī)模、企業(yè)類型。該表主要存儲(chǔ)長(zhǎng)度較短、內(nèi)容明確的字段信息。
(2)企業(yè)描述信息表。
企業(yè)描述信息表主要字段為企業(yè)名稱、地址、經(jīng)營(yíng)范圍、信用評(píng)價(jià)。
1.2.3數(shù)據(jù)預(yù)處理初步收集到的學(xué)生信息可能存在不完整、不合規(guī)范、空缺等情況,企業(yè)信息可能存在開(kāi)業(yè)異常、信用評(píng)價(jià)低等情況。數(shù)據(jù)預(yù)處理的任務(wù)包括3個(gè),其一是通過(guò)算法篩除缺失值過(guò)多的學(xué)生和企業(yè)信息,防止其入庫(kù)占用資源;其二是填補(bǔ)部分缺失的數(shù)據(jù);其三是離散字段編碼。
正則表達(dá)式按照特定規(guī)則篩選、替換或者校驗(yàn)各種字段信息,可用于剔除無(wú)效的學(xué)生信息和企業(yè)信息。當(dāng)整體信息較為完善而個(gè)別字段缺失時(shí),可將缺失的信息填充為空或者-1。企業(yè)基本信息表和學(xué)生基本信息表中的字段不存在優(yōu)先級(jí)問(wèn)題,數(shù)據(jù)呈現(xiàn)明顯的離散性,編碼時(shí)采用One-Hot(獨(dú)熱編碼)技術(shù)[1]。等級(jí)考試和課業(yè)成績(jī)均存在上限和下限,因而按照最大最小原則,進(jìn)行標(biāo)準(zhǔn)化處理。
1.2.4學(xué)生行為特征提取以學(xué)生行為特征為線索實(shí)現(xiàn)就業(yè)推薦時(shí),要先提取學(xué)生行為特征信息,其關(guān)鍵是在相關(guān)信息內(nèi)建立邏輯關(guān)系。以學(xué)生校內(nèi)活動(dòng)行為特征為例,校內(nèi)文體活動(dòng)、班干部任職、參與學(xué)生社團(tuán)、提供志愿者服務(wù)均屬于校內(nèi)活動(dòng)的范疇,特征提取的方法為按照活動(dòng)起始時(shí)間進(jìn)行排序,形成學(xué)生校內(nèi)活動(dòng)軌跡。
1.3算法實(shí)現(xiàn)原理研究利用了深度神經(jīng)網(wǎng)絡(luò)構(gòu)建推薦算法的理論模型——PRHN算法,該模型框架分為3層,其功能和實(shí)現(xiàn)原理如下。
1.3.1嵌入表示層在算法實(shí)現(xiàn)過(guò)程中需將學(xué)生基本特征信息、行為特征信息、企業(yè)特征信息轉(zhuǎn)化為程序可理解的數(shù)學(xué)語(yǔ)言,由于數(shù)據(jù)離散性特征突出,故使用集合進(jìn)行匯總。例如,將學(xué)生集合記為S,其中的第i名學(xué)生記為Si,該學(xué)生對(duì)應(yīng)的特征信息記為Gi,則Gi的集合表示方法如式(1)所示。
嵌入表示層中需對(duì)One-Hot編碼的離散數(shù)據(jù)進(jìn)行特殊處理,降低其向量維度,避免出現(xiàn)無(wú)效的神經(jīng)元,方法為在G學(xué)生特征集合中的離散特征元素中增加嵌入向量。
1.3.2序列語(yǔ)義層學(xué)生行為特征多為一系列事件的集合,并且事件按照時(shí)間或者其他邏輯線索進(jìn)行排序,形成事件序列,語(yǔ)義序列層用于提取此類事件信息。綜合對(duì)比CNN模型、LSTM模型以及Self-Attention模型,最終采用適宜分析序列元素內(nèi)部關(guān)聯(lián)性的Self-Attention模型[2]。該模型是神經(jīng)網(wǎng)絡(luò)中的研究熱點(diǎn),可稱為自注意力機(jī)制,在提取行為序列信息時(shí),能夠?qū)γ恳粋€(gè)事件進(jìn)行位置編碼,從而在一系列事件中建立順序。企業(yè)的描述性文本信息也在Self-Attention模型的處理范圍內(nèi)。
1.3.3深度預(yù)測(cè)層深度預(yù)測(cè)層的主要作用是在學(xué)生信息和企業(yè)信息間建立交互機(jī)制,從而依據(jù)學(xué)生基本特征信息和行為特征信息形成推薦集。其網(wǎng)絡(luò)層包括兩部分,特征交叉網(wǎng)絡(luò)用于特征交互,前饋網(wǎng)絡(luò)用于強(qiáng)化非線性擬合能力。深度預(yù)測(cè)層利用神經(jīng)元非線性作用函數(shù)Sigmoid預(yù)測(cè)學(xué)生能否匹配企業(yè),匹配度預(yù)測(cè)結(jié)果記為r,其表示方法如下。
1.4算法檢驗(yàn)
1.4.1試驗(yàn)數(shù)據(jù)(1)學(xué)生信息。
以國(guó)內(nèi)某高等院校2018年和2019年的4 898名本科畢業(yè)生為研究對(duì)象,重點(diǎn)采集兩類信息。第一類是學(xué)生基本特征信息和學(xué)生行為特征信息,入庫(kù)前進(jìn)行數(shù)據(jù)預(yù)處理。第二類是學(xué)生就業(yè)單位信息。試驗(yàn)思路為利用本次建立的推薦算法為學(xué)生匹配企業(yè),然后推薦幾種就業(yè)單位。
(2)企業(yè)信息。
利用Python編寫(xiě)爬蟲(chóng),收集到1 987家企業(yè)的特征信息,同樣進(jìn)行數(shù)據(jù)預(yù)處理,將符合試驗(yàn)要求的數(shù)據(jù)存入數(shù)據(jù)庫(kù)。
1.4.2試驗(yàn)過(guò)程試驗(yàn)數(shù)據(jù)分為測(cè)試數(shù)據(jù)、訓(xùn)練數(shù)據(jù)以及驗(yàn)證數(shù)據(jù)3類。訓(xùn)練數(shù)據(jù)的作用是通過(guò)反復(fù)訓(xùn)練,建立和優(yōu)化算法模型,因而占比較大,將80%的數(shù)據(jù)用于訓(xùn)練算法模型。測(cè)試數(shù)據(jù)用于推薦算法的功能測(cè)試,為算法改進(jìn)提供方向。驗(yàn)證數(shù)據(jù)用于全面檢驗(yàn)優(yōu)化后的推薦算法。試驗(yàn)中使用HR(命中率)和MRR評(píng)價(jià)推薦算法的實(shí)際效果。MRR用于評(píng)價(jià)推薦幾種企業(yè)排序的合理性,如果學(xué)生就業(yè)意向靠前的企業(yè)排在推薦幾種比較靠前的位置,證明推薦算法取得了較好的效果[3]。在試驗(yàn)過(guò)程中,筆者同步對(duì)比深度神經(jīng)網(wǎng)絡(luò)推薦算法(PRHN)、RF推薦算法、P2CF推薦算法以及APJFNN推薦算法的實(shí)際效果。
1.4.3結(jié)果分析通過(guò)對(duì)比發(fā)現(xiàn),PRHN推薦算法在HR和MRR兩項(xiàng)指標(biāo)上均取得最佳排名,超越了其他同類算法,在不同的數(shù)據(jù)集上表現(xiàn)出穩(wěn)定性,命中率HR至少比第二名提高了3%,MRR比第二名高出2%,足以證明PRHN算法達(dá)到了較好的推薦效果。
2基于關(guān)系網(wǎng)的大學(xué)生就業(yè)推薦算法優(yōu)化2.1優(yōu)化方向基于大學(xué)生行為特征的推薦算法僅僅考慮了學(xué)生和企業(yè)兩個(gè)維度的因素,然而現(xiàn)實(shí)生活中的就業(yè)影響因素往往更加復(fù)雜。例如,地域和城市對(duì)大學(xué)生的就業(yè)選擇影響突出。PRHN推薦算法中未能充分應(yīng)用這些重要因素。關(guān)系網(wǎng)在日常生活中運(yùn)用廣泛,可通過(guò)建立數(shù)據(jù)關(guān)系網(wǎng)引入更多的實(shí)體元素。將關(guān)系網(wǎng)融入推薦算法能夠有效填補(bǔ)學(xué)生和企業(yè)之間的空白信息,從而避免算法模型難以處理稀疏數(shù)據(jù)的情況。
2.2構(gòu)建關(guān)系網(wǎng)根據(jù)現(xiàn)實(shí)經(jīng)驗(yàn),大學(xué)生就業(yè)中的關(guān)系網(wǎng)包括3類:一是學(xué)生間的關(guān)系網(wǎng),二是企業(yè)間的關(guān)系網(wǎng),三是學(xué)生和企業(yè)間的關(guān)系網(wǎng)。以下分析前兩類關(guān)系網(wǎng)的構(gòu)建方式。
2.2.1學(xué)生關(guān)系網(wǎng)提取方式同班、同宿舍、同專業(yè)、同社團(tuán)、同組比賽均可作為提取學(xué)生關(guān)系網(wǎng)的依據(jù)。學(xué)生基礎(chǔ)特征信息中涵蓋了專業(yè)、班級(jí)、社團(tuán)參與情況等信息,可借助算法匹配關(guān)鍵詞,從而在學(xué)生之間建立關(guān)系網(wǎng)。
2.2.2企業(yè)關(guān)系網(wǎng)提取方式企業(yè)關(guān)系網(wǎng)更加復(fù)雜,其評(píng)價(jià)維度更加多元化。從企業(yè)類型的角度而言,常見(jiàn)的企業(yè)包括制造業(yè)企業(yè)、互聯(lián)網(wǎng)企業(yè)、娛樂(lè)服務(wù)類企業(yè),可按照企業(yè)類型建立關(guān)系網(wǎng)[4]。從企業(yè)規(guī)模的角度而言,企業(yè)包括大型企業(yè)、中型企業(yè)、小微企業(yè),因而亦可將企業(yè)規(guī)模作為建立關(guān)系網(wǎng)的依據(jù)。
2.3關(guān)系網(wǎng)絡(luò)及圖增強(qiáng)推薦算法
2.3.1問(wèn)題描述
2.3.2建立模型(1)建模思路。
在推薦算法中融入關(guān)系網(wǎng)時(shí),增加了算法的任務(wù)量,在原本的推薦任務(wù)上新增了關(guān)系網(wǎng)嵌入任務(wù),由此產(chǎn)生了新的推薦算法模型——GPRN,其特點(diǎn)為借助關(guān)系網(wǎng)增強(qiáng)推薦效果,關(guān)系網(wǎng)嵌入任務(wù)起到輔助推薦任務(wù)的作用。GPRN推薦算法建立在PRHN推薦算法的基礎(chǔ)上。
(2)子模塊。
① 學(xué)生子模塊(PRHN-S)。該子模塊的數(shù)據(jù)來(lái)自PRHN推薦算法中的學(xué)生數(shù)據(jù)集,分為兩類,一類用于表征學(xué)生的行為特征,呈現(xiàn)方式為事件序列,另一類為學(xué)生基本信息。兩類數(shù)據(jù)的離散度較高,需通過(guò)嵌入層降低向量維度,并利用交叉網(wǎng)絡(luò)實(shí)施交互處理。
② 企業(yè)子模塊(PRHN-C)。該子模塊的數(shù)據(jù)來(lái)自PRHN推薦算法中的企業(yè)數(shù)據(jù)集,處理方式與PRHN-S模塊基本相同。
(3)推薦任務(wù)。
GPRN算法的推薦任務(wù)實(shí)現(xiàn)邏輯與各個(gè)子模塊的功能基本相同,當(dāng)學(xué)生數(shù)據(jù)和企業(yè)數(shù)據(jù)輸入系統(tǒng)之后,PRHN-S子模塊和PRHN-C子模塊分別處理對(duì)應(yīng)的學(xué)生數(shù)據(jù)和企業(yè)數(shù)據(jù),使其在結(jié)構(gòu)上滿足兩個(gè)子模塊的要求。然后再將處理后的結(jié)構(gòu)化數(shù)據(jù)投入模型,進(jìn)行訓(xùn)練,建立學(xué)生和企業(yè)的匹配函數(shù),該函數(shù)的變量為學(xué)生和企業(yè),將學(xué)生記為Si,企業(yè)記為Ci,則函數(shù)中輸入的數(shù)據(jù)分別為Si對(duì)應(yīng)的兩種學(xué)生屬性數(shù)據(jù)和Ci對(duì)應(yīng)的兩種企業(yè)屬性數(shù)據(jù)[5]。推薦任務(wù)的結(jié)果為企業(yè)和學(xué)生的匹配度。
3結(jié)語(yǔ)基于大學(xué)生行為特征的就業(yè)推薦算法以深度神經(jīng)網(wǎng)絡(luò)為理論模型,首先在實(shí)現(xiàn)層面采集學(xué)生基礎(chǔ)信息和行為序列信息,同時(shí)獲取企業(yè)相關(guān)的基礎(chǔ)信息,所有數(shù)據(jù)要進(jìn)行預(yù)處理,剔除無(wú)效信息,然后按照PRHN模型開(kāi)展嵌入處理,提取大學(xué)生行為序列特征和企業(yè)特征,最后再實(shí)施深度預(yù)測(cè)。在PRHN模型的基礎(chǔ)上引入關(guān)系網(wǎng),可進(jìn)一步改善數(shù)據(jù)結(jié)構(gòu),提升推薦算法的命中率和結(jié)果排序。
參考文獻(xiàn)
[1]張婳.基于深度學(xué)習(xí)的大學(xué)畢業(yè)生就業(yè)推薦方法研究[D].重慶:重慶郵電大學(xué),2021.
[2]廖鳳露.基于個(gè)性化偏好的大學(xué)生就業(yè)推薦算法研究[D].重慶:重慶大學(xué),2019.
[3]黃俊萍.基于推薦算法的大學(xué)生就業(yè)管理系統(tǒng)[J].信息技術(shù)與信息化,2021(11):6-9.
[4]于文華.基于大數(shù)據(jù)的大學(xué)生就業(yè)創(chuàng)業(yè)指導(dǎo)系統(tǒng)[J].微型電腦應(yīng)用,2021(9):37-39,43.
[5]王云婷.基于協(xié)同過(guò)濾的高職院校就業(yè)推薦系統(tǒng)的研究與開(kāi)發(fā)[D].銀川:寧夏大學(xué),2018.
(編輯 王雪芬)
Research on employment recommendation algorithm for college students based on
behavioral characteristics and relationship networksWang? Yulong, Yang? Lingwen
(Luoyang Vocational College of Science and Technology, Luoyang 471822, China)Abstract:? College students’ behavior characteristics and enterprise characteristics for the employment recommendation algorithm to provide a modeling basis, the implementation is to collect data, extract features and train algorithm model. In the stage of data acquisition, classification and preprocessing are needed to ensure that the data format and numerical value meet the requirements. The feature of college students’ behavior sequence is extracted by depth neural network, and the theoretical model of PRHN recommendation algorithm is established. The network can fully explore the graph structure of student data and enterprise data, which helps to improve the hit rate of PRHN’s algorithm and the ranking of enterprises in the recommendation set. Therefore, the network can be incorporated into the recommendation algorithm to assist the completion of the recommendation task and improve the performance and effectiveness of the algorithm.
Key words: behavioral characteristics; network; employment of college students; recommendation algorithm