摘? 要:文章基于用戶畫像基礎(chǔ)理論,采用K-means++算法對大學(xué)生在校期間產(chǎn)生的數(shù)據(jù)進(jìn)行挖掘和分析,建立了大學(xué)生就業(yè)畫像。此外,為了能夠更加直觀地描述就業(yè)畫像,提出使用個體層面和群體層面的表達(dá)方式,將個體畫像可視化,群體畫像表格化,使得就業(yè)畫像特征明顯,易于理解,為后續(xù)的就業(yè)推薦工作打下堅(jiān)實(shí)的基礎(chǔ)。
關(guān)鍵詞:數(shù)據(jù)挖掘;K-means++;就業(yè)畫像
中圖分類號:TP391;TP18 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)10-0109-04
Abstract: This paper is based on the basic theory of user portrait and uses the K-means++ algorithm to mine and analyze the data generated by college students during their school years, establish a college student employment portrait. In addition, in order to describe employment portraits more intuitively, it proposes using individual and group level expressions to visualize individual portraits and tabulate group portraits, making the characteristics of employment portraits clear and easy to understand, laying a solid foundation for subsequent employment recommendation work.
Keywords: data mining; K-means++; employment portrait
0? 引? 言
教育部2021年發(fā)布的數(shù)據(jù)顯示,2021年大學(xué)畢業(yè)生人數(shù)達(dá)到909萬人,再創(chuàng)歷史新高,就業(yè)形勢極其嚴(yán)峻。為緩解就業(yè)壓力,國家相關(guān)部門發(fā)布了一系列的措施和文件,要求各地高校充分利用各種渠道(如微信公眾號等媒介),建立精準(zhǔn)的就業(yè)服務(wù)平臺。針對不同專業(yè)、不同層次的大學(xué)生,精準(zhǔn)推送相應(yīng)的崗位信息和就業(yè)政策,實(shí)現(xiàn)個性化、差異化的就業(yè)服務(wù)。
20世紀(jì)90年代,Alan[1]提出用戶畫像的概念,用戶畫像是對用戶各種行為、屬性的總結(jié),是建立在真實(shí)用戶數(shù)據(jù)基礎(chǔ)之上的模型,采集用戶的行為、習(xí)慣等個性化數(shù)據(jù),經(jīng)過統(tǒng)計(jì)分析后將某一類或某一個特征“標(biāo)簽化”。因此,用戶畫像技術(shù)的本質(zhì)工作就是給用戶打“標(biāo)簽”。在標(biāo)簽的標(biāo)識下,用戶被分為不同的類型。
目前,用戶畫像技術(shù)已逐漸應(yīng)用于各大高校。劉艷[2]提出利用大數(shù)據(jù)能夠有效促進(jìn)校園建設(shè)和管理,能夠?qū)π@就業(yè)情況進(jìn)行用戶畫像建設(shè)。張東迅[3]建立了雇主畫像的總體框架,提出使用模糊聚類和廣義回歸神經(jīng)網(wǎng)絡(luò)方法提取雇主的標(biāo)簽方案,排除了經(jīng)驗(yàn)主義主觀因素造成的不確定性。
通過對已有研究的梳理發(fā)現(xiàn),對大學(xué)生在校期間產(chǎn)生的大量數(shù)據(jù)進(jìn)行挖掘和分析的工作尚且不足,對大學(xué)生就業(yè)情況的用戶畫像建設(shè)僅停留在實(shí)踐探索層面,研究還不夠深入。其次,我國大學(xué)生就業(yè)質(zhì)量偏低的情況還沒有得以轉(zhuǎn)變,具體體現(xiàn)在就業(yè)穩(wěn)定性低、崗位匹配度低,就業(yè)期望與崗位實(shí)際差距大。通過對大學(xué)生產(chǎn)生的數(shù)據(jù)進(jìn)行分析和挖掘,構(gòu)建大學(xué)生就業(yè)畫像,為大學(xué)生精準(zhǔn)推送與其自身相符的崗位,實(shí)現(xiàn)“人職匹配”,真正提高就業(yè)服務(wù)質(zhì)量和精準(zhǔn)就業(yè)服務(wù)水平具有重要的意義。
本文數(shù)據(jù)來源于某高職院校教務(wù)、學(xué)工、團(tuán)委、就業(yè)部門,通過對采集到的數(shù)據(jù)進(jìn)行有效的組織存儲,整合成數(shù)據(jù)集,使用K-means++算法對數(shù)據(jù)集進(jìn)行聚類,形成大學(xué)生就業(yè)畫像,最后以詞云和數(shù)據(jù)表格的形式對就業(yè)畫像進(jìn)行繪制。
1? 大學(xué)生就業(yè)畫像標(biāo)簽體系
用戶標(biāo)簽可以理解為通過對用戶信息進(jìn)行梳理分析而得來的高度精練的特征標(biāo)志。用戶畫像過程可以利用用戶標(biāo)簽對實(shí)例用戶進(jìn)行高度概括,使得用戶的特征更加便于理解,同時(shí)方便計(jì)算機(jī)的計(jì)算處理。本文的標(biāo)簽體系如圖1所示。
2? 就業(yè)畫像構(gòu)建框架
對大學(xué)生就業(yè)畫像的構(gòu)建是決定大學(xué)生能否精準(zhǔn)就業(yè)的前提,對大學(xué)生在就業(yè)時(shí)能否較為準(zhǔn)確地描述自己(無論是已知的,還是未曾發(fā)現(xiàn)的優(yōu)點(diǎn)和缺點(diǎn))發(fā)揮著至關(guān)重要的作用。
就業(yè)畫像的類別較多時(shí),需要對就業(yè)畫像進(jìn)行聚類,從而發(fā)現(xiàn)就業(yè)畫像之間的間接聯(lián)系。聚類是機(jī)器學(xué)習(xí)領(lǐng)域中的一種數(shù)據(jù)處理方式,屬于無監(jiān)督算法,通過對數(shù)據(jù)進(jìn)行聚類,發(fā)掘隱藏在數(shù)據(jù)間的規(guī)律。聚類算法可將數(shù)據(jù)劃分為若干個簇,使得簇內(nèi)部的數(shù)據(jù)特征差異盡量小,簇與簇之間的差異盡可能地大。
就業(yè)畫像的本質(zhì)是標(biāo)簽組成,為使標(biāo)簽數(shù)據(jù)更加直觀易于理解,從個體層面和群體層面進(jìn)行描述,為后續(xù)就業(yè)推薦、企業(yè)選拔人才提供可視化的依據(jù)。
本文所提的就業(yè)畫像模型可劃分為數(shù)據(jù)層、標(biāo)簽層、應(yīng)用層,如圖2所示。
1)數(shù)據(jù)層。是構(gòu)建就業(yè)畫像的基礎(chǔ),包括教務(wù)、學(xué)工、團(tuán)委、就業(yè)4個部分提供的數(shù)據(jù),使用Python/kettle/MySQL等工具對數(shù)據(jù)進(jìn)行預(yù)處理、融合,為后續(xù)構(gòu)建聚類提供良好的數(shù)據(jù)基礎(chǔ)。
2)標(biāo)簽層。是畫像構(gòu)建過程中最為重要的部分,本文從4個維度(用戶基本屬性、專業(yè)學(xué)習(xí)能力、綜合素質(zhì)能力、就業(yè)/實(shí)習(xí))出發(fā),使用K-means++算法對數(shù)據(jù)進(jìn)行聚類。
3)應(yīng)用層。用戶畫像的分析和可視化方法。根據(jù)聚類的結(jié)果,將就業(yè)用戶畫像以可視化的方式直觀地表達(dá)出來。
2.1? 數(shù)據(jù)預(yù)處理
為提高數(shù)據(jù)質(zhì)量,降低臟數(shù)據(jù)的影響,我們需要對源數(shù)據(jù)進(jìn)行預(yù)處理。主要工作如下:
1)數(shù)據(jù)清洗。本文數(shù)據(jù)來源于不同部門,原始數(shù)據(jù)集中有無關(guān)數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)以及缺失數(shù)據(jù),對于重復(fù)和缺失的數(shù)據(jù),由于數(shù)量不大,本文采用直接刪除的方法進(jìn)行處理。
2)數(shù)據(jù)集成。將異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)合并存放到一個數(shù)據(jù)庫中。本文根據(jù)學(xué)生學(xué)號及身份證號將不同數(shù)據(jù)源的學(xué)生數(shù)據(jù)提取并合并到同一個數(shù)據(jù)庫中。
3)數(shù)據(jù)變換。本文采用零-均值方法對數(shù)據(jù)集進(jìn)行歸一化處理。
2.2? K-means++算法
K-means++算法在K-means算法的基礎(chǔ)上進(jìn)行了改進(jìn),它的運(yùn)行速度更快,效率更高。對于樣本集,K-means++以最小化平方誤差對聚類簇進(jìn)行劃分,規(guī)避了K-means算法每次迭代時(shí)隨機(jī)選取聚類中心的缺點(diǎn),且最終的聚類簇劃分不會像K-means算法那樣將聚類簇劃分得過于密集,相較于K-means算法,K-means++算法的執(zhí)行速度和聚類結(jié)果更為優(yōu)越[4]。K-means++在選取聚類中心時(shí),計(jì)算數(shù)據(jù)集中其他樣本點(diǎn)與之前已經(jīng)選取好的聚類中心的距離,距離它們越遠(yuǎn)的點(diǎn),被選中為新的聚類中心的概率越高[5]。
在K-means++算法中,聚類數(shù)值K需要手動設(shè)定,K值決定了目標(biāo)數(shù)據(jù)將被分成幾個簇,不同的K值會帶來不同的聚類結(jié)果。聚類簇?cái)?shù)k通常利用Within-cluster SSE和手肘法確定[6],k一般設(shè)為4~7。隨著k的不斷增大,SSE值逐漸減??;當(dāng)k小于實(shí)際簇?cái)?shù)時(shí),SSE值會迅速下降;當(dāng)k繼續(xù)增大時(shí),SSE的下降趨勢將放緩。本文實(shí)驗(yàn)如圖3所示,本文將k設(shè)為4。
2.3? 用戶相似度計(jì)算方法
在對大學(xué)生的個人信息進(jìn)行聚類時(shí),將每條個人信息視為一個單獨(dú)的數(shù)據(jù)點(diǎn),需要計(jì)算不同數(shù)據(jù)點(diǎn)之間的距離,距離越大,表示兩個用戶的個人信息越相似。用戶相似度的計(jì)算方法越有效,越能夠?qū)蓷l個人信息之間的差異表達(dá)得越科學(xué)可信。
本文選用SimRank算法計(jì)算用戶相似度。SimRank算法是一種用于計(jì)算兩個目標(biāo)之間相似度的算法,采用一種基于圖的結(jié)構(gòu)來表示對象之間的關(guān)聯(lián)情況,它適用的場景是業(yè)務(wù)可被分成一個二分圖,即圖中的節(jié)點(diǎn)可被分為兩個子集,且圖中任意一條邊的兩個端點(diǎn)分別來源于這兩個子集。基于用戶基本信息的相似度計(jì)算,也符合這種二分圖的情況,可認(rèn)為有兩種節(jié)點(diǎn),分別為用戶節(jié)點(diǎn)和特征節(jié)點(diǎn),用戶節(jié)點(diǎn)和特征節(jié)點(diǎn)連成的邊代表用戶擁有這個特征。
2.4? 聚類流程
基于K-means++算法,采用最小方差方法初始化聚類中心,使用SimRank算法計(jì)算用戶間的相似度。詳細(xì)步驟如下:
1)將樣本集向量化后,計(jì)算樣本集中各個數(shù)據(jù)樣本的方差,選擇方差最小的數(shù)據(jù)樣本點(diǎn)作為初始聚類中心。
2)采用SimRank算法計(jì)算每個樣本與當(dāng)前已有聚類中心之間的最短距離。
3)根據(jù)步驟2)中求出的最短距離,計(jì)算出每個樣本的中心被選為下一個聚類中心的概率P。數(shù)據(jù)樣本點(diǎn)到聚類中心的距離越大,表明該數(shù)據(jù)樣本點(diǎn)被選為新的聚類中心的概率就越大。
4)對聚類中心進(jìn)行再次選取,根據(jù)步驟3)中求得的概率P,基于此概率 ,選擇其他數(shù)據(jù)樣本點(diǎn)作為聚類中心。
5)重復(fù)步驟2),直至選出指定數(shù)目的聚類中心。
3? 就業(yè)畫像的表達(dá)形式
大學(xué)生就業(yè)畫像所建標(biāo)簽體系刻畫了大學(xué)生的用戶基本屬性、專業(yè)學(xué)習(xí)能力、綜合素質(zhì)能力、就業(yè)/實(shí)習(xí)四個方面的內(nèi)容,既可以從個人角度出發(fā)研究每個人的偏好等特性,更好地為個人就業(yè)推薦提供服務(wù);也可以從群體的角度出發(fā)依據(jù)用戶標(biāo)簽劃分用戶群體,分析標(biāo)簽的交叉特征,便于企業(yè)直接按照自身的要求進(jìn)行搜索。
3.1? 個體維度
使用微詞云對個性標(biāo)簽進(jìn)行表示。微詞云是一款在線文字云、在線詞云生成器,其使用方法是選擇合適的框圖作為被填充對象,將字詞輸入內(nèi)容框并設(shè)置框圖中字體大小、顏色、角度等,字詞將自動填充到框圖中。由于用戶標(biāo)簽數(shù)量較多,本文僅挑選部分標(biāo)簽生成詞云,如圖4所示。
3.2? 群體維度
使用K-means++算法對用戶數(shù)據(jù)聚類后,得到4個聚簇群,每個學(xué)生都擁有其對應(yīng)的分群編號。首先,對聚類后四類人群的數(shù)值型數(shù)據(jù)和類別型數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析;然后,對每一類學(xué)生的相關(guān)信息進(jìn)行分詞處理,統(tǒng)計(jì)高頻詞,分析每一類學(xué)生的特點(diǎn)。綜合以上各類用戶的特征,將四類用戶總結(jié)為:學(xué)習(xí)為主的學(xué)生、業(yè)余興趣愛好為主的學(xué)生、迷茫型學(xué)生和沉淪型學(xué)生,如表1所示。
4? 結(jié)? 論
本文利用教務(wù)、學(xué)工、團(tuán)委、就業(yè)數(shù)據(jù),基于用戶畫像基礎(chǔ)理論,構(gòu)建大學(xué)生就業(yè)畫像體系。在就業(yè)畫像框架設(shè)計(jì)方面,將流程分為數(shù)據(jù)層、標(biāo)簽層和應(yīng)用層,其中標(biāo)簽層又分為用戶基本屬性、專業(yè)學(xué)習(xí)能力、綜合素質(zhì)能力、就業(yè)/實(shí)習(xí)四個維度。最后通過詞云和數(shù)據(jù)表格的形式從個體和群體兩個維度對所建就業(yè)畫像進(jìn)行刻畫,為后續(xù)就業(yè)推薦工作打好基礎(chǔ)。
參考文獻(xiàn):
[1] ALAN C.交互設(shè)計(jì)之路 [M].北京:電子工業(yè)出版社,2006.
[2] 劉艷.基于大數(shù)據(jù)的校園就業(yè)用戶畫像的構(gòu)建與應(yīng)用 [J].現(xiàn)代信息科技,2019,3(17):110-112.
[3] 張東迅.基于大數(shù)據(jù)的校園招聘雇主畫像研究 [D].北京:北京郵電大學(xué),2018.
[4] MA Y,CHENG W J. Optimization and Parallelization of Fuzzy Clustering Algorithm Based on the Improved Kmeans++Clustering [J].IOP Conference Series:Materials Science and Engineering,2020,768(7):72-82.
[5] 鐘熙,孫祥娥.基于Kmeans++聚類的樸素貝葉斯集成方法研究 [J].計(jì)算機(jī)科學(xué),2019,46(S1):439-441+451.
[6] 成衛(wèi)青,盧艷紅.一種基于最大最小距離和SSE的自適應(yīng)聚類算法 [J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2015,35(2):102-107.
作者簡介:黃志楊(1991—),男,漢族,江西九江人,講師,碩士研究生,研究方向:數(shù)據(jù)挖掘、計(jì)算機(jī)視覺。