劉思宏,余 飛,姜 勇
當(dāng)下影響大學(xué)畢業(yè)生就業(yè)的因素諸多,專業(yè)知識、溝通、態(tài)度等成為大學(xué)生求職成功的主要內(nèi)驅(qū)因素.部分大學(xué)生因不具備合適的內(nèi)驅(qū)因素,而無法得到理想的就業(yè)結(jié)果.基于此,對大學(xué)生的個體內(nèi)驅(qū)因素進(jìn)行采集,借助數(shù)據(jù)挖掘技術(shù)中K-means算法對影響學(xué)生求職過程中的內(nèi)驅(qū)因素進(jìn)行聚類分析,建立求職內(nèi)驅(qū)因素模型,得到大學(xué)生求職內(nèi)驅(qū)因素的條件路徑,幫助大學(xué)生認(rèn)識自身在就業(yè)競爭中的優(yōu)勢和不足,從而提升大學(xué)生的就業(yè)發(fā)展空間.
K-means算法是一種基于劃分的聚類算法[1],廣泛應(yīng)用于金融、教育、醫(yī)療等諸多領(lǐng)域.其定義為一個類簇內(nèi)的實體是相似的,不同類簇的實體是不相似的[2].在歐氏空間中取任意點作為初始中心點進(jìn)行開始聚類,度量計算其特征向量值進(jìn)行分組,加以迭代計算,當(dāng)計算到相同或相近的特征值時即可收斂,從而形成聚類結(jié)果.分析其具體步驟主要包括:數(shù)據(jù)預(yù)處理、選擇初始中心、計算距離相似度、聚類數(shù)據(jù)并輸出.
K-means算法過程簡單且容易實現(xiàn)[3-4],屬于一種無監(jiān)督的學(xué)習(xí)方法.數(shù)據(jù)訓(xùn)練集是一類多重變量分析的數(shù)據(jù)集,在學(xué)生內(nèi)驅(qū)因素數(shù)據(jù)訓(xùn)練樣本集中,m表示因素,n表示數(shù)據(jù)量的數(shù)目.聚類即將數(shù)據(jù)對象劃分為多個子集的過程,每個子集就是一個簇(Cluster).當(dāng)聚類模型對不同數(shù)據(jù)集進(jìn)行聚類,如果某一聚類數(shù)下,聚類結(jié)果同類相似性最高、不同類相似性最低,則該聚類數(shù)就是最佳聚類數(shù)[5].
這種算法對初始點的選取存在一定的隨機性.大學(xué)生的求職內(nèi)驅(qū)因素的計算中,假設(shè)初始中心的選擇具有隨機性,將會直接影響初始中心到每個影響內(nèi)驅(qū)因素的向量距離.這將可能得到就業(yè)內(nèi)驅(qū)因素路徑中“專業(yè)”或“能力”計算為“0”的結(jié)果.這對每次計算的內(nèi)驅(qū)因素路徑將會產(chǎn)生不能夠普遍適用的可能.且每次重新計算時,每個類簇的數(shù)據(jù)均值到質(zhì)心的距離向量都不相等,達(dá)不到理想的聚類結(jié)果.對經(jīng)典算法進(jìn)行改進(jìn),其目的在于分析學(xué)生內(nèi)驅(qū)因素數(shù)據(jù)集的初始聚類中心.在計算出不同數(shù)據(jù)樣本之間的距離向量之后,將其進(jìn)行排序,得到初始聚類中心.使用改進(jìn)的K-means算法可以在初始中心的選擇上提升適用性和準(zhǔn)確性.
K-means聚類算法初始中心的計算是聚類的關(guān)鍵.將K-means初始點進(jìn)行改進(jìn)優(yōu)化,去除孤立點,即內(nèi)驅(qū)因素中極少數(shù)的不相關(guān)因素,促進(jìn)中心點多次迭代進(jìn)行選取將是就業(yè)內(nèi)驅(qū)因素聚類分析中的關(guān)鍵因素.將迭代次數(shù)進(jìn)行反復(fù)更新,計算得到的初始中心具有一定的廣泛性.改進(jìn)迭代初始點的算法思想如下:
根據(jù)初始中心的計算,可以將聚類效果進(jìn)行優(yōu)化,對數(shù)據(jù)特征聯(lián)系緊密的,具有價值的值進(jìn)行密集,加強類簇之間的聯(lián)系,擯棄差異性較大的孤立點.在模型建立中,假設(shè)迭代次數(shù)為20次,在m*n空間中,計算每一個學(xué)生的就業(yè)內(nèi)驅(qū)因素數(shù)據(jù)之和為Si1,將其數(shù)據(jù)之和的最遠(yuǎn)因素點Si2進(jìn)行計算,得到因素Si2小于等于其n/k個內(nèi)驅(qū)因素的數(shù)據(jù)點劃分為一類,且該數(shù)據(jù)類被刪除.如此反復(fù)迭代直到得到聚類初始中心.采用改進(jìn)的K-means聚類算法將比傳統(tǒng)的K-means算法的迭代結(jié)果在實際數(shù)據(jù)分析中具有更好的準(zhǔn)確參考.改進(jìn)的K-means算法與經(jīng)典K-means算法性能對比如表1所示.
表1 改進(jìn)的K-means算法和經(jīng)典K-means聚類算法性能對照表
本文以安徽省某高職院校2021屆畢業(yè)生的內(nèi)在因素調(diào)查作為數(shù)據(jù)訓(xùn)練樣本集,通過問卷調(diào)查,歸納出學(xué)生普遍認(rèn)為影響就業(yè)的主要內(nèi)在因素包括:專業(yè)能力、自控力、態(tài)度、動機、溝通、應(yīng)用、心理、求職技巧.整理采樣學(xué)生中的重復(fù)數(shù)據(jù),完成去除冗余操作,共隨機調(diào)用3 134條數(shù)據(jù)形成學(xué)生數(shù)據(jù)集,部分樣本庫如表2所示.同時對被調(diào)查的學(xué)生抽取其認(rèn)為可能存在影響的就業(yè)內(nèi)驅(qū)因素采集數(shù)據(jù),部分?jǐn)?shù)據(jù)樣本庫如表3所示,作為訓(xùn)練樣本進(jìn)行聚類分析.
表3 大學(xué)生就業(yè)內(nèi)驅(qū)因素部分?jǐn)?shù)據(jù)樣本
在數(shù)據(jù)采集中,學(xué)生就業(yè)中的內(nèi)驅(qū)因素根據(jù)個體差異存在一定的不確定性,如學(xué)生對求職行為的認(rèn)知不足,求職能力與就業(yè)預(yù)期不成正比等.數(shù)據(jù)訓(xùn)練集中體現(xiàn)出學(xué)生相對自身因素,大部分學(xué)生認(rèn)為專業(yè)能力強是首要的,也有部分學(xué)生認(rèn)為溝通和能力應(yīng)優(yōu)先考慮.在數(shù)據(jù)采集訓(xùn)練集中,對大學(xué)生就業(yè)內(nèi)驅(qū)因素采用相應(yīng)的數(shù)據(jù)標(biāo)志進(jìn)行處理,具體數(shù)據(jù)處理標(biāo)注對應(yīng)表如表4所示.
表4 大學(xué)生就業(yè)內(nèi)驅(qū)因素數(shù)據(jù)處理標(biāo)志對應(yīng)表
在此通過六種評價值描述學(xué)生的內(nèi)驅(qū)因素值,分別是:強、較強、中等、一般、較弱、弱.為了便于聚類算法工具的分析處理,在上述內(nèi)驅(qū)因素的判定條件中,分別用5表示最強,0表示弱,具體評價值對應(yīng)表如表5所示.
表5 大學(xué)生就業(yè)內(nèi)驅(qū)因素評價標(biāo)志值對應(yīng)表
將上述數(shù)據(jù)預(yù)處理后的數(shù)據(jù)訓(xùn)練樣本集作為數(shù)據(jù)源進(jìn)行聚類分析.通過利用對初始中心點改進(jìn)的聚類方法,結(jié)合K-means算法思想,對初始中心點的選取進(jìn)行優(yōu)化,避免隨機性產(chǎn)生的分析數(shù)據(jù)偏差,得到更加優(yōu)化的數(shù)據(jù)分析結(jié)果.通過相同學(xué)生個體內(nèi)驅(qū)因素的判定,得到其不同內(nèi)驅(qū)因素的值,形成相應(yīng)的因素值路徑,耦合相應(yīng)的能力影響熵,關(guān)聯(lián)聚類的不同因素,在就業(yè)指導(dǎo)過程中提升學(xué)生能力的遷移和轉(zhuǎn)化.根據(jù)K-means算法思想,就業(yè)內(nèi)驅(qū)因素的聚類分析模型如圖1所示.
圖1 大學(xué)生就業(yè)內(nèi)驅(qū)因素路徑的聚類流程圖
對上述聚類算法進(jìn)行改進(jìn)后,獲得初始中心點的計算方法能夠更加貼近理想效果,對任一因素點到其他所有因素點的距離進(jìn)行循環(huán)迭代.距離向量最長的值為內(nèi)驅(qū)因素N,對其所得到的向量值進(jìn)行歸類,得到的第M個元素點則是一類.從這樣的初始點進(jìn)行開始聚類,對得到的內(nèi)驅(qū)因素路徑值進(jìn)行判定是否唯一,否則將再次循環(huán),直到聚類結(jié)果是唯一時停止聚類判定.通過內(nèi)驅(qū)因素路徑分析,得到適應(yīng)社會發(fā)展所需的人才,建立以就業(yè)能力需求為主的知識與能力轉(zhuǎn)化培養(yǎng)目標(biāo).
在本次聚類實驗中選擇就業(yè)內(nèi)驅(qū)因素3 134條數(shù)據(jù),根據(jù)上述改進(jìn)算法計算出聚類初始中心,利用SPSS Statistics工具進(jìn)行聚類分析,采取就業(yè)內(nèi)驅(qū)因素數(shù)據(jù)作為K-means算法的變量.本次聚類最大迭代次數(shù)為20次,變量{Tendency 1、Tendency 2、Tendency 3、Tendency 4、Tendency 5、Tendency6、Tendency 7、Tendency8},度量標(biāo)準(zhǔn)為“度量(S)”,方法為“迭代與分類”,聚類中心通過讀取的方式,將上述計算改進(jìn)后的初始中心導(dǎo)入計算.在對學(xué)生分析的差異性個體的考慮中,聚類數(shù)量不便于平均優(yōu)化,因此將聚類數(shù)設(shè)置為4,避免讀取標(biāo)志值為“0”,即對諸多因素都“弱”的條件.選擇ANOVA表,對就業(yè)因素路徑中存在的單因素進(jìn)行聚類和誤差計算,直到迭代結(jié)束,得到初始聚類中心和迭代歷史記錄實驗數(shù)據(jù)圖如圖2、圖3所示,ANOVA單因素表如圖4所示.
圖2 初始聚類中心實驗數(shù)據(jù)圖
圖3 迭代歷史記錄實驗數(shù)據(jù)圖
圖4 ANOVA單因素分析表數(shù)據(jù)實驗圖
通過本次實驗選擇共20次迭代計算,對學(xué)生的就業(yè)內(nèi)驅(qū)因素路徑8個因素進(jìn)行聚類分析,得到最終聚類中心和每個聚類中的案例數(shù)如圖5、圖6所示.
圖5 最終聚類中心實驗數(shù)據(jù)圖
圖6 聚類案例數(shù)實驗數(shù)據(jù)圖
實驗結(jié)果表明:學(xué)生認(rèn)為“專業(yè)技術(shù)”“溝通”和“應(yīng)用”分別是三大主要內(nèi)驅(qū)因素,在“自控力”和“心理”兩大重要的內(nèi)驅(qū)因素表現(xiàn)較弱.結(jié)合學(xué)生實際情況,得到就業(yè)內(nèi)驅(qū)因素聚類結(jié)果按照從強到弱的表現(xiàn)依次排列為:{專業(yè)能力、溝通、應(yīng)用、求職技巧、態(tài)度、動機、自控力、心理}.由此可見,在就業(yè)指導(dǎo)過程中,自控力和心理的教育應(yīng)增強.大學(xué)生的個人發(fā)展和內(nèi)驅(qū)力需要向?qū)I(yè)能力和溝通等優(yōu)勢因素有所傾向.
本次實驗對調(diào)查采樣的3 134條數(shù)據(jù)進(jìn)行聚類分析,利用改進(jìn)的K-means聚類算法,計算初始中心的向量值,反復(fù)迭代計算后得到了20次迭代計算的內(nèi)驅(qū)因素路徑值最具有參考性,排除了為0的內(nèi)驅(qū)因素標(biāo)志值,得出的聚類結(jié)果顯示,在大學(xué)生就業(yè)中“專業(yè)能力”是求職中的首要因素,而“溝通”和“自控力”能力是大學(xué)生的內(nèi)驅(qū)發(fā)展需要加強的關(guān)鍵因素.本文研究對就業(yè)指導(dǎo)中大學(xué)生的職業(yè)人格和素質(zhì)的發(fā)展教育具有一定的幫助,對大學(xué)生快速適應(yīng)市場需求并成功就業(yè)具有積極的作用.