基于改進(jìn)K-means聚類算法的大學(xué)生就業(yè)內(nèi)驅(qū)因素路徑分析

2022-01-24 08:38:06劉思宏

通化師范學(xué)院學(xué)報 2022年2期

劉思宏，余飛，姜勇

當(dāng)下影響大學(xué)畢業(yè)生就業(yè)的因素諸多，專業(yè)知識、溝通、態(tài)度等成為大學(xué)生求職成功的主要內(nèi)驅(qū)因素.部分大學(xué)生因不具備合適的內(nèi)驅(qū)因素，而無法得到理想的就業(yè)結(jié)果.基于此，對大學(xué)生的個體內(nèi)驅(qū)因素進(jìn)行采集，借助數(shù)據(jù)挖掘技術(shù)中K-means算法對影響學(xué)生求職過程中的內(nèi)驅(qū)因素進(jìn)行聚類分析，建立求職內(nèi)驅(qū)因素模型，得到大學(xué)生求職內(nèi)驅(qū)因素的條件路徑，幫助大學(xué)生認(rèn)識自身在就業(yè)競爭中的優(yōu)勢和不足，從而提升大學(xué)生的就業(yè)發(fā)展空間.

1 聚類方法K-means算法

K-means算法是一種基于劃分的聚類算法［1］，廣泛應(yīng)用于金融、教育、醫(yī)療等諸多領(lǐng)域.其定義為一個類簇內(nèi)的實體是相似的，不同類簇的實體是不相似的［2］.在歐氏空間中取任意點作為初始中心點進(jìn)行開始聚類，度量計算其特征向量值進(jìn)行分組，加以迭代計算，當(dāng)計算到相同或相近的特征值時即可收斂，從而形成聚類結(jié)果.分析其具體步驟主要包括：數(shù)據(jù)預(yù)處理、選擇初始中心、計算距離相似度、聚類數(shù)據(jù)并輸出.

K-means算法過程簡單且容易實現(xiàn)［3-4］，屬于一種無監(jiān)督的學(xué)習(xí)方法.數(shù)據(jù)訓(xùn)練集是一類多重變量分析的數(shù)據(jù)集，在學(xué)生內(nèi)驅(qū)因素數(shù)據(jù)訓(xùn)練樣本集中，m表示因素，n表示數(shù)據(jù)量的數(shù)目.聚類即將數(shù)據(jù)對象劃分為多個子集的過程，每個子集就是一個簇（Cluster）.當(dāng)聚類模型對不同數(shù)據(jù)集進(jìn)行聚類，如果某一聚類數(shù)下，聚類結(jié)果同類相似性最高、不同類相似性最低，則該聚類數(shù)就是最佳聚類數(shù)［5］.

這種算法對初始點的選取存在一定的隨機性.大學(xué)生的求職內(nèi)驅(qū)因素的計算中，假設(shè)初始中心的選擇具有隨機性，將會直接影響初始中心到每個影響內(nèi)驅(qū)因素的向量距離.這將可能得到就業(yè)內(nèi)驅(qū)因素路徑中“專業(yè)”或“能力”計算為“0”的結(jié)果.這對每次計算的內(nèi)驅(qū)因素路徑將會產(chǎn)生不能夠普遍適用的可能.且每次重新計算時，每個類簇的數(shù)據(jù)均值到質(zhì)心的距離向量都不相等，達(dá)不到理想的聚類結(jié)果.對經(jīng)典算法進(jìn)行改進(jìn)，其目的在于分析學(xué)生內(nèi)驅(qū)因素數(shù)據(jù)集的初始聚類中心.在計算出不同數(shù)據(jù)樣本之間的距離向量之后，將其進(jìn)行排序，得到初始聚類中心.使用改進(jìn)的K-means算法可以在初始中心的選擇上提升適用性和準(zhǔn)確性.

2 改進(jìn)的聚類方法K-means算法

K-means聚類算法初始中心的計算是聚類的關(guān)鍵.將K-means初始點進(jìn)行改進(jìn)優(yōu)化，去除孤立點，即內(nèi)驅(qū)因素中極少數(shù)的不相關(guān)因素，促進(jìn)中心點多次迭代進(jìn)行選取將是就業(yè)內(nèi)驅(qū)因素聚類分析中的關(guān)鍵因素.將迭代次數(shù)進(jìn)行反復(fù)更新，計算得到的初始中心具有一定的廣泛性.改進(jìn)迭代初始點的算法思想如下：

根據(jù)初始中心的計算，可以將聚類效果進(jìn)行優(yōu)化，對數(shù)據(jù)特征聯(lián)系緊密的，具有價值的值進(jìn)行密集，加強類簇之間的聯(lián)系，擯棄差異性較大的孤立點.在模型建立中，假設(shè)迭代次數(shù)為20次，在m*n空間中，計算每一個學(xué)生的就業(yè)內(nèi)驅(qū)因素數(shù)據(jù)之和為Si1，將其數(shù)據(jù)之和的最遠(yuǎn)因素點Si2進(jìn)行計算，得到因素Si2小于等于其n/k個內(nèi)驅(qū)因素的數(shù)據(jù)點劃分為一類，且該數(shù)據(jù)類被刪除.如此反復(fù)迭代直到得到聚類初始中心.采用改進(jìn)的K-means聚類算法將比傳統(tǒng)的K-means算法的迭代結(jié)果在實際數(shù)據(jù)分析中具有更好的準(zhǔn)確參考.改進(jìn)的K-means算法與經(jīng)典K-means算法性能對比如表1所示.

表1 改進(jìn)的K-means算法和經(jīng)典K-means聚類算法性能對照表

3 利用聚類算法對大學(xué)生就業(yè)內(nèi)驅(qū)因素路徑分析

3.1 數(shù)據(jù)預(yù)處理

本文以安徽省某高職院校2021屆畢業(yè)生的內(nèi)在因素調(diào)查作為數(shù)據(jù)訓(xùn)練樣本集，通過問卷調(diào)查，歸納出學(xué)生普遍認(rèn)為影響就業(yè)的主要內(nèi)在因素包括：專業(yè)能力、自控力、態(tài)度、動機、溝通、應(yīng)用、心理、求職技巧.整理采樣學(xué)生中的重復(fù)數(shù)據(jù)，完成去除冗余操作，共隨機調(diào)用3 134條數(shù)據(jù)形成學(xué)生數(shù)據(jù)集，部分樣本庫如表2所示.同時對被調(diào)查的學(xué)生抽取其認(rèn)為可能存在影響的就業(yè)內(nèi)驅(qū)因素采集數(shù)據(jù)，部分?jǐn)?shù)據(jù)樣本庫如表3所示，作為訓(xùn)練樣本進(jìn)行聚類分析.

表3 大學(xué)生就業(yè)內(nèi)驅(qū)因素部分?jǐn)?shù)據(jù)樣本

在數(shù)據(jù)采集中，學(xué)生就業(yè)中的內(nèi)驅(qū)因素根據(jù)個體差異存在一定的不確定性，如學(xué)生對求職行為的認(rèn)知不足，求職能力與就業(yè)預(yù)期不成正比等.數(shù)據(jù)訓(xùn)練集中體現(xiàn)出學(xué)生相對自身因素，大部分學(xué)生認(rèn)為專業(yè)能力強是首要的，也有部分學(xué)生認(rèn)為溝通和能力應(yīng)優(yōu)先考慮.在數(shù)據(jù)采集訓(xùn)練集中，對大學(xué)生就業(yè)內(nèi)驅(qū)因素采用相應(yīng)的數(shù)據(jù)標(biāo)志進(jìn)行處理，具體數(shù)據(jù)處理標(biāo)注對應(yīng)表如表4所示.

表4 大學(xué)生就業(yè)內(nèi)驅(qū)因素數(shù)據(jù)處理標(biāo)志對應(yīng)表

在此通過六種評價值描述學(xué)生的內(nèi)驅(qū)因素值，分別是：強、較強、中等、一般、較弱、弱.為了便于聚類算法工具的分析處理，在上述內(nèi)驅(qū)因素的判定條件中，分別用5表示最強，0表示弱，具體評價值對應(yīng)表如表5所示.

表5 大學(xué)生就業(yè)內(nèi)驅(qū)因素評價標(biāo)志值對應(yīng)表

3.2 利用改進(jìn)后的K-means算法建立就業(yè)內(nèi)驅(qū)因素路徑模型

將上述數(shù)據(jù)預(yù)處理后的數(shù)據(jù)訓(xùn)練樣本集作為數(shù)據(jù)源進(jìn)行聚類分析.通過利用對初始中心點改進(jìn)的聚類方法，結(jié)合K-means算法思想，對初始中心點的選取進(jìn)行優(yōu)化，避免隨機性產(chǎn)生的分析數(shù)據(jù)偏差，得到更加優(yōu)化的數(shù)據(jù)分析結(jié)果.通過相同學(xué)生個體內(nèi)驅(qū)因素的判定，得到其不同內(nèi)驅(qū)因素的值，形成相應(yīng)的因素值路徑，耦合相應(yīng)的能力影響熵，關(guān)聯(lián)聚類的不同因素，在就業(yè)指導(dǎo)過程中提升學(xué)生能力的遷移和轉(zhuǎn)化.根據(jù)K-means算法思想，就業(yè)內(nèi)驅(qū)因素的聚類分析模型如圖1所示.

圖1 大學(xué)生就業(yè)內(nèi)驅(qū)因素路徑的聚類流程圖

對上述聚類算法進(jìn)行改進(jìn)后，獲得初始中心點的計算方法能夠更加貼近理想效果，對任一因素點到其他所有因素點的距離進(jìn)行循環(huán)迭代.距離向量最長的值為內(nèi)驅(qū)因素N，對其所得到的向量值進(jìn)行歸類，得到的第M個元素點則是一類.從這樣的初始點進(jìn)行開始聚類，對得到的內(nèi)驅(qū)因素路徑值進(jìn)行判定是否唯一，否則將再次循環(huán)，直到聚類結(jié)果是唯一時停止聚類判定.通過內(nèi)驅(qū)因素路徑分析，得到適應(yīng)社會發(fā)展所需的人才，建立以就業(yè)能力需求為主的知識與能力轉(zhuǎn)化培養(yǎng)目標(biāo).

3.3 實驗結(jié)果與分析

在本次聚類實驗中選擇就業(yè)內(nèi)驅(qū)因素3 134條數(shù)據(jù)，根據(jù)上述改進(jìn)算法計算出聚類初始中心，利用SPSS Statistics工具進(jìn)行聚類分析，采取就業(yè)內(nèi)驅(qū)因素數(shù)據(jù)作為K-means算法的變量.本次聚類最大迭代次數(shù)為20次，變量{Tendency 1、Tendency 2、Tendency 3、Tendency 4、Tendency 5、Tendency6、Tendency 7、Tendency8}，度量標(biāo)準(zhǔn)為“度量（S）”，方法為“迭代與分類”，聚類中心通過讀取的方式，將上述計算改進(jìn)后的初始中心導(dǎo)入計算.在對學(xué)生分析的差異性個體的考慮中，聚類數(shù)量不便于平均優(yōu)化，因此將聚類數(shù)設(shè)置為4，避免讀取標(biāo)志值為“0”，即對諸多因素都“弱”的條件.選擇ANOVA表，對就業(yè)因素路徑中存在的單因素進(jìn)行聚類和誤差計算，直到迭代結(jié)束，得到初始聚類中心和迭代歷史記錄實驗數(shù)據(jù)圖如圖2、圖3所示，ANOVA單因素表如圖4所示.

圖2 初始聚類中心實驗數(shù)據(jù)圖

圖3 迭代歷史記錄實驗數(shù)據(jù)圖

圖4 ANOVA單因素分析表數(shù)據(jù)實驗圖

通過本次實驗選擇共20次迭代計算，對學(xué)生的就業(yè)內(nèi)驅(qū)因素路徑8個因素進(jìn)行聚類分析，得到最終聚類中心和每個聚類中的案例數(shù)如圖5、圖6所示.

圖5 最終聚類中心實驗數(shù)據(jù)圖

圖6 聚類案例數(shù)實驗數(shù)據(jù)圖

實驗結(jié)果表明：學(xué)生認(rèn)為“專業(yè)技術(shù)”“溝通”和“應(yīng)用”分別是三大主要內(nèi)驅(qū)因素，在“自控力”和“心理”兩大重要的內(nèi)驅(qū)因素表現(xiàn)較弱.結(jié)合學(xué)生實際情況，得到就業(yè)內(nèi)驅(qū)因素聚類結(jié)果按照從強到弱的表現(xiàn)依次排列為：{專業(yè)能力、溝通、應(yīng)用、求職技巧、態(tài)度、動機、自控力、心理}.由此可見，在就業(yè)指導(dǎo)過程中，自控力和心理的教育應(yīng)增強.大學(xué)生的個人發(fā)展和內(nèi)驅(qū)力需要向?qū)I(yè)能力和溝通等優(yōu)勢因素有所傾向.

4 結(jié)論

本次實驗對調(diào)查采樣的3 134條數(shù)據(jù)進(jìn)行聚類分析，利用改進(jìn)的K-means聚類算法，計算初始中心的向量值，反復(fù)迭代計算后得到了20次迭代計算的內(nèi)驅(qū)因素路徑值最具有參考性，排除了為0的內(nèi)驅(qū)因素標(biāo)志值，得出的聚類結(jié)果顯示，在大學(xué)生就業(yè)中“專業(yè)能力”是求職中的首要因素，而“溝通”和“自控力”能力是大學(xué)生的內(nèi)驅(qū)發(fā)展需要加強的關(guān)鍵因素.本文研究對就業(yè)指導(dǎo)中大學(xué)生的職業(yè)人格和素質(zhì)的發(fā)展教育具有一定的幫助，對大學(xué)生快速適應(yīng)市場需求并成功就業(yè)具有積極的作用.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡