王程
(商洛學(xué)院 經(jīng)濟(jì)管理學(xué)院, 商洛 726000)
大學(xué)生就業(yè)問題越來越受到社會(huì)的關(guān)注,大學(xué)教育也已經(jīng)常說的精英教育逐步變成了大眾教育[1],隨著就業(yè)形勢(shì)的越來越嚴(yán)峻,大學(xué)生就業(yè)情況成為一所高校教育優(yōu)良程度的評(píng)判標(biāo)準(zhǔn)[2],就業(yè)率較高的高校成為大家的首選。對(duì)于高校來說,就業(yè)問題需要進(jìn)行指導(dǎo)和管理,對(duì)于這種管理的流程需要分析不同的角度,從學(xué)生角度來分析,大學(xué)生就業(yè)首先要有一個(gè)合理的評(píng)估方法,對(duì)于學(xué)校的角度,學(xué)校對(duì)于畢業(yè)生的就業(yè)要增加管理的力度。針對(duì)高校的就業(yè)情況,除了必要的統(tǒng)計(jì)之外,更加需要建立以模型為基礎(chǔ)的評(píng)估制度,該模型需要考慮學(xué)生的考試成績(jī)等等,并且通過學(xué)生的綜合能力,比如科研能力、社交能力等等形成一種特征參數(shù),該參數(shù)是通過篩選甄別海量的數(shù)據(jù)所歸納出來,基于大數(shù)據(jù)的分析總結(jié)出評(píng)估模型,并且運(yùn)用該模型支撐未來畢業(yè)生的就業(yè)選擇問題,提供必要的理論依據(jù)。
在目前的業(yè)界尚未對(duì)大數(shù)據(jù)由清晰明確的定義,它的第一次出現(xiàn)是在麥肯錫公司的報(bào)告中出現(xiàn)的,在維基百科上的較為模糊的定義是很難運(yùn)用軟件的手段獲取大量的內(nèi)容信息,對(duì)其處理后整理得出的數(shù)據(jù)集合。其他計(jì)算機(jī)學(xué)科的學(xué)者給出的定義是數(shù)據(jù)的尺度極為巨大[3],常規(guī)的數(shù)據(jù)處理軟件無法對(duì)數(shù)據(jù)識(shí)別、存儲(chǔ)和應(yīng)用的海量數(shù)據(jù)信息[4]。雖然無法確切地給出精確的定義結(jié)論,然而在大數(shù)據(jù)領(lǐng)域的學(xué)者和教授們都是認(rèn)可大數(shù)據(jù)所具有的幾個(gè)明顯特征,第一種是規(guī)模性[5],數(shù)據(jù)的規(guī)模已經(jīng)無法用當(dāng)前的計(jì)量模式去計(jì)算,獲取數(shù)據(jù)的行為也需要發(fā)生變化。第二種是高速性,海量數(shù)據(jù)往往是以人類無法想象的速度來產(chǎn)生的,在很短的時(shí)間內(nèi)就可以積累出海量的數(shù)據(jù)。第三種是多樣性[6],數(shù)據(jù)的多樣性,既是指數(shù)據(jù)的表現(xiàn)形式是多樣的,文字、音頻、視頻、圖片等等,另一方面又具有內(nèi)容的多樣性,許多不同觀點(diǎn)的內(nèi)容?;ハ嘟豢椩谝黄穑謴?fù)雜,難以有效管理。
大數(shù)據(jù)的管理是一項(xiàng)極為艱巨又困難的項(xiàng)目,其主要的措施包含三個(gè)方法,分別是對(duì)數(shù)據(jù)的集成、數(shù)據(jù)分析和數(shù)據(jù)解釋[7]。首先對(duì)于收集到的數(shù)據(jù)先進(jìn)行必要的集成和存儲(chǔ),然后再對(duì)數(shù)據(jù)進(jìn)行分析,對(duì)于大學(xué)生就業(yè)問題,應(yīng)考慮就業(yè)問題的繁瑣性,對(duì)就業(yè)情況的分析要全面具體,更要注重某一因素的變化帶來的就業(yè)情況的變化。針對(duì)分析后的數(shù)據(jù)歸納時(shí),要有合理的解釋過程[8],對(duì)數(shù)據(jù)的解釋和結(jié)果歸納在將來都要作為理論基礎(chǔ)來指導(dǎo)就業(yè)實(shí)踐問題,其分析的數(shù)據(jù)信息收集圖如圖1所示。
圖1 基于大數(shù)據(jù)管理的信息收集監(jiān)測(cè)系統(tǒng)細(xì)節(jié)圖
大數(shù)據(jù)的分析與管理,尤其涉及大學(xué)生自身能力與綜合實(shí)力考量的數(shù)據(jù)分析,有助于提升學(xué)生學(xué)習(xí)的興趣,增加學(xué)生的創(chuàng)業(yè)意識(shí)和學(xué)習(xí)能力,針對(duì)該模型時(shí)的信息統(tǒng)計(jì),進(jìn)而得出就業(yè)率評(píng)估模型,如圖2所示。
圖2 基于大數(shù)據(jù)管理的信息統(tǒng)計(jì)分析圖
在創(chuàng)建大學(xué)生就業(yè)率評(píng)估模型的過程中,通過獲取畢業(yè)生的歷史畢業(yè)結(jié)果與就業(yè)數(shù)據(jù),將這些數(shù)據(jù)集成在一起[9],然后進(jìn)行分類總結(jié),提取出大學(xué)生們的就業(yè)數(shù)據(jù)中的特征參數(shù),轉(zhuǎn)換為建立模型所必要的特征向量,具體的原理分如下面的描述,首先假設(shè)R表示樣本數(shù)據(jù)集,O代表就業(yè)估計(jì)的期望信息量,K代表歷史學(xué)生就業(yè)數(shù)據(jù),Y代表學(xué)生就業(yè)的數(shù)據(jù)樣本,則利用式(1)畢業(yè)生的就業(yè)估計(jì)的樣本數(shù)據(jù)進(jìn)行分類所示。p代表學(xué)生就業(yè)的分類函數(shù),T表示學(xué)生就業(yè)數(shù)據(jù)的不同方式的類型,如式(1)。
(1)
對(duì)于大學(xué)生來說,F(xiàn)表示的是高校畢業(yè)的學(xué)生就業(yè)狀態(tài)向量,w代表高校畢業(yè)生中待預(yù)測(cè)的畢業(yè)生利用式式子(2)組建學(xué)生就業(yè)率估計(jì)模型如下式(2)。
(2)
傳統(tǒng)的就業(yè)分析模型不適于互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)量越來越復(fù)雜的情形,所以傳統(tǒng)的方法對(duì)數(shù)據(jù)的分析既不高效,又容易出現(xiàn)偏差,分析和預(yù)測(cè)的結(jié)果往往不會(huì)讓人滿意,所以基于大數(shù)據(jù)的分析更加精確一些。
在創(chuàng)建就業(yè)評(píng)估模型時(shí),考慮每一個(gè)學(xué)生的特性,不同特性信息首先分類,根據(jù)決策樹,保證分類到的數(shù)據(jù)信息可以獲得最大數(shù)據(jù)增益率,組建的方程如下所示,由S代表給出的學(xué)生就業(yè)數(shù)據(jù)集,n代表其就業(yè)學(xué)生的數(shù)據(jù)樣本數(shù)量,{C1,C2…,Ck}代表數(shù)據(jù)類別的集合,針對(duì)Si代表學(xué)生的不同就業(yè)信息類別Ci中的樣本數(shù)量,并且需要滿足于如下的式(3)的條件,如式(3)。
(3)
并且在綜合考慮后,則可以利用式(4)的表述對(duì)于給定的待估計(jì)學(xué)生信息數(shù)據(jù)進(jìn)行分類的期望信息。
(4)
其中,對(duì)于數(shù)據(jù)樣本A的劃分熵由Z來表示,Sij則代表?xiàng)l件概率,從而得到當(dāng)前的樣本數(shù)據(jù)集合A的信息增益如式(5)。
(5)
為了計(jì)算出高校畢業(yè)生的就業(yè)率的最大信息增益率,需要利用畢業(yè)生不同屬性的學(xué)生信息熵[10],該熵值用split(A)來表示,用以針對(duì)數(shù)據(jù)A的分析,特此加以區(qū)分??傊治龀龅膶W(xué)生畢業(yè)后的就業(yè)信息增益率如式(6)。
(6)
綜上所述,可以根據(jù)式子分析出對(duì)于評(píng)估模型某些定性的分析方式,在創(chuàng)建了基于決策樹的高校畢業(yè)生的就業(yè)分類方程后,主要是為了求得畢業(yè)生的特征向量,使其滿足于最大的信息增益率,獲得最為優(yōu)化的結(jié)果。
通過上面的高校畢業(yè)生就業(yè)率的增益率數(shù)據(jù)分析的理論基礎(chǔ),對(duì)于這些數(shù)據(jù)采用灰色系統(tǒng)理論進(jìn)行分析、總結(jié)歸納,來估計(jì)未來畢業(yè)生的就業(yè)情況?;疑到y(tǒng)理論是控制論中的重要理論,對(duì)小樣本的不確定性問題有著良好的指示,對(duì)于評(píng)估學(xué)生就業(yè)率的問題魯棒性很強(qiáng),同時(shí)應(yīng)用該理論到模型建立問題中去,依據(jù)上述的最大信息增益率基礎(chǔ),設(shè)定模型建立的步驟,式(7)作為宏觀預(yù)測(cè)任意年度的某一學(xué)科門類畢業(yè)生就業(yè)數(shù)量的模型,則該模型的殘差為式(7)。
(7)
其中,分子上的兩個(gè)表達(dá)式相減,被減數(shù)和減數(shù)分別是灰色微分方程的時(shí)間相應(yīng)序列。下一步驟的展開則用來得到該數(shù)據(jù)樣本的白化方程,σ代表對(duì)于評(píng)估的模型的關(guān)聯(lián)度檢測(cè),X是指畢業(yè)生數(shù)據(jù)信息的緊鄰均值序列,Y代表當(dāng)前全體畢業(yè)生的就業(yè)率狀態(tài),B則是指明歷史上的就業(yè)率信息,運(yùn)用灰色理論的式(8)的白化方程為式(8)。
(8)
由U來代表對(duì)學(xué)生就業(yè)估計(jì)所需的關(guān)系數(shù)據(jù),ε代表畢業(yè)生的就業(yè)信息特征最大化的類內(nèi)的相似性關(guān)系,M是指模型的小誤差概率,則利用式子可以創(chuàng)建待評(píng)估的整體的學(xué)生就業(yè)估計(jì)模型W,具體如下式(9)所示,其中γ是數(shù)據(jù)信息的維度。
(9)
為了更好地實(shí)現(xiàn)基于大數(shù)據(jù)分析模型進(jìn)行大學(xué)生就業(yè)成功率評(píng)估的可行性,將實(shí)驗(yàn)重點(diǎn)關(guān)注評(píng)估的一致性作為評(píng)價(jià)指標(biāo),同時(shí)針對(duì)大數(shù)據(jù)分析模型進(jìn)行大學(xué)生創(chuàng)業(yè)成功率評(píng)估的精度也作為考量的對(duì)象。在實(shí)現(xiàn)中為了彰顯實(shí)驗(yàn)的全面性和公正性,將文獻(xiàn)中所提基于統(tǒng)計(jì)模型作為對(duì)比模型進(jìn)行共同的分析和對(duì)比,從評(píng)估的全面性和評(píng)估的誤差率這兩方面來對(duì)大學(xué)生就業(yè)成功率評(píng)估的質(zhì)量進(jìn)行考量。利用Matlab2017的軟件,在Windows平臺(tái)下進(jìn)行安裝,基于Intel Core i7的處理器,在Matlab中輸入上述分析的模型語(yǔ)言轉(zhuǎn)換成Matlab的函數(shù)和輸入的數(shù)據(jù)信息。
利用matlab搭建大學(xué)生就業(yè)率評(píng)估模型,如表1所示。
表1 模型就業(yè)率評(píng)估的誤差
對(duì)其進(jìn)行仿真,評(píng)測(cè)該模型的有效性,實(shí)驗(yàn)數(shù)據(jù)選取某省高校的畢業(yè)生數(shù)量,通過與統(tǒng)計(jì)數(shù)字的比較就可以分析出,Q1和Q2的數(shù)量上基本一致,表現(xiàn)出其誤差很小,數(shù)據(jù)擬合出的曲線非常一致,Q1是模型預(yù)估出的就業(yè)畢業(yè)生的數(shù)量,Q2是真實(shí)的畢業(yè)生數(shù)量。
同時(shí)為了體現(xiàn)該評(píng)估模型的優(yōu)越性,需要與其他評(píng)估模型作出比較,針對(duì)聚類分析相關(guān)的預(yù)估模型,作出合適的比較過程。針對(duì)誤差比較,對(duì)比兩種模型的誤差分析,可以確切地看出本文采用灰色系統(tǒng)理論建立的模型的誤差小于聚類分析的構(gòu)建模型,如下圖3所示。
圖3 采用不同模型的評(píng)估誤差對(duì)比圖
接下來再比較分析兩個(gè)模型的穩(wěn)定性,可以清晰地分辨出其穩(wěn)定性的差異,該差異體現(xiàn)出本文的模型評(píng)估的穩(wěn)定性較好,幾乎都處于85%以上,其高可靠的穩(wěn)定評(píng)估的畢業(yè)生就業(yè)率較為平穩(wěn),不會(huì)出現(xiàn)較大的變化差錯(cuò),其具體的描述為圖4所示。
圖4 采用不同模型的穩(wěn)定性對(duì)比圖
以上的仿真結(jié)果可以表明,該評(píng)估模型對(duì)于就業(yè)率的分析較為高效,為后續(xù)分析就業(yè)的措施和政策的實(shí)施,提供了一定的理論基礎(chǔ),具有良好的指導(dǎo)性指示。
本文為滿足對(duì)于大學(xué)畢業(yè)生就業(yè)率的探索,基于大數(shù)據(jù)的分析,找出適當(dāng)而合理的分析模型,該模型分析出畢業(yè)生的就業(yè)情況,作為一定的就業(yè)率分析依據(jù),首先,介紹大數(shù)據(jù)的定義與特征,以及本文基于大數(shù)據(jù)的特征構(gòu)建模型,最后將模型與傳統(tǒng)的預(yù)測(cè)模型比較,在穩(wěn)定性的方面顯示出較為優(yōu)越的特性,同時(shí)其誤差也表現(xiàn)的較為微小。在后續(xù)的研究中,將繼續(xù)提高試驗(yàn)的精度,引入神經(jīng)網(wǎng)絡(luò),對(duì)模型的確立更加精準(zhǔn)。