高秀艷+郝艷榮
摘 要 在互聯(lián)網(wǎng)與云計算高速發(fā)展的今天,大數(shù)據(jù)技術(shù)正以其在數(shù)據(jù)收集與處理上的優(yōu)越性引領(lǐng)著新一輪的信息變革。在高校畢業(yè)生就業(yè)情況調(diào)查中,采用就業(yè)質(zhì)量系數(shù)作為評價標(biāo)準(zhǔn),使用大數(shù)據(jù)的數(shù)據(jù)挖掘等技術(shù),從海量調(diào)查樣本中獲取有效數(shù)據(jù),建立模型并對數(shù)據(jù)進行分析處理,從而得到合理的就業(yè)效果反饋。
關(guān)鍵詞 大數(shù)據(jù);高校畢業(yè)生;就業(yè)質(zhì)量系數(shù)
中圖分類號 TP3 文獻標(biāo)識碼 A 文章編號 1674-6708(2017)184-0065-02
1 大數(shù)據(jù)技術(shù)
1.1 大數(shù)據(jù)的概念與特點
“大數(shù)據(jù)”(big data)的概念始于20世紀(jì)80年代,如今已被人熟知并成為一項熱門技術(shù)而深得學(xué)術(shù)界、IT行業(yè)以及政府的重視。目前對于“大數(shù)據(jù)”,普遍認可的是維基百科給出的如下概念:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊[1-2]。
通常,大數(shù)據(jù)具有“4V”特征,即:規(guī)模大(volume)、種類多(variety)、流動速度快(velocity)、價值密度低(value)。基于大數(shù)據(jù)的以上特點,其核心的操作在于如何從海量數(shù)據(jù)中提取有價值的部分,通過特定的數(shù)據(jù)處理算法,建立符合實際要求的數(shù)據(jù)模型,進而通過模型對數(shù)據(jù)樣本進行分析處理得到有實際使用價值的結(jié)論。
1.2 大數(shù)據(jù)的相關(guān)處理技術(shù)
在信息爆炸的自媒體時代,數(shù)據(jù)來源廣,數(shù)量多,這就導(dǎo)致了大數(shù)據(jù)的絕對數(shù)據(jù)與有用信息量不成比例增長,因此在實際使用互聯(lián)網(wǎng)大數(shù)據(jù)時,對數(shù)據(jù)的處理才是關(guān)鍵。當(dāng)今大數(shù)據(jù)的主要處理技術(shù)主要有以下幾種[ 3 ]。
1.2.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)旨在對數(shù)據(jù)進行有效處理,目的是從海量數(shù)據(jù)中通過去噪、轉(zhuǎn)換、凈化、挖掘提取等過程篩選出有價值的部分。在處理過程中經(jīng)常借助多處理階段模型、機器學(xué)習(xí)、支持向量機等算法。
1.2.2 遺傳算法
遺傳算法是借鑒了達爾文生物進化論的一種獲得最優(yōu)解的算法。其基本思想是從給定的候選解中,使用根據(jù)適應(yīng)條件計算出的適應(yīng)度對其進行遞歸淘汰,直至得到最優(yōu)解。遺傳算法是對大量數(shù)據(jù)進行篩選提取有用信息的重要手段。
1.2.3 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是源自于生物神經(jīng)結(jié)構(gòu)及運作方式的數(shù)據(jù)處理模型。在神經(jīng)網(wǎng)絡(luò)的工具中,較為常用的是NeuroSolutions,其良好的網(wǎng)絡(luò)設(shè)計界面,先進的學(xué)習(xí)程序以及優(yōu)化的遺傳算法,在快捷、有效地實現(xiàn)信息獲取方面發(fā)揮了重要作用。
2 大數(shù)據(jù)技術(shù)在就業(yè)質(zhì)量評價體系中的應(yīng)用
2.1 就業(yè)質(zhì)量評價標(biāo)準(zhǔn)建立
目前,各教育相關(guān)機構(gòu)及高校在就業(yè)質(zhì)量評價方面都已做出了大量研究,并建立了自己的就業(yè)質(zhì)量評價體系,這些評價體系所依據(jù)的數(shù)據(jù)往往是調(diào)查所得到的絕對數(shù)據(jù),因此所得到的評價體系其應(yīng)用的可拓展性受到限制。就業(yè)質(zhì)量系數(shù)的計算解決了不同區(qū)域、不同等級、不同專業(yè)、不同年份調(diào)查結(jié)果的差異帶來的評價體系不準(zhǔn)確的問題。通過分析畢業(yè)生就業(yè)崗位與專業(yè)的關(guān)聯(lián)程度、就業(yè)區(qū)域、就業(yè)薪資、以及薪資與當(dāng)?shù)仄骄べY的關(guān)系,并根據(jù)以上數(shù)據(jù)計算出的就業(yè)質(zhì)量系數(shù)可以更全面的反應(yīng)畢業(yè)生就業(yè)情況,從而使就業(yè)評價更準(zhǔn)確。畢業(yè)生的就業(yè)質(zhì)量系數(shù)的計算基于以下元素。
2.1.1 崗位專業(yè)相關(guān)度(Z)
對于畢業(yè)生調(diào)查反饋中的專業(yè)相關(guān)度,根據(jù)非常相關(guān)、一般相關(guān)、不相關(guān)確定Z的值。
2.1.2 就業(yè)區(qū)域系數(shù)(D)
根據(jù)畢業(yè)生工作所在地為一線城市、二線城市、三線城市、四線城市或其他,確定其就業(yè)區(qū)域系數(shù)D的取值。
2.1.3 薪資系數(shù)(S)
由于畢業(yè)生所在地域經(jīng)濟條件差距較大,且不同年份的經(jīng)濟水平也不一致,因此單純的比較其畢業(yè)薪資并不具備良好的說服力。參考畢業(yè)生所在城市的區(qū)域系數(shù)D,用畢業(yè)生薪資St與該等級區(qū)域當(dāng)年的平均工資Sa的比值作為薪資系數(shù)S,即S=St/Sa。
2.1.4 就業(yè)質(zhì)量系數(shù)(J)
根據(jù)評價目的和學(xué)校及專業(yè)實際情況,確定以上各元素在就業(yè)質(zhì)量系數(shù)中所占的比重權(quán)值,計算最終的就業(yè)質(zhì)量系數(shù)如下:
J=Z*Wz+S*Ws
2.2 使用大數(shù)據(jù)技術(shù)對就業(yè)反饋數(shù)據(jù)進行有效處理
在得到的畢業(yè)生就業(yè)反饋信息中,首要的是篩選出有效數(shù)據(jù),盡可能減少冗余數(shù)據(jù)的干擾,從而使分析結(jié)果更準(zhǔn)確。采用數(shù)據(jù)挖掘中的多處理階段模型可以實現(xiàn)信息的初步處理[ 4 ]。處理過程如圖1所示。
在對數(shù)據(jù)的處理過程中,正確的模型選取對結(jié)果有著重要的作用,因此,在對模型的訓(xùn)練過程中應(yīng)確保訓(xùn)練數(shù)據(jù)的科學(xué)性及有效性。同時,對于不同的系數(shù),可以選取不同的訓(xùn)練樣本及不同的訓(xùn)練模型。
3 大數(shù)據(jù)處理過程中的挑戰(zhàn)與困難
大數(shù)據(jù)及相關(guān)技術(shù)為當(dāng)前的各項工作帶來了方便,也提高了信息的傳播與利用效率,但在使用過程中仍然面臨著各種挑戰(zhàn)與困難,具體表現(xiàn)在以下方面。
1)對硬件設(shè)備的挑戰(zhàn):由于大數(shù)據(jù)的信息量大,其對硬件設(shè)備尤其是存儲設(shè)備提出了更高的要求,其存儲容量及讀取速度都對大數(shù)據(jù)的應(yīng)用效果有著至關(guān)重要的影響。
2)對軟件的挑戰(zhàn):鑒于龐大的信息量,在信息處理過程中,數(shù)據(jù)算法的選取、模型的構(gòu)建以及數(shù)據(jù)處理軟件的速度都是影響計算結(jié)果的關(guān)鍵因素。
3)數(shù)據(jù)安全的挑戰(zhàn):由于大數(shù)據(jù)廣泛存在于云存儲設(shè)備上,信息傳播快,另一方面,數(shù)據(jù)價值密度低導(dǎo)致大量數(shù)據(jù)被隨意丟棄,這都對數(shù)據(jù)安全造成了潛在的危險。因此,如何在充分利用大數(shù)據(jù)的同時保證數(shù)據(jù)的安全也是對大數(shù)據(jù)應(yīng)用的挑戰(zhàn)。
4 結(jié)論
在高校教育工作中,有效的就業(yè)調(diào)查反饋及對反饋數(shù)據(jù)的合理、準(zhǔn)確分析,并使用大數(shù)據(jù)及相關(guān)算法,采取適合評價目標(biāo)的算法模型,基于此獲得有參考價值的就業(yè)質(zhì)量評價系數(shù),不僅能對高校的就業(yè)工作起到有效的指導(dǎo)作用,還可對高校的專業(yè)設(shè)置、課程開設(shè)、教學(xué)質(zhì)量及就業(yè)服務(wù)等方面做出合理正確的反饋,從而促使高校針對問題采取策略,不斷提高辦學(xué)水平。
參考文獻
[1]甘曉,李國杰.大數(shù)據(jù)成為信息科技新關(guān)注點[N].中國科學(xué)報,2012-06-27.
[2]李國杰.大數(shù)據(jù)研究的科學(xué)價值[J].中國計算機學(xué)會通信,2012,8(9):8-15.
[3]尚光龍,張澤鋒.大數(shù)據(jù)技術(shù)在信息管理中的應(yīng)用[J].河北北方學(xué)院學(xué)報,2016,5(5):30-34.
[4]張敏.云計算環(huán)境下的并行數(shù)據(jù)挖掘策略研究[D].南京:南京郵電大學(xué),2011.