楊亭榆, 傅成華
(四川理工學(xué)院自動(dòng)化與信息工程學(xué)院, 四川自貢643000)
當(dāng)今社會(huì)日新月異,隨著科學(xué)的飛快發(fā)展,我國急需一批綜合素質(zhì)較強(qiáng)、具備獨(dú)擋一面能力的應(yīng)用型人才。目前很多用人單位去各個(gè)高校招聘時(shí)只能通過查看學(xué)生的考試成績以及獲獎(jiǎng)證書來判定學(xué)生的優(yōu)異度,這樣尤其突出了高校對(duì)學(xué)生綜合素質(zhì)能力評(píng)判標(biāo)準(zhǔn)的重要性。高等教育多元化,各學(xué)科專業(yè)培養(yǎng)目標(biāo)不同,因而需具備的能力素質(zhì)不同,這就要求高校適時(shí)地加強(qiáng)對(duì)學(xué)生的綜合素質(zhì)培養(yǎng)力度,既要培養(yǎng)學(xué)生具備較強(qiáng)的專業(yè)知識(shí),又要培養(yǎng)學(xué)生適應(yīng)社會(huì)的競(jìng)爭力,還要培養(yǎng)學(xué)生的團(tuán)隊(duì)凝聚力。因此需要一種方法對(duì)學(xué)生的綜合素質(zhì)進(jìn)行評(píng)估,以期準(zhǔn)確地對(duì)學(xué)生進(jìn)行評(píng)優(yōu),從而正確地反映學(xué)生的綜合素質(zhì)能力。
學(xué)生的考試成績只能反映出學(xué)生的學(xué)習(xí)態(tài)度以及目前的學(xué)習(xí)狀況,并不能體現(xiàn)一個(gè)人的綜合素質(zhì)能力,學(xué)生綜合能力包含了考試成績、思想道德素質(zhì)、身心健康、動(dòng)手操作、科學(xué)創(chuàng)新以及創(chuàng)新創(chuàng)業(yè)能力等多項(xiàng)能力[1-3]。傳統(tǒng)的評(píng)價(jià)方法大多采用線性方法,人為的設(shè)定各項(xiàng)指標(biāo)的權(quán)重進(jìn)行線性計(jì)算,具有較強(qiáng)的主觀性;模糊綜合評(píng)價(jià)法[4-5]對(duì)各項(xiàng)指標(biāo)進(jìn)行模糊處理,具備較強(qiáng)的人為經(jīng)驗(yàn),雖然是一種非線性處理方法,但是不具備學(xué)習(xí)能力;神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)法[6-7]雖然具備學(xué)習(xí)能力,但是不能對(duì)一些模糊信息進(jìn)行有效處理。
以上評(píng)估方法互有優(yōu)缺點(diǎn),大多高校通常采用其中的一種方法進(jìn)行評(píng)判。對(duì)此,本文采用人工智能的方法,通過模擬實(shí)際人工操作處理方式,提出一種基于信息融合的CS-SVM學(xué)生綜合能力評(píng)估方法。該方法與其他方法相比在一定程度上減小了人為主觀因素,增強(qiáng)了評(píng)價(jià)信息的完整性,對(duì)學(xué)生各方面的能力進(jìn)行了更綜合更全面的融合,科學(xué)快速并較為精確地對(duì)學(xué)生綜合能力進(jìn)行分類評(píng)估。此方法設(shè)計(jì)步驟為先將各科學(xué)習(xí)成績、活動(dòng)創(chuàng)新成績、實(shí)踐實(shí)驗(yàn)成績、畢業(yè)實(shí)習(xí)成績、綜合測(cè)評(píng)成績等數(shù)據(jù)融合為SVM的輸入樣本,再將樣本放入根據(jù)經(jīng)驗(yàn)知識(shí)訓(xùn)練好的CS-SVM進(jìn)行分類評(píng)估。其通過多信息融合,結(jié)合CS-SVM優(yōu)秀的分類能力進(jìn)行分類,這樣能更全面的反應(yīng)出學(xué)生的實(shí)際綜合素質(zhì)能力。
信息融合是將多維信息進(jìn)行分析和處理的方法和理論,通過將事物不同特征維度數(shù)據(jù)進(jìn)行融合和處理,使得其結(jié)果能更加全面可靠。目前存在大量的融合算法,大致可分為三類:隨機(jī)式算法、最小二乘法算法以及人工智能式算法。隨機(jī)式算法包含多貝葉斯估計(jì)法、證據(jù)推理法、多級(jí)遞歸算法等;最小二乘法算法包含加權(quán)平均法、卡爾曼濾波法等優(yōu)化算法;人工智能算法包含粗糙集推理、模糊推理、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等[8]。伴隨著時(shí)代的進(jìn)步與發(fā)展,人工智能化時(shí)代已悄然來臨,其中信息融合已逐漸變得更加智能并且能將多種具有不同特征的信息集成化。信息融合按照數(shù)據(jù)的抽象層次進(jìn)行劃分可分為數(shù)據(jù)級(jí)層次的融合、特征級(jí)層次的融合以及決策級(jí)層次的融合。數(shù)據(jù)級(jí)層次的融合,具有數(shù)據(jù)損失量少,精確度高但其對(duì)數(shù)據(jù)資源要求極其嚴(yán)苛;決策級(jí)層次的融合數(shù)據(jù)丟失量最大、精度最低;特征級(jí)層次的融合有數(shù)據(jù)損失且融合性能較低,介于數(shù)據(jù)層融合與決策層融合二者之間[9-10]。
本文利用特征級(jí)融合采集思想道德水平(A1)、專業(yè)修養(yǎng)水平(A2)、身心修養(yǎng)水平(A3)、人文修養(yǎng)水平(A4)以及能力修養(yǎng)水平(A5)等能表明學(xué)生能力的特征數(shù)據(jù),融合成輸入矩陣,最終通過SVM卓越的分類能力作出相應(yīng)的決策。其中思想道德水平包括政治修養(yǎng)、道德修養(yǎng)、法律意識(shí)水平;專業(yè)修養(yǎng)水平包括專業(yè)理論成績、實(shí)驗(yàn)實(shí)踐成績、畢業(yè)實(shí)習(xí)成績;身心修養(yǎng)水平包括心理素質(zhì)水平和身體素質(zhì)水平;人文修養(yǎng)水平包括自然科學(xué)知識(shí)、人文社科知識(shí)、文化藝術(shù)知識(shí)的修養(yǎng)水平;能力修養(yǎng)水平包括組織管理能力、學(xué)術(shù)研究能力、科技創(chuàng)新能力、藝術(shù)創(chuàng)新能力等。分別將以上多種能力利用加權(quán)平均法融合成能表征該類能力的數(shù)據(jù)(A1-A5),使得評(píng)價(jià)信息完整化。其中加權(quán)平均法[11]可以用以下表達(dá)式表示:
Ai=∑ai·Si
(1)
其中,Ai為第i個(gè)指標(biāo)加權(quán)后的分?jǐn)?shù),ai為第i個(gè)指標(biāo)信息融合中的權(quán)重,Si為第i個(gè)指標(biāo)的分值。
(2)
(3)
(4)
其中,m為評(píng)價(jià)指標(biāo),n為評(píng)價(jià)對(duì)象。
SVM是人工智能領(lǐng)域能解決非線性數(shù)據(jù)分類的無監(jiān)督機(jī)器學(xué)習(xí)算法。與傳統(tǒng)的非線性分類模型相比,人工神經(jīng)網(wǎng)絡(luò)(ANN)[12]是一種多感知器(Perceptron)相結(jié)合的方法來解決非線性分類問題,它在很大程度上依賴于學(xué)習(xí)速率、隱含層結(jié)構(gòu)和節(jié)點(diǎn)數(shù)目等一系列參數(shù),參數(shù)的好壞會(huì)極大影響神經(jīng)網(wǎng)絡(luò)的分類效果。而支持向量機(jī)的關(guān)鍵是利用核函數(shù)將低維空間中難以分類的向量集映射到高維空間,建立分類超平面。將核函數(shù)的非線性問題的數(shù)據(jù)集轉(zhuǎn)化為核空間中的線性可分離數(shù)據(jù)集,其中基于最大裕度思想的支持向量機(jī)只需要少量的參數(shù)就能進(jìn)行調(diào)整[13-14]。
就數(shù)據(jù)二分類問題而言,假設(shè)存在一個(gè)訓(xùn)練樣本集(x(i),y(i)),其中i=1,…,n,x(i)是樣本特征,y(i)是樣本類型,n代表樣本編號(hào),分類決策方程可表示為:
f(x(i))=wTx(i)+b
(5)
由此可得到超平面函數(shù)方程:
wTx(i)+b=0
(6)
其中,w代表超平面法向量,b代表偏置量。自變量x(i)則可以通過核函數(shù)映射到高維空間,利用wTx(i)+b>0或wTx(i)+b<0來判別x(i)屬于哪一類。最優(yōu)分類面如圖1所示。
圖1 最優(yōu)分類面
在實(shí)際數(shù)據(jù)分類應(yīng)用中用函數(shù)間隔來表示點(diǎn)X到超平面的距離,“間隔”越大,分類可信度越高。得出較大化分類間隔器,可以將其表示為:
(7)
s.t.yi(wTxi+b)≥1-εi
εi≥0,i=1,2,…,n
(8)
其中,C是懲罰因子,是控制目標(biāo)函數(shù)取得最大超平面以及最小偏差量權(quán)重的參數(shù),εi為松弛變量,表示函數(shù)誤差。
將線性不可分?jǐn)?shù)據(jù)原始問題轉(zhuǎn)化為對(duì)偶問題,其可以用函數(shù)表示為:
(9)
式中,αi為拉格朗日乘子,通過計(jì)算將其轉(zhuǎn)化成最優(yōu)分類函數(shù):
(10)
其中,Κ(xi,xj)為SVM的核函數(shù),核函數(shù)是連接低維空間與高維空間的橋梁,常見的核函數(shù)包括多項(xiàng)式核、徑向基核、Sigmoid核、Mercer核,本文采用徑向基核函數(shù)[15]。
布谷鳥是一種巢寄生繁殖的鳥類,它將自己的蛋產(chǎn)在別的鳥類的窩中,讓其他鳥類代為孵化和育雛。CS算法是由劍橋大學(xué)YangXS和DebS于2009年提出的一種模擬布谷鳥寄生尋窩繁殖、具有啟發(fā)性思維的智能算法[16]。該算法是通過將布谷鳥隨機(jī)尋窩下蛋的過程與鳥類的Levy Flight方式相結(jié)合形成。CS算法繁殖下一代的環(huán)境背景可定義為[17-18]:
(1) 種群內(nèi)布谷鳥每次產(chǎn)卵量為1,即可假設(shè)該卵為最佳解,該最優(yōu)解在固定的可選鳥巢范圍內(nèi)進(jìn)行隨機(jī)選擇。
(2) 選擇出的最佳鳥窩和最佳解被保存至下一代。
(3) 布谷鳥產(chǎn)于其他鳥窩內(nèi)的卵被鳥窩主人發(fā)現(xiàn)存在一定的概率,因而布谷鳥需要尋找新的鳥窩。
(4) 布谷鳥的Levy Flight方式可表示為如下函數(shù):
(11)
其中,Sg,i為第i個(gè)鳥窩第g代參數(shù)值,Sg+1,i為執(zhí)行Levy Flight方式后的參數(shù)值,Sbest為最佳參數(shù),?為步長控制系數(shù),randu和randv為服從標(biāo)準(zhǔn)正態(tài)分部的隨機(jī)數(shù),χ(β)的大小取決于β值大小,χ(β)通常取0.6667。由式(10)可知,當(dāng)Sg,i取Sbest時(shí),Sg,i與Sg+1,i相等,即當(dāng)前取得最優(yōu)參數(shù)。
SVM對(duì)數(shù)據(jù)進(jìn)行分類主要取決于C與g的大小。在本文中C值的大小將影響學(xué)生能力樣本的學(xué)習(xí);g為核函數(shù)參數(shù),其值的大小將影響樣本投射空間的分布復(fù)雜度。本文利用CS算法對(duì)C與g參數(shù)進(jìn)行尋優(yōu)處理。詳細(xì)尋優(yōu)步驟如下:
(1) 對(duì)CS算法相關(guān)參數(shù)以及各參數(shù)取值范圍進(jìn)行初始化。本文假設(shè)布谷鳥數(shù)量為30,外來卵被發(fā)現(xiàn)的概率取0.3,繁殖迭代次數(shù)取300代。
(2) 布谷鳥第一次產(chǎn)卵后,通過計(jì)算取出適應(yīng)度最佳的鳥窩再將其保存給下一代。即計(jì)算出30組C、g參數(shù)進(jìn)行交叉計(jì)算從而驗(yàn)證出正確率,分別取出具有最大正確率的那組C、g參數(shù)保留起來以便與下一次進(jìn)行對(duì)比。
(3) 布谷鳥通過Levy Flight方式飛行,尋找新的鳥窩,將其和舊鳥窩比較,選出最佳的那組窩。即利用Levy Flight處理原來的C、g參數(shù)以獲取新的C、g值,通過將產(chǎn)生的新的C、g值與之前的C、g值進(jìn)行對(duì)比,選擇出最佳C、g值。
(4) 鳥窩主人發(fā)現(xiàn)布谷鳥蛋的概率為0.3,此時(shí)一部分布谷鳥就需要找尋新的鳥窩。即需要對(duì)30組C、g參數(shù)隨機(jī)分配一個(gè)0~1的數(shù),對(duì)小于0.3的C、g參數(shù)隨機(jī)重置。
(5) 布谷鳥再次將新窩與舊窩進(jìn)行對(duì)比,優(yōu)勝劣汰。即將各個(gè)C、g參數(shù)的交叉正確率進(jìn)行比較并再次獲取新的C、g參數(shù)。再回到第(3)步,直到滿足迭代要求獲得最佳正確率以及最優(yōu)C、g參數(shù)。
在實(shí)際生活中,各高校對(duì)學(xué)生的學(xué)習(xí)成績等級(jí)的劃分參照的依據(jù)不同,本文將成績等級(jí)劃分為5個(gè)區(qū)間段,分別是[90,100]、[80,90]、[70,80]、[60,70]、[0,60]然后將其劃分為優(yōu)秀、良好、中等、及格、不及格5個(gè)等級(jí)。按此評(píng)價(jià)指標(biāo)將能表現(xiàn)學(xué)生綜合素質(zhì)能力的數(shù)據(jù)經(jīng)過信息融合處理來訓(xùn)練CS-SVM。根據(jù)以上分類依據(jù),選取20組不同等級(jí)的訓(xùn)練樣本以及測(cè)試樣本,作為訓(xùn)練和測(cè)試CS-SVM,讓其具備智能化的分類評(píng)定經(jīng)驗(yàn)。將學(xué)生能力水平劃分成5種類型,并分別定義0為優(yōu)秀、1為良好、2為一般、3為及格、4為差。將某大學(xué)畢業(yè)生四年來能體現(xiàn)學(xué)生綜合素質(zhì)能力的各項(xiàng)成績?nèi)诤铣蓴?shù)據(jù)樣本輸入至CS-SVM使其得出一個(gè)分類結(jié)果,其中通過信息融合處理后的部分樣本數(shù)據(jù)見表1。
表1 部分樣本數(shù)據(jù)
將該樣本數(shù)據(jù)通過SVM進(jìn)行交叉驗(yàn)證,通過交叉驗(yàn)證可以看出參數(shù)C、g的值不同得到的正確率也存在差異,本文利用布谷鳥算法多次驗(yàn)證找出了最大化正確率下對(duì)應(yīng)的參數(shù)C、g,然后將其植入SVM中。圖2是利用布谷鳥算法交叉驗(yàn)證取得的最優(yōu)正確率。
圖2 CS交叉驗(yàn)證正確率
由圖2可知,通過布谷鳥算法進(jìn)行交叉訓(xùn)練獲得的最佳正確率為93.75%,其中C取2.8876,g取0.62316,然后將20組待測(cè)樣本數(shù)據(jù)通過訓(xùn)練好的CS-SVM中進(jìn)行分類測(cè)試,以達(dá)到檢驗(yàn)CS-SVM準(zhǔn)確度的目的。
圖3為利用CS-SVM對(duì)待測(cè)樣本進(jìn)行測(cè)試的驗(yàn)證圖,根據(jù)圖3可得出其分類正確率為87.5%,由此可知CS-SVM算法基本可以滿足對(duì)學(xué)生綜合能力的分類要求。
圖3 CS-SVM測(cè)試樣本預(yù)測(cè)
在不使用優(yōu)化算法直接用多分類的支持向量機(jī)對(duì)學(xué)生綜合素質(zhì)能力進(jìn)行分類,隨機(jī)選取核函數(shù)以及懲罰因子,同樣將能體現(xiàn)學(xué)生能力的上述數(shù)據(jù)樣本直接通過SVM進(jìn)行訓(xùn)練,然后對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)驗(yàn)證,得到的分類結(jié)果如圖4所示。由圖4可知,未通過優(yōu)化算法直接訓(xùn)練測(cè)試得到的分類結(jié)果很差,其分類正確率僅有43.2%,很難正確地將學(xué)生綜合能力進(jìn)行分類判定。
圖4 無優(yōu)化SVM測(cè)試樣本預(yù)測(cè)
通過將不使用優(yōu)化算法的SVM與使用CS-SVM算法對(duì)學(xué)生綜合素質(zhì)能力進(jìn)行分類獲得的分類正確率進(jìn)行比較,顯然CS-SVM算法更為可靠。再將此分類結(jié)果與該校畢業(yè)生工作幾年的狀況進(jìn)行對(duì)比分析可知,通過CS-SVM算法獲得的分類結(jié)果中成績優(yōu)秀者往往都成為了部門經(jīng)理或者自己成為了老板,成績良好者則大多小有成就,成績中等者大多處于穩(wěn)定狀態(tài),成績及格者大多僅能解決溫飽問題且為月光族,成績差者仍舊處于四處找工作但四處碰壁整日勞累奔波的狀態(tài)。以上驗(yàn)證了該方法能夠較為精確地對(duì)學(xué)生綜合能力進(jìn)行評(píng)估,且實(shí)用性較好。
本文提出的基于信息融合和CS-SVM的學(xué)生綜合能力評(píng)估方法,將能夠體現(xiàn)學(xué)生綜合素質(zhì)能力的各項(xiàng)成績提取其特征數(shù)據(jù),然后再將其進(jìn)行信息融合,以此作為訓(xùn)練樣本以及測(cè)試樣本,進(jìn)而利用CS算法對(duì)懲罰因子C和核函數(shù)g優(yōu)化,使得SVM擁有較強(qiáng)的分類經(jīng)驗(yàn),最終利用此CS-SVM來對(duì)學(xué)生綜合素質(zhì)能力進(jìn)行預(yù)測(cè)分類。通過實(shí)例仿真以及畢業(yè)生就業(yè)調(diào)查結(jié)果可以得出此算法能夠在一定程度上對(duì)學(xué)生能力進(jìn)行分類判別,從而較為準(zhǔn)確地對(duì)學(xué)生的綜合能力進(jìn)行評(píng)定。
[1] 王桂芳.基于人工智能的大學(xué)生綜合素質(zhì)評(píng)價(jià)研究[D].北京:北京服裝學(xué)院,2010.
[2] 商利華.模糊聚類分析算法在學(xué)生成績綜合評(píng)估中的應(yīng)用[J].電腦知識(shí)與技術(shù),2014,10(5):1024-1026.
[3] 劉幸,高延春.大學(xué)生綜合能力評(píng)價(jià)體系與評(píng)價(jià)方法研究[J].西部素質(zhì)教育,2015,1(8):33,49.
[4] 智德.航海技術(shù)專業(yè)學(xué)生適任能力綜合評(píng)估研究[J].電腦知識(shí)與技術(shù),2015,11(22):176-177.
[5] 劉敏慧.模糊綜合評(píng)價(jià)法在核心素養(yǎng)評(píng)價(jià)中的應(yīng)用研究[J].教育參考,2016(6):36-39.
[6] 宣國慶.基于神經(jīng)網(wǎng)絡(luò)交叉覆蓋算法的學(xué)生成績預(yù)測(cè)[D].合肥:安徽大學(xué),2011.
[7] 張新亮.BP神經(jīng)網(wǎng)絡(luò)在高校學(xué)生綜合素質(zhì)評(píng)價(jià)中的應(yīng)用[C]//第5屆教育教學(xué)改革與管理工程學(xué)術(shù)年會(huì)論文集.重慶:重慶大學(xué)出版社,2012.
[8] 謝振南.多傳感器信息融合技術(shù)研究[D].廣州:廣東工業(yè)大學(xué),2013.
[9] 化柏林,李廣建.大數(shù)據(jù)環(huán)境下多源信息融合的理論與應(yīng)用探討[J].圖書情報(bào)工作,2015,59(16):5-10.
[10] 李會(huì)民,馬桂英.異構(gòu)多源信息融合方法概述[J].嘉應(yīng)學(xué)院學(xué)報(bào),2016,34(2):21-26.
[11] 高超.淺析加權(quán)平均法在多目標(biāo)決策中的應(yīng)用[J].電腦知識(shí)技術(shù),2010,6(16):4495-4496.
[12] 段玉三.人工神經(jīng)網(wǎng)絡(luò)文獻(xiàn)綜述[J].科技風(fēng),2011(5):185.
[13] 房漢鳴,稅愛社,汪輝,等.支持向量機(jī)動(dòng)態(tài)多分類方法[J].后勤工程學(xué)院學(xué)報(bào),2017,33(2):90-96.
[14] 劉東啟,陳志堅(jiān),徐銀,等.面向不平衡數(shù)據(jù)分類的復(fù)合SVM算法研究[J/OL].計(jì)算機(jī)應(yīng)用研究,2018,35(4).(優(yōu)先出版).
[15] 安旭,張樹東.基于支持向量機(jī)的模糊特征分類算法研究[J].計(jì)算機(jī)工程,2017,43(1):237-240,246.
[16] YANG X S,DEB S.Engineering optimization by cuckoo search[J].International Journal of Mathematical Modelling & Numerical Optimisation,2010,1(4):330-343.
[17] 黃繼達(dá).布谷鳥算法的改進(jìn)及其應(yīng)用研究[D].武漢:華中科技大學(xué),2014.
[18] 孫晨,李陽,李曉戈,等.基于布谷鳥算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型的股價(jià)預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(2):276-279.