林泓斌 李佳蓮
(廣州大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,廣東 廣州 511400)
機(jī)器學(xué)習(xí)算法作為AI領(lǐng)域的重要分支,將其應(yīng)用于智能系統(tǒng)中能夠有效提升經(jīng)驗(yàn)學(xué)習(xí)過程中的算法性能,為機(jī)器執(zhí)行各項(xiàng)任務(wù)、輔助決策制定等功能實(shí)現(xiàn)提供支持。成績(jī)?cè)u(píng)估預(yù)測(cè)是衡量學(xué)生學(xué)習(xí)效果與自我效能感的重要尺度,通過運(yùn)用算法建立預(yù)測(cè)模型,能夠?yàn)閷W(xué)習(xí)者考試成績(jī)預(yù)測(cè)及決策制定提供重要支持。
線性回歸算法主要適用于針對(duì)連續(xù)變量進(jìn)行建模,對(duì)其變化結(jié)果進(jìn)行預(yù)測(cè)。線性回歸作為一種基礎(chǔ)回歸形式,通常借助直線擬合數(shù)據(jù)集,依托變量間的線性關(guān)系保障提高成功率,在數(shù)據(jù)分析和預(yù)處理上呈現(xiàn)出良好性能優(yōu)勢(shì),可實(shí)現(xiàn)對(duì)學(xué)習(xí)數(shù)據(jù)的簡(jiǎn)化。作為線性回歸算法中的重要分支,線性判別分析算法常應(yīng)用于數(shù)據(jù)降維,再將多種數(shù)據(jù)分類后提煉出其中不同類數(shù)據(jù)的差異,增強(qiáng)不同類對(duì)象或事件間的分離性,在考試成績(jī)預(yù)測(cè)、產(chǎn)品銷售業(yè)績(jī)?cè)u(píng)估等方面具備較強(qiáng)適用性[1]。
該算法常被應(yīng)用于處理回歸、分類等問題,通過尋找分類超平面作為決策邊界,將位于同一組內(nèi)的不同類對(duì)象分離,能夠在訓(xùn)練數(shù)據(jù)集中篩選出正確的類別對(duì)象[2]。設(shè)樣本集為{(x,y)|x∈Rn,yi=±1,i=1,2,...,l},將分類超平面的法向量設(shè)為ω、截距為b、松弛變量為ζi、懲罰系數(shù)為C,則可將分類超平面定義為:
在運(yùn)用該算法建立學(xué)習(xí)模型時(shí),首要前提是定義最優(yōu)分類面,引入軟間隔或核函數(shù)實(shí)現(xiàn)對(duì)線性不可分及非線性問題的解決,在文本分類、面部識(shí)別等領(lǐng)域具備良好應(yīng)用價(jià)值。
選取某學(xué)校畢業(yè)生的期中、期末課程考試成績(jī)與升學(xué)考試成績(jī)作為數(shù)據(jù)集,從中篩選出主要課程作為特征向量,基于隨機(jī)森林進(jìn)行重要性等級(jí)的排序,將其中非重要課程成績(jī)剔除,實(shí)現(xiàn)學(xué)習(xí)模型訓(xùn)練特征維度的精簡(jiǎn)化處理。隨后運(yùn)用線性判別分析方法進(jìn)行數(shù)據(jù)降維,以選定的直線為基準(zhǔn)對(duì)訓(xùn)練集進(jìn)行重復(fù)投影,劃分出投影點(diǎn)的類別,并根據(jù)投影點(diǎn)所處的具體位置進(jìn)行類別判斷,可最大限度增加類間差異、縮小類內(nèi)差異。接下來運(yùn)用支持向量機(jī)建立考試成績(jī)預(yù)測(cè)模型,為最終預(yù)測(cè)結(jié)果精度提供保障。
將線性判別分析與支持向量機(jī)兩種算法進(jìn)行組合使用,分別利用兩種算法在降維和分類上體現(xiàn)出的優(yōu)勢(shì)性能,提升考試成績(jī)預(yù)測(cè)結(jié)果的精確性。在算法流程設(shè)計(jì)上,首先運(yùn)用線性判別分析方法進(jìn)行數(shù)據(jù)預(yù)處理,在此過程中將數(shù)據(jù)集導(dǎo)入系統(tǒng)中,完成訓(xùn)練集、測(cè)試集的劃分,將其中的數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,并實(shí)行特征降維;隨后建立支持向量機(jī)模型,待完成訓(xùn)練后進(jìn)行樣本測(cè)試,針對(duì)整體組合算法的實(shí)際應(yīng)用性能進(jìn)行評(píng)估。
運(yùn)用線性判別分析方法進(jìn)行數(shù)據(jù)降維處理,判斷各維度對(duì)于后續(xù)采用支持向量機(jī)算法獲取到分類結(jié)果的影響,用于衡量在預(yù)測(cè)結(jié)果精確度最高時(shí)的降維維度。從中可以觀察到,當(dāng)降維維度為2時(shí),支持向量機(jī)的分類準(zhǔn)確度達(dá)到最優(yōu)水平。
運(yùn)用核函數(shù)進(jìn)行非線性問題的處理,首先,采用徑向基核函數(shù),已知真實(shí)標(biāo)簽的第1—10個(gè)預(yù)測(cè)結(jié)果表示為[0000010011],預(yù)測(cè)第1—10個(gè)結(jié)果表示為[0000000000],在采用支持向量機(jī)進(jìn)行畢業(yè)生升學(xué)考試結(jié)果預(yù)測(cè)后,可知0、1對(duì)應(yīng)的precision值為0.77和0;avg/total值為0.59;recall值分別為1.0和0;avg/total值為0.77;fl-score值分別為0.87和0,avg/total值為0.67;support值分別為50和15;avg/total值為65。
其次,采用Linear Kernel線性核函數(shù),已知真實(shí)標(biāo)簽的第1—10個(gè)預(yù)測(cè)結(jié)果,預(yù)測(cè)前10個(gè)結(jié)果表示為[0000000001],基于支持向量機(jī)算法進(jìn)行學(xué)生升學(xué)成績(jī)的預(yù)測(cè),可知0、1對(duì)應(yīng)的precision值為0.82和0.5,avg/total值為0.74;recall值分別為0.9和0.33,avg/total值為0.77;fl-score值分別為0.86和0.4,avg/total值為0.75;support值分別為50和15,avg/total值為65。
再次,采用多項(xiàng)式核函數(shù),已知真實(shí)標(biāo)簽的第1—10個(gè)預(yù)測(cè)結(jié)果表示不變,則預(yù)測(cè)出的前10個(gè)結(jié)果表示為[0000000011],運(yùn)用支持向量機(jī)算法進(jìn)行升學(xué)成績(jī)預(yù)測(cè),可知0、1對(duì)應(yīng)的precision值為0.84和0.45,avg/total值為0.76;recall值分別為0.79和0.54,avg/total值為0.74;fl-score值分別為0.83和0.47,avg/total值為0.75;support值分別為50和15,avg/total值為65。
最后,將上面三種核函數(shù)的分類報(bào)告結(jié)果進(jìn)行比較,可以看出,采用Linear Kernel線性核函數(shù)和多項(xiàng)式核函數(shù)測(cè)得的F值高于徑向基核函數(shù),其中多項(xiàng)式核函數(shù)的預(yù)測(cè)結(jié)果精度相對(duì)更高,因此,宜選用多項(xiàng)式核函數(shù)建立支持向量機(jī)模型,為最終算法預(yù)測(cè)結(jié)果的精確度提供保障。
機(jī)器學(xué)習(xí)算法在執(zhí)行任務(wù)的過程中不斷積累學(xué)習(xí)經(jīng)驗(yàn)、改善應(yīng)用性能,根據(jù)獲取到的數(shù)據(jù)結(jié)果做出科學(xué)決策,最終保證任務(wù)的順利完成。通過將兩種典型算法應(yīng)用于考試成績(jī)預(yù)測(cè)模型設(shè)計(jì)中,可有效將學(xué)習(xí)者成績(jī)匯總并對(duì)其順利通過考試的可能性做出科學(xué)評(píng)判,保證預(yù)測(cè)結(jié)果的準(zhǔn)確性,具備良好實(shí)用價(jià)值。