楊素婷
摘要:CET-4成績及通過率是考察大學(xué)生英語能力水平和高校英語教學(xué)質(zhì)量的重要指標(biāo)。針對(duì)CET-4成績預(yù)測(cè)問題,提出一種基于支持向量回歸算法的預(yù)測(cè)方法,按照數(shù)據(jù)預(yù)處理、關(guān)鍵特征提取、預(yù)測(cè)模型構(gòu)建的步驟完成CET-4成績回歸預(yù)測(cè)模型設(shè)計(jì)。以重慶旅游職業(yè)學(xué)院近年來多批次CET-4成績數(shù)據(jù)和學(xué)生平時(shí)學(xué)習(xí)過程數(shù)據(jù)為基礎(chǔ),完成模型試點(diǎn)應(yīng)用和模型評(píng)估,發(fā)現(xiàn)優(yōu)化模型具有更好的可解釋性和更高的泛化精度。
關(guān)鍵詞: CET-4;回歸預(yù)測(cè);SVR;特征相關(guān)
中圖分類號(hào):TP393? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)18-0026-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Research on CET-4 Score Prediction Model Based on SVR
YANG Su-ting
(Chongqing Vocational Institute of Tourism, Chongqing 40900 China)
Abstract:CET-4 scores and pass rate are important indicators to evaluate college students' English proficiency and College English teaching quality. Aiming at the problem of CET-4 performance prediction, a prediction method was proposed based on support vector regression algorithm. The regression prediction model of CET-4 was designed according to the steps of data preprocessing, key feature extraction and prediction model construction. Based on the CET-4 score data and students' learning process data in recent years, the pilot application and model evaluation of the model were completed. It is found that the optimized model has better interpretability and higher generalization accuracy.
Key words:CET-4; Regression prediction; SVR; Feature correlation
1 引言
大學(xué)英語四級(jí)考試(CET-4,College English Test Band 4)是由教育部高等教育司主持的全國性英語考試,CET-4成績及通過率是考察大學(xué)生英語能力水平和高校英語教學(xué)質(zhì)量的重要指標(biāo)[1]。隨著教育信息技術(shù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展與應(yīng)用,基于學(xué)生的英語學(xué)習(xí)過程數(shù)據(jù)和CET-4分項(xiàng)數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)算法針對(duì)CET-4通過情況開展成績預(yù)測(cè)模型研究,分析CET-4成績的影響關(guān)鍵因素,對(duì)優(yōu)化英語教學(xué)實(shí)施、提升英語教學(xué)質(zhì)量具有重要意義。
本文針對(duì)CET-4成績預(yù)測(cè)問題,提出一種基于支持向量回歸算法(SVR,Support Vector Regression)的預(yù)測(cè)方法,按照數(shù)據(jù)預(yù)處理、關(guān)鍵特征提取、預(yù)測(cè)模型構(gòu)建的步驟完成CET-4成績預(yù)測(cè)模型設(shè)計(jì),并以重慶旅游職業(yè)學(xué)院2017-2019年5批次CET-4成績數(shù)據(jù)和學(xué)生平時(shí)學(xué)習(xí)過程數(shù)據(jù)為基礎(chǔ),完成模型試點(diǎn)應(yīng)用,并以2019年下半年CET-4成績?yōu)橹饕獪y(cè)試數(shù)據(jù)集,評(píng)估預(yù)測(cè)模型。
2 SVR算法
CET-4成績預(yù)測(cè)是典型的連續(xù)數(shù)據(jù)值預(yù)測(cè),可參考的特征屬性數(shù)據(jù)包括歷史CET-4的各分項(xiàng)成績,學(xué)生日常學(xué)習(xí)的過程數(shù)據(jù),以及相關(guān)學(xué)生基礎(chǔ)信息,目標(biāo)屬性為CET-4的總成績,因此選用線性預(yù)測(cè)模型具有較好的適用性[2]。機(jī)器學(xué)習(xí)算法中常見的線性預(yù)測(cè)模型包括多元線性回歸、嶺回歸、Lasso回歸和SVR算法等,其中,SVR算法能夠充分運(yùn)用已經(jīng)采集的大量基礎(chǔ)數(shù)據(jù)、過程數(shù)據(jù)和分項(xiàng)成績,通過核函數(shù)有效控制預(yù)測(cè)模型復(fù)雜度,對(duì)非線性時(shí)間序列情況下也具有較好預(yù)測(cè)效果[3]。因此,本文使用SVR算法作為基礎(chǔ)算法開展CET-4成績預(yù)測(cè)模型研究。
線性回歸模型是構(gòu)建形如y=f(x)=Wx+b的預(yù)測(cè)函數(shù),其中x為特征屬性,y為目標(biāo)數(shù)據(jù),f(x)為回歸函數(shù),包括兩個(gè)參數(shù)W為各特征屬性的權(quán)重向量,b為函數(shù)常量。SVR是將原來的支持向量機(jī)SVM的分類模型轉(zhuǎn)化為回歸模型,將原來訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)點(diǎn)遠(yuǎn)離自己類別一側(cè)的支持向量,轉(zhuǎn)為每個(gè)數(shù)據(jù)點(diǎn)擬合到線性模型y=Wx+b中[4-6]。
SVR定義一個(gè)偏差常量?,對(duì)于任意數(shù)據(jù)樣本x,當(dāng)絕對(duì)誤差|yx-f(x)|,認(rèn)為樣本x可以用f(x)=Wx+b進(jìn)行回歸預(yù)測(cè),即以Wx+b為中心構(gòu)建了寬度為2?的間隔帶,落入該空間的樣本數(shù)據(jù)(x,y)點(diǎn),均認(rèn)為成功預(yù)測(cè)。
SVR預(yù)測(cè)模型的關(guān)鍵是圍繞絕對(duì)誤差|yx-f(x)|的最小化,求回歸函數(shù)f(x)的參數(shù)W和b。
據(jù)此,構(gòu)建SVR回歸模型的目標(biāo)函數(shù)為:
[minW,b||W||2,s.t.|y-Wx-b|<=ε]? ? ? ? ? ? ? (1)
該目標(biāo)函數(shù)為在樣本點(diǎn)落入隔離帶時(shí),控制W最小化,即模型復(fù)雜度最低,從而有效控制預(yù)測(cè)模型的泛化能力。
引入拉格朗日乘子求極值情況下參數(shù),目標(biāo)函數(shù)轉(zhuǎn)化為:
[Lw,b,a=12w2-k=1NakukwTxk+b-1+ε+Ck=1Nεk-k=1Nεμk]? ? ?(2)
對(duì)L(w,b,a)對(duì)W,b,a分別求偏導(dǎo)并令偏導(dǎo)為0,從而得到:
[w=k=1Nukakxkk=1Nukak=0C=μk-ak]? ? ? ? ? ? ? ? ? ? ? ? (3)
目標(biāo)函數(shù)進(jìn)一步優(yōu)化為:
[minw,b,?Lw,b,a=k=1Nak-12k=1Nl=1NxTkxlulakukal]? ? ? (4)
該情況下,使用SMO序列最小化算法,得到預(yù)測(cè)函數(shù)參數(shù)一個(gè)解為:
[w*=k=1Nuka*kxkb*=ul-k=1Nuka*k(xk?x1)]? ? ? ? ? ? ? ? ? ? ?(5)
此時(shí),得到基于支持向量的預(yù)測(cè)回歸函數(shù)為:
[f(x)=k=1N(a*k-ak)K(x,xk)+b]? ? ? ? ? ? ? ? ? ? ? (6)
其中,[K(x,xk)]為核函數(shù)。因此,SVR模型構(gòu)建主要探索使用[K(x,xk)]將數(shù)據(jù)樣本降維和關(guān)鍵參數(shù)W,b的計(jì)算[7]。
3 基于SVR的CET-4預(yù)測(cè)模型
構(gòu)建基于SVR的CET-4預(yù)測(cè)模型,主要按照數(shù)據(jù)預(yù)處理、關(guān)鍵特征提取、預(yù)測(cè)模型構(gòu)建三步實(shí)現(xiàn),其中數(shù)據(jù)預(yù)處理主要完成與CET-4成績相關(guān)數(shù)據(jù)的采集、清洗、規(guī)整等,關(guān)鍵特征提取主要對(duì)相關(guān)數(shù)據(jù)針對(duì)目標(biāo)屬性進(jìn)行主成因分析,提取其中關(guān)鍵特征,降低數(shù)據(jù)維度,控制復(fù)雜度,預(yù)測(cè)模型構(gòu)建按照SVR模型構(gòu)建方法,選取核函數(shù)和計(jì)算參數(shù),完成預(yù)測(cè)模型構(gòu)建。
3.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘分析的基礎(chǔ),主要分析數(shù)據(jù)來源,對(duì)數(shù)據(jù)進(jìn)行采集、清洗、規(guī)整,實(shí)現(xiàn)對(duì)數(shù)據(jù)的規(guī)范化,為后期數(shù)據(jù)挖掘分析打下良好數(shù)據(jù)基礎(chǔ)[8]。對(duì)于CET-4成績預(yù)測(cè)問題,主要采集三個(gè)方面數(shù)據(jù):(1)學(xué)生基礎(chǔ)數(shù)據(jù),包括性別、年齡、生源地、專業(yè)、參考次數(shù)等;(2)學(xué)習(xí)過程數(shù)據(jù):包括高考英語成績、前導(dǎo)課程學(xué)習(xí)成績等;(3)歷史CET-4成績分項(xiàng)成績,包括聽力、閱讀、寫作三類的分項(xiàng)成績,對(duì)于多次參考學(xué)生,主要研究上次考試分項(xiàng)成績。
針對(duì)上述采集的數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步處理,包括:
(1)離散數(shù)據(jù)數(shù)值化:將定序、定類、字符串等離散數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),如將性別男、女轉(zhuǎn)為0和1;專業(yè)按照英語相關(guān)專業(yè)為0,非英語專業(yè)為1;生源地城市按照經(jīng)濟(jì)發(fā)展程度綜合考慮,劃分為一線、二線、三線、四線和五線城市共5類,轉(zhuǎn)化為數(shù)值1-5。其他相關(guān)離散數(shù)據(jù)參照轉(zhuǎn)化。
(2)統(tǒng)一標(biāo)準(zhǔn)規(guī)范化:將不同量綱的數(shù)據(jù)統(tǒng)一到同一標(biāo)準(zhǔn)內(nèi),一般采用最大-最小規(guī)范化方法轉(zhuǎn)化到[0,1]區(qū)間[9],具體轉(zhuǎn)化公式為:
[xn=x-xminxmax-xmin]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (7)
(3)異常數(shù)據(jù)正常化:針對(duì)數(shù)據(jù)采集中的空缺值、重復(fù)值、異常值問題采用平均數(shù)填充、刪除重復(fù)項(xiàng)等方法,將相關(guān)異常數(shù)據(jù)合理化處理。如上次CET-4分項(xiàng)成績均為0的棄考學(xué)生成績,應(yīng)當(dāng)作為異常數(shù)據(jù)清除。
在采集學(xué)生基礎(chǔ)數(shù)據(jù)、過程數(shù)據(jù)和歷史數(shù)據(jù)基礎(chǔ)上,按照數(shù)值化、規(guī)范化和正常化的步驟完成數(shù)據(jù)預(yù)處理,形成了學(xué)生相關(guān)數(shù)據(jù)表,結(jié)構(gòu)為:學(xué)生(學(xué)號(hào),性別,生源地,專業(yè),參考次數(shù),高考英語成績,英語課程成績,上次等考聽力成績,上次等考閱讀成績,上次等考寫作成績,本次等考成績),其中學(xué)號(hào)為標(biāo)識(shí)碼,中間9項(xiàng)為特征屬性,分別標(biāo)注為F1-F9,本次等考成績?yōu)槟繕?biāo)屬性,標(biāo)定為F0。由于需要依托上次等考成績?yōu)橛?xùn)練數(shù)據(jù)屬性,因此,主要針對(duì)學(xué)校多次參考CET-4的學(xué)生進(jìn)行預(yù)測(cè)分析,首次參加考試不做預(yù)測(cè),這也符合英語教學(xué)和CET-4考試的實(shí)際情況。
3.2 關(guān)鍵特征提取
關(guān)鍵特征提取是根據(jù)特征之間的關(guān)聯(lián)程度和對(duì)目標(biāo)屬性的支持程度,選取部分特征作為特征集合建立與目標(biāo)屬性的關(guān)系。對(duì)于學(xué)生表(ID,F(xiàn)1,F(xiàn)2,F(xiàn)3,F(xiàn)4,F(xiàn)5,F(xiàn)6,F(xiàn)7,F(xiàn)8,F(xiàn)9,F(xiàn)0),對(duì)于特征F1-F9中任意的兩個(gè)特種Fi和Fj之間,數(shù)據(jù)樣本在其上的數(shù)據(jù)分布為X和Y,那么特征Fi和Fj之間的協(xié)方差rij為:
[rij=covX,Y=i=1nXi-XYi-Yn-1]? ? ? ? (8)
其中,Xi為第i個(gè)數(shù)據(jù)樣本取值,[X]為數(shù)據(jù)樣本均值,n為樣本數(shù)。
從而構(gòu)建F1-F9的特征矩陣R,其中,m為特征數(shù),取值9:
[R=covX=XX'm-1=r11……r1m…………rm1……rmm]? ? ? ? ?(9)
計(jì)算矩陣R的特征向量為[λ]=[[λ1,λ2……λm]],[λi]表示了特征Fi在整個(gè)特征矩陣R中的主導(dǎo)地位,那么Fi在整個(gè)特征集合F1-F9的權(quán)重,可以表示為:
[wi=λij=1mλj]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (10)
按照權(quán)重從大到小排序,確保前N項(xiàng)提取特征的權(quán)重高于設(shè)定閾值,如0.8或0.75,即完成了F1-F9特征的關(guān)鍵特征提取。
3.3 預(yù)測(cè)模型構(gòu)建
根據(jù)第2節(jié)SVR模型構(gòu)建的方法,在數(shù)據(jù)預(yù)處理和關(guān)鍵特征提取的基礎(chǔ)上,主要完成核函數(shù)的選取和關(guān)鍵參數(shù)的計(jì)算。
(1)核函數(shù)選取
SVR模型中核函數(shù)主要是將高維特征空間降維到低維空間,常見的核函數(shù)包括線性函數(shù),多項(xiàng)式函數(shù)和徑向基核函數(shù)(RBF)。其中,徑向基核函數(shù)能夠解決高維特征數(shù)據(jù)集,并很好轉(zhuǎn)化為線性可分,具有廣泛適用性。因此,使用RBF函數(shù)作為核函數(shù)構(gòu)建SVR回歸模型:
[Kx,xk=e-||x-xk||22σ2]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (11)
(2)參數(shù)計(jì)算
在SVR模型中求公式(2)和(3)中的參數(shù)C、參數(shù)[μ]和參數(shù)[ε],分別為模型復(fù)雜度、回歸模型線性程度和模型誤差容忍度。選擇最優(yōu)的SVR模型參數(shù)方法包括:基于遺傳算法方法、基于交叉驗(yàn)證方法、基于神經(jīng)網(wǎng)絡(luò)等方法。
對(duì)于CET-4成績預(yù)測(cè)問題,在關(guān)鍵特征提取基礎(chǔ)上進(jìn)行回歸預(yù)測(cè),選取一組參數(shù),其中C偏大,選定更少更優(yōu)的特征,[μ]偏小,促進(jìn)模型更加平滑,[ε]偏小,提高預(yù)測(cè)波動(dòng)范圍。在初始參數(shù)基礎(chǔ)上,按照網(wǎng)格法得到最優(yōu)參數(shù)組,以0.1為步長構(gòu)建參數(shù)網(wǎng)格,以2020年上半年CET-4成績?yōu)闇y(cè)試數(shù)據(jù)集,設(shè)定誤差閾值e,當(dāng)ave|f(x)-y| 根據(jù)公式(5)、(6)的推導(dǎo),得到SVR回歸模型: [fx=SV(a*i-ai)?exp (-||xi-x||22σ2)+b]? ? ? ?(12) 4 模型應(yīng)用與評(píng)估 使用我校2017-2019學(xué)年的等考成績?yōu)橛?xùn)練數(shù)據(jù)集,以2019年下半年CET-4成績?yōu)闇y(cè)試集,研究本文的基于特征相關(guān)的SVR優(yōu)化模型,得到以累加權(quán)重為0.8,得到關(guān)鍵特征集為{上次等考聽力成績,上次等考寫作成績,英語課程成績,專業(yè),高考英語成績}五個(gè)特征,可以發(fā)現(xiàn)在本校中聽力和寫作能力培養(yǎng)非常關(guān)鍵,課程學(xué)習(xí)和英語基礎(chǔ)上也發(fā)揮重要作用,特別注意由于高職院校對(duì)CET-4沒有強(qiáng)制要求,因此英語相關(guān)專業(yè)學(xué)生更加重視備考和參考,因此分?jǐn)?shù)會(huì)更高。 通過基于特征相關(guān)的SVR優(yōu)化模型構(gòu)建的回歸預(yù)測(cè)函數(shù),同線性回歸模型方法、普通SVR模型進(jìn)行比較,分別分析三種模型在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集上的均方誤差。 根據(jù)三種回歸模型,本文提出基于特征相關(guān)的SVR模型在數(shù)據(jù)集上具有更好的預(yù)測(cè)精度,同時(shí),隨著數(shù)據(jù)集的積累,在測(cè)試集上具有更優(yōu)的泛化精度。 5 結(jié)語 CET-4是考核學(xué)生英語能力和評(píng)價(jià)學(xué)校英語教學(xué)質(zhì)量的重要指標(biāo)。針對(duì)CET-4成績預(yù)測(cè)問題,本文提出一種基于支持向量回歸算法的預(yù)測(cè)方法,按照數(shù)據(jù)預(yù)處理、關(guān)鍵特征提取、預(yù)測(cè)模型構(gòu)建的步驟完成CET-4成績回歸預(yù)測(cè)模型設(shè)計(jì)。以重慶旅游職業(yè)學(xué)院2017-2019學(xué)年5批次CET-4成績數(shù)據(jù)和學(xué)生平時(shí)學(xué)習(xí)過程數(shù)據(jù)為基礎(chǔ),完成模型試點(diǎn)應(yīng)用和模型評(píng)估,發(fā)現(xiàn)本文的優(yōu)化模型比線性回歸和普通SVR模型具有更好的可解釋性和更高的泛化精度。 參考文獻(xiàn): [1] 韓魯峰.數(shù)據(jù)挖掘在大學(xué)英語四級(jí)成績預(yù)測(cè)中的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2018,14(24):1-3. [2] 王欣欣,湯軍.學(xué)生成績預(yù)測(cè)模型的對(duì)比分析[J].電腦知識(shí)與技術(shù),2020,16(1):199-202. [3] 陳榮,梁昌勇,謝福偉.基于SVR的非線性時(shí)間序列預(yù)測(cè)方法應(yīng)用綜述[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,36(3):369-374. [4] 李永娜.基于支持向量機(jī)的回歸預(yù)測(cè)綜述[J].信息通信,2014,27(11):32-33. [5] 陳博,鄭凱東,王家華.多核支撐向量回歸方法研究[J].智能計(jì)算機(jī)與應(yīng)用,2019,9(1):188-191. [6] 羅學(xué)科,何云霄,劉鵬,等.ARIMA-SVR組合方法在水質(zhì)預(yù)測(cè)中的應(yīng)用[J].長江科學(xué)院院報(bào),2020,37(10):21-27. [7] 肖建,于龍,白裔峰.支持向量回歸中核函數(shù)和超參數(shù)選擇方法綜述[J].西南交通大學(xué)學(xué)報(bào),2008,43(3):297-303. [8] 羅長銀,陳學(xué)斌,宋尚文,等.數(shù)據(jù)預(yù)處理技術(shù)在異構(gòu)數(shù)據(jù)中的應(yīng)用[J].軟件,2020,41(5):6-13. [9] 孔欽,葉長青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(5):1-4. 【通聯(lián)編輯:唐一東】