蘇 嘉,關(guān) 毅
(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001)
基于數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法
蘇 嘉,關(guān) 毅
(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001)
針對DataCastle學(xué)生成績排名預(yù)測任務(wù):根據(jù)學(xué)生以往的在校信息預(yù)測下學(xué)期的成績排名,結(jié)合現(xiàn)有的主成分分析方法以及多元線性回歸模型,本文提出了基于數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法,并與其它的方法進(jìn)行了比較,結(jié)果表明:基于數(shù)據(jù)截斷的主成分分析回歸預(yù)測方法能夠更好地預(yù)測學(xué)生下個學(xué)期成績,預(yù)測準(zhǔn)確率達(dá)到78.57%,優(yōu)于對比的模型,在最終結(jié)果排行榜中排在前百分之十,因此可以較好地作為解決其它預(yù)測分析問題的工具。
截斷變換;主成分分析;多元線性回歸;預(yù)測
大數(shù)據(jù)分析、挖掘并在此基礎(chǔ)之上的信息預(yù)測是當(dāng)今信息化時代迫切面臨的挑戰(zhàn)和機(jī)遇。2014年巴西世界杯無疑是全世界足球愛好者的一場盛宴,而本次世界杯上另一新奇看點(diǎn)就是大數(shù)據(jù)的分析和預(yù)測。谷歌、百度、微軟均各擅勝場地競相給出了自家的賽事評測分析,就是分別根據(jù)以往比賽經(jīng)驗、球員技術(shù)、身體狀況等信息成功預(yù)測了世界杯的16強(qiáng)。百度和微軟甚至以100%的勝率預(yù)測了4強(qiáng)的名單,由此可見大數(shù)據(jù)的潛在價值。隨著大數(shù)據(jù)時代的到來,基于事物以往信息的未來狀態(tài)預(yù)測分析已經(jīng)愈演愈熱,預(yù)測分析在科學(xué)研究以及生活中具有廣泛的優(yōu)勢發(fā)展空間,如天氣預(yù)測[1]、經(jīng)濟(jì)走勢預(yù)測[2]、健康疾病預(yù)測等[3-5]。
DataCastle也認(rèn)識到了大數(shù)據(jù)的重要性,2014年發(fā)布了學(xué)生成績排名預(yù)測任務(wù):根據(jù)學(xué)生以往的在校數(shù)據(jù),預(yù)測接下來一個學(xué)期的相對成績排名。隨之也公開了2組數(shù)據(jù)集:訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)。訓(xùn)練集數(shù)據(jù)包括某高校的538名在校大學(xué)生3個學(xué)期按學(xué)號遞增排序的成績排名、按日期遞增排序的圖書借閱記錄、按日期遞增排序的進(jìn)入圖書館門禁記錄、按地點(diǎn)代碼遞增排序的學(xué)生卡消費(fèi)記錄。測試集數(shù)據(jù)由另外某學(xué)院的91名學(xué)生3個學(xué)期的這4類信息組成,只不過沒有給出該組學(xué)生第三學(xué)期的相對成績排名。任務(wù)就是要根據(jù)訓(xùn)練集數(shù)據(jù)訓(xùn)練預(yù)測模型,以在測試集數(shù)據(jù)上預(yù)測測試集里91名學(xué)生第三學(xué)期的相對成績排名。預(yù)測結(jié)果需要按91名學(xué)生的學(xué)號遞增的順序給出,并按照regression-SpearmanR算法計算預(yù)測結(jié)果和真實排名的Spearman相關(guān)性,相關(guān)性在[0,1]區(qū)間內(nèi),越接近于1,表示預(yù)測結(jié)果和真實排名越接近,具體計算公式如下:
其中,pi,ri分別表示第i個學(xué)生預(yù)測的相對排名和真實的相對排名,n代表學(xué)生數(shù),i=1,2,…,n。這里預(yù)測結(jié)果的Spearman相關(guān)性的計算是由DataCastle根據(jù)提交的結(jié)果進(jìn)行的。
該評測的目的在于:一方面,就評測內(nèi)容本身來說,通過預(yù)測結(jié)果,使得教育和學(xué)習(xí)更有目的性和針對性。首先,可以幫助學(xué)校制定合理的教學(xué)計劃,對可能成績下滑嚴(yán)重的同學(xué)提出警示,并開展有針對性的教育教學(xué)任務(wù);其次,學(xué)生通過觀察自己可能出現(xiàn)的成績,自我調(diào)整,成績好的可以保持現(xiàn)在的學(xué)習(xí)生活習(xí)慣,成績不理想或有巨大下滑的可以通過改進(jìn)現(xiàn)有的學(xué)習(xí)方法和調(diào)整生活作息安排來提高成績,避免成績下滑。另一方面,就評測長遠(yuǎn)意義來說,通過對數(shù)據(jù)的處理、預(yù)測、以及利用新的方法和技術(shù)手段來解決實際問題等過程,為大數(shù)據(jù)行業(yè)注入新的思想和方法以及優(yōu)秀人才,這將會推動整個大數(shù)據(jù)行業(yè)的發(fā)展。
針對該評測,結(jié)合現(xiàn)有的主成分分析方法和多元線性回歸模型,本文提出一種新的預(yù)測模型算法:基于數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法,模型的具體構(gòu)建過程見第二部分。同時,也對預(yù)測結(jié)果進(jìn)行了提交,并就預(yù)測結(jié)果與其它5組預(yù)測方法進(jìn)行了比較,實驗結(jié)果證實了該模型的優(yōu)異性。
本文第二部分為方法概述,詳細(xì)描述了基于數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法的理論。第三部分為實驗部分,包括該模型的結(jié)果、與其它5組預(yù)測方法的比較以及結(jié)果分析。第四部分為總結(jié)部分。
針對給出的數(shù)據(jù)形式,研究考慮對所給信息進(jìn)行數(shù)據(jù)統(tǒng)計,并將統(tǒng)計得到的各學(xué)期每個學(xué)生的借書次數(shù)、進(jìn)入圖書館次數(shù)、校園卡消費(fèi)次數(shù)分別來代替圖書借閱信息、進(jìn)入圖書館門禁信息、學(xué)生卡消費(fèi)信息。該方法的結(jié)構(gòu)流程如圖1所示。
圖1 方法結(jié)構(gòu)圖Fig.1 Structure of the model
由圖1可知,將統(tǒng)計的訓(xùn)練集數(shù)據(jù)進(jìn)行數(shù)據(jù)截斷變換。之后,用得到的變換后訓(xùn)練數(shù)據(jù)對主成分分析回歸預(yù)測方法進(jìn)行訓(xùn)練,直至模型訓(xùn)練完畢。接著,對統(tǒng)計得到的測試集數(shù)據(jù)進(jìn)行數(shù)據(jù)截斷變換,并將變換后的測試數(shù)據(jù)輸入已訓(xùn)練好的主成分分析回歸預(yù)測方法,得到模型輸出結(jié)果,再對結(jié)果進(jìn)行相關(guān)排序,從而得到最終預(yù)測結(jié)果。下面詳細(xì)介紹該方法的實現(xiàn)過程。
對于統(tǒng)計得到的各個變量數(shù)據(jù):3個學(xué)期的借書量B1、B2、B3,進(jìn)入圖書館的次數(shù)E1、E2、E3,校園卡消費(fèi)次數(shù)C1、C2、C3,其中數(shù)值很小或者很大的點(diǎn)只有極少數(shù)。此處需要對每個變量的這些異常數(shù)據(jù)進(jìn)行處理以使得這些極少的數(shù)據(jù)不會在較大程度上影響回歸模型,從而提高預(yù)測結(jié)果的準(zhǔn)確性。研究中利用上、下截斷點(diǎn)作為判斷數(shù)據(jù)異常的準(zhǔn)則。要理解上、下截斷點(diǎn),首先得給出上、下四分位數(shù)Q3、Q1的概念。所謂上、下四分位數(shù)即為在一組從小到大的已經(jīng)完成排序的數(shù)據(jù)中處在3/4位置和1/4位置的數(shù)據(jù)。在此概念基礎(chǔ)上,上截斷點(diǎn)T1就可以由以下公式得出:
而下截斷點(diǎn)T0則可以由以下公式得出:
其中,R1=Q3-Q1表示的是四分位極差[6]。
計算得到了上、下截斷點(diǎn)后,將對統(tǒng)計數(shù)據(jù)x(x∈B1,B2,…,C3)進(jìn)行如下數(shù)據(jù)截斷變換:
這里的T0、T1即為對應(yīng)的x所取變量的下截斷點(diǎn)和上截斷點(diǎn)。
從所給變量來看,能影響第三學(xué)期成績的預(yù)測因素有:前兩學(xué)期的學(xué)生成績S1、S2,3個學(xué)期的借書量B1、B2、B3,進(jìn)入圖書館的次數(shù)E1、E2、E3,校園卡消費(fèi)次數(shù)C1、C2、C3。考慮到影響因素眾多,而研究中卻希望能用較少的變量來盡可能詳實地構(gòu)建表達(dá)第三學(xué)期的成績排名。降維的思想即已成為關(guān)鍵,這里采用的是主成分分析法[7-9]。主成分分析是多元統(tǒng)計學(xué)科中分析數(shù)據(jù)的一個重要方法,能夠有效地減少影響因變量的因素,起到降低自變量維數(shù)的作用。同時,研究發(fā)現(xiàn)這些自變量中還有一些信息的重疊,如第一學(xué)期和第二學(xué)期的成績排名,第一學(xué)期借書量和第二學(xué)期借書量等,用如上量值表達(dá)對第三學(xué)期成績的影響時,重疊信息即會成為冗余性工作,只會增加計算量并可能會對結(jié)果形成負(fù)面的影響。而主成分分析則能夠?qū)⒆宰兞恐杏兄丿B部分的信息合并在一起,再通過線性變換將原來相關(guān)的變量轉(zhuǎn)化為不相關(guān)的變量,合成后的新變量兩兩之間則彼此互不相關(guān),并且新變量還能盡量地保留原來自變量的指示信息。變換的具體形式可如下所示:
用原來11個變量的線性組合形成的新變量來代替舊變量,并且新變量要盡可能多地涵蓋所有舊變量的信息,也就是新變量的方差越大、整體實現(xiàn)效果越佳。選取方差最大的新變量Yk1(k1∈{1,2,…,11})為第一主成分,如果第一主成分所涵蓋的信息不足以代表原來的11個變量信息,則在剩下的新變量中再選取方差最大的Yk2(k2∈{1,2,…,11}/{k1}),作為第二主成分,以此類推,直到選取的所有主成分信息足夠涵蓋原來舊的變量信息(在90%以上即可)。同時為了避免有如舊變量一樣的信息重復(fù),主成分之間必須是線性無關(guān)的,故在做變量的線性組合(5)時,選擇的系數(shù)就必須滿足一定條件以使新變量兩兩之間均能呈現(xiàn)為線性無關(guān)。下述引理即已給出了主成分選擇的方法。
引理1[6]當(dāng)總體X=(X1,X2,…,Xp)T的協(xié)方差矩陣∑=(aij)p已知時,設(shè)協(xié)方差矩陣∑的特征值是λ1≥λ2≥…≥λp≥0,對應(yīng)的單位正交特征向量為e1,e2,…,ep,則X的第k個主成分為:
結(jié)合以上引理,通過求解原來11個影響變量的協(xié)方差矩陣、協(xié)方差矩陣的特征值以及單位正交特征向量,就可以得到滿足條件的主成分。此時再根據(jù)對應(yīng)的主成分所包含的原來變量的信息,選取所需要的主成分。在主成分選取完成后,就可基于主成分變量進(jìn)行多元線性回歸模型的訓(xùn)練。回歸模型訓(xùn)練結(jié)束后,對測試集數(shù)據(jù)實施預(yù)測[10-12]。
在這一部分,研究擬定將該模型與其它5組預(yù)測模型進(jìn)行比較,并對該模型的優(yōu)劣性質(zhì)及表現(xiàn)展開分析。
2.1基于數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法
該實驗采用未變換的統(tǒng)計數(shù)據(jù)與經(jīng)過數(shù)據(jù)截斷變換(4)的數(shù)據(jù)進(jìn)行主成分分析回歸預(yù)測分析,并將結(jié)果進(jìn)行比對以判定模型優(yōu)劣。其中以3個學(xué)期的借書量為例,分布結(jié)果如圖2所示。
圖2 未變換數(shù)據(jù)與變換后數(shù)據(jù)Fig.2 Untransformed data and transformed data
圖2中上面3幅為3個學(xué)期的借書量與人數(shù)的分布圖,而下方3幅為經(jīng)過數(shù)據(jù)截斷變換之后的借書量與人數(shù)的分布圖。從圖中可以看到經(jīng)過數(shù)據(jù)變化之后兩端的數(shù)據(jù)都變少了(大于上截斷點(diǎn)的數(shù)據(jù)以及小于下截斷點(diǎn)的數(shù)據(jù)均被縮小和放大了)。同時,研究中也對其余的幾個統(tǒng)計變量進(jìn)行同樣的變換處理。利用處理過的數(shù)據(jù)(訓(xùn)練集和測試集)進(jìn)行主成分分析回歸預(yù)測方法的訓(xùn)練以及預(yù)測,得到結(jié)果如表1所示。
通過提交2組結(jié)果,對比預(yù)測準(zhǔn)確率可以看出,經(jīng)過數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法比基于未變換數(shù)據(jù)的主成分分析回歸預(yù)測方法的預(yù)測準(zhǔn)確率要更顯優(yōu)越,由此證明了數(shù)據(jù)截斷變換的有效性。
表1 主成分分析回歸預(yù)測方法準(zhǔn)確率對比Tab.1 Spearman accuracy of PCA
2.2不同預(yù)測方法的比較
為了驗證本方法的有效性,本節(jié)將考慮其他參賽者使用的數(shù)據(jù)變換—拉依達(dá)變換,和預(yù)測模型—BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型。
所謂拉依達(dá)法又稱拉依達(dá)準(zhǔn)則、3σ準(zhǔn)則,是指對于一個變量x的一組樣本數(shù)據(jù)x1,x2,…,xn,記其平均值為,標(biāo)準(zhǔn)差為σ,則對于這組數(shù)據(jù)中的點(diǎn)xi,如果滿足:
即可判定點(diǎn)xi是誤差粗大值的壞點(diǎn),應(yīng)將其剔除[13]。對于統(tǒng)計變量B1,B2,…,C3,可以采用拉依達(dá)法進(jìn)行誤差粗大值的剔除,去除數(shù)據(jù)中不好的那些點(diǎn)。同時在選取樣本時,實際選取了所有這些學(xué)生,學(xué)生的各種統(tǒng)計變量的值都沒有被剔除,也就是其各項指標(biāo)都不是誤差粗大值的壞點(diǎn),研究中就將用拉依達(dá)法剔除壞點(diǎn),并選取剔除之后的樣本的過程叫做拉依達(dá)變換。
BP神經(jīng)網(wǎng)絡(luò)是一種誤差反向傳播的神經(jīng)網(wǎng)絡(luò)[14],通過梯度下降法使傳遞誤差達(dá)到最小值,進(jìn)而反向調(diào)整神經(jīng)網(wǎng)絡(luò)中鏈接的權(quán)值,使得模型得到的實際結(jié)果和真實結(jié)果誤差達(dá)到最小。該模型是一種有監(jiān)督的學(xué)習(xí)模型,具有現(xiàn)實鮮明的自組織和自適應(yīng)能力,在很多領(lǐng)域中都有廣泛的應(yīng)用[15-17]。對于最簡單的隱含層只有一層的BP神經(jīng)網(wǎng)絡(luò),具體的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可如圖3所示。
圖3 BP-神經(jīng)網(wǎng)絡(luò)拓?fù)鋱DFig.3 Topological graph of BP-neural network
對于經(jīng)過拉依達(dá)變換的數(shù)據(jù),對應(yīng)的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型訓(xùn)練則如圖4及圖5所示。
圖4為用經(jīng)過拉依達(dá)變換的數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)預(yù)測模型的效果預(yù)測時,誤差和訓(xùn)練時間的關(guān)系圖,可以看出誤差逐漸趨向于一個恒定的值,在一定時間之后基本保持誤差在極小值的一個最佳區(qū)間范圍內(nèi),此時已達(dá)到訓(xùn)練的目的。圖5為用經(jīng)過拉依達(dá)變換的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練之后的擬合程度,從中能夠看到網(wǎng)絡(luò)輸出值和真實值的擬合度已高達(dá)0.957 47。此時,網(wǎng)絡(luò)中的各個參數(shù)已訓(xùn)練完畢。
圖4 基于數(shù)據(jù)拉依達(dá)變換的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程Fig.4 Training process of BP-neural network based on Pau Ta transformation
圖5 基于數(shù)據(jù)拉依達(dá)變換的神經(jīng)網(wǎng)絡(luò)訓(xùn)練擬合結(jié)果Fig.5 Fitting result of the BP-neural network based on Pau Ta transformation
此后,還進(jìn)行了一系列組合對比試驗,可得實驗結(jié)果如表2所示。
表2 各預(yù)測模型預(yù)測準(zhǔn)確度Tab.2 Spearman accuracy of models
通過分析表2可以得出,基于數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法具有最高的預(yù)測準(zhǔn)確度。無論是基于哪類數(shù)據(jù),主成分分析回歸預(yù)測方法的結(jié)果比BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型預(yù)測結(jié)果都要表現(xiàn)出更高的準(zhǔn)確度;而基于數(shù)據(jù)截斷變換的測試數(shù)據(jù)預(yù)測結(jié)果在準(zhǔn)確度上則要明顯超出基于統(tǒng)計的測試數(shù)據(jù)以及基于拉依達(dá)變換的測試數(shù)據(jù)的實驗效果。
2.3結(jié)果分析
在第二部分方法概述里所介紹了主成分分析回歸預(yù)測方法的構(gòu)建,這也可以映射得出其具備的特點(diǎn),將有關(guān)聯(lián)的變量轉(zhuǎn)化為獨(dú)立的變量,在做回歸分析的時候就能夠訓(xùn)練出更精確的回歸模型,最終結(jié)果中也證明了主成分分析的優(yōu)異性。
對于BP神經(jīng)網(wǎng)絡(luò)的不佳表現(xiàn),則是因BP神經(jīng)網(wǎng)絡(luò)的特性所致。對于訓(xùn)練集數(shù)據(jù),擬合程度可以很高,這既是優(yōu)點(diǎn),也已成為缺點(diǎn)。過度擬合的模型對測試集的數(shù)據(jù)進(jìn)行預(yù)測,將不會得到理想中的預(yù)測準(zhǔn)確度。為了得到更好的準(zhǔn)確度,就需要不斷地調(diào)試與訓(xùn)練集相關(guān)聯(lián)的目標(biāo)模型,從而使得對于測試集預(yù)測結(jié)果能達(dá)到最優(yōu),這將會是一項費(fèi)時費(fèi)力的工作。
另外,分析基于拉依達(dá)變換的預(yù)測準(zhǔn)確度要比基于數(shù)據(jù)截斷變換的預(yù)測準(zhǔn)確度略低這一結(jié)果事實可知,則是由于在涉及拉依達(dá)變換進(jìn)行樣本的剔除過程中,一些“重要”的數(shù)據(jù)點(diǎn)信息被刪除了,而利用這些殘缺的數(shù)據(jù)信息訓(xùn)練出來的模型將無法完整表達(dá)變量內(nèi)部之間的聯(lián)系,用測試集數(shù)據(jù)做預(yù)測時預(yù)測準(zhǔn)確度就不會高。而經(jīng)過數(shù)據(jù)截斷變換的數(shù)據(jù)則因沒有剔除掉這些異常樣本,而只是在原有的數(shù)據(jù)基礎(chǔ)上進(jìn)行了一定的壓縮,相比較拉依達(dá)變換而言,過程中保留了所有的原始樣本,因而信息繼承較為完好。
本文針對的問題是:預(yù)測學(xué)生未來成績排名,結(jié)合現(xiàn)有的一些方法和手段提出了基于數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法,并在實驗部分對預(yù)測準(zhǔn)確度進(jìn)行了討論,對比了其它5組預(yù)測方法,實驗結(jié)果證明基于數(shù)據(jù)截斷變換的主成分分析回歸預(yù)測方法比其它5組方法的預(yù)測準(zhǔn)確度要高。得到的模型可以對其它相關(guān)問題進(jìn)行預(yù)測分析,同時下一步的工作即是需對數(shù)據(jù)處理和預(yù)測模型做進(jìn)一步的改進(jìn),以提高預(yù)測準(zhǔn)確率。
[1]鳳英.現(xiàn)代氣候統(tǒng)計診斷與預(yù)測技術(shù)[M].北京:氣象出版社,1999.
[2]吳世農(nóng),盧賢義.我國上市公司財務(wù)困境的預(yù)測模型研究[J].經(jīng)濟(jì)研究,2001,6(2008):4.
[3]李連弟,魯鳳珠,張思維,等.中國惡性腫瘤死亡率20年變化趨勢和近期預(yù)測分析[J].中華腫瘤雜志,1997,19(1):3-9.
[4]孫秀娣,牧人,周有尚,等.中國胃癌死亡率20年變化情況分析及其發(fā)展趨勢預(yù)測[J].中華腫瘤雜志,2004,26(1):4-9.
[5]楊玲,李連弟,陳育德.中國2000年及2005年惡性腫瘤發(fā)病死亡的估計與預(yù)測[J].中國衛(wèi)生統(tǒng)計,2005,22(4):218-221.
[6]李柏年,吳禮斌.MATLAB數(shù)據(jù)分析方法[M].北京:機(jī)械工業(yè)出版社,2012.
[7]JOLLIFFE I.Principal component analysis[M].New York:John Wiley&Sons,Ltd,2002.
[8]WOLD S,ESBENSEN K,GELADI P.Principal component analysis[J]. Chemometrics and intelligent laboratory systems,1987,2(1):37-52.[9]ABDI H,WILLIAMS L J.Principal component analysis[J].Wiley Interdisciplinary Reviews:Computational Statistics,2010,2(4):433-459.
[10]AIKEN L S,WEST S G,PITTS S C.Multiple linear regression[J]. Handbook of Psychology,2003,4(19):481-507.
[11]KUTNER M H,NACHTSHEIM C,NETER J.Applied linear regression models[M].New York:McGraw-Hill/Irwin,2004.
[12]ANDREWS D F.A robust method for multiple linear regression[J]. Technometrics,1974,16(4):523-531.
[13]ZHANG L,QIN Y,ZHANG J.Study of polynomial curve fitting algorithm for outlier elimination[C]//Computer Science and Service System(CSSS)2011,International Conference on.Nanjing:IEEE,2011:760-762.
[14]MCCLELLAND J L,RUMEHART D E.Parallel Distributed Processing(Two Volumes)[M].Cambridge,Massachusetts:MIT press,1986.
[15]PATTERSONDW.Artificialneuralnetworks:theoryand applications[M].New Jersey:Prentice Hall PTR,1998.
[16]劉洪蘭,張強(qiáng),張俊國,等.BP神經(jīng)網(wǎng)絡(luò)模型在伏旱預(yù)測中的應(yīng)用——以河西走廊為例[J].中國沙漠,2015(35):474-478.
[17]ZHANG G,PATUWO B E,HU M Y.Forecasting with artificial neural networks:The state of the art[J].International journal of forecasting,1998,14(1):35-62.
A new regression model of principal component analysis based on the data with truncated transformation
SU Jia,GUAN Yi
(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)
Combine with principal component analysis and multiple linear regression methods,a new regression model based on the data with truncated transformation is proposed in the prediction of students’future performance at school,one of the tracks of 2014 DataCastle.Experiments show that compared with other predict methods,the proposed model perform in an efficient way.The accuracy of the proposed model reaches highly as 78.57%,better than any others methods,and ranks in the top ten percent of the ranklist.This model not only has the availability in this area,but also can be used in other prediction researches.
truncated transformation;principal component analysis;multiple linear regression;predict
TP391
A
2095-2163(2016)03-0001-05
2015-12-13
蘇 嘉(1991-),男,博士研究生,主要研究方向:醫(yī)療健康信息學(xué)、自然語言處理、機(jī)器學(xué)習(xí);關(guān) 毅(1970-),男,博士,教授,博士生導(dǎo)師,主要研究方向:自然語言處理、醫(yī)療健康信息學(xué)、認(rèn)知語言學(xué)等。