劉 昊
體育成績預測可以反映體育項目運動成績的變化態(tài)勢,幫助學校、運動隊、體育培訓機構制定科學的訓練方法,為運動員和教練提供有價值的參考意見,以促進體育教學和體育訓練的改革,因此體育成績預測一直是體育研究領域的熱點[1]。
針對體育成績預測問題,國內(nèi)許多研究機構和科研院所都進行了廣泛、深入的研究,涌現(xiàn)出了許多體育成績預測模型。當前體育成績預測主要分為兩類:線性預測模型和非線性預測模型,線性預測模型主要包括多元線性回歸分析、自回歸求和滑動平均等[2],取得了不錯的應用效果,而體育成績與多種因素有聯(lián)系,各種因素之間又相互作用,導致體育成績變化十分復雜,但是線性模型假設體育成績一種周期性或上升的變化趨勢,這與體育成績實際變化特點不相符,應用范圍具有局限性[3]。非線性體育模型主要包括神經(jīng)網(wǎng)絡、灰色模型、馬爾可夫鏈以及支持向量機等[4],它們對體育成績與影響因子之間的變化關系進行擬合,它們以較高的精度逼近體育成績變化函數(shù),取得了比線性模型更高的預測精度。然而在實際應用中,這些模型也存在一定的缺陷,如灰色模型、馬爾可夫鏈要求體育成績與歷史數(shù)據(jù)變化是相吻合的,而且體育具有一定的非線性變化特點,這樣假設常常不能夠滿足;當學習本數(shù)量有限時,神經(jīng)網(wǎng)絡的預測精度比較低,而當學習本數(shù)量比較大時,卻易出現(xiàn)“維數(shù)災”、“過擬合”等問題;支持向量機的泛化能力好,但是學習速度比較慢,當訓練樣本比較大時,建模時間十分驚人,實際應用價值差[5,6]。相關向量機(RVM)是一種新發(fā)展起來的非線性學習算法,是一種基于高斯過程模型的稀疏概率模型,解決了神經(jīng)網(wǎng)路“過擬”等不足,同時具有較好的學習效率,避免了支持向量機學習過程耗時的缺陷,在網(wǎng)絡流量、陀螺儀隨機漂移補償?shù)确蔷€性預測領域取得了成功的應用[6]。然而相關向量機作為一種新型的學習算法,在應用實際中,核函數(shù)選擇十分關鍵,當前還沒有一個統(tǒng)一指導理論,全憑經(jīng)驗進行設置,影響相關向量機的預測性能[7]。
結合體育成績復雜的變化特點,利用相關向量機的非線性建模優(yōu)勢,建立了一種基于組合核函數(shù)相關向量機的體育成績預測模型,并通過多個預測實例對模型的性能進行綜合測試與分析。
設收集到的體育成績組成一個序列{y1,y2,…,yn},由于當前體育成績yi與其影響因子有關,它們之間存在一定的非線性變化關系,即有:
式中,d為輸入向量的嵌入維數(shù),其通過主成分分析進行選擇;f()為非線性映射函數(shù)。
對式(1)進行分析可知,在體育成績建模過程中,非線性映射函數(shù)f()的擬合是關鍵,當前擬合該函數(shù)的算法相當多,本文采用相關向量機進行逼近非線性映射函數(shù)f(),建立體育成績預測模型。
式中,ωi為噪聲。
可以通過核函數(shù)K(x,xi)的線性組合形式描述相關向量機,即
其中,w=[w0,w1,…,wN]T為權值向量。
相關向量機的概率模型可以描述為:
引入一個超參數(shù)β,將整個訓練樣本數(shù)據(jù)組的似然函數(shù)表示為:
其中t=[t0,t1,…,tN]T,φ∈RN×(N+1)為設計矩陣。
將wj的先驗分布定義為滿足0為均值,為方差的高斯分布,表示為:
其中,a=[a0,a1,…,aN]T為超參數(shù)。
利用式(4)和(5),根據(jù)貝葉斯公式即可得到w后驗分布的數(shù)學表達式:
式中,p(w|a)與p(t|w,β)皆為高斯分布。
p(t|a,β)中不含有w,則可將其看作一個系數(shù),因此可寫為:
式中,∑是協(xié)方差矩陣,μ是均值向量,它們分別為:
其中,A=diag(a0,a1,…,aN)。
w的后驗分布就必須對β和aj進行優(yōu)化,可得到aj和β的計算公式:
其中,μj為μ的第j個元素,∑jj是矩陣∑的第j個對角元。
重復上述步驟進行相向量機訓練,同時更新∑和μ,直到達到最大迭代次數(shù),對于新輸入的一組數(shù)據(jù)x*,其對應的輸出為t*。
在相關向量的體育成績建模與預測過程,首先要解決的一個問題就是核函數(shù)的選擇。由于任何函數(shù)均可以作為相關向量機的核函數(shù),然而不同核函數(shù)可以建模不同類別和性能的相關向量,目前核函數(shù)眾多,不同核函數(shù)均有各自的優(yōu)缺點,當前相向量機的核函數(shù)主要為多項式和徑向基核函數(shù),它們分別定義如下:
多項式核函數(shù)泛化能力比較強,但學習能力差,徑向基核函數(shù)剛好相反,學習能力強,泛化能力差,利用兩者的優(yōu)勢,構造一種組合核函數(shù),具體形式如下:
式中,ρ1和ρ2為兩個函數(shù)權重。
(1)首先進行體育成績歷史樣本收集,并采用主成分分析選擇輸入向量,建立將體育成績的訓練集和測試集,然后根據(jù)式(17)對它們進行歸一化處理。
式中,xmin和xmax分別為最小和最大值函數(shù)。
(2)分別令ρ1=1,ρ2=0和ρ1=0,ρ2=1計算多項式核函數(shù)和徑向基核函數(shù)最優(yōu)核參數(shù)。
(3)根據(jù)多項式核函數(shù)和徑向基核函數(shù)最優(yōu)核參數(shù),采用粒子群算法對最優(yōu)ρ1和ρ2的值進行確定。
(4)根據(jù)最優(yōu)組合核函數(shù)參數(shù),采用訓練集對組合核函相關向量機進行訓練,建立基于組合核函數(shù)的相關向量成績成體預測模型模型,并對測試集進行預測,輸出體育成績的預測結果。
綜合上述可知,基于組合核函數(shù)相關向量機的體育成績預測模型工作流程如圖1所示。
圖1 體育成績的組合核函數(shù)相關向量機的工作流程
本文數(shù)據(jù)采用中南財經(jīng)政法大學的1000個學生(女生)立定跳遠成績(y),影響因子為:身高(x1:cm)、體重(x2:kg)、肺活量(x3:ml)、50米跑(x4:s)、坐位體前屈(x5:cm)、800米跑(x6:s)、一分鐘仰臥起坐(x7:次),部分數(shù)據(jù)見表1所示。
表1 立定跳遠成績與其影響因子的值
表1中的身高、體重、肺活量、50米跑、坐位體前屈、800米跑、一分鐘仰臥起坐之間影響,而且存在一定的重復消息,因此對它們進行主成分分析,影響因子的相關系數(shù)如表2所示,主成分方差累計貢獻率如圖2所示,從圖2可知,前4個主成分的累計貢獻率達到90%以上,因此可以選擇這4個主成分作為立定跳遠成績預測模型的輸入向量,從而建立立定跳遠成績的學習樣本。
表2 影響因子的相關系數(shù)分析結果
圖2 體育成績的主成分方差累計貢獻率
3.3.1 組合核函數(shù)相關向量機的預測性能分析
隨機選擇900個樣本組成立定跳遠成績的訓練集,對組合核函數(shù)相關向量機進行訓練,并采用對粒子群算法確定最優(yōu)的ρ1=0.45,ρ2=0.55,建立立定跳遠成績的預測模型,然后對100個立定跳遠成績測試樣本進行預測,預測結果與預測偏差變化曲線如圖3和圖4所示,從圖3可知,立定跳遠成績的預測值與實際值變化趨勢十分相似,組合核函數(shù)相關向量機得到了十分理想的立定跳遠成績結果,同時從圖4可知,立定跳遠成績的預測值與實際值之間的偏差比較小,而且預測偏差變化幅度也比較小,實驗結果表明,本文將組合核函數(shù)相關向量機引入到立定跳遠成績預測中是可行的、有效的。
圖3 組合核函數(shù)相關向量機的預測值與實際值擬合曲線
圖4 組合核函數(shù)相關向量機的預測偏差變化曲線
3.3.2 與其它體育預測模型的性能對比
為了使組合核函數(shù)相關向量機的預測結果更具有說服力,選擇自回歸求和滑動平均、組合核函數(shù)支持向量機、RBF神經(jīng)網(wǎng)絡作為對比模型,并采用采用均方根誤差(RMSE)和平均相對百分比誤差(MPAE)進行衡量,它們定義為:
式中,n表示樣本數(shù)。
自回歸求和滑動平均、支持向量機、RBF神經(jīng)網(wǎng)絡和組合核函數(shù)相關向量機的RMSE、MAPE的值如表3所示。從表3知:
(1)ARIMA預測結果的RMSE、MAPE值均較大,這主要是由于ARMA假設立定跳遠成績是一種規(guī)律性的變化趨勢,難以描述立定跳遠成績中的非線性變化趨勢,導致預測的誤差較大。
(2)RBF神經(jīng)網(wǎng)絡預測結果的RMSE、MAPE值也比較大,主要是由于RBF神經(jīng)網(wǎng)絡是一種基于經(jīng)驗風險最小化的學習算法,易出現(xiàn)“過擬合”、“欠學習”缺陷,不能有效建立準確描述立定跳遠成績變化特點的預測模型,而且預測結果極不穩(wěn)定,有時偏差超過立定跳遠成績的實際應用要求。
(3)組合核函數(shù)支持向量機和組合核函數(shù)相關向量機預測結果的RMSE、MAPE相對較小,主要是由于它們均是基于結構風險最小化原則建模,較好的擬合了立定跳遠成績的變化特點,提高了立定跳遠成績的預測精度,預測結果更加理想,但是和組合核函數(shù)相關向量機預測性能要優(yōu)于支持向量機,而且克服支持向量機的學習速度慢的缺陷,提高體育成績的建模效率。
表3 不同模型的立定跳遠成績預測誤差對比
3.3.3 組合核函數(shù)相關向量機的通用性測試
選擇學生的50米跑成績、(女生)800米跑成績、(男生)1000米跑成績、(女生)一分鐘仰臥起坐成績進行通用性測試,組合核函數(shù)相關向量機預測結果的RMSE、MAPE如表4所示。從表4可知,對于所有的體育成績,組合核函數(shù)相關向量機預測的RMSE均比較小,而且MAPE的值控制在了5%以內(nèi),可以滿足體育成績實際應用要求。
表4 組合核函數(shù)相關向量機的不同體育成績預測誤差
為了對體育成績進行準確預測,避免單一核函數(shù)的不足,建立了一種基于組合核函數(shù)相關向量機的體育成績預測模型,實驗結果表明,組合核函數(shù)相關向量機不僅獲得了較好的體育預測精度,而且具有優(yōu)良的通用性,為體育成績預測提供了一種建模工具。
[1] 趙波.十項全能世界頂尖男子運動員成績分析及預測研究[J].體育文化導刊,2013,3(3).
[2] 鄧美蘭等.奧運會男子十項全能前三名成績的灰色預測模型的研究[J].數(shù)學的實踐與認識,2009,(18).
[3] 孫群,劉國璧,程偉等.基于模糊神經(jīng)網(wǎng)絡的劉翔110m欄成績預測[J].重慶科技學院學報(自然科學版),2011,10(2).
[4] 龍斌.基于支持向量機的劉翔110m欄成績預測[J].天津體育學院學報,2009,24(4).
[5] 李征宇,閆生.神經(jīng)網(wǎng)絡模型在運動成績預測中的應用[J].哈爾濱體育學院學報,2009,27(2).
[6] 馬登武,范庚,張繼軍.相關向量機及其在故障診斷與預測中的應用[J].海軍航空工程學院學報,2013,28(2).
[7] 楊柳,張磊,張少勛等.單核和多核相關向量機的比較研究[J].計算機工程,2010,36(12).