戴鈺璁+王清華
摘要:綜合運用時間序列指數(shù)平滑法、一元線性回歸和層次分析法等數(shù)據(jù)挖掘方法,預(yù)測第32屆奧運會獎牌榜排名。首先從縱向的角度,利用奧運會歷史成績數(shù)據(jù),運用時間序列指數(shù)平滑法預(yù)測出第32屆奧運會主要國家地區(qū)的金牌占比排名;然后從橫向的角度,采用一元線性回歸方法,分析國內(nèi)生產(chǎn)總值與奧運會金牌數(shù)量之間的關(guān)系;在歸納了影響奧運會獎牌榜排名的主要因素的基礎(chǔ)上,采用層次分析法,建立了綜合預(yù)測模型,并根據(jù)歷史成績、國內(nèi)生產(chǎn)總值、人口、東道主的排名,計算出了有望在第32屆進入前十的14個國家地區(qū)的得分,最后預(yù)測了獎牌榜排名前十名的國家,并進行了拓展分析,研究結(jié)果對我國備戰(zhàn)第32屆奧運會具有一定的參考價值。
關(guān)鍵詞:奧運會獎牌榜排名;國內(nèi)生產(chǎn)總值;人口數(shù)量;東道主;指數(shù)平滑法;一元線性回歸;層次分析法;R語言;Excel
中圖分類號:G811.8 文獻標識碼:A 文章編號:1009-3044(2017)26-0215-05
Abstract:This paper focus on predicting the 32nd Olympic Games medal ranking by data mining methods including exponential smoothing of time series, linear regression and analytic hierarchy process. First, we use history medal counts to predict the gold medal rankings of the major countries in the 32nd Olympic Games by exponential smoothing method. Then, the relationship between GDP and Olympic gold medal counts by linear regression is studied by linear regression. Based on such results, a comprehensive forecast model is established using historical Olympic medal counts, GDP and rankings of Olympic host by analytic hierarchy process, and scores for the 14 countries that is possible to be the top 10 of the 32nd Olympic Games is calculated. Finally, top 10 is predicted through the scores, and extensive analysis is provided. Our results shed light on the preparation of the 32nd Olympic Games for China.
Key words:olympic Games medal ranking; GDP;olympic host; exponential smoothing of time series; linear regression; analytic hierarchy process;R;Excel
1 概述
奧林匹克運動會(在本文中的奧運會特指夏季奧運會,簡稱奧運會)是目前世界規(guī)模最大的綜合性運動會,奧運獎牌榜排名是各個國家和地區(qū)人們在奧運會期間熱議的話題,也是從事體育運動相關(guān)人員在備戰(zhàn)第32屆奧運會特別關(guān)注的問題,那么第32屆奧運會獎牌榜排名情況如何,特別是獎牌榜排名前十名是哪些國家呢?本文運用數(shù)據(jù)挖掘的方法,對第32屆奧運會獎牌榜排名進行了預(yù)測分析。
國內(nèi)不少學者對奧運會獎牌榜問題進行了相關(guān)研究。王宇鵬,許健等對奧運會獎牌榜影響因素進行了實證分析,以20-28屆夏季奧運會的數(shù)據(jù)為樣本,建立了多變量計量經(jīng)濟模型,定量分析了國家經(jīng)濟實力、人口數(shù)量、東道主效應(yīng)、人種、文化傳統(tǒng)、國家體制等6個奧運會獎牌榜的影響[1];郭愛民、趙明發(fā)根據(jù)第25屆至第30屆連續(xù)6屆奧運會獎牌排前十的國家獲得的金、銀、銅牌數(shù)量,建立了GM(1.1)模型,并計算出第31屆奧運會十國金、銀、銅牌數(shù)量并給予排序[2]。趙慧娟通過回歸方程定量分析GDP與奧運會獎牌數(shù)量的關(guān)系,預(yù)測第30屆奧運會前五名國家的排名[3]。這些研究成果主要是研究影響奧運會獎牌榜排名影響因素,或是建立預(yù)測模型計算獎牌數(shù)量,但是由于每一屆奧運會設(shè)置的獎牌總數(shù)不同,而且影響?yīng)勁偏@取的因素很復雜,很難精確預(yù)測各國將獲得的獎牌數(shù)量,通過單一的線性回歸分析方法存在較大的預(yù)測誤差。本文在總結(jié)這些研究成果的基礎(chǔ)上,利用各個國家和地區(qū)奧運會歷史成績、國內(nèi)生產(chǎn)總值、人口等數(shù)據(jù),綜合運用時間序列指數(shù)平滑法、一元線性回歸和層次分析法,對第32屆奧運會獎牌榜排名進行了預(yù)測。具體的研究思路包括以下四個步驟。
(1) 數(shù)據(jù)準備
利用R語言編寫了網(wǎng)絡(luò)爬蟲程序(程序詳見附錄),從國家體育總局官網(wǎng)爬取了第1屆到第30屆奧運會獎牌榜(官網(wǎng)只有第1屆到30屆獎牌榜數(shù)據(jù))[4],從奧林匹克運動會官網(wǎng)下載了第31屆獎牌榜數(shù)據(jù),并對歷屆獎牌數(shù)進行了匯總,并計算了在第31屆排名前14國家和地區(qū)在第23屆到第31屆金牌占比1,并保存到Excel文件中。從聯(lián)合國數(shù)據(jù)中心官網(wǎng)下載了2015年人口數(shù)據(jù)[5],從世界銀行數(shù)據(jù)庫官網(wǎng)下載了2015年國內(nèi)生產(chǎn)總值數(shù)據(jù)[6],從國際貨幣基金組織數(shù)據(jù)庫官網(wǎng)下載了2016年至2020年的GDP預(yù)測數(shù)據(jù),對下載數(shù)據(jù)進行整理,并保存到Excel文件中[7]。endprint
(2) 縱向分析
根據(jù)第23屆到第31屆奧運會獎牌金牌占比數(shù)據(jù),利用R語言指數(shù)平滑預(yù)測函數(shù)ets對近幾屆排名靠前的國家和地區(qū),逐一進行指數(shù)平滑預(yù)測。
(3) 橫向分析
通過Excel工具,利用一元線性回歸分析方法,分析國內(nèi)生產(chǎn)總值對奧運金牌數(shù)量的影響。
(4) 利用層次分析法,建立預(yù)測模型
①影響奧運會獎牌榜排名因素分析
借鑒其他學者的研究成果,歸納總結(jié)影響奧運會獎牌榜排名的主要因素。
②建立層次分析模型
根據(jù)影響奧運會獎牌排名的主要因素,建立判斷矩陣,利用R語言權(quán)重計算程序,計算權(quán)重,并進行一致性檢驗。
③計算分值,得出結(jié)論
根據(jù)歷史奧運成績、國內(nèi)生產(chǎn)總值、人口和東道主排名得出各個國家和地區(qū)的分數(shù),再根據(jù)權(quán)重,計算總分,然后排序得出排名。
2 利用奧運會歷史成績縱向分析
奧運歷史成績是由時間要素和不同時間上的數(shù)據(jù)要素組成,具有鮮明的時間序列性質(zhì),因此可以采用時間序列分析方法,通過對不同時間數(shù)據(jù)的動態(tài)變化和發(fā)展過程進行定量分析,時間序列趨勢的測定主要有[8]:時距擴大法、移動平均法、趨勢回歸法和指數(shù)平滑法。時距擴大法和移動平均法可以繪制出趨勢線,并定性地判斷出長期趨勢方向,但這兩種方法不能給出數(shù)據(jù)變量隨時間的定量關(guān)系,因此不適合用來進行預(yù)測,在本文中采用指數(shù)平滑法進行預(yù)測分析。
由于我國從第23屆正式參加奧運會,俄羅斯從第26屆開始參加奧運會,因此分析以第23屆到第31屆夏季奧運會的歷史數(shù)據(jù)為主。通過國家體育總局官網(wǎng)爬取和整理數(shù)據(jù),得到第23屆至第31屆主要國家地區(qū)金牌占比,如表1所示。
2.1 指數(shù)平滑法預(yù)測模型
采用趨勢回歸方法雖然可以運用趨勢方程進行預(yù)測,但由于所有的預(yù)測均基于同一趨勢回歸方程,無法對時間序列的變動做出反應(yīng)。指數(shù)平滑法采用時間序列本期的實際值與前期對本期預(yù)測值得加權(quán)平均作為本期的預(yù)測值,相當于用本期的實際值對預(yù)測值進行不斷地修正,以適應(yīng)數(shù)據(jù)的變化。預(yù)測的前提是過去存在的各種因素的影響和發(fā)展趨勢在今后繼續(xù)下去,適用于中短期預(yù)測[8]。
由公式(1)可知,每期的預(yù)測結(jié)果需要通過t期實際值和t期預(yù)測值來計算。因此,指數(shù)平滑法預(yù)測需要確定平滑系數(shù)a值。一般的方法是以a=0.1開始,依次加大進行試算,計算預(yù)測誤差[i=1nYi-Y*i],找到最小的平滑系數(shù)a值。R語言的forecast包中的ets()函數(shù),可以自動選取對實際數(shù)據(jù)擬合優(yōu)度最高的模型和平滑系數(shù)[12]。
2.2 分析結(jié)果
利用R語言的ets函數(shù)和數(shù)據(jù)可視化函數(shù)編寫的預(yù)測程序,對表1所示數(shù)據(jù),計算出了第32屆預(yù)測結(jié)果及誤差,如表2所示,并給出了各個國家和地區(qū)的時序折線圖、正態(tài)Q-Q圖、預(yù)測直方圖(限于篇幅,在此選略)。
根據(jù)表2指數(shù)平滑預(yù)測分析結(jié)果,第32屆奧運會金牌占比由多往少的順序是:美國、中國、英國、俄羅斯、德國、意大利、法國、韓國、日本、澳大利亞、匈牙利、巴西、西班牙、荷蘭。
從程序計算給出的正態(tài)Q-Q圖、預(yù)測直方圖來看,模型的殘差基本滿足均值為0的正態(tài)分布,預(yù)測模型比較合理。但是由于影響各個國家獲得的金牌占比因素很多,歷屆數(shù)據(jù)變化大,因此預(yù)測誤差還是比較大。指數(shù)平滑預(yù)測的結(jié)果只能作為預(yù)測的參考依據(jù),不能作為預(yù)測最終排名。
3 利用國家綜合實力進行橫向分析
奧林匹克運動是國家綜合實力的競爭,既是國家經(jīng)濟實力的競爭,也是體育人才的競爭。奧林匹克運動需要國家投入巨大的人力、物力和財力支撐。良好的經(jīng)濟基礎(chǔ)可為運動員提供較好的訓練條件、生活條件和物質(zhì)獎勵,使得運動員具有更高的積極性,得到更好的訓練。一般用國內(nèi)生產(chǎn)總值(GDP)來衡量國家綜合實力。根據(jù)GDP和金牌數(shù)據(jù),采用線性回歸分析方法,定量分析GDP與獲得金牌的關(guān)系。
3.1 一元線性回歸分析模型
Excel提供了回歸分析功能。利用Excel,根據(jù)GDP和金牌數(shù)量畫出散點圖,增加線性趨勢線,由Excel自動計算出擬合方程和擬合度[R2],再利用Excel回歸分析工具計算出擬合優(yōu)度和誤差。
3.2 分析結(jié)果
以2015年各國的GDP和2016年召開的第31屆夏季奧運會獎牌榜數(shù)據(jù)為例,分析GDP對奧運獎牌數(shù)量的影響,具體數(shù)據(jù)如表3所示。
回歸分析結(jié)果如圖2所示。
從圖1、圖2可見,回歸系數(shù)為0.0002,相關(guān)系數(shù)R2為0.7846,通過顯著性水平為0.0005的t檢驗,因此生成的模型具有統(tǒng)計學意義。由模型可以看出GDP和金牌數(shù)量呈正相關(guān)。
4 綜合分析
影響奧運會獎牌榜排名因素很多,因此需要綜合考慮多種影響因素,建立能預(yù)測響奧運會成績的綜合數(shù)學模型。本文運用層次分析法,建立奧運獎牌榜排名預(yù)測模型。
4.1 影響奧運會獎牌榜的主要因素
對于奧運會獎牌榜排名的影響因素研究已經(jīng)有不少學者進行了深入探討,綜合這些學者的研究結(jié)果主要是[1,2,3]:除了國家經(jīng)濟實力因素以外,其他影響奧運會獎牌榜排名的主要因素包括人口數(shù)量、東道主效應(yīng)、人種、地區(qū)文化傳統(tǒng)。
人口數(shù)量。各種體育人才的概率分布在各個國家和地區(qū)是大體相當?shù)模丝诨鶖?shù)越大,擁有優(yōu)秀運動員的數(shù)量越多,在奧運會獲得獎牌的概率就越大。
東道主效應(yīng)。競技體育中的“東道主效應(yīng)”是運動員在自己的國家參加比賽能取得更好的成績。一是東道主國家運動員熟悉生活環(huán)境、運動場所和比賽環(huán)境,有利于比賽水平的發(fā)揮;二是有更多的觀眾加油助威,有利于充分發(fā)揮運動員的潛力;三是東道主國家的運動員由于部分項目可以直接進入決賽階段,從而有更多的參賽機會。從第23屆奧運會到第31屆奧運會來看,東道主國家的排名都比較靠前,如表4所示。endprint
人種。人類一般劃分為蒙古人種、尼格羅人種和高加索人種3類。不同人種的體格特征擅長不同的體育運動,造成了在奧林匹克運動的不同優(yōu)勢。蒙古人種或稱黃種人擅長技巧類項目。尼格羅人種或稱黑種人擅長田征等耐力項目。高加索人種或稱白色人種在田徑、球類、游泳和力量型項目比賽中占據(jù)著天然優(yōu)勢。
文化傳統(tǒng)。由于不同的文化和歷史傳統(tǒng)等因素的影響,各個國家和地區(qū)普及和愛好的運動項目不同,導致各個運動項目的后備人才的數(shù)量和質(zhì)量存在差異,從而影響各個國家在奧運會的表現(xiàn)。
4.2 層次分析法預(yù)測分析
預(yù)測第32屆奧運會獎牌榜排名,除了考慮歷史成績以外,還要考慮其他影響因素。從前面的分析可知,影響預(yù)測結(jié)果的因素很多,但人種和文化傳統(tǒng)等因素難以量化,因此本文選取國內(nèi)生產(chǎn)總值、人口和是否是東道主三個因素,以及歷史成績預(yù)測結(jié)果,采用層次分析法建立預(yù)測模型。
4.2.1 構(gòu)建判斷矩陣
[Ai]表示歷史成績、國內(nèi)生產(chǎn)總值、人口和是否是東道主四個因素,[wi]表示權(quán)重,采用層次分析法的“1~9標度法”(如表5所示),對因素[Ai]和[Aj]進行相互比較判斷,構(gòu)建判斷矩陣A[11],如表6所示。
4.2.2 計算權(quán)重,進行一致性檢驗
利用R語言編寫的權(quán)重計算程序[12](限于篇幅,在此選略),計算得出各項權(quán)重Wi=(0.545 0.315 0.100 0.040),矩陣的相容性檢驗CI=0.047,相容性指標CR= 0.052,通過一致性檢驗。
4.3 預(yù)測結(jié)果計算
設(shè)預(yù)測結(jié)果總分為100分,4個因素的分值分別為100分。各個國家和地區(qū)的各項分值根據(jù)排名計算,排名第一的得100分,排名第二的得98分,排名第三的得96分,依次類推。歷史成績采用第二節(jié)預(yù)測的排名數(shù)據(jù),人口數(shù)據(jù)采用2015年人口數(shù)據(jù),國內(nèi)生產(chǎn)總值GDP數(shù)據(jù)采用國際貨幣基金組織數(shù)據(jù)庫2016年至2020年的預(yù)測數(shù)據(jù)的平均值,排名靠前的14個國家的得分情況如表7所示。
5 結(jié)論及分析
根據(jù)表7,第32屆奧運會獎牌排行榜前十名預(yù)測結(jié)果如表8所示。
從表8排名結(jié)果也可以通過以下證明:
(1) 美國是體育強國,從第1屆奧運會到第31屆奧運會,美國有16次排名第一,9次排名第二,2次排名第三。美國排名第一的可能性較大。
(2) 根據(jù)中國歷年奧運會成績,是逐年穩(wěn)步上升。而且第32屆在鄰國日本東京舉辦,將會有更多的觀眾到現(xiàn)場加油助威,生活環(huán)境、比賽環(huán)境對我國奧運會運動員水平的發(fā)揮非常有利,因此,中國有望“保二爭一”,排名可能超過美國。
(3) 根據(jù)英國歷年成績預(yù)測,英國排名逐年穩(wěn)步靠前。但英國啟動脫離歐洲進程,可能對英國經(jīng)濟和社會有一定的影響,英國預(yù)測排名第三。
(4) 第32屆奧運會在日本東京舉辦,是東道主,具有天時地利的優(yōu)勢,而且其GDP處在世界前列,排名會較第31屆奧運會大幅進步,預(yù)測排名第四。
(5) 從德國近幾屆成績來看,排名處于第五和第六之間。德國排名第五的可能性較大。
(6) 從俄羅斯歷年成績來看,俄羅斯的排名逐年小幅靠后。排名第六的可能性較大。
(7) 從法國歷年的成績來看,法國排名穩(wěn)步靠前,法國排名第七的可能性較大。
(8) 從最近幾屆奧運會來看,意大利排名在第八或第九,在第32屆排名第八的可能性較大。
(9) 從韓國歷年的成績來看,排名比較穩(wěn)定,且小幅靠前。另外第32屆奧運會在同在亞洲的日本東京舉辦,生活環(huán)境、比賽環(huán)境對韓國運動員水平的發(fā)揮有利,預(yù)測排名第九。
(10) 從最近幾屆奧運會來看,巴西排名逐年大幅靠前,與澳大利亞競爭排名第十。
注釋:
1.金牌占比是某個國家和地區(qū)在某屆獲得的金牌數(shù)所占當屆設(shè)置的金牌總數(shù)的比例
2.預(yù)測區(qū)間值由程序計算結(jié)果有負數(shù),按照現(xiàn)實情況手工改為0
參考文獻:
[1] 王宇鵬,許健等.奧運會獎牌榜影響因素的實證分析[J].統(tǒng)計研究,2008(25):57-62.
[2] 郭愛民,趙明發(fā).基于灰色理論預(yù)測2016年夏季奧運會金牌榜次序[J].中國科技信,2013(9):173-174.
[3] 趙慧娟.預(yù)測奧運會獎牌方法——以2012奧運會為例[J].科技創(chuàng)新導報,2014(23):254-254.
[4] 國家體育總局.http://www.sport.gov.cn/n318/n359/n410/c242528/content.html
[5] 聯(lián)合國數(shù)據(jù)中心.http://data.un.org/Default.aspx
[6] 世界銀行數(shù)據(jù)庫.http://data.worldbank.org/data-catalog/GDP-ranking-table
[7] 國際貨幣基金組織數(shù)據(jù)庫官方網(wǎng)址:http://www.imf.org/external/chinese/
[8] 馬軍.Excel統(tǒng)計分析典型實例[M].北京:清華大學出版社,2009.
[9] 虞楓.基于指數(shù)平滑法的需求預(yù)測[J].物流工程與管理,2011(3):77-78.
[10] 楊嘉.各國奧運會金牌數(shù)量的影響因素分析[J].江西理工大學學報,2012(33):116-118
[11] 百度百科.http://baike.baidu.com/link?url=7bqiCWUAhdp8CHVE7wofnMqpSuYxqdy-WKMaltmM2EEP3nUaSHfH6—isyKaioNVBe_PFdhHI3aK-AjEPtWOA1Ycx9vCzQIBw1a6iKO7dXG[EB/OL],2016.12.
[12] Robert L Kabacoff.R語言實戰(zhàn)[M].王小寧,黃俊文.譯.北京:人民郵電出版社,2016.endprint