吳會(huì)會(huì) 袁哲 惠小健 章培軍 盧鴻艷
摘? 要:奧林匹克運(yùn)動(dòng)會(huì)是由國(guó)際奧林匹克委員會(huì)主辦的每隔4年舉行的一屆國(guó)際性的運(yùn)動(dòng)會(huì),各個(gè)國(guó)家獲得的獎(jiǎng)牌總數(shù)也直接反映了該國(guó)的體育建設(shè)水平與人民的精神文明程度。文章根據(jù)國(guó)家統(tǒng)計(jì)局、聯(lián)合國(guó)相關(guān)機(jī)構(gòu)、國(guó)際奧委會(huì)公布的數(shù)據(jù),以參賽員的性別、年齡、身高、體重作為因變量,是否獲獎(jiǎng)作為自變量建立決策樹(shù)和K-means聚類(lèi),對(duì)是否獲得獎(jiǎng)牌進(jìn)行預(yù)測(cè),并對(duì)其進(jìn)行分析。
關(guān)鍵詞:奧林匹克;K-means聚類(lèi);預(yù)測(cè)
中圖分類(lèi)號(hào):TP399? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)15-0136-05
Analysis of Olympic Award Based on K-means Clustering
WU Huihui, YUAN Zhe, XI XiaoJian, ZHANG Peijun, LU Hongyan
(School of Computer Science, Xijing University, Xi'an? 710123, China)
Abstract: The Olympic Games is an international games held every four years sponsored by the International Olympic Committee, and the total number of medals won by each country also directly reflects the country's level of sports construction and the spiritual civilization of the people. Based on the data released by the National Bureau of Statistics, relevant agencies of the United Nations and the International Olympic Committee, this paper establishes a decision tree and K-means clustering based on the gender, age, height and weight of the participants as the dependent variables, and whether or not to win the medal as the independent variable, and forecasts whether to win the medal and analyzes it.
Keywords: Olympics; K-means clustering; forecast
0? 引? 言
奧林匹克運(yùn)動(dòng)會(huì)主要是以體育運(yùn)動(dòng)為主的每四年為一個(gè)周期的運(yùn)動(dòng)會(huì),它的順利如期的開(kāi)展促進(jìn)了人的全面發(fā)展,涵蓋了生理、心理以及社會(huì)道德等各個(gè)方面,為各國(guó)之間的往來(lái)溝通搭建起了一個(gè)橋梁,在全世界的見(jiàn)證下,為世界的和平穩(wěn)定發(fā)展加固了堡壘。奧林匹克運(yùn)動(dòng)不僅僅是現(xiàn)代社會(huì)中體育文化的一種體現(xiàn),還以一種獨(dú)特的魅力愉悅身心,更蘊(yùn)含著一種生生不息的人文精神,催人奮進(jìn)。奧林匹克運(yùn)動(dòng)是工業(yè)革命時(shí)期的一種產(chǎn)物,加強(qiáng)了世界各族人民的聯(lián)系,不局限于經(jīng)濟(jì)、政治、文化,還跨越了地域之間的差異,是人類(lèi)社會(huì)進(jìn)展到一按時(shí)期的必然產(chǎn)物。
機(jī)器學(xué)習(xí)算法可分為監(jiān)督學(xué)習(xí)[1]和無(wú)監(jiān)督學(xué)習(xí)[2]。監(jiān)督學(xué)習(xí)常用于分類(lèi)和預(yù)測(cè)。是讓計(jì)算機(jī)去學(xué)習(xí)已經(jīng)創(chuàng)建好的分類(lèi)模型,使分類(lèi)(預(yù)測(cè))結(jié)果更好的接近所給目標(biāo)值,從而對(duì)未來(lái)數(shù)據(jù)進(jìn)行更好的分類(lèi)和預(yù)測(cè)[3]。因此,數(shù)據(jù)集中的所有變量被分為特征和目標(biāo),對(duì)應(yīng)模型的輸入和輸出;可將其分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,分別用于訓(xùn)練模型的參數(shù)以及此對(duì)此模型的測(cè)試與評(píng)估。常見(jiàn)的監(jiān)督學(xué)習(xí)算法有Regression(回歸)、KNN和SVM(分類(lèi))。無(wú)監(jiān)督學(xué)習(xí)常用于聚類(lèi)。輸入數(shù)據(jù)沒(méi)有標(biāo)記,也沒(méi)有確定的結(jié)果,而是通過(guò)樣本間的相似性對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi),使類(lèi)內(nèi)差距最小化,類(lèi)間差距最大化。無(wú)監(jiān)督學(xué)習(xí)主要是通過(guò)對(duì)數(shù)據(jù)集的分析主動(dòng)去學(xué)習(xí)如何做事情,而不是讓計(jì)算機(jī)去怎么做。常用的無(wú)監(jiān)督學(xué)習(xí)算法有K-means、PCA(Principle Component Analysis)。
聚類(lèi)算法[4]又叫做“無(wú)監(jiān)督分類(lèi)”,其目的是將數(shù)據(jù)劃分成有意義或有用的組(或簇)。這種劃分可以基于業(yè)務(wù)需求或建模需求來(lái)完成,也可以單純地幫助我們探索數(shù)據(jù)的自然結(jié)構(gòu)和分布。比如在商業(yè)中,如果手頭有很多的客戶(hù)信息,那么就可通過(guò)聚類(lèi)的方式將這些客戶(hù)信息進(jìn)行分類(lèi),以便順利的開(kāi)展接下來(lái)的工作。再比如,聚類(lèi)可以用于降維和矢量量化,可以將高維特征壓縮到一列當(dāng)中,常常用于圖像、聲音和視頻等非結(jié)構(gòu)化數(shù)據(jù),可以大幅度壓縮數(shù)據(jù)量。本文研究的是無(wú)監(jiān)督學(xué)習(xí)里的K-means算法[5],主要以歷年來(lái)參賽員的性別、年齡、身高、體重等各種指標(biāo)為研究對(duì)象,預(yù)測(cè)獲得獎(jiǎng)牌情況,為后續(xù)運(yùn)動(dòng)員的培養(yǎng)提供一些建議。
1? K-means算法
目前使用最廣泛的聚類(lèi)算法就是K-means算法,K-means算法也成為K-均值或K-平均。該算法首先隨機(jī)地選擇K個(gè)對(duì)象作為初始的K個(gè)簇[6]的質(zhì)心;然后對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)質(zhì)心的距離,將它賦給最近的簇,然后再對(duì)每個(gè)簇里的質(zhì)心進(jìn)行重新計(jì)算,依次循環(huán)下去,直到目標(biāo)函數(shù)收斂,目標(biāo)函數(shù)一般為平方和誤差,即SSE(sum of the squared error),可用如下公式來(lái)進(jìn)行表示:
上述公式表示的是對(duì)所有的研究對(duì)象的平均誤差進(jìn)行求和,其中參數(shù)p表示所要研究的數(shù)據(jù)對(duì)象,mi表示是簇Ci的一個(gè)平均值。K-means算法的優(yōu)點(diǎn)是:聚類(lèi)速度快,聚類(lèi)的效果好,魯棒性好,所以本文選擇了此算法對(duì)歷年來(lái)的各國(guó)獲獎(jiǎng)情況進(jìn)行了一個(gè)分析。
2? 決策樹(shù)
決策樹(shù)[7]是通過(guò)一定規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的一樹(shù)狀結(jié)構(gòu),它從根節(jié)點(diǎn)開(kāi)始,測(cè)試原始的樣本數(shù)據(jù)集,根據(jù)測(cè)試的結(jié)果可將其分成不同種類(lèi)的子集,這些子集就構(gòu)成了一系列的子節(jié)點(diǎn)。決策樹(shù)大致可以分為回歸樹(shù)與分類(lèi)樹(shù)兩大類(lèi),其中回歸樹(shù)主要是對(duì)連續(xù)的數(shù)據(jù)集進(jìn)行分類(lèi)的一種決策樹(shù),而分類(lèi)樹(shù)主要是對(duì)離散數(shù)據(jù)集進(jìn)行分類(lèi)的一種決策樹(shù)。
決策樹(shù)是一種樹(shù)狀的結(jié)構(gòu),其每個(gè)根節(jié)點(diǎn)可以看作是全部的數(shù)據(jù)集,分節(jié)點(diǎn)可以看作是測(cè)試每個(gè)變量,其可將數(shù)據(jù)集分成很多個(gè)子集;葉節(jié)點(diǎn)可以看作是對(duì)數(shù)據(jù)集類(lèi)別的一種記錄方式,那么決策樹(shù)的整個(gè)運(yùn)行過(guò)程可以簡(jiǎn)述為以下幾步:1)將整個(gè)數(shù)據(jù)集看作是決策樹(shù)的一個(gè)訓(xùn)練集,通過(guò)每個(gè)數(shù)據(jù)的屬性將其分好類(lèi),依據(jù)一定的標(biāo)準(zhǔn)將類(lèi)別進(jìn)行量化,以達(dá)到一個(gè)最好的分類(lèi)結(jié)果。2)重復(fù)第一個(gè)步驟,直到每個(gè)葉節(jié)點(diǎn)都?xì)w屬到同一個(gè)類(lèi)別,依次循環(huán)下去,窮盡所有節(jié)點(diǎn),直至充滿(mǎn)整個(gè)樹(shù)。通過(guò)決策樹(shù)可以準(zhǔn)確地找到數(shù)據(jù)屬性與類(lèi)別之間所蘊(yùn)含的關(guān)系,進(jìn)而可將其用來(lái)預(yù)測(cè)一些未知的未做記錄的數(shù)據(jù)集。其產(chǎn)生的過(guò)程實(shí)質(zhì)上就是對(duì)研究的樣本不斷地進(jìn)行分組,核心就是屬性的選擇問(wèn)題。
決策樹(shù)的應(yīng)用非常廣泛,其具有如下的一些優(yōu)點(diǎn):1)決策樹(shù)算法很容易實(shí)現(xiàn),理論基礎(chǔ)簡(jiǎn)單,在學(xué)習(xí)的過(guò)程當(dāng)中不需要去了解數(shù)據(jù)的背景,即可體現(xiàn)出數(shù)據(jù)本身所具有的結(jié)構(gòu)特點(diǎn),魯棒性比較好。2)可對(duì)大量的數(shù)據(jù)進(jìn)行分類(lèi),并且運(yùn)行時(shí)間短,效率高,能夠同時(shí)處理數(shù)據(jù)的類(lèi)型以及數(shù)據(jù)屬性。
3)可通過(guò)靜態(tài)的測(cè)試方式對(duì)模型進(jìn)行一定的測(cè)試,可以測(cè)試出實(shí)驗(yàn)過(guò)程中模型的可信度,為實(shí)驗(yàn)的可行性提供了一些理論依據(jù)。鑒于以上的優(yōu)點(diǎn),本文利用了決策樹(shù)這個(gè)算法,以參賽員的性別、年齡、身高、體重作為因變量,是否獲獎(jiǎng)作為自變量建立了決策樹(shù),對(duì)是否獲得獎(jiǎng)牌進(jìn)行了預(yù)測(cè)分析。
3? 數(shù)據(jù)分析
3.1? 數(shù)據(jù)集
本文的數(shù)據(jù)是選自國(guó)家統(tǒng)計(jì)局、聯(lián)合國(guó)相關(guān)機(jī)構(gòu)、國(guó)際奧委會(huì)公布的數(shù)據(jù)。里面有現(xiàn)代奧運(yùn)會(huì)的歷史數(shù)據(jù)集,包括所有從1896年雅典到2016年里約熱內(nèi)盧的數(shù)據(jù),其中冬季和夏季運(yùn)動(dòng)會(huì)在同一年舉行,直到1992年。之后,冬季運(yùn)動(dòng)會(huì)以四年為周期進(jìn)行開(kāi)展,從1994年開(kāi)始,然后是1996年的夏季,然后是1998年的冬季,依此類(lèi)推。
3.2? 數(shù)據(jù)清洗
為了減少預(yù)測(cè)結(jié)果的誤差,需要對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理,通過(guò)查看數(shù)據(jù)集,發(fā)現(xiàn)數(shù)據(jù)集中Age、Height、Weight、Medal列存在部分的缺失值。其中Medal的缺失值表示的是運(yùn)動(dòng)員在此比賽項(xiàng)目上是否得到過(guò)獎(jiǎng)牌,將所缺失的值用0代替,其表示的含義是沒(méi)有獲獎(jiǎng)。所以除了Medal那列,將其余的所有空值的行進(jìn)行刪除,再對(duì)數(shù)據(jù)進(jìn)行分析。
3.3? 數(shù)據(jù)可視化
本文對(duì)男女參加奧運(yùn)會(huì)的人數(shù)進(jìn)行了分析,如圖1所示。
從圖1可以看出,女性參加運(yùn)動(dòng)會(huì)的人數(shù)要比男性參加的人數(shù)少得多,但是從整體上看,女性參加冬季奧運(yùn)會(huì)要多一些,男性參加夏季奧運(yùn)會(huì)要多一些,這個(gè)總體差異不是特別大。
本文對(duì)每屆參加奧運(yùn)會(huì)的運(yùn)動(dòng)員人數(shù)進(jìn)行了分析,如圖2所示。
由圖2可得,1896年開(kāi)始到1980年夏運(yùn)會(huì)參賽運(yùn)動(dòng)員數(shù)量呈現(xiàn)一個(gè)曲折上升的趨勢(shì),這是因?yàn)榇藭r(shí)處于世界格局動(dòng)蕩期,戰(zhàn)爭(zhēng)、國(guó)家間冷戰(zhàn)摩擦等事件很大程度影響了奧運(yùn)會(huì)舉辦的客觀條件,與此同時(shí)冬運(yùn)會(huì)也類(lèi)似,但由于參賽項(xiàng)目少和知名度低等原因參賽人員本身就大大低于夏奧會(huì),所以趨勢(shì)不是很明顯;圖表顯示到了1980年,世界64個(gè)國(guó)家聯(lián)名抵制蘇聯(lián)奧運(yùn)會(huì)使參賽人數(shù)出現(xiàn)最大一次下降幅度,此后世界形勢(shì)漸漸明朗,經(jīng)濟(jì)貿(mào)易和外交逐漸恢復(fù),奧運(yùn)會(huì)也進(jìn)入了同步的快速增長(zhǎng)和穩(wěn)定階段。
本文對(duì)每屆奧運(yùn)會(huì)的比賽項(xiàng)目進(jìn)行了分析,如圖3所示。
圖3是關(guān)于奧運(yùn)會(huì)比賽項(xiàng)目的變化折線圖,可以看出在1980—2000年這20年,比賽項(xiàng)目增長(zhǎng)趨勢(shì)最大,且以夏季奧運(yùn)會(huì)尤為突出,但最近十幾年比賽項(xiàng)目增加趨勢(shì)慢慢變?yōu)槠椒€(wěn)的態(tài)勢(shì)了。
本文對(duì)每屆參加奧運(yùn)會(huì)的國(guó)家進(jìn)行了分析,如圖4所示。
圖4是關(guān)于參加奧運(yùn)會(huì)國(guó)家數(shù)量的變化趨勢(shì)的,其中有兩屆奧運(yùn)會(huì)存在變化的。1976年蒙特利爾奧運(yùn)會(huì):由于25個(gè)國(guó)家,其中大部分是非洲人,抵制奧運(yùn)會(huì),抵制南非的種族隔離政策。1980年的夏季奧運(yùn)會(huì)上,非洲國(guó)家在夏季奧運(yùn)會(huì)上的出席人數(shù)有限,因此參加了1980年的冬季奧運(yùn)會(huì)。奧運(yùn)會(huì)史上的種族歧視事件。1980年莫斯科奧運(yùn)會(huì):為了應(yīng)對(duì)蘇聯(lián)入侵阿富汗,包括美國(guó)在內(nèi)的66個(gè)國(guó)家抵制參加奧運(yùn)會(huì)。政治事件對(duì)奧運(yùn)會(huì)的影響也是頗深的。
本文對(duì)每屆奧運(yùn)會(huì)各個(gè)國(guó)家獲得獎(jiǎng)牌的數(shù)量進(jìn)行了分析,如圖5所示。
圖5選取了獲得獎(jiǎng)牌數(shù)目大于300的國(guó)家,通過(guò)比較發(fā)現(xiàn)美國(guó)不管是金牌、銀牌還是銅牌都領(lǐng)先很多,從金牌榜來(lái)看,占據(jù)頭把交椅的是美國(guó),金牌數(shù)量接近2 500枚,是蘇聯(lián)的三倍之多,可謂是一騎絕塵。我國(guó)的奧運(yùn)事業(yè)由于種種原因起步比較晚,直到1986年才正式派出隊(duì)伍參加奧運(yùn)會(huì),目前的累計(jì)金牌數(shù)量為334枚,排名在第11位。
本文對(duì)每屆奧運(yùn)會(huì)的運(yùn)動(dòng)員的年齡以及所獲得的獎(jiǎng)牌進(jìn)行了分析,如圖6所示。
從圖6可以看出,運(yùn)動(dòng)員參加奧運(yùn)會(huì)的年齡主要集中在15~40歲之間,而獲得獎(jiǎng)牌的幾率與年齡分布大致相同,其中24歲和25歲獲得的金牌數(shù)量是最多的。由此可以看出年輕人獲得金牌的幾率要大很多。
本文對(duì)每屆奧運(yùn)會(huì)的運(yùn)動(dòng)員的身高和體重進(jìn)行了分析,如圖7所示。
從圖7中可看出:運(yùn)動(dòng)員的體重均在75 kg左右,身高均在180 cm左右獲得獎(jiǎng)牌的可能性是最大的。
4? 奧林匹克獲獎(jiǎng)的研究分析
選取運(yùn)動(dòng)員的性別,年齡,身高,體重作為因變量,獲獎(jiǎng)作為自變量,在建立獲獎(jiǎng)影響因素模型之前,首先進(jìn)行數(shù)據(jù)分割,即將數(shù)據(jù)分割為訓(xùn)練集和測(cè)試集,將數(shù)據(jù)的70%劃分為訓(xùn)練集,30%劃分為測(cè)試集。訓(xùn)練集用于訓(xùn)練模型,測(cè)試集用于測(cè)試模型效果。建立決策樹(shù),得到特征重要性如圖8所示。
從圖8可以看出體重對(duì)獲獎(jiǎng)情況的影響比較大,身高次之,性別影響最小。由此所建立的決策樹(shù)如圖9所示。
用所建立的決策樹(shù)分類(lèi)預(yù)測(cè)模型,預(yù)測(cè)模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行擬合優(yōu)度測(cè)試,生成判斷結(jié)果,如表1所示。
由表1可以看出,決策樹(shù)分類(lèi)預(yù)測(cè)模型的判斷正確率為85.36%,達(dá)到比較理想的整體預(yù)測(cè)效果。
然后再選舉運(yùn)動(dòng)員的性別,年齡,身高,體重進(jìn)行K-means分類(lèi),分成3類(lèi),如圖10所示。
以獲獎(jiǎng)情況為訓(xùn)練集的混淆矩陣,如表2所示。
由表2可以看出,K-means分類(lèi)預(yù)測(cè)模型的判斷正確率為83.80%,達(dá)到較理想的整體預(yù)測(cè)效果。
由實(shí)驗(yàn)結(jié)果可以得出,隨著時(shí)間推移,奧運(yùn)會(huì)賽事數(shù)量整體呈現(xiàn)上升的趨勢(shì),且夏季奧運(yùn)會(huì)賽事數(shù)量明顯遠(yuǎn)超與冬季奧運(yùn)會(huì)賽事數(shù)量;1896年開(kāi)始到1980年夏運(yùn)會(huì)參賽運(yùn)動(dòng)員數(shù)量呈現(xiàn)曲折上升的趨勢(shì),這是因?yàn)榇藭r(shí)處于世界格局動(dòng)蕩期,戰(zhàn)爭(zhēng)、國(guó)家間冷戰(zhàn)摩擦等事件很大程度影響了奧運(yùn)會(huì)舉辦的客觀條件,同理冬運(yùn)會(huì)也類(lèi)似;男性夏運(yùn)會(huì)參賽運(yùn)動(dòng)員人數(shù)是和歷年運(yùn)動(dòng)員數(shù)量變化同調(diào)的,女性夏運(yùn)會(huì)參賽運(yùn)動(dòng)員人數(shù)明顯的持續(xù)增長(zhǎng),并在1980年到2000年間持續(xù)大幅上漲。120年來(lái)的獎(jiǎng)牌數(shù)量排名如下,USA為最多,CHN(中國(guó))為第17名。由以上的分析可以得出,奧林匹克運(yùn)動(dòng)的獲獎(jiǎng)情況和運(yùn)動(dòng)員自身的性別,年齡,身高,體重是緊密聯(lián)系的,其中影響最大的是體重。因此在下一階段可考慮控制一下運(yùn)動(dòng)員的體重。
5? 結(jié)? 論
近幾年,奧運(yùn)會(huì)賽事數(shù)量以及參賽運(yùn)動(dòng)員的數(shù)量整體呈現(xiàn)上升的趨勢(shì),中國(guó)隊(duì)從1984年開(kāi)始獲得過(guò)獎(jiǎng)牌,隨后獎(jiǎng)牌總數(shù)逐年上升,在2008年主場(chǎng)舉辦的奧運(yùn)會(huì)上獎(jiǎng)牌數(shù)達(dá)到最高,其中常奪金牌的項(xiàng)目有女子排球、男子體操、男子單雙人乒乓球等。通過(guò)分析可以發(fā)現(xiàn),奧林匹克運(yùn)動(dòng)的獲獎(jiǎng)情況和運(yùn)動(dòng)員自身的性別,年齡,身高,體重是緊密聯(lián)系的,其中影響最大的是體重。因此在下一階段可考慮控制一下運(yùn)動(dòng)員的體重。
參考文獻(xiàn):
[1] 呂高鋒,譚靖,喬冠杰,等.決策樹(shù)報(bào)文分類(lèi)算法 [J].國(guó)防科技大學(xué)學(xué)報(bào),2022,44(3):184-193.
[2] 于莉佳,汪濤.基于模糊K均值聚類(lèi)的高校網(wǎng)絡(luò)用戶(hù)行為分析 [J].智能計(jì)算機(jī)與應(yīng)用,2022,12(10):200-202.
[3] 熊斗寅.開(kāi)展奧林匹克教育必須持之以恒 [J].體育學(xué)刊,2020,27(2):8-10.
[4] 劉洋,王慧琴,張小紅.結(jié)合蟻群算法的改進(jìn)粗糙K均值聚類(lèi)算法 [J].數(shù)據(jù)采集與處理,2019,34(2):341-348.
[5] 王惠琴,侯文斌,彭清斌,等.基于K均值聚類(lèi)的SPPM分步分類(lèi)檢測(cè)算法 [J].通信學(xué)報(bào),2022,43(1):161-171.
[6] 潘丹,李永周,王曉潔.高??萍紕?chuàng)新能力比較研究——基于組合評(píng)價(jià)法和K均值聚類(lèi)的分析 [J].中國(guó)高??萍?,2020(5):30-34.
[7] 周平,馬景義.基于路徑跟隨方法的光滑子區(qū)間K均值聚類(lèi)算法 [J].統(tǒng)計(jì)與決策,2022,38(12):17-22.