蘭兆青,吳炎兵,李京玲
(1.山西農(nóng)業(yè)大學(xué)文理學(xué)院,山西太谷 030801;2.山西農(nóng)業(yè)大學(xué)體育學(xué)院,山西太谷 030801;3.太原理工大學(xué)水利科學(xué)與工程學(xué)院,山西太原 030001)
四年一屆的世界杯像火球般在2018年夏點燃世界,吸引著無數(shù)人為她熬夜,為她瘋狂[1]。代表著中國足球最高水平的中國足球協(xié)會超級聯(lián)賽更是吸引了若干國人的關(guān)注,多位學(xué)者從內(nèi)容、方法等不同側(cè)面進行了研究[2-9]。本文運用自組織特征映射網(wǎng)絡(luò)和模糊聚類分析相結(jié)合的方法,依據(jù)2014年至2017年中超足球聯(lián)賽16支球隊的最終成績,用聚類法對上海上港和武漢卓爾兩支球隊做出評價。
球隊的選取分為時間節(jié)點的選取和參賽球隊的選取兩部分。首先,時間節(jié)點的選取要注重時效性,時間太長,球隊的變動會很大,可能有的球隊會在附加賽中退出,也有可能降級至中甲聯(lián)賽,或者有強大資金的注入,邀請強有力的外援。我們從中超歷史上有紀(jì)念意義的2014年開始,選取了近4年(2014年、2015年、2016年、2017年)來的中超球隊成績作為本次球隊水平聚類的依據(jù)。其次,球隊的選取要照顧到強隊、弱隊,也要照顧到地區(qū)的差異,同時還要照顧到老牌球隊與新興勢力。我們選取16支球隊進行聚類,分別為:山東魯能、上海申花、天津泰達(dá)、北京國安、長春亞泰、廣州富力、江蘇舜天、河南建業(yè)、重慶力帆、浙江綠城、遼寧宏運、石家莊永昌、延邊富德、河北華夏幸福、貴州人和和上海申鑫。
每一個球隊用一個四維向量x=[x1,x2,x3,x4]來表示,向量的第一至第四個分量分別代表該球隊在2014至2017年中超聯(lián)賽上取得的成績(主要指排名)。
具體的編碼方法為:如果進入中超聯(lián)賽的,用其自身的最終排名(1~16),如果降級為中甲聯(lián)賽的,在球隊中甲聯(lián)賽最終排名的基礎(chǔ)上加16。16支球隊最終求得的特征向量,見表1,數(shù)字越小表示成績越好。
表1 球隊成績一覽表
對于中超足球聯(lián)賽的參賽球隊為幾流水平的問題,有許多方法可以得到,但整體上可以分為有監(jiān)督指導(dǎo)的分類和“無師自通”的分類兩大類。對于有監(jiān)督指導(dǎo)的分類,我們需要提前給定訓(xùn)練樣本,即把某幾支球隊定為一流或者二流,并且以其為標(biāo)準(zhǔn)來評價其他球隊。然而這樣的球隊是很難找到的,即使是頂級球隊也有發(fā)揮不好的時候,如果將其作為標(biāo)準(zhǔn),就會產(chǎn)生偏差,并且選取的球隊不同,最終的結(jié)果也不同[10]。因此,對于這類問題,我們選擇無監(jiān)督學(xué)習(xí)的聚類方式。本文采用自組織特征映射網(wǎng)絡(luò)和模糊聚類分析相結(jié)合的聚類方法。
自組織特征映射網(wǎng)絡(luò)(SOM,Self-Organizing Feature Map),也叫Kohonen網(wǎng)絡(luò),由荷蘭學(xué)者Teu?vo Kohonen于1981年提出,是一個由全連接的神經(jīng)元陣列組成的無教師、自組織、自學(xué)習(xí)網(wǎng)絡(luò)。該網(wǎng)絡(luò)中的單個神經(jīng)元對模式分類不起決定性作用,需要多個神經(jīng)元協(xié)同作用完成,并且是根據(jù)輸入空間中輸入向量的分組進行學(xué)習(xí)和分類,不需要預(yù)先知道部分球隊的水平和實力,只要給定分類的類別數(shù)量N,算法就會自動將所有樣本按照相似性的原則進行劃分。該法接受一個n維向量作為輸入,對應(yīng)一個包含n個節(jié)點的輸入層,每個輸入的樣本都對應(yīng)一個競爭層節(jié)點。輸入層節(jié)點與競爭層通過權(quán)值向量連接(網(wǎng)絡(luò)結(jié)構(gòu),見圖1)。網(wǎng)絡(luò)訓(xùn)練的過程就是在空間上對神經(jīng)元進行有序排列的過程。在更新權(quán)值時每個神經(jīng)元附近一定領(lǐng)域內(nèi)的神經(jīng)元也會得到更新,較遠(yuǎn)的神經(jīng)元則不更新,而輸出神經(jīng)元之間根據(jù)距離的遠(yuǎn)近決定抑制關(guān)系。通過競爭、合作、自適應(yīng)三個網(wǎng)絡(luò)訓(xùn)練過程,最終使連接權(quán)值的統(tǒng)計分布與輸入模式漸趨一致。當(dāng)訓(xùn)練結(jié)束時,對應(yīng)同一個競爭層節(jié)點的輸入樣本就被列為同一類別。當(dāng)有新樣本輸入時,系統(tǒng)以拓?fù)浣Y(jié)構(gòu)的形式輸出分類結(jié)果。
圖1 自組織映射網(wǎng)絡(luò)模型
聚類就是將數(shù)據(jù)集分成多個類或簇,使得各個類之間的數(shù)據(jù)差別應(yīng)盡可能大,類內(nèi)之間的數(shù)據(jù)差別應(yīng)盡可能小,即為“最小化類間相似性,最大化類內(nèi)相似性”原則。模糊聚類分析是利用模糊等價關(guān)系來實現(xiàn)的一種聚類方法,而模糊等價關(guān)系是指在論域R上滿足:①自反性,R?I;②對稱性,即R′=R;③傳遞性,R°R?R。
該法實現(xiàn)聚類是用模糊數(shù)學(xué)把樣本之間的模糊關(guān)系定量的確定,而客觀且準(zhǔn)確地進行聚類。主要分為三步:①通過求解樣本集中任意兩個樣本之間的相關(guān)系數(shù)構(gòu)造出模糊相似矩陣;②改造相似關(guān)系為等價關(guān)系;③對求得的模糊等價矩陣求λ截集,實現(xiàn)聚類[11]。
(1)定義樣本:足球水平聚類中涉及到16個球隊,而每個球隊的成績用一個四維向量表示,所以足球隊水平抽象為16個4維向量聚類的問題。輸入向量維數(shù)為4,同時競爭層也含有4個節(jié)點。
(2)創(chuàng)建網(wǎng)絡(luò):考慮到分類過細(xì),有可能把許多球隊單獨分為一類,而選用二分類則分類有點粗,故設(shè)定聚類的類別數(shù)為4類。設(shè)置競爭層為2×2的六邊形結(jié)構(gòu)(見圖2)。使用MatLab工具箱函數(shù)selforgmap創(chuàng)建網(wǎng)絡(luò)。
圖2 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖
(3)使用Train函數(shù)對輸入樣本進行訓(xùn)練,并選取和訓(xùn)練數(shù)據(jù)一樣的數(shù)據(jù)作為測試數(shù)據(jù)對網(wǎng)絡(luò)進行測試。測試后的網(wǎng)絡(luò)連接,見圖3。
圖3中的六邊形代表神經(jīng)元,菱形中的細(xì)線表示神經(jīng)元之間有直接的連接,菱形內(nèi)部的顏色均為白色,說明神經(jīng)元之間的距離不存在差異,都很近(顏色越深說明神經(jīng)元之間的距離越遠(yuǎn))。
由于神經(jīng)網(wǎng)絡(luò)具有一定隨機性,所以多次運行可能產(chǎn)生結(jié)果不太一樣??傮w來說,聚類比較穩(wěn)定的球隊是:
第一流:山東魯能、上海申花、北京國安、廣州富力;
第二流:遼寧宏運、石家莊永昌;
第三流:延邊富德、河北華夏幸福;
第四流:貴州人和、上海申鑫。
其余球隊都有浮動的趨勢。
主要采用模糊C均值聚類方法的MATLAB函數(shù)fcm求解。該方法的調(diào)用方式為:[center,U,obj_fcn]=fcm(data,cluster_n)。其中右端data是需要聚類的數(shù)據(jù)集合,cluster_n為聚類數(shù)。左端center指最終的聚類中心矩陣;U為隸屬度函數(shù)矩陣;obj_fcn是迭代過程中的目標(biāo)函數(shù)值。使用該方法,將評價區(qū)域分為有四個聚類中心的集合:(山東魯能,上海申花,北京國安,廣州富力,江蘇舜天);(天津泰達(dá),長春亞泰,遼寧宏運,河南建業(yè),石家莊永昌,重慶力帆);(浙江綠城,上海申鑫,貴州人和);(延邊富德,河北華夏幸福)。
結(jié)合以上兩種方法,中超足球水平聚類如下:
第一流:山東魯能,上海申花,北京國安,江蘇舜天,廣州富力;
第二流:天津泰達(dá),長春亞泰,遼寧宏運,河南建業(yè),石家莊永昌,重慶力帆,浙江綠城;
第三流:延邊富德,河北華夏幸福;
第四流:上海申鑫,貴州人和。
這個聚類結(jié)果與中超足球2018年比賽結(jié)果基本一致。
為了檢驗本次聚類的精確度和客觀性,把已經(jīng)得到的聚類結(jié)果作為分類類別,任意選取的兩支我們熟悉的球隊作為待判樣品(見表2),選用MatLab中的分類函數(shù)classify函數(shù)進行線性判別分析,判斷這兩支球隊在該標(biāo)準(zhǔn)下屬于哪種水平,并與實際水平作比較。
classify分類函數(shù)的調(diào)用格式為:
class=classify(s,mydata,g)
其中s是測試樣本的集合;mydata是原始數(shù)據(jù)集;g是球隊所屬類別構(gòu)成的集合的轉(zhuǎn)置。
輸出結(jié)果為:Class=1 4
測試結(jié)果表明,上海上港劃分為第一流、武漢卓爾劃分為第四流。而上海上港作為測試球隊在2018賽季也是位居積分榜第二,屬于一流水平。測試結(jié)果與球隊的實際水平是一致的,可見結(jié)合自組織特征映射網(wǎng)絡(luò)和模糊聚類分析得出的球隊水平聚類結(jié)果是客觀、準(zhǔn)確的。
表2 評價標(biāo)準(zhǔn)及待判樣品表
(1)結(jié)合自組織特征映射網(wǎng)絡(luò)和模糊聚類分析對中超聯(lián)賽球隊整體水平進行聚類,得出的聚類結(jié)果與中超足球2018年比賽結(jié)果基本一致。說明本文提出的這種聚類方法是合理可行的,得出的結(jié)論是客觀準(zhǔn)確的。
(2)從2018中超聯(lián)賽貴州人和的參賽成績來看,雖然被劃分為第四流球隊,但在本賽季中卻比出了積分榜第六的好成績??梢?,排名只是代表歷史,只要球隊團結(jié)努力,一切都可以改變。相信,如果我們在戰(zhàn)略戰(zhàn)術(shù),運行機制等有益于足球水平提高的相關(guān)方面多加關(guān)注和投入,對中國的足球多一些耐心,少一些苛責(zé),中國足球總會有揚眉吐氣的一天。