姜海富 于化龍 韋 磊
(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212114)
隨著大數(shù)據(jù)數(shù)據(jù)量越來(lái)越多,給各行各業(yè)帶來(lái)無(wú)限想象力和商業(yè)應(yīng)用價(jià)值,尤其是在體育領(lǐng)域。足球比賽作為體育領(lǐng)域熱門(mén)的項(xiàng)目,伴隨國(guó)內(nèi)足球氛圍不斷濃厚,足球領(lǐng)域內(nèi)的各個(gè)細(xì)分領(lǐng)域也快速發(fā)展,足球比賽大數(shù)據(jù)就是其中之一[1]。目前存在大量熱愛(ài)足球的群眾對(duì)下一場(chǎng)比賽的結(jié)果進(jìn)行預(yù)測(cè),并且通常個(gè)人預(yù)測(cè)對(duì)所支持的球隊(duì)進(jìn)行支持。但足球比賽結(jié)果因?yàn)槠涞牟淮_定性,即使專家也很難能夠預(yù)測(cè)下一場(chǎng)比賽勝負(fù)[2]。從足球比賽體育大數(shù)據(jù)的挖掘中發(fā)現(xiàn),足球比賽對(duì)于賽果預(yù)測(cè)的困難,主要是由于足球比賽的結(jié)果含有眾多影響因素,例如團(tuán)隊(duì)合作、個(gè)人技能、天氣、主場(chǎng)優(yōu)勢(shì)等,很難預(yù)料足球比賽的實(shí)際結(jié)果[3]。即使比賽沒(méi)有任何傷害或沒(méi)有加時(shí)發(fā)生,運(yùn)氣也可能是影響足球比賽結(jié)果的一個(gè)因素,因此強(qiáng)隊(duì)并不一定會(huì)贏弱隊(duì)。也正是由于足球比賽影響因素多種多樣,比賽情況紛繁復(fù)雜,給足球比賽關(guān)聯(lián)分析更多研究的價(jià)值,也給商業(yè)界更多的興趣、體育界更多的精力去探索沒(méi)有接觸到的特征信息。
當(dāng)前針對(duì)足球比賽預(yù)測(cè)研究方法眾多,但是對(duì)于賽后影響因素分析相對(duì)較少,且多見(jiàn)于傳統(tǒng)、簡(jiǎn)單統(tǒng)計(jì)分析,不能夠從多角度多方面比較價(jià)值影響因素[4]。Marcelino R[5]等通過(guò)多變量分析中評(píng)估賽前因素的組合及其與賽果(贏/輸)的關(guān)系,采用預(yù)測(cè)性機(jī)器學(xué)習(xí)模型(ML)對(duì)澳大利亞足球聯(lián)賽比賽(AFL)結(jié)果預(yù)測(cè)分析,表明使用ML 方法能提供最大限度地提高獲勝機(jī)會(huì)的預(yù)測(cè)變量層次,還能夠預(yù)測(cè)AFL比賽的結(jié)果,為比賽關(guān)聯(lián)分析提供了一種新的方案啊。吳鍵等[6]使用Ologit(Ordinal logit)建立一種關(guān)聯(lián)模型將球員的基本能力成績(jī)與比賽成績(jī)關(guān)聯(lián),提出球員的個(gè)人技能與賽果之間存在年齡和組別球員變現(xiàn)呈現(xiàn)不相同的現(xiàn)象。通過(guò)對(duì)球員的客觀定量描述能夠及時(shí)有效的判斷球隊(duì)的問(wèn)題并針對(duì)性做出改變。在預(yù)測(cè)模型上Koppman[7~8]前后分別提出了一種新的動(dòng)態(tài)多元模型,用于分析和預(yù)測(cè)國(guó)家聯(lián)賽的足球比賽結(jié)果,實(shí)際結(jié)果對(duì)于足球比賽預(yù)測(cè)有著良好的效果。足球比賽賽場(chǎng)上每時(shí)每刻都在產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)都存在重要的利用價(jià)值,盡管國(guó)內(nèi)外嘗試了大量的研究從球員自身,或者動(dòng)態(tài)調(diào)整預(yù)測(cè)模型,但針對(duì)比賽影響因素的深度挖掘還是未能深入展開(kāi)。
本文采集大量足球比賽數(shù)據(jù),包含西班牙甲級(jí)聯(lián)賽,德國(guó)甲級(jí)聯(lián)賽,意大利甲級(jí)聯(lián)賽,法國(guó)甲級(jí)聯(lián)賽和葡萄牙足球超級(jí)聯(lián)賽五個(gè)賽季(2014-2019)完整比賽數(shù)據(jù)。針對(duì)足球比賽影響因素的多樣性、不確定性、模糊性等問(wèn)題,以及在計(jì)算經(jīng)典灰色關(guān)聯(lián)度時(shí)無(wú)法對(duì)比不同觀測(cè)序列中多種因素對(duì)特征空間的影響。針對(duì)此問(wèn)題提出一種采用模糊、灰色關(guān)聯(lián)理論配合提出模糊灰色關(guān)聯(lián)分析模型。通過(guò)本文方法得到的高貢獻(xiàn)度的特征,按照貢獻(xiàn)度大小進(jìn)行排序分析,用一種相對(duì)科學(xué)的足球比賽結(jié)果預(yù)測(cè)估計(jì)模型(LightGBM 模型)對(duì)提取特征進(jìn)行結(jié)果預(yù)測(cè)分析[9~10]。經(jīng)過(guò)對(duì)模型效果的充分檢驗(yàn),反復(fù)迭代對(duì)模型中各指標(biāo)進(jìn)行統(tǒng)計(jì)篩選,指出了不同影響因素的重要程度特體現(xiàn),發(fā)現(xiàn)既能夠得到高貢獻(xiàn)度特征同時(shí)又能在特征分析提取后仍能夠得到高準(zhǔn)確率預(yù)測(cè)的方法,而且在具體的特征分析得到價(jià)值一直的判斷,最后針對(duì)性的提出足球比賽過(guò)程中應(yīng)當(dāng)重點(diǎn)考慮的問(wèn)題。
針對(duì)足球比賽結(jié)果分析存在的問(wèn)題,本文將模糊數(shù)學(xué)理論和灰色理論用于比賽影響因素分析中是一種創(chuàng)新的解決方案。目前在關(guān)聯(lián)分析與評(píng)價(jià)領(lǐng)域,模糊綜合評(píng)判法和灰色關(guān)聯(lián)法被廣泛提及,由于其特定的問(wèn)題,存在一定的局限性。因素之間模糊性的主要原因在于各種因素在區(qū)別不同的過(guò)程中存在中間過(guò)渡的判斷,包含著彼此包含的聯(lián)系。但是在彼此包含的過(guò)程中仍然存在這客觀的區(qū)別,更進(jìn)一步的對(duì)比能夠明顯得出在上一階段的彼此包含的關(guān)系中的信息,在下一階段可能并不是包含有很強(qiáng)烈的聯(lián)系[11]。
隸屬度函數(shù)作為模糊理論中評(píng)價(jià)事務(wù)模糊性的重要評(píng)價(jià)方式,同時(shí)是關(guān)聯(lián)分析法主要構(gòu)成組件[12]。本文基于斯皮爾曼相關(guān)性系數(shù)模型與相近性原理的鄧氏灰色關(guān)聯(lián)分析模型,利用位移差來(lái)分別不同列之間的重要程度,根據(jù)計(jì)算出的關(guān)聯(lián)度分析出關(guān)聯(lián)序列,從而對(duì)根據(jù)關(guān)聯(lián)序列對(duì)不同因素的關(guān)聯(lián)程度進(jìn)行研判[13]。
2.1.1 原始數(shù)據(jù)處理
數(shù)據(jù)標(biāo)準(zhǔn)化處理能夠顯著減少由于變量的量綱不同導(dǎo)致模型預(yù)測(cè)產(chǎn)生數(shù)據(jù)誤差,產(chǎn)生。針對(duì)傳統(tǒng)的灰色關(guān)聯(lián)分析法常采用初值化或單一均值化進(jìn)行數(shù)據(jù)處理,本文引用數(shù)據(jù)區(qū)間無(wú)量綱轉(zhuǎn)換跟傳統(tǒng)的模糊聚類中的極差變換相似也就是,對(duì)比較序列Xi(i=1,2,…,n)中的數(shù)據(jù)采用如Min-max normalization進(jìn)行無(wú)量綱處理。
2.1.2 模糊隸屬度與灰度關(guān)聯(lián)度計(jì)算
為了保證模型包容所有信息,能夠減少數(shù)據(jù)線性比例關(guān)系的影響,本文選用統(tǒng)計(jì)學(xué)上常用的斯皮爾曼相關(guān)性法建立模糊相似矩陣的數(shù)學(xué)模型,也就用它來(lái)衡量?jī)蓚€(gè)變量的依賴性的非參數(shù)指標(biāo),利用單調(diào)方程評(píng)價(jià)兩個(gè)統(tǒng)計(jì)變量的相似程度,而且對(duì)于數(shù)據(jù)錯(cuò)誤和極端值的反應(yīng)不敏感[14]。其表現(xiàn)形式為
其中xi,yi分別是影響因素i 取值的等級(jí),xˉ,yˉ分別是變量x,y的評(píng)價(jià)等級(jí),N是影響因素的總數(shù)量。
針對(duì)比較序列Xi對(duì)參照序列Yi在i=k時(shí)的關(guān)聯(lián)系數(shù)ξij(k)可由下面的公式確定:其中Δmin,Δmax分別為Yi與Xi中分別是影響因素中的極大值與極小值的絕對(duì)值大小。 Δij(k)為Yi與Xi在第K 個(gè)點(diǎn)的絕對(duì)值差。ρ為判別系數(shù),也就是對(duì)極大值與極小值的權(quán)重,需要滿足干擾性與關(guān)聯(lián)度的一致性。對(duì)極大值與極小值的絕對(duì)值絕對(duì)值差值的均值進(jìn)行計(jì)算,其次根據(jù)Δ 與Δmax的比值確定ρ的取值區(qū)間。其計(jì)算法公式如下:
由于關(guān)聯(lián)系數(shù)的計(jì)算方式會(huì)導(dǎo)致計(jì)算結(jié)果眾多,為了能夠便于對(duì)比和分析本次將各關(guān)聯(lián)系數(shù)集中展示在一個(gè)值的效果上,即灰色關(guān)聯(lián)度。由于足球比賽影響因素眾多,本文根據(jù)對(duì)原始的灰色關(guān)聯(lián)度公式進(jìn)行簡(jiǎn)化可得:
根據(jù)2.1.2 節(jié)中模糊隸屬度ρ與灰色關(guān)聯(lián)度ξij就計(jì)算出一種足球比賽影響因素的一個(gè)判斷綜合評(píng)價(jià)指標(biāo),也就是本文提及的模糊灰色關(guān)聯(lián)度Rij其公式如下:
對(duì)初始數(shù)據(jù)處理進(jìn)行特征構(gòu)造并對(duì)缺失數(shù)據(jù)進(jìn)行合理補(bǔ)充。提取的七類特征數(shù)據(jù)共計(jì)43 個(gè)特征采用模糊灰色關(guān)聯(lián)分析進(jìn)行重要度分析,提取具有強(qiáng)關(guān)聯(lián)的特征集合。最后帶入到?jīng)Q策算法中進(jìn)行實(shí)際的足球比賽預(yù)測(cè),如算法1所示。
算法1.模糊灰度關(guān)聯(lián)分析算法描述輸入 比賽數(shù)據(jù)x,實(shí)際比賽結(jié)果y;
輸出 灰色關(guān)聯(lián)分析后的特征數(shù)據(jù)集合c
procedure Xi=(xi1,xi2,…,xip),(i=1,2,3,…,n)
1)collect the initial s instances as Xi
2)[F1~Fs,G1~Gs]=Fuzzy_membership(Xi),Grey_relational_degree(Xi)
3)[c1~cs]=algorithm(Fi,Gi)
4)P=LightGBM(Ci)
5) while max(P)
6) find ω which is the best prediction accuracy P
7) tune cjaccording to Eq.(4)
8)end procedure
本次實(shí)驗(yàn)采用的數(shù)據(jù)集來(lái)自球探網(wǎng)數(shù)據(jù)(http://zq.win007.com/info/index_cn.htm),通過(guò)爬蟲(chóng)程序從此網(wǎng)站提取歐洲主流六個(gè)聯(lián)賽(西班牙甲級(jí)聯(lián)賽,德國(guó)甲級(jí)聯(lián)賽,意大利甲級(jí)聯(lián)賽,法國(guó)甲級(jí)聯(lián)賽和葡萄牙足球超級(jí)聯(lián)賽)五個(gè)賽季(2014-2019)共10661 場(chǎng)完整比賽數(shù)據(jù)作為實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)構(gòu)建數(shù)據(jù)集,其詳細(xì)信息如表1~2所示。
表1 球隊(duì)最近比賽情況
表2 球員最近比賽狀況數(shù)據(jù)
由于足球比賽包含人為因素和自然因素和現(xiàn)實(shí)因素相關(guān)關(guān)聯(lián),通過(guò)對(duì)文獻(xiàn)以及足球比賽的了解。本文對(duì)提取到的初始足球比賽數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,后對(duì)初始數(shù)據(jù)進(jìn)行深入挖掘從積分差距、主客場(chǎng)及近期狀態(tài)、輪次相關(guān)、體能狀況、賠率狀況、兩隊(duì)交鋒歷史狀況和主客場(chǎng)攻守狀況方面提取7 個(gè)維度的特征數(shù)據(jù)進(jìn)行下一步的關(guān)聯(lián)分析,詳細(xì)特征介紹如圖1所示。
圖1 七大類別比賽特征數(shù)據(jù)
在對(duì)比賽特征進(jìn)行提取完成后,發(fā)現(xiàn)部分?jǐn)?shù)據(jù)存在一部分缺失存在,如“主隊(duì)客隊(duì)近五場(chǎng)失球和”,因?yàn)閷?duì)于原始數(shù)據(jù)本文可以理解為本年度賽季的比賽在時(shí)間軸上的確實(shí)沒(méi)有最近五場(chǎng)比賽的數(shù)據(jù),因此為了公平起見(jiàn)對(duì)于缺失的數(shù)據(jù)本文采用平局的方式對(duì)于球隊(duì)主客場(chǎng)進(jìn)行打分。
由于足球比賽結(jié)果預(yù)測(cè)本身相當(dāng)復(fù)雜,本文根據(jù)每場(chǎng)比賽后的實(shí)際比賽結(jié)果歸納得出的特征能夠盡可能地還原足球比賽實(shí)際預(yù)測(cè)結(jié)果中。經(jīng)過(guò)對(duì)初始數(shù)據(jù)的清洗和處理得到七個(gè)維度的特征序列,需要對(duì)得到的特征進(jìn)行下一步的模糊灰色關(guān)聯(lián)分析。首先設(shè)足球比賽實(shí)際結(jié)果特征結(jié)合為對(duì)照序列Y,其中眾多的比賽結(jié)果影響因素構(gòu)成對(duì)比序列X。將對(duì)比序列X 經(jīng)過(guò)歸一化計(jì)算,得到一組標(biāo)準(zhǔn)化的足球比賽影響因素矩陣。將標(biāo)準(zhǔn)化的影響因素矩陣帶入式(1)得到影響因素的模糊隸屬度。將標(biāo)準(zhǔn)化系數(shù)矩陣帶入式(2)得到,Δmin=0 、Δmax=1。通過(guò)約減計(jì)算均值求出ρ的取值范圍為0.3202 ≤ρ≤0.4803,求出灰色關(guān)聯(lián)系數(shù)矩陣。
將灰色關(guān)聯(lián)系數(shù)矩陣帶入式(4)能夠得出對(duì)足球比賽賽果影響的加權(quán)灰色關(guān)聯(lián)程度,本文將模糊灰色關(guān)聯(lián)加權(quán)關(guān)聯(lián)度帶入式(5)也就計(jì)算得出足球比賽結(jié)果影響因素的模糊灰色關(guān)聯(lián)度如表3 所示,其中兩種計(jì)算方式差異如圖2 所示。其中本文針對(duì)所有特征:主優(yōu)勢(shì)、平均平率、主隊(duì)主場(chǎng)優(yōu)勢(shì)、分場(chǎng)平均平率、主隊(duì)近五場(chǎng)得分、客隊(duì)近五場(chǎng)得分,主隊(duì)主場(chǎng)近五場(chǎng)得分、客隊(duì)客場(chǎng)近五場(chǎng)得分、主對(duì)客對(duì)得分差、主隊(duì)主場(chǎng)客隊(duì)客場(chǎng)的分差、積分差小于3、積分差大于3但是小于6、輪次大于0.8積分小于3、輪次大于0.9 積分小于3、休息比,休息強(qiáng)度,負(fù)勝率、看平率、主賠率可信度、客賠率可信度、除去本場(chǎng)兩隊(duì)實(shí)力比、兩隊(duì)主對(duì)主場(chǎng)客隊(duì)客場(chǎng)實(shí)力比、兩隊(duì)最近一次交鋒比、兩隊(duì)最近一次主客交鋒比、主隊(duì)客隊(duì)進(jìn)球比、主隊(duì)主場(chǎng)客隊(duì)客場(chǎng)進(jìn)球比,主隊(duì)客隊(duì)進(jìn)失球和、主隊(duì)客隊(duì)近五場(chǎng)進(jìn)失球和、主隊(duì)主場(chǎng)客隊(duì)客場(chǎng)最近一場(chǎng)進(jìn)失球和、主隊(duì)主場(chǎng)客隊(duì)客場(chǎng)近五場(chǎng)進(jìn)失球和、不包含本場(chǎng)的主隊(duì)客隊(duì)最近一場(chǎng)凈勝球、不包含本場(chǎng)的主隊(duì)客隊(duì)近五場(chǎng)凈勝球、主隊(duì)主場(chǎng)客隊(duì)客場(chǎng)凈勝球、主隊(duì)主場(chǎng)客隊(duì)客場(chǎng)近五場(chǎng)凈勝球、WilliamHill 勝初賠、WilliamHill 平初賠、WilliamHill 負(fù)初賠、bet365 勝初賠、bet365 平初賠、bet365 負(fù)初賠、LiBo 勝初賠、LiBo 平初賠和LiBo 負(fù)初賠分別用X1,X2,…X43表示。本文余下部分將用符號(hào)代替特征名。
圖2 不同灰色關(guān)聯(lián)度值測(cè)定折線圖
表3 不同灰度計(jì)算方式關(guān)聯(lián)度表
經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)提取部分特征如X1、X10、X17、X20、X23、X24、X28、X32、X35、X37、X38、X40、X41、X43與比賽結(jié)果具有很高的關(guān)聯(lián)度??梢岳斫庠谧闱虮荣惍?dāng)中球隊(duì)主場(chǎng)優(yōu)勢(shì)以及最近主客交戰(zhàn)情況在現(xiàn)實(shí)情況上能一定程度上反應(yīng)兩隊(duì)比賽結(jié)果影響。對(duì)于歐賠的初賠,也可以發(fā)現(xiàn)盡管初賠是建立在給體育競(jìng)技一種可以量化的直觀的數(shù)據(jù)體驗(yàn)上,但是仍舊對(duì)于足球比賽賽果具有一定的聯(lián)系,反映了賠率機(jī)構(gòu)對(duì)于足球比賽的強(qiáng)有力分析。因此通過(guò)模糊灰色階關(guān)聯(lián)分析的方法能夠更好地將各種特征進(jìn)行一個(gè)數(shù)據(jù)上的量化,方便與更好地對(duì)影響因素進(jìn)行分析統(tǒng)計(jì),便于下一步的實(shí)際結(jié)果預(yù)測(cè)。
本文選用LightGBM 模型,它是一個(gè)梯度Boosting 框架,是2017 年微軟亞洲研究院發(fā)布的一種基于決策樹(shù)算法,其具有訓(xùn)練速度快、運(yùn)行內(nèi)存低、準(zhǔn)確率高、支持并行學(xué)習(xí)、可處理大規(guī)模數(shù)據(jù)的優(yōu)點(diǎn),特別是在工業(yè)界具有很高的利用價(jià)值[15~16]。通過(guò)提取影響因素具有高貢獻(xiàn)度的特征,將提取到的特征變量帶入到LightGBM 決策算法對(duì)提取的足球比賽影響因素進(jìn)行實(shí)際的足球比賽預(yù)測(cè)。
本實(shí)驗(yàn)將數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集按9∶1 的比例進(jìn)行數(shù)據(jù)拆分,調(diào)節(jié)LightGBM 決策模型參數(shù),同時(shí)對(duì)預(yù)測(cè)結(jié)果進(jìn)行十折交叉驗(yàn)證。實(shí)驗(yàn)對(duì)比全部特征與提取關(guān)聯(lián)度最高的特征預(yù)測(cè)對(duì)比如表4所示。
表4 全部特征與關(guān)聯(lián)度高的特征預(yù)測(cè)對(duì)比表
根據(jù)表4 實(shí)驗(yàn)發(fā)現(xiàn)本文提出的方法采用Light-GBM 決策算法對(duì)足球比賽的勝利預(yù)測(cè)準(zhǔn)確率為73.01%,此方法在在相同數(shù)據(jù)源和數(shù)據(jù)填充處理方式的基礎(chǔ)上能夠在影響因素減少67.5%的情況下仍然沒(méi)有損失比賽預(yù)測(cè)實(shí)際精度,而且在計(jì)算速度上得到極大的提升。對(duì)于足球比賽這種含有眾多影響因素的關(guān)聯(lián)分析具有很好的效果,而且能夠發(fā)掘出與實(shí)際比賽結(jié)果最有用的特征,對(duì)于比賽預(yù)測(cè)具有很好的預(yù)測(cè)效果。
基于模糊灰色關(guān)聯(lián)分析,建立了一個(gè)對(duì)足球比賽多因素關(guān)聯(lián)的模型。對(duì)足球比賽的多因素進(jìn)行了定量的判定和分析,聚量化突出了不同因素對(duì)比賽結(jié)果影響程度,最大程度的抱著保證了分析的準(zhǔn)確性和影響因素的可解釋性。本文方法從統(tǒng)計(jì)與數(shù)據(jù)挖掘的角度上進(jìn)行分析了比賽數(shù)據(jù)的探索,從比賽數(shù)據(jù)的特征構(gòu)建,再到篩選后的比賽結(jié)果預(yù)測(cè),不僅從海量的比賽數(shù)據(jù)探尋數(shù)據(jù)本身存在的價(jià)值,而且賦予體育比賽的數(shù)據(jù)分析一種新的探索方法。對(duì)于相關(guān)其他體育賽事比賽結(jié)果影響因素評(píng)定的研究具有一定的影響力,為體育比賽結(jié)果的分析與預(yù)測(cè)提供了參考科學(xué)有效參考。