高紅霞,楊 迪,蘇理云,黃丹妮
(重慶理工大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400054)
在NBA獲得總冠軍不僅是至高無(wú)上的榮譽(yù),更能為球隊(duì)帶來(lái)不菲的經(jīng)濟(jì)效益。然而,季后賽是所有向往總冠軍球隊(duì)必須邁過(guò)的一道坎。因此,一個(gè)球隊(duì)能否進(jìn)入季后賽至關(guān)重要,利用已知數(shù)據(jù)對(duì)球隊(duì)能否進(jìn)入季后賽進(jìn)行判斷變得具有實(shí)際意義。李杰林等[1]利用Logistic模型對(duì)季后成績(jī)進(jìn)行研究。潘建武[2]采用Fisher判別分析對(duì)常規(guī)賽勝負(fù)進(jìn)行判別,而國(guó)內(nèi)對(duì)NBA球隊(duì)能否進(jìn)入季后賽的預(yù)測(cè)模型則較少。本文利用2011—2013兩年季的數(shù)據(jù)作為樣本,采用Fisher法建立判別模型,預(yù)測(cè)2014年季后賽資格,發(fā)現(xiàn)預(yù)測(cè)的誤判率較小。最后,本文基于2012—2014兩年的數(shù)據(jù)重新建立模型,對(duì)已經(jīng)過(guò)去1/3賽程的2014—2015季后賽資格進(jìn)行判別。
本文參考李杰林[1]和潘建武[2]對(duì) NBA 球賽勝負(fù)的分析,選擇2分命中率、3分命中率、罰球命中率、防守籃板、進(jìn)攻籃板、助攻數(shù)、搶斷、阻擋、轉(zhuǎn)換得分、個(gè)人犯規(guī),場(chǎng)均得分等指標(biāo)。考慮到影響籃球比賽勝負(fù)的兩大因素是對(duì)手和自己,僅選取自己的指標(biāo)預(yù)測(cè)勝負(fù)具有片面性。比如一些進(jìn)攻比較好的球隊(duì)雖然可能得到很漂亮的數(shù)據(jù),但因?yàn)榉朗芈┒磳?dǎo)致對(duì)手得到更多分?jǐn)?shù)而輸?shù)舯荣?,所以本文參考薛薇?]在Logistic回歸模型中定義的優(yōu)勢(shì)比,根據(jù)式(1)定義所選指標(biāo)的優(yōu)勢(shì)。
將所有指標(biāo)及其優(yōu)勢(shì)的符號(hào)整理成表1。
本文從 NBA官方網(wǎng)站[4]上獲取2011—2014賽季常規(guī)賽的數(shù)據(jù)和2014—2015賽季1/3賽程的數(shù)據(jù)。其中,Ti是自己球隊(duì)每個(gè)指標(biāo)的平均;Oi是對(duì)手每個(gè)指標(biāo)的平均;Ωi是每個(gè)指標(biāo)的優(yōu)勢(shì)比。
表1 選取指標(biāo)的符號(hào)及含義
Fisher判別法也稱典型判別法[5],其基本思想是先將高維空間數(shù)據(jù)投影到低維空間,然后再進(jìn)行判別。
對(duì)于本文來(lái)說(shuō),數(shù)據(jù)的維度即是選取指標(biāo)的個(gè)數(shù)。所謂投影,即是將p=11維空間的樣本點(diǎn)投影到m(m<p)空間中。Fisher判別函數(shù)是各指標(biāo)優(yōu)勢(shì)的線性函數(shù),即
首先,應(yīng)在判別變量的p維空間中找到使各類別的平均值差異最大的線性組合作為第1維度,代表判別變量組間方差最大的一部分,得到第一Fisher判別函數(shù)。
然后,依次找到第二Fisher判別函數(shù)、第三Fisher判別函數(shù)等,且判別函數(shù)之間獨(dú)立。
從 k 個(gè)總體 Gt(t=1,2,3…k),分別從 Gt抽取nt個(gè)p維樣本,有
將Ω(t)i數(shù)據(jù)投影到p維常數(shù)向量C上,得到投影點(diǎn)的一元線性組合:
E和B分別具有自由度n-k和k-1,則一元方差分析統(tǒng)計(jì)量為:
式(7)中的F值越大,表明總體樣本Gt之間的均值有顯著性差異;F值越大,也使得對(duì)系數(shù)C的目標(biāo)函數(shù)值Φ(C)達(dá)到極大值。
由特征值極值性質(zhì)可知,式(8)中求Φ(C)的極大值問(wèn)題可轉(zhuǎn)化為求W-1U的最大特征值和特征向量問(wèn)題,其極大值求解方程如下:
式(9)中的最大特征根則為W-1U的非零特征根,即 λ1≥λ2≥…λr(r≤p)。
根據(jù)λ1≥λ2≥…λr(r≤p)對(duì)應(yīng)的特征值依次得到第一判別式。
式(10)中 i=1,2,…,r。
本文將所有球隊(duì)分為季后賽球隊(duì)和非季后賽球隊(duì),即為兩總體的樣本,F(xiàn)isher判別規(guī)則如下:
其中
若y>y0,即判別為季后賽;反之,則判為非季后賽。
一個(gè)判別模型判別能力的高低表現(xiàn)為誤判率的高低。本文采取留一交叉驗(yàn)證法來(lái)衡量模型的判別能力[6-7]。所謂交叉驗(yàn)證法,是從樣本中抽取1個(gè)樣本作為驗(yàn)證樣本,其余的樣本作為訓(xùn)練樣本。它既避免了樣本數(shù)據(jù)在構(gòu)造判別函數(shù)的同時(shí)又被用來(lái)對(duì)該函數(shù)進(jìn)行評(píng)價(jià),造成不合理的信息重復(fù)使用,又幾乎避免了構(gòu)造判別函數(shù)時(shí)樣本信息的損失(只損1個(gè)樣本)。
本文根據(jù)以上對(duì)Fisher判別模型的求解思路,在 R 中編程[8-10]。對(duì) 2011—2012 和 2012—2013 NBA賽季的數(shù)據(jù)建立Fisher判別模型,求得交叉誤判率?;谠贾笜?biāo)的判別信息如表2所示。
表2 基于原始指標(biāo)的Fisher判別信息
表2中的交叉驗(yàn)證的誤判率為20%,可以看出判別效果不是太好。
籃球競(jìng)技的勝負(fù)因素,取決于自己和競(jìng)爭(zhēng)對(duì)手。在籃球比賽中能限制對(duì)手優(yōu)勢(shì)、發(fā)揮自己優(yōu)勢(shì)方能取得勝利。因此,本文選擇用每個(gè)指標(biāo)的優(yōu)勢(shì)得分作為新的判別指標(biāo)進(jìn)行判別分析,判別結(jié)果如表3所示。
表3 基于優(yōu)勢(shì)得分的Fisher判別信息
從表3可以看出:采用優(yōu)勢(shì)得分作為新的指標(biāo)進(jìn)行判別分析,交叉誤判率降為13.3%。
本文將對(duì)誤判斷樣本以求能夠進(jìn)一步降低誤判率,誤判樣本如表4所示。
從表4可以看出:在5支被誤判為非季后賽的球隊(duì)中,其中有3支是東部球隊(duì);在3支被誤判為季后賽的球隊(duì)中有2支是西部球隊(duì)。究其原因,縱觀近年來(lái)NBA格局,西強(qiáng)東弱的格局越來(lái)越清晰,一些東部的季后賽球隊(duì)放在西部卻無(wú)法進(jìn)入季后賽,一些在西部不能進(jìn)入季后賽的球隊(duì),放在東部卻可以進(jìn)入季后賽。鑒于以上原因,分別對(duì)東、西部建立Fisher判別模型。
表4 誤判樣本信息表
對(duì)東、西部分別建立Fisher判別模型,采用交叉驗(yàn)證法檢驗(yàn)?zāi)P偷呐袆e能力,將判別信息整理,結(jié)果如表5所示。
表5 東西部球隊(duì)誤判樣本信息
從表5可以看出:分東、西部建立Fisher判別模型后,西部的交叉誤判率沒(méi)有降低,但東部的交叉誤判率降為10%,平均交叉誤判率降為11.65%,故分東、西部建立的判別模型能得到較優(yōu)的結(jié)果。
在進(jìn)行Fisher判別分類時(shí),2個(gè)總體的個(gè)數(shù)是未知的,但由于獲得季后賽資格的名額有限,每個(gè)賽區(qū)只有一個(gè),所以本文選取Fisher函數(shù)值較大的前8個(gè)隊(duì)作為組2(季后賽組),其余為組1(非季后賽組)。根據(jù)以上規(guī)則,利用Fisher判別函數(shù)(11)和(12)進(jìn)行預(yù)測(cè)分類,并對(duì)比2013—2014賽季實(shí)際季后賽情況,結(jié)果見(jiàn)表6。
表6 Fisher判別信息和真實(shí)信息
由表6可知:西部只有1支沒(méi)有進(jìn)入季后賽,即認(rèn)為誤判率為12.5%;而東部預(yù)測(cè)的8支季后賽球隊(duì)都進(jìn)入季后賽,即誤判率為0%。由此可以看出:Fisher判別模型具有較好的預(yù)測(cè)能力,能夠較精確地預(yù)測(cè)出16支季后賽球隊(duì)。
在本文 3.3節(jié)中發(fā)現(xiàn)基于 2012—2013和2013—2013賽季數(shù)據(jù)建立的模型能夠較好地預(yù)測(cè)2013—2014賽季季后賽資格,所以本文考慮采用近2個(gè)賽季(即2012—2013和2013—2014賽季)的數(shù)據(jù)作為訓(xùn)練樣本對(duì)已經(jīng)進(jìn)行了1/3的2014—2015賽季季后賽資格進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果見(jiàn)表7。
表7 2014—2015賽季30支球隊(duì)的預(yù)測(cè)結(jié)果
從表7可以看出:傳統(tǒng)強(qiáng)隊(duì)諸如馬刺、公牛等隊(duì)都在預(yù)測(cè)的季后賽行列中。
作為世界三大主流球類之一,籃球市場(chǎng)越來(lái)越火爆。一支球隊(duì)能否在季后賽的大舞臺(tái)上表演,直接與球隊(duì)的經(jīng)濟(jì)利益相關(guān)聯(lián),因而對(duì)球隊(duì)能否進(jìn)入季后賽的預(yù)測(cè)顯得十分有意義?;?011—2012和2012—2013賽季數(shù)據(jù)建立 Fisher判別模型來(lái)判別一支球隊(duì)能否進(jìn)入季后賽,發(fā)現(xiàn)東、西部存在明顯差異;進(jìn)而分東、西部建立另一個(gè)Fisher判別模型,回代誤判率僅為5%;然后對(duì)2013—2014賽季季后賽資格預(yù)測(cè)。對(duì)比已知信息,發(fā)現(xiàn)西部的8支球隊(duì)中只有1支誤判,預(yù)測(cè)誤判率為12.5%;東部的8支球隊(duì)全部預(yù)測(cè)準(zhǔn)確,預(yù)測(cè)誤判率為0%,說(shuō)明模型具有較好的預(yù)測(cè)效果。最后,本文基于2012—2013和2013—2014賽季的數(shù)據(jù)重新建立東、西部的判別模型,并根據(jù)已經(jīng)進(jìn)行了1/3的2014—2015賽季的數(shù)據(jù)預(yù)測(cè)了今年的16支季后賽球隊(duì)。
[1]李林杰,張學(xué)東.影響NBA常規(guī)賽勝負(fù)的Logistic分析[J].統(tǒng)計(jì)教育,2008(4):40-41.
[2]潘建武.對(duì)NBA常規(guī)賽勝負(fù)影響因素及Fisher判別分析[J].四川體育科學(xué),2012(5):47-48.
[3]薛薇.基于R的統(tǒng)計(jì)分析與數(shù)據(jù)挖掘[M].北京:中國(guó)人民大學(xué)出版社,2014.
[4]Sports Reference LLC[DB/OL].[2014-12-31].http://www.basketball-reference.com/seaons/.
[5]高慧璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2005.
[6]趙萌,蘭德新.基于多元統(tǒng)計(jì)分析的大學(xué)生消費(fèi)調(diào)查[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2012,26(7):123-126.
[7]魏偉,顏醒華.基于多元回歸分析的中國(guó)旅游上市公司投資效率研究[J].重慶師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013(5):128-133.
[8]王斌會(huì).多元統(tǒng)計(jì)分析及R語(yǔ)言建模[M].廣州:暨南大學(xué)出版社,2014.
[9]湯銀才.R語(yǔ)言與統(tǒng)計(jì)分析[M].北京:高等教育出版社,2008.
[10]薛薇.基于R的統(tǒng)計(jì)分析與數(shù)據(jù)挖掘[M].北京:中國(guó)人民大學(xué)出版社,2014.