摘 要:NBA聯(lián)賽是集競技水平、商業(yè)運(yùn)作最高境界于一身的職業(yè)籃球聯(lián)賽,受到世界各地籃球愛好者的喜愛。在NBA聯(lián)賽中每支球隊(duì)都有自己獨(dú)有的技術(shù)特點(diǎn)和戰(zhàn)術(shù)體系,都會(huì)選擇適合自身球隊(duì)特點(diǎn)的陣容組合模式和進(jìn)攻方式。金州勇士隊(duì)連續(xù)四年打進(jìn)總決賽,并三次獲得總冠軍。本文運(yùn)用Logistic回歸及有監(jiān)督的決策樹數(shù)據(jù)挖掘技術(shù),對金州勇士隊(duì)比賽取勝的影響因素進(jìn)行分析。
關(guān)鍵詞:NBA聯(lián)賽;數(shù)據(jù)挖掘;因素分析
一.Logistic回歸探究金州勇士隊(duì)取勝指標(biāo)
1.Logistic回歸
Logistic回歸為廣義線性模型的一種,解決的是數(shù)據(jù)相響應(yīng)變量取值非連續(xù)型,分布不是正態(tài)的情況。因變量Y為二元變量,取值為1或0[1]。在給定自變量的情況下,因變量的條件期望實(shí)際上就是在自變量的某種水平下取“1”的概率,即所關(guān)心事件發(fā)生的概率為:,因此,Logistic的模型表示為:
公式中 ?表示事件發(fā)生的概率。在做Logistic回歸時(shí),為使模型的形式更清楚,解釋更方便,往往將上式做Logit 變換,即轉(zhuǎn)化為如下形式:
該等式的左邊是事件發(fā)生概率與不發(fā)生概率之比,當(dāng)這個(gè)比值越大,說明事件越容易發(fā)生,它的取值范圍在之間。
2.探究金州勇士隊(duì)取勝指標(biāo)
本文選取2014年至2018年金州勇士隊(duì)連續(xù)四年打入NBA總決賽的四個(gè)賽季的數(shù)據(jù),以比賽結(jié)果(result)作為二元變量,取勝為1,未取勝為0。以主客場(host),主場為1,客場為0。投籃命中率(shot),三分球投籃命中率(threepoint),罰球命中率(freeball),籃板個(gè)數(shù)(rebound),助攻個(gè)數(shù)(assistant),搶斷個(gè)數(shù)(steal),失誤個(gè)數(shù)(fault)以及每場失分情況(lose)作為自變量,進(jìn)行Logistic回歸,探究金州勇士隊(duì)的取勝指標(biāo)。結(jié)果如下:
由以上結(jié)果可知,在顯著性水平為p=0.05 的情況下,是否在主場作戰(zhàn)對于勇士隊(duì)比賽是否取勝無顯著影響。而投籃命中率,三分球命中率,罰球命中率,籃板,助攻,搶斷都不同程度的對金州勇士隊(duì)取得比賽的勝利起到正向作用,尤其投籃命中率及三分球命中率這兩項(xiàng),在勇士隊(duì)缺少強(qiáng)力內(nèi)線的情況下,進(jìn)攻范圍多數(shù)在三秒?yún)^(qū)以外,隨著與籃筐的距離變遠(yuǎn),保持高水平的投籃命中率就成為勇士隊(duì)取勝最關(guān)鍵的因素。而擁有天才三分射手的勇士隊(duì),球隊(duì)多數(shù)的戰(zhàn)術(shù)是為斯蒂芬.庫里以及克萊.湯普森創(chuàng)造外線的三分機(jī)會(huì),因此三分球命中率也是勇士隊(duì)想要取勝的重要因素。
失誤以及每場比賽失分的增多對球隊(duì)取得比賽的勝利起到負(fù)向作用。由于勇士隊(duì)的主力整體陣容偏小,因此是NBA聯(lián)盟中少數(shù)可以進(jìn)行無限換防的球隊(duì),這樣對其他球隊(duì)的陣地進(jìn)攻造成了很大的壓力。所以其他球隊(duì)想要在勇士隊(duì)身上輕松拿分,最好的方式就是提高轉(zhuǎn)換速度,用強(qiáng)硬的防守逼得勇士隊(duì)的失誤,不等勇士隊(duì)陣地落位,抓住機(jī)會(huì)打防守反擊,提高自己的進(jìn)攻效率,以快制快。因此,勇士隊(duì)想要取得比賽勝利,控制自身的失誤也變得尤為重要。
二.決策樹算法探究關(guān)鍵因素對球隊(duì)取勝的影響概率
1.決策樹算法
決策樹是一樹狀結(jié)構(gòu),每一個(gè)葉節(jié)點(diǎn)對應(yīng)著一個(gè)分類,非葉節(jié)點(diǎn)對應(yīng)著某個(gè)屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分為若干個(gè)子集。ID3算法是最經(jīng)典的決策樹分類算法,基于信息熵來選擇最佳測試屬性。選擇當(dāng)前樣本中具有最大信息增益值的屬性作為測試屬性,樣本的劃分則依據(jù)測試屬性的取值進(jìn)行[2]。測試屬性有多少不同的取值就將樣本集劃分為多少子樣本集,同時(shí)決策樹上對應(yīng)于該樣本集的節(jié)點(diǎn)長出新的葉子節(jié)點(diǎn)。
設(shè)為個(gè)數(shù)據(jù)樣本的集合。假定類別屬性具有個(gè)不同的值:。設(shè)是中的樣本數(shù)。對一個(gè)給定的樣本,它總的信息熵為:
式中,為任意樣本屬于的概率,一般可用估計(jì)。
設(shè)一個(gè)屬性具有個(gè)不同的值,利用屬性將集合劃分為個(gè)子集,其中包含了集合中屬性取值的樣本。若屬性為測試屬性,則這些子集就是從集合的節(jié)點(diǎn)生長出來的新的葉節(jié)點(diǎn)。設(shè)是子集中類別為的樣本數(shù),則根據(jù)屬性劃分樣本的信息熵值為:
式中,是子集中類別為的樣本的概率。
最后,用屬性劃分樣本集后所得的信息增益為
顯然越小,的值越大,說明選擇測試屬性對于分類提供的信息越大,選擇之后對分類的不確定程度越小。屬性的個(gè)不同的值對應(yīng)樣本集的個(gè)子集或分支,通過遞歸調(diào)用上述過程,生成其他屬性作為節(jié)點(diǎn)的子節(jié)點(diǎn)和分支來生成整個(gè)決策樹。
2.利用決策樹算法探究關(guān)鍵因素對球隊(duì)取勝概率的影響
選取第一章節(jié)8個(gè)變量作為ID3決策樹算法的分類指標(biāo),將球隊(duì)2014-2017前三個(gè)賽季,共308條數(shù)據(jù)作為數(shù)據(jù)實(shí)驗(yàn)集,探究關(guān)鍵因素對球隊(duì)取勝概率的影響,結(jié)果如下:
由以上結(jié)果可知,當(dāng)金州勇士隊(duì)的每場比賽的投籃命中率大于44% 的時(shí)候,球隊(duì)有83%的概率會(huì)取得比賽的勝利,當(dāng)勇士隊(duì)的投籃命中率小于44%而籃板球的個(gè)數(shù)大于50的時(shí)候,勇士隊(duì)同樣會(huì)有4%的概率取得比賽的勝利。投籃命中率下降,必然會(huì)導(dǎo)致籃板球數(shù)的增多,因此籃板球的拼搶對于沒有強(qiáng)力中鋒,主力陣容偏小的勇士隊(duì)來說同樣至關(guān)重要。最后便是勇士隊(duì)的鎮(zhèn)隊(duì)之寶三分球了。即使投籃命中率低于44%,籃板球個(gè)數(shù)少于50個(gè),但當(dāng)勇士隊(duì)的三分球命中率大于26%的時(shí)候,也依然有4%的概率取得比賽的勝利。
而當(dāng)其他球隊(duì)利用強(qiáng)有力的防守迫使勇士隊(duì)投籃命中率下降,通過積極的拼搶獲得更多的籃板球時(shí),將會(huì)使得勇士隊(duì)失分增加,加大球隊(duì)獲勝的概率。當(dāng)勇士隊(duì)的投籃命中率低于44%,籃板球個(gè)數(shù)少于50的時(shí)候,會(huì)有13%的概率輸?shù)舯荣?。而在以上兩種情況下且球隊(duì)失分達(dá)到105分以上時(shí),會(huì)100%的輸?shù)舯荣?。此外,在勇士?duì)的投籃命中率低于44%,籃板球個(gè)數(shù)少于50且失分小于105,但三分球命中率下降到26%以下,同樣會(huì)輸?shù)舯荣悺?/p>
現(xiàn)利用2017-2018一個(gè)賽季的102條數(shù)據(jù)作為數(shù)據(jù)測試集,對得出的分類結(jié)果進(jìn)行驗(yàn)證,驗(yàn)證結(jié)果如下:
由驗(yàn)證結(jié)果可知,在102條數(shù)據(jù)當(dāng)中,根據(jù)得到的分類結(jié)果,成功預(yù)測對80條數(shù)據(jù),預(yù)測正確的概率為78.5%,從一定程度上驗(yàn)證了我們分析的正確性。
三.結(jié)語
金州勇士隊(duì)是一支十分依賴于投籃命中率以及三分球命中率的隊(duì)伍,其他球隊(duì)要是想在與勇士隊(duì)的交鋒中占得先機(jī),必須做好兩點(diǎn)。第一點(diǎn)就是加強(qiáng)球隊(duì)的防守強(qiáng)度訓(xùn)練。勇士隊(duì)具有頂級(jí)的三分球射手,進(jìn)攻多數(shù)集中于外線,因此會(huì)更多的應(yīng)用擋拆戰(zhàn)術(shù),這就對其他球隊(duì)的防守移動(dòng)速度提出了很高要求。第二點(diǎn)就是加強(qiáng)球隊(duì)籃板球的爭搶。誰能更多掌握籃板球,誰就能更多掌握進(jìn)攻的主動(dòng)權(quán),同時(shí)抑制對方的出手次數(shù),降低對方的得分機(jī)率。勇士隊(duì)主力陣容相對偏小,其他球隊(duì)可以做針對性部署以及籃板卡位戰(zhàn)術(shù),爭取在籃板球上取得優(yōu)勢。金州勇士隊(duì)是一支有底蘊(yùn)深厚的球隊(duì),分析只是基于歷史比賽數(shù)據(jù),真正的比賽瞬息萬變,需要場上運(yùn)動(dòng)員拼搏努力,希望NBA聯(lián)賽以及我們國內(nèi)的CBA聯(lián)賽都能越辦越好。
參考文獻(xiàn)
[1]呂曉玲等.大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)[M].中國人民大學(xué)出版社,2016.
[2]張良均等.R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].機(jī)械工業(yè)出版社,2015.
作者簡介:
會(huì)淵凱(1993.04-),男,回族,河北省承德市人,河北省燕山大學(xué)理學(xué)院應(yīng)用統(tǒng)計(jì)專業(yè)碩士研究生在讀,主要研究方向:數(shù)據(jù)分析與數(shù)據(jù)挖掘。
(作者單位:燕山大學(xué)理學(xué)院)