摘 要:分類問(wèn)題一直是數(shù)據(jù)挖掘、模式識(shí)別等領(lǐng)域的重要研究?jī)?nèi)容,應(yīng)用大數(shù)據(jù)技術(shù)處理與分析海量數(shù)據(jù)可實(shí)現(xiàn)預(yù)測(cè)分類。數(shù)據(jù)科學(xué)研究一般過(guò)于依賴LGBM和XGBoost,但在某些情況下,線性回歸的效果比GBM樹更好。采用機(jī)器學(xué)習(xí)中的logistics回歸算法對(duì)足球比賽歷史數(shù)據(jù)進(jìn)行分析處理,從而挖掘數(shù)據(jù)之間的關(guān)聯(lián)。通過(guò)對(duì)訓(xùn)練集的后視檢驗(yàn)得到每種結(jié)果的概率,對(duì)足球比賽結(jié)果進(jìn)行預(yù)測(cè)。對(duì)決策樹和集成算法Adaboost建模,提高了預(yù)測(cè)準(zhǔn)確率。該方法對(duì)預(yù)測(cè)世界杯足球比賽結(jié)果具有指導(dǎo)作用。
關(guān)鍵詞:多分類預(yù)測(cè);機(jī)器學(xué)習(xí);logistic回歸;決策樹;集成學(xué)習(xí)
DOI:10. 11907/rjdk. 182494 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP302文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)007-0045-04
Multi-classification Forecasting Model Based on World Cup Competition
LEI Guang-yu
(School of Computer Science and Engineering, Wuhan University of Engineering, Wuhan 430205,China)
Abstract:Big data applications will bring about a new era of innovation and change in society. Classification problem has been an important research content in data mining, pattern recognition and other fields. Since World cup is popular, it can implement predictive classification by using big data technology to process and analyze the massive amount of data. Data science is now depend on LGBM and XGBoost much, but in some cases, the effect of linear regression is sometimes better than GBM,the others may be better. This paper mainly uses logistic regression. The historical data is analyzed and processed to excavate the correlation between the data, and the probability of each result can be obtained by the post-view test of the training set, finally, the prediction of the football match result is realized.And decision trees and integrated algorithms Adaboost are compared and the accuracy of the prediction is improved,and the actual prediction of the game has a guiding role.
Key Words:soccer game prediction; machine learning; logistic regression; decision tree; integrated learning
作者簡(jiǎn)介:雷光裕(1998-),男,武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院學(xué)生,研究方向?yàn)闄C(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘。
0 引言
將機(jī)器學(xué)習(xí)算法應(yīng)用于數(shù)據(jù)挖掘不但對(duì)處理足球比賽海量數(shù)據(jù)有重要意義,還對(duì)足球彩票競(jìng)技具有指導(dǎo)價(jià)值。足球比賽結(jié)果預(yù)測(cè)涉及的因素非常多,無(wú)法將所有因素都融入機(jī)器學(xué)習(xí)模型中,因此目前國(guó)內(nèi)外將機(jī)器學(xué)習(xí)用于足球比賽預(yù)測(cè)的應(yīng)用還很少。
機(jī)器學(xué)習(xí)是大數(shù)據(jù)分析的一種重要方法,機(jī)器學(xué)習(xí)算法可從原始數(shù)據(jù)中通過(guò)特征提取獲得特征數(shù)據(jù),從特征數(shù)據(jù)中自動(dòng)嘗試獲得數(shù)據(jù)的相關(guān)規(guī)律,再利用獲取的規(guī)律對(duì)未知數(shù)據(jù)集進(jìn)行預(yù)測(cè)[1]。
常用的預(yù)測(cè)算法主要有支持向量機(jī)(SVM)、邏輯回歸、決策樹、隨機(jī)森林集成學(xué)習(xí)等[2]。運(yùn)用上述分類方法進(jìn)行模型構(gòu)建,分析比較各模型的性能。支持向量機(jī)可有效調(diào)節(jié)算法復(fù)雜度與泛化能力之間的矛盾,因此在小樣本學(xué)習(xí)領(lǐng)域有著優(yōu)于傳統(tǒng)模式識(shí)別方法的推廣能力[3]。然而在處理較大規(guī)模數(shù)據(jù)集時(shí),通常需要更長(zhǎng)的訓(xùn)練時(shí)間。KNN方法是基于實(shí)例的學(xué)習(xí)方法,可生成任意形狀的決策邊界,無(wú)需建立模型,但其分類開銷很大,需逐個(gè)計(jì)算相似度。此外,當(dāng)k取值較小時(shí),對(duì)噪音也很敏感[4]。針對(duì)上述不足,研究者作了相應(yīng)改進(jìn),但尚未有一個(gè)能同時(shí)實(shí)現(xiàn)訓(xùn)練時(shí)間短、預(yù)測(cè)能力強(qiáng)、規(guī)則提取簡(jiǎn)易且適應(yīng)性強(qiáng)的分類方法,比較而言邏輯回歸性能較優(yōu)。本模型采用的邏輯回歸分類方法是一種logistic方程歸一化后的線性回歸[5],這種回歸方法一般能合理降低兩端方向的輸入,這類輸入一般對(duì)預(yù)測(cè)結(jié)果產(chǎn)生負(fù)面影響。同時(shí)模型易于解釋,便于提取知識(shí)集[6]。本文采用比賽主客場(chǎng)、凈勝球數(shù)解釋比賽勝負(fù),提高了預(yù)測(cè)準(zhǔn)確率,涉及的難題有機(jī)器學(xué)習(xí)的多預(yù)測(cè)問(wèn)題、過(guò)擬合問(wèn)題、連續(xù)值問(wèn)題、模型調(diào)參問(wèn)題、類不平衡問(wèn)題等[7]。
實(shí)驗(yàn)?zāi)康氖菑臉颖緮?shù)據(jù)抽取相應(yīng)特征,并通過(guò)合適的算法模型從這些信息中找出和足球比賽結(jié)果相關(guān)性大的特性,計(jì)算下一場(chǎng)比賽的勝負(fù)概率、預(yù)測(cè)比賽勝負(fù)。
1 數(shù)據(jù)獲取及預(yù)處理
本文構(gòu)建2018世界杯足球比賽預(yù)測(cè)模型,預(yù)測(cè)整個(gè)世界杯比賽的小組賽結(jié)果,數(shù)據(jù)挖掘流程為數(shù)據(jù)集成、特征建模和結(jié)果預(yù)測(cè)。用歷史數(shù)據(jù)分析影響因素,應(yīng)用邏輯回歸模型和決策樹模型進(jìn)行比較及預(yù)測(cè)。
1.1 數(shù)據(jù)清洗
分析數(shù)據(jù)來(lái)源于Kaggle,包含1872-2018年的數(shù)據(jù),包括世界杯比賽、世界杯預(yù)選賽、亞洲杯、歐洲杯、國(guó)家之間的友誼賽等各國(guó)足球隊(duì)排名,大約有20 565場(chǎng)比賽數(shù)據(jù)。特征有比賽日期、主客場(chǎng)隊(duì)伍、主客場(chǎng)得分、比賽地點(diǎn)及比賽是否友好。
1.2 數(shù)據(jù)處理
從原始數(shù)據(jù)集選取樣本數(shù)據(jù)時(shí),需要對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,通過(guò)對(duì)變量缺失值和異常值等進(jìn)行處理,去除不符合要求的數(shù)據(jù)。
表1 多標(biāo)記數(shù)據(jù)集詳細(xì)信息
通過(guò)表1數(shù)據(jù)可以看出,整個(gè)數(shù)據(jù)集數(shù)據(jù)三分類的正負(fù)樣本較為平衡。由于足球比賽具有一定的即時(shí)性,過(guò)多或過(guò)早的數(shù)據(jù)不能很好地表示當(dāng)前隊(duì)伍的表現(xiàn),所以需要對(duì)數(shù)據(jù)進(jìn)行清洗處理。截取自1930年第一屆世界杯以來(lái)入圍2018俄羅斯世界杯小組賽的球隊(duì)信息,共19 472行。
比賽結(jié)果有勝負(fù)平3種,這是一個(gè)三分類問(wèn)題?,F(xiàn)有多分類學(xué)習(xí)方法主要有算法適應(yīng)法和問(wèn)題轉(zhuǎn)化法[4]。算法適應(yīng)法拓展現(xiàn)有單標(biāo)記機(jī)器學(xué)習(xí)算法,能直接處理多標(biāo)記數(shù)據(jù);問(wèn)題轉(zhuǎn)化法將多標(biāo)記分類問(wèn)題轉(zhuǎn)化為若干個(gè)單標(biāo)記分類問(wèn)題[8]。處理多分類問(wèn)題的方法多數(shù)采用多標(biāo)記問(wèn)題轉(zhuǎn)化法思路,即將多分類問(wèn)題轉(zhuǎn)換成二分類問(wèn)題[9],常用方法有one-vs-all和one-vs-one等。足球比賽勝負(fù)平3種結(jié)果是一個(gè)三元分類問(wèn)題,將3個(gè)預(yù)測(cè)標(biāo)簽分別映射為1(勝)、-1(負(fù))、0(平)。
1.3 特征工程
常用的特征工程分為子集搜索與評(píng)價(jià)[10]、過(guò)濾式選擇[11]、包裹式選擇[12]和嵌入式方法[13]4種。本次實(shí)驗(yàn)選用過(guò)濾式選擇方法:先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后訓(xùn)練學(xué)習(xí)器,此方法采用相關(guān)統(tǒng)計(jì)量度量特征的重要性。
通過(guò)特征選擇保留主客場(chǎng)特征。由于世界杯比賽中的國(guó)家沒(méi)有主客場(chǎng)之分,所以這里采用FIFA世界排名代替主客場(chǎng)特征。把FIFA排名靠前的隊(duì)伍放到“home_teams”(主場(chǎng)隊(duì)伍)一列,然后根據(jù)每個(gè)隊(duì)伍的排名將他們加入到新的預(yù)測(cè)數(shù)據(jù)集中。
為使預(yù)測(cè)結(jié)果盡可能準(zhǔn)確,應(yīng)將目標(biāo)差異和結(jié)果列添加到結(jié)果數(shù)據(jù)集中,在世界杯結(jié)果數(shù)據(jù)集中添加兩個(gè)特征:勝利或平局、凈勝球數(shù)。
2 邏輯回歸模型應(yīng)用
2.1 邏輯回歸模型線性表示
邏輯回歸是機(jī)器學(xué)習(xí)的經(jīng)典算法,是典型的概率統(tǒng)計(jì)分類模型,屬于有監(jiān)督的學(xué)習(xí)方法,常應(yīng)用于數(shù)據(jù)挖掘[14]。
線性回歸即在給定的數(shù)據(jù)集[D={(x1,y1),(x2,y2),?,][(xm,ym),}],[ xi=(xi1;xi2;?;xid),yi∈R]中得到一個(gè)線性模型[f(xi)=ωTxi+b],使[f(xi)≈yi],并利用最小二乘法最小化均方誤差對(duì)[ω]和b進(jìn)行估計(jì)。即
[(ω*,b*)=arg min(y-Xω)T(y-Xω)]
[?Eω?ω=2XT(Xω-y)]
令式為零可得到[ω]最優(yōu)的閉式解。
通過(guò)激發(fā)函數(shù)將預(yù)測(cè)值與邏輯回歸分類聯(lián)系。預(yù)測(cè)中較常用的激發(fā)函數(shù)是Sigmoid函數(shù):[y=11+e-z=11+e-(ωT+b)]
設(shè)某事件x發(fā)生的概率為P,不發(fā)生的概率為1-P,則[lnp1-p]為x作為正例的相對(duì)可能性。
[p=exp(α+β1x1+?+βmxm)1+exp(α+β1x1+?+βmxm)]
該模型即為邏輯回歸模型,模型中[α]為常數(shù),[βm]為邏輯回歸系數(shù),代表世界杯比賽各特征的相對(duì)貢獻(xiàn)率。通過(guò)最大似然估計(jì)計(jì)算[ω]和[b]。根據(jù)凸優(yōu)化理論[15],經(jīng)典數(shù)值優(yōu)化算法梯度下降法能保證每一點(diǎn)的擬合為最優(yōu)。
2.2 邏輯算法建模及評(píng)估
logistic回歸模型的樣本自變量是連續(xù)型數(shù)據(jù),通過(guò)設(shè)置啞變量(dummy variables),將home_team和away_team從分類變量轉(zhuǎn)換成連續(xù)輸入。
通過(guò)特征方程建立特征向量后,將樣本數(shù)據(jù)集劃分成70%的訓(xùn)練集與30%的測(cè)試集進(jìn)行學(xué)習(xí)及交叉驗(yàn)證。
多分類任務(wù)的評(píng)估標(biāo)準(zhǔn)采用F1-score。F1-score是準(zhǔn)確率和召回率的調(diào)和平均值,可對(duì)準(zhǔn)確率和召回率給予不同權(quán)重,計(jì)算公式如下:
[F1=2precision×recallprecision + recall]
為防止數(shù)據(jù)過(guò)擬合而影響其泛化效果,在損失函數(shù)最后一項(xiàng)中加入正則項(xiàng)。本實(shí)驗(yàn)特征向量不多,這里選取l2正則化。此數(shù)據(jù)沒(méi)有表現(xiàn)類不平衡,正負(fù)樣本隨機(jī)抽樣。
將數(shù)據(jù)導(dǎo)入邏輯回歸模型中,預(yù)測(cè)結(jié)果在訓(xùn)練集中正確率為0.800,在測(cè)試集中正確率為0.793。不難看出,算法模型的泛化效果較好,比其它算法的正確率有明顯提升,見(jiàn)表2。
表2 邏輯回歸模型預(yù)測(cè)效果
2.3 邏輯回歸小組賽預(yù)測(cè)
將上述模型應(yīng)用到小組賽預(yù)測(cè)中,檢驗(yàn)每場(chǎng)比賽的勝負(fù)平概率。通過(guò)選擇勝率大的隊(duì)伍作為比賽勝利一方對(duì)小組賽出線隊(duì)伍進(jìn)行預(yù)測(cè)。
通過(guò)學(xué)習(xí),預(yù)測(cè)小組賽出線16支隊(duì)伍為:烏拉圭、葡萄牙、法國(guó)、克羅地亞、巴西、 墨西哥、英格蘭、哥倫比亞、西班牙、俄羅斯、阿根廷、秘魯、德國(guó)、瑞士、波蘭、比利時(shí),其中13支隊(duì)伍出線進(jìn)入16強(qiáng)。
3 決策樹與集成學(xué)習(xí)模型比較
為了對(duì)比集成算法和單個(gè)基分類器的預(yù)測(cè)效果,本文在相同的實(shí)驗(yàn)數(shù)據(jù)集上,采用基于邏輯回歸模型進(jìn)行實(shí)驗(yàn),再分別使用隨機(jī)森林(RF)、ExtraTree[16](ET)、梯度漸進(jìn)決策樹[17](GBDT)和決策樹(DT) [18]4種算法作為基分類器進(jìn)行實(shí)驗(yàn),得出每個(gè)基分類器在單獨(dú)使用時(shí)的預(yù)測(cè)F1值并得出相應(yīng)的Fl值。
[9] MUKAEDA TAKAYUKI,SHIMA KEISUKE. A novel HMM-based pattern recognition method with unlearned pattern detection for emg signals[J]. The Proceedings of JSME annual Conference on Robotics and Mechatronics (Robomec), 2017(10):16-20.
[10] SHINDO T. Artificial intelligence and human wisdom[J]. The Journal of the Institute of Electrical Installation Engineers of Japan,2017,37(11):22-29.
[11] CHUENPRAPHANUSORN T,BOONCHART J,SNGU-ANYAT O,et al. The project evaluation for development the learning integrated model between the international program (IP) and the fundamental level curriculum in education hub project of the Ministry of Education, Thailand[J]. Mediterranean Journal of Social Sciences,2017,8(6):991-1002.
[12] GASCóN A,SCHOPPMANN P,BALLE B,et al. Privacy-preserving dis-tributed linear regression on high-dimensional data[J]. Proceedings on Privacy Enhancing Technologies, 2017(4):31-38.
[13] SHUANG BAI. Growing random forest on deep convolutional neural networks for scene categorization[J]. Expert Systems With Applications,2017(71):364-371.
[14] TEISSEYRE P. Ccnet: joint multi-label classification and feature selection using classifier chains and elastic net regularization[J]. Neurocomputing,2017(5):187-192.
[15] LOYOLA-GONZáLEZ O,MEDINA-PéREZ M A,F(xiàn)CO J,et al. PBC4CIP: a new contrast pattern-based classifier for class imbalance problems[J]. Knowledge-Based Systems,2017(11):5-11.
[16] SINGH H R,BISWAS S K,PURKAYASTHA B. A neuro-fuzzy classification technique using dynamic clustering and GSS rule generation[J]. Journal of Computational and Applied Mathematics,2017(309):452-461.
[17] CZAJKOWSKI M,KRETOWSKI M. The role of decision tree representation in regression problems-an evolutionary perspective[J]. Applied Soft Computing,2016(48):19-22.
[18] LI Z , MA X F, XIN X L. Feature engineering of machine-learning chemisorption models for catalyst design[J]. Catalysis Today,2017(280):374-379.
[19] GALAR M,F(xiàn)ERNáNDEZ A,BARRENECHEA E,et al. NMC:nearest matrix classification-a new combination model for pruning one-vs-one ensembles by transforming the aggregation problem[J]. Information Fusion,2017(36):222-229.
[20] DUMORTIER A,BECKJORD E,SHIFFMAN S,et al. Classifying smoking urges via machine learning[J]. Computer Methods and Programs in Biomedicine,2016(137):63-68.
[21] HAN Y M, ZHU Q X, GENG Z Q,et al. Energy and carbon emissions analysis and prediction of complex petrochemical systems based on an improved extreme learning machine integrated interpretative structural model[J]. Applied Thermal Engineering,2017(115):202-211.
(責(zé)任編輯:杜能鋼)