国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)驅(qū)動(dòng)的電競比賽結(jié)果預(yù)測與方法比較研究

2020-09-03 02:13:31金玲潘旭偉
中國集體經(jīng)濟(jì) 2020年22期
關(guān)鍵詞:數(shù)據(jù)分析

金玲 潘旭偉

摘要:隨著科技的發(fā)展以及人們思維的改變,電子競技正在逐步被越來越多的認(rèn)可,利用數(shù)據(jù)分析對(duì)選手進(jìn)行比賽分析從而預(yù)測比賽愈來愈有必要,但是,當(dāng)下對(duì)電競大數(shù)據(jù)的分析技術(shù)還處于賽事的起步與摸索階段,不能滿足電競行業(yè)的需求。因此,文章以絕地求生比賽為例,根據(jù)Kaggle數(shù)據(jù)集提供的pubg十幾萬條的賽事數(shù)據(jù),運(yùn)用LightGBM算法與XGBoost算法對(duì)比賽勝率進(jìn)行預(yù)測,并且對(duì)影響勝負(fù)結(jié)果的因素進(jìn)行排序與分析,同時(shí)從預(yù)測結(jié)果和運(yùn)算效率比較不同深度學(xué)習(xí)模型,確認(rèn)哪一種算法預(yù)測準(zhǔn)確率好,效率更高,更適合比賽的勝負(fù)預(yù)測。LightGBM的算法在當(dāng)前較為新穎,且并未有人將其用在電競選手的數(shù)據(jù)分析中,因此文章的研究在一定程度上豐富了學(xué)術(shù)界對(duì)此的研究,具有一定的創(chuàng)新價(jià)值。

關(guān)鍵詞:LightGBM算法;XGBoost算法;絕地求生;數(shù)據(jù)分析;勝率預(yù)測

近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,當(dāng)今世界的數(shù)據(jù)量呈爆炸式增長,電競行業(yè)也不例外。將電競預(yù)測與大數(shù)據(jù)相結(jié)合,將機(jī)器學(xué)習(xí)算法應(yīng)用于勝負(fù)預(yù)測模型是大勢所趨,對(duì)于正處于起步階段并不完善的中國電競行業(yè)尤為重要。

本論文需要解決兩個(gè)核心問題:預(yù)測和比較。預(yù)測所要解決的主要問題有三點(diǎn),一是特征因素的提取,為了量化分析每場比賽中每位選手的表現(xiàn),需要從每場比賽的統(tǒng)計(jì)數(shù)據(jù)中,選取一些能夠反映比賽中選手狀態(tài)的特征的數(shù)據(jù);二是選手的初始特征處理,根據(jù)當(dāng)前場次玩家已有的歷史游戲場次數(shù)據(jù),主要特征變量取均值,無歷史數(shù)據(jù)玩家給定自定義初始值進(jìn)行預(yù)測,同時(shí)考慮不定因素,代入游戲初始模型進(jìn)行預(yù)測;三是代入模型預(yù)測出每個(gè)選手的勝率以及每場比賽最后的冠軍,再編程排序,對(duì)比預(yù)測和真實(shí)值。

比較所主要解決的是根據(jù)LightGBM機(jī)器學(xué)習(xí)算法與其他不同的預(yù)測算法,例如XGBoost等,分別從預(yù)測結(jié)果和運(yùn)算效率比較不同算法的深度學(xué)習(xí)模型,確認(rèn)哪一種算法預(yù)測準(zhǔn)確率好,效率更高,更適合比賽的勝負(fù)預(yù)測。

一、文獻(xiàn)綜述

我國電競領(lǐng)域數(shù)據(jù)收集與分析理論研究起步較晚,針對(duì)電競數(shù)據(jù)的相關(guān)研究成果相對(duì)較少,多為國外理論知識(shí)的借鑒及擴(kuò)展,因此加快數(shù)據(jù)收集與分析技術(shù)的發(fā)展勢在必行。對(duì)于電競游戲的數(shù)據(jù)分析,常用的有AARRR、關(guān)聯(lián)規(guī)則挖掘算法等等。本文將在下文中就電競游戲的數(shù)據(jù)分析的研究現(xiàn)狀進(jìn)行梳理與分析。

對(duì)電競游戲的數(shù)據(jù)分析的必要性進(jìn)行研究的有,周靈和王莉莉就電競游戲的數(shù)據(jù)運(yùn)營進(jìn)行了分析,他認(rèn)為首先需要科學(xué)的方法論的指導(dǎo),其次需要結(jié)合業(yè)務(wù)的數(shù)據(jù)指導(dǎo)和技術(shù)開發(fā)環(huán)節(jié)來完成,他提出以王者榮耀為典型代表的移動(dòng)端電競游戲和產(chǎn)品逐漸趨于互聯(lián)網(wǎng)化,更要求重視電競用戶的反饋和體驗(yàn),更好地經(jīng)營用戶使得基于流量獲取的數(shù)據(jù)運(yùn)營達(dá)到新階段。

張晨則明確了英雄聯(lián)盟數(shù)據(jù)分析師的人才需求規(guī)格和知識(shí)能力結(jié)構(gòu),并建議以各大高校作為人才培養(yǎng)的主體,以校企合作“3+1”的模式在高校中采用學(xué)歷教育方式培養(yǎng)英雄聯(lián)盟數(shù)據(jù)分析師;以職業(yè)教育方式在高校中對(duì)當(dāng)前在職的數(shù)據(jù)分析師進(jìn)行短期或定期培訓(xùn),以提高其數(shù)據(jù)挖掘與分析能力。他的研究可以為英雄聯(lián)盟以及其他電競項(xiàng)目的數(shù)據(jù)分析師人才培養(yǎng)提供參考依據(jù)。

閆平平則選取了主成分分析方法,以電子競技20名專業(yè)隊(duì)選手為研究對(duì)象,對(duì)其進(jìn)行體成分及心肺功能測試,旨在研究專業(yè)電競選手身體成分現(xiàn)狀及影響因素。研究表明:1.電競專業(yè)選手整體身體型態(tài)偏瘦,體重偏輕,脂肪堆積部位主要集中在腰腹部,應(yīng)注意生活作息和營養(yǎng)攝入;2.電競專業(yè)選手雖積極參與體育運(yùn)動(dòng),但運(yùn)動(dòng)量、運(yùn)動(dòng)頻率低,久坐現(xiàn)象嚴(yán)重,肌肉百分比普遍較低,存在運(yùn)動(dòng)不足現(xiàn)象,應(yīng)引起重視。

柯嘉鑫用機(jī)器學(xué)習(xí)的方法進(jìn)行數(shù)據(jù)挖掘,將機(jī)器學(xué)習(xí)中K-means算法應(yīng)用于電子競技職業(yè)選手,對(duì)電競選手比賽數(shù)據(jù)的指標(biāo)進(jìn)行聚類,劃分為三個(gè)不同的等級(jí),并對(duì)聚類結(jié)果進(jìn)行分析,將個(gè)人能力水平數(shù)據(jù)化,用聚類結(jié)果指導(dǎo)職業(yè)選手今后的針對(duì)性訓(xùn)練以及發(fā)展方向,為電子競技行業(yè)標(biāo)準(zhǔn)化、成熟化起到推動(dòng)作用。

二、特征工程

(一)數(shù)據(jù)來源與說明

本文數(shù)據(jù)來源于pubg.op.gg,并選取了絕地求生比賽單人模式下超過十萬場的競技數(shù)據(jù)。原始數(shù)據(jù)有兩個(gè)數(shù)據(jù)集:聚合數(shù)據(jù)代表玩家比賽的統(tǒng)計(jì)數(shù)據(jù)(agg_match_stats_x.csv),總結(jié)了每場比賽的選手統(tǒng)計(jì)數(shù)據(jù)。它包括各種綜合統(tǒng)計(jì)數(shù)據(jù),例如擊殺,傷害,步行距離等;以及死亡數(shù)據(jù)代表玩家被擊殺的數(shù)據(jù)(kill_match_stats_final_x.csv)。

(二)基礎(chǔ)特征因素的選取

特征工程,從實(shí)質(zhì)上來說是對(duì)數(shù)據(jù)原始特征的深度挖掘以及組合,為后續(xù)的模型或者是算法,提供更好的支持,展現(xiàn)更多的信息。

為了量化分析每場比賽中每位選手的表現(xiàn),需要從每場比賽的統(tǒng)計(jì)數(shù)據(jù)中,選取一些能夠反映比賽中選手狀態(tài)的特征的數(shù)據(jù)。本文從各項(xiàng)技術(shù)統(tǒng)計(jì)進(jìn)行了分析和篩選,最終選取能夠典型代表一場比賽選手表現(xiàn)的9個(gè)基礎(chǔ)技術(shù)特征,并從原有的數(shù)據(jù)集中獲取這些基礎(chǔ)特征因素,如:擊殺數(shù)、助攻數(shù)、KDA、行駛距離、武器的選擇,等等。具體步驟,先將進(jìn)行清理和整合過的數(shù)據(jù)導(dǎo)出,利用Python進(jìn)行游戲數(shù)據(jù)特征變量分析。

(三)初始特征與變量預(yù)處理

選手真實(shí)相對(duì)實(shí)力是進(jìn)行比賽結(jié)果預(yù)測的核心,由于每場比賽中各戰(zhàn)隊(duì)首發(fā)和比賽對(duì)手的實(shí)力不同,因此,簡單的勝率排名并不能反映選手的當(dāng)前真實(shí)力,根據(jù)歷史比賽數(shù)據(jù),構(gòu)造新的選手真實(shí)相對(duì)實(shí)力是至關(guān)重要的。本文在歷史比賽結(jié)果的基礎(chǔ)上,結(jié)合每場比賽選手的歷史數(shù)據(jù)進(jìn)行修改,以平均值的方式得到量化選手真實(shí)相對(duì)實(shí)力值,作為選手特征的初始值,代入到預(yù)測模型中。同時(shí)根據(jù)前文分析得到的特征因素,對(duì)特征因素進(jìn)行篩選,定義訓(xùn)練變量。由于擊殺玩家武器為字符型變量,在訓(xùn)練模型要求變量皆為數(shù)值型,因此根據(jù)武器擊殺人數(shù)排序,用武器殺傷力排序值替代武器名稱字符數(shù)據(jù)。

三、實(shí)證研究

(一)模型訓(xùn)練擬合

調(diào)用LightGBM回歸模型對(duì)2萬名玩家數(shù)據(jù)進(jìn)行模型訓(xùn)練擬合,并得到特征因素排序。綜合考慮所有特征因素,對(duì)決定勝負(fù)最重要的因素是玩家擊殺人數(shù),其次重要的是玩家乘車行走距離,再次重要的是擊殺武器。以上9個(gè)特征變量中,對(duì)勝率影響最低的特征因素是助攻數(shù)。

(二)LightGBM模型預(yù)測結(jié)果

選取12場最近時(shí)期游戲,對(duì)游戲開場前根據(jù)歷史玩家變量均值預(yù)測勝率,將勝率排序后得到預(yù)測的勝利玩家與實(shí)際此場游戲贏家結(jié)果進(jìn)行對(duì)比,得到LightGBM預(yù)測結(jié)果。

對(duì)大約1000個(gè)玩家的12場游戲開場前進(jìn)行預(yù)測,預(yù)測的贏家與實(shí)際贏家相符,即結(jié)果為真的樣本為7個(gè),正確率約為58.33%,預(yù)測準(zhǔn)確率可以接受。且沒有預(yù)測正確的樣本中,玩家也是排名相對(duì)很靠前的都是實(shí)際排位在Top4之內(nèi)的玩家??梢婎A(yù)測誤差不是很大??梢?,運(yùn)用LightGBM模型對(duì)大數(shù)據(jù)機(jī)器學(xué)習(xí),訓(xùn)練模型,預(yù)測結(jié)果的準(zhǔn)確性比較可靠。

(三)XGBoost模型預(yù)測結(jié)果

運(yùn)用XGBoost模型對(duì)游戲開始時(shí)玩家勝負(fù)進(jìn)行再次預(yù)測。根據(jù)在上一節(jié)篩選出的同樣場次玩家的歷史游戲場次數(shù)據(jù)代入XGBoost模型進(jìn)行訓(xùn)練和預(yù)測。然后選取12場最近時(shí)期游戲,對(duì)游戲開場前根據(jù)歷史玩家變量均值預(yù)測勝率,將勝率排序后得到預(yù)測的勝利玩家與實(shí)際此場游戲贏家結(jié)果進(jìn)行對(duì)比,得到XGBoost預(yù)測結(jié)果。

對(duì)大約1000個(gè)玩家的12場游戲開場前進(jìn)行預(yù)測,預(yù)測的贏家與實(shí)際贏家相符,即結(jié)果為真的樣本為4個(gè),正確率約為33.33%,XGBoost預(yù)測準(zhǔn)確率相比較于LightGBM比較低,且預(yù)測錯(cuò)誤樣本的實(shí)際排位相差很大,誤差范圍較大。

(四)不同算法預(yù)測對(duì)比

進(jìn)一步對(duì)比LightGBM和XGBoost運(yùn)行效率,這兩個(gè)模型的運(yùn)行效率差別主要體現(xiàn)在訓(xùn)練數(shù)據(jù)階段,分別訓(xùn)練1萬條,10萬條,100萬條,200萬條樣本,得到LightGBM和XGBoost運(yùn)行時(shí)間(秒)和運(yùn)行效率提升百分比的對(duì)比圖詳見圖1所示。由圖1可以看出,隨著訓(xùn)練數(shù)據(jù)的增多,運(yùn)行效率的提升逐漸增加,且增加效率提升幅度逐漸趨于穩(wěn)定,比較得知,LightGBM在運(yùn)行效率很高,相較于XGBoost而言運(yùn)行效率最高可以提高70%以上,可見LightGBM不論在模型預(yù)測準(zhǔn)確性還是在運(yùn)行效率性能方面均優(yōu)于XGBoost模型。

四、總結(jié)

本文運(yùn)用Python語言基于LightGBM模型及機(jī)器學(xué)習(xí)原理構(gòu)建了對(duì)電競比賽勝率預(yù)測模型,首先根據(jù)大約20G的歷史數(shù)據(jù)分析影響勝率的主要特征因素,包括擊殺人數(shù),是否乘車,乘車?yán)锍?,總行進(jìn)里程數(shù),武器類別對(duì)勝率的影響等等,并深度挖掘不同特征變量的重要性;其次對(duì)訓(xùn)練數(shù)據(jù)的特征變量進(jìn)行篩選后,訓(xùn)練歷史數(shù)據(jù)擬合預(yù)測模型,并建立已有歷史數(shù)據(jù)的玩家數(shù)據(jù)庫,通過比對(duì)已有歷史數(shù)據(jù)玩家id,用歷史變量均值對(duì)新開場游戲現(xiàn)有玩家特征變量進(jìn)行賦值,對(duì)新玩家變量自定義賦值。最后利用LightGBM模型中的回歸訓(xùn)練模型和預(yù)測模型對(duì)新賦值后的新開場游戲進(jìn)行勝率預(yù)測,并找到每場游戲預(yù)測贏家與實(shí)際贏家進(jìn)行比對(duì)。從結(jié)果可知,預(yù)測準(zhǔn)確率約為58.33%,并且誤差在可接受范圍。另外將LIghtGBM與XGboost模型進(jìn)行了對(duì)比,從實(shí)驗(yàn)對(duì)比結(jié)果證實(shí),LightGBM模型無論從預(yù)測準(zhǔn)確性還是運(yùn)行效率上都明顯優(yōu)于XGBoost模型,整體結(jié)果可靠滿足期望,對(duì)于電競游戲預(yù)測問題的解決具有實(shí)際應(yīng)用意義。

參考文獻(xiàn):

[1]Agarwal S.Data Mining:Data Mining Concepts and Techniques[C]//International Conference on Machine Intelligence and Research Advancement,2013.

[2]王華勇,楊超,唐華.基于LightGBM改進(jìn)的GBDT短期負(fù)荷預(yù)測研究[J].自動(dòng)化儀表,2018(09).

[3]周靈.電子競技數(shù)據(jù)分析模型解析[J].電子世界,2018(07).

[4]周靈,王莉莉.電競游戲數(shù)據(jù)的來源與收集模式分析[J].電子世界,2018(06).

[5]張晨.電子競技數(shù)據(jù)分析師的人才培養(yǎng)研究[D].武漢體育學(xué)院,2018.

[6]閆平平.電子競技運(yùn)動(dòng)專業(yè)選手身體成分及影響因素調(diào)查分析[J].當(dāng)代體育科技,2018(06).

[7]柯嘉鑫.機(jī)器學(xué)習(xí)k-means算法在電競選手分析中的應(yīng)用[J].電子世界,2017(22).

[8]周成驥.基于機(jī)器學(xué)習(xí)的商品購買行為預(yù)測模型設(shè)計(jì)[D].廣州大學(xué),2018.

(作者單位:浙江理工大學(xué))

猜你喜歡
數(shù)據(jù)分析
電子物證檢驗(yàn)的數(shù)據(jù)分析與信息應(yīng)用研究
基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業(yè)前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
考試周刊(2016年84期)2016-11-11 23:57:34
大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動(dòng)解決男生引體向上這個(gè)薄弱環(huán)節(jié)
Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時(shí)代背景下的市場營銷策略
新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
中國市場(2016年36期)2016-10-19 04:31:23
武威市| 桐梓县| 扶风县| 深水埗区| 韶山市| 靖江市| 昭觉县| 灵璧县| 玛多县| 东阳市| 水城县| 马公市| 龙川县| 海口市| 山丹县| 北辰区| 乌海市| 如皋市| 孟津县| 海口市| 应城市| 天等县| 闽侯县| 壶关县| 黑山县| 灵璧县| 柯坪县| 板桥市| 霍山县| 嵩明县| 阿拉善右旗| 厦门市| 通海县| 林甸县| 怀集县| 南京市| 湖南省| 南召县| 海口市| 武鸣县| 江门市|