趙文華
(中國(guó)福利彩票發(fā)行管理中心技術(shù)部,北京 100101)
福利彩票“快樂8”游戲是一款借助計(jì)算機(jī)網(wǎng)絡(luò)發(fā)行銷售,每天定期開獎(jiǎng)(財(cái)政部發(fā)布的彩票休市日除外)的現(xiàn)代型數(shù)字游戲,廣泛借鑒了國(guó)際上的成功經(jīng)驗(yàn),具有玩法多樣,單注投注金額低,休閑娛樂,中獎(jiǎng)面廣等特點(diǎn)?!翱鞓?”游戲于2020年率先在我國(guó)遼寧、江蘇、江西、山東、廣東等部分省市試點(diǎn)上市銷售,在總結(jié)試點(diǎn)省試運(yùn)行經(jīng)驗(yàn)的基礎(chǔ)上,不斷復(fù)制推廣,于2021年底在全國(guó)范圍內(nèi)鋪開銷售,成為繼“雙色球”“3D”“七樂彩”后又一款在全國(guó)聯(lián)銷的福彩游戲,目前,平均期銷量達(dá)到七千多萬(wàn)元,已經(jīng)發(fā)展成中國(guó)福利彩票的又一知名市場(chǎng)品牌。
2021年“快樂8”全年銷量約占福彩電腦彩票年銷量的20%以上,取得了良好的市場(chǎng)反響和預(yù)期效果。發(fā)行規(guī)模的擴(kuò)大意味著銷售投注方式數(shù)據(jù)的大量擴(kuò)容累積,充分挖掘和利用這些銷售投注數(shù)據(jù)之間的關(guān)系,更好反哺于游戲規(guī)則設(shè)置,是雙輪驅(qū)動(dòng)游戲持續(xù)發(fā)展的關(guān)鍵手段之一。面對(duì)該游戲規(guī)則中設(shè)定的多種投注方式,無論是發(fā)行機(jī)構(gòu)還是銷售機(jī)構(gòu),都希望通過先進(jìn)的數(shù)據(jù)統(tǒng)計(jì)和分析技術(shù)從成千上萬(wàn)的銷售數(shù)據(jù)中找尋它們之間的內(nèi)在聯(lián)系,從而為銷售機(jī)構(gòu)進(jìn)一步調(diào)整游戲規(guī)則、優(yōu)化設(shè)置獎(jiǎng)級(jí)獎(jiǎng)等獎(jiǎng)金、更加科學(xué)合理地制定派獎(jiǎng)促銷等市場(chǎng)營(yíng)銷方案提供參考借鑒和設(shè)計(jì)指導(dǎo)。
數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則是一種基于規(guī)則的機(jī)器學(xué)習(xí)方法,是指物品之間存在的強(qiáng)關(guān)系,用于從數(shù)據(jù)集中尋找物品之間的隱含關(guān)系。通俗來講,就是買了某商品的人,很有可能又會(huì)買另一種商品。
綜上所述,筆者將關(guān)聯(lián)規(guī)則有關(guān)算法應(yīng)用于“快樂8”投注方式銷售數(shù)據(jù)中,通過建立模型和進(jìn)行算法分析,研究統(tǒng)計(jì)彩民在投注此游戲玩法時(shí),選擇的不同投注方式之間可能存在的內(nèi)在關(guān)聯(lián)。
根據(jù)中福彩官方網(wǎng)站的介紹,福利彩票“快樂8”游戲是經(jīng)國(guó)家財(cái)政部門批準(zhǔn)在我國(guó)境內(nèi)上市銷售的一款KENO型游戲,具體玩法是從1至80共80個(gè)號(hào)碼中任意選擇一至十個(gè)號(hào)碼來購(gòu)買投注,每一組一至十個(gè)號(hào)碼的組合稱為一注彩票?!翱鞓?”游戲包括選一、選二、選三、選四、選五、選六、選七、選八、選九和選十共計(jì)十種玩法。
上述玩法均支持單式投注、復(fù)式投注及膽拖投注。單式投注是指選一至選十單式投注的號(hào)碼個(gè)數(shù)分別為一個(gè)至十個(gè)。復(fù)式投注是指包含兩注及以上的單式投注,所選擇的號(hào)碼個(gè)數(shù)應(yīng)大于單式投注號(hào)碼個(gè)數(shù),每一種單式投注組合均為復(fù)式投注。以選二玩法為例,某彩民的復(fù)式投注為3、56和78,那么其投注的選二玩法分別為(3、56)、(3、78)和(56、78)三注彩票。膽拖投注是一種較為特殊的復(fù)式投注,具體由膽碼和托碼組成。膽碼是每注彩票必須包含的號(hào)碼,不同的托碼構(gòu)成一注不同的彩票,膽碼和托碼的個(gè)數(shù)之和應(yīng)大于單式投注所需號(hào)碼總和。以選二玩法為例,某彩民的膽拖投注為3、56和78,其中3為膽碼,托碼分別為56、78,那么其投注的選二玩法分別為(3、56)和(3、78)兩注彩票?!翱鞓?”游戲各獎(jiǎng)級(jí)獎(jiǎng)金設(shè)置結(jié)構(gòu)如圖1所示。
圖1 獎(jiǎng)金設(shè)置結(jié)構(gòu)圖
關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)某些表面看似無關(guān)聯(lián)實(shí)際上數(shù)據(jù)之間可能存在的關(guān)系。在數(shù)據(jù)挖掘的過程中,關(guān)聯(lián)規(guī)則的生成主要包含兩個(gè)步驟:一是在原始數(shù)據(jù)集合中找出出現(xiàn)頻次較高的數(shù)據(jù)集合,在數(shù)據(jù)挖掘中通常也將其稱為頻繁項(xiàng)目集合;二是在這些頻繁項(xiàng)目集中,找尋出滿足預(yù)先設(shè)定的參數(shù)閾值的項(xiàng)目集合,也就是關(guān)聯(lián)規(guī)則,語(yǔ)義解釋是說明這些數(shù)據(jù)之間可能存在的關(guān)聯(lián)程度。
關(guān)聯(lián)規(guī)則挖掘的第一步是在原始數(shù)據(jù)集合中,挖掘找出所有頻繁項(xiàng)目集合。頻繁是指某一項(xiàng)目集合組出現(xiàn)的頻率必須達(dá)到某一頻次(相對(duì)于所有原始數(shù)據(jù)記錄而言),實(shí)際上就是達(dá)到程序事先設(shè)計(jì)的參數(shù)閾值。某一項(xiàng)目組出現(xiàn)的頻率又稱為支持度,以一個(gè)包含與兩個(gè)項(xiàng)目的項(xiàng)目集為例,可以由支持度計(jì)算公式得到包含{,}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度,則{,}稱為高頻項(xiàng)目組。
關(guān)聯(lián)規(guī)則挖掘的第二步是形成關(guān)聯(lián)規(guī)則,從頻繁項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,即在第一階段形成的高頻項(xiàng)目組產(chǎn)生規(guī)則。在設(shè)定的最小可信度范圍內(nèi),若某一規(guī)則的可信度滿足最小信賴度,即將此規(guī)則稱為關(guān)聯(lián)規(guī)則。
2.2.1 支持度(support)
支持度表示購(gòu)買某個(gè)(用表示)或某些商品與總體購(gòu)買商品(用表示)之間的關(guān)系,那么的支持度可以用公式support()=#A/support()表示,實(shí)際使用過程中可以將出現(xiàn)的次數(shù)指定為閾值。
2.2.2 可信度(confidence)
可信度表示條件概率,即買了的人又買了的比例有多少,表示關(guān)聯(lián)性的強(qiáng)弱,或者說是規(guī)則的可靠性,即confidence(—)=support(U)/support(),其 中∩=Ф,Ф表示空集。
總的來說就是,設(shè)定支持度閾值,找出所有的頻繁項(xiàng)集,再針對(duì)每個(gè)頻繁項(xiàng)集所有可能的關(guān)聯(lián)項(xiàng),計(jì)算其置信度,根據(jù)置信度閾值,得到最終符合要求的強(qiáng)規(guī)則。
針對(duì)早期Apriori算法的固有缺陷和先天不足,J. Han等人提出了不產(chǎn)生候選挖掘頻繁項(xiàng)目集的方法,即FP-樹頻集算法。采用自頂向下逐層分解的策略,經(jīng)過第一遍掃描后,將數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹,同時(shí)保留其中的關(guān)聯(lián)信息,隨后將FP-tree分化成若干條件庫(kù)(每個(gè)庫(kù)與一個(gè)長(zhǎng)度為1的頻集有關(guān)),然后再分別對(duì)這些條件庫(kù)進(jìn)行挖掘。待統(tǒng)計(jì)分析的初始數(shù)據(jù)量較大時(shí),也可以考慮將一棵頻繁模式樹直接放入主要存儲(chǔ)器中,然后逐層逐步分解演繹。
筆者統(tǒng)籌考慮上述關(guān)聯(lián)規(guī)則算法的核心推理邏輯,調(diào)用互聯(lián)網(wǎng)開源算法fp-growth包,實(shí)現(xiàn)了“快樂8”游戲不同投注方式頻繁項(xiàng)目集與強(qiáng)規(guī)則的生成。程序流程為數(shù)據(jù)文件—事務(wù)數(shù)據(jù)集—頻繁集生成—頻繁集集合—強(qiáng)規(guī)則生成—更新關(guān)聯(lián)規(guī)則集,流程圖如圖2所示。
圖2 流程圖
其中,事務(wù)數(shù)據(jù)集主要接收原始游戲投注銷售數(shù)據(jù),經(jīng)過固定字段的特殊提煉和處理,生成由某些字段組合而成的單一事務(wù),事務(wù)的關(guān)鍵字用投注站編碼唯一標(biāo)識(shí),所有被提取的游戲銷售數(shù)據(jù)形成相應(yīng)的事務(wù)數(shù)據(jù)集;在所產(chǎn)生的事務(wù)數(shù)據(jù)集的基礎(chǔ)上,頻繁集生成挖掘滿足最小支持度的最大頻繁項(xiàng)目集,并把相應(yīng)的頻繁集存放于頻繁項(xiàng)目集合中;強(qiáng)規(guī)則生成主要是在最大頻繁集中產(chǎn)生滿足最小可信度的關(guān)聯(lián)規(guī)則輸出或更新。
數(shù)據(jù)來源于某福彩投注站數(shù)十位彩民在一段時(shí)間內(nèi)購(gòu)買“快樂8”游戲的銷售記錄,從中提取數(shù)個(gè)數(shù)據(jù)字段,具體包含投注站編號(hào)、票號(hào)、游戲玩法名稱、投注方式、投注金額、投注時(shí)間等。如果投注方式為復(fù)式投注或膽拖投注,則需要手動(dòng)拆分為單式投注。
數(shù)據(jù)用文件輸入,每行代表某彩民某段時(shí)間內(nèi)對(duì)“快樂8”游戲的投注方式,由于數(shù)據(jù)字段不算特別長(zhǎng),故每行文件代表一個(gè)事務(wù),文件的所有行就組成了事務(wù)集合,文件總行數(shù)即為事務(wù)總數(shù)。以上事務(wù)集是關(guān)聯(lián)規(guī)則挖掘的前提,從這些事務(wù)集中尋找最大頻繁項(xiàng)目集與強(qiáng)規(guī)則。
十種投注方式分別為選一、選二、選三、選四、選五、選六、選七、選八、選九、選十,本程序產(chǎn)生的事務(wù)集共包含232條記錄,假設(shè)最小支持度與最小可信度分別為0.4和0.8,表1、表2為部分事務(wù)集。
表1 部分事務(wù)集
表2 部分事務(wù)集
程序輸出最大頻繁項(xiàng)目集和每個(gè)頻繁項(xiàng)目集所對(duì)應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則,每一行代表一個(gè)頻繁項(xiàng)目集和一條強(qiáng)規(guī)則,在強(qiáng)規(guī)則集中可以查看每條規(guī)則的支持度與可信度。
從模型運(yùn)行結(jié)果來看,產(chǎn)生的最大頻繁項(xiàng)目集有4個(gè),分別是{選一,選二,選三}、{選二,選三,選四}、{選五,選六,選七}、{選八,選九,選十}等。從中可以看出,選二與選三是“快樂8”彩民選用最多的投注方式。在每一個(gè)最大頻繁項(xiàng)目集中,生成滿足最小可信度的強(qiáng)關(guān)聯(lián)規(guī)則,如表3所示。
表3 強(qiáng)關(guān)聯(lián)規(guī)則表
提取兩條規(guī)則來分析其語(yǔ)義,如:選一—選二、選三,:0.573 641 20、:1.0??芍撘?guī)則的支持度為0.573 641 20,可信度為1,即如果一個(gè)彩民投注了選一,那么該彩民約有57%的可能性也投注了(選二或選三)、(選八、選九—選十),:0.587 413 57、:0.901 456 31。可知該規(guī)則的支持度為0.587 413 57,可信度為0.901 456 31,即如果一個(gè)彩民投注了(選八和選九),那么該彩民約有58%的可能性也投注了選十。
由表3可以看出,選二和選三是彩民投注最多的方式,選一、選二和選三之間的關(guān)聯(lián)程度最高,投注選一和選二之后,購(gòu)買選三的可信度最高,可達(dá)到65%。從往期“快樂8”的部分歷史中獎(jiǎng)公告統(tǒng)計(jì)數(shù)據(jù)來看,如圖3所示,相較于其他投注方式,選一、選二、選三的中獎(jiǎng)注數(shù)都呈現(xiàn)出高位運(yùn)行。絕大多數(shù)情況下,選一、選二的中獎(jiǎng)注數(shù)分別大于選三的中獎(jiǎng)注數(shù),這也反向說明了彩民在購(gòu)買選一、選二之后再購(gòu)買選三的概率較大,但也不是百分百的可能性。彩民跳號(hào)投注的購(gòu)買意愿較低,體現(xiàn)在四組頻繁項(xiàng)目集中,例如,彩民投注選五和選七之后,再關(guān)聯(lián)購(gòu)買中間投注方式選六的支持度都相對(duì)較低,僅僅略高于程序設(shè)定的參數(shù)指標(biāo)值。大號(hào)投注選八、選九、選十的關(guān)聯(lián)程度也比較高,特別是連續(xù)性投注,例如選八之后,投注選九和選十的支持度較高,同樣,彩民在購(gòu)買選八和選九之后,再購(gòu)買選十的意愿也遠(yuǎn)高于程序預(yù)先設(shè)定的可信度閾值0.4。
圖3 部分歷史中獎(jiǎng)注數(shù)統(tǒng)計(jì)
由此可見,彩民在購(gòu)買“快樂8”游戲時(shí),連續(xù)性投注是他們比較青睞的投注方式,特別是選一、選二、選三的可信區(qū)間能達(dá)到1,這說明,彩票游戲設(shè)置簡(jiǎn)單化是進(jìn)行市場(chǎng)推廣和獲得市場(chǎng)好評(píng)的關(guān)鍵性因素之一。對(duì)發(fā)行機(jī)構(gòu)來說,可以在設(shè)置獎(jiǎng)等獎(jiǎng)金方面適度予以傾斜,提升游戲的趣味性和娛樂性。同樣,選八、選九、選十組合投注方式的支持度也相對(duì)較高,原因是“快樂8”游戲的最大獎(jiǎng)金設(shè)置在選十全中上,由此可見,中大獎(jiǎng)對(duì)彩民有著不可低估的吸引力,目前“快樂8”游戲選十全中的中獎(jiǎng)獎(jiǎng)金主要取決于浮動(dòng)獎(jiǎng)獎(jiǎng)池余額、當(dāng)期銷量以及中獎(jiǎng)注數(shù)等幾個(gè)因素,是一個(gè)多因素變量影響的函數(shù)。接下來,為保證選十全中的獎(jiǎng)金金額,可以優(yōu)化統(tǒng)籌考慮采用固定獎(jiǎng)獎(jiǎng)金加浮動(dòng)獎(jiǎng)獎(jiǎng)金的模式。
綜上所述,連續(xù)性投注和中大獎(jiǎng)投注是彩民購(gòu)買該游戲的兩大特點(diǎn),分散性投注的關(guān)聯(lián)程度在本次數(shù)據(jù)分析中并不明顯,也可能是與本次選取的數(shù)據(jù)樣本量有關(guān)系,需要再次隨機(jī)選取數(shù)據(jù)樣本,創(chuàng)建模型統(tǒng)計(jì)分析驗(yàn)證。由于關(guān)聯(lián)規(guī)則的提取需要預(yù)先設(shè)定支持度和可信度兩個(gè)不同的參數(shù)指標(biāo),因此參數(shù)的設(shè)置比較重要,對(duì)于已經(jīng)產(chǎn)生的強(qiáng)規(guī)則,表明可能存在某種聯(lián)系,也可能只是同時(shí)出現(xiàn)而已,這種情況下,需要聯(lián)系游戲玩法等實(shí)際情況進(jìn)行具體分析。
針對(duì)“快樂8”游戲玩法,筆者選取部分歷史投注數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則技術(shù)分析推理出連續(xù)性投注和中大獎(jiǎng)投注是該游戲目前廣受青睞的投注方式,特別是簡(jiǎn)單易玩的選一、選二、選三投注,為銷售機(jī)構(gòu)進(jìn)一步優(yōu)化游戲玩法規(guī)則,設(shè)置獎(jiǎng)級(jí)獎(jiǎng)等獎(jiǎng)金,持續(xù)提高該游戲玩法的趣味性和娛樂性,降低博弈性和提升市場(chǎng)競(jìng)爭(zhēng)能力提供一些思路。然而,關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘受制于算法本身的局限性,可能提取的數(shù)據(jù)關(guān)聯(lián)程度實(shí)際應(yīng)用中并沒有緊密關(guān)聯(lián),需要進(jìn)一步做主觀分析和判斷,而且對(duì)彩民的投注習(xí)慣等也無法分析預(yù)測(cè)。下一步,將借助最新數(shù)據(jù)挖掘算法、人工智能、云計(jì)算等先進(jìn)技術(shù)加大對(duì)歷史銷售數(shù)據(jù)的預(yù)處理和精準(zhǔn)分析,不斷提升數(shù)據(jù)處理的質(zhì)量,讓福彩大數(shù)據(jù)更好地服務(wù)于福彩發(fā)行的方方面面。