姜華 周克江
摘要:研究一類在多粒度時(shí)間下單事件同屬性不同狀態(tài)之間有一定關(guān)聯(lián)的近似周期規(guī)律挖掘問(wèn)題。給出了多粒度近似周期關(guān)聯(lián)規(guī)則模型形式化的數(shù)學(xué)定義和性質(zhì),構(gòu)造了相關(guān)模型,提出了利用聚類算法挖掘周期模式并應(yīng)用于股票數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明算法是有效的。
關(guān)鍵字:近似周期;關(guān)聯(lián)規(guī)則;多粒度時(shí)間;數(shù)據(jù)挖掘
中圖分類號(hào):TP339 文獻(xiàn)標(biāo)識(shí)碼:A
大數(shù)據(jù)下的數(shù)據(jù)挖掘是當(dāng)前的研究熱點(diǎn),這些數(shù)據(jù)往往是隨時(shí)間變化的,即帶有顯性的或隱性的時(shí)態(tài)特征,如何從大數(shù)據(jù)中挖掘出有意義的時(shí)態(tài)周期模式是值得研究的一個(gè)方向。
國(guó)內(nèi)外已經(jīng)有了一些關(guān)于周期模式的挖掘研究[1-3],但對(duì)近似周期的挖掘并不多見(jiàn)。然而現(xiàn)實(shí)世界中很多時(shí)間周期都不是嚴(yán)格的完美周期,比如說(shuō)月經(jīng)周期是21天-35天,并不是嚴(yán)格的30天,股票周期可能是7天-10天左右上漲一次等,并不是恰好7天。由于一些干擾因素的存在,嚴(yán)格的精確的周期模式挖掘往往會(huì)錯(cuò)過(guò)一些有效的周期模式,為此我們提出了近似周期模式挖掘。文獻(xiàn)[4]提出的近似周期關(guān)聯(lián)規(guī)則是基于單一時(shí)間粒度,不過(guò)現(xiàn)實(shí)生活中人們往往更習(xí)慣于用多時(shí)間粒度來(lái)表示時(shí)間,比如說(shuō)潮汐周期是24小時(shí)50分鐘,而不說(shuō)1490分鐘。因此,文獻(xiàn)[5]提出了多粒時(shí)間下的近似周期挖掘,他們能發(fā)現(xiàn)股票周期大約是6分20秒左右上漲一次,但并不能發(fā)現(xiàn)多粒度時(shí)間下股票的上漲和下跌之間是否存在周期性關(guān)聯(lián)。為此,提出多粒度時(shí)間下的近似周期關(guān)聯(lián)規(guī)則挖掘問(wèn)題,它能發(fā)現(xiàn)在多粒度時(shí)間下單事件同屬性不同狀態(tài)之間有一定關(guān)聯(lián)的近似周期規(guī)律。
1 模型構(gòu)造
3 實(shí)驗(yàn)結(jié)果與分析
算法對(duì)2005年9月1日至2005年9月2日的580000寶鋼JTBI股票數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),以(分,10秒)為多粒度時(shí)間格式,買一價(jià)屬性編碼化狀態(tài)規(guī)則同文獻(xiàn)[2]。給定支持度閾值s= 5%,置信度閾值c= 55%,多粒度周期長(zhǎng)度閾值L=(10,0)。在實(shí)驗(yàn)中,發(fā)現(xiàn)了許多滿足要求多粒度近似周期關(guān)聯(lián)規(guī)則模式,這里僅列出部分最有意義的實(shí)驗(yàn)結(jié)果于表1中。
從表1可看出:(1)若A模式覆蓋B模式,隨著近似精度的增大,A模式的支持度和置信度也都增大。當(dāng)近似精度為(0,0)時(shí),均未發(fā)現(xiàn)滿足要求的周期規(guī)律,即沒(méi)有發(fā)現(xiàn)嚴(yán)格意義上精確的多粒度近似周期關(guān)聯(lián)規(guī)則,但當(dāng)考慮到周期可能會(huì)出現(xiàn)一定的干擾,從而放寬了近似精度的時(shí)候,發(fā)現(xiàn)了很多滿足要求的多粒度近似周期關(guān)聯(lián)規(guī)則。(2)(買一價(jià),5[(6,1).(7,1)],3)表明股票580000寶鋼JBTI的買一價(jià)大幅上漲和正常波動(dòng)之間存在一定的多粒度周期關(guān)聯(lián),在某個(gè)多粒度時(shí)間股票處于大幅上漲時(shí),那么大約相隔6分10秒到7分10秒左右有94.047623%的可能性會(huì)出現(xiàn)正常波動(dòng),那么我們可以提前拋售此股票,以避免損失。(買一價(jià),5[(9,0),(10,0)],3)表明股票580000寶鋼JBT1的買一價(jià)小幅下跌和正常波動(dòng)之間存在一定的多粒度周期關(guān)聯(lián),在某個(gè)多粒度時(shí)間處于小幅下跌時(shí),那么大約相隔9分0秒到10分0秒左右有92.105263%的可能性會(huì)出現(xiàn)正常波動(dòng),那么此時(shí)我們可以提前購(gòu)進(jìn)此股票,在相隔9分到10分鐘左右拋出從而獲利。
4 結(jié)論
提出了一類多粒度時(shí)間下的多粒度近似周期關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘問(wèn)題,它適用于發(fā)現(xiàn)在多粒度時(shí)間下的單事件同屬性不同狀態(tài)之間有一定關(guān)聯(lián)的近似周期規(guī)律。即能發(fā)現(xiàn)在多粒度時(shí)間下A股票價(jià)格上漲和下跌之間的近似周期性關(guān)聯(lián)規(guī)則,但A股票價(jià)格的上漲下跌是否與B股票的上漲下跌存在周期性關(guān)聯(lián),又或者A股票價(jià)格的上漲下跌加之B股票價(jià)格的上漲下跌是否和C股票的價(jià)格波動(dòng)存在周期規(guī)律,這類多粒度時(shí)間下的多事件多維屬性狀態(tài)之間的近似周期關(guān)聯(lián)規(guī)則值得進(jìn)一步研究,此外,多粒度近似周期關(guān)聯(lián)規(guī)則在大數(shù)據(jù)學(xué)習(xí)分析領(lǐng)域的應(yīng)用研究也是未來(lái)值得繼續(xù)研究的一個(gè)方向。
參考文獻(xiàn)
[1]ANIRUDH A.KIRANYRU.REDDY P K.et al.Memory efficientmining of periodic—frequent patterns in transactional databases[C]//Computational Intelligence,IEEE,2017:1—8.
[2] LIN C W,ZHANG J,F(xiàn)OURNIER—VIGER P,et al.Emcientmining()f short periodic high—utility itemsets [C]//IEEEIntemational Conference on Systems,Man,and Cybemetics.IEEE,2017:003083~003088.
[3] SAMOLIYA M,TIWARI A.0n the use of rough set theory forminingperiodicfrequent pattems[J].IJSART,2015,11(1):21— 28.
[4]姜華,孟志清,周克江.一類時(shí)態(tài)近似周期關(guān)聯(lián)規(guī)則的知識(shí)發(fā)現(xiàn)問(wèn)題[J]計(jì)算機(jī)T程與應(yīng)用,2010,46(20):241—244.
[5]姜華,孟志清,周克江,等.多粒度時(shí)間下的近似周期挖掘研究[J].計(jì)算機(jī)T程,2010年,3(36):83—85,88.