龐帥
(中南財經(jīng)政法大學(xué) 湖北省武漢市 430073)
摘 要:隨著證券市場的迅猛發(fā)展,股票數(shù)據(jù)信息爆炸式增長,如何從龐大的敷據(jù)中找到有用的信息來指導(dǎo)投資者的投資行為成為一個重要的學(xué)術(shù)研究方向.從數(shù)據(jù)挖掘技術(shù)入手,在關(guān)聯(lián)規(guī)則分析的處理算法基礎(chǔ)上,引入股票成交量數(shù)據(jù)項以及二雛時間模式對股票敷據(jù)進(jìn)行數(shù)據(jù)挖掘,并對比試驗的結(jié)果.試驗證明,該改進(jìn)時投資者提供了更為有效的決策支持. 本文介紹了在數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的基本概念和屬性 ,進(jìn)一步討論了關(guān)聯(lián)規(guī)則在股票信息數(shù)據(jù)挖掘中的應(yīng)用 .
1.關(guān)聯(lián)規(guī)則。
數(shù)據(jù)挖掘又被稱之為知識發(fā)現(xiàn),具體是指從大量的數(shù)據(jù)中提取一些比較可信的、新穎的且有效的模式處理過程。它通過系統(tǒng)的應(yīng)用機器靴子以及統(tǒng)計分析等計算機科學(xué)技術(shù)老分析和表示存在于一個大型數(shù)據(jù)庫中的知識。
1.1關(guān)聯(lián)分析的定義。
關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)?;蛘哒f,關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系。
關(guān)聯(lián)分析是一種簡單、實用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。
關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價目表設(shè)計、商品促銷、商品的排放和基于購買模式的顧客劃分。
可從數(shù)據(jù)庫中關(guān)聯(lián)分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。如“67%的顧客在購買啤酒的同時也會購買尿布”,因此通過合理的啤酒和尿布的貨架擺放或捆綁銷售可提高超市的服務(wù)質(zhì)量和效益。又如“‘C語言課程優(yōu)秀的同學(xué),在學(xué)習(xí)‘?dāng)?shù)據(jù)結(jié)構(gòu)時為優(yōu)秀的可能性達(dá)88%”,那么就可以通過強化“C語言”的學(xué)習(xí)來提高教學(xué)效果。
1.2關(guān)聯(lián)分析的方法。
關(guān)聯(lián)分析主要包括兩種分析方法:
第一是,Apriori算法
Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項集的基本算法,也是最著名的關(guān)聯(lián)規(guī)則挖掘算法之一。Apriori算法就是根據(jù)有關(guān)頻繁項集特性的先驗知識而命名的。它使用一種稱作逐層搜索的迭代方法,k—項集用于探索(k+1)—項集。首先,找出頻繁1—項集的集合.記做L1,L1用于找出頻繁2—項集的集合L2,再用于找出L3,如此下去,直到不能找到頻繁k—項集。找每個Lk需要掃描一次數(shù)據(jù)庫。
Apriori性質(zhì):一個頻繁項集的任一子集也應(yīng)該是頻繁項集。
雖然Apriori算法仍存在著一定的缺陷,但是研究者們已經(jīng)分析和研究出了一些相關(guān)的優(yōu)化Apriori算法的方式:
1)基于劃分的方法。該算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻繁項集,然后把產(chǎn)生的頻繁項集合并,用來生成所有可能的頻繁項集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻繁項集至少在某一個分塊中是頻繁項集保證的。
2)基于Hash的方法。Park等人提出了一個高效地產(chǎn)生頻繁項集的基于雜湊(Hash)的算法。通過實驗可以發(fā)現(xiàn),尋找頻繁項集的主要計算是在生成頻繁2—項集Lk上,Park等就是利用這個性質(zhì)引入雜湊技術(shù)來改進(jìn)產(chǎn)生頻繁2—項集的方法。
3)基于采樣的方法?;谇耙槐閽呙璧玫降男畔ⅲ瑢λ敿?xì)地做組合分析,可以得到一個改進(jìn)的算法,其基本思想是:先使用從數(shù)據(jù)庫中抽取出來的采樣得到一些在整個數(shù)據(jù)庫中可能成立的規(guī)則,然后對數(shù)據(jù)庫的剩余部分驗證這個結(jié)果。這個算法相當(dāng)簡單并顯著地減少了FO代價,但是一個很大的缺點就是產(chǎn)生的結(jié)果不精確,即存在所謂的數(shù)據(jù)扭曲(Dataskew)。分布在同一頁面上的數(shù)據(jù)時常是高度相關(guān)的,不能表示整個數(shù)據(jù)庫中模式的分布,由此而導(dǎo)致的是采樣5%的交易數(shù)據(jù)所花費的代價同掃描一遍數(shù)據(jù)庫相近。
4)減少交易個數(shù)。減少用于未來掃描事務(wù)集的大小,基本原理就是當(dāng)一個事務(wù)不包含長度為志的大項集時,則必然不包含長度為走k+1的大項集。從而可以將這些事務(wù)刪除,在下一遍掃描中就可以減少要進(jìn)行掃描的事務(wù)集的個數(shù)。這就是AprioriTid的基本思想。
第二是,F(xiàn)P-growth算法。
雖然算法已經(jīng)在不斷的研究和分析中提出了相關(guān)的優(yōu)化方法,但是其效率仍不能使人十分滿意。因此,2000年,Han Jiawei等人提出了基于頻繁模式樹(Frequent Pattern Tree,簡稱為FP-tree)的發(fā)現(xiàn)頻繁模式的算法FP-growth。在FP-growth算法中,通過兩次掃描事務(wù)數(shù)據(jù)庫,把每個事務(wù)所包含的頻繁項目按其支持度降序壓縮存儲到FP—tree中。在以后發(fā)現(xiàn)頻繁模式的過程中,不需要再掃描事務(wù)數(shù)據(jù)庫,而僅在FP-Tree中進(jìn)行查找即可,并通過遞歸調(diào)用FP-growth的方法來直接產(chǎn)生頻繁模式,因此在整個發(fā)現(xiàn)過程中也不需產(chǎn)生候選模式。該算法克服了Apriori算法中存在的問題.在執(zhí)行效率上也明顯好于Apriori算法。
2.關(guān)聯(lián)模式下的股票分析
有些數(shù)據(jù)并不能像售貨數(shù)據(jù)一個比較容易的看出一個事物是多種事物的集合,但是經(jīng)過一定的預(yù)處理后,仍然可以像售貨數(shù)據(jù)一樣進(jìn)行關(guān)聯(lián)規(guī)則的分析。比例股票交易行情。
2.1股票數(shù)據(jù)的分析
在股票價交易的事物處理中,每天有以交易為主的大量書庫匯入數(shù)據(jù)庫,由于上市公司之間存在著一定的合作和競爭關(guān)系,因此某些股票的價格在一定時間內(nèi)會出現(xiàn)一些相似或者相反的趨勢。分析這些數(shù)據(jù)和股票之前的關(guān)聯(lián)能夠有利于投資者了解和分析股票的一定時期內(nèi)的走勢以及股票走勢與股票之前的關(guān)系,從而進(jìn)一步分析上市公司的各種政策和方案,從而做出最為正確的投資。
在具體的股票數(shù)據(jù)分析中可以通過記錄股票發(fā)展過程中的多個即時行情,其中包括時間、開盤價、收盤價、最高價、最低價以及漲幅、成交了等一些相關(guān)內(nèi)容來進(jìn)行股票數(shù)據(jù)的分析。通過進(jìn)一步分析股票代碼、交易時間以及漲跌幅等信息可以得出類似的關(guān)聯(lián)規(guī)則,例如:在一定時間內(nèi),當(dāng)A股票的價格上漲時,B股票的價格也會隨之上漲。
2.2挖掘關(guān)聯(lián)規(guī)則。
如果項集的出現(xiàn)頻率大于或則等于最小支持度與事務(wù)總數(shù)的乘積,則該項集滿足最小支持度,稱它為頻繁項集。
在挖掘關(guān)聯(lián)規(guī)則的過程中主要包括兩個步驟:
第一,通過頻繁項集的定義找出所有的頻繁項集。
第二,利用頻繁項集生成所需要的關(guān)聯(lián)規(guī)則。
簡單的統(tǒng)計所有含一個元素的項目集出現(xiàn)的頻率,并從中找到不小于最小支持度的項目集是分析和挖掘關(guān)聯(lián)規(guī)則過程中最為核心的問題。由于股票代碼屬于布爾型變量。即股票代碼相當(dāng)于售貨數(shù)據(jù)庫中的某個商品,這樣我們就可以直接運用Apriori算法來進(jìn)行分析和挖掘。
此外,在分析和挖掘股票行情的過程中,可以在首次挖掘的基礎(chǔ)上進(jìn)行二次挖掘,從容進(jìn)一步分析和研究各股票之間的趨勢和變化的周期性以及多維相似性,從而得到更多有用的結(jié)果。
3.結(jié)語
本文簡單的介紹了關(guān)聯(lián)分析的定義以及關(guān)聯(lián)分析的具體方法,通過關(guān)聯(lián)分析的規(guī)則分析了其在挖掘股票市場有效信息的應(yīng)用。通過股票行情的變化分析得到相應(yīng)的大家比較感興趣的規(guī)則,從而幫助大家能夠更好、更加理智的進(jìn)行投資和選擇。但是在具體的分析過程中由于沒有充分的考慮到成交量的因素,因此在挖掘和分析的過程中存在著一定的局限性。股票的價格往往是政治、價格以及社會等因素的綜合反映,因此在分析和挖掘股票關(guān)聯(lián)規(guī)則的同時最好結(jié)合證券市場的基本信息進(jìn)行分析和研究,從而提高其有效性。
參考文獻(xiàn):
[1]數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的改進(jìn)算法及其實現(xiàn)[J]. 楊健兵.微計算機信息. 2006(21)
[2]關(guān)聯(lián)規(guī)則挖掘Apriori算法的改進(jìn)與實現(xiàn)[J]. 陳文慶,許棠.微機發(fā)展. 2005(08)
[3]滬深股市股票價格與交易量關(guān)系的實證研究[J]. 童明,余董,景榮.重慶師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版). 2005(04)endprint