陳金林
(廣東外語(yǔ)外貿(mào)大學(xué)南國(guó)商學(xué)院,廣東 廣州 510545)
基于大數(shù)據(jù)視角的我國(guó)股市行情分類淺析
陳金林
(廣東外語(yǔ)外貿(mào)大學(xué)南國(guó)商學(xué)院,廣東 廣州 510545)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)創(chuàng)造價(jià)值的理念逐步深入人心,人們期待數(shù)據(jù)可以更好地為業(yè)務(wù)服務(wù)。由于股市行情數(shù)據(jù)的高度復(fù)雜性,使得一般的數(shù)據(jù)建模方法在進(jìn)行股市行情建模時(shí)失效,而大數(shù)據(jù)方法具有靈活性、自適應(yīng)性和非線性等特點(diǎn),在處理股市行情數(shù)據(jù)時(shí)有很好的應(yīng)用效果。本文運(yùn)用大數(shù)據(jù)技術(shù)的k - 近鄰分類方法,把我國(guó)股市行情分為下跌、反彈、上漲和回調(diào)四種類型。通過(guò)流式實(shí)時(shí)處理,驗(yàn)證了任一未知類行情總能與分類器中的一類行情相吻合。
大數(shù)據(jù);股市行情;k - 近鄰分類
由于股市行情數(shù)據(jù)的復(fù)雜性,傳統(tǒng)的分類方法和計(jì)算技術(shù)很難根據(jù)行情數(shù)據(jù)對(duì)其進(jìn)行分類。但是,大數(shù)據(jù)方法具有靈活、自適應(yīng)和非線性等優(yōu)點(diǎn),處理技術(shù)以流式計(jì)算方式為主,擅長(zhǎng)線下和聯(lián)機(jī)實(shí)時(shí)計(jì)算。根據(jù)股市行情數(shù)據(jù)的特點(diǎn),通過(guò)迭代計(jì)算和數(shù)據(jù)挖掘,采用k - 近鄰分類方法,對(duì)我國(guó)股市行情進(jìn)行分類具有可行性。
通常情況下,人們?cè)谡撌龉墒行星闀r(shí),認(rèn)為股市行情主要是指股票的市場(chǎng)價(jià)格:收盤(pán)價(jià)、開(kāi)盤(pán)價(jià)、最高價(jià)抑或最低價(jià)。單位時(shí)間內(nèi),股票市場(chǎng)指數(shù)或者某只股票的市場(chǎng)價(jià)格,也就是股市行情,由投資者做多或者做空的情緒、未來(lái)的預(yù)期等等因素決定,即股市行情是股市各種因素在此時(shí)綜合作用的結(jié)果。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)成為金融企業(yè)的重要戰(zhàn)略資產(chǎn)。金融企業(yè)內(nèi)部積累了豐富的用戶數(shù)據(jù)和交易數(shù)據(jù),數(shù)據(jù)類型從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)擴(kuò)展為社交數(shù)據(jù)、流數(shù)據(jù)、地理空間數(shù)據(jù)、傳感器數(shù)據(jù)等,數(shù)據(jù)時(shí)效從穩(wěn)定的靜態(tài)數(shù)據(jù)擴(kuò)展到實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)。我國(guó)股市經(jīng)過(guò)26年多的發(fā)展,已經(jīng)產(chǎn)生了大量的數(shù)據(jù)。以上證指數(shù)為例,單位時(shí)間內(nèi)收盤(pán)價(jià)、開(kāi)盤(pán)價(jià)、最高價(jià)、最低價(jià)叫做一組價(jià)格,如果單位時(shí)間為一月,則產(chǎn)生了312組價(jià)格,如果單位時(shí)間為1分鐘,則產(chǎn)生了156萬(wàn)余組價(jià)格。這些海量數(shù)據(jù)已形成了一個(gè)巨大的數(shù)據(jù)倉(cāng)庫(kù)。
(一)股市行情數(shù)據(jù)具有的特點(diǎn)
與其他領(lǐng)域的數(shù)據(jù)比較,股市行情數(shù)據(jù)具有多種特點(diǎn):
第一,股市行情數(shù)據(jù)為時(shí)間序列數(shù)據(jù)。在相等的時(shí)間間隔(單位時(shí)間,如每分鐘、每小時(shí)或者每天)出現(xiàn),由經(jīng)濟(jì)過(guò)程產(chǎn)生,自然觀測(cè)的結(jié)果。股市行情時(shí)間序列數(shù)據(jù)包含不同時(shí)間點(diǎn),重復(fù)測(cè)量得到。
第二,股市行情數(shù)據(jù)類型多。既有結(jié)構(gòu)化數(shù)據(jù),又有社交數(shù)據(jù),還有地理空間數(shù)據(jù)等等。
第三,股市行情數(shù)據(jù)關(guān)系復(fù)雜。數(shù)據(jù)之間的關(guān)系很難用一個(gè)簡(jiǎn)單的數(shù)學(xué)公式來(lái)表示,具有高度的復(fù)雜性和非線性。
第四,股市行情數(shù)據(jù)特別具有動(dòng)態(tài)性。在股市交易時(shí)間內(nèi),隨著時(shí)間的推移行情會(huì)發(fā)生劇烈變化,呈現(xiàn)動(dòng)態(tài)特征。
第五,股市行情數(shù)據(jù)自相關(guān)性強(qiáng)。時(shí)下的行情受前期行情的影響特別大,尤其我國(guó)實(shí)施的漲跌停板,雖然在預(yù)防非理性投資方面有重要作用,但是加深了股市行情數(shù)據(jù)的自相關(guān)。
概括來(lái)講,股市行情數(shù)據(jù)的特點(diǎn)與現(xiàn)在是一個(gè)大數(shù)據(jù)時(shí)代的特點(diǎn)相吻合。數(shù)據(jù)創(chuàng)造價(jià)值的理念深入人心,期待數(shù)據(jù)可以真正地為業(yè)務(wù)服務(wù)。相應(yīng)地,一些專做數(shù)據(jù)服務(wù)的第三方公司不斷涌現(xiàn),希望能夠幫助需要數(shù)據(jù)的人們提供數(shù)據(jù)服務(wù),挖掘出更多有價(jià)值的規(guī)律。
(二)股市行情分類處理技術(shù)的特征
在大數(shù)據(jù)視角下,股市行情分類處理技術(shù)有自己的特征,表現(xiàn)為:
第一,股市行情數(shù)據(jù)結(jié)構(gòu)化處理技術(shù)明顯。如果分析行情,而不考慮行情價(jià)格的社交和地理空間等,經(jīng)主成分分析后,最強(qiáng)的系數(shù)呈現(xiàn)結(jié)構(gòu)化數(shù)據(jù)特征。非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)占所有數(shù)據(jù)的比例比較小。
第二,股市行情數(shù)據(jù)獲取處理技術(shù)以流式計(jì)算方式為主。這是因?yàn)楣墒行星閿?shù)據(jù)是時(shí)間序列數(shù)據(jù),雖然在構(gòu)造分類器時(shí)采用批處理計(jì)算方式,但其實(shí)質(zhì)還是流式計(jì)算方式。
第三,股市行情數(shù)據(jù)采用的計(jì)算類型是數(shù)據(jù)挖掘。通常情況下,需要對(duì)股市行情數(shù)據(jù)進(jìn)行挖掘。通過(guò)數(shù)據(jù)或維度規(guī)約和變換后,數(shù)據(jù)被映射到變換后的空間里,保留變換后最強(qiáng)的系數(shù)作為特征,能最大限度地反映股市行情數(shù)據(jù)的實(shí)質(zhì)內(nèi)容。維規(guī)約和變換技術(shù)主要采用基于主成分分析的奇異值分解(因超出文章的重點(diǎn),不做討論)。
第四,股市行情數(shù)據(jù)處理技術(shù)以實(shí)時(shí)計(jì)算為主。聯(lián)機(jī)計(jì)算和線下實(shí)時(shí)計(jì)算相結(jié)合,處理技術(shù)要求具有即時(shí)高響應(yīng)性,未知分類的股市行情必須實(shí)時(shí)反映交易所的對(duì)應(yīng)行情。線下實(shí)時(shí)計(jì)算的數(shù)據(jù)要能實(shí)時(shí)地從第三方獲得,以保證股市行情在任何情況下的實(shí)時(shí)和正確。
第五,股市行情數(shù)據(jù)處理技術(shù)需要大量的迭代計(jì)算,為此必須提供具有高效的迭代計(jì)算能力的大數(shù)據(jù)處理技術(shù)。
由上可知,大數(shù)據(jù)視角下的股市行情分類的處理技術(shù)與傳統(tǒng)的數(shù)據(jù)處理技術(shù)不同。與所有新事物剛出現(xiàn)一樣,大數(shù)據(jù)是一個(gè)尚未被明確定義的概念。它如此年輕,以至于走在世界前沿的大學(xué)還沒(méi)來(lái)得及完善這門(mén)專業(yè),世上頂尖的專家還未能形成統(tǒng)一的理論體系,所有對(duì)大數(shù)據(jù)進(jìn)行研究的人們都還在感悟。用大數(shù)據(jù)對(duì)股市行情進(jìn)行分類嘗試更是如此,何況到現(xiàn)在為止,人們無(wú)法用傳統(tǒng)的數(shù)據(jù)處理方法對(duì)股市行情進(jìn)行比較正確的分類,或者大家都認(rèn)可的股市行情分類方法。
但是有一點(diǎn)可以肯定,應(yīng)該嘗試用大數(shù)據(jù)對(duì)股市行情進(jìn)行分類。能夠處理股市行情數(shù)據(jù)的專業(yè)人才可以是金融領(lǐng)域的專家,或者來(lái)自數(shù)學(xué)、物理或計(jì)算機(jī)工程領(lǐng)域的人們,因?yàn)檫@需要極強(qiáng)的專業(yè)知識(shí)背景與專業(yè)培訓(xùn)。正在研究大數(shù)據(jù)的人們認(rèn)為,大數(shù)據(jù)挖掘并沒(méi)有一定的方法,更多需要依靠挖掘者的天賦與靈感,這給那些想從大數(shù)據(jù)視角對(duì)股市行情進(jìn)行分類的人們指明了方向。
(三)股市行情分類的可行性方法
由于行情數(shù)據(jù)的高度復(fù)雜性,使得一般的數(shù)據(jù)建模方法在進(jìn)行股市行情建模時(shí)失效,而大數(shù)據(jù)方法具有靈活性、自適應(yīng)性和非線性等優(yōu)點(diǎn),在處理股市行情數(shù)據(jù)時(shí)有很好的應(yīng)用效果,實(shí)際的股市投資也證實(shí)了這一點(diǎn)確實(shí)大有可為。
在大數(shù)據(jù)技術(shù)中,分類是一種比較重要的數(shù)據(jù)分析手段,其目的是利用已有的觀測(cè)數(shù)據(jù),通過(guò)分析觀測(cè)數(shù)據(jù)的特征,來(lái)構(gòu)造一個(gè)分類器,將任何未知的數(shù)據(jù)對(duì)象進(jìn)行分類。
在股市行情分類中,k - 近鄰分類方法比較好。優(yōu)點(diǎn)是事前不要通過(guò)數(shù)據(jù)來(lái)學(xué)好分類模型,再對(duì)未知樣本分類,而是存儲(chǔ)帶有標(biāo)記的樣本集,給一個(gè)沒(méi)有標(biāo)記的樣本,用樣本集中k個(gè)與之相近的樣本對(duì)其進(jìn)行及時(shí)分類。
具體來(lái)講,股市行情k - 近鄰分類基本思路是:
第一步,對(duì)已有的股市行情數(shù)據(jù)進(jìn)行函數(shù)F (X) 處理(由于某種原因,不對(duì)F (X) 進(jìn)行闡述),得到標(biāo)記好的樣本集。對(duì)股市行情數(shù)據(jù)樣本集進(jìn)行數(shù)據(jù)或維度規(guī)約和變換,使數(shù)據(jù)被映射到變換后的空間,保留變換后最強(qiáng)的系數(shù)作為特征,得到可視圖。
第二步,取近鄰的一個(gè)未知分類的股市行情樣本用來(lái)對(duì)其分類,也就是用未知類行情的可視圖和樣本可視圖進(jìn)行比較,得到未知類行的分類;
第三步,逐一取出近鄰樣本集中的股市行情,與未知類股市行情相比較,找到k個(gè)與之相近的股市行情數(shù)據(jù),用這k個(gè)股市行情的樣本的類為未知行情定類;
第四步,當(dāng)把股市行情數(shù)據(jù)看做連續(xù)時(shí)間序列時(shí),用k個(gè)股市行情的樣本可視圖為未知行情數(shù)據(jù)分類。
(四)基于大數(shù)據(jù)視角下我國(guó)股市行情分類
當(dāng)人們從第三方獲得股市行情的大數(shù)據(jù)后,對(duì)已有的股市行情數(shù)據(jù)進(jìn)行函數(shù)F (X) 處理,然后得到可視圖(如下圖(1))。
現(xiàn)在對(duì)股市行情數(shù)據(jù)經(jīng)函數(shù)F (X)處理后進(jìn)行概括。
F (X)作用數(shù)據(jù)樣本集,是時(shí)間T的N維空間函數(shù),在進(jìn)行數(shù)據(jù)或維度規(guī)約和變換后可以得到兩個(gè)函數(shù)s(t)和b(t),兩個(gè)函數(shù)均為時(shí)間的一階邊際函數(shù),它們的數(shù)據(jù)被映射到變換后的二維空間,反映股市中多方和空方的行情變化。
設(shè):
s(t)為空方行情的邊際函數(shù),當(dāng)s(t)<0時(shí),空方行情加強(qiáng);當(dāng)s(t)>0時(shí),空方行情減弱。
b(t)為多方行情的邊際函數(shù),當(dāng)b(t)<0時(shí),多方行情減弱;當(dāng)b(t)>0時(shí),多方行情加強(qiáng)。
由于股市行情數(shù)據(jù)不為零,所以行情數(shù)據(jù)進(jìn)行維度規(guī)約和變換后s(t)和b(t)不會(huì)同時(shí)為零。根據(jù)排列組合知識(shí),可以得到s(t)和b(t)如下四種組合:
第一種組合:b(t)
第二種組合:s(t)
第三種組合:b(t)>s(t)>0,多頭行情加強(qiáng)的變化幅度比空頭行情減弱的幅度還要大,行情以多頭行情為主,趨向升;
第四種組合:s(t)>b(t)>0,多頭行情減弱的變化幅度比空頭行情加強(qiáng)的幅度還要大,雖然以多頭行情為主,但是行情上升中空頭行情的變化在加強(qiáng),升中有跌。
s(t)和b(t)是同時(shí)存在的一對(duì)結(jié)構(gòu)化數(shù)據(jù),經(jīng)可視化后反映一個(gè)單位時(shí)間的股市行情,上述四種組合中的一種形式的連續(xù)N對(duì)結(jié)構(gòu)化數(shù)據(jù)組合形成了一個(gè)可視圖,能反映行情的特征。由反推可以得出,連續(xù)N對(duì)結(jié)構(gòu)化數(shù)據(jù)組合表現(xiàn)出了相同屬性的一個(gè)股市行情,可視圖就構(gòu)成一個(gè)分類器,如圖(1)所示。
圖(1)附注:①下跌 ②反彈 ③上漲 ④回調(diào)
經(jīng)過(guò)對(duì)股市行情k-近鄰分類后,發(fā)現(xiàn)我國(guó)股市行情有四種類型:
第一種組合為下跌行情;
第二種組合為反彈行情;
第三種組合為上漲行情;
第四種組合為回調(diào)行情。
從大數(shù)據(jù)視角對(duì)我國(guó)股市行情進(jìn)行分類,是一種嘗試。這種分類方法在實(shí)踐中得到了的檢驗(yàn),證明是行之有效的。
圖(1)下半部分里的可視圖,是對(duì)圖(1)上半部分股市行情進(jìn)行了數(shù)據(jù)處理的結(jié)果,并分類。任一未知類行情,通過(guò)流式實(shí)時(shí)處理,經(jīng)過(guò)k - 近鄰方法分類,總能與分類器中的另一類行情相吻合。
[1] 王珊,王會(huì)舉,覃雄派. 架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J]. 北京:計(jì)算機(jī)學(xué)報(bào),2011.
[2] 汪永強(qiáng). 社會(huì)化網(wǎng)絡(luò)中的推薦算法及其應(yīng)用[J]. 上海:上海交通大學(xué),2012.
[3] 許偉,梁循,楊小平. 《金融數(shù)據(jù)挖掘:基于大數(shù)據(jù)視角的展望》[M]. 北京:知識(shí)產(chǎn)權(quán)出版社,2013.
[4] 陳利強(qiáng),梁如見(jiàn),張新宇. 《金融大數(shù)據(jù):戰(zhàn)略規(guī)劃與實(shí)踐指南》[M]. 北京:電子工業(yè)出版社,2015.
[5] 李福東.《大數(shù)據(jù)運(yùn)營(yíng):服務(wù)型企業(yè)架構(gòu)新思維》[M]. 北京:清華大學(xué)出版社,2015.
[6] 魏瑾瑞. 《統(tǒng)計(jì)學(xué)視角下的金融高頻數(shù)據(jù)挖掘理論與方法研究》[M]. 北京:中國(guó)社會(huì)科學(xué)出版社,2015.
廣東省本科高校教學(xué)質(zhì)量與教學(xué)改革工程項(xiàng)目《計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用型人才培養(yǎng)示范專業(yè)》粵教高函[2015]133號(hào)