熊峰, 季振山
(1.中國科學院, 合肥物質(zhì)科學研究院, 安徽, 合肥 230031; 2.中國科學院,中國科學技術(shù)大學, 安徽, 合肥 230026)
在經(jīng)濟體系快速發(fā)展的帶動下,金融交易市場得到了迅速地擴張,股票量化交易作為其中最為常見且基礎的技術(shù)手段,主要根據(jù)一些科技上的技術(shù)來代替人們的自主計算或投遞,降低交易風險[1]。隨著股票信息數(shù)量的逐漸增多,對于信息管理的要求也越來越高,需要在保證數(shù)據(jù)高效實施的同時,確保信息的準確性和時效性,所以對于一些數(shù)據(jù)量較為龐大的股票交易平臺來說,要想達到理想的信息處理效果,構(gòu)建基于一種信息管理系統(tǒng)是必不可少的[2]。
相對于全球的發(fā)達金融市場而言,中國市場量化交易不算新興事物,但相對小眾。短期來看,國內(nèi)量化交易的資金管理額度、業(yè)界影響能力都遠遜于美國的同類產(chǎn)品。中期來看,需求端:將呈現(xiàn)投資者機構(gòu)化的發(fā)展趨勢;供給端:將伴隨海外機構(gòu)加速國內(nèi)市場布局,行業(yè)競爭和管理人分化會進一步加劇[3]。
基于上述問題,本文提出基于一種機器學習技術(shù)建立信息管理系統(tǒng)。該機器學習技術(shù)具有較強的計算能力,且其中包含各類學習技術(shù),例如概率學、統(tǒng)計學及其他科學等,可以準確計算信息數(shù)據(jù),并完成預測,這對基于股票量化的交易信息管理系統(tǒng)來說,是最佳選擇,方便有效處理大量股票及證券類信息數(shù)據(jù),保證高效信息管理。
根據(jù)股票量化交易信息的屬性特征,建立與其相對應的信息管理系統(tǒng),方便實現(xiàn)信息的有效分類、整合以及后續(xù)等各種操作處理[4]。
硬件部分由網(wǎng)上操作處理機制以及數(shù)據(jù)客戶端服務器共同組成,主要提供及保證程序能有效進行的硬性設計。軟件部分則主要由數(shù)據(jù)庫的精準設計及基于機器學習的股票信息分類技術(shù)共同組成,為系統(tǒng)提升數(shù)據(jù)安全性能和簡化分類難度,提高整體信息管理效率,其具體系統(tǒng)構(gòu)架如圖1所示。
圖1 系統(tǒng)的整體構(gòu)架
本文采用Windows NT/2000或以上的網(wǎng)絡數(shù)據(jù)服務器版本;客戶端服務器的處理系統(tǒng)則是采用Windows 98并搭載高配置的IE5.1版本瀏覽器[5-6]。保證信息系統(tǒng)后臺運行流暢,以及各種管理功能的準確性實現(xiàn)。
網(wǎng)絡數(shù)據(jù)服務器主要包括:Web端服務器、各類100Base-T廣域網(wǎng)[7-8]以及內(nèi)部信息管理機制共同組成,其能保證數(shù)據(jù)網(wǎng)絡的高效進行是管理機制能完美實現(xiàn)的必要支持。
客戶端服務器的處理系統(tǒng)主要包括:直觀簡潔的信息查詢頁面、含有大量有關(guān)股票類信息的數(shù)據(jù)儲存器以及精準地計算決策樹。這樣就能保證數(shù)據(jù)的精準性、安全性以及各類個性化的服務功能,增強體驗感的同時還能提高安全性能。
圖2 硬件構(gòu)架組成
從2種SQL Server和Web最基本的服務處理器上入手,整體提升安全性能。為有效改善數(shù)據(jù)庫的權(quán)限訪問功能,需要直接通過系統(tǒng)中的客戶端進行更改訪問SQL Server,而這些操作都需要通過SQL Server進行數(shù)據(jù)驗證,在每個信息處理環(huán)節(jié)都建立一個特定的用戶權(quán)限,并將此權(quán)限按照信息的特征屬性分成1~5種不同的權(quán)限類別,其具體的類別如表1所示。
表1 權(quán)限劃分的具體類別
以多數(shù)的系統(tǒng)數(shù)據(jù)庫管理方式來看,其中查詢以及整合操作是最經(jīng)常使用的,對于一般的數(shù)據(jù)庫中的應用處理步驟來看,其重點都在于對信息的分類整合等操作的執(zhí)行效率上,所以本文針對基于股票量化交易信息管理系統(tǒng)的特殊關(guān)系,利用有效整合算法對數(shù)據(jù)庫進行高效管理,其具體操作流程如圖3所示。
圖3 數(shù)據(jù)庫設計流程
樸素貝葉斯作為最基礎的機器學習技術(shù)算法之一,其算法的設立條件是基于獨立性的計算假設。先是對信息目標進行先概率檢測,再通過對應的關(guān)系式進行后概率檢測,這樣就可以根據(jù)對應目標進行分類計算。選擇機器學習技術(shù)來建立基于股票量化交易的信息管理系統(tǒng)的一大好處在于,其可以根據(jù)原始數(shù)據(jù)預先判定股票信息的變化規(guī)律,并對此進行加工處理,通過計算得出其中的變動規(guī)律,從而代替人們主觀的猜測,提高準確率降低風險。
假設,Xn表示股票量化交易在第n個時間序列下產(chǎn)生的數(shù)據(jù)信息,ZG、ZD分貝表示股市交易的最高價、最低價信息、KP表示開盤時的價格信息、SP表示收盤時的價格信息、CJL則表示最終的成交數(shù)據(jù),這樣就可以根據(jù)機器學習技術(shù)對這些指標進行一些簡單的信息歸類計算,例如以下幾種基于初始數(shù)據(jù)的信息整合公式。
(1)
式中,k表示信息整合的時間間隔,可以看出,基于機器學習的信息整合公式整體計算量較小且形式較為簡單。
圖4 機器學習技術(shù)模型
利用機器學習技術(shù)中的樸素貝葉斯算法對系統(tǒng)中的基于股票量化的交易信息進行有效分類,首先,假設在信息管理系統(tǒng)當中,將所有特定的信息項目類別,都設定為互相獨立且互不干涉的個體屬性分布形式。用X代表數(shù)據(jù)樣本,S代表數(shù)據(jù)樣本的全部合集,A={A1,A2,A3,…,An},其中,n代表在樣本的全部集合S中所定義關(guān)系的第個n數(shù)據(jù)特征數(shù)值,并且n屬于非負數(shù)類的整數(shù),此時,樣本數(shù)據(jù)還可以表達為X={x1,x2,x3,…,xn};x1,x2,x3,…,xn分別表示對應的數(shù)據(jù)特征A1,A2,A3,…,An的關(guān)鍵數(shù)值,C={ci|1≤i≤m|}表示在全部集合S中被預先設定的有限的數(shù)據(jù)分類合集,并且m屬于正整數(shù)類計算合集。
設定X∈S,若根據(jù)最小方差[9]錯誤幾率的樸素貝葉斯分類規(guī)則[10],那么該X∈cj關(guān)系的符合條件可表示為以下2種關(guān)系式:
(2)
該公式的表達含義為以最難觀測和發(fā)現(xiàn)的n個維度的列向量下,有關(guān)X樣本數(shù)據(jù)的發(fā)生分類條件,且符合在向量類別cj中的最大概率條件的最應歸屬類別,這樣就可以有效進行基于最小誤差率的數(shù)據(jù)分類識別以及計算。
根據(jù)上述過程以及樸素貝葉斯的學習基準,建立有關(guān)分類決策[11]的數(shù)據(jù)公式表示為
(3)
因為在有關(guān)樣本的數(shù)據(jù)訓練集中很輕易就可計算得到p(cj)數(shù)值,而p(X)數(shù)值與數(shù)據(jù)分類的決策沒有直接關(guān)系,這時就需要先對此p(x1,x2,x3,…,xn|cj)聯(lián)合數(shù)據(jù)概率進行相應計算,并且其概率數(shù)值的分布是n的指數(shù)關(guān)系[12],這就說明該類概率計算形式較為復雜,但是準確性較高。所以,這時可以賦予其獨立性的數(shù)據(jù)屬性[13],將關(guān)系式表達為
p(x1,x2,x3,…,xn|cj)=p(x1|cj)×p(x2|cj)×…×
p(xn|cj)
(4)
這樣就可將樣本信息的分類決策公式進行簡化,從而在訓練樣本合集中簡單直觀地計算出p(x1,x2,x3,…,xn|cj)的數(shù)值,最大程度上降低了分類決策的難度和計算量。即使在數(shù)據(jù)信息量較為龐大的情況下也能有效完成信息分類。
此基于機器學習技術(shù)的信息分類算法具有較高的目的性和學習性,如果在合集C中只存在2種分類的可能性,即為0或1(0表示不能正常分類的數(shù)據(jù);1表示可以正常分類的數(shù)據(jù))那么在數(shù)據(jù)樣本X中,其中屬于c=1類別的數(shù)據(jù)概率的計算過程為
(5)
(6)
這時,如果表示為此p(c=1|X)≥1/2關(guān)系,并且X的分類類別為c=1。那么此數(shù)據(jù)分類邏輯[14]是較為穩(wěn)定且高效的,可確保信息分類的準確性。
為了保證基于機器學習的股票量化交易信息管理系統(tǒng)測試結(jié)果的準確性和真實性,本文將采用Keen Ocean股票交易平臺作為測試背景,處理器為Intel-i59400F、8 G內(nèi)存、120 G固態(tài)硬盤。
在基于股票量化交易的信息管理系統(tǒng)中,通過對服務處理器輸入大量數(shù)據(jù)信息,實現(xiàn)數(shù)據(jù)庫的擴增,提高測試的精準性,增強結(jié)果的參考及對比價值,確保測試的真實性。吞吐量越高代表系統(tǒng)對信息數(shù)據(jù)的包容性和處理能力越強,整體質(zhì)量優(yōu)異,反之則為表現(xiàn)欠佳。擴容數(shù)據(jù)庫管理系統(tǒng)對股票交易數(shù)據(jù)吞吐量實時數(shù)值如圖5所示。
圖5 管理系統(tǒng)實時吞吐量
從圖5中可以看出,系統(tǒng)吞入量和吐出量基本呈現(xiàn)非線性增長,且二者時間相差較短,這能夠證明本文系統(tǒng)吞入數(shù)據(jù)進行管理,同時在極短時間內(nèi)吐出數(shù)據(jù)輸出,幫助用戶實時梳理股票交易數(shù)據(jù),為用戶提供更好的決策基礎。系統(tǒng)解決了數(shù)據(jù)噪聲問題,還提高了吞吐速度,并使得系統(tǒng)的學習速率逐漸增加,保證數(shù)據(jù)的實時更新,提高時效性。
在系統(tǒng)運行120 s和150 s處注入干擾數(shù)據(jù),破壞原本數(shù)據(jù)管理的生態(tài)鏈,使數(shù)據(jù)間形成一種混亂的排列關(guān)系,從而導致易出現(xiàn)混淆現(xiàn)象,增加處理時間,降低管理效率。信息熵是股票交易信息的量化度量,表示數(shù)據(jù)內(nèi)所包含信息量的多少,正常數(shù)值浮動區(qū)域為2~4之間?;诟蓴_數(shù)據(jù)的信息熵值變化如圖6所示。
圖6 信息熵值變化曲線
從圖6中可以看出,經(jīng)過本文系統(tǒng)處理的熵值曲線整個測試時間內(nèi)并未出現(xiàn)任何大幅度的波動,整體熵值波動范圍一致保持在正常的2~4之間,曲線較為穩(wěn)定,這說明本文信息管理系統(tǒng)即使在外界干擾的情況下,也能保證處理熵值不會隨著干擾數(shù)據(jù)的增加而提高或者減少,確保管理質(zhì)量及效率。這主要歸因于本文在設計數(shù)據(jù)庫時引入了一定量的代碼整合以及權(quán)限訪問等操作處理,這樣不僅提高了數(shù)據(jù)庫的安全性還能保證數(shù)據(jù)間不會出現(xiàn)數(shù)據(jù)噪聲、冗余數(shù)據(jù)及數(shù)據(jù)混淆等現(xiàn)象,最大程度減少了信息的誤報概率,提高了整體的管理效率。
通過建立并分析基于機器學習的股票量化交易信息管理系統(tǒng)得出以下幾點結(jié)論:
(1)通過系統(tǒng)硬件設計中網(wǎng)上操作處理機制以及數(shù)據(jù)客戶端服務器組成設計方便信息的選取、查找以及記錄,在提高網(wǎng)絡數(shù)據(jù)時效性的同時還能保證各類程序的有效進行。
(2)本文在設計系統(tǒng)的軟件時通過建立SQL Server和Web服務處理器,防止非法程序破壞數(shù)據(jù)信息,從而提升整體安全性能,并保證數(shù)據(jù)信息的時效性和完整性。再利用機器學習技術(shù)中的樸素貝葉斯算法對信息進行有效分類,穩(wěn)定管理過程中的分類邏輯,實現(xiàn)高效率管理機制的同時還可確保信息工作的準確性。
(3)性能測試證明,在基于信息吞吐量的情況下本系統(tǒng)也能保證優(yōu)異的管理效率,系統(tǒng)可靠性以及抗干擾性較強。