国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

GA-SVM對上證綜指走勢的預測研究

2012-12-27 03:51:10李泓儀蘭書梅
關(guān)鍵詞:二進制適應度染色體

張 偉,李泓儀,蘭書梅,張 潔

(1.吉林大學計算機科學與技術(shù)學院,吉林長春 130012;2.吉林大學經(jīng)濟學院,吉林長春 130012)

GA-SVM對上證綜指走勢的預測研究

張 偉1,李泓儀2,蘭書梅1,張 潔1

(1.吉林大學計算機科學與技術(shù)學院,吉林長春 130012;2.吉林大學經(jīng)濟學院,吉林長春 130012)

將支持向量機和遺傳算法結(jié)合,建立了一種智能數(shù)據(jù)挖掘技術(shù)(GA-SVM),并用于對上證綜指市場走勢進行了探索.在這個混合的數(shù)據(jù)挖掘方法中,GA用于RBF參數(shù)的設定以及特征集的選擇,從而智能的找到SVM的最佳參數(shù),減少SVM特征值的復雜度,提高了SVM算法速度.SVM用于判斷未來股票市場的走勢,并與統(tǒng)計模型、時間序列模型方法、神經(jīng)網(wǎng)絡進行了對比.實驗證明,GA-SVM優(yōu)于其他幾種方法,這種方法對于股票上漲或下跌的預測研究是有效的.

支持向量機;遺傳算法;GA-SVM;股票走勢預測

自股票誕生以來,對股票趨勢的預測便成為眾多投資者密切關(guān)注的問題.眾多金融、計算機學界的專家、學者對此投入了極大的熱情.由于股市高復雜和高噪聲的特點,研究股票市場的走勢被認為是一項具有挑戰(zhàn)的工作.早期通過人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,簡稱ANNs)對股票市場進行了預測,但ANNs有諸多不足,結(jié)構(gòu)難以確定,訓練過程學習率等參數(shù)不好確定,計算量大、算法收斂速度慢,易于陷入局部極值和過學習的問題[1-2].

針對ANNs的局限性,近年來,人們提出了SVM方法預測證券市場趨勢[3-4].SVM在理論上充分保證了模型的泛化能力,克服了局部極值和過學習的問題,計算復雜度大大降低.為了提高預測率和運行速度,本文提出了一種新穎的GA-SVM智能算法,該方法利用GA的全局自動尋優(yōu)能力智能的找到SVM的最佳參數(shù)、最優(yōu)的輸入特征,優(yōu)化了核函數(shù)的參數(shù),剔除了冗余特征,提高了預測的命中率,減少了計算量和預測時間.

1 建模

1.1 建立SVM模型

SVM是由Vapnik提出的支持向量分類(SVC).SVM建立在統(tǒng)計學習和結(jié)構(gòu)風險最小化理論基礎之上,其基本思想是利用線性模型通過非線性映射將向量統(tǒng)一到高維空間[5].一個非線性邊界在新的高維平面中可以構(gòu)造成線性模型.在新的空間,一個可分超平臺將會被建立.因此,SVM是著名的尋找最優(yōu)超平面邊界即線性模型的算法.最優(yōu)超平面對二分類問題最有效,這種最接近最優(yōu)超平面的向量叫做支持向量(Support Vector,簡稱SV),見圖1所示.

SVM是通過核函數(shù)來實現(xiàn)從低維線性不可分向高維線性可分即最優(yōu)超平面映射.這時,SVM核函數(shù)可記為

核函數(shù)的選取對于創(chuàng)建最優(yōu)超平面意義重大,本文根據(jù)股票數(shù)據(jù)特點確定采用徑向基核函數(shù),公式為

1.2 遺傳算法的基礎理論

遺傳算法(Genetic Algorithm,簡稱GA)是一類借鑒自然界生物進化和遺傳機理而發(fā)展起來的自適應全局優(yōu)化隨機搜索算法,其本質(zhì)是一種不依賴具體問題的直接搜索方法[6].GA作為具有高性能計算、建模、尋優(yōu)的方法漸趨成熟.GA的基本流程圖如圖2所示.

圖1 SVM二分類問題的原理圖

圖2 GA基本流程圖

1.3 建立GA-SVM模型

利用GA對SVM分類器進行改進的關(guān)鍵是正確建立GA模型,以優(yōu)化特征選擇問題為例,對建立GA模型進行介紹.

圖3 特征編碼示意圖

1.3.1 編碼

每一個特征被定義為一位基因,如圖3所示.所有特征用一個長度為特征個數(shù)的二進制串表示,這個二進制串就是染色體.如果染色體的第k位為1,就表示第k個特征被選中,如果為0,則表示這個特征被屏蔽.在這里,每一個染色體代表不同的特征子集.

1.3.2 初始化

通常初始種群是由隨機產(chǎn)生的,這也是較為常用的方式.例如,種群中染色體的每一位可以用拋硬幣的方式確定.然而通過這種方式獲得的種群,每一個染色體的“1”或者“0”的數(shù)量是大致相同的,每個染色體的特征數(shù)量大致相同.但是,我們想獲得代表不同數(shù)量特征的染色體種群.于是,本文用2次隨機化方式,首先隨機產(chǎn)生每個染色體所含“1”的個數(shù),然后再把這些“1”隨機分布在對應的染色體中.采用這種方法能更有效地反映特征的多樣性.

1.3.3 適應度的評價

選擇特征子集的目的是使用較少的特征達到相同或更好的分類效果,因此評價適應度應從兩方面考慮:(1)分類的準確率;(2)分類器輸入的特征子集的特征數(shù)量.不同的特征子集包含不同數(shù)量的特征,如果2個特征子集驗證產(chǎn)生的準確率相同,那么特征數(shù)量比較少的子集就被選中.當訓練分類器時,我們僅使用特征子集中確定的特征來訓練,用分類結(jié)果評價分類器的性能,并以此來指導GA的進一步搜索.

本文在確定適應度函數(shù)時,綜合考慮了準確率和特征數(shù)量這2個因素,其中重點考慮的仍然是準確率,但并非只是簡單地將適應度等同于準確率.

結(jié)合以上內(nèi)容,GA的適應度函數(shù)可表示為:

1.3.4 遺傳操作

本文沒有使用傳統(tǒng)的一點交叉的方法,因為如果不知道特征之間的依賴關(guān)系,一點交叉的方法可能會分離染色體相互依賴的特征.為了避免上述情況的發(fā)生,在這里使用均勻交叉的方法.

變異操作的作用是使種群突變,跳出局部極值,它僅改變?nèi)旧w的一位,并且概率非常小.

選擇是從父代中選擇個體組成新的一代,選擇既要保證優(yōu)勝劣汰,即適應度高的個體被選中,又要考慮種群的多樣性,避免“早熟”.我們選擇操作方法采用經(jīng)典的賭輪法.

利用GA尋找SVM中最佳的尺度參數(shù)σ和懲罰因子C,其方法與上面基本相同,主要區(qū)別是染色體編碼上.首先定義染色體中基因個數(shù)為20,并按經(jīng)驗設定尺度參數(shù)σ和懲罰因子C的范圍;然后按設定的范圍進行離散化及二進制編碼,如σ∈(0,10],步長為10/1 024,二進制編碼為0000000001~1111111111,這樣二進制的每一位可以看作是一個基因,得到尺度參數(shù)σ的二進制串為X=x1x2…x10.懲罰因子C∈(0,100],步長為100/1 024,二進制串為0000000001~1111111111,得到Y(jié)=y(tǒng)1y2…y10,于是染色體為XY=x1x2…x10y1y2…y10,映射函數(shù)記為σ=fσ·X,C=f C·Y,其中fσ和f C為參數(shù)與二進制編碼間的映射關(guān)系.結(jié)束后還需要進行解碼,將染色體轉(zhuǎn)換成實際的尺度參數(shù)σ和懲罰因子C.

1.4 GA-SVM模型方法

為方便起見,我們把GA優(yōu)化SVM參數(shù)和特征的方法稱為GA-SVM方法.在GA-SVM方法中雖然兩處優(yōu)化都用到了GA算法,但這2處優(yōu)化不能同時進行.為了獲得最佳效果,采用先優(yōu)化參數(shù)再優(yōu)化特征的辦法.步驟如下:

Step1:選定原始特征向量;

Step2:按照1.3.2的步驟用對參數(shù)進行優(yōu)化,獲得最優(yōu)尺度參數(shù)σ和懲罰因子C;

Step3:按照1.3.1的步驟用對特征向量進行優(yōu)化,獲得最佳特征向量集;

Step4:用改進后的SVM對測試集進行測試,得到準確率.

2 實例研究

2.1 實際過程

綜合考慮影響數(shù)據(jù)的各方面因素,采用2000年1月1日到2010年3月24日的上證綜指數(shù)據(jù)作為樣本,并將該樣本中未來三日漲幅超過1%的樣本標記為“+1”,跌幅超過1%的樣本標記為“0”,其他樣本暫不作考慮.

每一個樣本選用20個特征,建立訓練樣本集合S=((x1,y1),…,(x20,y20))?(X×Y)20,并用“+1”和“0”對數(shù)據(jù)進行標記.在標記好的樣本數(shù)據(jù)中,漲跌數(shù)據(jù)各取20組作為訓練樣本存入訓練集中.20種技術(shù)指標的公式見表1[7].

表1 股票分析的重要指標及表達式

續(xù)表1

為了評價GA-SVM模型的預測能力,我們將該方法與一些常用的方法進行比較,如靜態(tài)時間序列模型和神經(jīng)網(wǎng)絡模型,以及不帶GA優(yōu)化的獨立SVM模型和其他優(yōu)化SVM模型的方法.我們選擇了隨機漫步模型(RW),自動回歸綜合移動平均模型(ARIMA),獨立BP神經(jīng)網(wǎng)絡(BPNN)模型,獨立SVM模型和蟻群優(yōu)化的SVM模型作為基準.實驗模型的主要參數(shù)設置見表2—4.

表2 SVM主要參數(shù)

表3 GA主要參數(shù)

對于GA-SVM模型,首先通過GA找到適合樣本特性的RBF核參數(shù)σ和懲罰因子C,從而消除了因SVM參數(shù)設置不當導致的預測準確率低下的風險.然后用GA對輸入SVM分類器的特征進行選擇,濾掉大部分與股票預測無關(guān)或關(guān)聯(lián)不大的特征,找到最佳特征集.這對沒有先驗知識的使用者來說是極具意義的,同時這也加速了SVM分類搜索的過程.

2.2 交叉驗證

采用10折交叉驗證,先將全部實驗數(shù)據(jù)平均分成10份,取其中后20套上漲數(shù)據(jù)、20套下跌數(shù)據(jù),共40套數(shù)據(jù)作為訓練樣本,其余數(shù)據(jù)作為測試數(shù)據(jù),對所確定的參數(shù)及特征進行交叉驗證,對所得準確率求數(shù)學平均值,得到最終結(jié)論.

2.3 實驗結(jié)果

分別用以上模型對上證綜指進行預測驗證,得到實驗結(jié)果見表5—7.

表4 ANNs主要參數(shù)

表5 SVM與其他股票預測效果比較 %

表6 SVM與GA優(yōu)化的SVM的預測效果比較

表7 GA-SVM與其他主要非線性預測方法效果比較

由表5—7可見,通過對比各模型對上證綜指的預測效果,發(fā)現(xiàn)GA-SVM模型表現(xiàn)是最好的.其準確性最高,預測的時效性也最好,這同時也說明GA-SVM的預測模型可以應用于對股票市場趨勢的預測研究.

[1]RAY TSAIH,YENSHAN HSU,CHARIES C LAI.Forecasting S&P 500 stock index futures with a hybrid AI system[J].Decision Support System,1998,23:161-174.

[2]GRUDNITSKE G,OSBURN L.Foreeasting S&P and gold future prices an application of neural networks[J].Futures Markets,1993,13(6):631-643.

[3]KIN KYOUNG-JAE.Financial time series forecasting using support vector machines[J].Neurocomputing,2003,55:307-319.

[4]MUKHEJEE S,OSUNA E GIROSI F.Nonlinear prediction of chaotic time series using support vector machines[C]//Proceedings of the IEEE Workshop on Neural Networks for Signal Processing,State of Florida:Amelia Island,1997:511-520.

[5]VAPNIK V.The Nature of statistical learning theory[M].New York:Springer-Verlag,1995:203-232.

[6]周明,孫樹棟.遺傳算法原理及應用[M].北京:國防工業(yè)出版,1999:121-185.

[7]YU L A,WANG S Y,LAI K K.Mining stock market tendency using GA-based support vector machines[C].WINE 2005,LNCS 3828.Berlin:Springer,2005:336-345.

A study on prediction of market tendency on the shanghai stock index based on GA-SVM method

ZHANG Wei1,LI Hong-yi2,LAN Shu-mei1,ZHANG Jie1

(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.College of Economics,Jilin University,Changchun 130012,China)

Support vector machine is an effective data mining technology for limited sample data,genetic algorithm is an excellent tool for global optimization.In this study,a hybrid data mining model which combine support vector machine with genetic algorithm(GA-SVM)is proposed to the prediction of market tendency on the shanghai stock index.In this hybrid data mining approach,GA is used to select the RBF parameters and the features,so that to find the best parameters of SVM.That can reduce model complexity of SVM and improve the speed of SVM;SVM is used to judge the future movement direction of the stock market based on the use of historical data.To validate GA-SVM method,we compared its performance with that of other methods(such as statistical method,time series method and neural network method).The experimental results show that GA-SVM is superior to other methods,implying that the GA-SVM approach is a promising alternative to stock market tendency prediction.

support vector machine;genetic algorithm;GA-SVM;stock market tendency prediction

TP 301

520·2040

A

1000-1832(2012)01-0055-05

2011-10-27

國家科技支撐計劃子課題資助項目(2006BAJ18B02-06).

張偉(1977—),男,碩士研究生,講師;通訊作者:蘭書梅(1963-),女,碩士,副教授,主要從事計算機應用研究.

石紹慶)

猜你喜歡
二進制適應度染色體
改進的自適應復制、交叉和突變遺傳算法
計算機仿真(2022年8期)2022-09-28 09:53:02
用二進制解一道高中數(shù)學聯(lián)賽數(shù)論題
有趣的進度
二進制在競賽題中的應用
多一條X染色體,壽命會更長
科學之謎(2019年3期)2019-03-28 10:29:44
為什么男性要有一條X染色體?
科學之謎(2018年8期)2018-09-29 11:06:46
能忍的人壽命長
基于空調(diào)導風板成型工藝的Kriging模型適應度研究
中國塑料(2016年11期)2016-04-16 05:26:02
再論高等植物染色體雜交
少數(shù)民族大學生文化適應度調(diào)查
陆丰市| 龙南县| 水富县| 曲松县| 镇平县| 托克托县| 德令哈市| 施秉县| 吉林市| 红桥区| 乳山市| 合山市| 白银市| 黄山市| 西华县| 原阳县| 泰顺县| 镇江市| 安庆市| 阜新市| 金秀| 金川县| 龙口市| 东海县| 西藏| 广安市| 珲春市| 桃园县| 临邑县| 区。| 胶南市| 朝阳市| 福鼎市| 白水县| 成安县| 枞阳县| 永川市| 大新县| 华安县| 肥西县| 定州市|