国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樸素貝葉斯分類算法的股指預測研究

2014-09-22 01:24:05任民宏肖海蓉
關鍵詞:樣本數訓練樣本計算公式

任民宏, 肖海蓉

(陜西理工學院 數學與計算機科學學院, 陜西 漢中 723000)

基于樸素貝葉斯分類算法的股指預測研究

任民宏, 肖海蓉

(陜西理工學院 數學與計算機科學學院, 陜西 漢中 723000)

預測大盤指數的漲跌幅度在股票投資中具有重要的意義。大盤指數的漲跌既與國家的宏觀經濟政策有關,也與大盤指數自身運行狀態(tài)有關。結合樸素貝葉斯分類算法和股票大盤指數漲跌的影響因素建立了大盤指數分類預測模型,以上證指數為例進行了實驗,結果表明分類預測模型有效,準確性較高。

樸素貝葉斯分類算法; 大盤指數; 預測模型

0 引 言

股市是一個高風險高收益的投資場所,如何能正確預測大盤指數的漲跌幅度,幫助投資者減少風險、提高收益,這個問題一直以來倍受人們的關注。

大盤指數是對股票價格的反映,影響股票價格的因素既與整個社會經濟環(huán)境和國家的宏觀經濟政策有關,也與自身運行狀態(tài)有關,甚至投資者的心理因素也影響股市,而且這些因素以非常復雜的方式相互影響。因而預測大盤指數的漲跌幅度通常是比較困難的。近年來,隨著人工智能尤其是專家系統(tǒng)的發(fā)展,人工神經網絡被用來預測大盤指數和股票價格,這能有效解決股市預測的困難,但是人工神經網絡容易受到網絡的權重初始化不合理而影響預測的速度和準確性,不能考慮社會經濟環(huán)境和國家的宏觀經濟政策對股市的影響。

本文綜合考慮影響股票價格的主要因素,建立了基于樸素貝葉斯分類算法的大盤指數分類預測模型。

1 樸素貝葉斯分類算法

樸素貝葉斯分類算法基于貝葉斯定理,以計算類別所屬的概率達到分類預測的目的,它是一種統(tǒng)計分類方法。對分類算法的比較研究可以發(fā)現,樸素貝葉斯分類算法的分類性能可以與決策樹和人工神經網絡分類算法相媲美。

樸素貝葉斯分類算法的基本原理如下[1]:

(1)每個數據樣本用一個n維向量X={x1,x2,…,xn}表示,分別描述對n個屬性A1,A2,…,An樣本的n個度量。

(2)假定有m個類別C1,C2,…,Cm,給定一個未知類別的數據樣本X,分類器在已知X的情況下,預測X屬于具有最大后驗概率的那個類別。即樣本X歸屬到類別Ci當且僅當

P(Ci|X)>P(Cj|X), 1≤j≤m,i≠j,

其中P(Ci|X)最大的類別Ci稱為最大后驗假設。根據貝葉斯定理有:

(1)

(3)P(X)的計算公式為:

(2)

P(X)對所有的類別都為常數,因而只需要P(X|Ci)P(Ci)最大即可。P(Ci)稱為類別的先驗概率,可通過P(Ci)=Si/S公式計算,其中Si為訓練樣本集中類別Ci的樣本數,S為訓練樣本集中樣本數。

(4)若給定包含多個屬性的數據集,直接計算P(X|Ci)的開銷可能非常大。為降低計算的開銷,樸素貝葉斯分類算法通常假設所有屬性所起的作用都是獨立的,于是對于特定的類別,有:

(3)

可以根據訓練樣本估算P(xk|Ci)的值,具體的處理方法如下:

①如果屬性Ak是符號量,就有P(xk|Ci)=Sik/Si,其中Sik為訓練樣本集中類別為Ci且屬性Ak取值為vk的樣本數,Si為訓練樣本集中類別為Ci的樣本數。

②如果屬性Ak是連續(xù)量,那么假定屬性具有高斯分布,因此就有:

(4)

其中μCi和σCi為訓練樣本集中類別為Ci的屬性Ak的均值和方差。

(5)為預測一個未知樣本X的類別,可對每個類別Ci估算相應的P(X|Ci)P(Ci)。樣本X歸屬類別Ci當且僅當P(Ci|X)>P(Cj|X)(1≤j≤m,i≠j)。

2 大盤指數分類預測模型

2.1 訓練樣本的確定

大盤指數分類預測就是根據大盤指數的歷史數據,運用分類算法進行數據分析,得出大盤指數的漲跌幅度[2-3]。

筆者選取上證指數從2008年4月22日至2009年2月13日的數據為訓練樣本。確定樣本屬性時,既考慮了股票的短線指標,又結合了國家經濟政策消息對股指的影響,最終確定的訓練樣本如表1所示,由于篇幅所限,這里只列出部分數據。

表1 訓練樣本數據

樣本屬性“BIAS指標”、“KDJ指標”和“BOLL指標”是股票的短線技術指標,其中“BIAS指標”和“KDJ指標”從股票行情軟件中取值,“KDJ指標”取J的值[4-5]?!癇OLL指標”在股票行情軟件中表現為股價K線與上軌線、中軌線和下軌線的位置關系,因而“BOLL指標”的取值為“已達下軌線”、“接近下軌線”、“在下軌線和上軌線之間”、“接近上軌線”和“已達上軌線”。

樣本屬性“距上一低點或高點漲跌幅”反映股指在短期內的漲跌幅度,其計算公式為:

(5)

樣本屬性“下一個交易日消息”反映當前國家經濟政策消息面是利多還是利空,其取值為“重大利多”、“一般利多”、“一般”、“一般利空”和“重大利空”。

樣本屬性“上方壓力與下方支持力之差”反映多空雙方的力量強弱,如果收盤價大于開盤價,其計算公式為:

(6)

否則,其其計算公式為:

(7)

樣本屬性“下一個交易日漲跌”是分類屬性,其取值為“漲幅≥5%”、“1%≤漲幅<5%”、“漲幅<1%”、“跌幅<1%”、“1%≤跌幅<5%”和“跌幅≥5%”。

2.2 預測算法

由于樣本屬性“BIAS指標”、“KDJ指標”、“距上一低點或高點漲跌幅”和“上方壓力與下方支持力之差”的取值都是實數,為了分類方便,需要將這些屬性分為幾個區(qū)間[6-7]。根據股指在峰值點和谷底點的平均值,“BIAS指標”取值分為3個區(qū)間:(-∞,-2.749],(-2.749,3.099],(3.099,+∞)。由于股指經常在“KDJ指標”的0和100兩處附近的走向發(fā)生變化,因而“KDJ指標”取值分為3個區(qū)間:(-∞,0],(0,100],(100,+∞)。根據股指走向變化時漲跌幅度大小的平均值,“距上一低點或高點漲跌幅”取值分為6個區(qū)間:(-∞,-0.211],(-0.211,-0.095],(-0.095,0],(0,0.084],(0.084,0.198],(0.198,+∞)。根據股指走向變化時“上方壓力與下方支持力之差”的平均值,“上方壓力與下方支持力之差”取值分為6個區(qū)間:(-∞,-0.016],(-0.016,-0.003],(-0.003,0],(0,0.003],(0.003,0.015],(0.015,+∞)。算法描述如下:

1)輸入待分類元組t的“BIAS指標”、“KDJ指標”、“BOLL指標”、“距上一低點或高點漲跌幅”、“下一個交易日消息”和“上方壓力與下方支持力之差”各屬性分量值。

2)統(tǒng)計訓練樣本數,記為S。

3)計算每個分類值的先驗概率,記為P(Cj)(j=1,2,…,6),其計算公式為:

(8)

其中,SCj為訓練樣本中分類屬性為第j個分類值的樣本數。

4)計算“BIAS指標”屬性值在區(qū)間 (-∞,-2.749],(-2.749,3.099]和(3.099,+∞)上的分類概率,記為PBij(i=1,2,3;j=1,2,…,6),其計算公式為:

(9)

其中,SBij為訓練樣本中“BIAS指標”屬性值在第i個區(qū)間上且分類屬性為第j個分類值的樣本數,SCj為訓練樣本中分類屬性為第j個分類值的樣本數。

5)計算“KDJ指標”屬性值在區(qū)間 (-∞,0],(0,100]和(100,+∞)上的分類概率,記為PKij(i=1,2,3;j=1,2,…,6),其計算公式為:

(10)

其中,SKij為訓練樣本中“KDJ指標”屬性值在第i個區(qū)間上且分類屬性為第j個分類值的樣本數,SCj為訓練樣本中分類屬性為第j個分類值的樣本數。

6)計算“BOLL指標”屬性取值的分類概率,記為POij(i=1,2,…,5;j=1,2,…,6),其計算公式為:

(11)

其中,SOij為訓練樣本中“BOLL指標”屬性值為第i個值且分類屬性為第j個分類值的樣本數,SCj為訓練樣本中分類屬性為第j個分類值的樣本數。

7)計算“距上一低點或高點漲跌幅”屬性值的分類概率在區(qū)間(-∞, -0.211]、(-0.211, -0.095]、(-0.095,0]、(0, 0.084]、(0.084, 0.198]和(0.198, +∞) 上的分類概率,記為PRij(i=1,2,…,6;j=1,2,…,6),其計算公式為:

(12)

其中,SRij為訓練樣本中“距上一低點或高點漲跌幅”屬性值在第i個區(qū)間上且分類屬性為第j個分類值的樣本數,SCj為訓練樣本中分類屬性為第j個分類值的樣本數。

8)計算“下一個交易日消息”屬性取值的分類概率,記為PMij(i=1,2,…,5;j=1,2,…,6),其計算公式為:

(13)

其中,SMij為訓練樣本中“下一個交易日消息”屬性值為第i個值且分類屬性為第j個分類值的樣本數,SCj為訓練樣本中分類屬性為第j個分類值的樣本數。

9)計算“上方壓力與下方支持力之差”屬性值在區(qū)間(-∞, -0.016]、(-0.016,-0.003]、(-0.003,0]、(0, 0.003]、(0.003, 0.015]和( 0.015, +∞)上的分類概率,記為PSij(i=1,2,…,6;j=1,2,…,6),其計算公式為:

(14)

其中,SSij為訓練樣本中“上方壓力與下方支持力之差”屬性值在第i個區(qū)間上且分類屬性為第j個分類值的樣本數,SCj為訓練樣本中分類屬性為第j個分類值的樣本數。

10)對于待分類元組t,計算對應于各屬性取值的分類條件概率,記為P(t|Cj)(j=1,2,…,6),其計算公式為:

P(t|Cj)=PBit j×PKit j×POit j×PRit j×PMit j×PSit j,j=1,2,…,6,

(15)

其中,PBit j為待分類元組t的“BIAS指標”屬性取值對應的分類屬性為第j個分類值的分類概率;PKit j為待分類元組t的“KDJ指標”屬性取值對應的分類屬性為第j個分類值的分類概率;POit j為待分類元組t的“BOLL指標”屬性取值對應的分類屬性為第j個分類值的分類概率;PRit j為待分類元組t的“距上一低點或高點漲跌幅”屬性取值對應的分類屬性為第j個分類值的分類概率;PMit j為待分類元組t的“下一個交易日消息”屬性取值對應的分類屬性為第j個分類值的分類概率;PSit j為待分類元組t的“上方壓力與下方支持力之差”屬性取值對應的分類屬性為第j個分類值的分類概率。

11)計算待分類元組t歸類到每個分類的后驗概率,記為P(Cj|t),其計算公式為:

(16)

12)將待分類元組t歸類到類別Ci,當且僅當P(Ci|t)>P(Cj|t) (1≤j≤6,i≠j)。

2.3 實驗結果及分析

采用上面提出的預測模型,筆者對2009年2月16日至2009年3月27日共30天交易日上證指數進行預測,實驗采用VB6.0編程實現,結果如表2所示,其中有26個交易日指數漲跌幅預測正確。

實驗結果表明,采用本文中提出的預測模型可以有效地預測大盤指數當天的漲跌幅,預測正確率為86.67%。

3 結 語

本文提出的大盤指數分類預測模型以樸素貝葉斯分類算法作為分類器,能有效預測股指當天的漲跌幅度。在模型中既考慮了股票的短線指標,又結合了國家經濟政策消息面對股指的影響,從實驗結果來看,當國家經濟政策消息面比較明朗的情況下該分類預測模型準確性較高。

表2 實驗結果

[1] MARGARET H Dunham.數據挖掘教程[M].郭春慧,天鳳占,靳曉明,譯.北京:清華大學出版社,2005:74-75.

[2] 呂昊,林君,曾曉獻.改進樸素貝葉斯分類算法的研究與應用[J].湖南大學學報:自然科學版,2012,32(12):56-61.

[3] 左輝,樓新遠.基于貝葉斯分類的選股方法[J].電腦知識與技術,2008(10):173-176.

[4] 劉紅巖.商務智能方法與應用[M].北京:清華大學出版社,2013:40-42.

[5] 余芳,姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].中山大學學報:自然科學版,2004,43(5):118-120.

[6] 馮現坤,劉羽,蔣細芳.樸素貝葉斯分類算法在數據預測中的應用[J].軟件導刊,2011,10(5):65-66.

[7] 田志偉.貝葉斯神經網絡在股票預測中的應用[D].無錫:江南大學,2011:10-12.

[責任編輯:李 莉]

Abstract: Margin prediction for the broader market index is of great significance in stock investment. Broader market index is not only related to national macroeconomic policies, but also related to the broader index operation itself. Based on native Bayes classification algorithm and influence factors of stock market index, a classification prediction model is established about market index, and followed by an experiment of Shanghai stock index as a case study. The experiment results prove that the classification prediction model is effective with higher accuracy.

Keywords: native Bayes classification algorithm; market index; prediction model

On stock index prediction based on native Bayes classification algorithm

REN Min-hong, XIAO Hai-rong

(School of Mathematics and Computer Science, Shaanxi University of Technology, Hanzhong 723000, China)

1673-2944(2014)03-0068-06

2013-11-18

任民宏(1970—),男,陜西省洋縣人,陜西理工學院副教授,碩士,主要研究方向為計算機圖形圖像處理、數據挖掘;肖海蓉(1976—),女,陜西省涇陽縣人,陜西理工學院講師,碩士,主要研究方向為數據庫技術、計算機圖形圖像處理。

F830.91; TP181

A

猜你喜歡
樣本數訓練樣本計算公式
電機溫升計算公式的推導和應用
防爆電機(2022年4期)2022-08-17 05:59:50
勘 誤 聲 明
人工智能
2019離職補償金計算公式一覽表
寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識別算法
電視技術(2016年9期)2016-10-17 09:13:41
基于稀疏重構的機載雷達訓練樣本挑選方法
三時間間隔圓錐補償姿態(tài)更新算法性能分析
田間鑒定雜交棉品種純度的適宜時期和樣本數
棉花科學(2014年4期)2014-04-29 00:44:03
采用初等代數推導路基計算公式的探討
高安市| 台山市| 开封县| 福海县| 桓台县| 金塔县| 蓬安县| 军事| 宜丰县| 固安县| 清水县| 上栗县| 内江市| 垣曲县| 靖安县| 诏安县| 长阳| 盘山县| 吉水县| 天全县| 赫章县| 镇宁| 麻栗坡县| 石泉县| 三台县| 沅陵县| 黎平县| 东乡县| 潼关县| 公安县| 连云港市| 甘孜| 湖州市| 昭苏县| 紫金县| 定襄县| 西昌市| 东港市| 开封县| 济宁市| 筠连县|