国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向大數(shù)據(jù)的并行聚類算法在股票板塊劃分中的應(yīng)用

2015-03-17 03:32牛怡晗張悅今
大數(shù)據(jù) 2015年4期
關(guān)鍵詞:財務(wù)指標(biāo)板塊股票

海 沫,牛怡晗,張悅今

1. 中央財經(jīng)大學(xué)信息學(xué)院 北京 100081;2. 上海浦東發(fā)展銀行昆明分行 昆明 650000

面向大數(shù)據(jù)的并行聚類算法在股票板塊劃分中的應(yīng)用

海 沫1,牛怡晗2,張悅今1

1. 中央財經(jīng)大學(xué)信息學(xué)院 北京 100081;2. 上海浦東發(fā)展銀行昆明分行 昆明 650000

上市公司的經(jīng)營業(yè)績在一定程度上反映股票的投資價值,因此以反映上市公司盈利能力、償債能力、成長能力、資產(chǎn)管理質(zhì)量及股東獲利能力5個方面共15項財務(wù)指標(biāo)作為股票投資價值的衡量指標(biāo),首次嘗試使用面向大數(shù)據(jù)的并行聚類算法Mahout中的K-means聚類算法和模糊K-means聚類算法對中國A股市場約2 600支股票依據(jù)其財務(wù)指標(biāo)進行聚類,以便進行股票板塊的劃分,并比較兩種算法在不同距離度量方式下的迭代次數(shù)、執(zhí)行時間、聚類間密度和聚類內(nèi)密度。實驗結(jié)果表明,谷本距離度量方式下的K-means算法聚類效果最好,因此可將該實驗結(jié)果作為最終股票板塊劃分結(jié)果進行分析,從而為投資決策提供參考。

財務(wù)指標(biāo);并行聚類算法;K-means;模糊K-means;股票板塊劃分

1 引言

股票市場作為連接上市公司和投資者的橋梁,在金融系統(tǒng)中有不可替代的重要作用。隨著中國股票市場的快速發(fā)展,如何在股票市場上選擇具有投資價值的股票進行投資對投資者來說非常重要,關(guān)系到投資者的利益問題,但影響股票市場的因素很多,例如政治、政策、經(jīng)濟等因素都會不同程度地影響股票市場。上市公司的經(jīng)營業(yè)績在一定程度上反映股票的投資價值,而上市公司的財務(wù)指標(biāo)是企業(yè)總結(jié)和評價財務(wù)狀況和經(jīng)營成果的相對指標(biāo),因而選取了能反映上市公司經(jīng)營業(yè)績的財務(wù)指標(biāo),并對股票按照這些財務(wù)指標(biāo)進行合理的板塊劃分。通過對股票進行合理的板塊劃分,能幫助投資者準(zhǔn)確地了解和把握股票的總體特征,確定投資范圍,并通過各類的總體價格水平預(yù)測股票價格的變動趨勢,選擇有利的投資時機[1]。

聚類技術(shù)可以將股票市場上的股票根據(jù)特定的特征進行合理劃分,得到具有指導(dǎo)意義的股票板塊分類,便于投資者根據(jù)需求從合適的分類中選擇股票進行投資。聚類結(jié)果對于投資者的指導(dǎo)作用主要包括[1]:了解各股票板塊的基本特征及總體狀況,初步劃分出業(yè)績優(yōu)良和業(yè)績一般的版塊;根據(jù)選取的財務(wù)指標(biāo),了解各板塊的特征,如收益性、成長性等,幫助投資者判斷股票的投資價值;得到同一板塊的均衡價格,找出受市場因素影響而低于這一價格的股票,將其視為具有升值空間且投資風(fēng)險相對較小的股票。

本文以近2 600個上市公司的財務(wù)指標(biāo)為依據(jù),第一次在Hadoop平臺上使用面向大數(shù)據(jù)的并行聚類算法Mahout軟件庫中的K-means算法和模糊K-means算法對財務(wù)指標(biāo)數(shù)據(jù)進行聚類。通過實驗比較K-means算法及模糊K-means算法在Hadoop環(huán)境下對財務(wù)指標(biāo)聚類的效率和質(zhì)量,以找到適合大規(guī)模財務(wù)指標(biāo)的并行化聚類方法,最終得到以財務(wù)指標(biāo)為標(biāo)的的股票板塊劃分,幫助投資者準(zhǔn)確了解和把握股票的總體特性,選出各板塊及板塊內(nèi)的績優(yōu)股和潛力股,使投資者能做出最佳的投資決策。

2 相關(guān)工作

聚類分析在股票市場板塊分析中的研究可分為兩類。

2.1 聚類指標(biāo)體系的建立

周焯華等[2]將聚類分析方法引入證券投資分析中,對股票的行業(yè)因素、公司因素、收益性、成長性等基本層面進行考察,建立了較為全面的綜合評價指標(biāo)體系,以衡量樣本股票的相似程度;然后通過聚類分析模型確定投資范圍和投資價值。實證研究表明,該方法對指導(dǎo)證券投資具有有效性和實用性。勞蘭珺等[3]提出對行業(yè)指數(shù)收益率序列分階段進行聚類分析的動態(tài)分析方法,以考察行業(yè)間的相互關(guān)系及其演化過程;并基于深交所的行業(yè)指數(shù)數(shù)據(jù)進行實證研究,分析了各行業(yè)間的相似程度,有助于加深投資者及監(jiān)管部門對行業(yè)間相互關(guān)系的了解,對投資決策具有參考價值。李云飛等[4]以全部上市公司為樣本,通過模糊聚類和指標(biāo)篩選得到了一個包含5個方面15項指標(biāo)的股票投資價值評價指標(biāo)集,為數(shù)據(jù)挖掘技術(shù)在股票價值投資方面的應(yīng)用提供了實證依據(jù)。孫磊平[5]通過數(shù)據(jù)挖掘中的Logistic回歸模型、決策樹及神經(jīng)網(wǎng)絡(luò)模型3種方法對上市公司的財務(wù)比率指標(biāo)和股票投資價值的內(nèi)在聯(lián)系進行分析研究,從公司盈利能力、償債能力、發(fā)展能力、運營能力以及現(xiàn)金流5個方面找出對股票投資價值有較大影響的上市公司財務(wù)指標(biāo)。

2.2 聚類方法的選擇和實現(xiàn)

鄧秀勤[6]通過選取高科技板塊中31個上市公司5個反映綜合盈利能力的指標(biāo),運用SAS軟件中的聚類過程Cluster對31個樣本進行聚類,最終得到4個與公司的實際財務(wù)狀況和經(jīng)營狀況相吻合的類。楊富勇[7]使用Clementine軟件中的K-means、Kohonen和TwoStep 3種聚類算法,以13個反映上市公司五大方面情況的財務(wù)指標(biāo)作為聚類指標(biāo)體系對中國A股市場800多支股票進行聚類分析,發(fā)現(xiàn)TwoStep聚類方法在股票聚類分析過程中具有較好的分析結(jié)果。張傳琦[8]使用優(yōu)化的蟻群聚類算法從財務(wù)指標(biāo)和個股收益率波動兩方面對中國A股市場上1 800多支股票進行聚類,結(jié)果表明該算法對大樣本數(shù)據(jù)進行聚類分析具有可行性和良好的效果。

綜上所述,國內(nèi)關(guān)于聚類算法在股票板塊分析中的應(yīng)用研究大都是以少于10維的財務(wù)指標(biāo)作為聚類指標(biāo)體系,并選取50支股票以下的小樣本量進行聚類分析。參考文獻[8]對1 800多支股票按照優(yōu)化的蟻群聚類算法進行了聚類,但并沒有采用面向大數(shù)據(jù)的并行聚類算法進行聚類。本文首次將面向大數(shù)據(jù)的并行聚類算法應(yīng)用于整個中國A股市場的股票板塊劃分,在Hadoop平臺下應(yīng)用Mahout算法庫中的聚類算法,基于選取的多于10維的財務(wù)指標(biāo),對目前A股市場上所有股票進行并行化聚類,從而得到整個A股市場的板塊劃分,對于投資者進行合理的投資決策具有重要的實際意義。

3 財務(wù)指標(biāo)

影響股票投資價值的上市公司財務(wù)數(shù)據(jù)指標(biāo)有很多,本文以李云飛、李鵬雁[4]通過對全部上市公司的財務(wù)數(shù)據(jù)進行模糊聚類后篩選得到的評價指標(biāo)集作為參考,選取了能反映上市公司經(jīng)營業(yè)績5個方面共15項指標(biāo)作為聚類實驗的財務(wù)指標(biāo)。這15項指標(biāo)基本涵蓋了股票投資價值所包含的全部信息。然后將數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,用15維的數(shù)組作為聚類算法的輸入。

(1)盈利能力指標(biāo)

· 總資產(chǎn)凈利潤率=凈利潤/總資產(chǎn)余額;

· 凈資產(chǎn)收益率=凈利潤/股東權(quán)益余額;

· 營業(yè)凈利潤=凈利潤/營業(yè)收入。

(2)償債能力指標(biāo)

· 流動比例=流動資產(chǎn)/流動負責(zé);

· 現(xiàn)金比率=現(xiàn)金及現(xiàn)金等價物期末余額/流動負債;

· 資產(chǎn)負債率=負債合計/資產(chǎn)總計。

(3)資產(chǎn)管理質(zhì)量指標(biāo)

· 總資產(chǎn)周轉(zhuǎn)率=營業(yè)收入/資產(chǎn)總額期末余額;

· 每股現(xiàn)金凈流量=現(xiàn)金及現(xiàn)金等價物凈增加額本期值/實收資本本期末值;

· 存貨周轉(zhuǎn)率=營業(yè)成本/存貨期末余額。

(4)成長能力指標(biāo)

· 總資產(chǎn)增長率=(資產(chǎn)總計本期期末值-資產(chǎn)總計本期期初值)/資產(chǎn)總計本期期初值;

· 營業(yè)利潤增長率=(營業(yè)利潤本年本期單季度金額-營業(yè)利潤上一個單季度金額)/營業(yè)利潤上一個單季度金額;

· 營業(yè)總收入增長度=(營業(yè)總收入本年本期金額-營業(yè)總收入上年同期金額)/營業(yè)總收入上年同期金額。

(5)股東獲利能力指標(biāo)

· 每股營業(yè)收入=營業(yè)收入本期值/實收資本本期期末值;

· 每股營業(yè)收入=營業(yè)收入本期值/實收資本本期期末值;

· 市盈率=今收盤價當(dāng)期值/(凈利潤上年年報值/實收資本本期期末值)。

4 實驗結(jié)果及分析

本文實驗數(shù)據(jù)為國泰安數(shù)據(jù)庫上中國上市公司財務(wù)指標(biāo)分析數(shù)據(jù)庫中下載的所有上市公司的2014年6月的財務(wù)數(shù)據(jù),有效數(shù)據(jù)共包含2 544個樣本,每個樣本包含15項財務(wù)指標(biāo),即有15個維度。對各項指標(biāo)值進行標(biāo)準(zhǔn)化處理后,進行聚類實驗。本實驗環(huán)境為在一臺阿里云服務(wù)器上搭建的偽分布式Hadoop平臺,包括一個主節(jié)點和一個從節(jié)點。具體軟硬件配置如下:CPU為雙核;內(nèi)存為2 GB;帶寬為100 Mbit/s;操作系統(tǒng)為CentOS 6.5 64 bit;JDK為jdk-7u71-linux-x64;Hadoop版本為Hadoop 1.2.1; Mahout版本為mahout-distribution-0.9。在該平臺上使用Mahout中的K-means算法和模糊K-means算法對數(shù)據(jù)進行聚類。算法參數(shù)見表1。

對K-means和模糊K-means兩種聚類算法在歐幾里得距離、平方歐幾里得距離、曼哈頓距離、余弦距離和谷本距離5種不同的距離測量方法下分別進行了財務(wù)指標(biāo)聚類,并最終計算了每個實驗的聚類間密度和聚類內(nèi)密度[9],將其作為聚類質(zhì)量的評價指標(biāo)。實驗結(jié)果見表2和表3。

由表2和表3可以看出,對于該財務(wù)指標(biāo)數(shù)據(jù)集,模糊K-means算法相比K-means算法在不同距離測度選擇下都有更少的迭代次數(shù)和更短的執(zhí)行時間,說明模糊K-means算法比K-means算法收斂得更快,有更高的執(zhí)行效率。比較以上5種距離算法,模糊K-means和K-means算法在選擇余弦距離作為距離計算參數(shù)時,都在1至2次迭代后就收斂,有很高的執(zhí)行效率。但由于該距離算法不考慮兩個向量的長度,只關(guān)注從原點到兩個點的方向,因此分析兩種算法選擇余弦距離作為距離參數(shù)的聚類輸出,發(fā)現(xiàn)50個分類中股票數(shù)量分布非常極端,有的類有幾百只股票,而有的類僅有幾只股票。這樣的結(jié)果沒有現(xiàn)實的指導(dǎo)意義,因此在對股票的財務(wù)指標(biāo)聚類時不適合選擇余弦距離作為距離參數(shù)。

表1 聚類算法參數(shù)設(shè)置

表2 不同距離算法選擇下K-means的聚類結(jié)果

表3 不同距離算法選擇下模糊K-means的聚類結(jié)果

在排除余弦距離算法后,比較K-means算法在不同距離測度選擇下的聚類結(jié)果,當(dāng)選擇谷本距離作為距離算法參數(shù)時,K-means算法有最少的迭代次數(shù)和最短的執(zhí)行時間,同時還有最小的聚類間密度和最大的聚類內(nèi)密度,表明K-means算法在選擇谷本距離對財務(wù)指標(biāo)數(shù)據(jù)集進行聚類計算時有最高的執(zhí)行效率以及最好的聚類質(zhì)量。而具體分析該實驗的聚類輸出,發(fā)現(xiàn)50個分類中有較為平均的股票數(shù)量,對實際應(yīng)用具有指導(dǎo)意義,可將其作為財務(wù)指標(biāo)的股票板塊劃分結(jié)果。比較模糊K-means算法的聚類結(jié)果,當(dāng)選擇平方歐幾里得距離作為距離算法參數(shù)時有最高的執(zhí)行效率和最好的聚類質(zhì)量,同樣分析該實驗的聚類輸出,也有相對平均的聚類劃分,但由于模糊K-means算法不是像K-means算法一樣的硬性聚類,它會劃分成有重疊的簇,因此其聚類輸出的聚類劃分較K-means算法更不平均。

綜上所述,對于該股票財務(wù)數(shù)據(jù)聚類實驗,K-means算法應(yīng)選擇谷本距離算法作為距離參數(shù),而模糊K-means算法應(yīng)選擇平方歐幾里得距離算法作為距離參數(shù)。

根據(jù)以上分析,選擇將谷本距離作為距離計算參數(shù)的K-means算法和將平方歐幾里得距離作為距離計算參數(shù)的模糊K-means算法對股票財務(wù)指標(biāo)進行聚類,并對其結(jié)果進行分析。具體處理過程包括以下幾個步驟。

(1)使用Mahout中的Clusterdump類讀取聚類結(jié)果,并將結(jié)果輸出保存為文本文件。

(2)根據(jù)財務(wù)數(shù)據(jù)找到每一條數(shù)據(jù)對應(yīng)的股票代碼。

(3)統(tǒng)計具有相同聚類編號的股票數(shù)量,即每個板塊內(nèi)的股票數(shù)量。

(4)考慮到聚類結(jié)果的實際指導(dǎo)意義,在K-means算法的聚類結(jié)果中篩選出每一類中股票數(shù)量大于30支且小于100支的分類(共26類),在模糊K-means算法的聚類結(jié)果中篩選出每一類中股票大于10支且小于100支的分類(共27類)。

(5)計算每一類中能反映上市公司盈利能力、償債能力、資產(chǎn)管理質(zhì)量、成長能力和股東獲利能力的各財務(wù)指標(biāo)的標(biāo)準(zhǔn)差和平均標(biāo)準(zhǔn)差。具體計算結(jié)果見表4和表5。

根據(jù)股票財務(wù)指標(biāo)板塊劃分的原理,同一類型的公司應(yīng)當(dāng)具有相似的經(jīng)營狀況,即同一類內(nèi)上市公司財務(wù)指標(biāo)的標(biāo)準(zhǔn)差應(yīng)當(dāng)小于總體的標(biāo)準(zhǔn)差1,且該值越小表示同一類內(nèi)的股票財務(wù)數(shù)據(jù)相似度越高。根據(jù)各財務(wù)指標(biāo)的平均值和標(biāo)準(zhǔn)差的計算結(jié)果可知,K-means算法和模糊K-means算法都只有一個分類的平均標(biāo)準(zhǔn)差大于1,其他分類的平均標(biāo)準(zhǔn)差均小于1,表明兩種算法的劃分結(jié)果都較合理。但K-means算法得到的劃分結(jié)果與模糊K-means算法相比,只有5個類的各項指標(biāo)平均標(biāo)準(zhǔn)差大于模糊K-means算法;并且K-means算法得到的有效劃分中包含的股票總數(shù)量為1 483支,而模糊K-means算法僅有511支。由此可知,K-means算法對于股票財務(wù)數(shù)據(jù)的聚類效果優(yōu)于模糊K-means算法。因此,本文選擇使用平方歐幾里得距離作為距離度量方法K-means算法的聚類結(jié)果,也作為最終對中國上市公司股票板塊劃分的結(jié)果,見表6。

表4 模糊K-means聚類結(jié)果財務(wù)指標(biāo)標(biāo)準(zhǔn)差

表5 K-means聚類結(jié)果財務(wù)指標(biāo)標(biāo)準(zhǔn)差

類別股票數(shù)量/支盈利能力成長能力股東獲利能力償債能力資產(chǎn)管理質(zhì)量平均標(biāo)準(zhǔn)差12350.0530.0380.0790.0390.0500.052 13310.0700.0310.0970.1540.0570.082 14870.1230.0680.2170.1020.0980.122 15570.0580.0430.1660.0550.0630.077 16480.1090.1080.2440.0700.1390.134 17520.0700.0470.1960.0370.0950.089 18770.1120.0790.1920.0780.1130.115 19410.0660.0610.0970.0400.0820.069 20330.0930.0450.2110.1460.1010.119 21670.2210.1740.5880.0910.6790.351 22540.0740.0280.1050.0360.0750.064 23550.0940.0480.1570.0940.0910.097 24590.0430.0380.0960.0390.0610.055 25350.1960.0820.4802.0962.9651.164 26800.0570.0580.0930.0550.0650.066

每一大類中股票的分析結(jié)果如下。

(1)第一大類

7類:該類別股票盈利能力較強、股東回報率較高、成長能力一般、投資安全性較高,屬于對風(fēng)險厭惡的投資者短期投資的對象。

8、13類:該類別股票盈利能力較強、股東回報率一般、成長能力較強、投資安全性高,具有較好的發(fā)展前景,屬于對風(fēng)險厭惡的投資者長期投資的對象。

(2)第二大類

3類:該類別股票盈利能力、股東回報率、成長能力均較強,投資安全性一般。對于風(fēng)險中立的投資者來說,無論是長期還是短期都是極佳的投資標(biāo)的。

4、9、11類:該類別股票盈利能力和成長能力較強、股東回報率一般、投資安全性一般。對于風(fēng)險中立的投資者來說,由于其具有較好的擴張發(fā)展能力,因此是值得進行長期投資的標(biāo)的。

表6 股票財務(wù)數(shù)據(jù)K-means算法聚類結(jié)果

16類:該類別股票盈利能力一般、成長能力較強、股東回報率較高、投資安全性一般。對于風(fēng)險中立的投資者來說,亦是值得進行長期投資的標(biāo)的。

21類:該類別股票盈利能力較強、成長能力一般、股東回報率較高、投資安全性一般。對于風(fēng)險中立的投資者來說,是適合短期投資的標(biāo)的。

(3)第三大類

1、5類:該類別股票盈利能力一般、成長能力較強、股東回報率較高、投資安全性較低。對于風(fēng)險偏好的投資者來說,適合進行長期投資。

6類:該類別股票盈利能力、股東回報率、成長能力均較強,投資安全性較低。對于風(fēng)險偏好的投資者來說,是長期、短期投資皆可的投資對象。

12、23類:該類別股票盈利能力和成長能力較強、股東回報率一般、投資安全性較低。對于風(fēng)險偏好的投資者來說,是一個長期的投資對象。

22類:該類別股票盈利能力較強、成長能力一般、股東回報率較高、投資安全性較低。對于風(fēng)險偏好的投資者來說,是短期的投資對象。

(4)其他大類

第四、五、六、七、八類投資價值意義不大。尤其第七、八類是明顯的績差股、垃圾股。

5 結(jié)束語

本文對Mahout中的K-means算法和模糊K-means算法使用不同的距離測量方式,對中國股票市場上所有上市公司按照能反映公司盈利能力、償債能力、成長能力、資產(chǎn)管理質(zhì)量及股東獲利能力5個方面共15項財務(wù)指標(biāo)進行了聚類實驗,通過對不同距離算法下兩種聚類算法的迭代次數(shù)、執(zhí)行時間、聚類間密度和聚類內(nèi)密度進行比較分析,并結(jié)合實際聚類結(jié)果,得到適合于股票財務(wù)數(shù)據(jù)聚類的距離測量方法和聚類算法組合,同時以該組合的實驗結(jié)果為依據(jù),得到股票板塊劃分,為投資決策提供有益參考。

[1] 周鑫. 我國股票市場板塊效應(yīng)實證研究(碩士學(xué)位論文). 成都: 西南交通大學(xué), 2012 Zhou X. Empirical research on plate effect of Chinese stock market (master dissertation). Chengdu: Southwest Jiaotong University, 2012

[2] 周焯華, 陳文南, 張宗益. 聚類分析在證券投資中的應(yīng)用. 重慶大學(xué)學(xué)報(自然科學(xué)版), 2002, 25(7): 122~126 Zhou Z H, Chen W N, Zhang Z Y. Application of cluster analysis in stock investment. Journal of Chongqing University(Natural Science Edition), 2002, 25(7): 122~126

[3] 勞蘭珺, 邵玉敏. 中國股票市場行業(yè)收益率序列動態(tài)聚類分析. 財經(jīng)研究, 2004, 30(11): 75~82 Lao L J, Shao Y M. Dynamic clustering analysis of return series of industrial indexes in Chinese stock market. Journal of Finance and Economics, 2004, 30(11): 75~82

[4] 李云飛, 李鵬雁. 基于模糊聚類技術(shù)的股票投資價值評價指標(biāo)選擇. 燕山大學(xué)學(xué)報, 2008, 32(6): 551~556 Li Y F, Li P Y. Evaluation indexes selection of stocks’ investment value based on fuzzy clustering. Journal of Yanshan University, 2008, 32(6): 551~556

[5] 孫磊平. 數(shù)據(jù)挖掘方法在股票分析中的應(yīng)用與研究(碩士學(xué)位論文). 成都: 西南財經(jīng)大學(xué), 2013 Sun L P. The application and research of data mining in stock analysis (master dissertation). Chengdu: Southwestern University of Finance and Economics, 2013

[6] 鄧秀勤. 聚類分析在股票市場板塊分析中的應(yīng)用. 數(shù)理統(tǒng)計與管理, 1999, 18(5): 1~4 Deng X Q. Application of cluster analysis in stock market board analysis. Journal of Applied of Statistics and Management, 1999, 18(5): 1~4

[7] 楊富勇. 數(shù)據(jù)挖掘技術(shù)在股票投資中的應(yīng)用(碩士學(xué)位論文). 長沙: 湖南大學(xué), 2010 Yang F Y. Application of data mining in stock investment (master dissertation). Changsha: Hunan University, 2010

[8] 張傳琦. 基于蟻群聚類算法的股票板塊分類研究(碩士學(xué)位論文). 上海: 復(fù)旦大學(xué), 2012 Zhang C Q. Research on Stock plate classification based on ant colony clustering algorithm (master dissertation). Shanghai: Fudan University, 2012

[9] Owen S, Anile R, Dunning T,et al. Mahout in Action. Greenwich: Manning Publications Co, 2012

海沫,女,博士,中央財經(jīng)大學(xué)信息學(xué)院副教授,CCF高級會員,主要研究領(lǐng)域為分布式系統(tǒng)、大數(shù)據(jù)處理和分析。

牛怡晗,女,就職于上海浦東發(fā)展銀行昆明分行,主要研究領(lǐng)域為大數(shù)據(jù)分析。

張悅今,女,中央財經(jīng)大學(xué)信息學(xué)院講師,主要研究領(lǐng)域為數(shù)據(jù)挖掘及其應(yīng)用、知識管理、互聯(lián)網(wǎng)金融。

Hai M, Niu Y H, Zhang Y J. Application of parallel clustering algorithms for big data in the division of stock. Big Data Research, 2015036

Application of Parallel Clustering Algorithms for Big Data in the Division of Stock

Hai Mo1, Niu Yihan2, Zhang Yuejin3

1.School of Information, Central University of Finance and Economics, Beijing 100081, China;

2. Kunming Branch, Shanghai Pudong Development Bank, Kunming 650000, China

For the operating performance of listed corporations reflects the value of stock investment to a certain extent, financial index reflecting the operating performance of listed corporations was taken as the evaluation index of stock investment value, and for the first time the parallel clustering algorithms for big data both K-means and fuzzy K-means of Mahout were used to cluster nearly 2 600 stock of China’s A shares market according to their financial index, afterwards the clustering results of these two algorithms under different distance metrics were compared. Experimental results show that the clustering quality of K-means algorithm adopting Tanimoto distance metric is the best. Therefore, this result can be used as the final result of the division of stock, which can provide a reference for the investment decision.

inancial index, parallel clustering algorithm, K-means, fuzzy K-means, division of stock

10.11959/j.issn.2096-0271.2015036

2015-09-30

北京高等學(xué)校青年英才計劃資助項目(No.YETP0988),2014年度中財121人才工程青年博士發(fā)展基金資助項目(No.QBJ1427)

Foundation Items:Beijing Higher Education Young Elite Teacher Project(No.YETP0988), 121 of CUFE Talent Project Young Doctor Development Fund in 2014(No.QBJ1427)

海沫,牛怡晗,張悅今. 面向大數(shù)據(jù)的并行聚類算法在股票板塊劃分中的應(yīng)用. 大數(shù)據(jù), 2015036

猜你喜歡
財務(wù)指標(biāo)板塊股票
板塊無常 法有?!鍓K模型中的臨界問題
板塊拼拼樂
我國金融機構(gòu)股價和主要財務(wù)指標(biāo)的相關(guān)性分析
探討醫(yī)院財務(wù)分析中財務(wù)指標(biāo)體系的應(yīng)用
全國國有企業(yè)主要財務(wù)指標(biāo)
本周創(chuàng)出今年以來新高的股票
本周創(chuàng)出今年以來新高的股票
A股各板塊1月漲跌幅前50名
本周連續(xù)上漲3天以上的股票
近期連續(xù)漲、跌3天以上的股票
原阳县| 神木县| 苍梧县| 金昌市| 花莲市| 洱源县| 个旧市| 沙洋县| 旅游| 延津县| 榕江县| 阿城市| 肇州县| 呼玛县| 湄潭县| 富蕴县| 兴海县| 尉犁县| 曲水县| 盐亭县| 横峰县| 高邮市| 泊头市| 惠水县| 武平县| 玛多县| 峨眉山市| 余庆县| 光泽县| 大化| 龙门县| 武清区| 垦利县| 元朗区| 神池县| 福建省| 同德县| 锡林郭勒盟| 湘西| 甘德县| 建水县|