孫利榮, 卓煒杰, 王凱利, 馬佳輝
(浙江工商大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,浙江杭州310018)
聚類分析是一種完全依據(jù)數(shù)據(jù)集特征的無(wú)監(jiān)督學(xué)習(xí)方法,沒(méi)有事先已知的類標(biāo)簽,因此聚類分析的結(jié)果很大程度上取決于數(shù)據(jù)本身的特性.傳統(tǒng)的聚類分析常將采集的樣本數(shù)據(jù)視作為一個(gè)個(gè)向量,然后利用向量進(jìn)行聚類分析.隨著信息技術(shù)的高速發(fā)展,許多領(lǐng)域都涌現(xiàn)出大量的復(fù)雜數(shù)據(jù)集,隨著數(shù)據(jù)采集頻率的加快,數(shù)據(jù)形式不再僅限于傳統(tǒng)的向量形式.比如,工業(yè)領(lǐng)域的數(shù)控機(jī)床的實(shí)時(shí)監(jiān)控?cái)?shù)據(jù),醫(yī)學(xué)領(lǐng)域的磁共振圖數(shù)據(jù),氣象領(lǐng)域的氣溫觀測(cè)數(shù)據(jù),金融領(lǐng)域上市公司股價(jià)變動(dòng)的數(shù)據(jù)等.由于采集速度非常之快,這一系列數(shù)據(jù)的采集都近似能看作是一個(gè)連續(xù)的過(guò)程,數(shù)據(jù)之中包含著許多動(dòng)態(tài)的信息,這一類數(shù)據(jù)通常被視作函數(shù)型數(shù)據(jù).函數(shù)型數(shù)據(jù)的概念最早由Ramsay在1982年提出[1].不同于傳統(tǒng)數(shù)據(jù)類型,函數(shù)型數(shù)據(jù)的表現(xiàn)主要以曲線為主.
目前,已有很多學(xué)者開(kāi)始使用函數(shù)型聚類方法進(jìn)行聚類分析.例如,Jank和Zhang利用網(wǎng)上競(jìng)價(jià)的信息,應(yīng)用函數(shù)型聚類方法進(jìn)行消費(fèi)者風(fēng)險(xiǎn)評(píng)估[2],程豪和蘇孝珊應(yīng)用函數(shù)型聚類分析方法將我國(guó)31個(gè)省按照GDP的發(fā)展?jié)摿Ψ殖闪怂膫€(gè)梯隊(duì)等[3].
現(xiàn)有的函數(shù)型聚類方法基本可以分為四類,分別為原始數(shù)據(jù)直接聚類,基于連續(xù)函數(shù)的兩步串聯(lián)法聚類,自適應(yīng)模型聚類和基于距離(相似性)的聚類(見(jiàn)文獻(xiàn)[4-6]).例如Boullé將函數(shù)型數(shù)據(jù)化成固定大小的點(diǎn)集,進(jìn)行密度估計(jì),然后使用貝葉斯模型進(jìn)行分類[7].Lim等在小波基函數(shù)的基礎(chǔ)上對(duì)多尺度函數(shù)型數(shù)據(jù)進(jìn)行了聚類[8].李豫使用了多元函數(shù)型高斯混合模型對(duì)城市空氣質(zhì)量曲線進(jìn)行聚類分析,充分考慮了多維數(shù)據(jù)的p個(gè)曲線之間的相關(guān)關(guān)系[9].Martino等使用廣義馬氏距離對(duì)多元函數(shù)型數(shù)據(jù)進(jìn)行k-means聚類[10].根據(jù)函數(shù)曲線的相似性測(cè)度不同,函數(shù)型聚類分析方法主要可以分為基于數(shù)值距離的函數(shù)型聚類分析方法和基于曲線形態(tài)模式的函數(shù)型聚類分析方法.
基于數(shù)值距離的聚類分析方法基本原理是延續(xù)了傳統(tǒng)聚類分析中距離度量的思想,衡量的是數(shù)據(jù)在絕對(duì)水平上的相似性.由于數(shù)據(jù)本身具備函數(shù)特征,所以和傳統(tǒng)的聚類分析有所區(qū)別.函數(shù)型聚類分析中距離的計(jì)算方式主要有兩種:(一)將傳統(tǒng)距離計(jì)算方式衍生至函數(shù)型數(shù)據(jù),直接作為相似性度量.王桂明定義了函數(shù)型數(shù)據(jù)的閔科夫斯基距離,馬氏距離以及相似系數(shù),并給出了基函數(shù)框架下各種距離的計(jì)算方法[11].(二)使用基函數(shù)展開(kāi)系數(shù)代替函數(shù)型數(shù)據(jù)進(jìn)行距離度量.王德青等[4]指出基于基函數(shù)展開(kāi)系數(shù)的距離度量實(shí)則是通過(guò)在確定數(shù)據(jù)的基函數(shù)展開(kāi)方式之后,使用基函數(shù)展開(kāi)系數(shù)向量代替?zhèn)鹘y(tǒng)的離散點(diǎn)向量,根據(jù)向量之間的相似性刻畫(huà)函數(shù)的距離.根據(jù)基函數(shù)展開(kāi)系數(shù)估計(jì)的過(guò)程中系數(shù)是否可變,聚類分析方法可以分為兩步法串聯(lián)聚類以及自適應(yīng)模型聚類.
基于曲線形態(tài)模式的聚類方法是通過(guò)函數(shù)曲線的形狀以及動(dòng)態(tài)特征構(gòu)造相似性度量進(jìn)行聚類的一種非參數(shù)聚類方法.這種方式主要是通過(guò)函數(shù)波動(dòng)的波峰與波谷的波動(dòng)位置以及波動(dòng)程度來(lái)衡量曲線的動(dòng)態(tài)特征,往往要抓取函數(shù)曲線的加速度以及導(dǎo)函數(shù)的加速度等,對(duì)曲線的可導(dǎo)性要求較高.目前基于曲線形態(tài)的相似性度量方法主要有兩類:(一)基于導(dǎo)數(shù)距離的相似性度量[12],即使用各階導(dǎo)數(shù)曲線來(lái)衡量曲線變化率,變化加速度等曲線內(nèi)在的動(dòng)態(tài)特征.(二)基于極值點(diǎn)的相似性度量,即利用曲線極值點(diǎn)位置衡量曲線的相似性.Ingrassia等提出了兩條曲線之間臨近極值點(diǎn)的概念,并提出了一種基于曲線極值點(diǎn)符號(hào)變化的相似性度量和一種基于臨近極值點(diǎn)間時(shí)間跨度的相似性度量[13].靳劉蕊提出了一種基于極值點(diǎn)縱橫向的相似性度量,使用臨近極值點(diǎn)之間的歐式距離來(lái)代替臨近極值點(diǎn)之間的時(shí)間跨度[14].
基于數(shù)值距離的相似性度量?jī)H僅能夠體現(xiàn)曲線在絕對(duì)水平上的差異,無(wú)法體現(xiàn)出曲線動(dòng)態(tài)變化的特征.基于曲線形態(tài)的相似性度量雖然能夠一定程度上反映出曲線的變化特點(diǎn),但是主要是抓取了曲線變化局部的特征,缺少對(duì)曲線之間的整體差異的衡量.目前研究中,對(duì)于曲線數(shù)值距離和曲線軌跡形態(tài)的選擇往往是主觀決定的.以金融股票價(jià)格曲線為例,在對(duì)價(jià)格曲線進(jìn)行聚類時(shí),一些做中長(zhǎng)期的價(jià)值投資者會(huì)比較重視曲線之間的整體差異,常使用前者作為聚類方法;而一些短期做波段的投資者比較重視曲線的波動(dòng)以及波動(dòng)時(shí)點(diǎn),通常使用后者作為聚類依據(jù).實(shí)際上作為投資者,往往需多方面考慮問(wèn)題,既希望曲線能夠在整體上數(shù)值距離更加貼近又希望曲線的軌跡能夠盡可能接近,但對(duì)于兩者的側(cè)重點(diǎn)很難把握.因此函數(shù)型數(shù)據(jù)聚類分析方法中需要一種兼顧數(shù)值距離和曲線形態(tài)的相似性度量,既能從整體上衡量絕對(duì)水平的差異,又能從局部上比較曲線的動(dòng)態(tài)變化特征,客觀地將基于數(shù)值距離的函數(shù)型聚類與基于曲線形態(tài)的函數(shù)型聚類有效結(jié)合在一起.
本文首先依據(jù)兩種相似性度量的特點(diǎn),提出了一種基于極值點(diǎn)偏差補(bǔ)償?shù)南嗨菩远攘?希冀同時(shí)測(cè)度函數(shù)型數(shù)據(jù)數(shù)值距離和曲線形態(tài)的相似性.然后利用基于各種相似性度量的函數(shù)型聚類分析方法以及傳統(tǒng)的聚類方法分別對(duì)中國(guó)證券監(jiān)督管理委員會(huì)《上市公司行業(yè)分類指引》中的食品類中的24支股票風(fēng)險(xiǎn)因子曲線進(jìn)行聚類分析,通過(guò)比較不同模型的聚類結(jié)果,更加直觀地體現(xiàn)各種模型的優(yōu)缺點(diǎn),并通過(guò)聚類結(jié)果可視化對(duì)比驗(yàn)證本文所提出的相似性度量方法確實(shí)達(dá)到了兼顧數(shù)據(jù)距離和曲線形態(tài)的效果.最后,為進(jìn)一步拓展函數(shù)型聚類分析方法,提出多元函數(shù)型聚類分析方法—函數(shù)型熵權(quán)法,并利用上證50股票池價(jià)格曲線進(jìn)行聚類分析.結(jié)果顯示,多指標(biāo)函數(shù)型聚類除了延續(xù)了單指標(biāo)函數(shù)型聚類分析的優(yōu)點(diǎn),在聚類的性能上比離散的情形有所提升.
函數(shù)型數(shù)據(jù)的采集數(shù)據(jù)實(shí)際上是離散的,帶有噪聲的高頻數(shù)據(jù),因此在進(jìn)行函數(shù)型數(shù)據(jù)分析前需要對(duì)采集數(shù)據(jù)進(jìn)行預(yù)處理,剔除噪聲成分,將離散數(shù)據(jù)進(jìn)行重構(gòu)以獲得連續(xù)的光滑曲線,即從某樣本i的一系列觀測(cè)值(yi1,yi2,···,yiT)0中提取函數(shù)特征,得到函數(shù)曲線xi(t).因?yàn)閷?shí)際中遇到的函數(shù)型數(shù)據(jù)是離散化的取樣,故假設(shè)基本模型形式為:
j=1,2,···,T為觀測(cè)點(diǎn)的個(gè)數(shù),ξ(t)為誤差項(xiàng).一般假設(shè)其滿足經(jīng)典的回歸假設(shè)(獨(dú)立同分布,均值為0,方差為σ2).
在選擇基函數(shù)時(shí),通常希望能夠選擇一個(gè)基,通過(guò)較少的K個(gè)基函數(shù)獲取對(duì)原數(shù)據(jù)較好的擬合,不僅要在數(shù)據(jù)特征上對(duì)數(shù)據(jù)進(jìn)行良好的描述,也要盡可能的計(jì)算方便.在函數(shù)型數(shù)據(jù)分析過(guò)程中經(jīng)常要使用到函數(shù)的導(dǎo)數(shù)或者積分,因此基函數(shù)要具有良好的可導(dǎo)性和可積性,常見(jiàn)的基函數(shù)有多項(xiàng)式基,傅里葉基,伯恩斯坦基,B樣條基,小波(wavelet)基,徑向基,函數(shù)主成分基,核函數(shù)等,根據(jù)數(shù)據(jù)特征的不同,不同的基函數(shù)會(huì)有不同的擬合效果.本文主要使用B樣條基,采用粗糙懲罰法來(lái)擬合函數(shù).
B樣條基適用于非周期性的數(shù)據(jù),本文的研究對(duì)象是股市,在觀測(cè)時(shí)間內(nèi)大多數(shù)的股票沒(méi)有明顯的周期性質(zhì).因此本文采用B樣條基去展開(kāi)函數(shù),具體展開(kāi)形式如下:
接下來(lái)的一步就是通過(guò)基函數(shù)展開(kāi)去估計(jì)最近似的系數(shù).估計(jì)時(shí)通常采用最小二乘法,即最小化如下的平方和:
解最小化問(wèn)題(3),得
或采用最小化懲罰殘差平方和(Pernalized Residual Sum of Squares)
其中第二項(xiàng)為粗糙懲罰項(xiàng)(Roughness Pernalty)用來(lái)衡量函數(shù)xi(t)的平滑程度;m為導(dǎo)數(shù)的階數(shù),通常取2就可以滿足一般問(wèn)題的要求;λ是平滑參數(shù).
說(shuō)明:光滑參數(shù)λ是用來(lái)測(cè)度函數(shù)xi(t)對(duì)數(shù)據(jù)的擬合精度(擬合偏差)與函數(shù)本身波動(dòng)性(曲線樣本方差)之間的平衡率.
在基于曲線形態(tài)的相似性度量方法中,基于極值點(diǎn)來(lái)判定曲線軌跡形態(tài)的方法主要是對(duì)于極值點(diǎn)間的偏差進(jìn)行懲罰.顯然兩條曲線的極值點(diǎn)的位置越接近,最終求得的極值點(diǎn)間距離越小;反之極值點(diǎn)間偏差越大,最終求得的極值點(diǎn)距離也越大.但是極值點(diǎn)間偏差的距離并不能代表曲線偏差的距離,因此該方法只能衡量曲線的局部形態(tài)差異,無(wú)法體現(xiàn)曲線整體上絕對(duì)水平的差異.另外基于數(shù)值距離的相似性度量也只是衡量了曲線的絕對(duì)水平差異,卻沒(méi)有考慮曲線之間形態(tài)的差異.因此,本文將這種對(duì)極值點(diǎn)偏差進(jìn)行懲罰的思想加入曲線數(shù)值距離的度量中,提出一種基于曲線極值點(diǎn)偏差補(bǔ)償?shù)南嗨菩远攘?步驟如下:
第一步:極值點(diǎn)描述
求xi(t)的一階導(dǎo)數(shù),并根據(jù)一階導(dǎo)數(shù)求出極值點(diǎn),并判斷是局部極大值點(diǎn)還是局部極小值點(diǎn).
記函數(shù)xi(t)的極值點(diǎn)集合(由小到大按序排列)如下:
對(duì)于端點(diǎn)值,若第一個(gè)極值點(diǎn)為極大值點(diǎn),t1則作為極小值點(diǎn)集合的第一個(gè)值;若第一個(gè)極值點(diǎn)為極小值點(diǎn),t1則作為極大值點(diǎn)集合的第一個(gè)值;若最后一個(gè)極值點(diǎn)為極大值點(diǎn),tT則作為極小值點(diǎn)集合的最后一個(gè)值;若最后一個(gè)極值點(diǎn)為極小值點(diǎn),tT則作為極大值點(diǎn)集合的最后一個(gè)值.
第二步:臨近極值點(diǎn)
對(duì)于曲線xi(t)和xj(t),記為中距離最近的點(diǎn),中距離最近的點(diǎn),即
第三步:相似性測(cè)度
定義極值點(diǎn)偏差區(qū)間:曲線上的極值點(diǎn)與其臨近極值點(diǎn)構(gòu)成的橫向區(qū)間.以為例,記,極值點(diǎn)的偏差區(qū)間為[t1,t2].
定義極值點(diǎn)偏差的距離補(bǔ)償:將極值點(diǎn)偏差的距離加到兩曲線之間的距離中作為由極值點(diǎn)偏差影響而導(dǎo)致的距離補(bǔ)償.
本文使用一種改進(jìn)的K-means++聚類分析方法進(jìn)行聚類分析.改進(jìn)的K-means++算法的基本思想為:首先計(jì)算所有樣本兩兩之間的距離,選擇距離最大的兩個(gè)樣本,將這兩個(gè)樣本作為聚類中心.然后假設(shè)已經(jīng)取了n個(gè)不重復(fù)樣本,則在選取第n+1個(gè)樣本時(shí),選擇與當(dāng)前n個(gè)樣本的距離之和最大的樣本,以此方法遞歸出K(類別數(shù))個(gè)樣本作為初始聚類中心.此算法是針對(duì)K-means++中第一個(gè)點(diǎn)的隨機(jī)性進(jìn)行的改進(jìn),思想上仍然延續(xù)了K-means++法選擇最遠(yuǎn)組合的思想,但是完全取消了任何隨機(jī)性,聚類的速度更加迅速.由于函數(shù)型數(shù)據(jù)分析在聚類過(guò)程中部分的函數(shù)求導(dǎo)以及積分運(yùn)算設(shè)計(jì)較大的計(jì)算量,為避免運(yùn)行時(shí)間過(guò)長(zhǎng),本文選用此法作為初始聚類中心的選擇方法.
使用不同的相似性度量,聚類結(jié)果可能會(huì)完全不同.一個(gè)簡(jiǎn)單的例子可直觀體現(xiàn)上述幾種方法的對(duì)比,如圖1所示.圖中a,b,c,d四條曲線的起始點(diǎn)與終點(diǎn)都相同,變化趨勢(shì)也是一致的,唯一不同在于極大值點(diǎn)的位置.現(xiàn)在的目標(biāo)是使用不同的相似性度量方式比較曲線a與曲線b,c,d的相似性.
圖1 幾種相似性度量比較圖1.圖1的作用是更加直觀地展示本章提及的幾種相似性度量方法各有的特點(diǎn),其中位于曲線下方的字母代表該曲線名稱.
如果通過(guò)基于基函數(shù)距離的相似性度量[15]來(lái)判斷曲線相似性,以絕對(duì)距離(曲線間的面積)為例,假設(shè)曲線a和曲線b,c,d之間的距離分別為dab,dac,dad,則有dac>dab,dad>dab.而dac與dad之間的大小可以通過(guò)計(jì)算得到.相比于曲線c和曲線d,曲線b與曲線a更加相似.
如果通過(guò)基于極值點(diǎn)符號(hào)相似性度量[13]來(lái)判斷曲線相似性,即通過(guò)極值點(diǎn)的極大極小符號(hào)序列來(lái)判斷曲線相似性,由于四條曲線的極值點(diǎn)符號(hào)序列完全相同,均為(端點(diǎn)極小,極大,端點(diǎn)極小),則曲線b,c,d與曲線a之間的相似性是一樣的,從中能夠看出,雖然極值點(diǎn)符號(hào)能夠代表曲線的極值點(diǎn)波動(dòng)的規(guī)律,但是曲線波動(dòng)的細(xì)節(jié)完全沒(méi)有反映出來(lái),明顯有很大差異的b,c,d三條曲線將會(huì)被視為相同的.
如果通過(guò)基于極值點(diǎn)時(shí)間相似性度量[13]來(lái)判斷曲線相似性,即通過(guò)臨近極值點(diǎn)的橫向距離和來(lái)判斷曲線相似性,由圖1能明顯看出曲線b,c,d僅僅在極大值處有差異,假設(shè)曲線a和曲線b,c,d之間的相似性度量分別為Dab,Dac,Dad,曲線a和曲線b,c,d的極大值點(diǎn)之間的橫向時(shí)間跨度分別為dab,dac,dad.由相似性度量的計(jì)算公式可以推導(dǎo)出,在本例中,Dab,Dac,Dad的大小關(guān)系等價(jià)于dab,dac,dad之間的大小關(guān)系,顯然有dab=dac>dad=0,即相比與曲線b和曲線c,曲線d與曲線a更加相似,而曲線b和c與曲線a的相似性是一致的,從此例中也能夠十分明顯地體現(xiàn)出該曲線在橫向上的時(shí)間跨度,但是對(duì)曲線在縱向波動(dòng)的程度上無(wú)法進(jìn)行區(qū)分.
如果通過(guò)基于極值點(diǎn)縱橫向相似性度量[14]來(lái)判斷曲線相似性,即通過(guò)臨近極值點(diǎn)的距離和來(lái)判斷曲線相似性,假設(shè)曲線a和曲線b,c,d的極大值點(diǎn)之間的距離分別為dab,dac,dad.顯然有dac>dab>dad,相比于基于極值點(diǎn)時(shí)間相似性度量,此方法確實(shí)能夠區(qū)分出曲線b和曲線c相對(duì)于曲線a的相似性,但是在進(jìn)行極值點(diǎn)間距離計(jì)算時(shí)很受橫縱軸量綱尺度的影響.
如果通過(guò)本文提出的基于曲線極值點(diǎn)偏差補(bǔ)償?shù)南嗨菩远攘縼?lái)判斷曲線相似性,可以更加直觀的體現(xiàn)該方法特點(diǎn),截取圖1中的a,b,d三條曲線展示,如圖2所示.
圖2 基于極值點(diǎn)偏差補(bǔ)償?shù)南嗨菩远攘空f(shuō)明圖2.圖2用于展示本文所提出的兼顧數(shù)值距離和曲線形態(tài)的相似性度量-基于極值點(diǎn)偏差補(bǔ)差的相似性度量,為了圖形顯示能夠更加清晰的描述本文的度量方法,將曲線c隱藏了.其中位于曲線下方的字母代表該曲線的名稱.
本文提出的方法不再使用極值點(diǎn)之間的距離作為相似性判定,在計(jì)算曲線b與曲線a相似性時(shí),由于曲線b與曲線a的極大值點(diǎn)出現(xiàn)了時(shí)間偏差,使用曲線b和曲線a在時(shí)間[ta,tb]范圍內(nèi)的距離對(duì)曲線b和曲線a之間的距離進(jìn)行補(bǔ)償.即在計(jì)算曲線b與曲線a的距離時(shí),需要將途中陰影部分的距離額外加入到新的距離計(jì)算中,作為曲線形態(tài)差異的體現(xiàn).而計(jì)算曲線d與曲線a的相似性時(shí),由于曲線d與曲線a的極值點(diǎn)沒(méi)有時(shí)間偏差,則不需要進(jìn)行距離補(bǔ)償.最終通過(guò)上文的計(jì)算公式進(jìn)行相似性的比較,基于極值點(diǎn)縱橫向相似度測(cè)量也能夠衡量橫縱向的曲線相似.但是使用距離補(bǔ)償不僅能夠?qū)O值點(diǎn)偏差所造成的曲線相似性差異反映出來(lái),而且能夠?qū)⑶€本身的臨近距離考慮進(jìn)去,且不受橫縱軸之間的量綱尺度差異影響.
β系數(shù)(貝塔系數(shù))是一種風(fēng)險(xiǎn)指數(shù),用來(lái)衡量個(gè)別股票或股票基金相對(duì)于整個(gè)股市的價(jià)格波動(dòng)情況.股票的系數(shù)不同,收益特征也會(huì)顯示不同.因此在金融投資領(lǐng)域,投資者經(jīng)常以β系數(shù)的大小作為劃分股票類別的基礎(chǔ),進(jìn)而按照自己的風(fēng)險(xiǎn)偏好選擇股票,優(yōu)化資金配置,更好的進(jìn)行資產(chǎn)組合管理[16].本文選擇了中國(guó)證券監(jiān)督管理委員會(huì)《上市公司行業(yè)分類指引》(2012年修訂)中的食品類中的24支股票作為研究對(duì)象,并從國(guó)泰安CSMAR數(shù)據(jù)庫(kù)中選擇了24支股票2018年1月2日至2018年8月3日的風(fēng)險(xiǎn)因子(流通市值加權(quán))數(shù)據(jù)進(jìn)行實(shí)證分析.
在對(duì)數(shù)據(jù)進(jìn)行擬合之前,需要對(duì)數(shù)據(jù)進(jìn)行無(wú)量綱化處理,消除比較對(duì)象之間的數(shù)量級(jí)差異,本文采用歸一化.然后選用三次B樣條基函數(shù)進(jìn)行數(shù)據(jù)擬合,并使用誤差平方和指標(biāo)來(lái)確定基函數(shù)的個(gè)數(shù).
圖3 基函數(shù)個(gè)數(shù)選擇
由圖3可知,誤差平方和隨著基函數(shù)個(gè)數(shù)的變動(dòng)而變動(dòng),并且基函數(shù)個(gè)數(shù)為10時(shí)達(dá)到最小.因此本文確定使用10個(gè)基函數(shù)來(lái)擬合數(shù)據(jù).擬合情況如圖4所示.
圖4 樣本離散折線和擬合曲線
從圖4可知,樣本數(shù)據(jù)經(jīng)過(guò)函數(shù)型擬合后,能夠更加清晰地展現(xiàn)股票風(fēng)險(xiǎn)因子的波動(dòng)特征.在第20期附近,大部分股票的風(fēng)險(xiǎn)因子值都呈現(xiàn)下降趨勢(shì);在第130期附近,大多數(shù)股票都出現(xiàn)了先上升后下降的上凸形態(tài).但是由于曲線數(shù)量過(guò)多,曲線之間交雜相錯(cuò),難以從圖中提取更加有效的信息,作為投資者無(wú)法從中直接對(duì)股票進(jìn)行有效的類別劃分,因此需要進(jìn)一步的聚類分析.
針對(duì)采集的數(shù)據(jù)分別使用不同的相似性度量方法進(jìn)行聚類分析,具體包括D1:傳統(tǒng)聚類分析方法,即基于采集的離散數(shù)據(jù)本身的距離度量的聚類分析方法;D2:基于基函數(shù)本身的距離度量;D3:基于基函數(shù)展開(kāi)系數(shù)的距離度量.D2和D3是兩種基于數(shù)值距離的函數(shù)型聚類分析方法。四種基于曲線形態(tài)的函數(shù)型聚類分析方法分別為X1:基于曲線一階導(dǎo)數(shù)的距離度量,X2:基于極值點(diǎn)符號(hào)的相似性度量,X3:基于極值點(diǎn)的時(shí)間相似性度量,X4基于極值點(diǎn)的縱橫向相似性度量.本文提出的基于曲線極值點(diǎn)偏差補(bǔ)償?shù)南嗨菩远攘緿X,是兼顧數(shù)值距離和曲線形態(tài)的函數(shù)型聚類分析方法.為了統(tǒng)一比較,在離散數(shù)據(jù)和函數(shù)型數(shù)據(jù)的距離計(jì)算中分別選用了傳統(tǒng)的歐氏距離以及函數(shù)型歐氏距離作為距離度量的方法.由于數(shù)據(jù)本身的特性以及總聚類樣本的個(gè)數(shù)沒(méi)有特別大,本文研究了k=3,4,5,6的情形.聚類方法選用了一種K-means++的方法[17],聚類性能的評(píng)價(jià)使用了輪廓系數(shù)[18].
輪廓系數(shù)是一種常用的評(píng)價(jià)聚類性能好壞的方式,是評(píng)價(jià)每一類的密集與分散程度的指標(biāo),輪廓系數(shù)的值在-1到1之間,該值越接近于1,說(shuō)明這一類越緊湊,并遠(yuǎn)離其他類,這樣聚類效果就越好.計(jì)算輪廓系數(shù)的主要步驟為:
第一步:針對(duì)第i個(gè)對(duì)象,計(jì)算對(duì)象i到其所屬的簇之內(nèi)所有其他對(duì)象的相似性(距離),取均值為ai;計(jì)算對(duì)象i到其所屬的簇之外所有對(duì)象的相似性(距離),取均值為bi.記第i個(gè)對(duì)象的系數(shù)為
根據(jù)si進(jìn)行聚類性能對(duì)比,si取值范圍為[?1,1].si越接近1,表示樣本i的聚類越合理;si越接近-1,表示樣本i的聚類越不合理.
第二步:取所有對(duì)象輪廓系數(shù)均值作為該聚類總的輪廓系數(shù),并以此表示聚類性能:
同樣s取值范圍為[?1,1].s越接近1,表示聚類越合理,s越接近-1,表示聚類越不合理.
按照既定的模型以及不同的參數(shù),分別計(jì)算各種聚類模型的輪廓系數(shù),結(jié)果如表1所示.
表1 不同聚類個(gè)數(shù)下不同模型的聚類性能表
針對(duì)本文所使用數(shù)據(jù),基于曲線形態(tài)相似性聚類的四種方法X1,X2,X3,X4中,X1一直保持著較高的聚類效果.隨著聚類個(gè)數(shù)的增加,X4的聚類效果不斷提高,超過(guò)了X1.在基于數(shù)值距離聚類的兩種方法中,D2的聚類效果一直優(yōu)于D3.總體而言,基于距離的相似性度量方法在聚類性能上優(yōu)于基于曲線形態(tài)的相似性度量方法.隨著聚類個(gè)數(shù)的變化,本文提出的曲線極值點(diǎn)偏差補(bǔ)償?shù)南嗨菩远攘緿X的聚類效果一直優(yōu)于其他方法,進(jìn)一步驗(yàn)證了本文提出的聚類方法的有效性.
為了進(jìn)一步驗(yàn)證本文提出的基于數(shù)值距離與曲線形態(tài)的函數(shù)型聚類分析方法是否達(dá)到既定的效果,本文通過(guò)聚類結(jié)果的可視化更加直觀地展示基于曲線極值點(diǎn)補(bǔ)償?shù)南嗨菩远攘烤垲惖腄X模型的聚類結(jié)果與基于基函數(shù)本身的距離度量聚類的D2模型的最終聚類之間的差異.本文選擇k=3進(jìn)行聚類分析.
采用本文提出的基于曲線極值點(diǎn)補(bǔ)償?shù)南嗨菩远攘糠椒ㄟM(jìn)行相似性度量,得到的最終聚類結(jié)果如圖5所示:
圖5 DX模型K=10,k=3聚類結(jié)果展現(xiàn)圖
DX模型聚類結(jié)果中各樣本的分類如下:
第一類:花園生物,海天味業(yè)
第二類:黑芝麻,三全食品,皇氏集團(tuán),雙塔食品,佳隆股份,燕塘乳業(yè),桂發(fā)祥,上海梅林,蓮花健康,安琪酵母,恒順醋業(yè),青海春天,三元股份,光明乳業(yè),中炬高新,梅花生物,廣澤股份,愛(ài)普股份,千禾味業(yè)
第三類:金達(dá)威,伊利股份,桃李面包
采用基于基函數(shù)本身的距離度量D2作為相似性度量,得到的最終聚類結(jié)果如圖6所示:
圖6 D2模型K=10,k=3聚類結(jié)果展現(xiàn)圖
第一類:黑芝麻,皇氏集團(tuán),雙塔食品,佳隆股份,金達(dá)威,桂發(fā)祥,蓮花健康,愛(ài)普股份,千禾味業(yè)
第二類:花園生物,伊利股份,海天味業(yè),桃李面包
第三類:三全食品,燕塘乳業(yè),上海梅林,安琪酵母,恒順醋業(yè),青海春天,三元股份,光明乳業(yè),中炬高新,梅花生物,廣澤股份
對(duì)比D2模型和DX模型具體聚類結(jié)果可以發(fā)現(xiàn),DX模型和D2模型均將花園生物,伊利股份,海天味業(yè),桃李面包單獨(dú)進(jìn)行分類,說(shuō)明這4支股票有顯著異于其他股票的特征.DX模型將5支顯著異于其他股票的股票進(jìn)一步分類,而D2模型則將其他股票進(jìn)一步分類.D2模型的分類結(jié)果較為均勻,但是聚類效果劣于DX模型.雖然DX模型的操作能獲得更好的聚類效果,但是第二類擁有較大的股票樣本,對(duì)于投資者挑選股票仍具有一定難度.這可能是由于進(jìn)行函數(shù)型聚類時(shí)使用的指標(biāo)過(guò)少,因此有必要進(jìn)行多指標(biāo)聚類.
從整體的聚類上觀察D2模型和DX模型的差異,如圖7所示:
圖7 D2模型,DX模型聚類中心曲線對(duì)比圖
圖7中分別展示了DX模型與D2模型的聚類中心曲線,從中可以看出DX模型的第一類,第三類與D2模型的第二類聚類中心曲線較為相似;DX模型的第二類與D2模型的第一類,第三類的聚類中心曲線較為相似.DX模型的聚類效果雖然整體優(yōu)于其他的模型,但是分類結(jié)果與D2不好區(qū)分,所以需要進(jìn)一步研究多指標(biāo)的聚類效果.
依據(jù)多指標(biāo)面板數(shù)據(jù)聚類的思想,多指標(biāo)函數(shù)型數(shù)據(jù)聚類分析的核心也在于指標(biāo)的綜合.在對(duì)多指標(biāo)函數(shù)型數(shù)據(jù)進(jìn)行聚類分析時(shí),一種簡(jiǎn)便的方法是首先對(duì)函數(shù)型數(shù)據(jù)的觀測(cè)值先進(jìn)行離散形式的多指標(biāo)綜合處理,然后對(duì)處理后的數(shù)據(jù)進(jìn)行函數(shù)型分析.這種多指標(biāo)函數(shù)型數(shù)據(jù)的聚類分析方法在進(jìn)行指標(biāo)綜合過(guò)程中,會(huì)流失部分?jǐn)?shù)據(jù)的函數(shù)特性.另一種更加合理的方式是先對(duì)函數(shù)型數(shù)據(jù)進(jìn)行擬合,提取函數(shù)特征曲線,然后將函數(shù)曲線視作整體進(jìn)行多指標(biāo)綜合.與多指標(biāo)面板數(shù)據(jù)不同的是,函數(shù)型數(shù)據(jù)在進(jìn)行指標(biāo)綜合的過(guò)程中,數(shù)據(jù)是以函數(shù)曲線的形式存在的,不能像多指標(biāo)面板數(shù)據(jù)一樣將數(shù)據(jù)視作為多個(gè)橫截面的疊加,而且函數(shù)視角下連續(xù)時(shí)間的權(quán)重是難以衡量的,因此通常不考慮權(quán)重的時(shí)序性,求得綜合指標(biāo)值,即
這里假定指標(biāo)個(gè)數(shù)為p,xij(t)表示第j個(gè)指標(biāo)下樣本i的擬合曲線,ωj為第j個(gè)指標(biāo)的權(quán)重.
基于這樣的思想,可以將多指標(biāo)面板數(shù)據(jù)指標(biāo)綜合方法拓展至函數(shù)型數(shù)據(jù)領(lǐng)域.許多學(xué)者將主成分分析拓展至函數(shù)型數(shù)據(jù)領(lǐng)域并應(yīng)用于函數(shù)型聚類分析,本文將嘗試熵權(quán)法拓展至函數(shù)領(lǐng)域.
熵權(quán)法是利用指標(biāo)的變異性進(jìn)行定權(quán)的一種指標(biāo)綜合方法.熵是一種對(duì)系統(tǒng)狀態(tài)不確定性的度量方法,被評(píng)價(jià)指標(biāo)的熵值越小,則說(shuō)明該指標(biāo)的變異水平越高,提供的信息量也越大,在綜合評(píng)價(jià)時(shí)所起作用也越大,權(quán)重相應(yīng)越大;反之,評(píng)價(jià)指標(biāo)提供的信息量少,則權(quán)重也相應(yīng)越小.
在多指標(biāo)面板數(shù)據(jù)中,通常在計(jì)算第i項(xiàng)指標(biāo)的第j個(gè)樣本占該指標(biāo)的比重時(shí),樣本不是一個(gè)單一的值,而是一個(gè)由多個(gè)時(shí)間點(diǎn)構(gòu)成的一維向量,此時(shí)傳統(tǒng)的熵權(quán)法無(wú)法直接使用,需要新的比重計(jì)算方式.
設(shè)有n個(gè)樣本,p個(gè)指標(biāo),xij(tk)表示指標(biāo)j下樣本i在時(shí)間點(diǎn)tk上的觀測(cè)值,k=1,2,···,T.本節(jié)將從多指標(biāo)面板數(shù)據(jù)的聚類分析方法出發(fā),研究多指標(biāo)函數(shù)型數(shù)據(jù)的聚類分析.
第一步:指標(biāo)正向化處理
第二步:計(jì)算第i項(xiàng)指標(biāo)的第j個(gè)樣本在觀測(cè)點(diǎn)tk的值占該指標(biāo)的比重
第三步:計(jì)算第j項(xiàng)指標(biāo)的熵值
第四步:計(jì)算指標(biāo)權(quán)重
由于函數(shù)型數(shù)據(jù)多指標(biāo)綜合的對(duì)象是一個(gè)函數(shù),因此在計(jì)算第i項(xiàng)指標(biāo)的第j個(gè)樣本占該指標(biāo)的比重時(shí),應(yīng)當(dāng)將所有的數(shù)據(jù)點(diǎn)視為一個(gè)整體,因此基于離散數(shù)據(jù)的熵權(quán)法中基于點(diǎn)值的計(jì)算方式不再適用于函數(shù)型數(shù)據(jù).利用函數(shù)型熵值法求權(quán)重的具體過(guò)程如下:
第一步:數(shù)據(jù)預(yù)處理.對(duì)數(shù)據(jù)進(jìn)行正向化處理,然后進(jìn)行基函數(shù)擬合.
第二步:計(jì)算第i項(xiàng)指標(biāo)的第j個(gè)樣本占該指標(biāo)的比重函數(shù)
第三步:計(jì)算第j項(xiàng)指標(biāo)的熵值和變異程度
第四步:計(jì)算指標(biāo)權(quán)重
Robert等[19]指出股市技術(shù)分析中最為重要的兩個(gè)因素就是價(jià)格和成交量,因此本文選擇價(jià)格和成交量?jī)蓚€(gè)指標(biāo)進(jìn)行聚類分析.首先利用多指標(biāo)面板數(shù)據(jù)的熵權(quán)法計(jì)算離散情形下兩個(gè)指標(biāo)的權(quán)重,然后選取基函數(shù)個(gè)數(shù)為K=10,15,20,25,30的情形,分別依據(jù)不同的K值利用函數(shù)型熵權(quán)法計(jì)算出擬合后兩條函數(shù)曲線之間的指標(biāo)權(quán)重,具體權(quán)重如表2所示:
表2 不同K值下指標(biāo)權(quán)數(shù)
從表2中能夠看出,同樣利用函數(shù)型熵權(quán)法,函數(shù)擬合時(shí)選用K值的不同會(huì)對(duì)指標(biāo)權(quán)重產(chǎn)生微小的差異,而利用函數(shù)型熵權(quán)法計(jì)算的指標(biāo)權(quán)重與利用傳統(tǒng)離散情形的熵權(quán)法計(jì)算的指標(biāo)權(quán)重有著較大的差異.具體使用哪種方式更具優(yōu)勢(shì),需要進(jìn)一步分析.
為了進(jìn)一步體現(xiàn)函數(shù)型數(shù)據(jù)分析方法,本文展現(xiàn)了上述股票的價(jià)格指標(biāo),成交量指標(biāo)以及量?jī)r(jià)綜合指標(biāo)的離散折線以及K=10擬合的函數(shù)曲線,如圖8所示:
圖8 所有股票離散情形和K=10擬合情形下價(jià)格,成交量以及綜合指標(biāo)圖
聚類分析的相似性度量分別選擇了上面實(shí)證效果較好度量方式,具體包括基于采集的離散數(shù)據(jù)本身的距離度量D1,基于基函數(shù)本身的距離度量D2以及基于曲線極值點(diǎn)偏移補(bǔ)償?shù)南嗨菩远攘緿X.其他參數(shù)選擇不做變化.
從表3中能夠看出,無(wú)論使用基于基函數(shù)本身距離度量的D2模型還是基于曲線極值點(diǎn)補(bǔ)償?shù)南嗨菩远攘緿X模型,最終的聚類效果都比直接使用離散數(shù)據(jù)距離度量的D1模型要好,說(shuō)明多指標(biāo)函數(shù)型聚類同樣延續(xù)了單指標(biāo)函數(shù)型聚類的優(yōu)點(diǎn),在聚類的性能上比離散情形有所提高.
表3 不同參數(shù)下不同模型的聚類性能表
在函數(shù)型聚類分析領(lǐng)域,目前的研究普遍側(cè)重于獨(dú)立研究基于數(shù)值距離的相似性測(cè)度方法和基于曲線形態(tài)的相似性測(cè)度方法.本文認(rèn)為兩者對(duì)于函數(shù)型數(shù)據(jù)的相似性度量都十分重要,因此提出一種新的相似性度量方法,基于曲線極值點(diǎn)偏差補(bǔ)償?shù)南嗨菩远攘糠椒?實(shí)證結(jié)果也說(shuō)明本文所提的度量方法確實(shí)達(dá)到了同時(shí)測(cè)度函數(shù)型數(shù)據(jù)的數(shù)值距離與曲線形態(tài)的效果.這為函數(shù)型聚類分析領(lǐng)域提供了一種有實(shí)際應(yīng)用價(jià)值的方法.
對(duì)于多指標(biāo)函數(shù)型聚類,由于現(xiàn)有的研究非常至少,本文僅從多指標(biāo)面板數(shù)據(jù)聚類的角度出發(fā),將其拓展至函數(shù)型領(lǐng)域,將多指標(biāo)函數(shù)型聚類轉(zhuǎn)化為多指標(biāo)綜合問(wèn)題.對(duì)于多指標(biāo)函數(shù)型聚類分析是否有更好的方式,以及對(duì)多指標(biāo)函數(shù)型聚類結(jié)果的解釋問(wèn)題,還需要作進(jìn)一步研究.