于文靜,余 潔,徐凌宇
(上海大學(xué) 計算機(jī)工程與科學(xué)學(xué)院,上海 200444)
股票時間序列是非線性非平穩(wěn)的時間序列,由于其隨機(jī)因素多,波動變化劇烈等特點(diǎn)備受人們的關(guān)注[1]。研究股票時間序列的復(fù)雜性可以更好地幫助人們了解金融市場的運(yùn)行機(jī)制,并防范風(fēng)險。樣本熵(sample entropy,SampEn)[2]是一種很流行的度量時間序列的復(fù)雜性方法,由Richman和Moorman于2000年提出,是對近似熵(approximate entropy,ApEn)[3]的一種改進(jìn)。在過去的幾十年里,樣本熵被成功應(yīng)用在降雨時間序列、腦電信號、振動信號[4-6]等方面。
然而,在區(qū)分健康信號和患病信號時,以及衡量替代數(shù)據(jù)和真實數(shù)據(jù)之間的復(fù)雜度大小時,樣本熵得到的結(jié)果和人們認(rèn)為的復(fù)雜度是截然相反的。Costa[7]認(rèn)為產(chǎn)生這個問題的原因可能是沒有考慮生理信號的多重尺度,因此提出了多尺度熵。比較兩條時間序列的復(fù)雜度時,需要比較兩個序列在各個尺度上的樣本熵大小,最后綜合給出兩條序列的復(fù)雜度大小。隨后,提出了多種改進(jìn)的多尺度樣本熵[8-11]并廣泛應(yīng)用于各領(lǐng)域。但是,多尺度的過程實際上破壞了原有序列的結(jié)構(gòu),得到的多個結(jié)果在比較復(fù)雜度時難免會產(chǎn)生誤解。
為了解決樣本熵的熵值大小和序列的真實復(fù)雜度無關(guān)的問題,考慮從樣本熵度量時間序列復(fù)雜性的原理入手。通過分析發(fā)現(xiàn)循環(huán)序列的樣本熵都是0,也就是說對于規(guī)則性序列,樣本熵的值是最小的。但是對于不同循環(huán)序列的循環(huán)結(jié)構(gòu)的構(gòu)成也就是循環(huán)體結(jié)構(gòu)中向量組成的復(fù)雜度都是不一樣的,樣本熵卻給這些規(guī)則的但循環(huán)體結(jié)構(gòu)完全不同的序列以最小的且相同的復(fù)雜度。另外,樣本熵在計算時間序列中向量的相似性時,沒有考慮這些向量在時間序列中的時間屬性,所以只要兩個向量的模式是相似的,則兩個向量就是相似的,沒有考慮這兩個向量在時間序列中的分布情況。因此,從這兩個角度出發(fā),文中在樣本熵的基礎(chǔ)上提出了二維熵。
二維熵參數(shù)用N,m,r表示。其中,N為序列長度,m為維數(shù),即重構(gòu)向量時向量的長度,r為相似容限。具體算法如下:
設(shè)原始時間序列u(i)為由N個點(diǎn)構(gòu)成的序列,根據(jù)預(yù)先設(shè)定的嵌入維數(shù)m將原始時間序列重構(gòu)成一組m維向量,每個向量代表從第i個點(diǎn)開始連續(xù)的m個u的值:
2,…,N-m+1
(1)
(2)
(3)
(4)
然后計算每個向量和其他向量相似可能性的平均概率的和,并除以序列中m維向量的總數(shù),得到m維向量的自相似的概率,記為Bm(r)。
(5)
將維數(shù)m增加1,重復(fù)上述步驟,得到Bm+1(r)。
二維熵在計算時間序列的復(fù)雜度時不僅考慮新信息的產(chǎn)生率還考慮向量自相似程度,故二維熵的計算模型如下:
(6)
(7)
根據(jù)Pincus[12]建議,二維熵與互二維熵在計算時m設(shè)為2,r為0.2×SD,SD為時間序列的標(biāo)準(zhǔn)差。
這一節(jié)用Logistic映射對模型進(jìn)行驗證。Logistic映射是一個著名的例子[13-14],在數(shù)學(xué)上表示為:
xi+1=axi(1-xi)
(8)
其中,xi是0與1之間的一個實數(shù),控制參數(shù)a是一個正的參數(shù)。
在模擬實驗過程中,選取參數(shù)a∈[3.5, 4.0],序列的長度設(shè)置為1 000,以生成不同的序列。當(dāng)a=3.5時,產(chǎn)生周期性序列,當(dāng)a∈[3.6, 4.0]時,序列的復(fù)雜度隨著a值的增大而增大。
圖1是a∈[3.5, 4.0]時產(chǎn)生的不同序列在r從0.1以0.01的步長增大到0.25時的二維熵曲線圖。從圖中可以看出,二維熵熵值的大小和參數(shù)a所代表的序列的復(fù)雜度是一致的,同時在r變化時,二維熵能夠保持一致性。
圖1 不同復(fù)雜度的Logistic序列的熵值曲線
(a)二維熵
(b)樣本熵
圖2是當(dāng)a=3.5時,產(chǎn)生長度從100以步長100增長到2 000時的Logistic序列的樣本熵和二維熵曲線。當(dāng)a=3.5時,Logistic產(chǎn)生的序列具有周期性。從圖2(a)可以看出,隨著序列長度的增加,二維熵的值先增加后保持平穩(wěn)。而圖2(b)樣本熵的值在不同長度下,熵值都為0。
這是因為樣本熵在度量時間序列的復(fù)雜度時,對于周期性或規(guī)則性序列,樣本熵的值就會為0,無法根據(jù)不同周期序列的結(jié)構(gòu)的復(fù)雜性判斷序列的復(fù)雜性。而二維熵則會根據(jù)不同周期序列的結(jié)構(gòu)復(fù)雜性給出不同的二維熵值大小。當(dāng)a=3.5時產(chǎn)生的不同長度的Logistic序列之間的差異只是長度,循環(huán)結(jié)構(gòu)體是一樣的。只是當(dāng)時間長度小時,得到的結(jié)果會存在一點(diǎn)誤差,當(dāng)序列的長度足夠長時,誤差造成的影響就可以忽略不計。
這兩個實驗證實了二維熵在衡量時間序列復(fù)雜度上的有效性,并且它優(yōu)于樣本熵,且得到的結(jié)果和真實復(fù)雜性是一致的。
接下來用二維熵以及互二維熵研究股票市場在金融危機(jī)前后時間內(nèi)的復(fù)雜性和不同市場之間的異步性。利用美國道瓊斯工業(yè)平均指數(shù)(DJI)、香港恒生指數(shù)(HSI)、上證綜合指數(shù)(SCI)和深圳成分指數(shù)(SZCI)[15]從2006年1月1日到2010年12月31日的收盤價時間序列進(jìn)行實證研究。這些數(shù)據(jù)來自雅虎財經(jīng):https://hk.finance.yahoo.com/。這四條股指在這段時間的收盤價序列如圖3所示。可以看出,金融危機(jī)發(fā)生后一段時間(400~800天),這四條股指的收盤價的價格都大幅下降。
首先研究這4條股指在不同時間段的復(fù)雜性大小,每兩百天一段,計算這四只股指在不同段的二維熵的大小曲線,如圖4所示。第一段0~200可以看成是金融危機(jī)前期正常股價波動期;第二段201~400為金融危機(jī)前股價上升劇烈期;第三段400~600為金融危機(jī)發(fā)生期;第四段600~800為市場調(diào)節(jié)期;第五段800~1 200為市場正常期。
從圖4可以看出,美國道瓊斯工業(yè)平均指數(shù)和香港恒生指數(shù)兩個股指以及上證綜合指數(shù)和深圳成分指數(shù)兩個股指之間在不同時間段的復(fù)雜度趨勢是一致的。同時可以看出,當(dāng)收盤價價格在一開始波動上升期,也就是在第二段時間內(nèi)時,這四只股指的二維熵的大小都是相對其他時間來說比較小的。金融危機(jī)后第三段時間,這段時期是這四只股指價格波動最大的時期,這四只股指的二維熵的值也是相對比較大的。第四段時期,美股道瓊斯工業(yè)平均指數(shù)和香港恒生指數(shù)的二維熵值降到最小值,而中國的上證綜合指數(shù)和深圳成分指數(shù)的二維熵增加到一個相對高的值,因為中國政府對市場具有一定的調(diào)控作用,導(dǎo)致復(fù)雜度相對來說依然很大。隨后市場開始恢復(fù),直到第六段時間,各個股指的二維熵復(fù)雜性相對大小恢復(fù)到第一段時間段的大小,也就意味著市場趨于正常。
圖3 DJI、HIS、SCI和SZCI從2006到2010年的日收盤序列
圖4 DJI、HIS、SCI、SZCI在不同時間段的二維熵曲線
最后用互二維熵來衡量這四只股指的異步性,如圖5所示??梢钥闯?,每只股指和自身的互二維熵值是最小的,也就是說股指本身的價格趨勢和自己的異步性是最小的。除此之外DJI和HSI的異步性,HSI和SZCI的異步性以及SCI和SZCI之間的異步性也是相對來說比較小的。總的來說,中國市場的兩只股指的異步性相對于其他股指的異步性要小,美股的異步性和港股的異步性要比中國市場的股指的異步性小,這是由于不同的市場環(huán)境造就的結(jié)果。
圖5 DJI、HIS、SCI、SZCI的互二維熵曲線
在樣本熵的基礎(chǔ)上提出了一種新的度量時間序列復(fù)雜度的方法,二維熵。該方法在度量時間序列復(fù)雜度時考慮了序列結(jié)構(gòu)的復(fù)雜性,所以對于循環(huán)規(guī)則序列二維熵能夠根據(jù)它們循環(huán)體結(jié)構(gòu)的復(fù)雜性判斷序列的復(fù)雜性,并在二維熵的基礎(chǔ)上提出了互二維熵來度量時間序列的異步性。接著用Logistic映射產(chǎn)生的不同復(fù)雜度的序列來證明二維熵的有效性。最后用這兩種熵測量的方法來度量DJI、HIS、SCI、SZCI四只股指在金融危機(jī)發(fā)生前后股指的復(fù)雜性以及這幾個股指之間的關(guān)系。