王志堅(jiān),王斌會(huì)
(1.華南師范大學(xué) 經(jīng)濟(jì)與管理學(xué)院,廣州 510631;2.廣東財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,廣州 510320;3.暨南大學(xué) 管理學(xué)院,廣州 510632)
金融時(shí)間序列數(shù)據(jù)在觀測(cè)過(guò)程中經(jīng)常會(huì)受到一些突發(fā)事件的影響,如金融海嘯或新監(jiān)管政策的頒布等,這些事件往往會(huì)導(dǎo)致異常點(diǎn)(也稱離群值)產(chǎn)生。雖然關(guān)于時(shí)間序列異常點(diǎn)分類的標(biāo)準(zhǔn)并不統(tǒng)一,但從現(xiàn)有的文獻(xiàn)看,加性異常點(diǎn)(AO)與革新異常點(diǎn)(IO)是最基本的分類形式。時(shí)間序列異常點(diǎn)往往攜帶重要的投資信息。因此,如何快速、有效地從金融時(shí)序中找到這些異常點(diǎn)并挖掘出其背后所隱含的投資信息,對(duì)于金融風(fēng)險(xiǎn)的研究不僅具有理論上的意義,而且具有較強(qiáng)的現(xiàn)實(shí)價(jià)值。
關(guān)于時(shí)間序列異常點(diǎn)檢測(cè)方法的研究,在早期,學(xué)者們多是基于時(shí)間序列線性模型尋找離群值[1-4]。近年來(lái),學(xué)者們開(kāi)始關(guān)注非線性時(shí)間序列模型的異常值檢測(cè)[5-8]。本文在參考文獻(xiàn)[9,10]的基礎(chǔ)上推導(dǎo)出了IO及AO型異常點(diǎn)穩(wěn)健聯(lián)合檢測(cè)法。并通過(guò)模擬和實(shí)證分析驗(yàn)證了穩(wěn)健聯(lián)合檢測(cè)法的可行性和有效性并將其應(yīng)用于金融時(shí)間序列數(shù)據(jù)異常值的檢測(cè)。該方法不僅對(duì)于金融風(fēng)險(xiǎn)的研究具有理論上的意義,而且對(duì)金融時(shí)間序列的穩(wěn)健建模具有一定的參考價(jià)值。
對(duì)于時(shí)序IO型異常點(diǎn)檢測(cè)原理文獻(xiàn)[9]有詳細(xì)的闡述,這里就不重復(fù)。由文獻(xiàn)[9]可知,對(duì)IO型異常點(diǎn)的檢測(cè)關(guān)鍵是要計(jì)算出檢驗(yàn)統(tǒng)計(jì)量值,而λ取值由模IO型殘差aT及標(biāo)準(zhǔn)差σ決定。顯然,標(biāo)準(zhǔn)差σ是不穩(wěn)健的,單個(gè)極端值就能將其改變很大,從而極大影響了IO型異常值的檢測(cè)效力,因此有必要對(duì)σ進(jìn)行穩(wěn)健改進(jìn)。
而對(duì)于時(shí)序AO型異常點(diǎn)檢測(cè)原理文獻(xiàn)[10]有詳細(xì)的闡述,由文獻(xiàn)[10]可知,對(duì)AO型異常點(diǎn)的檢測(cè)關(guān)鍵是要計(jì)算出檢驗(yàn)統(tǒng)計(jì)量值。顯然λ由τ、ω、σ AoATa決定。由前文分析可知,τ取決于時(shí)間序列結(jié)構(gòu),而ωAT由τ及含有異常點(diǎn)模型殘差ei所決定,但每個(gè)觀測(cè)值模型殘差ei只與觀測(cè)值自己本身有關(guān),各個(gè)觀測(cè)值對(duì)彼此的殘差互不影響,因而λAo的取值主要由τ及σa決定。τ及σa須由樣本數(shù)據(jù)進(jìn)行估計(jì),而σa的估計(jì)與每個(gè)觀測(cè)值息息相關(guān),當(dāng)樣本數(shù)據(jù)存在異常點(diǎn)時(shí),σa常被高估,甚至單個(gè)極端的異常點(diǎn)就能把σa變得面目全非,從而“淹沒(méi)”(masking)或“掩蓋”(swamping)現(xiàn)象發(fā)生,導(dǎo)致檢測(cè)失敗。因此為了準(zhǔn)確計(jì)算檢驗(yàn)統(tǒng)計(jì)量λAo,有必要對(duì)其進(jìn)行穩(wěn)健改進(jìn),也即對(duì)σa作穩(wěn)健化變換??梢?jiàn)兩種檢測(cè)法的檢測(cè)統(tǒng)計(jì)量均由于含有標(biāo)準(zhǔn)差而導(dǎo)致檢驗(yàn)統(tǒng)計(jì)量不穩(wěn)健。
另外,上文在介紹IO及AO型異常點(diǎn)檢測(cè)原理時(shí),有一個(gè)隱含的假設(shè)就是異常點(diǎn)類型是已知的,所不知的是異常點(diǎn)所發(fā)生時(shí)刻T。但在大數(shù)據(jù)時(shí)代背景下,由于各種隨機(jī)因素的影響,使得實(shí)際的金融時(shí)間序列數(shù)據(jù)中通常含有多種類型異常點(diǎn),即出現(xiàn)混合異常點(diǎn)現(xiàn)象,此時(shí)異常點(diǎn)類型和性質(zhì)事先無(wú)從得知,需要將其檢測(cè)出來(lái)。鑒于此,本文給出穩(wěn)健聯(lián)合檢測(cè)統(tǒng)計(jì)量。
首先,要對(duì)兩種異常點(diǎn)檢測(cè)統(tǒng)計(jì)量的標(biāo)準(zhǔn)差進(jìn)行穩(wěn)健改進(jìn),標(biāo)準(zhǔn)差常用的穩(wěn)健估計(jì)量有以下幾個(gè):
(1)縮尾標(biāo)準(zhǔn)差(WSD),表達(dá)式為:
縮尾標(biāo)準(zhǔn)差指的是縮尾數(shù)據(jù)的標(biāo)準(zhǔn)差。
(2)絕對(duì)離差均值(MAD),表達(dá)式為:
顯然其穩(wěn)健性體現(xiàn)在表達(dá)式中的中位數(shù)MED上。
(3)絕對(duì)離差中位數(shù)(MAD),表達(dá)式為:
顯然其穩(wěn)健性體現(xiàn)在表達(dá)式中的雙重中位數(shù)MED上。
(4)四分位數(shù)間距(IQR),表達(dá)為下:
其中,Q(0.75)和Q(0.25)分別是數(shù)據(jù)由小到大排序后的第三和第一分位數(shù)。其穩(wěn)健性體現(xiàn)在數(shù)據(jù)排序后異常點(diǎn)被排在序列的兩端,當(dāng)異常點(diǎn)比例未達(dá)到總數(shù)據(jù)的25%時(shí),異常點(diǎn)對(duì)IQR沒(méi)有干擾。
為避免異常點(diǎn)檢測(cè)過(guò)程中發(fā)生“淹沒(méi)”或“掩蓋”現(xiàn)象,經(jīng)反復(fù)試驗(yàn)比較,本文選用絕對(duì)離差均值來(lái)作為標(biāo)準(zhǔn)差σ的穩(wěn)健尺度估計(jì),即用去替代檢驗(yàn)統(tǒng)計(jì)量和中的σ與σ,以達(dá)到抗異常值a目的,來(lái)提高檢測(cè)效力。原始IO型異常點(diǎn)檢測(cè)統(tǒng)計(jì)量經(jīng)改進(jìn)后變?yōu)槿缦路€(wěn)健檢測(cè)統(tǒng)計(jì)量:
其中,表示穩(wěn)健的表示穩(wěn)健的σa。
其次,如在時(shí)刻T出現(xiàn)混合異常點(diǎn)現(xiàn)象,則只需先算出該時(shí)刻的穩(wěn)健IO型異常點(diǎn)檢測(cè)統(tǒng)計(jì)量及穩(wěn)健AO型異常點(diǎn)檢測(cè)統(tǒng)計(jì)量,再比較兩種穩(wěn)健檢測(cè)統(tǒng)計(jì)量絕對(duì)值大小并作出判斷:
具體檢查流程圖如圖1所示:
另外,Jonathan D Cryer和Kung-Sik Chan(2008)提出用殘差絕對(duì)均值乘以π作為標(biāo)準(zhǔn)差的穩(wěn)健估計(jì),本文將該方法記為J-K法,并比較原始檢測(cè)法、J-K檢測(cè)法及本文提出的穩(wěn)健聯(lián)合檢測(cè)法的檢測(cè)效果。
下面通過(guò)模擬來(lái)比較本文提出的穩(wěn)健聯(lián)合檢測(cè)算法與傳統(tǒng)檢測(cè)法對(duì)異常點(diǎn)檢測(cè)效力,在此用ARMA(1,1)模型模擬產(chǎn)生100個(gè)隨機(jī)數(shù),其中自相關(guān)系數(shù)為0.5,移動(dòng)平均系數(shù)為-0.8。而后在該序列中隨機(jī)抽取預(yù)先設(shè)定好的不同比例數(shù)據(jù),用來(lái)自隨機(jī)產(chǎn)生的均勻分布數(shù)據(jù)去替代之,作為ARMA(1,1)模型異常點(diǎn)。在此構(gòu)造以下四種情形的污染率:ε=2%,ε=6%,ε=10%,ε=20%。需要說(shuō)明的是,之所以將污染率比例設(shè)為偶數(shù)百分比,是因?yàn)樵谛蛄兄行枰獦?gòu)造IO與AO兩種類型異常點(diǎn),而且它們各占一半,個(gè)數(shù)均為整數(shù)。先給出四種被污染序列的時(shí)序圖(如圖2),以期從直觀上了解被污染序列。
圖1 時(shí)間序列IO與AO異常值穩(wěn)健聯(lián)合檢測(cè)算法流程圖
圖2 四種不同污染率下的ARMA(1,1)時(shí)序圖
接下來(lái),分別采用原始檢測(cè)法、J-K檢測(cè)法及穩(wěn)健聯(lián)合檢測(cè)法對(duì)以上不同污染率序列中的IO及AO型異常點(diǎn)進(jìn)行檢測(cè),根據(jù)圖1,用前面三種方法對(duì)以上四種污染率序列進(jìn)行異常值檢測(cè),檢測(cè)結(jié)果如表1及下頁(yè)表2所示:
表1 三種檢測(cè)法檢測(cè)到總的異常點(diǎn)個(gè)數(shù)對(duì)比表
從表1可以看出,當(dāng)污染率為2%時(shí),穩(wěn)健聯(lián)合檢測(cè)法與其他兩種檢測(cè)法一樣,準(zhǔn)確率為100%,說(shuō)明穩(wěn)健聯(lián)合檢測(cè)法具有可行性。而在后三種污染率情形下,本文提出的穩(wěn)健檢測(cè)法檢測(cè)效力均顯著高于其他檢測(cè)法,說(shuō)明穩(wěn)健檢測(cè)法具有有效性。
表2 三種檢測(cè)法分別檢測(cè)到IO及AO異常點(diǎn)個(gè)數(shù)對(duì)比表
從表2可以看出,以真實(shí)異常點(diǎn)類型個(gè)數(shù)為參照,當(dāng)污染率為2%時(shí),三種檢測(cè)法均檢測(cè)到IO及AO各一個(gè),檢測(cè)結(jié)果與真實(shí)個(gè)數(shù)一致。當(dāng)污染率為6%時(shí),原始檢測(cè)法檢測(cè)到3個(gè)IO異常點(diǎn),2個(gè)AO異常點(diǎn),而J-K檢測(cè)法與穩(wěn)健聯(lián)合檢測(cè)法均檢測(cè)到3個(gè)IO、3個(gè)AO??梢?jiàn),原始檢測(cè)法漏檢了一個(gè)AO,而后面兩種檢測(cè)結(jié)果與真實(shí)個(gè)數(shù)一致。當(dāng)污染率為10%時(shí),原始檢測(cè)法只檢測(cè)到1個(gè)IO異常點(diǎn)、0個(gè)AO異常點(diǎn),而J-K檢測(cè)法與穩(wěn)健聯(lián)合檢測(cè)法均檢測(cè)到5個(gè)IO、5個(gè)AO??梢?jiàn),原始檢測(cè)法漏檢了4個(gè)IO、5個(gè)AO,而后面兩種檢測(cè)結(jié)果與真實(shí)個(gè)數(shù)一致。當(dāng)污染率為20%時(shí),原始檢測(cè)法檢測(cè)到IO、AO均為0個(gè),而J-K檢測(cè)法2個(gè)IO、1個(gè)AO,穩(wěn)健檢測(cè)法7個(gè)IO、7個(gè)AO。從總的檢測(cè)結(jié)果來(lái)看,隨著污染率的增加,三種檢測(cè)法正確率均在減少,而原始檢測(cè)法減少最厲害,特別是在高污染率情況下,顯然原始檢測(cè)法對(duì)異常點(diǎn)的檢測(cè)已顯得無(wú)能為力。其次是J-K檢測(cè)法,穩(wěn)健聯(lián)合檢測(cè)法正確率最高,雖有影響,但影響不大,可見(jiàn)穩(wěn)健聯(lián)合檢測(cè)法改進(jìn)效果顯著。
為了驗(yàn)證穩(wěn)健聯(lián)合檢測(cè)的效果,本文選取深圳證券交易所的一只股票——貴州茅臺(tái),日期為2008年1月2日至2013年3月29日,共1267個(gè)樣本,數(shù)據(jù)來(lái)源于銳思金融數(shù)據(jù)庫(kù)(www.resset.cn)。選取貴州茅臺(tái)這只股票是基于以下考慮:2012年12月中央出臺(tái)了“八項(xiàng)規(guī)定”“六項(xiàng)禁令”及一系列限制公款消費(fèi)的規(guī)定,在全國(guó)掀起了遏制公款消費(fèi)的風(fēng)暴,在這個(gè)背景下作為高端白酒中的“領(lǐng)頭羊”、堪稱“國(guó)酒”的茅臺(tái)酒首當(dāng)其沖受到影響,茅臺(tái)股價(jià)及收益率理所當(dāng)然離不開(kāi)其銷售量的影響,因此,此時(shí)研究該股票收益率的異常現(xiàn)象與本文的研究目標(biāo)相吻合。
圖3為貴州茅臺(tái)收盤價(jià)及收益率圖。可以看出貴州茅臺(tái)的收盤價(jià)時(shí)序圖的波動(dòng)幅度還是比較大,其中分別存在一個(gè)明顯的波谷及波峰;從收益率的時(shí)序圖來(lái)看,圖中有些值偏離主體數(shù)據(jù)較顯著;因此初步判定茅臺(tái)股票收益率數(shù)據(jù)存在異常值。
圖3 貴州茅臺(tái)收盤價(jià)圖(左)及收益率圖(右)
下面,按照穩(wěn)健聯(lián)合檢測(cè)流程圖對(duì)股票收益率異常點(diǎn)進(jìn)行檢測(cè)。首先建立時(shí)序ARMA模型,在建立ARMA模型之前需要確定模型的階數(shù),在這里用理論擴(kuò)展的自相關(guān)函數(shù)表(EACF)來(lái)確定模型階數(shù),如表3所示,可以看出表3建議收益率序列擬合的模型為ARMA(0,0)。
表3 收益率序列的EACF表
結(jié)合圖3,可以判斷導(dǎo)致這種現(xiàn)象的原因是收益率序列中有異常點(diǎn)存在,異常點(diǎn)干擾了序列的相關(guān)性。由于一般經(jīng)濟(jì)系統(tǒng)中在沒(méi)有季節(jié)周期因素情況下,其自回歸的階數(shù)一般不超過(guò)5,移動(dòng)平均階數(shù)不超過(guò)2。為了擬合所需要的模型,下面對(duì)1至5的階數(shù)組合后再進(jìn)行反復(fù)試驗(yàn),選取階數(shù)的標(biāo)準(zhǔn)是:先看系數(shù)的顯著性,再比較AIC的值,在這個(gè)標(biāo)準(zhǔn)下最后選擇了模型ARMA(1,1),估計(jì)結(jié)果如表4。
表4 序列{rt}的ARMA(1,1)模型參數(shù)估計(jì)結(jié)果
得到如下模型:
用該模型根據(jù)上文的檢測(cè)原理,對(duì)異常點(diǎn)進(jìn)行檢測(cè),表5為常規(guī)檢測(cè)法檢測(cè)到的異常點(diǎn)分布表。
表5 常規(guī)檢測(cè)法檢測(cè)到的異常點(diǎn)分布表
從表5可以看出,常規(guī)檢測(cè)法共檢測(cè)到9個(gè)異常點(diǎn),其中AO型異常點(diǎn)4個(gè)、IO型異常點(diǎn)5個(gè)。表6為J-K檢測(cè)法檢測(cè)到的異常點(diǎn)分布表。
表6 J-K檢測(cè)法檢測(cè)到的異常點(diǎn)分布表
從表6可以看出,J-K檢測(cè)法共檢測(cè)到12個(gè)異常點(diǎn),其中AO型異常點(diǎn)5個(gè)、IO型異常點(diǎn)7個(gè)。表7(見(jiàn)下頁(yè))為穩(wěn)健聯(lián)合檢測(cè)法檢測(cè)到的異常點(diǎn)分布表。
從表7可以看出,穩(wěn)健聯(lián)合檢測(cè)法共檢測(cè)到28個(gè)異常點(diǎn),其中AO型異常點(diǎn)6個(gè)、IO型異常點(diǎn)22個(gè)。在所有被檢測(cè)到的異常點(diǎn)中IO型居多,而且表中有2個(gè)年頭異常點(diǎn)相對(duì)比較集中,分別是2008年與2012年。究其原因,2008年是因?yàn)殂氪ǖ卣鸺叭蚪鹑陲L(fēng)暴;2012年是受中央限制“三公消費(fèi)”政策影響。這是原因都導(dǎo)致了貴州茅臺(tái)這只股票的股價(jià)震蕩不定,容易產(chǎn)生異常點(diǎn)。據(jù)了解,“三公消費(fèi)”幾乎占到茅臺(tái)銷售量的四成,中央“禁令”的出臺(tái)導(dǎo)致2013年1月至4月茅臺(tái)銷售量下降23.8%。比較原始檢測(cè)法、J-K檢測(cè)法及穩(wěn)健聯(lián)合檢測(cè)法對(duì)收益率異常點(diǎn)的檢測(cè)結(jié)果,發(fā)現(xiàn)凡是原始檢測(cè)法、J-K檢測(cè)法檢測(cè)到的異常點(diǎn)均被穩(wěn)健聯(lián)合檢測(cè)法檢測(cè)到,由此說(shuō)明改進(jìn)后檢測(cè)法的可行性;另外發(fā)現(xiàn)凡是被穩(wěn)健聯(lián)合檢測(cè)法檢測(cè)到而未被原始檢測(cè)法及J-K檢測(cè)法檢測(cè)到的異常點(diǎn)都是由于現(xiàn)實(shí)客觀原因所導(dǎo)致。
表7 穩(wěn)健聯(lián)合檢測(cè)法檢測(cè)到的異常點(diǎn)分布表
基于假設(shè)檢驗(yàn)的IO、AO型異常點(diǎn)檢測(cè)法檢驗(yàn)統(tǒng)計(jì)量對(duì)離群值是敏感的,導(dǎo)致檢驗(yàn)統(tǒng)計(jì)量不穩(wěn)健。鑒于此,本文經(jīng)反復(fù)試驗(yàn)比較,選用絕對(duì)離差均值作為標(biāo)準(zhǔn)差σ的穩(wěn)健尺度估計(jì),構(gòu)建出IO、AO型異常點(diǎn)穩(wěn)健聯(lián)合檢測(cè)算法。
模擬和實(shí)證研究均表明本文提出的穩(wěn)健聯(lián)合檢測(cè)算法具有可行性和有效性,并且能更好地捕捉到我國(guó)金融市場(chǎng)的異常特點(diǎn)。該方法不僅對(duì)于金融風(fēng)險(xiǎn)的研究具有理論上的意義,而且對(duì)金融時(shí)間序列的穩(wěn)健建模具有一定的參考價(jià)值。