摘要:上市公司股價異動為證券市場監(jiān)管層和投資者所重點關注,因其與證券市場的秩序和投資者的切身利益密切相關。以中國證監(jiān)會公布的三起違規(guī)案例為樣本,以股價為響應變量,以市盈率和漲跌幅絕對值為自變量建立回歸模型。利用數(shù)據(jù)建模診斷方法,根據(jù)學生化殘差、杠桿值、Cook距離、馬氏距離等診斷統(tǒng)計量,對股價是否存在異動進行檢測,并進行綜合交叉印證,確定重點懷疑數(shù)據(jù),然后,刪除這些可疑數(shù)據(jù),再將刪除前后表征模型優(yōu)劣的若干個指標的變化情況進行比對。實證研究表明,三起查處案例中交易異常行為都較好地得到定位,與實際結果相符較好,這對于規(guī)范證券市場健康發(fā)展及保護投資者合法權益有積極意義。
關鍵詞:證券市場;上市公司;股價異動;數(shù)據(jù)建模診斷
中圖分類號:F832.5 文獻標識碼:A 文章編號:1672-3104(2013)06?0071?08
上市公司股價異動是證券市場監(jiān)管層與投資者都很關心的問題,在這方面已有學者做出了一些探索,如,肖淑芳、李陽[1]運用事件分析法,對重大信息披露與股價異動的相關性進行了研究。史永東、蔣賢 峰[2]以Logistic模型為分析工具,建立了違法違規(guī)行為的判別模型。Thierry Ane,Loredana Ureche Rangau等[3]采用穩(wěn)健統(tǒng)計方法對亞太股市指數(shù)收益中異常點做了檢測分析。曾偉[4]運用資產(chǎn)定價回歸模型的擬合系數(shù)來捕捉股價波動的同步性,研究了上市公司質量與市場波動性的關系。瞿寶忠、徐啟帆[5]利用殘差系數(shù)法來研究重大并購事件首次公告之前股價的異常波動。Aurea Grane, Helena Veiga[6]基于小波變換技術對金融時間序列中的異常點進行了檢測研究。
本文試圖從數(shù)據(jù)建模診斷的角度,對這個問題進行探討。
我們知道,通過數(shù)據(jù)建立模型來對經(jīng)濟現(xiàn)象進行分析時,我們對數(shù)據(jù)本身是做了很多嚴格的假設條件的,只有這些條件真正滿足時,由此得到的模型及其以后基于此所做的推斷和結論才是可靠的,否則就值得懷疑。對于數(shù)據(jù)本身,我們經(jīng)常假定數(shù)據(jù)是均勻同質的,即,假定數(shù)據(jù)集中每一個點對建模的影響是基本相同的,每個點對建模都有影響,但都很微小,單獨一個或若干個點不應該對模型的總體變化趨勢產(chǎn)生決定性的影響。而實際中,這個條件往往不能得到滿足。一個數(shù)據(jù)集中,經(jīng)常會有那么一個或幾個“不安
分”的點,它們經(jīng)常基于現(xiàn)有建模手段的“漏洞”來“興風作浪”,它們就是數(shù)據(jù)集中的異常點,杠桿點及強影響點。
本文就是從這個角度,來尋找對建模有“不同尋常”影響的點,從而在數(shù)據(jù)集中發(fā)現(xiàn)這些“異動點”。那么,什么是異常點、杠桿點、強影響點呢?一般來講,異常點是指那些與既定模型有較大偏離的數(shù)據(jù)點,杠桿點是指那些遠離數(shù)據(jù)主體的點,強影響點是指對統(tǒng)計推斷影響特別大的點。為了能檢測出這些點,我們需要了解幾個重要的診斷統(tǒng)計量。
我們知道,線性回歸模型可表示為
i=1, 2, …, n
其中:yi為因變量;xi1,…,xi(p?1)為自變量;εi為隨機誤差;其第i組觀察值為(yi,xi1,…,xi(p?1))。通??杀硎緸榫仃囆问饺缦拢?/p>
Y=Xβ+ε (1)
其中:Y=(y1, …, yn)T,ε=(ε1, …, εn)T,β=(β0,β1,…,βp?1)T,X為n×p階列滿秩矩陣,其第i行為(1,xi1,…,xi(p?1)),對于隨機誤差項ε,通常假定其分量ε1,…,εn相互獨立,數(shù)學期望為零,方差具有齊性,即E(ε)=0,var(ε)=σ2I,其中σ2為未知常數(shù),I為n階單位矩陣,可記為
ε~(0, σ2I) (2)
收稿日期:2013?04?29;修回日期:2013?11?22
作者簡介:劉天(1974?), 男, 黑龍江哈爾濱人, 東北財經(jīng)大學金融工程專業(yè)博士研究生, 主要研究方向: 金融工程.
在多數(shù)情況下還假定ε服從標準正態(tài)分布,即
ε~N(0, σ2I) (3)
通常的線性回歸,大多采用了這些假設。這里有一個值得注意的重要問題,即給定的數(shù)據(jù)集
(yi,xi1,…,xi(p?1)),i=1, 2, …, n,
是否符合關于模型的假定(1)(2)或(3)式?
現(xiàn)考慮回歸分析中常用的投影陣,在模型(1)式中,X的投影陣常記為P,并記為Q=I?P,Q為X的正交補空間的投影陣,I為單位陣。由于P作用到Y上可以得到擬合值,因此有些統(tǒng)計學家也稱這種特定的投影陣為帽子矩陣(hat matrix)。
在(1)式中,把X的列向量記為1=(1, …, 1)T,矩陣X可寫成分塊形式如下:
由于P1=11T/n,Q1=(I?11T/n),由二次投影公式可知,帽子矩陣P可表示為
其中,J=11T,。
Xc稱為矩陣的中心化,它在(i, j)處的元素xcij為
(4)
現(xiàn)記帽子矩陣的元素為pij,則P=(pij)具有以下性質:
;
(5)
帽子矩陣P的對角元素pii在回歸診斷中起著十分重要的作用。矩陣就是觀測矩陣X去掉已知的第一個向量1而得到。的每一行就是自變量的一組數(shù)據(jù),現(xiàn)記
i=1, …, n
則由(4)可知,(5)式可寫為
(6)
其中第二項表示點到的一種距離(關于矩陣的距離),通常稱為馬氏距離(Mahalanobis distance),平均值可看作數(shù)據(jù)的中心點,因此(6)式表明,pii越大,則第i組數(shù)據(jù)點xi離數(shù)據(jù)中心越遠,反之,若xi離數(shù)據(jù)中心較遠,則pii比較大。pii=1或pii≈1的數(shù)據(jù)點,通常稱為高杠桿點(high leverage point),這種點對建模有很大影響,在模型診斷分析中應引起特別的注意,pii也稱為杠桿值(leverage value)。
模型(1)式的學生化殘差定義為
(i=1, …, n) (7)
其中:,為普通殘差,學生化殘差也稱學生化內殘差(internal studentized residuals),若取作的估計量,則得到學生化外殘差(external studentized residuals),即,
i=1, …, n (8)
為了考察數(shù)據(jù)集與模型的符和情況(i=1, …, n),一個重要的方法就是逐個考察每組數(shù)據(jù)點的作用,如數(shù)據(jù)刪除模型。
對于下面模型,
i=1, …, n (9)
其中:
那么,刪除第i組數(shù)據(jù)點后的模型就是數(shù)據(jù)刪除模型,即,
或
Y(i)=X(i)β+ε(i) (10)
由線性模型的理論可知,模型(1)式中參數(shù)β的置信域可表示為以下形式:
(11)
在參數(shù)空間Rp中,它表示一個以為中心的橢球,易見,落在橢球以外的β點可能性很小,其概率只有α?,F(xiàn)考慮,如果落在橢球之外,則說明與的差異非常大,作為模型(1)式的點是不可接受的。同理,若的值代入(11)式左端所得的值較大,則說明離置信域中心較遠,因而與有較大的差異,從而可以認為對模型(1)式的影響也較大,基于這種考慮Cook提出在(11)式左端以代替β,作為度量第個數(shù)據(jù)點影響大小的數(shù)量指標,即給定模型(1)式和(10)式,第個數(shù)據(jù)點的Cook距離定義為
(12)
Di也稱為Cook統(tǒng)計量,Cook距離表示與之間的一種加權距離,其權重為。
現(xiàn)考慮數(shù)據(jù)點刪除前后對xi處擬合值的影響。其擬合值分別為和,二者的差值可用來度量第i個數(shù)據(jù)點對于擬合帶來的影響。另外,為了消除尺度的影響,還要除以擬合值的均方誤差。易見,
為了研究去掉第i個點以后對于擬合的影響,應由來代替σ2,因此,可得Welsch-Kuh距離的定義如下:
給定模型(1)式和(10)式,第i個數(shù)據(jù)點對于擬合值的影響定義為
(13)
WKi稱為Welsch-Kuh距離,簡稱為W-K統(tǒng)計量,也有稱之為DFFITS,DF表示差異(Difference),F(xiàn)IT即擬合。
由上述可知,Di主要度量了位置參數(shù)β的估計量和之間的差異,而WKi綜合考慮了位置參數(shù)和尺度參數(shù)之間的差異,即WKi度量了(,)與(,)之間的差異。
我們知道,是度量優(yōu)良性的統(tǒng)計量,廣義方差也有這個作用,|A|表示矩陣A的行列式。由于≤=|σ2(XT(j)X(j))?1|,可知,如果的值增加越大,即,|(XT(j)X(j)|越小,則說明(Yj, Xj)對的影響越大,所以可定義協(xié)方差比作為度量影響的統(tǒng)計量:
(14)
≥1,越大,則說明(Yj, Xj)對于的影響越大。
下面根據(jù)中國證監(jiān)會公布的處罰案例,選取了中捷股份(002021)、科冕木業(yè)(002354)、富臨運業(yè)(002357)三支股票作為樣本,對其進行建模診斷分析。
首先,對中捷股份進行研究(見表1)。
根據(jù)表1,我們以股價(price)為響應變量,市盈率(ratio)和漲跌幅絕對值(variance)為自變量的作回歸,得到表2和表3。
根據(jù)表3,可得表4。
由表4可知,10月12日、10月27日在六個診斷統(tǒng)計量中皆被檢測出5次,10月15日、11月2日、1月19日皆被檢測出3次,因此,將這些點作為重點懷
疑對象,在原數(shù)據(jù)集中,將這些點刪除,再作回歸。
對比表2與表5可知,復相關系數(shù)平方R2及修正的復相關系數(shù)平方R*2,刪除前后均相同,沒有變化,均為1。F統(tǒng)計量,刪除前后均顯著,均可認為響應變量price與自變量ratio,variance之間存在多元線性關系。對于各回歸系數(shù)顯著性,刪除前,ratio的P=0,variance的P=0.04,前者很顯著,后者在0.05水平下,也顯著,刪除后,ratio的P=0,很顯著,variance的P=0.01,也比較顯著,即,刪除后,variance的顯著性有所提高。關于自變量之間復共線性,刪除前,條件指標η1=1,η2=2.57,η3=21.832 84,刪除后,η1=1,η2=3.279 10,η3=23.891 61,刪除前后沒有明顯變化,根據(jù)判定標準,若條件指標處于(0, 100],則可以認為不存在復共線性關系,因此刪除前后自變量之間均符合無復共線性要求,同時,方差膨脹因子VIF,刪除前,c11=1.000 12,c22=1.000 12,刪除后,c11=1.006 48,c22=1.006 48,刪除前后沒有明顯變化,根據(jù)一般的規(guī)則,若VIF處于(0, 10],則可判定為沒有復共線性,因此刪除前后,方差膨脹因子也表明自變量之間不存在復共線性。隨機誤差項之間序列相關問題,刪除前,DW=1.96,半偏相關系數(shù)SC=?0.04,根據(jù)判定標準,在DW接近與2,SC接近與0時,可以認為不存在序列相關,顯然,均符合無序列相關要求,刪除后,DW=2.42,SC=?0.25,兩者已不符合無序列相關要求,因此,可以認為存在序列相關,總體上,刪除前后序列相關性變化較大。
為了判定隨機誤差項之間是否為方差齊性,我們作殘差之遞減趨勢概率圖,如圖1、圖2,可知,刪除前存在明顯的異方差,刪除后基本不存在異方差。分析是這樣,盡管兩圖基本上均符和趨勢線應與橫坐標軸應盡可能重合的要求,但是,對于散點圖應具有隨機性,不應具有明顯的規(guī)律性的要求,圖1這些點不符合要求,其先是具有明顯的上升趨勢,然后有下降,然后再上升,再下降特點,已有規(guī)律性,圖2則符合隨機性要求,另外,關于散點圖應相對于橫坐標軸盡可能對稱的要求,圖1也完全不能滿足,而圖2則基本滿足,因此,刪除前不滿足方差齊性要求,刪除后則滿足,刪除前后變化較大。
對于隨機誤差項正態(tài)性的判斷,由正態(tài)概率圖3圖4可知,刪除前后均較好符合正態(tài)性,沒有變化。
綜上所述,可知,對于中捷股份,在對重點懷疑的數(shù)據(jù)刪除前后,其隨機誤差項的序列相關性和方差齊性均有較大變化,說明這些數(shù)據(jù)點是強影響點,已對建模產(chǎn)生較大影響。其中特別值得指出的是2009年10月27日的數(shù)據(jù),在六個診斷統(tǒng)計量中有五個將其檢測出來,并且這五項指標值均處于最大值,可見這個日期股價異動應該很明顯,這一點有證監(jiān)會的處罰文件為證。根據(jù)中國證監(jiān)會行政處罰決定書(陳國生)(2011)10號內容的陳述,可知,2009年10月23日,陳國生使用“陳曉彤”證券賬戶買入“中捷股份”股票761 827股,2009年10月27日9時33分41秒,“陳曉彤”證券賬戶買入“中捷股份”股票297 699股。2009年10月27日10時14分12秒起至11時04分17秒,陳國生利用其資金優(yōu)勢,大量申報買入“中捷股份”股票,并反復多次使用了“拉抬股價,虛假申報”相結合的操作手法,即先以比市場最后一筆成交價高幾個價位的少量申報買入并成交,導致股價上漲,隨即掛出大量低于同期市場價幾個價位的買入申報,委托主要集中在第2檔和第3檔的位置,造成大單在低檔位買入的假象,并迅速撤單。該期間,陳國生使用“陳曉彤”“陳國生”賬戶以5.75元至6.10元連續(xù)28筆申報買入“中捷股份”股票共27 920 000股,占該時段市場申買量的62%;11時06分16秒前,上述28筆申報撤單26筆(含部分撤單),撤單數(shù)量24 165 426股,撤單量占其申買量的87%,上述26筆撤單平均駐留時間73秒,最短駐留時間19秒;上述申報實際只成交4筆(含部分成交),成交數(shù)量3 754 574股,占該時段其申買量的13%,占該時段市場全部成交量的27%,同期股價上漲7%。11時04分42秒04,“中捷股份”漲停。在“中捷股份”股票處于漲停、
圖1 完全數(shù)據(jù)下回歸殘差序列趨勢概率圖
圖2 刪除數(shù)據(jù)2009.10.12等數(shù)據(jù)回歸殘差序列趨勢概率圖
圖3 完全數(shù)據(jù)下回歸殘差正態(tài)概率圖
圖4 刪除2009.10.12等數(shù)據(jù)回歸殘差正態(tài)概率圖
市場本身已有大量未成交買單、該階段買入申報明顯無法成交的情況下,陳國生仍然以漲停價大量申報買入,以相對較高的價格賣出已建倉的股票,同時影響其他投資者對相應股票供求和價格走勢的判斷,為以后交易日出貨牟利提供便利。11時04分42秒04,市場以漲停價申報的待成交買單為8 084 155股。11時05分11秒11至11時26分55秒03期間,“陳曉彤”“陳國生”證券賬戶以漲停價6.22元的價格連續(xù)44筆申報買入42 000 000股,占該時段市場漲停價申買量的47%,占當日市場漲停價申買量的26%;上述44筆申報全部撤單,其中28筆為營業(yè)部強制撤單,撤單數(shù)量25 656 429股,占該時段其申買量的61%(剔除營業(yè)部強制撤單的影響為23%),占該時段市場撤單量的47%(剔除營業(yè)部強制撤單的影響為17%),平均駐留時間315秒,最短駐留時間33秒;申買成交2筆(含部分成交),成交數(shù)量343 571股,占該時段其申買量的1%,占該時段市場成交量的2%;申賣成交1筆,共761 827股,占該時段市場成交量的5%。2009年10月27日,“陳曉彤”“陳國生”證券賬戶全天申買量占市場申買量比例為31%,全天成交量僅占其申買量的6%,占全天市場成交量的6%,全天撤單量占其申買量的94%,占全天市場撤單量的45%。當日,深成指下跌3.14%,“中捷股份”漲幅為10.09%,偏離13.23% ?!爸薪莨煞荨惫善碑斎帐袌龀山涣勘惹耙唤灰兹帐袌龀山涣吭黾?19%。
另外,2009年11月2日的數(shù)據(jù)也被檢測為異常,被檢測出三次,根據(jù)此處罰書的描述,在11月3日、11月4日,“陳曉彤”“陳國生”證券賬戶將所持的5 157 671股“中捷股份”股票全部賣出,獲利3 355 767.86元??梢?,此方法對股價異動的檢測,還是比較準確的。
根據(jù)相同的方法,可將科冕木業(yè)、富臨運業(yè)的結果給出。
對于科冕木業(yè),在選定的2010年3月10日至2010年4月21日的30個樣本數(shù)據(jù)中,將3月24日、3月25日、4月1日、4月2日、4月7日、4月8日等列為重點懷疑數(shù)據(jù)。根據(jù)中國證監(jiān)會行政處罰決定書(袁鄭?。?011)42號的描述,袁鄭健于2010年3月22日至4月8日使用4個證券賬戶,連續(xù)交易科冕木業(yè)股票,在自己實際控制的證券賬戶之間交易科冕木業(yè)股票,在持有科冕木業(yè)股票的情況下發(fā)表博客文章推薦科冕木業(yè)股票。由于袁鄭健連續(xù)交易數(shù)量較大,在自己實際控制的證券賬戶之間交易的數(shù)量較大,博客文章閱讀次數(shù)較多,致使科冕木業(yè)股票價格從2010年3月22日的17.92元上升至4月2日的31元,之后科冕木業(yè)股票價格調整至4月8日的27.85元。根據(jù)以上事實,證監(jiān)會認定,自2010年3月22日至4月8日,袁鄭健操縱科冕木業(yè)股票價格??梢?,本方法對于檢測股價異動還是可以的。
對于富臨運業(yè),選定了2010年4月1日至2010年5月14日共30個樣本數(shù)據(jù),作回歸診斷分析,其中,將4月12日,4月15日,5月10日、5月11日、5月14日等列為可疑數(shù)據(jù)。根據(jù)中國證監(jiān)會行政處罰決定書(袁鄭?。?011)42號的描述,袁鄭健于2010年4月9日至5月13日使用18個證券賬戶,連續(xù)交易富臨運業(yè)股票,在自己實際控制的證券賬戶之間交易富臨運業(yè)股票,虛假申報買入富臨運業(yè)股票,在持有富臨運業(yè)股票的情況下發(fā)表博客文章推薦富臨運業(yè)股票。由于袁鄭健連續(xù)交易數(shù)量較大,在自己實際控制的證券賬戶之間交易的數(shù)量較大,虛假申報買入數(shù)量較大,博客文章閱讀次數(shù)較多,致使富臨運業(yè)股票價格從2010年4月9日的27.09元上升至5月4日的35.30元,之后富臨運業(yè)股票價格調整至5月13日的23.95元。根據(jù)以上事實,證監(jiān)會認定,自2010年4月9日至5月13日,袁鄭健操縱富臨運業(yè)股票價格。可見,本方法也較好地檢測出股價異動的范圍。
參考文獻:
肖淑芳, 李陽. 上市公司重大信息披露與股價異動的相關性研究[J]. 北京理工大學學報, 2004, 6(6): 53?56.
史永東, 蔣賢峰. 中國證券市場違法違規(guī)行為的判別——基于內部交易與市場操縱的案例分析[J]. 預測, 2005(3): 76?80.
Thierry Ane, Loredana Ureche Rangau, Jean-Benoit Gambet, Julien Bouverot. Robust Outlier detection for Asia-Pacific stock index returns [J]. Journal of International Financial Markets, Institutions & Money, 2008(18): 326?343.
曾偉. 中國A股市場異常波動機理及抑制波動研究[D]. 重慶: 重慶大學, 2009.
瞿寶忠, 徐啟帆. 股價異動: 基于并購信息的殘差系數(shù)法研究[J]. 審計與經(jīng)濟研究, 2009, 24(3): 87?91.
Aurea Grane, Helena Veiga. Wavelet-based detection of outliers in financial time series [J]. Computational Statistics and Data Analysis, 2010(54): 2580?2593.
Data Modeling Diagnostic of Listed Companies in the Stock Transaction
LIU Tian
(College of Finance, Dongbei University of Finance and Economics Financial, Dalian116025, China)
Abstract: Securities market regulators and investors are very concerned about the abnormal fluctuation issues in stock price, because it is important to keep the securities order and investors. The author selected three stocks which had been punished as samples, simultaneously, a regression model was established with the price as response variable and the earning ratio and the absolute value of the change as independent variable. The author used data modeling diagnostic methods, according to the the diagnostic statistics of the studentized residuals, leverage values, cook distance, mahalanobis distance, then, this paper detected whether the price was abnormal and determined the suspect data by integrated crossing-confirms. After deleting the suspicious data, the author compared the characteristics about the qualities of model. Empirical studies have shown that the abnormal behaviors of the three cases had been located and conformed actual results, which was of positive significance for the keeping the healthy securities market and protecting the legitimate rights and benefits of investors.
Key Words: the securities market; listed companies; stock price abnormal fluctuations; data modeling diagnostic
[編輯: 汪曉]