蘇咪咪
摘要:“大數(shù)據(jù)”時(shí)代催發(fā)了可視化技術(shù)的再創(chuàng)新。“豆形圖”以其處理海量數(shù)據(jù)的超強(qiáng)能力可以直觀地展現(xiàn)大數(shù)據(jù)的結(jié)構(gòu)特征,并為大數(shù)據(jù)的可視化分析奠定基礎(chǔ)。本文首先引入“豆形圖”及其可視化大數(shù)據(jù)的特征,并將其應(yīng)用于資本市場(chǎng)中典型的金融大數(shù)據(jù)——超高頻數(shù)據(jù),構(gòu)造用于可視化分析的豆形時(shí)間序列,分析數(shù)據(jù)的日內(nèi)模式和動(dòng)態(tài)特征,為大數(shù)據(jù)的可視化技術(shù)開辟新的方向。
關(guān)鍵詞: 豆形圖;金融大數(shù)據(jù);可視化;超高頻數(shù)據(jù)
中圖分類號(hào):F830 ? ? ? ? ? 文獻(xiàn)編碼:A ? ? ? ? DOI:10.3969/j.issn1003-8256.2014.06.001
1 ? ?引言
2012年12月,英國(guó)人維克托·邁爾·舍恩伯格所著的《大數(shù)據(jù)時(shí)代》在我國(guó)出版,他在書中指出,大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維, 大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。而哈佛大學(xué)社會(huì)學(xué)教授加里·金說:“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程”。金融市場(chǎng)更是催生了大數(shù)據(jù),隨著計(jì)算機(jī)存儲(chǔ)和傳輸能力的提升,股票、外匯、衍生品等金融市場(chǎng)記錄了以小時(shí)、分鐘,甚至是以秒為采集頻率的高頻或超高頻數(shù)據(jù),即金融大數(shù)據(jù)(Financial Big Data)。金融大數(shù)據(jù)提供了交易價(jià)格、收益率、交易量、交易方向以及交易時(shí)間間隔等多維度、具有高度持續(xù)性的交易信息,是金融市場(chǎng)的實(shí)時(shí)再現(xiàn),這對(duì)理解和研究金融市場(chǎng)微觀結(jié)構(gòu)、行為金融、資本資產(chǎn)投資等具有重要的商業(yè)價(jià)值,同時(shí)引發(fā)基于金融大數(shù)據(jù)的產(chǎn)業(yè)創(chuàng)新。
金融大數(shù)據(jù)的相關(guān)研究在本世紀(jì)初期開始風(fēng)靡全球,在定量研究方面,世界各國(guó)學(xué)者在此領(lǐng)域取得卓越的成績(jī),對(duì)于金融市場(chǎng)的發(fā)展做出了杰出的貢獻(xiàn)。觀之金融大數(shù)據(jù)的定性分析,金融大數(shù)據(jù)在研究統(tǒng)計(jì)特征,尤其是更高頻資產(chǎn)收益率的波動(dòng)率方面作用很大,鑒于其大量的觀測(cè)值,對(duì)于金融大數(shù)據(jù)的可視化方面的研究存在著不小的瓶頸。
金融數(shù)據(jù)的可視化在表現(xiàn)金融序列屬性特征時(shí)比統(tǒng)計(jì)模型更為形象、直觀。從原始數(shù)據(jù)中難以挖掘的規(guī)律、純理論運(yùn)算中難以得到的結(jié)論,我們可以從可視化圖形中窺知一二。尤其是“大數(shù)據(jù)”時(shí)代的到來,金融大數(shù)據(jù)的可視化研究還未取得有效進(jìn)展,豆形圖的出現(xiàn)為金融大數(shù)據(jù)的可視化開辟了道路。豆形圖(Beanplot)可以可視化比較組別間的單變量數(shù)據(jù),并且可以展示密度曲線、重復(fù)觀測(cè)和多峰形態(tài)分布等數(shù)據(jù)特征,這是箱形圖所不能比擬的。尤其值得一提的是,豆形圖在金融大數(shù)據(jù)的可視化領(lǐng)域展示了突出的優(yōu)勢(shì),不僅克服了箱形圖的不足,還能夠充分展現(xiàn)海量數(shù)據(jù)的信息,極大提高大數(shù)據(jù)可視化的有效性和精確性。為此,本文在簡(jiǎn)單介紹數(shù)據(jù)可視化發(fā)展歷史的基礎(chǔ)上,引入豆形圖及其屬性特點(diǎn),展示了模擬的“豆形”例子,并將其應(yīng)用于實(shí)際金融大數(shù)據(jù),構(gòu)造可視化的豆形時(shí)間序列,分析金融大數(shù)據(jù)的日內(nèi)模式和動(dòng)態(tài)特征,為后繼的金融大數(shù)據(jù)建模提供數(shù)據(jù)的屬性特征。
2 ? ?金融大數(shù)據(jù)的可視化
最初,我們使用條形圖可視化條形時(shí)間序列。條形圖會(huì)正確顯示原始趨勢(shì)以及每個(gè)時(shí)間間隔內(nèi)最小值和最大值。然而,此類圖形中,在單一的時(shí)間間隔內(nèi),采用單一的點(diǎn)來繪制每個(gè)觀測(cè),致使條形圖盡在存在極少點(diǎn)的情況下才能彰顯其用途。因此,這也使其很難應(yīng)用在大數(shù)據(jù)框架中。直方圖在時(shí)間和空間維度上匯總數(shù)據(jù)時(shí)用處很大,因?yàn)槠浣Y(jié)構(gòu)簡(jiǎn)單、靈活,能夠合理、精確地描述數(shù)據(jù)基本特征的能力。然而,在多組數(shù)據(jù)比較方面,直方圖的疊加會(huì)使空間變得混亂。箱形圖(Turky, 1977)常用于比較組與組間分布的差異,能夠揭示某一總體的幾種屬性:中心,范圍,不對(duì)稱性、離群點(diǎn)以及數(shù)據(jù)主要結(jié)構(gòu)的變化。然而,隨著觀測(cè)個(gè)數(shù)增加,離群點(diǎn)的個(gè)數(shù)會(huì)增加,箱形圖的可視能力漸弱。并且,還將忽略關(guān)于分布密度的信息,而這些密度信息在可視化金融大數(shù)據(jù)上卻是極其重要的。小提琴圖(Benjamini,1988)結(jié)合了密度曲線的可視化以及箱形圖的優(yōu)點(diǎn),更好地顯示了分布形狀。雖然在小提琴圖中可見其基本分布,但隨數(shù)據(jù)量的增大,很多樣本點(diǎn)(除了最低點(diǎn)和最高點(diǎn))卻是不可視的,難以在金融大數(shù)據(jù)的可視化方面有所展露。
本文提出用豆形圖來可視化金融大數(shù)據(jù)。事實(shí)上,所有個(gè)體觀測(cè)在每一個(gè)“豆”中都是可視的。豆形圖會(huì)繪出每個(gè)時(shí)間點(diǎn)的均值(由豆形線表示)以及整體均值,這非常便于比較金融時(shí)間序列不同時(shí)間點(diǎn)的屬性特征。另外,在豆形圖中,不僅大數(shù)據(jù)密度的分布是可見的,還會(huì)顯出數(shù)據(jù)存在的噪音、“波峰”、“波谷”和波動(dòng)情況。由于在日內(nèi)數(shù)據(jù)中,波動(dòng)會(huì)代表數(shù)據(jù)的主要特征,因此豆形圖對(duì)于研究金融大數(shù)據(jù)極其重要。
國(guó)外的研究中,豆形圖已經(jīng)逐漸被應(yīng)用于金融大數(shù)據(jù)的可視化,近十年對(duì)于豆形時(shí)間序列的研究文獻(xiàn),已成為金融大數(shù)據(jù)可視化文獻(xiàn)中重要組成部分。我國(guó)金融市場(chǎng)的穩(wěn)步發(fā)展也為豆形時(shí)間序列的研究提供了數(shù)據(jù)條件。但與國(guó)外相比,我國(guó)學(xué)界在介紹以及應(yīng)用豆形圖對(duì)金融大數(shù)據(jù)進(jìn)行可視化研究方面尚處于空白階段。鑒于此,本文參考了國(guó)外學(xué)者的研究成果,試圖對(duì)豆形時(shí)間序列作系統(tǒng)的介紹,目的在于揭示豆形時(shí)間序列在金融大數(shù)據(jù)可視化中的優(yōu)勢(shì),以及改進(jìn)我國(guó)在金融大數(shù)據(jù)可視化應(yīng)用領(lǐng)域的不足。
3 ? ?豆形圖
豆形圖(Beanplot)是一個(gè)或多個(gè)豆形的圖示。如圖1右圖所示,每個(gè)“豆”由密度曲線組成,通過鏡像形成一個(gè)多邊形。同時(shí),利用一維散點(diǎn)線顯示所有的觀測(cè)值(豆形圖中的散點(diǎn)線利用短線表示數(shù)據(jù))。如果短線圖示在密度線外,繪圖的顏色就會(huì)發(fā)生變化,這樣即使密度曲線外的短線有很多,
圖1 ? 隨機(jī)模擬的正態(tài)分布密度曲線及其豆形圖
也能使密度曲線是可見的。為了便于比較,每個(gè)圖中都標(biāo)出組均值和總體均值(如圖2右圖)。對(duì)于含有子組的情況(如男生組與女生組),我們可以繪制非對(duì)稱形式的豆形圖(如圖4)。
3.1 ? 豆形圖的構(gòu)成
豆形圖由密度曲線和散點(diǎn)線構(gòu)成。由于密度曲線形似豆莢,而散點(diǎn)線類似豆莢里的豆籽,所以豆形圖就因此得名。密度曲線是一個(gè)對(duì)稱的多邊形,由序列的密度曲線及其鏡像構(gòu)造而成。R軟件利用density程序包計(jì)算密度曲線。計(jì)算此類密度曲線,帶寬的選擇特別重要。通常利用Sheather-Jones方法選擇每組的帶寬,這樣會(huì)使豆形圖效果趨于最佳。為了便于組間比較,每組帶寬都是相同的。但這樣會(huì)使數(shù)據(jù)點(diǎn)較少的豆形寬度變得比較大,影響顯著性的判斷。為了克服這個(gè)缺點(diǎn),數(shù)據(jù)點(diǎn)個(gè)數(shù)小于10的“豆”需要進(jìn)行線性變化(如僅含3個(gè)數(shù)據(jù)點(diǎn)的豆形寬度,就使其帶寬為正常寬度的3/10)。
密度曲線通常與一維散點(diǎn)線結(jié)合在一起進(jìn)行圖示。圖1左圖是R軟件生成的隨機(jī)模擬的正態(tài)分布密度曲線,右圖是其相應(yīng)的豆形圖。當(dāng)散點(diǎn)線位于多邊形的外部時(shí),圖形的顏色就必須要進(jìn)行改變。R軟件可以利用直線插補(bǔ)法近似處理密度曲線與散點(diǎn)線的交點(diǎn)。如果同組中的多個(gè)觀測(cè)值是相等的,它們的短線就會(huì)疊加在一起,線長(zhǎng)就會(huì)增加,因此,重復(fù)觀測(cè)也能得以顯示。
箱形圖大都采用中位數(shù)展現(xiàn)數(shù)據(jù)的集中趨勢(shì),而豆形圖一般展示數(shù)據(jù)的組均值和總體均值。并且結(jié)合有效的密度曲線,均值便能提供更有效的信息。出于比較方便的目的,豆形圖大都是對(duì)稱的。但有時(shí)會(huì)出現(xiàn)組中包含兩個(gè)子組的情況,比如男性組與女性組。這種情況下,每個(gè)子組分居豆形的兩邊,共同組成一個(gè)完整的豆形,各自呈現(xiàn)其獨(dú)有的形狀,形成非對(duì)稱形式的豆形圖(參見圖4)。
圖2 ? 雙峰、均勻和正態(tài)分布的箱形圖和豆形圖
注:豆形圖中的綠色短線(深色)表示單個(gè)觀測(cè),紫色區(qū)域(淺色)顯示分布。
3.2 ? 豆形圖的優(yōu)點(diǎn)
我們利用R軟件模擬實(shí)現(xiàn)幾組不同類型的豆形圖,顯示其相對(duì)于箱形圖所特有的優(yōu)勢(shì)。圖2是利用雙峰正態(tài)分布、均勻分布和單峰正態(tài)分布模擬生成的數(shù)據(jù)繪制而成的箱形圖和豆形圖。左邊的箱形圖展示的第一組數(shù)據(jù)與第二組數(shù)據(jù)的圖形類似,并且其四分位值、最大最小值,以及平均水平都近乎相同。如果我們單純從該箱形圖中就做出判斷的話,我們會(huì)認(rèn)為這兩組數(shù)據(jù)之間的屬性、特征等是近乎相同的。但事實(shí)并非如此,圖2右端的豆形圖就充分展示了數(shù)據(jù)的實(shí)際分布特征。很顯然,第一組數(shù)據(jù)與第二組數(shù)據(jù)的分布是完全不同的:第一組數(shù)據(jù)呈現(xiàn)出的是雙峰分布,即分別有兩個(gè)觀測(cè)(-2,+2),在該兩點(diǎn)附近數(shù)據(jù)出現(xiàn)的頻率很高,而當(dāng)數(shù)據(jù)趨于0時(shí)或趨于-4、+4時(shí),數(shù)據(jù)出現(xiàn)的頻率近乎為0;而第二組數(shù)據(jù)呈現(xiàn)出的顯然是一個(gè)近似均勻分布,即從-4到+4之間所有數(shù)據(jù)出現(xiàn)的頻率近乎相等。顯而易見,第一組數(shù)據(jù)與第二組數(shù)據(jù)是兩組特征完全不同的數(shù)據(jù),而我們從箱形圖中卻得出兩者近乎完全相同的結(jié)論。就圖2第三組單峰的正態(tài)分布而言,箱形圖只能展示極個(gè)別的極端值,而豆形圖非常清晰地顯示了模擬數(shù)據(jù)所有的尾部觀測(cè)。綜上可見,豆形圖在對(duì)于數(shù)據(jù)分布及其特征的把握上,要高箱形圖一籌。
圖3 ? 不同類型歌手體重的箱形圖和豆形圖
圖3利用R的vioplot程序包中singer數(shù)據(jù)集圖示了不同類型歌手體重的箱形圖(實(shí)為小提琴圖,小提琴圖為箱形圖的一種)和豆形圖。小提琴圖盡管可以清晰地顯示不同組歌手具有不同的體重分布,但豆形圖還可以解釋更多的附加信息。例如:所有觀測(cè)在豆形圖中都是可見的,每個(gè)組的平均體重以及所有歌手的總平均體重都清楚地列示在豆形圖中。事實(shí)上,每個(gè)組的觀測(cè)個(gè)數(shù)在運(yùn)行結(jié)果上也是可見的。圖4在一個(gè)豆形圖上分組顯示singer數(shù)據(jù)集中男歌手和女歌手的體重豆形圖,用一種非對(duì)稱形式比較解釋了數(shù)據(jù)特征,直觀、精確地展示了同類歌手中性別間的體重差異,彰顯豆形圖的優(yōu)越性。
圖4 ? 男女歌手的非對(duì)稱豆形圖
3.3 ? 豆形時(shí)間序列
豆形時(shí)間序列(Bean Time Series)是豆形圖的另一優(yōu)勢(shì)所在。所謂豆形時(shí)間序列,就是指按照時(shí)間順序排列而成的豆形圖序列,圖5顯示了模擬而成的豆形時(shí)間序列。在圖中,每一個(gè)時(shí)態(tài)區(qū)間都包含了與該區(qū)間相關(guān)的大量數(shù)據(jù)。對(duì)于時(shí)間間隔的選擇,通常我們研究三種情況,即以日、周、月作為時(shí)間間隔。最終要選擇哪種情況作為時(shí)間間隔需要根據(jù)所研究數(shù)據(jù)的特征進(jìn)行判定。
在豆形圖中,我們所要展示的變量特征有均值、極差(最大值減最小值)以及以Kernel估計(jì)量計(jì)算出來的密度曲線等,其密度曲線的估計(jì)量為
其中,K是標(biāo)準(zhǔn)正態(tài)分布。h是區(qū)間寬度的平滑參數(shù)。我們把h作為基本因素來考慮。事實(shí)上,h越大,該豆形圖越不規(guī)則。因此,我們要慎重地選擇帶寬,特別是我們通過Sheather-Jones方法來獲得該參數(shù)時(shí)更應(yīng)該謹(jǐn)慎。
豆形時(shí)間序列展現(xiàn)出了數(shù)據(jù)中心(用粗短線表示)、波動(dòng)大小(用極差表示)以及形狀(用密度曲線表示),并借以揭示序列的復(fù)雜結(jié)構(gòu)關(guān)系。特別地,在每個(gè)豆形圖中,凸起部分就代表了數(shù)據(jù)最密集的數(shù)據(jù)點(diǎn),并且凸起部分隨著時(shí)間的變化而變化。更一般地,豆形圖隨著時(shí)間的變化就揭示出時(shí)間點(diǎn)之間的動(dòng)態(tài)變化。當(dāng)我們發(fā)現(xiàn)豆形圖較之前呈現(xiàn)擴(kuò)張趨勢(shì)時(shí),即極差擴(kuò)大,通??梢岳斫鉃槌霈F(xiàn)了結(jié)構(gòu)性的變化(見圖5)。另外,通過所有的小豆形圖的變化,我們可以計(jì)算出該時(shí)間序列的變化趨勢(shì),并可選擇一個(gè)合適的時(shí)間間隔,以使該趨勢(shì)可視化。豆形時(shí)間序列建立之后,我們可以對(duì)其進(jìn)行參數(shù)估計(jì)以及預(yù)測(cè)。尤其是當(dāng)觀測(cè)個(gè)數(shù)特別多(如金融大數(shù)據(jù)),對(duì)復(fù)雜的市場(chǎng)行為所存在的長(zhǎng)期趨勢(shì)、規(guī)律等進(jìn)行分析方面,豆形圖的優(yōu)勢(shì)就會(huì)充分顯現(xiàn)出來。在我們所研究對(duì)象的觀測(cè)個(gè)數(shù)極其多的情況下,直接進(jìn)行定量時(shí)間序列預(yù)測(cè)的話,不能將數(shù)據(jù)屬性特征精確的展示出來,一些異常值、離群點(diǎn)等也不能得到體現(xiàn)。而在實(shí)際工作中,要對(duì)金融大數(shù)據(jù)等進(jìn)行時(shí)間序列分析,往往所涉及的數(shù)據(jù)包會(huì)包含極大量的數(shù)據(jù),以便于總結(jié)出現(xiàn)象的真實(shí)特征、屬性,并最終得出結(jié)論。因?yàn)?,在這種情況下,定量時(shí)間序列分析就存在部分觀測(cè)信息被丟失的風(fēng)險(xiǎn)。這也從一定程度上說明了用豆形圖來對(duì)金融大數(shù)據(jù)進(jìn)行分析以及預(yù)測(cè)的必要性。
圖5 ? 模擬豆形時(shí)間序列
進(jìn)一步講,我們之所以使用豆形圖來對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行分析,是鑒于兩點(diǎn)原因。首先,豆形圖可以既保持時(shí)間序列的結(jié)構(gòu),同時(shí)又顯示數(shù)據(jù)的重要特征;其次,我們可以通過豆形圖,從大量的時(shí)間序列數(shù)據(jù)中提取出某些長(zhǎng)期的結(jié)構(gòu)特征。同樣,對(duì)于其他一些復(fù)雜的研究對(duì)象,我們依然可以觀察到該現(xiàn)象的主要結(jié)構(gòu)特征。
正是由于豆形圖在可視化方面的獨(dú)特優(yōu)勢(shì),在數(shù)據(jù)與信息如此發(fā)達(dá)的大數(shù)據(jù)時(shí)代,豆形圖正慢慢以獨(dú)立的形態(tài)登上統(tǒng)計(jì)舞臺(tái)。不僅僅是豆形圖的發(fā)展與信息化的發(fā)展息息相關(guān),更是信息化的發(fā)展,特別是在金融領(lǐng)域大數(shù)據(jù)分析方面,更需要豆形圖的發(fā)展作為強(qiáng)大支持,開辟出可視化的一條新研究路徑,以期得到更為精確的結(jié)論。
4 ? ?金融大數(shù)據(jù)“豆形”可視化的實(shí)證分析
隨著計(jì)算機(jī)存儲(chǔ)技術(shù)的飛速發(fā)展,記錄海量數(shù)據(jù)日趨便捷,且處理大規(guī)模數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)也越來越成熟,因而大數(shù)據(jù)問題日益受到學(xué)界廣泛關(guān)注。特別在金融領(lǐng)域,鑒于中國(guó)證券市場(chǎng)歷史短暫且發(fā)展迅速,大時(shí)間跨度的觀測(cè)數(shù)據(jù)往往在可比性上不能令人信服。如果采用金融大數(shù)據(jù),就可以在較的時(shí)間區(qū)間內(nèi)產(chǎn)生滿足分析所需要的數(shù)據(jù)量,同時(shí)可以對(duì)市場(chǎng)微結(jié)構(gòu)模型做出恰當(dāng)?shù)尿?yàn)證。金融大數(shù)據(jù)通常是指以小時(shí)、分鐘、秒甚至更高頻單位為頻率所采集的按時(shí)間先后順序排列的金融類數(shù)據(jù),有時(shí)也稱為超高頻金融數(shù)據(jù)。在金融市場(chǎng)中,信息是連續(xù)地影響證券市場(chǎng)價(jià)格的運(yùn)動(dòng)過程的。數(shù)據(jù)的離散采集必然會(huì)造成信息不同程度的缺失。無疑,采集頻率越高,信息丟失越少;反之,信息丟失越多。所以,大數(shù)據(jù)包含更多的信息,金融大數(shù)據(jù)的研究將帶來更精確的分析結(jié)果。
當(dāng)前金融大數(shù)據(jù)的研究領(lǐng)域主要集中在市場(chǎng)微觀結(jié)構(gòu)和高頻金融時(shí)間序列的模型化方法等方面,由于金融大數(shù)據(jù)屬于海量存儲(chǔ)數(shù)據(jù)系列,在數(shù)據(jù)的可視化方面一直存在著發(fā)展瓶頸。然而,豆形圖的出現(xiàn)可以很好地推動(dòng)金融大數(shù)據(jù)的可視化發(fā)展。利用豆形圖可以分析金融大數(shù)據(jù)的日內(nèi)模式,研究相應(yīng)時(shí)段的市場(chǎng)微觀結(jié)構(gòu),同時(shí)也可以構(gòu)造日內(nèi)豆形時(shí)間序列,進(jìn)而利用豆形圖構(gòu)建金融大數(shù)據(jù)的時(shí)間序列分析模型,從可視化角度分析金融大數(shù)據(jù)的時(shí)間特征。
4.1 ? 日內(nèi)豆形圖
圖6展示了上證綜合指數(shù)在2009年12月31日的日內(nèi)股指價(jià)格、交易量和收益率豆形圖,從中可以清晰地顯示上證綜合指數(shù)的日內(nèi)行為特征。首先,股指價(jià)格屬于多峰態(tài)分布,分布類型介于均勻分布和正態(tài)分布之間,且是左偏的,說明在當(dāng)天股指價(jià)格大部分時(shí)間處于高位運(yùn)行狀態(tài),但下滑幅度也多呈現(xiàn)不對(duì)稱狀態(tài)。其次,交易量和收益率近似服從正態(tài)分布,呈現(xiàn)完美的對(duì)稱分布形式,但略微右偏,特別是收益率,杠桿效應(yīng)傾向于正收益。最后,匯總?cè)叩亩剐螆D特征,我們可以得到當(dāng)日股指整體趨勢(shì)是上升的,但也穿插少部分下降模式。
圖6 ? 日內(nèi)股指價(jià)格、交易量和收益率的豆形圖
4.2 ? 豆形時(shí)間序列
圖7 ? 股指價(jià)格、交易量和收益率的豆形時(shí)間序列
圖7顯示的是上證綜合指數(shù)在2009年12月21日至12月25日之間的股指價(jià)格、交易量和收益率豆形時(shí)間序列,目的是為了說明金融大數(shù)據(jù)的周內(nèi)變動(dòng)模式。就股指價(jià)格豆形時(shí)間序列而言,這一周內(nèi)大部分日期的股指價(jià)格呈現(xiàn)多峰態(tài)分布樣式,除了周五近似服從正態(tài)分布之外,其他都近似呈現(xiàn)出均勻分布的特點(diǎn), 且都屬于左偏型分布,說明這周的股指價(jià)格是上升趨勢(shì),在周五處于均衡調(diào)整階段。就交易量豆形時(shí)間序列而言,周初和周末的交易量波動(dòng)性比較大,周中的波動(dòng)性相對(duì)較小,豆形圖基本呈現(xiàn)正態(tài)分布走勢(shì)。就收益率豆形時(shí)間序列而言,其變動(dòng)模式與交易量比較相近,周初和周末的收益率波動(dòng)性比較大,周中的收益率波動(dòng)相對(duì)較小,但分布類型相比交易量更加重尾。交易量和收益率的極端值需要進(jìn)行單獨(dú)考慮,可借助豆形圖進(jìn)行大數(shù)據(jù)的清洗。
5 ? ?結(jié)論
本文在簡(jiǎn)單介紹數(shù)據(jù)可視化發(fā)展的基礎(chǔ)上,引入豆形圖及其屬性特點(diǎn),通過一系列案例分析解釋豆形圖相比于箱形圖和直方圖的優(yōu)勢(shì)和廣闊使用前景。實(shí)證部分,本文將豆形圖應(yīng)用于金融大數(shù)據(jù),構(gòu)造可視化的日內(nèi)豆形圖和豆形時(shí)間序列,分析金融大數(shù)據(jù)的日內(nèi)模式和動(dòng)態(tài)特征,展現(xiàn)了金融大數(shù)據(jù)豆形可視化的可能性和重要性,為后繼的豆形時(shí)間序列建模提供數(shù)據(jù)屬性特征。
參考文獻(xiàn):
[1] ?Pearson K. "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material"[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences ,1985,186:343–326.
[2] ?Bruce H.M., T.A.DeFanti,M.D.Brown.Visualization in Scientific Computing [M].ACM Press, 1987.
[3] Turkey J.W. Exploratory Data Analysis [M]. Addison–Wesley,1977.
[4] ?Hyndman R., Y. Fan. Sample quintiles in statistical packages[J].The American Statistician, 1996.(4):361–365.
[5] ?Frigge, M. , D. Hoaglin. & B. Iglewicz. Some implementations of the boxplot [J]. The American Statistician,1989.43(1):50–54.
[6] ?Rousseuw, P.J. , I. Ruts.,J.W. Tukey. The bagplot: A bivariate boxplot [J]. The American Statistician,1999.(53):382–387.
[7] Carter, N. J. , N.C. Schwertman, & T.L. Kiser. A comparison of two boxplot methods for detecting univariate outliers which adjust for sample size and asymmetry [J]. Statistical Methodology,2009.6(6):604–621.
[8] ?Aslam, M. & A. Khurshid. Shape-finder box plots [J]. ASQC Statistics Division Newsletter, 1991.(Fall):9–11.
[9] Choonpradub C.,D. McNeil. Can the box plot be improved? [J] Songklanakarin Journal of Science and Technology,2005.27(3):649–657.
[10]Marmolejo-Ramos F.,T. Tian. The shifting boxplot[J].International Journal of Psychological Research,2010.3(1):37–45.
[11]McGill T. J.W.,R.W. Larsen. Variations of box plots [J].The American Statistician, 1978.(32):12–16.
[12]Hintze J.L.,R.D. Nelson. Violin plots: A box plot-density trace synergism [J]. The American Statistician,1998(52):181–184.
[13]Box G. , W. Hunter, J. Hunter. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building[C]. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons, Hoboken, NJ.1978.
(責(zé)任編輯:姚 ? ?英)
The “Beanplot” Visualization and Application of Financial Big Data
SU Mimi1,2
(1.School of finance, Shandong University of finance and economics,Jinan 250014;
2.School of economics, Shandong University, Jinan 250100)
Abstract: As the advent of the era of "big data", new requirements have been put forward to the visualization of financial data. "Bean charts can be intuitively visualized financial data, show the structure characteristics of huge amounts of data, and lay a foundation for large financial data time series analysis. This paper introduced characteristics and its properties "bean charts", and its application in financial data, tectonic fractal time series visualization of beans, analysis of financial data model and the dynamic characteristics of days, to work on the big data visualization way.
Keywords: Beanplot;Financial Big Data;Visualization
[6] ?Rousseuw, P.J. , I. Ruts.,J.W. Tukey. The bagplot: A bivariate boxplot [J]. The American Statistician,1999.(53):382–387.
[7] Carter, N. J. , N.C. Schwertman, & T.L. Kiser. A comparison of two boxplot methods for detecting univariate outliers which adjust for sample size and asymmetry [J]. Statistical Methodology,2009.6(6):604–621.
[8] ?Aslam, M. & A. Khurshid. Shape-finder box plots [J]. ASQC Statistics Division Newsletter, 1991.(Fall):9–11.
[9] Choonpradub C.,D. McNeil. Can the box plot be improved? [J] Songklanakarin Journal of Science and Technology,2005.27(3):649–657.
[10]Marmolejo-Ramos F.,T. Tian. The shifting boxplot[J].International Journal of Psychological Research,2010.3(1):37–45.
[11]McGill T. J.W.,R.W. Larsen. Variations of box plots [J].The American Statistician, 1978.(32):12–16.
[12]Hintze J.L.,R.D. Nelson. Violin plots: A box plot-density trace synergism [J]. The American Statistician,1998(52):181–184.
[13]Box G. , W. Hunter, J. Hunter. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building[C]. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons, Hoboken, NJ.1978.
(責(zé)任編輯:姚 ? ?英)
The “Beanplot” Visualization and Application of Financial Big Data
SU Mimi1,2
(1.School of finance, Shandong University of finance and economics,Jinan 250014;
2.School of economics, Shandong University, Jinan 250100)
Abstract: As the advent of the era of "big data", new requirements have been put forward to the visualization of financial data. "Bean charts can be intuitively visualized financial data, show the structure characteristics of huge amounts of data, and lay a foundation for large financial data time series analysis. This paper introduced characteristics and its properties "bean charts", and its application in financial data, tectonic fractal time series visualization of beans, analysis of financial data model and the dynamic characteristics of days, to work on the big data visualization way.
Keywords: Beanplot;Financial Big Data;Visualization
[6] ?Rousseuw, P.J. , I. Ruts.,J.W. Tukey. The bagplot: A bivariate boxplot [J]. The American Statistician,1999.(53):382–387.
[7] Carter, N. J. , N.C. Schwertman, & T.L. Kiser. A comparison of two boxplot methods for detecting univariate outliers which adjust for sample size and asymmetry [J]. Statistical Methodology,2009.6(6):604–621.
[8] ?Aslam, M. & A. Khurshid. Shape-finder box plots [J]. ASQC Statistics Division Newsletter, 1991.(Fall):9–11.
[9] Choonpradub C.,D. McNeil. Can the box plot be improved? [J] Songklanakarin Journal of Science and Technology,2005.27(3):649–657.
[10]Marmolejo-Ramos F.,T. Tian. The shifting boxplot[J].International Journal of Psychological Research,2010.3(1):37–45.
[11]McGill T. J.W.,R.W. Larsen. Variations of box plots [J].The American Statistician, 1978.(32):12–16.
[12]Hintze J.L.,R.D. Nelson. Violin plots: A box plot-density trace synergism [J]. The American Statistician,1998(52):181–184.
[13]Box G. , W. Hunter, J. Hunter. Statistics for Experimenters: An Introduction to Design, Data Analysis, and Model Building[C]. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons, Hoboken, NJ.1978.
(責(zé)任編輯:姚 ? ?英)
The “Beanplot” Visualization and Application of Financial Big Data
SU Mimi1,2
(1.School of finance, Shandong University of finance and economics,Jinan 250014;
2.School of economics, Shandong University, Jinan 250100)
Abstract: As the advent of the era of "big data", new requirements have been put forward to the visualization of financial data. "Bean charts can be intuitively visualized financial data, show the structure characteristics of huge amounts of data, and lay a foundation for large financial data time series analysis. This paper introduced characteristics and its properties "bean charts", and its application in financial data, tectonic fractal time series visualization of beans, analysis of financial data model and the dynamic characteristics of days, to work on the big data visualization way.
Keywords: Beanplot;Financial Big Data;Visualization