郭詠科 毛宇光 向日鋒
摘要:在流式大數(shù)據(jù)系統(tǒng)測試過程中,測試數(shù)據(jù)集越真實,得到的測試報告越可信。然而真實大量的流式數(shù)據(jù)并不容易獲取,因此需要一種方法能夠產(chǎn)生大量符合真實場景特征的數(shù)據(jù)。這些特征包括數(shù)據(jù)屬性相關性、數(shù)據(jù)時序相關性、數(shù)據(jù)流的流速變化等等。在流式大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的時序相關性與流速變化尤為重要。本文提出了一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,以真實場景的數(shù)據(jù)集作為種子數(shù)據(jù),對種子數(shù)據(jù)采用最大互信息系數(shù)描述數(shù)據(jù)屬性間的相關性,改進了Prim算法對屬性列集合進行分組,在盡量保證屬性列強相關的前提下提高生成效率,接著提出了一種時序模型選擇策略,保證生成的數(shù)據(jù)在時序上的相關性,提出了雙層滑動窗口的方法控制流數(shù)據(jù)輸出速度。最后,本文比較了提出的方法與其他流數(shù)據(jù)生成方法的生成效率。
關鍵詞:流式大數(shù)據(jù)生成;非線性相關性;時序相關性;流速控制
中圖分類號:TP311文獻標識碼:A
Abstract:In the process of streaming big data system testing,the more real test data sets,the more reliable the test report can be obtained.However,real data is not easy to obtain,so a method is needed to generate a large number of data with real scenario features.Thesefeatures include data attribute correlation,data temporal sequence correlation and the rates of streaming data.In the streaming big data environment,the data temporal sequence correlation and the rates of streaming dataare especially important.In this paper,we present amethod forstreaming big data generation,using real scenario streaming data as the seed data,using the maximum mutual information coefficient to describe the correlation between the data attributes,putting forward acprim algorithm to partition the attribute group,improve efficiency in the premise of ensuring that the attributes arestrong related.according to the different characteristics of each attribute group,using different temporal sequence model to ensure that the data generated hold temporal sequence correlation,a double sliding window method is proposed to control thedegree of parallelism and the output speed of the streaming data.Finally,this paper compares the proposed method with other streaming data generation methods for generating efficiency.
Key words:streaming data generation;nonlinear correlation;temporal sequence correlation;velocity control
1簡介
流式大數(shù)據(jù)廣泛存在于社交網(wǎng)絡、金融服務等領域,越來越多的流式大數(shù)據(jù)處理系統(tǒng)應運而生,為了保證此類系統(tǒng)的性能滿足設計需求,需要對其進行相應的性能測試。Yahoo開發(fā)了云服務測試套件YCSB,用來對云服務進行基礎測試,目標是進行云數(shù)據(jù)服務系統(tǒng)的性能比較[1];Ruirui Lu等人提出了測試套件StreamBench,描繪了流式系統(tǒng)的性能測試框架,比較全面地對流式大數(shù)據(jù)系統(tǒng)進行了測評[2];詹劍鋒等人提出了大數(shù)據(jù)測試基準BigDataBench,其基準測試程序覆蓋了多個大數(shù)據(jù)應用領域[3]。然而諸如此類的測試套件,重點關注的是負載的全面性,在輸入數(shù)據(jù)集的選擇問題上考慮得不夠全面。進行流式大數(shù)據(jù)系統(tǒng)的測試,輸入到系統(tǒng)的數(shù)據(jù)與真實場景下的數(shù)據(jù)特征越吻合,得到的測試結(jié)果越準確,因此需要一種能夠保持數(shù)據(jù)真實特征的大數(shù)據(jù)仿真生成方法。
在流數(shù)據(jù)和流數(shù)據(jù)庫仿真生成方面近年來有很多豐碩成果,Eric等人提出了DBMS測試套件MyBenchmark以及數(shù)據(jù)生成工具[4],把一組查詢操作作為輸入,能夠生成數(shù)據(jù)庫實例,同時用戶還能控制生成負載的特征。由于保持了大量數(shù)據(jù)依賴、數(shù)據(jù)分布等內(nèi)層特征,數(shù)據(jù)生成的速度不是很高。Joseph等人提出了一種合成數(shù)據(jù)形式化的描述語言SDDL[5],能夠并行生成具有某些約束和簡單用戶定義函數(shù)的數(shù)據(jù),但是沒有考慮到數(shù)據(jù)的分布特征,不能生成滿足例如高斯分布等復雜概率分布的數(shù)據(jù)。Kenneth等人將數(shù)據(jù)表的生成轉(zhuǎn)換成圖的遍歷過程[6],能夠保證比較好的屬性依賴和概率分布,由于重點保持屬性依賴,使得數(shù)據(jù)的并行化程度不高,在生成數(shù)據(jù)表規(guī)模比較龐大或者依賴關系比較復雜的時候生成速度比較慢。華東師范大學的顧伶等人提出了通用數(shù)據(jù)生成框架PSUG,使用標準均方關聯(lián)度量計算屬性間相關性,使用隱式狄利克雷模型模擬數(shù)據(jù)流前后的主題相關性,開發(fā)了數(shù)據(jù)生成工具Chronos,能夠生成滿足流數(shù)據(jù)庫測試套件的數(shù)據(jù)[7][8],但是Chronos使用的標準關聯(lián)度是一個線性的相關性度量指標,對于具有非線性關系的屬性關聯(lián)不能準確地描述,同時對于不存在主題的純數(shù)字型數(shù)據(jù),該生成方法無法滿足生成的數(shù)據(jù)在時序上的相關性。流式大數(shù)據(jù)的屬性依賴關系以及其固有流式特征都與傳統(tǒng)的數(shù)據(jù)庫和流數(shù)據(jù)庫有所不同。錢宇華等人研究了大數(shù)據(jù)環(huán)境下的數(shù)據(jù)相關性度量指標的優(yōu)缺點[9][10],同時指出在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)之間的相關性一般都是非線性的。Reshef等人提出了最大互信息系數(shù),證明了該度量指標對非線性相關性能進行比較準確的刻畫[11]。endprint
本文在此基礎上提出一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,在盡可能保證數(shù)據(jù)屬性相關性的同時,加入流式數(shù)據(jù)的時序性特征,同時還能控制流數(shù)據(jù)的流速。本文最后也進行了效率方面的檢測,證明了該數(shù)據(jù)生成方法的有效性。
本文的結(jié)構(gòu)如下:第2節(jié)介紹數(shù)據(jù)生成方法的整體框架,第3節(jié)介紹參數(shù)設置方法,第4節(jié)介紹相關性控制方法,第5節(jié)介紹流速控制方法,第6節(jié)介紹實驗。
2框架結(jié)構(gòu)概述
本節(jié)對數(shù)據(jù)生成方法的框架進行簡要的描述,如圖1所示,整個框架分為3個部分:參數(shù)設置模塊、相關性控制模塊、流速控制模塊。
參數(shù)設置模塊以種子數(shù)據(jù)作為輸入,提取屬性列的信息,生成數(shù)據(jù)描述文件,定義參數(shù)對后續(xù)生成的數(shù)據(jù)的特征進行校正,不同的參數(shù)組合可以代表不同的應用場景下數(shù)據(jù)的不同特點。相關性控制模塊任務是計算數(shù)據(jù)屬性間的相關性系數(shù),對屬性集合進行劃分,劃分后得到的屬性組擁有類似高內(nèi)聚低耦合的特征。提出時序模型選擇策略對于每個屬性組進行時序相關性的分析,得出回歸方程用作數(shù)據(jù)生成。流速控制模塊定義內(nèi)層滑動窗口保證并行生成的數(shù)據(jù)在整個時間序上的相關性,定義外層滑動窗口控制數(shù)據(jù)流輸出速率。
3參數(shù)設置
本節(jié)介紹數(shù)據(jù)生成方法的參數(shù)設置。本文方法定義了四個參數(shù):最大相關性忽略系數(shù)c;時序相關回歸階數(shù)r;時間分段T;數(shù)據(jù)流速S。
最大相關性忽略系數(shù)c是在數(shù)據(jù)屬性組劃分階段,終止搜索下一個屬性所參考的變量。取值范圍在0.2~0.4,屬性相關性在0.2以下說明屬性之間相關性極低,在0.2~0.4之間相關性較低。該參數(shù)越小,允許忽略的相關性越少,因此分解出的屬性組越少,并行化程度越低;相反,分解出的屬性組越多,并行化程度越高。對于僅僅需要進行壓力或者負載測試的系統(tǒng)來說,該參數(shù)設置大一些,忽略數(shù)據(jù)屬性之間一些不必要的相關性;對于某些具備數(shù)據(jù)挖掘功能的系統(tǒng)來說,該參數(shù)應設置小一些,盡量保存數(shù)據(jù)屬性之間的相關性,使得數(shù)據(jù)挖掘性能能夠得到展現(xiàn)。
時序相關回歸階數(shù)r是在進行數(shù)據(jù)時序相關性分析階段,向前參考數(shù)據(jù)的個數(shù),取值范圍在2~4。該參數(shù)越小,時序相關性越弱,但回歸公式越簡單,數(shù)據(jù)生成效率越高;相反,考慮的數(shù)據(jù)時序相關性越強,回歸公式越復雜,數(shù)據(jù)生成效率越低。對于類似股票流數(shù)據(jù)的場景,該參數(shù)應設置高一些,使得生成的數(shù)據(jù)與之前數(shù)據(jù)的關系盡可能精準一些;而對于類似車載物聯(lián)網(wǎng)系統(tǒng)來說,其前后的流數(shù)據(jù)相關性不是特別重要,該參數(shù)可以設置低一點。
時間分段T描述的就是某一個周期下不同數(shù)據(jù)流速的段數(shù)以及時長,是一個自然數(shù)的集合,即T={t1,t2,t3……}。該參數(shù)元素個數(shù)越小,流速越平穩(wěn),數(shù)據(jù)流越穩(wěn)定;相反,流速變化越頻繁,數(shù)據(jù)流波動越大。例如銀行系統(tǒng),每天早7點之前和晚7點之后,系統(tǒng)負載較小,早7點到11點和下午2點到7點為高峰,負載較大,則可以將整個數(shù)據(jù)流分為4段,即t1=12(晚7點到第二天早7點);t2=4(早7點到早11點);t2=3(早11點到下午2點);t4=5(下午2點到下午7點)。
數(shù)據(jù)流速S描述的是時間分段T上的數(shù)據(jù)流速,S同樣是一個自然數(shù)的集合,元素個數(shù)與T一致。2012年的新年新浪微博的單秒最大數(shù)據(jù)條數(shù)達到了4萬條, 2016年11月11日,天貓購物節(jié)支付寶的交易峰值也只有16萬條數(shù)據(jù)/秒,根據(jù)互聯(lián)網(wǎng)用戶每年25%的增長趨勢,本文將其取值范圍設置在0~200000條數(shù)據(jù)/秒。S中元素的值越大,數(shù)據(jù)輸出得越快。假設s1代表晚上5點之前的流速,s2代表晚上7點之后的流速,則對于上述銀行系統(tǒng),朝九晚五的特點使得系統(tǒng)的數(shù)據(jù)流速在晚上7點之后明顯小于5點之前(s1s2);相反對于微博系統(tǒng),上班族下班,數(shù)據(jù)流速在晚上7點之后可能又遠遠大于晚上5點之前(s1s2)。
4相關性控制
本節(jié)介紹數(shù)據(jù)相關性控制方法,對于保證生成的數(shù)據(jù)符合真實數(shù)據(jù)特征具有重要作用。首先分析其兩兩之間的最大互信息相關系數(shù)(MIC),得到相關系數(shù)圖,接著改進了Prim算法進行屬性列集合的劃分,使得保持數(shù)據(jù)屬性列強相關的同時增加并行化來增加數(shù)據(jù)生成效率,最后給出一種時序模型選擇策略,對不同特征的屬性列集合采取不同的時序模型進行擬合,得到回歸方程或方程組用作后續(xù)數(shù)據(jù)生成。
41屬性相關性
屬性相關性是指擁有多個屬性的一批數(shù)據(jù),其屬性之間的關聯(lián)程度。在大數(shù)據(jù)相關分析中,MIC可以度量任何函數(shù)形式的相關性,具有通用性。同時,如果兩組不同形式、擁有相同MIC取值的數(shù)據(jù),當給它們同等程度的噪音,MIC的取值仍然保持相等。流式大數(shù)據(jù)環(huán)境下,對數(shù)據(jù)的生成速度有要求,生成算法計算的復雜度越低越好,同時大數(shù)據(jù)復雜多樣、噪聲數(shù)據(jù)很多,算法的魯棒性同樣重要。表1是MIC與其他相關性度量指標的對比,可以看出MIC更加適合流式大數(shù)據(jù)的環(huán)境。
由于MIC具有對稱性,即MIC(A,B) = MIC(B,A),因此對于具有N個屬性的數(shù)據(jù)集,計算后能夠得到一個N個節(jié)點的帶權(quán)無向完全圖,圖中的邊的權(quán)值代表兩個屬性列之間的相關系數(shù)。當兩個屬性列之間的相關性比較小時,應該將它們單獨生成,而相關性比較大的幾個屬性列必須作為整體一起生成,所以可以對屬性列相關系數(shù)圖進行劃分,把相關性大的屬性列劃到同一組,以提高并行度,進而提高數(shù)據(jù)生成的整體效率。
圖的最小生成樹算法以圖中連線權(quán)值為參考,生成一條包含所有節(jié)點的序列,由于本文進行屬性列分組時也需要參考連線權(quán)值,所以可以通過加入終止條件的辦法,讓算法提前結(jié)束,獲得序列的一條子序列,子序列中包含的節(jié)點就被分為同組。普利姆算法(Prim算法)和克魯斯卡爾算法(Kruskal算法),是最基本的兩種圖最小生成樹算法,分別適用于稠密圖和稀疏圖。帶權(quán)無向完全圖屬于稠密圖,因此本文對Prim算法進行改進,提出一種附加終止條件的Prim算法——cPrim算法劃分屬性列集合。endprint
cPrim算法思想:從任意一個頂點出發(fā),尋找與其相連的邊集合中權(quán)值最大的邊,如果該邊的權(quán)值仍然小于等于最大相關性忽略系數(shù)c,則直接將該節(jié)點單獨分為一組;如果不小于c,找出最大權(quán)值邊對應的節(jié)點,將該節(jié)點納入出發(fā)節(jié)點集合,再從出發(fā)節(jié)點集合出發(fā)尋找最大權(quán)值的邊,不斷循環(huán),直到所有節(jié)點被分成了若干組。假定最大相關性忽略系數(shù)c為0.2,下面以圖2為例,簡單介紹算法步驟。
圖2(a)為劃分之前的關聯(lián)關系圖。隨機從一個節(jié)點出發(fā)(例如1號節(jié)點),與其相連的邊上的權(quán)值為0.1、0.1、0.2,均小于等于c,故直接將1號節(jié)點單獨分為一組,如圖2(b)所示。
再從剩下的2,3,4號節(jié)點中隨機選取一個(例如3號節(jié)點),與其相連邊最大權(quán)值為0.5,大于c,那么將4號節(jié)點納入{3},如圖2(c)所示。
繼續(xù)尋找從3,4號節(jié)點出發(fā)的最大權(quán)值的邊,是2號與4號節(jié)點的連接邊,權(quán)值為0.3,大于0.2,將2號節(jié)點納入{3,4}。整個屬性集合被分成了2組:{1},{2,3,4},如圖2(d)所示。
假定的最大相關性忽略系數(shù)c為0.4,根據(jù)算法可以將屬性集合分為3組:{1},{2},{3,4}。
算法偽代碼:
42時序相關性
數(shù)據(jù)的時序相關性是指帶有時間戳的一組數(shù)據(jù),其前后數(shù)據(jù)屬性值的關聯(lián)關系。在流式大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的時序性非常關鍵,缺少了時序的流式數(shù)據(jù)就喪失了數(shù)據(jù)挖掘特別是趨勢預測的意義。本小節(jié)提出一種時序模型選擇策略,針對不同特點的屬性組采用不同的時序模型進行回歸方程的擬合。
屬性分組劃分完之后,首先將屬性組分為2類:單屬性組和多屬性組。
對于單屬性組,首先判斷其是否平穩(wěn),即序列是否圍繞某個固定值上下波動或者序列的標準差是否保持不變。若平穩(wěn),則采用經(jīng)典的自回歸移動平均(ARMA)模型進行擬合,形式為:
Xt=Φ1Xt-1+…+ΦpXt-p+εt-…-θqεq(5)
其中Xt是需要估計的下一個值,Xt-1~Xt-p是回歸參考的屬性數(shù)據(jù),εt是當前噪聲,εt-1~εt-p是回歸參考的噪聲數(shù)據(jù),Φ1~Φp以及θ1~θq為回歸參考數(shù)據(jù)的參數(shù)。
若非平穩(wěn),則采用自回歸滑動平均(ARIMA)模型進行擬合。ARIMA模型是針對非平穩(wěn)的單變量時間序列的,其基本思想是將一個非平穩(wěn)的時間序列通過一次或者多次差分轉(zhuǎn)換成平穩(wěn)序列再進行擬合。一般來說,一階差分可以使有線性趨勢的序列變得平穩(wěn);二階差分可以使有曲線趨勢的序列變得平穩(wěn)。ARIMA模型形式為:
其中Δd是指經(jīng)過了d階差分,其他參數(shù)同ARMA模型的參數(shù)。
對于多屬性組,采用自向量回歸(VAR)模型進行擬合。VAR模型針對的是多變量的時間序列,擬合之前需要觀察數(shù)據(jù)VAR模型根模散點是否均落在單位圓內(nèi)來的判斷序列是否平穩(wěn),若不平穩(wěn),首先差分成平穩(wěn)序列再進行擬合,模型形式為:
Xt=Φ1Xt-1+…+ΦpXt-p+βYt+εt(7)
其中Xt~Xt-p為內(nèi)生變量向量,Yt是外生變量向量,改變量是指除了參與,εt是當前噪聲向量,Φ1~Φp以及β為回歸參考數(shù)據(jù)的參數(shù)。對所有屬性組進行擬合得到回歸方程,用作數(shù)據(jù)生成。
5流速控制
本節(jié)描述一種雙層滑動窗口的方法,控制流數(shù)據(jù)流速?;瑒哟翱诘母拍钭钕瘸霈F(xiàn)在計算機網(wǎng)絡中,通訊雙方約定一個能夠接受的窗口大小,每次只發(fā)送和接收指定窗口大小的內(nèi)容,防止數(shù)據(jù)溢出。
為了保證流數(shù)據(jù)整體的時序性,必須在增加并行度時進行控制,定義內(nèi)層滑動窗口,窗口大小為時序相關回歸階數(shù)r,維護著最新的r個數(shù)據(jù),如圖3所示,有2個線程分別生成屬性a和屬性b,c。
當屬性組需要增加并行化時,不直接通過隨機數(shù)生成器生成種子,而是將窗口內(nèi)的r個數(shù)據(jù)當作新線程的種子數(shù)據(jù),如圖4所示。因為回歸方程帶有一定的噪聲,因此在當前窗口基礎上生成的后續(xù)數(shù)據(jù)和以這批數(shù)據(jù)作為新種子生成的數(shù)據(jù)不會完全一樣,同時保證了一個屬性組在整個時間序列上的相關性。
為了控制數(shù)據(jù)流流速,定義外層滑動窗口,外層窗口大小為當前時間段T上的流速S,輸出數(shù)據(jù)時,以恒定的速率輸出窗口內(nèi)數(shù)據(jù),需要流速加大時,就增大窗口大小;需要流速減小時,就減小窗口大小。如圖5所示,T1階段流速為500條/秒,T2階段流速為5000條/秒。
6實驗
本節(jié)介紹實驗,驗證提出的方法生成的數(shù)據(jù)滿足預設的速率要求;數(shù)據(jù)屬性之間的相關性仍然保持;最終生成的數(shù)據(jù)與種子數(shù)據(jù)的分布基本一致。此外,實驗還比較了本文方法與PSUG[7]和文獻[13]提出方法的數(shù)據(jù)生成效率。
61實驗設置
實驗配置為:4核酷睿i7處理器,主頻3.4 GHz,內(nèi)存16 GB,硬盤存儲1 TB。
初始參數(shù)設置:最大相關性忽略系數(shù)c為0.2,時序相關回歸階數(shù)r為2,運行總時間30分鐘,分為3段,即t1=10、t2=10、tz=10,流速分別為500條/秒,10000條/秒,50000條/秒,即s1=500、s2=10000、sz=50000,3個時間段總計分別生成30W,600W,3000W條數(shù)據(jù)。實驗的種子數(shù)據(jù)為10000條帶有時間戳的新浪微博數(shù)據(jù),經(jīng)過清洗之后每條數(shù)據(jù)包含“微博文本長度”,“轉(zhuǎn)發(fā)數(shù)”,“評論數(shù)”,“點贊數(shù)”4個屬性。
62實驗結(jié)果
圖7為生成的數(shù)據(jù)分布與種子數(shù)據(jù)分布的對比,其中生成數(shù)據(jù)的分布圖是由生成的數(shù)據(jù)隨機開始位置10000條連續(xù)的記錄產(chǎn)生的,由于無法確定提取的數(shù)據(jù)流處在整個數(shù)據(jù)流的位置,考察每個值出現(xiàn)的位置沒有意義,比較每個數(shù)據(jù)段上的數(shù)據(jù)量分布即可,可以看到生成的數(shù)據(jù)比較符合種子數(shù)據(jù)的數(shù)據(jù)分布,圖7只列出了“文本長度”和“轉(zhuǎn)發(fā)數(shù)”的數(shù)據(jù)分布對比,“評論數(shù)”和“點贊數(shù)”與“轉(zhuǎn)發(fā)數(shù)”類似。endprint
圖8為本文方法與其他方法的效率對比,與PSUG相比,兩種方法在屬性相關性分析方法策略上有所不同,但數(shù)據(jù)生成的速率本文方法大約為PSUG的2倍;與不保證時序相關的流數(shù)據(jù)表生成方法相比,本文提出的方法加入了數(shù)據(jù)時序性的特征,生成速度大約下降了20%,速度損失可以接受。
7總結(jié)和展望
本文提出了一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,采用了更加適用于流式大數(shù)據(jù)系統(tǒng)的非線性相關系數(shù)MIC來描述數(shù)據(jù)屬性之間的相關關系,改進了Prim算法合理地劃分屬性集合;加入流式數(shù)據(jù)重要的時序性特征,盡可能保留了前后數(shù)據(jù)之間的相關性;提出了雙層滑動窗口的概念,能更好地控制數(shù)據(jù)輸出的速率。
本文的不足之處在于:自動化程度不高,不能運行時動態(tài)添加屬性;需要手動定義變量;數(shù)據(jù)時序相關性分析的參數(shù)需要手動賦值;整個數(shù)據(jù)流的流速變化比較突然,實際的應用系統(tǒng)中的數(shù)據(jù)流速變化應該比較平滑;不能支持非結(jié)構(gòu)化類型的數(shù)據(jù)生成。
在未來的工作中,我們希望能夠?qū)?shù)據(jù)生成的預處理過程進一步自動化,挖掘數(shù)據(jù)流的流速變化規(guī)律,支持生成更多數(shù)據(jù)類型的數(shù)據(jù)。
參考文獻
[1]COOPER B F,SILBERSTEIN A.Benchmarking Cloud Serving Systems with YCSB[C].international IEEE SOCC,2010.
[2]LU Ruirui,WU Gang,XIE Bin.StreamBench:Towards Benchmarking Modern Distributed Stream Computing Frameworks[C].IEEE/ACM 7th International Conference on Utility and Cloud Computing.2014.
[3]ZHAN Jianfeng,GAO Wanling,WANG Lei.Big Data Bench:An Opensource Big Data Benchmark Suite[J].Chinese Journal Of Computers,2016,39(1):196-211.
[4]LO Eric,CHENG Nick.Generating Databases for Query Workloads[J].VLDB.2010,3(1),848-855.
[5]HOAG J E,THOMPSON C W.A parallel generalpurpose synthetic data generator[C].SIGMOD.2007,36(1),19-24.
[6]HOUKJAR K,TORP K,WID R.Simple and realistic data generation[C].VLDB.2006,1243-1246.
[7]GU Ling,ZHOU Minqi.A Scalable Framework for Universal Data Generation in Parallel[C].6th TPCTC.2014.
[8]GU Ling,ZHOU Minqi.Chronos:An Elastic Parallel Framework for Stream Benchmark Generation and Simulation[C],IEEE 31st International Conference on Data Engineering.2015.
[9]LIANG Jiye,F(xiàn)ENG Chenjiao,SONG Peng.A Survey on Correlation Analysis of Big Data[J].ChineseJournal Of Computers,2016,39(1),1-18.
[10]QIAN Yuhua,CHENG Honghong,LIANG Xinyan.Review for Association Measures in Big Data[J].Journal of Data Acquisition and Processing,2015,30(6),1147-1159.
[11]RESHEF D N,RESHEF Y A,F(xiàn)INUCANE H K,et al.Grossman.Detecting Novel Associations in Large Data Sets[C].Science,2011,334(10),1518-1524.
[12]HU Bo,GUO Li.Practical statistical analysis method and technology[M].Beijing:Chemical Industry Press,2013.
[13]ARASU A,KAUSHIK R,LI Jian.Data Generation using Declarative Constraints[J].Acm Sigmod International Conference on Management of Data,2011,685-696.endprint