国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數據基準測試程序包構建方法研究

2014-07-19 11:21:56喻之斌須成忠
集成技術 2014年4期
關鍵詞:測試程序數據系統(tǒng)基準

熊 文 喻之斌 須成忠

(中國科學院深圳先進技術研究院云計算技術研究中心 深圳 518055)

大數據基準測試程序包構建方法研究

熊 文 喻之斌 須成忠

(中國科學院深圳先進技術研究院云計算技術研究中心 深圳 518055)

基準測試程序是評估計算機系統(tǒng)的關鍵測試工具。然而,大數據時代的到來使得開發(fā)大數據系統(tǒng)基準測試程序面臨著更加嚴峻的挑戰(zhàn),當前學術界和產業(yè)界還不存在得到廣泛認可的大數據基準測試程序包。文章利用實際的交通大數據系統(tǒng)構建了一個基于 Hadoop 平臺的交通大數據基準測試程序包 SIAT-Bench。通過選取多個層次屬性量化了程序行為特征,采用聚類算法分析了不同程序-輸入數據集對的相似性。根據聚類結果,為 SIATBench 選取了有代表性的程序和輸入數據集。實驗結果表明,SIAT-Bench 在滿足程序行為多樣性的同時消除了基準測試集中的冗余。

大數據基準測試程序;輸入數據集;程序相似性;城市交通系統(tǒng);GPS 軌跡數據

1 引 言

1.1 大數據的特點

由于云計算、物聯網和社交網絡等新興服務的出現,人類社會的數據種類和規(guī)模正以前所未有的速度增長和擴大,標示著大數據時代正式到來[1]。一份來自谷歌的報告表明:2011 年,全球互聯網用戶占全部人口的 32.77%。這意味著全世界 23 億人每天都在產生新的數據。2012 年 3月,IBM 公司報告全世界每天產生的數據量達到了 2.5 EB(1 EB=1000000000 GB)[2]。

大數據區(qū)別于其他數據的特征主要體現在三點:Volume(數據量大)、Velocity(速度快)和Varity(種類多)[2]。大數據的量大指單個數據集達到了 PB 以上;速度快指數據的增長速度非???;種類多指數據格式繁多,包括結構化、半結構化和非結構化數據。非結構化數據包括視頻、音頻、日志文件和其他一切不能方便地存儲到傳統(tǒng)關系型數據表中的數據。除此以外,一些大數據研究組織和社區(qū)認為 Value 也是大數據的一個基本特征,指數據量大但價值稀缺。他們認為,大數據問題是真實的問題,一個好的大數據解決方案應該能夠給商業(yè)組織和其客戶創(chuàng)造價值。

為了更好地管理和分析如此大規(guī)模的數據集,工業(yè)界和學術界提供了一系列不同的大數據解決方案。然而,目前尚未有廣泛認同的基準測試程序集去評估這些不同的大數據系統(tǒng),并公平比較這些系統(tǒng)的性能差異。上述大數據的特征為大數據基準測試集研發(fā)帶來了巨大的挑戰(zhàn)[3]。

1.2 大數據基準測試程序集研發(fā)的難點

構建大數據基準測試程序集主要面臨五大挑戰(zhàn):(1)大數據系統(tǒng)的復雜性使得很難建立一個理想的基準測試模型;(2)大數據系統(tǒng)中應用領域的多樣性使甄別典型的應用程序特征變得更加復雜;(3)大數據系統(tǒng)中的數據規(guī)模,為基準測試重現程序行為帶來了巨大的挑戰(zhàn);(4)大數據系統(tǒng)的快速演化,要求基準測試包的更新能夠跟得上數據系統(tǒng)的進化[2];(5)沒有真實的數據作為基準測試程序的輸入。這些挑戰(zhàn)使得目前還沒有一個得到廣泛認可的大數據基準測試程序集誕生。

1.3 已有的大數據基準測試程序包

由于大數據基準測試程序非常重要,許多機構和學者已經開始了相關工作,一些大型互聯網公司和科研機構發(fā)布了相關領域的大數據基準測試程序包。如英特爾公司的 HiBench、雅虎公司的 YCSB 以及 YCSB++和中國科學院計算技術研究所的 BigDataBench 等。然而,這些基準測試程序包都存在這樣或那樣的問題。

HiBench 是一個基于 Hadoop 平臺的基準測試程序包,提供的基準測試程序既包括合成的基準測試也包括真實的應用程序。它以程序運行時間和系統(tǒng)吞吐率為基準測試的評價指標[4];YCSB 是雅虎公司發(fā)布的一個關于云服務系統(tǒng)的基準測試程序包,它提供了一系列的核心基準測試程序和負載產生工具。這些負載可以有效對比HBase、Cassandra、Yahoo!’s PNUTS 和 Sharded MySQL 等四種云服務平臺的性能特征[5],為基準測試受眾者選擇最優(yōu)解決方案提供依據;BigDataBench 是中國科學院計算技術研究所發(fā)布的一個基于特定應用領域(網絡搜索引擎)的大數據基準測試程序包[6]。

以上三個不同的基準測試程序包均較好地解決了各自領域的基準測試需求。但其相關介紹中并沒有提及如何選擇基準測試程序和為特定的基準測試程序選擇輸入數據集,且沒有提供真實的輸入數據集。

1.4 大數據基準測試程序集的要求

和傳統(tǒng)基準測試程序包一樣,大數據基準測試程序包也需要滿足以下六個方面的要求:

(1)大數據基準測試應該覆蓋多個應用領域或同一領域的多個方面。當前,主要的大數據應用領域包括科學研究、健康護理、市場、金融、情報、社交媒體和零售等行業(yè),這些不同應用領域對大數據系統(tǒng)提出了不同的要求[2]。

(2)大數據基準測試應該覆蓋多種數據類型,如結構化數據、半結構化數據和非結構化數據。具體來講應該覆蓋:圖數據(如來源于社交網絡或生物網絡)、流式數據、地理信息數據和基因數據等?;鶞蕼y試集的構建應該從應用程序級別開始,在這些不同應用和數據類型間甄別共有的關鍵數據處理程序,如排序等[2]。

(3)大數據基準測試應該采用合成數據。在處理進行大數據基準測試時,從互聯網上下載實際的大規(guī)模數據集代價非常昂貴,并且以當前的網絡帶寬來傳輸大數據集也不切合實際,因此,大數據基準測試包應該提供產生合成數據的算法和工具[2]。但對于這一點,學術界存在很多爭議。有許多學者認為合成數據難以代表程序使用真實數據集時所表現出來的行為,本文亦贊同這一觀點。

(4)大數據基準測試應該考慮數據的隱私和安全。一些大數據集中包含了需要保密的信息,例如患者的醫(yī)療記錄、保險公司的信息和軍事數據等。因此,大數據基準測試使用者要求供應商提供保護隱私安全的大數據解決方案。

(5)大數據基準測試應該考慮系統(tǒng)的可靠性。一些大數據系統(tǒng)往往需要批量處理任務和一些數據流信息,此時可靠性顯得尤為重要,這些類型的應用對大數據解決方案提出了可靠性要求。

(6)大數據基準測試標準應該學習已有的成功案例。我們在構建大數據基準測試應該學習傳統(tǒng)計算機環(huán)境下已經被廣泛認可的基準測試標準,如 TPC、SPEC 和 Top500 等。學習其構建模型的方法和性能評價指標等,甚至可以在其基礎上直接擴展功能,添加大數據基準相關屬性等方法來構建大數據基準測試集。

2 基準測試程序集的構建方法

大數據基準測試程序集的構建主要包括兩方面的工作:(1)選取有代表性的基準測試程序;(2)為每個基準測試程序選取合適的輸入數據集[7]。同時,大數據基準測試集還應該滿足上述的幾個要求。

為了滿足這兩個屬性,必須解決以下幾個問題:

(1)甄別有代表性的基準測試程序;

(2)分析多個基準測試間程序行為特征的相似性,在保留程序行為多樣性的同時去冗余;

(3)為特定的基準測試程序選取適當的輸入數據集;

(4)為基準測試程序選取評價指標。

本節(jié)將簡單介紹 SIAT-Bench 的構建方法和初步結論,其詳細方法、流程和結果將在后續(xù)的研究成果中陸續(xù)發(fā)布。

2.1 選取典型的應用程序

如圖 1 所示,一個典型的大數據系統(tǒng)類似于一個流水線,由多個不同的數據處理階段組成。具體的大數據處理流水線可能各有不同,但基本組成一般都包括圖 1 所示的五個階段。

基準測試程序包一般包括系統(tǒng)級的基準測試程序和組件級的基準測試程序[2]。一個系統(tǒng)級的基準測試程序會圍繞整個大數據系統(tǒng)流水線進行。這樣的基準測試程序也被稱之為端到端的基準測試。而一些基準測試研究者期待一個基準測試程序能夠測試整個大數據系統(tǒng),這是不切實際的。一個好的系統(tǒng)級的基準測試程序能夠為受眾者提供簡單直接的方法來比較不同的大數據系統(tǒng)。參與基準測試的所有大數據系統(tǒng)均使用相同的測試程序并通過相同的標準進行對比。系統(tǒng)級基準測試程序的優(yōu)勢是為系統(tǒng)性能提供一個簡單明了的視圖,不需要區(qū)分組件級別基準測試程序在不同階段或過程中的具體執(zhí)行情況。

組件級的基準測試程序比系統(tǒng)級的基準測試程序更具靈活性,組件級的基準測試程序也相對較容易定義,并且只測試系統(tǒng)的某一個方面,容易部署并且只作用于系統(tǒng)的目標組件。

2.2 確定基準測試程序和輸入數據集

在本節(jié)中,我們通過對程序行為特征進行相似性分析來確定基準測試程序和其對應的輸入數據集。程序行為的相似性分析包括兩步。首先,以一組屬性量化程序行為特征;其次,利用統(tǒng)計相關技術如熵權法、主成分分析和聚類技術對程序行為相似性進行分析。

為構建 SIAT-Bench,我們使用不同層次的特征來對程序行為進行分析:

(1)應用級的特征,如系統(tǒng)的 IO 吞吐率、map 輸入輸出數據量的比率和 map 階段與 reduce階段的運行時間比率;

(2)操作系統(tǒng)級的特征,如磁盤讀寫的數據量、網絡傳輸的數據量等;

(3)微體系結構級的特征,如 IPC(Instruction Per Cycle)和緩存缺失率(Cache Miss Ratio)等;

(4)分布式系統(tǒng)級的特征,如各計算節(jié)點間的不平衡性。

從以上的層次中,我們選取了 21 個屬性來描述程序行為特征。

在實驗過程中,我們以程序——輸入數據集的組合為基本描述對象(Program-Input Pair),以一個 21 個屬性構成的向量來代表一個描述對象的行為。因此,這些不同向量可以用來量化分析不同程序之間的相似程度,使基準測試程序集保持程序行為多樣性的同時消除基準測試集中的冗余程序。也可以通過分析不同輸入數據集對程序行為的影響來為基準測試程序選取典型輸入數據集。

數據分析的主要流程包括:

(1)對原始數據進行熵權運算,對每個屬性進行權重排序,熵權體現評價對象的區(qū)分度。按一定的標準在原始屬性中按權重選出一個子集;

(2)對(1)中的輸出數據進行正則化處理(均值為 0,方差為 1),消除不同屬性間量綱的差異;

(3)對(2)中的輸出數據進行主成分分析(PCA),確定主成分個數;

(4)用各主成分的新坐標表示程序和其輸入數據集組合;

(5)計算表示程序和輸入數據集組合向量的歐式距離,進行層次聚類。

應用程序之間程序行為的差異以及輸入數據集對程序行為的影響,可以很直觀地通過散點圖和層次聚類圖表達。兩個不同程序與輸入數據集組合的程序行為越相似,與之對應的兩個向量在程序行為空間內越接近;反之,如果兩個點距離較大,說明其對應的程序行為差異較大。

因此根據聚類結果,可以很容易去除基準測試程序集中的冗余程序。對同一基準測試程序也很容易根據聚類結果選出有代表性的輸入數據集。

2.3 基準測試評價指標

圖 1 一個典型的大數據系統(tǒng) Pipeline 模型Fig. 1. Pipeline of a typical Big Data system

性能評價指標是基準測試和對比不同系統(tǒng)的基礎。一般情況下,除了系統(tǒng)的吞吐率(Throughput),性能評價指標也包含性能(Performance)和成本(Cost)?;鶞蕼y試的受眾者會根據性能評價指標進行折中考慮,根據自身的需求選取性價比最高的大數據解決方案。

另外,基準測試結果的精確性(Correctness)和結果表現出的可預測性(Predictability)也是性能評價指標的重要方面。例如,如果測試結果表現出很好的可預測性,基準測試的受眾者可以根據當前規(guī)模環(huán)境下的測試結果估算更大規(guī)模的基準測試結果。

3 實驗和分析

本節(jié)以 Terasort 為例,使用 2.2 中描述的方法量化分析輸入數據集對程序行為的影響,同時確定 Terasort 有代表性的輸入數據集。

3.1 實驗平臺

在實驗中,我們部署了一個包含 9 個節(jié)點的Hadoop 集群,其中 8 個節(jié)點作為存儲和計算節(jié)點,一個節(jié)點作為管理調度節(jié)點。全部節(jié)點均采用相同的軟硬件配置并且通過一個千兆網卡相鏈接。具體配置如下:

每節(jié)點兩個 Intel Xeon E5620 處理器,3 個 2 TB 的硬盤,16 GB 的 RAM;操作系統(tǒng)為 Ubuntu 12.04, 內核版本是 3.2.0;Hadoop 的版本是1.0.3,每個節(jié)點配置 8 個 map slot 和 8 個 reduce slot,每個 slot 分配 1 GB 的內存;JDK 的版本是1.7.0;Terasort 來自 HiBench2.2;性能剖析工具為opro fi le-0.98。

我們使用 oprofile 獲取微體系結構級別的信息,使用 Hadoop 平臺自帶的監(jiān)控工具獲取 job level 的信息,使用操作系統(tǒng)自帶的命令 iostat 獲取磁盤和網絡資源使用信息,采用工具 ntp 進行集群時鐘同步。

為了保證結果的準確性,每次實驗前我們都對系統(tǒng)進行了預熱,并且每組實驗都進行 3 次以上,實驗結果為三次實驗結果的平均值。

3.2 結果分析

如圖 2 所示,熵權值最大的是 map 與 reduce任務平均耗時的比值,說明 map 任務平均耗時的變化程度和 reduce 任務平均耗時的變化程度非常不一致。原因如下:一方面,由于在運行過程中reduce 任務的數量不變,輸入數據集的增大導致了單個 reduce 任務平均運行時間的增加;另一方面,由于每個 map 任務處理的數據量是固定的,即使 map 任務需要處理的總數據量隨輸入數據集的增大而增加了,單個 map 任務的平均運行時間也基本不變。

圖 2 屬性的熵權排序Fig. 2. Entropy weight for all metrics

熵權值次之的是失敗的 map 任務數與總 map任務數的比值。這是由于輸入數據集的增加導致了 map 任務的總數增加,但發(fā)生錯誤的 map 任務個數基本固定(13~17),并沒有隨著 map 任務總數的增加而增加。值得注意的是,目前的結論只針對 Terasort 程序。

圖 2 中右側幾個量(L)的熵權值幾乎為零。考慮到熵權是描述變量所起作用的權重,說明這些變量對描述程序行為基本不起作用。

主成份分析能去除原始變量中相互關聯的變量,對原始數據進行降維,使數據的特征能夠在平面圖中更直觀的展示。因此,我們對 Terasort的特征數據進行了主成分分析。結果如圖 3 所示,前四個主成份的貢獻率分別是 57.44%、24.37%、8.96% 和4.67%。前三個主成份其貢獻率已累積達到 90.77%。

圖 3 主成份的貢獻率Fig. 3. Rate of contribution of the principal component

圖 4 是第一主成份和第二主成份的散點圖。從圖中可以看出有兩個明顯的點簇(即兩個橢圓標示的區(qū)域)。圖中的每個點表示一種尺寸的輸入數據。輸入數據小于 144 G(本文所使用的實驗平臺為 9 個節(jié)點的集群,共 144 GB 內存)的 Terasort 程序行為可以分為一組,而輸入數據大于 144 G 的情況可以分為另一組。如果我們定義數據處理能力為 Terasort 在單位時間內能排序的數據量,則當輸入數據集小于 144 GB時,系統(tǒng)的處理能力保持在 0.09 GB/s 左右;但當輸入數據集大于 144 GB 時,數據處理能力急劇降低到 0.03 GB/s 左右。這是因為輸入數據集大于內存時,Terasort 處理程序受內存的限制需要將中間計算結果寫到磁盤中,更多的 IO 導致了處理能力的下降。對于 Terasort 在輸入數據集在 20 GB 的異常點,Terasort 全部操作都在內存中進行,磁盤 IO 相對較少,有著最高的IPC 值。

圖 4 第一主成份和第二主成份散點圖Fig. 4. Scatter diagram of the fi rst and second principal components

如圖 5,該層次聚類圖表達出除輸入數據集在 20 GB 和 1000 GB 之外,數據集越接近,程序行為越相似,如 400 GB 和 500 GB、200 GB和 300 GB、 80 GB 和 100 GB。按照一定的標準假設以距離 2.5 為劃分,Terasort 的 11 個輸入數據集可以劃分為三類,分別是 20 GB、40 GB~500 GB 和 1000 GB。因此,我們推薦使用 20 G、40 G 和 1000 G 作為 Terasort 典型輸入數集來進行基準測試。

圖 5 Terasort 多個數據集層次聚類Fig. 5. Hierarchical clusterings of Terasort datasets

4 SIAT-Bench

圖 6 示意了中國科學院深圳先進技術研究院云計算技術研究中心為深圳市交通委員會開發(fā)的交通大數據處理系統(tǒng)。系統(tǒng)的數據來源于兩部分:(1)深圳市出租車和公交車的實時 GPS 軌跡數據;(2)深圳市地鐵公交智能卡實時交易數據。系統(tǒng)部署的應用分為兩類,一類是面向交通委員會的非實時數據分析應用;另一類是面向公眾的實時查詢業(yè)務。

系統(tǒng)由三個子系統(tǒng)構成,分別是:(1)數據采集子系統(tǒng)。負責接收終端設備如 GPS 終端和智能卡讀卡器的數據,驗證數據的有效性,將數據存儲到 HDFS 或 HBase 中;(2)數據存儲子系統(tǒng)。這是一個多層次的混合式云存儲系統(tǒng),由HDFS、HBase 和傳統(tǒng)的關系型數據庫 mysql 構成。數據在不同階段將被存儲在不同的存儲子系統(tǒng)中;(3)數據應用子系統(tǒng),在系統(tǒng)中部署的兩類對外提供服務的應用。

系統(tǒng)規(guī)模包含 1500 多萬張深圳通卡,30000多輛出租車和公交車。平均每天產生 1200 萬條深圳通卡交易記錄和 9000 萬條 GPS 軌跡數據。目前系統(tǒng)保存了近一年以來的全部數據,累計數據總量達到 7 TB 以上。

圖 6 深圳市交通大數據系統(tǒng)架構Fig. 6. Architecture of a Big Data system for transportation system in Shenzhen

SIAT-Bench 以該實際系統(tǒng)為基礎,目標是實現一套交通大數據基準測試程序包,使其能夠準確代表交通領域的典型應用如數據采集、存儲和索引、分析和挖掘等。利用 SIAT-Bench 能夠準確評估交通大數據系統(tǒng)的性能和特點。

4.1 SIAT-Bench 特點

SIAT-Bench 中程序的功能特點為:(1)建立交通領域數據采集,分析和挖掘的應用模型;(2)能準確刻畫交通數據處理過程中的典型應用場景,準確評估同類交通大數據系統(tǒng)的性能;(3)客觀重現了典型交通數據處理程序的行為特征;(4)支持大規(guī)模數據集,每天 9000 萬條 GPS軌跡數據和 1500 萬條智能卡刷卡數據。

4.2 基準測試程序介紹

SIAT-Bench 目前包含 5 個應用程序,均基于Hadoop 平臺。其中有 2 個程序使用 Apache pig平臺實現,3 個程序由 java 語言實現。程序具體描述如下:

(1) Mapmatching(GPS 軌跡數據地圖匹配)。由于實際采集的 GPS 軌跡數據(經度和緯度)與數字地圖中的道路存在偏差,用Mapmatching來將出租車和公交車的GPS數據軌跡和數字地圖進行準確匹配。它使用 Java 實現,是其他應用如交通流量分析的基礎。

(2) Secondarysort(二次排序)。該程序以時間戳和出租車車牌號為主鍵對交通數據進行排序,它是數據預處理的主要步驟,基于 pig 實現。

(3) Traffic hotregion(出租車時空分布分析)。該程序統(tǒng)計分析深圳市全部出租車的時空分布,基于 java 實現。圖 7 示意了該程序的運行結果,從圖中可以明確看出在某時刻機場東站區(qū)域有空的士 85 輛,載客的士 310 輛。

圖 7 深圳市某一時刻出租車的分布情況Fig. 7. Taxicab distribution at a certain time in Shenzhen

(4) Sztod(出租車或人群流動統(tǒng)計)。該程序基于 java 來統(tǒng)計指定時間段內從區(qū)域 A 到區(qū)域 B的出租車或人的數量。

(5) Traffic hotspot(交通熱點分析)。該程序通過 pig 來統(tǒng)計市內交通熱點如火車站、購物中心和機場等地點交通流量并進行分析。

5 結論和工作展望

從實驗分析過程可以看出,在構建大數據基準測試程序包時,量化大數據典型程序行為的方法并對程序行為的相似性進行分析可以有效滿足開發(fā)基準測試程序包的兩個要求,在保持程序行為多樣性的同時消除冗余性。

對于 Terasort,當輸入數據集在 200 G~1000 G 變化時,程序行為相似。因此針對 Terasort 只需選定 200 G 為其代表性的輸入數據集,既可以準確評估 Terasort 在輸入數據為 1000 G時的行為特征,又能準確推算程序的運行時間,這個方法節(jié)約了 80% 的系統(tǒng)評估時間。

我們將進一步完善 SIAT-Bench 的功能,建立準確的數據更新模型,構建更加準確的基準測試程序。

[1] Meng XF, Ci X. Big data management: concepts, techniques and challenges [J]. Journal of Computer Research and Development, 2013, 50(1): 146-169.

[2] [EB/OL]. http://www.cse.wusl.edu/~jian/cse567-13/ftp/bigdata/index.html.

[3] Chen YP. We don’t know enough to make a big data benchmark suite-an academia-industry view [C] // Workshop on Big Data Benchmarking, 2012.

[4] Huang SS, Huang J, Dai J, et al. The HiBench benchmark suite: characterization of the MapReduce-based data analysis [C] // 2010 IEEE 26th International Conference on Data Engineering Workshops, 2010: 41-51.

[5] Gao WL, Zhu YQ, Jia Z, et al. Bigdatabench: a Big Data Benchmark Suite from Web Search Engines [Z]. arXiv preprint arXiv:1307.0320, 2013.

[6] Cooper BF, Silberstein A, Tam E, et al. Benchmarking cloud serving systems with YCSB [C] // Proceedings of the 1st ACM Symposium on Cloud Computing, 2010: 143-154.

[7] Eeckhout L, Vandierendonck H, De Bosschere K. Quantifying the impact of input data sets on program behavior and its applications [J]. Journal of Instruction-Level Parallelism, 2003, 5(1): 1-33.

[8] Phansalkar A, Joshi A, John LK. Analysis of redundancy and application balance in the spec cpu2006 benchmark suite [C] // Proceedings of the 34th Annual International Symposium on Computer Architecture, 2007: 412-423.

An Approach to Build a Big Data Benchmark Suite

XIONG Wen YU Zhibin XU Chengzhong

( Cloud Computing Technology Research Center, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055, China )

Benchmarks are important tools to evaluate the performance of a variety of computing systems. However, benchmarks for big data systems are lacking as big data is relatively new and researchers are interested in understanding how big data systems including hardware and software work but do not have data. In this paper, an approach to develop big data benchmarks was devised at first. Then a big data benchmark suite named SIAT-Bench, which contains five representative workloads from Shenzhen urban transportation system, was presented. To this end, the program behavior was characterized and the impact of input data sets was quali fi ed by observing metrics from multiple levels such as microarchitecture, OS and application layer. Then statistical techniques such as Principal Component Analysis (PCA) and Clustering were employed to perform similarity analysis between different workload-input pairs. Finally, we built SIATBench by selecting representative workloads and associated input sets according to the clustering results. Experimental results show that SIAT-Bench properly satis fi es the requirements of a benchmark suite.

big data benchmark; workload-input pairs; similarity; urban traf fi c systems; GPS trajectory data

TP 39

A

2014-4-18

熊文,博士研究生,工程師,研究方向為大數據基準測試和并行計算;喻之斌(通訊作者),副研究員,研究方向為計算機體系結構和性能評估,E-mail:zb.yu@siat.ac.cn;須成忠,研究員,研究方向為并行與分布式系統(tǒng)、互聯網與云計算、高性能計算和移動嵌入式系統(tǒng)。

猜你喜歡
測試程序數據系統(tǒng)基準
基于Spark的高速收費站大數據系統(tǒng)的設計與實現
基于計算機軟件開發(fā)技術的物聯網數據系統(tǒng)
基于Castle型機械手的三溫量產測試平臺實現
非均勻采樣數據系統(tǒng)的新型模型描述方法
自動化學報(2017年5期)2017-05-14 06:20:51
手機APP交互界面人因適合性測試程序的設計與實現
中心主導制訂的《VHF/UHF頻率范圍內測向系統(tǒng)測向靈敏度的測試程序》等兩項國際標準在ITU官網正式發(fā)布
明基準講方法保看齊
電氣自動化控制設備可靠性測試探討
滑落還是攀爬
巧用基準變換實現裝配檢測
河南科技(2014年15期)2014-02-27 14:12:35
平定县| 昆明市| 肇源县| 汝州市| 齐河县| 顺昌县| 务川| 五河县| 常熟市| 高州市| 康乐县| 石台县| 四会市| 科尔| 合作市| 阿合奇县| 宣城市| 当阳市| 宕昌县| 富源县| 福泉市| 方城县| 新安县| 长乐市| 绍兴县| 中卫市| 濮阳市| 苏尼特右旗| 垦利县| 清苑县| 贵南县| 平果县| 富裕县| 全南县| 渭源县| 本溪市| 广南县| 舟曲县| 玉田县| 隆化县| 黔南|