国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Cassandra的海量MUSER數(shù)據(jù)分布式存儲(chǔ)與檢索研究*

2018-07-12 11:19:50李鵬程劉應(yīng)波
天文研究與技術(shù) 2018年3期
關(guān)鍵詞:存儲(chǔ)系統(tǒng)射電海量

石 玥,王 鋒,2,李鵬程,劉應(yīng)波

(1. 昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;2. 中國(guó)科學(xué)院云南天文臺(tái),云南 昆明 650011)

明安圖射電頻譜日像儀(Mingantu Ultrawide SpEctral Radioheliograph, MUSER)是同時(shí)以高時(shí)間、高空間和高頻率分辨率對(duì)太陽(yáng)進(jìn)行射電頻譜成像的設(shè)備,主要對(duì)日冕層進(jìn)行層析觀測(cè),探測(cè)日冕大氣,研究太陽(yáng)活動(dòng)的動(dòng)力學(xué)性質(zhì)。項(xiàng)目分為兩期:第1期低頻陣(MUSER-I)由40面4.5 m口徑的拋物面天線及接收設(shè)備組成,在64個(gè)頻率點(diǎn)上成像;第2期高頻陣(MUSER-Ⅱ)由60面2 m口徑的拋物面天線及接收設(shè)備組成,可以在528個(gè)頻率點(diǎn)上成像[1]。

明安圖射電頻譜日像儀的觀測(cè)數(shù)據(jù)需實(shí)時(shí)存儲(chǔ)并處理以研究太陽(yáng)動(dòng)向和監(jiān)控天線的觀測(cè)狀態(tài),對(duì)目前基于關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)處理具有較大的技術(shù)挑戰(zhàn)。明安圖射電頻譜日像儀數(shù)據(jù)的存儲(chǔ)需求具體如下[2]:

(1)數(shù)據(jù)存儲(chǔ)。需要能夠支持每月低頻陣和高頻陣約32 TB和70 TB數(shù)據(jù)的存儲(chǔ)工作。

(2)數(shù)據(jù)的一致性存儲(chǔ)。需要把幀頭數(shù)據(jù)和幀數(shù)據(jù)處理后的圖像進(jìn)行統(tǒng)一存儲(chǔ)。

(3)數(shù)據(jù)的管理和檢索。需要實(shí)現(xiàn)明安圖射電頻譜日像儀數(shù)據(jù)管理系統(tǒng),更直觀地把數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)呈現(xiàn)出來(lái),在完成圖像相似匹配的前提下實(shí)現(xiàn)信息的高效檢索。

在現(xiàn)有的存儲(chǔ)方案中,數(shù)據(jù)的一致性不能得到有效保障,在數(shù)據(jù)量大的情況下,很容易發(fā)生幀頭信息和幀數(shù)據(jù)不匹配的問題。非關(guān)系型數(shù)據(jù)庫(kù)的出現(xiàn),為高速同步存儲(chǔ)海量幀頭數(shù)據(jù)和幀數(shù)據(jù)提供了可能,從而為一致性問題的解決提供了新思路。

1 國(guó)內(nèi)外研究現(xiàn)狀

海量數(shù)據(jù)的存儲(chǔ)管理是天文領(lǐng)域的一個(gè)重要問題,隨著天文大數(shù)據(jù)的產(chǎn)生,各個(gè)天文研究機(jī)構(gòu)也開始研究大數(shù)據(jù)存儲(chǔ)管理方案。美國(guó)華盛頓大學(xué)天文系的計(jì)算機(jī)科學(xué)家采用Hadoop分布式文件系統(tǒng)處理海量天文圖像數(shù)據(jù),使用MapReduce將天文圖像數(shù)據(jù)按組分解成小型文件序列后再輸入系統(tǒng),在減少文件總量的情況下明顯提高處理效率。文[3]提出了一種針對(duì)海量數(shù)據(jù)的新型數(shù)據(jù)管理技術(shù)——負(fù)數(shù)據(jù)庫(kù),利用觀測(cè)數(shù)據(jù)的補(bǔ)充集獲取必要的信息,從而實(shí)現(xiàn)對(duì)明安圖射電頻譜日像儀數(shù)據(jù)的高效管理。文[4]提出了使用NoSQL對(duì)FITS文件頭元數(shù)據(jù)進(jìn)行存儲(chǔ)研究,并且對(duì)其可行性進(jìn)行了實(shí)驗(yàn)論證。為了滿足海量天文數(shù)據(jù)的高性能檢索和查詢需求,文[5]提出了一種基于ElasticSearch分布式搜索引擎,實(shí)現(xiàn)了海量數(shù)據(jù)高效檢索的方法。文[6]提出了一個(gè)基于Cassandra的分布式反向索引,用以解決傳統(tǒng)關(guān)系型數(shù)據(jù)存儲(chǔ)無(wú)法解決的可擴(kuò)展性問題,并在此基礎(chǔ)上設(shè)計(jì)了數(shù)據(jù)模型和查詢處理過程。理論上這個(gè)方法同樣可以用在天文數(shù)據(jù)處理中。這些工作雖在一定程度上提升了工作效率,但是仍在數(shù)據(jù)高效存儲(chǔ)方面有所不足。

文[7]實(shí)現(xiàn)了一個(gè)基于NoSQL的高性能存儲(chǔ)系統(tǒng),對(duì)數(shù)據(jù)的存儲(chǔ)位置和數(shù)據(jù)查詢結(jié)構(gòu)進(jìn)行深入研究,保證了數(shù)據(jù)存儲(chǔ)的靈活性、可移植性和穩(wěn)定性。文[8]針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)無(wú)法滿足海量數(shù)據(jù)存儲(chǔ)與訪問需求的問題,提出了基于NoSQL的分布式存儲(chǔ)與擴(kuò)展解決辦法,提出將NoSQL作為鏡像引入數(shù)據(jù)庫(kù)架構(gòu)系統(tǒng),在一定程度上避免了資源浪費(fèi)以及服務(wù)器過載。經(jīng)相關(guān)實(shí)驗(yàn)論證,上述兩種研究均可應(yīng)用于天文數(shù)據(jù)處理方面。

文[9]基于NoSQL技術(shù)設(shè)計(jì)了明安圖射電頻譜日像儀數(shù)據(jù)歸檔與發(fā)布系統(tǒng),使用FastBit數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)研究,利用位圖索引的優(yōu)勢(shì),大大提高了索引查詢的效率。對(duì)海量數(shù)據(jù)存儲(chǔ)和檢索的有效手段的研究和探討與本文的研究存在較大的不同,前者偏重于數(shù)據(jù)檢索效率,本文偏重于數(shù)據(jù)存儲(chǔ)的可靠性、可用性以及一致性。

2 數(shù)據(jù)一致性問題

2.1 一致性問題產(chǎn)生的原因

元數(shù)據(jù)通常用來(lái)描述數(shù)據(jù),例如明安圖射電頻譜日像儀采集圖像的時(shí)間、極化方式等。因此元數(shù)據(jù)成了支持?jǐn)?shù)據(jù)檢索的關(guān)鍵,而數(shù)據(jù)檢索功能是數(shù)據(jù)管理的重要部分。通常這類數(shù)據(jù)的存儲(chǔ)方式是元數(shù)據(jù)和數(shù)據(jù)文件分離存儲(chǔ),這種方式帶來(lái)了數(shù)據(jù)的一致性問題,元數(shù)據(jù)或數(shù)據(jù)一旦其中之一出現(xiàn)丟失,數(shù)據(jù)之間就存在不匹配的情況,特別是在如此巨大的數(shù)據(jù)背景下,這種丟失更容易發(fā)生,因此在這種情況下,元數(shù)據(jù)和數(shù)據(jù)之間的一致性關(guān)系需要得到保證。為了方便后續(xù)分析闡述,對(duì)數(shù)據(jù)的一致性問題進(jìn)行如下描述。

定義:D為數(shù)據(jù),M為D的元數(shù)據(jù),M由多個(gè)字段A1,A2,A3,...屬性構(gòu)成。用集合關(guān)系可表示為

M={A1,A2,A3,...,An}.

(1)

2.2 傳統(tǒng)存儲(chǔ)過程中的解決方案

對(duì)于一致性解決方案有如下兩種:

(1)簡(jiǎn)單的一致性處理方案。使用異步非阻塞的方式存儲(chǔ)元數(shù)據(jù)和數(shù)據(jù)文件,二者不存在一致性的協(xié)商手段,主機(jī)的可靠性是保證數(shù)據(jù)一致性的前提,如圖1。

(2)兩段提交協(xié)議。文[10]使用成熟的兩段提交協(xié)議做數(shù)據(jù)服務(wù)之間的同步,文中把FITS文件各個(gè)參與部分按照兩段提交的角色進(jìn)行劃分,如圖2。數(shù)據(jù)采集服務(wù)器充當(dāng)協(xié)調(diào)者的角色,元數(shù)據(jù)和數(shù)據(jù)充當(dāng)成員的角色,三者直接通過兩段提交協(xié)議進(jìn)行一致性確認(rèn)。

2.3 基于NoSQL的一致性解決方法

數(shù)據(jù)和元數(shù)據(jù)同步存儲(chǔ),在數(shù)據(jù)量小,性能要求不高的場(chǎng)合,可以很容易處理。針對(duì)明安圖射電頻譜日像儀的UVFITS文件,許多關(guān)系型數(shù)據(jù)庫(kù)提供了大數(shù)據(jù)的存儲(chǔ)方式,利用MySQL的Longlob,PostgreSQL的Bytea,SQLServer的Blob,Oracle的Blob和Clob等,但這種方式存儲(chǔ)的最大問題在于關(guān)系型數(shù)據(jù)庫(kù)的原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)的特性限制,導(dǎo)致了在面對(duì)海量天文數(shù)據(jù)的時(shí)候出現(xiàn)的寫入延遲高、水平擴(kuò)展能力差以及數(shù)據(jù)結(jié)構(gòu)固定等諸多問題。

圖1一致性問題處理
Fig.1Consistency problem processing

圖2兩段提交協(xié)議
Fig.2Two phase commit protocal (2PC)

針對(duì)這些問題,本文研究基于NoSQL的分布式海量數(shù)據(jù)存儲(chǔ)方案,通過調(diào)研和研究,選取Cassandra[11]作為底層數(shù)據(jù)存儲(chǔ)平臺(tái),相對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),Cassandra具有存儲(chǔ)速度快、擴(kuò)展性高、數(shù)據(jù)結(jié)構(gòu)隨機(jī)等特點(diǎn),此外與其他NoSQL數(shù)據(jù)庫(kù)相比,還具備以下優(yōu)點(diǎn):

(1)無(wú)中心架構(gòu),單點(diǎn)故障不會(huì)造成系統(tǒng)運(yùn)行中斷。

(2)動(dòng)態(tài)水平擴(kuò)展,新節(jié)點(diǎn)的加入不會(huì)影響當(dāng)前工作的進(jìn)程。

(3)存儲(chǔ)模式具有更高的靈活性,可以在系統(tǒng)運(yùn)行時(shí)隨意為記錄添加或刪除字段。

(4)高并發(fā)讀寫能力,超級(jí)列和列族概念的引入,使得鍵值匹配次數(shù)減少,減少了文件數(shù)據(jù)的尋址時(shí)間,可以實(shí)現(xiàn)高速讀寫數(shù)據(jù)。

新數(shù)據(jù)模型采用數(shù)據(jù)文件和元數(shù)據(jù)在一起的方式進(jìn)行數(shù)據(jù)存儲(chǔ),這種方式不僅避免了一致性問題,同時(shí)在性能上也較傳統(tǒng)的方式有很大的提高,表1為Cassandra數(shù)據(jù)庫(kù)和MySQL數(shù)據(jù)庫(kù)插入數(shù)據(jù)情況對(duì)比。相比于MySQL采用共享內(nèi)存的存儲(chǔ)機(jī)制,Cassandra具有的高并發(fā)讀寫能力以及無(wú)中心架構(gòu)更加有利于保證數(shù)據(jù)存儲(chǔ)的高效性以及一致性。

表1 性能對(duì)比Table 1 performance comparison

3 基于NoSQL的海量天文數(shù)據(jù)存儲(chǔ)系統(tǒng)MBDMS

3.1 明安圖射電頻譜日像儀數(shù)據(jù)建模

明安圖射電頻譜日像儀可設(shè)置在循環(huán)和非循環(huán)兩種模式下進(jìn)行觀測(cè)。循環(huán)模式即天線的觀測(cè)在各個(gè)射頻頻段之間循環(huán)進(jìn)行,非循環(huán)模式即天線的觀測(cè)頻率固定在同一頻率范圍。明安圖射電頻譜日像儀有兩種極化方式,左旋和右旋;有4個(gè)波段,分別為0.4~0.8 GHz、0.8~1.2 GHz、1.2~1.6 GHz、1.6~2.0 GHz。每個(gè)波段有16個(gè)通道,每個(gè)通道的帶寬為25 MHz。在實(shí)際觀測(cè)中,每3ms生成一幀數(shù)據(jù),每幀數(shù)據(jù)由幀頭和數(shù)據(jù)組成,總數(shù)據(jù)量為0.1 MByte。每分鐘可以產(chǎn)生19 200幀數(shù)據(jù)。研究針對(duì)明安圖射電頻譜日像儀數(shù)據(jù)的觀測(cè)時(shí)間、文件名、極化方式、種類、頻率等信息進(jìn)行存儲(chǔ)。其中觀測(cè)時(shí)間(time)為主鍵,設(shè)置為非空,filename為文件名及存儲(chǔ)路徑,設(shè)置為非空。極化(polarization)和頻率(frequency)等均為幀頭的參數(shù),result為幀數(shù)據(jù)轉(zhuǎn)換成的圖片文件,如圖3、圖4。

Cassandra可以看成4維的哈希結(jié)構(gòu)構(gòu)成的Key/Value數(shù)據(jù)模式。其包括鍵值空間(Keyspace)、列族(Column Family)、鍵值(Key)和列(Column),以三級(jí)嵌套的形式存在。如圖3為Cassandra數(shù)據(jù)庫(kù)的兩種數(shù)據(jù)存儲(chǔ)模型設(shè)計(jì)。圖3(a)的設(shè)計(jì)模式為每一個(gè)列族對(duì)應(yīng)一個(gè)列,圖3(b)設(shè)計(jì)模式為每一個(gè)列族對(duì)應(yīng)多個(gè)列。在讀寫操作中,第2種設(shè)計(jì)模式可以減少列族對(duì)鍵值的匹配,減少文件尋址時(shí)間,從而減少系統(tǒng)開銷。本文的數(shù)據(jù)模型采用第2種設(shè)計(jì)模式。Cassandra數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)的流程為提交動(dòng)作記錄到日志,然后把數(shù)據(jù)寫入內(nèi)存Memtable中,等達(dá)到系統(tǒng)設(shè)定條件,再將Memtable中的數(shù)據(jù)批量寫入磁盤,存儲(chǔ)為SStable結(jié)構(gòu)。

圖3數(shù)據(jù)存儲(chǔ)模式
Fig.3The data storage mode

3.2 數(shù)據(jù)存儲(chǔ)系統(tǒng)實(shí)現(xiàn)

圖4為系統(tǒng)層次結(jié)構(gòu)圖??蛻舳私邮苡脩舻恼?qǐng)求,并對(duì)用戶做一些合法性檢查,把用戶的請(qǐng)求發(fā)給服務(wù)器端。服務(wù)器端接收到用戶的請(qǐng)求后,對(duì)用戶的請(qǐng)求做出解析,處理用戶的請(qǐng)求,并把操作數(shù)據(jù)的命令返回?cái)?shù)據(jù)端,數(shù)據(jù)端進(jìn)行相應(yīng)的操作。服務(wù)器端通過數(shù)據(jù)端的返回信息判斷用戶的操作是否成功,返回信息給客戶端。其中客戶端目前需要3個(gè)關(guān)鍵的功能模塊:第1個(gè)模塊為數(shù)據(jù)處理模塊,在這個(gè)模塊中,用戶可以查詢和刪除數(shù)據(jù)庫(kù)中的數(shù)據(jù)信息,并且可以實(shí)現(xiàn)分頁(yè)顯示效果;圖像轉(zhuǎn)化模塊中用戶可以根據(jù)實(shí)際需要,把選定的數(shù)據(jù)中的圖像數(shù)據(jù)轉(zhuǎn)換成圖像,以便于用戶查閱;圖像檢索模塊中用戶可以根據(jù)自己的需求,對(duì)提交的圖像進(jìn)行特征值對(duì)比檢索,用以篩選出數(shù)據(jù)庫(kù)中相似度最高的圖像。基于兩種數(shù)據(jù)庫(kù)接口,利用Python和Django框架實(shí)現(xiàn)了海量天文數(shù)據(jù)存儲(chǔ)系統(tǒng)。明安圖射電頻譜日像儀數(shù)據(jù)展示如圖5。

圖4系統(tǒng)存儲(chǔ)與檢索流程圖
Fig.4The System storage and data retrieval diagram

圖5基于網(wǎng)絡(luò)的明安圖射電頻譜日像儀數(shù)據(jù)檢索展示
Fig.5The exhibition of MUSER data retrieval by using Web GUI

面對(duì)明安圖射電頻譜日像儀數(shù)據(jù)海量、非結(jié)構(gòu)化、一致性弱等特性,客戶端的用戶主要分成兩類:(1)對(duì)元數(shù)據(jù)進(jìn)行整理、加工的管理者,該類用戶對(duì)數(shù)據(jù)側(cè)重方向?yàn)樵獢?shù)據(jù)的統(tǒng)一性、規(guī)整性,以便于更高效地實(shí)現(xiàn)元數(shù)據(jù)的存儲(chǔ);(2)對(duì)明安圖射電頻譜日像儀數(shù)據(jù)進(jìn)行處理的使用者,該類用戶需要通過數(shù)據(jù)庫(kù)中存儲(chǔ)的元數(shù)據(jù)檢索出幀數(shù)據(jù),對(duì)元數(shù)據(jù)和幀數(shù)據(jù)的一致性有更高的要求。

4 性能測(cè)試

為驗(yàn)證數(shù)據(jù)存儲(chǔ)系統(tǒng)的性能,通過其提供的關(guān)系型和非關(guān)系型數(shù)據(jù)接口連接MySQL和Cassandra數(shù)據(jù)庫(kù),在此基礎(chǔ)上進(jìn)行了3組測(cè)試,實(shí)驗(yàn)環(huán)境如下:4臺(tái)E7200酷睿雙核,2.53 GHz CPU,2 G內(nèi)存,7 200轉(zhuǎn)SATA硬盤。操作系統(tǒng)為Centos 64(內(nèi)核版本為2-504.el6.x86_64)。數(shù)據(jù)庫(kù)版本為MySQL-cluster-gpl-7.2.28-linux2.6-x86_64和Apache-Cassandra-3.9-bin,均采用默認(rèn)配置。

4.1 查詢語(yǔ)句

實(shí)驗(yàn)采用如表2常用的檢索語(yǔ)句。

表2 MySQL和Cassandra的查詢語(yǔ)句Table 2 The sentence of queried by MySQL and Cassandra

檢索實(shí)驗(yàn)中使用time(主鍵)為條件進(jìn)行數(shù)據(jù)查詢。采用元數(shù)據(jù)和幀數(shù)據(jù)統(tǒng)一存儲(chǔ)的方式進(jìn)行數(shù)據(jù)存儲(chǔ),保證了數(shù)據(jù)的一致性,并使用新存儲(chǔ)策略采用的Cassandra與舊存儲(chǔ)策略采用的MySQL數(shù)據(jù)庫(kù)進(jìn)行性能測(cè)試,具有一定的代表性。所需查詢的數(shù)據(jù)為數(shù)據(jù)庫(kù)中存有的所有數(shù)據(jù),分別為文件存儲(chǔ)路徑、數(shù)據(jù)種類、數(shù)據(jù)頻率、極化和幀數(shù)據(jù)。為了保證實(shí)驗(yàn)的精確性,兩種數(shù)據(jù)庫(kù)均使用相同的查詢語(yǔ)句。

4.2 檢索性能擴(kuò)展性測(cè)試

圖6(a)為查詢維度為7,集群節(jié)點(diǎn)數(shù)為3,當(dāng)數(shù)據(jù)庫(kù)中數(shù)據(jù)量不同時(shí),兩種數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行查詢的實(shí)驗(yàn)結(jié)果。擴(kuò)展性是明安圖射電頻譜日像儀大數(shù)據(jù)存儲(chǔ)的一個(gè)基本需要,隨著數(shù)據(jù)量的增大,性能和存儲(chǔ)容量也應(yīng)該具有相應(yīng)的擴(kuò)展能力,通常數(shù)據(jù)都以在線的方式提供服務(wù),也要求存儲(chǔ)系統(tǒng)具有動(dòng)態(tài)節(jié)點(diǎn)增加和減少的特性,從結(jié)果可以看出,基于Cassandra數(shù)據(jù)庫(kù)的操作所需的時(shí)間要少于MySQL數(shù)據(jù)庫(kù)。因?yàn)榍罢咴跀?shù)據(jù)插入時(shí),不會(huì)針對(duì)一致性進(jìn)行檢驗(yàn),而后者采用共享內(nèi)存,要為一致性提供保證,因此系統(tǒng)開銷明顯大于Cassandra數(shù)據(jù)庫(kù)。圖6(b)為數(shù)據(jù)量為5 000 000,查詢維度為7,當(dāng)集群節(jié)點(diǎn)數(shù)不同時(shí),兩種數(shù)據(jù)庫(kù)的查詢性能對(duì)比結(jié)果。從結(jié)果可以看出,節(jié)點(diǎn)數(shù)越多,集群的性能越好。通過實(shí)驗(yàn)可以看出,使用Cassandra非關(guān)系型數(shù)據(jù)接口時(shí)MBDMS系統(tǒng)的性能更優(yōu)。

圖6不同數(shù)據(jù)量及節(jié)點(diǎn)數(shù)檢索性能對(duì)比. (a) 不同數(shù)據(jù)量檢索;(b) 不同節(jié)點(diǎn)數(shù)檢索
Fig.6The comparison of data volume and number of node. (a) different data volume; (b) different number of node

4.3 查詢維度對(duì)比

圖7(a)和圖7(b)分別為對(duì)數(shù)據(jù)進(jìn)行單維度和多維度(維度數(shù)為7)查詢時(shí),兩種數(shù)據(jù)庫(kù)的性能對(duì)比情況。

由實(shí)驗(yàn)結(jié)果可以看出,當(dāng)查詢維度增加時(shí),兩種集群的系統(tǒng)開銷均會(huì)增大,但是MySQL數(shù)據(jù)庫(kù)所需時(shí)間增加的速率明顯高于Cassandra數(shù)據(jù)庫(kù)。因?yàn)镸ySQL數(shù)據(jù)庫(kù)共享內(nèi)容的存儲(chǔ)方式與Cassandra數(shù)據(jù)庫(kù)索引樹分節(jié)點(diǎn)的存儲(chǔ)方式不同,當(dāng)多個(gè)進(jìn)程同時(shí)查詢數(shù)據(jù)時(shí),對(duì)索引形成的壓力較大,使系統(tǒng)開銷急劇增加。

圖7不同維度檢索性能對(duì)比. (a) 單維度檢索;(b) 多維度檢索
Fig.7The comparison of different dimensions. (a) single dimension; (b) multiple dimensions

4.4 索引占用空間對(duì)比

圖8對(duì)兩種數(shù)據(jù)庫(kù)存儲(chǔ)相同數(shù)據(jù)時(shí)所占用空間以及索引所占用的空間問題進(jìn)行了分析。對(duì)于一個(gè)高效的海量數(shù)據(jù)存儲(chǔ)體系而言,減少磁盤的開銷是很有必要的。在測(cè)試中分析了磁盤空間占用情況,可以發(fā)現(xiàn),對(duì)于數(shù)據(jù)存儲(chǔ)系統(tǒng),非關(guān)系型數(shù)據(jù)庫(kù)比關(guān)系型數(shù)據(jù)庫(kù)所占用空間小很多,在數(shù)據(jù)量相同的情況下,非關(guān)系型數(shù)據(jù)庫(kù)對(duì)于海量數(shù)據(jù)存儲(chǔ)更有優(yōu)勢(shì)。

圖8存儲(chǔ)占用空間對(duì)比. (a) 數(shù)據(jù)占用空間;(b) 索引占用空間
Fig.8The comparison of storage space. (a) the space of data; (b) the space of index

通過上述幾組實(shí)驗(yàn)可以看出,當(dāng)數(shù)據(jù)集比較小時(shí),例如在五百萬(wàn)以下的時(shí)候,MySQL數(shù)據(jù)庫(kù)的性能基本可以滿足存儲(chǔ)和檢索需求,時(shí)間在7.5 s左右。當(dāng)數(shù)據(jù)集比較龐大,超過一千萬(wàn)的時(shí)候,MySQL數(shù)據(jù)庫(kù)的查詢時(shí)間超過了17 s,顯然,該數(shù)據(jù)庫(kù)查詢的性能已經(jīng)不適合再進(jìn)行后續(xù)的數(shù)據(jù)處理。在上述單維度查詢、多維度查詢和插入的實(shí)驗(yàn)中可以看到,數(shù)據(jù)存儲(chǔ)系統(tǒng)調(diào)用Cassandra數(shù)據(jù)庫(kù)接口時(shí),系統(tǒng)性能有明顯的優(yōu)勢(shì)。

5 結(jié)束語(yǔ)

本文通過Cassandra實(shí)現(xiàn)了明安圖射電頻譜日像儀幀頭數(shù)據(jù)和幀數(shù)據(jù)高速的同步存儲(chǔ),解決了關(guān)系型數(shù)據(jù)庫(kù)環(huán)境下二者分離存儲(chǔ)帶來(lái)的一致性問題,且能夠通過Cassandra的擴(kuò)展性提供海量天文數(shù)據(jù)的適應(yīng)性。同時(shí),數(shù)據(jù)存儲(chǔ)系統(tǒng)能夠很好地與Cassandra數(shù)據(jù)庫(kù)結(jié)合,滿足常用的天文數(shù)據(jù)管理需要,在后續(xù)工作中,將進(jìn)一步完善并優(yōu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)的存儲(chǔ)和檢索性能,提供其他常用主流NoSQL數(shù)據(jù)庫(kù)的數(shù)據(jù)訪問接口。

猜你喜歡
存儲(chǔ)系統(tǒng)射電海量
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
誰(shuí)能抓住“神秘天神”——快速射電暴?
軍事文摘(2022年12期)2022-07-13 03:10:22
射電星系
美國(guó)的綠岸射電望遠(yuǎn)鏡
軍事文摘(2021年22期)2022-01-18 06:22:52
分布式存儲(chǔ)系統(tǒng)在企業(yè)檔案管理中的應(yīng)用
哈爾濱軸承(2020年2期)2020-11-06 09:22:36
海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
天河超算存儲(chǔ)系統(tǒng)在美創(chuàng)佳績(jī)
一個(gè)圖形所蘊(yùn)含的“海量”巧題
世界著名射電望遠(yuǎn)鏡
太空探索(2016年9期)2016-07-12 10:00:01
華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲(chǔ)系統(tǒng)
柏乡县| 微博| 阜新市| 勃利县| 商都县| 托克逊县| 镇远县| 鹤壁市| 晋州市| 大悟县| 社会| 迁西县| 安吉县| 绵阳市| 苍溪县| 奎屯市| 廊坊市| 灌云县| 邹城市| 本溪| 九寨沟县| 甘洛县| 广元市| 夏邑县| 兰考县| 长兴县| 祁连县| 壤塘县| 鄂托克前旗| 徐州市| 个旧市| 永修县| 甘德县| 扶沟县| 曲沃县| 韶关市| 若尔盖县| 东乡族自治县| 准格尔旗| 锡林浩特市| 安新县|