国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向混合存儲(chǔ)的時(shí)空大數(shù)據(jù)存儲(chǔ)策略研究

2023-10-11 08:48
地理空間信息 2023年9期
關(guān)鍵詞:結(jié)構(gòu)化分辨率時(shí)空

王 意

(1.山東省國(guó)土測(cè)繪院,山東 濟(jì)南 250013)

時(shí)空大數(shù)據(jù)是基于統(tǒng)一時(shí)空基準(zhǔn),活動(dòng)于時(shí)空中與位置直接或間接關(guān)聯(lián)的大數(shù)據(jù)[1],是支撐宏觀經(jīng)濟(jì)決策的戰(zhàn)略級(jí)資源[2]。時(shí)空大數(shù)據(jù)存儲(chǔ)性能的優(yōu)劣直接影響其計(jì)算效率和服務(wù)性能[3]。目前混合存儲(chǔ)是時(shí)空大數(shù)據(jù)管理中一種較好的選擇[4-5]。本文在分析當(dāng)前主流存儲(chǔ)管理系統(tǒng)和硬件的基礎(chǔ)上,按照數(shù)據(jù)類型和結(jié)構(gòu)對(duì)存儲(chǔ)對(duì)象進(jìn)行了劃分;結(jié)合時(shí)空混合索引方法,建立了時(shí)空大數(shù)據(jù)存儲(chǔ)模型;分析了時(shí)空大數(shù)據(jù)存儲(chǔ)影響因素,并進(jìn)行定量化表達(dá);提出了基于混合存儲(chǔ)技術(shù)的時(shí)空大數(shù)據(jù)存儲(chǔ)策略,建立了高效可靠的時(shí)空大數(shù)據(jù)放置與遷移方法,以期更好地服務(wù)于時(shí)空大數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)化應(yīng)用。

1 現(xiàn)狀綜述

20 世紀(jì)90 年代關(guān)系型數(shù)據(jù)庫(kù)成為空間數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的主流應(yīng)用模式。由于時(shí)空大數(shù)據(jù)非結(jié)構(gòu)化的數(shù)據(jù)讀寫(xiě)場(chǎng)景,分布式文件系統(tǒng)和分布式非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)應(yīng)運(yùn)而生(表1)。

表1 混合存儲(chǔ)中常見(jiàn)的存儲(chǔ)管理模式

傳統(tǒng)的機(jī)械硬盤(HDD)面對(duì)大數(shù)據(jù)時(shí)代的挑戰(zhàn)已顯得力不從心,新型存儲(chǔ)介質(zhì)具有體積小、能耗低、帶寬高、時(shí)延低、抗震性強(qiáng)、可靠性高等特點(diǎn)。其中,閃存的發(fā)展最迅速,已達(dá)到了實(shí)用化水平,固態(tài)盤(SSD)是閃存最主要的形式。

2 混合存儲(chǔ)策略

2.1 問(wèn)題描述

1)不同管理系統(tǒng)間的數(shù)據(jù)關(guān)聯(lián)問(wèn)題。時(shí)空大數(shù)據(jù)在訪問(wèn)特性和時(shí)效要求上差異較大[6-8]?;旌洗鎯?chǔ)需滿足不同管理模式下數(shù)據(jù)的動(dòng)態(tài)關(guān)聯(lián)需求,將通用的混合存儲(chǔ)技術(shù)與空間信息技術(shù)(空間大數(shù)據(jù)組織方法、空間分布式索引等)深度融合,形成集中統(tǒng)一的數(shù)據(jù)訪問(wèn)接口。

2)數(shù)據(jù)存儲(chǔ)策略缺少對(duì)時(shí)空大數(shù)據(jù)的動(dòng)態(tài)感知和彈性調(diào)度能力。時(shí)空大數(shù)據(jù)的存儲(chǔ)策略應(yīng)具備動(dòng)態(tài)感知和彈性調(diào)度數(shù)據(jù)的能力,可根據(jù)應(yīng)用的歷史訪問(wèn)記錄、存儲(chǔ)設(shè)備特征等因素實(shí)時(shí)調(diào)整數(shù)據(jù)存儲(chǔ)路徑;通過(guò)一個(gè)有效的遷移算法為不同數(shù)據(jù)動(dòng)態(tài)選擇存放介質(zhì),使整個(gè)存儲(chǔ)系統(tǒng)達(dá)到存儲(chǔ)效率和經(jīng)濟(jì)性的最佳平衡,從而最大程度地提升整個(gè)存儲(chǔ)系統(tǒng)的性能。

2.2 總體設(shè)計(jì)

在混合存儲(chǔ)架構(gòu)中的數(shù)據(jù)層構(gòu)建面向時(shí)空大數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù)集群、NoSQL 數(shù)據(jù)庫(kù)集群、分布式文件系統(tǒng)集群的存儲(chǔ)框架,實(shí)現(xiàn)不同管理模式下的數(shù)據(jù)動(dòng)態(tài)關(guān)聯(lián);以SSD、HDD作為二級(jí)存儲(chǔ),根據(jù)I/O特性和數(shù)據(jù)價(jià)值,將不同類別的數(shù)據(jù)分配到SSD或HDD上;設(shè)計(jì)數(shù)據(jù)遷移算法,實(shí)現(xiàn)數(shù)據(jù)在不同介質(zhì)間的移動(dòng)。

2.3 數(shù)據(jù)存儲(chǔ)模型構(gòu)建

構(gòu)建結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)3 種存儲(chǔ)模型,并建立元數(shù)據(jù)及其索引,將具有相同編碼的數(shù)據(jù)進(jìn)行關(guān)聯(lián)。

1)將一個(gè)結(jié)構(gòu)化的數(shù)據(jù)庫(kù)或子數(shù)據(jù)庫(kù)切分為若干具有固定大小的組塊,并對(duì)數(shù)據(jù)塊建立兩層索引。存儲(chǔ)模型包括數(shù)據(jù)塊集合、第一層索引和第二層索引3 個(gè)部分,其中數(shù)據(jù)塊中包含空間幾何信息、空間數(shù)據(jù)信息和其他屬性信息(圖1)。通過(guò)統(tǒng)一的空間編碼方法和哈希編碼方法使每條數(shù)據(jù)具有唯一編碼。

圖1 結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模型

2)半結(jié)構(gòu)化數(shù)據(jù)通過(guò)面向數(shù)據(jù)片的方式管理和查詢數(shù)據(jù),建立空間編碼(索引)。半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模型包括數(shù)據(jù)分片集合和空間編碼兩大部分,其中數(shù)據(jù)分片中包含數(shù)據(jù)、編碼深度和編碼(圖2)。數(shù)據(jù)分片無(wú)需進(jìn)行二次檢索,通過(guò)統(tǒng)一的空間編碼和解碼即可快速查詢和獲取瓦片。

圖2 半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模型

3)非結(jié)構(gòu)化數(shù)據(jù)不能直接存儲(chǔ)矢量數(shù)據(jù),需轉(zhuǎn)換為能保存的空間信息和屬性信息。非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模型包括文件集合和關(guān)聯(lián)編碼兩大部分,其中文件集合記錄文件信息,并通過(guò)統(tǒng)一的關(guān)聯(lián)編碼方法使其具有唯一編碼(圖3)。關(guān)聯(lián)編碼屬于第一級(jí)索引,對(duì)于常規(guī)索引檢索的n個(gè)結(jié)果,可采用分布式并行的方法進(jìn)行并行讀取,并可通過(guò)aci 對(duì)文件進(jìn)行命名,與其他具有相同編碼的數(shù)據(jù)進(jìn)行關(guān)聯(lián)。

圖3 非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模型

2.4 數(shù)據(jù)放置與遷移策略

影響因素主要包括:①空間分辨率,反映數(shù)據(jù)的空間詳細(xì)程度,值越高,識(shí)別物體的能力越強(qiáng);②時(shí)間分辨率,表示重復(fù)探測(cè)同一目標(biāo)時(shí),相鄰兩次探測(cè)的時(shí)間間隔;③光譜分辨率,反映成像的波段范圍,劃分越細(xì)、波段越多,值越高;④存儲(chǔ)時(shí)間,數(shù)據(jù)存放較長(zhǎng)時(shí)間后,其被訪問(wèn)頻率將降低,數(shù)據(jù)價(jià)值也將降低;⑤數(shù)據(jù)熱度是反映數(shù)據(jù)價(jià)值的直觀指標(biāo),利用價(jià)值高的數(shù)據(jù)會(huì)被反復(fù)讀取加以利用;⑥隨機(jī)度,使SSD 服務(wù)絕大多數(shù)的隨機(jī)I/O 訪問(wèn),HDD 服務(wù)剩余的I/O訪問(wèn),匹配度越高的數(shù)據(jù),越能體現(xiàn)或挖掘其數(shù)據(jù)價(jià)值;⑦數(shù)據(jù)大小,數(shù)據(jù)量越小,越有利于存儲(chǔ)資源的利用,數(shù)據(jù)大小與價(jià)值成反比。

2.4.1 數(shù)據(jù)靜態(tài)放置策略

本文選擇時(shí)空大數(shù)據(jù)的空間分辨率、時(shí)間分辨率、光譜分辨率作為評(píng)價(jià)指標(biāo),不隨數(shù)據(jù)應(yīng)用而改變。根據(jù)主觀經(jīng)驗(yàn)設(shè)置權(quán)重Q,滿足條件的數(shù)據(jù)優(yōu)先使用性能更高的SSD作為存儲(chǔ)介質(zhì)。假設(shè)某應(yīng)用可調(diào)用n個(gè)數(shù)據(jù),單個(gè)數(shù)據(jù)價(jià)值的計(jì)算公式為:

式中,Qs、Qt、Qf分別為空間分辨率、時(shí)間分辨率、光譜分辨率的權(quán)重,由人為確定;Jsi、Jti、Jfi分別表示數(shù)據(jù)i的3 個(gè)指標(biāo)是否滿足應(yīng)用需求,若滿足,值為1,不滿足,值為0。

選擇該應(yīng)用價(jià)值最大的數(shù)據(jù)優(yōu)先放置在SSD 上,計(jì)算公式為:

2.4.2 數(shù)據(jù)遷移函數(shù)

數(shù)據(jù)每次被訪問(wèn)的時(shí)間集為{t1,t2,…,tn},距離當(dāng)前時(shí)刻t的時(shí)長(zhǎng)為t-t1,t-t2,…,t-tn,用C1,C2,…,Cn表示。設(shè)數(shù)據(jù)訪問(wèn)熱度為q,隨機(jī)度為r,初始值均為0,訪問(wèn)一次數(shù)據(jù),q加1,判斷該訪問(wèn)的起始位置是否對(duì)應(yīng)該數(shù)據(jù)上次訪問(wèn)的結(jié)束位置,若相同且與上次訪問(wèn)類型相同、時(shí)間間隔也在給定的閾值內(nèi),則r不變;否則r加1。在存儲(chǔ)時(shí)間C1,C2,…,Cn內(nèi)的訪問(wèn)熱度為q1,q2,…,qn,隨機(jī)度為r1,r2,…,rn,計(jì)算公式為:。由此可知,數(shù)據(jù)價(jià)值與q、r成正比,與C、數(shù)據(jù)大小成反比。

單個(gè)數(shù)據(jù)價(jià)值和所有數(shù)據(jù)總價(jià)值的計(jì)算公式為:

所有數(shù)據(jù)的總價(jià)值應(yīng)盡可能的大,根據(jù)數(shù)據(jù)價(jià)值變化,系統(tǒng)I/O 動(dòng)態(tài)地在SSD、HDD 之間進(jìn)行數(shù)據(jù)遷移,以保證價(jià)值較高的數(shù)據(jù)優(yōu)先使用SSD存儲(chǔ)。設(shè)數(shù)據(jù)大小為si,應(yīng)保證集合中SSD上所有數(shù)據(jù)大小的總和不能超過(guò)SSD的總空間大?。–APACITYSSD),即

設(shè)置模型的起止時(shí)間和SSD的空間總量,計(jì)算得到使數(shù)據(jù)總價(jià)值最大的存儲(chǔ)方案,進(jìn)而調(diào)整數(shù)據(jù)存儲(chǔ)位置。

3 實(shí)驗(yàn)與性能分析

為驗(yàn)證本文提出的時(shí)空大數(shù)據(jù)存儲(chǔ)策略,以山東省地理信息時(shí)空大數(shù)據(jù)中心為依托,分別測(cè)試數(shù)據(jù)存儲(chǔ)和加載效率。實(shí)驗(yàn)設(shè)備配置見(jiàn)表2。

表2 實(shí)驗(yàn)設(shè)備配置

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文選取兩組數(shù)據(jù):①山東省省級(jí)基礎(chǔ)測(cè)繪“十二五”地形要素?cái)?shù)據(jù),共5 977 個(gè)MDB、51.7 GB,“十三五”數(shù)字正射影像6 578幅、2.73 TB;②1.6億條矢量要素?cái)?shù)據(jù)、120 TB 影像數(shù)據(jù)和500 GB 地形數(shù)據(jù)(DEM數(shù)據(jù)),數(shù)據(jù)具有明顯的時(shí)空大數(shù)據(jù)特征。

3.2 存儲(chǔ)時(shí)間

兩組數(shù)據(jù)采用相同配置的終端,分別存入部署混合存儲(chǔ)策略的數(shù)據(jù)庫(kù)(實(shí)驗(yàn)庫(kù))和原始庫(kù),初始存放位置均為HDD。數(shù)據(jù)入庫(kù)時(shí)間對(duì)比見(jiàn)表3,可以看出,第一組實(shí)驗(yàn)庫(kù)的數(shù)據(jù)入庫(kù)時(shí)間比原始庫(kù)約減少10%,入庫(kù)效率小幅提升,這是由于數(shù)據(jù)量較少時(shí),存在較固定的數(shù)據(jù)傳輸和備份時(shí)間消耗,因此優(yōu)勢(shì)不明顯;第二組實(shí)驗(yàn)庫(kù)的數(shù)據(jù)入庫(kù)時(shí)間縮短近一半,而矢量要素?cái)?shù)據(jù)和地形數(shù)據(jù)入庫(kù)時(shí)間縮短為原時(shí)長(zhǎng)的1/8,說(shuō)明本文設(shè)計(jì)的混合存儲(chǔ)策略綜合考慮了數(shù)據(jù)特征、混合存儲(chǔ)管理系統(tǒng)、混合存儲(chǔ)設(shè)備3 個(gè)要素,提高了數(shù)據(jù)放置的合理性,減少了系統(tǒng)開(kāi)銷,大幅提高了入庫(kù)效率。

表3 數(shù)據(jù)入庫(kù)時(shí)間對(duì)比

3.3 加載時(shí)間

本文對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行加載瀏覽,分別測(cè)試了不同數(shù)據(jù)存儲(chǔ)策略下10 萬(wàn)、100 萬(wàn)、500 萬(wàn)條數(shù)據(jù)的初始加載時(shí)間和多次打開(kāi)數(shù)據(jù)庫(kù)后的加載時(shí)間,結(jié)果見(jiàn)表4,可以看出,混合存儲(chǔ)管理端初次加載時(shí)長(zhǎng)有所減少,并隨數(shù)量的增加,加載時(shí)長(zhǎng)減少越多(30%),說(shuō)明混合存儲(chǔ)策略數(shù)據(jù)加載時(shí)效率顯著提升;普通終端多次打開(kāi)數(shù)據(jù)庫(kù)后的加載時(shí)間沒(méi)有明顯變化,而混合存儲(chǔ)管理端在多次打開(kāi)數(shù)據(jù)庫(kù)后,加載時(shí)間約為初次加載時(shí)間的50%,說(shuō)明通過(guò)數(shù)據(jù)遷移,將隨機(jī)訪問(wèn)和熱點(diǎn)訪問(wèn)的數(shù)據(jù)遷移到SSD上,有效減少了整個(gè)系統(tǒng)的訪問(wèn)延遲。

表4 數(shù)據(jù)加載時(shí)間對(duì)比

4 結(jié)語(yǔ)

本文分析了混合存儲(chǔ)技術(shù)在時(shí)空大數(shù)據(jù)存儲(chǔ)中的應(yīng)用現(xiàn)狀,提出了面向混合存儲(chǔ)的時(shí)空大數(shù)據(jù)存儲(chǔ)組織模型和數(shù)據(jù)存儲(chǔ)策略;并基于山東省地理信息時(shí)空大數(shù)據(jù)中心開(kāi)展性能實(shí)驗(yàn),對(duì)比了普通終端和混合存儲(chǔ)策略終端的時(shí)空大數(shù)據(jù)存儲(chǔ)和加載效率。結(jié)果表明,在存儲(chǔ)數(shù)據(jù)量較少的傳統(tǒng)測(cè)繪數(shù)據(jù)成果時(shí),混合存儲(chǔ)策略效率提升不明顯;但隨著數(shù)據(jù)量和數(shù)據(jù)種類的增加,混合存儲(chǔ)策略的效率顯著提升;在多次數(shù)據(jù)讀取后,數(shù)據(jù)的動(dòng)態(tài)遷移可有效提升數(shù)據(jù)訪問(wèn)性能。

猜你喜歡
結(jié)構(gòu)化分辨率時(shí)空
跨越時(shí)空的相遇
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
鏡中的時(shí)空穿梭
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
EM算法的參數(shù)分辨率
玩一次時(shí)空大“穿越”
原生VS最大那些混淆視聽(tīng)的“分辨率”概念
基于深度特征學(xué)習(xí)的圖像超分辨率重建
一種改進(jìn)的基于邊緣加強(qiáng)超分辨率算法
時(shí)空之門