国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ElasticSearch的海量遙感數(shù)據(jù)檢索技術(shù)研究

2021-06-01 13:27李峰宋宴魏廣澤王永安
計算機與網(wǎng)絡(luò) 2021年5期
關(guān)鍵詞:海量檢索編碼

李峰 宋宴 魏廣澤 王永安

摘要:隨著我國對地觀測技術(shù)的發(fā)展,衛(wèi)星遙感數(shù)據(jù)越來越多,傳統(tǒng)空間關(guān)系數(shù)據(jù)庫在時間范圍、空間范圍的快速查詢及可擴展方面存在一定瓶頸。通過分析ElasticSearch搜索引擎框架,提出了一種基于改良GeoHash編碼的時空索引方法,設(shè)計并實現(xiàn)了基于ElasticSearch的海量遙感數(shù)據(jù)檢索技術(shù),可以精確高效建立一維行鍵索引篩選遙感數(shù)據(jù),提高查詢處理效率。實驗結(jié)果表明,該技術(shù)適合于組織管理與查詢海量的遙感數(shù)據(jù),查詢性能優(yōu)于傳統(tǒng)關(guān)系數(shù)據(jù)庫。

關(guān)鍵詞:ElasticSearch;遙感數(shù)據(jù);GeoHash;數(shù)據(jù)檢索

中圖分類號:TP311.5文獻標(biāo)志碼:A文章編號:1008-1739(2021)05-57-5

0引言

隨著我國對地觀測技術(shù)的發(fā)展,特別是高分辨率對地觀測系統(tǒng)重大專項的推進,基本具備了高空間分辨率、高時間分辨率及高光譜分辨率的天基對地觀測能力。隨著遙感影像數(shù)據(jù)越積越多,不同領(lǐng)域的應(yīng)用需求對遙感影像數(shù)據(jù)的存儲及高效檢索提出了越來越高的要求。遙感元數(shù)據(jù)作為描述遙感影像數(shù)據(jù)的重要數(shù)據(jù),具有結(jié)構(gòu)復(fù)雜、信息量大、產(chǎn)生頻率高等特點。傳統(tǒng)的空間關(guān)系型數(shù)據(jù)(如Oracle、PostgreSQL等)主要以內(nèi)置的B+樹或R樹等簡單成熟的索引結(jié)構(gòu)來輔助查詢處理,面對存儲海量的遙感元素數(shù)據(jù)信息存在讀寫性能不理想、可擴展性差等缺點。本文提出了一種基于改良GeoHash編碼的時空索引方法,設(shè)計了基于ElasticSearch的海量遙感數(shù)據(jù)檢索技術(shù),實現(xiàn)了遙感數(shù)據(jù)空間、時間、衛(wèi)星和載荷等多樣化的檢索,支撐海量遙感影像數(shù)據(jù)的高效檢索。

1基于ElasticSearch的海量遙感數(shù)據(jù)檢索技術(shù)

由于遙感影像文件很大,不適合直接對遙感影像數(shù)據(jù)本身進行檢索,常用的方式是從遙感元數(shù)據(jù)提取特征信息、范圍信息及標(biāo)識信息等描述內(nèi)容,存儲到空間關(guān)系型數(shù)據(jù)中,支撐行業(yè)應(yīng)用中的數(shù)據(jù)查詢檢索應(yīng)用。隨著遙感元數(shù)據(jù)量的增加,基于衛(wèi)星載荷、時間范圍和空間范圍等信息的快速查詢是亟需解決的問題。

為了提高海量遙感數(shù)據(jù)的查詢檢索訪問效率,本文設(shè)計了一種基于改良GeoHash編碼的時空索引方法,將時間、空間等多維信息映射到一維時空索引編碼,在分析ElasticSearch搜索引擎框架的基礎(chǔ)上,將時空索引編碼作為索引字段,設(shè)計和實現(xiàn)一種基于ElasticSearch的海量遙感數(shù)據(jù)檢索技術(shù)。

1.1擴展GeoHash的時空索引技術(shù)

GeoHash是一種經(jīng)緯度地址編碼方法,把二維的空間經(jīng)緯度數(shù)據(jù)進行轉(zhuǎn)換,編碼成一個可以比較和排序的字符串,用一個字符串表示地理要素的空間坐標(biāo)。GeoHash的主要原理是根據(jù)地物的經(jīng)緯度坐標(biāo)利用二分法對空間區(qū)域劃分規(guī)則格網(wǎng)無限逼近地物所在區(qū)間。以天安門廣場坐標(biāo)(北緯:39.928167,東經(jīng):116.390705)為例,GeoHash的編碼過程如下:

①將經(jīng)緯度轉(zhuǎn)換成二進制:緯度范圍(-90,90),其中間值為0,將其劃分為區(qū)間0(-90,0)和區(qū)間1(0,90)。對于緯度39.928167,在區(qū)間(0,90)中,因此二進制首位取值為1;(0,90)區(qū)間的中間值為45°,緯度39.928167小于45°,因此第二位取值0,依次計算下去,如表1所示,即可得到緯度的二進制序列前20位為:10111000110001111001,同理可以得到經(jīng)度116.390 705的二進制序列前20位為:11010010110001000100。序列的長度越長,表示經(jīng)緯度范圍精度越高。

②二進制序列交叉組合:按照偶數(shù)位放經(jīng)度,奇數(shù)位放緯度(從0開始,0為偶數(shù)位)的順序?qū)?jīng)緯度的二進制序列進行交叉組合得出合并后的二進制序列。仍以(39.928 167,116.390 705)為例,合并后的序列前20位為11100111010010001111。

③編碼轉(zhuǎn)換:標(biāo)準(zhǔn)的GeoHash值采用Base32編碼,具體過程是將經(jīng)緯度交叉組合后的二進制序列每5個一組進行切分(不足5個用0補充),將其轉(zhuǎn)換為十進制,參考標(biāo)準(zhǔn)Base32編碼表用0~9,b~z(去掉a,i,l,o)這32個字母進行編碼。如11100111010010001111轉(zhuǎn)換為十進制成2829415,對應(yīng)的 Base32編碼為wx4g。Base32編碼每一字符代表5 bit,字符位數(shù)與精度之間的關(guān)系如表2所示。

可以看出,隨著GeoHash位數(shù)減少,誤差增加在4~8倍交替,難以有效控制區(qū)域精度,若將二進制GeoHash碼直接索引保持精度又存在索引過長影響效率的問題。因此,設(shè)計了使用long型值的GeoHash編碼轉(zhuǎn)換方法,在保證細粒度和精度的同時,降低GeoHash有效值的位數(shù),從而減少計算次數(shù),進一步提高編碼效率。具體步驟為:

①將GeoHash的二進制轉(zhuǎn)換為64位long型值,作為GeoHash值;

②GeoHash值的高位為有效位,低位補0,并記錄下long值的有效位數(shù)量;

③根據(jù)具體需求,可以截取前2(0< <32)bit位作為GeoHash的long值有效位,將區(qū)域精度的增長控制在2倍左右。

采用該方法改良后的GeoHash字符位數(shù)對應(yīng)精度如表3所示。

改良后的GeoHash編碼方法能精確高效地將二維空間坐標(biāo)降維成一維編碼,滿足一維行鍵索引的使用需要。在此基礎(chǔ)上,結(jié)合行鍵索引的查詢規(guī)則,針對遙感數(shù)據(jù)的時空特點設(shè)計了將時間和GeoHash編碼特殊組合的混合時空編碼行鍵結(jié)構(gòu)及時空索引構(gòu)建方法。索引結(jié)構(gòu)如圖1所示。

使用該索引進行遙感數(shù)據(jù)查詢時,首先會根據(jù)行鍵的前綴即“年月日”將符合日期的數(shù)據(jù)集檢索出來,然后按照GeoHash編碼表示的經(jīng)緯度范圍進行空間檢索,最后查詢“時分秒”得到查詢結(jié)果。該方法可以通過時間的年月日部分和GeoHash相同前綴代表的大致地理范圍過濾掉大部分不符合查詢條件的數(shù)據(jù),再對剩余數(shù)據(jù)使用值過濾器進行查詢,整個過程幾乎不需要使用行鍵過濾器,提高了數(shù)據(jù)的查詢效率。

1.2 ElasticSearch遙感數(shù)據(jù)檢索設(shè)計

ElasticSearch是一款基于Lucene庫的分布式、RESTful的開源搜索引擎,由于其功能強大,使用便捷,受到維基百科、衛(wèi)報、Stack Overflow、GitHub等企業(yè)和組織的歡迎,諸如搜索推薦、數(shù)據(jù)分析、日志采集的很多功能都是基于ElasticSearch實現(xiàn)的?;贓lasticSearch的分布式海量遙感數(shù)據(jù)檢索設(shè)計技術(shù)通過統(tǒng)一規(guī)范化的元數(shù)據(jù)結(jié)構(gòu)建立元數(shù)據(jù)與索引文件的映射,基于擴展GeoHash的混合時空編碼方法建立時空索引,并搭建分布式ElasticSearch集群提高可靠性,實現(xiàn)海量遙感影像數(shù)據(jù)的高效檢索。

(1)元數(shù)據(jù)設(shè)計

元數(shù)據(jù)是用來描述數(shù)據(jù)的數(shù)據(jù)。遙感元數(shù)據(jù)作為描述遙感數(shù)據(jù)本身特性的輔助數(shù)據(jù),可以服務(wù)于數(shù)據(jù)的存儲和檢索,提高查詢效率。針對海量遙感數(shù)據(jù)檢索的實際需要,抽取影像元數(shù)據(jù)特征進行擴展,設(shè)計了一套符合實際查詢需求的遙感影像元數(shù)據(jù)結(jié)構(gòu),如表4所示。

為了將遙感影像與元數(shù)據(jù)一一對應(yīng),除了以上基本數(shù)據(jù)結(jié)構(gòu)外,還新增了3類元數(shù)據(jù),如表5所示。

(2)索引創(chuàng)建

ElasticSearch是基于Lucene的全文檢索系統(tǒng),其底層的索引技術(shù)實現(xiàn)與Lucene一致,可以將索引創(chuàng)建的流程劃分為4步,創(chuàng)建流程如圖2所示。索引創(chuàng)建過程包括獲取影像元數(shù)據(jù)、生成混合時空編碼索引、創(chuàng)建Document對象、IndexWriter建立索引,其中混合時空編碼索引是根據(jù)擴展GeoHash的時空索引技術(shù)生成的。

(3)集群部署

ElasticSearch支持分布式部署,通過集群部署可以保證搜索引擎的高可用性。多臺主機構(gòu)成了一個集群,每臺主機稱作一個節(jié)點(Node),對于處在同一網(wǎng)段下?lián)碛邢嗤好Q的多個節(jié)點,每當(dāng)一個節(jié)點啟動時,ElasticSearch會自動調(diào)用節(jié)點發(fā)現(xiàn)機制尋找集群中的其他節(jié)點建立連接,組成分布式集群。本文部署的ElasticSearch集群包含3個節(jié)點:主節(jié)點、數(shù)據(jù)節(jié)點和客戶端節(jié)點。其中主節(jié)點的主要職責(zé)是元數(shù)據(jù)的處理,如創(chuàng)建或刪除索引,跟蹤哪些節(jié)點是集群的一部分,并決定哪些分片分配給相關(guān)的節(jié)點等;數(shù)據(jù)節(jié)點是保存數(shù)據(jù)分片的節(jié)點,主要負責(zé)數(shù)據(jù)的增刪改查操作,聚合操作,分片的CRUD等;客戶端節(jié)點也稱作負載均衡節(jié)點,該節(jié)點表現(xiàn)為智能負載平衡器,可以協(xié)調(diào)主節(jié)點和數(shù)據(jù)節(jié)點,起到路由請求的作用。

2實驗驗證

為驗證基于ElasticSearch的海量遙感數(shù)據(jù)檢索技術(shù)的查詢效率,使用來自不同衛(wèi)星傳感器的750萬條ZY-3、GF-1、GF-2等衛(wèi)星遙感影像元數(shù)據(jù)作為實驗數(shù)據(jù),分別使用ElasticSearch和遙感領(lǐng)域常用的PostgreSQL、MySQL數(shù)據(jù)庫3種方式存儲,實驗環(huán)境為Windows7操作系統(tǒng),2.20 GHz Intel E5至強CPU,64 GB內(nèi)存。

本文在選取實驗數(shù)據(jù)后,提取影像元數(shù)據(jù)并選擇了空間范圍和時間跨度2個可調(diào)參數(shù),以此為變量設(shè)計了多組實驗,進行不同條件下的檢索效率實驗,并對實驗結(jié)果進行對比分析,結(jié)果如下。

(1)空間范圍查詢

在空間范圍上,選擇了雄安新區(qū)、京津冀、中國和全球4個不同維度的區(qū)域,檢索該區(qū)域包含的全部遙感數(shù)據(jù),并多次實驗記錄平均耗時,將查詢效率可視化,如圖3所示。

可以看出,隨著地理范圍的擴大,三者查詢效率均有所降低,但得益于擴展GeoHash的時空索引技術(shù),ElasticSearch的基礎(chǔ)查詢效率更高,且隨地理范圍擴大,查詢時間的增長較為平穩(wěn)。

(2)時間范圍查詢

時間范圍上,以實驗數(shù)據(jù)的最早采集時間2007年為起點,分別測試三年、五年、十年和到目前為止范圍內(nèi)遙感數(shù)據(jù)的檢索所需時間,并多次實驗記錄平均耗時,將查詢效率可視化,如圖4所示。

可以看出,PostgreSQL在較小時間跨度時查詢效率最低,MySQL隨著時間跨度的擴大查詢效率顯著降低,只有ElasticSearch保持了較高基礎(chǔ)查詢效率的同時,查詢時間的增長相對平穩(wěn)。

綜合以上2組實驗結(jié)果可知,相較于常用的PostgreSQL和MySQL數(shù)據(jù)庫,ELasticSearch對于不同空間和時間維度上的遙感數(shù)據(jù)查詢性能更優(yōu)。此外,空間和時間范圍的擴大帶來的數(shù)據(jù)量級的提升對ElasticSearch影響不大,這一特點非常適合應(yīng)用于擁有海量數(shù)據(jù)的遙感領(lǐng)域。總之,對于近千萬級的遙感影像元數(shù)據(jù),在檢索速度方面,基于ELasticSearch的檢索效率明顯高于基于PostgreSQL和MySQL數(shù)據(jù)庫的檢索效率,可以滿足海量遙感數(shù)據(jù)的實時時空查詢需要。

3結(jié)束語

本文提出了基于ElasticSearch的海量遙感數(shù)據(jù)檢索技術(shù),設(shè)計了一種基于改良GeoHash編碼的時空索引方法,完成了海量遙感數(shù)據(jù)元數(shù)據(jù)的數(shù)據(jù)接入、數(shù)據(jù)索引和數(shù)據(jù)檢索,開發(fā)實現(xiàn)了基于ElasticSearch的海量遙感數(shù)據(jù)檢索系統(tǒng),對上述技術(shù)方法進行了實驗驗證。實驗結(jié)果表明,技術(shù)途徑合理可行,其查詢性能優(yōu)于傳統(tǒng)關(guān)系數(shù)據(jù)庫,為實現(xiàn)海量遙感數(shù)據(jù)的快速檢索提供了解決方案。

參考文獻

[1]李德仁,沈欣,龔健雅,等.論我國空間信息網(wǎng)絡(luò)的構(gòu)建[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2015,40(6):711-715.

[2]謝榕,羅知微,王雨晨,等.遙感衛(wèi)星特定領(lǐng)域大規(guī)模知識圖譜構(gòu)建關(guān)鍵技術(shù)[J].無線電工程,2017,47(4):1-6.

[3]權(quán)治,宋晶晶.基于NoSQL的數(shù)據(jù)庫技術(shù)分析[J].無線電工程,2013,43(9):4-6.

[4] HUANG K, LI G, WANG J. Rapid Retrieval Strategy for Massive Remote Sensing Metadata Based on GeoHash Coding[J]. Remote Sensing Letters,2019,10(2):111-119.

[5]向隆剛,高萌,王德浩,等.Geohash-Trees:一種用于組織大規(guī)模軌跡的自適應(yīng)索引[J].武漢大學(xué)學(xué)報(信息科學(xué)版), 2019,44(3):436-442.

[6] ZHOU Chang,LU Huimei,XIANG Yong,et al.Geohashtile: Vector Geographic Data Display Method Based on Geohash[J].ISPRS International Journal of Geo-Information,2020,9(7): 418.

[7]李峰,尤淑撐,魏海,等.遙感影像區(qū)域覆蓋最優(yōu)數(shù)據(jù)集的篩選模型[J].無線電工程,2017,47(10):45-48.

[8]陳啟凡.基于NoSQL的公共安全監(jiān)測數(shù)據(jù)分布式存儲技術(shù)研究[D].成都:電子科技大學(xué),2020.

[9]姜康,馮鈞,唐志賢,等.基于ElasticSearch的元數(shù)據(jù)搜索與共享平臺[J].計算機與現(xiàn)代化,2015(2):117-121.

[10] WANG Ruoyu,SUN Daniel,LI Guoqiang,et al.Pipeline Provenance for Cloud Based Big Data Analytics[J]. Software:Practice and Experience,2020,50(5):658-674.

[11]關(guān)雪峰,曾宇媚.時空大數(shù)據(jù)背景下并行數(shù)據(jù)處理分析挖掘的進展及趨勢[J].地理科學(xué)進展,2018,37(10):1314-1327.

[12]張學(xué)亮,陳金勇,陳勇.基于Hadoop云計算平臺的海量文本處理研究[J].無線電通信技術(shù),2014,40(1):54-57.

[13] DHULAVVAGOL PM,BHAJANTRI VH,TOTAD SG. Performance Analysis of Distributed Processing System Using Shard Selection Techniques on Elasticsearch[J]. Procedia Comput Sci,2020,167:1626-1635.

[14]王章龍.Elasticsearch索引分片策略研究[D].重慶:重慶郵電大學(xué),2019.

猜你喜歡
海量檢索編碼
住院病案首頁ICD編碼質(zhì)量在DRG付費中的應(yīng)用
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
通過實際案例談如何利用外文庫檢索提高檢索效率
瑞典專利數(shù)據(jù)庫的檢索技巧
英國知識產(chǎn)權(quán)局商標(biāo)數(shù)據(jù)庫信息檢索
高效視頻編碼幀內(nèi)快速深度決策算法
一個圖形所蘊含的“海量”巧題
從教材中突圍,走課內(nèi)海量閱讀之路
Hadoop構(gòu)建的銀行海量數(shù)據(jù)存儲系統(tǒng)研究
吃飯誰買單