程滔
(國家基礎(chǔ)地理信息中心,北京 100830)
遙感影像樣本大數(shù)據(jù)建庫與應(yīng)用方法①
程滔
(國家基礎(chǔ)地理信息中心,北京 100830)
研究一種基于關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)融合的遙感影像解譯樣本大數(shù)據(jù)建庫方法.解析了數(shù)據(jù)庫建設(shè)過程,討論了建庫關(guān)鍵技術(shù)問題與解決方法;在建成樣本數(shù)據(jù)庫基礎(chǔ)上,研究了樣本數(shù)據(jù)應(yīng)用方法,分析了幾種應(yīng)用實(shí)例,探索了樣本數(shù)據(jù)應(yīng)用模式;以選取的研究區(qū)域內(nèi)大規(guī)模樣本數(shù)據(jù)為對(duì)象,驗(yàn)證了數(shù)據(jù)庫建設(shè)中數(shù)據(jù)處理過程及效率,同時(shí),以地理國情普查分類體系中地表覆蓋10個(gè)一級(jí)類為例,對(duì)研究區(qū)域各類別樣本空間分布與密度等特征進(jìn)行了分析.結(jié)果表明:利用關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)融合的方法對(duì)樣本大數(shù)據(jù)進(jìn)行建庫與管理,對(duì)樣本數(shù)據(jù)的檢索、分析及推廣應(yīng)用,具有很好的效能和適用性.
遙感影像樣本;大數(shù)據(jù);數(shù)據(jù)庫;分布式文件系統(tǒng);應(yīng)用
第一次全國地理國情普查樣本數(shù)據(jù)庫建設(shè)是地理國情普查成果數(shù)據(jù)庫建設(shè)的任務(wù)之一,可為從事遙感影像解譯的研究人員與工程技術(shù)人員提供豐富的解譯標(biāo)志信息,提高地表覆蓋分類、土地利用分類等精度,從而提高研究成果質(zhì)量[1].第一次全國地理國情普查在全國范圍內(nèi)采集的遙感影像解譯樣本點(diǎn)數(shù)量達(dá)到300多萬個(gè),數(shù)據(jù)文件量達(dá)到1250多萬個(gè),并將在后續(xù)地理國情監(jiān)測(cè)中不斷積累遞增.
為了提高樣本數(shù)據(jù)檢索、分析及推廣應(yīng)用效率,促進(jìn)應(yīng)用服務(wù),需要對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)存儲(chǔ)和管理[2,3].利用數(shù)據(jù)庫對(duì)樣本數(shù)據(jù)進(jìn)行管理,是一種可靠的方法,數(shù)據(jù)存儲(chǔ)的邏輯性強(qiáng),能夠提高數(shù)據(jù)檢索效率.成熟的關(guān)系型數(shù)據(jù)庫技術(shù)采用結(jié)構(gòu)化的語言(Structured Query Language,縮寫SQL),用二維表結(jié)構(gòu)分行、列對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),調(diào)用數(shù)據(jù)時(shí)遵循固定的請(qǐng)求格式,甲骨文(Oracle)在20世紀(jì)70年代率先推出這項(xiàng)技術(shù),該技術(shù)也是目前應(yīng)用最為廣泛的數(shù)據(jù)庫技術(shù)[4].
然而,隨著云計(jì)算、互聯(lián)網(wǎng)等技術(shù)的發(fā)展,文檔、圖片、圖像、視頻、文本、XML等非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)增長迅速,關(guān)系型數(shù)據(jù)庫雖支持二進(jìn)制大對(duì)象(BLOB),能將數(shù)據(jù)直接入庫存儲(chǔ),但未提供對(duì)這類復(fù)雜數(shù)據(jù)類型的快速存儲(chǔ)、訪問方法[5];所以這類數(shù)據(jù)的存儲(chǔ),已不方便用關(guān)系型數(shù)據(jù)庫二維邏輯表來表現(xiàn),需要增大數(shù)據(jù)庫的開發(fā)工作量才能滿足應(yīng)用需求.因此,大數(shù)據(jù)管理方法與計(jì)算處理能力在極大提升的同時(shí),也面臨一些挑戰(zhàn)[6,7].
地理國情普查樣本數(shù)據(jù)文件數(shù)量龐大,且包含ACCESS、JPG、TIFF、TFW、XML等多種數(shù)據(jù)格式,從數(shù)據(jù)模型角度劃分,ACCESS屬于結(jié)構(gòu)化數(shù)據(jù),JPG、TIFF、TFW屬于非結(jié)構(gòu)化數(shù)據(jù),XML屬于半結(jié)構(gòu)化數(shù)據(jù).
針對(duì)地理國情普查樣本數(shù)據(jù)特點(diǎn),本文研究一種基于關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)融合的樣本大數(shù)據(jù)建庫方法,將各類模型的數(shù)據(jù)分別存儲(chǔ)在不同的物理位置,并對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行空間化處理,增強(qiáng)數(shù)據(jù)的檢索性能與可視化體驗(yàn),以滿足大數(shù)據(jù)建庫與后續(xù)應(yīng)用的需求.首先分析建庫過程與關(guān)鍵技術(shù),解決大數(shù)據(jù)、批量處理過程中的技術(shù)問題;然后在完成樣本數(shù)據(jù)庫建設(shè)的基礎(chǔ)上,研究探索樣本數(shù)據(jù)的應(yīng)用方法與模式;最后通過選取大規(guī)模樣本數(shù)據(jù)集,結(jié)合空間分析,對(duì)研究方法進(jìn)行驗(yàn)證.
1.1 數(shù)據(jù)分析
地理國情普查樣本數(shù)據(jù)的原始數(shù)據(jù)由地面照片、遙感影像實(shí)例以及樣本信息描述數(shù)據(jù)庫三部分組成.其中,地面照片采用JPG格式;遙感影像實(shí)例采用TIFF格式;影像坐標(biāo)信息采用TFW文檔格式;影像投影信息采用XML格式;樣本信息描述數(shù)據(jù)庫采用ACCESS數(shù)據(jù)庫,由記錄地面照片屬性信息的PHOTO數(shù)據(jù)表(包括照片的標(biāo)識(shí)符、照片文件名、拍攝時(shí)間、拍攝點(diǎn)經(jīng)度、拍攝點(diǎn)緯度等19項(xiàng)屬性)、記錄遙感影像實(shí)例屬性信息的SMPIMG數(shù)據(jù)表(包括遙感影像實(shí)例標(biāo)識(shí)符、遙感影像實(shí)例文件名、影像類型、影像分辨率、影像拍攝時(shí)間等14項(xiàng)屬性)、以及反映地面照片和遙感影像實(shí)例對(duì)應(yīng)關(guān)系的PHOTO_IMG關(guān)系表(包括地面照片的標(biāo)識(shí)符、遙感影像實(shí)例標(biāo)識(shí)符等5項(xiàng)屬性)三個(gè)表格構(gòu)成,表格數(shù)據(jù)類型包括Text、Date、Double、Float、Short Integer[8].
為了便于地理國情普查樣本數(shù)據(jù)的展示、檢索、分析,在原始數(shù)據(jù)經(jīng)過入庫質(zhì)量檢查合格的基礎(chǔ)上,需要利用原始數(shù)據(jù)記錄的空間位置信息(地面照片拍攝點(diǎn)經(jīng)度、拍攝點(diǎn)緯度,或者根據(jù)對(duì)應(yīng)遙感影像實(shí)例四個(gè)角點(diǎn)經(jīng)緯度計(jì)算出的中心點(diǎn)坐標(biāo)),生成樣本點(diǎn)位矢量數(shù)據(jù)[9],該衍生數(shù)據(jù)為點(diǎn)狀圖形數(shù)據(jù),其屬性信息包括地面照片所有屬性信息,并添加了要素唯一標(biāo)識(shí)碼屬性.
這種結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)在入庫前均以文件形式存儲(chǔ),并組成了地理國情普查樣本數(shù)據(jù)的完整數(shù)據(jù)模型.
1.2 數(shù)據(jù)庫建設(shè)方法
地理國情普查樣本大數(shù)據(jù)建庫過程是數(shù)據(jù)庫建設(shè)與管理的核心,原始數(shù)據(jù)在經(jīng)過數(shù)據(jù)整理、入庫檢查、問題解決、重新整理等處理過程后,需要進(jìn)行屬性結(jié)構(gòu)調(diào)整、表格數(shù)據(jù)空間化等處理,經(jīng)入庫質(zhì)量檢查合格后,進(jìn)行數(shù)據(jù)入庫操作.
在數(shù)據(jù)入庫過程中,地理國情普查項(xiàng)目采用Oracle數(shù)據(jù)庫技術(shù),在數(shù)據(jù)庫設(shè)計(jì)時(shí),分別按照表格數(shù)據(jù)、矢量數(shù)據(jù)、文檔數(shù)據(jù)這幾種形式作為數(shù)據(jù)存儲(chǔ)結(jié)構(gòu).結(jié)構(gòu)化數(shù)據(jù)直接存儲(chǔ)在Oracle數(shù)據(jù)庫表中;空間化后的矢量數(shù)據(jù)存儲(chǔ)在Oracle Spatial中,具體采用SDO_Geometry字段進(jìn)行物理存儲(chǔ),屬性信息存儲(chǔ)在相應(yīng)的屬性字段中;非結(jié)構(gòu)化、半結(jié)構(gòu)化的文檔數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)中[10].
這種基于關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)融合的樣本大數(shù)據(jù)建庫方法的處理流程如圖1所示.
圖1 樣本數(shù)據(jù)庫建設(shè)流程圖
1.3 關(guān)鍵技術(shù)分析
根據(jù)本文數(shù)據(jù)庫建設(shè)方法,在樣本數(shù)據(jù)庫建設(shè)的整個(gè)流程中,關(guān)鍵技術(shù)主要表現(xiàn)在以下兩個(gè)方面:
(1)大數(shù)據(jù)整理與存儲(chǔ)
全國地理國情普查樣本數(shù)據(jù)具有文件數(shù)量龐大、數(shù)據(jù)總量大、各模型數(shù)據(jù)格式各異的特點(diǎn),而數(shù)據(jù)庫建設(shè)對(duì)大數(shù)據(jù)整理的要求是存儲(chǔ)結(jié)構(gòu)規(guī)范、邏輯關(guān)系嚴(yán)密、結(jié)構(gòu)化整理.在這種形勢(shì)下,為了利于大規(guī)模數(shù)據(jù)的更新與維護(hù),在數(shù)據(jù)整理與存儲(chǔ)過程中,可按照全國行政區(qū)劃或測(cè)區(qū)(一般為縣級(jí)或地市州級(jí)行政單位),逐級(jí)整理清晰.
在分布式文件系統(tǒng)中,對(duì)于一個(gè)行政區(qū)劃或測(cè)區(qū)內(nèi)的所有樣本數(shù)據(jù),保持固定的耦合存儲(chǔ)結(jié)構(gòu)(如表1所示);各行政區(qū)劃或測(cè)區(qū)樣本數(shù)據(jù)集之間并行排列;采用縣級(jí)或地市州級(jí)、省級(jí)、國家級(jí)逐級(jí)往上集中存儲(chǔ).這樣的存儲(chǔ)方式有利于樣本數(shù)據(jù)的快速檢索、修改、移動(dòng)、刪除等操作.
在關(guān)系型數(shù)據(jù)庫中,利用各樣本數(shù)據(jù)的照片文件名字段、遙感影像實(shí)例文件名字段,存儲(chǔ)其行政區(qū)劃或測(cè)區(qū)級(jí)的相對(duì)路徑,從而,在數(shù)據(jù)庫管理系統(tǒng)調(diào)用樣本數(shù)據(jù)時(shí),便可讀取此記錄尋址到樣本數(shù)據(jù)在分布式文件系統(tǒng)中的物理位置.
表1 樣本數(shù)據(jù)目錄組織方式
(2)大數(shù)據(jù)入庫檢查方法與問題解決
第一次全國地理國情普查項(xiàng)目是國家重大專項(xiàng)項(xiàng)目,成果數(shù)據(jù)庫的建設(shè)必須符合工程項(xiàng)目的標(biāo)準(zhǔn)和要求,因此,對(duì)數(shù)據(jù)庫的質(zhì)量要求較高.為保證數(shù)據(jù)庫質(zhì)量,滿足推廣應(yīng)用需求,樣本數(shù)據(jù)在整理規(guī)范的基礎(chǔ)上,需進(jìn)行入庫檢查,并對(duì)檢查發(fā)現(xiàn)的問題進(jìn)行有效解決,合格后才能入庫.
面對(duì)樣本文件數(shù)量龐大的現(xiàn)實(shí)狀況,本研究利用一種從宏觀到微觀的綜合質(zhì)量檢查方法[11],采用大數(shù)據(jù)量批處理的模式,結(jié)合全國行政區(qū)劃地圖,全面實(shí)現(xiàn)樣本數(shù)據(jù)各項(xiàng)內(nèi)容的入庫質(zhì)量檢查.從宏觀整體角度,檢查樣本數(shù)據(jù)組織正確性與完整性、遙感影像實(shí)例與地面照片的匹配性與冗余性、數(shù)據(jù)表定義與屬性項(xiàng)定義正確性等內(nèi)容.從微觀具體角度,檢查各樣本點(diǎn)數(shù)據(jù)的完整性與有效性、數(shù)學(xué)基礎(chǔ)與空間位置正確性、文件命名及格式正確性、屬性數(shù)據(jù)正確性等內(nèi)容.每一個(gè)樣本點(diǎn)數(shù)據(jù)檢查均保存一條檢查結(jié)果記錄.
依據(jù)檢查結(jié)果記錄,對(duì)影響入庫、應(yīng)用的問題進(jìn)行有效解決,主要包括:遙感影像實(shí)例數(shù)學(xué)基礎(chǔ)錯(cuò)誤(包括坐標(biāo)系統(tǒng)錯(cuò)誤、中央經(jīng)線錯(cuò)誤等)、樣本信息描述數(shù)據(jù)庫表內(nèi)容為空、遙感影像實(shí)例四角點(diǎn)坐標(biāo)錯(cuò)誤、影像投影信息文件XML記錄的內(nèi)容錯(cuò)誤(為規(guī)定之外的內(nèi)容)、影像坐標(biāo)信息文件TFW記錄的內(nèi)容錯(cuò)誤、地面照片無對(duì)應(yīng)遙感影像實(shí)例、遙感影像實(shí)例無對(duì)應(yīng)地面照片、個(gè)別行政區(qū)劃或測(cè)區(qū)內(nèi)數(shù)據(jù)缺漏等問題.
經(jīng)過入庫檢查與問題解決,形成最終的符合數(shù)據(jù)庫建設(shè)要求的樣本數(shù)據(jù).
地理國情普查樣本大數(shù)據(jù)建庫的目的是提供應(yīng)用服務(wù),利用大數(shù)據(jù)計(jì)算與分析,可以挖掘大量有價(jià)值的信息[12].本文對(duì)樣本數(shù)據(jù)應(yīng)用方法的研究探索,分為直接應(yīng)用與衍生應(yīng)用兩個(gè)層次.直接應(yīng)用是從樣本數(shù)據(jù)庫直接檢索、獲取樣本基本信息,為遙感影像解譯提供解譯標(biāo)志信息;衍生應(yīng)用是在基本信息的基礎(chǔ)上,利用空間分析方法,得出一些規(guī)律性的特征信息.
對(duì)樣本數(shù)據(jù)庫的檢索,檢索條件可以是多樣性的,可以根據(jù)地表覆蓋類型(一級(jí)類、二級(jí)類、三級(jí)類)、空間范圍(經(jīng)緯度范圍、行政區(qū)劃范圍、大區(qū)劃范圍(如華東、華南、華中、華北、西北、西南、東北)、主題功能區(qū)范圍等)、時(shí)間段(地面照片的拍攝時(shí)間、遙感影像的拍攝時(shí)間)等,以及這些檢索條件的多條件檢索.
(1)反映研究區(qū)域地表覆蓋類型及地面實(shí)地地物特征的應(yīng)用
在一些遙感影像解譯工作中,會(huì)存在通過內(nèi)業(yè)解譯無法準(zhǔn)確判讀地表覆蓋類型的情況,在沒有外業(yè)工作環(huán)節(jié)的情況下,可以利用樣本數(shù)據(jù)庫,檢索研究區(qū)域空間范圍內(nèi)的樣本數(shù)據(jù),通過區(qū)域內(nèi)分布的樣本點(diǎn)基本信息,輔助遙感影像解譯工作.
(2)反映相似地理環(huán)境區(qū)域的地表覆蓋類型特征的應(yīng)用
利用樣本數(shù)據(jù),可在鄰近區(qū)域或相似地理環(huán)境區(qū)域(這些研究區(qū)域外業(yè)工作難以到達(dá)或限制到達(dá),或未計(jì)劃開展外業(yè)工作),通過同類地物光譜、紋理比對(duì)以及地理相關(guān)分析等方法,開展遙感影像解譯.
并且,可以利用檢索出的樣本點(diǎn)對(duì)應(yīng)的遙感影像實(shí)例的光譜、紋理、形狀等特征,作為地表覆蓋監(jiān)督分類的先驗(yàn)知識(shí).
(3)反映樣本數(shù)據(jù)空間分布與密度特征的應(yīng)用
全國行政區(qū)劃單位分為省級(jí)、地級(jí)、縣級(jí)、鄉(xiāng)級(jí)等,地理國情普查樣本數(shù)據(jù)一般按照縣級(jí)或地市州級(jí)行政單位進(jìn)行整理與存儲(chǔ).
因此,利用數(shù)據(jù)庫中的樣本點(diǎn)位矢量數(shù)據(jù),以及全國行政區(qū)劃范圍矢量數(shù)據(jù),通過空間疊置分析與統(tǒng)計(jì)計(jì)算,可獲取到各級(jí)行政區(qū)劃范圍內(nèi)、各地表覆蓋類型樣本數(shù)據(jù)的空間分布與密度特征.這一特征也可以反映研究區(qū)域內(nèi)的地物多樣性特征,并在一定程度上間接反映研究區(qū)域內(nèi)的交通通達(dá)情況.
(4)反映同一地表覆蓋類型在全國不同區(qū)域、同一季節(jié)形態(tài)特征的應(yīng)用
我國地域廣闊,同一地表覆蓋類型在不同的區(qū)域,可能會(huì)表現(xiàn)出不同的特征,利用樣本數(shù)據(jù)庫,檢索某一類地表覆蓋類型(例如闊葉喬木林),與全國典型區(qū)域矢量數(shù)據(jù)進(jìn)行空間疊置分析,便可獲取同一地表覆蓋類型在全國不同區(qū)域、同一季節(jié)形態(tài)特征.
(5)反映同一地表覆蓋類型在相同區(qū)域、不同季節(jié)形態(tài)特征以及影像特征的應(yīng)用
地理國情普查使用的遙感影像數(shù)據(jù)的獲取季節(jié)和時(shí)間不盡相同,樣本數(shù)據(jù)在采集過程中,地面照片的拍攝季節(jié)和時(shí)間也不盡相同,從樣本數(shù)據(jù)庫中檢索出這些信息,便可獲取同一地表覆蓋類型(例如闊葉喬木林)在相同區(qū)域、不同季節(jié)的形態(tài)特征以及影像特征.
(6)與地形、地貌等特征相關(guān)的專題分析應(yīng)用
我國地形、地貌特征豐富,利用地形、地貌矢量數(shù)據(jù),與樣本數(shù)據(jù)庫中某一類地表覆蓋類型(例如針葉喬木林、針葉灌木林)進(jìn)行空間疊置分析,可以獲取該地表覆蓋類型在不同地形、地貌區(qū)域的表現(xiàn)特征.同樣地,通過不同地域樣本記錄的地表覆蓋類型的種類分析,也可在一定程度上反映不同地域地物多樣性特征.
以湖北省地理國情普查采集的樣本數(shù)據(jù)為研究實(shí)例,驗(yàn)證數(shù)據(jù)庫建設(shè)中關(guān)鍵數(shù)據(jù)處理過程及效率,并對(duì)部分應(yīng)用成果進(jìn)行分析討論.
3.1 研究區(qū)概況
根據(jù)《中華人民共和國行政區(qū)劃簡冊(cè)2015》[13],湖北省面積約19萬km2,范圍內(nèi)縣級(jí)行政區(qū)劃103個(gè),人口合計(jì)6165萬人.
湖北省位于中國中部偏南、長江中游,空間位置介于北緯29°05′至33°20′,東經(jīng)108°21′至116°07′,地形地勢(shì)大致為東、西、北三面環(huán)山,中間低平,略呈向南敞開的不完整盆地,在全省總面積中,山地占56%,丘陵占24%,平原湖區(qū)占20%.全省水資源、土地資源、生物資源、礦產(chǎn)資源豐富,地表覆蓋類型呈多樣性特征.
3.2 數(shù)據(jù)處理主要過程
湖北省采集的樣本點(diǎn)數(shù)量為11.3萬個(gè),在分布式文件系統(tǒng)中,按照100個(gè)測(cè)區(qū)對(duì)數(shù)據(jù)進(jìn)行整理與存儲(chǔ)(部分縣級(jí)行政區(qū)劃數(shù)據(jù)進(jìn)行了合并).
樣本數(shù)據(jù)入庫檢查時(shí),為了進(jìn)一步提高檢查效率,將數(shù)據(jù)按照測(cè)區(qū)分為5組,并發(fā)進(jìn)行檢查;樣本點(diǎn)位矢量數(shù)據(jù)以及樣本信息描述數(shù)據(jù)庫的表格數(shù)據(jù),經(jīng)質(zhì)量檢查后,同時(shí)錄入至Oracle數(shù)據(jù)庫.這兩項(xiàng)處理過程的效率如表2所示,計(jì)算機(jī)配置為64位Window 7操作系統(tǒng)、8GB內(nèi)存.
表2 樣本數(shù)據(jù)入庫檢查與入庫的效率
從表2可以看出,樣本數(shù)據(jù)入庫檢查與入庫的效率能夠滿足數(shù)據(jù)庫建設(shè)流程中對(duì)大數(shù)據(jù)檢查與入庫的進(jìn)度要求.
3.3 應(yīng)用成果分析
地理國情普查內(nèi)容體系中,地表覆蓋定義了10個(gè)一級(jí)類,分別為耕地、園地、林地、草地、房屋建筑(區(qū))、道路、構(gòu)筑物、人工堆掘地、荒漠與裸露地表、水域,并定義了87個(gè)三級(jí)類[14].基于湖北省地理國情普查采集的樣本數(shù)據(jù),利用本文提出的應(yīng)用方法,得出了一些應(yīng)用成果,這里對(duì)部分應(yīng)用成果進(jìn)行分析.
(1)樣本數(shù)據(jù)空間分布與密度特征
研究區(qū)樣本數(shù)據(jù)的空間分布如圖2所示,經(jīng)統(tǒng)計(jì)分析可知:湖北省范圍內(nèi)的地表覆蓋類型涵蓋了10個(gè)一級(jí)類,81個(gè)三級(jí)類.
圖2 樣本數(shù)據(jù)空間分布特征
以10個(gè)一級(jí)類為例,各地表覆蓋類型樣本點(diǎn)數(shù)量統(tǒng)計(jì)直方圖如圖3所示.
圖3 各地表覆蓋類型樣本點(diǎn)數(shù)量統(tǒng)計(jì)直方圖
從圖3可以看出,湖北省范圍內(nèi),林地類型的樣本數(shù)據(jù)采集是最多的,占樣本數(shù)據(jù)總量的22.20%,空間分布也較廣,所有縣級(jí)行政區(qū)劃均有分布;其次是耕地,占16.87%.
自然地表覆蓋類型的三級(jí)類,是遙感影像分類的難點(diǎn),也是反映生態(tài)環(huán)境及氣候變化特征的主要類型,湖北省地理國情普查采集的這些類型的樣本數(shù)據(jù)比較豐富,為遙感影像分類積累了寶貴的資源.
圖4 各縣級(jí)行政區(qū)劃樣本點(diǎn)密度特征
利用樣本數(shù)據(jù)的空間分布數(shù)據(jù)與各縣級(jí)行政區(qū)劃面積數(shù)據(jù),可以統(tǒng)計(jì)得出各縣級(jí)行政區(qū)劃樣本點(diǎn)密度特征,如圖4所示.
縣級(jí)行政區(qū)劃樣本點(diǎn)密度區(qū)間值為[0.14~3.09],密度特征在一定程度上也反映了各縣級(jí)行政區(qū)劃內(nèi)地物多樣性特征.
(2)地表覆蓋類型在地面照片與同季相遙感影像上的形態(tài)及光譜特征
樣本數(shù)據(jù)在采集過程中,地面照片按照外業(yè)工作規(guī)劃,有計(jì)劃地拍攝,其拍攝季相與遙感影像實(shí)例的拍攝季相一般不同.而經(jīng)過長期的數(shù)據(jù)積累,拍攝季相會(huì)不斷豐富,樣本數(shù)據(jù)庫中將能積累出大量的兩者季相相同的樣本數(shù)據(jù),利用這些數(shù)據(jù),可以對(duì)比得出地物光譜的區(qū)域、季相特征,為遙感影像的自動(dòng)分類提供有力的輔助信息.
圖5為闊葉喬木林樣本數(shù)據(jù),地面照片拍攝時(shí)間為2014年10月28日,遙感影像實(shí)例的拍攝時(shí)間為2013年10月14日,兩者季相一致,在正射糾正后的8bit Pléiade衛(wèi)星遙感影像(R、G、B三波段)上的波譜特征曲線如圖5(c).
圖5 闊葉喬木林樣本數(shù)據(jù)
可以看出:研究區(qū)內(nèi)的闊葉喬木在10月份呈現(xiàn)生長茂盛的形態(tài),連片生長的闊葉林在遙感影像上紋理比較均勻、平滑,在紅波段上表現(xiàn)出了強(qiáng)吸收特征.
(1)大數(shù)據(jù)存儲(chǔ)、管理、分析與信息挖掘是當(dāng)下眾多領(lǐng)域研究的熱點(diǎn),能夠產(chǎn)生巨大的經(jīng)濟(jì)價(jià)值和社會(huì)影響力,而高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理是大數(shù)據(jù)產(chǎn)生服務(wù)價(jià)值的重要前提.本文研究的基于關(guān)系型數(shù)據(jù)庫與分布式文件系統(tǒng)融合的樣本大數(shù)據(jù)建庫方法,解決了不同模型數(shù)據(jù)的存儲(chǔ)、管理與數(shù)據(jù)調(diào)用問題,通過實(shí)例驗(yàn)證與分析,表明該方法能夠保證入庫數(shù)據(jù)的有效性、可用性以及數(shù)據(jù)庫的質(zhì)量,有利于樣本數(shù)據(jù)的合理科學(xué)管理與推廣應(yīng)用.
(2)本文探索性研究的樣本數(shù)據(jù)應(yīng)用方法是樣本數(shù)據(jù)應(yīng)用范圍的一部分,樣本數(shù)據(jù)在應(yīng)用服務(wù)過程中,數(shù)據(jù)時(shí)相與數(shù)據(jù)量還將不斷豐富和積累,應(yīng)用服務(wù)的范圍也會(huì)不斷拓展和豐富,能夠產(chǎn)生更大的服務(wù)價(jià)值.
1國務(wù)院第一次全國地理國情普查領(lǐng)導(dǎo)小組辦公室.地理國情普查數(shù)據(jù)采集技術(shù)方法.北京:測(cè)繪出版社,2013.
2劉露.全球海量遙感影像數(shù)據(jù)的分布式管理技術(shù)研究[碩士學(xué)位論文].長沙:國防科學(xué)技術(shù)大學(xué),2007.
3韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[博士學(xué)位論文].北京:北京郵電大學(xué),2013.
4 Price J.精通Oracle Database 12c SQL&PL/SQL編程(第3版).北京:清華大學(xué)出版社,2014.
5黃飛鵬.海量遙感影像管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[碩士學(xué)位論文].上海:華東師范大學(xué),2011.
6孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn).計(jì)算機(jī)研究與發(fā)展,2013,50(1):146–169.
7劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述.浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,48(6):957–972.
8程滔,袁如金,高志宏,高崟,史曉明.遙感影像解譯樣本數(shù)據(jù)一體化整理方法.地理信息世界,2014,21(5):96–100.
9國務(wù)院第一次全國地理國情普查領(lǐng)導(dǎo)小組辦公室.地理國情普查數(shù)據(jù)庫建設(shè)技術(shù)方法.北京:測(cè)繪出版社,2015.
10周江,王偉平,孟丹,馬燦,古曉艷,蔣杰.面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù).計(jì)算機(jī)研究與發(fā)展,2014,51(2): 382–394.
11程滔.地理國情普查樣本數(shù)據(jù)入庫質(zhì)量檢查方法研究.測(cè)繪通報(bào),2015,10(10):103–106.
12李清泉,李德仁.大數(shù)據(jù)GIS.武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2014,39(6):641–644,646.
13中華人民共和國民政部.中華人民共和國行政區(qū)劃簡冊(cè)2015.北京:中國地圖出版社,2015.
14國務(wù)院第一次全國地理國情普查領(lǐng)導(dǎo)小組辦公室.地理國情普查內(nèi)容與指標(biāo).北京:測(cè)繪出版社,2013.
Database Construction and Its Application of Sample Big Data Collected in Remote Sensing Image
CHENG Tao
(National Geomatics Center of China,Beijing 100830,China)
A database construction method which is based on the integration of relational database and distributed file system is researched for a large sample data base for interpretation of remote sensing images.It analyzes the database’s construction process,and discusses the key technical problems and solution method.Based on the sample database,it studies the application method of sample data,analyzes some kinds of using cases and explores the application mode of sample data.Individual region’s massive sample data are selected for verifying the method and its efficiency.At the same time,it takes 10 first-level classes which are defined in the land cover classification system for example,to analyze the spatial distribution and density characteristics of all kinds of sample data.The results show that the method of database construction and management which is based on the integration of relational database and distributed file system is very effective and applicative for sample data’s searching,analyzing and promoted application.
remote sensing image sample;big data;database;distributed file system;application
國家自然科學(xué)基金(41301464);國家基礎(chǔ)地理信息中心科技創(chuàng)新發(fā)展基金課題(2017-KJ-G01)
2016-08-15;收到修改稿時(shí)間:2016-09-18
10.15888/j.cnki.csa.005723