国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分融策略的土壤采樣設(shè)計方法*

2017-11-01 09:21:27朱阿興秦承志劉軍志劉雪琦
土壤學(xué)報 2017年5期
關(guān)鍵詞:冗余度樣點(diǎn)分化

張 磊 朱阿興 楊 琳 秦承志 劉軍志 劉雪琦

(1 南京師范大學(xué)地理科學(xué)學(xué)院,南京 210023)

(2 中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實驗室,北京 100101)

(3 虛擬地理環(huán)境教育部重點(diǎn)實驗室(南京師范大學(xué)),江蘇省地理環(huán)境演化國家重點(diǎn)實驗室培育建設(shè)點(diǎn),江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,南京 210023)

(4 威斯康辛大學(xué)麥迪遜分校地理系,WI 53706,美國)

(5 南京大學(xué)地理與海洋科學(xué)學(xué)院,南京 210093)

基于分融策略的土壤采樣設(shè)計方法*

張 磊1,3朱阿興1,2,3,4楊 琳2,5?秦承志2劉軍志1,3劉雪琦1,3

(1 南京師范大學(xué)地理科學(xué)學(xué)院,南京 210023)

(2 中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實驗室,北京 100101)

(3 虛擬地理環(huán)境教育部重點(diǎn)實驗室(南京師范大學(xué)),江蘇省地理環(huán)境演化國家重點(diǎn)實驗室培育建設(shè)點(diǎn),江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,南京 210023)

(4 威斯康辛大學(xué)麥迪遜分校地理系,WI 53706,美國)

(5 南京大學(xué)地理與海洋科學(xué)學(xué)院,南京 210093)

采樣設(shè)計方法在地理要素空間分布推測中起著關(guān)鍵作用。采集的樣點(diǎn)數(shù)量盡可能少且推測精度較高通常是采樣設(shè)計的目標(biāo)。此外,高效合理的采樣方案應(yīng)保證較高的推測可信度,同時盡可能避免冗余樣點(diǎn)。傳統(tǒng)的采樣方法大多依靠增加樣點(diǎn)個數(shù)來提高推測精度,且對樣點(diǎn)集內(nèi)部的冗余情況考慮較少。為獲取更加高效合理的樣點(diǎn)集,在環(huán)境條件越相似、地理要素越相似的假設(shè)下,通過環(huán)境相似度分析計算,得到樣點(diǎn)的推測可信度和樣點(diǎn)集內(nèi)部的冗余度,并提出一種基于分融策略的樣點(diǎn)設(shè)計方法。該方法在分化階段將推測可信度低的樣點(diǎn)進(jìn)行分化,增加樣點(diǎn)以降低推測不確定性,在融合階段將環(huán)境條件過于相似的樣點(diǎn)進(jìn)行融合以降低冗余,通過多次分化融合最終使得推測可信度和冗余度均達(dá)到一定的預(yù)設(shè)標(biāo)準(zhǔn),得到最佳樣點(diǎn)方案。將該方法應(yīng)用于美國Raffelson研究區(qū)的土壤采樣,結(jié)果表明,該方法在分化階段可以有效提高樣點(diǎn)的推測可信度,在融合階段能夠有效去除冗余樣點(diǎn),最終可得到用于推測的高效樣點(diǎn)。將本方法與傳統(tǒng)的規(guī)則采樣和分層隨機(jī)采樣進(jìn)行對比,結(jié)果反映本方法獲得的樣點(diǎn)在同等數(shù)量下推測可信度更高,冗余度更低,更高效。

采樣方法;推測可信度;樣點(diǎn)冗余度;土壤制圖;土壤—環(huán)境關(guān)系

通過采集樣點(diǎn)進(jìn)行地理要素空間分布推測時,樣點(diǎn)的布設(shè)方式和數(shù)據(jù)質(zhì)量會直接影響最終的推測結(jié)果[1-4]。尋找高效、合理的樣點(diǎn)設(shè)計方法是地理要素空間分布研究的重要環(huán)節(jié)。由于采樣成本的限制,通常希望利用相對較少的樣點(diǎn)獲得較高精度的推測結(jié)果,從而實現(xiàn)高效率的采樣目標(biāo)[5-6]。達(dá)到高效采樣的目標(biāo)通??蓮膬蓚€角度出發(fā):一是盡可能地獲取代表性好的樣點(diǎn),從而提高推測精度;二是在允許的精度范圍內(nèi)盡可能減少樣點(diǎn)數(shù)量,從而節(jié)約成本?;谏鲜鰞牲c(diǎn),高效合理的樣點(diǎn)集應(yīng)在保證一定推測可信度的前提下盡可能避免存在冗余樣點(diǎn),即避免存在屬性空間中過度相似的樣點(diǎn)。

傳統(tǒng)的概率采樣(如簡單隨機(jī)采樣和規(guī)則采樣)一般通過增加樣點(diǎn)數(shù)量來實現(xiàn)推測精度的提高[7-10]。在地理空間域的采樣方法中,Brus等[11]采用k均值聚類將地理空間劃分成等面積的子區(qū)域,以達(dá)到地理空間均勻分布的目標(biāo),其推測精度的提高僅能通過增加劃分子區(qū)域個數(shù)或增加每個子區(qū)域的樣點(diǎn)數(shù)量實現(xiàn)。利用環(huán)境因子輔助數(shù)據(jù)提高樣點(diǎn)推測精度的現(xiàn)有方法主要從樣點(diǎn)在環(huán)境屬性空間的分布出發(fā)[12-17],例如Minasny和McBratney[12]運(yùn)用拉丁超立方方法,提出一種可以全面覆蓋整體環(huán)境輔助數(shù)據(jù)的采樣方法;Minasny等[13]提出了基于變差四叉樹算法的采樣方法,將目標(biāo)區(qū)域根據(jù)環(huán)境因子的變化復(fù)雜程度進(jìn)行劃分,使得每個樣點(diǎn)所代表區(qū)域內(nèi)的環(huán)境變化幅度相對均衡。這些方法得到的樣點(diǎn)在環(huán)境屬性空間中有著較優(yōu)的分布,但并未針對所設(shè)計的樣點(diǎn)集明確地給出一種能夠?qū)ψ罱K推測精度具有指示作用的參考量,即樣點(diǎn)推測可信度,從而可給每個樣點(diǎn)的可推測范圍和推測的可信度做出提前預(yù)判。楊琳等[18]利用環(huán)境因子輔助數(shù)據(jù),提出了一種尋找典型點(diǎn)的目的性采樣方法,該方法采用模糊聚類提取出環(huán)境因子相似的不同組合,將環(huán)境因子組合的中心位置近似作為典型點(diǎn)的位置,通過尋找典型樣點(diǎn)達(dá)到減少采樣數(shù)量的目的。該方法雖然在一定程度上減少了采樣數(shù)量,但未對典型點(diǎn)之間的冗余程度進(jìn)行定量表達(dá)。

在樣點(diǎn)設(shè)計的過程中,樣點(diǎn)用于地理要素推測時的可信度和樣點(diǎn)集內(nèi)部的冗余度是控制采樣精度和成本的重要依據(jù)。在這方面有研究者做了探討,劉京等[19]提出了樣點(diǎn)個體代表性的度量方法,Zhang等[20]提出了基于推測不確定性補(bǔ)樣方法,此類方法均從待推測點(diǎn)出發(fā),通過環(huán)境相似度對推測不確定性做出了度量,但缺少從單個樣點(diǎn)自身的角度出發(fā),對其可推測范圍及范圍內(nèi)的推測可信度給出定量表達(dá);同時,現(xiàn)有研究缺乏對所設(shè)計的樣點(diǎn)集內(nèi)部冗余情況進(jìn)行定量分析,也缺少對可能存在的過度相似樣點(diǎn)做出相應(yīng)處理?;诘乩憝h(huán)境越相似,地理要素屬性越相似的基本假設(shè),Zhu[21]提出了土壤環(huán)境相似度的度量方法,環(huán)境相似度可用來確定樣點(diǎn)與待推測點(diǎn)之間的相似度以及樣點(diǎn)集內(nèi)部的相似度,既可反映樣點(diǎn)的推測可信度,也可反映樣點(diǎn)集內(nèi)部的冗余程度?;诖?,本文提出一種基于分融策略的樣點(diǎn)設(shè)計方法,可兼顧樣點(diǎn)的推測可信度和樣點(diǎn)集內(nèi)部的冗余度,將該方法應(yīng)用于美國Raffelson研究區(qū)的土壤采樣,并與傳統(tǒng)的規(guī)則格網(wǎng)和分層隨機(jī)方法進(jìn)行樣點(diǎn)推測可信度和冗余度等方面的對比,對該方法的有效性進(jìn)行驗證。

1 數(shù)據(jù)與研究方法

1.1 研究區(qū)及數(shù)據(jù)

研究區(qū)為位于美國威斯康星州La Crosse縣東部的Raffelson流域,區(qū)域中心位置為43°59′49″N、90°57′46″W,面積大約4 km2。該區(qū)為典型的無冰磧作用的山脊―溝谷地形,具有相對平緩的、狹窄的山脊,以及寬平的溝谷。研究區(qū)高程在254~416 m,坡度變化范圍在0°至60°之間。大部分山頂和河谷利用為耕地,山坡主要為林地,少部分因人類活動被改造為牧場。

依據(jù)已有研究[25-26,28],在該研究區(qū)選取了以下7個協(xié)同環(huán)境因子用于采樣設(shè)計:高程、坡度、沿剖面曲率、沿等高線曲率、地形濕度指數(shù)、地質(zhì)類型和沖積物成分比例,分辨率均為10 m。該研究區(qū)已有土壤類型圖如圖1所示,該土壤圖由SoLIM(Soil Land Inference Model)方法生成[25],精度為83.8%,被認(rèn)為是精度較高、較詳細(xì)的土壤類型圖。研究區(qū)有99個實際野外采樣點(diǎn),如圖1所示,這些樣點(diǎn)均已覆蓋所有的16種土壤類型。

1.2 基于分融策略的采樣設(shè)計方法

1.2.1基本思路 基于分融策略的采樣設(shè)計方法的目標(biāo)為,提高單個樣點(diǎn)推測可信度的同時,盡可能降低樣點(diǎn)集內(nèi)部的冗余度。分融策略包括“分化”和“融合”兩個策略?!胺只笔菫榱颂岣邩狱c(diǎn)對其代表域的推測可信度,將單個樣點(diǎn)分化為多個樣點(diǎn),使用這些新樣點(diǎn)重新更好地代表原樣點(diǎn)的代表域,以多個樣點(diǎn)降低原樣點(diǎn)在其代表域中較高的推測不確定性,提高其推測可信度。“融合”即當(dāng)樣點(diǎn)集內(nèi)部存在過度相似的樣點(diǎn)時,對此類樣點(diǎn)進(jìn)行融合,去除樣點(diǎn)冗余,減少樣點(diǎn)數(shù)量。最終,該方法通過不斷地對樣點(diǎn)進(jìn)行分化和融合,逐步增加、刪減樣點(diǎn),逐漸尋找到兼顧推測可信度和冗余度的最合適樣點(diǎn)集。

該方法的兩個關(guān)鍵概念是:單個樣點(diǎn)的推測可信度和樣點(diǎn)集內(nèi)部的冗余度。下面分別介紹這兩個關(guān)鍵概念,以及基于分化和融合策略的采樣設(shè)計方法。

圖1 研究區(qū)已有土壤圖及驗證樣點(diǎn)Fig. 1 Existing soil map of the studied region and locations of validation points

通過對環(huán)境相似度向量的分析,可計算由樣點(diǎn)集對待推測點(diǎn)進(jìn)行推理時產(chǎn)生的不確定性Ui[22]。

式中,如果待推測點(diǎn)i與對其代表性最好(即環(huán)境最相似)的樣點(diǎn)之間的環(huán)境相似度較低,那么,用現(xiàn)有樣點(diǎn)推測待推測點(diǎn)的土壤屬性值將會有較高的不確定性。該不確定性計算方法已在現(xiàn)有研究中證實有效[23-24],即推測不確定性與預(yù)測殘差之間存在正相關(guān),推測不確定性對預(yù)測精度具有重要的指示作用。

此外,單個樣點(diǎn)的推測可信度不能僅考慮代表域中所有待推測點(diǎn)的不確定性總和,也要考慮代表域的范圍大小,也就是代表域中待推測點(diǎn)的數(shù)量。代表域是研究區(qū)中與某一樣點(diǎn)在環(huán)境要素上最相似的區(qū)域,也就是該樣點(diǎn)可推測的地理空間范圍,樣點(diǎn)的代表域可以使用如下的集合表達(dá)式來描述:

式中,Zk為樣點(diǎn)k的代表域,代表域是由待推測點(diǎn)集表達(dá),點(diǎn)集中每一個待推測點(diǎn)i均屬于待推測點(diǎn)全集Z,且每一個待推測點(diǎn)i都滿足等式Max(→Si)=Sk,Max(→S)是環(huán)境相似度與待推測點(diǎn)i最大的樣

ii點(diǎn)相似度值;Ski為樣點(diǎn)k與待推測點(diǎn)i之間的環(huán)境相似度值,即待推測點(diǎn)i與對其代表性最好(即環(huán)境最相似)的樣點(diǎn)為樣點(diǎn)k,滿足這樣條件的待推測點(diǎn)集則為樣點(diǎn)k的代表域。

綜合推測不確定性與代表域,單個樣點(diǎn)的推測可信度可由如下公式表達(dá):

(2)樣點(diǎn)集內(nèi)部冗余度:設(shè)計合理的樣點(diǎn)集在其內(nèi)部應(yīng)當(dāng)不存在過于相似的子樣點(diǎn)集。為了去除這些過相似的冗余樣點(diǎn),需要計算樣點(diǎn)集內(nèi)所有樣點(diǎn)之間的相似度,判斷樣點(diǎn)集中是否存在過相似現(xiàn)象。

式中,R為樣點(diǎn)集內(nèi)部的冗余度,通過所有的樣點(diǎn)對中的最大相似度值表達(dá);n為樣點(diǎn)集中樣點(diǎn)的總個數(shù),Sji為第i個樣點(diǎn)與第j個樣點(diǎn)的相似度(i≠j),將樣點(diǎn)集內(nèi)每對樣點(diǎn)之間進(jìn)行相似度計算,若最大相似度值過高,則可視為該樣點(diǎn)集中存在過相似現(xiàn)象,也就導(dǎo)致了樣點(diǎn)設(shè)計的冗余。

1.2.3樣點(diǎn)設(shè)計方法 方法的總體流程如圖2所示。樣點(diǎn)的設(shè)計過程主要如下:

(1)設(shè)置初始樣點(diǎn)集,可采用簡單隨機(jī)采樣的方式。

(2)計算每個樣點(diǎn)的推測可信度。

(3)找到推測可信度最低的樣點(diǎn),若其推測可信度不大于預(yù)設(shè)閾值,則分化該樣點(diǎn),生成新樣點(diǎn)集,并重復(fù)步驟(3);否則至步驟(4)。分化策略:首先需要確定分化域,分化域是樣點(diǎn)集中推測可信度最低的樣點(diǎn)的代表域,在分化域中重新找到若干個新樣點(diǎn)(數(shù)量大于1)來替換原樣點(diǎn)集中推測可信度最低的樣點(diǎn),這些新樣點(diǎn)即為分化樣點(diǎn)集??赏ㄟ^隨機(jī)抽樣的方式,反復(fù)在分化域中抽取不同的樣點(diǎn)集,選取將分化域中的推測不確定性降低程度最大的作為分化樣點(diǎn)集,最后將分化前推測可信度最低的樣點(diǎn)從當(dāng)前的全樣點(diǎn)集中去除,并將分化樣點(diǎn)集加入當(dāng)前的全樣點(diǎn)集中。

(4)確定樣點(diǎn)集內(nèi)部的冗余度,若冗余度不小于閾值,則融合過相似樣點(diǎn),生成新樣點(diǎn)集,并重復(fù)步驟(4);否則至步驟(5)。融合策略:首先需要確定融合域,融合域是多個過相似冗余樣點(diǎn)的代表域之和,在融合域中重新找到一個新樣點(diǎn)來替換原先的冗余樣點(diǎn)??蓮娜诤嫌蛑蟹磸?fù)隨機(jī)抽取不同的單個樣點(diǎn),選取使得融合域中推測不確定性最小的作為融合樣點(diǎn),將融合前的冗余樣點(diǎn)從當(dāng)前的全樣點(diǎn)集中去除,并將融合樣點(diǎn)加入當(dāng)前的全樣點(diǎn)集中。

(5)重復(fù)步驟(2)~(4),直至推測可信度和冗余度同時達(dá)到閾值要求,則結(jié)束。

該方法需設(shè)置兩個參數(shù):分化條件中最低推測可信度的閾值和融合條件中最高冗余度的閾值。

1.3 方法評價

為驗證本文所提采樣方法的有效性,從三個方面對其進(jìn)行評價。首先,需驗證所計算的樣點(diǎn)推測可信度是否對推測精度具有指示作用。為此,從研究區(qū)隨機(jī)抽取不同數(shù)量(10、11、12、…、30)的樣點(diǎn),計算樣點(diǎn)的代表域和推測可信度。假設(shè)已有土壤圖為真實的土壤類型分布情況,從已有土壤圖中得到每個樣點(diǎn)的土壤類型,利用這些樣點(diǎn)推測研究區(qū)的土壤類型,即將落入某樣點(diǎn)代表域內(nèi)的樣點(diǎn)均賦為該樣點(diǎn)的土壤類型。將99個野外樣點(diǎn)作為驗證點(diǎn),計算利用抽取樣點(diǎn)進(jìn)行推測的推測精度。由于各樣點(diǎn)的代表域內(nèi)包含的驗證樣點(diǎn)數(shù)量不同,僅當(dāng)代表域中驗證樣點(diǎn)數(shù)量大于或等于5個時,可用來計算推測精度。從而得到不同推測可信度樣點(diǎn)所對應(yīng)的推測精度。

其次,需驗證該方法在分融過程中是否能夠有效提高推測可信度且降低冗余度。使用本文提出的樣點(diǎn)分融法進(jìn)行樣點(diǎn)設(shè)計,設(shè)置樣點(diǎn)推測可信度閾值和樣點(diǎn)集冗余度閾值,查看迭代過程中樣點(diǎn)數(shù)量、推測可信度和冗余度等數(shù)值的變化情況。

最后,將基于分融策略的采樣方法與其他常用統(tǒng)計采樣方法(規(guī)則格網(wǎng)和分層隨機(jī)方法)進(jìn)行以下兩方面對比,一是隨樣點(diǎn)數(shù)量增加,推測可信度和冗余度的變化,二是相同數(shù)量樣點(diǎn)下生成的土壤類型圖的不同。設(shè)定3組不同數(shù)量(15、20和25),采用三種采樣方法設(shè)計樣點(diǎn),其中規(guī)則格網(wǎng)樣點(diǎn)按照5×3、5×4、5×5設(shè)計,分層隨機(jī)采樣以母質(zhì)分層。制圖方法采用SoLIM方法[25]。

1.4 方法的參數(shù)敏感性分析

該方法的兩個重要參數(shù)——最低推測可信度和最高冗余度對結(jié)果具有較大影響,有必要對這兩個參數(shù)的敏感性進(jìn)行分析。由于同時變化兩個參數(shù)不便于最終結(jié)果的表達(dá),并且若最低推測可信度設(shè)置過高或最高冗余度設(shè)置過低會導(dǎo)致無法得到有效結(jié)果,因此,分別將其中一個參數(shù)固定為一個較為合理的數(shù)值,再分析樣點(diǎn)數(shù)量隨另一個參數(shù)的變化情況。該分析為使用本方法的參數(shù)設(shè)置提供了參考依據(jù)。

2 結(jié) 果

將基于分融策略的采樣方法應(yīng)用于研究區(qū),從三個方面對該方法進(jìn)行評價,并進(jìn)行了參數(shù)敏感性分析,研究結(jié)果如下:

圖2 方法流程圖Fig. 2 Flow chart of the method

圖3 推測可信度與驗證精度之間的關(guān)系散點(diǎn)圖Fig. 3 Scatter plot of prediction reliability vs. validation accuracy

2.1 樣點(diǎn)推測可信度與推測精度的關(guān)系

為驗證所計算的樣點(diǎn)推測可信度是否對推測精度具有指示作用,得到不同推測可信度樣點(diǎn)的推測精度。二者之間關(guān)系如圖3所示,可以看出,單個樣點(diǎn)的推測可信度與實際的驗證精度具有較高的相關(guān)性(相關(guān)系數(shù)為0.915),對推測結(jié)果具有較好的指示作用。因此,以提高推測可信度作為采樣設(shè)計的主要目標(biāo)是合理的。

2.2 樣點(diǎn)數(shù)量、推測可信度與冗余度變化

為驗證該方法在分融過程中是否能夠有效提高推測可信度且降低冗余度,使用本文提出的樣點(diǎn)分融法進(jìn)行樣點(diǎn)設(shè)計,設(shè)置最低需要滿足的樣點(diǎn)推測可信度閾值為0.86,最高的樣點(diǎn)集冗余度閾值為0.80。

本方法所設(shè)計的樣點(diǎn)數(shù)量的變化如圖4所示。隨著迭代次數(shù)的增加,先通過樣點(diǎn)分化不斷提高了樣點(diǎn)數(shù)量,在迭代次數(shù)為22之后,由于分化產(chǎn)生的樣點(diǎn)開始集中出現(xiàn)過相似的冗余樣點(diǎn),繼而開始進(jìn)行樣點(diǎn)融合,樣點(diǎn)數(shù)量開始減少,在減少至無冗余之后,由于樣點(diǎn)的推測可信度有所下降,再次開始分化樣點(diǎn)。因此,如圖4所示,樣點(diǎn)數(shù)量發(fā)生了多次反復(fù)的上升和下降,并最后穩(wěn)定在一定合理的數(shù)目,本研究中為25個。

在迭代過程中,所有樣點(diǎn)推測可信度的均值、最大值和最小值的演變情況如圖5所示??梢钥闯?,分融方法在前期很大程度上提高了樣點(diǎn)的推測可信度,并最后保證了所有樣點(diǎn)的推測可信度均達(dá)到0.86以上。

圖6以迭代次數(shù)從22至29為例,反映了在去除過相似樣點(diǎn)的過程中,樣點(diǎn)集內(nèi)部冗余度和所有樣點(diǎn)平均推測可信度的變化情況??梢园l(fā)現(xiàn),隨著過相似冗余樣點(diǎn)的去除,樣點(diǎn)數(shù)量從27減少至20,樣點(diǎn)集的冗余度從0.894降低至0.793,樣點(diǎn)的平均推測可信度僅從0.883降至0.872。因此,在融合過程中,冗余度明顯降低,且推測可信度并未受到較大影響,體現(xiàn)了融合策略的有效性。

在分融過程中,最終得到的平均推測可信度并非是所有迭代過程中的最大值。例如,在第37次迭代中,樣點(diǎn)的平均推測可信度達(dá)到了最高值0.887,在最后迭代結(jié)束時,平均推測可信度為0.883,樣點(diǎn)數(shù)量僅為25,但第37次迭代中產(chǎn)生的樣點(diǎn)數(shù)量為28。因此,綜合推測精度與采樣成本考慮,最終產(chǎn)生的25個樣點(diǎn)設(shè)計更為高效合理。

圖4 樣點(diǎn)數(shù)量的變化過程Fig. 4 Variation of the number of sampling sites with iteration

圖5 樣點(diǎn)推測可信度的變化過程Fig. 5 Variation of the prediction reliability of the sampling sites with iteration

圖6 融合過程中(迭代次數(shù)從22至29)冗余度(a)和推測可信度(b)的變化Fig. 6 Variation of redundancy(a)and prediction reliability(b)in the fusion procedure(iteration from 22 to 29)

2.3 基于分融策略的采樣方法與其他方法的對比

基于分融策略所設(shè)計的樣點(diǎn)、規(guī)則格網(wǎng)設(shè)計的樣點(diǎn)和分層隨機(jī)(以母質(zhì)分層)樣點(diǎn)的分布情況(樣點(diǎn)數(shù)量為20時)如圖7(a)所示。三種方法所設(shè)計的樣點(diǎn)在空間上的分布存在很大的不同。分層隨機(jī)樣點(diǎn)較易出現(xiàn)樣點(diǎn)聚集情況,基于分融策略所設(shè)計的樣點(diǎn)在空間上的分布較均勻,基本覆蓋了各種地形部位。

三種采樣方法所得采樣點(diǎn)的平均推測可信度、最低推測可信度和冗余度如表1所示,每組數(shù)量的樣點(diǎn)進(jìn)行100次重復(fù)實驗,并求得重復(fù)實驗結(jié)果的均值。在不同樣點(diǎn)數(shù)量的情況下,基于樣點(diǎn)分融方法所獲取的樣點(diǎn)的平均推測可信度均高于規(guī)則格網(wǎng)和分層隨機(jī)方法,最低推測可信度遠(yuǎn)高于規(guī)則格網(wǎng)和分層隨機(jī)方法,且樣點(diǎn)數(shù)量較小時,基于分融策略的采樣方法也保持了較高的最低推測可信度。也就是說,基于分融策略的采樣方法可以保證每個所選樣點(diǎn)均具有較高的推測可信度,且不受樣點(diǎn)數(shù)量影響、比較穩(wěn)定,而分層隨機(jī)或規(guī)則采樣方法則有可能采集到推測可信度較低的樣點(diǎn),例如規(guī)則采樣和分層隨機(jī)采樣在樣點(diǎn)數(shù)量為15時的100次實驗最低推測可信度變化范圍分別為0.662~0.793和0.651~0.764。在樣點(diǎn)內(nèi)部的冗余度方面,其余兩種方法均存在冗余度較高的情況,而本文提出的方法較好地避免了樣點(diǎn)冗余的現(xiàn)象,且隨著樣點(diǎn)增加,冗余度逐漸降低。這表明了基于分融策略的采樣方法的高效性。而規(guī)則采樣法和分層隨機(jī)采樣法由于缺少能控制樣點(diǎn)集內(nèi)部冗余度的指標(biāo),導(dǎo)致了隨樣點(diǎn)數(shù)量的增加,冗余度有一定的提高。

三種方法的推理制圖結(jié)果分別如圖7(b)、7(c)和7(d)所示(樣點(diǎn)數(shù)量均為25)??傮w而言,基于分融策略的采樣樣點(diǎn)所得的土壤圖較另外兩種采樣樣點(diǎn)所得土壤圖具有與原圖更高的一致性?;诜秩诓呗缘臉狱c(diǎn)覆蓋了原圖中的15種土壤類型,僅有一種在原圖面積中僅占0.23%的土壤類型Urne未覆蓋到。盡管圖7(b)分布在研究區(qū)東部比較窄的凸背坡上的幾種小面積土壤類型Elevasil、Hixton和Boone出現(xiàn)了錯分,但較另外兩個土壤圖要準(zhǔn)確,此外,也存在對土壤類型Orion推測面積過大的問題。規(guī)則采樣樣點(diǎn)和分層隨機(jī)樣點(diǎn)分別僅覆蓋到8種和12種土壤類型,所生成的土壤圖均對研究區(qū)西部山坡上土壤類型的分布刻畫較差,體現(xiàn)在土壤類型Lamoille的缺失及土壤類型Dorerton的錯分;同時,基于分層隨機(jī)樣點(diǎn)所生成土壤圖中將土壤類型Elevasil錯分為Hixton,土壤類型Orion也存在推測面積過大的問題。此外,由于規(guī)則采樣樣點(diǎn)未覆蓋到一種母質(zhì)而導(dǎo)致存在無推測值的區(qū)域,見圖7(c)中灰白色NoData區(qū)。

2.4 參數(shù)敏感性

對方法的兩個重要參數(shù)——最低推測可信度和最高冗余度進(jìn)行敏感性分析,分別將其中一個參數(shù)固定為一個較為合理的數(shù)值,再分析樣點(diǎn)數(shù)量隨另一個參數(shù)的變化情況。將最高冗余度閾值設(shè)定為0.80,最低推測可信度閾值分別設(shè)置為0.70、0.75、0.80和0.85(最低推測可信度閾值大于0.87難以得到有效結(jié)果,因此最高設(shè)為0.85),計算采用所提出方法得出最佳樣點(diǎn)數(shù)量。此外,將最低推測可信度閾值固定為0.87,將最高冗余度閾值分別設(shè)置為0.80、0.85、0.90和0.95(最高冗余度閾值小于0.80難以得到有效結(jié)果,因此最低設(shè)為0.80),計算采用所提出方法得到最佳樣點(diǎn)數(shù)量。

圖7 三種采樣方法對比:(a)三種不同類型采樣點(diǎn)的位置分布;(b)、(c)和(d)依次為樣點(diǎn)數(shù)量為25時基于分融策略的采樣、規(guī)則采樣和分層隨機(jī)采樣樣點(diǎn)所得推理制圖結(jié)果Fig. 7 Comparison of three sampling methods:(a)Locations of the sampling sites relative to sampling method in the study area;The predicted map from three different sampling method using 25 sample points:(b)from sampling based differentiation and fusion strategy;(c)from grid sampling method;(d)from stratified random sampling method

表1 三種不同方法所得采樣點(diǎn)的平均推測可信度、最低推測可信度和冗余度Table 1 Mean and minimal prediction reliability and redundancy relative to sampling strategy

上述兩種設(shè)置所得結(jié)果如圖8所示??梢钥闯?,在最高冗余度不變的情況下,隨著最低推測可信度的增加,分融法的最佳樣點(diǎn)數(shù)量增加,當(dāng)最低推測可信度低于0.80時,樣點(diǎn)數(shù)量受最低推測可信度閾值的影響很小,從0.80至0.85時,樣點(diǎn)數(shù)量顯著增加,即當(dāng)最低推測可信度增加至一定值,則需要更多的樣點(diǎn)。此外,在推測可信度保持不變的情況下,當(dāng)最高冗余度從0.80至0.85時,樣點(diǎn)數(shù)量增加顯著,此時最高冗余度起到了調(diào)節(jié)樣點(diǎn)數(shù)量的效果,當(dāng)最高冗余度高于0.85時,樣點(diǎn)數(shù)量保持穩(wěn)定在34~35之間,即最高冗余度增加至一定的值,則不再需要更多的樣點(diǎn)。

圖8 樣點(diǎn)數(shù)量隨最低推測可信度閾值(a)和最高冗余度閾值(b)的變化Fig. 8 Variation of the number of sampling sites with threshold of prediction reliability(a)and threshold of redundancy(b)

3 討 論

樣點(diǎn)推測可信度和樣點(diǎn)集冗余度是基于分融策略采樣方法的重要概念,這兩者對推測精度和采樣成本具有指示作用,即樣點(diǎn)推測可信度越高,推測精度越高;樣點(diǎn)集冗余度越高,成本越高。一般在樣點(diǎn)數(shù)量不變的情況下,樣點(diǎn)推測可信度越高,樣點(diǎn)集冗余度會越低,反之亦然。二者之間存在矛盾且統(tǒng)一的關(guān)系,本文通過分融策略試圖解決二者之間的矛盾,在初期樣點(diǎn)數(shù)量增加的情況下,分化起主導(dǎo)作用,推測可信度得以提高,但后期樣點(diǎn)增加會產(chǎn)生冗余樣點(diǎn),此時通過融合策略逐漸去除冗余樣點(diǎn)。最終找到兼顧高推測可信度和低冗余度的樣點(diǎn)集。

基于分融策略的采樣方法,初期由于分化過程占主導(dǎo)地位,大幅度提高了推測可信度,樣點(diǎn)數(shù)量較少;在后期,樣點(diǎn)數(shù)量逐漸增多,推測可信度已滿足了閾值條件,融合過程開始占據(jù)主導(dǎo)地位,其目標(biāo)為降低樣點(diǎn)集內(nèi)部的冗余,通過將過度相似的樣點(diǎn)融合,重新找到一個新樣點(diǎn)替代原來的多個冗余樣點(diǎn)的方式實現(xiàn)。因此,相比于規(guī)則采樣和分層隨機(jī)采樣,基于分融策略的采樣方法必然會得到冗余度更低的樣點(diǎn)集,這也是基于分融策略這種采樣方法的優(yōu)點(diǎn)。而與之不同的是,規(guī)則采樣法和分層隨機(jī)采樣法則由于缺少一個指標(biāo)能控制樣點(diǎn)集內(nèi)部的冗余度,導(dǎo)致了在樣點(diǎn)數(shù)量增加的過程中冗余度有一定的提高的現(xiàn)象。

對應(yīng)樣點(diǎn)推測可信度和樣點(diǎn)集冗余度,本方法有兩個需設(shè)定的重要閾值參數(shù)——最低推測可信度和最高冗余度。一般而言,最低推測可信度閾值越高,推測精度越高,但樣點(diǎn)數(shù)量也會增加,即成本上升;最高冗余度閾值設(shè)定越低,樣點(diǎn)間的相似度越小,樣點(diǎn)數(shù)量減少,但也限制了推測可信度的提高。有時,推測可信度閾值設(shè)定過高同時冗余度閾值設(shè)定過低,可能樣點(diǎn)設(shè)計無解,即無法得到同時滿足兩個參數(shù)的樣點(diǎn),如本文案例中分別設(shè)置為0.90和0.60時。因此,設(shè)定這兩個參數(shù)成為推測精度和采樣成本的平衡問題。

在實際應(yīng)用本文所提采樣方法時,不同的研究區(qū)存在不同的閾值設(shè)定方案,用戶可設(shè)定幾組閾值進(jìn)行多次實驗進(jìn)而選擇適宜的參數(shù)。若預(yù)算充足允許采集更多的樣點(diǎn),在最高冗余度閾值不變的情況下,可適當(dāng)提高最低推測可信度閾值,以提高推測精度。若預(yù)算有限,在保證一定最低推測可信度的情況下,可適當(dāng)減小最高冗余度閾值以減少樣點(diǎn)數(shù)量。后續(xù)工作中將會對有關(guān)閾值的設(shè)置進(jìn)行更深入的分析,例如使用多個研究區(qū)進(jìn)行應(yīng)用來尋找規(guī)律。

4 結(jié) 論

本文提出了一種基于分融策略的采樣設(shè)計方法,通過分融策略尋找到推測可信度高且冗余度小的高效樣點(diǎn)集。以Raffelson研究區(qū)為例,結(jié)果表明,本文提出的樣點(diǎn)推測可信度與推測精度成正相關(guān)關(guān)系,說明樣點(diǎn)的推測可信度對推測結(jié)果具有較好的指示作用。該方法在樣點(diǎn)分化的過程中提高了樣點(diǎn)的推測可信度,同時,樣點(diǎn)融合去除了冗余樣點(diǎn),且去除冗余樣點(diǎn)對推測可信度的影響很小,達(dá)到了在推測可信度保持穩(wěn)定的情況下盡可能減少樣點(diǎn)數(shù)量的目標(biāo)。該方法與傳統(tǒng)的規(guī)則格網(wǎng)和分層隨機(jī)采樣方法對比,可獲取推測可信度更高且冗余度更低的樣點(diǎn),采集到的樣點(diǎn)更為高效,生成土壤類型圖更為準(zhǔn)確。此外,本文還對方法的兩個重要參數(shù)(最低推測可信度和最高冗余度)進(jìn)行了敏感性分析,為采用本方法進(jìn)行參數(shù)設(shè)置提供了初步參考依據(jù),后續(xù)工作還包括將該方法用于實際土壤采樣制圖中以進(jìn)一步驗證該方法的有效性,以及方法參數(shù)與土壤制圖精度的關(guān)系等。

[1] Brus D J,Gruijter J J D. Random sampling or geostatistical modelling? Choosing between designbased and model-based sampling strategies for soil.Geoderma,1997,80(1/2):1—44

[2] Gregoire T G,Valentine H T. Sampling strategies for natural resources and the environment. International Journal of Environmental Analytical Chemistry,2008,88(8):596—597

[3] Mcbratney A B,Santos M L M,Minasny B. On digital soil mapping. Geoderma,2003,117(1/2):3—52

[4] Stein A,Ettema C. An overview of spatial sampling procedures and experimental design of spatial studies for ecosystem comparisons. Agriculture Ecosystems &Environment,2003,94(1):31—47

[5] Hartemink A E ,Mcbratney A,Mendon?a-Santos M D L. Digital soil mapping with limited data. New York:Springer-Verlag,2008

[6] 朱阿興,李寶林,裴韜,等. 精細(xì)數(shù)字土壤普查模型與方法. 北京:科學(xué)出版社,2008 Zhu A X,Li B L,Pei T,et al. Model and method of detail digital soil survey(In Chinese). Beijing:Science Press,2008

[7] Cochran W G. Sampling techniques,3rd ed. New York:John Wiley & Sons,1977

[8] Kish L. Survey sampling. New York:John Wiley &Sons,1985

[9] Webster R,Oliver M A. Statistical methods in soil and land resource survey. Oxford:Oxford University Press,1990

[10] Mcbratney A B,Webster R. How many observations are needed for regional estimation of soil properties? Soil Science,1983,135(3):177—183

[11] Brus D J,Gruijter J J,Groenigen J W. Designing spatial coverage samples using the k-means clustering algorithm// Digital soil mapping. An introductory perspective. New York:Elsevier,2006:183—192

[12] Minasny B,McBratney A B. A conditioned Latin hypercube method for sampling in the presence of ancillary information. Computers & Geosciences,2006,32(9):1378—1388

[13] Minasny B,McBratney A B,Walvoort D J J. The variance quadtree algorithm:Use for spatial sampling design. Computers & Geosciences,2007,33(3):383—392

[14] Simbahan G C,Dobermann A. Sampling optimization based on secondary information and its utilization in soil carbon mapping. Geoderma,2006,133(3/4):345—362

[15] Brus D J,Heuvelink G B M. Optimization of sample patterns for universal kriging of environmental variables.Geoderma,2007,138(1/2):86—95

[16] Zhu A,Yang L,Li B L,et al. Construction of membership functions for predictive soil mapping under fuzzy logic. Geoderma,2010,155(3/4):164—174

[17] Qin C Z,Zhu A X,Qiu W L,et al. Mapping soil organic matter in small low-relief catchments using fuzzy slope position information. Geoderma,2012,171/172(2):64—74

[18] 楊琳,朱阿興,秦承志,等. 基于典型點(diǎn)的目的性采樣設(shè)計方法及其在土壤制圖中的應(yīng)用. 地理科學(xué)進(jìn)展,2010,29(3):279—286 Yang L,Zhu A X,Qin C Z,et al. A purposive sampling design method based on typical points and its application in soil mapping(In Chinese). Progress in Geography,2010,29(3):279—286

[19] 劉京,朱阿興,張淑杰,等. 基于樣點(diǎn)個體代表性的大尺度土壤屬性制圖方法. 土壤學(xué)報,2013,50(1):12—20 Liu J,Zhu A X,Zhang S J,et al. Mapping soil properties using individual representativeness of samples over large area(In Chinese). Acta Pedologica Sinica,2013,50(1):12—20

[20] Zhang S J,Zhu A X,Liu J,et al. An heuristic uncertainty directed field sampling design for digital soil mapping. Geoderma,2016,267:123—136

[21] Zhu A X. A similarity model for representing soil spatial information. Geoderma,1997,77(2/4):217—242

[22] Zhu A X,Band L E,Dutton B,et al. Automated soil inference under fuzzy logic. Ecological Modelling,1996,90(2):123—145

[23] Zhu A X. Measuring uncertainty in class assignment for natural resource maps under fuzzy logic.Photogrammetric Engineering & Remote Sensing,1997,63(10):1195—1202

[24] Zhu A X,Liu J,Du F,et al. Predictive soil mapping with limited sample data. European Journal of Soil Science,2015,66(3):535—547

[25] Zhu A X,Hudson B,Burt J,et al. Soil mapping using GIS,expert knowledge,and fuzzy logic. Soil Science Society of America Journal,2001,65(5):1463—1472

[26] Qi F,Zhu A. Knowledge discovery from soil maps using inductive learning. International Journal of Geographical Information Science,2003,17(8):771—795

[27] Zhu A,Band L E. A knowledge-based approach to data integration for soil mapping. Canadian Journal of Remote Sensing,1994,20(4):408—418

[28] 朱阿興,李寶林,楊琳,等. 基于GIS、模糊邏輯和專家知識的土壤制圖及其在中國應(yīng)用前景. 土壤學(xué)報,2005,42(5):844—851 Zhu A X,Li B L,Yang L,et al. Predictive soil mapping based on a GIS,expert knowledge,and fuzzy logic framework and its application prospects in China(In Chinese). Acta Pedologica Sinica,2005,42(5):844—851

A Sample Differentiation and Fusion Strategy for Designing of Soil Sampling

ZHANG Lei1,3ZHU A-Xing1,2,3,4YANG Lin2,5?QIN Chengzhi2LIU Junzhi1,3LIU Xueqi1,3
(1School of Geographical Science,Nanjing Normal University,Nanjing210023,China)
(2State Key Laboratory of Environment and Resources Information System,Institute of Geographical Sciences and Resources
Research,Chinese Academy of Sciences,Beijing100101,China)
(3Key Laboratory of Virtual Geographic Environment(Nanjing Normal University),Ministry of Education;State Key Laboratory Cultivation Base of Geographical Environment Evolution(Jiangsu Province);Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application,Nanjing210023,China)
(4Department of Geography,University of Wisconsin-Madison,Madison,WI53706,USA)
(5School of Geographic and Oceanographic Sciences,Nanjing University,Nanjing210093,China)

【Objective】Quality of mapping based on prediction of geographic variables is greatly affected by the layout of the sampling sites. Due to the limitation of sampling cost,it is generally expected to have fewer sampling sites that will be able to provide more information for accurate prediction. To achieve such a target of efficient sampling,it is advisable to proceed from the following two point:first,set up sampling sites that are highly representative of the area of interest for better prediction accuracy,and second,reduce the number of sampling sites as many as possible without risking any loss of required accuracy. Based on the assumption that the more similar the two sites in geographic environment,the more similar their geographic elements,it is held that every sampling site can be used to represent an area similar to the site in environment,and the similarity between the sampling site and the sites to be predicted can be used to determine reliability of the prediction,meanwhile,the similarity within the sampling site set can be used to determine redundancy of the sampling site set. So,the layout of efficient sampling sites needs to keep balance between reliability of the prediction and redundancy of the sampling site set. 【Method】 In this paper,a sample differentiation and fusion strategy is set forth for designing of sampling. The differentiation strategy is to increase the number of sampling sites so as to improve reliability of later on predictions,while the fusion strategy is to merge over-similar sampling sites,so as to reduce redundancy of the sampling site set. Through repeated differentiation and fusion,a preset requirement is finally met for prediction reliability and sampling site redundancy. The method has been tested in a case study of a small watershed in Raffelson,Wisconsin of USA. First,a comparative analysis was done of sampling sites varying in prediction reliability with 99 validation sampling sites to determine relationship between prediction reliability and validation accuracy.Then,verification was performed of effectiveness of the proposed strategy improving prediction reliability in its first phase and reducing redundancy of the sampling site set in its second phase. And in the end,comparison was done of the proposed method in this paper with other sampling methods(grid sampling and stratified simple random sampling)using the same number of sampling sites(15,20 and 25,separately).【Result】Results show that prediction reliability is positively related to prediction accuracy,so the former can be used as a better indicator of the latter. From the specific processes of the strategy,it can be discerned that,the differentiation can effectively raise the prediction reliability,while the fusion reduce the redundancy of the sampling site set,and what is more,have little impact on the prediction reliability. The comparisons show that the proposed method is higher in prediction reliability and lower in redundancy,and is 17.3%(n=15),14.8%(n=20)and 16.2%(n=25)lower than the grid sampling method,and 16.5%(n=15),15.3%(n=20)and 17.0%(n=25)higher than the stratified simple random sampling method in lowest prediction reliability,respectively,while 8.8%(n=15),12.8%(n=20)and 20.3%(n=25)lower than the grid sampling method,and 6.4%(n=15),12.4%(n=20)and 19.6%(n=25)lower than the stratified simple random sampling method,respectively,in redundancy. 【Conclusion】Therefore,it can be concluded that the proposed method provides a means for obtaining a high prediction reliability and low sampling redundancy in sampling,and hence is a more efficient method for designing sampling schemes than the grid sampling and stratified simple random sampling methods.

Sampling method;Prediction reliability;Sampling redundancy;Soil mapping;Soilenvironmental relationships

P934

A

10.11766/trxb201701030562

* 國家自然科學(xué)基金項目(41431177,41471178,41530749)、江蘇省高校自然科學(xué)研究重大項目(14KJA170001)和國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃(973)項目(2015CB954102)Supported by the National Natural Science Foundation of China(Nos.41431177 and 41471178,41530749),the Natural Science Research Program of Jiangsu Province(No.14KJA170001)and the National Basic Research Program of China(973 Program)(No.2015CB954102)

? 通訊作者 Corresponding author,E-mail:yanglin@ lreis.ac.cn

張 磊(1992—),男,江蘇南京人,碩士研究生,研究方向為地理統(tǒng)計學(xué)與地理空間采樣方法。E-mail:zlxy9892@163.com

2017-01-03;

2017-02-10;優(yōu)先數(shù)字出版日期(www.cnki.net):2017-03-17

(責(zé)任編輯:陳榮府)

猜你喜歡
冗余度樣點(diǎn)分化
一種航天測控冗余跟蹤弧段處理方法
上海航天(2024年1期)2024-03-08 02:52:28
小麥條銹病田間為害損失的初步分析
湖北植保(2022年4期)2022-08-23 10:51:52
兩次中美貨幣政策分化的比較及啟示
基于空間模擬退火算法的最優(yōu)土壤采樣尺度選擇研究①
土壤(2021年1期)2021-03-23 07:29:06
分化型甲狀腺癌切除術(shù)后多發(fā)骨轉(zhuǎn)移一例
上海某基坑工程考慮冗余度的支撐體系設(shè)計
山西建筑(2017年29期)2017-11-15 02:04:38
橋梁設(shè)計的冗余度分析
養(yǎng)豬發(fā)酵床墊料微生物類群結(jié)構(gòu)特性分析
橋梁設(shè)計的冗余度
Cofilin與分化的研究進(jìn)展
库尔勒市| 万载县| 榆林市| 互助| 灵山县| 庄河市| 隆德县| 盐城市| 永昌县| 崇礼县| 象山县| 上栗县| 汶川县| 维西| 循化| 平罗县| 泰州市| 乳山市| 泗洪县| 唐山市| 湄潭县| 雷州市| 望都县| 老河口市| 清水河县| 九龙县| 定陶县| 大港区| 河池市| 保亭| 锦州市| 都匀市| 苏尼特左旗| 临夏市| 武川县| 新余市| 河源市| 石城县| 阳西县| 茌平县| 门头沟区|