胡永森,王 力,施開分,周 巍,饒 華,王長耀
(1.東華理工大學(xué) 測繪工程學(xué)院,江西 南昌 330013; 2.中國科學(xué)院遙感與數(shù)字地球研究所/遙感科學(xué)國家重點實驗室,北京 100101; 3.國家統(tǒng)計局農(nóng)村社會經(jīng)濟調(diào)查司,北京 100826; 4.國家統(tǒng)計局新疆建設(shè)兵團調(diào)查總隊,新疆 烏魯木齊 830000)
基于分區(qū)分層隨機抽樣的棉花種植面積遙感監(jiān)測方法研究
胡永森1,2,王 力2,施開分3,周 巍3,饒 華4,王長耀2
(1.東華理工大學(xué) 測繪工程學(xué)院,江西 南昌 330013; 2.中國科學(xué)院遙感與數(shù)字地球研究所/遙感科學(xué)國家重點實驗室,北京 100101; 3.國家統(tǒng)計局農(nóng)村社會經(jīng)濟調(diào)查司,北京 100826; 4.國家統(tǒng)計局新疆建設(shè)兵團調(diào)查總隊,新疆 烏魯木齊 830000)
以新疆建設(shè)兵團為研究區(qū)域,依據(jù)當?shù)刈魑锓N植結(jié)構(gòu),結(jié)合遙感技術(shù),在借鑒前人對大區(qū)域作物面積遙感估算研究方法的基礎(chǔ)上,采取分區(qū)分層隨機抽樣的方法對新疆建設(shè)兵團的棉花種植面積進行估算,并引入均值和變異系數(shù)等精度評價指標對該抽樣方法行評估,最后根據(jù)外推估算方法,以遙感影像中的棉花種植面積統(tǒng)計結(jié)果為真值與抽樣反推結(jié)果進行對比分析。結(jié)果表明,各組格網(wǎng)的棉花種植面積均值的估計量變異系數(shù)在試驗中的變化幅度很小,抽樣體系穩(wěn)定,符合統(tǒng)計抽樣原理對精度的高要求。反推后的各組棉花種植總面積精度均達到95%以上,反推質(zhì)量效果較好。綜合來看,上述空間抽樣方法是可行的,尤其是對總體分區(qū)分層的劃分,對后面的抽樣及反推工作起到了很好的效果,可為政府對新疆建設(shè)兵團棉花種植面積的統(tǒng)計提供方法參考。
遙感; 抽樣; 分層; 比例分配; 奈曼分配
我國統(tǒng)計工作成績斐然,為國民經(jīng)濟的健康運行發(fā)揮了很大作用。但是隨著人們對統(tǒng)計工作要求的提高,傳統(tǒng)的統(tǒng)計方式已經(jīng)很難滿足人們的要求[1-4]。在3S技術(shù)的支持下,基于經(jīng)典統(tǒng)計抽樣原理結(jié)合空間統(tǒng)計學(xué)理論發(fā)展起來的空間抽樣技術(shù)在農(nóng)情遙感監(jiān)測中的應(yīng)用日益廣泛[5-11]。在大區(qū)域作物種植面積監(jiān)測方面,利用空間抽樣技術(shù)和3S技術(shù)進行作物面積遙感監(jiān)測的新型統(tǒng)計方法已經(jīng)受到越來越多的專家和學(xué)者的青睞。
目前,各國的大區(qū)域作物面積監(jiān)測均采用空間抽樣方法。例如,美國大面積農(nóng)作物估產(chǎn)計劃(LACIE計劃)、農(nóng)業(yè)和資源的空間遙感調(diào)查計劃(AGRISTTARS計劃)等采用了面積抽樣框法[12],歐盟的MARS計劃中采用了分層抽樣的方法[13]。國內(nèi)先后開展了黃淮海平原小麥遙感估產(chǎn)[14]、華北六省冬小麥產(chǎn)量遙感監(jiān)測[15]、南方水稻估產(chǎn)[16]等一系列的研究。
新疆建設(shè)兵團是新疆重要的棉花產(chǎn)區(qū)和商品棉基地,對新疆棉花產(chǎn)業(yè)的穩(wěn)定和發(fā)展具有重要的作用。因此,改進新疆建設(shè)兵團棉花統(tǒng)計調(diào)查手段,提高新疆建設(shè)兵團棉花調(diào)查數(shù)據(jù)的質(zhì)量,不僅對于新疆有著重要的經(jīng)濟意義,還可為政府相關(guān)部門的決策提供強大的數(shù)據(jù)支持。為此,以新疆建設(shè)兵團為研究區(qū)域,在借鑒前人對大區(qū)域作物面積遙感估算研究方法的基礎(chǔ)上,采取分區(qū)分層隨機抽樣的方法對新疆建設(shè)兵團的棉花種植面積進行估算,并以棉花實際種植面積為真值對估算結(jié)果進行對比分析。
1.1 數(shù)據(jù)來源及處理
由于空間抽樣方案設(shè)計階段尚未進行當年的棉花調(diào)查,本研究采用棉花種植面積相關(guān)程度最高的上一年新疆農(nóng)作物遙感影像分類圖(圖1)作為選擇抽樣方法的參考量,該圖為基于時序植被指數(shù)曲線對中分遙感影像進行分類得到[17-18],并在圖中標出了新疆建設(shè)兵團各師的位置。根據(jù)時間可控性,中分影像采用Landsat OLI/TIRS(OLI陸地成像儀)和環(huán)境與災(zāi)害監(jiān)測預(yù)報小衛(wèi)星星座的影像拼接而成。由于新疆區(qū)域較大,受各區(qū)域作物物候、氣象等條件的影響,各地區(qū)分類精度有差異,介于70%~80%。
圖中各點為各師總部所在地,黑色區(qū)域為棉花,空白區(qū)域為其他作物或未種植任何作物
利用Arcgis 10.1軟件根據(jù)新疆建設(shè)兵團各師邊界對新疆農(nóng)作物遙感影像分類圖進行裁剪,得到新疆建設(shè)兵團的遙感影像分類圖。由于各團場面積較大且個數(shù)較少,不可能選擇團場為抽樣單元。為了保證抽樣精度,利用Arcgis 10.1軟件生成格網(wǎng)并選擇格網(wǎng)作為抽樣單元。新疆建設(shè)兵團各師的部署是沿戰(zhàn)略交通線和邊界駐扎,所以其所屬地域的棉花種植面積分布極不均勻,而且裁剪后的新疆建設(shè)兵團各師格網(wǎng)數(shù)較少。如果對各師進行單獨抽樣,抽出的格網(wǎng)代表性較差影響后期反推的總精度,故需要先對各師進行分區(qū)然后再對各區(qū)進行分層隨機抽樣[19]。根據(jù)遙感影像分類圖可以得到各師棉花種植面積占新疆建設(shè)兵團棉花種植總面積的比例(表1)。
表1 新疆建設(shè)兵團各師棉花種植面積所占比例 %
根據(jù)各師的棉花種植面積所占比例和位置分布情況結(jié)合經(jīng)典統(tǒng)計抽樣原理按照事前評估方法對保證抽樣精度的要求進行分區(qū)[20]。通過比較圖1和表1,將各師分為以下4個區(qū)域,每區(qū)為一組(表2)。
表2 各師分區(qū)情況
1.2 分區(qū)分層隨機抽樣及外推實施方法設(shè)計
1.2.1 分層及樣本量的估算和分配 在分層界限的選擇上,根據(jù)戴倫紐斯提出的利用輔助變量確定分層界限的方法,選擇抽樣框內(nèi)的耕地總面積作為目標變量的輔助變量。由于兵團總體有限,且樣本值固定不變,所以采用基于設(shè)計的估計每組總體均值的抽樣設(shè)計方案。在抽樣時各個樣本的抽樣費用是相等的,所以選擇在粗估各組所需總樣本量后,采用比例分配和奈曼分配這2種方法對總樣本量進行修正,并采用這2種分配方法確定各組中各層應(yīng)抽的樣本數(shù)[21-22],最后依據(jù)樣本在實際操作中查找的難度進行微調(diào)。
在估計總樣本量之前,規(guī)定抽樣精度V的上限計算公式如下:
經(jīng)過比例分配修正后的樣本總量n和第h層的層權(quán)wh計算公式如下:
經(jīng)過奈曼分配修正后的樣本總量n和第h層的層權(quán)wh計算公式如下:
1.2.2 抽樣及樣本代表性評估 在抽樣前分區(qū)時,參考了統(tǒng)計中提高抽樣樣本代表性的事前保證方法,在抽樣后引入事后評估方法。以總體格網(wǎng)中的參數(shù)為真值,在抽樣后對樣本和總體格網(wǎng)中的棉花種植面積所占比例的均值進行比較,并求出每組估計量的變異系數(shù),以此來檢驗樣本和總體的分布一致性和樣本代表性。
1.2.3 棉花種植面積的估算 對上述各組各層進行樣本量分配和抽樣后,估計出總體均值乘以總量即為新疆建設(shè)兵團棉花種植面積(Y)。
2.1 分區(qū)分層隨機抽樣結(jié)果分析與調(diào)整
由于當年的調(diào)查尚未開始,選擇參考價值最大的上一年棉花播種面積作為參考量。在各層隨機抽樣開始之前,先根據(jù)每個格網(wǎng)中棉花種植面積占該格網(wǎng)中農(nóng)作物種植面積的比例對每組采用累積均方根法進行分層。
分析各組抽樣結(jié)果(表3)發(fā)現(xiàn),第4組與其他3組相比樣本總量及樣本的分配有些異樣,奈曼分配和比例分配的抽樣結(jié)果在各層之間差別都很大。通過觀察第4組格網(wǎng)的分層節(jié)點和頻數(shù)可以發(fā)現(xiàn),第1層棉花種植面積所占比例為零的格網(wǎng)(包括無農(nóng)作物種植的格網(wǎng))占總格網(wǎng)數(shù)的74.11%,且大部分為無農(nóng)作物種植的格網(wǎng)。本研究的目的在于估算新疆建設(shè)兵團棉花種植面積,對總體格網(wǎng)中絕大部分農(nóng)作物種植面積為零的情況來說,這種抽樣在實際經(jīng)驗中接近小概率抽樣,這些占大多數(shù)的農(nóng)作物種植面積為零的待抽樣單位對下一年(即本次調(diào)查)的棉花種植分布沒有預(yù)測意義且耗費資源,而且本研究所提方法的優(yōu)勢也不適應(yīng)于這種類似小概率抽樣。因此,對第4組做抽樣優(yōu)化,進行除零抽樣,將總體中農(nóng)作物種植面積為零的格網(wǎng)全部清除,對剩余的格網(wǎng)進行分層隨機抽樣且以它為總體進行反推,修正后的結(jié)果見表4。
表3 第1組分層隨機抽樣抽出的樣本分配結(jié)果
表4 第4組分層隨機抽樣抽出的改進后樣本分配結(jié)果
對以上4組抽樣結(jié)果(表3—4)進行分析,并根據(jù)前人研究和大量經(jīng)驗可以發(fā)現(xiàn),遙感影像分類結(jié)果在待分類作物種植面積比例較高和較低的格網(wǎng)中的分類結(jié)果的精度是相對較高的,而種植面積比例處于中間的格網(wǎng)產(chǎn)生錯分、誤分現(xiàn)象的概率較大[23]。因此,在保證抽樣精度的前提下,要盡可能地往棉花種植面積比例的兩端進行抽樣。觀察奈曼分配和比例分配在各層的樣本分配結(jié)果可以發(fā)現(xiàn),比例分配的樣本分配結(jié)果的大致分布情況比奈曼分配更加符合往兩端抽樣的要求。同時由于各組之間棉花種植面積總體比例不一樣,有的種植面積比例很高,有的十分低。根據(jù)統(tǒng)計抽樣原理和遙感中的抽樣經(jīng)驗,應(yīng)在總體抽樣精度不變的情況下增加棉花種植比例較大組的抽樣樣本數(shù),而不是在棉花種植比例較低的組增加更多的抽樣樣本[24]。根據(jù)新疆棉花種植分布和新疆各師兵團分布位置(圖1)可知,比例分配計算出的各組抽樣樣本總量在各層的分配比奈曼分配更加符合增加棉花種植比例較大組的抽樣樣本數(shù)這一要求。
從整體來看,比例分配的樣本總量達到總體格網(wǎng)的5.3%,而奈曼分配僅占總體格網(wǎng)的3.3%,與比例分配相比樣本過少、代表性較差。綜上所述,在對比各方面優(yōu)勢之后選擇效果較好的比例分配結(jié)果作為最終的樣本分配結(jié)果。
2.2 分區(qū)分層隨機抽樣的空間抽樣效率檢驗結(jié)果
根據(jù)各組樣本的分配結(jié)果對各組進行100次重復(fù)抽樣,發(fā)現(xiàn)各組樣本棉花種植面積所占比例的平均值與總體格網(wǎng)中的棉花種植面積所占比例的平均值幾乎相近(表5),說明樣本的代表性很好。此外,100次抽樣后各組樣本格網(wǎng)中的棉花種植面積所占比例的平均值是由每次抽樣后的各組樣本格網(wǎng)中的棉花種植面積所占比例的均值估計量平均得到,它與總體格網(wǎng)中的棉花種植面積所占比例的均值極為接近,說明每次抽樣棉花種植面積所占比例的均值估計量是在待估參數(shù)的真值附近擺動,且擺動幅度很小。
分析100次抽樣中各組格網(wǎng)的棉花種植面積均值的估計量的變異系數(shù)變化情況(圖2—5)發(fā)現(xiàn),4組變異系數(shù)在100次內(nèi)有波動但幅度較小,且每次抽樣后各組格網(wǎng)的棉花種植面積均值的估計量的變異系數(shù)均小于5%,說明各組抽出的樣本變異程度較小,符合統(tǒng)計抽樣原理對精度的要求,甚至更優(yōu),證明了本研究所提方法是有效可行的。尤其是抽樣前的分區(qū)分層,減弱了隨機抽樣的任意性,宏觀把控了所抽出樣本的代表性。觀察第4組格網(wǎng)的棉花種植面積均值的估計量變異系數(shù)變化曲線可以看出,其變異系數(shù)在2.21%上下波動,但均小于5%;盡管第4組格網(wǎng)中的棉花種植面積分布極不均勻,且格網(wǎng)總體空間位置分布比較離散(圖1),但可以發(fā)現(xiàn)在樣本分配階段對第4組進行除零抽樣的方法是可行的,并且極大提高了該組的樣本代表性。第2組格網(wǎng)的棉花種植面積均值的估計量的變異系數(shù)在1.16%上下波動,說明每次抽出樣本的變異程度最小,這與其各個格網(wǎng)中的棉花種植面積分布和總體格網(wǎng)的空間位置分布與本研究所構(gòu)造的空間抽樣方法十分契合有很大的相關(guān)性。第1組和第3組的格網(wǎng)的棉花種植面積均值的估計量也取得了較好的效果,其變異系數(shù)分別在1.74%和2.01%附近上下波動。
表5 100次抽樣后各組樣本和總體格網(wǎng)中的棉花種植面積所占比例平均值 %
圖2 第1組格網(wǎng)的棉花種植面積均值的估計量變異系數(shù)變化曲線
圖3 第2組格網(wǎng)的棉花種植面積均值的估計量變異系數(shù)變化曲線
圖4 第3組格網(wǎng)的棉花種植面積均值的估計量變異系數(shù)變化曲線
圖5 第4組格網(wǎng)的棉花種植面積均值的估計量變異系數(shù)變化曲線
2.3 分區(qū)分層隨機抽樣的反推結(jié)果與對比
根據(jù)外推估算方法[25],利用100次抽樣反推結(jié)果估算得出各組棉花種植總面積在100次內(nèi)的變化區(qū)間,以遙感影像棉花種植面積統(tǒng)計結(jié)果為真值進行對比(表6)發(fā)現(xiàn),各組樣本代表性較好,反推面積估算結(jié)果理想。定量分析反推面積估算誤差,均小于5%,效果較優(yōu),在可接受范圍內(nèi)。在棉花種植面積較少且位置分布散亂的第4組,反推面積估算誤差(3.6%±1.2%)依然控制在較低誤差范圍內(nèi),說明本研究對第4組的抽樣優(yōu)化是可行的。
表6 棉花種植面積反推結(jié)果與統(tǒng)計結(jié)果的比對
[1] 吳炳方.全國農(nóng)情監(jiān)測與估產(chǎn)的運行化遙感方法[J].地理學(xué)報,2000,55(1):25-35.
[2] 趙銳,湯君友,何隆華.江蘇省水稻長勢遙感監(jiān)測與估產(chǎn)[J].國土資源遙感,2002,13(3):9-11.
[3] 王迪,周清波,陳仲新,等.空間抽樣方法估算冬小麥播種面積[J].農(nóng)業(yè)工程學(xué)報,2012,28(10):177-184.
[4] Gallego J,Bamps C.Remote sensing and land cover area estimation[J].International Journal of Remote Sensing,2004,25(15):3019-3047.
[5] 黃青,王迪,劉佳.農(nóng)情遙感監(jiān)測中空間抽樣技術(shù)研究現(xiàn)狀與發(fā)展趨勢[J].中國農(nóng)業(yè)資源與區(qū)劃,2009,30(2):13-17.
[6] 張小偉,余光輝,溫小榮,等.空間分層抽樣在森林覆蓋面積監(jiān)測中的應(yīng)用[J].南京林業(yè)大學(xué)學(xué)報(自然科學(xué)版),2012,36(3):81-84.
[7] 王海賓,鄧華鋒,程志楚,等.基于3S的森林植被面積空間抽樣方法[J].森林與環(huán)境學(xué)報,2015,35(1):74-80.
[8] 張錦水,申克建,潘耀忠,等.HJ-1號衛(wèi)星數(shù)據(jù)與統(tǒng)計抽樣相結(jié)合的冬小麥區(qū)域面積估算[J].中國農(nóng)業(yè)科學(xué),2010,43(16):3306-3315.
[9] 胡潭高,張錦水,潘耀忠,等.基于不同抽樣方法的遙感面積測量方法研究[J].國土資源遙感,2008,19(3):37-41.
[10] 譚建光,張錦水,高晨雪,等.基于結(jié)構(gòu)規(guī)模的冬小麥種植面積遙感抽樣估算[J].農(nóng)業(yè)工程學(xué)報,2012,28(23):114-122.
[11] 鄔明權(quán),楊良闖,于博,等.基于遙感與多變量概率抽樣調(diào)查的作物種植面積測量[J].農(nóng)業(yè)工程學(xué)報,2014,30(2):146-152.
[12] 王力凡,潘劍君.利用高-中-低精度遙感的大區(qū)域高精度耕地面積估測分析[J].江西農(nóng)業(yè)學(xué)報,2011,23(4):153-155.
[13] 吳全,楊邦杰,裴志遠,等.大尺度作物面積遙感監(jiān)測中小地物的影響與雙重抽樣[J].農(nóng)業(yè)工程學(xué)報,2004,20(3):130-133.
[14] 劉海啟.歐盟MARS計劃簡介與我國農(nóng)業(yè)遙感應(yīng)用思路[J].中國農(nóng)業(yè)資源與區(qū)劃,1999,20(3):55-57.
[15] 張東霞,張繼賢,常帆,等.遙感技術(shù)在主要糧食作物估產(chǎn)中的應(yīng)用[J].測繪科學(xué),2014,39(11):95-98,103.
[16] Wang J,Liu J,Zhuan D,etal.Spatial sampling design for monitoring the area of cultivated land[J].International Journal of Remote Sensing,2002,23(2):263-284.
[17] 郝鵬宇,牛錚,王力,等.基于歷史時序植被指數(shù)庫的多源數(shù)據(jù)作物面積自動提取方法[J].農(nóng)業(yè)工程學(xué)報,2012,28(23):123-131.
[18] 郝鵬宇,牛錚,王力,等.基于時序MODIS EVI匹配的棉花信息提取——以新疆博樂市為例[J].遙感技術(shù)與應(yīng)用,2013,28(2):309-314.
[19] 馮士雍,施錫銓.抽樣調(diào)查:理論、方法與實踐[M].上海:上??茖W(xué)技術(shù)出版社,1996.
[20] 宋子軒,冷燮,陳瑤瑤.概率抽樣條件下樣本代表性事后評估方法探討[J].統(tǒng)計研究,2012,29(7):96-100.
[21] 姜成晟,王勁峰,曹志冬.地理空間抽樣理論研究綜述[J].地理學(xué)報,2009,64(3):368-380.
[22] 杜子芳.抽樣技術(shù)及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.
[23] 賈斌,朱文泉,潘耀忠,等.遙感影像預(yù)分類精度對地物面積空間抽樣估算的敏感性分析[J].遙感學(xué)報,2008,12(6):972-979.
[24] 李文華.社會調(diào)查研究中樣本的代表性問題探討[J].統(tǒng)計與決策,2006(17):157-159.
[25] 焦險峰,楊邦杰,裴志遠.全國棉花種植面積遙感監(jiān)測抽樣方法設(shè)計[J].農(nóng)業(yè)工程學(xué)報,2002,18(4):159-162.
Cotton Planting Area Estimation Method with Remote Sensing Based on Partitioned and Stratified Random Sampling
HU Yongsen1,2,WANG Li2,SHI Kaifen3,ZHOU Wei3,RAO Hua4,WANG Changyao2
(1.Faculty of Geomatics,East China Institute of Technology,Nanchang 330013,China; 2.Institute of Remote Sensing and Digital Earth,Chinese Academy of Sciences/The State Key Laboratory of Remote Sensing Science,Beijing 100101,China; 3.Rural Socio-economic Survey Department of National Bureau of Statistics,Beijing 100826,China; 4.Xinjiang Production and Construction Crops Survey Office of National Bureau of Statistics,Wulumuqi 830000,China)
According to local crop planting structure combined with remote sensing technology,with the Xinjiang Production and Construction Crops as the study area,the estimation of cotton growing area was done with the method of partitioned and stratified random sampling based on the previous studies research methods of remote sensing estimation for large area crop area.The mean and coefficient of variation were introduced to evaluate the effective of this sampling method.Finally,the data of cotton growing area in remote sensing images were compared with the results of the sampling estimation based on the extrapolation estimation method.The results showed that the variation range of the cotton planting area of mean estimator of coefficients of variation of each grid in the test was very small,and the sampling system was stable,which accorded with the high demand of the principle of statistical sampling to precision.The total area accuracy of cotton planting in each group reached more than 95% by extrapolation estimation method,and the extrapolation quality was high.Generally,this spatial sampling approach proposed in the article was feasible,especially the method of partitioned and stratified sampling improved the accuracy,which offered a reference for the government of the Xinjiang Production and Construction Crops cotton planting area extraction method.
remote sensing; samples; stratification; proportional sharing; neyman allocation
2016-03-20
國家統(tǒng)計局新疆棉花種植面積遙感調(diào)查項目;國家863計劃項目(2014AA06A511);國家自然科學(xué)基金項目(41371358);國家科技重大專項(14CNIC-032079-32-02)
胡永森(1990-),男,河南周口人,碩士,主要從事農(nóng)業(yè)遙感方面的研究。E-mail:1042202325@qq.com
TP75
A
1004-3268(2016)10-0155-06