范協(xié)裕, 邢世和, 張黎明
(1.福建農(nóng)林大學(xué)資源與環(huán)境學(xué)院,福建 福州 350002;2.福建省土壤環(huán)境健康與調(diào)控重點實驗室,福建 福州 350002)
局部空間同位模式在作物種植適宜性調(diào)查中的應(yīng)用
范協(xié)裕1,2, 邢世和1,2, 張黎明1,2
(1.福建農(nóng)林大學(xué)資源與環(huán)境學(xué)院,福建 福州 350002;2.福建省土壤環(huán)境健康與調(diào)控重點實驗室,福建 福州 350002)
空間同位模式的局部挖掘算法存在挖掘結(jié)果無統(tǒng)計顯著性意義、缺少領(lǐng)域知識介入導(dǎo)致挖掘結(jié)果針對性不強等問題.通過引入領(lǐng)域?qū)<抑R選擇候選模式,構(gòu)建候選模式屬性的興趣度函數(shù)作為局部空間統(tǒng)計量,對空間候選模式的興趣度值聚集區(qū)域進行挖掘,進而合并聚集區(qū)域的鄰域確定模式的空間區(qū)域.經(jīng)過分析及驗證,利用該方法對長汀縣煙草種植適宜性結(jié)果數(shù)據(jù)集進行處理,發(fā)現(xiàn)了主要養(yǎng)分高但不適合種植煙草的異常模式及區(qū)域.據(jù)此,專家有針對性地提出了加大灌溉基礎(chǔ)設(shè)施建設(shè)、施用石灰和硼肥等改善煙草種植條件的建議.
局部空間同位模式; 空間統(tǒng)計量; 作物種植適宜性
遙感結(jié)合GIS技術(shù)在耕地質(zhì)量調(diào)查中應(yīng)用廣泛,尤其在耕地質(zhì)量和作物種植適宜性的劃分和分級方面取得大量成果[1-2],但缺乏對此類數(shù)據(jù)隱含的空間預(yù)測、空間異常點、空間同位規(guī)則等進行挖掘研究[3-4].空間同位模式指因空間接近性而頻繁聚集在一起的空間特征實例,是空間關(guān)聯(lián)規(guī)則的重要類型之一[4].如主要土壤養(yǎng)分含量與作物種植適宜性的關(guān)聯(lián)模式是典型的空間同位模式.空間同位模式挖掘不僅可找出空間關(guān)聯(lián)關(guān)系正常的區(qū)域,也可識別異常的區(qū)域,進而對作物種植布局的優(yōu)化工作提供宏觀支持.
當(dāng)前國內(nèi)外空間同位模式挖掘通常采用關(guān)聯(lián)規(guī)則算法,如Apriori算法.該類算法使用統(tǒng)一的全局參與度閾值,未考慮數(shù)據(jù)的空間分布[4-6].為解決該問題,統(tǒng)計檢驗方法和局部統(tǒng)計量被引入到空間同位模式的發(fā)掘中[7-10].同時,空間數(shù)據(jù)集中的關(guān)聯(lián)知識具有區(qū)域性特征,但全局統(tǒng)計方法無法提供有效的信息[11].為找出興趣區(qū)域的空間同位模式,前人[11-13]先采用聚類算法發(fā)現(xiàn)興趣熱點區(qū)域,再利用關(guān)聯(lián)規(guī)則挖掘的Apriori算法進一步挖掘.Eick et al[14]通過定義同位模式的全局興趣度函數(shù),使用聚類算法尋找全局興趣度值最大的聚類方案.已有同位模式挖掘的方法,在發(fā)現(xiàn)區(qū)域同位模式時,難以確定發(fā)掘的空間范圍.因此,獲取具有空間統(tǒng)計意義的區(qū)域同位模式,并確定區(qū)域范圍,是區(qū)域空間同位模式挖掘算法亟需解決的一個問題.
本試驗設(shè)計基于空間局部統(tǒng)計量的空間同位模式挖掘算法,在挖掘空間同位模式的同時確定模式影響范圍,將其應(yīng)用于作物種植適宜性評價數(shù)據(jù)中,為優(yōu)化區(qū)域農(nóng)作物種植提供決策支持.
1.1 基于空間統(tǒng)計的局部同位模式發(fā)掘算法
因此,算法目標(biāo)可描述為:在可實現(xiàn)的時間復(fù)雜度內(nèi),在空間數(shù)據(jù)集F中發(fā)現(xiàn)領(lǐng)域?qū)<谊P(guān)心的候選模式B的子集及其作用區(qū)域,并做統(tǒng)計學(xué)解釋,供領(lǐng)域?qū)<覍Y(jié)果進行判讀.對此本試驗提出如下局部空間同位模式算法框架,如圖1所示.
圖1 局部空間同位模式挖掘算法框架
增加用戶限制條件以提高挖掘的質(zhì)量和效率已經(jīng)被廣泛應(yīng)用于頻繁項集的挖掘算法[15-16].將“專家領(lǐng)域知識”或者“關(guān)注目標(biāo)”作為限制條件,替代傳統(tǒng)的“數(shù)據(jù)為中心的知識發(fā)現(xiàn)”模式,極大提高了空間數(shù)據(jù)挖掘結(jié)果的質(zhì)量和效率[17].算法流程如下:首先,引入專家領(lǐng)域知識,過濾候選的空間同位模式,對結(jié)果進行限定,避免過多無用的結(jié)果將感興趣的模式淹沒;其次,建立多元屬性用于指示屬性間同位關(guān)系的興趣度函數(shù),構(gòu)建候選空間同位模式局部統(tǒng)計量.同時,定義空間鄰域及鄰域矩陣,對空間數(shù)據(jù)集的局部統(tǒng)計量進行聚類運算,尋找熱點區(qū)域;最終,獲取結(jié)果模式,結(jié)合專家知識對結(jié)果進行解譯.
1.1.2 定義針對連續(xù)變量的空間同位模式統(tǒng)計量及空間聚集 針對以上算法框架,構(gòu)建面向多元連續(xù)變量的空間同位模式興趣度函數(shù).局部空間自相關(guān)統(tǒng)計量可以用來識別不同空間位置上可能存在的空間關(guān)聯(lián)模式及局部空間集聚或熱點,為空間數(shù)據(jù)的分類和區(qū)劃提出依據(jù).常用的空間局部統(tǒng)計量有Getis et al[9-10]提出的Gi和Gi*統(tǒng)計量,局部Geary′s C等,這些都反映了空間對象取值與周圍相似觀測值在空間上的集聚程度.以Gi*統(tǒng)計量為例,該統(tǒng)計量廣泛用于尋找具有顯著統(tǒng)計意義的熱點,即高值聚集的空間點.Gi*統(tǒng)計值越高,高值(熱點)的聚類越緊密,反之Gi*統(tǒng)計值越低,低值(冷點)越緊密[9].
為了處理多元連續(xù)變量,Eick et al[14]采用如下函數(shù)作為空間同位模式的興趣度函數(shù):
(1)
(2)
(3)
(4)
式中:α為對應(yīng)的空間屬性A的取值,μ為A在F中的期望值,σ為標(biāo)準(zhǔn)差.z值用于衡量某個屬性高出(公式2)或者低于(公式3)其標(biāo)準(zhǔn)值的程度,η是z值的閾值.模式的興趣度函數(shù)值越大,模式偏離均值的程度越高.但是由于組成模式的屬性數(shù)量不一,不同模式之間的興趣度值難以互相比較.因此,本試驗構(gòu)建如下空間同位模式的興趣度函數(shù):
(5)
(6)
(7)
式中:Zmean表示模式z值的平均值,κρB為一致性因子,κ為調(diào)節(jié)系數(shù),一致性因子用以調(diào)節(jié)模式中不同屬性的z值偏差對模式興趣值的影響.當(dāng)模式中各組成屬性的z值偏差越大,其興趣度值越小,反之則越大.ρB為模式B的各屬性在空間對象oi上z值的標(biāo)準(zhǔn)差.該興趣度函數(shù)模型具有以下特性:(1)模式特征越明顯,空間對象的興趣度值越高;(2)如空間對象oi中存在屬性Ak,與模式B的定義相違背,例如,z(A↑,oi)<0,且A↓∈B,則i(B,oi)=0;(3)不同長度的模式之間的興趣度值具有可比較性.
1.1.3 鄰域及權(quán)重矩陣的確定 針對空間點數(shù)據(jù)鄰域需要預(yù)設(shè)定范圍的問題,Delaunay三角測量里自然鄰域能夠保證空間對象點的每個象限都有鄰域?qū)ο骩18],因此本試驗通過構(gòu)建Voronoi多邊形的鄰域來確定空間觀測點的鄰域.
(8)
式中d值根據(jù)統(tǒng)計量不同而不同,如使用Gi*時,通常d取oi的相鄰對象數(shù)加1,采用Gi時則取空間對象oi的相鄰對象數(shù)[9-10].
(9)
1.2 算法復(fù)雜度及可用性評價與分析
1.2.1 時間復(fù)雜度分析 如圖1算法框架所示,針對空間點數(shù)據(jù),算法的時間復(fù)雜度如下:
T=k(T1+T2+T3)
(10)
式中:k為供領(lǐng)域?qū)<疫x擇的候選模式的數(shù)量,T1為生成興趣度函數(shù)的時間復(fù)雜度,該部分可在O(n)時間內(nèi)完成(n為空間數(shù)據(jù)集大小);T2為生成Voronoi鄰域矩陣的時間復(fù)雜度,當(dāng)前采用的平面掃描線法生成Voronoi的算法需要O(nlogn)時間復(fù)雜度和O(n)空間復(fù)雜度[19-20].T3為對模式的興趣值函數(shù)進行聚集統(tǒng)計的時間復(fù)雜度.以Gi*統(tǒng)計量為例[10]:
(11)
假設(shè)空間不存在自相關(guān),Gi*統(tǒng)計量的標(biāo)準(zhǔn)化形式為:
(12)
可知在鄰域及鄰域矩陣確定后,T3可在O(n)時間內(nèi)完成.
1.2.2 可用性分析 算法將局部空間同位模式的挖掘轉(zhuǎn)化為“尋找具有高興趣度值的模式的空間對象聚集區(qū)域”.以Gi*統(tǒng)計量為例,該統(tǒng)計量可用來識別空間對象屬性的高值和低值的聚集模式,統(tǒng)計量值為正表明高值聚集,而本文的興趣度模型具有值越高,模式特征越明顯.興趣度函數(shù)的高值聚集區(qū)域即指示了該區(qū)域空間同位模式聚集.因此,通過將高值聚集的鄰近空間對象合并,即可發(fā)現(xiàn)具有統(tǒng)計意義的局部空間同位模式及其作用區(qū)域.
2.1 試驗區(qū)概況
長汀縣位于福建西部(25°18′40″—26°02′05″N, 116°00′45″—116°39′20″E),屬于亞熱帶濕潤季風(fēng)氣候.年均氣溫18.3 ℃,年均降水量1 700 mm,年均無霜期260 d.丘陵地形,全縣土地總面積3 089 km2,轄濯田、三洲等18個鄉(xiāng)鎮(zhèn).2008年全縣耕地總面積29 159 hm2,主要分布于童坊、河田、南山和濯田等鎮(zhèn).2010年,全縣烤煙種植面積4 646 hm2,收購煙葉7 700 000 kg.
2.2 數(shù)據(jù)來源
數(shù)據(jù)集源于2012年長汀縣耕地地力調(diào)查樣點數(shù)據(jù)、煙草種植適宜性調(diào)查及評價數(shù)據(jù)、檳榔芋種植適宜性調(diào)查數(shù)據(jù),其中耕地地力評價樣點共475條數(shù)據(jù),適宜性評價數(shù)據(jù)共有2 250個耕地單元.
2.3 數(shù)據(jù)預(yù)處理方法
將地力調(diào)查樣點數(shù)據(jù)與煙草適宜性評價數(shù)據(jù)進行包含關(guān)系空間連接,使得每個樣點包含其所在評價耕地單元上的煙草適宜性評價得分(score)、pH值、有機質(zhì)(organic)、堿解氮(N)、有效磷(P)及速效鉀(K)等主要土壤養(yǎng)分成分含量等相關(guān)屬性數(shù)據(jù).
對檳榔芋種植適宜性評價數(shù)據(jù),使用長汀縣主要檳榔芋產(chǎn)區(qū)三洲鎮(zhèn)的檳榔芋適宜性評價數(shù)據(jù)(2 250個耕地單元),選取適宜性評價得分及主要的土壤養(yǎng)分?jǐn)?shù)據(jù)、海拔及坡度等數(shù)據(jù)進行挖掘.
2.4 可用性驗證和異常模式試驗
2.4.1 可用性驗證 使用檳榔芋適宜性種植數(shù)據(jù)進行可用性試驗,參數(shù)設(shè)置和結(jié)果如圖2所示,檳榔芋種植適宜性偏低,并且主要養(yǎng)分含量都偏低的區(qū)域主要集中在三洲村和小潭村.實地調(diào)查報告顯示,長汀縣三洲鄉(xiāng)全鄉(xiāng)一般適宜種植檳榔芋的耕地主要分布于三洲、小潭和小溪頭村,占全鎮(zhèn)一般適宜種植煙草耕地總面積的79.22%,其土壤養(yǎng)分含量與全鎮(zhèn)適宜檳榔芋種植的屬性均值相差不大.但是,耕地中土壤有機質(zhì)、有效磷和速效鉀含量均值比全鎮(zhèn)適宜檳榔芋種植耕地土壤屬性均值低0.77g·kg-1、4.77 mg·kg-1、9.39 mg·kg-1和13.02 mg·kg-1.綜上可見,試驗挖掘與調(diào)查報告的結(jié)果一致,證明了算法挖掘結(jié)果的正確性.
圖2 長汀縣三洲鄉(xiāng)耕地檳榔芋適宜性調(diào)查結(jié)果(η=0, α=0.05, ɡ=1.96, θ=2, κ=0)
2.4.2 作物種植適宜性調(diào)查異常模式的發(fā)現(xiàn)與應(yīng)用分析 利用開發(fā)的局部空間同位模式挖掘程序,對長汀縣耕地地力調(diào)查點養(yǎng)分?jǐn)?shù)據(jù)及煙草適宜評價得分進行挖掘.專家選擇了主要土壤養(yǎng)分高于均值(堿解氮高N_H,有效磷高P_H,速效鉀高K_H)但是適宜性等級明顯低于其周邊的異常模式[Score_L,Organic_H,N_H,P_H,K_H](其中H表示高等級,L表示低等級),試驗參數(shù)配置及結(jié)果如圖3所示.
圖3 長汀縣煙草適應(yīng)性評價異??臻g同位模式(η=0, α=0.05, ɡ=1.96, θ=2, κ=0.2)
由試驗可得,長汀縣庵杰、紅山、童坊等鄉(xiāng)鎮(zhèn)耕地主要養(yǎng)分高(N、P和K),但不適宜或者一般適宜煙草種植的耕地單元.通過查閱長汀縣耕地地力報告發(fā)現(xiàn)異常模式區(qū)域所在長汀縣庵杰和紅山兩鄉(xiāng)的耕地概況如圖4.該圖僅列舉了部分種植限制條件如干旱、有效硼、酸性等.實際上,庵杰、紅山鄉(xiāng)等鄉(xiāng)鎮(zhèn)在年積溫、耕地坡度以及灌溉等耕種條件上都不優(yōu)良.其中,煙草作為中等需硼作物,隨著氮、磷、鉀肥的合理施用,土壤有效硼供應(yīng)不足已成為影響烤煙產(chǎn)量和質(zhì)量的因素之一[21].同時硼肥在酸性砂質(zhì)土中易淋失,庵杰、紅山、童坊等鄉(xiāng)鎮(zhèn)的偏酸性土壤更是限制了煙草的種植條件.據(jù)此,專家建議從以下3個方面來提高庵杰、紅山鄉(xiāng)等地的煙草種植條件:(1)加大耕地的灌溉基礎(chǔ)設(shè)施的建設(shè)投入,改善耕地的灌溉條件;(2)合理施用石灰等來改善土壤酸堿度;(3)適量增施硼肥,在我國主要是硼砂.
a:庵杰鄉(xiāng)耕地概況;b:紅山鄉(xiāng)耕地概況.
本試驗通過構(gòu)建針對連續(xù)變量的空間同位模式興趣度函數(shù)模型,設(shè)計基于局部統(tǒng)計量的局部空間同位模式發(fā)現(xiàn)方法,通過開發(fā)算法的應(yīng)用程序,將其應(yīng)用于長汀縣耕地地力及煙草適宜性評價結(jié)果數(shù)據(jù)集.對耕地單元適宜性評價得分與主要養(yǎng)分含量的異常模式進行挖掘,發(fā)現(xiàn)其聚集區(qū)域,包括主要土壤養(yǎng)分含量高于均值而煙草適宜性得分偏低的庵杰、紅山鄉(xiāng)、童坊鎮(zhèn)等.經(jīng)過查閱實際調(diào)查報告,驗證了異常模式所在區(qū)域存干旱、有效硼含量低、酸性等種植限制條件,驗證了該方法的正確性.在此基礎(chǔ)上,針對性地提出了該區(qū)域煙草種植條件的改善建議.
相較于傳統(tǒng)人為查閱評價報告和評價專題圖的方式,本試驗高效地從海量數(shù)據(jù)集中發(fā)現(xiàn)興趣的異常與正常模式并確定其影響區(qū)域.相對于其他全局模式的挖掘方法,本方法根據(jù)興趣度函數(shù)模型的特性并采用的局部統(tǒng)計量挖掘方法,使得到的結(jié)果和影響區(qū)域具有統(tǒng)計學(xué)意義.
本試驗采用的模式挖掘方法,適用于所有包含連續(xù)型屬性變量的空間數(shù)據(jù)集的處理.但空間數(shù)據(jù)集的空間對象類型是點類型,對多邊形空間數(shù)據(jù)集,需提前將其轉(zhuǎn)化成點數(shù)據(jù)集再進行處理.而在數(shù)據(jù)處理過程、結(jié)果生成上仍有改進的空間,以期進一步提高其處理過程的自動化.
[1] 王鑫.遙感和GIS技術(shù)在耕地質(zhì)量調(diào)查中的應(yīng)用.ArcGIS在耕地質(zhì)量補充調(diào)查項目中的應(yīng)用[J].測繪與空間地理信息,2013,36(5):9293.
[2] 周望,周博,鄧文勝.基于AHP和GIS技術(shù)的未利用地宜耕適宜性評價研究——以鄖縣為例[J].現(xiàn)代農(nóng)業(yè)科技,2015(1):189-190.
[3] SAMSON G L, LU J, SHOWOLE A A. Mining complex spatial patterns: issues and techniques[J]. Journal of Information & Knowledge Management, 2014,13(2):1-20.
[4] SHEKHAR S, HUANG Y. Discovering spatial co-location patterns: a summary of results[M]. Advances in Spatial and Temporal Databases, Berlin Heidelberg: Springer, 2001,2 121:236-256.
[5] YOO J S, SHEKHAR S, SMITH J, et al. A partial join approach for mining co-location patterns[C]∥Proceedings of the 12th annual ACM international workshop on Geographic information systems ACM. New York: ACM, 2004:241-249.
[6] XIONG H, SHEKHAR S, HUANG Y, et al. A framework for discovering co-location patterns in data sets with extended spatial objects[C]∥Proceedings of the Fourth SIAM International Conference on Data Mining. Florida: SIAM, 2004:78-90.
[7] BARUA S, SANDER J. Mining statistically significant co-location and segregation patterns[J]. IEEE Transactions on Knowledge & Data Engineering, 2014,26(5):1 185-1 199.
[8] CELIK M, KANG J M, SHEKHAR S. Zonal co-location pattern discovery with dynamic parameters[C]∥Proceedings of the 2007 Seventh IEEE International Conference on Data Mining. Washington, DC:IEEE, 2007:433-438.
[9] GETIS A, ORD J K. Local spatial statistics: an overview[J]. Spatial Analysis Modeling in a GIS Environment Cambridge,1996:269-285.
[10] ORD J K, GETIS A. Local spatial autocorrelation statistics: distributional issues and an application[J]. Geographical Analysis, 1995,27(4):286-306.
[11] DING W, EICK C F, WANG J, et al. A framework for regional association rule mining in spatial datasets[C]∥The 6th IEEE International Conference on Data Mining. Washington, DC:IEEE, 2006:851-856.
[12] AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[M]∥Proceeding VLDB '94 Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco: Morgan Kaufmann Publishers Inc, 1998:487-499.
[13] HAN J W, PEI J, YIN Y W, et al. Mining frequent patterns without candidate generation:a frequent-pattern tree approach[J]. Sigmod Record, 2000,29(2):1-12.
[14] EICK C F, PARMAR R, DING W, et al. Finding regional co-location patterns for sets of continuous variables in spatial datasets[C]∥Proceedings of the 16th ACM SIGSPATIAL international conference on Advances in geographic information systems. California:ACM, 2008:1-10.
[15] MCGARRY K. A survey of interestingness measures for knowledge discovery[J]. Knowledge Engineering Review, 2005,20(1):39-61.
[16] RAEDT L D, ZIMMERMANN A. Constraint-based pattern set mining[C]∥Proceedings of the Seventh SIAM International Conference on Data Mining. Minnesota:SIAM, 2007:237-248.
[17] FLOUVAT F, SELMAOUI-FOLCHER N, SOC J F N V, et al. Domain-driven co-location mining extraction, visualization and integration in a GIS[J]. Geoinformatica, 2015(19):147-183.
[18] 張祖勛,張劍清.數(shù)字?jǐn)z影測量學(xué)[M].武漢:武漢測繪科技大學(xué)出版社,1996.
[19] MARK D B, MARCV K, MARK O S, et al. Computational geometry[M]. 2nd ed. Berlin Heidelberg:Springer-Verlag, 2000:151-160.
[20] DAVID A. Voronoi diagrams and a day at the beach[EB/OL], (April 13, 2015)[April 10, 2016]. http://www.ams.org/samplings/feature-column/fcarc-voronoi.
[21] 李志軍,簡毓峰.烤煙硼肥效應(yīng)及經(jīng)濟合理施用量的確定[J].甘肅農(nóng)業(yè)科技,1996(8):31-32.
(責(zé)任編輯:蘇靖涵)
Application of regional co-location patterns on planting suitability surveying
FAN Xieyu1,2, XING Shihe1,2, ZHANG Liming1,2
(1.College of Resources and Environment, Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China; 2.Fujian Provincial Key Laboratory of Soil Environmental Health and Regulation, Fuzhou, Fujian 350002, China)
To solve problems of current mining algorithm for regional co-location pattern that lacks in statistical significance and pertinence, a new approach based on experts′ interestingness was proposed. Firstly, co-location pattern consisting of sets of continuous variables was screened and mined by the function of experts′ interestingness. Hotspot and target spacial region of interests was extracted and integrated from co-location pattern. Furthermore, the approach was validated by applying to tobacco suitability evaluation data sets of Changting County in Fujian Province. Abnormal region in Changting that had fertile soil but was unsuiTable for tobacco cultivation was identified. Suggestions including emphasizing irrigation infrastructure and application of lime and boron fertiliser were put forward.
regional spatial co-location pattern; spatial statistics; planting suitability
2016-04-12
2016-06-17
福建省科技重大專項(2012NZ0002).
范協(xié)裕(1985-),男,博士,講師.研究方向:空間數(shù)據(jù)挖掘,網(wǎng)絡(luò)地理信息系統(tǒng).Email:fanxy@fafu.edu.cn.通訊作者邢世和(1962-),男,博士,教授,博士生導(dǎo)師.研究方向:土地(壤)資源持續(xù)利用與評價.Email:fafuxsh@126.com.
S126
A
1671-5470(2017)02-0192-07
10.13323/j.cnki.j.fafu(nat.sci.).2017.02.012