董 晨, 夏 凱
(1.浙江農林大學 信息工程學院,浙江 杭州311300;2.浙江農林大學 浙江省林業(yè)智能監(jiān)測與信息技術研究重點實驗室,浙江 杭州311300)
在森林經營中,立地質量是衡量某一立地上森林生長環(huán)境以及植被生產潛力的重要指標,對林分的生長收獲具有重要影響。不同立地條件的林分,林木的生長狀態(tài)不盡相同,從而影響林分的最終收獲。構成立地條件的因素很多,坡度、坡向、海拔等是影響林木生長的重要因子,選擇正確的立地因子,并能找出主要立地因子對林分生長影響的規(guī)律性,這對于林木的引種栽培、適地適樹、造林地選擇以及科學評價林分的立地質量都有重要的實踐意義。目前,關于立地因子與林木生長相關研究的報道已有不少,研究方法主要集中為2類:一是根據不同的立地因子對林分調查數據進行分組分類,單獨分析每項立地因子不同分類下林木生長的差異[1-3];二是通過構建數量化模型來探索立地因子與林木林分生長因子之間的相關性,在這方面的研究中,多見于構建林木生長因子和立地因子的多元回歸模型來體現[4-5]。然而,目前已有的立地因子與林木生長因子的相關性研究僅簡單分析了部分立地因子與生長因子的統(tǒng)計學相關程度,并無量化其重要性程度及深入挖掘立地因子間存在的關聯,同時,影響林木生長的立地因子也通常依靠經驗進行選取,忽略了一些潛在的相關因子,使得研究結果具有較大的主觀性。因此,尋找一種能快速自動地對立地因子與林分生長進行深入分析,從中挖掘出因子之間所隱藏關系的方法,對后期評估森林資源數據、指導林業(yè)發(fā)展顯得非常必要。數據挖掘作為一個新興的多學科交叉應用領域,是從大量、不完全、有噪聲、模糊、隨機的數據中,提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識的過程[6-7],在森林資源管理與決策領域,數據挖掘技術在林分收獲[8]、林業(yè)遙感[9]、生物量預測[10]、林火模擬[11-12]等方面有著一定的應用。數據挖掘中的一個重要任務是關聯分析。關聯規(guī)則挖掘是發(fā)現大量數據中項集之間一定的關聯或相關聯系[13]。關聯規(guī)則挖掘算法有數種,其中,Apriori算法由于其簡單、易理解、數據要求低的特點,被廣泛應用于各個領域[14-15]。杉木Cunninghamia lanceolata在浙江省用材林中占有重要的地位[16]。本研究以浙西杉木人工用材林為研究對象,使用Apriori算法對杉木用材立地因子及其生長指標進行關聯分析,以期挖掘出立地質量與立地因子之間、以及立地因子與林分生長因子的關聯規(guī)則,為當地立地質量評價以及立地模型的構建提供科學依據。
臨安區(qū)位于浙江省杭州市西部, 29°56′~30°23′N, 118°51′~119°52′E, 地屬中亞熱帶季風氣候區(qū)南緣,屬季風型氣候,雨量充沛,年均降水量為1 613.9 mm,光照充足,立體氣候明顯,海拔從城市至天目山頂,年平均氣溫由16.0℃降至9.0℃,橫跨亞熱帶和溫帶2個氣候帶。臨安區(qū)地勢自西北向東南傾斜,區(qū)境北、西、南三面環(huán)山,形成一個東南向的馬蹄形屏障。西北多崇山峻嶺,深溝幽谷;東南為丘陵寬谷,地勢平坦,全境地貌以中低山丘陵為主。臨安區(qū)森林覆蓋率高達78.2%,位居杭州各區(qū)縣市之首;其森林面積達2 452 km2,是國家森林城市之一。臨安區(qū)主要用材樹種有杉木,馬尾松Pinus massoniana,濕地松Pinus elliottii,水杉Metasequoia glyptostroboides,響葉楊Populus adenopoda,樟樹Cinnamomum camphora,柏木Cupressus funebris,柳杉Cryptomeria fortunei,檫木Sassafras tzumu,楓香Liquidambar formosana,毛竹Phyllostachys edulis等。
源于臨安區(qū)2008-2012年森林資源動態(tài)監(jiān)測數據,在浙江省森林資源規(guī)劃設計調查的基礎上,建立縣級森林資源年度動態(tài)監(jiān)測體系。調查因子以小班為單位,包括了小班基本信息、立地因子、林分因子、權屬信息、經營措施、病蟲害火災信息等。其中立地因子包括地貌、海拔、坡向、坡位、坡度級、土壤名稱、土壤質地、土層厚度、腐殖質層厚度、林下植被種類、林下植被高度、林下植被覆蓋度等12個。林分因子包括了林種、起源、樹種、年齡、平均胸徑、平均高、優(yōu)勢高、郁閉度、疏密度、單位株樹、單位蓄積等。
在各類樹種中,研究選取了2008和2012年每年的杉木人工純林小班復測數據,其中地位指數模型構建選用2期的復測數據,林分生長與立地因子關聯規(guī)則的研究則選用2012年的數據。由于早期杉苗處于恢復和扎根階段,真正進入林木速生生長則是在5 a以后,同時,相關文獻表明郁閉度在0.3以上的林分才能充分體現林木的生長狀態(tài)[17],因此本研究剔除年齡小于5 a,郁閉度小于0.3的小班數據。對數據的完整性及一致性進行檢查,以3倍標準差為標準剔除各項異常數據。經過數據整理,得到721條供研究的小班數據,分別分布于臨安區(qū)玲瓏、錦西等54個村。地貌為低山丘陵,海拔10~570 m。根據調查數據,整理得到小班林分生長情況,如表1所示。
表1 浙西杉木林分生長基本概況Table 1 General growth information of Chinese fir stands
除了現有的立地因子之外,還需要一個綜合性衡量立地質量好壞的指標。評價某一有林地的立地質量時,地位級、地位級指數和地位指數是常用的3種評定指標[18]。地位指數具有特定的數學表達式,且在建模過程中,數據受人為干擾因素較少,因而受到廣泛地應用[19-20]。因此,本研究選擇地位指數作為立地條件的判定指標。根據杉木用材林優(yōu)勢木高和年齡復測數據,使用代數差分法構建杉木地位指數模型。根據模型計算出每個小班的地位指數,將地位指數作為立地因子,和其他12個立地因子一起,聯合林分生長因子胸徑、樹高和蓄積,使用Apriori算法作關聯規(guī)則分析。
代數差分法(algebraic difference approach,ADA)是構建林分地位指數的常用方法之一,其原理是選擇一個理論方程作為基礎方程,選擇方程中的一個參數作為消元參數,對方程進行差分消元,從而獲得一個包含2組因變量和自變量的差分方程[21]。研究選擇Richards理論方程作為基礎模型來構建差分方程,Richards理論方程如式(1)所示:
式(1)中:HT代表林分優(yōu)勢木高;t為林分年齡;a,b,c為林分參數,其中a代表林木的潛在生長最大值,c代表林木生長速率,b代表消元參數。對其進行代數差分轉換,得到轉換后的差分方程,如式(2)所示:
式(2)中:HT1和HT2分別為t1和t2時刻的林分優(yōu)勢木高。最后根據小班的復測數據,擬合得到地位指數模型為:
式(3)中:IS為林分地位指數;Ht為林分優(yōu)勢木平均高;t為林分年齡。
在數據挖掘之前,對原始數據進行數據清洗和數據轉換。在本研究中,1.2節(jié)中的剔除異常數據和無效數據即數據清洗,對清洗后的不同量綱數據進行歸一化處理即數據轉換。本研究數據包括定性因子和定量因子,定性因子包含多個屬性維度,定量因子則為連續(xù)性數據。對定性因子按照類別進行分類,對定量連續(xù)性數據進行離散化處理。數據具體轉換過程如下:地貌分為低山(A1)、丘陵(A2);海拔分為10~200 m(B1), 201~400 m(B2), 401~570 m(B3)3 組; 坡位上、 中、 下、 谷、 全分別用 C1~C5標識; 坡向東、南、西、北、東北、東南、西北、西南分別用D1~D8標識;坡度級平、緩、斜、陡、急、險分別用 E1~E6標識; 土壤分為紅壤(F1)、 黃壤(F2); 土壤質地分為砂土(G1)、 壤土(G2)、 黏土(G3); 土層厚度分為厚(H1)、 中(H2)、 ?。℉3); 腐殖質厚度分為厚(I1)、 中(I2)、 ?。↖3); 林下植被種類分為草叢(J1)、草灌(J2)、 灌叢(J3)、 無植被(J4); 林下植被高度分為 0~50 cm(K1), 51~85 cm(K2); 林下植被覆蓋度分為 0~30%(L1), 31%~60%(L2), 61%~90%(L3)。 選用最具代表性的胸徑、 樹高和蓄積 3個林分生長因子作為關聯規(guī)則事務項,作離散化處理。根據收集的數據范圍,將胸徑分為5.0~10.0 cm(M1),10.1~15.0 cm(M2), 15.1~20.0 cm(M3); 將樹高分為 3.0~6.0 m(N1), 6.1~9.0 m(N2), 9.1~12.0 m(N3), 12.1~15.0 m(N4), 15.1~18.0 m(N5); 將單位蓄積分為 20.0~50.0 m3(O1), 50.1~80.0 m3(O2), 80.1~110.0 m3(O3),110.1~140.0 m3(O4), 140.1~170.0 m3(O5)。 將林分年齡也考慮其中, 根據浙江省森林資源規(guī)劃設計調查規(guī)程,對浙西杉木用材林進行齡組劃分,≤10 a(幼齡林,P1),11~20 a(中齡林,P2),21~25 a(近成熟林,P3)和26~35 a(成熟林,P4)和>35 a(過熟林,P5)。根據構建的地位指數模型,計算得到杉木地位指數為8~18,作為關聯分析事務項,將16和18指數的立地定為好,用Q1表示;12和14指數立地為中,用Q2表示;8和10指數立地為差,用Q3表示。表2是依據分類進行預處理的部分數據,其中每行數據可以理解成Apriori算法中的一個事務。本研究首先使用Apriori算法計算出頻繁項集及支持度,再根據置信度計算公式得到項集與項集之間的規(guī)則。
表2 預處理后的林分數據Table 2 Stand data after pretreatment
關聯規(guī)則是對事物間或關系數據集中項之間的關聯或相關性的描述,關聯規(guī)則挖掘興趣度的2種度量主要是支持度和置信度。計算方法分別如下:
式(4)和式(5)中:X和Y分別代表一個項目中不同的事務,supR1為規(guī)則R1:X?Y的支持度;confiR2為規(guī)則R2:X?Y的可信度;count(X∪Y)是X和Y并的數量;|D|是D所有事務的數量;sup(X∪Y)是事務X并Y的支持度;sup(X)是事務X的支持度。根據公式可得,規(guī)則R1的支持度即事務集中同時包含事務X和Y與所有事務集之比。規(guī)則R2的可信度即為包含事務X的同時,出現事務Y的概率。
關聯規(guī)則中規(guī)定,事務中的項集滿足最小支持度時稱為頻繁項集,關聯規(guī)則挖掘總體來說包括2個過程,即找出所有的頻繁項集和由其產生的強關聯規(guī)則,其中的項集的支持度滿足最小支持度計數,關聯規(guī)則的置信度滿足最小置信度。
Apriori算法為布爾關聯規(guī)則挖掘頻繁項集的原創(chuàng)性算法。該算法屬于寬度優(yōu)先算法[22],其原理是使用逐層搜索的迭代方法,其中k-1項集用于探索k項集。首先,掃描整個數據庫,累計每個項的計數,找出滿足最小支持度的項,得到頻繁1-項集的集合L1。接著根據頻繁1-項集產生候選2-項集,即C2,再根據C2產生頻繁2-項集L2,以此循環(huán)直到無法產生新的頻繁集為止。在構建候選集的同時,還需要根據先驗性質 “頻繁項集的所有非空子集也一定是頻繁的”[23]對Ck進行修剪,產生對應的Lk。Apriori算法的代碼表達如下:
使用Apriori算法對預處理后的數據進行關聯規(guī)則分析。參考文獻[24],研究設定最小支持度為10%,最小置信度為80%,使用Matlab 2011a軟件對立地因子和林分生長因子進行關聯分析,最終得到符合條件的175條關聯規(guī)則,由于本研究旨在挖掘影響林地立地質量和林分生長的因子間的相關規(guī)則,因此篩選提取以地位指數和林分因子作為后項且具有較高支持度、置信度的關聯規(guī)則20條,并根據規(guī)則內容的不同,整理歸結為5個大類(表3)。
表3 Apriori算法部分關聯規(guī)則結果Table 3 Partial association rule by Apriori algorithm
各類規(guī)則的具體說明如下。規(guī)則類Ⅰ:杉木生長在海拔400 m以下(B1,B2)、黃壤(F2)、土層厚度為厚 (H1)的立地環(huán)境,同時平均樹高在15 m以上 (N5)的林分中,96.2%的林分與立地質量為好(規(guī)則1); 立地環(huán)境為黃壤(F2)、林下植被為草灌(J2)、下坡位(C3)、 緩坡(E2)的林分,有 95.7%的林分立地質量為好(規(guī)則 2); 杉木林分坡度為下(C3)、 林下植被為草灌(J2)、 土層厚度為厚(H1)、 坡向為東北(D5)和西北(D7)、土壤質地為壤土(G2)的立地環(huán)境,則有87.8%的林分立地質量為好(規(guī)則3);林下植被為草灌和草叢(J1,J2),植被覆蓋度在31%~90%,腐殖質層為厚(I1)的林分(L2,L3)中,有86.4%的林分立地質量為好(規(guī)則4)。規(guī)則類Ⅱ:杉木林分是上坡(C1)和緩坡(E2)、林下植被為草叢(J1)或草灌(J2), 則82.1%的立地條件為中等(規(guī)則5);土壤類型為黃壤(F2)、土層厚度為中等(H2)、腐殖質層厚度為中等(I2)、林下植被為草灌以及林下植被覆蓋度在31%~60%(L2)的林分中,有85.8%的立地質量為中等(規(guī)則 6)。 規(guī)則類Ⅲ: 位于海拔 400~600 m(B3)、 上坡(C1)、 丘陵地帶(A2)、 土層厚度為薄(H3)的林分中,有97.8%的林分立地質量為差(規(guī)則7);土層厚度為?。℉3),坡位為上坡(C1),坡向為南坡(D2),坡度為斜坡(E3)的杉木林分中,有98.2%的立地質量為差(規(guī)則8)。林下無植被(J4),植被覆蓋度小于30%(L1)同時土壤質地為砂土(G1),腐殖質層為?。↖3)的林分中,有94.5%的立地質量為差(規(guī)則9)。規(guī)則類Ⅳ: 生長在緩坡(E2), 坡向為下坡(C3), 樹高在 12.1~15.0 m(N4)的林分, 有 89.6%的胸徑在 15.1~20.0 cm(M3)(規(guī)則 10); 生長在斜坡(E3), 上坡(C1)的林分, 有 87.6%的胸徑為 5.0~10.0 cm(M1)(規(guī)則 11);腐殖質層為厚(I1)、平坡(E1)立地質量為好的林分(Q1),有92.3%的樹高位于最高等級,為15.1~18.0 m(N5)(規(guī)則 12); 位于低山(A1)中坡(C2)平坡(E1)的杉木中齡林,有 86.6%的胸徑為 10.1~15.0 cm(M2)(規(guī)則 13), 位于丘陵(A2)中坡(C2)斜坡(E3)的杉木中齡林,有 83.1%的胸徑為 5.0~10.0 cm(M1)(規(guī)則 14)。在好的立地質量下,黃壤(F2)壤土(G2)中齡林(P2)的林分中,有92.8%的林分單位蓄積為50.0~80.0 m3(O2)(規(guī)則15),而同在好的立地條件下,紅壤壤土中齡林林分,有90.2%的林分單位蓄積為80.1~110 m3(O3)(規(guī)則 16)。 規(guī)則類Ⅴ: 腐殖質層為?。↖3)、 土層厚度為中(H2), 胸徑為 5.0~10.0 cm(M1)的林分中,有94.9%為幼齡林(規(guī)則17);腐殖質層為中(I2)、土層厚度為中(H2),植被覆蓋度為31%~60%(L2)的林分中,89.6%為中齡林(規(guī)則18);腐殖質層為厚(I1)、林下植被為草灌(J2)、蓄積在80.0~140.0 m3(O4,O5),植被覆蓋度為61%~90%的林分中(L3),有92.1%為近成熟林(規(guī)則19);林下植被為草叢(J1)或者無植被(J4)且植被覆蓋度在30%以下(L1)的林分中,99.8%的林分屬于成熟林(規(guī)則20)。
由規(guī)則類Ⅰ~Ⅲ可知:影響浙西杉木用材林立地質量的立地因子有海拔、坡位、坡向、坡度級、土壤類型、土壤質地、土層厚度、腐殖質層厚度、林下植被種類和林下植被覆蓋度。而地貌和林下植被高度對于立地質量好壞的影響不顯著。分析發(fā)現:①立地質量隨著海拔的升高而下降。究其原因是由于海拔高低決定林分生長的溫度與濕度[19],海拔升高,溫度遞減,濕度上升,臨安地區(qū)海拔溫差大,海拔較高的地區(qū)溫度較低,不利于杉木林的生長。②坡位、坡向和坡度級與林分立地質量的好壞也存在一定規(guī)律,坡位越高、坡度越陡,則林分立地質量越差。這是因為坡度和坡位對林分小氣候存在影響,高坡位往往處于迎風處,坡度過陡,土層越薄,迎風種植不利于杉木生長[25]。規(guī)則還表明:東北、西北坡的杉木比南坡的立地質量好,因此說明杉木更適合生長在陰坡、半陰坡地帶。③立地質量與土層厚度及腐殖質厚度成正比。有研究表明:通常土壤疏松、濕潤、深厚的林分,杉木的速生期維持的時間較長[26]。土壤中的氮磷鉀等養(yǎng)分以及濕度會隨著土層厚度的增加而增加,同時土層越厚土壤受侵蝕的程度越低[27]。腐殖質層則能夠改善土壤結構和肥力,腐殖質層越厚,土壤肥力越高,對地上植物的供養(yǎng)能力越充分,同時,壤土結構比砂土結構更適合杉木林的生長,這一規(guī)律也在關聯規(guī)則中體現出來。④林分的立地質量與林下植被也存在著強關聯。在林下植被因子中,浙西杉木用材林林下植被以草叢和草灌居多,植被覆蓋度越高,立地質量越高,這是因為林下植被的增加,有利于水土保持,增加土壤滲透力及養(yǎng)分儲存力,因此能夠提高維護地力的能力。這一規(guī)律在AKPO[28]、CACCIA等[29]、何藝玲等[30]的研究結果中得到證實。
規(guī)則類Ⅳ則是立地因子對林分生長的影響體現。研究表明:腐殖質層較厚的林分,樹高生長良好;低山較丘陵、中坡較斜坡、下坡較上坡環(huán)境更適合杉木胸徑的生長,從而間接反映出腐殖質層、地貌、坡位對林分生長環(huán)境的影響。在相同的立地條件下,與紅壤相比,黃壤壤土下栽種杉木將獲得更多的蓄積,這一結果與宋靜[25]在杉木生長環(huán)境的研究一致。規(guī)則Ⅳ實則是對前3類規(guī)則的另一種表達,是立地質量在林分生長中的體現。
由規(guī)則類Ⅴ可知:部分林分因子隨林齡的變化也呈現出一系列的變化規(guī)律,具體表現在植被覆蓋度以及腐殖質層厚度2個因子中。在幼齡林階段,林下植被覆蓋度較低,林下生物量相對稀少,腐殖質層較薄,隨著年齡的增長,植被覆蓋度上升;在中齡林階段以草灌為主,同時凋零物增加,腐殖質層厚度增加,林下植被覆蓋度和腐殖質厚度在近成熟林階段達到最高值;當林分逐漸成熟,林冠郁閉,灌木和草本逐漸開始消失,林下植被覆蓋度下降,同時植被從高生產力轉變?yōu)榈蜕a力。這一結果與林下植被演替動態(tài)規(guī)律研究一致[31]。
目前,從海量數據中挖掘出潛在規(guī)則和模式是數據挖掘的基礎問題。研究結果表明:①在一定氣候區(qū)域范圍內,杉木林分的立地條件主要受海拔、坡位、坡向、坡度級、土壤類型、土壤質地、土層厚度、腐殖質層厚度、林下植被種類和林下植被覆蓋度的影響。根據規(guī)則及分析,在杉木造林時,應該選擇低海拔、陰坡或半陰坡、坡度較緩的地帶進行造林位移,海拔較高處則要選擇溫暖地區(qū)進行種植;若要保持優(yōu)質的林分立地環(huán)境,除了人為地對林地進行施肥除草等措施外,林分的林下植被也保持一定的生物多樣性和植被覆蓋度。此外,一般情況下,地貌也是影響立地質量的主要因子,但是本研究的數據有限,地貌僅體現在低山和丘陵,因此不能比較中山、高山對杉木林生長的影響。②杉木樹高的生長受土壤腐殖質層的影響較大,而胸徑的生長則受到地貌、坡位的影響較大,因此,若要培育中大徑材的林木,則考慮將杉木種植在低山、中下坡位的地帶。在土壤選擇上,盡量選擇在黃壤壤土,土壤深厚肥沃地帶進行種植,這樣將提高林分蓄積收獲量。③林下植被以草灌為主,植被覆蓋度隨著林分林齡的增長呈先增長后減少的變化規(guī)律。在中國人工林體系中,往往存在林分結構簡單、密度很大、林下植被不發(fā)達的現象。而關聯規(guī)則表明:林下植被多樣性可以增加腐殖質厚度,提高林分立地質量,從而促進林木生長,因此,可以根據林下植被的變化規(guī)律,適當地提高林下生境的豐富度和多樣性,也可通過適當的營林措施,促進林下植被的發(fā)育。
以往立地質量模型中的立地因子選擇往往通過主觀因素而定,應用范圍小。本研究則是通過數據挖掘技術來分析評估各項立地因子之間的相互依賴關系,從而客觀地提取出與立地質量相關的因子,構建的模型更具備科學性和實用性。
作為關聯規(guī)則領域的經典算法,Apriori算法簡單易行,能較好地完成規(guī)則提取和展示,從而快速獲取林分各類因子之間的客觀規(guī)律,具備了一定的實用性優(yōu)勢;但在實際應用中,Apriori算法需要頻繁掃描數據庫、產生大量候選項集從而導致時間長,效率低,在今后的研究中,可對算法進行改進,以提高數據挖掘效率。