胡云鋒, 韓月琪, 曹 巍, 張云芝
1 中國科學院地理科學與資源研究所,資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101 2 中國科學院大學,資源與環(huán)境學院,北京 100049
中國是全世界水土流失最為嚴重的國家之一。嚴重的水土流失是引發(fā)區(qū)域生態(tài)系統(tǒng)退化、水域環(huán)境質(zhì)量惡化、經(jīng)濟社會嚴重受損的重要過程[1]。據(jù)第一次全國水利普查水土保持情況公報顯示,我國土壤侵蝕總面積294.91萬km2,占普查范圍總面積的31.12%;其中,水力侵蝕129.32萬 km2,風力侵蝕165.59萬km2[2]。研究人員針對水土流失的空間分布格局、水土流失強度、水土流失的防范治理和生態(tài)恢復等問題展開了廣泛和深入的研究,積累了豐富的研究成果,具體包括專題報告、圖冊、研究論文、專利技術(shù)、應用系統(tǒng)等在內(nèi)的多種知識展現(xiàn)形式。其中,公開出版的期刊研究論文是理解和掌握水土流失研究方向、研究地點、研究內(nèi)容、研究方法和主要結(jié)論的最重要的信息載體。進入信息化時代,這些研究論文被進一步數(shù)字化,形成了結(jié)構(gòu)化或者半結(jié)構(gòu)化的文獻數(shù)據(jù)庫或者知識庫(如中國知網(wǎng)、萬方數(shù)據(jù)庫、WoS(Web of Science)等),并可以方便地為讀者通過國際互聯(lián)網(wǎng)進行檢索和下載。
隨著上述數(shù)據(jù)庫和網(wǎng)絡搜索技術(shù)的廣泛普及和深入使用,傳統(tǒng)的、依賴于人工閱讀紙質(zhì)文獻的信息檢索和知識提取方法逐漸演變?yōu)榛诰W(wǎng)絡爬蟲、數(shù)據(jù)挖掘、機器學習、數(shù)據(jù)建模等技術(shù),對文本信息進行檢索、專題信息抽取及時空分析的階段[3]。已經(jīng)有許多研究人員針對互聯(lián)網(wǎng)文本開展地理信息的抽取和分析工作。如Sadilek等人通過有明確位置標記的推特(Twitter)數(shù)據(jù)對個體疾病情況進行分析,探測了疾病傳播過程[4];Dredze等對推特文本中隱性的地理信息進行抽取,開發(fā)了可對流感發(fā)病情況進行追蹤的Carmen系統(tǒng)[5]。Cameron等人開發(fā)了ESA-AWTM系統(tǒng),用于監(jiān)測社交網(wǎng)絡中隱含的社會公共危機事件信息[6]。在國內(nèi),也有一些研究從微博消息或者互聯(lián)網(wǎng)文本中檢測地名信息,進而開展一些簡單的面向事件的空間制圖研究[7-9]。此外,還有一些基于已發(fā)表論文成果、應用統(tǒng)計方法開展再分析、再確認“元分析”研究[10-11]??偟膩砜?目前的研究大多是應用社交媒體數(shù)據(jù)或者一般性的互聯(lián)網(wǎng)文本數(shù)據(jù),針對特定事件或突發(fā)事件開展空間制圖和過程重繪的研究。基于海量的科技期刊論文,從論文中提取地理空間信息和論文研究主題信息,進而對特定自然、生態(tài)過程的空間分布規(guī)律、時間演化特征以及知識圖譜凝練研究[12-13],這一類的研究在國內(nèi)外都還比較少見。在這一研究方向,重點需要解決地名信息的自動化提取和空間匹配、基于位置的自然地理和生態(tài)環(huán)境問題建模與分析、以及針對上述時空分析結(jié)果的知識凝練和應用實踐。
本文以水土流失為研究對象,基于中國知網(wǎng)學術(shù)期刊數(shù)據(jù)庫,通過網(wǎng)絡爬取、中文分詞、地名識別、空間關(guān)聯(lián)等技術(shù)方法,對1980—2017年間的中國水土流失研究論文中的摘要文本進行了行政區(qū)地名提取和研究熱點建模分析。進一步,基于同期歷史氣象觀測數(shù)據(jù)和自然地理背景數(shù)據(jù),應用經(jīng)典的RUSLE模型對中國水土流失進行模擬和分析。作者最后針對水土研究熱點地區(qū)制圖成果與水土流失強度模擬制圖成果的空間耦合關(guān)系開展了討論。希望解決如下科學和技術(shù)問題:
(1)建立一套從中文科技期刊論文提取行政區(qū)地名信息的方法,構(gòu)建一個科學合理的研究熱度模型以及空間制圖流程;
(2)分析1980年代以來中國水土流失研究熱點地區(qū)的空間分布格局,闡明研究熱點地區(qū)隨時代演變的動態(tài)過程;
(3)對比分析水土流失研究熱點地區(qū)空間分布與土壤侵蝕強度空間分布地圖,對典型的空間耦合模式或空間差異進行機制解釋。
研究中用于提取研究地區(qū)、分析研究熱度的文本數(shù)據(jù)來自于中國知網(wǎng)學術(shù)期刊數(shù)據(jù)庫(China Academic Journal Network Publishing Database,CAJD)。作者首先應用Java語言開發(fā)了CAJD爬蟲系統(tǒng);而后以“水土流失”、“水力侵蝕”以及“水蝕”作為關(guān)鍵詞,對CAJD文獻庫進行了全面檢索,共獲得1980—2017年間相關(guān)文獻170301篇;最后,提取了文獻標題、摘要、關(guān)鍵詞、作者姓名等關(guān)鍵信息,并存儲于本地的SQLite數(shù)據(jù)庫中。
為了將文獻數(shù)據(jù)中的行政區(qū)地名正確匹配和關(guān)聯(lián)到空間數(shù)據(jù)庫中,首先依據(jù)中國地圖出版社提供的中國縣級行政區(qū)劃數(shù)據(jù)(2012年版)建立標準地名。而后,考慮到行政區(qū)劃名稱的歷史演變,依據(jù)國家基礎(chǔ)地理信息中心提供的1∶25萬基礎(chǔ)地理數(shù)據(jù)、科技部地球系統(tǒng)科學數(shù)據(jù)共享平臺提供的中國歷史時期縣級行政區(qū)劃數(shù)據(jù),對部分地名進行了別名補充。
為應用RUSLE模型開展土壤侵蝕強度模擬,研究中還使用了如下長時序氣象數(shù)據(jù)和相關(guān)的自然環(huán)境背景數(shù)據(jù)。具體包括:(1)基于日降雨量擬合模型[14]及ANUSPLIN插值方法[15]計算得到的降雨侵蝕力空間數(shù)據(jù)集。其中,日降雨量等數(shù)據(jù)來自于中國氣象科學數(shù)據(jù)共享服務網(wǎng)(http://cdc.cma.gov.cn);(2)基于Nomo圖法[16]計算得到土壤可蝕性因子數(shù)據(jù)。其中,土壤數(shù)據(jù)為中國科學院南京土壤研究所提供的1∶100 萬中國土壤數(shù)據(jù)庫;(3)全國1 km分辨率數(shù)字高程模型(DEM)。由此計算得到坡長、坡度因子;(4)基于MODIS NDVI產(chǎn)品,應用像元二分模型計算得到全國植被蓋度產(chǎn)品[17]。由植被蓋度數(shù)據(jù),可以進一步確定RUSLE模擬所需的土地管理因子[18];
為了分析導致研究水土流失研究熱點空間分布格局與土壤侵蝕強度空間分布格局之間空間差異的機制,還使用了基于第五次人口普查數(shù)據(jù)的2010年中國公里網(wǎng)格人口分布數(shù)據(jù)[19],以及基于1∶25萬基礎(chǔ)地理數(shù)據(jù)庫得到的中國縣道及縣道以上等級道路的路網(wǎng)密度數(shù)據(jù)。
對于從CAJD中檢索和下載得到的170301篇文獻,首先調(diào)用自然語言處理開源平臺(HanLP)中的分詞模塊對文章題目、摘要及關(guān)鍵詞等文本內(nèi)容進行分詞處理[20];接著應用實體詞識別模塊對全部分詞結(jié)果進行分析、遴選得到其中的地名詞匯[21];然后對上述地名詞匯中的行政區(qū)地名進行標準化,并對全部行政區(qū)地名出現(xiàn)的頻次進行統(tǒng)計分析。研究中,將標準行政區(qū)地名數(shù)據(jù)庫中的地名劃分為省域、市域、縣域三級,并構(gòu)建了一個基于“逐級覆蓋、累加統(tǒng)計”原則的地名匹配算法,從而將不同級別的行政區(qū)地名、或者同一地名的不同表達形式(全稱、簡稱、別稱)進行準確識別、合理統(tǒng)計。
在定量評估研究熱點時,簡單地采用研究論文中的特定地名出現(xiàn)的絕對數(shù)量(Nwe)來表征水土流失研究的熱烈程度,這并不合理。中國作為一個幅員遼闊的大國,各省區(qū)市之間的經(jīng)濟社會和科技發(fā)展水平并不相同,不同地區(qū)針對同一事物、過程的關(guān)注數(shù)量會存在較大的、甚至是數(shù)量級上的差異。類似的道理,采用某一地名在特定研究方向論文中出現(xiàn)頻次占其在全部研究方向論文中出現(xiàn)頻次的比例指標(Pwe)來表征研究熱度,則會由于相同或者相似經(jīng)濟社會和科技發(fā)展水平的地區(qū)針對同一事物、過程具有大致相似的測度水平,因而同樣無法有效刻畫地區(qū)差異。為避免上述問題,本文作者將絕對數(shù)值指標與相對比率指標相結(jié)合,構(gòu)建了如下的地區(qū)研究熱度模型:
(1)
式中,Q是水土流失研究熱度指數(shù)。Nwe為某一地名在水土流失主題論文中出現(xiàn)的頻次;Pwe為某一地名在水土流失主題論文中出現(xiàn)的頻次占該地區(qū)在全部主題論文中出現(xiàn)頻次的比值;Nall為某一地區(qū)不限定主題所得全部論文的數(shù)量。
本文研究中,為了方便在全國范圍內(nèi)開展對比分析,作者還對公式(1)中的Q值進行了歸一化,并將歸一化計算所得結(jié)果用于后續(xù)的制圖和結(jié)果分析。其中,研究熱度分級方法采用自然分級法。
RUSLE 模型 (Revised Universal Soil Loss Equation),是對通用土壤流失模型USLE(Universal Soil Loss Equation)的改進和優(yōu)化[22]。與USLE模型相比,RUSLE擴展了模型模擬所需的輸入數(shù)據(jù)的豐富程度,糾正了USLE模型中存在的少量錯誤,增加了模型的靈活性。自20世紀80年代以來,研究人員使用RUSLE 模型對不同氣候帶、不同地形地貌、不同耕作管理措施、以及不同空間尺度下的區(qū)域水土流失進行了廣泛、深入地模擬評估[23-25]。研究結(jié)果表明,RUSLE是一種適用于流域和區(qū)域尺度的、通用性很強的水土流失定量評價方法。RUSLE 模型基本方程是:
A=R×K×L×S×C×P
(2)
式中,A為土壤侵蝕模數(shù),R為降雨侵蝕力因子、K為土壤可蝕性因子、L為坡長因子、S為坡度因子、C為覆蓋和管理因子,P為水土保持措施因子。
圖1 1980—2017年全國水土流失研究熱度空間分布圖 Fig.1 The spatial distribution of water erosion research hotness during 1980—2017
1980—2017年期間,中國水土流失研究熱點的空間分布如圖1所示。水土流失研究熱點區(qū)域主要分布在黃土高原及貴州高原,涉及陜西、寧夏、內(nèi)蒙古、甘肅、貴州等省區(qū)。此外,在黑龍江大興安嶺北部、內(nèi)蒙古東部的西遼河流域也有輕微的研究熱度。
統(tǒng)計表明:中等及以上熱度的縣(區(qū)、市)共171個,面積達到50.55萬km2,占全國國土總面積的5.33%。其中,研究熱度達到“較熱”及以上的區(qū)域主要分布在黃土高原和西南喀斯特地區(qū),如:寧夏固原,陜西延安、榆林,內(nèi)蒙古鄂爾多斯市,貴州畢節(jié)等地。研究熱度為“中等”的區(qū)域主要分布在大興安嶺地區(qū)、黃土高原周邊地區(qū)、西南喀斯特地區(qū),具體為:內(nèi)蒙古的呼倫貝爾、赤峰,甘肅的蘭州、天水、隴南、慶陽,青海的西寧,云南的昆明等地區(qū)。
針對1980—2017年各個年代水土流失研究熱度空間分布格局的時間變化過程(圖2)研究表明:1980—1989年間,中國水土流失研究的熱點集中分布在黃土高原區(qū);1990—1999年間,黃土高原研究熱度持續(xù)上升;與此同時,貴州西部、內(nèi)蒙古東部也逐步成為研究熱點;2000—2009年間,學者們關(guān)注的水土流失區(qū)域進一步擴大,內(nèi)蒙古中部鄂爾多斯、烏蘭察布,黑龍江大興安嶺北部的部分縣(區(qū)、市),也逐步成為水土流失研究熱點區(qū)域;進入2010年后,水土流失研究熱點區(qū)域有所收縮,學者們的研究熱點區(qū)重新回到黃土高原及云貴高原。
圖2 不同時代的全國水土流失研究熱度空間分布圖Fig.2 The spatial distribution of water erosion research hotness in 4 Eras
圖3 基于RUSLE模擬的土壤侵蝕模數(shù)空間分布圖 Fig.3 The Spatial Distribution of Water Erosion Modulus Simulated by RUSLE ModelRUSLE(Revised Universal Soil Loss Equation):通用土壤流失模型
基于2000—2015年多年氣象數(shù)據(jù)、植被數(shù)據(jù)以及地形、土壤數(shù)據(jù)等,應用RUSLE模型,可以模擬得到我國土壤侵蝕強度的空間分布(圖3)。模擬結(jié)果表明:嚴重的土壤侵蝕主要分布在黃土高原及云貴高原,涉及陜西、寧夏、甘肅、山西、貴州、云南、四川等省區(qū);此外,遼寧、山東、重慶、湖南、江西等省區(qū)也有中、輕度的土壤侵蝕。
統(tǒng)計顯示:全國土壤侵蝕模數(shù)大于20 t hm-2a-1的縣(區(qū)、市)共251個,面積達66.78萬km2,占全國國土總面積的7.04%。其中,土壤侵蝕量在30 t hm-2a-1以上的區(qū)域主要位于在黃土高原核心區(qū)的陜西榆林東南部、延安北部,甘肅慶陽北部,以及位于云貴高原西部的云南迪慶藏族自治州、怒江傈僳族自治州、大理白族自治州、保山的部分縣(區(qū)、市)。在上述縣(區(qū)、市)的外圍地區(qū),以及寧夏固原、中衛(wèi),甘肅平?jīng)?、定?云南省臨滄、普洱、紅河哈尼族彝族自治州、楚雄彝族自治州,四川涼山彝族自治州、攀枝花以及西藏昌都地區(qū)南部,土壤侵蝕量也都超過了20 t hm-2a-1。
對比水土流失研究熱點圖(圖2)與土壤侵蝕強度空間分布圖(圖3),兩者存在4種空間耦合模式,即:高研究熱度-高侵蝕強度(如黃土高原)、高研究熱度-低侵蝕強度(如云貴高原)、低研究熱度-高侵蝕強度(如滇西橫斷山區(qū))、低研究熱度-低侵蝕強度(如中國東部廣大地區(qū)、青藏高原等)。對于上述典型空間耦合的形成機制,可以結(jié)合區(qū)域自然地理和經(jīng)濟社會發(fā)展背景等予以解釋。
黃土高原是長期以來被公認為我國水土流失最為嚴重的區(qū)域。對該地區(qū)開展長期的水土流失觀測實驗、研究其治理和恢復措施,探討區(qū)域經(jīng)濟-社會的可持續(xù)發(fā)展,這是政府主管部門和研究人員長期關(guān)注的重點問題[26-27]。黃土高原地區(qū)呈現(xiàn)的“高研究熱度-高侵蝕強度”組合,體現(xiàn)了科研界對我國水土流失重點地區(qū)判斷準確、研究重點突出的實際情況。但是,在云貴高原區(qū)與滇西橫斷山區(qū),存在研究熱度與侵蝕強度等級“脫鉤”的情況。就云貴高原而言:一方面,云貴高原作為喀斯特巖溶地貌的典型區(qū),由于水土流失導致的石漠化研究一直得到學界的重視[28-29];但另一方面,這一地區(qū)作為我國南方熱帶、亞熱帶氣候區(qū),自2000年以來,在國家相關(guān)生態(tài)治理工程(如天然林保護工程、退耕還林還草)治理下,該地區(qū)陸地植被容易恢復、植被蓋度提升較快,土壤侵蝕狀況已經(jīng)大為好轉(zhuǎn)[30]。因此,云貴高原地區(qū)所形成了“高研究熱度-低侵蝕強度”的格局也可以得到合理解釋的。在滇西橫斷山區(qū),則呈現(xiàn)為 “低研究熱度-高侵蝕強度”的空間耦合模式。究其原因,是因為滇西橫斷山區(qū)地處偏遠,人口稀少,山脈與河谷依次貫列,人員也難以進入。因此,RUSLE模擬表明該區(qū)雖然存在較為嚴重水土流失,但由于水土流失對本地區(qū)經(jīng)濟社會的危害性較小,因此這一地區(qū)的水土流失過程并沒有得到科研界的重視和深入研究。
在應用自然地理和經(jīng)濟社會發(fā)展因子對上述空間耦合模式的形成機制予以解釋的同時,還可以針對不同的這種空間耦合模式評估研究項目投入、研究重點地區(qū)選擇的合理性、有效性??茖W史研究已經(jīng)表明,科學研究中總是存在追逐熱點的趨勢。其結(jié)果是科學研究會在領(lǐng)域方向上、研究地域上出現(xiàn)“富者愈富”的情況[31]。具體到本研究中,水土流失研究熱度與水力侵蝕強度等級“脫鉤”的地區(qū),極有可能表明出現(xiàn)了一些研究人員盲目追求熱點、忽視重大問題區(qū)域的情況。因此政府和科研界需要采取必要的措施,將資金和人員優(yōu)先投入到更加嚴重、更加關(guān)鍵的區(qū)域上。要做到這一點,一方面必須運用衛(wèi)星遙感和模型模擬的方法,對水土流失強度及其空間分布有著更加準確、快速的量算;另一方面,也需要深化既有的互聯(lián)網(wǎng)文獻大數(shù)據(jù)繪制知識圖譜的研究方法,開展更全面、更精準、更快速的地名識別(包括行政區(qū)地名和非行政區(qū)地名)、專題信息建模等關(guān)鍵研究。
在本文研究中,作者從特定主題的科技期刊論文中提取了行政區(qū)地名信息,進而用地名構(gòu)造了研究熱度指標模型;繼而以研究熱度指標為基礎(chǔ),進一步分析了水土流失研究熱點的空間分布格局和動態(tài)演變規(guī)律??偟膩砜?基于文獻大數(shù)據(jù)的科研熱點地區(qū)制圖方法能夠很好地展示科研工作者長期以來在水土保持研究領(lǐng)域研究的重點地帶和重點區(qū)域;文獻大數(shù)據(jù)科研熱點地區(qū)空間分布格局的動態(tài)演變過程,也體現(xiàn)了在不同歷史發(fā)展時期,水土流失研究在研究范圍、研究強度上的變化規(guī)律。
但需要指出的是:目前的技術(shù)路線和技術(shù)實現(xiàn)過程中,依然存在一些值得改進的地方。首先,目前提取的地名信息均為行政區(qū)地名(省、市、縣、區(qū)等)。對于論文中廣泛存在的自然地理區(qū)域地名(如秦嶺、太行山、淮河、塔里木河,等)、方位詞(南部、以西、上游、北麓,等)等,作者目前尚不能準確地在空間上予以標注和定位。毫無疑問,這種地名信息的漏提和不精確標注,將會影響研究熱點區(qū)域制圖的精確性。其次,在研究熱度建模中,本文作者雖然構(gòu)建了一個綜合了絕對數(shù)值指標和相對比例指標優(yōu)點的熱度指數(shù)模型。但毫無疑問,目前的熱度模型仍然是粗糙、不精確和缺乏嚴格數(shù)理統(tǒng)計學基礎(chǔ)的。從文獻大數(shù)據(jù)提取專題信息,并根據(jù)地學專業(yè)研究的性質(zhì)和特點,構(gòu)建科學合理、嚴謹可靠的測度模型、分析模型,依然是未來基于文獻大數(shù)據(jù)開展知識圖譜研究的一個關(guān)鍵環(huán)節(jié)。
本文主要基于CAJD提供的文獻大數(shù)據(jù),運用自然語言處理技術(shù),對海量中文科技期刊論文所刻畫的1980年代以來中國水土流失研究熱點進行了信息提取和建模分析,并將相關(guān)結(jié)果與基于RUSLE模型的得到全國土壤侵蝕強度空間分布成果進行了對比和討論。主要結(jié)論有:(1)應用網(wǎng)絡爬蟲、文本解析、地名識別、空間關(guān)聯(lián)、熱度建模等方法,可以快速、有效地從海量期刊文獻數(shù)據(jù)中提取和標識全國水土流失研究的熱點區(qū)域,完成中國水土流失研究熱點區(qū)制圖。(2)1980年以來,我國的水土流失研究熱點地區(qū)主要分布在黃土高原、西南喀斯特地區(qū),主要涉及寧夏南部、陜西北部、甘肅南部、內(nèi)蒙古中部、貴州西部與云南東部等地,尤以寧夏固原、陜西延安、榆林的部分縣(區(qū)、市)、內(nèi)蒙古鄂爾多斯、貴州畢節(jié)等地最為突出。(3)研究熱點地圖與水土流失強度模型模擬地圖之間存在差異。對于這些特定的空間耦合模式,不僅可以從自然地理和經(jīng)濟社會發(fā)展背景等方面予以解釋,還可以用于評估科技資源投入的合理性和有效性。