胡鈺琳,張紹良,2,于婭娜,侯湖平,楊永均,公云龍
(1.中國礦業(yè)大學(xué)公共管理學(xué)院,江蘇 徐州 221116;2.礦山生態(tài)修復(fù)教育部工程研究中心,江蘇 徐州 221116)
自20世紀(jì)80年代大規(guī)模開展礦區(qū)土地復(fù)墾研究以來,我國很多礦區(qū)已經(jīng)積累了大量的復(fù)墾數(shù)據(jù)資料,包括復(fù)墾技術(shù)、復(fù)墾經(jīng)驗(yàn)、復(fù)墾質(zhì)量、復(fù)墾評價(jià)和示范工程等信息。這些歷史文獻(xiàn)不僅可以為礦區(qū)未來土地復(fù)墾提供直接的、廉價(jià)的資料,而且可形成“歷史數(shù)據(jù)鏈”,為礦區(qū)綜合治理、系統(tǒng)修復(fù)提供決策支持。尤其是其中“反復(fù)”的研究區(qū)介紹、采樣、試驗(yàn)和分析結(jié)果等,如果系統(tǒng)歸納、提煉,也就是數(shù)據(jù)挖掘,可形成該礦區(qū)土地復(fù)墾和生態(tài)修復(fù)的“知識”。因此,引入數(shù)據(jù)挖掘技術(shù)不但可節(jié)省研究時(shí)間,而且可節(jié)約研究成本,避免“重復(fù)”研究,為大數(shù)據(jù)時(shí)代礦山土地復(fù)墾和生態(tài)重建的研究提供新的研究“范式”。本文嘗試?yán)脭?shù)據(jù)挖掘技術(shù),結(jié)合Python語言編程,對礦區(qū)土地復(fù)墾歷史科技文獻(xiàn)開展信息集成和知識發(fā)現(xiàn),并以徐州礦區(qū)為例開展實(shí)證研究,為礦區(qū)土地復(fù)墾與生態(tài)修復(fù)研究探索一條新的途徑。
數(shù)據(jù)集成、分析、預(yù)測、建模和數(shù)據(jù)挖掘、可視化等是大數(shù)據(jù)時(shí)代的基本技術(shù)[1],國內(nèi)外許多專家已經(jīng)研發(fā)出了許多與數(shù)據(jù)挖掘有關(guān)的軟件,取得了長足的進(jìn)步[2],并應(yīng)用于經(jīng)濟(jì)領(lǐng)域[3]、社會(huì)領(lǐng)域[4]和文化領(lǐng)域[5]等。礦區(qū)信息數(shù)據(jù)挖掘已經(jīng)能實(shí)現(xiàn)地質(zhì)數(shù)據(jù)特征的表述、對比、聯(lián)系、聚類以及分析等功能,并且已經(jīng)有數(shù)據(jù)挖掘的軟件問世[6]。為了從海量的地質(zhì)信息中找到有效的信息,有學(xué)者開發(fā)了語義檢索模型[7]。然而,數(shù)據(jù)冗余、數(shù)據(jù)沖突及其真?zhèn)巫R別等,給礦區(qū)土地復(fù)墾與生態(tài)重建信息集成和知識發(fā)現(xiàn)提出了挑戰(zhàn)。
數(shù)據(jù)挖掘就是在大量的、不完全的、有噪聲的、模糊的隨機(jī)數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的潛在有用信息和知識的過程[8]。礦區(qū)土地復(fù)墾文獻(xiàn)資料是研究人員日積月累形成的重要知識成果,但由于主題不同、內(nèi)容不同、格式不同等特點(diǎn),使得信息分散,制約了信息集成的難度和應(yīng)用價(jià)值。
由表1可知,區(qū)別于傳統(tǒng)數(shù)據(jù)環(huán)境,礦區(qū)土地復(fù)墾文獻(xiàn)資料的數(shù)據(jù)特點(diǎn)在數(shù)據(jù)類型、數(shù)據(jù)篩選、數(shù)據(jù)挖掘等方面都有極大的不同。由此可見,必須開發(fā)有針對性的數(shù)據(jù)挖掘方法,才能對礦區(qū)土地復(fù)墾文獻(xiàn)進(jìn)行精準(zhǔn)挖掘,才能在大量的歷史文獻(xiàn)資料中準(zhǔn)確快速地識別出礦區(qū)基本信息、開采及其影響信息、復(fù)墾信息等。
1) 首先根據(jù)《現(xiàn)代漢語分類詞典》中的分類規(guī)則對礦區(qū)土地復(fù)墾文獻(xiàn)關(guān)鍵詞進(jìn)行編碼化處理。
2) 利用標(biāo)簽LDA模型改進(jìn)TF*IDF方法[9],構(gòu)建關(guān)鍵詞-文獻(xiàn)矩陣。
3) 以CD_Sim方法訪問矩陣計(jì)算關(guān)鍵詞相似度,建立空間向量模型、應(yīng)用AP聚類方法確定該礦區(qū)土地復(fù)墾文獻(xiàn)的主題要素。
4) 運(yùn)用Python可視化編程語言遍歷文獻(xiàn),根據(jù)聚類結(jié)果和其他需要提取的重要信息,進(jìn)行數(shù)據(jù)挖掘與集成分析[10-11]。
5) 以文本數(shù)據(jù)庫作為核心結(jié)合空間與屬性數(shù)據(jù)庫,采用C#可視化編程語言,結(jié)合ArcEngine在VS.NET環(huán)境中實(shí)現(xiàn)GIS的二次開發(fā),建立能夠呈現(xiàn)該礦區(qū)土地復(fù)墾歷史數(shù)據(jù)的信息管理系統(tǒng)。
2.2.1 TF*IDF算法
首先將文獻(xiàn)關(guān)鍵詞按《現(xiàn)代漢語分類詞典》中5個(gè)級別層次進(jìn)行體系分類。由表2可知,以“采礦”和“采煤”的編碼“陸三Hb01”為例,兩個(gè)詞語編碼位均相同,可認(rèn)為兩詞語完全相似,相似度為1;若兩個(gè)詞語的編碼位有一位不同,則兩詞語相似度為0。
表1 數(shù)據(jù)特點(diǎn)Table 1 Characteristics of data
表2 編碼規(guī)則示例Table 2 Code rule example
其次,利用TF*IDF算法計(jì)算詞語重要性,計(jì)算見式(1)。
(1)
式中:pij為關(guān)鍵詞在待分析文檔中出現(xiàn)的數(shù)量;TFij為pij與待分析文檔中總詞語數(shù)量pj的比值;IDFi為逆文檔頻率;N為樣本數(shù)量;ni為文檔中包含詞語ti的數(shù)量。
根據(jù)詞語重要性wij構(gòu)建關(guān)鍵詞-文獻(xiàn)權(quán)重矩陣,在待分析文檔中關(guān)鍵詞出現(xiàn)的頻率利用樣本D將頻數(shù)向量表示出來,則樣本D表示為式(2)。
(2)
2.2.2 CD_Sim方法
采用CD_Sim方法計(jì)算關(guān)鍵詞相似度,其思想為訪問關(guān)鍵詞-文獻(xiàn)矩陣,找到待度量關(guān)鍵詞返回其編碼,根據(jù)公式對編碼相似度進(jìn)行計(jì)算,返回關(guān)鍵詞相似度。
定義:假設(shè)有關(guān)鍵詞A的編碼為“a1a2a3a4a5”,關(guān)鍵詞B的編碼為“b1b2b3b4b5”,語義重合度為k1。見式(3)。
(3)
選取相同的語義長度(即編碼后的位數(shù)相同),從而方便計(jì)算語義重合度。以關(guān)鍵詞“生態(tài)”“環(huán)境”“景觀”為例,對其進(jìn)行編碼后計(jì)算每兩個(gè)詞語之間k1的值,見表3。
表3 k1計(jì)算結(jié)果Table 3 Calculated results of k1
分析表3可知,通過語義重合度利用CD_Sim方法對詞語之間的相似程度進(jìn)行一個(gè)標(biāo)準(zhǔn)化的衡量計(jì)算,見式(4)。
(4)
設(shè)文獻(xiàn)i中有M個(gè)關(guān)鍵詞{x1,x2,…,xm}(m=1,2,…,M),文獻(xiàn)j中有N個(gè)關(guān)鍵詞{y1,y2,…,yn}(n=1,2,…,N),smn為第i個(gè)文獻(xiàn)中的關(guān)鍵詞m與第j個(gè)文獻(xiàn)中的關(guān)鍵詞n的相似度。計(jì)算文獻(xiàn)i與文獻(xiàn)j中所有關(guān)鍵詞的相似度矩陣,見式(5)。
2.2.3 AP聚類方法
采用聚類分析不僅可以確定文獻(xiàn)主題要素,同時(shí)檢驗(yàn)文本相似度量效果。相比較其他聚類方法,AP聚類可以按照自身特性,選取合理聚類數(shù)目進(jìn)行聚類。根據(jù)關(guān)鍵詞相似度計(jì)算結(jié)果,通過AP聚類算法對待聚類文獻(xiàn)進(jìn)行自動(dòng)聚類,由于不同文獻(xiàn)主題包含子主題,根據(jù)聚類數(shù)目和實(shí)際文獻(xiàn)數(shù)目決定是否繼續(xù)執(zhí)行聚類操作,直至聚類數(shù)目基本不再變化或者接近于1。
2.2.4 基于Python語言的信息提取
Python語言可以對ArcGIS進(jìn)行腳本的編寫,可快速實(shí)現(xiàn)GIS基本功能的編碼化[10-11],嵌入Python語言將提高土地復(fù)墾歷史文獻(xiàn)數(shù)據(jù)挖掘的工作效率。選取Python語言中的PDFMiner模塊[12-13]進(jìn)行解析處理,通過Python語言進(jìn)行編程,即可在Excel中提取到對應(yīng)的信息。
2.2.5 ArcGIS二次開發(fā)
該系統(tǒng)包括應(yīng)用層、中間層以及數(shù)據(jù)層等三層結(jié)構(gòu)。使用COM連接三層結(jié)構(gòu),這樣具有面向?qū)ο?、可重用性、語言獨(dú)立、過程透明和版本升級穩(wěn)健等優(yōu)點(diǎn)[14]。中間層包括系統(tǒng)的主要功能模塊,數(shù)據(jù)層中包括地理空間數(shù)據(jù)、屬性數(shù)據(jù)以及文本數(shù)據(jù)。該系統(tǒng)減少了系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)之間的相互作用,降低了各層之間依賴程度的同時(shí),也提高了本文系統(tǒng)的可擴(kuò)展性,使得功能更加連貫,數(shù)據(jù)可以實(shí)時(shí)更新。
以中國知網(wǎng)(CNKI)文獻(xiàn)庫為基礎(chǔ),以“土地復(fù)墾”“生態(tài)修復(fù)”“徐州礦區(qū)”“塌陷地”“植被恢復(fù)”“土壤改良”等作為文獻(xiàn)索引主題詞,將時(shí)間區(qū)間設(shè)置為1980—2019年,檢索到研究文獻(xiàn)518篇。下載文獻(xiàn)并利用Python爬取其關(guān)鍵內(nèi)容,如“題目”“發(fā)表時(shí)間”“關(guān)鍵詞”“摘要”等,形成獨(dú)立文檔,以便計(jì)算機(jī)自動(dòng)讀取。
利用TF*IDF算法計(jì)算詞語重要性,構(gòu)建徐州礦區(qū)土地復(fù)墾與生態(tài)修復(fù)歷史文獻(xiàn)的樣本矩陣,文獻(xiàn)主題從初值開始不斷分詞,不斷聚類,不斷更新,不斷替換。
以隨機(jī)選取的四篇文獻(xiàn)為例。對分詞結(jié)果進(jìn)行編碼化處理,處理結(jié)果見表4。據(jù)此計(jì)算相似度,計(jì)算結(jié)果見表5。根據(jù)關(guān)鍵詞相似度計(jì)算結(jié)果,通過AP聚類方法對關(guān)鍵詞進(jìn)行聚類,并將原始關(guān)鍵詞替換為該關(guān)鍵詞聚類中心,該替換過程如圖1所示。
表4 分詞與編碼化處理結(jié)果Table 4 Treatment results of word segmentation and encoding
表5 關(guān)鍵詞相似度計(jì)算結(jié)果Table 5 Calculation results of keywords similarity
確定文獻(xiàn)的主題要素后,遍歷文獻(xiàn)找到特定主題要素關(guān)鍵詞,將其對應(yīng)的有用信息提取出來,利用ArcGIS二次開發(fā)技術(shù)將數(shù)據(jù)挖掘結(jié)果進(jìn)行綜合、集成,建立徐州礦區(qū)土地復(fù)墾與生態(tài)修復(fù)信息管理系統(tǒng)并開展時(shí)空數(shù)據(jù)分析。
圖1 關(guān)鍵詞替換實(shí)例Fig.1 Keywords replacement example
3.2.1 研究區(qū)域及時(shí)間的挖掘結(jié)果
結(jié)果表明:1995年以后徐州礦區(qū)土地復(fù)墾的研究逐漸增多,2014年達(dá)到高峰,數(shù)量最多(圖2)。主要研究區(qū)域是龐莊礦區(qū)、新河-臥牛礦區(qū)、義安礦區(qū)、垞城礦區(qū)、張集礦區(qū)、賈汪礦區(qū)、大黃山礦區(qū)和董莊礦區(qū)等(圖3)。
圖2 歷年研究文獻(xiàn)統(tǒng)計(jì)Fig.2 Statistics of historical literature
3.2.2 煤炭開采影響的挖掘結(jié)果
根據(jù)文獻(xiàn)主題要素挖掘徐州礦區(qū)復(fù)墾文獻(xiàn),可以從挖掘結(jié)果中發(fā)現(xiàn)如下情況。
1) 土壤改良情況。徐州礦區(qū)煤炭開采對土壤的理化性質(zhì)、碳效應(yīng)均產(chǎn)生了影響,存在重金屬污染現(xiàn)象。以土壤理化性質(zhì)的挖掘結(jié)果為例,可見粉煤灰充填方法更適合徐州礦區(qū)(圖4)。
圖3 重點(diǎn)區(qū)域分布圖Fig.3 Key area distribution map
圖4 礦區(qū)土壤理化特性挖掘情況Fig.4 Soil physical and chemical properties of mining area
2) 水文治理情況。徐州礦區(qū)曾發(fā)生水害、水資源短缺、水污染、地表水系紊亂等問題。以水污染狀況挖掘結(jié)果為例,徐州龐莊礦區(qū)的權(quán)臺礦井水中多環(huán)芳烴含量較高,因此對其生態(tài)修復(fù)的治理將更為嚴(yán)峻(表6)。
3) 植被修復(fù)情況。徐州礦區(qū)植被凈初級生產(chǎn)力隨煤礦的開采強(qiáng)度增大而下降,但閉礦后逐漸恢復(fù)。
4) 景觀格局演變情況。景觀格局在采礦前后發(fā)生顯著變化;最主要特征是塌陷積水面積顯著增加。
5) 塌陷地情況。挖掘得到徐州市域范圍內(nèi)礦區(qū)的歷史概況以及塌陷狀況。以賈汪礦區(qū)挖掘結(jié)果為例,其基本信息如圖5所示。
3.2.3 復(fù)墾技術(shù)與示范工程的挖掘結(jié)果
結(jié)果表明:徐州礦區(qū)曾成功開發(fā)出了泥漿泵復(fù)墾、基塘復(fù)墾、煤矸石充填復(fù)墾、高效農(nóng)業(yè)復(fù)墾、建設(shè)用地復(fù)墾、生態(tài)濕地修復(fù)、景觀修復(fù)、采礦跡地修復(fù)、關(guān)閉礦山地下水污染防控等技術(shù)體系,并得到大面積的推廣。
以賈汪礦區(qū)的生態(tài)修復(fù)示范工程為例。賈汪礦區(qū)的采煤塌陷地復(fù)墾示范工程分布在青山泉鎮(zhèn)、賈汪鎮(zhèn)、紫莊鎮(zhèn)和大吳鎮(zhèn),其中潘安湖生態(tài)濕地是近年研究的焦點(diǎn),采用了“基本農(nóng)田整理、采煤塌陷地復(fù)墾、生態(tài)環(huán)境修復(fù)、濕地景觀開發(fā)”四位一體的模式。
運(yùn)用查準(zhǔn)率(precision)、召回率(recall)、正確率T和F值來評判數(shù)據(jù)挖掘的精度,見式(6)~式(9)。
(6)
(7)
(8)
(9)
式中:TP為挖掘文獻(xiàn)數(shù)量;TN為真無效數(shù)量;FN為假無效數(shù)量;FP為人工處理的文獻(xiàn)數(shù)量與挖掘模型得到結(jié)果的文獻(xiàn)數(shù)量的差值;P為對數(shù)據(jù)挖掘的準(zhǔn)確性;R為衡量數(shù)據(jù)挖掘的相關(guān)性;T為數(shù)據(jù)挖掘結(jié)果的正確率;F值為數(shù)據(jù)挖掘算法的總體性能。
通過整理TP、FP、FN、TN的值,對數(shù)據(jù)挖掘的結(jié)果進(jìn)行對比分析[15]。以不同礦區(qū)評價(jià)結(jié)果為例,見表7。
圖5 賈汪礦區(qū)概況Fig.5 Overview of Jiawang mining area
表6 龐莊礦水樣中多環(huán)芳烴含量Table 6 Pahs in water samples from Pangzhuang mine
表7 不同礦區(qū)挖掘結(jié)果性能指標(biāo)對比Table 7 Comparison of performance indexesof different mining results
從表7可以看出,利用數(shù)據(jù)挖掘得到的結(jié)果比較準(zhǔn)確,證明該方法高效可行。通過少量的人工參與,確定了礦區(qū)土地復(fù)墾歷史文獻(xiàn)研究的主題要素,避免了“重復(fù)”研究,可以彌補(bǔ)人工統(tǒng)計(jì)時(shí)的無目的性、費(fèi)時(shí)費(fèi)力等不足,實(shí)現(xiàn)礦區(qū)土地復(fù)墾的信息集成與知識發(fā)現(xiàn)。
隨著我國對礦區(qū)生態(tài)環(huán)境修復(fù)的重視,礦區(qū)復(fù)墾文獻(xiàn)也不斷增多,采用數(shù)據(jù)挖掘技術(shù),可彌補(bǔ)人工統(tǒng)計(jì)的不足。另外,礦區(qū)歷史面貌很難通過現(xiàn)場調(diào)查復(fù)原,而歷史文獻(xiàn)較完整記錄了其原貌,所以數(shù)據(jù)挖掘技術(shù)可發(fā)揮恢復(fù)歷史“數(shù)據(jù)鏈”的特殊作用。本文通過對土地復(fù)墾歷史文獻(xiàn)關(guān)鍵詞分詞編碼化,構(gòu)建TF*IDF算法和空間向量模型、聚類分析,采用Python語言進(jìn)行數(shù)據(jù)挖掘,最后在ArcGIS基礎(chǔ)上二次開發(fā),顯示數(shù)據(jù)挖掘結(jié)果。以徐州礦區(qū)為例,開展實(shí)證研究,得到了徐州礦區(qū)的塌陷情況、復(fù)墾技術(shù)以及示范工程等重要?dú)v史信息,克服了土地復(fù)墾歷史文獻(xiàn)的數(shù)據(jù)冗余、數(shù)據(jù)沖突以及真?zhèn)巫R別等難點(diǎn)。據(jù)此表明數(shù)據(jù)挖掘技術(shù)可實(shí)現(xiàn)礦區(qū)土地復(fù)墾與生態(tài)重建信息的集成與知識發(fā)現(xiàn),為礦區(qū)系統(tǒng)修復(fù)、綜合治理提供基礎(chǔ)數(shù)據(jù)支撐。