張 可,鐘秋萍,曲品品,殷 要,左 媛
(1.河海大學(xué)商學(xué)院,江蘇 南京 211100;2.河海大學(xué)項(xiàng)目管理研究所,江蘇 南京 211100)
隨著農(nóng)村社會經(jīng)濟(jì)的迅速發(fā)展,農(nóng)村水環(huán)境污染問題日益嚴(yán)重。2018年聯(lián)合國糧食及農(nóng)業(yè)組織和國際水資源管理研究所聯(lián)合發(fā)布的《農(nóng)業(yè)水污染全球評論》報(bào)告指出,農(nóng)業(yè)生產(chǎn)排放的有機(jī)物、農(nóng)業(yè)殘留等污染物已成為全球水污染的重要源頭。最新統(tǒng)計(jì)數(shù)據(jù)表明,我國農(nóng)業(yè)源的化學(xué)需氧量和氨氮排放量,分別占總排放量的48%,31%。農(nóng)村水環(huán)境質(zhì)量關(guān)乎飲水安全和食品安全,直接影響周圍居民的健康,甚至可能威脅農(nóng)村公共安全[1]。為此,《關(guān)于全面推行河長制的意見》將“綜合整治農(nóng)村水環(huán)境,推進(jìn)美麗鄉(xiāng)村建設(shè)”作為了加強(qiáng)水環(huán)境治理的重要內(nèi)容。而水質(zhì)預(yù)測是農(nóng)村水環(huán)境污染防治工作的重點(diǎn)之一,準(zhǔn)確的水質(zhì)預(yù)測結(jié)果將顯著提升水環(huán)境污染防治的及時(shí)性和有效性。
水質(zhì)預(yù)測模型一般可以劃分為機(jī)理性和非機(jī)理性兩大類。機(jī)理性模型主要通過研究污染物擴(kuò)散遷移時(shí)的一般規(guī)律,以及內(nèi)在機(jī)理進(jìn)行水質(zhì)預(yù)測。非機(jī)理性依據(jù)經(jīng)濟(jì)社會驅(qū)動因素構(gòu)建模型,主要包括人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型[2-3]、灰色系統(tǒng)預(yù)測模型[4]、數(shù)理統(tǒng)計(jì)預(yù)測模型[5]、模糊數(shù)學(xué)預(yù)測模型[6]以及與“3S”技術(shù)相結(jié)合的預(yù)測方法[7]。機(jī)理性模型構(gòu)建過程復(fù)雜,適用于基礎(chǔ)資料和監(jiān)測數(shù)據(jù)完整的水環(huán)境質(zhì)量預(yù)測[8];非機(jī)理性模型不需要對水質(zhì)變化的內(nèi)在規(guī)律進(jìn)行描述,更適用于信息不夠完備的水環(huán)境。其中灰色系統(tǒng)預(yù)測模型對水質(zhì)監(jiān)測數(shù)據(jù)信息量要求較少,符合農(nóng)村地區(qū)缺乏水環(huán)境監(jiān)測信息的現(xiàn)狀[9]。本文將農(nóng)村水環(huán)境視為“部分信息已知、部分信息未知”的灰色系統(tǒng),通過采集、提取與農(nóng)村水環(huán)境相關(guān)的網(wǎng)絡(luò)搜索數(shù)據(jù),深入挖掘系統(tǒng)間接信息,不斷“白化”系統(tǒng)機(jī)理,并構(gòu)建多變量灰色離散模型預(yù)測水環(huán)境演化趨勢。最后,以廣西梧州界首斷面的水質(zhì)監(jiān)測數(shù)據(jù)為例進(jìn)行實(shí)例分析,結(jié)果表明引入網(wǎng)絡(luò)搜索信息能夠顯著提高水質(zhì)預(yù)測精度。
國外關(guān)于農(nóng)村水環(huán)境質(zhì)量的預(yù)測研究多采用經(jīng)濟(jì)社會驅(qū)動的非機(jī)理性模型。例如:Ali等[10]構(gòu)建了巴基斯坦農(nóng)村水環(huán)境污染的環(huán)境庫茲涅茲曲線模型,預(yù)測綠色革命背景下水環(huán)境變化趨勢。Alamdarlo[11]采用空間距離函數(shù)預(yù)測了印度經(jīng)濟(jì)增長環(huán)境對農(nóng)村水環(huán)境的影響。Udeigwe[12]研究了農(nóng)業(yè)生產(chǎn)行為對于水環(huán)境的影響模型。
我國農(nóng)村水環(huán)境監(jiān)測數(shù)據(jù)相對缺乏,因此灰色系統(tǒng)是較為常用的水質(zhì)預(yù)測方法之一,通??梢苑譃閱渭兓疑A(yù)測模型和組合灰色預(yù)測模型兩類。單純灰色預(yù)測模型主要采用GM(1,1)模型實(shí)現(xiàn)水質(zhì)指標(biāo)的預(yù)測。例如:張可等[13]構(gòu)建了環(huán)境政策作用下農(nóng)村水環(huán)境的灰色預(yù)測模型。徐玉妃等[14]構(gòu)建了水質(zhì)單因子的灰色預(yù)測模型。Lee[15]的研究表明相對于傳統(tǒng)的數(shù)值預(yù)測方法,灰色系統(tǒng)模型能在水質(zhì)數(shù)據(jù)貧乏的情況下?lián)碛休^高的預(yù)測精度。
隨著水質(zhì)預(yù)測方法的不斷發(fā)展,出現(xiàn)與灰色系統(tǒng)理論相結(jié)合的組合預(yù)測方法。例如:Li Zhenbo等[16]、劉東君和鄒志紅[17]分別將灰色預(yù)測模型與神經(jīng)網(wǎng)絡(luò)相結(jié)合構(gòu)建水質(zhì)預(yù)測模型。Luo Yi等[18]提出自適應(yīng)灰色模型,并與神經(jīng)網(wǎng)絡(luò)相結(jié)合構(gòu)建太湖流域水質(zhì)預(yù)測模型。劉秀麗和涂卓卓[19]結(jié)合熵權(quán)法、灰色關(guān)聯(lián)分析等方法研究2006-2014年間京津冀地區(qū)水環(huán)境安全趨勢。鐘文武等[20]將殘差修正GM(1,1)與Markov相結(jié)合構(gòu)建水環(huán)境指標(biāo)預(yù)測方法。此外,灰色系統(tǒng)模型還可以與模糊集合理論[21]、小波變換分析[22]、趨勢外推法[23]等其他理論方法結(jié)合,以提高水環(huán)境質(zhì)量預(yù)測的準(zhǔn)確性。
上述研究為水環(huán)境監(jiān)測和保護(hù)提供了理論支撐,但由于農(nóng)村區(qū)域水環(huán)境監(jiān)測數(shù)據(jù)少,且缺乏直接表征因素作為輸入變量,已有算法多依據(jù)水質(zhì)數(shù)據(jù)自身規(guī)律進(jìn)行預(yù)測,預(yù)測精度受到限制。因此,迫切需要挖掘非直接相關(guān)數(shù)據(jù)補(bǔ)充模型信息。已有研究表明,引入網(wǎng)絡(luò)搜索信息能夠提高不同領(lǐng)域預(yù)測模型的及時(shí)性和精確性。例如:Polgreen等[24]和Ginsberg[25]最早使用網(wǎng)絡(luò)搜索信息預(yù)測流感。Fantazzini和Toktamysova[26]采用谷歌數(shù)據(jù)提高汽車銷售預(yù)測精度。Clark等[27]采用谷歌趨勢構(gòu)建了游客預(yù)測模型。Papanagnou和Matthews-Amune[28]綜合互聯(lián)網(wǎng)信息構(gòu)建了藥品需求的VARX模型。蔣翠清等[29]采用網(wǎng)絡(luò)文本軟信息建立P2P網(wǎng)絡(luò)借貸違約預(yù)測方法。王娜[30]采用百度搜索指數(shù)和媒體指數(shù)信息構(gòu)建碳價(jià)預(yù)測的自回歸分布滯后模型。此外,網(wǎng)絡(luò)信息在金融市場[31]、房地產(chǎn)價(jià)格[32]、CPI[33]預(yù)測等領(lǐng)域均取得了較好的應(yīng)用效果。
為此,本文嘗試將網(wǎng)絡(luò)搜索信息引入傳統(tǒng)灰色預(yù)測模型中,從大量非直接監(jiān)測數(shù)據(jù)中提取、篩選農(nóng)村水環(huán)境關(guān)聯(lián)因素,從而提高模型預(yù)測精度。首先分析網(wǎng)絡(luò)搜索信息與農(nóng)村水環(huán)境質(zhì)量的關(guān)系;其次,綜合專家咨詢建議和數(shù)據(jù)可獲取性構(gòu)建網(wǎng)絡(luò)搜索關(guān)鍵詞清單,采集關(guān)鍵詞搜索數(shù)據(jù),并利用主成分分析法提取主要特征,形成初始網(wǎng)絡(luò)搜索變量;然后,利用灰色關(guān)聯(lián)分析法識別強(qiáng)關(guān)聯(lián)的網(wǎng)絡(luò)搜索變量;最后,構(gòu)建不同頻率數(shù)據(jù)的DGM(1,N)模型,建立基于網(wǎng)絡(luò)搜索信息的農(nóng)村水環(huán)境灰色預(yù)測模型,并將預(yù)測結(jié)果與傳統(tǒng)灰色模型進(jìn)行比較。
農(nóng)村水環(huán)境直接監(jiān)測和表征數(shù)據(jù)較少,依據(jù)《水環(huán)境監(jiān)測規(guī)范》(SL 219-2013)規(guī)定,國家重點(diǎn)水質(zhì)站、國際河段、重要省際河流、污染嚴(yán)重河流等敏感水域每月采樣1次,全年不少于12次。國家一般水質(zhì)站、河流水系監(jiān)測斷面等全年采樣不少于6次。雖然我國已部分實(shí)現(xiàn)地表水水質(zhì)自動監(jiān)測和實(shí)時(shí)發(fā)布,但受監(jiān)測成本、維護(hù)成本等方面的限制,水質(zhì)自動監(jiān)測網(wǎng)的覆蓋范圍主要包括重點(diǎn)河流干流、一級支流、重點(diǎn)湖泊和水庫等。就農(nóng)村水環(huán)境而言,短期內(nèi)難以全面實(shí)現(xiàn)水質(zhì)自動化監(jiān)測,大部分區(qū)域的水質(zhì)監(jiān)測信息仍然較為貧乏。因此,需要增加外部信息以提高水質(zhì)預(yù)測的精度。
周圍居民對水環(huán)境質(zhì)量的感知具有直觀性和準(zhǔn)確性。宋國君等人以沿河居住的農(nóng)民、漁民和城市居民為對象,通過問卷對淮河流域的水環(huán)境狀況進(jìn)行了調(diào)查[34]。調(diào)查結(jié)果與監(jiān)測數(shù)據(jù)相比,在河流層次上,兩者基本保持一致;在斷面層次上,多數(shù)斷面的調(diào)查結(jié)果與監(jiān)測是一致的,部分?jǐn)嗝娴恼{(diào)查水質(zhì)優(yōu)于監(jiān)測。由此可以看出,居民對水環(huán)境質(zhì)量的認(rèn)知與監(jiān)測數(shù)據(jù)總體上是一致的,具有直觀性。
互聯(lián)網(wǎng)用戶有關(guān)水環(huán)境的搜索記錄是對水環(huán)境質(zhì)量直觀感受的體現(xiàn),能夠間接反映水環(huán)境質(zhì)量的變化。網(wǎng)絡(luò)的興起為獲取周圍居民對水環(huán)境質(zhì)量的直觀感受提供了便利。若某地區(qū)的水環(huán)境質(zhì)量狀態(tài)發(fā)生變化,會對居民日常用水造成一定影響。而居民網(wǎng)絡(luò)搜索行為源自水環(huán)境質(zhì)量存在問題,并且因相關(guān)知識和信息的缺乏,往往需要借助他人的知識來解決自己的問題[35]。2014年4·10蘭州自來水苯超標(biāo)事件發(fā)生期間,“水污染”這一關(guān)鍵詞在蘭州的百度搜索指數(shù)于4月10日至4月11日急劇攀升,如圖1所示。其中值得關(guān)注的是,在事件爆發(fā)前兩三天,“水污染”關(guān)鍵詞的搜索指數(shù)曾出現(xiàn)一次小波峰。由此可見,水環(huán)境相關(guān)關(guān)鍵詞搜索指數(shù)的變動能夠及時(shí)地反映出水環(huán)境質(zhì)量的變化情況。
圖1 蘭州水污染事件中“水污染”關(guān)鍵詞百度搜索指數(shù)
網(wǎng)絡(luò)搜索信息產(chǎn)生于民眾自發(fā)的網(wǎng)絡(luò)搜索行為,能夠直接反映民眾的意圖,且具有實(shí)時(shí)性、規(guī)模性的特點(diǎn)。截止2018年12月,我國農(nóng)村網(wǎng)民數(shù)量達(dá)到2.22億。隨著農(nóng)村地區(qū)網(wǎng)民數(shù)量的增加以及網(wǎng)絡(luò)搜索信息的不斷累積,未來獲取到的搜索關(guān)鍵詞將會更加完善。在互聯(lián)網(wǎng)用戶針對水環(huán)境的檢索行為中,特定的檢索詞條是為了得到有關(guān)水環(huán)境的信息,如“有什么辦法可以減少河水污染”。與其他領(lǐng)域利用網(wǎng)絡(luò)搜索信息進(jìn)行預(yù)測的方法相同,本文研究的關(guān)注點(diǎn)不在于對信息內(nèi)容進(jìn)行語義理解,而是找出相關(guān)關(guān)鍵詞的使用頻率與水環(huán)境質(zhì)量之間的聯(lián)系,并形成網(wǎng)絡(luò)搜索關(guān)鍵詞組合,運(yùn)用于特定的預(yù)測模型。
為了提高農(nóng)村水環(huán)境質(zhì)量的預(yù)測準(zhǔn)確度,本文在已有灰色預(yù)測模型的基礎(chǔ)上,引入網(wǎng)絡(luò)搜索信息,提出一種新的預(yù)測方法。該方法利用網(wǎng)絡(luò)搜索信息降低農(nóng)村水環(huán)境系統(tǒng)的不確定性,這些網(wǎng)絡(luò)搜索信息經(jīng)過采集、篩選、組合構(gòu)成灰色模型的輸入變量。模型構(gòu)建分為3個(gè)步驟:首先采集農(nóng)村水環(huán)境質(zhì)量相關(guān)的網(wǎng)絡(luò)搜索信息,構(gòu)建初始網(wǎng)絡(luò)搜索變量;然后利用灰色絕對關(guān)聯(lián)度過濾出強(qiáng)關(guān)聯(lián)變量,和歷史水質(zhì)監(jiān)測數(shù)據(jù)一同作為模型輸入;最后建立不同頻率數(shù)據(jù)的多變量離散灰色模型,從而構(gòu)建水環(huán)境質(zhì)量預(yù)測方法。
互聯(lián)網(wǎng)用戶常用的網(wǎng)絡(luò)信息源包括搜索引擎、門戶網(wǎng)站、論壇以及微博等社交軟件。其中搜索引擎是整合網(wǎng)絡(luò)信息資源的有效工具,逐漸成為互聯(lián)網(wǎng)用戶發(fā)現(xiàn)和搜尋知識的主要途徑。因此,本文以搜索引擎作為網(wǎng)絡(luò)搜索信息源,對涉及水環(huán)境關(guān)鍵詞的搜索信息進(jìn)行采集,利用數(shù)據(jù)降維等處理方法將原始數(shù)據(jù)轉(zhuǎn)化為初始網(wǎng)絡(luò)搜索變量。
首先,以環(huán)境質(zhì)量評價(jià)中常用的“壓力-狀態(tài)-相應(yīng)”(Pressure-State-Response,PSR)模型為基礎(chǔ),并增加水環(huán)境一般性詞匯,構(gòu)建初始搜索關(guān)鍵詞清單;通過咨詢相關(guān)專家,以及考慮關(guān)鍵詞的可獲得性,選擇“化肥、農(nóng)藥、畜禽養(yǎng)殖、廢水污染”等詞作為基準(zhǔn)關(guān)鍵詞;其次,利用搜索引擎的熱詞推薦功能對詞條進(jìn)行擴(kuò)展。擴(kuò)展后的搜索詞主要包含以下四個(gè)方面,如表1所示。
表1 關(guān)鍵詞清單
通常網(wǎng)絡(luò)搜索信息以天為單位,而農(nóng)村水環(huán)境監(jiān)測頻率為周或月。因此,網(wǎng)絡(luò)搜索信息的頻率高于或等于水質(zhì)監(jiān)測數(shù)據(jù)頻率。在預(yù)測模型構(gòu)建時(shí)需要解決數(shù)據(jù)頻率不同問題。
假設(shè)研究地區(qū)的水環(huán)境質(zhì)量指標(biāo)n期監(jiān)測數(shù)據(jù)記為X=(x(1),x(2),…,x(n))。網(wǎng)絡(luò)搜索信息的頻率是監(jiān)測數(shù)據(jù)的N倍。在關(guān)鍵詞的初選階段共搜集到t項(xiàng)關(guān)鍵詞,則可以將t項(xiàng)關(guān)鍵詞記為KW1,KW2,…,KWt。針對每一個(gè)關(guān)鍵詞,收集n期的網(wǎng)絡(luò)搜索數(shù)據(jù),可以將t個(gè)關(guān)鍵詞的n期網(wǎng)絡(luò)搜索數(shù)據(jù)表示為:
KW1=(kw1(1),kw1(2),…,kw1(n))
KW2=(kw2(1),kw2(2),…,kw2(n))
…
KWt=(kwt(1),kwt(2),…,kwt(n))
(1)
其中:
kwi(j)=(kwi(j,1),kwi(j,2),…,kwi(j,N))
kwi(j)表示第i個(gè)搜索詞與水環(huán)境監(jiān)測數(shù)據(jù)第j期相對應(yīng)的數(shù)據(jù)子序列。由于同一類問題的搜索詞之間可能存在較高的相關(guān)性,本文采用主成分分析法對水環(huán)境的網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行降維,整合關(guān)聯(lián)度較高的關(guān)鍵詞,保證降維后的各個(gè)指標(biāo)之間相互獨(dú)立。假設(shè)KW1,KW2,…,KWt為初始網(wǎng)絡(luò)搜索數(shù)據(jù),采用主成分分析法提取的m個(gè)主成分U1,U2,…,Um為初始網(wǎng)絡(luò)搜索變量。
不同初始網(wǎng)絡(luò)搜索變量涵蓋的信息價(jià)值存在一定差異,因此需要運(yùn)用科學(xué)的方法對初始網(wǎng)絡(luò)搜索變量進(jìn)行篩選,選擇和農(nóng)村水環(huán)境質(zhì)量相關(guān)的關(guān)鍵變量,以提升預(yù)測模型效率及準(zhǔn)確性。本文將采用灰色關(guān)聯(lián)分析法量化計(jì)算初始網(wǎng)絡(luò)搜索變量與農(nóng)村水環(huán)境質(zhì)量之間的關(guān)系密切程度,并過濾出強(qiáng)關(guān)聯(lián)的網(wǎng)絡(luò)搜索變量作為后序模型的輸入。
設(shè)水質(zhì)監(jiān)測數(shù)據(jù)為X=(x(1),x(2),…,x(n)),初始網(wǎng)絡(luò)搜索變量為:
Ui=(ui(1),ui(2),…,ui(n)),i=1,2,…,m
其中:
ui(j)=(ui(j,1),ui(j,2),…,ui(j,N))
兩者的始點(diǎn)零化像分別為:
X0=(x0(1),x0(2),…,x0(n))
其中:
X={x(k)+(t-k)(x(k+1)-x(k))|k=1,2,…,n-1;t∈[k,k+1]}
Ui={ui(k)+(t-k)(ui(k+1)-ui(k))|k=1,2,…,n-1;t∈[k,k+1]}
由于網(wǎng)絡(luò)搜索數(shù)據(jù)與實(shí)際監(jiān)測數(shù)據(jù)頻率不同,且水環(huán)境各類搜索詞的峰值特征對水質(zhì)預(yù)測更有意義。為此,在各時(shí)期內(nèi)采用取最大值方式保留搜索詞信息并降頻至監(jiān)測數(shù)據(jù)頻率。初始網(wǎng)絡(luò)搜索變量的降頻序列為:
(2)
網(wǎng)絡(luò)搜索變量的降頻序列與水質(zhì)監(jiān)測數(shù)據(jù)頻率一致,因此可以采用灰色關(guān)聯(lián)分析法過濾出強(qiáng)關(guān)聯(lián)的網(wǎng)絡(luò)搜索變量作為模型的輸入。由于水環(huán)境特征序列和各初始網(wǎng)絡(luò)搜索變量序列的意義、量綱差異較大,故考慮運(yùn)用灰色絕對關(guān)聯(lián)度衡量初始網(wǎng)絡(luò)搜索變量與水質(zhì)間的關(guān)聯(lián)程度[36]。
令
則稱
(3)
為初始網(wǎng)絡(luò)搜索變量與水質(zhì)序列的灰色絕對關(guān)聯(lián)度。根據(jù)灰色絕對關(guān)聯(lián)度,ε0i的取值介于0和1之間,且僅與X和Vi折線的幾何形狀有關(guān)。即水環(huán)境監(jiān)測數(shù)據(jù)折線與網(wǎng)絡(luò)搜索變量的折線在幾何形狀上越相似,兩者間的關(guān)聯(lián)程度就越強(qiáng)。因此,可以根據(jù)不同網(wǎng)絡(luò)搜索變量與水質(zhì)序列的關(guān)聯(lián)度選取關(guān)鍵變量,將其引入預(yù)測模型。
傳統(tǒng)的GM(1,1)水質(zhì)預(yù)測模型利用少量水質(zhì)監(jiān)測數(shù)據(jù),通過數(shù)據(jù)累加變換強(qiáng)化序列規(guī)律特征,實(shí)現(xiàn)水環(huán)境預(yù)測。但該方法屬于單因子自身預(yù)測,雖然能夠在一定程度上降低原始數(shù)據(jù)的不確定性,但難以通過增加水環(huán)境的白化信息,達(dá)到提高水環(huán)境質(zhì)量預(yù)測精度的目的。
本文以多變量離散灰色模型為基礎(chǔ),引入關(guān)鍵網(wǎng)絡(luò)搜索變量構(gòu)建水環(huán)境預(yù)測模型。由于網(wǎng)絡(luò)搜索變量的數(shù)據(jù)頻率高于水質(zhì)監(jiān)測數(shù)據(jù),為此需要構(gòu)建不同頻率數(shù)據(jù)的多變量離散灰色模型。
設(shè)原始序列為X(0)=(x(0)(1),x(0)(2),…,x(0)(n)),第i個(gè)初始網(wǎng)絡(luò)搜索變量的原始序列為:
其中ui(j)=(ui(j,1),ui(j,2),…,ui(j,N))。經(jīng)(3)式獲取關(guān)鍵網(wǎng)絡(luò)搜索變量記為:
則稱
(4)
為基于網(wǎng)絡(luò)搜索信息的跨頻率DGM(1,N)預(yù)測模型。其中β1,β2,…,βN+1為模型的參數(shù),可以采用文獻(xiàn)[36-37]的方法進(jìn)行參數(shù)估計(jì)。
不同頻率數(shù)據(jù)DGM(1,N)不僅具有傳統(tǒng)灰色模型的特點(diǎn),而且能夠有效引入高頻率網(wǎng)絡(luò)信息白化系統(tǒng),建立大量間接數(shù)據(jù)與少量實(shí)測數(shù)據(jù)混合建模的橋梁。在確定關(guān)鍵網(wǎng)絡(luò)搜索變量后,可以構(gòu)建跨頻率DGM(1,N)模型對農(nóng)村水環(huán)境質(zhì)量展開灰色預(yù)測。在建模過程中,將與農(nóng)村水環(huán)境質(zhì)量相關(guān)的若干網(wǎng)絡(luò)搜索變量作為驅(qū)動項(xiàng),而將所有未知因素視為灰作用量,通過驅(qū)動項(xiàng)和灰作用量共同建立差分方程預(yù)測水質(zhì)的發(fā)展趨勢,能夠有效彌補(bǔ)傳統(tǒng)單因素預(yù)測的不足。
廣西壯族自治區(qū)(以下簡稱廣西)處于中國華南地區(qū),氣候溫暖而濕潤,河流眾多,是我國糧食和甘蔗的重要產(chǎn)區(qū)。隨著廣西農(nóng)業(yè)生產(chǎn)的迅速發(fā)展,當(dāng)?shù)厮Y源受到污染,對農(nóng)業(yè)發(fā)展可持續(xù)化造成了阻礙。根據(jù)《2017年廣西壯族自治區(qū)環(huán)境統(tǒng)計(jì)年報(bào)》的調(diào)查數(shù)據(jù),農(nóng)業(yè)源化學(xué)需氧量、氨氮排放量均超過工業(yè)源的排放量,農(nóng)業(yè)源成為影響水環(huán)境的第二大污染源。
考慮到一般的農(nóng)村水環(huán)境質(zhì)量監(jiān)測數(shù)據(jù)較難獲取,本研究以廣西梧州界首斷面監(jiān)測數(shù)據(jù)為對象進(jìn)行實(shí)例分析。該斷面位于桂-粵省界,是珠江流域的重點(diǎn)水質(zhì)監(jiān)測斷面。采集該斷面2014年1月5日至4月20日期間15周的化學(xué)需氧量COD數(shù)據(jù),數(shù)據(jù)采集頻率為周。具體如圖2所示。同時(shí),將前12期的數(shù)據(jù)作為訓(xùn)練集,后3期的數(shù)據(jù)作為預(yù)測集。
圖2 廣西梧州界首斷面COD監(jiān)測數(shù)據(jù)
(1)構(gòu)建初始網(wǎng)絡(luò)搜索變量。本文構(gòu)建的初始關(guān)鍵詞清單共包含161個(gè)網(wǎng)絡(luò)搜索詞。以百度搜索引擎為網(wǎng)絡(luò)搜索信息源,通過其產(chǎn)品百度指數(shù)采集用戶的關(guān)鍵詞搜索概況,數(shù)據(jù)頻率為日。其中部分關(guān)鍵詞的獲取需要另付較高的查詢費(fèi)用,因此僅以可直接獲取的關(guān)鍵詞為數(shù)據(jù)源,共收集73組關(guān)鍵詞的搜索數(shù)據(jù)。由于研究的時(shí)間跨度不長,在收集的73組數(shù)據(jù)中,部分搜索詞出現(xiàn)的頻率過低??紤]到計(jì)算復(fù)雜度以及低頻搜索詞對研究貢獻(xiàn)較小,在詢問專家的建議后,按百度指數(shù)提供的檢索頻次篩選關(guān)鍵詞,最終將27個(gè)關(guān)鍵詞納入搜索變量的構(gòu)建步驟。
通過主成分分析法進(jìn)一步對關(guān)鍵詞進(jìn)行降維,共計(jì)提取9個(gè)主成分U1-U9。這9個(gè)主成分的方差貢獻(xiàn)率逐漸遞減,攜帶原始信息的累積方差貢獻(xiàn)率為96.721%。從因子得分系數(shù)矩陣來看,U1,U4,U8中“環(huán)境保護(hù)”、“污水處理”、“生態(tài)農(nóng)業(yè)”等關(guān)鍵詞的系數(shù)較大,主要反映的是居民對水環(huán)境保護(hù)信息的搜索情況。U2,U3,U7中“養(yǎng)殖”、“磷”、“鉀”等關(guān)鍵詞的系數(shù)較大,主要反映的是居民對農(nóng)村水環(huán)境影響因素及成因的搜索情況。U5,U6,U9中“化糞池”、“汞中毒”、“水俁病”等關(guān)鍵詞的系數(shù)較大,主要反映的是居民對水污染危害的搜索情況。
(2)選擇關(guān)鍵網(wǎng)絡(luò)搜索變量。根據(jù)式(2)、(3)計(jì)算U1-U9與COD實(shí)際值的灰色絕對關(guān)聯(lián)度,取關(guān)聯(lián)度閾值為0.7。當(dāng)關(guān)聯(lián)度大于等于0.7時(shí),認(rèn)為該主成分與COD實(shí)際值之間強(qiáng)關(guān)聯(lián)。從多次試驗(yàn)過程來看,當(dāng)網(wǎng)絡(luò)搜索變量與COD實(shí)際值的整體關(guān)聯(lián)度都較低時(shí),不應(yīng)輕易降低關(guān)聯(lián)度閾值,而應(yīng)重新構(gòu)建網(wǎng)絡(luò)搜索變量,以避免輸入關(guān)聯(lián)度較低的網(wǎng)絡(luò)搜索變量影響模型的準(zhǔn)確性和穩(wěn)定性。
本次研究最終確定五個(gè)主成分U2、U3、U5、U8、U9,記為V1、V2、V3、V4、V5,作為關(guān)鍵網(wǎng)絡(luò)搜索變量輸入灰色模型。主成分分析與灰色絕對關(guān)聯(lián)度的計(jì)算結(jié)果如表2所示。
表2 主成分分析與灰色絕對關(guān)聯(lián)度結(jié)果
(3)建立預(yù)測模型。利用DGM(1,N)模型對水環(huán)境質(zhì)量進(jìn)行擬合和預(yù)測。為避免數(shù)據(jù)偶然性影響水質(zhì)預(yù)測結(jié)果,采用五個(gè)網(wǎng)絡(luò)搜索變量逐步進(jìn)入模型的方式,一共得到31種不同變量組合的模型,分別計(jì)算對應(yīng)的預(yù)測值。同時(shí),運(yùn)用GM(1,1)模型對水質(zhì)進(jìn)行預(yù)測作為對比,以平均絕對誤差(MAE)、均方誤差(MSE)、平均絕對百分比誤差(MAPE)這3種常見的誤差指標(biāo)評價(jià)模型預(yù)測精度。
(4)模型精度對比。預(yù)測效果前五的模型如表3所示,其中V1,V2,V3,V4變量組合的灰色模型預(yù)測效果最佳。針對擬合結(jié)果,31種DGM(1,N)模型的平均MAE、MSE、MAPE值分別為0.301,0.116,0.202。針對預(yù)測結(jié)果,31種DGM(1,N)模型的平均MAE、MSE、MAPE值分別為0.744,0.440,0.298。無論是擬合還是預(yù)測結(jié)果,DGM(1,N)模型各項(xiàng)誤差指標(biāo)的平均值皆小于傳統(tǒng)GM(1,1)模型。由此可見,從整體上來說,DGM(1,N)模型的預(yù)測結(jié)果更準(zhǔn)確。然而,仍有部分變量組合模型的預(yù)測精度低于傳統(tǒng)的灰色模型,最大預(yù)測誤差MAE值達(dá)到0.993。這是因?yàn)榫W(wǎng)絡(luò)搜素變量由分散的信息碎片組合而成,其作用機(jī)制具有復(fù)雜性和不確定性。因此在實(shí)際利用網(wǎng)絡(luò)搜索變量進(jìn)行水質(zhì)預(yù)測之前,應(yīng)盡量對各種組合模型的預(yù)測效果進(jìn)行測試,以便篩選出最優(yōu)模型。
表3 Top5模型預(yù)測效果
另外,通過觀察預(yù)測效果前三的模型可以發(fā)現(xiàn),隨著輸入網(wǎng)絡(luò)搜索變量數(shù)目的增加,模型的預(yù)測效果變好。遺憾的是在加入全部變量后,模型的預(yù)測效果反而下降,說明本文在構(gòu)建網(wǎng)絡(luò)搜索變量的過程中還存在數(shù)據(jù)搜集不全面、特征提取不精確等問題,進(jìn)而影響了模型預(yù)測效果。
取網(wǎng)絡(luò)搜索變量組合V1,V2,V3,V4組建模型,得到的水質(zhì)預(yù)測序列為:
{1.600,3.022,1.529,1.892,1.350,1.095,2.058,1.465,1.590,1.220,0.960,2.671,2.061,1.818,2.129}。通過繪制預(yù)測序列折線圖,進(jìn)一步觀察模型預(yù)測效果,如圖3所示。相對于GM(1,1)模型,V1,V2,V3,V4變量組合的灰色模型不僅擁有較高的預(yù)測精度,對COD數(shù)據(jù)的波動也能夠有效地貼合,較好地?cái)M合了水質(zhì)監(jiān)測數(shù)據(jù)的波動趨勢。可見,加入網(wǎng)絡(luò)搜索變量能夠顯著提高水質(zhì)預(yù)測的效果。
圖3 COD數(shù)據(jù)的實(shí)際值與DGM(1,N)_(V1,V2,V3,V4)模型預(yù)測值
本文在分析網(wǎng)絡(luò)搜索信息與農(nóng)村水環(huán)境質(zhì)量相關(guān)關(guān)系的基礎(chǔ)上,利用網(wǎng)絡(luò)搜索信息降低農(nóng)村水環(huán)境的不確定性,提出以網(wǎng)絡(luò)搜索變量作為驅(qū)動因素的灰色預(yù)測方法。通過模型構(gòu)建以及實(shí)例分析主要得到以下幾點(diǎn)結(jié)論:
(1)網(wǎng)絡(luò)搜索信息與水環(huán)境質(zhì)量之間存在相關(guān)關(guān)系。網(wǎng)絡(luò)搜索信息是居民對水環(huán)境質(zhì)量直觀感受的體現(xiàn),能夠在一定程度上反映農(nóng)村水環(huán)境的變化情況。隨著農(nóng)村互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)搜索信息能更加真實(shí)、準(zhǔn)確地反映水環(huán)境的質(zhì)量狀況,未來搜索數(shù)據(jù)量的差異還可以體現(xiàn)農(nóng)村水環(huán)境質(zhì)量的變化程度,有利于迅速、有效地確定農(nóng)村水環(huán)境污染的整治方案。
(2)實(shí)例分析結(jié)果表明:加入網(wǎng)絡(luò)搜索信息可以顯著改善水質(zhì)灰色預(yù)測模型的準(zhǔn)確度。對比傳統(tǒng)灰色預(yù)測模型,本文提出的跨頻率DGM(1,N)模型不僅能夠提高預(yù)測精度,還可以有效地?cái)M合水質(zhì)的波動特征。同時(shí),在一定程度上,隨著網(wǎng)絡(luò)搜索變量數(shù)目的增加,模型的預(yù)測效果更佳。
(3)網(wǎng)絡(luò)搜索變量的組合方式顯著影響模型的預(yù)測精度。研究發(fā)現(xiàn),網(wǎng)絡(luò)搜索變量的作用機(jī)制具有復(fù)雜性和不確定性,不同變量組合模型之間的預(yù)測結(jié)果差異明顯。因此,在實(shí)際運(yùn)用過程中,可以通過對變量組合方式的比較、篩選,確定最優(yōu)的水質(zhì)灰色預(yù)測模型。
本文的研究還存在一些不足之處,一方面初始關(guān)鍵詞搜索清單難以覆蓋所有用戶,需要不斷地對搜索關(guān)鍵詞進(jìn)行補(bǔ)充和完善;另一方面網(wǎng)絡(luò)搜索變量的作用機(jī)制復(fù)雜,構(gòu)建模型時(shí)還存在一定風(fēng)險(xiǎn)。后續(xù)的研究可以對網(wǎng)絡(luò)搜索變量進(jìn)行優(yōu)化和控制,以降低模型的預(yù)測風(fēng)險(xiǎn),更好地為農(nóng)村水環(huán)境污染的防治工作提供決策支持。