張少杰,游 洋
(1.南京市長江河道管理處,江蘇 南京 210011;2.江蘇省水利廳,江蘇 南京 210029)
?
基于主成分回歸分析的需水預(yù)測研究
張少杰1,游洋2
(1.南京市長江河道管理處,江蘇南京210011;2.江蘇省水利廳,江蘇南京210029)
摘 要:水資源是城市發(fā)展的動(dòng)力,需水量準(zhǔn)確預(yù)測對城市可持續(xù)發(fā)展具有重要意義。需水量受多重因素影響,單一使用多重線性回歸難以保證預(yù)測的準(zhǔn)確性和科學(xué)性。根據(jù)南京市2005—2014年7個(gè)經(jīng)濟(jì)、社會發(fā)展相關(guān)指標(biāo),利用主成分回歸分析建立模型使用原始變量對用水量進(jìn)行預(yù)測。結(jié)果表明,應(yīng)用主成分回歸模型進(jìn)行需水預(yù)測,比多重線性回歸模型精度高,也較好地?cái)M合了實(shí)際用水量。
關(guān)鍵詞:水資源;需水預(yù)測;主成分;回歸;南京
水是維持經(jīng)濟(jì)社會發(fā)展不可或缺的基礎(chǔ)性、戰(zhàn)略性資源,日常生產(chǎn)、生活的方方面面都離不開水資源。需水預(yù)測是水資源合理配置、科學(xué)利用的重要內(nèi)容之一,也是可持續(xù)發(fā)展、經(jīng)濟(jì)結(jié)構(gòu)調(diào)整的重要部分[1]。需水預(yù)測方法中較為簡便的有定額法、多元回歸分析法等。但由于水資源需求量與人口數(shù)量、經(jīng)濟(jì)發(fā)展程度、居民用水水平等諸多因素有關(guān),單一一種方法難以保證預(yù)測的準(zhǔn)確性和科學(xué)性[2]。主成分分析和多元回歸分析相結(jié)合的方法,可有效
主成分回歸分析是先通過主成分分析提取主要影響因素,用較少的綜合指標(biāo),通過多元回歸分析,較全面地反映影響因素,并將標(biāo)化方程轉(zhuǎn)換為一般方程,對水資源需求量進(jìn)行預(yù)測。
2.1主成分回歸
主成分分析法的本質(zhì)是利用降維的思想,通過數(shù)學(xué)變換,用盡量少的變量最大化保留原有變量信息,其原理是:若有n個(gè)原始變量為xi,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化、KMO及Bartlett檢驗(yàn)確定是否適用主成分分析后,通過計(jì)算關(guān)系數(shù)矩陣的特征值、特征向量、方差貢獻(xiàn)率、累計(jì)貢獻(xiàn)率確定主成分及個(gè)數(shù)m(m<n)[3],則:
式中:fm分別為原始變量的第m個(gè)主成分;lmn為其對應(yīng)系數(shù)。
按累計(jì)方差百分比選擇主成分,并以標(biāo)準(zhǔn)化后的ZY為因變量、主成分 fi作為自變量進(jìn)行回歸分析,并按式(1)得出標(biāo)化因變量ZY與標(biāo)化自變量ZX的回歸模型:
式中:b'i為標(biāo)化回歸方程的第i個(gè)標(biāo)化偏回歸系數(shù)。
將標(biāo)化方程通過式(3)、(4)化為一般回歸方程:
式中:b0為常數(shù)項(xiàng);bi為一般回歸方程的第i個(gè)偏回歸系數(shù);Lxixi為Xi的離均差平方和;Lyy為Y的離均差平方和。
2.2精度控制與檢驗(yàn)
對擬合精度控制與檢驗(yàn)主要有多重共線性診斷、擬合誤差和偏回歸系數(shù)的檢驗(yàn)[4]。多重共線性診斷常用方差膨脹因子VIF,一般VIF>10表示存在多重共線性。擬合誤差用確定系數(shù)R2度量,其表達(dá)式為:
偏回歸系數(shù)用統(tǒng)計(jì)量t檢驗(yàn),其表達(dá)式為:
式中:sbi為bi的標(biāo)準(zhǔn)誤差。t檢驗(yàn)是對偏回歸系數(shù)是否等于0進(jìn)行的統(tǒng)計(jì)學(xué)檢驗(yàn)。
3.1研究區(qū)概況及水資源特點(diǎn)
筆者以南京市為例,采用主成分回歸對需水量進(jìn)行預(yù)測。南京市地處長江下游、江蘇省西南部,屬于北亞熱帶季風(fēng)氣候,轄區(qū)內(nèi)有長江、水陽江、固城湖、石臼湖、滁河、秦淮河,多年平均氣溫15.4℃,多年平均年降水量1 082.3 mm,多年平均水資源量30.22億m3,其中地表水資源量24.16億m3,地表水資源主要來源于降水,6、7、8月降水產(chǎn)生地表水資源量占全年的50%以上。本地多年平均水資源量30.22億m3,用水總量紅線45億m3,過境水量近9 000億m3,主要來自長江、水陽江和滁河,其中長江過境水資源量占到99%以上。全市用水總量的96%以上來自長江。
3.2影響因子分析
遵循可靠性、科學(xué)性、代表性、全面性等原則,從2005—2014年《南京市統(tǒng)計(jì)年鑒》及2005—2014年《南京市水資源公報(bào)》選取2005—2014年人口X1、GDPX2、工業(yè)總產(chǎn)值X3、有效灌溉面積X4、萬元GDP用水量X5、固定資產(chǎn)投資X6、農(nóng)業(yè)產(chǎn)值X7、供水生產(chǎn)能力X88個(gè)評價(jià)指標(biāo),預(yù)測實(shí)際用水總量Y。評價(jià)指標(biāo)中基本涵蓋農(nóng)業(yè)、工業(yè)、生活等多個(gè)方面用水因素。
3.3共線性診斷
對各項(xiàng)指標(biāo)組成的矩陣進(jìn)行多重共線性診斷,各因素的方差膨脹因子VIF見表1。因此,可得出X1,X2,X3,X4,X5,X6,X7均存在良好的共線性,而X8共線性較小,為確保結(jié)果的準(zhǔn)確性,將其予以排除。
表1 各變量方差膨脹因子VIF
3.4KMO及Bartlett球形檢驗(yàn)
對X1—X7的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的數(shù)據(jù)見表2。KMO是檢驗(yàn)偏相關(guān)系數(shù)的指標(biāo),取值在0~1,越接近1越適宜進(jìn)行主成分分析。對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行KMO檢驗(yàn)和Bartlett球形檢驗(yàn),以確定是否適宜進(jìn)行主成分分析。
表2 南京市2005—2014年用水量及影響因子標(biāo)準(zhǔn)化矩陣
對上述標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行檢驗(yàn),得出其KMO值為0.775。此外,Bartlett球形檢驗(yàn)得出的相伴概率為0.000,遠(yuǎn)小于顯著性水平0.05,這說明變量之間相關(guān)性良好,適宜進(jìn)行主成分分析。
3.5主成分因子確定
對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行主成分分析,得出特征值、主成分貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,見表3。主成分分析的結(jié)果顯示:前4項(xiàng)主成分的方差累計(jì)貢獻(xiàn)率已經(jīng)大于99.9%,用這4個(gè)主成分可以最大限度包含原來7個(gè)影響因子。相應(yīng)主成分載荷矩陣,見表4。
表3 特征值、主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率
表4 主成分載荷矩陣
結(jié)合得出的4個(gè)主成分與各因子之間的關(guān)系式如下:
3.6主成分回歸分析預(yù)測
按照上述4個(gè)公式,分別算出2005—2014的f1—f4的值,與標(biāo)準(zhǔn)化后的因變量ZY進(jìn)行多重線性回歸分析,再變換成原自變量與原因變量之間的關(guān)系,其主成分回歸系數(shù)見表5。
表5 主成分回歸系數(shù)
根據(jù)式(3)、(4),將標(biāo)準(zhǔn)化后的主成分方程變換為原始變量回歸模型(R2=0.978)為:
表6 多重線性回歸系數(shù)
常數(shù)X1X2X3X4X5X6X7系數(shù)B 1 265.887 ---1.095 ---0.024 ---0.010 ---2.199 ---0.212 ---0.008 ---0.207標(biāo)準(zhǔn)誤差423.655 --0.366 --0.005 --0.002 --0.934 --0.111 --0.003 --0.078 t -2.988 -2.991 -5.123 -3.984 -2.354 -1.906 -2.516 -2.661顯著水平0.096 0.096 0.036 0.058 0.143 0.197 0.128 0.117
從表5—6可見,利用主成分回歸建立的需水量預(yù)測方程各系數(shù)均通過了t檢驗(yàn),R2、顯著水平均滿足精度相關(guān)要求,并且在R2、t檢驗(yàn)及顯著水平方面均優(yōu)于多重線性回歸方程。為了更直觀表示需水預(yù)測情況,現(xiàn)將2種方法預(yù)測結(jié)果與實(shí)際用水情況進(jìn)行對比,如圖1所示。從圖1可以看到,主成分分析預(yù)測精度比多重線性回歸精度高,也更接近實(shí)際用水量情況。
圖1 模型預(yù)測結(jié)果與實(shí)際用水量對比
需水量預(yù)測是進(jìn)行水資源規(guī)劃和管理的有效手段,與經(jīng)濟(jì)、社會等各項(xiàng)因素密切相關(guān)[5],運(yùn)用最小二乘法進(jìn)行多重線性回歸,不能有效消除各因素之間的相關(guān)性,而采用多重共線性診斷和主成分分析,并將標(biāo)準(zhǔn)化方程轉(zhuǎn)換為一般方程,使結(jié)果更加可靠和具有可操作性。筆者通過主成分回歸確定需水總量的影響因素,與用水量進(jìn)行回歸分析,建立主成分與用水量的主成分回歸方程。結(jié)果顯示,R2、t、顯著水平也均表明方程擬合的精度較高,通過與多重線性回歸方程進(jìn)行比較,主成分回歸方程的預(yù)測值與實(shí)際值誤差較小。因此,采用主成分回歸預(yù)測城市需水量,可以為水資源科學(xué)管理、優(yōu)化配置提供可靠依據(jù)。
參考文獻(xiàn)
[1]劉衛(wèi)林.幾種需水量預(yù)測模型的比較研究[J].人民長江,2011,42(13):19-22.
[2]王春娟,馮利華,羅偉,等.主成分回歸在需水預(yù)測中的應(yīng)用[J].水資源與水工程學(xué)報(bào),2014,24(1):50-53.
[3]李哲強(qiáng),侯美英,白云鵬.基于SPSS的主成分分析在水環(huán)境質(zhì)量評價(jià)中的應(yīng)用[J].海河水利,2008(3):49-52.
[4]楊崇豪,張川云,吳文學(xué).鄭州市未來15年城市需水量預(yù)測研究[J].人民黃河,2006,28(11):30-32.
[5]王鶴鳴,李明良,王玉民.基于水資源可持續(xù)利用的區(qū)域需水預(yù)測分析[J].海河水利.2007(3):9-11.
中圖分類號:TV214
文獻(xiàn)標(biāo)識碼:A
文章編號:1004-7328(2016)03-0043-04
DOI:10.3969/j.issn.1004-7328.2016.03.015
收稿日期:2016—02—20
作者簡介:張少杰(1983—),男,碩士,工程師,主要從事水資源節(jié)約、保護(hù)工作。解決這個(gè)問題,使預(yù)測的實(shí)用性、合理性都得到提高。
Research on the Water Demand Prediction based on Principal Component Regression
ZHANG Shao-jie1,YOU Yang2
(1.Yangtze River Waterway Management Department of Nanjing,Nanjing 210011,China;2.Jiangsu Provincial Water Resources Department,Nanjing 210029,China)
Abstract:Water resources are the driving force of urban development.Accurate predictiong of water demand is very impor?tant for urban sustainable development.Water demand is influenced by multiple factors,and the accuracy and the scientific using multiple linear regression is difficult to ensure the prediction.According to 7 factors of Nanjing 2005-2014,the mod?el was created to predict the water consumption by principal component regression analysis.The results show that the princi?pal component regression model is more accurate than the multiple linear regression model,and the principal component re?gression model is more fit the actual water consumption.
Key words:water resources;water demand prediction;principal component;regression analysis;Nanjing