王歌,劉世章,戴松霖
昆侖數(shù)智科技有限責(zé)任公司
隨著中國城鎮(zhèn)化率的不斷提升,以及“碳達(dá)峰、碳中和”目標(biāo)的提出,作為清潔能源,天然氣在能源消費(fèi)中的占比快速增加。國家能源局發(fā)布的《中國天然氣發(fā)展報告(2021)》顯示,2020 年全國天然氣消費(fèi)量同比增長6.9%,從消費(fèi)結(jié)構(gòu)看,城市燃?xì)馔仍鲩L10.5%,占比32%[1]。其中,根據(jù)國家統(tǒng)計局公布的數(shù)據(jù),2020 年居民生活天然氣消費(fèi)總量為560×108m3,同比增長11.5%??梢灶A(yù)見的是,未來隨著城市燃?xì)獾陌l(fā)展和“煤改氣”逐步推進(jìn),居民用天然氣的市場份額將不斷擴(kuò)大。作為城市燃?xì)庵械幕A(chǔ),居民用氣的穩(wěn)定供應(yīng)關(guān)乎百姓民生。然而,近年來供暖季“氣荒”現(xiàn)象卻頻頻出現(xiàn),利用歷史數(shù)據(jù)對居民用氣規(guī)模進(jìn)行準(zhǔn)確預(yù)測,以實(shí)現(xiàn)對天然氣資源采購、管網(wǎng)鋪設(shè)及市場銷售的合理規(guī)劃,成為當(dāng)下亟待解決的問題。
目前對于居民用天然氣需求預(yù)測的研究按照時間跨度可分為短期、中期、長期預(yù)測3 種:短期預(yù)測通常是預(yù)測未來一周、一天或者一小時的負(fù)荷,以對天然氣短時間內(nèi)的使用情況提供理論依據(jù),實(shí)現(xiàn)資源的合理調(diào)配;中期預(yù)測一般是以月或者季度為單位進(jìn)行預(yù)測,為決策者合理安排計劃、進(jìn)行人員調(diào)動、設(shè)備維修維護(hù)等提供指導(dǎo);長期預(yù)測通常以年為單位,通過對宏觀數(shù)據(jù)的預(yù)測,為城市提供管道建設(shè)的理論依據(jù)[2]。在模型選擇上,既有時間序列模型、回歸模型、灰色預(yù)測、不均勻系數(shù)等傳統(tǒng)預(yù)測模型,也有為處理大規(guī)模數(shù)據(jù)中所蘊(yùn)含的規(guī)律而使用的SVM(支持向量機(jī))、小波分析、神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型,還有由此衍生出的用以提升預(yù)測精度的組合模型,包括對組合中各預(yù)測方法加權(quán)平均、多個模型結(jié)果取最優(yōu)、將一個模型的輸出結(jié)果作為另一個模型的輸入等組合方式。
針對不同類型的天然氣需求預(yù)測,學(xué)者們選擇了不同的數(shù)學(xué)模型對其進(jìn)行預(yù)測。胡凱[3]利用2015—2018 年合肥燃?xì)夤镜募径葦?shù)據(jù)擬合Holt-Winter 加法模型實(shí)現(xiàn)了對燃?xì)庳?fù)荷的季度預(yù)測,最終將模型的預(yù)測誤差控制在10% 以內(nèi)。武海琴[4]在對北方某城市的冬季用氣數(shù)據(jù)進(jìn)行分析后,建立了居民用氣負(fù)荷與日均氣溫的回歸模型,得到較好的預(yù)測效果。張超等[5]使用支持向量機(jī)建立以氣候因素為主要因素的預(yù)測模型,最終預(yù)測結(jié)果與實(shí)際值誤差在2% 左右。在組合預(yù)測上,舒漫[6]利用成都市天然氣日負(fù)荷數(shù)據(jù)及季度負(fù)荷數(shù)據(jù),建立了XGBoost(eXtreme Gradient Boosting,極端 梯度提升)預(yù)測模型,將預(yù)測平均絕對百分比誤差降至2.1%。
通過以上文獻(xiàn)的梳理可以看到,以往對居民用天然氣需求的預(yù)測研究,更多的是基于目標(biāo)城市的居民用天然氣消費(fèi)數(shù)據(jù),通過擬合模型實(shí)現(xiàn)對未來需求的預(yù)測,但是該類方法不能對無法獲取歷史數(shù)據(jù)的城市進(jìn)行預(yù)測。因此,考慮到同省份地域接壤城市在居民用氣習(xí)慣、天然氣市場份額、管網(wǎng)規(guī)劃等方面往往具有相似性,本文擬使用同省份與目標(biāo)城市接壤城市的宏觀統(tǒng)計數(shù)據(jù)和歷史用氣數(shù)據(jù),利用回歸分析和隨機(jī)森林模型相結(jié)合的方式,建立居民用氣需求預(yù)測模型,提升模型的可解釋性與準(zhǔn)確度,實(shí)現(xiàn)對無法獲取歷史數(shù)據(jù)的城市居民用天然氣需求量的準(zhǔn)確預(yù)測。本文所預(yù)測的居民用氣數(shù)據(jù)顆粒度為城市居民用氣量的月度值。
在實(shí)際的預(yù)測研究中,常常會遇到研究對象歷史數(shù)據(jù)無法取得的情況,如在天然氣新建管網(wǎng)時期,就需要在缺乏可參考數(shù)據(jù)的情況下對目標(biāo)城市用氣量進(jìn)行合理預(yù)測。由于鄰近城市的政策與經(jīng)濟(jì)發(fā)展?fàn)顩r相似、人口基數(shù)接近、生活習(xí)慣類似、氣候相近,因此本文借鑒Chong 等[7]、張璇等[8]的思路,使用與目標(biāo)城市接壤的地級市數(shù)據(jù)進(jìn)行模型的擬合。具體而言,在選擇用于建模的城市時,主要考慮以下兩方面:一是要綜合考慮目標(biāo)城市所屬省份各城市的地理位置情況,選擇與目標(biāo)城市接壤的城市,例如對于內(nèi)陸城市,則應(yīng)在保證數(shù)據(jù)質(zhì)量的情況下盡可能選擇同樣為內(nèi)陸城市的接壤城市;二是考慮到接壤城市的歷史數(shù)據(jù)應(yīng)具有一定規(guī)模且用戶用氣情況穩(wěn)定,因此本文以同省份各城市用戶數(shù)量的中位數(shù)為標(biāo)準(zhǔn),在符合條件的接壤城市中選擇用戶數(shù)量在中位數(shù)以上的城市。
而在預(yù)測模型的選擇上,本文使用回歸分析與隨機(jī)森林模型相結(jié)合的組合預(yù)測方式,具體流程如下:
1)本文的研究對象是無法獲取歷史數(shù)據(jù)的城市,在變量選取上考慮與接壤城市有共通性的宏觀變量,并采用定性與定量相結(jié)合的方式,即先根據(jù)過往研究成果及接壤城市與目標(biāo)城市的現(xiàn)狀,定性居民用天然氣消費(fèi)量的影響因素,而后使用回歸分析,定量確定影響需求預(yù)測的變量。
2)將選定的變量傳入隨機(jī)森林模型,利用接壤城市數(shù)據(jù)構(gòu)建居民用氣量的預(yù)測模型,并以此來預(yù)測目標(biāo)城市的居民天然氣用量。其中,隨機(jī)森林建模過程如下:①讀入接壤城市數(shù)據(jù),并確定隨機(jī)森林模型中要進(jìn)行調(diào)參的參數(shù),以使模型有更準(zhǔn)確地預(yù)測效果。本文選取了決策樹個數(shù)、最大深度、最小分離樣本數(shù)(拆分決策樹的節(jié)點(diǎn)要求的最小樣本數(shù))、最小葉子節(jié)點(diǎn)樣本數(shù)(每個葉節(jié)點(diǎn)需要包含的最小樣本數(shù))、最大分離特征數(shù)(尋找最佳節(jié)點(diǎn)分割時要考慮的特征變量數(shù)量)等5 個參數(shù),并在模型訓(xùn)練過程中對各參數(shù)的范圍進(jìn)行劃定,初步確定參數(shù)的最佳范圍。②在劃定的范圍之內(nèi),使用隨機(jī)搜索(Randomized Search CV)的方式,將需要調(diào)參的各參數(shù)進(jìn)行匹配,確定最佳的取值組合。為防止此時的最佳組合只是局部最優(yōu)而非全局最優(yōu)組合,需在最佳組合的臨近范圍內(nèi)重新劃定各參數(shù)的取值范圍并進(jìn)行網(wǎng)格搜索,通過多次循環(huán)此步驟找到最佳的參數(shù)組合。③使用②中的參數(shù)組合即可得到最終的隨機(jī)森林預(yù)測模型。
相比于以往的模型,此預(yù)測方法的優(yōu)點(diǎn)在于:一是回歸分析和隨機(jī)森林模型均適用于中長期預(yù)測[9],若單獨(dú)使用回歸模型,則無法很好地應(yīng)對冬季供暖期天然氣用量大幅上升的情況,而隨機(jī)森林模型可以隨機(jī)選擇樣本與特征構(gòu)建多個決策樹,既提升了對冬季數(shù)據(jù)的擬合能力,也能很好地減弱過擬合的發(fā)生,同時還具有很好的魯棒性;二是雖然隨機(jī)森林有利于提升模型預(yù)測準(zhǔn)確度,但在模型解釋性上表現(xiàn)較差,回歸分析則可以很好地彌補(bǔ)這一點(diǎn)。
基于上述模型設(shè)計思路,本文的預(yù)測流程見圖1。
圖1 預(yù)測流程圖
本文以北方某省份為研究對象,所使用的城市居民用氣量數(shù)據(jù)來自某天然氣公司的終端銷售數(shù)據(jù)。該數(shù)據(jù)均為物聯(lián)網(wǎng)遠(yuǎn)傳表數(shù)據(jù),每日定時上傳用戶當(dāng)日用氣情況,可以真實(shí)反映各市的民用天然氣消費(fèi)情況??紤]到用于研究的數(shù)據(jù)應(yīng)處于各市的成熟用氣階段,因此本文選取的建模數(shù)據(jù)時間范圍為2020—2022 年。
本文所使用的宏觀經(jīng)濟(jì)數(shù)據(jù),是由該省份各城市統(tǒng)計局官方網(wǎng)站上公布的統(tǒng)計月報整理所得,并根據(jù)該省份統(tǒng)計年鑒[10-11]進(jìn)行修正。
在城市的選擇上,本文以該省份L 市作為目標(biāo)城市,預(yù)測其2021—2022 年居民用氣情況。同時,選擇在2022 年12 月1 日零時,居民用戶數(shù)量在3 萬以上的3 個城市——H 市、J市、A 市為L 市的接壤城市,使用這3 個城市的相關(guān)數(shù)據(jù)構(gòu)建預(yù)測模型。
為提高樣本數(shù)據(jù)的代表性,本文對所使用的數(shù)據(jù)進(jìn)行如下處理:①由于原始數(shù)據(jù)為各城市居民用戶的日用氣量(遠(yuǎn)傳表上傳),需要對居民日用氣量進(jìn)行分月加總,得到各城市的月度用氣量;②由于在遠(yuǎn)傳表試運(yùn)行階段,用戶規(guī)模及用氣量有時會偏離正常值,有時也會存在數(shù)據(jù)沖正等情況,所以用氣數(shù)據(jù)在其數(shù)據(jù)分布曲線的兩端均存在較多異常值,因此對接壤城市數(shù)據(jù)進(jìn)行雙側(cè)10%的截尾處理(將大于90%分位數(shù)或小于10%分位數(shù)的取值替換為缺失值),以消除異常值對模型的干擾;③由于各城市的經(jīng)濟(jì)收入數(shù)據(jù)為季度數(shù)據(jù)、人口數(shù)據(jù)為年度數(shù)據(jù),考慮到這些數(shù)據(jù)在一定時間內(nèi)具有相對穩(wěn)定性,因此對其進(jìn)行均值插補(bǔ),即對于經(jīng)濟(jì)數(shù)據(jù),季度內(nèi)各月取季度均值,對于人口數(shù)據(jù),年內(nèi)各月取年度均值;④由于各變量數(shù)據(jù)的數(shù)量級相差較大,因此使用Z-Score(標(biāo)準(zhǔn)分?jǐn)?shù),將一個數(shù)與平均數(shù)的差再除以標(biāo)準(zhǔn)差,見公式(1))對各變量的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以使模型在訓(xùn)練時能夠更快的收斂到最優(yōu)解。
式中:Z——標(biāo)準(zhǔn)分?jǐn)?shù);X——原始數(shù)據(jù);——平均數(shù);s——標(biāo)準(zhǔn)差。
圖2 為處理后的接壤城市各月用氣量數(shù)據(jù)。
圖2 接壤城市各月用氣量
表1 為各城市居民月度用氣量的描述性統(tǒng)計值,其中用氣量一欄為截尾處理前的原始數(shù)據(jù),Q為截尾處理后的用氣量數(shù)據(jù),由于目標(biāo)城市為預(yù)測對象,因此沒有截尾數(shù)據(jù),只報告原始數(shù)據(jù)情況。從表1可以看到用氣量數(shù)據(jù)的整體分布情況。原始用氣量數(shù)據(jù)的離群值較多,最大值與最小值相差很大,右側(cè)拖尾嚴(yán)重,同時中位數(shù)遠(yuǎn)小于均值,呈現(xiàn)右偏分布。在進(jìn)行截尾處理后,變量Q的均值與中位數(shù)更接近,說明對其進(jìn)行10%的截尾處理是合適的。
表1 各城市居民月度用氣量描述統(tǒng)計信息 單位:m3
影響居民天然氣使用量的因素復(fù)雜多樣,鑒于利用接壤城市對無法獲取歷史數(shù)據(jù)城市的居民用氣量進(jìn)行預(yù)測,因此本文聚焦于宏觀因素對用氣量的影響。一般而言,影響居民用氣量的宏觀因素主要有4 個方面。
3.1.1 經(jīng)濟(jì)因素
城市的整體經(jīng)濟(jì)狀況一方面決定著該市居民的收入水平,居民的可支配收入越高,消費(fèi)意愿越高;另一方面也會對周圍城市產(chǎn)生虹吸效應(yīng),使該城市的人口維持較高水平的增長。趙立春[12]研究認(rèn)為,人均可支配收入對高收入和低收入居民的用氣量均有較大影響,其中對高收入群體的影響更顯著,但這個增長關(guān)系并不會一直上升,而是在達(dá)到一定程度后保持相對穩(wěn)定。同時,由于商業(yè)的繁榮程度影響著居民的生活質(zhì)量和水平,因此第三產(chǎn)業(yè)與民用天然氣用量也有著此消彼長的關(guān)系。王欽等[13]通過構(gòu)建青島市內(nèi)四區(qū)用氣量與第三產(chǎn)業(yè)GDP 的一元高次方程,實(shí)現(xiàn)了對商業(yè)用氣量的較好擬合。
3.1.2 人口因素
城市的人口數(shù)量及結(jié)構(gòu)決定著民用天然氣消費(fèi)量。城市人口數(shù)量越多,民用天然氣消費(fèi)量也越大。對于居民而言,每個家庭人口越多、家庭中老年人占比越大,用戶的用氣量也會越大。趙立春[12]通過對北京居民進(jìn)行問卷調(diào)查,提出每個家庭人口數(shù)、家庭成員年齡結(jié)構(gòu)都不同程度影響著天然氣消費(fèi)量。
3.1.3 氣候因素
氣候因素主要包括溫度、濕度、降雨量、降雪量等。由于用戶在不同季節(jié)的用氣習(xí)慣不同,導(dǎo)致溫度是對民用天然氣用量影響最大的因素。何恒根[14]通過對天氣、日最高溫、日最低溫、日平均溫度、風(fēng)級、濕度等因素與GDP、人口等因素進(jìn)行主成分分析,實(shí)現(xiàn)對城市天然氣需求的短期預(yù)測。另外,不同溫度附近,溫度梯度的變化也不同。陳進(jìn)殿等[15]提出,天然氣日負(fù)荷的溫度梯度在不同地區(qū)、不同溫度節(jié)點(diǎn)處差別較大,在調(diào)峰時要關(guān)注日負(fù)荷溫度梯度較大的省市。
3.1.4 其他影響因素
除了以上提及的因素以外,還有許多隨機(jī)性的外部因素會對居民用氣量產(chǎn)生影響。如政府出臺的環(huán)保法規(guī)以及對天然氣的扶持政策,燃?xì)夤緦μ烊粴鈨r格的不定期調(diào)整,以及節(jié)假日、冬季采暖等。
因此,本文綜合前人的研究以及統(tǒng)計數(shù)據(jù)的可得性,在模型的變量選擇上主要考慮城市的經(jīng)濟(jì)、人口、氣候等3 方面因素。
3.2.1 回歸模型構(gòu)建
根據(jù)3.1 中選取的前3 方面因素,結(jié)合各城市公布的月度統(tǒng)計指標(biāo),進(jìn)一步將各影響因素選取的變量縮小為以下幾個:經(jīng)濟(jì)因素使用第三產(chǎn)業(yè)GDP描繪城市發(fā)展?fàn)顩r,同時選取城鎮(zhèn)人均可支配收入描繪居民收入情況;人口因素選擇城鎮(zhèn)常住人口;氣候因素選擇月均氣溫。除此以外,本文借鑒嚴(yán)銘卿[2]和王欽等[13]的研究,加入第三產(chǎn)業(yè)GDP 的二次項(xiàng),并構(gòu)建如下回歸模型來定量衡量各自變量是否對用氣量有顯著影響,以確定用于構(gòu)建隨機(jī)森林模型的變量:
式中:Qi——i城市居民的月用氣量,m3;Gi——i城市的第三產(chǎn)業(yè)GDP,108元;Ii——i城市居民的城鎮(zhèn)人均可支配收入,元/人;Pi——i城市城鎮(zhèn)常住人口 ,104人;Ti——i城市的月平均氣溫,℃;β0——模型的常數(shù)項(xiàng);β1~ β5——各變量的回歸系數(shù);εi——隨機(jī)誤差項(xiàng),它包括除模型中各自變量以外影響用氣量Q的其他因素。
3.2.2 回歸結(jié)果分析
利用三個接壤城市數(shù)據(jù),建立式(3)的回歸模型,本文在回歸時使用穩(wěn)健標(biāo)準(zhǔn)誤差以修正模型中可能存在的異方差,使模型顯著性結(jié)果更穩(wěn)健。
式中:Q——居民月用氣量,m3;G——第三產(chǎn)業(yè)GDP,108元;I——居民城鎮(zhèn)人均可支配收入,元/人;P——城鎮(zhèn)常住人口,104人;T——月平均氣溫,℃。
模型結(jié)果見表2。可以看出,各變量的系數(shù)均在1%的水平上顯著,說明各變量均對居民的用氣規(guī)模有顯著影響,可以用于建立隨機(jī)森林模型。
表2 回歸模型1%顯著性水平下系數(shù)
雖然本文中回歸模型旨在驗(yàn)證各變量對城市用氣規(guī)模的影響,但系數(shù)的正負(fù)與數(shù)值大小也在一定程度上反映了各變量對用氣規(guī)模的影響方向及程度,為模型提供了解釋性。分系數(shù)來看,G2系數(shù)為正,G的系數(shù)為負(fù),說明在第三產(chǎn)業(yè)發(fā)展初期,對居民用氣量存在抑制作用,但隨著第三產(chǎn)業(yè)的不斷發(fā)展,其促進(jìn)作用大于抑制作用,這可能是由于經(jīng)濟(jì)的發(fā)展帶來的虹吸效應(yīng),吸引了更多的人口聚集到該區(qū)域,使其對居民用氣量的促進(jìn)作用超過了抑制作用;I系數(shù)顯著為正,表明其他條件不變的情況下,隨著經(jīng)濟(jì)的發(fā)展和收入的不斷提高,民用天然氣消費(fèi)量也在不斷提高;P系數(shù)為正,符合預(yù)期,說明人口數(shù)越多,天然氣用量越大;T系數(shù)也與預(yù)期相符,在其他變量保持不變時,月平均氣溫每提高1度居民用氣規(guī)模降低504 m3,表明溫度越低,居民天然氣用量越大。因此,當(dāng)季節(jié)變換時,要及時調(diào)整天然氣供應(yīng),保證居民用氣需求。
3.2.3 回歸穩(wěn)健性檢驗(yàn)
為驗(yàn)證上文回歸結(jié)果的穩(wěn)健性,本文采用替換自變量的方法進(jìn)行穩(wěn)健性檢驗(yàn),將第三產(chǎn)業(yè)GDP 及其平方項(xiàng)用GDP 及其平方項(xiàng)替換,并進(jìn)行回歸檢驗(yàn),回歸結(jié)果見表3,可以看到各變量回歸系數(shù)依然是顯著的。說明前文回歸分析模型中,各變量對用氣量均有顯著影響,驗(yàn)證了回歸分析結(jié)果的可靠性,可以利用回歸模型中的自變量建立隨機(jī)森林的預(yù)測模型。
表3 更換變量的穩(wěn)健性檢驗(yàn)結(jié)果
利用回歸分析的結(jié)果,將選取的變量作為隨機(jī)森林模型的輸入變量,使用接壤城市數(shù)據(jù),利用python 進(jìn)行隨機(jī)森林模型構(gòu)建,根據(jù)1.1 中所選擇的調(diào)參參數(shù),設(shè)定各參數(shù)的初始取值范圍見表4。
表4 隨機(jī)森林模型各參數(shù)取值
表4 中,決策樹個數(shù)從100 至2 000,取值間隔為50;最大深度取值不限,或從10 至500,取值間隔為50;最大分離特征數(shù)取“auto”(即分枝時考慮的特征個數(shù)最大等于決策樹個數(shù))或“sqrt”(即分枝時考慮的特征個數(shù)最大等于決策樹個數(shù)的平方根)。
根據(jù)初始范圍,使用3 折交叉驗(yàn)證與隨機(jī)搜索(即隨機(jī)匹配超參數(shù)組合,不對所有組合遍歷,本文設(shè)置匹配200 次)的方式優(yōu)化參數(shù),得到最優(yōu)組合,但由于是隨機(jī)搜索,因此為防止此最優(yōu)組合為局部最優(yōu),在最優(yōu)值附近劃定范圍,使用網(wǎng)格搜索對每一種匹配進(jìn)行遍歷,最終得到的隨機(jī)森林模型各參數(shù)取值見表5。
表5 用于預(yù)測的隨機(jī)森林模型各參數(shù)取值
根據(jù)L 市統(tǒng)計數(shù)據(jù),使用上文建立的隨機(jī)森林模型對接壤城市和L 市2021—2022 年的居民用氣規(guī)模進(jìn)行預(yù)測。同時,由于在天然氣需求的研究中,SVM、XGBoost 也是經(jīng)常用到的模型,其中既有用于短期預(yù)測的研究[5,6,16-17],也有用于中長期預(yù)測的研究[6,18],因此本文將隨機(jī)森林的預(yù)測結(jié)果與SVM、XGBoost 的預(yù)測結(jié)果進(jìn)行對比,接壤城市預(yù)測結(jié)果及目標(biāo)城市預(yù)測結(jié)果分別見圖3 和圖4。
圖3 接壤城市訓(xùn)練集各模型預(yù)測結(jié)果對比
圖4 目標(biāo)城市測試集各模型預(yù)測結(jié)果對比
其中,由于在建模前對數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,因此縱軸會存在負(fù)值,橫軸代表日期ID(將2020 年1 月記為0,2020 年2 月為1,以此類推)??梢钥吹?,隨機(jī)森林較為準(zhǔn)確的預(yù)測了全年的用氣情況,而XGBoost 只追蹤到了較高用氣量的情況,SVM 則正相反,只能擬合用氣量較低的春夏季。
此外,還要對建立的模型進(jìn)行變量重要性分析,用以確定各變量在建立決策樹及劃分節(jié)點(diǎn)時的重要程度(結(jié)果見圖5)。在建立模型的過程中,溫度是最為重要的影響因素,與回歸分析中得到的結(jié)論相互印證。主要是短時間內(nèi)人口、經(jīng)濟(jì)狀況、收入等因素往往較為穩(wěn)定,但當(dāng)跨年度進(jìn)行預(yù)測時,這些變量的作用就會顯現(xiàn)。
圖5 變量重要性分析
本文使用均方誤差、模型擬合優(yōu)度兩項(xiàng)指標(biāo)來衡量隨機(jī)森林、SVM、XGBoost 模型以及3.2 節(jié)中構(gòu)建的回歸模型的預(yù)測效果。
式中:RMSE——均方誤差;R2——模型擬合優(yōu)度;yi——用氣量真實(shí)值,m3;——用氣量預(yù)測值,m3;——用氣量的均值,m3。
以上評價指標(biāo)均使用目標(biāo)城市數(shù)據(jù)計算(結(jié)果見表6),可以看到相比于其他模型,隨機(jī)森林的預(yù)測效果最好,RMSE僅為6.4%,這一結(jié)果與圖4 預(yù)測結(jié)果對比圖中的數(shù)值也相吻合。
表6 各模型預(yù)測效果對比
本文針對目標(biāo)城市無法獲取居民歷史用氣量數(shù)據(jù)的情況,利用北方某省份2020—2022 年的居民用氣數(shù)據(jù),結(jié)合與目標(biāo)城市接壤的城市統(tǒng)計月報及所在省份統(tǒng)計年鑒數(shù)據(jù),建立了居民用氣規(guī)模的隨機(jī)森林預(yù)測模型,并與回歸模型、SVM、XGBoost 等模型的預(yù)測效果進(jìn)行對比。實(shí)證結(jié)果表明,通過定性與定量相結(jié)合的方式選取模型變量,不僅為機(jī)器學(xué)習(xí)預(yù)測模型的變量選取提供了理論及技術(shù)依據(jù),同時也為模型提供了可解釋性。此外,相比于其他模型,隨機(jī)森林模型預(yù)測的均方誤差僅為6.4%,取得了更好的預(yù)測效果,能夠?qū)崿F(xiàn)對目標(biāo)城市各月用氣波動的準(zhǔn)確預(yù)測。
在實(shí)際應(yīng)用中,應(yīng)根據(jù)各城市的用戶數(shù)量,合理劃定用于構(gòu)建模型的城市范圍,盡可能增大用于建模的樣本數(shù)量,以使模型更好的挖掘其中的規(guī)律。另一方面,可根據(jù)當(dāng)?shù)貙?shí)際公布的統(tǒng)計指標(biāo)對選取的變量進(jìn)行靈活調(diào)整,實(shí)現(xiàn)更好的預(yù)測效果。