彭 茁 王 翔 李勇濤
(國(guó)網(wǎng)合肥供電公司,安徽 合肥 230022)
業(yè)擴(kuò)報(bào)裝業(yè)務(wù)泛指從客戶提交用電申請(qǐng)需求至實(shí)際成功用電的該段電力企業(yè)業(yè)務(wù)流程,其具體過(guò)程包括客戶申請(qǐng)的確認(rèn)、供電方案的確認(rèn)、供電合同的確認(rèn)以及最終的裝表供電。該業(yè)務(wù)將電力企業(yè)與用戶之間的供用電關(guān)系緊密連接。用戶在最終的裝表供電完成后,一般會(huì)經(jīng)歷一段時(shí)間的周期負(fù)荷調(diào)整過(guò)程,隨著時(shí)間推移電量顯著提升,直至用電維持在一個(gè)穩(wěn)定的合理的區(qū)間。業(yè)擴(kuò)報(bào)裝業(yè)務(wù)具有以下方面的特性:一是具有確切的目的性,其目的是提供給到客戶安全、穩(wěn)定以及經(jīng)濟(jì)的用電服務(wù)。二是具有較強(qiáng)的時(shí)間緊迫性,供電公司需在最短時(shí)間內(nèi)為客戶提供送電服務(wù),其對(duì)供電公司在業(yè)務(wù)流程和進(jìn)度管理上要求頗高。三是具有多對(duì)一的響應(yīng)關(guān)系,多個(gè)客戶對(duì)接同一家供電公司的情況普遍存在。四是具有多部門協(xié)同合作性,該業(yè)務(wù)牽涉供電公司多個(gè)部門的多個(gè)業(yè)務(wù),不同部門間的協(xié)作能力及部門溝通尤為重要。五是具有用電需求的復(fù)雜性,不同類型的用電客戶存在不同的用電需求,及時(shí)滿足多樣的客戶需求對(duì)供電公司提出了更高的要求。
在電改背景下,業(yè)擴(kuò)報(bào)裝業(yè)務(wù)既是提高供電服務(wù)水平的關(guān)鍵一環(huán),也是拉升電網(wǎng)資產(chǎn)利用率的重要一步。多項(xiàng)電力因素影響著業(yè)擴(kuò)報(bào)裝需求的確定,設(shè)備容量等參數(shù)預(yù)留大多采用經(jīng)驗(yàn)預(yù)估的方式,這既可能因?yàn)殡娋W(wǎng)預(yù)留容量不足導(dǎo)致電力供應(yīng)不能滿足實(shí)際需求,也有可能因?yàn)轭A(yù)留容量過(guò)大使得電網(wǎng)設(shè)備利用率較低。故本文從兩個(gè)方向開展大用戶用電需求預(yù)測(cè),實(shí)現(xiàn)精準(zhǔn)量化大用戶業(yè)擴(kuò)報(bào)裝需求,以更好提升客戶用電滿意度和電網(wǎng)設(shè)備利用率。(1)構(gòu)建基于大數(shù)據(jù)的電力大用戶業(yè)擴(kuò)報(bào)裝需求容量測(cè)算模型,通過(guò)數(shù)據(jù)模型量化報(bào)裝需求。(2)從用電類別出發(fā)計(jì)算不同用電類別下的需要系數(shù)和同時(shí)系數(shù),對(duì)大用戶供電需求進(jìn)行預(yù)測(cè)。
大用戶級(jí)別業(yè)擴(kuò)報(bào)裝需求控制模型研究包括以下方面:(1)確定和業(yè)務(wù)研究目標(biāo)相關(guān)的影響特征。(2)確定研究的模型。(3)進(jìn)行數(shù)據(jù)探索和特征工程。(4)構(gòu)建需求控制模型,并驗(yàn)證模型結(jié)果。
采集某地區(qū)共計(jì)350 戶專線大用戶作為研究對(duì)象,搭建大用戶業(yè)擴(kuò)報(bào)裝需求模型。基于業(yè)務(wù)特征,盡可能列舉出對(duì)業(yè)擴(kuò)報(bào)裝有影響的所有因素,共計(jì)14 個(gè)特征。(1)用戶信息:包括戶名、戶號(hào)、行業(yè)類別、人員數(shù)量、注冊(cè)資金和區(qū)域。(2)用電信息:包括用電類別、供電電壓等級(jí)和電源點(diǎn)個(gè)數(shù)。(3)電力數(shù)據(jù):包括每日最大負(fù)荷、用電量和容量。(4)經(jīng)濟(jì)數(shù)據(jù):包括行業(yè)GDP。
本文采用多種機(jī)器學(xué)習(xí)模型方法實(shí)現(xiàn)對(duì)大用戶用電需求控制模型的研究,主要采用多元線性回歸,k 近鄰法和集成學(xué)習(xí)算法等回歸模型實(shí)現(xiàn)對(duì)用電需求進(jìn)行預(yù)測(cè)分析。
1.2.2 k 近鄰回歸模型:k 近鄰回歸模型是指利用該樣本周圍最接近的k 個(gè)樣本的屬性去預(yù)測(cè)該樣本的值。一般采用平均值或者平均法來(lái)定義該樣本的輸出。同時(shí)樣本的分布規(guī)律決定了k 值的選擇方向,而k 值的選擇也影響了模型的結(jié)果:一種是較小的k 值導(dǎo)致訓(xùn)練誤差的降低和泛化誤差的加大,另一種是較大的k 值導(dǎo)致訓(xùn)練誤差的增大和泛化誤差的降低。
1.2.3 集成學(xué)習(xí)回歸模型:集成學(xué)習(xí)算法是一種將來(lái)自多個(gè)機(jī)器學(xué)習(xí)算法的預(yù)測(cè)值結(jié)合在一起的技術(shù),比任何單獨(dú)模型做出的預(yù)測(cè)更為準(zhǔn)確。本文集成學(xué)習(xí)模型涉及Bagging和隨機(jī)森林兩類回歸模型。
Bagging:Bagging 從Bootstrap 和Aggregating 兩詞結(jié)合而來(lái),其算法邏輯是從訓(xùn)練集中通過(guò)有放回采樣的方式獲得不同的子訓(xùn)練集,在不同的子訓(xùn)練集上獨(dú)立訓(xùn)練出多個(gè)不同的弱學(xué)習(xí)器,將多個(gè)弱學(xué)習(xí)器的結(jié)果進(jìn)行一定的整合,以此作為最終的預(yù)測(cè)值。Bagging可以并行地訓(xùn)練多個(gè)不同的弱學(xué)習(xí)器,并行的特性可以提高模型的運(yùn)算速度。回歸問(wèn)題的結(jié)果整合可采用均值方法。有放回采樣的方式可自動(dòng)實(shí)現(xiàn)將63%的樣本作為訓(xùn)練集,而剩下的樣本作為驗(yàn)證集。Bagging最明顯的優(yōu)勢(shì)是可用來(lái)降低模型的方差。
圖1 Bagging 方法示意圖
隨機(jī)森林:隨機(jī)森林繼承了Bagging 模型的基本思想,但對(duì)Bagging進(jìn)行了兩處改進(jìn):(1)其將決策樹作為弱學(xué)習(xí)器,因?yàn)闆Q策樹是不穩(wěn)定學(xué)習(xí)器,故適合進(jìn)行Bagging操作。(2)同時(shí)對(duì)特征進(jìn)行隨機(jī)采樣而形成特征子集,避免過(guò)擬合,以此增加各子決策樹間的差異性。隨機(jī)森林的優(yōu)勢(shì)體現(xiàn)在以下幾點(diǎn):一是對(duì)大規(guī)模數(shù)據(jù)集具有良好的性能;二是對(duì)高維特征具有較好的處理能力而無(wú)須進(jìn)行降維操作;三是對(duì)于特征中的缺省值不敏感,具有較好的魯棒性?;貧w問(wèn)題的結(jié)果整合可采用均值方法。
1.3.1 相關(guān)性分析。變量間的相關(guān)性分析是將特征變量和目標(biāo)變量間的線性關(guān)聯(lián)進(jìn)行直觀體現(xiàn),其計(jì)算的相關(guān)系數(shù)結(jié)果可作為特征工程中提取特征項(xiàng)目的依據(jù)。通過(guò)皮爾遜相關(guān)系數(shù)可直觀查看變量間的關(guān)聯(lián),其衡量的是線性關(guān)系的強(qiáng)度和方向。假設(shè)有兩個(gè)特征x和y,按照以下方式比較他們的每個(gè)元素,從而計(jì)算皮爾遜相關(guān)系數(shù):
(2)啞變量通常是指人為虛設(shè)的變量,取值為0 和1,用來(lái)反映某個(gè)變量的不同屬性特點(diǎn)。啞變量編碼是將類別變量轉(zhuǎn)換為啞變量,也就是將定性變量進(jìn)行了量化處理。引入啞變量的目的即是為了評(píng)測(cè)定性變量對(duì)預(yù)測(cè)結(jié)果的影響。對(duì)人員數(shù)量進(jìn)行有序編碼,對(duì)電源點(diǎn)個(gè)數(shù)變量進(jìn)行指定編碼,對(duì)電壓等級(jí)、行業(yè)類型和用電類別進(jìn)行虛擬編碼。
1.3.3 特征選擇。特征選擇是指在映射函數(shù)作用下直接將不重要的特征刪除而抓住主要影響因子的過(guò)程。變量越少越有利于分析,對(duì)模型結(jié)果的可解釋性越高。本文的特征選擇方法是包裝法,其算法邏輯是用遞歸特征消除法來(lái)達(dá)到篩選重要因子的目的。遞歸特征消除法是指在特征空間中抽取特征子集,在特征子集上構(gòu)建相應(yīng)模型,迭代該過(guò)程,遍歷所有特征空間,通過(guò)模型結(jié)果來(lái)篩選表現(xiàn)最佳的特征子集。最終進(jìn)入模型的特征有35 個(gè),為’電源點(diǎn)個(gè)數(shù)’,’注冊(cè)資金(人民幣:萬(wàn))’,’規(guī)模(人員數(shù)量)’,’用戶達(dá)到最大負(fù)荷年數(shù)’,’用電量’,’行業(yè)GDP’,’容量’,’電壓等級(jí)1’,’電壓等級(jí)2’,’電壓等級(jí)3’,’電壓等級(jí)4’,’區(qū)域1’,’區(qū)域2’,’區(qū)域3’,’區(qū)域4’,’區(qū)域5’,’區(qū)域6’,’區(qū)域7’,’區(qū)域8’,’區(qū)域9’,’區(qū)域10’,’區(qū)域11’,’區(qū)域12’,’區(qū)域13’,’區(qū)域14’,’行業(yè)類型1’,’行業(yè)類型2’,’行業(yè)類型3’,’行業(yè)類型4’,’行業(yè)類型5’,’用電類別1’,’用電類別2’,’用電類別3’,’用電類別4’,’用電類別5’。模型依據(jù)交叉驗(yàn)證得分選擇的特征如圖3 所示。
圖2 每日最大負(fù)荷與容量、注冊(cè)資金等的相關(guān)性圖譜
圖3 模型選擇的特征數(shù)圖
基于大用戶電量歷史需求、用電特征和行業(yè)特征等數(shù)據(jù),使用特征工程、回歸、決策樹等機(jī)器學(xué)習(xí)方法,挖掘大用戶電力需求,提取業(yè)擴(kuò)報(bào)裝大用戶有效用電特征,將其作為模型輸入特征,建立大用戶業(yè)擴(kuò)報(bào)裝需求模型,量化輸出大用戶業(yè)擴(kuò)報(bào)裝容量需求。在對(duì)比多個(gè)模型精度后發(fā)現(xiàn),多元線性回歸的精度高于其他模型算法,但整體精度仍然不高。
1.4.1 多元線性回歸模型:多元線性回歸模型的預(yù)測(cè)精度,也就是R2達(dá)到0.712,也就是模型可以解釋71.2%的變量。
1.4.2 k 近鄰回歸模型:選擇k=20,模型的精度為0.564,預(yù)測(cè)效果一般。
1.4.3 集成學(xué)習(xí)回歸模型:通過(guò)構(gòu)建單個(gè)回歸樹、Bagging回歸樹和隨機(jī)森林進(jìn)行對(duì)比,發(fā)現(xiàn)集成算法會(huì)降低測(cè)試誤差,Bagging和隨機(jī)森林的測(cè)試誤差基本一致,但是測(cè)試誤差依然在0.88 左右。從隨機(jī)森林的輸入變量重要性來(lái)看,區(qū)域11 的用電量、容量以及用戶達(dá)到最大負(fù)荷的年數(shù)等變量重要性高于其他變量,和特征選擇的結(jié)果一致。
圖4 回歸樹、Bagging 回歸樹和隨機(jī)森林誤差對(duì)比圖
在基于大用戶級(jí)別的報(bào)裝預(yù)測(cè)的同時(shí),可以通過(guò)用電類別下的需要系數(shù)和同時(shí)系數(shù)的計(jì)算來(lái)對(duì)不同的用電類別用戶進(jìn)行容量預(yù)測(cè)。算法邏輯為:一是依據(jù)用電性質(zhì)將用戶進(jìn)行分類,獲得不同用電類別下的歷史最大負(fù)荷值,從而計(jì)算各用戶不同的需要系數(shù);二是用全行業(yè)歷史最大負(fù)荷值和第一步中的用電類別下歷史最大負(fù)荷值來(lái)計(jì)算全社會(huì)同時(shí)系數(shù)。需要系數(shù)和同時(shí)系數(shù)可用于電力大用戶業(yè)擴(kuò)報(bào)裝負(fù)荷預(yù)測(cè)。
圖5 用電類別下最大負(fù)荷、容量、需要系數(shù)圖
本文通過(guò)兩種方式給出了業(yè)擴(kuò)報(bào)裝容量的預(yù)測(cè)方向。一是構(gòu)建了業(yè)擴(kuò)報(bào)裝容量的多種模型預(yù)測(cè)方法,特征選擇后進(jìn)行了多種模型結(jié)果嘗試。后續(xù)可在收集的數(shù)據(jù)量級(jí)及數(shù)據(jù)獲取的準(zhǔn)確性上進(jìn)行進(jìn)一步擴(kuò)展分析。二是通過(guò)用電類別集合下的需要系數(shù)和同時(shí)系數(shù)的計(jì)算,將用戶集成到不同用電類別下進(jìn)行對(duì)照預(yù)測(cè),用計(jì)算獲取的需要系數(shù)值和全社會(huì)的同時(shí)系數(shù)值來(lái)估計(jì)待預(yù)測(cè)區(qū)域的供電需求。