国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電費風(fēng)險預(yù)測中的不平衡數(shù)據(jù)問題研究

2016-08-13 05:10:33凌衛(wèi)家施永益夏洪濤吳尚遠趙燕波
經(jīng)營管理者·下旬刊 2016年6期
關(guān)鍵詞:電費分類

凌衛(wèi)家 施永益 夏洪濤 吳尚遠 趙燕波

摘 要:隨著電網(wǎng)信息化和電力公司營銷數(shù)據(jù)分析的發(fā)展,各級電力公司越來越多地對基于量化分析方法的電費風(fēng)險預(yù)測研究產(chǎn)生興趣,并取得了不少進展。在這一研究領(lǐng)域內(nèi),較多的關(guān)注點集中在預(yù)測模型的選擇應(yīng)用,而事實上,電費風(fēng)險數(shù)據(jù)的一個重要特點是其不平衡性。本文致力于對電費風(fēng)險預(yù)測中的不平衡數(shù)據(jù)問題進行研究,嘗試比較幾種處理方法,并基于某電力公司實際案例,進行試驗比較。

關(guān)鍵詞:風(fēng)險預(yù)測 分類 電費 不平衡數(shù)據(jù)

電力營銷是電力供應(yīng)與需求兩側(cè)的直接銜接環(huán)節(jié),也成為電力數(shù)據(jù)分析應(yīng)用最為豐富的一類業(yè)務(wù)。作為電力公司主營業(yè)務(wù)收入來源,電費回收及時性直接關(guān)系到公司的生存和發(fā)展。因此,對電費回收進行精益化的管理也是電力公司一直關(guān)注的重點之一。近年來,各級電力公司開展了很多基于數(shù)據(jù)挖掘分析的電費回收管理研究與實踐,致力于對風(fēng)險管理的方法和預(yù)測模型的探討。本文所屬的研究正是對電力大用戶的電費欠費風(fēng)險進行預(yù)測,采用統(tǒng)計分析軟件SAS和數(shù)據(jù)挖掘軟件WEKA進行數(shù)據(jù)處理、分析、挖掘,在研究過程中發(fā)現(xiàn),電力用戶的繳費數(shù)據(jù)是典型的高度不平衡數(shù)據(jù):其中的欠費發(fā)生比例不超過3%。因此著重于探討電費風(fēng)險預(yù)測中的不平衡數(shù)據(jù)問題。

一、不平衡數(shù)據(jù)處理原理

不平衡數(shù)據(jù)問題是發(fā)生在二分類或多分類問題上的不同類之間樣本大小不均衡現(xiàn)象。通常的分類問題,各類樣本量大小不會嚴(yán)格相同,但小的差異不會對分類效果評估造成問題,但當(dāng)數(shù)據(jù)不平衡明顯,通常是達到4:1時,便可能導(dǎo)致結(jié)果誤差。由此,產(chǎn)生了不平衡數(shù)據(jù)分類問題及相應(yīng)的處理方法。鑒于課題研究的電費風(fēng)險預(yù)測是一個二分類問題,本文所討論的是二分類設(shè)定下的不平衡數(shù)據(jù)分類問題,基本工具是混淆矩陣,如表 1所示。

二、電費風(fēng)險預(yù)測中不平衡分類問題的處理

本文基于某電力公司的電費風(fēng)險預(yù)測,建立業(yè)務(wù)邏輯、獲取并清洗的數(shù)據(jù),通過處理和選擇的變量,進行不平衡數(shù)據(jù)分類問題試驗。試驗中采用SMOTE過采樣方法,Boosting算法、以及基于邏輯回歸的集成算法LogitBoost方法[15]。其中的弱分類器,采用決策樹、支持向量機(Support Vector Machine, SVM)、邏輯回歸等不同方法。使用不同的采樣策略、不同集成算法、不同弱分類算法和不同測試方法的組合進行試驗。結(jié)果如表 2所示。

2.在采樣后欠費vs不欠費占比接近1:2

3.訓(xùn)練集拆分66%,剩余的為測試集

4.基于訓(xùn)練集的交叉驗證。使用邏輯回歸模型,命中率較高而覆蓋率較低,且試驗1、2和3的表現(xiàn)未存在明顯差異,說明邏輯回歸未存在明顯的過擬合現(xiàn)象。應(yīng)用第一種SMOTE采樣(采樣后欠費vs不欠費占比接近1:1)后再構(gòu)建邏輯回歸模型,使用新數(shù)據(jù)集測試(試驗6)與另外兩種測試方法(試驗4、5)之間存在極為明顯的差異。應(yīng)用SMOTE-BOOSTING-SVM 方法后,過適應(yīng)現(xiàn)象并未有明顯改善;與未采用集成算法的邏輯回歸和LibSVM相比,預(yù)測結(jié)果對覆蓋率較高而命中率較低的傾向性減弱,F(xiàn)-score有明顯的改善。采用SMOTE-LOGITBOOST方法后,過適應(yīng)現(xiàn)象仍未有明顯改善;與未采用集成算法的邏輯回歸和LibSVM相比,預(yù)測結(jié)果對覆蓋率較高而命中率較低的傾向性減弱,F(xiàn)-score有改善但不及SMOTE-BOOSTING-SVM方法。

三、結(jié)語

模型測試試驗說明,應(yīng)用采樣方法和不同的算法模型未能解決模型的過適應(yīng)現(xiàn)象,但能夠在要求改善覆蓋率或命中率的具體場景下發(fā)揮作用,且SMOTE-BOOSTING-SVM方案對覆蓋率和命中率的總體表現(xiàn)(F-Score)有明顯改善。因此需要在實際應(yīng)用時根據(jù)具體需求,選擇較為適用的評估指標(biāo)。對本次不平衡問題研究中總結(jié)如下:

1.本次研究將選用邏輯回歸模型,在實際應(yīng)用中根據(jù)業(yè)務(wù)的需要對閾值進行調(diào)節(jié),從而獲得針對具體需要的命中率和覆蓋率,這是更為有效的方法。同時,從監(jiān)測功能出發(fā),對命中率的關(guān)注更甚于覆蓋率,因此從這個角度,邏輯回歸模型也是較好的選擇。

2.若應(yīng)用于營銷業(yè)務(wù)中,有更關(guān)注覆蓋率的需求,則可引入SMOTE采樣處理。

3.在后續(xù)的研究中,隨著國網(wǎng)公司數(shù)據(jù)管理水平的提高,數(shù)據(jù)質(zhì)量和完備性的提高,應(yīng)致力于通過更為完備的數(shù)據(jù)準(zhǔn)備和更為全面的業(yè)務(wù)邏輯,來構(gòu)建適應(yīng)性更廣的模型。

4.隨著全社會數(shù)據(jù)化程度的提高,尤其是數(shù)據(jù)共享程度的提高,后續(xù)將關(guān)注企業(yè)征信數(shù)據(jù)的可獲取性,以期將其納入預(yù)測模型,構(gòu)建更為有效的模型。

參考文獻:

[1]黃文思等. 基于決策樹算法的電力客戶欠費風(fēng)險預(yù)測[J]. 電力信息與通信技術(shù), 2016, 14(1):19-22.

[2]王宇哲等. 基于BP神經(jīng)網(wǎng)絡(luò)電力大客戶信用等級評價研究[J]. 電力需求側(cè)管理, 2015, 17(5):49-53.

[3]楊帆等. 基于博弈論的電費回收風(fēng)險分析[J], 湖北電力, 2012, 36(6):76-78.

[4]陳靚等. 基于支持向量機的電費信用評估模型[J]. 電力信息化, 2008, 6(10):75-78

[5]Gary M Weiss, Foster Provost. Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction[J]. Journal of Artificial Intelligence Research 19(2003) 315-354.

[6]楊明等. 不平衡數(shù)據(jù)分類方法綜述[J]. 南京師范大學(xué)學(xué)報(工程技術(shù)版). 2008, 8(4):7-12.

猜你喜歡
電費分類
基于ε-SVR模型的日電費回收預(yù)測
吉林電力(2022年1期)2022-11-10 09:20:40
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
電費電價在電力營銷中的作用
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于大用戶電費回收的風(fēng)險管控
關(guān)于縣級供電企業(yè)電費對賬的研究
給塑料分分類吧
慈利县| 毕节市| 建湖县| 昌都县| 峨眉山市| 尼玛县| 潼关县| 电白县| 河南省| 观塘区| 宜丰县| 皋兰县| 莫力| 榆树市| 咸丰县| 勐海县| 都兰县| 武威市| 莆田市| 株洲县| 隆安县| 阳西县| 闽侯县| 乐清市| 滨海县| 大洼县| 邢台县| 景泰县| 增城市| 顺平县| 泾阳县| 左云县| 新乡县| 当雄县| 许昌县| 石渠县| 屏边| 江源县| 永和县| 临江市| 司法|