王慶娟,張 維,呂詩寧
(國網(wǎng)浙江省電力科學(xué)研究院 客戶服務(wù)中心,杭州 310014)
出租房客戶定位分析及電費回收策略
王慶娟,張 維,呂詩寧
(國網(wǎng)浙江省電力科學(xué)研究院 客戶服務(wù)中心,杭州 310014)
在“租售同權(quán)”的新形勢下,出租房人數(shù)將迎來新高峰。由于對于流動人口難以管理,電力公司在回收出租房電費過程中常常存在信息溝通不暢、欠費高發(fā)、投訴糾紛高發(fā)、用電不穩(wěn)定、用電安全隱患大等問題,為能準(zhǔn)確定位出租房客戶并采取相對應(yīng)的電費回收服務(wù)策略,規(guī)范出租房客戶用電行為,基于電力公司用戶用電數(shù)據(jù),運用大數(shù)據(jù)挖掘算法定位出租房用戶。首先對出租房客戶的基礎(chǔ)信息、用電行為和繳費特征進行分析,根據(jù)分析結(jié)果提煉出對出租房分析影響較大的指標(biāo)作為指標(biāo)集,然后通過C5.0決策樹算法進行機器自學(xué)習(xí)和訓(xùn)練,構(gòu)建出租房用戶判別模型。
大數(shù)據(jù)平臺;數(shù)據(jù)挖掘;C5.0決策樹算法;電費回收
據(jù)國家有關(guān)部門統(tǒng)計數(shù)據(jù)顯示,我國現(xiàn)有出租房已超億戶。如何對龐大的出租房進行管理,一直是社會關(guān)注的熱點與難點,而出租房客戶用電安全隱患大、電費回收難等問題是長期困擾公司營銷工作的痛點。近期,部分地區(qū)政府已實施“租售同權(quán)”,出租房客戶數(shù)量將持續(xù)攀升,對社會治安、企業(yè)服務(wù)成本、房東個人征信等帶來更大壓力。因此,精準(zhǔn)定位出租房客戶,并配合服務(wù)策略規(guī)范其用電行為,實現(xiàn)精準(zhǔn)營銷,刻不容緩。
本項目基于電力公司營銷業(yè)務(wù)系統(tǒng)、用電信息采集系統(tǒng)中的明細數(shù)據(jù),結(jié)合95598工單,一體化繳費平臺數(shù)據(jù),首先對出租房客戶進行特征分析,從基礎(chǔ)信息、繳費行為、用電特征三大維度出發(fā),提煉出多個影響出租房客戶分析的指標(biāo)作為預(yù)測指標(biāo)集,通過C5.0決策樹算法構(gòu)建出租房用戶預(yù)測模型[1],準(zhǔn)確定位出租房用戶,實現(xiàn)精準(zhǔn)營銷,規(guī)范出租房客戶用電行為,提高電費回收效率、降低安全隱患。
基于實地考察、業(yè)務(wù)專家訪談以及資料查詢,結(jié)合電力公司現(xiàn)有用戶用電數(shù)據(jù)信息情況[2],以浙江省紹興袍江地區(qū)12 000戶用電客戶為研究對象,包括2 000戶租戶和10 000戶普通用戶,分析出租戶與普通用戶的差異,其中,普通用戶包括租戶和非租戶。結(jié)合實際情況,考慮到出租房客戶可能在用電行為、繳費方式等方面與非出租房客戶會存在一定的差異性,如:由于出租房客戶的群租性,其用電量較非出租房客戶可能會偏高;出租房客戶在過年期間及節(jié)假日,用電量較平時用電量可能會出現(xiàn)偏少現(xiàn)象;出租房客戶晚上用電量可能比白天用電量多,即谷電量占比可能會偏高。經(jīng)過分析,最終從基礎(chǔ)信息、繳費行為、用電特征3個維度提煉出租房用戶特征[3—4],模型影響變量如表1所示。
表1 模型影響變量表
經(jīng)過多次調(diào)整,最終從基礎(chǔ)信息、繳費行為、用電特征3個維度提煉出8個指標(biāo)進行模型構(gòu)建,分別為城鄉(xiāng)類別、年用電量、春節(jié)期間電量占比、清明節(jié)假期電量占比、端午節(jié)假期電量占比、4—5月份谷電量占比、近一年不同收款部門數(shù)、近一年支付寶繳費次數(shù)。
(1)城鄉(xiāng)類別:城鎮(zhèn)、農(nóng)村。(2)年用電量:2016年8月—2017年7月的用電量。(3)春節(jié)期間電量占比:春節(jié)期間用電量/全年用電量×100%。
(4)清明節(jié)假期電量占比:清明假期用電量/4月用電量×100%。
(5)端午節(jié)假期用電量占比:端午假期用電量/5月用電量×100%。
(6)4—5月份谷電量占比:4—5月份谷電量/4—5月份用電總量×100%,考慮到天氣影響因素,所以選擇了4月份和5月份非空調(diào)使用季節(jié)進行谷電量分析。
(7)近一年不同收款部門數(shù):2016年8月—2017年7月近一年不同收款部門數(shù)。由于出租房客戶的流動性,繳費方式會具有多樣性,所以收款單位較普通用戶可能也會偏多。
(8)近一年支付寶繳費次數(shù):2016年8月—2017年7月近一年支付寶繳費次數(shù)。
(1)連續(xù)變量分析
對于出租戶和普通用戶年用電量、春節(jié)期間電量占比、清明節(jié)假期電量占比、端午節(jié)假期電量占比、4—5月份谷電量占比這5個連續(xù)變量的均值進行分析,其結(jié)果如表2所示。
表2 租戶與普通用戶連續(xù)變量均值對比表
通過對以上指標(biāo)進行分析發(fā)現(xiàn),①出租戶的近一年平均用電量較高,是普通用戶的1.65倍;②出租房客戶在春節(jié)期間、清明節(jié)、端午節(jié)假期用電量占比均遠低于普通用戶的用電占比;③租戶與普通用戶在4—5月份谷電用電量占相差不大,在建模的時候可能也并沒有重要影響。
(2)離散變量分析
對出租戶和普通用戶的近一年不同收款部門數(shù)這一指標(biāo)進行分析,租戶和普通用戶不同收款部門個數(shù)客戶數(shù)占比如表3。
表3 租戶與普通用戶不同收款部門占比對比表%
其中,租戶各收款部門變化次數(shù)客戶數(shù)占比=各收款部門變化次數(shù)客戶數(shù)/出租房總數(shù)×100%;普通用戶各收款部門變化次數(shù)客戶數(shù)占比=各收款部門變化次數(shù)客戶數(shù)/普通用戶總數(shù)×100%。
通過對近一年不同收款部門數(shù)這一指標(biāo)進行分析發(fā)現(xiàn),67.47%的普通客戶一年內(nèi)收款部門沒有發(fā)生,而租戶收款部門一年內(nèi)沒有發(fā)生變化的比例為30.47%。
在有監(jiān)督學(xué)習(xí)的二分類模型中,決策樹模型可讀性好,效率高,特別是在數(shù)據(jù)量不大的情況下,往往能獲得較高的準(zhǔn)確度,且利用C5.0決策樹算法、Logistic邏輯回歸算法和神經(jīng)網(wǎng)絡(luò)算法分別對樣本進行分類預(yù)測,通過對比發(fā)現(xiàn)利用Logistic邏輯回歸算法和神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的出租房預(yù)測模型準(zhǔn)確率和命中率均低于C5.0決策樹模型的預(yù)測準(zhǔn)確率和命中率,因此本項目采用C5.0決策樹算法構(gòu)建出租房客戶預(yù)測模型[5]。
C5.0決策樹算法通過最大信息增益率來選擇屬性進行節(jié)點拆分。第一次拆分確定的樣本子集隨后再次拆分,通常根據(jù)另一個字段進行拆分,這一過程重復(fù)進行直到樣本子集不能再被拆分為止。最后,重新檢驗最低層次的拆分,那些對模型值沒有顯著貢獻的樣本子集被剔除或者修剪[6]。信息增益率計算規(guī)則如下:
設(shè)T為數(shù)據(jù)集,類別集合為{C1,C2,…,Ck} ,選擇一個屬性V把T分為多個子集。
設(shè)V有互不重合的n個取值{V1,V2,…,Vn} ,則T被分為n個子集T1,T2,…,Tn,這里Ti中的所有實例的取值均為Vi。
令: ||T為數(shù)據(jù)集的T例子數(shù), ||Ti為V=Vi的例子數(shù), ||Cj=freq(Cj,T)為Cj的例子數(shù), ||CjV是V=Vi例子中具有Cj類別的例子數(shù)。
則有
①類別Cj的發(fā)生率
②屬性V=Vi的發(fā)生概率
③屬性V=Vi的例子中,具有類別Cj的條件概率
④類別的信息熵
⑤類別的條件熵
按照屬性V把集合T分割,分割后的類別條件熵為
⑥信息增益,即互信息
⑦屬性V的信息熵
⑧信息增益率
最大信息增益率是屬性選擇及樣本分區(qū)的準(zhǔn)則,通過最大信息增益率來選擇屬性進行節(jié)點拆分,過程重復(fù)進行直到樣本子集不能再被拆分為止。最后,重新檢驗最低層次的拆分,那些對模型值沒有顯著貢獻的樣本子集被剔除或者修剪。
本次建模利用C5.0決策樹算法,將紹興袍江的12 000戶用戶作為樣本集,隨機篩選樣本集中70%作為訓(xùn)練集,30%作為測試集構(gòu)建出租房客戶預(yù)測模型。
3.2.1 模型規(guī)則輸出結(jié)果
3.2.2 變量重要性輸出結(jié)果
圖2為變量重要性結(jié)果。
圖2 變量重要性結(jié)果圖
由圖2變量重要性結(jié)果可知,城鄉(xiāng)類別、近一年不同收款部門數(shù)、春節(jié)期間電量占比、年總電量4個指標(biāo)對模型影響較大;結(jié)合規(guī)則集可知,年總用電量較高、春節(jié)期間用電量占比較小且一年內(nèi)收款部門變化較多的城鎮(zhèn)用戶為出租房客戶的可能性較大。變化較多的城鎮(zhèn)用戶為出租房客戶的可能性較大。
3.2.3 樣本集結(jié)果分析
由樣本集輸出結(jié)果可知,對訓(xùn)練集和測試集的預(yù)測正確率都達到了90%以上,預(yù)測準(zhǔn)確率已經(jīng)比較理想,訓(xùn)練集預(yù)測結(jié)果見表4。
其中,行值為實際值,列值為預(yù)測值,由混淆矩陣可以得出,訓(xùn)練集實際為出租房客戶的數(shù)量為1 007戶,其中正確預(yù)測為出租房客戶的戶數(shù)為594戶,錯誤預(yù)測為普通用戶的戶數(shù)為413戶,訓(xùn)練集具體正確預(yù)測率、命中率和覆蓋率如表5。
表4 訓(xùn)練集預(yù)測混淆矩陣表戶
表5 訓(xùn)練集預(yù)測準(zhǔn)確率、命中率和覆蓋率表%
其中,測試集預(yù)測結(jié)果見表6。
表6 測試集預(yù)測混淆矩陣戶
其中,行值為實際值,列值為預(yù)測值,由混淆矩陣可以得出,測試集實際為出租房客戶的數(shù)量為502戶,其中正確預(yù)測為出租戶的戶數(shù)為274戶,錯誤預(yù)測為出租戶的戶數(shù)為228戶,測試集具體正確預(yù)測率、命中率和覆蓋率如表7。
表7 測試集預(yù)測準(zhǔn)確率、命中率和覆蓋率表%
對于實際為普通用戶,卻被預(yù)測為出租房客戶(其中訓(xùn)練集為374戶,測試集為132戶)原因是:①因為普通用戶包括出租房和非出租房,被預(yù)測為出租房的這部分客戶很可能實際就是出租房,這部分其實就是我們通過模型挖掘出的出租房客戶;②這部分客戶可能會出差或者在假期期間會旅游、探親等活動,所以這部分客戶的用電行為、繳費特征等與出租房客戶類似,偏向于不穩(wěn)定,在下一步模型優(yōu)化時會考慮加入房屋類型,如:高檔小區(qū)、學(xué)區(qū)房、酒店式公寓、回遷房等,根據(jù)房屋類型進行進一步分析。
對于實際為出租房客戶,卻被預(yù)測為普通用戶(其中訓(xùn)練集為413戶,測試集為228戶)原因是:這部分客戶可能是家庭、收入等比較穩(wěn)定,以家庭為單位的長期租房客戶,所以這部分客戶會與普通非出租房客戶用電特征、繳費行為等類似,這一部分客戶的欠費可能性低、信用較好、用電安全隱患小,所以對這一部分出租房客戶可以放寬管理。
研究表明,出租房客戶預(yù)測模型的準(zhǔn)確率達到了90%以上,預(yù)測效果較好,所選取的指標(biāo)城鄉(xiāng)類別、近一年不同收款部門數(shù)、春節(jié)期間電量占比以及年總用電量對出租房客戶預(yù)測模型影響較大。下一步計劃對模型做進一步的優(yōu)化工作,根據(jù)模型結(jié)果進一步完善變量指標(biāo)及模型參數(shù),保留城鄉(xiāng)類別、近一年不同收款部門數(shù)、春節(jié)期間電量占比以及年總用電量4個變量,同時考慮增加用電量波動、春節(jié)期間是否有空窗期以及房屋類型(如:回遷房、酒店式公寓、學(xué)區(qū)房等)等變量,以提高模型的準(zhǔn)確率和命中率,在模型優(yōu)化的基礎(chǔ)上,適時擴大活動運營的范圍,采用多種營銷方式,提高應(yīng)用成效。同時,結(jié)合出租戶用戶實際情況生成特征標(biāo)簽,利用衍生標(biāo)簽信息,為其他主題場景的精準(zhǔn)營銷活動做支撐。
[1] 張素香,劉建明,趙丙鎮(zhèn).基于云計算的居民用電行為分析模型研究[J].電網(wǎng)技術(shù),2013,37(6):1 542-1 546.
[2] 薛禹勝,賴業(yè)寧.大能源思維與大數(shù)據(jù)思維的融合(一)大數(shù)據(jù)與電力大數(shù)據(jù)[J].電力系統(tǒng)自動化,2016,40(1):1-8.
[3] 劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版),2014,48(6):957-972.
[4] 黃文思,郝悍勇,李金湖,等.基于決策樹算法的電力客戶欠費預(yù)測[J].電力信息與通信技術(shù),2016,14(1):19-22.
[5] 路祤,徐輝,楊永春.基于決策樹分類算法的研究與應(yīng)用[J].電子設(shè)計工程,2016,24(18)1-3.
[6] 段軍紅,張乃丹,趙博,等.電力大數(shù)據(jù)基礎(chǔ)體系架構(gòu)與應(yīng)用研究[J].電力信息與通信技術(shù),2015,13(2):92-95.
Analysis of locating the rental housing customers and strategy of tariff charging
WANGQing-juan,ZHANGWei,LVShi-ning
(Customer ServiceCenter,StateGrid ZhejiangElectric Powerand ScienceResearch Institute,Hangzhou 310014,China)
In the new situation of the"rental right",the number of rental housing will usher in a new peak.Due to the difficuty to management of the floating population,there are often poor communication of information,high arrears,high complaints,electricity instability,power security risks and other characteristics.In order to accurately locate the rental housing customers and with the service strategy,room customer electricity behavior,this paper uses the C5.0 decision tree algorithmapplied to the rental housing to predict rental customers.
big data platform;data mining;C5.0 decision treealgorithm;tariff charging
F407.61
B
1009-1831(2017)06-0045-04
10.3969/j.issn.1009-1831.2017.06.011
2017-08-21