奚增輝,王衛(wèi)斌,蘇鵬濤,姚 嶸,沈邵駿
(1.國(guó)網(wǎng)上海市電力公司,上海 200120;2.上海欣能信息科技發(fā)展有限公司,上海 200025)
伴隨著經(jīng)濟(jì)的快速發(fā)展,用戶對(duì)電力服務(wù)的需求越來(lái)越多樣化,有針對(duì)性地對(duì)低壓用戶進(jìn)行研究,能有效地縮短電費(fèi)回收周期,進(jìn)一步推動(dòng)公司自產(chǎn)自銷產(chǎn)品的推廣[1]。繳費(fèi)是供電企業(yè)為用戶提供的一項(xiàng)連續(xù)的基本服務(wù),提取其特征值具有較高的實(shí)際應(yīng)用價(jià)值[2]。利用PCA 進(jìn)化變換方法分析大容量智能用電數(shù)據(jù),可以保留原始數(shù)據(jù)的主要信息,降低聚類維數(shù),提高聚類效率[3]。但是,用戶數(shù)據(jù)受諸多因素的影響,缺少線性特征;使用K-means 方法雖然簡(jiǎn)單,但其同樣存在數(shù)據(jù)聚類效率較低的問(wèn)題。針對(duì)這一問(wèn)題,提出基于高斯混合模型聚類的低電壓用戶繳費(fèi)特征提取方法。通過(guò)對(duì)電力客戶支付特征和支付行為的分析,總結(jié)出不同的客戶群體的繳費(fèi)行為特點(diǎn),并分析不同渠道的優(yōu)缺點(diǎn),從而為不同群體客戶提供差異化、多樣化的優(yōu)質(zhì)服務(wù)。
考慮到低壓用戶的時(shí)序支付特點(diǎn),以實(shí)際的電力用戶支付行為數(shù)據(jù)為基礎(chǔ),構(gòu)建可以反映3 年間用戶支付規(guī)則變化趨勢(shì)的時(shí)序指標(biāo)體系[4]。低電壓用戶時(shí)序繳費(fèi)特征如表1 所示。
表1 低電壓用戶時(shí)序繳費(fèi)特征
由表1 可知,時(shí)序指標(biāo)可以很好地反映當(dāng)年個(gè)別用戶的支付習(xí)慣。該系數(shù)越大,用戶就越喜歡傳統(tǒng)的支付方式,使用頻率就越高[5]。
在上述低電壓用戶時(shí)序繳費(fèi)特征分析結(jié)果支持下,設(shè)計(jì)低電壓用戶繳費(fèi)特征提取方案。通過(guò)預(yù)處理聚類數(shù)據(jù),結(jié)合用戶用電總量,設(shè)計(jì)聚類信息處理流程。通過(guò)用戶繳費(fèi)數(shù)據(jù)變換,獲取用戶繳費(fèi)特征所屬類別,完成特征提取。
2.1.1 數(shù)據(jù)聚類預(yù)處理
以低電壓用戶的時(shí)序繳費(fèi)特征分析結(jié)果為基礎(chǔ),對(duì)數(shù)據(jù)進(jìn)行聚類預(yù)處理,去除噪音和用戶不連續(xù)繳費(fèi)數(shù)據(jù),得到低壓用戶3 年繳費(fèi)記錄[6-8]。由于采用的數(shù)據(jù)維度差異很大,所以需要對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,得到標(biāo)準(zhǔn)數(shù)據(jù),然后進(jìn)行聚類。為了達(dá)到預(yù)定的聚類次數(shù),首先用K-means 算法對(duì)數(shù)據(jù)進(jìn)行聚類,并對(duì)聚類結(jié)果進(jìn)行優(yōu)度檢驗(yàn)[9-10]。聚類優(yōu)度結(jié)果如圖1 所示。
圖1 聚類優(yōu)度結(jié)果
由圖1 可知,當(dāng)K值為7 時(shí),圖像的斜率趨于平滑。從聚類的可解性出發(fā),優(yōu)選出K=7 的最優(yōu)聚類數(shù)目,從而對(duì)實(shí)際數(shù)據(jù)進(jìn)行了分析[11]。
2.1.2 聚類中心確定
高斯混合模型聚類是一種基本的數(shù)據(jù)概率密度分布聚類方法,許多應(yīng)用廣泛的算法對(duì)于符合GMM的數(shù)據(jù)分布都具有很好的適用性[12-13]?;诟咚够旌夏P偷木垲愃惴鞒倘鐖D2 所示。
圖2 基于高斯混合模型聚類流程
由圖2 可知,基于高斯混合模型聚類的完整聚類步驟如下:
Step1:輸入初始聚類數(shù)量Cinit,獲取高斯分布的重疊度閾值T;
Step2:設(shè)C為每次的迭代聚類結(jié)果,與初始聚類數(shù)量Cinit一致,形成初始劃分區(qū)域,確定初始核;
Step3:設(shè)迭代聚類結(jié)果C的正態(tài)核函數(shù)為k,由此運(yùn)行動(dòng)態(tài)聚類過(guò)程;
Step4:根據(jù)Step3 區(qū)分重疊區(qū)域與分散區(qū)域,由此計(jì)算若干高斯分布成分組的重疊度,OLRij(1 ≤i<j≤C);
Step5:選擇所有負(fù)荷條件的高斯分布結(jié)果:
①重疊度閾值滿足條件公式為:
如果重疊度閾值滿足上述條件,那么隨意選擇聚類點(diǎn)(i,j);
②若干高斯分布成分組重疊度滿足條件公式為:
如果若干高斯分布成分組的重疊度滿足上述條件,那么隨意選擇聚類點(diǎn)(i,j)將被合并處理;
③將所有被選擇的聚類點(diǎn)進(jìn)行歸一化處理,形成一個(gè)新的聚類中心,由此計(jì)算該聚類中心的均值和協(xié)方差;
Step6:更新迭代聚類結(jié)果,如果該結(jié)果滿足C>2,則需跳轉(zhuǎn)到Step3,否則停止更新,輸出聚類結(jié)果。
數(shù)據(jù)提取和信息處理是構(gòu)建用戶行為特征提取系統(tǒng)的最終應(yīng)用環(huán)節(jié)[14-15]。利用數(shù)據(jù)挖掘的工作原理,通過(guò)對(duì)電子政務(wù)環(huán)境的處理,可以對(duì)特征層中存儲(chǔ)的數(shù)據(jù)進(jìn)行調(diào)度[16]。在保證用戶行為特征不變的前提下,分析待挖掘數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu),獲得數(shù)據(jù)挖掘驅(qū)動(dòng)設(shè)備的參數(shù)信息,根據(jù)執(zhí)行用戶行為的需要,建立必要的提取處理標(biāo)準(zhǔn)。聚類信息處理流程如圖3所示。
圖3 聚類信息處理流程
在整個(gè)處理過(guò)程中,電子政務(wù)系統(tǒng)信息提取框架始終保持相對(duì)良好的信息調(diào)度能力,可融合系統(tǒng)內(nèi)所有的待挖掘數(shù)據(jù),并將其整合成提取處理所必需的信息應(yīng)用結(jié)構(gòu)。至此,完成聚類信息處理。
對(duì)于聚類信息處理結(jié)果,需建立低電壓用戶繳費(fèi)特征信息的原始矩陣X:
式(3)中,xn表示一年中不同時(shí)刻的用電信息。將原始矩陣對(duì)角化處理,獲取特征向量,使用主元方差累積法,確定通過(guò)閾值為85%,通過(guò)如下公式選取元數(shù)目:
通過(guò)式(4)求取k值,對(duì)于達(dá)不到閾值要求的用戶,需剔除兩組數(shù)據(jù),同時(shí)更新聚類中心,為后續(xù)用戶繳費(fèi)特征提取簡(jiǎn)化計(jì)算量。
基于高斯混合模型的低電壓用戶繳費(fèi)行為數(shù)據(jù)聚類,對(duì)變換后的數(shù)據(jù)進(jìn)行分析,有效用戶數(shù)據(jù)特征可分為9 種,用戶繳費(fèi)特征提取結(jié)果如下:
聚類1-線下波動(dòng)型用戶:該類用戶一般使用線上繳費(fèi)模式,但2018 年這類用戶使用的是金融代扣模式,2019 年和2017 年類似,但使用線下繳費(fèi)比例上升;聚類2-線下偏好型用戶:線上和線下渠道都會(huì)使用的用戶,但更偏好使用線下繳費(fèi)渠道;聚類3-自然轉(zhuǎn)化型用戶:線上繳費(fèi)比例處于自然上升狀態(tài);聚類4-大額繳費(fèi)型用戶:該類用戶繳費(fèi)金額較大,繳費(fèi)規(guī)律無(wú)明顯變化,線上和線下繳費(fèi)方式皆有;聚類5-線上波動(dòng)型用戶:與聚類1 相反,聚類5的用戶使用第三方線上繳費(fèi)渠道,而2018 年則使用過(guò)線下繳費(fèi)渠道導(dǎo)致經(jīng)濟(jì)成本系數(shù)指標(biāo)升高;聚類6-金融機(jī)構(gòu)轉(zhuǎn)化型用戶:該類用戶從第三方線上繳費(fèi)模式逐年轉(zhuǎn)變?yōu)榻鹑跈C(jī)構(gòu)代扣渠道;聚類7-退化型用戶:該類用戶從2017 年開(kāi)始基本使用線上繳費(fèi)模式,到2019 年開(kāi)始使用線上線下混合繳費(fèi);聚類8-快速轉(zhuǎn)化型用戶:該類用戶從線上線下混合繳費(fèi)模式,到使用金融機(jī)構(gòu)代扣模式;聚類9-金融代扣型用戶:用戶使用金融代扣繳費(fèi)渠道。
為了驗(yàn)證基于高斯混合模型聚類的低電壓用戶繳費(fèi)特征提取方法的合理性,進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。以上海低電壓居民用戶作為研究對(duì)象,采用真實(shí)的用電客戶繳費(fèi)行為數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)。通過(guò)國(guó)網(wǎng)上海電力大數(shù)據(jù)平臺(tái),獲取用戶信息數(shù)據(jù)、應(yīng)收電費(fèi)數(shù)據(jù)、實(shí)收電費(fèi)數(shù)據(jù)及用戶繳費(fèi)數(shù)據(jù)。
以繳費(fèi)特征變化較為明顯的線下波動(dòng)型用戶和自然轉(zhuǎn)化型用戶繳費(fèi)特征為例,分別使用PCA進(jìn)化變換方法、K-means 方法、基于高斯混合模型聚類方法對(duì)其2017~2019 年特征變化情況進(jìn)行對(duì)比分析。
2017~2019 年實(shí)際繳費(fèi)特征變化如圖4 所示。
由圖4 可知,PCA 進(jìn)化變換方法在2017 年繳費(fèi)特征數(shù)據(jù)與實(shí)際情況出入不大,但在2018 年與實(shí)際數(shù)據(jù)相差較大,實(shí)際數(shù)據(jù)最優(yōu)聚類為0,隨著時(shí)間增加,最優(yōu)聚類也沒(méi)有發(fā)生較大變動(dòng),而使用該方法最優(yōu)聚類由0 變?yōu)?.6,隨著時(shí)間增加,最優(yōu)聚類也發(fā)生較大變動(dòng)。2019 年與實(shí)際數(shù)據(jù)相差較小,最優(yōu)聚類與實(shí)際聚類結(jié)果沒(méi)有較大偏差。
圖4 2017~2019年線下波動(dòng)型用戶實(shí)際繳費(fèi)特征變化
K-means 方法在2017 年繳費(fèi)特征數(shù)據(jù)與實(shí)際情況存在一定出入,最優(yōu)聚類由0 變?yōu)?.6。在2018 年與實(shí)際數(shù)據(jù)相差較大,實(shí)際數(shù)據(jù)最優(yōu)聚類為0,隨著時(shí)間增加,最優(yōu)聚類也沒(méi)有發(fā)生較大變動(dòng),而使用該方法最優(yōu)聚類由0 變?yōu)?.7,隨著時(shí)間增加,最優(yōu)聚類也發(fā)生較大變動(dòng)。2019 年與實(shí)際數(shù)據(jù)相差較小,最優(yōu)聚類與實(shí)際聚類結(jié)果沒(méi)有較大偏差。
基于高斯混合模型聚類方法2017~2019 年與實(shí)際數(shù)據(jù)變化趨勢(shì)一致,且最優(yōu)聚類數(shù)值也一致。
通過(guò)上述分析結(jié)果可知,使用基于高斯混合模型聚類方法繳費(fèi)特征提取較為精準(zhǔn)。
以低電壓用戶細(xì)分指標(biāo)體系為起點(diǎn),建立時(shí)序指標(biāo)體系,觀察用戶總體變化趨勢(shì)。聚類分析采用高斯混合聚類模型,并對(duì)聚類結(jié)果進(jìn)行整理和分析。根據(jù)電力公司現(xiàn)有電力用戶的繳費(fèi)特點(diǎn),提出相應(yīng)的付款渠道營(yíng)銷策略。