基于自適應(yīng)特征權(quán)重聚類算法的用電問題分析①

2020-01-15 06:44任禹丞周子馨

計(jì)算機(jī)系統(tǒng)應(yīng)用 2020年1期

任禹丞,徐超,趙磊,賈靜,彭路,周子馨

1(國網(wǎng)江蘇省電力有限公司,南京 210024)

2(國網(wǎng)江蘇省電力有限公司電力科學(xué)研究院,南京 210019)

3(河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,南京 211100)

在激烈的市場競爭中,客戶服務(wù)[1]己經(jīng)成為企業(yè)在市場上面臨的重要問題之一,許多公司在近年迅速發(fā)展的趨勢下,己意識(shí)到客戶服務(wù)的重要性:讓客戶滿意,把滿足客戶需求作為一切工作展開的目標(biāo)和中心.結(jié)合企業(yè)各自不同的實(shí)際情況,因地制宜地建立適合本企業(yè)的客戶服務(wù)中心是現(xiàn)階段擺在所有企業(yè)面前的重要問題.良好的客戶服務(wù)能夠聯(lián)系企業(yè)與客戶之間的感情,維護(hù)并營造企業(yè)良好的社會(huì)形象,最終實(shí)現(xiàn)培養(yǎng)消費(fèi)者對(duì)于企業(yè)和品牌忠誠度的長遠(yuǎn)目標(biāo).目前,企業(yè)的客服中心在客戶服務(wù)和產(chǎn)品咨詢上起著重要的作用,但是企業(yè)需要為此承擔(dān)相應(yīng)的成本開銷;而且,傳統(tǒng)的人工服務(wù)方式不僅在客戶服務(wù)質(zhì)量上存在不足,還增加了企業(yè)的運(yùn)營成本.

針對(duì)傳統(tǒng)人工服務(wù)方式服務(wù)質(zhì)量層次低以及運(yùn)營成本高昂的問題,雖然傳統(tǒng)的基于統(tǒng)計(jì)的方法應(yīng)用廣泛,但存在著對(duì)前提條件要求過于嚴(yán)格或結(jié)果不夠精確等諸多缺陷.近年來,為了彌補(bǔ)傳統(tǒng)方法的不足,人們將注意力轉(zhuǎn)移到應(yīng)用各種機(jī)器學(xué)習(xí)技術(shù)上來.而目前將聚類分析技術(shù)應(yīng)用到客戶服務(wù)問題中的研究還很少[2].因此,利用歷史服務(wù)數(shù)據(jù),分析反饋問題的客戶的關(guān)鍵特征,通過聚類分析技術(shù)對(duì)客戶進(jìn)行類比,挖掘出具有類似特征的客戶群體,對(duì)客戶可能存在的問題早發(fā)現(xiàn)、早解決、早預(yù)防,避免更多的客戶產(chǎn)生類似訴求,以實(shí)現(xiàn)主動(dòng)服務(wù),從而提供更好的客戶服務(wù)體驗(yàn).

電力客戶服務(wù)中心作為供電企業(yè)與電力客戶交流的窗口,不僅能夠?yàn)殡娏蛻籼峁﹥?yōu)質(zhì)便捷的服務(wù),而且能直接客觀地反映客戶用電問題[3].目前對(duì)在線坐席與客戶服務(wù)工單數(shù)據(jù)的分析,主要是數(shù)據(jù)分析人員依據(jù)坐席人員受理工單時(shí)勾選的業(yè)務(wù)類型,進(jìn)行統(tǒng)計(jì)匯總實(shí)現(xiàn)工單的分類分析.該分類結(jié)果受坐席人員的主觀判斷影響大:一方面不能及時(shí)、客觀地反映散布在不同工單類型中的客戶用電問題;另一方面不能完整地反映用電客戶的真實(shí)訴求,更不能挖掘出客戶產(chǎn)生訴求的真實(shí)原因.因此在電力行業(yè)急需一種高效的方法對(duì)工單中隱藏的內(nèi)容進(jìn)行挖掘分析,并為電力營銷服務(wù)提供輔助決策.

眾所周知,電力是關(guān)系國計(jì)民生的重要基礎(chǔ)產(chǎn)業(yè),是國民經(jīng)濟(jì)的重要組成部分.電力企業(yè)具有規(guī)模經(jīng)濟(jì)特征,與燃?xì)狻⒆詠硭?、電信等類?在一般公共服務(wù)類企業(yè)中具有顯著的代表性.而客戶服務(wù)工作作為電力企業(yè)的一項(xiàng)重要經(jīng)營活動(dòng),不僅關(guān)系到電力客戶的切身利益,也關(guān)系到電力企業(yè)的經(jīng)營效益.電力企業(yè)的客戶服務(wù)問題的解決方案對(duì)于解決全行業(yè)的客戶服務(wù)問題有著廣泛適用性[4].

聚類分析技術(shù)是一種常見的數(shù)據(jù)分析工具,其目的是把大量數(shù)據(jù)點(diǎn)的集合分成若干類,使得每個(gè)類中的數(shù)據(jù)之間最大程度地相似[5],而不同類中的數(shù)據(jù)最大程度地不同.聚類分析作為一種有效的無監(jiān)督分類方式,在數(shù)學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、生物學(xué)和經(jīng)濟(jì)學(xué)等領(lǐng)域得到了廣泛的應(yīng)用和關(guān)注,為深層次分析提供了技術(shù)支持和解決方案[6].

本文主要研究了將聚類分析技術(shù)應(yīng)用在電力客戶用電問題分析領(lǐng)域,通過一系列的數(shù)據(jù)預(yù)處理技術(shù)以及改進(jìn)的聚類分析方法,對(duì)供電服務(wù)過程產(chǎn)生的工單信息進(jìn)行挖掘分析.文中基于數(shù)據(jù)挖掘中的聚類技術(shù),以電力客服中心獲取的客戶用電問題為數(shù)據(jù)基礎(chǔ),建立客戶服務(wù)數(shù)據(jù)分析模型,進(jìn)而提出了針對(duì)用電問題分析的改進(jìn)的聚類算法.最后通過實(shí)驗(yàn)驗(yàn)證了該方法可快速準(zhǔn)確地實(shí)現(xiàn)客戶服務(wù)數(shù)據(jù)的自動(dòng)聚類,挖掘出隱藏的客戶用電問題關(guān)鍵信息,從而為改進(jìn)電力客服質(zhì)量與潛在服務(wù)風(fēng)險(xiǎn)預(yù)測提供了數(shù)據(jù)支撐.

本文內(nèi)容安排如下:第1節(jié)對(duì)客戶用電問題的經(jīng)典應(yīng)用場景以及被動(dòng)服務(wù)(事件驅(qū)動(dòng))和主動(dòng)服務(wù)(服務(wù)驅(qū)動(dòng))兩種情況進(jìn)行了詳細(xì)說明.第2節(jié)概括了數(shù)據(jù)預(yù)處理的方法,構(gòu)建了聚類分析模型和算法.第3節(jié)對(duì)省級(jí)電力客戶服務(wù)工單數(shù)據(jù)進(jìn)行了聚類分析,并對(duì)實(shí)驗(yàn)結(jié)果作了評(píng)估與比較.第4節(jié)闡述了聚類分析模型在實(shí)際應(yīng)用場景中的應(yīng)用方案.

1 用電問題分析

電力企業(yè)客戶服務(wù),是以電力客戶需求為導(dǎo)向,包括對(duì)電力客戶服務(wù)前、服務(wù)中和服務(wù)后的一切活動(dòng),是一個(gè)全員、全過程的系統(tǒng)工作.近年來,隨著電力消費(fèi)需求變化的加快,對(duì)電力客戶服務(wù)前,通過客戶歷史服務(wù)數(shù)據(jù),分析產(chǎn)生用電問題的客戶的關(guān)鍵特征,通過聚類分析技術(shù)對(duì)客戶進(jìn)行類比,挖掘出潛在具有類似特征的客戶群體,在客戶產(chǎn)生用電問題之前就主動(dòng)為客戶提供服務(wù),達(dá)到防患于未然的目的越來越迫切.

這些潛在客戶群具有極高的可能發(fā)生相同的用電問題,當(dāng)潛在客戶通過微信公眾號(hào)發(fā)起咨詢時(shí),首先抽取出在線客戶的關(guān)鍵特征,而后通過聚類的方法挖掘出有類似特征的其他客戶曾經(jīng)發(fā)生過哪些用電問題,以此來類比該用戶可能想要提出的用電問題.提高客戶服務(wù)的效率,從而輔助客服提升在線服務(wù)能力.

根據(jù)用電問題的產(chǎn)生情況不同,可將類比分析分為被動(dòng)服務(wù)(事件驅(qū)動(dòng))的類比分析和主動(dòng)服務(wù)(服務(wù)驅(qū)動(dòng))的類比分析兩種情況.對(duì)于因某小區(qū)大批量初裝用戶、舉行促銷活動(dòng)、中介惡意查詢、系統(tǒng)故障(繳費(fèi)未到賬)、出現(xiàn)極端天氣等因素導(dǎo)致某類用電問題的用戶達(dá)到一定數(shù)量或一定比例的需要被動(dòng)進(jìn)行類比分析的場景,可通過分析產(chǎn)生該類用電問題的客戶的關(guān)鍵特征,挖掘出具有類似用電問題的客戶群體,可以輔助客服提升在線服務(wù)能力.對(duì)于定期發(fā)起的如電費(fèi)賬單出賬、線路系統(tǒng)升級(jí)改造、安全隱患定期排查等需要主動(dòng)進(jìn)行類比分析的場景,可通過分析群體客戶的歷史服務(wù)數(shù)據(jù),挖掘出可能受影響的客戶群體,可以輔助電力公司提升主動(dòng)服務(wù)能力,而且此類場景還可以用于群體客戶服務(wù)風(fēng)險(xiǎn)預(yù)測與排查.較為典型的應(yīng)用場景包括:

(1)串戶場景:當(dāng)某個(gè)抄表段號(hào)一個(gè)月內(nèi)由于串戶問題,發(fā)起的客服咨詢達(dá)到了4個(gè)及4個(gè)以上,則需要進(jìn)行客戶用電問題類比分析,分析整個(gè)段號(hào)內(nèi)是否存在同樣具有串戶風(fēng)險(xiǎn)問題的客戶,對(duì)其進(jìn)行事先提醒,避免串戶問題的發(fā)生.

(2)電費(fèi)異常場景:當(dāng)某個(gè)區(qū)域一個(gè)月內(nèi)有4戶及4戶以上客戶由于電費(fèi)異常來進(jìn)行咨詢,則需要進(jìn)行客戶用電問題類比分析,分析整個(gè)區(qū)域內(nèi)是否存在其他當(dāng)前月用電量遠(yuǎn)超以往的客戶,對(duì)其進(jìn)行事先提醒,提醒客戶檢查家用電器是否故障,避免產(chǎn)生經(jīng)濟(jì)損失.

(3)頻繁停電場景:當(dāng)某個(gè)區(qū)域兩個(gè)月內(nèi)超過3戶(包括3戶)客戶發(fā)生停電,則需要向電力公司內(nèi)部業(yè)務(wù)員提醒,提醒其該區(qū)域可能存在設(shè)備故障問題,需要安排人員進(jìn)行停電原因排查.

(4)欠費(fèi)復(fù)電場景:在客服系統(tǒng)中自動(dòng)查詢斷電客戶,判斷其是否已經(jīng)繳納電費(fèi),如已經(jīng)繳納電費(fèi),自動(dòng)通知業(yè)務(wù)員盡快在24小時(shí)內(nèi)恢復(fù)通電,如客戶未繳納電費(fèi)主動(dòng)向客戶發(fā)送信息,提醒客戶及時(shí)繳納電費(fèi)以恢復(fù)通電,避免造成不必要的損失.

以上電力企業(yè)客戶服務(wù)問題場景都可以通過聚類分析技術(shù),對(duì)電力客戶群體依據(jù)用電問題的關(guān)鍵特征進(jìn)行聚類,以挖掘出潛在的具有相似用電問題特征的客戶群.常見客戶用電問題如表1所示.

表1 常見客戶用電問題

上述應(yīng)用場景中的業(yè)務(wù)流程如圖1所示.

圖1 應(yīng)用場景業(yè)務(wù)流程圖

圖1中描述的流程如下:先將客戶用電問題95598工單歷史數(shù)據(jù)庫與在線坐席訪客咨詢數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)以得到客戶用電問題歷史服務(wù)數(shù)據(jù)集,利用客戶用電問題歷史服務(wù)數(shù)據(jù)集訓(xùn)練聚類分析模型,然后依據(jù)主動(dòng)觸發(fā)條件或者被動(dòng)觸發(fā)條件將電力客戶群體送入聚類分析模型,發(fā)掘潛在具有相似用電問題特征的電力客戶群體.

2 模型構(gòu)建與算法設(shè)計(jì)

2.1 數(shù)據(jù)預(yù)處理

通常,客戶服務(wù)信息的數(shù)據(jù)格式為一張二維表,每一行為一個(gè)用戶服務(wù)記錄.表結(jié)構(gòu)中包含若干屬性,其屬性值涉及各種數(shù)據(jù)類型,以文本字符串居多.

2.1.1 缺失值處理

通過調(diào)研發(fā)現(xiàn)此類數(shù)據(jù)中往往會(huì)出現(xiàn)許多屬性值為空的情況.其原因在于:記錄的屬性是預(yù)定義的,可用于完整描述客戶服務(wù)中所有可能出現(xiàn)的特征;而在一個(gè)具體的客戶服務(wù)中,某些屬性所對(duì)應(yīng)的特征可能根本沒有出現(xiàn),從而導(dǎo)致缺失[7].所以對(duì)這些缺失值的處理,也是數(shù)據(jù)分析過程中的關(guān)鍵環(huán)節(jié).通常,對(duì)缺失數(shù)據(jù)的處理有兩種方式:用屬性的均值來填補(bǔ),或者直接刪除缺失數(shù)據(jù).在對(duì)于服務(wù)數(shù)據(jù)缺失值的處理上,可以分情形采用不同的方式.如果缺失值所占比例較低且為數(shù)值類型,則可通過均值來填充;反之,如果缺失值所占比例較高,則可認(rèn)為對(duì)應(yīng)屬性所描述的為非公共特征,采用直接刪除的方法是較為合理的.

2.1.2 冗余處理

客戶服務(wù)數(shù)據(jù)內(nèi)容往往較為繁雜,數(shù)據(jù)內(nèi)部存在冗余.而且,還可以根據(jù)實(shí)際需求對(duì)數(shù)據(jù)進(jìn)行降維,通過縮小數(shù)據(jù)規(guī)模使實(shí)驗(yàn)更為高效.客戶服務(wù)數(shù)據(jù)一般是由若干條記錄所構(gòu)成的一張二維表,每一行為一條記錄,記錄的每個(gè)分量為一個(gè)屬性值,對(duì)應(yīng)某個(gè)屬性.這些屬性的集合構(gòu)成一個(gè)記錄結(jié)構(gòu).不妨將此類結(jié)構(gòu)化數(shù)據(jù)中的最小語義單位稱為語義原子.為了給出冗余處理的方法,以下先給出記錄結(jié)構(gòu)、語義塊及極小語義覆蓋的定義,然后給出相應(yīng)的求解極小語義覆蓋的算法,從而實(shí)現(xiàn)冗余處理[8].

定義1.一個(gè)記錄結(jié)構(gòu)R是一個(gè)有限集,其中任一元素e∈R稱為一個(gè)屬性,而一個(gè)屬性則是若干語義原子的集合.

定義2.令e為記錄結(jié)構(gòu)R中的一個(gè)屬性,e的語義基He是e中包含的所有語義原子的集合,記錄結(jié)構(gòu)R的語義基HR是R的所有屬性中所包含的語義原子的集合,即一般地,對(duì)于任一H′?H,為H′的語義基.

定義3.令R為一個(gè)記錄結(jié)構(gòu),如果ParR={B1,…,Bn},滿足Bi?R,Bi∩Bj=?,且HBi∩HBj= ?,其中1≤i,則ParR稱為R的一個(gè)語義劃分,Bi稱為R的屬性塊.若n=1,則ParR稱為R的一個(gè)平凡語義劃分.

定義4.令R為一個(gè)記錄結(jié)構(gòu),ParR為R的一個(gè)語義劃分,B∈ParR.如果B′?B滿足HB=HB′ 且?e∈B′則B′稱為B的極小語義覆蓋.

以一個(gè)例子來說明上述概念.假設(shè)記錄結(jié)構(gòu)R的若干個(gè)屬性中有3個(gè)用于描述地址信息,分別是**省、**市、**市**區(qū)/縣,則可將這三個(gè)屬性劃分為屬性塊B1={**省,**市,**市**區(qū)/縣},則屬性塊B1語義基為HB1={**省,**市,**區(qū)/縣}.HB1中的語義原子為**省、**市、**區(qū)/縣.B1屬性塊的一個(gè)極小語義覆蓋為{**省,**市**區(qū)/縣}.

通過語義劃分得到屬性塊,根據(jù)需求刪除沒用的屬性塊,對(duì)保留的屬性塊求極小語義覆蓋.求極小語義覆蓋的具體流程如下.

輸入:屬性塊B輸出:B極小語義覆蓋B′B′1)初始化一個(gè)空集 .{x|x∈He且xHB′}2)從B中找出一個(gè)屬性e,e需滿足集合內(nèi)元素最多,若有多個(gè)屬性滿足要求,則取語義原子數(shù)量最少的屬性,將其添加到 .B′ B′3)判斷是否語義覆蓋B,若剛好語義覆蓋,則輸出 ,反之,則返回步驟2).B′

2.1.3 數(shù)據(jù)編碼

在數(shù)據(jù)的操作中,針對(duì)不同的地址數(shù)據(jù),采用轉(zhuǎn)換到統(tǒng)一坐標(biāo)系下的方式,方便對(duì)數(shù)據(jù)進(jìn)行處理與分析.地址數(shù)據(jù)在原數(shù)據(jù)中通常以文字說明的形式呈現(xiàn),為了保留原數(shù)據(jù)的語義信息并切實(shí)表現(xiàn)數(shù)據(jù)之間的語義差異,對(duì)原數(shù)據(jù)的地址信息進(jìn)行地理編碼.地理編碼是將地址信息映射到地理坐標(biāo)的過程,其中地理坐標(biāo)用地理經(jīng)緯度信息表示,這樣原地址數(shù)據(jù)轉(zhuǎn)換為兩個(gè)維度信息:經(jīng)度信息和緯度信息[9].

圖2所示為通過地理編碼后的地址信息表現(xiàn)為兩維信息,通過逆地理編碼可將這兩維信息還原為客戶地址.

圖2 地理編碼與逆地理編碼

在數(shù)據(jù)操作過程中,不同屬性之間存在從屬關(guān)系,則可以參考郵政編碼和身份證地址碼采用K級(jí)M位編碼規(guī)則[10],如圖3所示.

圖3中的X代表占位符,每級(jí)采用若干位數(shù)字表示,每級(jí)的實(shí)際位數(shù)由該層級(jí)的類別數(shù)目決定,實(shí)際位數(shù)等于該層級(jí)類別數(shù)目的位數(shù).因此K級(jí)M位編碼規(guī)則中的M滿足:M=m1+m2+m3+…+mk.

圖3 K級(jí)M位編碼規(guī)則

2.2 算法設(shè)計(jì)

2.2.1 原始K-Means算法原理

K-Means算法是一種實(shí)現(xiàn)簡單、應(yīng)用廣泛的聚類算法,以平均值作為聚類中心,簇內(nèi)點(diǎn)盡可能緊密,簇間距離盡量大.K-Means算法首先要選取初始聚類中心,并對(duì)所有數(shù)據(jù)點(diǎn)進(jìn)行分類,之后根據(jù)每個(gè)聚類的平均值來調(diào)整聚類中心,循環(huán)迭代直到確定的中心點(diǎn)不再改變[11].目的是使各個(gè)類內(nèi)包含對(duì)象相似性最大,類間對(duì)象相似性最小.算法流程如下.

輸入:聚類的簇?cái)?shù)K和包含N個(gè)樣本的數(shù)據(jù)集輸出:K個(gè)聚類簇,使平方誤差準(zhǔn)則最小1)從N個(gè)樣本中選擇K個(gè)樣本,作為初始聚類中心.2)計(jì)算其余樣本到各聚類中心的距離,將其分配到距離最短的距離中心對(duì)應(yīng)的類別中.3)更新聚類中心:將每個(gè)類別中所有樣本所對(duì)應(yīng)的均值作為該類別的聚類中心,計(jì)算目標(biāo)函數(shù)的值.4)判斷聚類中心和目標(biāo)函數(shù)的值是否發(fā)生改變,若不變,則輸出結(jié)果;若改變,則返回步驟2).

大小為n的數(shù)據(jù)集,指定的聚類數(shù)為k,樣本的維數(shù)為k,則進(jìn)行一次迭代的計(jì)算時(shí)間由三部分組成:將每一個(gè)樣本歸到離它最近的聚類中心,需要時(shí)間O(ndk);新的類產(chǎn)生后,計(jì)算新的聚類中心所需的時(shí)間O(nd);計(jì)算聚類成本函數(shù)所需時(shí)間O(nd);而迭代次數(shù)則由數(shù)據(jù)集大小、聚類數(shù)以及數(shù)據(jù)分布情況決定,算法總的時(shí)間復(fù)雜度為O(ndk)[12].

2.2.2 肘部法則

通常,使用肘部法則求K-Means聚類最佳分類數(shù)K.K-Means算法運(yùn)行過程中會(huì)不斷地移動(dòng)類中心點(diǎn),也就是重心,把類中心點(diǎn)移動(dòng)到該中心點(diǎn)包含樣本的位置的平均值,然后重新劃分其內(nèi)部成員[13].K-Means雖然可以自動(dòng)分配樣本到相應(yīng)的類,但是不能決定要?jiǎng)澐殖龆嗌賯€(gè)類.K-Means的參數(shù)為類的重心位置和其內(nèi)部觀測值的位置.K-Means參數(shù)的最優(yōu)解能夠使成本函數(shù)值最小.K-Means成本函數(shù)公式如下:

式中,μk表示第k個(gè)類的重心位置.類的畸變程度為類重心與類內(nèi)部成員位置距離的平方之和,成本函數(shù)為所有類畸變程度(distortions)之和.由成本函數(shù)知,如果類內(nèi)部的成員分布越緊湊,那么類的畸變程度越小;反之,如果類內(nèi)部的成員分布越分散,那么類的畸變程度越大.因此,要求出使成本函數(shù)最小化的參數(shù),就需要重復(fù)配置每個(gè)類s包含的觀測值,并不斷移動(dòng)類重心直到求出為止.

肘部法則的核心思想是:隨著簇?cái)?shù)k的變大,數(shù)據(jù)集的劃分會(huì)變得精細(xì),每個(gè)簇的聚合程度會(huì)逐漸提高,那么成本函數(shù)值會(huì)逐漸變小.如果k小于實(shí)際的聚類數(shù)時(shí),那么k的變大會(huì)大幅提高各個(gè)簇的聚合程度,成本函數(shù)值的下降幅度也會(huì)很大;而當(dāng)k等于真實(shí)聚類數(shù)時(shí),再增加k所得到的聚合程度的提高會(huì)迅速變小,成本函數(shù)值的也會(huì)隨之大幅下降,之后伴隨k值的繼續(xù)變大而趨于穩(wěn)定,也就是說成本函數(shù)值和k值的關(guān)系圖會(huì)呈現(xiàn)出手肘形狀的曲線,而這個(gè)肘部對(duì)應(yīng)的k值就是數(shù)據(jù)的真實(shí)聚類數(shù)[14].

2.2.3 改進(jìn)的K-Means算法

針對(duì)客服工單數(shù)據(jù)中存在較多孤立點(diǎn),對(duì)聚類分析結(jié)果產(chǎn)生巨大影響的情況下,本文對(duì)傳統(tǒng)K-Means算法進(jìn)行改進(jìn),使改進(jìn)后的K-Means算法更加適用于客戶工單類數(shù)據(jù)的分析.

當(dāng)簇內(nèi)樣本是密集的,而簇間區(qū)別明顯時(shí),表明KMeans算法效果顯著.對(duì)于處理大數(shù)據(jù)集,K-Means算法依然高效,復(fù)雜度為O(nkt),其中t是迭代的次數(shù).但是,K-Means算法也存在局限性,它只能在聚類樣本的平均值被定義時(shí)才可以執(zhí)行,且無法適用于需要處理符號(hào)屬性的數(shù)據(jù).K-Means算法對(duì)初始聚類中心與樣本的輸入順序較為敏感,對(duì)于與不同的輸入順序,聚類結(jié)果往往會(huì)有較大差異.因?yàn)樗惴ㄊ褂玫碌姆椒?所以當(dāng)初始聚類中心在局部值最小附近時(shí),算法比較容易得到局部最優(yōu)解.

要進(jìn)行聚類的初始數(shù)據(jù)大多都存在孤立點(diǎn),即存在較少數(shù)據(jù)點(diǎn)距離數(shù)據(jù)密集分布區(qū)域較遠(yuǎn)的情況.因?yàn)樗惴ㄊ紫入S機(jī)地選取若干樣本作為初始聚類中心,所以此時(shí)可能存在將孤立點(diǎn)選為初始聚類中心的情況,這種情況會(huì)嚴(yán)重影響聚類效果.此外,在聚類運(yùn)算過程中,會(huì)將聚類均值點(diǎn)(類中心中所有樣本位置的平均值)作為新的聚類中心進(jìn)行聚類.孤立點(diǎn)會(huì)導(dǎo)致新的聚類中心偏離數(shù)據(jù)密集區(qū),使聚類效果變差.因此,孤立點(diǎn)的存在會(huì)對(duì)K-Means算法的聚類效果產(chǎn)生很大的影響[15].所以,改進(jìn)算法首先進(jìn)行查找并排除孤立點(diǎn),然后才可以進(jìn)行聚類.

為排除孤立點(diǎn),減少孤立點(diǎn)對(duì)聚類的影響,可以先計(jì)算初始數(shù)據(jù)集中各個(gè)樣本之間的距離,將每個(gè)樣本與其他樣本距離之和求出,刪除距離之和最大的點(diǎn).可以根據(jù)精確度的要求,刪除若干個(gè)距離之和較大的樣本,這樣可以極大地減少孤立點(diǎn)對(duì)聚類的影響.查找并排除基于距離之和的孤立點(diǎn)時(shí),算法將進(jìn)行N平方次的樣本間的距離計(jì)算,當(dāng)N增大時(shí),計(jì)算量將幾何倍的增長.為了減少計(jì)算量,先用代價(jià)很小的粗聚類方法進(jìn)行聚類,再根據(jù)每個(gè)粗聚類簇內(nèi)的樣本個(gè)數(shù)按比例均勻抽出若干樣本,抽出的樣本可以代表粗聚類簇,這些抽出的樣本分布在樣本空間各個(gè)角落,這樣抽出的樣本比直接從數(shù)據(jù)集內(nèi)均勻抽取的樣本更具代表性,因此這些抽出的樣本可以有效地代表原數(shù)據(jù)集.此時(shí),不需計(jì)算每一樣本與原始數(shù)據(jù)集中其他樣本的距離,只需計(jì)算樣本與抽出的對(duì)象的距離,正常抽取的樣本數(shù)量較少,所以算法的復(fù)雜度將極大地降低.

此外,為提高K-Means聚類算法在客戶服務(wù)工單數(shù)據(jù)分析中的準(zhǔn)確率,使用了一種自適應(yīng)特征權(quán)重的K-Means聚類算法.該算法首先計(jì)算屬性的均方差來選取初始聚類中心,根據(jù)迭代結(jié)果,按照類內(nèi)緊密、類間遠(yuǎn)離的原則調(diào)整屬性在距離公式中的特征權(quán)重,這樣能使數(shù)據(jù)點(diǎn)在歐氏空間中的真實(shí)距離更加明顯,也使用本文所用到的客戶服務(wù)工單數(shù)據(jù)對(duì)算法的有效性進(jìn)行驗(yàn)證[16].

將n個(gè)m維待聚類樣本表示為如下的矩陣形式:

為使不同屬性上的數(shù)據(jù)具有可比性,也為了方便計(jì)算屬性貢獻(xiàn)度,將上述矩陣按維度歸一化至[0.01,1].設(shè)當(dāng)前迭代后將n個(gè)對(duì)象劃分為K個(gè)聚類,每個(gè)聚類中的對(duì)象個(gè)數(shù)分別為:n1,n2,…,nk,則所有K個(gè)聚類在第j維屬性上的類內(nèi)距離之和為:

式中,mkj為聚類k在第j維屬性上的均值.所有K個(gè)聚類在第j維屬性上的類間距離之和為:

其中,mj為數(shù)據(jù)集在第j維屬性上的均值.根據(jù)當(dāng)前迭代結(jié)果,計(jì)算屬性j對(duì)聚類的貢獻(xiàn)度:cj=dw/dn.類內(nèi)緊湊、類間遠(yuǎn)離通常用來度量聚類的整體性能.對(duì)單個(gè)屬性而言,如果聚類的結(jié)果在該屬性上滿足類內(nèi)緊湊且類間遠(yuǎn)離的原則,則表明該屬性區(qū)分對(duì)象的能力強(qiáng),對(duì)聚類的貢獻(xiàn)大;反之,則表明該屬性區(qū)分對(duì)象的能力弱,對(duì)聚類的貢獻(xiàn)小.第j維屬性的特征權(quán)重為:

使用上式修正歐氏距離公式,得到加權(quán)的歐氏距離公式:

屬性的特征權(quán)重可以根據(jù)屬性的貢獻(xiàn)度預(yù)先設(shè)定.屬性的特征權(quán)重越大,就說明該屬性對(duì)聚類越重要,在歐氏空間中該屬性的坐標(biāo)軸就會(huì)產(chǎn)生較大拉伸;反之,說明該屬性對(duì)聚類不重要,歐氏空間中該屬性的坐標(biāo)軸就會(huì)產(chǎn)生較大縮減.屬性權(quán)重的設(shè)定有兩種特殊情況:一種是所有屬性的權(quán)重都相同,此時(shí)便是傳統(tǒng)的聚類方法;另一種是屬性權(quán)重為零,即為不考慮,可排除此種屬性影響.

為驗(yàn)證改進(jìn)K-Means聚類算法的有效性,在Python環(huán)境下,對(duì)傳統(tǒng)K-Means、基于信息熵的固定權(quán)重KMeans聚類算法及改進(jìn)K-Means聚類算法的有效性進(jìn)行檢驗(yàn),比較不同聚類算法的性能.

首先選取UCI上的鳶尾花數(shù)據(jù)集說明改進(jìn)算法對(duì)權(quán)重的調(diào)整過程.該數(shù)據(jù)集共有4個(gè)屬性,其中petal length和petal width兩個(gè)屬性對(duì)聚類結(jié)果影響較大.

用傳統(tǒng)K-Means算法連續(xù)運(yùn)行10次,其平均迭代次數(shù)為7.3次,基于信息熵的固定權(quán)重K-Means算法迭代次數(shù)為5次,改進(jìn)K-Means聚類算法經(jīng)過4 次迭代后收斂,說明改進(jìn)K-Means聚類算法能夠顯著減少迭代次數(shù).改進(jìn)K-Means聚類算法對(duì)鳶尾花數(shù)據(jù)集各屬性特征權(quán)重的調(diào)整情況如圖4所示.

圖4 鳶尾花特征權(quán)重調(diào)整曲線

由圖4可知,隨著迭代的進(jìn)行,算法能夠自動(dòng)識(shí)別屬性的重要性,重要屬性的特征權(quán)重逐步增大,次要屬性的權(quán)重不斷減小,最終petal length和petal width兩個(gè)屬性的權(quán)重由最初的0.25分別調(diào)整為0.4314和0.4731.這種動(dòng)態(tài)調(diào)整反映了各屬性對(duì)類內(nèi)緊密、類間遠(yuǎn)離聚類結(jié)果的重要程度,能夠更真實(shí)地反映對(duì)象在歐氏空間中距離,減小距離失真程度,有利于提高聚類性能.

3 基于電力工單數(shù)據(jù)的實(shí)驗(yàn)及結(jié)果分析

每年的電力客戶服務(wù)工單數(shù)據(jù)存在相似性,因此數(shù)據(jù)選取一年范圍內(nèi)的服務(wù)工單,而一年中受天氣因素的影響,四個(gè)季度之間的服務(wù)工單數(shù)據(jù)差距較大,每個(gè)季度3個(gè)月份之間的差別較小,因此數(shù)據(jù)選取以一年跨度中的每個(gè)季度中最具代表性的月份,即2017年8月、2017年11月、2018年2月和2018年5月的省級(jí)所有服務(wù)工單為數(shù)據(jù)基礎(chǔ),并在關(guān)聯(lián)工單和在線坐席訪問數(shù)據(jù)后,從客戶用電問題內(nèi)容出發(fā)進(jìn)行了挖掘分析,處理的工單記錄數(shù)共計(jì)35 000條.

3.1 電力數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)數(shù)據(jù)主要來自電力服務(wù)工單數(shù)據(jù),結(jié)合調(diào)研結(jié)果以及冗余處理的方法,針對(duì)風(fēng)險(xiǎn)預(yù)測業(yè)務(wù)場景的需求,總結(jié)出八維屬性包括供電單位、地市、區(qū)縣、客戶地址、工單類型、業(yè)務(wù)類型一級(jí)、業(yè)務(wù)類型二級(jí)、業(yè)務(wù)類型三級(jí).但是屬性值主要為文本,因此需要對(duì)工單數(shù)據(jù)進(jìn)行數(shù)值化操作.

考慮到郵政編碼和身份證地址碼都存在不同區(qū)共用一個(gè)編碼的問題,對(duì)于地市、區(qū)縣采用三級(jí)六位編碼制,前兩位表示省,第三四位代表地市,最后兩位代表區(qū)縣,對(duì)全省各地市區(qū)縣進(jìn)行數(shù)值化編碼.供電單位編碼規(guī)則類似采用三級(jí)六位編碼制,前兩位表示省,第三四位代表地市,最后兩位代表區(qū)供電單位.

電力服務(wù)工單數(shù)據(jù)中的工單類型、業(yè)務(wù)一級(jí)、業(yè)務(wù)二級(jí)、業(yè)務(wù)三級(jí)的編碼規(guī)則采用四級(jí)四位編碼制,第一位代表工單類型,第二位代表業(yè)務(wù)一級(jí),第三位代表業(yè)務(wù)二級(jí),第四位代表業(yè)務(wù)三級(jí).

電力服務(wù)工單數(shù)據(jù)中的客戶地址采用轉(zhuǎn)換到統(tǒng)一坐標(biāo)系下的形式,每個(gè)地址對(duì)應(yīng)二維數(shù)據(jù),分別代表經(jīng)度和緯度.

3.2 最佳聚類數(shù)

預(yù)處理后的數(shù)據(jù)利用手肘法選取最佳聚類數(shù)k.具體做法是讓k從20開始取值直到取到你認(rèn)為合適的上限(一般來說這個(gè)上限不會(huì)太大,這里選取上限為30),對(duì)每一個(gè)k值進(jìn)行聚類并且記下對(duì)應(yīng)的SSE (誤差平方和),然后畫出k和SSE的關(guān)系圖,最后選取肘部對(duì)應(yīng)的k作為最佳聚類數(shù).畫出的k與SSE的關(guān)系圖如圖5所示.

圖5 SSE與k的關(guān)系圖

顯然,肘部對(duì)于的k值為23,故對(duì)于這個(gè)數(shù)據(jù)集的聚類而言,最佳聚類數(shù)應(yīng)該選23.

3.3 評(píng)估方法

K-Means是一種非監(jiān)督學(xué)習(xí),不像監(jiān)督學(xué)習(xí)的分類問題和回歸問題,無監(jiān)督聚類沒有樣本輸出,也就沒有比較直接的聚類評(píng)估方法.但是可以從簇內(nèi)的稠密程度和簇間的離散程度來評(píng)估聚類的效果.常見的方法有輪廓系數(shù)Silhouette Coefficient[17]和Calinski-Harabasz Index[18].本實(shí)驗(yàn)采用Calinski-Harabasz Index方法,這個(gè)方法計(jì)算簡單直接,得到的Calinski-Harabasz分?jǐn)?shù)值s越大則聚類效果越好.

Calinski-Harabasz分?jǐn)?shù)值s的數(shù)學(xué)計(jì)算公式是:

其中,m為訓(xùn)練集樣本數(shù),k為類別數(shù).Bk為類別之間的協(xié)方差矩陣,Wk為類別內(nèi)部數(shù)據(jù)的協(xié)方差矩陣,tr為矩陣的跡.

也就是說,類別內(nèi)部數(shù)據(jù)的協(xié)方差越小越好,類別之間的協(xié)方差越大越好,這樣的Calinski-Harabasz分?jǐn)?shù)會(huì)高.

3.4 實(shí)驗(yàn)結(jié)果

利用改進(jìn)的K-Means算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類分析,并采用Calinski-Harabasz Index方法對(duì)聚類的結(jié)果進(jìn)行打分,結(jié)合之前肘部法則推算出的最佳k值,實(shí)驗(yàn)讓k從20開始取值直到取到29,實(shí)驗(yàn)結(jié)果如表2所示.

表2 改進(jìn)K-Means算法聚類結(jié)果得分

用Calinski-Harabasz Index評(píng)估的k=23時(shí)候聚類分?jǐn)?shù)為,可見k=23的聚類分?jǐn)?shù)比其他都要高,這也符合預(yù)期.預(yù)處理后的數(shù)據(jù)為維度為9,當(dāng)特征維度大于2,無法直接可視化聚類效果時(shí),用Calinski-Harabasz Index評(píng)估是一個(gè)很實(shí)用的方法.

根據(jù)改進(jìn)K-Means算法聚類分析結(jié)果的Calinski-Harabasz Index評(píng)估得分?jǐn)?shù)畫出曲線圖可以更加直觀的看出實(shí)驗(yàn)聚類分析結(jié)果,曲線圖如圖6所示.

圖6 Calinski-Harabasz Index得分曲線圖

當(dāng)k值取23時(shí)改進(jìn)K-Means算法聚類分析得出23個(gè)簇中心如表3所示.

表3 改進(jìn)K-Means算法得出的23個(gè)聚類簇中心

表3中每一行代表一個(gè)聚類簇中心坐標(biāo),H1至H9分別代表供電單位、地市、區(qū)縣、客戶地址經(jīng)度、客戶地址維度、工單類型、業(yè)務(wù)類型一級(jí)、業(yè)務(wù)類型二級(jí)、業(yè)務(wù)類型三級(jí)對(duì)應(yīng)的坐標(biāo).

簇中心1至簇中心23分別代表的用電問題如表4所示.

表4 聚類簇中心

通過將各個(gè)簇中心業(yè)務(wù)類型、業(yè)務(wù)分級(jí)的數(shù)值與事先約定的編碼規(guī)則對(duì)照,可以得到具體的用電問題,從而降低服務(wù)風(fēng)險(xiǎn).以簇中心6為例,該位置有較多的客戶進(jìn)行投訴,反應(yīng)搶修服務(wù)超出時(shí)限.該模型可以實(shí)時(shí)導(dǎo)入新的數(shù)據(jù),實(shí)現(xiàn)對(duì)簇中心的實(shí)時(shí)調(diào)整以應(yīng)對(duì)新的服務(wù)風(fēng)險(xiǎn)的出現(xiàn).

3.5 結(jié)果分析

K-Means算法作為一種常用的聚類算法,對(duì)球狀分布的數(shù)據(jù)具有很好的效果,但是算法對(duì)初始聚類中心敏感,容易受到孤立點(diǎn)的影響.文中在聚類之前排除了孤立點(diǎn)的影響,提出了一種新的選取初始聚類中心的方法.針對(duì)客服工單數(shù)據(jù)中存在較多孤立點(diǎn),對(duì)聚類分析結(jié)果產(chǎn)生巨大影響的情況下,文章對(duì)傳統(tǒng)K-Means算法進(jìn)行改進(jìn),使改進(jìn)后的K-Means算法更加適用于客戶工單數(shù)據(jù).

分別利用原 K-Means算法和改進(jìn)后的 K-Means算法進(jìn)行聚類分析對(duì)比,聚類結(jié)果如表5所示.

實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法更接近實(shí)際數(shù)據(jù)分布.雖然需要查找少量孤立點(diǎn),會(huì)增加時(shí)間消耗,但是改進(jìn)算法準(zhǔn)確度較高,聚類效果較好.

為了更加直觀的表現(xiàn)改進(jìn)算法的優(yōu)越性,根據(jù)經(jīng)典K-Means算法和改進(jìn)后的K-Means算法的聚類結(jié)果分析對(duì)比表畫出曲線對(duì)比圖,如圖7所示.

通過兩者的聚類結(jié)果分析對(duì)比曲線圖可以很明顯的看出改進(jìn)后的K-Means算法Calinski-Harabasz得分更高,聚類效果更好,更加準(zhǔn)確挖掘出潛在具有相同問題的電力客戶.

表5 原算法和改進(jìn)后算法的Calinski-Harabasz分值對(duì)比

圖7 聚類結(jié)果分析對(duì)比曲線圖

比較每一條聚類結(jié)果是否和真是的結(jié)果一致,計(jì)算聚類結(jié)果的準(zhǔn)確率(Accuracy),如式(7)所示.

其中,N表示工單總數(shù),Ncor表示正確聚類的工單數(shù).改進(jìn)后的K-Means聚類模型準(zhǔn)確率高達(dá)91.2%.而采用傳統(tǒng)的聚類算法模型,準(zhǔn)確率只有85.7%.通過驗(yàn)證認(rèn)為,改進(jìn)后的K-Means模型能從工單數(shù)據(jù)出發(fā),較為精準(zhǔn)地將具有相同問題的電力客戶聚類.

4 結(jié)論

針對(duì)客戶服務(wù)數(shù)據(jù)的特征,本文給出了一種改進(jìn)的K-Means聚類算法.應(yīng)用該算法可以從大量工單數(shù)據(jù)中找到若干個(gè)簇中心,以挖掘出客戶服務(wù)中的用電問題,不僅為改進(jìn)客服服務(wù)質(zhì)量提供數(shù)據(jù)支撐,還能為潛在服務(wù)風(fēng)險(xiǎn)的預(yù)測奠定數(shù)據(jù)基礎(chǔ),從而讓相關(guān)企業(yè)為客戶提供更優(yōu)質(zhì)的服務(wù).

以電力工單數(shù)據(jù)分析為例,根據(jù)用電問題產(chǎn)生情況的不同,可將類比分析分為被動(dòng)服務(wù)(事件驅(qū)動(dòng))的類比分析和主動(dòng)服務(wù)(服務(wù)驅(qū)動(dòng))的類比分析兩種情況.

(1)對(duì)于因大批量初裝用戶、舉行促銷活動(dòng)、中介惡意查詢、系統(tǒng)故障(繳費(fèi)未到賬)、出現(xiàn)極端天氣等因素導(dǎo)致某類用電問題的用戶達(dá)到一定數(shù)量或占一定比例的業(yè)務(wù)場景,則可施行被動(dòng)服務(wù)類比分析,將發(fā)生該類問題的客戶服務(wù)工單數(shù)據(jù),作為改進(jìn)K-Means算法的輸入,進(jìn)行聚類分析,從而得到代表著該類用電問題的簇中心.當(dāng)再次接入新的客戶時(shí),可以通過計(jì)算新客戶與該類問題簇中心的歐式距離來判定潛在的風(fēng)險(xiǎn):若新客戶在簇類內(nèi),則客戶是該類問題的潛在風(fēng)險(xiǎn)客戶,若客戶在簇類外,則客戶發(fā)生該類問題風(fēng)險(xiǎn)較小.因此,改進(jìn)的算法可以預(yù)先判斷客戶是否具有發(fā)生該類問題的風(fēng)險(xiǎn),從而提前實(shí)施相應(yīng)的措施.

(2)對(duì)于定期(每月、每周或每天)發(fā)起的如電費(fèi)賬單出賬、線路系統(tǒng)升級(jí)改造、安全隱患定期排查等業(yè)務(wù)場景,則可以采用主動(dòng)服務(wù)類比分析,將存在多種用電問題的客戶服務(wù)工單數(shù)據(jù),作為改進(jìn)的聚類算的輸入,從而得到代表前N個(gè)最頻繁出現(xiàn)的用電問題的簇中心.以此數(shù)據(jù)為支撐,再結(jié)合業(yè)務(wù)處置的歷史經(jīng)驗(yàn),可做出相應(yīng)的日常風(fēng)險(xiǎn)預(yù)判.比如,該方法還可以通過對(duì)往年同期數(shù)據(jù)的聚類,挖掘出高概率發(fā)生的具體用電問題的信息包括時(shí)間和地點(diǎn)等,通知相關(guān)部門做好預(yù)防措施;再如,通過對(duì)實(shí)時(shí)工單數(shù)據(jù)的聚類,可以挖掘出突發(fā)問題,從而能及時(shí)通知相關(guān)部門前往驗(yàn)證并解決突發(fā)問題,與此同時(shí)通知出現(xiàn)電力問題區(qū)域的客戶,讓客戶知曉當(dāng)前的情況,以減少投訴,減輕客服壓力.

值得一提的是,該方法還可以應(yīng)用到其他相關(guān)行業(yè)的客服系統(tǒng),以提升客戶服務(wù)質(zhì)量.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡