国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于密度的聚類算法與改進拉依達準則的95598工單處理方法

2022-11-22 11:04:14陸子秋
電力與能源 2022年5期
關鍵詞:離群準則聚類

彭 昕,陸子秋,閆 筱

(國網(wǎng)上海市電力公司嘉定供電公司,上海 201800)

95598客服熱線作為電網(wǎng)公司與用戶交流的平臺,是重要的服務窗口。隨著電力行業(yè)的發(fā)展,用戶體驗要求不斷提高,為盡快解決用戶問題,對客服人員工作效率的要求也不斷提高[1]。另外,客服人員在記錄用戶描述的問題時可能會由于各種因素導致部分信息出錯,一旦故障地址填寫錯誤,就可能導致?lián)屝奕藛T前往錯誤地址,占用搶修資源,延長故障修復時間,影響用戶的正常用電。因此,利用各種高效且具備一定糾錯能力的數(shù)據(jù)處理工具構建處理系統(tǒng),已成為當前急需解決的問題。

為解決這些問題,本文利用密度的聚類算法(DBSCAN)識別出脫離用戶聚集區(qū)的異常點,利用改進拉依達準則識別位于用戶聚集區(qū)的異常點,對于識別出的異常點均利用抄表段中心坐標替換。為方便工作人員進行分析,將所有故障信息在地圖上進行可視化處理,輸出故障熱力圖。

1 故障地址糾正

95598客服人員在接聽用戶來電時,可能由于多種因素導致部分地址不準確,大幅偏離實際地址,海量數(shù)據(jù)下逐個回訪確認耗時耗力,效率低下。為不影響搶修人員前往現(xiàn)場搶修,可將錯誤地址修正為實際地址周邊區(qū)域,而同抄表段往往代表著地理位置相近,因此可利用抄表段中心地址替換錯誤地址。

為增強中文地址的可處理性,將其轉化為經緯度坐標進行分析,若無法轉換,說明待轉換地址缺失部分信息或有較多不規(guī)范的俗稱,可將無法轉換的地址記錄下來并利用抄表段中心坐標替換,其基本技術路線如圖1所示。

圖1 地理編碼技術路線

2 抄表段中心坐標

通常情況下,同抄表段下有多個故障地址,而同一抄表段往往代表著地理位置相近,可以利用抄表段中心地址來替換掉錯誤地址,并且即使算法將正常坐標點誤判為異常坐標點。由于采用地址相近的抄表段坐標中心,也不會使得誤判坐標點較實際地址相差過大。

在計算抄表段中心坐標時,應不能包括待判斷坐標值,公式如下:

(1)

式中Ci——第i個坐標的抄表段中心坐標;Ai——不包含待判斷坐標值的集合;xi——第i個坐標值。

由式(1)可知,由于計算抄表段中心坐標排除自身,因此即使抄表段相同,計算出的抄表段中心也可能不同。

3 DBSCAN異常檢測算法

故障地址常為居民聚集區(qū)或工業(yè)聚集區(qū),轉換為經緯度坐標同樣具備此類特性,脫離聚集區(qū)域的離群點往往為記錄錯誤的地址,且由于用戶聚集區(qū)域的復雜性,某個地區(qū)聚集區(qū)域的形狀、數(shù)量是難以獲取的,因此異常檢測算法必須能適應各種不同的聚集區(qū)域形狀,根據(jù)數(shù)據(jù)情況自適應不同數(shù)量的聚集區(qū)域,DBSCAN能有效檢測離群點[2-3],并且DBSCAN劃分具有足夠密度的數(shù)據(jù)區(qū)域為簇,與K-Means等算法比較,DBSCAN能處理各種形狀的數(shù)據(jù)區(qū)域,也不需要指定聚類個數(shù)。

與K-Means算法相比,DBSCAN更適合用于異常檢測,DBSCAN具體計算流程如下。

(1)定義鄰域半徑ε、鄰域半徑中點的最小數(shù)目min_samples。

(2)隨機初始化一個點xi,若該點為核心點,則該點鄰域半徑內應包含至少min_samples個點,即:

Nε(xi)≥min_samples

(2)

若該點不滿足式(2),則該點為邊界點,重新初始化一個點,邊界點鄰域內:

Nε(xi)≤min_samples

(3)

(3)初始化第一點后,逐個判斷其鄰域內的點是否為核心點,若為核心點,仍逐個判斷其鄰域內的點是否為核心點,直到處理完所有的點。

其中,異常點為既不是核心點也不是邊界點的坐標點。

由DBSCAN原理可知,其僅能識別出脫離聚集區(qū)的離群異常點,并且由于DBSCAN是先確定異常點再利用排除異常點后的抄表段中心替換異常點,基本技術路線如圖2所示。計算抄表段中心坐標不易受離群異常點影響,剔除異常點后也有利于提升下一步先計算抄表段中心再識別異常點的改進拉依達準則算法的魯棒性。

圖2 DBSCAN算法技術路線

為進一步說明DBSCAN的優(yōu)勢,采用經典的笑臉散點圖進行說明,不同的類別利用不同的顏色表示,其中DBSCAN算法聚類示意圖如圖3所示,K-Means算法聚類示意圖如圖4所示。

圖3 DBSCAN算法聚類示意圖

圖4 K-Means算法聚類示意圖

由圖3和圖4可知,對于相對而言較容易聚類的笑臉的眼睛與嘴巴部分,兩種算法都能有較好的分辨能力。在實際情況中,用戶聚集區(qū)的形狀往往并非明顯呈一個可被K-Means算法聚類中心的近圓形,且各聚集區(qū)往往也不會有較大的間隔,這使得K-Means的魯棒性非常差,多次聚類結果往往不一致,對于復雜形狀甚至無法聚類,例如笑臉中包圍中心的外圍圓形。DBSCAN則很好地解決了此類問題,仍能將笑臉外圍的圓形聚為一類。

4 改進拉依達準則

DBSCAN無法識別出處于聚集區(qū)域的異常點,可進一步利用工單信息中的抄表段屬性。由于同一抄表段下地理位置相近,若某一故障地址過度偏離該抄表段中心地址,此故障地址往往記錄錯誤,可利用改進拉依達準則計算偏離閾值。拉依達準則能識別出樣本數(shù)據(jù)值異常的情況,即使該錯誤地址仍位于聚集區(qū),但經緯度坐標為真實地理位置,不能直接認為較大或較小的坐標值即為異常點,對拉依達準則進行改進篩選過度偏離抄表段中心的地址:

(4)

若當前待檢測坐標為異常坐標,則利用抄表段中心替換,技術路線如圖5所示。

圖5 改進拉依達準則技術路線

為進一步說明改進拉依達準則的優(yōu)勢,采用標準正態(tài)分布示意圖表示,如圖6所示。

圖6 標準正態(tài)分布示意圖

由圖6可知,偏離數(shù)據(jù)均值越大的數(shù)據(jù)出現(xiàn)的概率越小,當偏離均值過大時,往往可將其視為異常值,一般取置信度為0.95。本文中的判別對象為經緯度,是實際地理位置的坐標值,不能認為偏離經緯度中心的坐標為異常值,如城市郊區(qū)一般偏離經緯度中心較遠,直接利用經緯度坐標判斷可能導致異常坐標均為郊區(qū)坐標,考慮到本文數(shù)據(jù)中抄表段數(shù)據(jù)相同往往代表地理位置相近,若偏離抄表段中心過遠則其往往為異常值,可采用待檢測坐標與抄表段中心坐標的距離作為檢測對象,即過度偏離抄表段中心被認為是異常坐標。

綜上所述,本文模型實現(xiàn)的基本技術路線如圖7所示,基本步驟如下。

(1)將工單數(shù)據(jù)按照抄表段排序,提取其中的故障地址以及抄表段信息。

(2)將故障地址逐個利用工具轉換為經緯度坐標,將無法轉換的錯誤地址利用抄表段中心坐標替代。

(3)利用DBSCAN對坐標數(shù)據(jù)進行聚類,對各坐標所屬類別進行標記,檢測出的離群點利用抄表段中心坐標替代。

(4)利用改進拉依達準則逐個判斷各坐標是否需要糾正,若需要,可利用抄表段中心坐標替代。

圖7 模型基本技術路線

5 故障情況可視化

若要整體分析某區(qū)域撥打95598工單信息,采用表格的方式局限性較大且不直觀,不能直觀地觀察出區(qū)域內何處故障較多。因此,本文利用實際地圖繪制出熱力圖,直觀地展示各處的故障情況,可視化95598工單信息。為進一步提升熱力圖可視化系統(tǒng)的可讀性與可重復性,利用Java編寫網(wǎng)頁實現(xiàn)以下功能。

(1)熱力圖應在實際地圖上生成,而并非簡單地在二維坐標平面上生成。

(2)繪制熱力圖的坐標數(shù)據(jù)應為獨立文件,不集成在代碼中,以方便替換其他文件,實現(xiàn)快速替換數(shù)據(jù)繪制熱力圖。

(3)由于在實際地圖上繪制,地圖上非待分析區(qū)域應遮罩處理,待分析區(qū)域應高亮處理,待分析區(qū)域與非待分析區(qū)域應有明顯的邊界,地圖的顯示要素如文字標注、道路名稱等應能根據(jù)需要開啟或關閉。

6 算例分析

為說明所提方法的有效性,采用2021年上海市嘉定區(qū)95598工單數(shù)據(jù)共21 147條利用本文模型進行分析。

6.1 無法轉換地址分析

提取工單數(shù)據(jù)中的故障地址利用Python內Requests庫對地理編碼工具進行請求,判斷返回狀態(tài)值是否顯示轉換成功:若成功,則提取返回值中的經緯度坐標值;若失敗,則記錄失敗信息在工單信息中的位置以及地址。

利用地理編碼工具記錄的錯誤信息如表 1所示。

表1 地理編碼錯誤信息

由表1可知,地理編碼工具返回值為0即無法定位的地址數(shù)量不多,且均是缺乏部分信息或是不規(guī)范的俗稱導致編碼工具無法識別其經緯度坐標,因此地理編碼工具僅能初步篩選存在較明顯問題的地址。

6.2 DBSCAN算法分析

由表1可知,故障地址經地理編碼工具分析后僅能篩選出有較明顯問題導致無法定位的地址,無法識別記錄錯誤但無明顯問題的地址,即地理編碼成功后仍存在大幅偏離實際地址的錯誤地址,為識別出脫離聚集區(qū)域的離群異常點,采用DBSCAN算法。

DBSCAN分析聚類散點圖如圖8所示,利用抄表段中心替換異常坐標后重新生成的散點圖如圖9所示。

圖8 DBSCAN算法處理前

圖9 DBSCAN算法處理后

圖8和圖9中,橫坐標lng為經度,縱坐標lat為緯度,圖8的紅色標記即為識別出的離群點。由于本文采集的數(shù)據(jù)為嘉定區(qū)95598工單服務信息,故障坐標點組成的形狀應與嘉定區(qū)行政區(qū)域在地圖上形狀基本一致。然而由圖8可知,由于地址記錄錯誤等原因,實際有較多坐標點脫離聚集區(qū)域,經DBSCAN處理后,未被識別為異常的坐標點組成的形狀與嘉定區(qū)形狀基本一致,說明DBSCAN算法能有效處理離群點。由于并非所有異常點均具備抄表段信息,部分異常坐標點不能利用抄表段中心坐標替代,因此圖9中仍然存在部分離群點,存在抄表段信息的異常坐標點已被抄表段中心坐標替換,因此圖8中的離群點少于圖9中的離群點。

6.3 改進拉依達準則分析

由于抄表段相同往往代表地理位置相近,若某地址過度偏離其抄表段中心坐標,則說明其地址記錄存在問題,過度偏離的閾值由改進拉依達準則確定,即先計算抄表段中心坐標再計算識別閾值。

改進拉依達準則處理前聚類散點圖如圖10所示,將異常坐標點利用抄表段中心坐標替換后生成的散點圖如圖11所示。

圖10和圖11中,橫坐標lng為經度,縱坐標lat為緯度,圖10的紅色標記點即為利用改進拉依達準則識別出的異常點。較DBSCAN算法識別出的異常點,改進拉依達準則識別出的異常點基本位于聚集區(qū)域內。

圖10 改進拉依達準則處理前

6.4 熱力圖可視化

利用上述方法處理經緯度以及工單信息后,生成的熱力圖如圖12如所示。

圖11 改進拉依達準則處理后

圖12 故障情況熱力圖可視化

7 結語

針對95598工單信息中對搶修影響較大的故障地址往往由于各種因素導致其不準確甚至大幅偏離實際地址的問題,本文進行了如下處理。

(1)采用地理編碼工具將地址轉化為經緯度,增強地址信息的可處理性,初步篩選出錯誤地址,并利用抄表段中心坐標替換錯誤地址。

(2)采用DBSCAN算法識別出離群異常點,將識別出的異常坐標利用抄表段中心坐標替換,增強易受離群點影響的改進拉依達準則識別方法的魯棒性。

(3)改進拉依達準則,利用待檢測坐標與抄表中心坐標的距離作為檢測值,識別出非離群異常點,并利用抄表段中心替換。

(4)抄表段相同的工單往往代表其實際地址位置相差不大,采取抄表段中心坐標替代異常坐標不僅能有效修正錯誤地址,即使算法誤判,替換后的地址仍在實際地址附近。

(5)利用實際地圖以及工單信息生成熱力圖可視化故障信息,可直觀地觀察待分析區(qū)域的故障情況,以便搶修力量的部署。

猜你喜歡
離群準則聚類
具非線性中立項的二階延遲微分方程的Philos型準則
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于Canny振蕩抑制準則的改進匹配濾波器
離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產銷售潛在客戶中的應用
基于改進的遺傳算法的模糊聚類算法
離群的小雞
一圖讀懂《中國共產黨廉潔自律準則》
一種層次初始的聚類個數(shù)自適應的聚類方法研究
應用相似度測量的圖離群點檢測方法
一種基于核空間局部離群因子的離群點挖掘方法
万盛区| 麻城市| 香格里拉县| 友谊县| 精河县| 望谟县| 崇阳县| 海晏县| 桓台县| 玛纳斯县| 连云港市| 兴山县| 桓仁| 吕梁市| 安阳县| 连州市| 贺州市| 剑川县| 沙雅县| 台南市| 迭部县| 花莲县| 普安县| 合山市| 陈巴尔虎旗| 濉溪县| 澎湖县| 佛冈县| 建瓯市| SHOW| 都江堰市| 永嘉县| 南木林县| 开原市| 河源市| 河西区| 北票市| 龙江县| 锡林浩特市| 南城县| 合肥市|