国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

異常值檢測(cè)在成品油零售客戶消費(fèi)行為分析中的應(yīng)用

2020-07-27 12:15:46隋毅馮偉榮
油氣與新能源 2020年4期
關(guān)鍵詞:聚類交易變量

隋毅 馮偉榮

(中國(guó)石油天然氣股份有限公司規(guī)劃總院)

1 異常值的發(fā)現(xiàn)

異常值通常被稱為離群點(diǎn)、孤立點(diǎn),其數(shù)值明顯偏離所屬樣本的其余觀測(cè)值。在大數(shù)據(jù)分析過(guò)程中,異常值檢測(cè)是非常重要的一類分析方法,是從海量、不完整、有噪聲的數(shù)據(jù)中發(fā)現(xiàn)與其他數(shù)據(jù)顯著不同或有潛在價(jià)值的信息過(guò)程[1]。

異常值檢測(cè)最早是數(shù)據(jù)預(yù)處理的一個(gè)步驟,但是在大數(shù)據(jù)分析的研究中越來(lái)越重要,逐漸發(fā)展為一個(gè)獨(dú)立的領(lǐng)域。在成品油零售客戶消費(fèi)行為分析中,異常值檢測(cè)亦是如此。一方面異常值可能會(huì)干擾數(shù)據(jù)分析的過(guò)程,過(guò)分夸大或縮小客戶的消費(fèi)行為特征,如對(duì)客戶加油頻次、加油間隔的分析產(chǎn)生誤差,數(shù)據(jù)建模的過(guò)程通常會(huì)先剔除這些異常值,以免對(duì)數(shù)據(jù)分析的結(jié)果產(chǎn)生“反作用”,影響決策者的業(yè)務(wù)判斷;另一方面異常值可能代表著特殊的業(yè)務(wù)涵義,傳遞著具有潛在價(jià)值的信息,如通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)存在個(gè)別客戶在單日單站使用同一加油卡高頻高額消費(fèi)的情況,顯然不同于該客戶的消費(fèi)習(xí)慣,這種不符合業(yè)務(wù)規(guī)律的特殊情況,需要深入調(diào)研其中的原因,以提升成品油零售客戶的精細(xì)化管理水平。本文重點(diǎn)對(duì)第二種情況進(jìn)行探討,通過(guò)數(shù)據(jù)挖掘和探索,揭開(kāi)數(shù)據(jù)異常波動(dòng)背后的業(yè)務(wù)原因,通過(guò)數(shù)據(jù)分析輔助業(yè)務(wù)管理水平的提升。

2 異常值檢測(cè)常用方法

按照數(shù)據(jù)樣本的特征和分布,異常值檢測(cè)可以分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督三種方法[2]。

有監(jiān)督的異常值檢測(cè),通常建立在包含有一個(gè)或多個(gè)目標(biāo)變量的歷史數(shù)據(jù)基礎(chǔ)上,即在檢測(cè)之初,構(gòu)建標(biāo)記為正?;虍惓?biāo)簽的訓(xùn)練集。如,根據(jù)已知類別的客戶樣本數(shù)據(jù)建立客戶特征與所屬類別的映射關(guān)系,實(shí)現(xiàn)對(duì)新客戶的分類預(yù)測(cè),識(shí)別客戶的正?;虍惓L卣鳌?/p>

半監(jiān)督的異常值檢測(cè),通常是有標(biāo)記的樣本較少,無(wú)標(biāo)記的樣本較多,如只有正常樣本的標(biāo)簽數(shù)據(jù),對(duì)于異常樣本的特征是未知的,這種情況可采用半監(jiān)督算法,通過(guò)正常的對(duì)象來(lái)推測(cè)異常對(duì)象的特征。

無(wú)監(jiān)督的異常值檢測(cè),通常無(wú)目標(biāo)變量,無(wú)法構(gòu)建正?;虍惓?biāo)簽的訓(xùn)練集,只有反映客戶特征的樣本數(shù)據(jù),通過(guò)對(duì)這些未知標(biāo)簽類別的數(shù)據(jù)進(jìn)行探索,尋找數(shù)據(jù)內(nèi)在規(guī)律,基于樣本間距離或密度,對(duì)客戶歸類,識(shí)別客戶的異常特征。

一般在已標(biāo)記樣本量充足的情況下,可優(yōu)先選擇有監(jiān)督學(xué)習(xí);若只有少數(shù)標(biāo)記樣本,可考慮半監(jiān)督學(xué)習(xí);若沒(méi)有標(biāo)記樣本數(shù)據(jù)或以往積累樣本失效,建議先采用無(wú)監(jiān)督學(xué)習(xí)來(lái)解決異常值檢測(cè)問(wèn)題,當(dāng)捕獲到異常且人工核查積累樣本到一定數(shù)量后,可轉(zhuǎn)化為半監(jiān)督學(xué)習(xí),逐步再轉(zhuǎn)化為有監(jiān)督學(xué)習(xí)。異常值可能總是在變化,還可能出現(xiàn)許多新的類型,需要反復(fù)訓(xùn)練模型和調(diào)整策略。

針對(duì)成品油零售客戶的消費(fèi)特征,首先嘗試使用無(wú)監(jiān)督的異常值檢測(cè)方法,挖掘出大部分疑似異??蛻?,然后通過(guò)對(duì)數(shù)據(jù)和業(yè)務(wù)場(chǎng)景的洞察,對(duì)挖掘出的疑似異常客戶進(jìn)一步篩查,找出需重點(diǎn)關(guān)注的疑似異常客戶,待人工核查后,進(jìn)行相應(yīng)異常標(biāo)記,完成異??蛻裟J教卣鞯臉?gòu)建。常用的異常值檢測(cè)方法如下:

(1)基于統(tǒng)計(jì)分布的方法

基本原理:根據(jù)先驗(yàn)假設(shè)的概率分布模型,如數(shù)據(jù)服從正態(tài)分布模型,采用不一致性檢驗(yàn)確定異常值,認(rèn)為發(fā)生在統(tǒng)計(jì)分布低概率區(qū)域的點(diǎn)為異常值。典型的算法為ESD(極值學(xué)生化離差)離群檢測(cè)算法[1,3]。

應(yīng)用場(chǎng)景:若客戶單筆交易金額服從正態(tài)分布,偏離均值三倍標(biāo)準(zhǔn)差以外的點(diǎn)可以大概率認(rèn)為是一個(gè)異常值,即單筆交易金額過(guò)小或過(guò)大的客戶都可判定為異??蛻?。

(2)基于鄰近性的方法

基本原理:主要為兩種,一種是基于距離的檢測(cè)方法,即遠(yuǎn)離正常樣本的點(diǎn)為異常值,典型的算法為KNN(K最近鄰分類)算法;一種是基于密度的檢測(cè)方法,即稀疏的樣本為異常值,也可選擇低密度區(qū)域且相對(duì)遠(yuǎn)離鄰近樣本的點(diǎn)為異常值,典型的算法為L(zhǎng)OF(局部異常因子)算法[1]。

應(yīng)用場(chǎng)景:若使用KNN算法,根據(jù)客戶特征計(jì)算當(dāng)前客戶與已知類別(正常或異常)的客戶之間的鄰近距離,若當(dāng)前客戶與已知異常的客戶距離較小,則判定該客戶為異??蛻?,反之為正常客戶;同理LOF根據(jù)當(dāng)前客戶與周圍客戶數(shù)據(jù)的距離以及鄰域內(nèi)的密度,判斷該客戶是否為異常客戶。

(3)基于聚類的方法

基本原理:按照客戶特征屬性,使類內(nèi)樣本的相似性盡可能大,類間樣本的相似性盡可能小,將客戶聚成不同的類。通過(guò)考察樣本點(diǎn)與類之間的關(guān)系,將不屬于任何類的點(diǎn)或小的偏遠(yuǎn)類視為異常值。典型的算法為兩步聚類和K-means算法[4]。

應(yīng)用場(chǎng)景:使用不同算法將客戶聚類,根據(jù)設(shè)定的異常參數(shù),如異常測(cè)度指標(biāo),考察客戶與類之間的關(guān)系,若顯示該客戶不屬于任一類別或引起類內(nèi)差異較大,則判定該客戶為異??蛻簟?/p>

(4)基于分類的方法

基本原理:通過(guò)構(gòu)建訓(xùn)練集,歸納和提煉出現(xiàn)有數(shù)據(jù)所包含的分類規(guī)律,總結(jié)輸入變量與輸出變量的內(nèi)在關(guān)系,構(gòu)建分類模型,再利用該分類模型對(duì)新樣本進(jìn)行分類預(yù)測(cè)。典型的算法為決策樹(shù)和貝葉斯判別算法[1,4-5]。

應(yīng)用場(chǎng)景:根據(jù)已標(biāo)記正?;虍惓5目蛻粲?xùn)練樣本進(jìn)行分類模型的構(gòu)建,得出異常客戶的特征,如在特定時(shí)間內(nèi)達(dá)到閾值以上高頻高額消費(fèi)的客戶為異??蛻?,若新樣本中的客戶出現(xiàn)同一特征,則判定該客戶為異??蛻?。

以上四類異常值檢測(cè)方法在實(shí)際應(yīng)用中各有利弊,如表1所示。

表1 異常值檢測(cè)方法比較

3 異常值檢測(cè)應(yīng)用案例

3.1 數(shù)據(jù)源選取

以某地市銷售公司2018年交易數(shù)據(jù)為例,選用個(gè)人記名卡汽油客戶進(jìn)行分析,總客戶數(shù)4.4萬(wàn)人,總交易頻次65.5萬(wàn)筆。交易數(shù)據(jù)包括交易商品、交易時(shí)間、交易地點(diǎn)、交易量、交易金額等信息,其中交易商品包括92、95和98號(hào)油品。

3.2 數(shù)據(jù)預(yù)處理

選用數(shù)據(jù)挖掘軟件SPSS Modeler對(duì)數(shù)據(jù)進(jìn)行收集、清洗和建模,最終選取交易狀態(tài)為正常,交易類型為消費(fèi),且交易卡號(hào)不為空的交易記錄。

為挖掘客戶的消費(fèi)行為規(guī)律,需要先構(gòu)建衍生變量,建立客戶寬表。結(jié)合 5W2H(七問(wèn)分析法)行為分析方法,將客戶數(shù)據(jù)從金額、頻次、時(shí)間、站點(diǎn)、產(chǎn)品等消費(fèi)維度構(gòu)建變量,并對(duì)變量進(jìn)行相應(yīng)轉(zhuǎn)換生成一系列衍生變量,數(shù)據(jù)更直觀,分析效果更明顯。如根據(jù)單筆交易金額衍生月交易金額,根據(jù)交易頻次、交易時(shí)間衍生深夜加油次數(shù)占比,根據(jù)交易站點(diǎn)衍生常去加油站等。衍生變量能更清晰地反映出客戶的特征屬性,更易于對(duì)客戶消費(fèi)行為進(jìn)行分析比較。

3.3 異常值檢測(cè)

由于目前成品油零售客戶樣本無(wú)目標(biāo)變量,無(wú)法獲得正?;虍惓?蛻舻念悇e標(biāo)簽,因此采用無(wú)監(jiān)督的異常值檢測(cè)方法進(jìn)行分析,主要是基于統(tǒng)計(jì)分布和聚類的方法。而異常客戶的判定需結(jié)合業(yè)務(wù)人員的核查結(jié)果,才能明確客戶是否為異常并進(jìn)行標(biāo)記,因此后續(xù)將采用基于鄰近性和分類的方法做持續(xù)探索。

首先基于統(tǒng)計(jì)分布的方法對(duì)客戶消費(fèi)行為變量進(jìn)行探索,按照 3σ準(zhǔn)則(拉依達(dá)準(zhǔn)則)和箱線圖相結(jié)合的方法,初步篩選出發(fā)生在統(tǒng)計(jì)分布低概率區(qū)域的大部分疑似異??蛻?;再基于聚類的方法,通過(guò)兩步聚類算法進(jìn)行模型構(gòu)建,按照設(shè)定的異常測(cè)度指標(biāo)進(jìn)一步篩選,最終兩種方法相結(jié)合篩選出需重點(diǎn)關(guān)注的疑似異??蛻?。

(1)基于統(tǒng)計(jì)分布的疑似異??蛻艉Y選

首先對(duì)衍生變量進(jìn)行統(tǒng)計(jì)分布的檢測(cè),最常見(jiàn)的統(tǒng)計(jì)分布為正態(tài)分布。若數(shù)據(jù)不服從正態(tài)分布,可以通過(guò)對(duì)數(shù)轉(zhuǎn)換等方式,使其服從正態(tài)分布。根據(jù)正態(tài)分布的特點(diǎn),采用 3σ準(zhǔn)則進(jìn)行疑似異??蛻舻暮Y選,將均值±3倍標(biāo)準(zhǔn)差范圍以外的點(diǎn)認(rèn)為是異常值,但在實(shí)際應(yīng)用中,判斷標(biāo)準(zhǔn)(即標(biāo)準(zhǔn)差的倍數(shù))通常根據(jù)實(shí)際業(yè)務(wù)需要選取。若數(shù)據(jù)轉(zhuǎn)換后仍不服從正態(tài)分布,則采用箱線圖法進(jìn)行疑似異??蛻舻暮Y選。箱線圖法認(rèn)為在數(shù)據(jù)Q3(第三分位數(shù))+1.5IQR(四分位距)和 Q1(第一分位數(shù))-1.5IQR處為異常值截?cái)帱c(diǎn),稱其為內(nèi)限。將內(nèi)限以外位置的點(diǎn)認(rèn)為是異常值,實(shí)際應(yīng)用中,判斷標(biāo)準(zhǔn)(即IQR的倍數(shù))通常也是根據(jù)實(shí)際業(yè)務(wù)需要確定。按照 3σ準(zhǔn)則、箱線圖法對(duì)衍生變量進(jìn)行探索,篩選出疑似異常客戶,如表2所示。表2給出各衍生變量的臨界值,將臨界值以外的客戶篩選為疑似異??蛻簦缂佑蜁r(shí)間間隔小于15 min的客戶。這里將觸發(fā)任一變量臨界值的客戶都篩選為疑似異??蛻簦凑湛蛻鬒D進(jìn)行匯總和去重后合計(jì)1.6萬(wàn)人,數(shù)量較大,仍需進(jìn)一步聚類排查。臨界值探索結(jié)果詳見(jiàn)表2。

表2 臨界值探索結(jié)果

(2)基于聚類的重點(diǎn)關(guān)注疑似異常客戶篩選

在確定疑似異??蛻舴秶?,采用兩步聚類算法,完成異??蛻舻倪M(jìn)一步篩選。先將客戶聚成若干類,再在聚類的基礎(chǔ)上,計(jì)算所有樣本的異常測(cè)度指標(biāo),確定重點(diǎn)關(guān)注的疑似異??蛻?,并探索在哪個(gè)變量方向上導(dǎo)致呈現(xiàn)異常。

兩步聚類分為預(yù)聚類和正式聚類兩個(gè)步驟。第一階段預(yù)聚類采用貫序方式將客戶粗略劃分成若干子類,第二階段正式聚類根據(jù)親疏程度決定哪些子類可以合并,最終形成K個(gè)類。關(guān)于聚類數(shù)目,算法自動(dòng)計(jì)算,通常第一階段使用 BIC(貝葉斯信息準(zhǔn)則)準(zhǔn)則判定,BIC減少幅度最小時(shí)為聚類數(shù)目的粗略估計(jì)值;第二階段利用類合并過(guò)程中,類間差異性最小值變化的相對(duì)指標(biāo)對(duì)第一階段粗略估計(jì)的聚類數(shù)目進(jìn)行修正。異常測(cè)度指標(biāo)包括異常指標(biāo)(AI)、變量差異指標(biāo)(VDI)等。對(duì)于樣本點(diǎn)S,AI定義如下:

式(1)中:GDIs——樣本點(diǎn)S與所屬類v的對(duì)數(shù)似然距離,反映樣本點(diǎn)S引起的類內(nèi)差異;而——類v內(nèi)其他樣本點(diǎn)所引起差異的平均值,Nv為類v的樣本量。AI是一個(gè)相對(duì)指標(biāo),反映客戶所引起的類內(nèi)差異與類內(nèi)其他客戶所引起的類內(nèi)差異平均值的比值。通常認(rèn)為樣本點(diǎn)引起類內(nèi)差異是其他樣本點(diǎn)引起類內(nèi)差異平均值的2倍以上時(shí),則該樣本點(diǎn)為異??蛻?。AI值也可根據(jù)實(shí)際業(yè)務(wù)需要設(shè)定。VDI為樣本點(diǎn)各變量所引起的類內(nèi)差異,反映樣本點(diǎn)S加入類v所引起的類v內(nèi)部差異量中各聚類變量的貢獻(xiàn)大小,將異??蛻舻腣DI按照降序排序,排在前m的變量是導(dǎo)致該樣本點(diǎn)異常的主要原因,默認(rèn)為3個(gè)變量,可進(jìn)行參數(shù)設(shè)定。

按照上述分析思路,對(duì)統(tǒng)計(jì)分布篩選出的疑似異??蛻暨M(jìn)一步聚類篩選,選取31個(gè)聚類變量,使用異常聚類節(jié)點(diǎn),在節(jié)點(diǎn)中設(shè)置參數(shù)AI值為2,節(jié)點(diǎn)通過(guò)自動(dòng)迭代,最終聚成四類,如表3所示。

表3 聚類結(jié)果 單位:人

表3給出了從各類疑似異??蛻糁蟹謩e篩選出的需重點(diǎn)關(guān)注的對(duì)象,合計(jì)431人,排查對(duì)象的范圍大幅縮小。從中篩選出需重點(diǎn)關(guān)注的疑似異??蛻?,并顯示出引起客戶異常的主要原因變量,如表4所示。

表4 聚類1異??蛻糇兞控暙I(xiàn)

表4以聚類1重點(diǎn)關(guān)注的98個(gè)疑似異??蛻魹槔?,列出各變量對(duì)異常產(chǎn)生的貢獻(xiàn)情況,其中有13人主要由平均加油時(shí)間間隔引起,這類客戶在該變量上出現(xiàn)顯著異常,VDI值高達(dá)0.311。表5提供了判定為重點(diǎn)關(guān)注的疑似異??蛻舻腁I值、引起該客戶異常的前 3位變量以及相應(yīng)VDI值,以便后續(xù)人工核查。

表5 重點(diǎn)關(guān)注的疑似異??蛻舴治鼋Y(jié)果

以客戶A為例,其異常測(cè)度AI值達(dá)到22.546,遠(yuǎn)大于設(shè)定值 2,說(shuō)明該客戶異常的可能性很大,引起該客戶異常的第一主要變量為月交易頻次均值,VDI值為0.217,貢獻(xiàn)度最高;第二主要變量為月交易頻次最大值,VDI值為0.163;第三主要變量為月交易金額均值,VDI值為 0.154。根據(jù)客戶 A的異常原因,查看其具體變量值,分別為變量1(月交易頻次均值)為78次,變量2(月交易頻次最大值)為123次,變量3(月交易金額均值)為19 717.6元,說(shuō)明客戶A在月交易頻次和月交易金額上顯著高于其他客戶,需重點(diǎn)關(guān)注,查明原因。通過(guò)對(duì)以上數(shù)據(jù)分析結(jié)果的解讀,可以大幅提高人工核查的效率和準(zhǔn)確度。

目前成品油零售客戶消費(fèi)特征的異常值檢測(cè)結(jié)果可通過(guò)可視化的方式固化在客戶關(guān)系管理系統(tǒng)中,根據(jù)業(yè)務(wù)需求定期監(jiān)控排查。基于與加油站的調(diào)研結(jié)果和監(jiān)控視頻的比對(duì)發(fā)現(xiàn),異??蛻舻漠a(chǎn)生有兩種情況。一部分情況是屬于“一卡多車”,即由加油站代管加油卡,供機(jī)構(gòu)客戶的車隊(duì)司機(jī)統(tǒng)一使用,因此出現(xiàn)客戶在單日單站使用同一加油卡高頻高額消費(fèi)的情況。這種情況反映出辦卡過(guò)程的規(guī)范性有待提高,不能將車隊(duì)卡辦理為個(gè)人卡,已辦理的需盡快變更卡片屬性,若同時(shí)還缺少加油卡代管協(xié)議,雙方應(yīng)盡快補(bǔ)充簽訂。另一部分情況屬于個(gè)別加油員利用加油卡折扣套現(xiàn)套利,這種情況就會(huì)為企業(yè)帶來(lái)營(yíng)銷成本的損失,應(yīng)及時(shí)發(fā)現(xiàn)、及時(shí)處理。針對(duì)有加油卡代管協(xié)議的客戶將在客戶關(guān)系管理系統(tǒng)中通過(guò)添加白名單加以管理,減少無(wú)效的異常監(jiān)控,同時(shí)對(duì)于其他不符合業(yè)務(wù)管理要求的情況,將針對(duì)數(shù)據(jù)挖掘的結(jié)果詳細(xì)核查,進(jìn)一步規(guī)范加油站的客戶管理,提升企業(yè)的精細(xì)化管理水平。

4 結(jié)束語(yǔ)

本文是基于大數(shù)據(jù)分析技術(shù)進(jìn)行成品油零售客戶消費(fèi)行為異常值檢測(cè)。 首先基于統(tǒng)計(jì)分布的方法對(duì)衍生變量進(jìn)行探索,初步鎖定疑似異??蛻舻姆秶?,其次進(jìn)一步基于聚類的方法,對(duì)初步篩選的疑似異??蛻暨M(jìn)行細(xì)分,根據(jù)異常測(cè)度指標(biāo)的設(shè)定,篩選出需重點(diǎn)關(guān)注的疑似異??蛻?,并列出引起該客戶數(shù)據(jù)異常的原因。經(jīng)過(guò)層層篩選,最終確定的重點(diǎn)關(guān)注疑似異??蛻魧⒏泳珳?zhǔn),能夠有效輔助業(yè)務(wù)人員核查,不僅節(jié)約人力成本,更從最大限度上避免了企業(yè)不必要的損失。

猜你喜歡
聚類交易變量
抓住不變量解題
也談分離變量
基于DBSACN聚類算法的XML文檔聚類
基于改進(jìn)的遺傳算法的模糊聚類算法
交易流轉(zhuǎn)應(yīng)有新規(guī)
SL(3,3n)和SU(3,3n)的第一Cartan不變量
大宗交易
《吃飯的交易》
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
驚人的交易
淮阳县| 麟游县| 阿荣旗| 尼勒克县| 河津市| 清河县| 西安市| 孙吴县| 封开县| 科技| 河池市| 城固县| 七台河市| 珠海市| 大足县| 麦盖提县| 门源| 乌拉特后旗| 越西县| 娱乐| 永善县| 拉萨市| 基隆市| 寻甸| 万山特区| 新蔡县| 唐山市| 苍溪县| 营口市| 喀什市| 商水县| 成武县| 同仁县| 无极县| 治县。| 喀什市| 柏乡县| 文成县| 巴彦淖尔市| 穆棱市| 彭水|