国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自相似異常判斷模型的數(shù)據(jù)稽核方法

2016-12-07 02:54:28王崢嶸鄭邦峰吳清茂
電腦與電信 2016年7期
關(guān)鍵詞:業(yè)務(wù)量短信辦理

王崢嶸 鄭邦峰 吳清茂

(中國移動通信集團海南有限公司,海南 ???570125)

基于自相似異常判斷模型的數(shù)據(jù)稽核方法

王崢嶸 鄭邦峰 吳清茂

(中國移動通信集團海南有限公司,海南 ???570125)

通過在數(shù)據(jù)稽核過程中根據(jù)數(shù)據(jù)自身的相似性來確定正常的數(shù)據(jù)趨勢,并判斷數(shù)據(jù)是否存在異常,滿足橫向數(shù)據(jù)稽核的要求,解決通信業(yè)務(wù)辦理數(shù)據(jù)稽核的問題。

數(shù)據(jù)稽核;自相似;異常

1 前言

隨著各行業(yè)對生產(chǎn)數(shù)據(jù)的完整性、準(zhǔn)確性、一致性的要求越來越高,數(shù)據(jù)稽核的方法和技術(shù)應(yīng)運而生。

目前數(shù)據(jù)稽核的方法和技術(shù)主要有以下兩種:

(1)在數(shù)據(jù)倉庫中的數(shù)據(jù)稽核

在ETL(Extract-Transform-Load)中,對相鄰的兩個環(huán)節(jié)中的數(shù)據(jù)總量進行驗證,并在總量正確的情況下將數(shù)據(jù)進行分量分維度驗證。采用在ETL過程中進行稽核的方法,只能對相鄰節(jié)點的數(shù)據(jù)進行比對,即只能進行縱向數(shù)據(jù)稽核,而無法進行橫向數(shù)據(jù)稽核,并且不能得到趨勢性的稽核結(jié)果。

(2)設(shè)定平衡關(guān)系式,將全量數(shù)據(jù)進行關(guān)系匹配驗證

采用設(shè)定平衡關(guān)系式,將全量數(shù)據(jù)進行關(guān)系匹配驗證,發(fā)現(xiàn)數(shù)據(jù)之間的不平衡。該種方法只能稽核到數(shù)據(jù)存在不平衡,而無法確認正確的數(shù)據(jù)形態(tài)。

上述兩種方法和技術(shù)都不能很好地解決通信業(yè)務(wù)辦理數(shù)據(jù)稽核的問題,而基于自相似模型的數(shù)據(jù)稽核系統(tǒng),可通過在數(shù)據(jù)稽核過程中根據(jù)數(shù)據(jù)自身的相似性來確定正常的數(shù)據(jù)趨勢,并判斷數(shù)據(jù)是否存在異常,滿足橫向數(shù)據(jù)稽核的要求。

2 定義一種基于自相似模型的數(shù)據(jù)稽核方法

基于自相似模型的數(shù)據(jù)稽核方法包括基于不同的時間周期、地域歸屬關(guān)系、渠道關(guān)系、統(tǒng)計規(guī)律的自相似方法。

生產(chǎn)運營的特點決定了在業(yè)務(wù)辦理數(shù)據(jù)中,無法正確判斷異常錯誤來源或者不少細小量的業(yè)務(wù)異常被淹沒在大規(guī)模的正常數(shù)據(jù)中。首先,業(yè)務(wù)辦理數(shù)據(jù)存在工作時間和非工作時間的差別。其次,各地市之間的用戶基數(shù)的區(qū)別,以及各渠道辦理的本身特性,導(dǎo)致其辦理的業(yè)務(wù)量需要一個復(fù)雜的函數(shù)進行描述或者無法描述。最后,分類規(guī)則的不明晰,導(dǎo)致大量的業(yè)務(wù)辦理數(shù)據(jù)混成一團。但是這些特點并不能掩蓋數(shù)據(jù)真實的關(guān)系,數(shù)據(jù)根據(jù)其歸屬關(guān)系,以及時間的周期關(guān)系等,存在相關(guān)的自相似情況。分析這些自相似情況,根據(jù)相似度來判斷業(yè)務(wù)辦理是否有異常。在技術(shù)上,我們選用自相關(guān)函數(shù)。

x和y分別表示兩個時間序列之間和同一個時間序列在任意兩個不同時刻的取值之間的相關(guān)程度,即互相關(guān)函數(shù)是描述隨機信號x(t),y(t)在任意兩個不同時刻t1,t2的取值之間的相關(guān)程度。自相關(guān)函數(shù)是描述隨機信號X(t)在任意兩個不同時刻t1,t2的取值之間的相關(guān)程度;互相關(guān)函數(shù)給出了在頻域內(nèi)兩個信號是否相關(guān)的一個判斷指標(biāo),把兩測點之間信號的互譜與各自的自譜聯(lián)系了起來。它能用來確定輸出信號有多大程度來自輸入信號,對修正測量中接入噪聲源而產(chǎn)生的誤差非常有效。

根據(jù)實際的測算,如果相似度>0.9,我們可以認為是相似的。

3 幾種自相似情況

3.1 基于時間周期的自相似情況

雖然在一天內(nèi),存在工作時間非工作時間的區(qū)別,也有忙閑時的區(qū)別,但是以天作為單位的時候,卻是存在自相似情況。對于業(yè)務(wù)量較高的日期和業(yè)務(wù)量較低的日期,之間存在一個差值,但是這種差值分布在每天的各個時間段,在任意時間段是存在一定的比例的。

例:日辦理業(yè)務(wù)量異常

(1)圖1所示是某月的平均每日24小時內(nèi)的標(biāo)準(zhǔn)圖像。(系列2:某項業(yè)務(wù))

圖1 標(biāo)準(zhǔn)圖形

(2)從圖2中可見,雖然業(yè)務(wù)量只有平常的3/4,但是從圖形上來講,他們是類似的度,根據(jù)上述算法,相似度為0.97148,在可以接受范圍內(nèi)。(系列2:某項業(yè)務(wù))

圖2 符合相似范圍內(nèi)的示意

(3)從圖3中可見,雖然有一些差距,但是在接受范圍內(nèi)。中午有一個較小的批量業(yè)務(wù)高峰,但不至于有根本差別的圖形,其相似度為0.921313。(系列2:某項業(yè)務(wù))

圖3 存在批量業(yè)務(wù)高峰示意

(4)圖4從數(shù)值上看沒有問題,但明顯圖形不一樣。從總體業(yè)務(wù)辦理量來看,辦理的業(yè)務(wù)差不多,但是分散在各個時間段,但明顯發(fā)生了下午6點的業(yè)務(wù)高峰的情況,這種時候的相似度小于0.9。(系列2:某項業(yè)務(wù))

圖4 存在高峰點異常示意

(5)如圖5(系列2:某項業(yè)務(wù)),從一個整月的圖形看,我們能夠清楚地看出每個周期的一致性,以及其中明顯的異常點。

圖5 月度數(shù)據(jù)示意

3.2 基于地域歸屬關(guān)系的自相似情況

由于各個地市的用戶的基數(shù)大小不同,對于一個小的地市而言,其辦理的業(yè)務(wù)量不及大地市的1/10,但是從分布圖形形狀看,它們是必須一樣的,即應(yīng)該有同樣的高峰出現(xiàn)時段,同樣的忙閑時段,同樣的業(yè)務(wù)分布。

圖6 基于地域歸屬關(guān)系的自相似情況

從圖6(各個系列代表不同的業(yè)務(wù)辦理量(取對數(shù),否則圖像較大))可以看出,雖然HNHK(???的業(yè)務(wù)量最大,但是從各個業(yè)務(wù)來看,他們的分布圖形是一致的。

3.3 基于不同渠道關(guān)系的自相似情況

雖然大部分業(yè)務(wù)可以通過不同渠道辦理,但是同一時段辦理業(yè)務(wù)的用戶是固定分布的,分布到各個渠道上的概率也是一定的,因此,雖然各個渠道辦理的業(yè)務(wù)量有差距,但是其圖形應(yīng)該是相似的。

圖7 基于不同渠道的關(guān)系的自相似情況示意

從圖7(圖中系列代表不同的渠道)可以明顯看出,雖然圖像的相似有一些差距,但是基本上按照一定的規(guī)律發(fā)展,但是系列2明顯有不同,經(jīng)過分析得知,在此過程,系列2對應(yīng)的相關(guān)應(yīng)用有異常,10點開始急劇下降,在15點恢復(fù)后進行業(yè)務(wù)補足處理,因此有一個高峰。

表1 相似度數(shù)據(jù)匯總

3.4 基于統(tǒng)計規(guī)律的異常業(yè)務(wù)數(shù)據(jù)判斷

在一個存在大規(guī)模用戶基數(shù)和純隨機發(fā)生的業(yè)務(wù)中(如通話量、短信量等),其數(shù)據(jù)的分布在統(tǒng)計意義上是滿足一定的概率分布的,但是如果需要找出在通話過程中,在短信發(fā)送量、數(shù)據(jù)流量上找出可能的異?;蛘呱嫦悠墼p的行為,則必須要通過經(jīng)營分析,仔細判別隨機業(yè)務(wù)中可能存在的幾十或者上百個變量的關(guān)系,費時費力。

為此我們采用了另外一種簡單有效的方式來進行判斷,由于業(yè)務(wù)的分布必定滿足一個在[0,max]范圍內(nèi)的某一個概率分布,而我們常見的分布一般來講是“平滑”的(數(shù)學(xué)意義上的連續(xù)可導(dǎo)),如果在真實數(shù)據(jù)上發(fā)現(xiàn)有“毛刺”數(shù)據(jù),則發(fā)生“毛刺”的地方則就可能是存在業(yè)務(wù)異常的地方。

在程序計算時,考慮簡化算法,采用“斜率連續(xù)急劇變化”作為存在“毛刺”的判斷。

(1)某一點斜率小于某固定值或者和前一點斜率差別較大,說明此時圖形存在一個劇烈的上升和下降的趨勢。

(2)下一點的斜率和上一點斜率的乘積<0,說明在此點處發(fā)生劇烈變化,從上升趨勢直接降低到下降趨勢。

根據(jù)上述兩點,則可以理解為在此點的數(shù)據(jù)為一個“毛刺”點,可以將此點挑出并預(yù)警。

例:垃圾短信量的確定

為了確定用戶是否存在發(fā)送垃圾短信的行為,單純找出短信發(fā)送量最大的用戶可能不準(zhǔn)確,因為在隨機情況下,可能也有正常存在的發(fā)送短信量較多的用戶,因此需要確定垃圾短信的范圍,從而根據(jù)這些范圍找出相關(guān)的垃圾短信嫌疑用戶??梢岳迷摲N方法得到相關(guān)的垃圾短信用戶,如圖8所示。

圖8 基于統(tǒng)計規(guī)律的異常業(yè)務(wù)數(shù)據(jù)判斷示例

4 結(jié)束語

數(shù)據(jù)稽核作為一種事后處理的機制在各行業(yè)的生產(chǎn)運營工作中得到廣泛應(yīng)用,越來越多的生產(chǎn)活動、管理決策依賴于高質(zhì)量的生產(chǎn)數(shù)據(jù)?;谧韵嗨颇P偷臄?shù)據(jù)稽核方法是對不同客戶辦理通信業(yè)務(wù)的行為在不同空間、時間及維度的相似性進行分析,根據(jù)分析結(jié)果確定業(yè)務(wù)辦理數(shù)據(jù)是否存在異常,明確數(shù)據(jù)異常趨勢是數(shù)據(jù)稽核的有效方法。

[1]顏超亞.電信計費數(shù)據(jù)稽核系統(tǒng)的設(shè)計和實現(xiàn)[D].重慶:重慶大學(xué),2009.

[2]QB-Y-033-2012,NGBOSS2-CRM(V4.0)業(yè)務(wù)規(guī)范[S].

[3]QB-Y-034-2012,NGBOSS2-CRM(V4.0)技術(shù)規(guī)范[S].

[4]QB-Y-029-2012,NGBOSS2-BOSS(V4.0)業(yè)務(wù)規(guī)范[S].

[5]QB-Y-030-2012,NGBOSS2-BOSS(V4.0)技術(shù)規(guī)范[S].Data Auditing Method Based on Self Similar Anomaly Judgment Model

Wang Zhengrong Zheng Bangfeng Wu Qingmao
(China Mobile Communication Group Hainan Co.,Ltd.,Haikou 570125,Hainan)

In the data auditing process,the trend of the normal data is determined according to the data similarity,and the abnormal data is judged,meeting the requirements of the horizontal data audit,and solving the problem of data audit in the communication business.

data audit;self similar;anomaly

TP3-0

B

1008-6609(2016)07-0105-03

王崢嶸,女,海南人,本科,助力工程師,研究方向:業(yè)務(wù)支撐系統(tǒng)規(guī)劃,應(yīng)用系統(tǒng)開發(fā)。

猜你喜歡
業(yè)務(wù)量短信辦理
快遞業(yè)務(wù)量累計完成480.9 億件
“碼”上辦理“田間一件事”
2020年業(yè)務(wù)量達830億件快遞跑出經(jīng)濟活力
男方拒不配合,嬰兒出生證明能辦理嗎?
辦理銀行業(yè)務(wù)須謹慎
公民與法治(2020年1期)2020-05-30 12:27:40
要規(guī)范辦理不動產(chǎn)登記
公民與法治(2020年7期)2020-05-11 02:14:44
道歉短信
代發(fā)短信
8月全國快遞業(yè)務(wù)量完成32.6億件同比增29.4%
人民交通(2017年10期)2017-10-25 11:13:08
“八一”節(jié)日短信之一
乌苏市| 台中县| 石狮市| 吴江市| 馆陶县| 随州市| 通州区| 阳朔县| 瓦房店市| 怀安县| 枣阳市| 防城港市| 同仁县| 肥乡县| 崇礼县| 乌拉特后旗| 上思县| 城口县| 华容县| 禹州市| 登封市| 兴国县| 大洼县| 类乌齐县| 都江堰市| 邵东县| 杭锦旗| 麻栗坡县| 文登市| 迁西县| 通城县| 从江县| 霍州市| 封丘县| 习水县| 阿拉善盟| 上蔡县| 富川| 清徐县| 斗六市| 礼泉县|