王 剛,羅應(yīng)機,劉 芳,劉 琳
(廣西財經(jīng)學(xué)院實驗教學(xué)中心,廣西 南寧 530007)
伴隨著互聯(lián)網(wǎng)的普及和發(fā)展,智能卡在人們的生活中發(fā)揮著越來越大的作用。但是,對企業(yè)或者商戶來說,智能卡在使用過程中存在消費記錄丟失或者錯誤等問題,從而給企業(yè)或者商戶帶來了經(jīng)濟上的巨大損失。財務(wù)人員在整理賬務(wù)時會出現(xiàn)很多無法處理的賬務(wù),因此解決智能卡消費記錄從刷卡機到后臺過程中信息丟失問題成為重中之重。傳統(tǒng)的檢測異常消費數(shù)據(jù)的方法有最小二乘法[1],但客戶消費數(shù)據(jù)并不是平穩(wěn)的數(shù)據(jù)組,因而直接采用最小二乘法或基于密度的異常檢測算法會有很多數(shù)據(jù)被誤判。小波能夠從非平穩(wěn)信號提取信息,并能夠進行細化分析,因而能夠應(yīng)用于消費數(shù)據(jù)檢測過程。本文采用最小二乘法、基于密度的異常檢測算法和小波分析相結(jié)合的方法,不僅可以處理異常數(shù)據(jù),而且可以處理非平穩(wěn)信號的異常數(shù)據(jù),同時通過比較兩種算法和小波函數(shù)的作用效果,得出較好的應(yīng)用于異常數(shù)據(jù)檢測的算法和小波組合方式。
小波分析正在迅速發(fā)展并在當(dāng)前數(shù)學(xué)體系中開拓出一片嶄新領(lǐng)域,在理論和實際應(yīng)用方面都有重大意義。小波變換源自20 世紀(jì)70 年代的法國,由一位叫Morlet 的工程師首先提出[2],當(dāng)時主要結(jié)合實際工作處理信號的經(jīng)驗和物理學(xué)的直觀概念建立反演公式,研究成果在當(dāng)時并未得到數(shù)學(xué)家的認(rèn)可。直到1986 年,數(shù)學(xué)家Merey 偶然構(gòu)造出一個真正的小波基[3]。基于與Mallat 的合作,構(gòu)造小波基的多尺度分析方法得以建立,在此基礎(chǔ)上小波分析得到了迅速發(fā)展。在比利時數(shù)學(xué)家Daubechies I 撰寫的《小波十講(Ten Lectures on Wavelets)》一書中[4],對從非平穩(wěn)信號中提取的信號運用伸縮和平移等運算功能,然后進行尺度細化分析,很好地解決了Fourier 變換不能解決的很多難題。著眼于它的妙用,有人把它親切的譽為“數(shù)學(xué)顯微鏡”。
連續(xù)小波變換(Continuous Wavelet Transform,CWT)亦稱積分小波變換,定義為:
連續(xù)小波變換能夠定量表示小波函數(shù)系中的每個小波與實際信號接近或者相關(guān)的程度情況[7]。也就是說,假如把小波看成L2(R)空間的基函數(shù)系,則連續(xù)小波變換便是實際信號在基函數(shù)系的分解或投影。
一個函數(shù)φ(t)?L2(R)能夠作為母小波,必須滿足容許條件:
能夠滿足式(2)的時間函數(shù)φ(t)被稱為基本小波或者母小波,小波是它的統(tǒng)稱[8]。容許條件意味著在ω=0 處的值必須為0,即,其物理意義為φ(t)是一個振幅衰減得很快的“波”。
在定義式中,當(dāng)a0=2、b0=1 時,此小波變換變成二進制小波變換。
設(shè)已經(jīng)構(gòu)造了一個母小波φ(t),正交或非正交的,由它產(chǎn)生的二進制小波變換為:
當(dāng)取不同的k值時,對于每個j,{φj,k;k?Z}的線性組合將能生成L2(R)空間中的一個閉子空間,用wj表示。如果j也取到不同值,這樣得到一個子空間序列{wj;j?Z},便得到L2(R)空間的一個直和分解:
式中·表示直和。
由子空間wj(j?Z)按式(5)構(gòu)造出L2(R)空間的一個嵌套子空間序列{vj;j?Z}:
若母小波φ(t)正交,那么子空間wj相互正交,即wj ⊥wl(j≠l)。在這種情況下,式(5)變成正交和:
式中,符號“⊕”表示正交和,可得:
其中vj是由基(φ是尺度函數(shù))生產(chǎn)的空間,表示分解中的低頻部分;wj是由基生產(chǎn)的空間,表示分解中的高頻部分;vj+1是空間中的正交補。
假設(shè)分解的尺度為N,能夠得到:
設(shè)φ(t)≈φj(t)?vj-1,可得:
式中用wj表示分解中的高頻部分,用φ0表示分解中的低頻部分,完成了對原始信號的尺度分解。數(shù)據(jù)處理過程中,對分解的一定尺度的高頻部分置為0,再重構(gòu)回原來的信號,便去掉了原始信號的高頻部分,這樣也就去除了原始信號的異常數(shù)據(jù)[9]。
最小二乘法是通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配,流程如圖1 所示。
圖1 最小二乘法流程
基于密度的異常檢測算法是給所有數(shù)據(jù)分別賦予一個局部異常因子的屬性,然后作為數(shù)據(jù)異常程度的度量[10]。
定義1 對任意自然數(shù)k,定義k-distance(p)為p和某個對象o之間的距離,其中o滿足至少存在k個對象o’∈D/{p}使得d(p,o′)≤d(p,o),且至多存在k-1 個對象O′∈D{p}使得d(p,o′)<d(p,o)。
定義2 對象p的k-距離鄰(Nk-distance)給定p的k-距離k-distance(p),p的k-距離鄰域包含所有與p的距離不超過k-distance(p)的對象[11],即:
Nk-distance(p)-{q|d(p,q)≤k-distance(p)} (10)
定義3 對象p相對于對象o的可達距離給定自然數(shù)k,對象p相對于對象o的可達距離為:
reach-disk(p,o)-max{k-distance(o),d(p,o)} (11)
定義4 對象p的局部可達密度(Local Reachable Distance)為:
即對象p的局部可達密度為對象p與p的MinPts-鄰域的平均可達距離的倒數(shù)。
定義5 對象p的局部異常因子(Local Outlier Factor)為:
對象p的局部異常因子表示p的異常程度,近似正比的關(guān)系。也就是說,局部異常因子愈大,它異常的可能性越大;反之,則可能性小[12]。
局部異常因子有如下性質(zhì):簇內(nèi)靠近核心點的對象的LOF 接近于1,那么不應(yīng)該被認(rèn)為是局部異常;處于簇的邊緣或是簇的外面的對象的LOF 相對較大[13]。
通過學(xué)校的一卡通后臺客戶端采集廣西財經(jīng)系學(xué)院學(xué)生超市的消費數(shù)據(jù)流水,利用MATLAB 工具箱中的db2 小波函數(shù)和sym2 小波函數(shù)處理采集的數(shù)據(jù),找出其中的異常數(shù)據(jù),并結(jié)合最小二乘法和基于密度的異常檢測算法進行比較分析[14]。
在廣西財經(jīng)學(xué)院校園一卡通管理中心后臺服務(wù)器客戶端采集廣西財經(jīng)學(xué)院學(xué)生超市2019 年11 月15 到2019 年12 月23 日 中 午11 點20 到12 點30時間段學(xué)生消費次數(shù)信息。在這個時間段內(nèi)的消費次數(shù)信息屬于非平穩(wěn)信號,基于密度的檢測算法和小波分析相結(jié)合進行處理會有較大誤差。通過最小二乘法與小波分析相結(jié)合可以較好地消除誤差。其中,采集的信息數(shù)據(jù)曲線如圖2 所示。
圖2 實測數(shù)據(jù)
可以看出,在40 個實測數(shù)據(jù)中,實際誤差較大的有4 個數(shù)據(jù)。
首先利用MATLAB 小波工具箱的sym2 小波函數(shù),依據(jù)多分辨分析原理,處理消費記錄中的異常數(shù)據(jù)。選定的sym2 小波函數(shù)和尺度函數(shù)如圖3 所示,并確定分解尺度為2。
圖3 sym2 小波函數(shù)和尺度函數(shù)
對消費數(shù)據(jù)序列進行二尺度分解,得到的低頻系數(shù)和高頻系數(shù)如圖4 中B 所示,對高頻系數(shù)置為0,同時提取尺度的低頻系數(shù),對低頻信號進行重構(gòu),得到如圖4 中a2 所示。
圖4 sym2 小波分解和重構(gòu)
依據(jù)同樣的原理和步驟利用db2 小波函數(shù)對數(shù)據(jù)做一次新的處理,小波函數(shù)和尺度函數(shù)如圖5 所示,小波分解圖和重構(gòu)圖如圖6 所示。
圖5 db2 小波函數(shù)和尺度函數(shù)
圖6 db2 小波分解和重構(gòu)
最小二乘法是從參數(shù)擬合角度處理數(shù)據(jù),并進行參數(shù)估計,在系統(tǒng)辨識、異常數(shù)據(jù)處理等領(lǐng)域得到了廣泛應(yīng)用[15]。在進行異常數(shù)據(jù)處理中,最小二乘法對平穩(wěn)數(shù)據(jù)具有很好的檢測性,但是對本文中的非平穩(wěn)數(shù)據(jù)檢測會產(chǎn)生較大的誤差。本文在小波分析不同函數(shù)的基礎(chǔ)上,結(jié)合最小二乘法,實現(xiàn)對非平穩(wěn)消費異常數(shù)據(jù)的檢測。通過對消費正常數(shù)據(jù)和二層重構(gòu)低頻數(shù)組的差值進行處理,找到新數(shù)組中異常數(shù)據(jù)的位置,對應(yīng)找到原始消費數(shù)據(jù)中相應(yīng)的數(shù)據(jù),從而實現(xiàn)對異常數(shù)據(jù)的檢測。異常數(shù)據(jù)檢測結(jié)果,如表1 所示。
表1 異常數(shù)據(jù)檢測結(jié)果
可以看出,利用小波函數(shù)和最小二乘法相結(jié)合得到的重構(gòu)序列組數(shù)據(jù)的檢測效果優(yōu)于利用小波函數(shù)和基于密度的異常檢測算法相結(jié)合得到的數(shù)據(jù),同時利用sym2 小波的檢測效果要優(yōu)于利用db2 小波的檢測效果。
本文通過采集連續(xù)時間段學(xué)生消費非平穩(wěn)數(shù)據(jù)信號,利用小波多分辨分析進行小波分解和重構(gòu),并分別利用最小二乘法和基于密度的異常檢測算法處理非平穩(wěn)數(shù)據(jù)中的異常數(shù)據(jù),得出利用小波分析和最小二乘法相結(jié)合的方法,在處理非平穩(wěn)信號中的異常數(shù)據(jù)過程中找出異常數(shù)據(jù)的正確率要優(yōu)于利用基于密度的異常檢測算法和小波分析相結(jié)合找出的正確率,同時得出利用sym2 小波函數(shù)找出異常數(shù)據(jù)的性能優(yōu)于利用db2 小波函數(shù)找出異常數(shù)據(jù)的性能。通過實際采集數(shù)據(jù)進行分析處理,通過實際生產(chǎn)工作驗證得出,這些方法能夠有效應(yīng)用于智能卡客戶消費異常數(shù)據(jù)檢測。