国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVM的信用反欺詐預(yù)測模型探討

2019-07-03 09:42余凱
現(xiàn)代商貿(mào)工業(yè) 2019年17期
關(guān)鍵詞:信用卡

余凱

摘?要:欺詐風險是消費金融業(yè)務(wù)中存在的主要風險之一,在銀行的信貸業(yè)務(wù)中反欺詐模型起著很重要的作用。通過對kaggle中的銀行信用卡消費數(shù)據(jù)進行數(shù)據(jù)預(yù)處理和特征工程對特征進行縮放和選擇,并且利用smote算法對數(shù)據(jù)集的不均衡現(xiàn)象進行處理,構(gòu)建了基于SVM的反欺詐預(yù)測模型,對用戶是否進行了欺詐消費進行預(yù)測,通過調(diào)整模型參數(shù),得到最優(yōu)模型,使得準確率達到了97.00%。

關(guān)鍵詞:信用卡;反欺詐模型;SVM

中圖分類號:D9?????文獻標識碼:A??????doi:10.19311/j.cnki.1672-3198.2019.17.081

1?研究背景

欺詐風險是消費金融業(yè)務(wù)中存在的主要風險之一,它是指信貸客戶完全不具備還款意愿一類的風險。據(jù)統(tǒng)計,2016年中國信用卡欺詐損失排名前三的欺詐類型為偽 卡、虛假身份和互聯(lián)網(wǎng)欺詐,與2015年一致,其中偽卡損 失占比較2015年繼續(xù)上升;2016 年借記卡欺詐的主要類 型為電信詐騙,互聯(lián)網(wǎng)欺詐損失金額排名第二位。目前欺詐呈現(xiàn)產(chǎn)業(yè)鏈化的特征,圍繞著欺詐的實施,形成了專業(yè) 的技術(shù)開發(fā)產(chǎn)業(yè),身份信用包裝和虛假身份提供產(chǎn)業(yè)、業(yè) 務(wù)漏洞發(fā)現(xiàn)和欺詐方法傳授產(chǎn)業(yè)。對于金融機構(gòu)而言,需 要構(gòu)建完備的風險控制方法來識別風險,避免欺詐、壞賬、呆賬等的發(fā)生,尤其對于消費金融業(yè)務(wù)而言,風控能力的 高低直接決定了業(yè)務(wù)盈利能力強弱。我們針對信用卡消費這一典型業(yè)務(wù)場景,應(yīng)用機器學習技術(shù)進行欺詐風險管理并設(shè)計數(shù)據(jù)產(chǎn)品對異??蛻暨M行監(jiān)控預(yù)警。區(qū)別于將機器學習技術(shù)應(yīng)用到單一反欺詐規(guī)則制定的典型做法,我們嘗試從整體視角對欺詐風險進行評估,實現(xiàn)精準量化預(yù)測并以此作為應(yīng)對欺詐風險的強有力手段。建模思路及方法具有一定的可遷移性,可以被廣泛應(yīng)用到銀行風險防范、反欺詐等業(yè)務(wù)領(lǐng)域。正是由于在銀行業(yè)中反欺詐的重要性,我們基于SVM這種機器學習方法構(gòu)建反欺詐預(yù)測模型,探究這種模型的有效性。

2?數(shù)據(jù)預(yù)處理

我們是從kaggle數(shù)據(jù)集中獲取的數(shù)據(jù)集,該數(shù)據(jù)集包含由歐洲持卡人于2013年9月使用信用卡進行交的數(shù)據(jù)。此數(shù)據(jù)集顯示兩天內(nèi)發(fā)生的交易,其中284,807筆交易中有492筆被盜刷。數(shù)據(jù)集非常不平衡,積極類的(被盜刷)占所有交易的0.172%。

它只包含作為PCA轉(zhuǎn)換結(jié)果的數(shù)字輸入變量。不幸的是,由于保密問題,我們無法提供有關(guān)數(shù)據(jù)的原始功能和更多背景信息。特征V1,V2,…V28是使用PCA獲得的主要組件,沒有用PCA轉(zhuǎn)換的唯一特征是“時間”和“量”。特征'時間'包含數(shù)據(jù)集中每個事務(wù)和第一個事務(wù)之間經(jīng)過的秒數(shù)。特征“金額”是交易金額,此特征可用于實例依賴的成本認知學習。特征'類'是響應(yīng)變量,如果發(fā)生被盜刷,則取值1,否則為0。

該數(shù)據(jù)的數(shù)據(jù)預(yù)處理部分我們運用了數(shù)據(jù)審查、數(shù)據(jù)清理。如圖1,Time-Class31個維度的每一維度的數(shù)據(jù)量都是相同的都為284807,并且沒有缺失值,所以該數(shù)據(jù)集是個良好、不需要進行補值處理,可以直接拿來使用的數(shù)據(jù)集。

觀察了數(shù)據(jù)的描述性統(tǒng)計信息:發(fā)現(xiàn)Time和Amount的平均值、最大值、最小值、中位值等等與V1-V28都相差很大,V1-V28和Class的平均值都集中在0的附近,它們數(shù)據(jù)的方差都在0-1的范圍內(nèi)。說明該數(shù)據(jù)分布比較均勻,amout這個維度的數(shù)據(jù)分布的非常不均勻,尺度與V1-V28不相同,需要后續(xù)進行特征縮放標準化的工作。

我們統(tǒng)計了正常消費和欺詐消費的金額和占比繪制了圖2。0表示正常消費,1表示欺詐消費,由柱狀圖可以看出欺詐的數(shù)據(jù)量非常小,而正常消費非常多。餅形圖可以看出欺詐消費所占的百分比很小為0.17%可以發(fā)現(xiàn)正常消費和欺詐消費的差異性是非常大的。

時間這個維度也由秒轉(zhuǎn)換為了小時,因為小時對于大多數(shù)的人而言都較于理解,并且小時可以清晰的表示出早、中、晚的三個時間段??梢苑奖阌^察不同時間段消費金額的差異等等。

3?特征工程

特種工程的目的是為了最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用,通過對特征進行整合,選擇,縮放等使得模型具有更好的效果。本文同過對我們的數(shù)據(jù)集進行特征工程的探究,來提高后續(xù)模型的準確率。

我們調(diào)查了欺詐與正常的數(shù)據(jù)每一維度之間的相關(guān)系數(shù)繪制了如圖3,發(fā)現(xiàn)信用卡被盜刷的事件中,部分變量之間的相關(guān)性更明顯。其中變量V1、V2、V3、V4、V5、V6、V7、V9、V10、V11、V12、V14、V16、V17和V18以及V19之間的變化在信用卡被盜刷的樣本中呈性一定的規(guī)律。信用卡正常消費事件中,Time-Hour的相關(guān)性都很弱接近于零。所以正常和被盜刷之間存在著很大的差異性。例如:被盜刷的V2,V5相關(guān)性就非常明顯接近于-1.0,而正常的V2,V5相關(guān)性為零,所以正常與盜刷的相關(guān)性差異性也很大。

我們查找到了欺詐和正常的消費金額與消費筆數(shù),做出了如圖4的柱狀圖。信用卡被盜刷發(fā)生的金額與信用卡正常用戶發(fā)生的金額相比呈現(xiàn)散而小的特點,這說明信用卡盜刷者為了不引起信用卡卡主的注意,更偏向選擇小金額消費。而信用卡正常消費筆數(shù)分布比較集中,呈現(xiàn)冪律分布,符合正常的消費習慣。

如圖5所示:這是我們尋找消費筆數(shù)和時間的關(guān)系。在正常消費中,兩天的消費時間上的習慣是相同的,并且有在凌晨消費不積極,而在造成8-9點之后消費熱情升高,在夜晚9點之后進入高峰的特點;而在欺詐消費中,并無上述特點,分布的比較不均勻。

我們尋找消費金額和時間的關(guān)系,繪制了圖6,該圖表示的是:不同時間的消費金額。欺詐消費金額是散亂排布的,而正常消費金額很集中,大多數(shù)集中在0-10000元,在相同時間段的消費金額比較集中。

圖7是我們發(fā)現(xiàn)不同變量在信用卡被盜刷和信用卡正常的不同分布情況,我們將選擇在不同信用卡狀態(tài)下的分布有明顯區(qū)別的變量。我們觀察了所有31個維度的正常和欺詐的分布情況發(fā)現(xiàn)了V8、V13、V15、V20、V21、V22、 V23、V24、V25、V26、V27和V28這些變量欺詐和正常消費的數(shù)據(jù)的分布差異比較小,如圖7中下圖中所示,V15的正常和欺詐的數(shù)據(jù)分布差異非常小,我們對這樣的維度進行了剔除。而剩余的其他維度差異比較大,如圖7中上圖V16的正常和欺詐差異非常大,說明通過這個維度可以對是否是欺詐消費進行判斷,所以我們保留了這部分變量。

隨機森林可以用于特征探索,是一種基于決策樹的分類方法,利用隨機森林算法可以計算輸出不同特征的重要行排序,在這里我們將18個維度的重要性利用隨機森林進行排序如圖8,hour和amout這兩個維度的重要性排名比較靠后,但是我們從前面的工作中發(fā)現(xiàn)這兩個維度是對于分類有效的特征,那么如圖8前面V12-V2的維度有效性就更大了。說明我們之前進行的特征選擇工作是合理的。

最后,我們對amout和hour這兩個維度進行了均值-標準差的方法進行標準化,通過這樣的數(shù)據(jù)縮放,使得和其他維度的尺度相同。

4?模型訓練及評價

支持向量機(Support Vector Machine,SVM)的基本模型是在特征空間上找到最佳的分離超平面使得訓練集上正負樣本間隔最大。SVM是用來解決二分類問題的有監(jiān)督學習算法,在引入了核方法之后SVM也可以用來解決非線性問題。

一般SVM有下面三種:

(1)硬間隔支持向量機(線性可分支持向量機):當訓練數(shù)據(jù)線性可分時,可通過硬間隔最大化學得一個線性可分支持向量機。

(2)軟間隔支持向量機:當訓練數(shù)據(jù)近似線性可分時,可通過軟間隔最大化學得一個線性支持向量機。

(3)非線性支持向量機:當訓練數(shù)據(jù)線性不可分時,可通過核方法以及軟間隔最大化學得一個非線性支持向量機。

并且SVM的優(yōu)缺點優(yōu)點是SVM在中小量樣本規(guī)模的時候容易得到數(shù)據(jù)和特征之間的非線性關(guān)系,可以避免使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小值問題,可解釋性強,可以解決高維問題。 缺點是SVM對缺失數(shù)據(jù)敏感,對非線性問題沒有通用的解決方案,核函數(shù)的正確選擇不容易,計算復(fù)雜度高,主流的算法可以達到O(n2)O(n2)的復(fù)雜度,這對大規(guī)模的數(shù)據(jù)是吃不消的。

4.1?處理樣本不均衡問題

正常和違約兩種類別的數(shù)量差別較大,會對模型學習造成困擾。舉例來說,假如有100個樣本,其中只有1個是貸款違約樣本,其余99個全為貸款正常樣本,那么學習器只要制定一個簡單的方法:所有樣本均判別為正常樣本,就能輕松達到99%的準確率。而這個分類器的決策對我們的風險控制毫無意義。因此,在將數(shù)據(jù)代入模型訓練之前,我們必須先解決樣本不平衡的問題。

非平衡樣本常用的解決方式有兩種:

(1)過采樣(oversampling),增加正樣本使得正、負樣本數(shù)目接近,然后再進行學習。

(2)欠采樣(undersampling),去除一些負樣本使得正、負樣本數(shù)目接近,然后再進行學習。

在這里我們選用過采樣,因為該樣本的數(shù)據(jù)量本來就不是很大,應(yīng)該使用過采樣增加一些樣本。我們使用了smote的方法。

表格1是Smote處理之后的結(jié)果。

4.2?實驗過程及結(jié)果

由于svm的計算量比較大,比較耗時,所以我們選擇了1000個樣本進行實驗,是進行隨機抽取的,使得0(正常消費)和1(欺詐消費) 分布均勻。我們用全體樣本訓練了svm分類器,其中的參數(shù)使用默認的。通過分類器產(chǎn)生的預(yù)測結(jié)果是99.4%。如圖9所示,預(yù)測的結(jié)果和真實是一樣的有994個數(shù)據(jù),而預(yù)測錯誤的只有6個數(shù)據(jù)。

我們這樣模型訓練的不足是我們的模型訓練和測試都在同一個數(shù)據(jù)集上進行,這樣導(dǎo)致模型產(chǎn)生過擬合的問題。所以我們對樣本進行劃分.一般來說,將數(shù)據(jù)集劃分為訓練集和測試集有三種處理方法:(1)留出法(hold-out);(2)交叉驗證法(cross-validation);(3)自助法(bootstrapping) 本次項目采用的是交叉驗證法劃分數(shù)據(jù)集。讓模型在訓練集進行學習,在驗證集上進行參數(shù)調(diào)優(yōu),最后使用測試集數(shù)據(jù)評估模型的性能。在這里我們運用cv 交叉驗證分訓練集和測試集,用grid search選擇最優(yōu)參數(shù)。

模型調(diào)優(yōu)我們采用網(wǎng)格搜索調(diào)優(yōu)參數(shù)(grid search),通過構(gòu)建參數(shù)候選集合,然后網(wǎng)格搜索會窮舉各種參數(shù)組合,根據(jù)設(shè)定評定的評分機制找到最好的那一組設(shè)置。在grid search進行調(diào)參的時候,我們調(diào)節(jié)了C和kernal兩個參數(shù), 其中‘C是懲罰參數(shù)C,默認值是1.0,C越大,相當于懲罰松弛變量,希望松弛變量接近0,即對誤分類的懲罰增大,趨向于對訓練集全分對的情況,這樣對訓練集測試時準確率很高,但泛化能力弱。C值小,對誤分類的懲罰減小,允許容錯,將他們當成噪聲點,泛化能力較強。 kernel參數(shù)表示核函數(shù)的形式,默認是rbf,也可以是‘linear,‘poly,‘rbf,‘sigmoid,‘precomputed ,進行實驗的過程中,5折cv,模型準確率評估采用了f1-score。我們設(shè)置C的取值范圍為[0.01,0.1,1,10,100],kernal的取值范圍為 [‘linear,‘poly,‘rbf,‘sigmoid],我們得到的最好參數(shù)'kernel'='linear','C'=0.01,在該參數(shù)模型的準確率為0.97000,其混淆矩陣如圖10所示。默認參數(shù)svm分類器在相同測試集上的準確率為0.90426,其混淆矩陣如圖11所示,經(jīng)過調(diào)參模型準確率提高了6.6%。

對比兩個分類器的分類結(jié)果,最優(yōu)分類器降低了將欺詐交易判斷為正常交易的錯誤的概率,而這類錯誤相比較于將正常消費判斷為欺詐消費的錯誤,對銀行造成的損失更大。經(jīng)過銀行調(diào)參之后的模型更加嚴謹有效。

5?總結(jié)

通過對kaggle中的銀行信用卡消費數(shù)據(jù)進行數(shù)據(jù)預(yù)處理和特征工程對特征進行縮放和選擇,并且利用smote算法對數(shù)據(jù)集的不均衡現(xiàn)象進行處理,構(gòu)建了基于SVM的反欺詐預(yù)測模型,對用戶是否進行了欺詐消費進行預(yù)測,通過調(diào)整模型參數(shù),得到最優(yōu)模型,使得準確率達到了97.00%。目前大部分的相關(guān)模型主要以logist回歸和決策樹為主,我們嘗試了新的SVM的方法解決該問題,并且我們處理了樣本不均衡的問題,得到有意義的結(jié)果。我們的不足支出在于數(shù)據(jù)集不夠大,這是由于SVM計算量比較大,計算時間久,所以不得已選擇了小的數(shù)據(jù)集,之后若計算條件允許的情況下,我們將嘗試大數(shù)據(jù)集下的運行結(jié)果。

參考文獻

[1]仵偉強,后其林.基于機器學習模型的消費金融反欺詐模型與方法[J].現(xiàn)代管理科學,2018.

[2]唐飛泉,楊律銘.人工智能在銀行業(yè)的應(yīng)用與實踐[J].現(xiàn)代管理科學,2019,(02).

[3]趙清華,張藝豪,馬建芬,段倩倩.改進SMOTE的非平衡數(shù)據(jù)集分類算法研究[J].計算機工程與應(yīng)用,2018,(18).

[4]Support-Vector Networks.Corinna Cortes,Vladimir Vapnik[J].Machine Learning,1995,(3).

猜你喜歡
信用卡
信用卡資深用戶
信用卡詐騙
信用卡滯納金首遭法律否決
辦信用卡透支還債夫妻均獲刑10年
岑巩县| 福安市| 青川县| 子长县| 兰考县| 武安市| 犍为县| 嘉荫县| 喀什市| 小金县| 定兴县| 东山县| 枝江市| 昌宁县| 五峰| 南皮县| 达拉特旗| 灵川县| 翁源县| 宜州市| 威远县| 海口市| 连江县| 巩留县| 广安市| 雷州市| 望都县| 梓潼县| 宜宾县| 永泰县| 白银市| 双柏县| 阿拉善右旗| 舞阳县| 灵丘县| 屏南县| 永善县| 杭锦旗| 大石桥市| 吉安县| 南丰县|