周 宓
(泉州師范學院,福建 泉州,362000)
基于組合分類器的信用卡信譽檢測方法研究
周 宓
(泉州師范學院,福建 泉州,362000)
給出了支持向量機的信譽檢測模型和基于決策樹的信譽檢測模型的建立方法,并在這2種單一分類器的基礎上,歸納總結了支持向量機方法和決策樹方法對信用卡信譽檢測的偏好特性,提出了一種基于偏好特性的組合分類模型建立方法.
信譽檢測;支持向量機;決策樹;組合分類;測全率;測準率
信用卡作為一種先進的金融支付工具,因其操作便捷、結算安全的特點得到了快速的發(fā)展.如何利用客戶的基本信息及交易行為信息,演繹客戶信用卡的交易行為模式,識別和控制信用卡交易中的惡意提現(xiàn)以及惡意透支行為,檢測信用卡賬戶的信譽水平,以更好地為優(yōu)質客戶提供滿意的服務,同時降低非優(yōu)質客戶所帶來的壞賬風險,是我國銀行信用卡風險管理迫切需要解決的問題.
本文給出了基于支持向量機的信譽檢測模型和基于決策樹的信譽檢測模型的建立方法,并在上述2種單一分類器的基礎上,歸納總結了支持向量機方法和決策樹方法對信用卡信譽檢測的偏好特性,提出了一種基于偏好特性的組合分類模型建立方法,并進行了實驗分析.
概括地說,支持向量機就是首先通過用內積函數(shù)定義的非線性變換將輸入空間變換到一個高維空間,在這個空間中求最優(yōu)分類面的一種線性分類器[1].SVM分類函數(shù)形式上類似于一個神經網絡,輸入為d維特征向量,輸出為中間節(jié)點的線性組合,每個中間節(jié)點對應一個支持向量.由于SVM的求解最后轉化成二次規(guī)劃問題的求解,因此SVM的解是全局唯一的最優(yōu)解.
本文中對信譽檢測數(shù)據(jù)抽取了13個屬性,但每個屬性對信譽檢測的影響并不一致,甚至有可能會有干擾檢測效果的不良影響.因此,先采用巴氏(Bhattacharyya)距離法[2]和relief算法[3]對多個屬性進行處理,去除無關屬性.
決策樹學習是應用最廣的歸納推理算法之一,它對數(shù)據(jù)進行分類,以達到預測的目的.決策樹方法首先根據(jù)訓練集數(shù)據(jù)形成決策樹,如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到訓練集數(shù)據(jù)中,重復該過程,一直到形成正確的決策集[4].本文采用的是C5.0算法.
組合分類器法是多種學習算法的組合,是目前比較流行的機器學習算法之一,其主要目的是提升分類的準確率.現(xiàn)常用的組合模型多為2層結構:第一層為多個不同的學習算法獨立地對訓練樣本集進行學習訓練;第二層為一個分類器組合,它對第一層中各分類器的輸出進行某種組合(多為線性組合)[5].
組合分類器模型會出現(xiàn)多個分類結果,如何處理和組合成員分類器的分類結果并對其進行融合,是組合分類器研究中的一個重要部分.目前,對成員分類器的分類結果[6]的處理方法主要分為投票法和非投票法.
投票法是對各分類器的分類結果進行融合的最簡單和最常用的方法.它對第一層各單分類器的分類結果進行投票,票數(shù)最多的分類結果即為最終結果;它也可根據(jù)單分類器對最終結果的重要性,為單分類器的分類預測結果賦予不同的權重.
如果每個單分類器不是簡單地給出分類類別,而是給出分類樣本屬于某一類的概率,則可使用非投票法.對每個類別,設單分類器將待分類樣本分到某類別的概率是Pi,則非投票法的概率公式是1/L*∑Pi(i=1,2,…,L),其中L 為單分類器的數(shù)量[7].
由于當前國內尚沒有公開的信用卡持卡人的交易數(shù)據(jù),因此本文的實驗數(shù)據(jù)選取自國外某銀行發(fā)布的信用卡數(shù)據(jù).信用卡數(shù)據(jù)由8個ASC文件組成,分別為 ACCOUNT.ASC,CLIENT.ASC,DISP.ASC,ORDER.ASC,TRANS.ASC,LOAN.ASC,CARD.ASC,DISTRICT.ASC,包含持卡人以及持卡人對應的賬戶信息所包含的關聯(lián)信息以及相關數(shù)據(jù).數(shù)據(jù)關聯(lián)圖如圖1所示.
圖1 數(shù)據(jù)關聯(lián)圖
數(shù)據(jù)的初始格式為文本格式,本文選取SQL server 2000,將其預先處理并存儲到數(shù)據(jù)庫中,并在此基礎上對數(shù)據(jù)進行統(tǒng)計分析和屬性抽取,抽取了如下13個屬性用于后面的數(shù)據(jù)挖掘訓練及測試:
(1)Sex:客戶性別;
(2)Age:客戶年齡;
(3)Amount of loan:客戶的借貸總額;
(4)Loan duration:借貸歸還的時間區(qū)間;
(5)Type of the credit card:客戶所持有的信用卡類別;
(6)District:客戶居住的地區(qū);
(7)Minimum amount:在某時間段內該客戶所有交易中的最小額度;
(8)Maximum amount:在某時間段內該客戶所有交易中的最大額度;
(9)Average amount:在某時間段內該客戶所有交易的平均額度;
(10)Minimum account:在某時間段內該賬戶所有交易中的最小額度;
(11)Maximum account:在某時間段內該賬戶所有交易中的最大額度;
(12)Average account:在某時間段內該賬戶所有交易的平均額度;
(13)Credit status:信用卡信譽狀態(tài).該屬性的值是離散值,有2種取值,分別為A和B.其中,A表示該客戶是優(yōu)質信譽客戶,B表示該客戶是非優(yōu)質信譽客戶.
根據(jù)數(shù)據(jù)數(shù)量,前面提到的某時間段本文取1年.其中,第13個屬性為信用卡信譽狀態(tài),并且是本文信用卡信譽檢測的目標屬性.
本文采用支持向量機和決策樹方法的組合分類器法建立信用卡信譽檢測模型.模型圖如圖2所示.
圖2 組合分類器模型
本文在window XP的系統(tǒng)環(huán)境下,使用SQL server 2000存儲實驗數(shù)據(jù),以C#.net作為編程語言搭建實驗環(huán)境,構建信用卡信譽檢測模型,每一種模型分別做了6次實驗.其中支持向量機的模型建立結合了LIBSVM的使用.
通過數(shù)據(jù)預處理,得到234組用于數(shù)據(jù)挖掘的有效數(shù)據(jù),其中優(yōu)質信譽客戶即A類數(shù)據(jù)有203組,非優(yōu)質信譽客戶即B類數(shù)據(jù)有31組.通過非對稱信息處理,數(shù)據(jù)訓練集包含51組數(shù)據(jù),其中A類數(shù)據(jù)30組,B類數(shù)據(jù)21組;數(shù)據(jù)測試集包含183組數(shù)據(jù),其中A類數(shù)據(jù)173組,B類數(shù)據(jù)10組.
測試集數(shù)據(jù)通過信用卡信譽檢測模型后,輸出結果被劃分為2類:A(優(yōu)質信譽客戶)和B(非優(yōu)質信譽客戶).其中分類結果A中包含真實信譽為A的數(shù)據(jù)Ta以及真實信譽為B被誤判為A的數(shù)據(jù)Fa,分類結果B中包含包含真實信譽為B的數(shù)據(jù)Tb以及真實信譽為A被誤判為B的數(shù)據(jù)Fb.
A類的測準率=Ta/(Ta+Fa)
A類的測全率=Ta/(Ta+Fb)
B類的測準率=Tb/(Tb+Fb)
B類的測全率=Tb/(Tb+Fa)
為了避免單次實驗結果的偶然性,采取對數(shù)據(jù)進行隨機分組的方法,將每次分組得到的訓練集和測試集作為信用卡檢測模型的輸入,得到各個檢測模型的檢測結果并進行評估和比較.
2.3.1 改進的SVM模型實驗結果分析
建立巴氏距離和relief結合的改進的SVM檢測模型.其中,巴氏距離算法用于排除與信譽檢測關聯(lián)最小的屬性.在此結果的基礎上,再結合relief算法,綜合考慮屬性間的關聯(lián)性,找出利于信譽檢測的屬性子集.得到的相關實驗結果中,A類的測全率均在85%以上,測準率甚至達到了99%以上;B類的測全率都在90%以上,而測準率只在27%~45%之間.
這說明改進的SVM模型對A類數(shù)據(jù)的分類效果較好,測全率和測準率都較高,而且對B類數(shù)據(jù)的測全率也較高,能較好地覆蓋B類數(shù)據(jù).但是,它對B類數(shù)據(jù)的測準率卻較低.
2.3.2 基于決策樹的信譽檢測模型實驗結果分析
建立基于決策樹的信譽檢測模型,將數(shù)據(jù)預處理后得到的訓練集中所有12個屬性數(shù)據(jù)作為模型的輸入,訓練得到一個檢測模型,以此來對測試集進行測試分類.相關實驗結果中,A類的測全率最低為64.16%、最高為94.21%,均值為88.39%,測準率都在98%~99%之間;B類的測全率在80%~90%之間,分布較均勻,而測準率分別為40%、44.44%、12.67%、34.78%、42.1%、44.44%.
通過以上2種實驗結果的比較可以看出,決策樹模型對A類數(shù)據(jù)的預測效果不論在測全率還是測準率方面均劣于改進的SVM模型,但是該模型對B類數(shù)據(jù)的測準率比改進的SVM模型高.在組合分類模型中,將考慮這一特性.
2.3.3 組合分類模型實驗結果分析
改進的SVM模型對A類數(shù)據(jù)的分類效果比決策樹模型的分類效果好,測全率和測準率都較高,而且對B類數(shù)據(jù)的測全率也較高,說明改進的SVM模型能較好地覆蓋B類數(shù)據(jù),但它對B類數(shù)據(jù)的測準率卻很低.相比而言,決策樹模型對B類數(shù)據(jù)的測準率相對較高.所以,組合模型將先采用改進的SVM信譽檢測模型來對測試集進行第一次檢測,將檢測類別為B的數(shù)據(jù)再經過決策樹信譽檢測模型進行第二次檢測.實驗結果中,A類數(shù)據(jù)的測全率均保持在94%以上,測準率在98.78%以上;B類數(shù)據(jù)的測全率分別為80%、80%、90%、80%、80%、90%,測準率分別為44.44%、50%、47.36%、44.44%、65.15%、47.36%.
對改進的SVM模型、決策樹模型和組合分類模型的實驗結果進行統(tǒng)計,得出實驗圖,如圖3-圖6所示.
圖33種模型對A類數(shù)據(jù)的測全率比較圖
從圖3和圖4可以看出,組合分類模型對A類數(shù)據(jù)的分類效果無論在測準率和測全率上都是比較好的,說明組合分類模型則是一種兩方面都表現(xiàn)優(yōu)秀的折衷算法.
從圖5和圖6可以看出,對于B類數(shù)據(jù),組合分類模型的測全率僅次于改進的SVM模型,但是它的測準率卻是最高的,說明它對非優(yōu)質信譽客戶的檢測準確且全面.
本文通過結合改進的支持向量機和決策樹方法,建立了一個基于組合分類器的信用卡信譽檢測模型,可實現(xiàn)準確、有效的客戶信譽檢測,為銀行分析和進一步的數(shù)據(jù)挖掘等工作提供支持.這不但在理論上豐富了信譽檢測與數(shù)據(jù)挖掘領域的研究,而且在實際上可為銀行信用卡風險管理提供有效信息,對銀行在以客戶為中心的管理理念下,利用信息技術提高銀行競爭力,具有一定的指導意義.
[1] 曹小娟,王小明.金融工程的支持向量機方法[M].上海:上海財經大學出版社,2007.
[2] 鄭俊翔,宣國榮,柴佩琪.巴氏距離和K-L交換結合的特征選擇[J].微型電腦應用,2004(12):12-13.
[3] Kononenko I.Estimating Attributes:Analysis and Extensions of Relief[C]//Proceedings of Eurpopean Conference on Machine Learning.Berlin:Springer-Verlag,1994:171-182.
[4] Quinlan J R.Induction of Decision Tree[J].Machine Learning,1986,l(l):86-106.
[5] Mitchell T M.機器學習[M].曾華軍,張銀奎,等,譯.北京:機械工業(yè)出版社,2003.
[6] Anderson E,Weitz B.Determinants of Continuity in Congenital Industrial Channel Dyads[J].Marketing Science,1989,8(4):310-323.
[7] 莊瑋.基于數(shù)據(jù)挖掘的信用卡欺詐行為識別模型的研究[D].南京:南京航空航天大學,2008.
Study on Reputation Detection of Credit Card Based on SVM
ZHOU Mi
(Quanzhou Normal University,Quanzhou 362000,China)
The methods to build a SVM detection model and a decision tree-based detection model are given out,and based on the two single classifier considering the classification preferences of the two models,a combination model to get better classification effect is built.
credit classify;support vector machine;decision tree;combined classification;sensitivity;specificity
TP18;TP274
A
10.3969/j.issn.1671-6906.2012.05.016
1671-6906(2012)05-0068-05
2012-07-06
周 宓(1981-),女,福建泉州人,講師,碩士.