周 宓
(泉州師范學(xué)院應(yīng)用科技學(xué)院,福建泉州 362000)
基于組合分類器的信用卡信譽(yù)檢測(cè)
周 宓
(泉州師范學(xué)院應(yīng)用科技學(xué)院,福建泉州 362000)
給出了支持向量機(jī)的信用卡信譽(yù)檢測(cè)模型和基于決策樹的信用卡信譽(yù)檢測(cè)模型的建立方法,并在這兩種單一分類器的基礎(chǔ)上,歸納總結(jié)支持向量機(jī)方法和決策樹方法對(duì)信用卡信譽(yù)檢測(cè)的偏好特性,提出了一種基于偏好特性進(jìn)行組合的組合分類器模型建立方法.
信譽(yù)檢測(cè);支持向量機(jī);決策樹;組合分類;測(cè)全率;測(cè)準(zhǔn)率
信用卡作為一種先進(jìn)的金融支付工具,因其所具有的操作便捷、結(jié)算安全等特點(diǎn)得到快速發(fā)展.如何利用客戶的基本信息及交易行為信息,演繹客戶信用卡的交易行為模式,識(shí)別和控制信用卡交易中的惡意提現(xiàn)以及惡意透支行為以及檢測(cè)信用卡賬戶的信譽(yù)水平,以更好地為優(yōu)質(zhì)客戶提供滿意的服務(wù),同時(shí)降低非優(yōu)質(zhì)客戶所帶來(lái)的壞賬風(fēng)險(xiǎn),是銀行信用卡風(fēng)險(xiǎn)管理迫切需要解決的問(wèn)題.本研究給出了基于支持向量機(jī)的信用卡信譽(yù)檢測(cè)模型和基于決策樹的信用卡信譽(yù)檢測(cè)模型的建立方法,并總結(jié)支持向量機(jī)方法和決策樹方法對(duì)信用卡信譽(yù)檢測(cè)的偏好特性,提出了一種基于偏好特性進(jìn)行組合的組合分類器模型建立方法,并對(duì)結(jié)果進(jìn)行了分析.
1.1 支持向量機(jī)分類法
支持向量機(jī)就是首先通過(guò)用內(nèi)積函數(shù)定義的非線性變換將輸入空間變換到一個(gè)高維空間,在這個(gè)空間中求最優(yōu)分類面的一種線性分類器[1].支持向量機(jī)分類函數(shù)形式上類似于一個(gè)神經(jīng)網(wǎng)絡(luò),輸入是d維特征向量,輸出是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對(duì)應(yīng)一個(gè)支持向量.由于支持向量機(jī)的求解最后轉(zhuǎn)化成二次規(guī)劃問(wèn)題的求解,因此支持向量機(jī)的解是全局唯一的最優(yōu)解.
本研究對(duì)信用卡信譽(yù)檢測(cè)數(shù)據(jù)抽取了較多的相關(guān)屬性,但每個(gè)屬性對(duì)信譽(yù)檢測(cè)的影響并不一致,甚至有可能會(huì)有干擾檢測(cè)效果的不良影響,對(duì)此,可先采用巴氏距離法[2]和Relief算法[3]對(duì)多個(gè)屬性進(jìn)行處理,以去除無(wú)關(guān)屬性.
1.2 決策樹分類法[4]
決策樹分類法是應(yīng)用最廣的歸納推理算法之一.它對(duì)數(shù)據(jù)進(jìn)行分類,可達(dá)到預(yù)測(cè)的目的[4].決策樹方法首先根據(jù)訓(xùn)練集數(shù)據(jù)形成決策樹,如果該樹不能對(duì)所有對(duì)象給出正確的分類,那么選擇一些例外加入到訓(xùn)練集數(shù)據(jù)中,重復(fù)該過(guò)程一直到形成正確的決策集.本研究采用的是C5.0決策樹算法.
1.3 組合分類器法
組合分類器是多種學(xué)習(xí)算法的組合,是目前比較流行的機(jī)器學(xué)習(xí)算法之一,其主要目的是提升分類的準(zhǔn)確率[5].目前,常用的組合模型多為兩層結(jié)構(gòu):第一層為多個(gè)不同的學(xué)習(xí)算法獨(dú)立地對(duì)訓(xùn)練樣本集進(jìn)行學(xué)習(xí)訓(xùn)練;第二層為一個(gè)分類器組合,它對(duì)第一層中各分類器的輸出進(jìn)行某種組合(多為線性組合).
通常,組合分類器模型會(huì)出現(xiàn)多個(gè)分類結(jié)果,如何處理和組合成員分類器的分類結(jié)果,實(shí)現(xiàn)分類器的融合是組合分類器研究中的一個(gè)重要部分.目前,對(duì)成員分類器分類結(jié)果的處理方法主要分為投票法和非投票法[6].
1.4 信用卡數(shù)據(jù)來(lái)源與數(shù)據(jù)描述
由于目前國(guó)內(nèi)尚沒(méi)有公開的信用卡持卡人的交易數(shù)據(jù),因此本研究實(shí)驗(yàn)數(shù)據(jù)選取自國(guó)外某銀行發(fā)布的信用卡數(shù)據(jù).該信用卡數(shù)據(jù)由8個(gè)ASC文件組成:ACCOUNT.ASC,CLIENT.ASC,DISP.ASC,ORDER.ASC,TRANS.ASC,LOAN.ASC,CARD.ASC,DISTRICT.ASC,其包含持卡人以及持卡人對(duì)應(yīng)賬戶信息所包含的關(guān)聯(lián)信息以及相關(guān)數(shù)據(jù).數(shù)據(jù)關(guān)聯(lián)如圖1所示.
圖1 數(shù)據(jù)關(guān)聯(lián)圖
由于上述數(shù)據(jù)的初始格式為文本格式,本研究選取了SQL Server 2000將其預(yù)先處理存儲(chǔ)到數(shù)據(jù)庫(kù)中,并在數(shù)據(jù)庫(kù)基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和屬性抽取.抽取如下13個(gè)屬性用于后面的數(shù)據(jù)挖掘訓(xùn)練及測(cè)試:①Sex,顧客性別;②Age,顧客年齡;③Amount of loan,顧客的借貸總額;④Loan duration,借貸歸還的時(shí)間區(qū)間;⑤Type of the credit card,顧客所持有的信用卡類別;⑥D(zhuǎn)istrict,顧客居住的地區(qū);⑦M(jìn)inimum amount,某時(shí)間段內(nèi)該客戶所有交易中的最小額度;⑧Maximum amount,某時(shí)間段內(nèi)該客戶所有交易的最大額度;⑨Average amount,某時(shí)間段內(nèi)該客戶所有交易的平均額度;⑩Minimum account,某時(shí)間段內(nèi)該賬戶所有交易的最小額度; ○11Maximum account,某時(shí)間段內(nèi)該賬戶所有交易的最大額度; ○12 Average account,某時(shí)間段內(nèi)該賬戶所有交易的平均額度; ○13Credit status,信用卡信譽(yù)狀態(tài),離散屬性,A表示優(yōu)質(zhì)信譽(yù)客戶,B表示非優(yōu)質(zhì)信譽(yù)客戶.
根據(jù)數(shù)據(jù)數(shù)量,屬性中所對(duì)應(yīng)的某時(shí)間段取1年時(shí)間為限定條件,其中第13個(gè)屬性為信用卡信譽(yù)狀態(tài),該屬性是本研究的信用卡信譽(yù)檢測(cè)的目標(biāo)屬性.
1.5 模型建立
本研究采用支持向量機(jī)和決策樹方法對(duì)信用卡信譽(yù)檢測(cè)進(jìn)行模型的建立,具體如圖2所示.
2.1 實(shí)驗(yàn)環(huán)境
圖2 信用卡信譽(yù)檢測(cè)建模示意圖
本研究在Window XP的系統(tǒng)環(huán)境下,使用SQL Server 2000存儲(chǔ)實(shí)驗(yàn)數(shù)據(jù),利用C#.net作為編程語(yǔ)言來(lái)搭建實(shí)驗(yàn)環(huán)境,構(gòu)建信用卡信譽(yù)檢測(cè)模型.其中,支持向量機(jī)的模型建立結(jié)合了LIBSVM的使用.通過(guò)數(shù)據(jù)預(yù)處理得到234組用于數(shù)據(jù)挖掘的有效數(shù)據(jù),其中優(yōu)質(zhì)信譽(yù)客戶即A類數(shù)據(jù)有203組,非優(yōu)質(zhì)信譽(yù)客戶即B類數(shù)據(jù)有31組.通過(guò)非對(duì)稱信息處理,數(shù)據(jù)訓(xùn)練集包含51組數(shù)據(jù),其中A類數(shù)據(jù)30組,B類數(shù)據(jù)21組;數(shù)據(jù)測(cè)試集包含183組數(shù)據(jù),其中A類數(shù)據(jù)173組,B類數(shù)據(jù)10組.
2.2 評(píng)估標(biāo)準(zhǔn)
測(cè)試集數(shù)據(jù)通過(guò)信用卡信譽(yù)檢測(cè)模型后,輸出結(jié)果被劃分為兩類:A(優(yōu)質(zhì)信譽(yù)客戶)和B(非優(yōu)質(zhì)信譽(yù)客戶).其中分類結(jié)果A數(shù)據(jù)中包含真實(shí)信譽(yù)為A的數(shù)據(jù)Ta以及真實(shí)信譽(yù)為B被誤判為A的數(shù)據(jù)Fa,分類結(jié)果B的數(shù)據(jù)包含Tb和Fb,解釋同理.具體而言,
①A的測(cè)準(zhǔn)率=Ta/(Ta+Fa)
②A的測(cè)全率=Ta/(Ta+Fb)
③B的測(cè)準(zhǔn)率=Tb/(Tb+Fb)
④B的測(cè)全率=Tb/(Tb+Fa)
為了避免單次試驗(yàn)結(jié)果的偶然性,本研究對(duì)數(shù)據(jù)進(jìn)行多次隨機(jī)分組,并將每次分組得到的訓(xùn)練集和測(cè)試集作為多個(gè)信用卡檢測(cè)模型建立方法的輸入,同時(shí)對(duì)各個(gè)檢測(cè)方法的檢測(cè)效果進(jìn)行比較和評(píng)估.
2.3 結(jié)果分析
2.3.1 改進(jìn)的支持向量機(jī)方法結(jié)果分析.
本研究建立了巴氏距離和Relief結(jié)合的支持向量機(jī)檢測(cè)模型.其中巴氏距離算法用于排除與信譽(yù)檢測(cè)關(guān)聯(lián)最小的屬性,結(jié)合Relief算法后,綜合考慮了屬性間的關(guān)聯(lián)性,找出利于信用卡信譽(yù)檢測(cè)的屬性子集,得到的相關(guān)實(shí)驗(yàn)結(jié)果如表1、2所示.
表1 改進(jìn)的支持向量機(jī)中A類預(yù)測(cè)效果
表2 改進(jìn)的支持向量機(jī)中B類預(yù)測(cè)效果
從表1、2中可以看出,改進(jìn)的支持向量機(jī)方法對(duì)A類的分類效果很好,測(cè)全率和測(cè)準(zhǔn)率都很高,且B類的測(cè)全率也很高,說(shuō)明該方法能較好地覆蓋到B類,但是它的測(cè)準(zhǔn)率卻很低.
2.3.2 基于決策樹模型結(jié)果分析.
同時(shí),本研究建立了基于決策樹的信譽(yù)檢測(cè)方法,將數(shù)據(jù)預(yù)處理后得到的訓(xùn)練集中所有13個(gè)屬性數(shù)據(jù)作為模型建立的輸入,訓(xùn)練得到一個(gè)檢測(cè)方法,以此來(lái)對(duì)測(cè)試集進(jìn)行測(cè)試分類,相關(guān)實(shí)驗(yàn)結(jié)果如表3、4所示.
表3 決策樹中A類預(yù)測(cè)效果
表4 決策樹中B類預(yù)測(cè)效果
從表1和表3的比較中可以看出,決策樹方法對(duì)A類預(yù)測(cè)效果不論從測(cè)全率還是測(cè)準(zhǔn)率均劣于改進(jìn)的支持向量機(jī)方法,但對(duì)B類預(yù)測(cè)效果的測(cè)準(zhǔn)率比改進(jìn)的支持向量機(jī)方法高.
2.3.3 組合分類器模型結(jié)果分析.
考慮到改進(jìn)的支持向量機(jī)方法對(duì)A類的分類效果比決策樹方法的信譽(yù)檢測(cè)方法效果好,測(cè)全率和測(cè)準(zhǔn)率都很高,而且對(duì)B類的測(cè)全率也很高,說(shuō)明它能較好地覆蓋到B類,但是它的測(cè)準(zhǔn)率卻很低.相比而言,決策樹模型對(duì)B類的測(cè)準(zhǔn)率相對(duì)較高.所以,組合分類器模型將先采用改進(jìn)的支持向量機(jī)信譽(yù)檢測(cè)方法來(lái)對(duì)測(cè)試集進(jìn)行第一次檢測(cè),將檢測(cè)結(jié)果為B的數(shù)據(jù)再經(jīng)過(guò)決策樹信譽(yù)檢測(cè)方法進(jìn)行第二次檢測(cè),相關(guān)實(shí)驗(yàn)結(jié)果如表5、6所示.
表5 組合分類器模型中A類預(yù)測(cè)效果
表6 組合分類器模型中B類預(yù)測(cè)效果
所有試驗(yàn)結(jié)束經(jīng)過(guò)統(tǒng)計(jì)分析得出實(shí)驗(yàn)結(jié)果如圖3~6所示.
圖3 A類測(cè)全率比較圖
圖4 A類測(cè)準(zhǔn)率比較圖
從圖3、4可以看出,組合分類器模型對(duì)A類的分類效果無(wú)論在測(cè)準(zhǔn)率和測(cè)全率上都是比較好的.雖然純支持向量機(jī)方法的測(cè)全率最高,但是測(cè)準(zhǔn)率卻很低;改進(jìn)的支持向量機(jī)方法的測(cè)準(zhǔn)率最高,但是測(cè)全率又很低.組合分類器模型則是一種兩方面都表現(xiàn)較好的折衷算法.
圖5 B類測(cè)全率比較圖
圖6 B類測(cè)準(zhǔn)率比較圖
從圖5、6可以看出,對(duì)于關(guān)注的B類,它的測(cè)全率僅次于改進(jìn)的支持向量機(jī)方法,但是它的測(cè)準(zhǔn)率卻最高,這也是本研究的希望達(dá)到主要研究目的,即模型對(duì)非優(yōu)質(zhì)信譽(yù)客戶的檢測(cè)準(zhǔn)確且全面.
本文通過(guò)結(jié)合改進(jìn)的支持向量機(jī)和決策樹方法建立了一個(gè)基于組合分類器的信用卡信譽(yù)檢測(cè)模型,實(shí)現(xiàn)了準(zhǔn)確、有效的客戶信用卡信譽(yù)檢測(cè),本研究在理論上可以豐富信譽(yù)檢測(cè)與數(shù)據(jù)挖掘領(lǐng)域的研究;在實(shí)際中可為銀行信用卡風(fēng)險(xiǎn)管理提供有效信息,為銀行在以客戶為中心的管理理念下,利用信息技術(shù)提高銀行的核心競(jìng)爭(zhēng)力提供有力的技術(shù)支持.
[1]曹小娟,王小明.金融工程的支持向量機(jī)方法[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2007.
[2]鄭俊翔,宣國(guó)榮,柴佩琪.巴氏距離和 K-L交換結(jié)合的特征選擇[J].微型電腦應(yīng)用,2004,20(12):12-15.
[3]K ononenko I.Estimating Attributes:Analysis and Extensions of Relief[M].Berlin:Springer-Verlag Publisher,1994.
[4]Quinlan J R.Induction of Decision Tree[J].Machine Learning, 1986,1(1):86-106.
[5]Mitchell TM.機(jī)器學(xué)習(xí)[M].曾華軍,張銀奎,等譯.北京:機(jī)械工業(yè)出版社,2003.
[6]Anderson E,Weitz B.Determinants of Continuity in Congenital Industrial Channel Dyads[J].Marketing Science,1989,8(4):310-323.
[7]莊瑋.基于數(shù)據(jù)挖掘的信用卡欺詐行為識(shí)別模型的研究[D].南京:南京航空航天大學(xué),2008.
Reputation Detection of Credit Card Based on SVM
ZHOU Mi
(School of Science and Technology Application,Quanzhou Normal University,Quanzhou 362000,China)
Credit testing model of support vector machine and construction mehtod of credit testing model based on decision tree were given.Based on the two single classifier,preferences of credift card credit testing supporting support vector machine and decision tree were concluded and summarized.Construction mehtod of combined classification model was proposed based on combination of preference characteristics.
credit testing;support vector machine;decision tree;combined classification;sensitivity;specificity
TP274
:A
1004-5422(2012)03-0239-04
2012-07-06.
周 宓(1981—),女,碩士,講師,從事計(jì)算機(jī)算法研究.
文章編號(hào):1004-5422(2010)03-0261-04