湯鑫
摘要:隨著信息時(shí)代的蓬勃發(fā)展,網(wǎng)絡(luò)訂單無(wú)序的爆炸式膨脹,交易數(shù)據(jù)可能出現(xiàn)的信息失真使得快速交易的風(fēng)險(xiǎn)呈指數(shù)增長(zhǎng),導(dǎo)致越來(lái)越多的網(wǎng)絡(luò)欺詐行為被推向了風(fēng)口浪尖。本文通過(guò)分析網(wǎng)絡(luò)機(jī)票訂單的歷史數(shù)據(jù),采用主成分分析(Principal Component Analysis,PCA)的方法對(duì)其特征空間進(jìn)行降維,運(yùn)用支持向量機(jī)(Support Vector Machine,SVM)算法進(jìn)行模型訓(xùn)練,從數(shù)據(jù)和模型層面得到分類(lèi)預(yù)測(cè)模型,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)訂單欺詐行為的風(fēng)險(xiǎn)預(yù)測(cè)和監(jiān)控。
關(guān)鍵詞:主成分分析;支持向量機(jī);特征空間;風(fēng)險(xiǎn)控制
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)35-0046-02
The Research and Application of SVM Algorithm Based on PCA in Network Fraud
TANG Xin
(College of Big Data and Computer Science, Guizhou Normal University, Guizhou 550025, China)
Abstract:With the prosperous of Internet Times, the inflation its no arrangements to online ordering and the information distortion that the transaction data may appear makes the risk of the rapid growing exponentially, which promote more and more online fraud to the top. The assignment, according to analysis the historic data of online flight and the feature space is reduced by the method of principal component analysis, and use model training to support vector machine algorithm.And we receive the sorts based on data and model, thus to realize the prediction and monitoring of the online fraud.
Key words:PCA;SVM;feature space;risk management
1 前言
在大數(shù)據(jù)時(shí)代,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)如火如荼的運(yùn)用于世界的各個(gè)領(lǐng)域,滲透到醫(yī)療、科技、教育、經(jīng)濟(jì)等社會(huì)的各個(gè)層面,信息技術(shù)將“大數(shù)據(jù)”推向了一個(gè)新的高度,由于網(wǎng)絡(luò)訂單的日益流行,其行為方式在強(qiáng)大的高頻交易和程序化交易中凸顯出強(qiáng)烈的反差。網(wǎng)絡(luò)欺詐行為頻頻發(fā)生,使得數(shù)據(jù)的真實(shí)性和有效性屢見(jiàn)報(bào)端。因此,本文通過(guò)分析網(wǎng)絡(luò)機(jī)票歷史訂單的交易記錄,對(duì)海量的交易數(shù)據(jù)進(jìn)行人工分類(lèi)、數(shù)據(jù)預(yù)處理、主成分分析降維后,利用支持向量機(jī)算法建立詐騙行為的分類(lèi)預(yù)測(cè)模型,對(duì)未知的訂單數(shù)據(jù)進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)網(wǎng)絡(luò)欺詐行為的監(jiān)控服務(wù)。
2 大數(shù)據(jù)風(fēng)控的現(xiàn)狀
全球知名咨詢(xún)公司麥肯錫提出:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!盵1]
如今,在互聯(lián)網(wǎng)技術(shù)和信息技術(shù)的推動(dòng)下,海量數(shù)據(jù)已然擺在面前,是機(jī)遇必然伴隨著挑戰(zhàn),[3]大數(shù)據(jù)風(fēng)險(xiǎn)控制的浪潮已然深深撼動(dòng)了整個(gè)世界,成為發(fā)達(dá)國(guó)家互聯(lián)網(wǎng)領(lǐng)域的標(biāo)準(zhǔn)配置。由于交易要求更快速的交易通道和更高效的策略模型,從而需要搭建風(fēng)控平臺(tái),將風(fēng)控與大數(shù)據(jù)相結(jié)合,通過(guò)分析海量的網(wǎng)絡(luò)交易及行為數(shù)據(jù),運(yùn)用大量的指標(biāo)構(gòu)建能夠?qū)Υ罅匡L(fēng)險(xiǎn)因子的相關(guān)性進(jìn)行描述、估測(cè)和模擬的統(tǒng)計(jì)模型,力圖探索靈活、準(zhǔn)確、高效描述各高維風(fēng)險(xiǎn)因子之間的相依性,對(duì)其進(jìn)行預(yù)測(cè)評(píng)估,進(jìn)而實(shí)時(shí)風(fēng)險(xiǎn)預(yù)測(cè)和交易監(jiān)控。
3實(shí)驗(yàn)過(guò)程
3.1數(shù)據(jù)獲取
本實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境來(lái)源于R 3.2.3,實(shí)驗(yàn)語(yǔ)言為R語(yǔ)言,實(shí)驗(yàn)數(shù)據(jù)來(lái)源于某公司機(jī)票訂購(gòu)網(wǎng)站的真實(shí)交易信息,由于網(wǎng)站上線(xiàn)的產(chǎn)品變化,欺詐行為的特征隨之變化,早期的數(shù)據(jù)可能成為噪聲點(diǎn)。因此,本文只選擇近兩年的交易數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
3.2人工選擇
由于非外卡交易數(shù)據(jù)量非常龐大,這可能會(huì)帶來(lái)預(yù)處理和模型訓(xùn)練過(guò)程的內(nèi)存壓力,因此需要消除相應(yīng)的冗余數(shù)據(jù),通過(guò)對(duì)機(jī)票業(yè)務(wù)的了解,人工從經(jīng)驗(yàn)或直觀(guān)上選擇字段特征,直接過(guò)濾掉與欺詐行為無(wú)關(guān)的客觀(guān)信息,如:訂單編號(hào)、車(chē)票編碼、供應(yīng)商id等特征。
3.3數(shù)據(jù)預(yù)處理
由于原始數(shù)據(jù)的特征是數(shù)據(jù)分析的重點(diǎn),在大量的數(shù)據(jù)字典中需要對(duì)數(shù)據(jù)集做去重處理,對(duì)于缺失值的處理,本文使用已有值的平均值來(lái)填補(bǔ)缺失數(shù)據(jù)。
3.4特征抽取和選擇
3.4.1量化選擇
通過(guò)量化選擇,采用信息熵的方法計(jì)算各特征字段給分類(lèi)(欺詐/非欺詐)系統(tǒng)所帶來(lái)的信息增益量,從而權(quán)衡和量化字段特征的重要性,信息增益越大,特征字段越重要。本文選用信息增益量前20的字段作為模型特征來(lái)進(jìn)行實(shí)驗(yàn)。
3.4.2特征編碼
從選出的特征字段中,對(duì)類(lèi)別型特征進(jìn)行編碼。遍歷整列數(shù)據(jù),依次將特征重組成一組新的向量,每個(gè)不同的特征對(duì)應(yīng)一個(gè)向量標(biāo)號(hào),改向量索引特征中的每個(gè)值,將其替換為向量標(biāo)號(hào)。以此類(lèi)推,依次處理每一列因子型的數(shù)據(jù),使得編碼后的特征只有數(shù)字。對(duì)于邏輯型的數(shù)據(jù),存在為1,不存在為0。再將處理后的因子型和邏輯型數(shù)據(jù)與已做完缺失值處理的整形和數(shù)值型的數(shù)據(jù)融合形成模型的輸入數(shù)值特征。
3.4.3特征空間降維
PCA是目前應(yīng)用較為廣泛的特征選擇方法[4],它是一種將多個(gè)變量通過(guò)線(xiàn)性變換以選出較少個(gè)數(shù)重要變量的多元統(tǒng)計(jì)分析方法,又稱(chēng)主分量分析。這種方法意義明確,易于操作[4],能將原來(lái)眾多具有一定相關(guān)性的變量重新組合成一組新的互相無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)的指標(biāo)。
由于經(jīng)過(guò)選擇后的特征詞匯維度依然較高,因此,本文選擇PCA的方法對(duì)量化后的向量空間進(jìn)行降維處理。
3.5模型訓(xùn)練
分類(lèi)是利用已經(jīng)分類(lèi)的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,然后通過(guò)模型對(duì)未分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)。模型的選擇對(duì)預(yù)測(cè)的效果至關(guān)重要。
支持向量機(jī)是新型的基于邊界的分類(lèi)方法,以統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為基礎(chǔ),在模型的待定樣本學(xué)習(xí)精度和精準(zhǔn)的識(shí)別樣本能力之間運(yùn)用有限的樣本信息找尋最可靠的折中,展現(xiàn)了它在解決高維模式識(shí)別、局部小樣本以及非線(xiàn)性函數(shù)擬合等實(shí)際問(wèn)題中的獨(dú)特優(yōu)勢(shì)。
因此,為了使模型復(fù)雜度適中以及避免“過(guò)擬合”現(xiàn)象,本文采用[C]-支持向量機(jī),選擇SVM算法的高斯徑向基核函數(shù):
[K(x,x')=exp-||x-x'||22σ2]
對(duì)已有的網(wǎng)絡(luò)訂單數(shù)據(jù)對(duì)未知的訂單數(shù)據(jù)進(jìn)行模型訓(xùn)練,在大量交易記錄中識(shí)別出"外卡"的欺詐行為,達(dá)到預(yù)測(cè)和監(jiān)控的目的。
4 實(shí)驗(yàn)評(píng)估
以機(jī)票訂單的非欺詐行為為正類(lèi),否則為負(fù)類(lèi),則精確度P(Precision)反映了被分類(lèi)器判定的正例中真正的正例樣本的比重,召回率R(Recall)反映了被正確判定的正例占總的正例的比重,準(zhǔn)確率A(Accuracy)反映了分類(lèi)器統(tǒng)對(duì)整個(gè)樣本的判定能力——能將正的判定為正,負(fù)的判定為負(fù),其計(jì)算方法如下:
[P=TPTP+FP]
[R=TPTP+FN]
[A=TP+TNP+N=TP+TNTP+FP+TN+FN]F1值為Precision和Recall的綜合指標(biāo),計(jì)算方法:
[2F1=1Precision+1Recall]
若不對(duì)原始數(shù)據(jù)做人工特征選擇和數(shù)據(jù)預(yù)處理的話(huà),數(shù)據(jù)將無(wú)法繼續(xù)進(jìn)行實(shí)驗(yàn);若原始數(shù)據(jù)只經(jīng)過(guò)人工特征選擇、數(shù)據(jù)預(yù)處理,而未通過(guò)PCA降維的實(shí)驗(yàn)?zāi)P徒Y(jié)果對(duì)測(cè)試集預(yù)測(cè)的平均A = 92.447%;若通過(guò)PCA降維處理后,預(yù)測(cè)的準(zhǔn)確率將達(dá)到A=98.564%,實(shí)驗(yàn)?zāi)P蛯?duì)測(cè)試集預(yù)測(cè)的混淆矩陣(confusionMatrix)為:
通過(guò)實(shí)驗(yàn)結(jié)果看出,原始數(shù)據(jù)的預(yù)處理和數(shù)據(jù)的降維處理對(duì)預(yù)測(cè)結(jié)果的效果影響較大,經(jīng)過(guò)PCA處理后的各項(xiàng)預(yù)測(cè)參數(shù)都表現(xiàn)出了較高的性能,較好的提高了模型分類(lèi)預(yù)測(cè)的準(zhǔn)確性,但對(duì)于SVM的核函數(shù)的參數(shù)選擇和數(shù)據(jù)缺失值的填補(bǔ)方法上也存在一些應(yīng)用上的改進(jìn),在模型的選擇方面,也可以嘗試更加高效的驗(yàn)證方法。
5 總結(jié)
總的來(lái)說(shuō),隨著科學(xué)技術(shù)的不斷發(fā)展,在線(xiàn)網(wǎng)絡(luò)訂單越發(fā)的普及,網(wǎng)絡(luò)欺詐行為也更加的多元化,由于本文僅僅是對(duì)某企業(yè)網(wǎng)絡(luò)交易訂單中的欺詐行為進(jìn)行預(yù)測(cè)分析,所以只是處于探索階段,對(duì)于如何更加高效準(zhǔn)確的監(jiān)控、預(yù)防網(wǎng)絡(luò)欺詐行為將是下一步工作的重點(diǎn)。
參考文獻(xiàn):
[1] 黃文,王正林. 數(shù)據(jù)挖掘:R語(yǔ)言實(shí)戰(zhàn)[M]. 北京: 電子工業(yè)出版社, 2014.
[2] 巴曙松,侯暢,唐時(shí)達(dá).大數(shù)據(jù)風(fēng)控的現(xiàn)狀、問(wèn)題及優(yōu)化路徑[J].金融理論與實(shí)踐,2016(2).
[3] 若英.如何理解“大數(shù)據(jù)時(shí)代”?[J].紅旗文稿,2013(11).
[4] 范雪莉,馮海泓,原猛.基于互信息的主成分分析特征選擇算法[J].控制與決策,2013(6).
[5] 羅娜. 數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[J].軟件導(dǎo)刊,2008(10).
[6] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[7] Cortes C,Vapnik V.Support-vector networks.Machine Learning,1995,20.
[8] Filip Mulier.Vapnik-Chervonenkis (VC)learning theory and its applications.IEEE Transactions on Neural Networks,1999,10(5).
[9] VAPNIK V N. 統(tǒng)計(jì)學(xué)習(xí)理論[M].許建華,張學(xué)工,譯.北京: 電子工業(yè)出版社, 2004.
[10] 孔英會(huì),景美麗.基于混淆矩陣和集成學(xué)習(xí)的分類(lèi)方法研究[J].計(jì)算機(jī)工程與科學(xué),2012,34(6):111-117.
[11] 閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J],2004(7):4-13.
[12] 張學(xué)工. 關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1): 32-41.