張寶明 魏程益
摘 要:現(xiàn)有特征選擇算法往往只能處理簡(jiǎn)單的拓?fù)浣Y(jié)構(gòu)圖形,對(duì)復(fù)雜的拓?fù)浣Y(jié)構(gòu)圖形無(wú)能為力,為此選擇Structure2vec算法對(duì)網(wǎng)絡(luò)欺詐風(fēng)險(xiǎn)進(jìn)行研究。在梳理相關(guān)文獻(xiàn)基礎(chǔ)上,對(duì)Structure2vec的數(shù)學(xué)原理進(jìn)行分析,給出其對(duì)應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)模型;選擇網(wǎng)絡(luò)用戶(hù)的信用歷史、身份特質(zhì)、行為偏好、履約能力和社會(huì)關(guān)系等5種類(lèi)型特征數(shù)據(jù),構(gòu)建Stucture2vec關(guān)系圖;利用Structure2vec算法編寫(xiě)Python程序,對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,獲得模型;利用測(cè)試數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試,獲得特征向量和對(duì)應(yīng)的風(fēng)險(xiǎn)評(píng)估值。結(jié)果表明,利用Structure2vec算法對(duì)網(wǎng)絡(luò)欺詐風(fēng)險(xiǎn)進(jìn)行特征選擇和評(píng)估,效果優(yōu)于一般卷積神經(jīng)網(wǎng)絡(luò)。
關(guān)鍵詞:Structure2vec算法;特征選擇;特征向量;欺詐風(fēng)險(xiǎn);神經(jīng)網(wǎng)絡(luò);損失函數(shù)
DOI:10. 11907/rjdk. 181935
中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)002-0028-06
Abstract: The existing algorithms of feature selection can only handle simple topological structures and are incapable of designing complex topological structures. Therefore, the Structure2vec algorithm is chosen to study the risk of network fraud. On the basis of combing the related literature, the mathematical principle of Structure2vec is analyzed, and the corresponding convolution neural network model is given. Then, the five types of characteristic data are selected to construct the relation diagram of Stucture2V, including the user's credit history, identity, behavior preference, performance and social relations. Next, the Structure2vec algorithm is used to write Python program, train the sample data and obtain the model. Finally, the model is tested with the test data to obtain the eigenvector and the corresponding risk assessment value. The results show that the Structure2vec algorithm is better than general convolution neural network for feature selection and evaluation of network fraud risk.
Key Words: structure2vec algorithm; feature selection; feature embedding; fraudulent risk; neural network; loss function
0 引言
近年來(lái),網(wǎng)絡(luò)金融迅猛發(fā)展,大數(shù)據(jù)金融、第三方支付、P2P、眾籌、供應(yīng)鏈金融等新業(yè)態(tài)、新方式不斷涌現(xiàn)。然而,由于網(wǎng)絡(luò)金融的網(wǎng)絡(luò)性、虛擬性,產(chǎn)品的跟風(fēng)性、缺陷性,加上人群的多樣性、貪婪性以及信任管理的淡薄性、困難性,欺詐風(fēng)險(xiǎn)不斷出現(xiàn),返利套現(xiàn)、薅羊毛、貸款失蹤、P2P跑路與ICO詐騙等亂象頻繁發(fā)生。為此,利用機(jī)器學(xué)習(xí)、人工智能、大數(shù)據(jù)等方法,評(píng)估、跟蹤、預(yù)警網(wǎng)絡(luò)欺詐風(fēng)險(xiǎn),并將其控制在一定范圍內(nèi),顯得尤為重要?;诖耍許tructure2vec算法為例,分析了網(wǎng)絡(luò)欺詐風(fēng)險(xiǎn)的特征選擇與評(píng)估方法。
過(guò)去幾年,隨著Word2vec的盛行[1,2],相關(guān)專(zhuān)家學(xué)者已將機(jī)器學(xué)習(xí)與人工智能的焦點(diǎn)集中到特征選擇上。特征選擇對(duì)提高算法性能和預(yù)處理關(guān)鍵數(shù)據(jù)發(fā)揮了很大作用,已成為當(dāng)前深度學(xué)習(xí)和模式識(shí)別的重要利器與核心主題之一,在聲音處理、圖像與視覺(jué)識(shí)別、風(fēng)險(xiǎn)控制等領(lǐng)域得到廣泛應(yīng)用。
國(guó)內(nèi)文獻(xiàn)[3-5]將特征選擇稱(chēng)為特征子集選擇(Feature Subset Selection,F(xiàn)SS )或?qū)傩赃x擇,目的是通過(guò)一系列特征選擇算法,對(duì)原始特征數(shù)據(jù)進(jìn)行映射,去除一些不相關(guān)特征,保留一些有效特征,并在另外一個(gè)空間上生成新的表達(dá)——特征向量,從而有效降低數(shù)據(jù)維度。因此,特征向量是特征選擇的結(jié)果,是一種數(shù)據(jù)表示方式。與原始特征數(shù)據(jù)相比,其在保存更多有用信息的同時(shí),形式更簡(jiǎn)單,更易訪問(wèn),泛化(generalization,是指對(duì)以前未觀測(cè)到的數(shù)據(jù)表現(xiàn)良好)能力更強(qiáng),更能將相似特征映射到一起,當(dāng)然不可避免也會(huì)受到一些懲罰和限制。
國(guó)外文獻(xiàn)[6]將特征選擇在數(shù)學(xué)上定義為一個(gè)映射,該映射滿足單射性和結(jié)構(gòu)保存性,前者意味著每個(gè)值域中的Y在定義域中只能有唯一的X與其對(duì)應(yīng),后者說(shuō)明在X所屬空間上若有[x1 過(guò)濾方法是指從原始特征中直接選擇特征子集,用于后續(xù)機(jī)器學(xué)習(xí)算法[11-15]。由于過(guò)濾方法在選擇特征子集時(shí),并沒(méi)有考慮后續(xù)機(jī)器學(xué)習(xí)算法模型,因而可能會(huì)導(dǎo)致選擇出的特征子集不適合后續(xù)學(xué)習(xí)算法,從而影響學(xué)習(xí)性能(準(zhǔn)確率)。包裝方法使用一個(gè)預(yù)測(cè)模型對(duì)所有可能的特征子集進(jìn)行評(píng)分,從而尋找到一個(gè)能使后續(xù)學(xué)習(xí)算法達(dá)到較高性能的子集。具體而言,即在特征子集的保持集上進(jìn)行測(cè)試,計(jì)算出錯(cuò)次數(shù)并給出相應(yīng)得分,最終獲得最優(yōu)特征子集。由于包裝方法需要為每個(gè)子集訓(xùn)練一個(gè)新模型,因此計(jì)算量非常大[16,17]。而嵌入方法是通過(guò)學(xué)習(xí)自身以自動(dòng)選擇特征,其方法多種多樣,主要包括正則化方法(如Lasso算法)、Ridge算法(嶺回歸數(shù)值計(jì)算)、支持向量機(jī)、決策樹(shù)和深度學(xué)習(xí)等。Lasso算法是一種壓縮估計(jì),保留了子集收縮的優(yōu)點(diǎn),通過(guò)構(gòu)造一個(gè)懲罰函數(shù)得到一個(gè)較為精煉的模型,同時(shí)壓縮一些系數(shù),將其設(shè)定為0,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)算法,其改進(jìn)算法包括Bolasso、Elastic Net、FeaLect等[18,19]。此外,利用深度學(xué)習(xí),可以對(duì)包括文字和聲音在內(nèi)的序列數(shù)據(jù)進(jìn)行特征化(典型方法如Word2vec),對(duì)包括圖像在內(nèi)的二維數(shù)據(jù)進(jìn)行特征化(典型方法如CNN),對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行特征化(典型方法如Structure2vec)。所有這些嵌入方法,其算法復(fù)雜度均介于過(guò)濾方法與包裝方法之間。 Structure2Vec提供了一種能夠同時(shí)整合節(jié)點(diǎn)特征、邊特征、異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)動(dòng)態(tài)演化特征的深度學(xué)習(xí)和推理的嵌入技術(shù),它不僅可以對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊進(jìn)行推理,還可以對(duì)節(jié)點(diǎn)、邊甚至子圖進(jìn)行嵌入(Embedding,又稱(chēng)向量化)。在Embedding算法中,普遍使用核的算法,將輸入數(shù)據(jù)映射到一個(gè)高階向量空間,從而能更好地解決分類(lèi)或回歸問(wèn)題。 國(guó)外文獻(xiàn)[20]將核方法(Kernel Methods,KMs)表述為一類(lèi)模式識(shí)別算法,其目的是找出并學(xué)習(xí)一組數(shù)據(jù)中的相互關(guān)系。核方法的主要思想是基于如下假設(shè):在低維空間中不能線性分割的點(diǎn)集,轉(zhuǎn)化為高維空間中的點(diǎn)集時(shí),很有可能變?yōu)榫€性可分的。相對(duì)于使用通用非線性學(xué)習(xí)器直接對(duì)原始數(shù)據(jù)進(jìn)行分析,核方法具有明顯優(yōu)勢(shì):首先,通用非線性學(xué)習(xí)器很難反映具體應(yīng)用問(wèn)題的特性,而核方法由于面向具體應(yīng)用問(wèn)題進(jìn)行設(shè)計(jì),反而便于集成相關(guān)問(wèn)題的先驗(yàn)知識(shí);其次,核方法的線性學(xué)習(xí)器相對(duì)于通用非線性學(xué)習(xí)器,有更好的過(guò)擬合控制,從而可以更好地保證泛化性能;第三,更重要的是,核方法還是實(shí)現(xiàn)高效計(jì)算的途徑,它能利用核函數(shù)將非線性映射隱含在線性學(xué)習(xí)器中進(jìn)行同步計(jì)算,從而使得計(jì)算復(fù)雜度與高維特征空間的維數(shù)無(wú)關(guān)。常見(jiàn)的核函數(shù)有費(fèi)舍爾內(nèi)核、圖形內(nèi)核、核平滑、多項(xiàng)式核函數(shù)、徑向基函數(shù)核(Radial basis function kernel,RBF)、字符串核等。相關(guān)算法包括支持向量機(jī)(Support Vector Machine,SVM)、徑向基函數(shù)(Radial Basis Function,RBF)、線性判別分析(Linear Discriminate Analysis,LDA)以及高斯過(guò)程等, 這些算法通過(guò)對(duì)凸優(yōu)化問(wèn)題[21]或者特征值問(wèn)題進(jìn)行求解獲得結(jié)果[22]。 總之,Structure2Vec是一種新的特征選擇算法,其中使用了核方法。與前人研究相比,本文系統(tǒng)地闡明了其算法原理,改正并重寫(xiě)了其算法程序,并將其應(yīng)用于網(wǎng)絡(luò)欺詐風(fēng)險(xiǎn)評(píng)估,通過(guò)與一般卷積神經(jīng)網(wǎng)絡(luò)效果對(duì)比,進(jìn)一步驗(yàn)證了算法的有效性。 1 Structure2vec算法原理 鑒于文獻(xiàn)[23]對(duì)Structure2vec算法的數(shù)學(xué)原理分析含糊不清,在使用Structure2vec算法進(jìn)行網(wǎng)絡(luò)欺詐風(fēng)險(xiǎn)評(píng)估之前,筆者先對(duì)其數(shù)學(xué)原理進(jìn)行闡述。 1.1 相關(guān)數(shù)學(xué)基礎(chǔ) 1.2 Structure2vec算法描述 其中,[Pr(x)為r×d維概率矩陣]。式(3)又稱(chēng)為希爾伯特空間上的核分布嵌入(Hilbert Space kernel Embedding of Distribution),與其它核函數(shù)相比,其優(yōu)點(diǎn)是不僅表達(dá)能力更加豐富,而且[Pr(x)]與[μi]一一對(duì)應(yīng)。 具體而言,在Structure2vec算法中,將所有圖形結(jié)構(gòu)化的數(shù)據(jù)X(如圖1左邊部分)看成是具有若干個(gè)節(jié)點(diǎn)V={[V1],[V2],…,[Vm]}、邊E={[E1],[E2],…,[En]}以及隱含節(jié)點(diǎn)H={[H1],[H2],…,[Hn]}所構(gòu)成的圖形結(jié)構(gòu)化數(shù)據(jù),稱(chēng)為Structure2vec模式圖G(如圖1右邊部分),其中各節(jié)點(diǎn)、邊以及隱含節(jié)點(diǎn)具有特征值[xi]、[ei]和[hi]。 問(wèn)題在于,在計(jì)算[μi]的過(guò)程中,需要耗費(fèi)太多時(shí)間計(jì)算[Pr(Hi|{Xi}]概率矩陣,節(jié)點(diǎn)越多,耗費(fèi)時(shí)間也就越多,現(xiàn)實(shí)中難以實(shí)現(xiàn)。為此,需用使用平均場(chǎng)推理和循環(huán)置信傳播(Loopy Belief Propagation,BP)等方法簡(jiǎn)化運(yùn)算,以求取其近似值。 當(dāng)使用平均場(chǎng)推理方法時(shí),可將[Pr(Hi|{Xi}]近似地看作是若干個(gè)獨(dú)立概率密度函數(shù)[qi(Hi)]的乘積,即[Pr(Hi|Xi≈i∈Vqi(Hi)]。其中,[qi(Hi)=f(Hi,Xi,{qj}j∈N(i))],[qi(Hi)]> 0且[H qi(Hi)dHi=1],N(i)為與節(jié)點(diǎn)[Vi]有邊連接節(jié)點(diǎn)的集合。由此可得到[μi=T(Xi,{μj}j∈N(i))],此處T為非線性函數(shù),實(shí)際運(yùn)用中可使用 式(5)代替。式(5)中,[σ]為激活函數(shù),[W1]和[W2]為系數(shù)矩陣,[N(i)]表示與節(jié)點(diǎn)i相鄰的所有節(jié)點(diǎn)。 同理,若考慮鄰邊E={[E1],[E2],…,[En]}對(duì)隱含節(jié)點(diǎn)[Hi]的影響,可以將式(5)直接改為式(6),其中[NE(i)]表示連接到節(jié)點(diǎn)i的所有邊。