鮑佳彤
卷積神經(jīng)網(wǎng)絡(luò)(CNN)最早用于手寫數(shù)字識(shí)別并一直保持了其在該問題的霸主地位。近年來卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)方向持續(xù)發(fā)力,語(yǔ)音識(shí)別、人臉識(shí)別等方面均有突破。
一、項(xiàng)目簡(jiǎn)介
基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的征信系統(tǒng),作為個(gè)人征信系統(tǒng)第三方機(jī)構(gòu),利用合作單位已有大數(shù)據(jù)對(duì)卷積神經(jīng)系統(tǒng)進(jìn)行訓(xùn)練,使系統(tǒng)具有高準(zhǔn)確率對(duì)未來借貸人交易數(shù)據(jù)進(jìn)行分析,快速得出是否可提供貸款及借貸金額和時(shí)間。
二、項(xiàng)目目標(biāo)
目前我國(guó)的個(gè)人征信系統(tǒng)主要以銀行的信貸信息和個(gè)人繳費(fèi)信息為參數(shù),在未來借貸人信用預(yù)測(cè)方面仍有缺陷。利用卷積神經(jīng)網(wǎng)絡(luò)的征信系統(tǒng)可以對(duì)自然人進(jìn)行預(yù)測(cè),減少損失,快速得到可否借貸及借貸額度,同時(shí)系統(tǒng)本身所具有的傳輸加密功能也能良好防止客戶信息的泄露。
三、項(xiàng)目?jī)?nèi)容
(一)基于卷積神經(jīng)網(wǎng)絡(luò)CNN的征信系統(tǒng)框架
征信作為金融業(yè)的基礎(chǔ)設(shè)施,不是簡(jiǎn)單拿到數(shù)據(jù)就可以了,還要對(duì)數(shù)據(jù)進(jìn)行加工或者評(píng)價(jià)。為此,我們提出了CNN框架來進(jìn)行征信系統(tǒng)的研發(fā)。
(二)特征工程
將用戶的每條記錄的交易數(shù)據(jù)轉(zhuǎn)換為特征矩陣,通過相應(yīng)的數(shù)據(jù)轉(zhuǎn)化為可以在CNN模型顯示。
(三)CNN建模
模型中共有7層,模型的輸入是一個(gè)特征矩陣。前四層分別是卷積層、下采樣層、卷積層和池化層。最后三層則是全連接層。
(四)實(shí)驗(yàn)及模型評(píng)估
將任意客戶交易數(shù)據(jù)樣本輸入CNN結(jié)構(gòu),利用樣本自身差異性和排列多樣性,對(duì)結(jié)構(gòu)進(jìn)行大量重復(fù)訓(xùn)練以提高其識(shí)別準(zhǔn)確率,從而實(shí)現(xiàn)本項(xiàng)目征信系統(tǒng)的不斷完善。后期將真實(shí)客戶交易信息,運(yùn)用CNN征信系統(tǒng)進(jìn)行實(shí)際評(píng)級(jí)操作,從而來檢驗(yàn)評(píng)估項(xiàng)目系統(tǒng)的實(shí)際應(yīng)用準(zhǔn)確性。
研究過程部分展示之特征工程部分:
在編程中我們將數(shù)據(jù)中的sex,edu,marry,age,paydue,bill,pay,label,記錄在數(shù)組中,如圖:
首先將借貸人的自然屬性放在中間的6*12的像素格中(img3)。部分代碼如下:
其中金額部分由于數(shù)字過大,我們將數(shù)字除10000后處理,得到的三位數(shù)由于只有100,我們用在兩個(gè)像素格里填10表示,兩位數(shù)的我們用十位和個(gè)位分別填在不同像素格的表示。
關(guān)于pay,bill和paydue的記錄由于有負(fù)數(shù)的存在,所以我們根據(jù)上正下負(fù),左正右負(fù)的原則,將他們分別反正圍繞img3的img1(bill和pay中的正數(shù)),img2(bill和pay中的正數(shù)),img4(paydue中的正數(shù)),img5(paydue中的正數(shù))中。
這樣就基本完成了數(shù)字到圖像的轉(zhuǎn)換,例如,把第2480個(gè)人的信息轉(zhuǎn)化為圖像,得到圖像:
四、創(chuàng)新點(diǎn)
(一)引用卷積神經(jīng)網(wǎng)絡(luò)處理征信問題
在此之前由Kokkinaki提出了決策樹和布爾邏輯函數(shù),對(duì)個(gè)人進(jìn)行征信評(píng)估。然而效果并不是很理想,因此我們使用CNN可以有效地降低特征冗余,避免模型的過擬合。
(二)特征轉(zhuǎn)化法
CNN可以用于圖像分類和語(yǔ)音信號(hào)領(lǐng)域,但并不是所有類型的數(shù)據(jù)都適用于CNN模型,因此提出特征轉(zhuǎn)換的方法。
(三)數(shù)據(jù)預(yù)處理
CNN模型很適合用于海量數(shù)據(jù)的訓(xùn)練,同時(shí)它有避免模型過擬合的機(jī)制。我們將通過大量基于真實(shí)的數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,并在不斷的實(shí)驗(yàn)過程中,降低偏差值。
(四)信息安全性
通過CNN模型生成的熱力圖在行和列的形式上有很強(qiáng)的局部相關(guān)性,保障信息被處理時(shí)的隱蔽性,及用戶個(gè)人信息的安全性。
五、市場(chǎng)推廣計(jì)劃
當(dāng)前中國(guó)市面上對(duì)CNN技術(shù)并未有特別成熟的應(yīng)用,此領(lǐng)域在市面上屬于藍(lán)海市場(chǎng);同時(shí)CNN技術(shù)在 處理征信問題,特征轉(zhuǎn)化法,數(shù)據(jù)預(yù)處理,信息安全性點(diǎn)上的處理都體現(xiàn)了極大的創(chuàng)新性,可以充分完善當(dāng)前信貸機(jī)構(gòu)的用戶征信問題,因此CNN的技術(shù)應(yīng)用仍有相當(dāng)大的使用前景。
基金項(xiàng)目:大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目:《基于卷積神經(jīng)網(wǎng)絡(luò)在征信方面的應(yīng)用》201810173044。
作者單位:東北財(cái)經(jīng)大學(xué)