水新瑩
關(guān)鍵詞:汽車金融;行為評(píng)分卡;GPS 軌跡;數(shù)據(jù)質(zhì)量;滾動(dòng)率分析
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)14-0001-05
0 引言
近年來,隨著汽車消費(fèi)金融政策陸續(xù)出臺(tái),越來越多的車主通過汽車金融公司申請(qǐng)貸款購車。在市場競爭日趨激烈的背景下,為了獲取更多的市場份額,一些汽車金融公司往往會(huì)降低對(duì)客戶的審核標(biāo)準(zhǔn),導(dǎo)致信用風(fēng)險(xiǎn)頻發(fā),業(yè)務(wù)逾期率逐年攀升,給汽車金融公司造成嚴(yán)重?fù)p失[1]。為有效降低信用風(fēng)險(xiǎn),越來越多的汽車金融公司研發(fā)信用評(píng)分卡。通常而言,信用評(píng)分卡包括申請(qǐng)?jiān)u分卡(發(fā)放貸款前對(duì)客戶進(jìn)行信用評(píng)價(jià))、行為評(píng)分卡(發(fā)放貸款后對(duì)客戶進(jìn)行信用評(píng)價(jià))和催收評(píng)分卡(產(chǎn)生逾期后對(duì)客戶進(jìn)行信用評(píng)價(jià))[2]。目前,產(chǎn)業(yè)界和學(xué)術(shù)界的研究成果大多集中在申請(qǐng)?jiān)u分卡,關(guān)于行為評(píng)分卡的研究較少。行為評(píng)分通過觀測客戶貸后行為特征,預(yù)測客戶未來一定時(shí)間內(nèi)變成“壞客戶”的可能性,并對(duì)高風(fēng)險(xiǎn)客戶實(shí)時(shí)預(yù)警。行為評(píng)分卡利用已有客戶樣本訓(xùn)練行為特征和風(fēng)險(xiǎn)的關(guān)聯(lián)性,利用機(jī)器學(xué)習(xí)算法盡可能挖掘風(fēng)險(xiǎn)出現(xiàn)、發(fā)展和分布的規(guī)律,輔助汽車金融機(jī)構(gòu)風(fēng)險(xiǎn)管理決策。
傳統(tǒng)的信用風(fēng)險(xiǎn)評(píng)分卡模型多采用專家評(píng)分或回歸算法,變量少,特征維數(shù)有限,非線性規(guī)律覆蓋率低,難以挖掘客戶與風(fēng)險(xiǎn)客戶之間的相關(guān)性,難以適應(yīng)當(dāng)前消費(fèi)貸款業(yè)務(wù)的快速發(fā)展[3]。統(tǒng)計(jì)方法中的線性判別分析[4]和邏輯回歸[5],因易理解和易于實(shí)現(xiàn),而被經(jīng)常使用。機(jī)器學(xué)習(xí)方法中比較有代表性的包括決策樹[6]、神經(jīng)網(wǎng)絡(luò)[7]、支持向量機(jī)[8]等。然而上述研究成果都是基于貸款靜態(tài)信息的申請(qǐng)?jiān)u分卡,很難直接用于行為評(píng)分卡。GPS定位器成為汽車金融風(fēng)險(xiǎn)管理的重要手段,在信用風(fēng)險(xiǎn)監(jiān)控中應(yīng)發(fā)揮作用。GPS 軌跡數(shù)據(jù)是基于時(shí)間和空間對(duì)車輛的移動(dòng)過程進(jìn)行采用并記錄獲得的數(shù)據(jù),包含了車輛移動(dòng)的經(jīng)緯度、時(shí)間、車速、方向等信息。GPS數(shù)據(jù)蘊(yùn)含了客戶豐富的出行特征,對(duì)這些特征進(jìn)行分析提取,對(duì)行為評(píng)分卡建模有重要作用。本文提出了一種融合客戶GPS 軌跡數(shù)據(jù)和還款信息的行為評(píng)分卡,該模型在對(duì)客戶貸/還款相關(guān)數(shù)據(jù)和GPS數(shù)據(jù)質(zhì)量評(píng)價(jià)的基礎(chǔ)上進(jìn)行特征挖掘與衍生,并通過滾動(dòng)率分析對(duì)好壞客戶進(jìn)行定義,最終通過模型融合的方法構(gòu)建行為評(píng)分卡。
1 數(shù)據(jù)分析與處理
1.1 數(shù)據(jù)質(zhì)量評(píng)價(jià)
在構(gòu)建行為評(píng)分卡之前,需要對(duì)數(shù)據(jù)資源中涉及人、車、GPS等相關(guān)數(shù)據(jù)狀況進(jìn)行整體評(píng)價(jià)。本文根據(jù)《GB/T 36344-2018 信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》[9],選取完整性、準(zhǔn)確性、冗余性和一致性來評(píng)價(jià)某汽車金融公司的數(shù)據(jù)質(zhì)量。本文對(duì)某汽車金融公司311個(gè)數(shù)據(jù)項(xiàng)所產(chǎn)生的5 012 403條實(shí)體數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià)的結(jié)果如表1所示。
從表1可以看出:1)數(shù)據(jù)總體準(zhǔn)確性得分較好,但客戶基本信息表中多個(gè)字段缺失值嚴(yán)重,影響了準(zhǔn)確性得分,需要進(jìn)行數(shù)據(jù)的增強(qiáng)與填充,以達(dá)到構(gòu)建行為評(píng)分卡模型的要求;2)GPS數(shù)據(jù)在時(shí)間、經(jīng)緯度、速度、方向等方面數(shù)據(jù)缺失較少,有較高的利用價(jià)值,利用可視化這些軌跡信息,可以發(fā)現(xiàn)客戶的日常活動(dòng)范圍與常去地點(diǎn),從而獲得用戶的主要行為模式,這部分信息可作為后續(xù)入模時(shí)的衍生信息對(duì)客戶進(jìn)行建模。
1.2 數(shù)據(jù)探索性分析
數(shù)據(jù)探索性分析通過計(jì)算GPS經(jīng)緯度數(shù)據(jù)及其他數(shù)據(jù)特征,并分析各特征變量的數(shù)據(jù)類型(數(shù)值型、日期型、文本型等)、分布特征(均值、方差、分位數(shù)、最大最小值)等,形成對(duì)數(shù)據(jù)初步的、輪廓性的認(rèn)知。表2展示了GPS數(shù)值型數(shù)據(jù)探索性分析結(jié)果。結(jié)合數(shù)據(jù)質(zhì)量評(píng)價(jià)結(jié)果,對(duì)GPS數(shù)據(jù)中每個(gè)數(shù)據(jù)字段進(jìn)行統(tǒng)一篩查,檢測每個(gè)數(shù)據(jù)字段的缺失值、重復(fù)值、離群點(diǎn)、錯(cuò)誤數(shù)據(jù)等數(shù)據(jù)分布情況,結(jié)合業(yè)務(wù)和常識(shí)制定針對(duì)性的處理規(guī)則進(jìn)行處理,如對(duì)缺失數(shù)據(jù)較多的字段進(jìn)行刪除。
從表2可以看出:經(jīng)緯度數(shù)據(jù)存在明顯的錯(cuò)誤數(shù)值,最大最小值均存在超出范圍的數(shù)值。因此,需要檢查該數(shù)據(jù)精度是否符合要求,對(duì)不符合的數(shù)據(jù)要予以刪除或修正。針對(duì)其他數(shù)據(jù),對(duì)缺失的部分進(jìn)行針對(duì)性的刪除或填充,同時(shí)刪除重復(fù)數(shù)據(jù)和錯(cuò)誤數(shù)據(jù),對(duì)離散數(shù)據(jù)進(jìn)行分箱或歸類操作。此外,對(duì)文本型數(shù)據(jù)進(jìn)行編碼處理,如歸一化、標(biāo)準(zhǔn)化、onehot、word2vec?tor 處理。對(duì)日期型數(shù)據(jù),進(jìn)行年月日劃分處理;對(duì)數(shù)值型數(shù)據(jù),進(jìn)行分類、分箱等處理。
2 滾動(dòng)率分析
2.1 賬齡分析
在表現(xiàn)期是在觀察點(diǎn)之后對(duì)客戶還款情況進(jìn)行監(jiān)測,著重監(jiān)測客戶的逾期情況。一般而言,表現(xiàn)期周期不應(yīng)過短,而且應(yīng)盡可能地將壞客戶包括其中,從而保證在接下來能在這段時(shí)間內(nèi)判定哪些是“好用戶”、哪些是“壞用戶”。本文統(tǒng)計(jì)了某汽車金融公司貸款客戶的賬齡(MOB,Month on Book)折線圖,如圖1 所示。可以看出,客戶逾期率在16月之后上漲趨勢趨于平緩,暴露比為67%。
2.2 好壞客戶定義
在信貸風(fēng)險(xiǎn)管理資產(chǎn)質(zhì)量分析中,通常使用滾動(dòng)率分析來定義客戶好壞程度[10]。通過統(tǒng)計(jì)樣本在不同逾期狀態(tài)中的遞延狀態(tài),進(jìn)而確定好壞樣本的定義,運(yùn)用滾動(dòng)率分析觀察客戶在不同時(shí)間段內(nèi)的滾動(dòng)變化。
2.2.1 設(shè)定觀察期和表現(xiàn)期
根據(jù)MOB分析,本文設(shè)定觀察時(shí)點(diǎn)2021年1月1 日,觀察點(diǎn)往前推m個(gè)月定義為觀察期,觀察點(diǎn)往后推n個(gè)月定義為表現(xiàn)期,初步設(shè)定m=12,n=12。對(duì)觀察期和表現(xiàn)期逾期各個(gè)狀態(tài)說明如表3所示。
2.2.2 構(gòu)建轉(zhuǎn)移矩陣
本文構(gòu)建逾期情況矩陣,以觀察期的逾期情況和表現(xiàn)期的逾期情況進(jìn)行交叉統(tǒng)計(jì),分別形成樣本數(shù)量矩陣表和樣本占比矩陣表(即滾動(dòng)率分析表)。分別統(tǒng)計(jì)樣本客戶在觀察期和表現(xiàn)期的最高逾期狀態(tài)和樣本數(shù)量分布,如表4所示。
2.2.3 客戶定義
通常而言,可以根據(jù)逾期次數(shù)和天數(shù)衡量客戶質(zhì)量。在觀察期最高逾期狀態(tài)為S0、S0-1、S0-2和S0-3 的客戶,狀態(tài)保持S0之內(nèi)均在70%左右,且向S4狀態(tài)轉(zhuǎn)移率均在1%左右,說明此類用戶較多仍為“好客戶”。S1-1狀態(tài)保持率在44%左右,轉(zhuǎn)好率在34%左右,轉(zhuǎn)壞率為21%左右,因此也認(rèn)定為“好客戶”。S1-2狀態(tài)保持率在47%左右,向壞轉(zhuǎn)移率為38%,向好轉(zhuǎn)移率為15%,因此認(rèn)定為“壞客戶”。S1-3用戶向壞轉(zhuǎn)移率為65%,向好轉(zhuǎn)移率為5%,因此也認(rèn)定為“壞客戶”。S2-1狀態(tài)保持率在30%左右,且向好和壞轉(zhuǎn)移率均在30%左右,因此認(rèn)定為“中間客戶”。S2-2和S2-3的客戶forward占比超過60%,且轉(zhuǎn)好率較低,說明此類客戶較多,仍為“壞客戶”。根據(jù)汽車金融業(yè)務(wù)實(shí)際需求,S3-1、S3-2和S4必須被認(rèn)定為“壞客戶”。表5展示了客戶劃分的依據(jù)。
3 特征工程
如1.1節(jié)分析,GPS數(shù)據(jù)在時(shí)間、經(jīng)緯度、速度、方向等方面數(shù)據(jù)缺失較少,有較高的利用價(jià)值。經(jīng)緯度數(shù)據(jù)精度較好,可以計(jì)算相鄰經(jīng)緯度之間的距離差,結(jié)合時(shí)間戳可以計(jì)算出客戶在指定范圍內(nèi)的駕駛情況和停車情況。基于此,可以挖掘出客戶日常出行規(guī)律,從而獲得客戶的主要行為模式,這部分信息可作為后續(xù)入模時(shí)的衍生信息進(jìn)行建模。圖2和圖3分別展示了上班族和貨運(yùn)司機(jī)的行為模式。從圖2和圖3中可見:上班族停留點(diǎn)主要集中于兩點(diǎn),可能是家和公司;貨運(yùn)司機(jī)停留點(diǎn)存在較為連續(xù)的軌跡,說明其可能在固定線路上運(yùn)載貨物。由于本文構(gòu)建的是行為評(píng)分卡,因此客戶還款行為也是重要的特征來源。
3.1 基于GPS軌跡的特征挖掘
本文基于GPS 軌跡的特征提取流程如圖4所示。首先,利用降采樣得到車輛GPS軌跡數(shù)據(jù)。其次,根據(jù)不同客戶放款時(shí)間拆分源GPS數(shù)據(jù)。最后,獲取得到基于GPS的軌跡特征,包含基于GPS的駕駛特征、基于GPS的出行規(guī)律特征、基于GPS的異常信息特征、基于GPS的駕駛行為變化特征等幾個(gè)維度對(duì)GPS數(shù)據(jù)進(jìn)行特征提取。
3.1.1 基于GPS 經(jīng)緯度數(shù)據(jù)的降采樣
本文通過對(duì)GPS經(jīng)緯度數(shù)據(jù)進(jìn)行數(shù)據(jù)降采樣,剔除GPS數(shù)據(jù)中的冗余數(shù)據(jù),從原始數(shù)據(jù)中提煉出有價(jià)值的數(shù)據(jù),在保證數(shù)據(jù)正確性的情況下,減少冗余數(shù)據(jù)對(duì)特征挖掘的影響,同時(shí)提高特征提取的效率。數(shù)據(jù)降采樣的主要過程:首先對(duì)不同月份的GPS數(shù)據(jù)進(jìn)行分批處理,采用數(shù)據(jù)預(yù)處理技術(shù),剔除GPS數(shù)據(jù)中的錯(cuò)誤數(shù)據(jù),同時(shí)對(duì)待提取數(shù)據(jù)字段進(jìn)行數(shù)據(jù)整合,包括數(shù)據(jù)類型統(tǒng)一和數(shù)據(jù)格式的確定,從而為下一步的數(shù)據(jù)降采樣提供可靠的GPS基礎(chǔ)數(shù)據(jù)。然后,采用Douglas-Peucker算法對(duì)待處理數(shù)據(jù)進(jìn)行降采樣操作,其中,針對(duì)相鄰GPS數(shù)據(jù)頻率不一致的情況,對(duì)待處理數(shù)據(jù)進(jìn)行隨機(jī)抽樣,同時(shí)結(jié)合數(shù)據(jù)可視化技術(shù),計(jì)算出在不同步長的情況下,使用Douglas–Peucker算法的最優(yōu)參數(shù),進(jìn)而實(shí)現(xiàn)在保證GPS數(shù)據(jù)準(zhǔn)確性的情況下,提高數(shù)據(jù)降采樣的精度。
3.3.2 基于GPS 數(shù)據(jù)的駕駛習(xí)慣特征挖掘
本文通過對(duì)海量的GPS經(jīng)緯度數(shù)據(jù)進(jìn)行分析,從中提取出用戶在不同時(shí)間的駕駛習(xí)慣特征,如白天駕駛行為特征和夜間駕駛時(shí)間特征。首先,采用日期轉(zhuǎn)換方法對(duì)日期數(shù)據(jù)進(jìn)行處理,統(tǒng)一日期數(shù)據(jù)格式,同時(shí),根據(jù)不同模型的表現(xiàn)期和用戶的月還款日期,提取出對(duì)應(yīng)的GPS數(shù)據(jù)。然后,針對(duì)不同用戶的GPS經(jīng)緯度數(shù)據(jù)進(jìn)行分批處理,采用統(tǒng)計(jì)學(xué)技術(shù),計(jì)算車輛靜止的時(shí)長和與其相鄰GPS數(shù)據(jù)之間的距離,結(jié)合數(shù)據(jù)可視化技術(shù),分析出車輛靜止和運(yùn)動(dòng)之間的規(guī)律,進(jìn)而得出車輛靜止或運(yùn)動(dòng)的相關(guān)條件。然后,融合日期數(shù)據(jù)處理技術(shù)和經(jīng)緯度距離計(jì)算技術(shù),在劃定不同時(shí)間區(qū)間的情況下,完成指定時(shí)間內(nèi)的駕駛時(shí)長、駕駛里程以及停車時(shí)長等特征的提取。接著,通過計(jì)算每個(gè)特征的信息增量值,提取出信息增量值較大的特征,結(jié)合業(yè)務(wù)規(guī)則,利用統(tǒng)計(jì)學(xué)的方法分析其對(duì)模型效果提升的深層次因素,并在其基礎(chǔ)進(jìn)行時(shí)間區(qū)間的修改,完成相關(guān)特征變量的衍生,進(jìn)而挖掘出更有價(jià)值的特征。
圖5展示了本文基于GPS經(jīng)緯度數(shù)據(jù)的特征挖掘框架,主要包括駕駛行為特征、出行規(guī)律特征、軌跡異常點(diǎn)特征和與上月出行變化特征。
3.2 基于還款行為的特征挖掘
本文基于還款信息行為的變量衍生如圖6所示。通過數(shù)據(jù)探索性分析完成對(duì)還款行為數(shù)據(jù)的分析,并將其歸類成數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù)。首先,針對(duì)數(shù)值型數(shù)據(jù),采用數(shù)據(jù)挖掘中的分箱技術(shù)對(duì)其進(jìn)行分箱操作,完成特征變量的衍生。同時(shí),針對(duì)字符型數(shù)據(jù),采用字符串拼接技術(shù)對(duì)其進(jìn)行數(shù)據(jù)拼接。然后采用信息增量的計(jì)算方法計(jì)算衍生特征對(duì)模型預(yù)測效果的強(qiáng)度,進(jìn)而篩選出有價(jià)值的衍生特征。
本文通過分析客戶逾期信息表,對(duì)逾期行為進(jìn)行統(tǒng)計(jì),得到逾期天數(shù)和次數(shù)等特征。結(jié)合客戶還款和逾期行為,構(gòu)建基于還款行為的特征衍生,對(duì)近一月、近兩月和近三月的逾期情況分別統(tǒng)計(jì),得到逾期天數(shù)、逾期<=3天次數(shù)以及逾期4~30天次數(shù)等特征。
4 模型訓(xùn)練
4.1 模型融合
在模型訓(xùn)練方面,本文采用基于邏輯回歸、XG?Boost 和LightGBM 模型作為基分類器的模型融合方法。首先,根據(jù)滾動(dòng)率分析,結(jié)合歷史貸款用戶的貸款情況、還款情況、逾期情況、曾經(jīng)造成相關(guān)損失情況等,對(duì)貸款客戶進(jìn)行風(fēng)險(xiǎn)分類。其次,通過設(shè)置初始化模型參數(shù),將篩選后的特征數(shù)據(jù)輸入邏輯回歸、XG?Boost和LightGBM模型中。然后,比對(duì)和分析上述三個(gè)模型的預(yù)測結(jié)果和預(yù)測性能,結(jié)合Voting融合算法對(duì)基分類器的輸出結(jié)果進(jìn)行加權(quán)集成,實(shí)現(xiàn)多模型的融合,最終訓(xùn)練出行為評(píng)分卡模型。考慮到本文中模型預(yù)測的結(jié)果為客戶處于風(fēng)險(xiǎn)狀態(tài)的概率情況,本文中使用soft-voting軟投票機(jī)制,根據(jù)各個(gè)分類器分類的概率之和作為最終分類依據(jù)。相比于硬投票取各個(gè)投票器投票結(jié)果的多數(shù)作為最終分類結(jié)果,軟投法考慮到了預(yù)測概率這一額外的信息,因此可以得出比硬投票法更加準(zhǔn)確的預(yù)測結(jié)果:
其中,hji( x ) 是基分類器hi在類別標(biāo)記cj上的輸出結(jié)果,wi是hi的權(quán)重,H(x)為輸出的類別標(biāo)記。模型融合過程如圖7所示。
4.2 超參調(diào)整
本文采用貝葉斯搜索對(duì)模型的超參數(shù)進(jìn)行調(diào)整優(yōu)化,利用已搜索的超參數(shù)組合信息形成的模型結(jié)果來指導(dǎo)新的超參數(shù)組合搜索信息,從而提升選擇的下一組超參對(duì)應(yīng)的模型質(zhì)量以及模型整體優(yōu)化速度。該方法主要由代理函數(shù)與構(gòu)造采集函數(shù)構(gòu)成:代理函數(shù)對(duì)目標(biāo)函數(shù)進(jìn)行建模,計(jì)算每一組超參對(duì)應(yīng)點(diǎn)計(jì)算得到的函數(shù)值均值和方差;構(gòu)造采集函數(shù)決定下一輪迭代時(shí)超參的選擇方向。通過組合模型結(jié)果、代理函數(shù)結(jié)果與構(gòu)造采集函數(shù)結(jié)果,對(duì)超參數(shù)的采樣方向進(jìn)行優(yōu)化。
5 實(shí)驗(yàn)分析
5.1 實(shí)驗(yàn)環(huán)境
本文使用操作系統(tǒng)為Ubuntu 22.10,內(nèi)存128GB,CPU為Intel i9-12900KF,GPU為NVIDIA Tesla A100。
5.2 數(shù)據(jù)集
為了評(píng)估行為評(píng)分卡模型的有效性,本文構(gòu)建了一個(gè)由23 243個(gè)貸款客戶從2020年1月到2021年12月的數(shù)據(jù)集,其中“壞客戶”占比約為6.1%。數(shù)據(jù)集包含靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù):靜態(tài)數(shù)據(jù)主要是客戶基本信息和貸后還款信息;動(dòng)態(tài)數(shù)據(jù)主要是客戶每月GPS軌跡數(shù)據(jù)。本文從中選取了20 000數(shù)據(jù)作為訓(xùn)練集,2 000條數(shù)據(jù)作為驗(yàn)證集,1 243條數(shù)據(jù)作為測試集。
5.3 實(shí)驗(yàn)結(jié)果
本文采用準(zhǔn)確率(ACC)、精確率(Precision)、召回率(Recall)和F1值作為行為評(píng)分卡評(píng)價(jià)指標(biāo)。為了驗(yàn)證本文預(yù)測模型的性能,將本文模型與邏輯回歸、XGBoost、LightGBM三個(gè)子模型進(jìn)行對(duì)比,同時(shí)對(duì)比了使用硬投票(Hard Voting)機(jī)制進(jìn)行融合的模型,具體實(shí)驗(yàn)結(jié)果如表6所示。由表可知,本文基于模型融合構(gòu)建的行為評(píng)分卡在各項(xiàng)評(píng)價(jià)指標(biāo)上均超過了其他模型的預(yù)測效果,因此證明了本文所提模型的有效性。具體來說,由于XGBoost和LightGBM均是在梯度提升迭代決策樹(Gradient Boosting Decision Tree)的基礎(chǔ)上進(jìn)行優(yōu)化,基于預(yù)測和實(shí)際值的殘差進(jìn)行訓(xùn)練,可以有效提升模型性能,因此取得了相較于邏輯回歸更優(yōu)的模型效果;而Hard Voting Model采用硬投票機(jī)制融合了三個(gè)模型的預(yù)測結(jié)果,因此取得了相較于單個(gè)模型最優(yōu)的效果;硬投票機(jī)制只融合了模型分類結(jié)果,會(huì)導(dǎo)致預(yù)測信息的丟失,因此本文模型使用軟投票(soft vot?ing)的方式融合了邏輯回歸、XGBoost和LightGBM三個(gè)模型的預(yù)測結(jié)果,并取得了最優(yōu)的模型性能,這也說明了軟投票機(jī)制在本文模型中的有效性。
為了證明本文使用GPS作為模型特征的有效性,本文進(jìn)行了消融實(shí)驗(yàn)。在消融實(shí)驗(yàn)中,采用去除GPS特征后的行為評(píng)分卡模型作為消融實(shí)驗(yàn)?zāi)P?,?shí)驗(yàn)結(jié)果表7所示。根據(jù)表中結(jié)果可以看出,本文使用GPS 特征作為模型特征可以有效提升模型預(yù)測效果,各項(xiàng)指標(biāo)均有超過兩個(gè)百分點(diǎn)的提升,這說明了GPS數(shù)據(jù)對(duì)于衡量客戶風(fēng)險(xiǎn)也起到了非常重要的作用。
6 結(jié)束語
在多源異構(gòu)數(shù)據(jù)融合的技術(shù)背景下,單純依靠客戶靜態(tài)信息進(jìn)行行為評(píng)分卡建模難以獲得較好的性能。為此,本文提出了一種融合車輛GPS數(shù)據(jù)和客戶還款信息的行為評(píng)分卡模型。該模型的創(chuàng)新點(diǎn)在于基于GPS數(shù)據(jù)的駕駛習(xí)慣特征挖掘,包括駕駛行為特征、出行規(guī)律特征、軌跡異常點(diǎn)特征和與上月出行變化特征。GPS衍生特征結(jié)合基于還款行為的特征衍生能夠更好地捕獲客戶在貸款后的行為表現(xiàn),對(duì)于預(yù)測客戶放款后是否發(fā)生逾期風(fēng)險(xiǎn)有著較好的預(yù)測效果。未來,將知識(shí)圖譜技術(shù)引入行為評(píng)分卡模型,通過圖計(jì)算方式提取客戶網(wǎng)絡(luò)特征,進(jìn)一步提示模型效果。