国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LightGBM算法的移動用戶信用評分研究

2020-11-14 11:32:02國強強朱振方
計算機技術(shù)與發(fā)展 2020年9期
關(guān)鍵詞:線性信用聚類

國強強,朱振方

(山東交通學(xué)院 信息科學(xué)與電氣工程學(xué)院,山東 濟南 250357)

0 引 言

隨著社會信用體系建設(shè)的深入推進,社會信用標準建設(shè)飛速發(fā)展,相關(guān)的標準相繼發(fā)布。但是,一個包括信用服務(wù)標準、信用數(shù)據(jù)釆集和服務(wù)標準、信用修復(fù)標準、城市信用標準、行業(yè)信用標準等在內(nèi)的多層次標準體系亟待出臺,社會信用標準體系有望快速推進。社會信用體系建設(shè)是一個系統(tǒng)工程,完善信用評分體系有助于推動整個社會的信用體系升級。個人信用評估構(gòu)成是社會信用評估體系的基礎(chǔ),構(gòu)建科學(xué)的個人信用評估體系是構(gòu)建科學(xué)社會信用評估的基礎(chǔ),而移動用戶信用評估,則是個人信用評估中最重要組成部分之一。隨著科技的進步、社會的發(fā)展,個人信用分值對于個人愈加重要,而傳統(tǒng)的信用評分主要以個人消費能力等少數(shù)的維度來衡量,難以全面、客觀、及時地反映個人的信用。如今電子商務(wù)和互聯(lián)網(wǎng)金融蓬勃發(fā)展,在大數(shù)據(jù)背景下個人信用評價也需滿足時代要求向大數(shù)據(jù)方向轉(zhuǎn)變。

文中算法旨在解決面向大樣本、高維度數(shù)據(jù)環(huán)境下的信用分預(yù)測問題,提出一種基于LightGBM算法的移動用戶信用評分:K-LGB模型,實現(xiàn)移動用戶信用評分。通過該算法可以有效提高信用分預(yù)測的準確性,同時又可以提高算法執(zhí)行效率。

1 相關(guān)研究

評分預(yù)測問題[1]屬于推薦系統(tǒng)中的一個分支,推薦系統(tǒng)的性能很大程度上受評分預(yù)測準確性的影響。隨著國內(nèi)外學(xué)者的深入研究,信用評估發(fā)展出來統(tǒng)計方法和非統(tǒng)計方法兩大類[2]。非統(tǒng)計方法包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、專家系統(tǒng)等,統(tǒng)計方法包括邏輯回歸、線性回歸、非線性回歸、近鄰估計等。很多學(xué)者早期通過用戶歷史評分行為和物品屬性特征進行建模[3]來解決評分預(yù)測問題,在已有研究中,Maher Alarajden等人[4]將神經(jīng)網(wǎng)絡(luò)、支持向量機、隨機森林、決策樹、Logistic回歸和樸素貝葉斯與LR結(jié)合使用,達到了很好的效果。到目前為止,Maher Alarajden所提出的信用評估體系,仍然被認為是信用評分模型的行業(yè)標準模型。Maysam F.Abbod等人[5]提出在數(shù)據(jù)預(yù)處理上將Gabriel近域圖編輯和多變量自適應(yīng)回歸樣條方法融合的算法來實現(xiàn)預(yù)測信用分,另外,還提出了一種基于集合建模階段不同分類算法的共識方法的新分類器組合規(guī)則。Luo Cuicui等人[6]將信念網(wǎng)絡(luò)與限制玻爾茲曼機器等深度學(xué)習(xí)算法與當(dāng)前流行機器學(xué)習(xí)算法(如邏輯回歸、支持向量機、多層感知機)進行比較,發(fā)現(xiàn)使用分類精度和接收器工作特性曲線下的面積評估性能中DBN的性能最佳。Leong C K等人[7]提出了一種貝葉斯網(wǎng)絡(luò)模型,用于解決信用風(fēng)險評分中的截尾樣本、樣本不平衡、實時實現(xiàn)等問題,相較于競爭模型(邏輯回歸與神經(jīng)網(wǎng)絡(luò))在精度、靈敏度等幾個維度上表現(xiàn)更佳。

隨著機器學(xué)習(xí)技術(shù)的快速發(fā)展,國內(nèi)學(xué)者的研究更側(cè)重對這些模型的組合及應(yīng)用。綜合應(yīng)用多種機器學(xué)習(xí)方法進行信用評分,正逐漸成為主要手段,能夠解決單個算法結(jié)果準確率不足的問題,獲得更優(yōu)的預(yù)測結(jié)果。例如,姜明輝[8]、王磊等人[9]通過改進Logistic模型,建立信用評分模型,取得了較好的效果。近年來,隨著信用評估研究的深入,引入了人工智能等非統(tǒng)計方法,學(xué)者們的研究重心轉(zhuǎn)向了集成學(xué)習(xí)算法和神經(jīng)網(wǎng)絡(luò)(NNs)、支持向量機(VSM)等算法?,F(xiàn)有研究結(jié)果顯示,根據(jù)訓(xùn)練數(shù)據(jù)構(gòu)建一組個體學(xué)習(xí)器,并采用某種策略將多個學(xué)習(xí)器進行集成的學(xué)習(xí)方法,比較邏輯回歸、決策樹等單一分類器和神經(jīng)網(wǎng)絡(luò)評估模型[10]和模糊分析評估模型,具有更高的準確度和更好的穩(wěn)健性[11]。

集成學(xué)習(xí)方法主要分為兩大類,即Bagging方法[12](如RF算法等)與Boosting方法[13](如LightGBM[14])。其中,RF[15]算法利用樣本擾動和屬性擾動實現(xiàn)基學(xué)習(xí)器的多樣性,雖然提升了算法的泛化性能,但該算法需要存儲每棵決策樹及其每個節(jié)點不同的樣本集合,內(nèi)存開銷較大,導(dǎo)致模型訓(xùn)練速度較慢。相比之下,LightGBM具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更好的模型精度、支持并行學(xué)習(xí)、可以快速處理海量數(shù)據(jù)等優(yōu)點[16]。鑒于此,文中基于LightGBM算法構(gòu)建信用評分模型,進行中國移動用戶信用分預(yù)測。

2 基于LightGBM算法的移動用戶信用評分研究

現(xiàn)有的信用評分模式往往只采用集成學(xué)習(xí)中的Bagging方法(如RF算法)或者Boosting方法(如LightGBM),在多維度特征提取、線性關(guān)系挖掘等方面存在很大的局限性。鑒于此,在面對大樣本、多維度的數(shù)據(jù)環(huán)境下,為了解決模型過擬合問題,構(gòu)造有效的特征信息、提高模型信用評分準確性,文中提出一種K-LGB模型,實現(xiàn)移動用戶信用評分。首先通過分析線性相關(guān)性來構(gòu)建特征集合,然后通過K-means算法對特征集合進行聚類分析,將特征集合聚類分析結(jié)果作為有效特征信息加入數(shù)據(jù)集,最后將加入有效特征信息的數(shù)據(jù)集作為LightGBM模型的輸入,通過LightGBM模型得出信用評分。算法流程如圖1所示。

圖1 算法流程

2.1 線性相關(guān)性分析

經(jīng)研究發(fā)現(xiàn)分析線性相關(guān)性不僅可用來解決模型過擬合問題,而且可以解決多維度特征提取、線性關(guān)系挖掘的問題。鑒于此,文中采用皮爾遜相關(guān)系數(shù)來進行線性相關(guān)性分析。皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)又稱皮爾遜積矩相關(guān)系數(shù),在統(tǒng)計學(xué)中常用來度量兩組數(shù)據(jù)間的相關(guān)程度。皮爾遜相關(guān)系數(shù)的值介于-1與1之間,絕對值越大,線性相關(guān)性越強;絕對值越接近于0,線性相關(guān)性越弱。假設(shè)給定包含i個項的數(shù)據(jù)集X={x1,x2,…,xi}和Y={y1,y2,…,yi},則皮爾遜相關(guān)系數(shù)公式如下:

(1)

其中,n為變量取值個數(shù),rxy為數(shù)據(jù)集X、Y的皮爾遜相關(guān)系數(shù)值。

具體到本次評測,首先分別計算特征之間、特征與信用分之間的皮爾遜相關(guān)系數(shù),確定它們的線性相關(guān)性,然后選擇與信用分線性相關(guān)性比較強的特征,最后將經(jīng)過線性相關(guān)性分析的特征集合作為下一步K-means聚類算法的輸入。部分數(shù)據(jù)特征與信用分線性相關(guān)性如表1所示。

表1 部分數(shù)據(jù)特征與信用分線性相關(guān)性

經(jīng)過線性相關(guān)性分析,發(fā)現(xiàn)“用戶網(wǎng)齡(月)”、“用戶近6月平均消費值(元)”、“當(dāng)月通話交往圈人數(shù)”、“當(dāng)月是否景點游覽”等7個特征與信用分具有較強的線性相關(guān)性。因此,選擇這部分特征集合進行進一步的分析。

2.2 基于特征集合的K-means聚類

2.2.1 K-means聚類分析

聚類算法可以分為基于劃分、層次、密度的方法。其中,基于層次的聚類方法,如hierarchical methods,有兩種類型:合并的層次聚類和分裂的層次聚類,該方法可解釋性好,時間復(fù)雜度高,較為適用于小數(shù)量級聚類分析?;诿芏鹊木垲惙椒ǎ鏒BSCAN[17],解決了不規(guī)則形狀的聚類問題,對于噪聲數(shù)據(jù)不敏感,能發(fā)現(xiàn)任意形狀的聚類結(jié)果,但是該方法對于參數(shù)設(shè)置非常敏感。基于劃分的聚類方法,如K-means方法[18](K-均值),雖然對數(shù)據(jù)集中噪聲、離群值、初始值設(shè)置較為敏感,但是該方法較為適合歐氏空間中按向量和歐氏距離定義的樣本聚類,對于處理大型數(shù)據(jù)較為高效(時間復(fù)雜度、空間復(fù)雜度),因此,文中采用K-means算法作為聚類分析的方法。

假設(shè)給定的數(shù)據(jù)集X={xm|m=1,2,…,h,h∈R},Y中樣本有n個屬性(維度)A1,A2,…,An,則歐氏距離公式如下:

(2)

d(xi,xj)距離越小,樣本xi和xj相似度高,差異度??;d(xi,xj)距離越大,樣本xi和xj相似度低,差異度大。

K-means聚類算法一般使用誤差平方和作為標準測度函數(shù),具體定義如下:

(3)

其中,p為代表對象的空間的一個點,mi為聚類Ci的均值(p和mi均為多維的)。其中E為數(shù)據(jù)集中所有對象的平方誤差和,對于不同聚類E的大小也會不同,因此算法需要將E調(diào)整到最小,使得聚類達到最優(yōu)。

K-means是屬于劃分方法的聚類算法,是一種經(jīng)典的聚類算法。由于算法簡單快捷,所以在工業(yè)界中應(yīng)用比較廣泛。其優(yōu)點主要為:算法盡量使確定的K個劃分達到平方和誤差最??;當(dāng)聚類的數(shù)據(jù)是密集的(凸型的),并且簇與簇之間的數(shù)據(jù)差異較大,算法的聚類效果較好;當(dāng)處理大量數(shù)據(jù)集時,算法高效并且相對可以伸縮。

2.2.2 基于線性相關(guān)性分析結(jié)果的聚類分析

如前所述,構(gòu)造有效特征信息方法流程如下:

(1)聚類算法的選擇:不同的聚類算法有不同的優(yōu)劣,將數(shù)據(jù)的屬性(算法是否獨立于數(shù)據(jù)輸入順序;數(shù)據(jù)維度)、算法處理能力(算法復(fù)雜度)作為聚算法選擇依據(jù)。對比聚類算法中基于層次的方法(hierarchical methods)、基于劃分的方法(K-means)、支持向量機(SVM)等,最終選取基于劃分的方法(K-means)作為文中模型的聚類算法。

(2)K-means聚類算法的輸入:線性相關(guān)性分析結(jié)果(與信用分具有較強的線性相關(guān)性的N維特征集合)、聚類簇的個數(shù)K(K值為4)。

(3)K-means聚類算法的輸出:有效特征信息(1維),K-means聚類算法結(jié)果樣例如表2所示。

表2 K-means聚類分析結(jié)果

2.3 LightGBM

(4)

(5)

其中,Ω(fi)為正則項,fi為一棵決策樹。

將損失函數(shù)設(shè)為平方損失,則目標函數(shù)為:

constant

(6)

如前所述,無關(guān)和冗余變量會對模型預(yù)測的準確性造成不利影響,選擇有效的特征信息,直接決定了信用評分模型的準確性。鑒于此,將K-means聚類算法輸出(構(gòu)造的有效特征信息)手動加入數(shù)據(jù)集,作為新的特征列。融入新特征列的數(shù)據(jù)集作為LightGBM模型的輸入,具體LightGBM信用評分模型訓(xùn)練流程如下所示:

輸入:K-means聚類算法的輸出作為有效特征信息,作為新特征列,手動加入到數(shù)據(jù)集中。加入新特征列的數(shù)據(jù)集,作為LightGBM模型輸入。

輸出:移動用戶預(yù)測信用分。

算法步驟:

(1)算法確定目標函數(shù),將損失函數(shù)設(shè)為平方損失,通過貪心策略生成決策樹的每個節(jié)點,找到最佳樹結(jié)構(gòu)。

(2)算法每次迭代前計算損失函數(shù)樣本點的一階導(dǎo)數(shù)和二階導(dǎo)數(shù),生成新的決策樹并計算每個節(jié)點的預(yù)測值。

(3)將迭代生成的N棵決策樹迭代加入模型中,初始化N棵決策樹,平均分配訓(xùn)練樣例權(quán)重。

(4)訓(xùn)練弱分類器,更新權(quán)重得到最終分類器,輸出移動用戶預(yù)測信用分。

3 實驗及分析

3.1 實驗數(shù)據(jù)與預(yù)處理

3.1.1 實驗數(shù)據(jù)與實驗設(shè)定

實驗采用的是2019數(shù)字中國創(chuàng)新大賽(https://www.datafountain.cn/)中賽題“消費者人群畫像—信用智能評分”的數(shù)據(jù)集,該數(shù)據(jù)集是中國移動福建公司提供的2018年x月份的樣本數(shù)據(jù)(脫敏),包括客戶的各類通信支出、欠費情況、出行情況、消費場所、社交、個人興趣等豐富的多維度(30維度)數(shù)據(jù)。其中訓(xùn)練集50 000條,測試集50 000條。實驗配置與環(huán)境如表3所示。

表3 實驗配置與環(huán)境

3.1.2 數(shù)據(jù)分析預(yù)處理

在數(shù)據(jù)集中,不同維度的特征雖然具有不同的量綱,但是特征數(shù)值應(yīng)該具有正確性和有效性。通過對數(shù)據(jù)集的統(tǒng)計分析,發(fā)現(xiàn)數(shù)據(jù)集中存在數(shù)據(jù)缺失[19]和首尾異常值的問題,導(dǎo)致特征數(shù)值失去有效性和正確性,因此需要對數(shù)據(jù)集進行缺失數(shù)據(jù)還原和首尾異常值處理。

3.2 評測指標

評價用戶信用評分模型有很多指標,如準確率(Accuracy)、查全率(Recall)、F得分、MAE、ROC曲線和精確度(Precision)。為了驗證該模型的性能,選擇MAE和ROC曲線和AUC(area under curve)作為該模型的評價指標。將MAE轉(zhuǎn)換成了Score指標,具體公式如下所示:

(7)

(8)

其中,predi為預(yù)測樣本,yi為真實樣本。MAE的值越小,說明預(yù)測數(shù)據(jù)與真實數(shù)據(jù)越接近,所有Score的值越高評測效果越好。

3.3 實驗結(jié)果與分析

3.3.1K值的選取

聚類結(jié)果依賴于初始值的設(shè)定,但是值的選定往往要經(jīng)過很多次實驗才能找到最佳聚類個數(shù)。目前K值的確定主要通過以下幾種方法:

(1)憑經(jīng)驗選代表點,根據(jù)問題的性質(zhì)、數(shù)據(jù)分布,從直觀上找到較合理的K值。

(2)將全部樣本隨機分成類,計算每類重心,把這些重心作為每類的代表點,然后選取K值。

(3)按密度大小選取K值。

實驗使用不同的K值進行評測結(jié)果對比,經(jīng)實驗結(jié)果發(fā)現(xiàn),K值為4時該模型評測結(jié)果為最優(yōu)。

3.3.2 LightGBM參數(shù)調(diào)整

LightGBM模型參數(shù)雖然包含多類參數(shù)但是構(gòu)造相對簡單,參數(shù)設(shè)置與模型效果成正比關(guān)系,參數(shù)調(diào)節(jié)的越優(yōu)模型效果越好。LightGBM模型為用戶提供了多類參數(shù),并提供了便捷的CV函數(shù)供用戶進行調(diào)參。在調(diào)整模型參數(shù)的過程中,文中將訓(xùn)練集拆分出80%作為新的訓(xùn)練集,剩余的20%數(shù)據(jù)作為新的測試集。依據(jù)新測試集的預(yù)測結(jié)果與真實結(jié)果誤差微調(diào)參數(shù),同時采用了CV函數(shù),得到LightGBM模型最優(yōu)參數(shù)。LightGBM參數(shù)如表4所示。

表4 LightGBM參數(shù)

3.3.3 模型效果對比分析

為了驗證文中方法的優(yōu)越性,采用了評測指標Score、預(yù)測準確度ROC曲線和AUC。使用LightGBM、XGBoost[20]、K-LGB、K- XGB四種模型,通過評測指標Score、執(zhí)行效率、準確度進行實驗結(jié)果對比,評測指標Score結(jié)果如表5所示。

表5 模型評測Score結(jié)果與效率

由表5的實驗結(jié)果顯示,文中算法Score得分為6.412,模型運行時間為8分鐘,對比LightGBM模型Score提高了5.412個百分點。為了進一步對比預(yù)測準確度,對預(yù)處理后的40 000條有效數(shù)據(jù)采用5次五折交叉驗證[21],分別建立信用評分模型,結(jié)果如表6所示。

表6 五折交叉驗證的預(yù)測準確度對比 %

圖2為4種模型的ROC[22]曲線圖。在ROC空間中,ROC曲線下的面積為AUC值,AUC值介于0和1之間,AUC的值越高則模型信用評估性能越好。從圖中可以看出,在相同的數(shù)據(jù)集與實驗設(shè)備下,K-LGB模型表現(xiàn)出了較好的信用評估性能,AUC值為0.85,較LightGBM模型提高了0.15。

圖2 模型ROC曲線

該實驗結(jié)果表明,文中算法評測結(jié)果和預(yù)測準確度優(yōu)于其他算法,證實了算法的可行性和有效性。為了方便觀察實驗結(jié)果,執(zhí)行效率以分鐘為單位,由于評測結(jié)果值為百分位小數(shù),評測結(jié)果值放大100倍。把K-means算法與LightGBM算法相融合的模型稱為K-LGB,K-means算法與XGBoost算法相融合的模型稱為K-XGB。

4 結(jié)束語

基于線性相關(guān)性分析結(jié)果進行聚類分析,充分挖掘數(shù)據(jù)特征,以LightGBM算法為典型的大數(shù)據(jù)技術(shù),進行中國移動用戶信用分預(yù)測。在數(shù)據(jù)預(yù)處理方面,針對數(shù)據(jù)缺失問題采用還原為NaN的方法,針對數(shù)據(jù)首尾異常值問題采用設(shè)置上下限的方法。在數(shù)據(jù)集大樣本、高維度的環(huán)境下,與GBDT、XGBoost等算法進行對比,結(jié)果表明該算法具有較好的預(yù)測準確度和計算效率,適合處理大規(guī)模數(shù)據(jù)。

猜你喜歡
線性信用聚類
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
線性回歸方程的求解與應(yīng)用
為食品安全加把“信用鎖”
信用收縮是否結(jié)束
中國外匯(2019年9期)2019-07-13 05:46:30
二階線性微分方程的解法
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
信用中國網(wǎng)
信用消費有多爽?
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
云林县| 方山县| 黔西| 临朐县| 城步| 兰州市| 临海市| 太白县| 岐山县| 大港区| 阳新县| 武夷山市| 栾城县| 确山县| 古浪县| 阿拉善右旗| 宁强县| 永和县| 东海县| 江油市| 乌海市| 岗巴县| 台前县| 馆陶县| 临泽县| 柘荣县| 大渡口区| 丰顺县| 务川| 静安区| 通海县| 同江市| 炉霍县| 桦甸市| 大方县| 阿瓦提县| 康马县| 拉孜县| 长泰县| 江都市| 拉萨市|