国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于帶多數(shù)類權(quán)重的少數(shù)類過采樣技術(shù)和隨機(jī)森林的信用評估方法

2019-08-27 02:26田臣周麗娟
計(jì)算機(jī)應(yīng)用 2019年6期
關(guān)鍵詞:分類器樣本信用

田臣 周麗娟

摘 要:針對信用評估中最為常見的不均衡數(shù)據(jù)集問題以及單個分類器在不平衡數(shù)據(jù)上分類效果有限的問題,提出了一種基于帶多數(shù)類權(quán)重的少數(shù)類過采樣技術(shù)和隨機(jī)森林(MWMOTE-RF)結(jié)合的信用評估方法。首先,在數(shù)據(jù)預(yù)處理過程中利用MWMOTE技術(shù)增加少數(shù)類別樣本的樣本數(shù);然后,在預(yù)處理后的較平衡的新數(shù)據(jù)集上利用監(jiān)督式機(jī)器學(xué)習(xí)算法中的隨機(jī)森林算法對數(shù)據(jù)進(jìn)行分類預(yù)測。使用受測者工作特征曲線下面積(AUC)作為分類評價(jià)指標(biāo),在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的德國信用卡數(shù)據(jù)集和某公司的汽車違約貸款數(shù)據(jù)集上的仿真實(shí)驗(yàn)表明,在相同數(shù)據(jù)集上,MWMOTE-RF方法與隨機(jī)森林方法和樸素貝葉斯方法相比,AUC值分別提高了18%和20%。與此同時,隨機(jī)森林方法分別與合成少數(shù)類過采樣技術(shù)(SMOTE)方法和自適應(yīng)綜合過采樣(ADASYN)方法結(jié)合,MWMOTE-RF方法與它們相比,AUC值分別提高了1.47%和2.34%,從而驗(yàn)證了所提方法的有效性及其對分類器性能的優(yōu)化。

關(guān)鍵詞:

不平衡數(shù)據(jù)集;機(jī)器學(xué)習(xí);帶多數(shù)類權(quán)重的少數(shù)類過采樣技術(shù);隨機(jī)森林;信用評估

中圖分類號: TP18;TP399

文獻(xiàn)標(biāo)志碼:A

Abstract: In order to solve the problem of unbalanced dataset in credit assessment and the limited classification effect of single classifier on unbalanced data, a Majority Weighted Minority Oversampling TEchnique-Random Forest (MWMOTE-RF) credit assessment method was proposed. Firstly, MWMOTE technology was applied to increase the samples of minority classes in the preprocessing stage. Then, on the preprocessed balanced dataset, random forest algorithm, one of supervised machine learning algorithms, was used to classify and predict the data. With Area Under the Carve (AUC) used to evaluate the performance of classifier, experiments were conducted on German credict card dataset from UCI database and a companys car default loan dataset. The results show that the AUC value of MWMOTE-RF method increases by 18% and 20% respectively compared with random forest method and Naive Bayes method on the same data set. At the same time, random forest method was combined with Synthetic Minority Over-sampling TEchnique (SMOTE) and ADAptive SYNthetic over-sampling (ADASYN), respectively, and the AUC value of MWMOTE-RF method increases by 1.47% and 2.34% respectively compared with them. The results prove the effectiveness and the optimization of classifier performance of the proposed method.

Key words: umbalanced dataset; machine learning; Majority Weight Minority Oversampling TEchnique (MWMOTE); random forest; credit assessment

0 引言

伴隨著互聯(lián)網(wǎng)金融的日漸興起,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等新興技術(shù)在企業(yè)經(jīng)營和科學(xué)決策中的普遍應(yīng)用,在線信貸作為一種更高效的借貸服務(wù)早已顛覆了傳統(tǒng)銀行相關(guān)部門的地位,傳統(tǒng)的信用評分模型已經(jīng)不能高效準(zhǔn)確地處理信貸客戶數(shù)據(jù)。因此,構(gòu)建并應(yīng)用精確、客觀和可靠的信用風(fēng)險(xiǎn)評估方法,對于銀行業(yè)和有信貸業(yè)務(wù)的公司,在不同的商業(yè)周期和環(huán)境下減輕信貸業(yè)務(wù)危機(jī)和損失[1]有著十分重要的現(xiàn)實(shí)意義。

迄今為止,大量數(shù)據(jù)分析技術(shù)和建模技術(shù)被應(yīng)用到風(fēng)險(xiǎn)評估領(lǐng)域,從而出現(xiàn)了四大類風(fēng)險(xiǎn)評估方法:統(tǒng)計(jì)學(xué)方法、運(yùn)籌學(xué)方法、非參數(shù)分析法和人工智能方法?;诮y(tǒng)計(jì)學(xué)方法中最具代表性的就是邏輯回歸分析,其是當(dāng)前理論體系中最為成熟的一種分類模型,最早由Wiginton等[2]于1980年應(yīng)用于信用風(fēng)險(xiǎn)評估 中。人工智能方法中包括專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)評估系統(tǒng)、支持向量機(jī)、遺傳算法和隨機(jī)森林方法。Desai等[3]于20世紀(jì)90年代將神經(jīng)網(wǎng)絡(luò)應(yīng)用于信用風(fēng)險(xiǎn)分析,同時期Baesens等[4]將支持向量機(jī)方法運(yùn)用于信用評分領(lǐng)域。Davis 將[5]遺傳算法應(yīng)用在了信用評分領(lǐng)域。國內(nèi)的諸多學(xué)者也在信用評估領(lǐng)域中有所研究,李志輝等[6]采用主成分分析法和Fisher線性方法、Logit模型、BP神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)造我國商業(yè)銀行信用風(fēng)險(xiǎn)識別模型,通過實(shí)證分析得出相對于其他兩類模型,Logit模型具有更強(qiáng)的信用風(fēng)險(xiǎn)識別和預(yù)測能力。王春峰等[7]改進(jìn)了蟻群算法并將其應(yīng)用在了商業(yè)銀行信用風(fēng)險(xiǎn)評估中,分析結(jié)果相較于判別分析、回歸分類算法更好。隨機(jī)森林方法是一種既可用于分類也能用于回歸任務(wù)的數(shù)據(jù)挖掘方法,預(yù)測準(zhǔn)確率高、不容易出現(xiàn)過擬合、訓(xùn)練速度快等優(yōu)點(diǎn)使其在很多領(lǐng)域都有廣泛的應(yīng)用[8-10]。

就我國銀行業(yè)的個人信貸業(yè)務(wù)而言,發(fā)展較晚,信貸風(fēng)險(xiǎn)控制方面還存在著明顯的不足[11],而最為核心的問題,仍然是如何有效地對不對稱信息進(jìn)行處理,如何高效解決數(shù)據(jù)類別不平衡問題。所謂類別不平衡數(shù)據(jù)就是在數(shù)據(jù)集中,各類別樣本數(shù)目差別很大,樣本分布不均,其中類別數(shù)量多的為多數(shù)類,類別數(shù)量少的為少數(shù)類,又稱為稀有類。在多數(shù)情況下,諸如如網(wǎng)絡(luò)入侵檢測[12]、欺詐檢測、垃圾郵件識別,信用評估領(lǐng)域等少數(shù)類往往是研究的重點(diǎn)。目前處理不平衡問題的主要數(shù)據(jù)層面方法是過采樣或者欠采樣,重新分配類別分布,例如:合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-sampling TEchnique, SMOTE)方法[13]、自適應(yīng)綜合過采樣(ADAptive SYNthetic over-sampling, ADASYN)方法[14]和Borderline-SMOTE方法[15]等。

基于以上分析與認(rèn)識,考慮到單一方法難以在不平衡數(shù)據(jù)集上達(dá)到良好預(yù)測效果,本文提出了一種基于帶多數(shù)類權(quán)重的少數(shù)類過采樣技術(shù)和隨機(jī)森林(Majority Weighted Minority Oversampling Technique-Random Forest, MWMOTE-RF)結(jié)合的信用評估方法。本文方法的基本思想是將MWMOTE數(shù)據(jù)處理作為隨機(jī)森林算法的前置預(yù)處理系統(tǒng),通過MWMOTE對信用樣本數(shù)據(jù)進(jìn)行少數(shù)類樣本數(shù)量增加,從而改善隨機(jī)森林向多數(shù)類類別樣本的傾向性問題。最后結(jié)合UCI數(shù)據(jù)集和汽車違約貸款數(shù)據(jù)集與傳統(tǒng)的隨機(jī)森林方法和樸素貝葉斯方法進(jìn)行實(shí)驗(yàn)分析對比。除此之外,分別通過SMOTE方法、ADASYN方法和Borderline-SMOTE方法產(chǎn)生平衡數(shù)據(jù)集訓(xùn)練隨機(jī)森林模型作為實(shí)驗(yàn)對比模型。

1 相關(guān)方法及模型的構(gòu)建

1.1 MWMOTE

在信用評估領(lǐng)域,客戶評估數(shù)據(jù)中履約的客戶占絕大多數(shù),而違約的客戶作為少數(shù)類樣本是我們重點(diǎn)研究的對象。隨機(jī)森林算法在處理不平衡數(shù)據(jù)的問題上存在著缺陷,主要是由于少數(shù)類樣本占比少,在此數(shù)據(jù)集上訓(xùn)練出來的決策樹不能很好地體現(xiàn)少數(shù)類的特點(diǎn),只有增大少數(shù)類占有量或是平衡多數(shù)類樣本數(shù)量才能使隨機(jī)森林算法更加健壯。針對不平衡數(shù)據(jù)的處理方法有三大類[16]:抽樣法、代價(jià)敏感方法和集成方法。其中抽樣方法分為欠抽樣和過抽樣,在處理不平數(shù)據(jù)集問題上目前應(yīng)用最廣的是SMOTE方法,作為過抽樣方法的一種,其主要是結(jié)合少數(shù)類樣本按照一定規(guī)則合成少數(shù)類樣本,最終達(dá)到平衡數(shù)據(jù)集的目的[17]。但其存在著幾點(diǎn)不足[18]:不能精確控制合成新樣本數(shù)量;不能對少數(shù)類樣本進(jìn)行區(qū)別性選擇;樣本混疊現(xiàn)象嚴(yán)重。

鑒于SMOTE方法存在的不足,本文采用了帶多數(shù)類權(quán)重的少數(shù)類過采樣法[19],相較于應(yīng)用廣泛的SMOTE方法,可以有效避免新合成樣本混疊問題。該方法的核心思路是首先識別難以學(xué)習(xí)的信息豐富的少數(shù)類樣本,并根據(jù)它們與最近的多數(shù)類樣本之間的歐氏距離給它們賦值;然后,使用聚類方法從加權(quán)信息量大的少數(shù)類樣本中合成新樣本。通過這種方式,所有生成的新樣本都位于某個少數(shù)類簇中。

1.2 隨機(jī)森林

隨機(jī)森林是一種統(tǒng)計(jì)學(xué)理論,是bagging算法和分類回歸樹(Classification And Regression Tree, CART)的結(jié)合。通過組合多個CART進(jìn)行預(yù)測,最終通過投票得到預(yù)測結(jié)果。

Bagging算法又稱自舉匯聚法,是一種基于數(shù)據(jù)隨機(jī)重抽樣的分類器構(gòu)建方法,在原始數(shù)據(jù)集上進(jìn)行有放回的抽樣N次,得到N個新數(shù)據(jù)集。新數(shù)據(jù)集與原始數(shù)據(jù)集大小相等。在這N個數(shù)據(jù)集上分別對學(xué)習(xí)算法進(jìn)行訓(xùn)練,得到了N個弱分類器,由此方法集成為一個強(qiáng)分類器并最終選擇分類器投票結(jié)果中最多的類別作為分類結(jié)果。此處的學(xué)習(xí)算法為CART,一種改進(jìn)的決策樹。與ID3和C4.5兩種影響較大的決策樹方法相比,CART算法是基于基尼系數(shù)的決策樹算法。CART包括分類樹和回歸樹兩部分,其中分類樹根據(jù)基尼系數(shù)進(jìn)行特征空間的劃分,回歸樹通過最小化平方誤差進(jìn)行特征選擇和特征值選擇。

隨機(jī)森林的構(gòu)建過程如下:

1)假設(shè)原樣本集有N個樣例,則每輪從原始樣本集中有放回地抽取n個樣例,得到一個與原始樣本集相同大小的樣本集。經(jīng)過K輪的抽取獲得的訓(xùn)練集分別為T1,T2,…, TK。

2)每個訓(xùn)練集訓(xùn)練一個決策樹模型。共得到K個CART模型。

3)假設(shè)原始樣本的特征個數(shù)為D,從D個特征中隨機(jī)選擇其中的d個特征(d

4)每棵樹不斷分裂,直到該節(jié)點(diǎn)的所有訓(xùn)練樣本都屬于同一類。這期間不需要剪枝處理。

5)K個CART相互獨(dú)立,其被賦予的權(quán)重均相等。對于分類問題,最終的分類結(jié)果使用所有的CART投票來確定最終分類結(jié)果;對于回歸問題,使用所有決策時輸出的均值來作為最終的輸出結(jié)果。

選擇隨機(jī)森林方法主要基于以下考慮:隨機(jī)森林方法作為一種集成學(xué)習(xí)方法相較于單一學(xué)習(xí)器有著優(yōu)越的泛化性能。文獻(xiàn)[9]中,通過實(shí)驗(yàn)分析對比可知,隨機(jī)森林方法的準(zhǔn)確率和穩(wěn)定性要優(yōu)于支持向量機(jī)方法、k-近鄰方法、CART方法、基于徑向基的神經(jīng)網(wǎng)絡(luò)方法和梯度提升決策樹(Gradient Boosting Decison Tree, GBDT)方法等。

本文所用的隨機(jī)森林算法是python的sklearn庫中封裝好的。隨機(jī)森林在sklearn的分類庫中所屬類是RandomForestClassifier,重要的調(diào)節(jié)參數(shù)如表1所示。

1.3 模型融合過程

在MWMOTE的實(shí)現(xiàn)過程中,構(gòu)建了一個用來合成新樣本的少數(shù)類信息集Simin。然而,這個集合的所有樣本可能并不同等重要。一些樣本可能比其他樣本為數(shù)據(jù)提供更有用的信息,因此,有必要根據(jù)樣本的重要性為其分配權(quán)重。權(quán)重越大的樣本意味著需要從它附近產(chǎn)生許多合成樣品。MWMOTE所用到的選擇權(quán)重計(jì)算公式是鑒于三點(diǎn)觀察:接近決策邊界的樣本包含的信息比距離遠(yuǎn)的樣本多;稀疏簇中的少數(shù)類樣本比稠密簇中的樣本更重要;在密集多數(shù)類群附近的少數(shù)類樣本比在稠密多數(shù)類群附近的樣本更重要。

2 實(shí)驗(yàn)數(shù)據(jù)和評價(jià)指標(biāo)

2.1 數(shù)據(jù)集

本文所用的是UCI KDD Archive提供的德國信用卡數(shù)據(jù)以及某公司提供的汽車違約貸款數(shù)據(jù)作為有信用記錄的樣本。汽車違約貸款數(shù)據(jù)含有5845個樣本,每一個樣本有19個連續(xù)變量、1個離散性變量。通過類別標(biāo)簽劃分用戶,其中,4648個信用好的用戶、1197個信用差的用戶。按照4∶1的比例,本文選取793個信用好的用戶,207個信用差的用戶,共計(jì)1000個用戶樣本作為最終的實(shí)驗(yàn)使用數(shù)據(jù)集。汽車違約貸款數(shù)據(jù)集的基本特征如表2所示。德國信用卡數(shù)據(jù)有1000個樣本,每一個樣本有7個連續(xù)型變量、13個離散型變量。類別標(biāo)簽將樣本用戶進(jìn)行區(qū)分,其中,700個信用好的樣本數(shù)據(jù)作為多數(shù)類,300個信用差的樣本數(shù)據(jù)作為少數(shù)類,是一個非平衡數(shù)據(jù)集。德國信用數(shù)據(jù)集的基礎(chǔ)特征如表3所示。

參考文獻(xiàn)[20]數(shù)據(jù)預(yù)處理的特征選擇,消除不相關(guān)和冗余的特征,最終實(shí)驗(yàn)用的德國信用數(shù)據(jù)訓(xùn)練集中,只選取{status,amount,duration,age,purpose,history,employment,bonds,property,installmentrate}作為最后的特征集,以達(dá)到提高分類精度和縮短訓(xùn)練時間的目的。

2.2 評價(jià)指標(biāo)

受測工作者特征曲線(Receiver Operating Characteristic Curve, ROC)作為公認(rèn)的不平衡數(shù)據(jù)集分類器的評價(jià)標(biāo)準(zhǔn),并不能定量評價(jià)分類器[21],因此本文采用AUC(Area Under Curve)值作為性能度量標(biāo)準(zhǔn)。AUC值被定義為ROC曲線下的面積。對于二分類問題,文獻(xiàn)[22]給出了計(jì)算式如下:

3 實(shí)驗(yàn)和結(jié)果分析

為了提高實(shí)驗(yàn)分析的準(zhǔn)確性,本文采用多次隨機(jī)實(shí)驗(yàn)進(jìn)行驗(yàn)證,將原始數(shù)據(jù)集劃分為訓(xùn)練集和測試集,共進(jìn)行100次實(shí)驗(yàn)驗(yàn)證。數(shù)據(jù)劃分情況如表4所示,模型相關(guān)參數(shù)如表5所示。

將實(shí)驗(yàn)數(shù)據(jù)劃分出的測試集作為最終模型實(shí)驗(yàn)分析對比所用的測試集。在實(shí)驗(yàn)用的德國信用數(shù)據(jù)集的基礎(chǔ)上通過MWMOTE方法擴(kuò)充200個少數(shù)類合成新樣本,在實(shí)驗(yàn)用的汽車違約貸款數(shù)據(jù)集的基礎(chǔ)上通過MWMOTE方法擴(kuò)充300個少數(shù)類合成新樣本以達(dá)到平衡數(shù)據(jù)集的目的,作為新的樣本數(shù)據(jù)集,其數(shù)據(jù)劃分標(biāo)準(zhǔn)和原始數(shù)據(jù)集一樣。在平衡數(shù)據(jù)集上訓(xùn)練出的模型稱之為MWMOTE-RF,在原始數(shù)據(jù)集上訓(xùn)練出的隨機(jī)森林模型稱為RF,樸素貝葉斯模型稱為NB。

除此之外,本文分別通過SMOTE方法,自適應(yīng)綜合過采樣方法和Borderline-SMOTE方法對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理,在各自產(chǎn)生的平衡數(shù)據(jù)集上訓(xùn)練隨機(jī)森林模型,對應(yīng)生成的模型分別稱之為SMOTE-RF、ADA-RF和BSMOTE-RF。

4 結(jié)語

為了提高不平衡數(shù)據(jù)中對可能存在的少數(shù)類樣本(違約客戶)的預(yù)測準(zhǔn)確率,本文提出了一種基于MWMOTE和隨機(jī)森林結(jié)合的信用評估方法,改進(jìn)了對違約客戶的信用評估分析預(yù)測能力。經(jīng)過MWMOTE技術(shù)處理后,該方法有效解決了信用評估中不平衡數(shù)據(jù)集的問題,一定程度上解決了分類器向多數(shù)類類別樣本的傾向性問題。實(shí)驗(yàn)結(jié)果表明,在處理后的平衡數(shù)據(jù)集上訓(xùn)練的隨機(jī)森林模型,其AUC值有很大程度提升。但隨機(jī)森林和MWMOTE中的部分參數(shù)為人工設(shè)置,不一定是最優(yōu)的模型參數(shù),其次在高維和規(guī)模大的數(shù)據(jù)集上存在訓(xùn)練效率低的問題,因此如何選取合理參數(shù)并提升模型訓(xùn)練效率是下一步解決的問題。

參考文獻(xiàn) (References)

[1] WIN S. What are the possible future research directions for banks credit risk assessment research? A systematic review of literature [J]. International Economics and Economic Policy, 2018, 15(4): 743-759.

[2] WIGINTON J C. A note on the comparison of logit and discriminant models of consumer credit behavior [J]. Journal of Financial and Quantitative Analysis, 1980, 15(3): 757-771.

[3] DESAI V S, CROOK J N, JR OVERSTREET G A. A comparison of neural networks and linear scoring models in the credit union environment [J]. European Journal of Operational Research, 1996, 95(1):24-37.

[4] BAESENS B, van GESTEL T, VIAENE S, et al. Benchmarking state-of-the-art classification algorithms for credit scoring [J]. Journal of the Operational Research Society, 2003, 54(6):627-635.

[5] DAVIS S, ALBRIGHT T. An investigation of the effect of Balanced Scorecard implementation on financial performance [J]. Management Accounting Research, 2004, 15(2): 135-153.

[6] 李志輝,李萌.我國商業(yè)銀行信用風(fēng)險(xiǎn)識別模型及其實(shí)證研究[J].經(jīng)濟(jì)科學(xué),2005(5):61-71.(LI Z H, LI M. Credit risk identification model of Chinese commercial banks and its empirical study [J]. Economic Science, 2005(5):61-71.)

[7] 王春峰,趙欣,韓冬.基于改進(jìn)蟻群算法的商業(yè)銀行信用風(fēng)險(xiǎn)評估方法[J].天津大學(xué)學(xué)報(bào)(社會科學(xué)版),2005,7(2):81-85.(WANG C F, ZHAO X, HAN D. A model on modified ants algorithm for credit risk assessment in commercial banks [J].Journal of Tianjin University (Social Sciences), 2005, 7(2): 81-85.)

[8] 方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3):32-38.(FANG K N, WU J B, ZHU J P, et al. A review of technologies on random forests [J]. Statistic & Information Forum, 2011, 26(3): 32-38.)

[9] 蕭超武,蔡文學(xué),黃曉宇,等.基于隨機(jī)森林的個人信用評估模型研究及實(shí)證分析[J].管理現(xiàn)代化,2014,34(6):111-113.(XIAO C W, CAI W X, HUANG X Y, et al. Research and empirical analysis of personal credit evaluation model based on random forest [J]. Modernization of Management, 2014, 34 (6): 111-113.)

[10] 李進(jìn).基于隨機(jī)森林算法的綠色信貸信用風(fēng)險(xiǎn)評估研究[J].金融理論與實(shí)踐,2015(11):14-18.(LI J. Study on green-credit risk assessment based on random forest algorithm [J]. Financial Theory & Practice, 2015 (11): 14-18.)

[11] 楊愛香.淺析我國商業(yè)銀行信貸風(fēng)險(xiǎn)管理的現(xiàn)狀及對策[J].時代金融,2015(30):37,39.(YANG A X. A brief analysis of Chinas commercial banks credit risk management status and countermeasures [J]. Times Finance, 2015(30): 37,39.)

[12] 封化民,李明偉,侯曉蓮,等.基于SMOTE和GBDT的網(wǎng)絡(luò)入侵檢測方法研究[J].計(jì)算機(jī)應(yīng)用研究,2017,34(12):3745-3748.(FENG H M, LI M W, HOU X L, et al. Study of network intrusion detection method based on SMOTE and GBDT [J]. Application Research of Computers, 2017, 34(12): 3745-3748.)

[13] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.

[14] HE H B, BAI Y, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning [C] // Proceeding of the 2008 IEEE International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2008: 1322-1328.

[15] HAN H, WANG W Y, MAO B H. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning [C]// ICIC 2005: Proceedings of the 2005 International Conference on Advances in Intelligent Computing. Berlin: Springer, 2005: 878-887.

[16] 趙楠,張小芳,張利軍.不平衡數(shù)據(jù)分類研究綜述[J].計(jì)算機(jī)科學(xué),2018,45(6A):22-27,57.(ZHAO N, ZHANG X F, ZHANG L J. Overview of imbalanced data classification [J].Computer Science, 2018, 45(6A): 22-27,57.)

[17] 沈?qū)W利,覃淑娟.基于SMOTE和深度信念網(wǎng)絡(luò)的異常檢測[J].計(jì)算機(jī)應(yīng)用,2018,38(7):1941-1945.(SHEN X L, QIN S J. Anomaly detection based on synthetic minority oversampling technique and deep belief network [J]. Journal of Computer Applications, 2018, 38(7): 1941-1945.)

[18] 王超學(xué),張濤,馬春森.面向不平衡數(shù)據(jù)集的改進(jìn)型SMOTE算法[J].計(jì)算機(jī)科學(xué)與探索,2014,8(6):727-734.(WANG C X, ZHANG T, MA C S. Improved SMOTE algorithm for imbalanced datasets [J]. Journal of Frontiers of Computer Science and Technology, 2014, 8(6): 727-734.)

[19] BARUA S, ISLAM M M, YAO X, et al. MWMOTE — Majority weighted minority oversampling technique for imbalanced data set learning [J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2): 405-425.

[20] 葉曉楓,魯亞會.基于隨機(jī)森林融合樸素貝葉斯的信用評估模型[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2017,47(2):68-73.(YE X F, LU Y H. Credit assessment model based on random forest and navie bayes [J]. Mathematics in Practice and Theory, 2017, 47(2): 68-73.)

[21] 李詒靖,郭海湘,李亞楠,等.一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類[J].系統(tǒng)工程理論與實(shí)踐,2016,36(1):189-199.(LI Y J, GUO H X, LI Y N, et all. A boosting based ensemble learning algorithm in imbalanced data classification [J]. Systems Engineering — Theory & Practice, 2016, 36(1): 189-199)

[22] HAND D J, TILL R J. A simple generalization of the area under the ROC curve for multiple class classification problems [J].Machine Learning, 2001, 45(2): 171-186

[23] 蔣帥.基于AUC的分類器性能評估問題研究[D].長春:吉林大學(xué),2016:10-17.(JIANG S. Researches of performance evaluation of classifier based on AUC [D]. Changchun:Jilin University, 2016: 10-17.)

猜你喜歡
分類器樣本信用
神秘的植物工廠
學(xué)貫中西(6):闡述ML分類器的工作流程
失信商人的悲劇
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機(jī)集成算法
一種統(tǒng)計(jì)分類方法的學(xué)習(xí)
直擊高考中的用樣本估計(jì)總體
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
信用消費(fèi)有多爽?
“信用山東”微信號正式啟動發(fā)布
基于支持向量機(jī)的測厚儀CS值電壓漂移故障判定及處理