国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MultiBoost—LMT算法的供應(yīng)商信用評價研究

2017-05-04 22:56:08黃艷瑩陳力
價值工程 2017年12期

黃艷瑩++陳力

摘要:供應(yīng)商違約問題一直是供應(yīng)鏈管理模式中的一大難題,建立有效的模型實現(xiàn)較準(zhǔn)確的供應(yīng)商違約預(yù)測來協(xié)助企業(yè)采取應(yīng)對措施,對于企業(yè)競爭致勝具有重要意義。本研究首先對MultiBoost算法的框架進(jìn)行改進(jìn),用LMT算法代替C4.5決策樹算法,作為MultiBoost的基分類器,提出MultiBoost-LMT算法,其優(yōu)點是對樣本中的奇異點和異常值不敏感,不易出現(xiàn)過擬合現(xiàn)象,具有更高的泛化能力。其次將MultiBoost-LMT算法應(yīng)用于供應(yīng)商信用評價問題,在兩個公開的供應(yīng)商信用數(shù)據(jù)集上的數(shù)值試驗表明:與其它算法相比,所提出的MultiBoost-LMT算法能夠顯著地提高供應(yīng)商信用分類精度,具有較高的實用價值。

Abstract: Default of supplier has been regarded as one of the toughest difficulties in supply chain management. How to establish an effective model to handle the default of supplier is a significant work. In this paper, a novel method called MultiBoost-LMT algorithm is presented. Due to the fact that the proposed MultiBoost-LMT can effectively avoid overfitting without the loss of the advantages in reducing the bias and the variance of the classified model, the proposed MultiBoost-LMT can increase the model performance significantly. For verification and illustration, two public available supplier credit datasets are used to test and compare the performance of other machine learning algorithm. The experimental results show the proposed MultiBoost-LMT algorithm can yield better performances compared with other machine learning algorithm listed in this study.

關(guān)鍵詞:供應(yīng)商信用評價;MultiBoost;LMT

Key words: supplier credit score;MultiBoost;LMT

中圖分類號:TP1812.5 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-4311(2017)12-0076-03

0 引言

隨著全球經(jīng)濟(jì)迅猛發(fā)展,市場競爭已經(jīng)發(fā)展到了供應(yīng)鏈與供應(yīng)鏈之間的競爭。在供應(yīng)鏈管理模式中,擁有優(yōu)秀的供應(yīng)商隊伍是企業(yè)競爭致勝的關(guān)鍵。而對供應(yīng)商信用進(jìn)行正確評價又是合理選擇供應(yīng)商的重要因素。因此,對供應(yīng)商的信用分析很有意義[1-3]。

關(guān)于供應(yīng)商信用評價問題,國內(nèi)外目前已有不少研究。如石曉軍等利用多因素視角下的雙層規(guī)劃建立供應(yīng)商信用評價模型[4]。徐晉等利用灰色關(guān)聯(lián)模型建立供應(yīng)商信用評價模型[5]。Jafar Razmi等將網(wǎng)絡(luò)分析法和模糊集理論應(yīng)用到供應(yīng)商信用評價問題[6]。本研究著重數(shù)據(jù)挖掘方法與供應(yīng)商信用評價問題的結(jié)合,主要考察分類算法進(jìn)行供應(yīng)商信用評價的研究。

隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,很多新的分類算法被提出來,例如支持向量機(jī)[7]、人工神經(jīng)網(wǎng)絡(luò)[8]等。與其它基于經(jīng)驗風(fēng)險最小化的算法相比,支持向量機(jī)不易出現(xiàn)過擬合現(xiàn)象,具有較好的泛化能力,在信用評價領(lǐng)域得到了廣泛的應(yīng)用[9-12]。但是它的缺點也十分明顯,即算法的分類準(zhǔn)確率過度依賴參數(shù)的選擇,當(dāng)算法參數(shù)選擇不合適時,算法的分類準(zhǔn)確率很低[13]。當(dāng)單個分類器難以較好地擬合數(shù)據(jù)集時,基于集成學(xué)習(xí)技術(shù)的MultiBoost算法的出現(xiàn)和發(fā)展成為了一個更理想的選擇。

MultiBoost算法是Schapire在20世紀(jì)90年代提出的一種集成學(xué)習(xí)算法。與以往單個分類器模型相比,它通過Wagging策略對多個分類器的分類結(jié)果進(jìn)行組合來決定最終的分類,以取得比單個分類器更好的性能[14]。標(biāo)準(zhǔn)MultiBoost算法,是以C4.5決策樹算法作為基分類器,C4.5決策樹算法是基于經(jīng)驗風(fēng)險最小化原則,對數(shù)據(jù)集中的異常值敏感,容易出現(xiàn)過擬合現(xiàn)象,導(dǎo)致MultiBoost算法的泛化能力較差[15-19]。

本文在文獻(xiàn)[20-22]的基礎(chǔ)上提出了MultiBoost-LMT算法,主要思想是改進(jìn)MultiBoost的框架,用LMT算法代替C4.5決策樹算法作為基分類器,從而解決了原算法容易出現(xiàn)過擬合的問題,提高了泛化能力。文章余下的內(nèi)容安排如下:首先描述了MultiBoost算法和LMT算法的基本原理,然后說明本文提出的MultiBoost-LMT的算法流程;其次使用沃爾瑪供應(yīng)商和本田汽車零配件供應(yīng)商信用數(shù)據(jù)集進(jìn)行數(shù)值試驗,并對不同模型的結(jié)果進(jìn)行對比;最后對全文進(jìn)行總結(jié),指出本文不足及未來主要研究方向。

1 模型建立

1.1 MultiBoost

MultiBoost算法的基本思想是,集成k個基分類器小組θk,每個基分類器小組θk中包含了由AdaBoost算法集成的Ik棵C4.5決策樹?;诸惼餍〗Mθk之間使用Wagging策略進(jìn)行組合[23]。

1.2 LMT

LMT(Logistic Model Tree)算法是一種決策樹與Logistic 回歸的組合算法,與普通的決策樹相比,LMT通過將對應(yīng)子樣本空間中的所有屬性作為自變量,構(gòu)建Logistic回歸模型來確定對應(yīng)的分類類別[24]。Birant通過實驗證明,相比C4.5決策樹, LMT不僅具有較高的分類精度,而且能夠避免過度擬合訓(xùn)練集[25]。Gupta S和Kumar D通過實驗證明,相比支持向量機(jī),LMT的分類精度不依賴于算法參數(shù)的選擇[26]。

1.3 MultiBoost-LMT算法

改進(jìn)MultiBoost的框架,將LMT算法作為MultiBoost的基分類器?準(zhǔn)j,避免過擬合。MultiBoost LMT算法的流程如下:

①初始化權(quán)重:將樣本集S'中的樣本元素權(quán)重均設(shè)為1;

②令k=1;

③令n=[■]

④For t=1 to T {

⑤Ik=[k·T/n];

⑥若Ik=t,則根據(jù)連續(xù)泊松分布重置樣本集S'的隨機(jī)權(quán)重;

⑦k++;

⑧Ct=?準(zhǔn)j(S');

⑨εt=■;

⑩若εt>0.5,

{11}根據(jù)連續(xù)泊松分布重置樣本集S'的隨機(jī)權(quán)重;

{12}k++;

{13}轉(zhuǎn)到8;

{14}若εt=0,

{15}令βt=10-10;

{16}根據(jù)連續(xù)泊松分布重置樣本集S'的隨機(jī)權(quán)重;

{17}若0<εt<0.5,

{18}令βt=■;

{19}對于?坌xj∈S',

{20}若Ct(xj)≠yj,令weight(xj)'=weight(xj)·■;

{21}若Ct(xj)=yj令weight(xj)'=weight(xj)·■;

{22}若weight(xj)<10-8,令weight(xj)'=10-8;

{23}}

最優(yōu)解為:C*(x)=■■log■

2 數(shù)值試驗

為驗證MultiBoost-LMT算法的性能,本文采用兩個數(shù)據(jù)集進(jìn)行測試。兩個數(shù)據(jù)集分別是沃爾瑪供應(yīng)商信用數(shù)據(jù)集(包含39000個樣本,21750個正例和17250個反例,正例樣本和反例樣本中分別包括1200個和700個人工添加的異常樣本)和本田汽車零配件供應(yīng)商信用數(shù)據(jù)集(由12000樣本構(gòu)成,5680個正例和6320個反例,正例樣本和反例樣本中分別包括500個和800個人工添加的異常樣本)。為了便于對比分析,對每一個數(shù)據(jù)集,分別采用標(biāo)準(zhǔn)支持向量機(jī)(C-SVM)、標(biāo)準(zhǔn)MultiBoost和MultiBoost-LMT三種算法進(jìn)行分類測試。實驗在Intel(R)Core(TM)/RAM 8G機(jī)上完成,算法C-SVM、MultiBoost和MultiBoost-LMT采用R語言編程。

2.1 分類器性能評價指標(biāo)

評價分類器性能的指標(biāo)有很多,Powers通過Precision、Recall、F-measure和ROC評價分類器的性能[27]。Huang和Ling通過Accuracy和AUC評價分類器的性能[28]。Chen和Tang等通過Accuracy、Recall和F-measure評價分類器的性能[29]。Nakayama和Hayashi通過Accuracy和Recall評價分類器的性能[30]。Lei和Yang等通過Accuracy、Recall和ROC評價分類器的性能[31]。本文選用的評價分類器性能指標(biāo)包括:Accuracy、Recall和AUC。下面給出它們的定義:

Accuracy(準(zhǔn)確度)=■(1)

Recall(查全率)=■ (2)

AUC(Aera Under Curve)=■ (3)

其中,TP表示分類正確的正例個數(shù),TN表示分類正確的負(fù)例個數(shù),F(xiàn)P表示分類錯誤的負(fù)例個數(shù),F(xiàn)N表示分類錯誤的負(fù)例個數(shù),S0表示所有正例的位置,n0表示正例樣本個數(shù),n1表示負(fù)例樣本個數(shù)。

2.2 基于MultiBoost-LMT算法的信用評價試驗

這部分給出C-SVM、標(biāo)準(zhǔn)MultiBoost和MultiBoost-LMT不同分類算法之間的性能比較試驗。本文采用十重交叉驗證法(10-fold validation)進(jìn)行實驗,把沃爾瑪和本田汽車兩個數(shù)據(jù)集分成10個不交叉的子集,每次取其中1個子集作為測試集,其余9個子集作為訓(xùn)練集得到分類器,如此重復(fù)10次,訓(xùn)練集和測試集的類標(biāo)屬性都是已知的,由訓(xùn)練集的類標(biāo)訓(xùn)練模型,在測試階段中我們假設(shè)測試集的類標(biāo)屬性未知,而使用模型得到預(yù)測值,然后通過比較預(yù)測值與實際值來判定模型正確率。最后的整體正確率是10次實驗整體正確率的平均值。

從圖1和圖2的實驗結(jié)果可以看出,MultiBoost-LMT在Accuracy、Recall和AUC三項指標(biāo)上比其它兩種算法表現(xiàn)更好,說明MultiBoost-LMT是一種較好的供應(yīng)商信用評價方法[32]。原因有兩方面:①M(fèi)ultiBoost-LMT算法基于集成學(xué)習(xí)技術(shù),容易取得比單個分類器更好的分類效果;②MultiBoost-LMT將LMT作為基分類器,克服了原算法容易出現(xiàn)過擬合的問題,提高了泛化能力。

3 總結(jié)與展望

本文對MultiBoost的框架進(jìn)行改進(jìn),用LMT算法代替C4.5決策樹算法作為基分類器,克服了原算法容易過擬合的問題,提高了泛化能力。在兩個公開的供應(yīng)商信用數(shù)據(jù)集上的數(shù)值試驗表明:與支持向量機(jī)和標(biāo)準(zhǔn)MultiBoost算法相比,所提出的MultiBoost-LMT算法具有更好的分類性能。該方法目前只解決了分類問題,由于其良好的性能,下一步將考慮把該方法改進(jìn)推廣至回歸、聚類等問題上。

參考文獻(xiàn):

[1]吳軍,李健,汪壽陽.供應(yīng)鏈風(fēng)險管理中的幾個重要問題[J].管理科學(xué)學(xué)報,2007,9(6):1-12.

[2]田歆,汪壽陽,華國偉.零售商供應(yīng)鏈管理的一個系統(tǒng)框架與系統(tǒng)實現(xiàn)[J].系統(tǒng)工程理論與實踐,2009(10):45-52.

[3]舒彤,陳收,汪壽陽.基于影響因子的供應(yīng)鏈協(xié)同預(yù)測方法[J].系統(tǒng)工程理論與實踐,2010(8):1363-1370.

[4]石曉軍,張順明,朱芳菲.多因素視角下商業(yè)信用期限決策的雙層規(guī)劃模型與實證研究[J].中國管理科學(xué),2008,16(6):112-122.

[5]徐晉,綦振法.供應(yīng)商信用等級分析及評價模型[J].山西財經(jīng)大學(xué)學(xué)報,2003,25(4):71-74.

[6]Razmi J, Rafiei H, Hashemi M. Designing a decision support system to evaluate and select suppliers using fuzzy analytic network process[J]. Computers & Industrial Engineering, 2009, 57(4): 1282-1290.

[7]Rebentrost P, Mohseni M, Lloyd S. Quantum support vector machine for big data classification[J]. Physical review letters, 2014, 113(13): 130503.

[8]Taormina R, Chau K W, Sethi R. Artificial neural network simulation of hourly groundwater levels in a coastal aquifer system of the Venice lagoon[J]. Engineering Applications of Artificial Intelligence, 2012, 25(8): 1670-1676.

[9]Harris T. Credit scoring using the clustered support vector machine[J]. Expert Systems with Applications, 2015, 42(2): 741-750.

[10]Wang G, Ma J. A hybrid ensemble approach for enterprise credit risk assessment based on Support Vector Machine[J]. Expert Systems with Applications, 2012, 39(5): 5325-5331.

[11]Chen C C, Li S T. Credit rating with a monotonicity-constrained support vector machine model[J]. Expert Systems with Applications, 2014, 41(16): 7235-7247.

[12]Kim K, Ahn H. A corporate credit rating model using multi-class support vector machines with an ordinal pairwise partitioning approach[J]. Computers & Operations Research, 2012, 39(8): 1800-1811.

[13]Chou J S, Cheng M Y, Wu Y W, et al. Optimizing parameters of support vector machine using fast messy genetic algorithm for dispute classification[J]. Expert Systems with Applications, 2014, 41(8): 3955-3964.

[14]Benbouzid D, Busa-Fekete R, Casagrande N, et al. MultiBoost: a multi-purpose boosting package[J]. The Journal of Machine Learning Research, 2012, 13(1): 549-553.

[15]Elomaa T. In defense of C4. 5: Notes on learning one-level decision trees[J]. ML-94, 2014, 254: 62.

[16]Zhang Y, Wang S, Wu L. Spam detection via feature selection and decision tree[J]. Advanced Science Letters, 2012, 5(2): 726-730.

[17]Yadav S K, Bharadwaj B, Pal S. Mining Education data to predict student's retention: a comparative study[J]. arXiv preprint arXiv:1203.2987, 2012.

[18]Venkatesan P, Yamuna N R. Treatment Response Classification in Randomized Clinical Trials: A Decision Tree Approach[J]. Indian Journal of Science and Technology, 2013, 6(1): 3912-3917.

[19]Patidar P, Dangra J, Rawar M K. Decision Tree C4. 5 algorithm and its enhanced approach for Educational Data Mining[J]. 2015.

[20]Webb G I, Zheng Z. Multistrategy ensemble learning: Reducing error by combining ensemble learning techniques[J]. Knowledge and Data Engineering, IEEE Transactions on, 2004, 16(8): 980-991.

[21]Luo S T, Cheng B W. Diagnosing breast masses in digital mammography using feature selection and ensemble methods[J]. Journal of medical systems, 2012, 36(2): 569-577.

[22]Kotti M, Benetos E, Kotropoulos C, et al. A neural network approach to audio-assisted movie dialogue detection[J]. Neurocomputing, 2007, 71(1): 157-166.

[23]Maalej A, Amor B B, Daoudi M, et al. Shape analysis of local facial patches for 3D facial expression recognition[J]. Pattern Recognition, 2011, 44(8): 1581-1589.

[24]Johannes. Logistic Model Trees[J]. Machine Learning,2005, 59(3), 161-205.

[25]Birant D. Comparison of decision tree algorithms for predicting potential air pollutant emissions with data mining models[J]. Journal of Environmental Informatics, 2011, 17(1): 46-53.

[26]Gupta S, Kumar D, Sharma A. Performance analysis of various data mining classification techniques on healthcare data[J]. International Journal of Computer Science & Information Technology (IJCSIT), 2011, 3(4).

[27]Powers D M. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. 2011.

[28]Huang J, Ling C X. Using AUC and accuracy in evaluating learning algorithms[J]. Knowledge and Data Engineering, IEEE Transactions on, 2005, 17(3): 299-310.

[29]Chen J, Tang Y Y, Fang B, et al. In silico prediction of toxic action mechanisms of phenols for imbalanced data with Random Forest learner[J]. Journal of Molecular Graphics and Modelling, 2012, 35: 21-27.

[30]Nakayama M, Hayashi Y. Prediction of recall accuracy in contextual understanding tasks using features of oculo-motors[J]. Universal access in the information society, 2014, 13(2): 175-190.

[31]Lei J, Yang P, Zhang L, et al. Diagnostic accuracy of digital breast tomosynthesis versus digital mammography for benign and malignant lesions in breasts: a meta-analysis[J]. European radiology, 2014, 24(3): 595-602.

[32]Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters,2006,27(3): 861-874.

扎鲁特旗| 炎陵县| 金塔县| 朝阳县| 察隅县| 余干县| 洪洞县| 罗甸县| 南和县| 阳东县| 成都市| 东丽区| 望江县| 柘城县| 贺州市| 汉中市| 沙雅县| 阜新| 古交市| 绥中县| 和顺县| 太谷县| 蒙山县| 德保县| 汨罗市| 安阳市| 德兴市| 稷山县| 都江堰市| 嘉鱼县| 绥芬河市| 高雄市| 电白县| 乌拉特中旗| 徐水县| 新泰市| 尼玛县| 开原市| 大冶市| 若尔盖县| 都匀市|