国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用集成剪枝和多目標(biāo)優(yōu)化算法的隨機(jī)森林可解釋增強(qiáng)模型

2024-10-14 00:00:00李揚(yáng)廖夢(mèng)潔張健
計(jì)算機(jī)應(yīng)用研究 2024年10期

摘 要:隨機(jī)森林模型是廣泛應(yīng)用于各個(gè)領(lǐng)域的經(jīng)典黑盒模型,而黑盒模型的結(jié)構(gòu)特征導(dǎo)致模型可解釋性弱,需要借助可解釋技術(shù)優(yōu)化隨機(jī)森林的可解釋性,從而促進(jìn)其在可靠性要求較高場(chǎng)景的應(yīng)用與發(fā)展。研究構(gòu)建了基于集成剪枝和多目標(biāo)優(yōu)化算法的規(guī)則提取模型,集成剪枝在解決樹模型規(guī)則提取易陷入局部最優(yōu)的問題上具有代表性,多目標(biāo)優(yōu)化在解決規(guī)則準(zhǔn)確性和可解釋性的平衡問題上有多個(gè)領(lǐng)域的應(yīng)用。模型驗(yàn)證結(jié)果表明,所構(gòu)建模型能夠在不降低準(zhǔn)確性的前提下優(yōu)化模型的可解釋性。本研究首次將集成剪枝技術(shù)與多目標(biāo)優(yōu)化算法相融合,增強(qiáng)了隨機(jī)森林的可解釋性,有助于推動(dòng)該模型在可解釋性要求較高領(lǐng)域的決策應(yīng)用。

關(guān)鍵詞:隨機(jī)森林;可解釋增強(qiáng);集成剪枝;規(guī)則提??;多目標(biāo)優(yōu)化算法

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)10-010-2947-08

doi:10.19734/j.issn.1001-3695.2024.02.0047

Interpretability enhancement model of random forest using ensemble pruning and multi-objective evolutionary algorithm

Li Yang1, Liao Mengjie1, 2, Zhang Jian1, 2

(1.School of Economics & Management, Beijing Information S&T University, Beijing 100192, China; 2.Beijing Key Laboratory of Big Data Decision-making for Green Development, Beijing 100192, China)

Abstract:Random forest is a classic black-box model that is widely used in various fields. The structural characteristics of black-box models lead to weak model interpretability, which can be optimized with the help of interpretable techniques to promote the application and development of random forest in scenarios with high reliability requirements. This paper constructed a rule extraction model based on ensemble pruning and multi-objective evolutionary algorithm. Ensemble pruning is an effective method for solving the problem of extracting rules from tree models that tend to fall into local optima, and multi-objective evolutionary has several applications in balancing rule accuracy and interpretability. This paper found that it improved interpreta-bility without sacrificing accuracy. This study integrated ensemble pruning technique with a multi-objective evolutionary algorithm, which enhances the interpretability of random forests and helps promote the decision-making application of this model in areas with high interpretability requirements.

Key words:random forest; interpretability enhancement; ensemble pruning; rule extraction; multi-objective evolutionary algorithm

0 引言

人工智能是引領(lǐng)新時(shí)代產(chǎn)業(yè)革命和科技進(jìn)步的重要驅(qū)動(dòng)力,對(duì)人工智能可解釋性的要求同樣備受關(guān)注。2021年9月25日,我國(guó)國(guó)家新一代人工智能治理專業(yè)委員會(huì)發(fā)布的《新一代人工智能倫理規(guī)范》第12條規(guī)定,要在算法設(shè)計(jì)、實(shí)現(xiàn)、應(yīng)用等環(huán)節(jié),提升透明性、可解釋性、可理解性;歐盟的《通用數(shù)據(jù)保護(hù)條例》(GDPR)提出了“解釋權(quán)”的概念,即由算法作出的決定對(duì)用戶產(chǎn)生影響,那么用戶有權(quán)知曉這些決定的具體解釋[1,2]。在管理決策領(lǐng)域,機(jī)器學(xué)習(xí)模型以其面向復(fù)雜場(chǎng)景的高精確度等優(yōu)勢(shì)廣泛應(yīng)用,但針對(duì)某些對(duì)模型存在透明度要求的行業(yè),其黑盒模型結(jié)構(gòu)特征制約了其發(fā)展,如醫(yī)療診斷、信用貸款風(fēng)險(xiǎn)評(píng)估、推薦系統(tǒng)等領(lǐng)域。而準(zhǔn)確性與可解釋性這兩個(gè)特點(diǎn)往往難以在同一模型當(dāng)中同時(shí)被滿足,因此,如何提升準(zhǔn)確性較高的黑盒模型的可解釋性成為了近年來(lái)的研究熱點(diǎn)[3]。而在管理決策領(lǐng)域,如何在不降低模型準(zhǔn)確性的同時(shí)提升其可解釋性,可以大大提升模型的可信度,對(duì)管理決策領(lǐng)域具有極為重要的現(xiàn)實(shí)意義。

可解釋技術(shù)(explainable artificial intelligence, XAI)為機(jī)器學(xué)習(xí)模型的可解釋性優(yōu)化提供了可行方案,可為決策者提供文本化或可視化的解釋模型[4]。其中有兩種典型技術(shù)路線,其一為全局可解釋,即從黑盒模型中訓(xùn)練一個(gè)結(jié)構(gòu)透明的模型并對(duì)源模型進(jìn)行替代;其二為局部可解釋,旨在為個(gè)例預(yù)測(cè)結(jié)果提供解釋,并分析關(guān)鍵因素對(duì)模型結(jié)果的影響,代表方法為SHAP、LIME[5,6]。其中,隨機(jī)森林集成多棵決策樹是對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種集成學(xué)習(xí)方法,在風(fēng)險(xiǎn)評(píng)價(jià)領(lǐng)域效果良好且具有較強(qiáng)的魯棒性,特別是針對(duì)小規(guī)模結(jié)構(gòu)化數(shù)據(jù)的評(píng)價(jià)問題表現(xiàn)出優(yōu)于深度學(xué)習(xí)的性能[7]。而由于隨機(jī)森林生成了大量的基決策樹,且基決策樹的推理邏輯不統(tǒng)一導(dǎo)致其獨(dú)立的基決策樹不具備解釋價(jià)值,所以隨機(jī)森林仍然被認(rèn)為是一種不具備良好解釋性的黑盒模型,限制了其面向可解釋性要求高場(chǎng)景的應(yīng)用范圍[8]。

近年來(lái),有學(xué)者從不同角度對(duì)隨機(jī)森林模型的可解釋優(yōu)化進(jìn)行研究。一類是使用構(gòu)建單一決策樹的方法將隨機(jī)森林轉(zhuǎn)變?yōu)榭山忉屇P停⒈3至嗽P偷臏?zhǔn)確性。文獻(xiàn)[9]先提供了構(gòu)建基于森林的樹(forest-based tree,F(xiàn)BT)的方法,通過(guò)對(duì)模型的修剪和規(guī)則的合取操作,將源模型轉(zhuǎn)換為一棵決策樹。該方法在保持樹模型性能的基礎(chǔ)上為決策者解釋了模型預(yù)測(cè)的過(guò)程。FBT方法忽略了每條規(guī)則的可解釋性,為決策者的理解增加難度[10]。另一類是直接從集成樹中提取規(guī)則。這類方法將樹模型轉(zhuǎn)換為大量的規(guī)則集,再使用貪婪或啟發(fā)式算法從中尋找具有價(jià)值的規(guī)則子集。如Boruah等人[11]通過(guò)減少?zèng)Q策樹提取的規(guī)則數(shù)量來(lái)提高決策支持系統(tǒng)的可理解性。該方法能夠提取出最直接的規(guī)則供決策者理解模型,而挑戰(zhàn)在于從龐大的解空間中找到性能最優(yōu)的規(guī)則子集,避免搜尋算法陷入局部最優(yōu)。

綜上所述,將隨機(jī)森林轉(zhuǎn)換為規(guī)則集是隨機(jī)森林可解釋性增強(qiáng)的重要路徑之一,而實(shí)現(xiàn)該轉(zhuǎn)換主要面臨兩大問題:一是提取規(guī)則因數(shù)量過(guò)大而容易陷入局部最優(yōu),二是提取規(guī)則在準(zhǔn)確性和可解釋性上難以兼得。集成剪枝是解決輸出容易陷入局部最優(yōu)問題最具代表性的方法,其優(yōu)勢(shì)在于在保證隨機(jī)森林性能不變或提升的基礎(chǔ)上減小集成樹的規(guī)模;而多目標(biāo)優(yōu)化對(duì)于提取規(guī)則的準(zhǔn)確性和可解釋性上的平衡問題在信用風(fēng)險(xiǎn)評(píng)估、醫(yī)學(xué)檢測(cè)等多個(gè)領(lǐng)域效果顯著。因此,為更好地解決規(guī)則模型存在的問題,本研究將集成剪枝與多目標(biāo)優(yōu)化算法的優(yōu)勢(shì)相結(jié)合,利用集成剪枝減少隨機(jī)森林中基樹的數(shù)量,在提升隨機(jī)森林模型性能的同時(shí)通過(guò)減小初始規(guī)則數(shù)量的方式提升模型搜索最優(yōu)解的能力,再使用多目標(biāo)優(yōu)化算法得到準(zhǔn)確性和可解釋性均衡的優(yōu)化規(guī)則集,最終實(shí)現(xiàn)隨機(jī)森林的可解釋性增強(qiáng)。

基于此,本研究建立基于剪枝隨機(jī)森林的規(guī)則提取模型(pruned random forest-based rule extraction,PRFRE),提高提取優(yōu)化規(guī)則集的穩(wěn)定性,提供準(zhǔn)確性和可解釋性均優(yōu)的決策規(guī)則集。該模型首先修剪訓(xùn)練好的隨機(jī)森林模型,減少模型中決策樹的數(shù)量,簡(jiǎn)化隨機(jī)森林的復(fù)雜性。在集成剪枝方法的選擇上,本研究列舉各類分類器技術(shù),并不影響后續(xù)規(guī)則的性能。隨后,構(gòu)建規(guī)則的準(zhǔn)確性和可解釋性指標(biāo),進(jìn)行基于單個(gè)指標(biāo)的候選規(guī)則集選擇,進(jìn)一步減少規(guī)則數(shù)量。最后,使用基于多目標(biāo)優(yōu)化算法(multi-objective evolutionary algorithm,MOEA),以規(guī)則的準(zhǔn)確性和規(guī)則的可解釋性為兩個(gè)優(yōu)化目標(biāo)對(duì)候選規(guī)則集進(jìn)行多輪迭代優(yōu)化,最終得到優(yōu)化規(guī)則集。本文首次將集成剪枝與多目標(biāo)優(yōu)化算法相融合,實(shí)現(xiàn)模型可解釋性增強(qiáng),且優(yōu)化規(guī)則集可供決策者對(duì)原模型進(jìn)行理解,或直接代替原模型進(jìn)行智能決策。

1 相關(guān)研究綜述

1.1 機(jī)器學(xué)習(xí)的可解釋性研究

由于機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能與可解釋性的互斥關(guān)系,機(jī)器學(xué)習(xí)模型的可解釋性研究應(yīng)運(yùn)而生。可解釋性通常與可理解性同時(shí)出現(xiàn),兩個(gè)用語(yǔ)的含義并不完全一致,區(qū)別在于可理解性在于原模型可直接為人類所理解,而可解釋性是指構(gòu)造新的透明模型作為人類與復(fù)雜機(jī)器學(xué)習(xí)模型的橋梁供人類理解[12]。文獻(xiàn)[3]綜合不同研究對(duì)可解釋性的描述,將對(duì)機(jī)器學(xué)習(xí)模型的可解釋性定義為使用清晰、簡(jiǎn)單的方式對(duì)不同背景的用戶進(jìn)行模型進(jìn)行智能決策解釋的方法。研究機(jī)器學(xué)習(xí)模型可解釋性的意義不僅是為了幫助人類相信和理解復(fù)雜黑盒模型的決策機(jī)制,也是解決機(jī)器學(xué)習(xí)模型運(yùn)用于各領(lǐng)域存在倫理問題的必然要求。目前許多機(jī)器學(xué)習(xí)模型會(huì)受到隱蔽的攻擊,存在對(duì)不具有代表性群體的偏見和隱私泄露的情況,導(dǎo)致用戶對(duì)所有機(jī)器學(xué)習(xí)模型可信度的降低[13]。

學(xué)界提出了不同的技術(shù)來(lái)應(yīng)對(duì)提高機(jī)器學(xué)習(xí)模型可解釋性的挑戰(zhàn)。這些技術(shù)可以分為局部可解釋技術(shù)和全局可解釋技術(shù)。前一種技術(shù)旨在為個(gè)體預(yù)測(cè)提供易于理解的解釋,而不必將模型機(jī)制解釋為一個(gè)整體。經(jīng)典的局部可解釋技術(shù)是 LIME 和 SHAP,是以樣本個(gè)體為研究對(duì)象預(yù)測(cè)學(xué)習(xí)可解釋的局部模型。目前,如文獻(xiàn)[14,15]所述,SHAP已應(yīng)用于醫(yī)療診斷、信用貸款、情報(bào)挖掘等多個(gè)學(xué)科的可解釋性研究中。全局可解釋性是通過(guò)從給定的不透明模型生成可解釋模型來(lái)實(shí)現(xiàn)的。在全局可解釋性研究中,決策樹、決策規(guī)則、最近鄰模型和線性模型常被用作可解釋模型的基礎(chǔ)[5]。隨機(jī)森林模型的可解釋性屬于全局可解釋性研究,即通過(guò)對(duì)隨機(jī)森林模型的處理形成新的透明模型來(lái)獲得可解釋性,具體介紹將在下一節(jié)展示。

1.2 隨機(jī)森林的可解釋性研究

近些年對(duì)于隨機(jī)森林的可解釋性研究,除通用的局部解釋和可視化方法以外,主要分為集成剪枝和規(guī)則提取兩種方法[8]。集成剪枝是指將隨機(jī)森林模型的基決策樹數(shù)量進(jìn)行縮減以獲取優(yōu)秀的最小森林的方法。剪枝的目的在于在保持或提高原有隨機(jī)森林模型精度的基礎(chǔ)上,減小模型復(fù)雜度的同時(shí)帶來(lái)存儲(chǔ)空間和分類時(shí)間上的節(jié)省。此方法的前提是文獻(xiàn)[16]發(fā)現(xiàn)集成樹模型生成了大量的決策樹,其中有許多樹僅存在幾個(gè)節(jié)點(diǎn)的不同,且空間劃分的方式高度相似。該研究結(jié)果為隨機(jī)森林剪枝方法提供了理論依據(jù)。目前已經(jīng)提出的有效剪枝技術(shù),主要分為基于優(yōu)化的搜索、貪婪搜索、基于聚類的搜索和基于排序的搜索[17]。以上基于搜索的剪枝方法需要定義指標(biāo)用于該指標(biāo)的最大化或最小化子集。Mohammed等人[18]的研究提出了各類度量方式來(lái)排列隨機(jī)集成剪枝器并證明了指標(biāo)的穩(wěn)定性和可靠性。然而,由于集成剪枝并沒有對(duì)基決策樹的內(nèi)部結(jié)構(gòu)進(jìn)行加工,該方法更多被用于黑盒模型向透明模型轉(zhuǎn)換的過(guò)渡步驟[7]。

基于規(guī)則提取的隨機(jī)森林可解釋性研究旨在通過(guò)提取從決策樹根節(jié)點(diǎn)到葉節(jié)點(diǎn)的決策路徑,生成規(guī)則集來(lái)提供模型全局解釋能力。但由于原模型提取的規(guī)則數(shù)量眾多且性能參差不齊,所以需要對(duì)規(guī)則進(jìn)行額外的篩選操作。Mashayekhi等人[19]提出了一種RF+HC的規(guī)則提取方法,該方法從隨機(jī)森林中用爬坡法尋找規(guī)則集,從而減少規(guī)則的數(shù)量并提高可理解性,該方法在UCI乳腺癌數(shù)據(jù)集上進(jìn)行了評(píng)估。文獻(xiàn)[20]為探究杰出學(xué)者對(duì)知識(shí)創(chuàng)新績(jī)效的影響,構(gòu)建三類學(xué)者群組并使用CART算法進(jìn)行規(guī)則提取,發(fā)現(xiàn)潛在的決策規(guī)則。Wang等人[21]提出了一種基于堆積的前列腺癌診斷的可解釋的選擇性集合學(xué)習(xí)方法,并從樹狀集合中挖掘了診斷規(guī)則,同時(shí)考慮了準(zhǔn)確性和可解釋性,然而該文并沒有對(duì)挖掘的規(guī)則進(jìn)行優(yōu)化。學(xué)者們通過(guò)教學(xué)法、啟發(fā)式算法等多種思路在保證規(guī)則集相對(duì)于復(fù)雜模型保真度的同時(shí)也提高了可解釋性,但由于初始規(guī)則數(shù)量太多,搜索優(yōu)化規(guī)則集的結(jié)果存在不穩(wěn)定的情況。

綜上所述,規(guī)則提取方法在隨機(jī)森林的可解釋性研究中已取得一些進(jìn)展,但從初始規(guī)則集到優(yōu)化規(guī)則集的搜索方法仍有進(jìn)一步優(yōu)化空間?;诖耍狙芯繉⒓杉糁Ψ椒ㄈ谌胍?guī)則提取中,構(gòu)建基于剪枝隨機(jī)森林的規(guī)則提取模型,減小初始規(guī)則集的規(guī)模,提升輸出規(guī)則集的準(zhǔn)確性和可解釋性。

2 模型構(gòu)建方法

本章圍繞具備黑盒模型的全局可解釋性轉(zhuǎn)換,構(gòu)建了PRFRE模型,用于解釋隨機(jī)森林模型進(jìn)行預(yù)測(cè)的邏輯。該模型包含兩個(gè)階段,第一階段是隨機(jī)森林剪枝,第二階段是基于多目標(biāo)優(yōu)化的規(guī)則提取。PRFRE模型的算法流程如算法1所示。該模型主要包含兩個(gè)部分,首先是隨機(jī)森林剪枝,以及基于多目標(biāo)優(yōu)化的規(guī)則提取。圖1為本研究方法的整體流程,該圖清晰地顯示了PRFRE模型從輸入到輸出的流程,經(jīng)過(guò)預(yù)處理的數(shù)據(jù)輸入至隨機(jī)森林中進(jìn)行訓(xùn)練。首先進(jìn)行隨機(jī)森林剪枝,對(duì)剪枝后的隨機(jī)森林進(jìn)行基于多目標(biāo)優(yōu)化算法的規(guī)則提取,包括基于單指標(biāo)的規(guī)則篩選流程,最終得到優(yōu)化規(guī)則集。在接下來(lái)的內(nèi)容中,將對(duì)模型中的各個(gè)細(xì)節(jié)作詳細(xì)介紹。

算法1 基于剪枝隨機(jī)森林的規(guī)則提取(PRFRE)模型

輸入:訓(xùn)練數(shù)據(jù)D,剪枝技術(shù)F,設(shè)置相關(guān)參數(shù),即單棵決策樹的最大深度、樹的個(gè)數(shù)、初始種群的個(gè)數(shù)、初始激活元素個(gè)數(shù)、交叉概率、變異概率、進(jìn)化次數(shù)。

輸出:優(yōu)化規(guī)則集Rule_opt。

1 使用訓(xùn)練數(shù)據(jù)D訓(xùn)練隨機(jī)森林 Tree_rf

2 Tree_prf ← prune(F, Tree_rf) //對(duì)隨機(jī)森林進(jìn)行剪枝

3 Rule_inital ← Tree_prf//從剪枝隨機(jī)森林中抽取規(guī)則

4 Rule_cand ← //創(chuàng)建候選規(guī)則集

5 for each rule in Rule_inital do

6 Rule_aim ← rule pre selection(Rule_inital, D) /*選取候選規(guī)則集*/

7 Rule_cand ← Rule_cand ∪ Rule_aim

8 end for

9 Rule_opt ← MOEA-based rule selection(Rule_cand, D) /*基于多目標(biāo)優(yōu)化的規(guī)則提取*/

2.1 隨機(jī)森林剪枝

隨機(jī)森林模型在訓(xùn)練中生成了大量的基決策樹,這些決策樹相互獨(dú)立且性能參差不齊,一些性能較差的基決策樹會(huì)影響對(duì)隨機(jī)森林模型的解釋。隨機(jī)森林模型剪枝是通過(guò)提取部分模型中的基決策樹,達(dá)到保持或提高集成樹模型性能的同時(shí)減少模型復(fù)雜度的效果,提高下一步規(guī)則挖掘結(jié)果的表現(xiàn)?;谪澙匪惴ǖ男藜舴椒ê突谂判虻男藜舴椒ㄊ悄壳肮J(rèn)的探尋最優(yōu)修剪效果的便捷方法[18]。首先是使用貪婪算法進(jìn)行修剪,即指定性能指標(biāo)(如AUC、ROC),以迭代形式將基決策樹置于初始為空集的優(yōu)化集合中,直至沒有基決策樹可提高優(yōu)化集合的性能,最終得到的優(yōu)化集合視為修剪后的輸出。此類方法相較于其他方法擁有較少的超參數(shù)配置和較好的修剪效果,但容易出現(xiàn)局部最優(yōu)?;谂判虻男藜舴椒ㄊ窍葘⒒鶝Q策樹按照某種規(guī)律進(jìn)行排序,再根據(jù)排序結(jié)果進(jìn)行啟發(fā)式修剪?;谂判虻男藜舯蛔C實(shí)具有效能和靈活性兩個(gè)優(yōu)勢(shì),即得到的子集最接近最優(yōu)解,并且可以輕松調(diào)整排序策略來(lái)適應(yīng)存儲(chǔ)和計(jì)算上的限制[22~24]。本研究選取四種不同的修剪方法并設(shè)計(jì)實(shí)驗(yàn)評(píng)估性能,分別為DISC、MRMR、MDEP和AUC-貪婪方法。下面將對(duì)這些方法作詳細(xì)介紹。

2.1.1 判別分類器剪枝

判別分類器剪枝(discriminant classifiers pruning, DISC)由Cao等人[22]于2018年提出。該方法提出兩個(gè)假設(shè)來(lái)優(yōu)化當(dāng)前的基分類器Su-1:

假設(shè)1 對(duì)于被Su-1正確分類的樣本,一個(gè)好的候選分類器應(yīng)該對(duì)盡可能多的這樣的樣本作出同樣的決定。

假設(shè)2 對(duì)于被Su-1錯(cuò)誤分類的樣本,一個(gè)好的候選分類器應(yīng)該盡可能多地正確分類這些樣本。

第一個(gè)假設(shè)將候選分類器與合成集成聯(lián)系起來(lái),而第二個(gè)假設(shè)表示候選分類器如何與目標(biāo)相關(guān)。該方法集中于尋找最具判別性的分類器,該分類器相對(duì)于Su-1和Y。樣本被分為兩部分,{mis}表示Su-1錯(cuò)誤分類的樣本集合,{cor}表示Su-1正確分類的樣本集合,合并后的分類器選擇公式如下:

su=argmaxk[I(ψmisk;Ymis)+1u-1∑ψi∈Sn-1I(ψcork;ψcori)](1)

其中:k∈Lu-1且Su=Su-1∪{Su}。第一項(xiàng)I(ψmisk;Ymis)是ψk根據(jù)Su-1的錯(cuò)誤標(biāo)記樣本從真標(biāo)簽Y獲得的互信息;第二項(xiàng)1u-1∑ψi∈Sn-1I(ψcork;ψcori)是ψk從Su-1的所有成員獲得的與正確分類樣本相關(guān)的平均互信息。

2.1.2 最大相關(guān)性和最小冗余度剪枝

最大相關(guān)性和最小冗余剪枝(maximum relevance & minimum redundancy pruning, MRMR)同樣由Cao等人[22]于2018年提出。該算法的思路起源于用于減少特征選擇問題中冗余的流行算法mRMR。該剪枝方法涉及兩種關(guān)系:一種是候選類和組件類之間的關(guān)系,另一個(gè)是候選類和目標(biāo)類之間的關(guān)系。候選類別表示要包括的第k個(gè)分類器的類別標(biāo)簽輸出,而組件類別表示復(fù)合集成的類別標(biāo)簽輸出。在剪枝集Dpr上估計(jì)得到的具有最高精準(zhǔn)度的分類器被存儲(chǔ)在S1中,作為待擴(kuò)展的初始子集。下一個(gè)待識(shí)別的第k個(gè)分類器Su會(huì)根據(jù)以下公式選擇:

su=argmaxk[I(ψk;Y)-1u-1∑ψi∈Su-1I(ψk;ψi)](2)

其中:k∈Lu-1且Su=Su-1∪{Su};I(m,n)是變量m和n的互信息;Y是目標(biāo)類。被選擇的分類器是與目標(biāo)類I(ψk;Y)具有最大相關(guān)性的分類器,同時(shí)具有最小冗余度的Su-1,1u-1∑ψi∈Su-1I(ψk;ψi)。

2.1.3 邊緣與多樣性剪枝

基于邊緣和多樣性的集成修剪(margin and diversity based ensemble pruning, MDEP)由Guo等人[24]于2018年提出。該方法考慮了兩個(gè)方面來(lái)更好地對(duì)分類器集進(jìn)行重新排序:a)關(guān)注絕對(duì)邊緣較小的示例;b)關(guān)注對(duì)集成具有較大多樣性貢獻(xiàn)的分類器。MDEP對(duì)分類器進(jìn)行排序的公式如下:

MDEP(ψk)=∑i[αfm(xi)+(1-α)fd(ψk,xi)]

i|ψk(xi)=yi(3)

其中:α∈[0,1]表示樣本的邊緣和集合多樣性之間的重要性平衡; fm(xi)和fd(ψk,xi)分別是xi的差額和ψk對(duì)xi多樣性貢獻(xiàn)的對(duì)數(shù)函數(shù),具體公式如下:

fm(xi)=logv(i)yi-v(i)iM(4)

fd(ψk,xi)=logv(1)yiM(5)

其中:yi是從xi中獲得最多票數(shù)的類別,且yi≠yi。MDEP的局限性是依賴于α的預(yù)定義值,該值控制著在關(guān)注正確預(yù)測(cè)硬樣本的分類器和關(guān)注增加集成多樣性的分類器之間的權(quán)衡。

2.1.4 AUC-貪婪剪枝

AUC貪婪方法添加提高AUC的基分類器,直到?jīng)]有任何改進(jìn)為止[9]。它遵循前向選擇過(guò)程,從空的優(yōu)化剪枝集合開始,迭代插入最大化 AUC 的決策樹。

2.2 基于多目標(biāo)優(yōu)化的規(guī)則提取

經(jīng)過(guò)隨機(jī)森林修剪,剩余規(guī)則數(shù)量仍相對(duì)龐大,如需進(jìn)一步提升模型可解釋性,需要考慮通過(guò)進(jìn)一步縮減規(guī)則集的規(guī)模。由于模型的準(zhǔn)確性和可解釋性相互制約,本研究使用多目標(biāo)優(yōu)化方法確立多個(gè)優(yōu)化目標(biāo)來(lái)搜索精確性和可解釋性相平衡的規(guī)則集。在多目標(biāo)優(yōu)化中,NSGA-Ⅱ已經(jīng)是公認(rèn)具有優(yōu)異表現(xiàn)的算法,可用于在Patero前沿上尋找精確性和可解釋性表現(xiàn)均優(yōu)的優(yōu)化規(guī)則集[25]。由于傳統(tǒng)的NSGA-Ⅱ算法較難在規(guī)模較大的解空間尋找最優(yōu)解,本研究借鑒文獻(xiàn)[10]在2021年的研究對(duì)NSGA-Ⅱ進(jìn)行改進(jìn),即基于單個(gè)指標(biāo)形成一個(gè)候選規(guī)則集,并在候選規(guī)則集的基礎(chǔ)上進(jìn)行染色體生成,最終得到Patero前沿上的優(yōu)化規(guī)則集。具體方法如下:

2.2.1 規(guī)則的染色體表達(dá)

本研究將染色體以二進(jìn)制變量編碼形式來(lái)代表規(guī)則集和規(guī)則子集。在染色體的二進(jìn)制表達(dá)形式中,每個(gè)元素都為二進(jìn)制變量,當(dāng)元素為1時(shí),代表該染色體對(duì)應(yīng)的知識(shí)中已被篩選模型選中;當(dāng)元素為0時(shí),代表該染色體對(duì)應(yīng)的規(guī)則中未被篩選模型選中。

2.2.2 優(yōu)化目標(biāo)選擇

根據(jù)以往研究,規(guī)則集的性能可從準(zhǔn)確性和可解釋性兩個(gè)方向進(jìn)行評(píng)估[10]。準(zhǔn)確性代表規(guī)則集在預(yù)測(cè)時(shí)的準(zhǔn)確程度,建立準(zhǔn)確性優(yōu)化目標(biāo)QIDE的表達(dá)公式如下:

Identification(QIDE)=1-AUCsub(6)

其中:AUCsub表示該染色體對(duì)應(yīng)的規(guī)則子集的預(yù)測(cè)性能,AUCsub計(jì)算為受試者工作特征 (ROC) 曲線下的面積。

可解釋性表示為專家在認(rèn)識(shí)規(guī)則和理解規(guī)則上涉及到的指標(biāo)。規(guī)則集的可解釋性表現(xiàn)越強(qiáng),專家就更容易對(duì)知識(shí)的判別結(jié)果產(chǎn)生信任,從而實(shí)現(xiàn)機(jī)器學(xué)習(xí)有機(jī)融入決策過(guò)程。建立可解釋性優(yōu)化目標(biāo)的表達(dá)公式如下:

Interpreability(QINT)=Num_feaoptNum_feacand×Num_ruleoptNum_rulecand(7)

其中:Num_feaopt和Num_feacand分別表示優(yōu)化規(guī)則集中Ruleopt和候選規(guī)則集Rulecand中每條規(guī)則涉及到的平均特征數(shù);Num_ruleopt和Num_rulecand分別是優(yōu)化規(guī)則集和候選規(guī)則集Rulecand中的規(guī)則數(shù)量;Num_feaoptNum_feacand表示從特征數(shù)角度對(duì)優(yōu)化規(guī)則子集的評(píng)估;Num_ruleoptNum_rulecand表示從規(guī)則數(shù)量角度評(píng)估優(yōu)化規(guī)則子集。

2.2.3 基于單個(gè)指標(biāo)的候選規(guī)則提取

由于初始的規(guī)則集數(shù)量龐大,很難直接提取出具備較高價(jià)值的規(guī)則集,所以需進(jìn)行一次初步提取過(guò)程,得出候選規(guī)則集再進(jìn)行下一步提取。本研究根據(jù)三個(gè)指標(biāo)進(jìn)行三次從高到低的排序,每次排序會(huì)對(duì)排名前φ的知識(shí)進(jìn)行標(biāo)記,其中φ為0到1之間的常數(shù),代表進(jìn)行標(biāo)記的比例。三次標(biāo)記完成后,只有一個(gè)標(biāo)記和沒有標(biāo)記的知識(shí)會(huì)被去除,兩個(gè)及以上標(biāo)記的規(guī)則保留作為候選規(guī)則集。

2.2.4 初始種群選擇

初始種群的選擇會(huì)影響最終優(yōu)化迭代帕累托最優(yōu)解的速率和效果。NSGA-Ⅱ選取初代種群的方法是隨機(jī)選擇,本研究在此基礎(chǔ)上基于預(yù)篩選的結(jié)果進(jìn)行有指向性的隨機(jī)選擇。根據(jù)上一步,候選知識(shí)集將包含兩次標(biāo)記、三次標(biāo)記兩類。標(biāo)記的次數(shù)越多,代表知識(shí)表現(xiàn)更全面,包含價(jià)值更高。因此,可對(duì)標(biāo)記次數(shù)多的知識(shí)作優(yōu)先選擇,直至形成一條完整的染色體。若初始種群包含N條染色體,則完全隨機(jī)生成N/2條染色體,另外的染色體將基于不同類別進(jìn)行有偏好的隨機(jī)選擇。

2.2.5 規(guī)則集優(yōu)化過(guò)程

本研究在候選規(guī)則集提取和初始種群選擇的基礎(chǔ)上進(jìn)行規(guī)則子集的多次迭代。使用的NSGA-Ⅱ算法是經(jīng)典的多目標(biāo)優(yōu)化算法,通過(guò)模仿生物的進(jìn)化過(guò)程來(lái)實(shí)現(xiàn)染色體表現(xiàn)的進(jìn)化,目前被廣泛應(yīng)用于多類優(yōu)化問題。該算法通過(guò)非支配解排序、擁擠度計(jì)算和多次迭代進(jìn)化得到帕累托最優(yōu)解,并使用交叉、變異和精英選拔在每次進(jìn)化中尋求更優(yōu)秀的子代。

3 模型對(duì)比實(shí)驗(yàn)

信用貸款是一種根據(jù)借款人信譽(yù)發(fā)放的貸款,不需要借款方提供實(shí)質(zhì)性或第三方擔(dān)保。信用貸款的風(fēng)險(xiǎn)在于低門檻的設(shè)置增加借款方的違約行為風(fēng)險(xiǎn),使得貸款銀行蒙受巨大損失[26]。建立有效的信用貸款風(fēng)險(xiǎn)評(píng)估模型可以輔助決策者作出正確判斷,進(jìn)而降低違約行為對(duì)正常信用貸款的影響。信用貸款風(fēng)險(xiǎn)評(píng)估以二分類問題為主,傳統(tǒng)的統(tǒng)計(jì)計(jì)量方法已不能滿足貸款銀行對(duì)高精確率的要求,而復(fù)雜的黑盒模型因缺乏可解釋性而無(wú)法受到?jīng)Q策者的信任[27]。因此,在信用貸款風(fēng)險(xiǎn)評(píng)估領(lǐng)域推廣基于機(jī)器學(xué)習(xí)的透明模型是關(guān)鍵研究方向。為驗(yàn)證本研究中PRFRE模型在解釋隨機(jī)森林的有效性,本研究選取金融領(lǐng)域信用欺詐風(fēng)險(xiǎn)場(chǎng)景作為實(shí)證研究的場(chǎng)景,選用三個(gè)信用貸款風(fēng)險(xiǎn)評(píng)估領(lǐng)域被廣泛研究的公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對(duì)比研究。數(shù)據(jù)集均為二分類數(shù)據(jù)集,用于區(qū)分樣例是否存在信用風(fēng)險(xiǎn),不存在風(fēng)險(xiǎn)的視為白樣本,存在風(fēng)險(xiǎn)的視為黑樣本。

3.1 數(shù)據(jù)集描述

本研究共采用German、Lending Club(LC)以及Prosper三個(gè)數(shù)據(jù)集,均為信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域的二分類數(shù)據(jù)集,具體特征如表1所示。German德國(guó)信貸數(shù)據(jù)集來(lái)源于機(jī)器學(xué)習(xí)領(lǐng)域權(quán)威的UCI數(shù)據(jù)庫(kù)。LC數(shù)據(jù)集為美國(guó)最大的P2P在線貸款平臺(tái)Lending Club中2017年的全部借款記錄。Prosper數(shù)據(jù)集來(lái)源于美國(guó)知名在線貸款平臺(tái)Prosper的2013年至2014年的借款記錄。使用的三個(gè)數(shù)據(jù)集在信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域研究中被廣泛應(yīng)用,具有一定的代表性[28]。

本研究使用的數(shù)據(jù)集預(yù)處理方法包含多個(gè)步驟。首先數(shù)據(jù)標(biāo)簽分為正常標(biāo)簽和風(fēng)險(xiǎn)標(biāo)簽,分別用0和1表示。其余相似的標(biāo)簽將并入這兩類標(biāo)簽之一,不相似標(biāo)簽的樣本將被消除。其次,將缺失率超過(guò)40%以上的特征和包含缺失值的樣本進(jìn)行刪除。最后,為保證數(shù)據(jù)類別的均衡,本研究采取欠采樣的方法進(jìn)行處理。此外,本研究還對(duì)數(shù)據(jù)集進(jìn)行歸一化、編碼等針對(duì)性處理,由于篇幅限制沒有作詳細(xì)說(shuō)明。

本研究將數(shù)據(jù)分為訓(xùn)練集、測(cè)試集和驗(yàn)證集三個(gè)部分。其中訓(xùn)練集和測(cè)試集采用五折交叉驗(yàn)證測(cè)試方法來(lái)驗(yàn)證模型,以保證隨機(jī)數(shù)據(jù)分區(qū)不影響實(shí)際評(píng)估結(jié)果;驗(yàn)證集從數(shù)據(jù)集中隨機(jī)抽取且不參與交叉驗(yàn)證,用于后續(xù)實(shí)驗(yàn)測(cè)試規(guī)則性能。

3.2 模型評(píng)價(jià)指標(biāo)與參數(shù)選取

信用風(fēng)險(xiǎn)分類可以有效地構(gòu)建為二元分類問題來(lái)預(yù)測(cè)違約概率。因此,評(píng)估結(jié)果可以分為四個(gè)不同的類別:真陽(yáng)性(TP)、假陽(yáng)性(FP)、真陰性(TN)和假陰性(FN)。TP 指的是實(shí)際存在風(fēng)險(xiǎn)被準(zhǔn)確分類的情況;FP 描述的是正常交易被錯(cuò)誤地標(biāo)記為存在風(fēng)險(xiǎn)的情況;TN 表示正常交易被正確識(shí)別的情況;FN 反映實(shí)際默認(rèn)值被錯(cuò)誤標(biāo)記為正常交易的情況。

本研究采用機(jī)器學(xué)習(xí)領(lǐng)域常見的評(píng)估指標(biāo)來(lái)評(píng)估模型預(yù)測(cè)和解釋信用風(fēng)險(xiǎn)的有效性。根據(jù)方法部分的描述,評(píng)估解釋模型的性能時(shí)需要考慮形成規(guī)則集的準(zhǔn)確性和可解釋性兩個(gè)方面。在準(zhǔn)確性評(píng)估方面,選擇召回率(recall)和平衡F1分?jǐn)?shù)(F1-score)指標(biāo)來(lái)評(píng)估模型預(yù)測(cè)風(fēng)險(xiǎn)的能力,并采用精確率(Acc)和受試者工作特征 (ROC) 曲線下面積 (AUC) 等指標(biāo)來(lái)衡量模型的整體性能。ROC曲線是通過(guò)對(duì)用于計(jì)算假陽(yáng)性率(FPR)和真陽(yáng)性率(TPR)的決策函數(shù)設(shè)置不同的閾值來(lái)獲得的,并且使用梯形規(guī)則計(jì)算AUC。在可解釋性評(píng)估方面,本研究將規(guī)則集的平均特征數(shù)、平均規(guī)則數(shù)量作為評(píng)估指標(biāo)。精確率、召回率和F1分?jǐn)?shù)指標(biāo)定義如下:

precision=TPTP+FP(8)

recall=TNTP+FN(9)

F1=2×precision×recallprecision+recall(10)

經(jīng)過(guò)參數(shù)調(diào)優(yōu)測(cè)試,本研究提出模型的參數(shù)如表2所示。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 隨機(jī)森林剪枝分析

表3展示了本研究使用四種剪枝技術(shù)的精確率對(duì)比。如表所示,每個(gè)數(shù)據(jù)集均只有一種方法達(dá)到了最佳精度。在三個(gè)數(shù)據(jù)集中,German數(shù)據(jù)集使用AUC-貪婪方法達(dá)到了最優(yōu)性能,LC數(shù)據(jù)集使用MDEP剪枝方法達(dá)到最優(yōu)性能,Prosper數(shù)據(jù)集使用DISC方法達(dá)到了最優(yōu)。為了區(qū)分出剪枝技術(shù)的性能,本研究進(jìn)行Friedman檢驗(yàn)的平均序值(AR-Friedman)并將結(jié)果展示在表3中的最后一行。測(cè)試結(jié)果表明,DISC 方法實(shí)現(xiàn)了最佳性能,MDEP方法其次,AUC-貪婪方法排列第三,而 MRMR 方法表現(xiàn)出最低的性能。表4展示了不同修剪方法的AUC 對(duì)比結(jié)果。同樣,每個(gè)數(shù)據(jù)集均只有一種方法達(dá)到了最佳精度。Friedman檢驗(yàn)排名最好的是DISC和AUC-貪婪方法,MDEP和MRMR方法排名靠后。綜上所述,AUC-貪婪方法在小數(shù)據(jù)集上的表現(xiàn)突出,而DISC剪枝方法的綜合表現(xiàn)較強(qiáng),反映出基于排序的剪枝技術(shù)簡(jiǎn)化隨機(jī)森林解釋的能力和穩(wěn)定性。

3.3.2 規(guī)則提取分析

為對(duì)比模型整體的性能,實(shí)驗(yàn)選取五種基于隨機(jī)森林的規(guī)則提取方法作為參照,與本研究提出的模型進(jìn)行對(duì)比,參照模型介紹如下:

a)RF+HC:利用隨機(jī)森林(RF)形成樹模型,結(jié)合爬山算法(HC)對(duì)高可解釋性規(guī)則進(jìn)行篩選,提取可解釋性強(qiáng)的規(guī)則子集[19]。

b)RF+DHC:RF+HC方法的變體,不僅考慮到葉節(jié)點(diǎn)的規(guī)則,同時(shí)考慮到中間節(jié)點(diǎn)的規(guī)則,并且在選擇最優(yōu)子集時(shí)確定初始規(guī)則[29]。

c)Rulefit:結(jié)合樹集成模型與線性模型形成規(guī)則,從決策樹中創(chuàng)建規(guī)則,并使用原始特征與規(guī)則進(jìn)行線性擬合,可處理分類任務(wù)[30]。

d)IRFRE:從隨機(jī)森林中提取規(guī)則,并根據(jù)規(guī)則的精確度(Acc)、規(guī)則覆蓋度、規(guī)則特征數(shù)和規(guī)則數(shù)量利用改進(jìn)的NSGA-Ⅱ方法尋找最優(yōu)解,得到帕累托最優(yōu)前沿[31]。

e)TSREM:將規(guī)則提取分為局部規(guī)則提取和全局規(guī)則提取兩個(gè)環(huán)節(jié),其中局部規(guī)則提取對(duì)每個(gè)規(guī)則的性能進(jìn)行對(duì)比并精簡(jiǎn),全局規(guī)則提取考慮規(guī)則集的整體性能,以實(shí)現(xiàn)規(guī)則集的優(yōu)化[10]。

對(duì)于各類實(shí)驗(yàn)的參數(shù)設(shè)置,所有集成樹模型的最大深度設(shè)置為10,生成決策樹數(shù)量為100,確保實(shí)驗(yàn)的基礎(chǔ)樹模型保持一致。在RF+HC, RF+DHC, Rulefit, IRFRE, TSREM的設(shè)置上,令算法重復(fù)5次,每次2 000步,其余參數(shù)依照論文給出的最優(yōu)設(shè)置進(jìn)行配置。實(shí)驗(yàn)得出的結(jié)果如表5所示。

首先,從準(zhǔn)確性上對(duì)實(shí)驗(yàn)結(jié)果展開分析。實(shí)驗(yàn)選取精確率、召回率、F1值和AUC作為模型在準(zhǔn)確性上的性能評(píng)估指標(biāo),指標(biāo)的含義和公式已在32節(jié)給出。根據(jù)表中的結(jié)果可得到以下結(jié)論:

a)精確率、召回率、F1值和AUC表現(xiàn)最優(yōu)的多為隨機(jī)森林模型,隨機(jī)森林模型為規(guī)則提取的源模型,證明模型的可解釋性會(huì)犧牲一定的模型準(zhǔn)確性。

b)PRFRE模型在其他對(duì)比規(guī)則模型中的精確率、召回率、F1值和AUC均為最優(yōu)的模型,且指標(biāo)表現(xiàn)接近源模型,說(shuō)明PRFRE模型能夠最大程度還原源模型的準(zhǔn)確性和預(yù)測(cè)能力。

其次,在可解釋性上對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。實(shí)驗(yàn)選取模型規(guī)則特征數(shù)、規(guī)則數(shù)量作為評(píng)估模型可解釋性指標(biāo),具體含義已在文章的第2章給出。根據(jù)表5的結(jié)果可得到以下結(jié)論:

a)隨機(jī)森林模型的可解釋性指標(biāo)表現(xiàn)遠(yuǎn)低于其他模型,平均規(guī)則特征數(shù)和平均規(guī)則數(shù)量已分別達(dá)到18.79和18 41467,明顯不具備可解釋性。

b)PRFRE模型在規(guī)則特征數(shù)和規(guī)則數(shù)量上表現(xiàn)均為最優(yōu),平均規(guī)則特征數(shù)和平均規(guī)則數(shù)量分別為4.75和21.67,具有極強(qiáng)的可解釋性。

綜上所述,隨機(jī)森林模型雖然在準(zhǔn)確性上具有一定優(yōu)勢(shì),但可解釋性上的缺陷導(dǎo)致其無(wú)法受到?jīng)Q策者信任,模型的應(yīng)用領(lǐng)域受限;而PRFRE模型在盡可能保證源模型準(zhǔn)確性的基礎(chǔ)上極大地提升了模型可解釋性,輔助決策者理解模型和制定措施。另外,實(shí)驗(yàn)?zāi)P偷臏?zhǔn)確性和可解釋性具有相互制約的效果,即模型的可解釋性提升會(huì)犧牲部分模型的準(zhǔn)確性。

3.3.3 參數(shù)設(shè)置分析

規(guī)則預(yù)篩選是通過(guò)對(duì)規(guī)則的每個(gè)指標(biāo)的性能進(jìn)行排名比較,去除不符合條件的規(guī)則后得到規(guī)則數(shù)量相對(duì)減少的候選規(guī)則,從而提高多目標(biāo)優(yōu)化對(duì)結(jié)果的收斂性和多樣性。該實(shí)驗(yàn)用

于證明φ的不同取值對(duì)于PRFRE模型輸出規(guī)則的性能影響,其中φ值為每個(gè)指標(biāo)的選取閾值,φ的作用已在本文第2章進(jìn)行介紹。三個(gè)數(shù)據(jù)集在不同φ值下的優(yōu)化規(guī)則集的性能如圖2~4所示。根據(jù)圖中的對(duì)比分析可得出,φ值對(duì)規(guī)則集性能存在正面影響,圖2可以清晰地顯示φ值變化對(duì)于規(guī)則集精確性的影響;另外,圖3和4的精確性部分體現(xiàn)出φ值對(duì)可解釋性上的影響更為顯著。這是因?yàn)棣罩蹬c規(guī)則數(shù)量和特征數(shù)正相關(guān),φ值的變化影響優(yōu)化問題的解空間,并間接影響通過(guò)規(guī)則提取時(shí)優(yōu)化規(guī)則集的性能。在實(shí)際應(yīng)用中,專家可根據(jù)對(duì)規(guī)則性能的偏好來(lái)確定φ的取值,若需要可識(shí)別能力與可理解能力較為均衡的規(guī)則,適合將φ值調(diào)整至20%~25%;若需要可識(shí)別能力或可理解能力在單方面指標(biāo)表現(xiàn)優(yōu)異的規(guī)則,則可將φ值設(shè)置為5%~10%。

3.3.4 模型輸出與決策過(guò)程

在實(shí)際場(chǎng)景中,模型輸出規(guī)則既可以幫助決策者理解模型的推理邏輯,也可以代替不透明模型輔助決策者進(jìn)行決策。為展現(xiàn)規(guī)則提取模型輸出的結(jié)果及規(guī)則參與決策的過(guò)程,本節(jié)將展示從規(guī)則模型中提取的規(guī)則樣例,以及介紹決策者根據(jù)規(guī)則進(jìn)行決策的過(guò)程。生成規(guī)則的性能和有效性可以通過(guò)前面討論的準(zhǔn)確性和可解釋性來(lái)驗(yàn)證。本研究在German、LC和Prosper數(shù)據(jù)集上隨機(jī)提取一折實(shí)驗(yàn)結(jié)果并展示部分輸出規(guī)則,結(jié)果如表6~8所示,其中num_fea代表規(guī)則特征數(shù),samples為規(guī)則命中樣本數(shù),precision為規(guī)則精確率。為展示規(guī)則的性能,保留部分樣本作為驗(yàn)證集對(duì)規(guī)則的性能進(jìn)行評(píng)估,給出規(guī)則的特征數(shù)、命中的樣本數(shù)和精確率信息。如表所示,規(guī)則的特征數(shù)較少,可供決策者快速提取可研究的特征交叉信息;精確率均保持在70%以上,保證了規(guī)則的高價(jià)值特性。

由表6~8所示,本研究模型輸出規(guī)則將特征數(shù)控制在4個(gè)以內(nèi),以保證規(guī)則能夠被人類所理解。有存在個(gè)別規(guī)則特征數(shù)較多的規(guī)則,例如表6中的第3條規(guī)則有5個(gè)特征且只命中了8個(gè)樣本,但由于其具有極高的精確率,考慮到存在的特殊類型的貸款情況,故該規(guī)則被保留用于向決策者展示存在于貸款領(lǐng)域的小概率事件。有部分規(guī)則涉及的規(guī)則較少,命中的樣本數(shù)較多,體現(xiàn)了單個(gè)特征的高重要性或交叉特征的強(qiáng)交互關(guān)系。

通過(guò)觀察規(guī)則的特征出現(xiàn)頻率和邏輯條件可以總結(jié)出貸款風(fēng)險(xiǎn)的部分規(guī)律。有多條規(guī)則均涉及到與借款利率相關(guān)的特征,且進(jìn)一步觀察發(fā)現(xiàn)高借款利率往往伴隨著貸款風(fēng)險(xiǎn)的增加。這是因?yàn)榻杩罾试礁?,還款的金額就越大,越容易出現(xiàn)違約風(fēng)險(xiǎn),符合貸款風(fēng)險(xiǎn)評(píng)估的邏輯。

當(dāng)新的貸款交易對(duì)象出現(xiàn)時(shí),可以將用戶的數(shù)據(jù)特征與規(guī)則庫(kù)內(nèi)的規(guī)則特征進(jìn)行條件匹配來(lái)判斷哪些規(guī)則可以參與決策,并通過(guò)投票形式對(duì)用戶風(fēng)險(xiǎn)分類進(jìn)行結(jié)果輸出,后續(xù)將實(shí)際調(diào)查結(jié)果反饋給規(guī)則庫(kù)來(lái)對(duì)規(guī)則的表現(xiàn)進(jìn)行更新。決策者可以根據(jù)規(guī)則表現(xiàn),靈活調(diào)整規(guī)則庫(kù)中激活的規(guī)則,特別是其在歷史使用中的表現(xiàn)。

4 結(jié)束語(yǔ)

隨機(jī)森林模型具有良好的靈活性、應(yīng)用性以及卓越的預(yù)測(cè)性能表現(xiàn),也可從樹結(jié)構(gòu)中提取IF-THEN形式的決策規(guī)則,然而原模型提取規(guī)則的數(shù)量眾多且可解釋性差,需要對(duì)規(guī)則作進(jìn)一步處理以提高可解釋性,從而加強(qiáng)實(shí)際場(chǎng)景中的應(yīng)用效果。本研究提出了基于剪枝隨機(jī)森林的規(guī)則提取模型(PRFRE),首先對(duì)訓(xùn)練好的隨機(jī)森林模型進(jìn)行集成剪枝,減少基決策樹數(shù)量以提高提取規(guī)則的效果,再使用基于多目標(biāo)優(yōu)化的規(guī)則提取方法,從候選規(guī)則集中搜索具有高準(zhǔn)確性和高可解釋性的優(yōu)化規(guī)則集。本研究使用信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域具有代表性的三個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。首先對(duì)比了四個(gè)剪枝技術(shù)的效果,結(jié)果證明DISC剪枝方法和AUC-貪婪方法在對(duì)隨機(jī)森林剪枝任務(wù)上表現(xiàn)優(yōu)秀。為證明PRFRE模型的有效性,本研究選取四個(gè)規(guī)則提取模型進(jìn)行對(duì)照實(shí)驗(yàn),結(jié)果表明PRFRE模型輸出規(guī)則在不降低準(zhǔn)確性的基礎(chǔ)上,大幅提升了可解釋性。模型對(duì)比實(shí)驗(yàn)證明了PRFRE模型在提取準(zhǔn)確性和可解釋性均衡的優(yōu)化規(guī)則集上的先進(jìn)性。

隨著可解釋技術(shù)(XAI)發(fā)展,面向黑盒模型的規(guī)則提取研究使隨機(jī)森林模型的可解釋性優(yōu)化成為可能,而現(xiàn)有針對(duì)隨機(jī)森林模型的規(guī)則提取研究無(wú)法兼顧精確性與可解釋性。本研究通過(guò)融合集成剪枝與多目標(biāo)優(yōu)化算法,解決了隨機(jī)森林模型可解釋性不強(qiáng)的問題。該方法適用于解決如金融欺詐檢測(cè)、醫(yī)療診斷等領(lǐng)域中對(duì)模型的準(zhǔn)確性和可解釋性同時(shí)存在要求的二分類問題,對(duì)促進(jìn)人機(jī)交互的發(fā)展具有重要意義。

本研究提出的PRFRE模型在訓(xùn)練效率和樹集成模型選擇上具有一定局限性,包括目前模型只適用于二分類數(shù)據(jù)集,應(yīng)用領(lǐng)域局限于欺詐檢測(cè)領(lǐng)域,且只可對(duì)基于隨機(jī)生成的集成樹模型進(jìn)行規(guī)則提取。未來(lái)可以在以下兩個(gè)方面進(jìn)行下一步研究:一是將基于多目標(biāo)優(yōu)化算法的規(guī)則提取推廣至其他基于順序依賴的樹集成模型中,如XGBoost算法;二是探究增量規(guī)則提取的方式,以提高規(guī)則提取在連續(xù)場(chǎng)景中的使用效果。

參考文獻(xiàn):

[1]劉艷紅. 人工智能的可解釋性與AI的法律責(zé)任問題研究 [J]. 法制與社會(huì)發(fā)展, 2022, 28(1): 78-91. (Liu Yanhong. On the explainability and legal liability of artificial intelligence [J]. Law and Social Development, 2022, 28(1): 78-91.)

[2]Saeed W, Omlin C. Explainable AI (XAI): a systematic meta-survey of current challenges and future opportunities [J]. Knowledge-Based Systems, 2023, 263: 110273.

[3]孔祥維, 唐鑫澤, 王子明. 人工智能決策可解釋性的研究綜述 [J]. 系統(tǒng)工程理論與實(shí)踐, 2021, 41(2): 524-536. (Kong Xiangwei, Tang Xinze, Wang Ziming. A survey of explainable artificial intelligence decision [J]. Systems Engineering-Theory & Practice, 2021, 41(2): 524-536.)

[4]Czajkowski M, Jurczuk K, Kretowski M. Steering the interpretability of decision trees using lasso regression-an evolutionary perspective [J]. Information Sciences, 2023, 638: 118944.

[5]Ribeiro M T, Singh S, Guestrin C. “Why should I trust you?”: explaining the predictions of any classifier [C]// Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2016: 1135-1144.

[6]唐蕾, 牛園園, 王瑞杰, 等. 強(qiáng)化學(xué)習(xí)的可解釋方法分類研究 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(6):1601-1609. (Tang Lei, Niu Yuanyuan, Wang Ruijie,et al. Classification study of interpretable methods for reinforcement learning [J]. Application Research of Computers, 2024, 41(6):1601-1609.)

[7]Khalifa F A, Abdelkader H M, Elsaid A H. An analysis of ensemble pruning methods under the explanation of random forest [J]. Information Systems, 2024, 120: 102310.

[8]Aria M, Cuccurullo C, Gnasso A. A comparison among interpretative proposals for random forests [J]. Machine Learning with Applications, 2021, 6: 100094.

[9]Sagi O, Rokach L. Approximating XGBoost with an interpretable decision tree [J]. Information Sciences, 2021, 572: 522-542.

[10]Dong Lu’an, Ye Xin, Yang Guangfei. Two-stage rule extraction method based on tree ensemble model for interpretable loan evaluation [J]. Information Sciences, 2021, 573: 46-64.

[11]Boruah A N, Biswas S K, Bandyopadhyay S. Rule extraction from decision tree: transparent expert system of rules [J]. Concurrency and Computation: Practice and Experience, 2022, 34(15): e6935.

[12]Ghafari S M, Tjortjis C. A survey on association rules mining using heuristics [J]. WIREs Data Mining and Knowledge Discovery, 2019, 9(4):e1307.

[13]Li Bo, Qi Peng, Liu Bo,et al. Trustworthy AI: from principles to practices [J]. ACM Computing Surveys, 2023, 55(9): 1-46.

[14]左明月. 基于集成學(xué)習(xí)和SHAP優(yōu)化的個(gè)人信貸違約可解釋預(yù)測(cè)模型 [D]. 濟(jì)南:山東大學(xué), 2023. (Zuo Mingyue. Interpretable prediction model of personal credit default based on ensemble learning and SHAP optimization [D]. Jinan:Shandong University, 2023.)

[15]馬亞雪, 王嘉杰, 巴志超, 等. 顛覆性技術(shù)的后向科學(xué)引文知識(shí)特征識(shí)別研究——以基因工程領(lǐng)域?yàn)槔?[J]. 圖書情報(bào)工作, 2024, 68(1): 116-126. (Ma Yaxue, Wang Jiajie, Ba Zhichao,et al. Research on the knowledge feature identification of disruptive technologies from its backward scientific citations: taking the field of genetic engineering as an example [J]. Library and Information Service, 2024, 68(1): 116-126.)

[16]Chipman H A, George E I, McCulloch R E. Making sense of a forest of trees [J]. Computing Science and Statistics, 1998: 84-92.

[17]Mohammed A M, Onieva E, Woz'niak M. Selective ensemble of classifiers trained on selective samples [J]. Neurocomputing, 2022, 482: 197-211.

[18]Mohammed A M, Onieva E, Woz'niak M,et al. An analysis of heuristic metrics for classifier ensemble pruning based on ordered aggregation [J]. Pattern Recognition, 2022, 124: 108493.

[19]Mashayekhi M, Gras R. Rule extraction from random forest: the RF+HC methods [C]// Proc of the 28th Canadian Conference on Artificial Intelligence. Cham: Springer, 2015: 223-237.

[20]李海林, 廖楊月, 李軍偉, 等. 高校杰出學(xué)者知識(shí)創(chuàng)新績(jī)效的影響因素研究 [J]. 科研管理, 2022, 43(3): 63-71. (Li Hailin, Liao Yangyue, Li Junwei,et al. A study of the influence factors of knowledge innovation performance of distinguished scholars in colleges and universities [J]. Science Research Management, 2022, 43(3): 63-71.)

[21]Wang Yuyan, Wang Dujuan, Geng Na,et al. Stacking-based ensemble learning of decision trees for interpretable prostate cancer detection [J]. Applied Soft Computing, 2019, 77: 188-204.

[22]Cao Jingjing, Li Wenfeng, Ma Congcong,et al. Optimizing multi-sensor deployment via ensemble pruning for wearable activity recognition [J]. Information Fusion, 2018, 41: 68-79.

[23]Martínez-Muoz G, Hernández-Lobato D, Suárez A. An analysis of ensemble pruning techniques based on ordered aggregation [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2009, 31(2): 245-259.

[24]Guo Huaping, Liu Hongbing, Li Ran,et al. Margin & diversity based ordering ensemble pruning [J]. Neurocomputing, 2018, 275: 237-246.

[25]Deb K, Pratap A, Agarwal S,et al. A fast and elitist multiobjective genetic algorithm: NSGA-Ⅱ [J]. IEEE Trans on Evolutionary Computation, 2002, 6(2): 182-197.

[26]遲國(guó)泰, 王珊珊. 基于XGBoost的中國(guó)上市公司違約風(fēng)險(xiǎn)預(yù)測(cè)模型 [J]. 系統(tǒng)管理學(xué)報(bào), 2024,33(3):735-754. (Chi Guotai, Wang Shanshan. Default risk prediction model for Chinese listed companies based on XGBoost [J]. Journal of Systems & Management, 2024,33(3):735-754.)

[27]賈穎, 趙峰, 李博, 等. 貝葉斯優(yōu)化的XGBoost信用風(fēng)險(xiǎn)評(píng)估模型 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(20): 283-294. (Jia Ying, Zhao Feng, Li Bo,et al. XGBoost optimized by Bayesian optimization for credit scoring [J]. Computer Engineering and Applications, 2023, 59(20): 283-294.)

[28]Hilal W, Gadsden S A, Yawney J. Financial fraud: a review of anomaly detection techniques and recent advances [J]. Expert Systems with Applications, 2022, 193: 116429.

[29]Mashayekhi M, Gras R. Rule extraction from decision trees ensembles: new algorithms based on heuristic search and sparse group Lasso methods [J]. International Journal of Information Technology & Decision Making, 2017, 16(06): 1707-1727.

[30]Friedman J H, Popescu B E. Predictive learning via rule ensembles [J]. The Annals of Applied Statistics, 2008, 2(3): 916-954.

[31]Wang Sutong, Wang Yuyan, Wang Dujuan,et al. An improved random forest-based rule extraction method for breast cancer diagnosis [J]. Applied Soft Computing, 2020, 86: 105941.

威宁| 墨玉县| 德昌县| 巴中市| 常宁市| 黄浦区| 通山县| 乐都县| 吴江市| 仪陇县| 弥渡县| 宝应县| 赫章县| 甘泉县| 奎屯市| 卓资县| 绍兴市| 卫辉市| 二连浩特市| 石台县| 浑源县| 尉犁县| 延边| 荥经县| 武宁县| 昭苏县| 滨海县| 昭平县| 兴和县| 湖北省| 蛟河市| 星子县| 昌乐县| 青川县| 阿城市| 古田县| 澄江县| 临西县| 瓦房店市| 隆尧县| 南涧|