国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

針對電費回收風(fēng)險防控分析的用戶信用評分模型

2021-12-09 06:37:46田珂馬文棟王坤林偉李明亮
微型電腦應(yīng)用 2021年11期
關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò)邏輯權(quán)重

田珂, 馬文棟, 王坤, 林偉, 李明亮

(1.國網(wǎng)河南省電力公司, 河南 鄭州 450000;2.國網(wǎng)河南省電力公司電力科學(xué)研究院 客戶服務(wù)中心, 河南 鄭州 450000;3.河南九域騰龍信息工程有限公司, 河南 鄭州 450000)

0 引言

收取電費是電力企業(yè)最重要的工作。按時計費不僅可以為稅收提供資金,以確保國家的財政收入,而且還可以為電力企業(yè)的可持續(xù)發(fā)展提供必要資金。隨著經(jīng)濟社會的發(fā)展,供需形勢發(fā)生了很大變化,電費回收風(fēng)險日益提高,如何評估該風(fēng)險已經(jīng)成為電力企業(yè)的重要問題。借鑒金融信貸機構(gòu)的做法,對電力用戶進行信用評分,有助于電力企業(yè)識別高風(fēng)險用戶群體,為降低電費回收風(fēng)險提供數(shù)據(jù)支持。信用評分目標(biāo)是區(qū)分優(yōu)質(zhì)用戶和不良用戶。為了提高電力用戶信用評分的效率,就需要電力企業(yè)利用大數(shù)據(jù)技術(shù)實施自動信用評分系統(tǒng)。

本研究的目的是描述使用人工神經(jīng)網(wǎng)絡(luò)(ANN)模型和邏輯回歸(LR)模型作為預(yù)測電力用戶信用評分模型。已有研究比較了神經(jīng)網(wǎng)絡(luò)對多元邏輯回歸的用戶信用預(yù)測能力。一些研究成果指出了監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)相對于線性或邏輯回歸的優(yōu)勢[1]。但是還沒有針對這2種方法的性能進行對比分析的研究。為此本研究介紹了神經(jīng)網(wǎng)絡(luò)的概念性信息,并比較了神經(jīng)網(wǎng)絡(luò)和邏輯回歸的性能,其中包括技術(shù)描述、參數(shù)變量選擇和模型評估。最后通過電力用戶信用評分試驗對比了2種方法在電力用戶信用數(shù)據(jù)分析方面的性能。

1 邏輯回歸模型

回歸模型通常用于研究多個自變量和因變量之間的關(guān)系,并確定與因變量相關(guān)的重要自變量。該模型還能夠描述自變量對因變量影響的大小和方向[2]。有兩種常見的回歸模型類別:線性回歸模型和邏輯回歸模型。選擇線性回歸還是邏輯回歸取決于因變量的度量范圍。如果因變量是二進制或二分類數(shù)據(jù),則邏輯回歸可以提供更有意義的結(jié)果[3]。

與大多數(shù)其他預(yù)測建模方法一樣,邏輯回歸使用一組預(yù)測器特征來預(yù)測特定結(jié)果(目標(biāo))的可能性。 事件概率的對數(shù)變換的等式如式(1)。

Logit(pi)=β0+β1x1+β2x2+…+βkxk

(1)

其中,p為給定輸入的“事件”的后驗概率;x為輸入變量;β0為回歸線的截距;βk為系數(shù)。Logit變換是概率的對數(shù),用于對后驗概率進行線性化并將模型中的估計概率結(jié)果限制在0到1之間。

1.1 變量選擇

通過變量選擇可以減少模型中獨立變量的數(shù)量,從而實現(xiàn)降低模型過度擬合的風(fēng)險。通過檢查偽R平方和分類結(jié)果的準(zhǔn)確性[4]來檢驗?zāi)P徒y(tǒng)計信息的擬合度。因此模型的評估指標(biāo)需要滿足簡約的要求。簡約意味著如果將一些冗余變量排除在模型之外,現(xiàn)有的獨立變量將足以解釋結(jié)果變量。似然比卡方、Akaike信息準(zhǔn)則(AIC)等擬合統(tǒng)計量都可用于變量選擇過程中模型擬合的測度[5]。

1.2 模型評估

如前所述,可以基于模型的統(tǒng)計數(shù)據(jù)和預(yù)測分類的準(zhǔn)確性來評估順序邏輯模型的性能[6]。模型擬合統(tǒng)計量基于每次出現(xiàn)的預(yù)期和觀察頻率來測量模型擬合。另外,為了測量獨立變量和因變量之間的強度關(guān)聯(lián),還可以使用取決于似然比的模型統(tǒng)計信息,例如偽R平方。在序數(shù)回歸模型中解釋偽R平方的方式與在線性回歸模型中解釋R平方的方式相似。偽R平方是模型在解釋數(shù)據(jù)變化或結(jié)果變量中自變量所占比例變化方面的性能指標(biāo)。

2 人工神經(jīng)網(wǎng)絡(luò)模型

神經(jīng)網(wǎng)絡(luò)是適用于分析復(fù)雜的非線性關(guān)系的自適應(yīng)模型。神經(jīng)網(wǎng)絡(luò)由一組模擬神經(jīng)元的處理單元(節(jié)點)組成。節(jié)點通過一組類似于突觸連接的權(quán)重互連到其他節(jié)點。這些連接允許信號并行和串行地通過網(wǎng)絡(luò)傳輸。突觸權(quán)重被解釋為跨節(jié)點的連接強度。節(jié)點是基于神經(jīng)元模型的簡單計算元素,當(dāng)達到一定的刺激水平時,神經(jīng)元模型會產(chǎn)生動作電位。將到達節(jié)點的所有傳入信號的加權(quán)總和值與閾值進行比較。當(dāng)超過閾值刺激時,節(jié)點將觸發(fā);否則,節(jié)點保持為零。

通常神經(jīng)網(wǎng)絡(luò)由三層組成:輸入層、輸出層和隱藏層,如圖1所示。

圖1的第一層加載了代表獨立(解釋性)變量的一個或多個神經(jīng)元(節(jié)點)。而輸出層由一個或多個依存(結(jié)果)變量的神經(jīng)元(節(jié)點)組成。輸出層表示模型的分類決策,其中每個決策類有一個節(jié)點。模型中的隱藏節(jié)點間接連接輸入層和輸出層。通常,一個或多個隱藏層位于輸入層和輸出層之間。

圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

2.1 參數(shù)

人工神經(jīng)網(wǎng)絡(luò)模型的核心元素是位于隱藏層中的神經(jīng)元,在圖1中顯示為H1、H2、…、Hn。每個神經(jīng)元通過網(wǎng)絡(luò)中設(shè)置的學(xué)習(xí)算法確定每個單獨輸入的最佳連接權(quán)重w=(w1、…、wn)。然后,神經(jīng)元使用求和計算將來自每個輸入的加權(quán)值聚合為單個值。下一步是通過對總加權(quán)值應(yīng)用激活函數(shù)來計算輸出[7]。在人工神經(jīng)網(wǎng)絡(luò)模型中,特定的激活函數(shù)用于連接模型中的兩層。模型中使用的激活函數(shù)的類型取決于輸出層中的結(jié)果范圍。人工神經(jīng)網(wǎng)絡(luò)模型中最常用的激活函數(shù)是S形激活函數(shù),類似于Logistic回歸模型中使用的logit函數(shù)。S形激活函數(shù)如式(2)。

(2)

其中,η為閾值,x為加權(quán)值的總和。

分析神經(jīng)網(wǎng)絡(luò)時要考慮的一個關(guān)鍵問題是過度訓(xùn)練的可能性。過度訓(xùn)練意味著網(wǎng)絡(luò)具有太多的迭代過程,可能會導(dǎo)致模型過度擬合。該模型產(chǎn)生的結(jié)果由于特定數(shù)據(jù)集中的數(shù)據(jù)存儲而無法推廣到整個用戶群體。本研究中防止模型過度擬合的一個方法是采用應(yīng)用交叉驗證程序[8]。此過程將數(shù)據(jù)拆分為一定數(shù)量的子樣本。一些子樣本用作構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù)集,而其他子樣本則用于驗證模型的性能。防止過度訓(xùn)練中發(fā)揮重要作用的另一個因素是設(shè)置終止網(wǎng)絡(luò)訓(xùn)練的條件。終止條件取決于為網(wǎng)絡(luò)選擇的體系結(jié)構(gòu)和訓(xùn)練算法。對于監(jiān)督神經(jīng)網(wǎng)絡(luò)模型,最廣泛的學(xué)習(xí)算法是反向傳播算法[9]。反向傳播算法中使用的參數(shù)包括動量、學(xué)習(xí)率和權(quán)重衰減系數(shù)[10]。

權(quán)重衰減系數(shù)用作權(quán)重降低因子以形成平滑的決策邊界,權(quán)重衰減通常在交叉驗證階段完成[11]。學(xué)習(xí)率決定了基于當(dāng)前迭代的誤差在網(wǎng)絡(luò)中所占的百分比,而動量則決定了基于先前迭代的網(wǎng)絡(luò)中的誤差所占的百分比。動量、學(xué)習(xí)率和權(quán)重衰減系數(shù)較大幅度下降能夠加快網(wǎng)絡(luò)快速收斂,但是較大的下降幅度也會導(dǎo)致網(wǎng)絡(luò)無法收斂至全局最優(yōu)[12]。

2.2 變量選擇

與其他統(tǒng)計模型構(gòu)建過程一樣,人工神經(jīng)網(wǎng)絡(luò)模型的性能可能會受到輸入層中使用的變量數(shù)量的影響。另外,可以將人工神經(jīng)網(wǎng)絡(luò)模型與其他統(tǒng)計模型(例如回歸模型)結(jié)合使用,以減少輸入變量的數(shù)量。 減少輸入變量數(shù)量的另一種可能性是通過檢查由人工神經(jīng)網(wǎng)絡(luò)模型得出的連接權(quán)重[13]。具有低連接權(quán)重的變量應(yīng)該被去除。然后,人工神經(jīng)網(wǎng)絡(luò)模型需要在迭代過程中逐步完成去除低權(quán)重變量和評估模型性能的計算操作。

2.3 模型評估

評估人工神經(jīng)網(wǎng)絡(luò)模型質(zhì)量的潛在標(biāo)準(zhǔn)之一是識別性能,這是衡量數(shù)據(jù)集中兩個類別的分離程度的一種度量。評估人工神經(jīng)網(wǎng)絡(luò)模型中的識別性能的方法是敏感性、特異性、準(zhǔn)確性和ROC曲線。模型的靈敏度指出預(yù)測模型的真實陽性,而1-特異性表示假陽性率。通過針對各種閾值概率繪制針對1-特異性的靈敏度,可以得出ROC來評估人工神經(jīng)網(wǎng)絡(luò)模型的性能。

3 模型對比

盡管人工神經(jīng)網(wǎng)絡(luò)模型和邏輯回歸模型的結(jié)構(gòu)和表達方式迥異,但是這兩個模型背后的思想基本相同。例如人工神經(jīng)網(wǎng)絡(luò)模型的“連接權(quán)重”和邏輯回歸模型“系數(shù)”的作用類似。此外,人工神經(jīng)網(wǎng)絡(luò)模型根據(jù)嵌入到網(wǎng)絡(luò)中的激活函數(shù)來調(diào)整連接權(quán)重,而邏輯回歸模型則使用其鏈接函數(shù)來估計其系數(shù)。人工神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用的學(xué)習(xí)和訓(xùn)練過程類似于邏輯回歸模型中的參數(shù)估計過程。另一個相似之處與模型中使用的變量數(shù)量有關(guān)。邏輯回歸和人工神經(jīng)網(wǎng)絡(luò)模型構(gòu)造遵從簡約原則,即只要模型能夠充分說明自變量對結(jié)果變量的影響,則在模型中使用較少的自變量并排除不必要的變量[14]。

相對于邏輯回歸模型,人工神經(jīng)網(wǎng)絡(luò)模型的不同之處在于可以在輸入變量之間存在復(fù)雜非線性關(guān)系的前提下表現(xiàn)出強大的學(xué)習(xí)能力。雖然邏輯回歸模型在函數(shù)中包含了指數(shù)項的前提下也具有類似的處理自變量和因變量之間的非線性關(guān)系的能力,但是該模型需要先驗已知的非線性關(guān)系形式。人工神經(jīng)網(wǎng)絡(luò)模型不需要先驗?zāi)P鸵?guī)范,因為網(wǎng)絡(luò)具有基于數(shù)據(jù)模式學(xué)習(xí)層之間關(guān)系的能力。因此,人工神經(jīng)網(wǎng)絡(luò)模型能夠提供更多的靈活性和更高的魯棒性。

相對于人工神經(jīng)網(wǎng)絡(luò)模型,邏輯回歸模型具有更好地解釋輸出變量和輸入變量之間關(guān)系的性能。而人工神經(jīng)網(wǎng)絡(luò)模型無法揭示輸出變量與輸入變量之間的變化關(guān)系。因此,邏輯回歸模型能夠更好支持對輸入變量的敏感性分析,能夠更直觀地確定模型中每個輸入變量對輸出變量的影響程度。

人工神經(jīng)網(wǎng)絡(luò)模型是基于迭代過程構(gòu)建的,因此該模型能夠?qū)W習(xí)輸入變量和輸出變量之間復(fù)雜的非線性關(guān)系。人工神經(jīng)網(wǎng)絡(luò)模型中的連接權(quán)重比邏輯回歸模型中的系數(shù)更加抽象、更難解釋。人工神經(jīng)網(wǎng)絡(luò)模型中隱藏層的數(shù)量越多,則神經(jīng)節(jié)點之間連接權(quán)重和相互依賴性的關(guān)系越復(fù)雜。由此可見,人工神經(jīng)網(wǎng)絡(luò)模型更適合作為預(yù)測分類的統(tǒng)計性模型,而不是解釋性的模型。而邏輯回歸模型中的模型參數(shù)可以較容易地對應(yīng)某個預(yù)測變量的權(quán)重,從而可以對該參數(shù)進行統(tǒng)計測試以檢查每個參數(shù)對模型的重要性。因此邏輯回歸模型的優(yōu)點在于模型參數(shù)的可解釋性和易用性,而人工神經(jīng)網(wǎng)絡(luò)的優(yōu)點在于強大的變量之間非線性關(guān)系的處理能力。

人工神經(jīng)網(wǎng)絡(luò)還存在一個問題是設(shè)計和優(yōu)化網(wǎng)絡(luò)拓?fù)湫枰粋€非常復(fù)雜的實驗過程。這是因為隱藏層中層數(shù)和神經(jīng)元數(shù)量、不同的激活函數(shù)和初始權(quán)重值可能會影響最終分類結(jié)果。此外,人工神經(jīng)網(wǎng)絡(luò)還需要大量的訓(xùn)練樣本和較長的學(xué)習(xí)時間。

4 實驗驗證

本研究使用了2017年1月至2018年12月來自鄭州電力公司的697個低壓電力用戶群體的真實數(shù)據(jù)。實驗數(shù)據(jù)集包含客戶信息,例如個人特征、可支配收入、職業(yè)、就業(yè)時間、房屋所有權(quán)、與宏觀經(jīng)濟背景有關(guān)的變量以及是否存在以往延遲繳納電費行為。實驗的目的是預(yù)測3個月內(nèi)遲交電費的可能性。

邏輯回歸模型和人工神經(jīng)網(wǎng)絡(luò)模型用于分析數(shù)據(jù)。兩種模型都使用SAS Enterprise Miner 6.2進行了分析。實驗將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集(60%)和驗證數(shù)據(jù)集(40%)。本實驗使用錯誤分類率來衡量所構(gòu)建的兩個模型的性能。錯誤分類率是所有類別的總錯誤分類與特定分類問題中樣本總數(shù)的比率。較低的誤分類率表示較好的分類性能。SAS Enterprise Miner 6.2中構(gòu)建的模型流程如圖2所示。

圖2 模型流程

使用logit函數(shù)構(gòu)建邏輯回歸模型,并使用逐步聚合方法構(gòu)建2個邏輯回歸模型。一個模型前面有變量選擇以減少模型中輸入變量的數(shù)量,而另一個模型則沒有。本實驗應(yīng)用了基于R平方準(zhǔn)則的變量選擇。將要包含在模型中的輸入變量的最小R平方設(shè)置為0.15。根據(jù)變量選擇結(jié)果,14個項目中只有9個被用作模型中的輸入變量。

本實驗建立的人工神經(jīng)網(wǎng)絡(luò)模型將多層感知器體系結(jié)構(gòu)與一個隱藏層和反向傳播學(xué)習(xí)算法結(jié)合使用。權(quán)重衰減系數(shù)設(shè)定為0.01,學(xué)習(xí)速度和動量設(shè)定為0.1和0.01。建立了兩個神經(jīng)網(wǎng)絡(luò)模型。一種是變量選擇,另一種則不是。變量選擇也基于R平方準(zhǔn)則。每種模型的誤分類率如表1所示。

表1 每個模型的分類錯誤率

表1中顯示的結(jié)果表明,有和沒有變量選擇的2種人工神經(jīng)網(wǎng)絡(luò)模型都比驗證數(shù)據(jù)集中的邏輯回歸模型具有更低的誤分類率。另一方面,在訓(xùn)練數(shù)據(jù)集中,這2種邏輯回歸模型的誤分類率均低于人工神經(jīng)網(wǎng)絡(luò)模型。此外,表1還顯示了人工神經(jīng)網(wǎng)絡(luò)模型的ROC指數(shù)較高。一個好的模型是具有相對穩(wěn)定的錯誤分類率(較高的錯誤分類率會導(dǎo)致更多訓(xùn)練和驗證的迭代次數(shù))以及較高的ROC指數(shù)的模型。因此,在評價指標(biāo)下,人工神經(jīng)網(wǎng)絡(luò)模型是一個更好的模型。結(jié)果還表明變量選擇降低了錯誤分類率,邏輯模型的降低率比人工神經(jīng)網(wǎng)絡(luò)模型中的降低率更高。具有變量選擇的邏輯回歸模型的輸出和具有變量選擇的人工神經(jīng)網(wǎng)絡(luò)模型所產(chǎn)生的前4個輸入變量的權(quán)重,如表2、表3所示。

表2 邏輯回歸模型的權(quán)重估計

表3 人工神經(jīng)網(wǎng)絡(luò)模型的權(quán)重估計

表2和表3指出邏輯回歸和人工神經(jīng)網(wǎng)絡(luò)模型之間沒有主要差異。根據(jù)這2種模型,年齡是預(yù)測違約概率最重要的變量。邏輯回歸模型的下一個重要變量是學(xué)歷,而人工神經(jīng)網(wǎng)絡(luò)模型的第二重要的變量是待繳電費金額。

人工神經(jīng)網(wǎng)絡(luò)、具有變量選擇的人工神經(jīng)網(wǎng)絡(luò)和邏輯回歸的ROC曲線的比較如圖3所示。

圖3 ROC曲線

通過查看ROC曲線,無法準(zhǔn)確預(yù)測哪個模型是好的,因為三條ROC曲線下的面積都只有微小的變化。由表1可知,具有變量選擇的人工神經(jīng)網(wǎng)絡(luò)具有較高的ROC指數(shù)。因此,通過使用誤分類率和ROC評價指標(biāo),可以確定具有變量選擇的人工神經(jīng)網(wǎng)絡(luò)模型是更好的選擇。

5 總結(jié)

在本研究所述的研究工作中對邏輯回歸和人工神經(jīng)網(wǎng)絡(luò)(ANN)在電力用戶信用評分預(yù)測中的應(yīng)用進行了闡述,概述了這2種模型的共同原理及其區(qū)別,展示了邏輯回歸和ANN模型的構(gòu)建方法以及構(gòu)建過程中應(yīng)考慮的細(xì)節(jié)以及如何對其進行評估。

本研究表明,神經(jīng)網(wǎng)絡(luò)模型或邏輯回歸模型的構(gòu)建,沒有特定的參數(shù)和規(guī)則可以遵循,并且每個模型都有其優(yōu)點和缺點,因此在使用這2種模型對電力用戶信用進行評估時需要反復(fù)實驗以確定模型的變量和參數(shù),以取得靈活性和過度擬合之間的平衡。

猜你喜歡
人工神經(jīng)網(wǎng)絡(luò)邏輯權(quán)重
刑事印證證明準(zhǔn)確達成的邏輯反思
法律方法(2022年2期)2022-10-20 06:44:24
邏輯
創(chuàng)新的邏輯
權(quán)重常思“浮名輕”
利用人工神經(jīng)網(wǎng)絡(luò)快速計算木星系磁坐標(biāo)
人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)簡單字母的識別
電子制作(2019年10期)2019-06-17 11:45:10
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
女人買買買的神邏輯
37°女人(2017年11期)2017-11-14 20:27:40
基于公約式權(quán)重的截短線性分組碼盲識別方法
基于聲發(fā)射和人工神經(jīng)網(wǎng)絡(luò)的混凝土損傷程度識別
凭祥市| 老河口市| 屏东县| 克什克腾旗| 龙泉市| 乐亭县| 肃南| 清远市| 西乌| 逊克县| 彭山县| 务川| 体育| 和顺县| 霍林郭勒市| 崇阳县| 芜湖市| 兰西县| 涿州市| 新闻| 沙河市| 阿拉尔市| 河间市| 特克斯县| 宾阳县| 青浦区| 麻江县| 长岛县| 祁连县| 荔波县| 乌兰察布市| 贵州省| 松阳县| 玉门市| 洪江市| 鲁甸县| 岫岩| 宣汉县| 英德市| 胶州市| 宁武县|