国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電子銀行客戶(hù)群預(yù)測(cè)相關(guān)技術(shù)探析

2021-08-04 01:58:32周瑞濤王曉輝
數(shù)字通信世界 2021年7期
關(guān)鍵詞:元組剪枝決策樹(shù)

李 翠,周瑞濤,王曉輝

(青島黃海學(xué)院,山東 青島 266555)

0 引言

客戶(hù)群分類(lèi)是對(duì)銀行所開(kāi)展的電子銀行業(yè)務(wù)按照客戶(hù)的使用和辦理情況進(jìn)行分類(lèi),為銀行進(jìn)行客戶(hù)關(guān)系管理提供依據(jù)。客戶(hù)群分類(lèi)是客戶(hù)關(guān)系管理(CRM)很重要的一環(huán),可以說(shuō)是必不可少的。

銀行客戶(hù)的分類(lèi)通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)進(jìn)行,具體操作可以根據(jù)事先指定的規(guī)則找到滿(mǎn)足規(guī)則的客戶(hù)群;也可以對(duì)客戶(hù)利用聚類(lèi)方法進(jìn)行自然分群;還可以根據(jù)交易行為對(duì)客戶(hù)進(jìn)行分類(lèi),以確定什么樣的客戶(hù)最有可能為銀行創(chuàng)造高的利潤(rùn)[1]。如何利用現(xiàn)有的銀行數(shù)據(jù),對(duì)電子銀行客戶(hù)進(jìn)行識(shí)別,找到高價(jià)值的客戶(hù)并為之提供個(gè)性化的服務(wù),是留住客戶(hù)、維持與客戶(hù)良好關(guān)系的有效方法。本文主要針對(duì)電子銀行客戶(hù)的分類(lèi)預(yù)測(cè)方法進(jìn)行了簡(jiǎn)述。

1 常用的分類(lèi)預(yù)測(cè)算法

分類(lèi)是一種被廣泛應(yīng)用的數(shù)據(jù)分析方式,它是描述數(shù)據(jù)結(jié)構(gòu)類(lèi)的重要模型,可以用它來(lái)預(yù)測(cè)離散的、無(wú)序的數(shù)據(jù)類(lèi)別。數(shù)據(jù)分類(lèi)是一個(gè)兩階段的過(guò)程,包括構(gòu)造分類(lèi)器的訓(xùn)練階段和使用分類(lèi)器預(yù)測(cè)給定數(shù)據(jù)的類(lèi)別的分類(lèi)階段。數(shù)據(jù)挖掘中的分類(lèi)算法有很多,常用的有決策樹(shù)、基于規(guī)則的分類(lèi)、貝葉斯等[2]。

1.1 決策樹(shù)分類(lèi)

20世紀(jì)70年代后期和80年代初期J. Ross Quinlan在E.B. Hunt,J. Marin和P. T. Stone的概率學(xué)習(xí)系統(tǒng)的基礎(chǔ)上,提出了迭代的二分器方法即經(jīng)典的ID3決策樹(shù)算法[3]。后來(lái),Quinlan又在ID3的基礎(chǔ)上進(jìn)行了改進(jìn),提出了C4.5決策樹(shù)算法,并成為新的監(jiān)督學(xué)習(xí)算法的性能比較基準(zhǔn)。1984年,多位統(tǒng)計(jì)學(xué)家出版了著作《Classification and Regression Trees》,介紹了二叉決策樹(shù)的概念,這標(biāo)志著CART方法的產(chǎn)生[4]。這兩種算法大約同時(shí)間出現(xiàn)引發(fā)了決策樹(shù)歸納研究的浪潮。

決策樹(shù)需要從標(biāo)有類(lèi)標(biāo)號(hào)的訓(xùn)練集中訓(xùn)練得到。它是一種樹(shù)形的結(jié)構(gòu),類(lèi)似于流程圖,其中內(nèi)部結(jié)點(diǎn)是對(duì)某個(gè)屬性值的判斷,每個(gè)分枝是該判斷的一個(gè)輸出,而每個(gè)樹(shù)葉結(jié)點(diǎn)存放一個(gè)類(lèi)標(biāo)號(hào),樹(shù)的最頂層是根結(jié)點(diǎn)[5]。

1.2 貝葉斯分類(lèi)

貝葉斯分類(lèi)是用來(lái)表示類(lèi)隸屬關(guān)系的概率大小。貝葉斯分類(lèi)是基于貝葉斯定理的分類(lèi)方法。樸素貝葉斯分類(lèi)的思想:假設(shè)D是訓(xùn)練元組的集合。其中每一個(gè)元組用一個(gè)n維向量X={x1,x2,…xn}來(lái)表示,xi表示第i個(gè)屬性值。X表示該元組在n個(gè)屬性A1,A2,…An上的測(cè)量值;假定有m個(gè)類(lèi)C1,C2,…Cm。給定元組X,分類(lèi)法將預(yù)測(cè)在條件X下,該元組屬于具有最高后驗(yàn)概率的類(lèi)的大小。也就是說(shuō),樸素貝葉斯分類(lèi)法預(yù)測(cè)X屬于Ci,當(dāng)且僅當(dāng)

這樣,找出使P(Ci|X)最大的類(lèi)Ci,類(lèi)Ci即被稱(chēng)作最大后驗(yàn)假設(shè)。根據(jù)貝葉斯定理

由于P(X)為固定的常數(shù),所以只需要找到一個(gè)類(lèi)Ci,使P(X|Ci)P(Ci)最大即可。

1.3 基于規(guī)則的分類(lèi)

規(guī)則是一種表示少量信息和知識(shí)的有效方法?;谝?guī)則的分類(lèi),需要構(gòu)造一系列的IF-THEN規(guī)則,可以用如下形式的表達(dá)式來(lái)表示:

IF 條件 THEN 結(jié)論

其中,IF后邊的部分被稱(chēng)為規(guī)則前件或簡(jiǎn)稱(chēng)為前提,THEN后邊的部分是規(guī)則的結(jié)論。在規(guī)則前件中,條件可以被分解為一個(gè)或者多個(gè)用邏輯連接詞“與”連接起來(lái)的屬性表達(dá)式,規(guī)則的結(jié)論部分是對(duì)一個(gè)類(lèi)的預(yù)測(cè)。如果對(duì)于一個(gè)給定的元組,規(guī)則前件中的所有屬性表達(dá)式都成立,就可以說(shuō)規(guī)則前件成立,并且規(guī)則覆蓋了該元組。

1.4 基于人工神經(jīng)網(wǎng)絡(luò)的分類(lèi)

神經(jīng)網(wǎng)絡(luò)最先由心理學(xué)家和神經(jīng)學(xué)家提出,目的是為了找尋開(kāi)發(fā)和檢測(cè)神經(jīng)的計(jì)算模型。概括的來(lái)講,神經(jīng)網(wǎng)絡(luò)是由一組相互連接的輸入、輸出單元構(gòu)成,其中每個(gè)連接都有一個(gè)權(quán)重。在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)階段,通過(guò)調(diào)整連接的權(quán)重,使得它能夠?qū)⑤斎朐M從相應(yīng)的類(lèi)標(biāo)號(hào)處輸出。由于單元之間存在連接,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)又被形象的叫做連接者學(xué)習(xí)[6]。目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一BP神經(jīng)網(wǎng)絡(luò),其組成如圖1所示。

圖1 BP神經(jīng)網(wǎng)絡(luò)

圖1中,BP神經(jīng)網(wǎng)絡(luò)包含三層,每層由一些單元組成。每個(gè)訓(xùn)練元組的屬性值測(cè)量對(duì)應(yīng)于網(wǎng)絡(luò)的輸入,這些輸入通過(guò)輸入層,然后加權(quán)輸送給稱(chēng)作隱含層的神經(jīng)元,最終由輸出層發(fā)布給定元組的網(wǎng)絡(luò)預(yù)測(cè)。

神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是其對(duì)噪聲的抗干擾能力強(qiáng),并且不需要知道屬性和類(lèi)之間聯(lián)系的知識(shí),但是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要很長(zhǎng)的時(shí)間,并且需要知道如網(wǎng)絡(luò)拓?fù)浠蚪Y(jié)構(gòu)等的大量參數(shù),而這些參數(shù)又主要是靠經(jīng)驗(yàn)來(lái)獲得。

2 粗糙集理論

粗糙集理論是由Z.Pawlak 教授在1982年提出的一種數(shù)學(xué)工具,它主要用于處理不確定性和含糊性的知識(shí),其基本思想是在保證分類(lèi)能力不降低的前提下,經(jīng)過(guò)對(duì)知識(shí)的約簡(jiǎn),推導(dǎo)出概念的分類(lèi)規(guī)則。它的優(yōu)點(diǎn)是不需要相關(guān)數(shù)據(jù)集合外的其他先驗(yàn)信息,適合發(fā)現(xiàn)那些潛在的和隱含的規(guī)則。屬性簡(jiǎn)約作為數(shù)據(jù)挖掘的一個(gè)預(yù)處理步驟,也是粗糙集理論的核心應(yīng)用之一[7]。粗糙集理論的處理思想和算法基礎(chǔ)來(lái)源于其基本概念定義,下邊介紹幾個(gè)主要的定義。

3 C4.5算法

C4.5決策樹(shù)算法利用貪心的思想,采用自頂向下遞歸的分治方法構(gòu)造得來(lái)。大多數(shù)的決策樹(shù)從訓(xùn)練集和其相關(guān)聯(lián)的類(lèi)標(biāo)號(hào)開(kāi)始構(gòu)造,隨著樹(shù)深度的遞增,訓(xùn)練集逐漸被劃分為較小的子集。

構(gòu)造決策樹(shù)的核心是利用分裂準(zhǔn)則選擇合適的分裂屬性來(lái)分裂獲得子集。如果能找到一個(gè)好的分裂準(zhǔn)則使所有分枝上的輸出元組是純的,這就是一個(gè)最優(yōu)的分裂準(zhǔn)則。

決策樹(shù)C4.5算法主要步驟分兩大部分,分別為屬性選擇度量和剪枝。

(1)屬性選擇度量。屬性選擇度量是一種啟發(fā)式學(xué)習(xí)方法,表示選擇一種分類(lèi)準(zhǔn)則,可以把指定類(lèi)標(biāo)記的訓(xùn)練元組劃分為單獨(dú)類(lèi)的方法。將該分類(lèi)準(zhǔn)則應(yīng)用于訓(xùn)練元組,可以把數(shù)據(jù)分區(qū)劃分為較小的分區(qū)。最優(yōu)的情況下,落在每一個(gè)小分區(qū)的所有元組都具有相同的類(lèi)標(biāo)號(hào)。

屬性選擇度量為訓(xùn)練元組的屬性選擇提供了評(píng)定標(biāo)準(zhǔn),具有最高度量值的屬性被選為訓(xùn)練元組的分裂屬性。具體操作為用選擇好的屬性度量來(lái)標(biāo)記新創(chuàng)建的樹(shù)結(jié)點(diǎn),分枝由度量的每個(gè)輸出生長(zhǎng)出來(lái),進(jìn)而劃分元組。常用的屬性選擇度量有信息增益、信息增益率和基尼指數(shù)等,這也是區(qū)分ID3,C4.5和CART算法的關(guān)鍵所在。

(2)樹(shù)剪枝。在創(chuàng)建決策樹(shù)時(shí),數(shù)據(jù)中往往存在離群點(diǎn)和噪聲,因此造成許多分枝表示的是訓(xùn)練數(shù)據(jù)中的異常而不是正確的分枝,這種現(xiàn)象叫作過(guò)分?jǐn)M合,剪枝就是處理這種現(xiàn)象的一種有效方法。通常,剪枝使用統(tǒng)計(jì)度量來(lái)減掉最不可靠的分枝。常用的剪枝方法有先剪枝和后剪枝。在先剪枝方法中,通過(guò)提前停止樹(shù)的構(gòu)建達(dá)到樹(shù)剪枝的效果。當(dāng)樹(shù)構(gòu)建停止時(shí),結(jié)點(diǎn)就變成了樹(shù)葉。

在采用先剪枝方法構(gòu)造樹(shù)的過(guò)程中,可以用信息增益、統(tǒng)計(jì)顯著性、基尼系數(shù)等度量來(lái)評(píng)估劃分的優(yōu)劣。如果選擇某個(gè)結(jié)點(diǎn)劃分元組導(dǎo)致低于預(yù)定義的閾值,則停止對(duì)該結(jié)點(diǎn)輸出的元組進(jìn)一步的劃分,樹(shù)的構(gòu)造因此停止。然而,找出合適的閾值是非常困難的。所以在實(shí)際的使用中,后剪枝的方法使用較多。后剪枝方法是在完全生長(zhǎng)的樹(shù)中減去子樹(shù)。通過(guò)刪除結(jié)點(diǎn)的分枝子樹(shù)并用子樹(shù)中最頻繁的類(lèi)來(lái)標(biāo)記該分枝作為樹(shù)葉來(lái)實(shí)現(xiàn)。

C4.5就是使用一種稱(chēng)為悲觀剪枝的后剪枝方法,使用錯(cuò)誤率決定對(duì)哪個(gè)子樹(shù)進(jìn)行剪枝。悲觀剪枝不使用剪枝集,所謂剪枝集是指獨(dú)立于建立未剪枝決策樹(shù)和用于準(zhǔn)確率評(píng)估的數(shù)據(jù)集,而是使用訓(xùn)練集來(lái)估算錯(cuò)誤率。然而,基于訓(xùn)練集評(píng)估準(zhǔn)確率過(guò)于樂(lè)觀,因此具有較大的偏倚。所以,悲觀剪枝通過(guò)加上一個(gè)懲罰來(lái)調(diào)節(jié)從訓(xùn)練集得到的錯(cuò)誤率以抵消所出現(xiàn)的偏倚。

4 結(jié)束語(yǔ)

本文主要簡(jiǎn)述了客戶(hù)管理系統(tǒng)中電子銀行客戶(hù)群預(yù)測(cè)的相關(guān)理論方法,包括常用的分類(lèi)算法如決策樹(shù)分類(lèi),貝葉斯分類(lèi),基于規(guī)則的分類(lèi)等,重點(diǎn)介紹了粗糙集理論的相關(guān)知識(shí)和C4.5的基礎(chǔ)知識(shí)。這些內(nèi)容對(duì)客戶(hù)管理系統(tǒng)中客戶(hù)群的預(yù)測(cè)的工作起到基礎(chǔ)構(gòu)建的作用。

猜你喜歡
元組剪枝決策樹(shù)
人到晚年宜“剪枝”
Python核心語(yǔ)法
基于YOLOv4-Tiny模型剪枝算法
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
海量數(shù)據(jù)上有效的top-kSkyline查詢(xún)算法*
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于減少檢索的負(fù)表約束優(yōu)化算法
剪枝
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
张掖市| 修文县| 呼图壁县| 宝丰县| 丰镇市| 九龙县| 兴化市| 伊宁县| 巢湖市| 上思县| 白沙| 沭阳县| 荆门市| 四会市| 南江县| 陆良县| 麟游县| 张掖市| 若羌县| 巴林右旗| 巴林左旗| 景谷| 博白县| 辉南县| 循化| 乐业县| 新余市| 喀喇沁旗| 江口县| 磴口县| 武穴市| 昭苏县| 福建省| 灵武市| 怀远县| 安化县| 航空| 北安市| 鸡西市| 乌拉特后旗| 马山县|