摘要:本文運(yùn)用數(shù)據(jù)挖掘方法,以銀行自助設(shè)備實(shí)際業(yè)務(wù)中發(fā)生的流水?dāng)?shù)據(jù)作為數(shù)據(jù)來(lái)源,試圖解決自助設(shè)備備付金預(yù)測(cè)問(wèn)題。通過(guò)分析自助設(shè)備影響因素,比較了神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等預(yù)測(cè)算法,給出了自助設(shè)備預(yù)測(cè)模型。
關(guān)鍵詞:銀行自助設(shè)備 ?備付金 ?預(yù)測(cè)模型 ?探索
0 引言
隨著金融系統(tǒng)的不斷完善、業(yè)務(wù)的飛速發(fā)展以及信息化的普及,極大拓寬了銀行的交易渠道,但因我國(guó)支付體系與交易習(xí)慣等因素,現(xiàn)金業(yè)務(wù)在銀行業(yè)務(wù)中仍然占有不可或缺的重要地位,導(dǎo)致了現(xiàn)金流通量極其龐大,而利用自助設(shè)備完成的存取款交易,就占現(xiàn)金交易的70%以上。與此同時(shí),金融行業(yè)作為經(jīng)濟(jì)的核心,信息化水平緊跟潮流步伐,信息技術(shù)應(yīng)用已經(jīng)深入銀行經(jīng)營(yíng)管理的各個(gè)層面,數(shù)據(jù)不斷積累,使利用數(shù)據(jù)挖掘技術(shù)提升銀行經(jīng)理營(yíng)管理水平成為可能。如果能夠?qū)γ颗_(tái)自助設(shè)備每天的現(xiàn)金進(jìn)行預(yù)測(cè),就能夠及時(shí)、準(zhǔn)確、安全地向自助設(shè)備調(diào)撥資金,使設(shè)備的現(xiàn)金正好滿(mǎn)足營(yíng)業(yè)需要,既保證設(shè)備正常對(duì)外服務(wù)又減少現(xiàn)金占用,達(dá)到減少現(xiàn)金管理、提高資金利用率的雙重目標(biāo)。
1 數(shù)據(jù)挖掘簡(jiǎn)述
數(shù)據(jù)挖掘綜合利用各種統(tǒng)計(jì)分析方法,從海量的數(shù)據(jù)中自動(dòng)搜索隱藏于數(shù)據(jù)本身之中的特殊關(guān)系,并展現(xiàn)為用戶(hù)所理解信息的過(guò)程。從商業(yè)層面說(shuō),數(shù)據(jù)挖掘就是從海量的商業(yè)歷史業(yè)務(wù)數(shù)據(jù)中,借助查詢(xún)、分析、轉(zhuǎn)換以及其他數(shù)學(xué)建模方法,提煉關(guān)鍵性的商業(yè)輔助決策數(shù)據(jù)。它的核心是提供一種機(jī)制,將萃取的知識(shí)融入到未來(lái)的經(jīng)營(yíng)管理中。
數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)的關(guān)鍵步驟,它主要利用機(jī)器學(xué)習(xí)的學(xué)習(xí)算法,并融合人工智能的相關(guān)原理,實(shí)現(xiàn)數(shù)據(jù)挖掘。什么是機(jī)器學(xué)習(xí)?如果一個(gè)程序針對(duì)某項(xiàng)任務(wù)A,能夠根據(jù)經(jīng)驗(yàn)B進(jìn)行自我完善,并且能夠用C對(duì)其性能進(jìn)行測(cè)量,那么稱(chēng)此程序?yàn)槿蝿?wù)A的B學(xué)習(xí)。機(jī)器學(xué)習(xí)主要有人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)方法等算法。人工神經(jīng)網(wǎng)絡(luò)是一種用模擬人類(lèi)大腦神經(jīng)結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。支持向量機(jī)方法(簡(jiǎn)稱(chēng)SVM)在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,期望取得最好的推廣能力。
2 預(yù)測(cè)模型
數(shù)據(jù)挖掘本質(zhì)上是一個(gè)不斷反復(fù)的過(guò)程,其核心步驟被反復(fù)執(zhí)行,直到獲得比較滿(mǎn)意的結(jié)果。當(dāng)進(jìn)行特定的數(shù)據(jù)挖掘任務(wù)時(shí),需要針對(duì)業(yè)務(wù)問(wèn)題選取數(shù)據(jù),再對(duì)選取的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,使其符合模型對(duì)數(shù)據(jù)的輸入要求;然后將數(shù)據(jù)送入模型進(jìn)行分析。模型建立是一個(gè)多次重復(fù)的過(guò)程,需要仔細(xì)判斷哪個(gè)模型對(duì)問(wèn)題最有效。在“數(shù)據(jù)處理”階段,首先要解決的問(wèn)題是明確業(yè)務(wù)層面的目標(biāo)。在“建立模型”階段,首先選擇一個(gè)比較貼切的算法,再根據(jù)實(shí)際模型的類(lèi)型與特點(diǎn)進(jìn)行實(shí)際的試驗(yàn)與比較,選擇最適合于解決問(wèn)題的方法進(jìn)行建模;在“數(shù)據(jù)分析階段”,主要進(jìn)行數(shù)據(jù)轉(zhuǎn)換,使之更好地匹配業(yè)務(wù)問(wèn)題和已選擇的算法,從而使模型取得較好的效果。
本文的目的在于預(yù)測(cè)自助設(shè)備所需現(xiàn)金,由于自助設(shè)備現(xiàn)金流動(dòng)自身變化規(guī)律十分復(fù)雜,不僅受環(huán)境、日期、星期、節(jié)假日、天氣等多種因素影響,而且還存在著隨機(jī)、多變和多樣等特性。在諸多因素的共影響下,導(dǎo)致自助設(shè)備現(xiàn)金流動(dòng)呈現(xiàn)一個(gè)復(fù)雜的、非線(xiàn)形形態(tài),難以用精確的數(shù)據(jù)模型進(jìn)行擬合,因此在選擇模型時(shí),采用人工神經(jīng)網(wǎng)絡(luò)、SVM等非線(xiàn)性映射功能模型為主,傳統(tǒng)的統(tǒng)計(jì)方法如回歸分析、指數(shù)平滑等作為輔助方法。預(yù)測(cè)流程如圖1所示:
■
2.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要對(duì)抽取的源數(shù)據(jù)進(jìn)行相關(guān)處理并存儲(chǔ),以滿(mǎn)足建模要求。處理主要包括數(shù)據(jù)清洗、指數(shù)平滑、壞點(diǎn)處理、相似日分析、規(guī)范化等。本文使用的源數(shù)據(jù)是由自助設(shè)備每天交易的流水?dāng)?shù)據(jù)所形成的時(shí)間序列。
數(shù)據(jù)清洗。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)很容易受到各種因素的干擾。因此在數(shù)據(jù)挖掘之前規(guī)范原始數(shù)據(jù)、檢測(cè)調(diào)整異常數(shù)據(jù),進(jìn)行必要的數(shù)據(jù)清洗。
首先完成數(shù)據(jù)篩選,再進(jìn)行匯總合并。挑選涉及現(xiàn)金的交易,選取對(duì)現(xiàn)金預(yù)測(cè)有用信息如交易日期、交易金額、存取等;匯總合并核心是按天計(jì)算“最大需鈔量”:按照“存款為正,取款為負(fù)”的原則對(duì)流水中每條記錄按交易時(shí)間先后順序逐筆軋差,取軋差中負(fù)值絕對(duì)值最大的軋差值為該設(shè)備的最大需鈔量。匯總合并后數(shù)據(jù)示例如表1:
表1 ?最大需鈔量計(jì)算規(guī)則
■
壞點(diǎn)處理。因突發(fā)性事件或偶然因素,如臺(tái)風(fēng)、節(jié)假日、超級(jí)客戶(hù)取現(xiàn)等,造成某天的交易量急劇異常增大或降低,與平常日數(shù)據(jù)存在巨大差異,這些數(shù)據(jù)稱(chēng)為壞數(shù)據(jù)或噪聲數(shù)據(jù),必須進(jìn)行處理,處理方法一般采用指數(shù)平滑或臨近類(lèi)似值。
2.2 自助設(shè)備現(xiàn)金影響因素分析
銀行網(wǎng)點(diǎn)每天的現(xiàn)金流量受多方面因素影響,總的來(lái)說(shuō)有宏觀經(jīng)濟(jì)因素和自自客觀條件。
宏觀經(jīng)濟(jì)因素:指國(guó)家宏觀政策層面對(duì)銀行業(yè)造成的影響,如樓市調(diào)控政策、利率市場(chǎng)化、利率變化、濟(jì)濟(jì)整體走勢(shì)、股市的長(zhǎng)跌等等。由于此類(lèi)宏觀因素本身具有不確定性、并且常常不是非常清晰,因此對(duì)業(yè)務(wù)的影響處于一種模糊狀態(tài)。而自助設(shè)備現(xiàn)金預(yù)測(cè)不是長(zhǎng)期趨勢(shì)預(yù)測(cè)、屬于短期預(yù)測(cè),短期預(yù)測(cè)受宏觀因素的影響非常小,并且現(xiàn)金流量的規(guī)律主要隱藏于大量歷史數(shù)據(jù)中,與宏觀經(jīng)濟(jì)因素關(guān)系不明顯,因此預(yù)測(cè)的關(guān)鍵是如何從海量的、雜亂的歷史數(shù)據(jù)中找出其變化規(guī)律,所以預(yù)測(cè)時(shí)暫時(shí)不考慮宏觀經(jīng)濟(jì)因素。
客觀因素的影響,主要有網(wǎng)點(diǎn)類(lèi)別、網(wǎng)點(diǎn)所處的位置、日期(工作日與節(jié)假日的區(qū)別)、特殊日子(如養(yǎng)老金發(fā)放時(shí)間)、特殊事件的影響等等。一般來(lái)說(shuō),市縣中心網(wǎng)點(diǎn)、城市網(wǎng)點(diǎn)開(kāi)辦的業(yè)務(wù)種類(lèi)比較多,吸引的客戶(hù)相對(duì)較多,業(yè)務(wù)量也會(huì)相應(yīng)增大,現(xiàn)金收支量也會(huì)相應(yīng)加大;另一方面,網(wǎng)點(diǎn)所處的地理環(huán)境,如城市、農(nóng)村、不同地段、繁華程度等等,對(duì)業(yè)務(wù)量具有非常大的影響:在公司、企業(yè)、人流密集的區(qū)域,業(yè)務(wù)量明顯增大;而邊遠(yuǎn)郊區(qū)、農(nóng)村地區(qū)的業(yè)務(wù)量就會(huì)小很多。節(jié)假日由于客戶(hù)分流、部分業(yè)務(wù)停辦等原因,現(xiàn)金業(yè)務(wù)會(huì)有所減少;而節(jié)假日前后的數(shù)天一般會(huì)出現(xiàn)業(yè)務(wù)高峰期,現(xiàn)金業(yè)務(wù)會(huì)明顯增大?;谝陨弦蛩兀谝延袛?shù)據(jù)的基礎(chǔ)上,增加網(wǎng)點(diǎn)類(lèi)別、節(jié)假日與工作日標(biāo)識(shí)等因素。
2.3 算法比較
建立模型時(shí),首先將經(jīng)過(guò)預(yù)處理的數(shù)據(jù)分為訓(xùn)練集與測(cè)試集兩個(gè)數(shù)據(jù)集。一般來(lái)說(shuō),選取數(shù)據(jù)總量的■-■作為測(cè)試集,選取■-■作為訓(xùn)練集。用訓(xùn)練集樣本對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練完成后,用測(cè)試集樣本作為模型的輸出進(jìn)行測(cè)試,驗(yàn)證模型的準(zhǔn)確性。
2.3.1 衡量指標(biāo)
為了衡量模型預(yù)測(cè)結(jié)果的好壞,選定了幾個(gè)衡量指標(biāo)。設(shè)αt是實(shí)際輸出值,■表示平均值,ci表示預(yù)測(cè)值,衡量指標(biāo)如下:
相關(guān)系數(shù):用數(shù)值衡量實(shí)際輸出值與預(yù)測(cè)值之間的相關(guān)性,其值越大說(shuō)明模型性能越好,
■
平均平方根誤差:反映實(shí)際輸出值與預(yù)測(cè)值之間的差距,
■
平均絕對(duì)誤差:表示實(shí)際輸出值與預(yù)測(cè)值之差的平均值,
■
相對(duì)平方根誤差:將實(shí)際輸出值與預(yù)測(cè)值之差大于輸出值與平均值之差的情況進(jìn)行放大,
■
絕對(duì)誤差:表示實(shí)際輸出值與預(yù)測(cè)值之差的總和與實(shí)際輸出值差值總和的比值,
■
平均相對(duì)誤差:表示實(shí)際輸出值與絕對(duì)誤差之比,
■■■
2.3.2 不同學(xué)習(xí)方法比較
選用1-鄰近法、SVM、神經(jīng)網(wǎng)絡(luò)等三種機(jī)器學(xué)習(xí)方法進(jìn)行預(yù)測(cè),以1-鄰近法作為參照標(biāo)桿,從預(yù)測(cè)準(zhǔn)確度、處理速度、推廣能力等方面比較不同方法的預(yù)測(cè)效果。
預(yù)測(cè)準(zhǔn)確度:神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)效果最為理想,SVM次之,1-鄰近法的預(yù)測(cè)效果最差。實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表2:
表2 ?不同算法預(yù)測(cè)準(zhǔn)確度比較
■
處理速度:以一個(gè)訓(xùn)練集130個(gè)樣本,測(cè)試集302個(gè)樣本的數(shù)據(jù)集為例,神經(jīng)網(wǎng)絡(luò)比較慢,但還在可以接受的范圍;SVM速度效果比較理想。各方法運(yùn)算速度如下:
1-NN:0.02 秒,時(shí)間可以忽略不計(jì);
神經(jīng)網(wǎng)絡(luò)(迭代600次):15.46秒,可以接受;
SVM:2.6秒,效果較好。
推廣能力:選擇一個(gè)432個(gè)樣本數(shù)據(jù)集按不同比例進(jìn)行拆分,分別進(jìn)行訓(xùn)練與測(cè)試,對(duì)比測(cè)試結(jié)果。對(duì)比結(jié)果表明,在本案例中神經(jīng)網(wǎng)絡(luò)推廣能力要強(qiáng)于1-NN與SVM,實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表3。
2.4 建模
經(jīng)過(guò)以上分析,確定以自助設(shè)備每天最大需鈔量為樣本數(shù)據(jù),以日期、星期、網(wǎng)點(diǎn)類(lèi)別為影響因素,采用神經(jīng)網(wǎng)絡(luò)算法,能夠?qū)ψ灾O(shè)備備付金進(jìn)行預(yù)測(cè)。
3 結(jié)束語(yǔ)
本文論以自助設(shè)備付金預(yù)測(cè)為切入點(diǎn),將數(shù)據(jù)挖掘引于銀行經(jīng)營(yíng)管理實(shí)際,建立了自助設(shè)備備付金預(yù)測(cè)模型,取得了較好應(yīng)用效果。
銀行的備付金包含多方面內(nèi)容,除網(wǎng)點(diǎn)現(xiàn)金外,還包括柜面現(xiàn)金、金庫(kù)現(xiàn)金、超額備付金(非現(xiàn)金)等,只有將影響備付金的所有因素全部進(jìn)行考慮,降低銀行整體備付金,才能使節(jié)省的資金真正產(chǎn)生效益,因此下一步打算對(duì)全省網(wǎng)點(diǎn)柜面、金庫(kù)以及超額備付建立預(yù)測(cè)模型,并建立備付金預(yù)測(cè)系統(tǒng),使之涵蓋網(wǎng)點(diǎn)、金庫(kù)、超額備付等銀行備付金的多個(gè)環(huán)節(jié)。
參考文獻(xiàn):
[1]王凱平.基于函數(shù)型數(shù)據(jù)分析的數(shù)據(jù)挖掘功能研究[J].統(tǒng)計(jì)與決策,2011(04):162-164.
[2]苗永薈,孫英英.數(shù)據(jù)分析與挖掘在代理金融業(yè)務(wù)發(fā)展中的應(yīng)用研究[J].郵政研究,2013(05):24-27.
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(01):148-171.
[4]周江,王偉平,孟丹,等.面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù)[J].計(jì)算機(jī)研究與發(fā)展,2014(02):148-160.
[5]滕少華,洪嘉銘,張巍.序列模式挖掘在警用車(chē)輛維修數(shù)據(jù)分析中的研究與應(yīng)用[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013(04):45-49.
[6]郭均鵬,寧?kù)o,史志奇.基于區(qū)間型符號(hào)數(shù)據(jù)的群組推薦算法研究[J].計(jì)算機(jī)應(yīng)用研究,2013(01):88-91.
[7]張禮,劉學(xué)軍.一種基于Gamma模型的RNA-seq數(shù)據(jù)分析方法[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2013(04):70-79.
[8]J.Han,G Dong, Y.Yin,Efficient ?mining of partial periodic patterns in time series database.In Proc ? Int Conf Data Engineering (ICDE'99),1999:123-135.
[9]S.Singh and P.McAtackney,Dynamic Time-Series Forecasting Using Local Approxi mation. In Proceedings of the IEEE Tenth International Conference on Tools with Artificial Intelligence,1998(03):392-399.
作者簡(jiǎn)介:
何昆(1974-),男,湖北天門(mén)人,系統(tǒng)分析師,研究方向:數(shù)據(jù)分析。