黃冬詠
福建農信自2009年起,就將目光放在了數據上,啟動了數據倉庫的建設。截止到2015年,經過近7年三期的建設,福建農信的數據倉庫體系已經頗具規(guī)模,總計接入117個系統(tǒng),3135張表,并提供232張報表服務。同時為審計、風險等27個系統(tǒng)提供數據支撐。在2016年,本行啟動了數據治理工作,即將進行數據標準體系規(guī)劃,數據質量梳理與提升,同時還啟動了新一代報表平臺,著手于創(chuàng)建更加靈活、便捷、快速的報表服務??傮w上看,本行數據能力從單純的使用數據的量變過程,正逐步邁入準確化、高效化的質變過程。
而近年來,數據已經不能滿足銀行業(yè)務的快速發(fā)展,大數據的思維正在迅速升溫。以長尾理論為基礎的互聯(lián)網金融正是基于大數據分析技術實現(xiàn)了與傳統(tǒng)金融不一樣的產品研發(fā)、客群分析、營銷推送、風險控制等新金融業(yè)態(tài),取得了顛覆性的成果。隨著信息化浪潮的推進,數據爆炸式增長,數據分析成為各行業(yè)競爭的制高點,更成為銀行創(chuàng)新發(fā)展的重大戰(zhàn)略。在這場變革中,福建農信相比其他股份制銀行已經慢了一步,我們必須投身到變革中去,并且迎頭趕上?;诖耍枨蟛垦埩朔ê?萍?、銀之杰、星環(huán)科技、網智天元、肯睿、瑞天等多家大數據應用公司前來宣講交流,現(xiàn)將思路總結如下:
整體趨勢
總的來說,銀行業(yè)大數據應用將呈現(xiàn)三大趨勢。
趨勢一:多種方式獲取和應用更多的行外大數據資源
金融脫媒的大環(huán)境下,銀行之間,以及銀行和跨界競爭對手之間,甚至是跨行業(yè)之間,將發(fā)生前所未有的大數據資源爭奪、競爭以及共享。在本次的交流中,各個公司無一例外地提到了外部數據的使用。其實大數據的特征之一就是數據種類繁多,這決定了銀行必須使用大量獲取產生于銀行系統(tǒng)之外的數據。比如馬云的阿里小貸,用到的數據有:互聯(lián)網數據中的消費能力數據、消費偏好數據、征信等數據;其他數據如銀行資產數據、第三方催收機構數據、社保、納稅、公積金、個人眼中行政處罰數據、刑事犯罪記錄、交通違章數據等。就連這個大家所公認的、已經可以成為閉環(huán)的淘寶都需要使用到如此之多的外部數據,更何況是銀行。但是如此龐大的外部數據量,應該如何劃分去獲取所需呢?外部數據基本劃分為三類:
1,專業(yè)數據供應商。諸如法海、網智天元這類的專業(yè)數據公司,將財務、工商、稅務、風險等專業(yè)信息進行獲取并深入分析,向客戶提交只是產權的專業(yè)資訊。這類數據是行外數據的直接來源,數據量較為穩(wěn)定、質量較高、成本也較高。
2.互聯(lián)網公開數據。公開數據是廣泛分布在網絡,無清晰歸屬和使用限制的數據??赏ㄟ^爬蟲技術自助采集,或通過代理商批量采集,定期推送。在滿足隱私保護要求的前提下,可以通過對公開數據的分析來獲得情報和知識。這類數據的數據量巨大,總體質量較差,大部分免費,成本低。
3。數據合作方式。在和業(yè)務領域通過開放核心運營數據,與其他數據需求機構形成數據交換和共享,達成數據合作運營,推動產品、渠道和業(yè)務模式的全面創(chuàng)新。這類數據一般在特定時間對數據進行處理和采集,數據量一般,總體質量高,根據協(xié)議開放共享或者交換數據,成本較低。
由于行外數據的引入是一項系統(tǒng)工作,同時行外數據種類繁多,要根據具體業(yè)務使用場景、在成本經濟、風險可控的條件下來統(tǒng)籌規(guī)劃數據引入的種類、先后順序。
趨勢二:精細化、協(xié)同化地發(fā)展大數據應用
大數據應用將向精細化和協(xié)同化方向發(fā)展。大數據的價值必須通過應用才能體現(xiàn)。經過以前數倉時代“垂直應用”為主的初步應用階段,下一步大數據的應用將圍繞提供更加“精準”的分析結果,以及跨越部門和條線的“協(xié)同化”的應用場景展開。
在數據倉庫時代,我行已經構建了諸如新反洗錢、審計系統(tǒng)、異常風險預警系統(tǒng)此類“垂直”應用系統(tǒng)。而在新的數據應用背景下,此類的應用系統(tǒng)將略顯龐大笨重,每個系統(tǒng)都在重復存儲著交易明細、客戶信息等大體量的數據,造成資源浪費,且隨著數據量的不斷增大,舊的技術架構逐漸不足以支撐數據的運轉。在大業(yè)務背景下,各類風險相互影響、制約的情況呈現(xiàn)常態(tài)化,各自為政的系統(tǒng)也已經不能滿足現(xiàn)有的業(yè)務要求。而新的應用場景要求更加精細化、協(xié)同化、實時化和個性化。大數據的場景應用不再像以往的系統(tǒng)建設,一個系統(tǒng)的建設解決一個大的需求問題,而是根據數據分析的結果,嵌入到各個業(yè)務系統(tǒng)中去,有點“隨風潛入夜,潤物細無聲”的節(jié)奏。
趨勢三:采用全新的組織模式運營大數據
隨著銀行數據分析團隊的發(fā)展壯大,必將涌現(xiàn)出與大數據應用相匹配的新型組織運營模式,以釋放大數據生產力。大數據部門和團隊在銀行的定位和作用將更加凸顯。現(xiàn)行的組織模式大致分為如下幾類:
模式一:各業(yè)務部門分別建立數據分析團隊,培養(yǎng)數據分析人才,獨立完成垂直應用的數據分析工作,并在需要時協(xié)同工作。這種模式的好處是數據分析與業(yè)務的結合最緊密,而且不影響現(xiàn)有的組織架構,實施快。缺點是業(yè)務部門之間的合作不易協(xié)調,難以實施企業(yè)級的數據分析工作。
模式二:單獨成立專門職能的數據分析部門。這種模式的缺點是數據分析部門與一線業(yè)務部門隔離,業(yè)務部門與數據分析部門跨部門合作進行分析時流程較長,影響分析需求的及時響應。優(yōu)點是人員和技能集中,容易實現(xiàn)全行的統(tǒng)一視角,易于實施全行統(tǒng)一的數據分析項目。
模式三:參考國外事業(yè)部銀行創(chuàng)新性項目組織模式—一分析卓越中心。分析卓越中心是指組織內的一個虛擬或實體化的團隊,采用雙線甚至多線匯報的方式。這個模式的特點是綜合了前兩種模式的優(yōu)點,團隊可以跨多個專業(yè)完成大數據分析工作。缺點是這種模式對流程化銀行運營能力要求非常高,而這正是目前國內銀行所普遍欠缺的。
發(fā)展規(guī)劃
與當前大數據的應用比較而言,福建農信要做的還有很多,對于應該怎么做,從何處入手更為穩(wěn)妥有效,我們的思路如下:
(一)風險控制入手
目前大數據的應用場景可以分為四大類一一客戶畫像、業(yè)務優(yōu)化、精準營銷、風險防控。之所以選擇風險防控為切入點是基于兩方面原因:
1.目前國內經濟下行,各大行的不良貸款率都在攀升。經統(tǒng)計,我行的不良率已經攀升至3.47%,較2012年翻了3倍,需要更加精準且行之有效的風控手段;
2.風控體系不完善,目前我行內的風控系統(tǒng)主要是新反洗錢系統(tǒng)、審計系統(tǒng)、風險預警等。這些系統(tǒng)均屬事后風控系統(tǒng),缺少事前和事中風控系統(tǒng)。
圖一所示的是基于數據驅動的風控體系,從客戶選取到債務清收、欺詐防范,每一個環(huán)節(jié)都有風險控制點。我行目前做的比較多的是貸后風險預警。但從風險防控的專業(yè)角度來說,“防患于未然”和“未雨綢繆”更具價值,早一天發(fā)現(xiàn)風險應該比晚一天所造成的損失要小。從上圖選取預篩選、信審風險評分,風險定價這三個風險防控點進行說明。
第一個是預篩選,理解起來比較簡單,在所有的客戶中先把一定不滿足要求的客戶由系統(tǒng)自動剔除。實現(xiàn)的方法也不難,首先使用央行征信報告,現(xiàn)在的報告都是打印出來的,沒有形成數據庫存儲,造成資源浪費。如果把這些保存起來,數據就可以得到充分利用,分析客戶的征信變動情況。接著結合行外數據,設定規(guī)則。比如凡是逾期3次以上的客戶、被P2P小貸平臺拒絕2次以上的客戶、水電費欠費半年以上的客戶就直接剔除,不作為準入客戶,完成預篩選。
第二個是信審風險評分。剔除不符合要求的客戶后,進一步選出符合要求的客戶。在這里,要充分利用行內數據:資產、負債、還款情況、公積金、水費、電費等。同時適當引入行外數據:運營商(移動、電信、聯(lián)動)、P2P、工商、稅務、司法等,配以合適的評分規(guī)則,如表一。
根據算法計算出存量客戶和新增客戶的信審風險評分,再根據結果劃分客群,得到信用風險客群分布圖。比如800—1000分為低風險優(yōu)質客戶,500—799分為中風險客戶,500分以下為高風險的低端客戶。在客群分布圖的基礎上,可以思考如何平衡風險定價,如何控制客群比例,如何控制風險遷移。
信審風險評分之后,就要對風險進行定價,如果不對風險進行定價.信審風險評分的意義就無法體現(xiàn)。優(yōu)質的客戶對應低利率,高風險的客戶對應高的利率,甚至是拒絕貸款需求。如果不做好這一步,則很容易出現(xiàn)風險定價的錯配。好的客戶拿到高的利率,差的客戶拿到低的利率,出現(xiàn)盈利困難,好客戶流失。
(二)適當引入行外數據
在前面的趨勢一和信審風險評分的論述中均有提到行外數據的引進。通過與專業(yè)數據供應商合作,按照業(yè)務場景的需求逐步獲取行外數據。由于行外數據的采集、整理、整合和使用是一項系統(tǒng)工作,必須要有統(tǒng)籌規(guī)劃,避免出現(xiàn)各個部門、各個應用各自為政的情況。
(三)外入Hadoop大數據平臺
目前本行的數據平臺主要以Oracle和GBase為主,為了能做到實盹以及準實時的數據分析,Hadoop大數據平臺的引入是十分必要的。在早期的數據架構中,數據平臺大部分都是傳統(tǒng)的關系型數據庫,例如Oracle、DB2。而在新的應用場景下,關系型和非關系型數據庫多種類并存的混合式架構將成為必然,單一的數據架構無法滿足日新月異的業(yè)務需求。目前國內外有許多成熟完善的Hadoop平臺產品供應商,完全可以根據行內特點選擇合適的平臺產品,補充完善現(xiàn)有的數據架構體系,支撐起未來大平臺大風控的需求。
(四)建立一個專業(yè)大數據分析隊伍
針對行業(yè)特點,建立一個新的組織,培養(yǎng)起自己的大數據隊伍。所謂術業(yè)有專攻,我行計劃按照模式二,單獨成立專門職能的數據分析部門,培養(yǎng)出傳說中的21世界最性感的職業(yè)者——數據科學家。