羅圣美,戚晨,王敏,葉郁文
中興通訊股份有限公司,江蘇 南京 210012
移動互聯(lián)網(wǎng)時代,傳統(tǒng)金融企業(yè)面臨多方面的壓力。利率市場化,同業(yè)競爭加劇,導(dǎo)致利潤空間下降、IT成本壓縮;傳統(tǒng)銀行IT架構(gòu)采購和維護成本過高,具有更低成本優(yōu)勢的IT進入了金融企業(yè)的視野;同時,IOE(IBM, Oracle, EMC)對金融業(yè)形成事實壟斷,產(chǎn)品閉源不可控,IT系統(tǒng)依賴性過大,失去議價能力,安全風(fēng)險越來越大。種種問題迫使金融企業(yè)更加關(guān)注新技術(shù)的發(fā)展,需要盡快引入新技術(shù),完善移動渠道的訪問能力,增加服務(wù)滲透力,加快新業(yè)務(wù)部署上線速度。
相比中小型金融企業(yè),銀行具有龐大的客戶數(shù)量,其數(shù)字化轉(zhuǎn)型難度更為巨大。挑戰(zhàn)主要包括數(shù)據(jù)種類越來越多樣,數(shù)據(jù)量日趨龐大,無論是數(shù)據(jù)存儲還是數(shù)據(jù)查詢,在軟硬件等方面都遇到了瓶頸。用戶的應(yīng)用和分析結(jié)果呈整合趨勢,對實時性和指令響應(yīng)時間的要求越來越高;同時,數(shù)據(jù)處理的模型也越來越復(fù)雜,算法的復(fù)雜性相應(yīng)提高,這些都需要從數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)處理(包括數(shù)據(jù)傳輸)等方面改進優(yōu)化[1]。下面以中國某銀行為例,分析其在數(shù)據(jù)處理和應(yīng)用中存在的問題,具體如下。
(1)傳統(tǒng)工具數(shù)據(jù)存儲空間成為瓶頸
隨著業(yè)務(wù)的日益發(fā)展,金融企業(yè)出現(xiàn)了大量的冷數(shù)據(jù)、低價值數(shù)據(jù)和歷史數(shù)據(jù)。這些數(shù)據(jù)已經(jīng)超出了傳統(tǒng)數(shù)據(jù)存儲工具軟件的管理上限,同時還消耗了價格昂貴的服務(wù)器、數(shù)據(jù)庫的有效存儲空間。隨著數(shù)據(jù)增長速度的加快,此問題日益成為金融業(yè)務(wù)改造和拓展的巨大障礙。
(2)傳統(tǒng)工具的數(shù)據(jù)加工效率日益低下
在信用風(fēng)險管理、客戶關(guān)系管理、財務(wù)分析、合規(guī)管理、運行監(jiān)控、數(shù)據(jù)倉庫等領(lǐng)域,每天都需要進行TB、10 TB甚至100 TB級數(shù)據(jù)的加工,傳統(tǒng)存儲過程加工周期越來越長,已經(jīng)無法滿足應(yīng)用的要求。
(3)應(yīng)用系統(tǒng)的客戶體驗越來越差
數(shù)據(jù)量的劇增、加工效率的下降導(dǎo)致金融應(yīng)用系統(tǒng)的客戶體驗越來越差。此類情況在很多金融應(yīng)用中存在,部分金融應(yīng)用不得不將實時查詢方式改造為離線查詢方式,進而導(dǎo)致客戶體驗進一步下降。
最近幾年,大數(shù)據(jù)的商業(yè)化應(yīng)用逐步落地[2]。通過合理運用大數(shù)據(jù)技術(shù),對掌控的數(shù)據(jù)資產(chǎn)進行加工、處理、整合、利用和反饋等,不斷挖掘數(shù)據(jù)資產(chǎn)的價值,為創(chuàng)新金融的內(nèi)外監(jiān)管、提高服務(wù)效率、支撐產(chǎn)品優(yōu)化、新產(chǎn)品開發(fā)、提供高質(zhì)量服務(wù),提供了全新的思維和技術(shù)支撐[3]。通過批量處理、實時數(shù)據(jù)流分析和各類即時查詢等大數(shù)據(jù)技術(shù),對豐富的數(shù)據(jù)資源進行開發(fā)和利用,是金融創(chuàng)新的主流選擇[4]。但在目前常見的Cloudera公司的大數(shù)據(jù)平臺發(fā)行版(CDH)、Intel公司的大數(shù)據(jù)平臺發(fā)行版(IDH)等平臺產(chǎn)品使用過程中存在較多的客戶化服務(wù)問題,具體如下。
● 新技術(shù)、組件的研究、集成、開發(fā)、運維成本非常高,周期長。在沒有有效技術(shù)支持的情況下,只能一點點地摸索新組件的使用,不但增加了研發(fā)周期,同時還需要較長時間的跟蹤、積累,才能將其投入關(guān)鍵領(lǐng)域。部分大數(shù)據(jù)組件成熟度較低,導(dǎo)致應(yīng)用風(fēng)險更大、周期更長。
● 應(yīng)用二次改造、升級、缺陷彌補難度大。大數(shù)據(jù)技術(shù)發(fā)展速度非???,組件的版本不斷更新。每個新版本的引入都需要全面的測試、驗證,才能投入研發(fā)。而應(yīng)用的二次改造、升級難度就更大。
● 開源大數(shù)據(jù)組件運維、監(jiān)控復(fù)雜,故障恢復(fù)、數(shù)據(jù)災(zāi)備等功能不完善,無法進行集中管理。
● 開源大數(shù)據(jù)平臺缺少有效的培訓(xùn)服務(wù)和技術(shù)支持。技術(shù)人員缺少大數(shù)據(jù)開發(fā)技能學(xué)習(xí)環(huán)境,掌握大數(shù)據(jù)組件開發(fā)技術(shù)周期長,產(chǎn)品運維過程中解決問題效率低下,嚴(yán)重影響應(yīng)用研發(fā)周期的有效控制。
綜上所述,缺少跟隨開源路線的高質(zhì)量大數(shù)據(jù)平臺化產(chǎn)品和技術(shù)支持,在規(guī)劃架構(gòu)、技術(shù)支持、故障恢復(fù)、生產(chǎn)運維等方面會導(dǎo)致應(yīng)用產(chǎn)品開發(fā)成本難以控制,投產(chǎn)應(yīng)用產(chǎn)品穩(wěn)定性欠佳,產(chǎn)品運維嚴(yán)重脫節(jié)。
中興大數(shù)據(jù)平臺GoldenData HD是基于開源技術(shù)的商用大數(shù)據(jù)平臺,是筆者所在單位近10年大數(shù)據(jù)項目實踐中的技術(shù)沉淀。該平臺涵蓋了數(shù)據(jù)的采集、存儲計算、分析挖掘、應(yīng)用建模、可視化展現(xiàn)以及運維管理等能力,其架構(gòu)如圖1所示。
圖1 GoldenData HD架構(gòu)
大數(shù)據(jù)平臺GoldenData HD具有如下主要特性。
● 成熟穩(wěn)定:基于多年的技術(shù)和經(jīng)驗積累,平臺的功能、性能、可靠性和穩(wěn)定性都經(jīng)過了極為苛刻的市場驗證,能夠滿足金融行業(yè)高可靠性的要求。
● 開放包容:集成超過20個組件,其中約80%為獨立的開源軟件。在融合的同時,進行了大量的創(chuàng)新和優(yōu)化,使之更具商用價值,GoldenData HD組件功能優(yōu)化結(jié)果如圖2所示。
圖2 GoldenData HD組件功能優(yōu)化結(jié)果
● 統(tǒng)一運維:統(tǒng)一大數(shù)據(jù)管理系統(tǒng),一站式滿足系統(tǒng)快速部署、集中管理及可靠運維需要。
● 安全可靠:精心設(shè)計的安全架構(gòu),構(gòu)建高枕無憂的應(yīng)用訪問環(huán)境。
● 訪問便捷:自主研制的開放數(shù)據(jù)處理平臺(open data processing platform,ODPP),在大數(shù)據(jù)基礎(chǔ)平臺之上架設(shè)統(tǒng)一訪問層。
● 開發(fā)速度快:平臺集成了大數(shù)據(jù)挖掘分析相關(guān)的各種基礎(chǔ)算法庫、開發(fā)工具、可視化工具,可以快速實現(xiàn)應(yīng)用開發(fā),降低開發(fā)難度。
目前GoldenData HD已經(jīng)在某銀行的多個研發(fā)部門應(yīng)用,逐步替換CDH、IDH等已有產(chǎn)品。通過全面測試,平臺功能的完備性、性能的可靠性得到了某銀行的全面認可。目前構(gòu)建在GoldenData HD大數(shù)據(jù)平臺上的文件管理、信用風(fēng)險、身份鑒別、柜面業(yè)務(wù)改造、對公客戶關(guān)系管理、合規(guī)審計、個人客戶關(guān)系管理等業(yè)務(wù)都已經(jīng)投產(chǎn)上線,管理會計、對公客戶關(guān)系、風(fēng)險控制等多個業(yè)務(wù)領(lǐng)域也正在研發(fā)中。截至2017年年底,在生產(chǎn)、開發(fā)、測試等環(huán)境中,部署GoldenData HD集群節(jié)點近400個,不但解決了某銀行在大數(shù)據(jù)技術(shù)應(yīng)用過程中的難題,也有效提升了業(yè)務(wù)開發(fā)的速度和質(zhì)量,滿足了金融業(yè)務(wù)的多樣性運行和測試需求。
下面簡單介紹基于GoldenData HD的3個典型應(yīng)用案例及效果。
(1)文件管理系統(tǒng)——業(yè)務(wù)支柱產(chǎn)品
文件管理系統(tǒng)是最先移植到大數(shù)據(jù)平臺上的應(yīng)用業(yè)務(wù)。此系統(tǒng)在某銀行信息化架構(gòu)中,用來管理、存儲各應(yīng)用系統(tǒng)產(chǎn)生的各種類型文件,如圖片、報表、照片等。系統(tǒng)部署在某銀行上海數(shù)據(jù)中心80個節(jié)點的集群中,使用了Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)、Yarn、ZooKeeper、HBase、Hive、Solr等組件,為全銀行提供文檔高效存儲查詢服務(wù)。基于GoldenData HD的文件管理系統(tǒng)架構(gòu)如圖3所示。
圖3 基于GoldenData HD的文件管理系統(tǒng)
其設(shè)計思路如下:
● 通過服務(wù)接口接收各應(yīng)用系統(tǒng)發(fā)送的小文件;
● 接收的文件在GoldenData HD中的Solr組件中建立索引;
● 若是小文件,存儲在GoldenData HD中的HBase組件,并根據(jù)業(yè)務(wù)特征建立RowKey;
● 若是大文件,則直接存儲在GoldenData HD中的HDFS上;
● 應(yīng)用系統(tǒng)發(fā)送查詢請求后,通過Solr快速定位文件存儲信息;
● 根據(jù)文件存儲信息分別從HBase、HDFS中提取文件提交至應(yīng)用系統(tǒng)。
系統(tǒng)投產(chǎn)至今,GoldenData HD除支撐系統(tǒng)架構(gòu)和投產(chǎn)外,還支持了兩次重大改造:一是2017年5月份,實現(xiàn)了在線Solr擴容,將索引數(shù)據(jù)承載能力提升了一倍;二是2017年年底,實現(xiàn)了系統(tǒng)從千兆網(wǎng)集群到萬兆網(wǎng)集群的平滑升級遷移,將文件數(shù)據(jù)處理效率提升了3倍。在兩次改造過程中,GoldenData HD提供的遷移、Solr擴容、數(shù)據(jù)恢復(fù)等支撐工具,有效縮短了擴容、遷移過程周期,并且保障了改造過程的順利完成。
通過擴容和遷移,有效提升了系統(tǒng)的負載能力。通過2年多的推廣應(yīng)用,文件管理平臺從輔助性產(chǎn)品提升為業(yè)務(wù)支柱性產(chǎn)品,目前已經(jīng)支撐5個省份的網(wǎng)點柜面身份鑒別業(yè)務(wù)改造、2個省份的網(wǎng)點柜面業(yè)務(wù)無紙化改造。截至2017年年底,使用的存儲容量已經(jīng)超過90 TB,預(yù)計2018年年底使用容量將超過2 PB。
(2)信用風(fēng)險管理系統(tǒng)——交易圖譜構(gòu)建
信用風(fēng)險管理系統(tǒng)是銀行業(yè)大數(shù)據(jù)應(yīng)用的核心內(nèi)容,原有系統(tǒng)受限于傳統(tǒng)架構(gòu),難以處理多達30億條的法人客戶交易數(shù)據(jù),僅月度數(shù)據(jù)查詢一次就超過20 min,無法滿足實際業(yè)務(wù)需要。
2016年年初,在系統(tǒng)規(guī)劃階段,筆者團隊技術(shù)專家和某銀行技術(shù)專家一起,首先分析了業(yè)務(wù)需求、數(shù)據(jù)特征,之后依據(jù)查詢并發(fā)能力、查詢效率等指標(biāo)的對比,選定了HBase作為查詢服務(wù)的載體組件。但HBase對多條件組合查詢的支持能力存在先天的嚴(yán)重不足,導(dǎo)致項目無法推進。
筆者團隊技術(shù)專家在進行深入的研究后,提出了組合實現(xiàn)方案,包括業(yè)務(wù)查詢方式的微調(diào)、合理的HBase的數(shù)據(jù)行鍵值(RowKey)設(shè)計方法、基于業(yè)務(wù)數(shù)據(jù)特征的HBase數(shù)據(jù)分區(qū)(region)劃分規(guī)則及定制開發(fā)的HBase協(xié)處理器功能,將復(fù)雜的組合查詢條件降維后和HBase的RowKey進行匹配,在集群中各數(shù)據(jù)分區(qū)服務(wù)(region server)功能上進行分布式并行過濾與查詢計算,實現(xiàn)了查詢過程的降維處理要求,將每次查詢的數(shù)據(jù)范圍控制在50 GB以內(nèi),有效提升了數(shù)據(jù)查詢效率。
系統(tǒng)采用了HDFS、Yarn、HBase、WAS(Web應(yīng)用系統(tǒng))、外部數(shù)據(jù)庫組成的混合架構(gòu),實現(xiàn)了查詢反饋效率的提升,使升級后的系統(tǒng)達到了預(yù)定性能目標(biāo)。基于GoldenData HD的信用風(fēng)險系統(tǒng)如圖4所示。
圖4 基于GoldenData HD的信用風(fēng)險系統(tǒng)
系統(tǒng)投產(chǎn)后,對比原系統(tǒng),基于月度數(shù)據(jù)的單次查詢效率由超過20 min下降到不足1 s,受到了銀行內(nèi)信用風(fēng)險部門業(yè)務(wù)人員的稱贊。
(3)基于大數(shù)據(jù)的多維分析平臺
某銀行現(xiàn)有的多維分析應(yīng)用是基于Cognos實現(xiàn)的。由于Cognos元數(shù)據(jù)服務(wù)承載能力低,難以承擔(dān)全銀行查詢并發(fā)壓力,故而不得不采取了總行/分行部署架構(gòu),此種架構(gòu)造成了運維難度巨大的問題。同時,隨著數(shù)據(jù)量的快速增長,數(shù)據(jù)方體(cube)的加工周期快速增長,部分cube的加工周期達到以天為單位。無法有效承載某銀行新業(yè)務(wù)模式賦予的重任。2016年年初,某銀行立項了新一代多維分析平臺項目,以徹底取代Cognos。
在研究過程中,筆者團隊技術(shù)專家與某銀行專家一起,選擇了GoldenData HD的Kylin為核心組件,并進行了深入的功能和性能研究。通過實際業(yè)務(wù)數(shù)據(jù)測試,針對大數(shù)據(jù)量的cube,Kylin的構(gòu)建速度比Cognos提升近10倍,并且證明了Kylin的高并發(fā)負載能力、標(biāo)準(zhǔn)SQL支持能力、GoldenData HD集群的快速橫向擴展能力,充分滿足了某銀行當(dāng)前以及將來的多維分析業(yè)務(wù)需求。
2017年7月,以GoldenData HD為基礎(chǔ),具備支撐百億級數(shù)據(jù)能力的多維分析平臺順利投產(chǎn),以云服務(wù)模式滿足各領(lǐng)域商業(yè)智能分析需求?;贕oldenData HD的多維分析系統(tǒng)如圖5所示。
圖5 基于GoldenData HD的多維分析系統(tǒng)
投產(chǎn)后不久,某銀行管理會計系統(tǒng)的cube就在此平臺上設(shè)計并構(gòu)建,為管理會計系統(tǒng)提供了新一代多維數(shù)據(jù)服務(wù)。后續(xù)在各業(yè)務(wù)系統(tǒng)升級改造過程中,新一代多維分析平臺將逐步取代原有的Cognos,實現(xiàn)全銀行集中的大數(shù)據(jù)多維分析服務(wù)平臺。
基于對金融行業(yè)數(shù)字化轉(zhuǎn)型中面臨的實際問題的研究,某銀行聯(lián)合筆者所在單位進行大數(shù)據(jù)技術(shù)應(yīng)用分析,采用GoldenData HD平臺進行生產(chǎn)系統(tǒng)改造,構(gòu)建了多個開放的數(shù)據(jù)存儲、查詢和分析系統(tǒng),有效提升了海量數(shù)據(jù)存儲和業(yè)務(wù)應(yīng)用查詢的速度,為某銀行在大數(shù)據(jù)時代的數(shù)字化轉(zhuǎn)型和跨越式發(fā)展提供了有力的支撐。
參考文獻:
[1]劉偉娜, 谷曉飛, 監(jiān)文慧. 大數(shù)據(jù)應(yīng)用研究[J].合作經(jīng)濟與科技, 2017(9): 26-27.LIU W N, GU X F, JIAN W H. Research on large data application[J]. Co-operative Economy & Science, 2017(9): 26-27.
[2]SCHOENBERG V M, CUKIER K. 大數(shù)據(jù)時代:生活、工作、思維的大變革[M]. 盛楊燕,周濤, 譯. 杭州: 浙江人民出版社, 2013.SCHOENBERG V M, CUKIER K. Big data:a revolution that will transform how we live,work, and think[M]. Translated by SHENG Y Y, ZHOU T. Hangzhou: Zhejiang People's Publishing House, 2013.
[3]侯敬文, 程功勛. 大數(shù)據(jù)時代我國金融數(shù)據(jù)的服務(wù)創(chuàng)新[J]. 財經(jīng)科學(xué), 2015(10): 26-35.HOU J W, CHENG G X. Service innovation of China’s financial data in big data time[J]. Finance & Economics, 2015(10):26-35.
[4]王文, 李明, 戚晨. 淺析金融大數(shù)據(jù)平臺的架構(gòu)與建設(shè)[J]. 金融電子化, 2015(12): 86-87.WANG W, LI M, QI C. Analysis of the structure and construction of large financial data platform[J]. Financial Computerizing, 2015(12): 86-87.