徐保國(guó)
【摘要】設(shè)計(jì)數(shù)據(jù)庫(kù)的目的是為了管理大量的數(shù)據(jù),對(duì)數(shù)據(jù)的管理既涉及到數(shù)據(jù)操作機(jī)制的提供,又涉及到數(shù)據(jù)存儲(chǔ)。如果把數(shù)據(jù)庫(kù)管理系統(tǒng)看成是一個(gè)倉(cāng)庫(kù),在倉(cāng)庫(kù)里存放著各種各樣的的物品,另外還有一個(gè)倉(cāng)庫(kù)保管員,這個(gè)保管員負(fù)責(zé)不同物品的搬進(jìn)、存儲(chǔ)、搬出,這里的倉(cāng)庫(kù)就類似于存儲(chǔ)數(shù)據(jù)的“文件”。
【關(guān)鍵詞】數(shù)據(jù)庫(kù)系統(tǒng);存儲(chǔ)系統(tǒng)設(shè)計(jì);數(shù)據(jù)庫(kù)倉(cāng)庫(kù)
一、系統(tǒng)設(shè)計(jì)及解決方案實(shí)現(xiàn)的背景
縱觀券商IT發(fā)展現(xiàn)狀,首先企業(yè)級(jí)業(yè)務(wù)應(yīng)用越來(lái)越多,分工也越來(lái)越細(xì),而企業(yè)級(jí)的業(yè)務(wù)應(yīng)用需求和要求都越來(lái)越高,單個(gè)業(yè)務(wù)產(chǎn)品滿足不了企業(yè)級(jí)應(yīng)用需求,以下是目前券商主要面臨的企業(yè)級(jí)應(yīng)用需求:
1.面向上級(jí)監(jiān)管部門的數(shù)據(jù)報(bào)送
2.企業(yè)級(jí)合規(guī)管理和風(fēng)險(xiǎn)控制要求越來(lái)越高
3.實(shí)時(shí)動(dòng)態(tài)業(yè)務(wù)風(fēng)險(xiǎn)監(jiān)控
4.企業(yè)決策支持平臺(tái)
5.客戶營(yíng)銷管理
二、數(shù)據(jù)中心目標(biāo)定位
概括而言,數(shù)據(jù)中心一方面是現(xiàn)有營(yíng)業(yè)部柜臺(tái)交易系統(tǒng)、總部清算系統(tǒng)、稽核系統(tǒng)等業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集者和管理者,同時(shí)也是營(yíng)銷管理、稽核監(jiān)控、風(fēng)險(xiǎn)管理、數(shù)據(jù)挖掘和多維分析系統(tǒng)的數(shù)據(jù)提供者。
(一)產(chǎn)品定位。企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)中心,據(jù)交換中心,據(jù)服務(wù)中心。
(二)功能定位。致力于企業(yè)業(yè)務(wù)數(shù)據(jù)的管理方法和管理工具研發(fā),包括業(yè)務(wù)數(shù)據(jù)組織架構(gòu)規(guī)劃、數(shù)據(jù)規(guī)范管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)發(fā)布管理以及數(shù)據(jù)的復(fù)用性管理等方面的系統(tǒng)性工程。
(三)存貯設(shè)計(jì)定位
既要考慮高并發(fā)高效率的OLTP服務(wù)處理,也要考慮大數(shù)據(jù)量訪問(wèn)的OLAP統(tǒng)計(jì)分析要求, 基于未來(lái)5年到10年的數(shù)據(jù)存貯容量測(cè)算,以此來(lái)考慮系統(tǒng)的主機(jī)、存儲(chǔ)架構(gòu)設(shè)計(jì)以及數(shù)據(jù)處理技術(shù)應(yīng)用等技術(shù)研究工作的方向。
三、系統(tǒng)設(shè)計(jì)原則
數(shù)據(jù)中心項(xiàng)目技術(shù)解決方案的設(shè)計(jì)原則體現(xiàn)在以下六個(gè)方面,使得有限的資源以較有效的協(xié)作方式共同發(fā)揮效用:
(一)可擴(kuò)展性
數(shù)據(jù)模型:設(shè)計(jì)模型時(shí),盡可能滿足未來(lái)可能要上線的業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型,同時(shí)還需制定一套合理的模型設(shè)計(jì)規(guī)范。
數(shù)據(jù)分發(fā)平臺(tái):在設(shè)計(jì)時(shí)應(yīng)考慮,隨著分發(fā)數(shù)據(jù)規(guī)模的擴(kuò)大和分發(fā)節(jié)點(diǎn)的增多,對(duì)分發(fā)處理和傳輸處理的性能要求會(huì)越來(lái)越高。
(二)高性能
分發(fā)平臺(tái):需考慮大數(shù)據(jù)量條件下的文件傳輸效率,主要體現(xiàn)在特殊日期及特殊情況下的全量文件傳輸。數(shù)據(jù)庫(kù)設(shè)計(jì):同時(shí)要考慮分析類型的大批量數(shù)據(jù)或頻繁訪問(wèn)需求,還要滿足實(shí)時(shí)監(jiān)控類的高并發(fā)訪問(wèn)要求。。
(三)可管理性
數(shù)據(jù)質(zhì)量管理:報(bào)告的可讀性,標(biāo)準(zhǔn)的可維護(hù)性,問(wèn)題處理流程的可操作性。數(shù)據(jù)分發(fā)平臺(tái):需要充分考慮數(shù)據(jù)分發(fā)任務(wù)易于配置,傳輸結(jié)果易于監(jiān)控。
(四)高可用性
數(shù)據(jù)模型的可用性:能屏蔽源系統(tǒng)結(jié)構(gòu)的變化對(duì)數(shù)據(jù)中心系統(tǒng)帶來(lái)影響。局部數(shù)據(jù)模型的擴(kuò)展不會(huì)對(duì)其它數(shù)據(jù)模型產(chǎn)生大的影響。系統(tǒng)備份:生產(chǎn)系統(tǒng)出現(xiàn)異常時(shí),備份恢復(fù)機(jī)制及時(shí)恢復(fù)處理。
(五)安全性。一是防止數(shù)據(jù)中心系統(tǒng)的數(shù)據(jù)資源被惡意修改和盜取;二是防止數(shù)據(jù)在傳輸過(guò)程中被截留和篡改。
(六)可重用性??芍赜眯允侵副M可能避免數(shù)據(jù)中心項(xiàng)目的重復(fù)投入,應(yīng)盡可能考慮包括物理設(shè)備、系統(tǒng)軟件、框架組件、規(guī)范方法以及業(yè)務(wù)應(yīng)用等多個(gè)層面上的復(fù)用。
四、數(shù)據(jù)庫(kù)存貯方案設(shè)計(jì)
1.1 數(shù)據(jù)各邏輯層級(jí)劃分。為保證數(shù)據(jù)中心能提供多層次、多粒度、多特征的數(shù)據(jù)服務(wù),并保證ETL過(guò)程的清晰、可控、完整、準(zhǔn)確,數(shù)據(jù)中心根據(jù)數(shù)據(jù)性質(zhì)、處理階段以及數(shù)據(jù)質(zhì)量的不同分為原始層、標(biāo)準(zhǔn)層、模型層、數(shù)據(jù)集市層4個(gè)數(shù)據(jù)層,具體如下:
1.2 數(shù)據(jù)庫(kù)系統(tǒng)的硬件架構(gòu)設(shè)計(jì)。根據(jù)系統(tǒng)分析得出的各項(xiàng)數(shù)據(jù),即可得到相應(yīng)的硬件配置要求。
1.2.1 存儲(chǔ)設(shè)備容量評(píng)估。本節(jié)提出的“存儲(chǔ)容量規(guī)劃”將支持過(guò)去5年以上的歷史數(shù)據(jù)和未來(lái)10年的新增業(yè)務(wù)數(shù)據(jù)的存儲(chǔ)空間要求。
1.2.1.1 基礎(chǔ)數(shù)據(jù)規(guī)模評(píng)估。根據(jù)調(diào)查,某券商2002年以來(lái)(至2012年)的歷史數(shù)據(jù)規(guī)模可按1.5T計(jì)算。
我們以此次配置的存儲(chǔ)“滿足未來(lái)3-4年(從2012年算起)的業(yè)務(wù)正常運(yùn)行”、“將考慮未來(lái)10年的業(yè)務(wù)運(yùn)行的擴(kuò)展能力”這兩個(gè)條件來(lái)評(píng)估,得出的基礎(chǔ)數(shù)據(jù)規(guī)模為:
A2015=1.5T+(7G×25%×236)×(1.05+1.1025+1.1576)
約=2.9T
A2022=1.5T+(7G×25%×236)×(1.05+1.1025...+1.05^10)
約=6.8T
注:公式中的25%是增量數(shù)據(jù)因子。每次進(jìn)行清洗時(shí),通過(guò)一定的方法,將部分非增量數(shù)據(jù)丟棄(這75%的數(shù)據(jù),我們通過(guò)比對(duì)法發(fā)現(xiàn)其與歷史數(shù)據(jù)或存量數(shù)據(jù)有重復(fù)取值,將其載入后暫存待查或去除)的結(jié)果。
1.2.1.2 邏輯數(shù)據(jù)存儲(chǔ)規(guī)模評(píng)估。上節(jié)評(píng)估出的“基礎(chǔ)數(shù)據(jù)規(guī)模(后稱A)”,將是本系統(tǒng)進(jìn)行邏輯數(shù)據(jù)存儲(chǔ)規(guī)模(后稱B)的依據(jù)。原始層數(shù)據(jù)的規(guī)模B1:按最后年度的1倍采集數(shù)據(jù)量計(jì)算。ODS層數(shù)據(jù)的規(guī)模B2:考慮到原始數(shù)據(jù)被處理后的部分業(yè)務(wù)數(shù)據(jù)的重新組織和重定義,且會(huì)生成一定的聚集數(shù)據(jù),應(yīng)給予適當(dāng)?shù)娜哂?,此處的冗余因子設(shè)定為1.2。
EDW層數(shù)據(jù)的規(guī)模B3:考慮ODS數(shù)據(jù)將經(jīng)過(guò)較大規(guī)模的重新組織和聚集處理(初步設(shè)計(jì)按10大主題進(jìn)行分析)進(jìn)入此層,需要考慮較大的冗余度,按業(yè)務(wù)特點(diǎn)初步設(shè)定此處的冗余因子設(shè)定為1.2×1.3=1.56。
1.3 備份環(huán)境設(shè)計(jì)。根據(jù)證監(jiān)會(huì)的相關(guān)要求,系統(tǒng)需要建設(shè)本地“備份和應(yīng)用測(cè)試機(jī)”環(huán)境。但如果我們只是刻板的將“生產(chǎn)環(huán)境”克隆一下,將極不經(jīng)濟(jì)。我們需要按照應(yīng)用特點(diǎn)、數(shù)據(jù)處理要求,來(lái)定制備機(jī)架構(gòu)。本地“備份和應(yīng)用測(cè)試機(jī)”需兼顧“數(shù)據(jù)備份和本地容災(zāi)”雙重職能。
1.4 數(shù)據(jù)備份需求評(píng)估。數(shù)據(jù)中心的數(shù)據(jù)必須建立可靠有效的備份機(jī)制,避免由于數(shù)據(jù)丟失。初步規(guī)劃:將數(shù)據(jù)中心管理的數(shù)據(jù)分成3類并分別制定備份策略。這3類數(shù)據(jù)可以使用用戶隔離、表空間隔離相結(jié)合的方式,增強(qiáng)備份調(diào)度的可操作性。靜態(tài)數(shù)據(jù)、配置信息表(/領(lǐng)域表):可以每日備份,并可覆蓋性備份,保留最近3日或者5日的備份即可。
參考文獻(xiàn)
[1] 湯庸, 葉小平, 湯娜. 數(shù)據(jù)庫(kù)理論及應(yīng)用基礎(chǔ). 北京: 清華大學(xué)出版社, 2004
[2] 馮建華,周立柱等編著, 數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)與原理(第2版). 清華大學(xué)出版社, 2007