武警警官學(xué)院訓(xùn)練基地 廣東 廣州 510440
自阿里巴巴提出“大中臺,小前臺”戰(zhàn)略后,數(shù)據(jù)中臺在互聯(lián)網(wǎng)領(lǐng)域取得了快速發(fā)展,本文將為大家分享的是如何打造數(shù)據(jù)中臺的過程。數(shù)據(jù)中臺建設(shè)是以數(shù)據(jù)驅(qū)動業(yè)務(wù)創(chuàng)新為目的,具有機動快速、靈活反應(yīng)的技術(shù)與組織能力體系建設(shè)。它具備三個基本要素:①最終目的:中臺的最終目的是解決業(yè)務(wù)問題;②解決訴求:快速解決業(yè)務(wù)訴求是數(shù)據(jù)中臺建設(shè)的一個重要的考量指標(biāo)。說到底,中臺建設(shè)是為了使用服務(wù);③完整的組織:沒有嚴(yán)格的組織間協(xié)調(diào),就無法形成強大的戰(zhàn)斗力,因此多支游擊隊湊在一起成不了集團軍。關(guān)于技術(shù)體系、組織架構(gòu),需要有完整、嚴(yán)謹和深入的思考。
數(shù)據(jù)中臺通常認為由五個核心架構(gòu)部分組成,包括:基礎(chǔ)數(shù)據(jù)層,包括數(shù)據(jù)采集平臺、計算平臺、存儲平臺,這些可以使用云計算服務(wù),也可以自建。公共數(shù)據(jù)層,包括數(shù)據(jù)湖(數(shù)據(jù)倉庫),負責(zé)公共數(shù)據(jù)模型的研發(fā),還包括統(tǒng)一指標(biāo)(標(biāo)簽)平臺,負責(zé)把模型組織成可以對外服務(wù)的數(shù)據(jù)。應(yīng)用服務(wù)層,負責(zé)將公共數(shù)據(jù)區(qū)的數(shù)據(jù)提供對外服務(wù),包括數(shù)據(jù)分析平臺、數(shù)據(jù)接口平臺、數(shù)據(jù)可視化平臺,多維查詢平臺等。數(shù)據(jù)研發(fā)平臺,涵蓋數(shù)據(jù)開發(fā)的各類工具,如:腳本開發(fā)工具、數(shù)據(jù)管道工具、模型設(shè)計工具、數(shù)據(jù)調(diào)度工具等。數(shù)據(jù)管理平臺,針對全鏈路的數(shù)據(jù)管理,保證可以監(jiān)控數(shù)據(jù)流向、數(shù)據(jù)使用效果、數(shù)據(jù)生命周期,以衡量數(shù)據(jù)的價值與成本。除此之外,為了豐富數(shù)據(jù)中臺的組成,可以對架構(gòu)進行擴展,如:構(gòu)建數(shù)據(jù)資產(chǎn)平臺、算法平臺等。由于數(shù)據(jù)源于業(yè)務(wù)并最終服務(wù)于業(yè)務(wù),因此在數(shù)據(jù)中臺構(gòu)建過程中必須重視與業(yè)務(wù)的銜接,需要通過制定一系列的流程制度加以明確,用來保障數(shù)據(jù)的來源及輸出的質(zhì)量[1]。
One ID指統(tǒng)一數(shù)據(jù)萃取,是一套解決數(shù)據(jù)孤島問題的思想和方法。目前我校師生的身份標(biāo)識ID有學(xué)號、教工號、NetID、校園卡號和身份證號等,這些ID散落在學(xué)校的各個業(yè)務(wù)系統(tǒng)中,其中身份證號具有最強唯一性,同時具有較強的數(shù)據(jù)敏感性,因此,結(jié)合實際情況可以根據(jù)身份證號映射生成統(tǒng)一用戶uid,讓uid代行全局唯一身份標(biāo)識的作用,同時將全局唯一身份標(biāo)識代入到全域數(shù)據(jù)倉庫的各層數(shù)據(jù)中,通過這個統(tǒng)一uid,便可關(guān)聯(lián)起各個數(shù)據(jù)域的數(shù)據(jù),實現(xiàn)數(shù)據(jù)通融,以確保業(yè)務(wù)分析、用戶畫像等數(shù)據(jù)應(yīng)用的準(zhǔn)確和全面。
(1)貼源數(shù)據(jù)層(operational datastore,ODS):全域數(shù)據(jù)統(tǒng)一存儲。主要采集校園各業(yè)務(wù)系統(tǒng)、日志平臺等結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),然后匯聚到數(shù)據(jù)中臺,盡可能保留原始業(yè)務(wù)流程數(shù)據(jù),根據(jù)數(shù)據(jù)業(yè)務(wù)需求及審計要求保存歷史數(shù)據(jù)、清洗數(shù)據(jù),為上層提供數(shù)據(jù)服務(wù)。
(2)統(tǒng)一數(shù)倉層(common data model,CDM)又稱為通用數(shù)據(jù)模型層,由公共維度匯總層(dimension,DIM)、數(shù)據(jù)倉庫明細層(data warehouse detail,DWD)和數(shù)據(jù)倉庫匯總層(data warehouse summary,DWS)3部分組成。本研究使用阿里的One Data核心方法論來完成CDM層的數(shù)據(jù)構(gòu)建和管理,以維度建模為理論基礎(chǔ),先做業(yè)務(wù)調(diào)研和需求調(diào)研,以業(yè)務(wù)系統(tǒng)為單位劃分業(yè)務(wù)板塊,然后面向業(yè)務(wù)分析按照高內(nèi)聚低耦合等原則,將業(yè)務(wù)過程整合成10個數(shù)據(jù)域,同時根據(jù)業(yè)務(wù)過程整理出相關(guān)原子指標(biāo)、派生指標(biāo)和抽象維度指標(biāo)體系,最后設(shè)計出維度表、明細事實表和匯總事實表,形成統(tǒng)一規(guī)范的標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù)體系。其中,教工域和學(xué)生域依據(jù)角色在校全生命周期業(yè)務(wù)梳理,共確定原子指標(biāo)241個、派生指標(biāo)336個。其中,原子指標(biāo)和度量含義相同,是某一業(yè)務(wù)行為的度量,是業(yè)務(wù)定義中不可再拆分的指標(biāo),如學(xué)生的學(xué)費實收金額;派生指標(biāo)由原子指標(biāo)、時間周期修飾詞、若干其他修飾詞組合得到,如管理學(xué)院學(xué)生一學(xué)年學(xué)費實收金額則為派生指標(biāo)。
(3)應(yīng)用數(shù)據(jù)層(application datastore,ADS)提供直接面向業(yè)務(wù)或應(yīng)用的數(shù)據(jù),按照業(yè)務(wù)的需要從統(tǒng)一數(shù)倉層抽取數(shù)據(jù),并面向業(yè)務(wù)的特殊需要加工業(yè)務(wù)特定數(shù)據(jù),以滿足業(yè)務(wù)及性能需求,向特定應(yīng)用組裝應(yīng)用數(shù)據(jù)。如無公用性或復(fù)雜性(如指數(shù)型、比值型和排名型等指標(biāo)數(shù)據(jù))的指標(biāo)數(shù)據(jù)加工。同時為方便實現(xiàn)數(shù)據(jù)應(yīng)用、數(shù)據(jù)消費的訴求,進行面向應(yīng)用邏輯的數(shù)據(jù)組裝(如橫表轉(zhuǎn)縱表和趨勢指標(biāo)串等)。
數(shù)據(jù)中臺把傳統(tǒng)數(shù)倉和大數(shù)據(jù)架構(gòu)進行完全融合,利用大數(shù)據(jù)技術(shù)建立數(shù)據(jù)資產(chǎn)體系,提升數(shù)據(jù)共享力和服務(wù)力,為業(yè)務(wù)人員提供自助式數(shù)據(jù)服務(wù),培養(yǎng)數(shù)據(jù)思維。校園大數(shù)據(jù)體系的架構(gòu)和建設(shè)需要使用“自下而上”和“自上而下”相結(jié)合的方法?!白韵露稀敝笇θ驍?shù)據(jù)進行面向業(yè)務(wù)域的梳理;“自上而下”指面向分析主題將相關(guān)數(shù)據(jù)整合到數(shù)據(jù)倉庫中。數(shù)據(jù)體系的實施主要包括業(yè)務(wù)調(diào)研和需求分析、數(shù)據(jù)總價架構(gòu)設(shè)計、指標(biāo)體系設(shè)計與實施、使用驗證與優(yōu)化4個環(huán)節(jié),業(yè)務(wù)調(diào)研和需求分析做得是否充分直接決定了數(shù)據(jù)體系建設(shè)的是否成功,數(shù)據(jù)體系的使用效能、活力和可持續(xù)性還需要通過交付使用后驗證,并不斷進行優(yōu)化迭代,從而提高數(shù)據(jù)資產(chǎn)所產(chǎn)生的綜合效益。