諶迅
摘要:伴隨著大數(shù)據(jù)時代的到來,存儲在云端的數(shù)百萬的數(shù)據(jù)想要成為真正的具有價值的資產(chǎn),就需要一個有效的管理系統(tǒng)對其進行管理,針對云端數(shù)據(jù)量大、結(jié)構(gòu)復雜等方面的特點,設計并實現(xiàn)一個能夠?qū)?shù)據(jù)從采集到處理再到清理最后直到產(chǎn)品化的整個生命周期進行管理的系統(tǒng),并將這些雜亂無章的數(shù)據(jù)資產(chǎn)化。該系統(tǒng)使用kafka總結(jié)結(jié)構(gòu),將數(shù)據(jù)的資產(chǎn)化過程分為采集、清洗、產(chǎn)出等多個階段,并配套的設計了多個豐富系統(tǒng)功能的子系統(tǒng),能夠大大的提高數(shù)據(jù)資產(chǎn)的使用率。本文介紹了系統(tǒng)的設計和實現(xiàn)過程,詳細描述了對系統(tǒng)起到支撐作用的多個子系統(tǒng),本系統(tǒng)易擴展,可兼容,研究具有一定的現(xiàn)實意義。
關(guān)鍵詞:大數(shù)據(jù);遠程監(jiān)控;資產(chǎn)化;運維系統(tǒng)
中圖分類號:TP311.5
文獻標識碼:A
DOI:10.3969/j.issn.1003-6970.2016.02.013
引言
伴隨著大數(shù)據(jù)時代的到來,存數(shù)在云端的數(shù)據(jù)數(shù)以萬計。而這些成百上千的數(shù)據(jù),在套上了大數(shù)據(jù)的背景之后,其價值被重新定位,可以說,在正確的管理下,數(shù)據(jù)就是無形的最有價值的資產(chǎn)。然而,數(shù)據(jù)本身并不具有資產(chǎn)屬性,它需要一個有效的管理系統(tǒng)完成自動化的采集、處理、清晰、產(chǎn)品化等一系列流程才能具有價值。
就目前而言,無論是IT、金融或者其他部門,都無時不刻的產(chǎn)生著大量的數(shù)據(jù),然而隨著數(shù)據(jù)的增多,以及人員交接等問題,數(shù)據(jù)資源無法被使用,重復使用等問題大大增加了資源的管理成本,給管理部門造成了很多問題。針對這些問題,我們需要設計一個資產(chǎn)管理系統(tǒng),眾多的資源管理系統(tǒng)一樣,本系統(tǒng)以計算機作為操作平臺,采用B/S結(jié)構(gòu)和分布是數(shù)據(jù)庫對資源的整個生命周期(產(chǎn)生、采集、整理、盤點、報廢進行全方位監(jiān)管)。通過數(shù)據(jù)的資產(chǎn)目錄建立,對數(shù)據(jù)質(zhì)量的治理,使得數(shù)據(jù)能夠被管理者應用,并設計實現(xiàn)了數(shù)據(jù)資產(chǎn)的后期運營,可以支持企業(yè)數(shù)據(jù)資產(chǎn)的分發(fā)、開放、交易等數(shù)據(jù)嫁接的實現(xiàn),從而促進數(shù)據(jù)資產(chǎn)的價值實現(xiàn)。
1 系統(tǒng)架構(gòu)設計
漸進的方式向資產(chǎn)運營目標過渡。系統(tǒng)大致分為數(shù)據(jù)目錄管理模塊,用來解決有哪些數(shù)據(jù)的問題,以及數(shù)據(jù)資產(chǎn)運營模塊,用來方便后期運維,用戶根據(jù)特定的資產(chǎn)稽核規(guī)則,這個數(shù)據(jù)資產(chǎn)管理系統(tǒng)的核心設計思路是從大數(shù)據(jù)資產(chǎn)治理人手,兼顧數(shù)據(jù)應用,以對系統(tǒng)中的資源進行監(jiān)控,評測,保證數(shù)據(jù)在運行期的質(zhì)量,方便生產(chǎn)部門將數(shù)據(jù)進一步加工成產(chǎn)品。系統(tǒng)大體的體系架構(gòu)設計如圖l:
(l)元數(shù)據(jù)庫:用了存放系統(tǒng)中原始數(shù)據(jù)的數(shù)據(jù)庫,各種類型的數(shù)據(jù)通過目錄管理模塊,形成統(tǒng)一的格式,存入元數(shù)據(jù)庫中,此時的數(shù)據(jù)僅僅是數(shù)據(jù),不具有資產(chǎn)屬性,也不能變成產(chǎn)品,只有經(jīng)過后續(xù)的加工才能成為產(chǎn)品,相當于一個原始數(shù)據(jù)的存儲模塊,只是規(guī)定了統(tǒng)一的接口。
(2)數(shù)據(jù)目錄管理:系統(tǒng)的第一個子模塊,建立并維護一個數(shù)據(jù)資產(chǎn)目錄,目的就是將紛繁復雜的數(shù)據(jù)資源整合起來,在商定好統(tǒng)一的接口之后,發(fā)送給源數(shù)據(jù)庫。
(3)數(shù)據(jù)資產(chǎn)質(zhì)態(tài)庫:元數(shù)據(jù)庫中的數(shù)據(jù)進過接口匯集、產(chǎn)品加載等一系列流程(采集、校驗、清洗、脫敏)處理,進入數(shù)據(jù)質(zhì)態(tài)庫,這里的數(shù)據(jù)可以稱之為數(shù)據(jù)資產(chǎn)了,它具有統(tǒng)一的格式,形成相應的視圖,并且需要對其屬性進行長期監(jiān)控
(4)數(shù)據(jù)質(zhì)量稽核:由于該系統(tǒng)每天都要上報大量的數(shù)據(jù),所以要對質(zhì)態(tài)庫中的數(shù)據(jù)質(zhì)量進行分析,也就是數(shù)據(jù)資產(chǎn)的后期維護功能,他決定著系統(tǒng)能不能在第一時間發(fā)現(xiàn)并解決數(shù)據(jù)、設備故障的問題,是保證系統(tǒng)正常運行的關(guān)鍵。
系統(tǒng)的工作流程大致如下:數(shù)據(jù)資產(chǎn)目錄模塊負責整理云端的數(shù)據(jù),并將其存入系統(tǒng)的元數(shù)據(jù)庫,然而元數(shù)據(jù)庫的數(shù)據(jù)作為原始數(shù)據(jù),并不具有資產(chǎn)屬性,經(jīng)過處理和相應的盤點進入數(shù)據(jù)資產(chǎn)狀態(tài)庫,在通過對這些資產(chǎn)狀態(tài)進行分析成為大數(shù)據(jù)資產(chǎn),從而可以被相應的部門使用。
2 系統(tǒng)實現(xiàn)
如上一章中所提到的,系統(tǒng)由兩個數(shù)據(jù)庫和兩個子系統(tǒng)實現(xiàn),這兩個子系統(tǒng)分別是目錄子系統(tǒng)和稽核子系統(tǒng),其中目錄子系統(tǒng)負責解決系統(tǒng)由什么資源的問題,稽核子系統(tǒng)解決這些資源是否正常的問題,以下為詳細介紹:
2.1 數(shù)據(jù)資產(chǎn)目錄子系統(tǒng)
如前文所提到的該子系統(tǒng)維持了一個整理數(shù)據(jù)資產(chǎn)的方式,集中解決的是整理系統(tǒng)由哪些資源的問題:
所以在此模塊的設計涉及到數(shù)據(jù)的存儲模式:例如DPI類的數(shù)據(jù)、ODS類的數(shù)據(jù)如何定義成統(tǒng)一的格式,規(guī)定一個統(tǒng)一的接口,定義各個層級的功能和規(guī)范,還需要定義各資產(chǎn)的硬件存儲環(huán)境,統(tǒng)一字段屬性,并且最終形成資產(chǎn)目錄視圖。圖2為資產(chǎn)目錄子系統(tǒng)的總體設計思路:
(l)目錄架構(gòu):此處定義了數(shù)據(jù)的分類以及數(shù)據(jù)所屬的層次,下圖3為目錄架構(gòu)表:
此表針對不同的數(shù)據(jù)類型,采用不同的目錄結(jié)構(gòu)。
(2)存儲環(huán)境:此處定義各類數(shù)據(jù)在什么環(huán)境下存儲。
(3)資產(chǎn)信息:此處規(guī)定目錄中的數(shù)據(jù)資產(chǎn)需要統(tǒng)一的提取哪些字段,例如名稱、每種類型數(shù)據(jù)資產(chǎn)的數(shù)據(jù)量、用途等。
(4)資產(chǎn)屬性:規(guī)定個資源信息的格式,例如資源名稱的格式是怎么樣的應該包含數(shù)據(jù)的產(chǎn)生時間+產(chǎn)生方式+產(chǎn)生單位等一系列統(tǒng)一的口徑。
在定義好數(shù)據(jù)的接口規(guī)范以后元數(shù)據(jù)庫的不同類型的數(shù)據(jù)(ODS類、DPI類)經(jīng)過接口層形成固定格式的數(shù)據(jù),經(jīng)過生產(chǎn)、加工成為有效的資源類數(shù)據(jù),系統(tǒng)采用hbase與mysql作為存儲方式,主要統(tǒng)計的是各種資產(chǎn)的記錄條數(shù)、量值等信息,并且有一系列有字段屬性。資產(chǎn)目錄的展示如圖4:
系統(tǒng)可以根據(jù)不同的數(shù)據(jù),進行數(shù)據(jù)稽核,檢查數(shù)據(jù)是否有問題。此處的任務ID都是隨機生成,稽核類型指的是稽核點,是檢查數(shù)據(jù)的位置,即哪些數(shù)據(jù)是有問題的。
最終系統(tǒng)還可以根據(jù)目錄生成資產(chǎn)關(guān)系視圖:
他簡單的表達了哪些數(shù)據(jù)是屬于哪個中心的,從屬于哪些任務一目了然。
2.2 數(shù)據(jù)質(zhì)量稽核子系統(tǒng)
該子系統(tǒng)負責對數(shù)據(jù)資產(chǎn)質(zhì)量庫的數(shù)據(jù)進行監(jiān)控、統(tǒng)計維護以及質(zhì)量評估,作為監(jiān)控系統(tǒng)是否正常工作的子系統(tǒng),在監(jiān)控中起著非常重要的作用。簡單來說,此部分的工作首先就是要對告警規(guī)則進行配置,之后對各個類型的數(shù)據(jù)資產(chǎn)進行監(jiān)控并打分,因此,這個子系統(tǒng)分為三個模塊:數(shù)據(jù)質(zhì)量監(jiān)控模塊、告警稽核模塊、數(shù)據(jù)打分模塊.
數(shù)據(jù)質(zhì)量監(jiān)控模塊:這里要對第一章提到的數(shù)據(jù)的整個生命周期進行監(jiān)控,對于源數(shù)據(jù)庫中的數(shù)據(jù),要對他的及時性、完整性、重復率進行監(jiān)控;對于質(zhì)態(tài)數(shù)據(jù)庫中的數(shù)據(jù),要對其一致性、完整性、邏輯性進行監(jiān)控。
告警稽核模塊:首先,有網(wǎng)管人員配置告警規(guī)則,系統(tǒng)采樣數(shù)據(jù)指標,判斷數(shù)據(jù)是否存在故障,如有故障,下發(fā)告警以及解決方案。
數(shù)據(jù)打分模塊:通過判斷數(shù)據(jù)的一致性、數(shù)據(jù)的邏輯性、數(shù)據(jù)的重復率、文件的完整性、文件的及時性等指標根據(jù)打分規(guī)則對各部門數(shù)據(jù)進行打分。
子系統(tǒng)的業(yè)務工作流程如下圖:
系統(tǒng)首先讀取管理員的稽核規(guī)則,然后系統(tǒng)提取數(shù)據(jù)稽核點的數(shù)值得到結(jié)果,根據(jù)這個結(jié)果,自動生成數(shù)據(jù)質(zhì)量表,可以對數(shù)據(jù)質(zhì)量進行打分,當然,打分規(guī)則也是可以配置的;同時系統(tǒng)可以根據(jù)事先配置好的告警規(guī)則判定時候需要告警,并發(fā)送警告。
以下是部分效果展示:
如上圖所示,各種不同的稽核規(guī)則,對應不同的資產(chǎn)類型,多長時間稽核一次,用什么類型的方法稽核,在此處都可以配置,這樣,無疑增加了檢測的靈活性。這個就是告警規(guī)則的配置頁面,此圖之后還可以選擇稽核點,稽核方式等問題。
這個是打分結(jié)果表通過此窗口,便可以查看各個數(shù)據(jù)資產(chǎn)的是否有問題,此處還可以選擇相應的稽核規(guī)則。前文已經(jīng)所說,此處的稽核規(guī)則也算是事先被配置好了的,選擇適合稽核規(guī)則,只有這樣,數(shù)據(jù)的質(zhì)量才有保障。
3 結(jié)論
本文給出了一個數(shù)據(jù)資產(chǎn)管理系統(tǒng)的設計方案并按此思路完成了實現(xiàn)以及后期的測試,通過系統(tǒng)的開發(fā)以及后期的實踐,系統(tǒng)可以對大量的數(shù)據(jù)進行稽核檢測,并把這大量的數(shù)據(jù)通過此系統(tǒng)收集起來,作為各個設備是否運行良好的檢測標準,具有很好的現(xiàn)實意義。此外,系統(tǒng)的使用方式靈活,可以很好的對其所監(jiān)控的所有設備進行很好的管理,一旦某個設備出現(xiàn)了故障,第一時間就可以發(fā)出警報。