IT界正在被云計算、社交計算和移動計算這三個相關(guān)聯(lián)、且百年一遇的技術(shù)趨勢而重塑,這些大趨勢正在改變數(shù)據(jù)世界,刺激數(shù)據(jù)爆炸式增長——更大數(shù)量、更廣泛的數(shù)據(jù)種類、更高速度和更多商業(yè)價值。數(shù)據(jù)是企業(yè)數(shù)據(jù)中心的重要資產(chǎn),獲取并維護高質(zhì)量數(shù)據(jù),對高效的IT和業(yè)務(wù)運營至關(guān)重要。
數(shù)據(jù)量越來越大,有價值的信息獲取難度就越大。獲取不到有用的信息,就不能繼而進行數(shù)據(jù)挖掘和數(shù)據(jù)分析。但有許多因素會導(dǎo)致這些“數(shù)據(jù)資產(chǎn)”的貶值,比如數(shù)據(jù)的冗余和重復(fù)導(dǎo)致信息的不可識別、不可信,信息時效性不強,精確度不夠;結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù)整合有困難;人員變動引發(fā)的影響;數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,相關(guān)規(guī)范不完善造成對數(shù)據(jù)理解的不充分等等。
在BI (Business Intelligence,商業(yè)智能)時代,很多企業(yè)進行了巨大的BI項目投入,但依然不能逃脫項目失敗的慘痛教訓(xùn),其最根本的原因,就是用于商業(yè)智能分析的數(shù)據(jù)源頭不能提供高質(zhì)量的數(shù)據(jù)。那么在大數(shù)據(jù)時代到來之時,如何從海量數(shù)據(jù)中獲取高質(zhì)量的信息則成為大數(shù)據(jù)應(yīng)用成敗的關(guān)鍵因素之一。數(shù)據(jù)質(zhì)量管理擁有一個完整的生態(tài)鏈,而數(shù)據(jù)集成以及整合是提高數(shù)據(jù)質(zhì)量的第一道關(guān)鍵手段。
獲取源數(shù)據(jù)后,需要根據(jù)使用的人員需求以及技術(shù)能力,定義數(shù)據(jù)質(zhì)量的規(guī)格要求。因此,針對不同行業(yè)、業(yè)務(wù)和技術(shù),數(shù)據(jù)質(zhì)量的規(guī)格要求也是不一樣的,例如,已經(jīng)廣泛用于制造企業(yè)的元數(shù)據(jù)標(biāo)準(zhǔn)就是有針對性的行業(yè)數(shù)據(jù)質(zhì)量規(guī)格標(biāo)準(zhǔn)。
我們以統(tǒng)一集成監(jiān)控為例,來說明數(shù)據(jù)集成與整合的基本方法。惠普新一代總控中心的集成平臺邏輯架構(gòu)包括四個層面,自下而上分別為:監(jiān)控采集層、數(shù)據(jù)集成層、業(yè)務(wù)應(yīng)用層和信息展示層。
監(jiān)控采集層:使用監(jiān)控、采集、感知等技術(shù)對IT系統(tǒng)、資源及環(huán)境對象進行信息采集;
數(shù)據(jù)集成層:主要包括對底層監(jiān)控采集的數(shù)據(jù)進行集成和整合,包含了監(jiān)控數(shù)據(jù)集成、集中告警、KPI(關(guān)鍵績效指標(biāo))及數(shù)據(jù)分析模型、流程管理及報表管理等;
業(yè)務(wù)應(yīng)用層:在數(shù)據(jù)集成和整合后,可以提供不同的解決方案應(yīng)用;
信息展示層:提供人機交互的統(tǒng)一門戶,除了提供安全控制以外,為不同類型角色和不同訪問手段提供不同的視圖。
在這四個層面中,數(shù)據(jù)集成層完成了“集成與整合”的功能,其中 “監(jiān)控數(shù)據(jù)集成”完成了對不同類型監(jiān)控數(shù)據(jù)的格式轉(zhuǎn)換和集成,“資產(chǎn)及配置模型”以及“KPI及數(shù)據(jù)分析模型”完成了第一道數(shù)據(jù)整合的工作。
總而言之,數(shù)據(jù)的整合和優(yōu)化是一個任重而道遠的過程,數(shù)據(jù)質(zhì)量管理是一個綜合的治理過程,不能只通過簡單的技術(shù)手段解決,需要從企業(yè)的高度加以重視,才能在大數(shù)據(jù)世界里博采眾長,搶占先機。