楊允志 陳佳 胡志亮 萬祥虎
摘要:以實現(xiàn)電力數(shù)據(jù)的全景可視化為目標(biāo),以數(shù)據(jù)基礎(chǔ)信息采集與資源目錄構(gòu)建為主線,從業(yè)務(wù)資源目錄、數(shù)據(jù)資源目錄、技術(shù)資源目錄、管理資源目錄等4個方面開展,并按照業(yè)務(wù)流程、系統(tǒng)功能、數(shù)據(jù)庫和表之間的映射關(guān)系,構(gòu)建企業(yè)級全景視圖,幫助用戶全面掌握公司數(shù)據(jù)資源及其映射關(guān)系。
關(guān)鍵詞:業(yè)數(shù)關(guān)系;資源目錄;映射關(guān)系
1、資源目錄構(gòu)建方法
按照數(shù)據(jù)資產(chǎn)管理中各個要素和屬性,全面拆分全景視圖構(gòu)成要素,從業(yè)務(wù)資源目錄、數(shù)據(jù)資源目錄、技術(shù)資源目錄、管理資源目錄等4個方面設(shè)計目錄體系。
1.1業(yè)務(wù)資源目錄
業(yè)務(wù)資源目錄是從業(yè)務(wù)角度對信息資源進(jìn)行描述,主要包括業(yè)務(wù)系統(tǒng)、功能模塊、頁面菜單、業(yè)務(wù)寬表、業(yè)務(wù)標(biāo)題等資源類型,通過遍歷業(yè)務(wù)系統(tǒng)前端頁面功能布局、理清各業(yè)務(wù)資源要素間層級關(guān)系,面向業(yè)務(wù)人員構(gòu)建業(yè)務(wù)資源目錄。
1.2數(shù)據(jù)資源目錄
數(shù)據(jù)資源目錄是從數(shù)據(jù)角度對信息資源進(jìn)行描述,主要包括數(shù)據(jù)庫、表空間、數(shù)據(jù)表、數(shù)據(jù)字段、主外鍵等資源類型,可通過元數(shù)據(jù)抽取方式自動獲取數(shù)據(jù)資源要素及相互間層級關(guān)系,面向開發(fā)人員構(gòu)建數(shù)據(jù)資源目錄。
1.3技術(shù)資源目錄
技術(shù)資源目錄是從數(shù)據(jù)鏈路角度對信息資源的分布流轉(zhuǎn)情況進(jìn)行描述,主要包括數(shù)據(jù)接口、數(shù)據(jù)表映射關(guān)系、數(shù)據(jù)字段映射關(guān)系等資源類型,通過梳理各系統(tǒng)間、各系統(tǒng)與數(shù)據(jù)中臺間數(shù)據(jù)集成關(guān)系,建立數(shù)據(jù)產(chǎn)生、存儲、流轉(zhuǎn)、使用關(guān)系清單目錄。
1.4管理資源目錄
管理資源目錄是從數(shù)據(jù)管理角度對信息資源進(jìn)行描述,主要包括共享清單、負(fù)面清單、數(shù)據(jù)責(zé)任清單、開放清單等資源類型的在線共享流程管理,通過管理資源與組織、人員等資源目錄匹配,進(jìn)一步豐富和完善信息資源管理屬性。
2、基礎(chǔ)數(shù)據(jù)準(zhǔn)備
基礎(chǔ)數(shù)據(jù)是全景視圖構(gòu)建的前提,依據(jù)數(shù)據(jù)來源不同,可采用集成已有數(shù)據(jù)、使用網(wǎng)絡(luò)爬蟲及其他專用工具、人工梳理及驗證等不同途徑獲取數(shù)據(jù)。
2.1通過數(shù)據(jù)接口獲取
目前電力公司信息化程度較高,部分基礎(chǔ)數(shù)據(jù)在公司各個管理系統(tǒng)中已有存儲,例如業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫表等,可采用數(shù)據(jù)集成方式直接獲取并保持同步。
2.2應(yīng)用爬蟲工具獲取
業(yè)務(wù)系統(tǒng)頁面菜單、業(yè)務(wù)寬表、業(yè)務(wù)標(biāo)題等基礎(chǔ)數(shù)據(jù)可通過爬蟲工具定期采集,并結(jié)合人工抽查驗證等方式不斷完善數(shù)據(jù)采集方案。
2.3使用解析工具采集
業(yè)務(wù)資源目錄與數(shù)據(jù)資源目錄間映射關(guān)系信息采集工作量大,但同時也存在一定規(guī)律性,結(jié)合系統(tǒng)頁面解析、SQL語句、頁面計算、模型計算等多種技術(shù)實現(xiàn)兩者映射關(guān)系的自動構(gòu)建。如在業(yè)務(wù)系統(tǒng)前端,通過頁面解析和一系列AI算法將頁面文本解析為結(jié)構(gòu)化的、機(jī)器可讀的信息,自動建立本領(lǐng)域內(nèi)的信息(兩個實體都在業(yè)務(wù)領(lǐng)域內(nèi))聯(lián)系,跨領(lǐng)域與底層數(shù)據(jù)無法建立聯(lián)系的,預(yù)留標(biāo)記,讓人工參與。在業(yè)務(wù)系統(tǒng)后端,通過數(shù)據(jù)字典、廠家提供的技術(shù)文檔等提取出實體、屬性以及本領(lǐng)域內(nèi)實體之間的關(guān)系,跨領(lǐng)域的之間的關(guān)系預(yù)留標(biāo)記。
3、業(yè)務(wù)和數(shù)據(jù)的映射構(gòu)建
將業(yè)務(wù)和數(shù)據(jù)抽象為不同的領(lǐng)域(包含一系列相關(guān)的語義實體和意圖的場景),在上層領(lǐng)域為業(yè)務(wù)包含業(yè)務(wù)系統(tǒng)名稱、菜單名稱,頁面功能、數(shù)據(jù)寬表等業(yè)務(wù)實體,而底層的數(shù)據(jù)領(lǐng)域為數(shù)據(jù)庫、表,主外鍵,SQL視圖、接口等數(shù)據(jù)實體、無論業(yè)務(wù)實體還是數(shù)據(jù)實體、統(tǒng)一抽象為(語義實體,通過技術(shù)手段轉(zhuǎn)換為(實體)-[關(guān)系]-(實體),(實體)-[關(guān)系]-(值)等一系列條目(或者稱作知識),把大量的這種條目匯聚起來提供雙向檢索、邏輯推理,打通業(yè)務(wù)人員不懂?dāng)?shù)據(jù)庫,開發(fā)人員不懂業(yè)務(wù)的雙向壁壘。
4、結(jié)束語
打造數(shù)據(jù)全景視圖的關(guān)鍵是建立四類信息資源目錄,構(gòu)建各目錄要素間映射關(guān)系。本文通過系統(tǒng)頁面解析、SQL語句、頁面計算、模型計算等多種技術(shù)實現(xiàn)前端系統(tǒng)與后端數(shù)據(jù)庫、前端業(yè)務(wù)表單與后端數(shù)據(jù)庫表、前端表單標(biāo)題與后端數(shù)據(jù)表字段間映射,在一定程度上能實現(xiàn)公司級數(shù)據(jù)全景視圖的快速構(gòu)建,實現(xiàn)數(shù)據(jù)資產(chǎn)管理的可視化管理。