郝志偉,郭 超
(山西焦煤集團有限責任公司 大數(shù)據(jù)中心, 山西 太原 030024)
大型煤炭企業(yè)多數(shù)存在以下問題:總部業(yè)務部門需求不明晰、數(shù)據(jù)標準不統(tǒng)一、數(shù)據(jù)質(zhì)量不規(guī)范、數(shù)據(jù)安全不可控,各業(yè)務系統(tǒng)獨立運行、異構不兼容,像一個個煙囪,很難統(tǒng)一和打通,無法實現(xiàn)數(shù)據(jù)的有效共享、業(yè)務的流程聯(lián)動和系統(tǒng)的全面協(xié)同,導致集團對人財物、產(chǎn)供銷等業(yè)務的管控力度不足,使安全生產(chǎn)經(jīng)營等過程存在風險、隱患和漏洞;子分公司及廠礦單位多存在采掘機運通等專業(yè)業(yè)務系統(tǒng)多,數(shù)據(jù)孤島現(xiàn)象嚴重,且業(yè)務系統(tǒng)數(shù)據(jù)填報不準確、信息輸入不及時,甚至不愿上報真實數(shù)據(jù)等。
為解決上述問題,需要構建各業(yè)務系統(tǒng)數(shù)據(jù)共享和流程互通的共同底座,以打通各業(yè)務系統(tǒng),促進企業(yè)大數(shù)據(jù)的融通共享、協(xié)同聯(lián)動,提升集團管控能力。數(shù)據(jù)中臺作為全新的企業(yè)管控理念,以服務企業(yè)業(yè)務運營為目標,匯聚、整合、存儲煤炭企業(yè)安全生產(chǎn)經(jīng)營業(yè)務大數(shù)據(jù),經(jīng)加工整理后的有用數(shù)據(jù)可通過挖掘、分析直接應用于具體業(yè)務,幫助優(yōu)化業(yè)務流程,打通業(yè)務系統(tǒng)間的“部門墻”,促進業(yè)務流程標準化、工作標準信息化、企業(yè)信息智能化,為煤炭企業(yè)實現(xiàn)減人提效、對業(yè)務系統(tǒng)扁平化和人財物產(chǎn)供銷等核心資源的精益化管理奠定數(shù)據(jù)架構基礎。
國內(nèi)外多個研究者對數(shù)據(jù)中臺技術進行了相關研究。蘇萌等[1]總結了數(shù)據(jù)中臺技術的相關進展,提出數(shù)據(jù)中臺通用技術架構。艾瑞咨詢[2]從市場規(guī)模、適用行業(yè)、發(fā)展路徑等角度總結整理了2019年數(shù)據(jù)中臺在中國的發(fā)展情況。周綱等[3]介紹了一種應用于電力營銷服務業(yè)務的數(shù)據(jù)中臺設計方法。李炳森等[4]設計了適用于電網(wǎng)企業(yè)的數(shù)據(jù)中臺貼源、共享、分析三層服務架構,并研究了關鍵技術。羅薇[5]提出了一種應用于通訊行業(yè)的中臺一體化生產(chǎn)體系,強化了生產(chǎn)協(xié)同,提升了用戶體驗。于浩淼等[6]基于數(shù)據(jù)中臺的一般體系架構,提出中國聯(lián)通國際公司中臺建設方案。李廣乾[7]、劉童桐[8]探討了數(shù)據(jù)中臺的內(nèi)涵和外延。劉穎慧等[9]分析了不同企業(yè)的中臺戰(zhàn)略和架構,提出了通訊運營商的數(shù)據(jù)中臺建設方法和類型。PTC[10]從體系架構、建設架構、落地思路等方面探討了工業(yè)企業(yè)建設數(shù)據(jù)中臺面臨的關鍵問題。譚虎等[11]闡述了阿里云數(shù)據(jù)中臺的一些建設思路。劉俊良[12]研究了數(shù)據(jù)中臺架構設計、關鍵技術。陳小勇等[13]論述了數(shù)據(jù)中臺設計思路、總體方案、關鍵技術等。但上述研究多為通訊、電力等行業(yè)的數(shù)據(jù)中臺建設探究,尚未發(fā)現(xiàn)針對大型煤炭企業(yè)建設數(shù)據(jù)中臺方法的相關研究。
針對大型煤炭企業(yè)普遍存在的問題,設計了一種數(shù)據(jù)中臺技術架構,從數(shù)據(jù)標準體系建設、數(shù)據(jù)采集處理、數(shù)據(jù)庫選擇、數(shù)據(jù)管理、大數(shù)據(jù)分析應用、新技術應用等6方面研究探討了數(shù)據(jù)中臺建設中的關鍵技術,為建設適用于大型煤炭企業(yè)的數(shù)據(jù)中臺,推進各業(yè)務大數(shù)據(jù)協(xié)同聯(lián)動和深度分析應用提供可借鑒的解決思路。
結合大型煤炭企業(yè)特點,數(shù)據(jù)中臺建設可遵循以下流程:采集集團人力、財務、設備、生產(chǎn)等核心業(yè)務數(shù)據(jù),基于規(guī)范統(tǒng)一的數(shù)據(jù)標準,在保障數(shù)據(jù)質(zhì)量的前提下,對數(shù)據(jù)進行清洗加工等處理,存儲到數(shù)據(jù)倉庫,形成可以復用的元數(shù)據(jù),沉淀共性數(shù)據(jù)及服務,實現(xiàn)一次錄入數(shù)據(jù),在數(shù)據(jù)控制權限內(nèi)所有業(yè)務系統(tǒng)共享,構建業(yè)務共享和流程互通的共同底座;對數(shù)據(jù)進行建模,利用大數(shù)據(jù)建模、算法等開展主題分析等大數(shù)據(jù)挖掘、分析應用,實現(xiàn)利用大數(shù)據(jù)對企業(yè)人員流、資金流、物資流進行在線監(jiān)控,防控企業(yè)風險,研判安全生產(chǎn)經(jīng)營趨勢,充分支持各層級領導決策的目的。同時,通過提供統(tǒng)一應用展示門戶,對內(nèi)支撐集團安全生產(chǎn)經(jīng)營等業(yè)務數(shù)據(jù)應用,對外統(tǒng)一構建與政府監(jiān)管部門、客戶、供應商等的安全可控數(shù)據(jù)交換出入口,由集團統(tǒng)一、安全、高效地把控對外交換數(shù)據(jù),支持集團多維度的精益化管理,實現(xiàn)全方位、全鏈條、全域賦能全集團管理升級。典型的數(shù)據(jù)中臺架構見圖1,主要包括數(shù)據(jù)源、數(shù)據(jù)采集處理、數(shù)據(jù)庫、數(shù)據(jù)管理、大數(shù)據(jù)分析、應用展示等6部分。
一個典型的數(shù)據(jù)中臺的數(shù)據(jù)流見圖2,通過對集團業(yè)務系統(tǒng)中數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換等工作,存儲進集團數(shù)據(jù)庫,根據(jù)各層級領導對不同主題數(shù)據(jù)分析的需要,利用相關建模和算法對數(shù)據(jù)倉庫中的相關數(shù)據(jù)進行主題分析、展示,支持各層級領導決策,并將分析結果及時應用到集團相關業(yè)務部門,保證領導決策的快速高效執(zhí)行。
數(shù)據(jù)中臺建設的關鍵技術主要包括數(shù)據(jù)標準規(guī)范體系建設、數(shù)據(jù)采集處理、數(shù)據(jù)庫選擇、數(shù)據(jù)管理、大數(shù)據(jù)分析應用、新技術應用等6方面。
圍繞大型煤炭企業(yè)生產(chǎn)、運輸、銷售全鏈條,人力、財務、設備、生產(chǎn)、供應、銷售、法務、投資、辦公全業(yè)務,通過制定數(shù)據(jù)源輸入標準、主數(shù)據(jù)企業(yè)標準、編制并出臺相關數(shù)據(jù)標準管理辦法、開展集團相關業(yè)務數(shù)據(jù)清洗等方式,推動集團各業(yè)務系統(tǒng)數(shù)據(jù)標準統(tǒng)一、規(guī)范使用,逐步構建包括規(guī)范定義、術語、模型架構、元數(shù)據(jù)命名規(guī)范、編碼規(guī)范等在內(nèi)全集團統(tǒng)一的數(shù)據(jù)標準體系。同時,通過加強對各子分公司的督導管理,規(guī)范集團公司數(shù)據(jù)標準體系的統(tǒng)一應用,為數(shù)據(jù)存儲、管理、分析應用和展示奠定標準基礎。
建設大型煤炭企業(yè)全集團統(tǒng)一的數(shù)據(jù)采集平臺,根據(jù)數(shù)據(jù)源輸入標準,對人力、財務、設備等各分散、凌亂的業(yè)務數(shù)據(jù)進行采集匯聚,通過ETL等技術,形成清晰有序的有用數(shù)據(jù),存儲到數(shù)據(jù)倉庫中,形成元數(shù)據(jù),實現(xiàn)數(shù)據(jù)一次采集或錄入、所有業(yè)務共享共用,滿足企業(yè)對煤炭安全生產(chǎn)、經(jīng)營管理等業(yè)務數(shù)據(jù)管理要求的同時,為集團級的大數(shù)據(jù)分析提供統(tǒng)一的標準數(shù)據(jù)保障。
相比于Mpp數(shù)據(jù)庫,Hadoop擁有更多的計算節(jié)點數(shù)、更大的數(shù)據(jù)量,適用于存儲關系型、半關系型、無結構化、語音、圖像、視頻等多種數(shù)據(jù)類型,因此,Hadoop數(shù)據(jù)庫適用范圍更廣泛,但當面對需要大規(guī)模并行處理的場景時,Mpp更有優(yōu)勢。大型煤炭企業(yè)涉及人力、財務、設備、銷售、投資、辦公等多業(yè)務復雜的應用場景,應選擇Mpp和Hadoop混合型數(shù)據(jù)庫作為存儲媒介,以構建一套既能管理全域業(yè)務數(shù)據(jù)、又能支撐上層應用需求的新型數(shù)據(jù)庫,為實現(xiàn)快速高效的數(shù)據(jù)挖掘、分析提供數(shù)據(jù)存儲支持。
數(shù)據(jù)庫中數(shù)據(jù)按照一定的數(shù)據(jù)標準和質(zhì)量規(guī)則匯集形成元數(shù)據(jù)和主數(shù)據(jù),高質(zhì)量的元數(shù)據(jù)和主數(shù)據(jù)可形成不同的主題數(shù)據(jù)庫,有效支撐大型煤炭企業(yè)進行安全生產(chǎn)、銷售管理、設備資產(chǎn)盤活等不同主題的大數(shù)據(jù)分析。同時高質(zhì)量的元數(shù)據(jù)和主數(shù)據(jù)可對企業(yè)不同業(yè)務提供全集團統(tǒng)一的數(shù)據(jù)共享和服務,從而實現(xiàn)各業(yè)務信息互通、數(shù)據(jù)共享和全面協(xié)同,增強企業(yè)競爭力、管控力和抗風險能力。
3.4.1 元數(shù)據(jù)管理
元數(shù)據(jù)可以讓企業(yè)數(shù)據(jù)資產(chǎn)用清晰直觀的方式進行呈現(xiàn),對元數(shù)據(jù)的管理包括元數(shù)據(jù)基礎管理、元數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)分析等。其中,元數(shù)據(jù)基礎管理包括對元數(shù)據(jù)添加、刪除、修改,元數(shù)據(jù)間關系建立、維護,元數(shù)據(jù)自身質(zhì)量的核查,元數(shù)據(jù)查詢、統(tǒng)計等;元數(shù)據(jù)質(zhì)量管理包括對元數(shù)據(jù)屬性、關系及安全性和一致性的檢查等;元數(shù)據(jù)分析主要指通過血緣分析、影響性分析、實體關聯(lián)分析、全景分析等,直觀了解元數(shù)據(jù)來源、流向、被引用次數(shù)等重要信息,以實時掌握元數(shù)據(jù)真實狀況。
3.4.2 主題數(shù)據(jù)管理
對大型煤炭企業(yè)財務、采購、科研等不同主題域數(shù)據(jù)的管理能有效支撐不同主題的大數(shù)據(jù)分析,同時,各主題域內(nèi)部,不同來源的數(shù)據(jù)可通過統(tǒng)一的標準基礎數(shù)據(jù)實現(xiàn)相互的關聯(lián),例如,采購主題的供應商信息、合同信息等可通過客戶編碼、合同編碼等,實現(xiàn)互相聯(lián)系、互相融合;各主題域之間,來自于同一數(shù)據(jù)源的同樣數(shù)據(jù)是互相共享的。采購主題中對供貨、質(zhì)檢、合同分析的數(shù)據(jù)管理流程見圖3.
圖3 采購主題中對供貨、質(zhì)檢、合同分析的數(shù)據(jù)管理流程圖
3.4.3 數(shù)據(jù)質(zhì)量管理
通過建設包括質(zhì)量規(guī)則、核對校驗、監(jiān)控診斷、質(zhì)量報告在內(nèi)的數(shù)據(jù)質(zhì)量體系,能有效保障數(shù)據(jù)的完整性、一致性、合法性、關聯(lián)性、唯一性。在大型煤炭企業(yè)的實際應用過程中,一個典型的數(shù)據(jù)質(zhì)量管理流程如下:利用數(shù)據(jù)質(zhì)量規(guī)則,對數(shù)據(jù)進行校驗篩查,判斷出的數(shù)據(jù)質(zhì)量問題,反饋給相關業(yè)務部門進行確認、調(diào)整,以有效提升數(shù)據(jù)質(zhì)量。
針對大型煤炭企業(yè)存在的痛點、難點問題,可以選擇一個或者多個應用場景,通過數(shù)據(jù)建模、算法等,開展多業(yè)務協(xié)同的主題分析,對內(nèi)支撐領導決策分析和提升各業(yè)務精益管理水平,對外賦能客戶、供應商等產(chǎn)業(yè)鏈數(shù)據(jù),同時支持政府決策和服務社會關切。例如,針對企業(yè)各業(yè)務存在的信息孤島嚴重,無法實現(xiàn)數(shù)據(jù)的有效共享、業(yè)務的流程聯(lián)動和系統(tǒng)的全面協(xié)同問題,可開展產(chǎn)洗運銷協(xié)同聯(lián)動等大數(shù)據(jù)分析,讓數(shù)據(jù)為管理賦能:對大型煤炭企業(yè)所屬煤礦各類數(shù)據(jù)進行針對性建模、多維度分析和綜合集成展示,并援引集團外部相關數(shù)據(jù)研判煤炭價格,預測市場走勢,通過抓產(chǎn)銷、帶中間、堵漏洞,促進集團公司精益化管理水平的提升,輔助集團領導科學決策。
在大型煤炭企業(yè)的數(shù)據(jù)中臺建設中,加強對視覺識別、語音識別和RPA流程機器人等新技術推廣應用,能有效提高數(shù)據(jù)利用率、降低勞動強度、提升業(yè)務服務能力、實現(xiàn)業(yè)務技術創(chuàng)新。例如,利用語音識別技術,將原來需要通過PC端手動操作的方式轉(zhuǎn)化為直接通過語音實現(xiàn)系統(tǒng)控制,并利用語音播報自動直觀展示需查詢、分析的結果;利用視覺識別技術和RPA流程機器人,通過對網(wǎng)頁或PDF等非結構化頁面的采集或OCR識別,智能將所需數(shù)據(jù)實時、準確、高效自動填入表格,并生成匯總表,有效提升集團業(yè)務準確性、合規(guī)性和工作效率。
針對大型煤炭企業(yè)普遍存在的業(yè)務系統(tǒng)龐雜、信息孤島和數(shù)據(jù)壁壘嚴重,導致集團對子分公司管控能力不足、存在安全生產(chǎn)經(jīng)營風險等問題,設計了一種數(shù)據(jù)中臺技術架構,并從數(shù)據(jù)標準體系建設、數(shù)據(jù)采集處理、數(shù)據(jù)庫選擇、數(shù)據(jù)管理、大數(shù)據(jù)分析應用、新技術應用等6方面探討了數(shù)據(jù)中臺建設中的關鍵技術,為建設適用于大型煤炭企業(yè)的數(shù)據(jù)中臺,實現(xiàn)全集團數(shù)據(jù)的標準化、資產(chǎn)化、價值化、服務化、自主化和開放化提供一種可借鑒的參考。