楊民志
(南京市江寧區(qū)企業(yè)服務(wù)中心,江蘇 南京 211100)
近年來,新一代信息技術(shù)不斷提升,與實體經(jīng)濟融合不斷加深,大數(shù)據(jù)、5G、人工智能等行業(yè)發(fā)展速度越來越快。新一代信息技術(shù)的發(fā)展極大地豐富了數(shù)字經(jīng)濟的內(nèi)涵,深刻地改變了人類社會的生產(chǎn)生活方式,數(shù)字經(jīng)濟發(fā)展模式不斷多樣,影響范圍不斷擴大。隨著數(shù)字技術(shù)的應(yīng)用,社會治理、企業(yè)生產(chǎn)等方面產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)類型呈現(xiàn)多樣性特征,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。
目前“數(shù)據(jù)壁壘”仍普遍存在,在傳統(tǒng)煙囪式IT建設(shè)方式下,政企各部門都存在獨立采購或者自建業(yè)務(wù)系統(tǒng)等情況,在內(nèi)部形成諸多“數(shù)據(jù)孤島”,缺乏數(shù)據(jù)的共享交換?;ヂ?lián)網(wǎng)時代進一步加劇了“數(shù)據(jù)壁壘”問題,系統(tǒng)的多樣性和多態(tài)性也增加了各單位IT架構(gòu)的復(fù)雜度,使得底層數(shù)據(jù)的互聯(lián)互通共享成為困擾各單位的痛點之一。因此,亟需數(shù)據(jù)中臺類產(chǎn)品,整合分散在各個孤島的數(shù)據(jù),形成數(shù)據(jù)服務(wù)能力。以政府和企業(yè)為例,政府內(nèi)各個單位,企業(yè)內(nèi)各個業(yè)務(wù)部門的業(yè)務(wù)系統(tǒng)和平臺往往無法直接實現(xiàn)互聯(lián),主要因為系統(tǒng)是由不同的軟件服務(wù)商開發(fā),各個服務(wù)商所采用的技術(shù)標準不統(tǒng)一,軟硬件平臺不統(tǒng)一。海量的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等無法共享交換,因此建設(shè)數(shù)據(jù)共享交換平臺的需求應(yīng)運而生。對政府而言,數(shù)據(jù)共享交換平臺能更好地服務(wù)民生及進行社會治理;對企業(yè)而言,數(shù)據(jù)共享交換平臺可以更好地應(yīng)對生產(chǎn)和運營等挑戰(zhàn),快速響應(yīng)用戶需求。
數(shù)據(jù)共享交換平臺可按照相關(guān)標準對來自不同環(huán)境的異構(gòu)數(shù)據(jù)進行采集、加工、轉(zhuǎn)換,提供多個部門、多業(yè)務(wù)平臺、第三方互聯(lián)網(wǎng)應(yīng)用等業(yè)務(wù)系統(tǒng)數(shù)據(jù)共享交換的技術(shù)通道,推進各部門、各行業(yè)之間的有序數(shù)據(jù)交換與共享,實現(xiàn)信息資源的逐步整合。
數(shù)據(jù)共享交換平臺不僅是一套軟件系統(tǒng),更是一種組織運作機制和管理模式,集戰(zhàn)略方向、組織架構(gòu)、技術(shù)架構(gòu)于一體,構(gòu)建了統(tǒng)一的協(xié)同基座,以協(xié)調(diào)和支持各業(yè)務(wù)部門,使數(shù)據(jù)最終與業(yè)務(wù)鏈條結(jié)合,真正轉(zhuǎn)化為客戶核心資產(chǎn),可以看成是數(shù)字化轉(zhuǎn)型的基礎(chǔ)和核心。
數(shù)據(jù)采集器(BD Collector)是數(shù)據(jù)共享交換平臺的核心,負責將各種形式的數(shù)據(jù)統(tǒng)一采集,加工處理后存儲到數(shù)據(jù)中心。數(shù)據(jù)采集器作為一種數(shù)據(jù)處理工具,提供大容量數(shù)據(jù)的采集、整合、轉(zhuǎn)換、清洗和輸出功能,并且依托于高可擴展性架構(gòu),能提供超高的系統(tǒng)處理性能,在數(shù)據(jù)質(zhì)量上實現(xiàn)數(shù)據(jù)的正確性、完整性、一致性、時效性和可獲取性。
數(shù)據(jù)采集是大數(shù)據(jù)處理的第一步,需要支持各種類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等類型,在對數(shù)據(jù)進行初步的采集、處理后,存儲到數(shù)據(jù)中心進行統(tǒng)一管理,如圖1所示。
BD Collector基于B/S架構(gòu),采用統(tǒng)一的流程管理視圖,使用者通過該視圖可以方便地開發(fā)、配置、管理自己的業(yè)務(wù)流程,如圖2所示。
數(shù)據(jù)采集器的服務(wù)端具有很好的系統(tǒng)兼容性,可以運行在Unix/Linux/Windows等主流操作系統(tǒng)上??蛻舳酥С諻eb瀏覽器進行訪問,使用者只要可以上網(wǎng),即可通過Web瀏覽器登錄服務(wù)器進行管理,Web管理平臺提供統(tǒng)一的管理界面,主要有6個功能模塊。
(1)工作流WorkFlow:用來創(chuàng)建、編輯流程所用。使用者可以根據(jù)業(yè)務(wù)需要在此定義數(shù)據(jù)處理流程,如FTP下載上傳、流數(shù)據(jù)處理、數(shù)據(jù)清洗、轉(zhuǎn)換等;
(2)控制臺Monitor:用來監(jiān)控流程執(zhí)行以及異常情況,并可重新執(zhí)行失敗流程。系統(tǒng)各個部件(調(diào)度器、執(zhí)行器、控制器)以及作業(yè)的狀態(tài)監(jiān)控,運行日志查詢、統(tǒng)計;
(3)管理平臺Admin:用來配置數(shù)據(jù)采集的部署模式;
(4)數(shù)據(jù)源管理:數(shù)據(jù)源、數(shù)據(jù)集的統(tǒng)一管理和維護;
(5)集群管理:執(zhí)行器、調(diào)度器的注冊、版本升級;
(6)流程設(shè)計:數(shù)據(jù)流(轉(zhuǎn)換)和控制流(作業(yè))的設(shè)計調(diào)試,流程調(diào)度配置。
圖1 數(shù)據(jù)采集器架構(gòu)
圖3 Collector分布式架構(gòu)
圖2 基于B/S的統(tǒng)一流程管理
分布式存儲最早是由谷歌提出的,其目的是通過廉價的服務(wù)器來解決大規(guī)模、高并發(fā)等場景下Web訪問問題。它采用可擴展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務(wù)器分擔存儲負荷,利用位置服務(wù)器定位存儲信息,不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴展。數(shù)據(jù)交換平臺支持分布式架構(gòu),可以多個采集服務(wù)器并發(fā)工作,不同的服務(wù)器可以分別運行不同的數(shù)據(jù)采集流程[1],如圖3所示。
(1)主控節(jié)點Master:Master端負責任務(wù)的創(chuàng)建與分發(fā),并且根據(jù)各工作節(jié)點(Slave)的工作狀態(tài)動態(tài)的預(yù)測以及分配任務(wù),最終提高整個系統(tǒng)的運行效率。
(2)工作節(jié)點Slave:Slave負責每個任務(wù)的執(zhí)行,可以根據(jù)任務(wù)的情況建立多個執(zhí)行端,且可以橫向動態(tài)擴展,組成一個分布式運行網(wǎng)絡(luò),最終實現(xiàn)整個系統(tǒng)的執(zhí)行效率和運行性能的提升。Slave在運行時根據(jù)Slave自身資源使用情況主動向Master申請一定量的任務(wù),在一定程度上確保Slave的資源充分利用以及Slave的健康運行。
(3)工作節(jié)點網(wǎng)格Slave Grid:Slave支持網(wǎng)格化運行,同一個網(wǎng)格的Slave可以并行執(zhí)行相同的任務(wù)。
典型的Collector任務(wù)分發(fā)流程如圖4所示。
①→②定時事件、系統(tǒng)外部事件等事件到達后,主控節(jié)點從資源庫獲取作業(yè)信息,并發(fā)送給引擎處理;③→④引擎啟動相應(yīng)作業(yè),生成任務(wù);⑤動態(tài)分派給相關(guān)的工作節(jié)點;⑥→⑦工作節(jié)點執(zhí)行各自的任務(wù);⑧工作節(jié)點執(zhí)行任務(wù)并反饋給主控節(jié)點。
數(shù)據(jù)交換平臺支持的分布式部署架構(gòu)包括以下兩層含義:(1)在同一個物理服務(wù)器上部署多個slave服務(wù)器,用作負載均衡,充分地利用服務(wù)器的硬件性能;(2)將slave服務(wù)器部署在多個物理服務(wù)器上,實現(xiàn)應(yīng)用的物理分離,提高系統(tǒng)的可靠性和可用性,保證Collector服務(wù)器能夠提供不間斷的服務(wù)。
1.2.1 工作流配置
使用系統(tǒng)提供的組件完成一個作業(yè)的流程、順序和流向的圖形化配置,支持并發(fā)調(diào)度和條件判斷配置,支持子流程,設(shè)計完成后可對該作業(yè)進行測試、調(diào)試、發(fā)布。
圖4 數(shù)據(jù)采集Collector任務(wù)分發(fā)流程
1.2.2 工作流調(diào)度
支持數(shù)據(jù)處理流程的定時執(zhí)行、事件驅(qū)動執(zhí)行、人工執(zhí)行,可以定義定時任務(wù)的啟動時間、重復(fù)時間間隔、重復(fù)次數(shù)、異常處理方法等,可以訂閱驅(qū)動Collector流程的事件,當事件發(fā)生時數(shù)據(jù)處理流程啟動。
設(shè)置工作流計劃,一個工作流可以有多個執(zhí)行計劃,執(zhí)行計劃包括開始時間、結(jié)束時間和定時循環(huán)信息等,支持日歷周期的定時循環(huán),例如,每月最后一天的晚上8點,每周一三五的晚上8點定時執(zhí)行等,也支持非日歷周期的定時循環(huán),如每兩天的晚上8點執(zhí)行,每18小時定時執(zhí)行等。
支持Collector組件發(fā)生錯誤時定義重試次數(shù),重試時間間隔。支持異常發(fā)生時調(diào)用異常處理組件,自動進行運行環(huán)境恢復(fù)等異常處理動作。
當歷史數(shù)據(jù)需要處理時,可以定義流程在歷史時間段運行。當業(yè)務(wù)數(shù)據(jù)中涉及當前時間處理,可以自動以歷史時間為當前時間,保證歷史數(shù)據(jù)邏輯正確。
1.2.3 工作流組件
每個數(shù)據(jù)處理組件都可配置輸入/輸出數(shù)據(jù)對象,數(shù)據(jù)對象是存儲在資源庫里面的對Collector要操作的對象的定義,比如數(shù)據(jù)文件、數(shù)據(jù)表的定義等。
數(shù)據(jù)加工是將數(shù)據(jù)進行數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載并整合到數(shù)據(jù)層的整個流程。
1.3.1 數(shù)據(jù)抽取(數(shù)據(jù)采集)
數(shù)據(jù)抽取也被稱為數(shù)據(jù)采集,其具有豐富的數(shù)據(jù)源匯聚接口,并能夠針對數(shù)據(jù)模型進行多種方式的轉(zhuǎn)換匯總。數(shù)據(jù)采集包括周期采集和即時采集。周期采集是指根據(jù)不同的時間對數(shù)據(jù)進行抽取的方式;即時采集是系統(tǒng)根據(jù)設(shè)定的采集條件立刻進行一次性操作,操作完成后不再重復(fù)此動作的數(shù)據(jù)抽取方式。即時采集通常應(yīng)用在歷史數(shù)據(jù)和重新采集的數(shù)據(jù)不一致的場景下。采集適配器具備可視化的配置管理能力,從源數(shù)據(jù)庫中獲取被采集側(cè)源數(shù)據(jù)的屬性信息,通過圖形化界面對不同的數(shù)據(jù)源選擇不同的采集適配器進行數(shù)據(jù)采集,并對不同的數(shù)據(jù)源定制采集的數(shù)據(jù)范圍和相應(yīng)的約束條件。
從源系統(tǒng)抽取數(shù)據(jù)時需要綜合考慮多種因素,包括抽取效率、業(yè)務(wù)場景、運行時間等,最終來確定抽取的策略。根據(jù)不同的數(shù)據(jù)平臺、數(shù)據(jù)形式,選取不同的數(shù)據(jù)抽取接口,同時需要考慮安全方面的問題。因此進行數(shù)據(jù)抽取時必須充分考慮以下因素,制定相應(yīng)的抽取策略:
(1)支持不同數(shù)據(jù)來源的抽取處理,要能靈活地支持人工輸入功能。
(2)支持多種不同類型的平臺數(shù)據(jù)進行抽取,包括各種關(guān)系型數(shù)據(jù)庫系統(tǒng)、各種文件系統(tǒng)的源數(shù)據(jù)等。
(3)要充分考慮到源數(shù)據(jù)系統(tǒng)的性能要求,盡量減少對源數(shù)據(jù)系統(tǒng)的影響。
1.3.2 數(shù)據(jù)清洗
通過數(shù)據(jù)清洗完成對“臟數(shù)據(jù)”的剔除,消除數(shù)據(jù)的不一致。發(fā)現(xiàn)抽取數(shù)據(jù)的錯誤是數(shù)據(jù)清洗的一個重要功能,平臺的數(shù)據(jù)清洗過程應(yīng)至少包含以下內(nèi)容:元素化、標準化、排錯校驗、去重匹配、錯重消除、歸檔。
數(shù)據(jù)清洗主要標準是通過關(guān)鍵字段和主要關(guān)鍵字段的關(guān)聯(lián)關(guān)系,判斷源數(shù)據(jù)的記錄是否唯一,過濾重復(fù)的記錄,這些重復(fù)的記錄很有可能是原業(yè)務(wù)系統(tǒng)的缺陷造成的數(shù)據(jù)重復(fù)生成[2]。
1.3.3 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換包括格式轉(zhuǎn)換、數(shù)據(jù)翻譯、數(shù)據(jù)匹配等,同時數(shù)據(jù)交換雙方的數(shù)據(jù)都是不同類型、不同結(jié)構(gòu)的,要使交換雙方能夠識別彼此的數(shù)據(jù),必須依據(jù)相關(guān)的標準和協(xié)議對數(shù)據(jù)的格式進行轉(zhuǎn)換,以實現(xiàn)信息的透明傳輸,因此數(shù)據(jù)轉(zhuǎn)換需確定數(shù)據(jù)轉(zhuǎn)換格式和轉(zhuǎn)換協(xié)議[3]。
XML是一種通用的在線數(shù)據(jù)格式,因為具備分布組件在不同類型的應(yīng)用程序之間傳輸信息的先天性優(yōu)勢,且具有數(shù)據(jù)映射的功能,因此這里通過XML來實現(xiàn)數(shù)據(jù)庫之間的數(shù)據(jù)轉(zhuǎn)換。
1.3.4 數(shù)據(jù)加載
數(shù)據(jù)加載是繼數(shù)據(jù)抽取和轉(zhuǎn)換清洗后的一個階段,它負責將從數(shù)據(jù)源中抽取加工所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗和轉(zhuǎn)換后,最終按照預(yù)定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到目標數(shù)據(jù)集市或數(shù)據(jù)倉庫中,可實現(xiàn)SQL或批量加載。大多數(shù)情況下,異構(gòu)數(shù)據(jù)源均可通過SQL語句進行insert,update,delete操作。而有些數(shù)據(jù)庫管理系統(tǒng)集成了相應(yīng)的批量加載方法,如SQL Server的bcp,bulk等,Oracle的sqlldr,或使用Oracle的plsql工具中的import完成批量加載。大多數(shù)情況下會使用SQL語句,因為這樣導(dǎo)入有日志記錄,是可回滾的。[4]但是,批量加載操作易于使用,并且在加載大量數(shù)據(jù)時效率較高。當異構(gòu)數(shù)據(jù)源的種類繁多,且數(shù)據(jù)倉庫模型復(fù)雜時,使用數(shù)據(jù)共享交換平臺專業(yè)的ETL工具將事半功倍。
1.3.5 事務(wù)管理
數(shù)據(jù)采集器支持數(shù)據(jù)處理事件的定義、發(fā)布、訂閱,實現(xiàn)采集處理過程的事件驅(qū)動。例如,當某目錄文件存在、文件刪除、文件更新時,可以觸發(fā)不同的事件,訂閱這些事件的Collector流程就可以啟動。
本文以政務(wù)行業(yè)、零售行業(yè)、金融行業(yè)和工業(yè)行業(yè)為例,分析數(shù)據(jù)共享交換平臺使用場景。
基于數(shù)據(jù)共享交換平臺構(gòu)建的政務(wù)平臺可以實現(xiàn)數(shù)據(jù)的統(tǒng)一管理,實現(xiàn)各部門數(shù)據(jù)貫通,提升內(nèi)部跨區(qū)域/跨部門/跨層級的辦公效能,促進數(shù)據(jù)共享交換與業(yè)務(wù)應(yīng)用的融合,全面提升政府面向公眾的便捷服務(wù)能力、科學化決策能力,為政府帶來新的治理模式和服務(wù)模式。[5]
通過數(shù)據(jù)共享交換平臺打通零售企業(yè)內(nèi)外部數(shù)據(jù),從數(shù)據(jù)流層面進行疏通,提升零售企業(yè)整體數(shù)據(jù)服務(wù)能力,協(xié)助零售企業(yè)開展經(jīng)營管理、市場營銷、精準分析等輔助決策,實現(xiàn)對零售行業(yè)市場變化的靈活應(yīng)對。
金融欺詐、小微企業(yè)融資難等問題一直是全民重點關(guān)注的問題。數(shù)據(jù)共享交換平臺可以解決金融行業(yè)數(shù)據(jù)時效性較差、數(shù)據(jù)標準模型落后、數(shù)據(jù)深度應(yīng)用效率較低等問題,協(xié)助金融企業(yè)從數(shù)據(jù)追蹤、業(yè)務(wù)流程等多個維度加強數(shù)據(jù)跨部門、多業(yè)務(wù)的綜合管理,增強了金融企業(yè)與前端客戶的緊密連接,依托精細化的數(shù)據(jù)服務(wù)能力,降低金融企業(yè)經(jīng)營風險與成本。
數(shù)據(jù)共享交換平臺的重要轉(zhuǎn)變是讓數(shù)據(jù)持續(xù)發(fā)揮價值,將成為資產(chǎn)的數(shù)據(jù)作為生產(chǎn)資料融入工業(yè)企業(yè)生產(chǎn)流程,形成可靠的工業(yè)數(shù)據(jù)架構(gòu)和高效的工業(yè)數(shù)據(jù)服務(wù)體系,以支撐傳統(tǒng)工業(yè)大規(guī)模、多樣化、全鏈路的運營生產(chǎn),提升傳統(tǒng)工業(yè)創(chuàng)新能力,實現(xiàn)精細化、智能化運營管理監(jiān)測價值。
數(shù)據(jù)共享交換平臺在各行業(yè)應(yīng)用場景中普遍會遇到產(chǎn)品推廣困難、標準化困難、落地效果不佳、技術(shù)與前端業(yè)務(wù)難以融合、業(yè)務(wù)決策缺少輔助場景等問題。為此,結(jié)合數(shù)據(jù)共享交換平臺發(fā)展現(xiàn)狀,可從以下方向發(fā)展。
數(shù)據(jù)共享交換平臺大多以偏定制化的方式在項目中落地,很難以“通用數(shù)據(jù)共享交換平臺”的形式應(yīng)對各行業(yè)的各類應(yīng)用需求。因此,需要通過細分行業(yè)的各類定制化業(yè)務(wù),提升數(shù)據(jù)共享和數(shù)據(jù)管理能力,豐富完善數(shù)據(jù)中臺產(chǎn)品的功能模塊,逐步形成標準化的通用數(shù)據(jù)中臺解決方案。
數(shù)據(jù)共享交換平臺距離前端業(yè)務(wù)場景很近,因此數(shù)據(jù)共享交換平臺的建設(shè)應(yīng)從業(yè)務(wù)場景規(guī)劃開始。首先探索數(shù)據(jù)價值的使用需求,根據(jù)客戶需求及業(yè)務(wù)戰(zhàn)略目標排出優(yōu)先級,然后將不同業(yè)務(wù)應(yīng)用場景對于技術(shù)的需求抽象建模成相應(yīng)的數(shù)據(jù)服務(wù),再由業(yè)務(wù)應(yīng)用場景牽引進行逐步建設(shè)、快速迭代。
數(shù)據(jù)共享交換平臺是面向內(nèi)部提供數(shù)據(jù)服務(wù),并且為前端業(yè)務(wù)場景提供半成品服務(wù),而非像SaaS為業(yè)務(wù)需求方提供標準的完整解決方案產(chǎn)品,兩者之間存在一定的關(guān)系,SaaS其實是數(shù)據(jù)中臺發(fā)展的下一階段演化產(chǎn)物。例如,企業(yè)部署了中臺以后,經(jīng)過一段時間運行將數(shù)據(jù)流、業(yè)務(wù)流都打通,并且將核心服務(wù)提取歸屬到了數(shù)據(jù)共享交換平臺后,再往下發(fā)展就可以抽象出中臺+SaaS產(chǎn)品服務(wù)于整個行業(yè)。
海量數(shù)據(jù)與多樣的業(yè)務(wù)場景使數(shù)據(jù)共享交換平臺數(shù)據(jù)量大增,積累了豐富的數(shù)據(jù)指標,可應(yīng)用智能技術(shù)提供通用化智能服務(wù),為業(yè)務(wù)決策提供直接輔助場景,比較普遍的智能應(yīng)用場景有商品銷量預(yù)測、千人千面推薦算法、營銷活動預(yù)測等。同時,通過智能技術(shù)算法可以為前端員工降低數(shù)據(jù)使用的門檻,提高整體工作效率和生產(chǎn)效率。
隨著數(shù)字經(jīng)濟發(fā)展的深入,數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化在各個領(lǐng)域的重要性日益凸顯,數(shù)據(jù)成為數(shù)字經(jīng)濟
發(fā)展的重要基礎(chǔ)。數(shù)據(jù)的流通、關(guān)聯(lián)、分析等方面是大數(shù)據(jù)實現(xiàn)價值的基礎(chǔ)。單個設(shè)備、單個部門、單個領(lǐng)域的數(shù)據(jù)無法有效地讓人認識全局。但是獲取不同角度、不同維度的數(shù)據(jù),并將這些基礎(chǔ)數(shù)據(jù)進行匯聚、加以關(guān)聯(lián),才能從全局范圍分析事物,掌握事物本質(zhì)。推動數(shù)據(jù)開放共享是實現(xiàn)數(shù)據(jù)價值化的基礎(chǔ),數(shù)據(jù)匯聚使數(shù)據(jù)有可能產(chǎn)生價值,數(shù)據(jù)關(guān)聯(lián)才能使數(shù)據(jù)實現(xiàn)價值。政府、企業(yè)等擁有大量數(shù)據(jù),既要在合理范圍保障數(shù)據(jù)的供給和共享,也要合法地對數(shù)據(jù)進行開發(fā)利用,不斷推動數(shù)據(jù)價值化的提升。