張偉 周賀 寇進科
摘 ?要: 貿(mào)易口岸統(tǒng)一收費系統(tǒng)是口岸重要業(yè)務系統(tǒng),涉及眾多機構(gòu)和業(yè)務系統(tǒng)間的數(shù)據(jù)融合。為本文針對貿(mào)易口岸業(yè)務需求,闡述了數(shù)據(jù)融合系統(tǒng)的架構(gòu)設(shè)計和融合功能功能設(shè)計,分析了融合的技術(shù)問題,并闡述了基于實時和批量相結(jié)合的技術(shù)實現(xiàn)方案。
關(guān)鍵詞:?數(shù)據(jù)融合;數(shù)據(jù)融合架構(gòu);實時融合
中圖分類號:?TP391. 41????文獻標識碼:?A????DOI:10.3969/j.issn.1003-6970.2020.02.051
【Abstract】: In order to meet the business requirements of the trade port, this paper expounds the architecture design and function design of the data fusion system, analyzes the technical problems of the fusion, and expounds the technical implementation scheme based on the combination of real-time and batch.
【Key words】: Data fusion; Data fusion architecture; Real-time fusion
0??引言
貿(mào)易口岸數(shù)據(jù)融合系統(tǒng)以“一次繳費、全港通行”為建設(shè)目標,破除港口生態(tài)利益藩籬和信息孤島壁壘。整合貨代、報關(guān)、理貨、運輸、堆場、碼頭、船代、查驗等多機構(gòu)部門,通過費目公開,統(tǒng)一繳費、電子支付、環(huán)節(jié)匹配、價格監(jiān)測、分級管控、全程可溯等主要措施,打通價格、收費、繳費、核查、放行等全鏈條、全流程服務,為碼頭、物流、倉儲、貿(mào)易、運輸和代理等企業(yè)、用戶的收繳費提供一站式服務、一次性辦理和一體化管理,實現(xiàn)業(yè)務流、資金流、信息流和信用流的完全統(tǒng)一[1-5]。
在保障港口經(jīng)營主體一站式繳費、一次性辦結(jié)的效率需求同時,也滿足了行業(yè)主管部門集約化管理、多線聯(lián)控的監(jiān)管需求,使繳費企業(yè)“繳的明白,繳的方便”,使收費企業(yè)“收的準確,收的透明”,為持續(xù)優(yōu)化營商環(huán)境提供了機制保障和平臺支撐。本文闡述了貿(mào)易口岸數(shù)據(jù)融合系統(tǒng)的設(shè)計和實現(xiàn)技術(shù),為業(yè)務流、信息流、資金流和信用流的統(tǒng)一提供支撐環(huán)境。
1??架構(gòu)設(shè)計
貿(mào)易口岸統(tǒng)一收費管理承接全流程、覆蓋全環(huán)節(jié)的港口收繳費管理,面向貨代、報關(guān)、理貨、運輸、堆場、碼頭、船代、查驗等多機構(gòu)部門,以及相關(guān)的政府管理部門和金融機構(gòu),是某貿(mào)易口岸通過數(shù)據(jù)資源中心進行數(shù)據(jù)整合的相關(guān)業(yè)務系統(tǒng)如 圖1。
多源、多模態(tài)的各類港口數(shù)據(jù)、相關(guān)互聯(lián)網(wǎng)公司數(shù)據(jù)、政府管理部門數(shù)據(jù)和金融機構(gòu)數(shù)據(jù),通過數(shù)據(jù)接入與分發(fā)系統(tǒng)接入平臺,基于數(shù)據(jù)元進行標準化整合處理,并形成口岸業(yè)務主數(shù)據(jù),為口岸業(yè)務一致性提供支撐。在此基礎(chǔ)上,基于不同業(yè)務主題進行數(shù)據(jù)融合,按照不同業(yè)務場景要求進行數(shù)據(jù)的組織和管理,形成可對外服務的數(shù)據(jù)資源庫—原始庫、整合融合庫、元數(shù)據(jù)庫、主數(shù)據(jù)庫,并提供多種接口多樣化的訪問方式[6-8]。
2??融合功能設(shè)計
2.1??數(shù)據(jù)采集和分發(fā)
數(shù)據(jù)接入和分發(fā)系統(tǒng)支持不同來源、不同模態(tài)政法數(shù)據(jù)的即時采集接入,由數(shù)據(jù)源管理、接入配置和數(shù)據(jù)分發(fā)等組成。
數(shù)據(jù)源管理對數(shù)據(jù)源名稱、來源、地址、訪問接口等進行管理;接入配置對接入請求監(jiān)聽、接入觸發(fā)、接入轉(zhuǎn)換參數(shù)進行配置,支持即時接入,同步、異步接入,全量接入和部分接入。數(shù)據(jù)分發(fā)支持多目標分發(fā)、實時分發(fā)和批量分發(fā),支持數(shù)據(jù)分發(fā)的可靠性和安全性。
數(shù)據(jù)采集分發(fā)根據(jù)外部系統(tǒng)的多種數(shù)據(jù)源的數(shù)據(jù),不同的分類標準采取不同的方式進行數(shù)據(jù)采集,采用如圖3流程。
業(yè)務數(shù)據(jù)在應用系統(tǒng)中的數(shù)據(jù)量比較小時抽取過程需要用全部抽取;如果業(yè)務數(shù)據(jù)在應用系統(tǒng)運行過程中,能準確的區(qū)分出某一時刻以后發(fā)生變化的數(shù)據(jù),則增量抽取;抽取需要支持增量抽取和全量抽取。抽取管理模塊支持兩類數(shù)據(jù)源抽?。悍謩e是關(guān)系型數(shù)據(jù)庫抽取和文件數(shù)據(jù)抽取。抽取的文件支持TXT、CSV、TSV等主流文本格式并且支持指定的分割符。
數(shù)據(jù)源為關(guān)系型數(shù)據(jù)庫時,采用數(shù)據(jù)庫抽取。數(shù)據(jù)庫注冊時必須填寫:數(shù)據(jù)庫類型、數(shù)據(jù)庫連接方式、最大連接數(shù)、最小連接數(shù)、數(shù)據(jù)庫用戶名、數(shù)據(jù)庫密碼、schema名稱、測試sql語句,表名稱,表增量字段,抽取方式。數(shù)據(jù)庫支持主流的關(guān)系型數(shù)據(jù)庫如MySql、SqlServer、Oracle、PostgreSQL并支持定期從數(shù)據(jù)庫中抽取數(shù)據(jù)。數(shù)據(jù)源為文件系統(tǒng)時,采用文件抽取,應用系統(tǒng)將需要抽取的業(yè)務數(shù)據(jù)保存為有格式的文本文件,文件抽目標源必須支持FTP文件系統(tǒng)和Linux文件系統(tǒng)進行數(shù)據(jù)抽取。通過在頁面中填入:ftp文件系統(tǒng)相關(guān)信息、linux文件系統(tǒng)相關(guān)信息、存放目標路徑信息。采集系統(tǒng)會通過頁面的注冊信息讀此文件信息進行文件抽取。
轉(zhuǎn)換管理實現(xiàn)源數(shù)據(jù)庫和目標數(shù)據(jù)庫之間的信息的轉(zhuǎn)換,在頁面中操作人員根據(jù)需求對抽取的數(shù)據(jù)進行必要數(shù)據(jù)處理配置。把采集的數(shù)據(jù)中的某一列進行數(shù)據(jù)轉(zhuǎn)換,如常量轉(zhuǎn)換、碼值轉(zhuǎn)換、字段拆分。在數(shù)據(jù)采集中,數(shù)據(jù)有出現(xiàn)數(shù)據(jù)質(zhì)量較差的情況如特殊字符、特殊符號?輸入替換字符進行替換。數(shù)據(jù)二次拆分對分割符拆分的字段進行二次拼接產(chǎn)生新的數(shù)據(jù)[9-12]。
加載管理對數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換后的數(shù)據(jù)進行數(shù)據(jù)存儲。作業(yè)調(diào)度將在頁面配置的抽取管理、轉(zhuǎn)換管理、分類管理組成的流程進行任務管理。包括任務狀態(tài)監(jiān)控、任務日志瀏覽,任務的調(diào)度方式以cron表達為任務調(diào)度策略。在作業(yè)調(diào)度過程中,提供執(zhí)行過程記錄,各步驟執(zhí)行結(jié)果,各步驟完成時間,調(diào)度完成結(jié)果,便于操作人員對采集流程進行優(yōu)化調(diào)整。
2.2??數(shù)據(jù)整合
數(shù)據(jù)整合對接入的多源多模態(tài)數(shù)據(jù)進行整合和聚合,包括數(shù)據(jù)清洗、模式對齊、數(shù)據(jù)標簽和數(shù)據(jù)聚合等。
數(shù)據(jù)清洗刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復數(shù)據(jù)、錯誤數(shù)據(jù),處理缺失值、異常值或按規(guī)則進行數(shù)據(jù)補全;模式對齊根據(jù)預設(shè)標準進行數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)標準映射、數(shù)據(jù)格式轉(zhuǎn)換;數(shù)據(jù)標簽根據(jù)數(shù)據(jù)特征對數(shù)據(jù)進行標簽處理,為業(yè)務智能分析基礎(chǔ);數(shù)據(jù)聚合通過定義計算規(guī)則/過程腳本/計算服務對數(shù)據(jù)進行通用或自定義的聚合與分組。
2.3??主題融合處理
根據(jù)不同主題,提供多種數(shù)據(jù)融合計算能力,支持多類數(shù)據(jù)融合算法。通過算法屬性與融合場景屬性的動態(tài)匹配,進行主題融合處理。定義算法模式框架,實現(xiàn)算法種類動態(tài)擴展[13-15]。
2.4??場景化數(shù)據(jù)組織與管理
根據(jù)不同應用場景,提供關(guān)系型、非關(guān)系型、內(nèi)存、圖、文件等數(shù)據(jù)組織與管理模式。其中,關(guān)系型數(shù)據(jù)庫主要用于存儲、管理結(jié)構(gòu)化的、需頻繁進行事務處理的口岸業(yè)務數(shù)據(jù)、平臺配置數(shù)據(jù)。No SQL數(shù)據(jù)庫主要用于存儲、管理海量、高并發(fā)訪問的口岸業(yè)務數(shù)據(jù)。內(nèi)存數(shù)據(jù)庫主要用于存儲、管理需要快速響應得到結(jié)果的即席查詢、分析、挖掘數(shù)據(jù),將整個數(shù)據(jù)庫或其主要數(shù)據(jù)處理放入內(nèi)存,減少每個事務在執(zhí)行過程中傳輸。采用分布式文件系統(tǒng)存儲、管理大文本、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。
2.5??數(shù)據(jù)服務管理與接口
通過數(shù)據(jù)融合形成的各類原始匯集庫、整合融合庫、元數(shù)據(jù)庫和主數(shù)據(jù)庫等,通過數(shù)據(jù)服務進行管理和訪問。數(shù)據(jù)服務管理主要功能包括數(shù)據(jù)服務的發(fā)布、服務注冊、服務查詢、服務修改、服務刪除、服務發(fā)布、服務測試、統(tǒng)計查詢。數(shù)據(jù)服務管理和服務調(diào)用流程設(shè)計如圖4。
服務管理是由服務提供方發(fā)起的服務創(chuàng)建的過程,通過服務注冊配置。完成服務的創(chuàng)建。服務類型包括RESTful服務、WebService服務、JMS服務、Kafka服務。RESTful服務注冊時指定輸入源服務地址、服務類型(get/post)等參數(shù)信息;JMS服務注冊時指定服務器信息、提供queue、topic選擇和名稱。Kafka服務注冊時指定topic選擇、支持Kerberos認證。等。
各類服務通過目錄進行管理和訪問。目錄管理主要有目錄分類和目錄索引組成,通過目錄分類可以把數(shù)據(jù)共享和數(shù)據(jù)服務管理進行分類,使用者通過目錄分類可以更加高效便捷的查詢數(shù)據(jù)服務內(nèi)容和查詢數(shù)據(jù)共享內(nèi)容。
3??批量和實時結(jié)合的數(shù)據(jù)融合技術(shù)設(shè)計
3.1??數(shù)據(jù)融合問題分析
貿(mào)易口岸貿(mào)易口岸數(shù)據(jù)龐雜,數(shù)據(jù)量巨大。數(shù)據(jù)融合技術(shù)上主要需解決如下問題:
(1)復雜指標的計算融合
計數(shù)、求和、平均等指標能夠依靠查詢結(jié)果合并實現(xiàn),但大部分復雜指標的方差、標準差、熵等融合計算無法依靠簡單合并完成。對具有長周期時間窗口的復雜指標,多次重新計算的開銷巨大。
(2)基于數(shù)據(jù)生成的進度的內(nèi)存分配
在每天的定義固定時間將流數(shù)據(jù)導入批處理系統(tǒng)會造成內(nèi)存資源的極大浪費,需要實現(xiàn)一種融合存儲策略,能基于數(shù)據(jù)產(chǎn)生進度,進行內(nèi)存分配和使用。
(3)多粒度多角度查詢請求的動態(tài)數(shù)據(jù)融合
口岸業(yè)務系統(tǒng)的數(shù)據(jù)查詢時間窗口具有多尺度、多角度,如“本月物流業(yè)務結(jié)算金額”、“某公司去年報關(guān)單數(shù)和金額”等。如果每次查詢請求都重新計算將會對系統(tǒng)性能造成極大的影響,需實現(xiàn)多時間窗口尺度、多種窗口漂移方式的動態(tài)數(shù)據(jù)實時融合處理方法。
(4)高可用、高可擴展的內(nèi)存計算
由于內(nèi)存介質(zhì)的易揮發(fā)的特性,一般需要采用多副本的方式,以保證基于內(nèi)存存儲和計算的高可用性,這產(chǎn)生“如何確保不同副本的一致性”的問題。
3.2??實時和批量相結(jié)合融合處理
基于上述問題,本文采用批量大數(shù)據(jù)處理和實時流式處理結(jié)合的融合處理方法。
批量融合處理以Hadoop Hbase為基礎(chǔ),首先先將數(shù)據(jù)初步匯聚,預處理后加載到數(shù)據(jù)倉庫,以支持業(yè)務的分析。這種方式無法查詢到最新的實時數(shù)據(jù),存在數(shù)據(jù)遲滯問題。
實時流式處理以Spark Streaming、Flink為基礎(chǔ),將數(shù)據(jù)通過流處理的方式實時逐條加載至高性能內(nèi)存數(shù)據(jù)庫中進行查詢,數(shù)據(jù)遲滯低。這種方式,由于內(nèi)存容量限制,需丟棄原始歷史數(shù)據(jù),無法在完整大數(shù)據(jù)集上支持Ad-Hoc查詢分析處理。
為解決復雜指標的融合計算問題,采用“所見即所得”的在線作業(yè)編排管理,將復雜計算分解為一個個獨立的計算單元,通過計算作業(yè)編排,將上線任務耗時降低到分鐘級,提升流處理作業(yè)的編排效率,實現(xiàn)即時作業(yè)組合和結(jié)果融合的復雜計算。
對多粒度多角度查詢請求的動態(tài)數(shù)據(jù)融合問題,采用在原始數(shù)據(jù)進入流處理平臺時,通過順序?qū)懙姆绞匠志没环菰紨?shù)據(jù),在需要上線新的計算作業(yè)時,即刻重發(fā)指定時間窗口內(nèi)的原始數(shù)據(jù),實現(xiàn)快速的計算作業(yè)上線和不同時間窗口查詢請求的數(shù)據(jù)動態(tài)融合。
采用數(shù)據(jù)沖突智能規(guī)避的方法,解決流式處理中的熱點數(shù)據(jù)處理和大顆粒數(shù)據(jù)維度的處理效率。通過Paxos一致性協(xié)議,解決內(nèi)存存儲計算時多副本一致性問題,并向運維人員提供透明的一致性解決方案。
采用智能分區(qū)的方法,基于一致性散列技術(shù),將散列值拆解為散列塊,通過散列塊的平滑遷移實現(xiàn)存儲集群的可伸縮性設(shè)計,并通過計算作業(yè)的動態(tài)運行時加載,規(guī)避了作業(yè)手工打包部署。
4??結(jié)束語
根據(jù)貿(mào)易口岸不同的業(yè)務間數(shù)據(jù)融合需求,場景和資源需求模式,本文闡述了貿(mào)易口岸數(shù)據(jù)融合系統(tǒng)的架構(gòu)設(shè)計和主要功能設(shè)計,分析了數(shù)據(jù)融合面臨的主要技術(shù)問題,闡述了針對這些問題的技術(shù)方案。
實踐表明,該系統(tǒng)在多系統(tǒng)數(shù)據(jù)融合的靈活性、擴展性和實時性等方面都具有較好的效果。未來,將結(jié)合應用場景的大數(shù)據(jù)實時融合需求,進一步完善時序?qū)崟r大數(shù)據(jù)處理能力,提高融合系統(tǒng)的處理性能。
參考文獻
Suchanek F M, Weikum G. Knowledge bases in the age of big data analytics[J]. Procedings of the VLDB Endowment, 2014, 7(13): 1713-1714.
WAMDM. ScholarSpace[EB?OL].[2015-12-12]. htp:?c-dblp.cn.
Shvaiko P, Euzenat J. Ontology matching: State of the art and future chalenges[J]. IEEE Trans on Knowledge and Data Enginering, 2013, 25(1): 158-176.
Zhao L, Ichise R. Ontology integration for linked data[J]. Journal on Data Semantics, 2014, 3(4): 237-254.
Jan M. Linked data integration[D]. Prague, Czechia: Charles University in Prague, 2013.
Dong X L, Srivastava D. Big data integration[C]?Proc of the 29th IEEE Int Conf on Data Enginering (ICDE). Piscataway, NJ: IEEE, 2013: 1245-1248.
Belahsene Z, Bonifati A, Rahm E. Schema Matching and Mapping[M]. Berlin: Springer, 2011.
唐山峰, 王淑營. 面向電子政務的異構(gòu)數(shù)據(jù)交換解決?方案[J]. 計算機技術(shù)與發(fā)展, 2011(4): 13-16.
侯曉岑. 政府信息資源管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 成都: 電子科技大學, 2014.
徐磊, 趙愛東?. 智慧港口公共信息平臺標準化建設(shè)探?究[J]. 標準科學, 2015(4): 42-45.
基于商密體系的政務鏈解決數(shù)據(jù)安全共享交換的研究[J]. 趙睿斌, 楊紹亮, 王毛路, 程浩. 信息安全與通信保密. 2018(05).
我國政府數(shù)據(jù)開放共享政策體系構(gòu)建[J]. 黃如花, 溫芳芳, 黃雯. 圖書情報工作. 2018(09).
淺談政府數(shù)據(jù)共享交換平臺建設(shè)[J]. 熊瑰. 信息通信. 2018(02).
大數(shù)據(jù)時代政府管理創(chuàng)新[J]. 陳冠蓉. 中國管理信息化. 2017(02).
電子政務系統(tǒng)中的數(shù)據(jù)交換和共享服務平臺設(shè)計[J]. 劉麟乾. 電腦編程技巧與維護. 2016(11).