燕鵬飛,張厚保
(中國交通通信信息中心,北京 100011)
數(shù)據(jù)整合技術(shù)在水路運政業(yè)務(wù)中的研究與應(yīng)用
燕鵬飛,張厚保
(中國交通通信信息中心,北京 100011)
本文主要從信息化的角度,在水路運政中進行數(shù)據(jù)整合技術(shù)的研究與應(yīng)用。
水路運政;數(shù)據(jù)整合;提升
在水運行業(yè)高投入、快發(fā)展和行業(yè)管理轉(zhuǎn)型的雙重變革環(huán)境下,水路運輸業(yè)務(wù)不可避免的產(chǎn)生了一些問題,也為通過信息化手段進行改進提出了更高的要求和更好的機遇。具體而言,水路運政管理業(yè)務(wù)包括國內(nèi)水路運輸管理、國際水路運輸管理、兩岸水路運輸管理等,而原有的業(yè)務(wù)系統(tǒng)存在很多不足。從業(yè)務(wù)層面看,各個業(yè)務(wù)系統(tǒng)相互獨立,缺乏數(shù)據(jù)共享;從管理層面看,各個業(yè)務(wù)系統(tǒng)中存在數(shù)據(jù)不一致的情況,對決策的準確性造成影響;從信息使用層面看,大量的數(shù)據(jù)難以形成合力,無法發(fā)揮更大的效力。而這些通過分析,可以發(fā)現(xiàn)通過對數(shù)據(jù)處理方式的改變,是可以較好的解決的。
2.1 基本概念
數(shù)據(jù)整合是共享或者合并來自于兩個或者更多應(yīng)用的數(shù)據(jù),創(chuàng)建一個具有更多功能的應(yīng)用的過程。數(shù)據(jù)整合在概念上根據(jù)不同的層次,存在系統(tǒng)整合、應(yīng)用整合、存儲整合、數(shù)據(jù)庫整合等多種整合方式。在實際情況中,根據(jù)具體的需要,還有更多的類型,但都是從不同的角度實現(xiàn)數(shù)據(jù)整合的內(nèi)涵和外延,通過這些方法,不斷提高綜合的信息建設(shè)。
2.2 技術(shù)選取
數(shù)據(jù)整合技術(shù)可以應(yīng)用的很多,但是因為水路運政數(shù)據(jù)具有來源廣泛、格式多樣、業(yè)務(wù)復(fù)雜的特點,并且考慮到進行統(tǒng)一管理和標準化的迫切需要,所以經(jīng)過詳細的分析和研究,本文認為可以選用成熟的ETL和數(shù)據(jù)建模技術(shù)達到目的。
2.2.1 ETL
ETL(Extraction-Transformation-Loading)用來描述將數(shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換、加載至目的端的過程,其基本的體系架構(gòu)如圖1所示。
圖1 ETL體系架構(gòu)圖
由圖1可知,ETL體系架構(gòu)主要分為三個部分:
(1)核心組件:這部分是ETL的核心。數(shù)據(jù)抽取用來將數(shù)據(jù)從源端抽取出來,并分流到不同的目標。數(shù)據(jù)轉(zhuǎn)換按照預(yù)設(shè)規(guī)則將抽取得到的數(shù)據(jù)進行轉(zhuǎn)換,使得原本異構(gòu)的數(shù)據(jù)格式可以統(tǒng)一起來。數(shù)據(jù)清洗負責(zé)處理冗余、殘缺、錯誤、歧義、無效的數(shù)據(jù),并將不符合要求的數(shù)據(jù)進行過濾。數(shù)據(jù)質(zhì)量檢查對源數(shù)據(jù)和清洗后的數(shù)據(jù)進行檢查,并進行必要的驗證,保證數(shù)據(jù)的一致性和正確性。最后數(shù)據(jù)加載將處理后的數(shù)據(jù)加載到目標中。ETL過程通常是自動化的,并且根據(jù)具體應(yīng)用不同,數(shù)據(jù)清洗和質(zhì)量檢查并不是必須的,但其必須保持一個閉合的處理邏輯,以確保各個任務(wù)的執(zhí)行有條不紊。
(2)ETL流程調(diào)度:這部分會對ETL處理過程進行更好的調(diào)度和監(jiān)控。日志管理引擎記錄調(diào)度中的過程日志、執(zhí)行日志、時間日志等主要過程和異常信息,并可對日志進行操作。任務(wù)調(diào)度引擎對整個ETL過程進行調(diào)度,提供分段提交處理和自動提交處理功能。
(3)通用服務(wù):這部分主要包括傳輸管理、服務(wù)管理、配置管理、規(guī)則管理以及組件監(jiān)控、審核驗證、異常管理、日志記錄等服務(wù)。
2.2.2 數(shù)據(jù)建模
數(shù)據(jù)建模是一個用于定義和分析在組織的信息系統(tǒng)的范圍內(nèi)支持業(yè)務(wù)流程所需的數(shù)據(jù)要求的過程。因此,數(shù)據(jù)建模的過程需要專業(yè)建模工程師與業(yè)務(wù)人員和信息系統(tǒng)潛在用戶的緊密合作。
圖2 數(shù)據(jù)模型建立過程
由圖2可知,整個過程可以分為5個部分:
(1)目標制定:通俗的講就是明確業(yè)務(wù)人員想要實現(xiàn)的目標。
(2)數(shù)據(jù)處理:獲取所需要的數(shù)據(jù)并進行必要的處理。
(3)變量處理:在搭建模型前,先要從業(yè)務(wù)邏輯和數(shù)據(jù)邏輯方面考慮選用哪些變量來建立模型。而在變量本身不適合直接拿來建模時,需要進行重構(gòu),以便于后續(xù)建模使用。
(4)模型搭建:建模的目標是為了解決實際問題,所以需要選擇適合的算法,如果確定了算法以后,發(fā)現(xiàn)變量不滿足要求,還需要重新回到變量處理這一步重新進行選擇。算法確定后,根據(jù)不同的模型,需要調(diào)整參數(shù)。在算法和參數(shù)都選定以后,通過加載算法進行流程測試,如果算法不能滿足需求,需要更換算法;如果測試結(jié)果還有提升空間則可以進一步優(yōu)化參數(shù)。
(5)結(jié)果輸出:當(dāng)模型可以滿足目標需求以后,就可以輸出結(jié)果了。在輸出之后,需要向業(yè)務(wù)人員確認模型是否解決了他們提出的問題,如果沒有,則需要重新建立模型。
在水運行業(yè)高投入、快發(fā)展和行業(yè)管理轉(zhuǎn)型的變革環(huán)境下,水路運政業(yè)務(wù)也需要隨之不斷轉(zhuǎn)變:包括增強行業(yè)管理的宏觀調(diào)控能力,提升行政許可行政效能,提高水運市場監(jiān)管水平等??梢源龠M這些改變的因素有很多,從信息化的角度來看,一是更多的掌握行業(yè)運行狀況的信息,二是研發(fā)更新的適應(yīng)業(yè)務(wù)工作的信息化處理工具,三是深入挖掘信息資源的潛在能力,從而更好地發(fā)揮輔助決策的支持作用。
可見,問題的核心在于對數(shù)據(jù)的利用方面,而數(shù)據(jù)整合技術(shù)的應(yīng)用恰恰可以在很大程度上解決這些問題。
3.1 水路運政數(shù)據(jù)整合模型設(shè)計
在實際中,數(shù)據(jù)整合技術(shù)在包括銀行、電信、金融等行業(yè)中都有很多成功的應(yīng)用,對其整個運行系統(tǒng)的提升都起到了很好很正面的影響,并促進了決策水平的提高。而水路運政系統(tǒng)與上述行業(yè)相比,數(shù)據(jù)及業(yè)務(wù)復(fù)雜度都更小一些,再加上相關(guān)技術(shù)已經(jīng)非常成熟,所以在水路運政系統(tǒng)中應(yīng)用數(shù)據(jù)整合技術(shù),非常具有建設(shè)和實施方面的可行性。依據(jù)水路運政業(yè)務(wù)特點,結(jié)合ETL及數(shù)據(jù)建模技術(shù)所設(shè)計的模型如圖3所示。
圖3 水路運政業(yè)務(wù)數(shù)據(jù)整合模型
模型說明:
(1)源系統(tǒng):包括水路運政業(yè)務(wù)中的國內(nèi)業(yè)務(wù)系統(tǒng)、國際業(yè)務(wù)系統(tǒng)、兩岸業(yè)務(wù)系統(tǒng)等,這些系統(tǒng)構(gòu)成了數(shù)據(jù)整合的源系統(tǒng),也提供最終進行數(shù)據(jù)展現(xiàn)和數(shù)據(jù)應(yīng)用的源數(shù)據(jù)。
(2)ETL過程:負責(zé)將各個分布的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)抽取、轉(zhuǎn)換、加載,成為數(shù)據(jù)建模和分析的基礎(chǔ)。
(3)數(shù)據(jù)建模:將ETL處理后的數(shù)據(jù)通過建模進行分析,并進行模型測試,如果通過則可加載模型進行應(yīng)用。
(4)展現(xiàn):將數(shù)據(jù)來源、數(shù)據(jù)量、模型結(jié)果、研究方法以及需求背景和目的等內(nèi)容整理并制作形成一份完整的報告展現(xiàn)出來。并且,數(shù)據(jù)的處理結(jié)果也可用于制作報表或者查詢統(tǒng)計等用途。
3.2 水路運政系統(tǒng)總體架構(gòu)
水路運政系統(tǒng)的建設(shè)緊密結(jié)合建設(shè)任務(wù)需求,充分考慮系統(tǒng)工作的實際條件和環(huán)境,確保了技術(shù)可行及功能適用,在設(shè)計上采用面向服務(wù)的設(shè)計思想和面向?qū)ο蟮拈_發(fā)方法,并通過分層體系結(jié)構(gòu)提供各層之間的規(guī)范化接口,為系統(tǒng)的擴展提供有力的支撐。其總體架構(gòu)如圖4所示。
圖4 水路運政系統(tǒng)總體架構(gòu)
主要內(nèi)容如下:
(1)基礎(chǔ)設(shè)施平臺:包括主機、存儲、操作系統(tǒng)、數(shù)據(jù)庫、中間件、公網(wǎng)、專網(wǎng)、安全技術(shù)等基礎(chǔ)設(shè)施,從而保障系統(tǒng)建設(shè)的正常進行。
(2)應(yīng)用支撐平臺:包括組件管理、報表管理、業(yè)務(wù)流程管理及企業(yè)服務(wù)總線。組件管理平臺用于各類組件的設(shè)計、開發(fā)、調(diào)試、部署、運行、維護和管控。報表工具用于設(shè)計及產(chǎn)生報表,并嵌入各業(yè)務(wù)系統(tǒng)功能中。業(yè)務(wù)流程管理平臺用于各項業(yè)務(wù)流程的制定、執(zhí)行、監(jiān)控。企業(yè)服務(wù)總線用于高效的實現(xiàn)各系統(tǒng)之間的服務(wù)和信息的集成、共享和交換。
(3)數(shù)據(jù)整合平臺:包括ETL和數(shù)據(jù)建模分析。ETL是承前啟后的重要一步,負責(zé)將分布的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)進行處理,從而為建模分析及應(yīng)用提供高質(zhì)量的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)建模分析可以發(fā)現(xiàn)有用的信息、有建設(shè)性的結(jié)論,從而對決策的制定起到輔助作用。
(4)應(yīng)用系統(tǒng):包括申報審批、統(tǒng)計查詢、數(shù)據(jù)歸檔等系統(tǒng),為水路運政系統(tǒng)提供各類系統(tǒng)服務(wù)。
(5)共享服務(wù)平臺:包括共享接口和信息調(diào)用功能,為系統(tǒng)中數(shù)據(jù)的共享和流轉(zhuǎn)提供支持。
(6)門戶:將水路運政系統(tǒng)中的各種內(nèi)容和服務(wù)進行集成,并提供訪問接口。
3.3 水路運政系統(tǒng)數(shù)據(jù)流程
水路運政系統(tǒng)的數(shù)據(jù)流程是描述系統(tǒng)中數(shù)據(jù)流轉(zhuǎn)及處理的基本要求及說明,并反映出各類用戶的職責(zé)和工作,其基本數(shù)據(jù)流程如圖5所示。
此處按照不同的用戶類型進行說明:
(1)系統(tǒng)用戶:根據(jù)需要提供和取消資源,并進行字典管理、指標管理等。
(2)專業(yè)用戶:確定所要達成的數(shù)據(jù)目標,采集所需的業(yè)務(wù)上報數(shù)據(jù),并通過ETL及數(shù)據(jù)建模手段實現(xiàn)數(shù)據(jù)的處理及鉆取,并對數(shù)據(jù)結(jié)果進行統(tǒng)計分析。
圖5 水路運政系統(tǒng)數(shù)據(jù)流程
(3)核心管理用戶:對系統(tǒng)處理的數(shù)據(jù)結(jié)果進行查詢分析,并可對分析結(jié)果從事進一步的統(tǒng)計分析,從而保證決策的需要和準確性。
(4)企業(yè)用戶:按照要求直接上報水路運政業(yè)務(wù)所需的業(yè)務(wù)申請信息和企業(yè)報表信息等。
(5)地方管理用戶:上報轄區(qū)內(nèi)水運企業(yè)的業(yè)務(wù)辦理事項及相關(guān)匯總及報表數(shù)據(jù)。
(6)第三方用戶:可以查看和導(dǎo)出系統(tǒng)發(fā)布的數(shù)據(jù)。
最終水路運政系統(tǒng)通過對數(shù)據(jù)的定義、采集、整合以及分析,提供更專業(yè)、更高質(zhì)量的數(shù)據(jù)服務(wù),從而達到對決策進行有效支持的作用。
本文通過對數(shù)據(jù)整合技術(shù)的研究,并結(jié)合業(yè)務(wù)發(fā)展現(xiàn)狀,探討了水路運政業(yè)務(wù)在這方面缺乏數(shù)據(jù)共享、準確性及不易形成合力等方面的問題。然后通過對ETL和數(shù)據(jù)建模等數(shù)據(jù)整合技術(shù)在水路運政業(yè)務(wù)中的應(yīng)用,達到了預(yù)期的目標并提升了系統(tǒng)的服務(wù)能力。但同時,通過對水路運政業(yè)務(wù)的不斷深入理解和挖掘,可以更清晰地發(fā)現(xiàn),在通過數(shù)據(jù)整合技術(shù)將數(shù)據(jù)能力提升之后,業(yè)務(wù)的整合將是持續(xù)改進的關(guān)鍵?!?/p>
[1] 柏永斌,許利亞,馮震宇,黃愛軍.基于XML和WebService的異構(gòu)數(shù)據(jù)整合技術(shù)應(yīng)用研究.電腦知識與技術(shù),2009,5(8):1796-1797
[2] 鐘華,馮文瀾,譚紅星,黃濤.面向數(shù)據(jù)集成的ETL系統(tǒng)設(shè)計與實現(xiàn).計算機科學(xué),2004,31(09):87-89
[3] 劉三滿.基于ETL工具的數(shù)據(jù)集成和交換的研究.電腦開發(fā)與應(yīng)用,2011,24(10):17-19
[4] 王方建.?dāng)?shù)據(jù)建模.北京 學(xué)出版社,2012
[5] 鄭賢中,王乘.XML的數(shù)據(jù)建模及其應(yīng)用.計算機工程,2003,29(05):35-36
Study on the Data Integration Technology and Its Application In Waterway Transportation and Administration Business
Yan Pengfei, Zhang Houbao
(China Transport Telecommunication & Information Center, Beijing, 100011)
The Article mainly makes a study on the data integration technology and its application in waterway transportation and administration business in the view of informationization.
Waterway transportation; Data integration; Enhancement
10.3969/J.ISSN.1672-7274.2016.08.007
TP392 文獻標示碼:A
1672-7274(2016)08-0027-04
燕鵬飛,男,1981年生,內(nèi)蒙古烏蘭察布市人,現(xiàn)任職于中國交通通信信息中心,研究方向為交通信息化。
張厚保,男,1989年生,河北邢臺人,現(xiàn)任職于中國交通通信信息中心,研究方向為交通信息化。