裘昱 潘登
摘要:信息系統(tǒng)建設離不開數(shù)據(jù),數(shù)據(jù)工程的方法是數(shù)據(jù)科學與數(shù)據(jù)技術的應用和歸宿。該文提出的在信息系統(tǒng)建設中應用數(shù)據(jù)工程的方法并發(fā)揮其作用,就是利用工程的觀點進行數(shù)據(jù)管理和分析以及開展系統(tǒng)的研發(fā)和應用,可避免信息系統(tǒng)建設過程中諸多現(xiàn)實問題。
關鍵詞:數(shù)據(jù)工程;信息系統(tǒng);作用
中圖分類號:TP3? ? ? 文獻標識碼:A? ? ? 文章編號:1009-3044(2019)01-0009-02
1 數(shù)據(jù)、信息及信息系統(tǒng)
數(shù)據(jù)和信息是信息系統(tǒng)中最基本的術語。數(shù)據(jù)是指記錄下來的事實,是客觀實體屬性的值。就其表現(xiàn)形式來看,可以分為模擬數(shù)據(jù)(其數(shù)據(jù)是連續(xù)的值,比如聲音、圖像等)和數(shù)字數(shù)據(jù)(其數(shù)據(jù)是離散的值,如符號、數(shù)字等)。
信息是構(gòu)成一定含義的一組數(shù)據(jù)。信息是對客觀世界中各種事物的狀態(tài)、特征及其變化的反映,泛指人類社會傳播的一切內(nèi)容。人通過獲得、識別自然界和社會的不同信息來區(qū)別不同事物,得以認識和改造世界。
信息和數(shù)據(jù)的關系非常緊密,息息相關,可描述為:數(shù)據(jù)是信息的表現(xiàn)形式和載體。數(shù)據(jù)和信息是不可分離的,數(shù)據(jù)是信息的表達,信息是數(shù)據(jù)的內(nèi)涵。數(shù)據(jù)本身沒有意義,數(shù)據(jù)只有對實體行為產(chǎn)生影響時才成為信息。[1]
信息系統(tǒng)是由人、計算機(包括網(wǎng)絡)和管理規(guī)則組成的集成化系統(tǒng),是由計算機硬件、網(wǎng)絡和通信設備、計算機軟件、信息資源、信息用戶和規(guī)章制度組成的以處理信息流為目的的人機一體化系統(tǒng)。
二十世紀60、70年代,在以美國為代表的信息技術發(fā)達國家,出現(xiàn)了與“信息孤島”相類似的“數(shù)據(jù)處理危機”問題,表現(xiàn)為,信息系統(tǒng)建設出現(xiàn)了大量的失敗案例,無用的或效率很低的應用程序越積越多,應用開發(fā)的效率越來越低,信息系統(tǒng)的維護越來越困難。隨著信息工程的出現(xiàn),對解決“數(shù)據(jù)處理危機”發(fā)揮了重要的作用。信息工程作為一個學科,是多種技術、多種學科的綜合,是研究信息處理理論、技術和工程實現(xiàn)的專門學科。目前,信息工程多是以系統(tǒng)建設為核心,提出對數(shù)據(jù)的使用要求,尚不能涵蓋數(shù)據(jù)建設的全過程。我們認為,為了進一步理清數(shù)據(jù)工作的思路,信息系統(tǒng)建設還應以數(shù)據(jù)為焦點,應用數(shù)據(jù)全壽命過程中的技術、管理和目標,達到進一步降低風險,提高效率的目的。同時,信息工程的基本原理對于數(shù)據(jù)工程建設而言依然適用。
2 數(shù)據(jù)工程基本概念
數(shù)據(jù)工程(Data Engineering)是規(guī)范和支撐數(shù)據(jù)產(chǎn)生、維護、服務、使用、存儲全過程的一系列技術、建設、應用和管理活動的總稱,其主要目標是強化數(shù)據(jù)的管理,提高數(shù)據(jù)的可見性、可訪問性和可理解性。數(shù)據(jù)工程建設的實質(zhì)是將系統(tǒng)工程的方法用于解決數(shù)據(jù)建設中存在的各種問題,最大程度提高數(shù)據(jù)的使用價值[2]。
數(shù)據(jù)工程建設由法規(guī)和標準、數(shù)據(jù)支撐環(huán)境和數(shù)據(jù)資源建設三個方面組成。數(shù)據(jù)法規(guī)和標準包括數(shù)據(jù)政策法規(guī)、數(shù)據(jù)標準體系、各類數(shù)據(jù)標準等,用于規(guī)范數(shù)據(jù)資源建設的各項活動。數(shù)據(jù)支撐環(huán)境建設包括數(shù)據(jù)集成環(huán)境、數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)中心/數(shù)據(jù)存儲災備系統(tǒng)和數(shù)據(jù)安全保密系統(tǒng)。數(shù)據(jù)集成環(huán)境具有元數(shù)據(jù)注冊、數(shù)據(jù)建模、數(shù)據(jù)映射、數(shù)據(jù)抽取與轉(zhuǎn)換、數(shù)據(jù)挖掘和聚合等服務功能,為數(shù)據(jù)的共享與應用提供(網(wǎng)絡化)支持環(huán)境。數(shù)據(jù)管理系統(tǒng)具有對各種數(shù)據(jù)的采集、匯總、審核、性能監(jiān)控和查詢分析等功能。數(shù)據(jù)中心/數(shù)據(jù)存儲災備系統(tǒng)為數(shù)據(jù)提供各種服務,包括安全、可靠、高效的存儲、容災和備份服務。數(shù)據(jù)安全保密系統(tǒng)為數(shù)據(jù)提供安全保密手段和措施。從國家安全的高度出發(fā),數(shù)據(jù)支撐環(huán)境所依賴的基礎軟件應該由非自主知識產(chǎn)權(quán)基礎軟件逐漸過渡到自主知識產(chǎn)權(quán)基礎軟件。數(shù)據(jù)資源主要包括共享數(shù)據(jù)和業(yè)務數(shù)據(jù)兩大類數(shù)據(jù)。共享數(shù)據(jù)是領域間通用的、基礎性的數(shù)據(jù)資源。業(yè)務數(shù)據(jù)是各業(yè)務部門為支持具體的業(yè)務工作而使用的專用數(shù)據(jù)。共享和業(yè)務數(shù)據(jù)是相對而言的,針對不同范圍的領域可能有著特定的含義?;A數(shù)據(jù)建設是為了促進數(shù)據(jù)共享,如果有了基礎數(shù)據(jù)卻不能按需有權(quán)限共享,則意義有限。完成基礎數(shù)據(jù)建設,完善數(shù)據(jù)更新和共享機制,對解決長期困擾在信息化建設中數(shù)據(jù)橫向共享難的瓶頸問題,發(fā)揮信息系統(tǒng)的整體效益至關重要。
3 數(shù)據(jù)工程在信息系統(tǒng)建設中的作用
3.1 強化數(shù)據(jù)資源開發(fā)與利用
現(xiàn)代社會是信息化社會,誰擁有了量多質(zhì)好的信息,誰就占據(jù)有利位置。因此,數(shù)據(jù)作為信息的載體和表現(xiàn)形式,正越來越受到大家的普遍重視。數(shù)據(jù)是信息化"彈藥",只有"彈藥"充足了,才能變信息優(yōu)勢為決策優(yōu)勢?,F(xiàn)代的信息化社會緊緊圍繞著一個核心,那就是數(shù)據(jù)。在信息系統(tǒng)建設中,非常重要的一點是運用數(shù)據(jù)工程原理,強化數(shù)據(jù)資源的開發(fā)與利用,并且確保在各信息系統(tǒng)之間能夠互操作這些數(shù)據(jù)資源,發(fā)揮信息系統(tǒng)的整體效益。數(shù)據(jù)資源是信息系統(tǒng)最重要的資源之一,開發(fā)數(shù)據(jù)資源既是信息化的出發(fā)點,又是信息化的目標。
3.2 強調(diào)以數(shù)據(jù)為中心構(gòu)建信息系統(tǒng)
在建設信息系統(tǒng)時,信息工程的基本原理依然適用,就是說應該在以系統(tǒng)建設為核心的同時,也要強調(diào)把數(shù)據(jù)作為中心來構(gòu)建信息系統(tǒng),一是應用系統(tǒng)的研發(fā)應面向數(shù)據(jù),而不應面向過程。研發(fā)過程中,應首要考慮的是系統(tǒng)的使用者需要系統(tǒng)提供哪些服務,從而更加有效高效的組織數(shù)據(jù)。二是數(shù)據(jù)是穩(wěn)定的,處理是多變的。只要信息系統(tǒng)業(yè)務主體不變,所使用的數(shù)據(jù)模型就很少變化。通過使用多種數(shù)據(jù)分析方法,找到數(shù)據(jù)模型。根據(jù)數(shù)據(jù)模型建立并組織這些數(shù)據(jù),不僅能提供更加有效的服務,當組織或業(yè)務上出現(xiàn)變化時也能很快適應。三是具有信息或數(shù)據(jù)的最終組織、運用、管理和決策權(quán)力的高層用戶必須真正參加或指導信息系統(tǒng)的建設工作。信息系統(tǒng)建設是"一把手"工程,離開高層用戶緊密參與,是不可能真正成功的。
3.3 強力以數(shù)據(jù)集成推動信息系統(tǒng)集成
近年來,隨著計算機技術運用的不斷深入,不同軟件間,不同部門間的數(shù)據(jù)信息不能共享,設計、管理、生產(chǎn)的數(shù)據(jù)不能進行交流,數(shù)據(jù)出現(xiàn)脫節(jié),產(chǎn)生了較為嚴重的“信息孤島”問題,信息系統(tǒng)集成難度變大,傳統(tǒng)的打補丁、寫接口轉(zhuǎn)換程序等做法很難從根本上解決問題。
從數(shù)據(jù)工程的角度來看,應該面向數(shù)據(jù)集成,從數(shù)據(jù)法規(guī)和標準、數(shù)據(jù)支撐環(huán)境和數(shù)據(jù)資源建設等三個方面入手,強力推動信息系統(tǒng)集成,即擬制相關數(shù)據(jù)法規(guī),解決數(shù)據(jù)的管理、維護等問題,規(guī)劃數(shù)據(jù)標準體系,建立穩(wěn)定的數(shù)據(jù)模型,設計共享數(shù)據(jù)庫,抓好數(shù)據(jù)重組工作(重組原有的信息資源),改造雜亂無序的數(shù)據(jù)支撐環(huán)境,構(gòu)建可共享的基礎數(shù)據(jù)資源,只有在能夠采用相對穩(wěn)定的數(shù)據(jù)模型和數(shù)據(jù)來描述各信息系統(tǒng)的共享需求,采用統(tǒng)一的方式(或環(huán)境)處理這些數(shù)據(jù)模型和數(shù)據(jù),又具備了可共享、交換的基礎數(shù)據(jù)資源后,才能解決數(shù)據(jù)集成問題,取得信息系統(tǒng)集成的主動權(quán)[3]。
4 國外數(shù)據(jù)工程建設主要做法
國外(以美國為代表)高度重視數(shù)據(jù)工程建設,其主要做法包括:一是技術推動與法規(guī)制度建設并重。美國一方面靠技術推動,促進轉(zhuǎn)型,另一方面又下大力氣,緊抓法規(guī)制度建設,用法規(guī)制度為轉(zhuǎn)型保駕。例如美軍高度重視法規(guī)制度在轉(zhuǎn)型中的關鍵作用,為加強美軍的信息(數(shù)據(jù))能力,美軍除了信息柵格基礎設施(GIG)本身建設外,以國防部(DOD)為主要法規(guī)政策制定者,出臺了一系列相關的法規(guī)類文件,其中包括《美國國家安全戰(zhàn)略》《美國國防戰(zhàn)略》《美國國家軍事戰(zhàn)略》《國防部首席信息官戰(zhàn)略規(guī)劃》《GIG體系結(jié)構(gòu)構(gòu)想視圖》《美國國防部網(wǎng)絡中心數(shù)據(jù)共享實施指南》《網(wǎng)絡中心數(shù)據(jù)策略》和《網(wǎng)絡中心作戰(zhàn)和網(wǎng)絡中心戰(zhàn)參考模型》。這些法規(guī)類文件對促進美軍的轉(zhuǎn)型起到了非常關鍵的作用。二是按照實際需求,逐步發(fā)展數(shù)據(jù)策略。以美國為例,其數(shù)據(jù)標準管理方式,先是分散管理,再由分散管理過渡到集中管理,然后在數(shù)據(jù)標準的指導下,再過渡到"非集中"管理的網(wǎng)絡中心數(shù)據(jù)策略。三是高度重視數(shù)據(jù)基礎環(huán)境和通用數(shù)據(jù)資源的建設。以數(shù)據(jù)基礎環(huán)境為信息系統(tǒng)建設的核心,以通用數(shù)據(jù)資源建設帶動信息資源的整體建設。四是高度重視數(shù)據(jù)標準在信息系統(tǒng)互操作中的關鍵作用。美國認為信息系統(tǒng)互操作等級的指標體系由規(guī)程 (Procedures) 、應用 (Applications) 、基礎設施 (Infrastructure) 和數(shù)據(jù) (Data)四個屬性構(gòu)成,其中,數(shù)據(jù)屬性描述系統(tǒng)處理的信息,涉及信息格式(語法)和其內(nèi)容或意義(語義)兩個方面,囊括了全部信息式樣和格式,包括自由文本、格式化文本、數(shù)據(jù)庫(格式化的和非格式化的)、視頻、語音、圖像、圖形(地圖)信息等等,是獲得系統(tǒng)互操作性的最關鍵的環(huán)節(jié)。
5 啟示
未來社會將是以數(shù)據(jù)為中心特點的數(shù)字化信息化社會,在這樣的環(huán)境下,數(shù)據(jù)的來源是全方位的。必須抓住機遇,認真解決在數(shù)據(jù)建設中存在的各種矛盾問題,只有抓好數(shù)據(jù)工程工作,重視數(shù)據(jù)工程建設,強調(diào)以數(shù)據(jù)工程建設推動信息系統(tǒng)建設,著力以數(shù)據(jù)為中心構(gòu)建信息系統(tǒng),搞好以數(shù)據(jù)集成推動信息系統(tǒng)集成,切實重視數(shù)據(jù)法規(guī)標準建設,努力構(gòu)建基礎數(shù)據(jù)的一體化支撐環(huán)境,建立健全數(shù)據(jù)資源的管理機制體質(zhì),促進數(shù)據(jù)共享,強化數(shù)據(jù)管理,規(guī)范數(shù)據(jù)全壽命活動,提高數(shù)據(jù)的可見性、可訪問性和可理解性,最大程度提高數(shù)據(jù)的使用價值,才能最終為提高信息系統(tǒng)整體效益,迎接數(shù)字化社會,奠定堅實的基礎。
參考文獻:
[1] 岳昆. 數(shù)據(jù)工程—處理、分析與服務[M]. 北京:清華大學出版社, 2013.
[2] 李國杰, 程學旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域[J]. 北京:中國科學院院刊, 2012.
[3] 周傲英, 錢衛(wèi)寧. 數(shù)據(jù)科學與工程:大數(shù)據(jù)時代的新興交叉學科[J].大數(shù)據(jù), 2015(2).