趙屹
(國防大學政治學院 上海 200433)
最早提出數(shù)據(jù)空間概念的是富蘭克林(Franklin)等人[1],他們于2005 年提出基于數(shù)據(jù)空間的數(shù)據(jù)集成系統(tǒng)。數(shù)據(jù)空間是“數(shù)據(jù)提供者和數(shù)據(jù)使用者之間進行數(shù)據(jù)交換和使用的環(huán)境”[2]。最早將數(shù)據(jù)空間付諸實踐的是德國。2014 年底,德國聯(lián)邦教研部開展“工業(yè)數(shù)據(jù)空間行動”,開始構建工業(yè)數(shù)據(jù)空間(Industrial Data Space,簡稱IDS)。2016 年1 月,成立“工業(yè)數(shù)據(jù)空間聯(lián)盟”。2017 年,發(fā)布《工業(yè)數(shù)據(jù)空間參考架構模型》。2018 年11 月,“工業(yè)數(shù)據(jù)空間聯(lián)盟”發(fā)展成為“國際數(shù)據(jù)空間聯(lián)盟”,為歐盟數(shù)據(jù)戰(zhàn)略發(fā)揮積極作用。2019 年4 月,《工業(yè)數(shù)據(jù)空間參考架構模型1.0 版》發(fā)展成為《國際數(shù)據(jù)空間參考架構模型3.0 版》。2020 年2 月,歐盟委員會發(fā)布“歐洲數(shù)據(jù)戰(zhàn)略”,首次提出構建多個數(shù)據(jù)空間,例如歐洲健康數(shù)據(jù)空間(European Health Data Space),并提出“單一數(shù)據(jù)市場”理念,強調鞏固“數(shù)據(jù)主權”。隨后,“英國推出國家數(shù)字孿生體原則形成數(shù)據(jù)空間實施理念”,德國“打造基于工業(yè)數(shù)據(jù)空間參考架構模型的行業(yè)解決方案”,日本“以互聯(lián)產業(yè)開放框架為核心推動分布式數(shù)據(jù)共享模式發(fā)展”,[3]我國也開始致力于打造可信數(shù)據(jù)空間?!稗r業(yè)、工業(yè)、商務、物流、金融、能源等重點領域正在分領域構建可信數(shù)據(jù)空間,力爭實現(xiàn)跨行業(yè)跨領域數(shù)據(jù)流通,整體帶動實現(xiàn)產業(yè)數(shù)字化轉型和提升社會服務數(shù)字化水平。”[4]
在數(shù)據(jù)空間建設蓬勃發(fā)展的背景下,檔案領域數(shù)據(jù)空間是一個值得探討和研究的問題。
檔案領域數(shù)據(jù)空間是檔案數(shù)據(jù)提供者和利用者之間基于網絡進行檔案數(shù)據(jù)流通共享充分釋放檔案數(shù)據(jù)資源價值的數(shù)字生態(tài)環(huán)境,是與檔案相關的數(shù)據(jù)及其關系的集合。
檔案領域數(shù)據(jù)空間實現(xiàn)檔案數(shù)據(jù)流通共享、賦能檔案數(shù)據(jù)價值創(chuàng)造,是一種以檔案數(shù)據(jù)為中心的網絡空間新形態(tài),一種新的檔案數(shù)據(jù)組織模式,一種分享檔案數(shù)據(jù)的新范式。它主要是為了突破數(shù)據(jù)孤島、避免重復建設,使檔案的共享利用變得更加廣泛、便捷和高效,提高檔案資源的綜合利用效率。
檔案領域數(shù)據(jù)空間的總體架構如圖1 所示。檔案領域數(shù)據(jù)空間的數(shù)據(jù)來源于提供方。提供方通過接口連接進數(shù)據(jù)空間。數(shù)據(jù)的利用方同樣通過接口與數(shù)據(jù)空間相連。在數(shù)據(jù)空間中有中介方,它提供目錄、日志、認證、字典、商店、索引、檢索、利用、管理等服務,實現(xiàn)檔案領域數(shù)據(jù)空間內數(shù)據(jù)的流通共享。中介方服務的實現(xiàn)依賴底層運營方提供基礎設施平臺。檔案領域數(shù)據(jù)空間還需要有組織地予以管理,因此,必須有監(jiān)管方負責制定檔案領域數(shù)據(jù)空間的規(guī)則并確保規(guī)則的執(zhí)行,同時,由監(jiān)管方授權或委托一個運營方進行技術運營。部分情況下,運營方與中介方是合一的。
圖1 檔案領域數(shù)據(jù)空間的總體架構
檔案領域數(shù)據(jù)空間的數(shù)據(jù)是檔案數(shù)據(jù)。
2.1.1 數(shù)據(jù)內容
檔案數(shù)據(jù)是在社會各項活動中直接形成并按時間積累的歷史信息,具有真實性和完整性,遵循檔案管理標準進行分類。檔案領域數(shù)據(jù)空間的檔案數(shù)據(jù)還包括檔案數(shù)據(jù)的相互關系、在檔案管理活動中形成的檔案管理信息、元數(shù)據(jù)等。
2.1.2 數(shù)據(jù)特點
檔案領域數(shù)據(jù)空間的檔案數(shù)據(jù)具有多源性、動態(tài)性、多模態(tài)、異構性等特點。
多源性是指在空間上,檔案領域數(shù)據(jù)空間的檔案數(shù)據(jù)來自于不同的分布的數(shù)據(jù)源,其位置、載體、結構、模式、語義、格式等各不相同,數(shù)據(jù)間存在重疊、沖突、繼承等多種關系。一個檔案領域數(shù)據(jù)空間是若干檔案數(shù)據(jù)源及其相互關系的集合,可實現(xiàn)對多個數(shù)據(jù)源的即時訪問。
動態(tài)性是指在時間上,檔案領域數(shù)據(jù)空間的檔案數(shù)據(jù)以數(shù)據(jù)價值為核心不斷演化。隨著時間的發(fā)展,有價值的檔案數(shù)據(jù)會不斷加入,不再具有價值的檔案數(shù)據(jù)將逐漸退出,同時,檔案數(shù)據(jù)間的關系也會不斷變化,動態(tài)地建立關聯(lián)。檔案領域數(shù)據(jù)空間對于這種數(shù)據(jù)演化具有良好的適應性,可以快速響應靈活有序地實現(xiàn)檔案數(shù)據(jù)的加入和退出。
多模態(tài)是指形態(tài)上,檔案領域數(shù)據(jù)空間的檔案數(shù)據(jù)種類多,以不同的模態(tài)呈現(xiàn),包括文本數(shù)據(jù)、照片數(shù)據(jù)、錄音數(shù)據(jù)、錄像數(shù)據(jù)、關系數(shù)據(jù)庫中的數(shù)據(jù)等。檔案領域數(shù)據(jù)空間對于多模態(tài)的檔案數(shù)據(jù)要能進行良好的融合,全面準確地實現(xiàn)數(shù)據(jù)共享。
異構性是指在結構上,檔案領域數(shù)據(jù)空間的檔案數(shù)據(jù)不依賴相同的結構,結構化、半結構化、非結構化的多種數(shù)據(jù)并存。檔案領域數(shù)據(jù)空間能夠屏蔽數(shù)據(jù)的物理異構,通過數(shù)據(jù)模型構建等實現(xiàn)對異構數(shù)據(jù)的統(tǒng)一調控和管理。
2.1.3 數(shù)據(jù)質量控制
檔案領域數(shù)據(jù)空間是檔案數(shù)據(jù)的一種共存形態(tài),需要多方共同協(xié)作實現(xiàn)檔案數(shù)據(jù)的質量控制。監(jiān)管方制定檔案數(shù)據(jù)標準,規(guī)范編碼規(guī)則、數(shù)據(jù)格式、命名規(guī)則等,確保檔案數(shù)據(jù)的一致性和可比性。提供方不僅提供檔案數(shù)據(jù)內容,還提供按標準處理、元數(shù)據(jù)抽取、多維度分類等數(shù)據(jù)管理服務。中介方完成檔案數(shù)據(jù)的集成、清洗、去重、校驗等工作,并對數(shù)據(jù)進行集成調度。監(jiān)管方、中介方共同對數(shù)據(jù)質量進行監(jiān)控與評估。監(jiān)管方制定監(jiān)控與評估規(guī)則,規(guī)范數(shù)據(jù)質量評價維度。中介方建立監(jiān)控與評估機制,結合檔案數(shù)據(jù)利用者反饋定期實施監(jiān)控與評估,及時發(fā)現(xiàn)檔案數(shù)據(jù)質量問題并聯(lián)合提供方予以糾正。
在圖1 中,提供方、利用方、中介方、運營方、監(jiān)管方都屬于檔案領域數(shù)據(jù)空間的參與者,每類參與者在檔案領域數(shù)據(jù)空間中都有一定的權利和義務。
2.2.1 提供方
提供方是檔案數(shù)據(jù)的所有者和提供者,是擁有和發(fā)布檔案數(shù)據(jù)的機構或個人。其義務是按標準對檔案數(shù)據(jù)進行處理,使其符合檔案領域數(shù)據(jù)空間的要求以供利用者使用。其處理工作包括但不限于對檔案數(shù)據(jù)進行描述,方便利用者進行檢索,建立檔案數(shù)據(jù)間的關聯(lián),定義檔案數(shù)據(jù)的使用限制,發(fā)布元數(shù)據(jù)及其使用限制等。其權利是在檔案領域數(shù)據(jù)空間中可監(jiān)控所提供的數(shù)據(jù),從檔案領域數(shù)據(jù)空間接收數(shù)據(jù)的流通交易信息。
2.2.2 利用方
利用方是檔案領域數(shù)據(jù)空間中檢索和利用檔案數(shù)據(jù)的機構或個人,是檔案數(shù)據(jù)的差異化的使用者,從檔案領域數(shù)據(jù)空間共享的檔案數(shù)據(jù)中獲益。其權利是使用檔案領域數(shù)據(jù)空間提供的高效的檢索工具,選擇不同的數(shù)據(jù)源,基于提供者對檔案數(shù)據(jù)所做描述,采用關鍵詞搜索、時間范圍篩選等檢索途徑,迅速查找利用所需的檔案數(shù)據(jù)。其義務是要符合和滿足檔案數(shù)據(jù)的利用條件,例如獲得訪問和使用檔案數(shù)據(jù)的授權。
2.2.3 中介方
中介方是在提供方與利用方之間實現(xiàn)檔案數(shù)據(jù)流通共享的服務提供者。其義務包括但不限于:(1)管理數(shù)據(jù)源,包括數(shù)據(jù)源在中介注冊、數(shù)據(jù)源定位、維護和監(jiān)督、數(shù)據(jù)源世系追蹤、版本控制等。更高階段的數(shù)據(jù)源管理還包括不斷發(fā)現(xiàn)并增加新數(shù)據(jù)源,并建立數(shù)據(jù)源間關系及維護其聯(lián)系。(2)管理字典,提供并管理檔案領域數(shù)據(jù)空間的數(shù)據(jù)模型,梳理字典中的詞匯并對其進行創(chuàng)建、維護。(3)調度檔案數(shù)據(jù)資源,自動處理數(shù)據(jù)的動態(tài)變化,例如,支持檔案數(shù)據(jù)提供者實現(xiàn)檔案數(shù)據(jù)的發(fā)布,支持錯誤數(shù)據(jù)和不完整數(shù)據(jù)退回,集成、清洗數(shù)據(jù),管理數(shù)據(jù)和元數(shù)據(jù)的演化,當檔案數(shù)據(jù)從空間退出時,實現(xiàn)非延時的數(shù)據(jù)遺忘等。(4)匹配檔案數(shù)據(jù)的需求和供給,支持檔案數(shù)據(jù)提供者和利用者就特定數(shù)據(jù)的提供和利用達成一致性協(xié)議,實現(xiàn)端到端的數(shù)據(jù)安全流通,并對流通雙方即提供方和利用方進行登記,確定雙方責任。(5)支持利用方實現(xiàn)檔案數(shù)據(jù)共享利用,包括為利用方提供元數(shù)據(jù),設置檔案數(shù)據(jù)訪問權限,定義檢索規(guī)則和完整性約束、支持利用者檢索檔案數(shù)據(jù)等。(6)維護日志,監(jiān)督和記錄檔案數(shù)據(jù)流通、流轉、流動、交換、交易、共享、分享、利用事務,進行交易備案登記與結算。(7)對檔案數(shù)據(jù)的發(fā)布、檢索、流通、共享進行分析,形成分析報告。(8)對數(shù)據(jù)服務軟件進行監(jiān)管。其權利主要是從服務提供中獲得經濟效益、社會效益以及技術進步。
2.2.4 運營方
運營方通過體系化的技術安排構建通用化的環(huán)境對復雜的數(shù)據(jù)進行高效的組織和協(xié)同,提供基礎設施、運行平臺、業(yè)務組件、輔助工具等完成檔案領域數(shù)據(jù)空間的技術運營。運營方一般由技術運營商擔任,構建檔案數(shù)據(jù)可以流通和共享的空間。這個空間可以是中心化的運行平臺,也可以是非中心化的點對點的連接結構。無論形式如何,運營方提供核心引擎和統(tǒng)一桌面,實現(xiàn)資源分配、任務編譯、調度協(xié)同、組件接入與系統(tǒng)管理等功能,形成檔案領域數(shù)據(jù)空間生態(tài)。運營方的權利同樣是獲得經濟效益或社會效益。
2.2.5 監(jiān)管方
監(jiān)管方通過一套治理框架進行戰(zhàn)略規(guī)劃及監(jiān)督指導,確保檔案領域數(shù)據(jù)空間規(guī)則的遵守和執(zhí)行。其義務包括但不限于提供資金保障,制定檔案領域數(shù)據(jù)空間發(fā)展規(guī)劃和要求,明確檔案領域數(shù)據(jù)空間總體設計和運行架構,確定技術路線,制定檔案數(shù)據(jù)流通共享實施框架和標準,制定數(shù)據(jù)模型并對其進行迭代更新,制定數(shù)據(jù)管理策略、規(guī)則、流程、標準,對數(shù)據(jù)空間進行管理和監(jiān)督,確保檔案數(shù)據(jù)的質量、確保檔案領域數(shù)據(jù)空間的安全性和合規(guī)性。其權利主要是授權或委托運營方。
不同領域數(shù)據(jù)空間建設模式不同,監(jiān)管方可以是政府部門,也可以是組織聯(lián)盟。檔案領域數(shù)據(jù)空間的監(jiān)管方由檔案主管部門擔任最為合理。要實施好對檔案領域數(shù)據(jù)空間的監(jiān)管,必要時可適當?shù)芈?lián)合認證機構、評估機構等第三方機構,共同完成對提供方、利用方、運營方的準入審查。
軟件是指在檔案領域數(shù)據(jù)空間中實現(xiàn)檔案數(shù)據(jù)二次開發(fā)的各種應用程序軟件或微服務。其功能包括但不限于數(shù)據(jù)發(fā)布、數(shù)據(jù)集成、數(shù)據(jù)封裝、數(shù)據(jù)分類、數(shù)據(jù)清洗、數(shù)據(jù)轉換、數(shù)據(jù)監(jiān)控、數(shù)據(jù)檢索、數(shù)據(jù)分析、語義標注、數(shù)據(jù)挖掘、數(shù)據(jù)服務、數(shù)據(jù)匿名化、數(shù)據(jù)可視化、智能推薦、數(shù)據(jù)質量管理、數(shù)據(jù)治理、數(shù)據(jù)報告等。
軟件可以是獨立通用的,也可以是根據(jù)特定用戶的特殊需求量身定制的。軟件由各方開發(fā),一般由中介在商店中集中提供,通過應用標準、開放式應用程序編程接口(API)在檔案領域數(shù)據(jù)空間運行。
檔案領域數(shù)據(jù)空間基于標準通信結構連接。協(xié)議主要是通信協(xié)議,也包括檔案數(shù)據(jù)流通交換協(xié)議,它支持提供方和利用方的檔案數(shù)據(jù)交換和使用。協(xié)議是開放且無差別對待的,可以以標準形式提出,一般由中介方實現(xiàn)。通過協(xié)議消除多種資源間的操作差異,實現(xiàn)檔案數(shù)據(jù)互操作?;ゲ僮魇菣n案領域數(shù)據(jù)空間關鍵的前置條件。
服務由中介方提供。在檔案領域數(shù)據(jù)空間中通過服務完成對數(shù)據(jù)的各項操作。
2.5.1 接口服務
所有提供方與利用方通過接口連接到檔案領域數(shù)據(jù)空間,接口是加入檔案領域數(shù)據(jù)空間的必備品和關鍵技術設施,是檔案領域數(shù)據(jù)空間實現(xiàn)數(shù)據(jù)安全流通的基礎保障,有了它才能在空間內自由安全地流通和分享檔案數(shù)據(jù),并實現(xiàn)提供方對其所提供檔案數(shù)據(jù)的權限控制及監(jiān)控維護。
接口本質上是一種特殊的網關,面向參與者負責數(shù)據(jù)的過濾、匿名化等預處理,面向數(shù)據(jù)空間負責儲存即將進入流通的檔案數(shù)據(jù)。每一個接口需要自帶描述信息并經過電子身份認證。檔案數(shù)據(jù)流通時各參與方的接口會互動。
2.5.2 認證服務
認證服務是檔案領域數(shù)據(jù)空間的“守門人”,它對空間中所有參與者的身份信息進行認證、管理和監(jiān)控,確保參與者的真實身份。它還可以進一步對數(shù)據(jù)源注冊的有效性進行認證。
2.5.3 目錄服務
目錄是檔案數(shù)據(jù)資源清單,一般列明檔案數(shù)據(jù)源的名稱、位置、大小、日期和責任者等基本信息。目錄展現(xiàn)元數(shù)據(jù),展現(xiàn)檔案領域數(shù)據(jù)空間所包含的數(shù)據(jù)源及其相互關系,展現(xiàn)檔案數(shù)據(jù)所有權和訪問權限等。通過目錄,利用方能夠知曉檔案領域數(shù)據(jù)空間中有哪些數(shù)據(jù)。
2.5.4 日志服務
檔案領域數(shù)據(jù)空間的日志用于記錄所有檔案數(shù)據(jù)流通交易的信息。檔案數(shù)據(jù)流通中,提供者和利用者在日志上進行登記,確保流通交易的正規(guī)化。
2.5.5 字典服務
字典是檔案領域數(shù)據(jù)空間對每個原始數(shù)據(jù)元進行描述的詞匯的集合,用于支持語法和語義的標準化。它根據(jù)標準規(guī)范,從技術側統(tǒng)一檔案領域數(shù)據(jù)空間的話語體系、對話規(guī)則、屬性維度、描述方式等,是描述檔案數(shù)據(jù)資源的基礎。
2.5.6 商店服務
商店是應用程序商店,提供數(shù)據(jù)應用程序軟件,是軟件的管理、維護和集中下載處,能夠下載使用檔案領域數(shù)據(jù)空間中所需的各種軟件。
2.5.7 索引服務
索引是提高檢索性能的基礎方法。檔案領域數(shù)據(jù)空間中的檔案數(shù)據(jù)具有多源性、動態(tài)性、多模態(tài)、異構性等特點,對這樣的數(shù)據(jù)創(chuàng)建索引有助于有效地響應基于關鍵字的檢索,實現(xiàn)對檔案數(shù)據(jù)的高效檢索,提高對檔案領域數(shù)據(jù)空間訪問的時效性、準確性以及安全性。
2.5.8 檢索服務
檔案領域數(shù)據(jù)空間提供豐富的檢索服務方式,包括關鍵字搜索、條件檢索、結構化查詢、導航、瀏覽等。利用方通過檢索界面實現(xiàn)對動態(tài)性、多模態(tài)、異構性檔案數(shù)據(jù)的跨數(shù)據(jù)源的檢索或與檔案數(shù)據(jù)直接交互,獲得全面準確的檢索結果。
2.5.9 利用服務
利用服務主要是檔案領域數(shù)據(jù)空間響應利用方的檔案數(shù)據(jù)請求。利用方的檔案數(shù)據(jù)請求可能是在檢索之后即時的點播式的請求,也可能是長期訂閱式的請求。
利用服務還包括提供各種工具和技術,幫助提供方、利用方對檔案數(shù)據(jù)進行處理和操作。這既包括先幫助提供方對數(shù)據(jù)進行處理再由利用方執(zhí)行檢索等操作,也包括先幫助利用方進行檢索等操作,再對檢索結果進行處理。
對檔案數(shù)據(jù)進行的處理主要是基于人工智能的深度學習等技術進行數(shù)據(jù)挖掘、自動聚類、關聯(lián)推薦、智能分析、數(shù)據(jù)可視化等,以提高檔案數(shù)據(jù)質量、提升檔案數(shù)據(jù)價值,這是檔案領域數(shù)據(jù)空間的重要意義所在。
2.5.10 管理服務
管理服務是統(tǒng)一管理檔案領域數(shù)據(jù)空間及其組成構件,統(tǒng)一管理分散的數(shù)據(jù)源,集成不同來源的檔案數(shù)據(jù)在空間內進行利用。
管理服務還包括擴展和改進各數(shù)據(jù)源的數(shù)據(jù)管理能力。每個數(shù)據(jù)源均可在本地對檔案數(shù)據(jù)進行各種管理操作。由于數(shù)據(jù)源各不相同,有些數(shù)據(jù)源可能具有強大的數(shù)據(jù)管理能力,而有些數(shù)據(jù)源可能只進行備份等簡單的數(shù)據(jù)管理而不具有其他管理能力。檔案領域數(shù)據(jù)空間可以將其管理服務擴展到每一個數(shù)據(jù)源,改進數(shù)據(jù)源對檔案數(shù)據(jù)的操作、處理能力。
性質是指檔案領域數(shù)據(jù)空間必須具備有別于網絡檔案信息共享利用平臺、檔案管理平臺等其他數(shù)據(jù)環(huán)境的特征。作為基于網絡進行檔案數(shù)據(jù)流通共享充分釋放檔案數(shù)據(jù)資源價值的數(shù)字生態(tài)環(huán)境,檔案領域數(shù)據(jù)空間必須具備數(shù)權明確、可信安全、平等共贏三個性質。
數(shù)權是指檔案數(shù)據(jù)權益,可分為所有權、使用權、交易權,還包括檔案數(shù)據(jù)被視為資產的產權,以及新的數(shù)據(jù)主權等。多數(shù)環(huán)境下的網絡檔案信息共享利用平臺,例如基于云計算、數(shù)據(jù)湖技術的平臺,都是平臺方先“吞噬”多方檔案數(shù)據(jù)使之成為自身的一部分,即平臺集中了全部可供共享利用的數(shù)據(jù)。這種共享利用中提供者再無權也沒有可能去影響數(shù)據(jù)的共享。而檔案領域數(shù)據(jù)空間對檔案數(shù)據(jù)提供數(shù)權保障,在數(shù)據(jù)流通共享過程中,提供方可以控制分享哪些檔案數(shù)據(jù)以及如何分享這些檔案數(shù)據(jù)。有約束機制保證所有流通共享的檔案數(shù)據(jù)都可以附加約束條件。因而,檔案領域數(shù)據(jù)空間所有數(shù)據(jù)的數(shù)權都是明確的。通過檔案領域數(shù)據(jù)空間的賦能,采用智能合約等方式,提供者有權決定哪些利用者可以訪問和使用其檔案數(shù)據(jù)、數(shù)據(jù)使用的限制要求是什么,可以方便地授予、更改、撤銷對檔案數(shù)據(jù)訪問和使用權限,可以擬定檔案數(shù)據(jù)使用合約乃至為檔案數(shù)據(jù)定價。因而,在檔案領域數(shù)據(jù)空間中,檔案數(shù)據(jù)有序合理地流通共享。
可信是指參與者可信,信任是檔案數(shù)據(jù)自由流通共享的前提。安全是指數(shù)據(jù)安全,安全是檔案數(shù)據(jù)自由流通共享的底線。檔案領域數(shù)據(jù)空間基于合規(guī)性監(jiān)管、提供方準入、認證登記服務、技術標準體系、訪問權限控制等構建可信安全的共享空間環(huán)境,解決利益相關方的信任與安全問題,大幅度降低提供方和利用方的信任溝通成本,促進各方愿意共享檔案數(shù)據(jù)并創(chuàng)造價值。同時,實現(xiàn)檔案數(shù)據(jù)流通共享全程可控,有效避免傳統(tǒng)紙質環(huán)境以及互聯(lián)網環(huán)境中進行二次分享造成信息泄露的風險。
德國的工業(yè)數(shù)據(jù)空間通過認證和身份管理實現(xiàn)可信安全。認證是指參與者接入工業(yè)數(shù)據(jù)空間的接口軟件“Connector”必須經過認證。身份管理是指每個在數(shù)據(jù)空間工作、合作的人必須表明其身份并始終接受身份核查。[5]通過認證和身份管理,工業(yè)數(shù)據(jù)空間“從機制規(guī)范方面構建數(shù)據(jù)流通交換的可信環(huán)境”[6]。
檔案領域數(shù)據(jù)空間是跨數(shù)據(jù)源實現(xiàn)檔案數(shù)據(jù)流通共享的環(huán)境,實現(xiàn)多對多的檔案數(shù)據(jù)流通共享,發(fā)布元數(shù)據(jù)協(xié)議以統(tǒng)一格式定義所有檔案數(shù)據(jù),所有參與者享有平等的機會并實現(xiàn)共贏。利用者可自主選擇符合個體需求的檔案數(shù)據(jù)源檢索利用。提供者可在檔案數(shù)據(jù)的每次流通中決定分享對象和分享條件,清晰而直觀地保障數(shù)權,這對于檔案管理而言至關重要。檔案領域數(shù)據(jù)空間使得檔案共享利用經歷個體手工勞動階段(面對面實現(xiàn)個人查檔)、小作坊制作階段(網絡檔案信息共享利用平臺)發(fā)展到大規(guī)模專業(yè)化生產階段,實現(xiàn)規(guī)模經濟,每一位新的參與者都將帶來新的價值、實現(xiàn)新的價值。
功能是指檔案領域數(shù)據(jù)空間所能發(fā)揮的有利作用。檔案領域數(shù)據(jù)空間在檔案數(shù)據(jù)集成、檔案數(shù)據(jù)流通、檔案數(shù)據(jù)增值、檔案數(shù)據(jù)控制、檔案數(shù)據(jù)治理等方面發(fā)揮特有的作用。
檔案領域數(shù)據(jù)空間并不對檔案數(shù)據(jù)進行完全的控制,必要時會根據(jù)利用方需求對多方檔案數(shù)據(jù)按照一定的規(guī)范進行無縫集成、按需融合。
集成是針對不同的數(shù)據(jù)源、不同格式的數(shù)據(jù)對象進行檔案數(shù)據(jù)抽取和標識,通過模式匹配完成數(shù)據(jù)集成。集成過程中涉及對檔案數(shù)據(jù)的去重、降噪、清洗、整合等操作,以便實現(xiàn)檔案數(shù)據(jù)的有效訪問和流通共享。數(shù)據(jù)集成不改變原有檔案數(shù)據(jù)的格式。
由于檔案數(shù)據(jù)具有動態(tài)性,檔案數(shù)據(jù)集成的過程也是動態(tài)演化的。檔案領域數(shù)據(jù)空間通過監(jiān)控機制自動高效地發(fā)現(xiàn)數(shù)據(jù)的變化和演化,而后判斷變化與利用方的相關性程度再決定是否需要進行集成,如果需要則以相對一致的數(shù)據(jù)操作完成數(shù)據(jù)集成更新。無論數(shù)據(jù)如何演化,檔案領域數(shù)據(jù)空間能夠幫助利用者檢索到所需檔案數(shù)據(jù)并保障放心地共享這些數(shù)據(jù)。
檔案領域數(shù)據(jù)空間最獨特之處就在于支持跨部門、跨機構、跨行業(yè)、跨地域乃至跨國的檔案數(shù)據(jù)流通,實現(xiàn)檔案數(shù)據(jù)共享。
在檔案領域數(shù)據(jù)空間,利用方可以通過檢索獨立找到檔案數(shù)據(jù)提供方,也可以借助中介找到適合的檔案數(shù)據(jù)提供方。借助中介時,利用方要明確利用需求、必要時可以對數(shù)據(jù)源提出要求。中介根據(jù)數(shù)據(jù)源自帶描述信息等向利用方推薦檔案數(shù)據(jù)及其提供方。檔案數(shù)據(jù)由此在數(shù)據(jù)空間流通。對于長期利用方而言,與一個或多個提供方形成合作關系后,可以直接點對點地交流檔案數(shù)據(jù)實現(xiàn)共享。
在檔案領域數(shù)據(jù)空間,檔案數(shù)據(jù)的流通共享模式可以是無償提供利用,也可以是有償數(shù)據(jù)交易。檔案機構是文化事業(yè)機構,具有公益性,以往提供利用多為無償?shù)模@種模式遷移至檔案領域數(shù)據(jù)空間,主要是在空間中實現(xiàn)檔案數(shù)據(jù)的供需匹配。檔案領域數(shù)據(jù)空間建設的意義在于降低檔案信息共享利用成本,更好地提供檔案利用服務,更高地提升檔案價值。
檔案領域數(shù)據(jù)空間的提供者并非都是檔案機構,大量的機關、單位、組織、個人都可以是檔案數(shù)據(jù)的提供者。相較于網絡檔案信息共享利用平臺的檔案信息利用,檔案領域數(shù)據(jù)空間建設的目標之一是成為數(shù)據(jù)要素市場的一部分,在更大領域、更廣闊的空間里發(fā)揮檔案的價值。數(shù)據(jù)空間建設的大背景是全球數(shù)字經濟發(fā)展。2020 年4 月,國務院發(fā)布關于構建更加完善的要素市場化配置體制機制的意見,明確數(shù)據(jù)作為新型要素資源的戰(zhàn)略地位,提出加快培育數(shù)據(jù)要素市場,研究建立促進數(shù)據(jù)資源有效流動的制度規(guī)范。[7]在國家大的戰(zhàn)略規(guī)劃下,檔案數(shù)據(jù)有必要向新型要素資源的方向發(fā)展,而檔案領域數(shù)據(jù)空間建設不僅促進其有效流通共享,也要促進其有效地參與數(shù)據(jù)交易,從而搭上數(shù)字經濟的快車,前所未有地發(fā)揮檔案數(shù)據(jù)價值。對于檔案利用而言,這是一個新的課題。檔案數(shù)據(jù)能否成為新型要素資源,檔案數(shù)據(jù)是否可以交易,檔案數(shù)據(jù)交易的效果與成效如何,如何避免檔案數(shù)據(jù)的濫用和檔案信息的泄露,都將是檔案領域數(shù)據(jù)空間建設的重要問題。
檔案領域數(shù)據(jù)空間可以滿足大數(shù)據(jù)背景下分布式檔案數(shù)據(jù)的價值挖掘需求。檔案領域數(shù)據(jù)空間的利用服務可以提供數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化的工具和算法,幫助利用者從檔案數(shù)據(jù)中提取有價值的信息,發(fā)現(xiàn)檔案數(shù)據(jù)中的關聯(lián)、趨勢、模式、見解、知識,完成將數(shù)據(jù)轉化成為知識的增值過程,為各項管理、研究和決策提供支持,實現(xiàn)檔案數(shù)據(jù)利用的應用創(chuàng)新。檔案數(shù)據(jù)資源得以被充分地開發(fā)利用,檔案數(shù)據(jù)價值得到充分釋放。
檔案領域數(shù)據(jù)空間通過各種操作和服務管理和控制空間中的檔案數(shù)據(jù),做到源頭可信、去向可控、流通可追溯。源頭可信是指檔案領域數(shù)據(jù)空間的數(shù)據(jù)源均經過認證是可信的,同時提供方的數(shù)權明確。去向可控是指提供方可以控制和監(jiān)控檔案數(shù)據(jù)流向即流通到哪些利用方。流通可追溯是指通過日志服務等準確記錄每一次的檔案數(shù)據(jù)流通交易情況,使其全程可追溯。
檔案領域數(shù)據(jù)空間是一套完整的數(shù)據(jù)治理體系??臻g內不同的參與者具有不同的權利和義務。檔案數(shù)據(jù)來源及其管理是經過規(guī)范的。檔案數(shù)據(jù)利用是具有使用權限約束的。例如,檔案數(shù)據(jù)可根據(jù)孿生檔案實體的情況分為開放檔案數(shù)據(jù)和不開放檔案數(shù)據(jù),開放檔案數(shù)據(jù)分為受控檔案數(shù)據(jù)和可共享檔案數(shù)據(jù)。同時,亦可對檔案數(shù)據(jù)屬性進行規(guī)范。這些措施實現(xiàn)了檔案領域數(shù)據(jù)空間內的檔案數(shù)據(jù)治理。除此之外,監(jiān)管方對于檔案領域數(shù)據(jù)空間又有一套完整的治理體系,包括監(jiān)督管理、政策制定、機制建設、合規(guī)性管理、數(shù)據(jù)規(guī)范、安全保障等,旨在確保檔案領域數(shù)據(jù)空間可信安全,確保檔案數(shù)據(jù)質量,確保檔案數(shù)據(jù)流通共享合法合規(guī)。
形成發(fā)展檔案領域數(shù)據(jù)空間共識,創(chuàng)新檔案數(shù)據(jù)的流通共享是檔案工作走向服務創(chuàng)新、走向數(shù)據(jù)藍海的重大實踐,也是數(shù)據(jù)治理時代做強檔案工作的戰(zhàn)略抓手。檔案領域數(shù)據(jù)空間的未來發(fā)展需要從頂層、法律層、技術層、組織層、應用層五個層面展開。在頂層開展頂層設計,法律層制定法規(guī)標準,技術層提出技術解決方案,組織層實施檔案管理,應用層形成應用模式。
檔案領域數(shù)據(jù)空間建設是一項系統(tǒng)工程,至少應在行業(yè)層面開展頂層設計。目前已有行業(yè)系統(tǒng)開始嘗試制定檔案領域數(shù)據(jù)空間規(guī)范。頂層設計主要是制定符合行業(yè)情況的檔案領域數(shù)據(jù)空間發(fā)展戰(zhàn)略,驅動行業(yè)內檔案數(shù)據(jù)的流通共享。放眼未來,如果在行業(yè)層面取得進展,最好在國家層面開展檔案領域數(shù)據(jù)空間頂層設計,推動立法研究,出臺相關規(guī)劃,制定參考架構,構建技術體系,形成全國檔案領域數(shù)據(jù)空間的總體治理框架,并謀劃與其他行業(yè)領域的數(shù)據(jù)流通。檔案數(shù)據(jù)中包括大量的科技檔案與專業(yè)檔案數(shù)據(jù),與各業(yè)務領域具有緊密的耦合度,它們是檔案領域與各業(yè)務領域的交叉部與連接點,可以在數(shù)據(jù)空間發(fā)展中充分釋放價值。
建設檔案領域數(shù)據(jù)空間需要降低壁壘、統(tǒng)一規(guī)則,這當中涉及很多問題需要制定法規(guī)標準予以規(guī)范。例如,關于各參與者的權利與義務、檔案數(shù)據(jù)的范圍、檔案數(shù)據(jù)的開放共享、什么樣的檔案數(shù)據(jù)可以進入空間進行流通共享、檔案數(shù)據(jù)能否交易、什么樣的檔案數(shù)據(jù)可以交易等問題,需要通過法規(guī)制定予以明確。歐盟為促進數(shù)據(jù)空間建設制定了《數(shù)據(jù)治理法案》,確立中介機制,確保數(shù)據(jù)流通信任,推動歐盟數(shù)據(jù)交易市場建設。檔案領域數(shù)據(jù)空間建設也需要出臺類似法規(guī)。而參考架構、數(shù)據(jù)互操作等技術規(guī)范,可以通過行業(yè)標準或國家標準予以明確。
技術方案用于為檔案領域數(shù)據(jù)空間的實現(xiàn)以及檔案數(shù)據(jù)的互操作打造所需的共同基礎設施,包括開發(fā)技術和工具。在這方面,檔案領域不具有優(yōu)勢,可以選擇相關解決方案。例如,我國正在建設可信數(shù)據(jù)空間(Trusted Data Matrix,簡稱TDM),面向數(shù)據(jù)出域流通提供整體方案[8]。檔案領域數(shù)據(jù)空間建設可以以之為檔案數(shù)據(jù)資源共享的基礎設施,構建檔案領域數(shù)據(jù)空間發(fā)展生態(tài)。
檔案領域數(shù)據(jù)空間是利用者價值導向型服務模式,它通過為檔案數(shù)據(jù)共享各參與方“設置共同而嚴格的數(shù)據(jù)存儲和共享標準、提供專業(yè)的數(shù)據(jù)中介服務等,規(guī)范運行模式,建立數(shù)據(jù)供需信任”[9]。其數(shù)據(jù)存儲和共享標準、數(shù)據(jù)中介服務、運行模式、供需信任等會反過頭來作用于檔案管理,對檔案管理提出新的要求。為此,檔案管理工作要結合檔案領域數(shù)據(jù)空間建設的新情況,不斷調整管理模式,更新管理方法,適應檔案領域數(shù)據(jù)空間的發(fā)展及要求。檔案管理可以適當加強利用需求分析,梳理形成檔案數(shù)據(jù)應用場景需求清單,提供高質量的檔案數(shù)據(jù),促進檔案數(shù)據(jù)利用服務或產品服務實現(xiàn)供需匹配。
對于檔案領域數(shù)據(jù)空間的建設發(fā)展而言,易于落地的應用路徑是根本,成熟的應用模式是各方參與者的根本驅動力。檔案領域要明確檔案數(shù)據(jù)流通共享方式,促進數(shù)據(jù)提供的應用模式,形成可實施可落地的應用路徑與模式。要鼓勵面向檔案數(shù)據(jù)的流通共享需求乃至交易需求,探索檔案數(shù)據(jù)流通共享機制,支持圍繞檔案數(shù)據(jù)探索共享合作方式乃至利益分成。打造示范性檔案領域數(shù)據(jù)空間應用場景??梢詢?yōu)先選擇科技領域、專業(yè)領域,開展檔案數(shù)據(jù)分類分級流通共享的試點,推動成熟的科技檔案、專業(yè)檔案數(shù)據(jù)應用模式落地并探索落地應用路徑。有了相對成熟的應用模式后,可加強宣傳,推動各類場景在檔案領域的應用,進一步激發(fā)帶動其他檔案數(shù)據(jù)的流通共享。
目前,很多行業(yè)或領域迫切需要建設數(shù)據(jù)空間,以便有效解決數(shù)據(jù)流通不暢導致的各種問題。檔案領域數(shù)據(jù)空間的建設是為了創(chuàng)新性地全面而順暢地實現(xiàn)檔案數(shù)據(jù)的流通共享。同時,檔案領域數(shù)據(jù)空間建設有助于推動檔案領域的數(shù)字化轉型??梢灶A見,如果不同的行業(yè)均建起數(shù)據(jù)空間,則具有交叉關系、上下游關系等各類行業(yè)的很多數(shù)據(jù)空間可以進一步實現(xiàn)跨空間的數(shù)據(jù)的可信安全共享。檔案領域的文書檔案數(shù)據(jù)、科技檔案數(shù)據(jù)、專業(yè)檔案數(shù)據(jù)均可能有跨空間的必要。最終,通過各行業(yè)數(shù)據(jù)空間的融合,可以共同構建新的數(shù)據(jù)生態(tài)環(huán)境,實現(xiàn)多領域、多行業(yè)數(shù)據(jù)的流通和分享。而檔案數(shù)據(jù)資源將在這種更廣闊的生態(tài)環(huán)境中,充分釋放價值,使傳統(tǒng)的檔案利用在數(shù)據(jù)時代走上共享利用的新巔峰。