文·胡曉慶
信息技術(shù)的發(fā)展催生了一系列新的生產(chǎn)要素,數(shù)據(jù)是其中之一,對數(shù)據(jù)的科學治理已成為各行業(yè)搶占發(fā)展先機的重要手段。目前,國內(nèi)外數(shù)據(jù)治理理論研究和實踐應用包括政府、科技、金融、文化教育等領域,研究內(nèi)容包含數(shù)據(jù)治理內(nèi)涵界定、治理技術(shù)開發(fā)、治理框架構(gòu)建等。
檔案數(shù)據(jù)主要包括檔案機構(gòu)中保管的各類型檔案資源。檔案數(shù)據(jù)治理關(guān)注檔案數(shù)據(jù)的資源整合和價值挖掘,關(guān)注檔案數(shù)據(jù)使用過程的風險控制,最終實現(xiàn)檔案數(shù)據(jù)價值增值的目的。檔案數(shù)據(jù)治理是檔案工作適應現(xiàn)代信息技術(shù)發(fā)展的重要選擇,基于對檔案數(shù)據(jù)的特征與治理現(xiàn)狀的分析,本文試圖將數(shù)據(jù)治理框架應用于檔案數(shù)據(jù)治理領域,構(gòu)建檔案數(shù)據(jù)治理框架,拓寬檔案理論和實踐發(fā)展領域。
檔案數(shù)據(jù)是國家數(shù)據(jù)資源的一部分,檔案自身具有原始記錄性、憑證價值性等本質(zhì)特征,檔案的本質(zhì)特征及我國檔案管理體制決定了檔案數(shù)據(jù)具有以下特征。
檔案是國家機關(guān)、社會組織和個人在社會活動過程中直接形成的具有保存價值的各類型原始記錄,對檔案的內(nèi)涵界定決定了檔案數(shù)據(jù)的高價值特征。同時,檔案機構(gòu)對所收集的原始資料經(jīng)過價值鑒定、整理立卷等工作使同一問題的相關(guān)資源進行了實體上的聚合,實現(xiàn)了檔案價值的首次增值。檔案數(shù)據(jù)是蘊藏在實體檔案中的信息寶藏,需要從實體檔案中抽取后進行有效聚合,檔案數(shù)據(jù)的聚合價值遠遠高于單份檔案的數(shù)據(jù)價值,聚合將使檔案價值實現(xiàn)二次增值。
檔案數(shù)據(jù)多源性一方面在于其來源的廣泛性,國家機關(guān)、社會組織、個人都是檔案數(shù)據(jù)的形成者,另一方面在于數(shù)據(jù)形式的多樣化,除了傳統(tǒng)檔案形式外,出現(xiàn)了諸如網(wǎng)頁檔案、多媒體檔案等新型檔案數(shù)據(jù)形式。檔案不同形成者在數(shù)據(jù)規(guī)范、管理制度等方面均有所差異,加之檔案數(shù)據(jù)形成方式主要以“自下而上”的模式開展,導致形成了大量操作系統(tǒng)異構(gòu)、數(shù)據(jù)格式異構(gòu)、數(shù)據(jù)存儲地點異構(gòu)、數(shù)據(jù)存儲邏輯模型異構(gòu)的檔案數(shù)據(jù)。
數(shù)據(jù)粒度是指數(shù)據(jù)的細化和綜合程度,數(shù)據(jù)的細化程度越高,數(shù)據(jù)粒度越小,反之則為粗粒度數(shù)據(jù)。傳統(tǒng)的檔案數(shù)據(jù)蘊藏在以“件”和“卷”為保管單位的實體檔案中,在現(xiàn)有技術(shù)條件下對其檢索和利用大都只能以目錄級開展,數(shù)據(jù)細化程度極低,粗粒度特征明顯。隨著國家檔案“存量數(shù)字化,增量電子化”戰(zhàn)略的推進,數(shù)字化檔案資源在國家檔案資源中占據(jù)了較大比例,數(shù)字檔案是忠實于紙質(zhì)檔案信息的檔案數(shù)字資源,其開發(fā)利用程度可以以全文級開展,粒度有所細化,但仍未形成獨立的數(shù)據(jù)單元,尚不能利用數(shù)據(jù)治理技術(shù)進行數(shù)據(jù)挖掘等深層次的開發(fā)利用,仍屬于粗粒度數(shù)據(jù)。
數(shù)據(jù)融合是對各種信息源輸出的有效信息的采集、傳輸、綜合、過濾及整合開發(fā)的過程。由于缺乏統(tǒng)一的資源整合部門,且檔案機構(gòu)保管的大多為非結(jié)構(gòu)化數(shù)據(jù),加之檔案工作者對數(shù)據(jù)整合技術(shù)敏感度差等因素,檔案數(shù)據(jù)整合難度大,數(shù)據(jù)融合性弱,檔案數(shù)據(jù)共享現(xiàn)狀不太理想,“數(shù)據(jù)孤島”大量存在,數(shù)據(jù)價值未能得到有效發(fā)揮,出現(xiàn)檔案高價值量和低價值實現(xiàn)的倒掛現(xiàn)象。
政務信息管理、醫(yī)療、金融、教育科研等領域?qū)?shù)據(jù)治理均有所探索與應用,檔案界探索相對較少,主要集中于檔案數(shù)據(jù)治理的路徑建設、能力體系構(gòu)建、檔案資產(chǎn)管理等方面。關(guān)于檔案數(shù)據(jù)治理的內(nèi)涵,常大偉、潘娜在《檔案數(shù)據(jù)治理能力的結(jié)構(gòu)體系與建設路徑》中認為“檔案數(shù)據(jù)治理是檔案事業(yè)發(fā)展的利益相關(guān)者在一定的制度架構(gòu)內(nèi)通過協(xié)同合作的方式,綜合應用各種數(shù)據(jù)治理工具和治理技術(shù),規(guī)范檔案數(shù)據(jù)治理業(yè)務流程,構(gòu)建檔案數(shù)據(jù)治理生態(tài),激發(fā)檔案數(shù)據(jù)價值的過程”[1]。
治理一詞于20世紀90年代引入公共管理領域,治理強調(diào)主體多元化、制度供給等因素,為政府治理提供了理論依據(jù)。數(shù)據(jù)治理是隨著大數(shù)據(jù)時代海量數(shù)據(jù)和治理技術(shù)的出現(xiàn)而產(chǎn)生的治理新課題,國家標準信息技術(shù)服務標準(GB/T34960)認為,數(shù)據(jù)治理是指數(shù)據(jù)資源及其應用過程中相關(guān)管控活動、績效和風險管理的集合。多元主體、治理技術(shù)、價值增值和風險管控是數(shù)據(jù)治理不可或缺的因素。遵循治理及數(shù)據(jù)治理的一般原理,本文認為檔案數(shù)據(jù)治理是治理主體遵循相關(guān)法律與制度規(guī)則,利用數(shù)據(jù)治理技術(shù),發(fā)掘檔案數(shù)據(jù)蘊含的聚合價值,降低檔案數(shù)據(jù)資源開發(fā)風險,實現(xiàn)檔案數(shù)據(jù)資源價值增值的過程。
受物質(zhì)、人才、技術(shù)等因素制約,檔案界在數(shù)據(jù)資源建設、數(shù)據(jù)使用和數(shù)據(jù)監(jiān)管等數(shù)據(jù)治理諸多方面存在薄弱環(huán)節(jié)。面對不斷增長的檔案數(shù)據(jù)資源,在數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)價值挖掘、數(shù)據(jù)安全管控等方面,均有不足之處。
1.對檔案數(shù)據(jù)質(zhì)量控制不夠。檔案數(shù)據(jù)來源廣泛,數(shù)量龐大,在數(shù)據(jù)準確性、一致性、完整性、規(guī)范性、穩(wěn)定性等方面都有待進一步完善。此外,當前檔案資源主要以“文件”和“案卷”形態(tài)存在,需要經(jīng)過數(shù)據(jù)分離、清洗、聚合等技術(shù)處理才能成為可挖掘的檔案數(shù)據(jù),才能進行語義關(guān)聯(lián)、數(shù)據(jù)挖掘、深度學習等治理,檔案數(shù)據(jù)的質(zhì)量控制有待進一步提升。
2.對數(shù)據(jù)治理新技術(shù)關(guān)注度不夠。信息技術(shù)發(fā)展日新月異,數(shù)據(jù)治理技術(shù)層出不窮,其中不乏適用于檔案數(shù)據(jù)開發(fā)者,如元數(shù)據(jù)自動捕獲工具為檔案元數(shù)據(jù)管理帶來便捷、云存儲技術(shù)為檔案數(shù)據(jù)安全高效存儲提供便利。檔案界對數(shù)據(jù)治理技術(shù)有所探索,但關(guān)注度不夠,受檔案工作者信息素養(yǎng)和專業(yè)知識薄弱等因素的影響,對治理技術(shù)與檔案實際工作如何匹配研究不多,對數(shù)據(jù)治理新技術(shù)的關(guān)注度和敏感度不足。
3.對檔案數(shù)據(jù)價值挖掘不足。檔案數(shù)據(jù)治理的終極目標是實現(xiàn)檔案數(shù)據(jù)增值,為國家治理提供可靠保障。檔案機構(gòu)保管著數(shù)量龐大、種類豐富的檔案數(shù)據(jù)資源,但對檔案的數(shù)據(jù)價值認識不足,受“重收藏、輕利用”觀念的影響,數(shù)據(jù)資源大多數(shù)“躺在”庫房里,數(shù)據(jù)開發(fā)利用方式單一粗放,以編制形成淺層檢索工具和粗淺編研材料為主,檔案數(shù)據(jù)深度挖掘、數(shù)據(jù)關(guān)聯(lián)等治理技術(shù)未得到充分運用,蘊藏在檔案數(shù)據(jù)中的價值未被充分發(fā)掘。對于檔案數(shù)據(jù)的資產(chǎn)意識沒有充分認識,對檔案數(shù)據(jù)可能帶來的經(jīng)濟利益和社會利益缺乏積極的探索。
4.檔案數(shù)據(jù)安全風險管控不足。在信息技術(shù)飛速發(fā)展的時代,檔案數(shù)據(jù)從生成、流轉(zhuǎn)、存儲到開發(fā)利用全生命周期都迎來了新的安全風險與挑戰(zhàn)。以數(shù)據(jù)生成為例,檔案數(shù)據(jù)的生成方式,由傳統(tǒng)的收集紙質(zhì)檔案單一渠道,變?yōu)榧堎|(zhì)檔案數(shù)字化、各業(yè)務系統(tǒng)直接生成電子檔案等多種渠道,數(shù)字檔案和電子檔案在內(nèi)容的完整性、不可更改性、可讀性等方面對技術(shù)依賴非常強,安全風險管控的成本和難度都增加。就檔案數(shù)據(jù)存儲階段而言,云存儲已成為檔案界積極探索的存儲技術(shù)之一,云端數(shù)據(jù)可能由于操作系統(tǒng)遷移或存儲技術(shù)不穩(wěn)定導致檔案數(shù)據(jù)被篡改、被竊取、被刪除,且被修改刪除后,很難發(fā)現(xiàn)痕跡[2]。面對如此多檔案數(shù)據(jù)風險與挑戰(zhàn),檔案界由于資金有限,技術(shù)人員不足等原因,無法對數(shù)據(jù)安全進行全面管控,安全風險較大。
數(shù)據(jù)治理框架,是為了實現(xiàn)數(shù)據(jù)治理的總體戰(zhàn)略和目標,將數(shù)據(jù)治理領域所蘊含的基本概念(如原則、組織架構(gòu)、過程和規(guī)則等),利用概念間關(guān)系組織起來的一種邏輯結(jié)構(gòu)[3]。國際上有影響力的數(shù)據(jù)治理框架主要有以下三種:國際數(shù)據(jù)管理協(xié)會提出的DAMA框架,該框架的構(gòu)建理念是用數(shù)據(jù)治理解決數(shù)據(jù)管理中的10個功能 (如元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理等)與7個要素(如角色與職責等)之間的問題[4];數(shù)據(jù)治理協(xié)會提出的DGI框架,認為數(shù)據(jù)治理包括組織整體、規(guī)則、決策權(quán)、職責、監(jiān)控或者其他強制性辦法[5];IBM框架將能力成熟度模型和有效數(shù)據(jù)治理元素框架相結(jié)合:成熟度模型包括初始級、已管理級、已定義級、定量管理級和優(yōu)化級五個級別;有效數(shù)據(jù)治理元素框架包括目標要素、促成要素、核心要素和支撐要素四類, 每一類包括若干具體要素[6]。
DAMA框架從數(shù)據(jù)治理的微觀角度出發(fā),側(cè)重于探討數(shù)據(jù)治理內(nèi)容及由誰來實現(xiàn)、如何來實現(xiàn)等治理流程;DGI框架則主要從宏觀角度探討數(shù)據(jù)治理的組織實施;IBM框架引入數(shù)據(jù)成熟度模型,通過評估數(shù)據(jù)治理元素框架內(nèi)的各要素成熟度,逐步推進數(shù)據(jù)治理的進程。
中國于2019年正式實施《信息技術(shù)服務治理第5部分:數(shù)據(jù)治理規(guī)范》(以下簡稱《數(shù)據(jù)治理規(guī)范》,標準號GB/T 34960.5-2018),明確了構(gòu)建包括頂層設計、數(shù)據(jù)治理環(huán)境、數(shù)據(jù)治理域、數(shù)據(jù)治理過程在內(nèi)的數(shù)據(jù)治理框架。中國的數(shù)據(jù)治理框架汲取了國際上數(shù)據(jù)治理框架的優(yōu)秀成果,既有頂層設計、治理環(huán)境等宏觀設計,也有治理要素及過程等微觀考慮,結(jié)合中國數(shù)據(jù)發(fā)展實際,為國內(nèi)各領域數(shù)據(jù)治理框架構(gòu)建提供了范本。
數(shù)據(jù)治理框架作為數(shù)據(jù)治理工作的有效探索,極大推動了數(shù)據(jù)治理工作的發(fā)展,其理論成果與檔案數(shù)據(jù)治理在要素、手段、程序等方面具有趨同性。數(shù)據(jù)治理框架理論中的元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理都是檔案數(shù)據(jù)治理中需要重點關(guān)注的要素;數(shù)據(jù)治理框架理論對新型技術(shù)手段的關(guān)注是檔案數(shù)據(jù)治理中需要積極引入的因素;在治理程序上兩者都需要從頂層設計入手,探討治理環(huán)境,審視治理因素,據(jù)此構(gòu)建檔案數(shù)據(jù)治理框架對推動檔案數(shù)據(jù)治理將有積極作用。
檔案數(shù)據(jù)治理框架是檔案數(shù)據(jù)治理實踐的指導,吸取國際數(shù)據(jù)領域關(guān)于數(shù)據(jù)治理框架的研究成果,以中國《數(shù)據(jù)治理規(guī)范》為依據(jù),結(jié)合檔案數(shù)據(jù)治理的現(xiàn)狀,本文構(gòu)建由頂層設計、治理原則、治理環(huán)境、治理對象和治理過程組成的檔案數(shù)據(jù)治理框架(如圖1所示),五個組成部分既具有獨立性,又相互作用,形成一個相輔相成的檔案數(shù)據(jù)治理有機整體。
頂層設計是檔案數(shù)據(jù)治理的前提和引領,決定檔案數(shù)據(jù)治理的方向和成效,在數(shù)據(jù)治理框架中處于引領地位;治理原則和治理環(huán)境是影響檔案數(shù)據(jù)治理成效的外部因素;治理對象是決定檔案數(shù)據(jù)治理成效的內(nèi)部因素;治理過程是開展檔案治理實踐的方式方法,在檔案數(shù)據(jù)治理中處于核心地位,決定著治理能否順利開展。
圖1:檔案數(shù)據(jù)治理框架
頂層設計是開展檔案數(shù)據(jù)治理的指導,主要包括檔案數(shù)據(jù)治理的戰(zhàn)略規(guī)劃、治理機構(gòu)的組建、技術(shù)架構(gòu)的設計等。戰(zhàn)略規(guī)劃是指愿景、目標、任務、實施方略等,各級各類檔案館的數(shù)據(jù)治理戰(zhàn)略規(guī)劃應與各級政府同時期的工作重點和當?shù)匦畔⒒较噙m應,其他組織的檔案數(shù)據(jù)戰(zhàn)略規(guī)劃應與該組織的信息化程度及主要業(yè)務特點相結(jié)合。治理機構(gòu)組建需要明確檔案數(shù)據(jù)治理的責任主體及其職責權(quán)利,明確治理需要的人、財、物的來源,檔案數(shù)據(jù)治理是一項全面系統(tǒng)的工程,各地檔案數(shù)據(jù)治理機構(gòu)應由當?shù)貦n案行政管理機構(gòu)牽頭,政府其他職能部門共同參與,推動檔案數(shù)據(jù)治理的全面推進。技術(shù)架構(gòu)設計指建立檔案數(shù)據(jù)治理架構(gòu),建設相應的管理策略及支撐體系,技術(shù)架構(gòu)的設計需要檔案部門和技術(shù)部門共同參與設計。
根據(jù)《數(shù)據(jù)治理規(guī)范》及檔案工作實際,檔案數(shù)據(jù)治理應遵循合法合規(guī)、風險可控、循序漸進的原則。檔案數(shù)據(jù)治理應遵循《中華人民共和國檔案法》《中華人民共和國保守國家秘密法》,遵循知識產(chǎn)權(quán)法,遵循地方法律法規(guī),注意保護公民個人信息,以合法合規(guī)為前提。檔案數(shù)據(jù)治理是對檔案數(shù)據(jù)進行的管理和開發(fā),如對數(shù)據(jù)進行清洗、挖掘等技術(shù)處理,在治理過程中數(shù)據(jù)的保密性、準確性、有效性都存在安全風險,數(shù)據(jù)治理必須以風險可控為保障。基于檔案數(shù)據(jù)工作相對落后、檔案數(shù)據(jù)治理技術(shù)與資金薄弱的現(xiàn)狀,檔案數(shù)據(jù)治理工作的推進不能一蹴而就,應遵循循序漸進的原則開展,數(shù)據(jù)質(zhì)量較高、經(jīng)濟條件較好和技術(shù)條件較成熟的地區(qū)和組織可優(yōu)先開展數(shù)據(jù)治理工作,形成“頭雁效應”,逐步推進國家整體檔案數(shù)據(jù)治理工作。
治理環(huán)境是影響檔案數(shù)據(jù)治理的各種因素組合,包括內(nèi)部環(huán)境和外部環(huán)境。內(nèi)部環(huán)境包括組織內(nèi)部對檔案數(shù)據(jù)治理的態(tài)度與預期、對檔案數(shù)據(jù)治理的人員支持及技術(shù)支持力度等;外部環(huán)境諸如數(shù)據(jù)治理社會氛圍、數(shù)據(jù)治理技術(shù)的發(fā)展、對數(shù)據(jù)治理的科學探討等。檔案機構(gòu)應該積極推動內(nèi)外治理環(huán)境的改善,宣傳數(shù)據(jù)治理的重要作用,形成良好的數(shù)據(jù)治理氛圍。
檔案數(shù)據(jù)治理包括對檔案數(shù)據(jù)的治理和對影響數(shù)據(jù)價值增值因素的治理兩方面。對檔案數(shù)據(jù)治理指統(tǒng)一檔案數(shù)據(jù)標準、提升檔案數(shù)據(jù)質(zhì)量、確保檔案數(shù)據(jù)安全、規(guī)范檔案元數(shù)據(jù)管理等。對影響檔案數(shù)據(jù)價值增值的因素的治理包括開展檔案數(shù)據(jù)洞察、檔案數(shù)據(jù)深度挖掘等技術(shù)活動,釋放檔案數(shù)據(jù)價值。
檔案數(shù)據(jù)治理過程是實現(xiàn)檔案數(shù)據(jù)價值增值的核心環(huán)節(jié),是開展數(shù)據(jù)治理的技術(shù)路線。根據(jù)《數(shù)據(jù)治理規(guī)范》,數(shù)據(jù)治理過程包括統(tǒng)籌和規(guī)劃、構(gòu)建與運行、監(jiān)控和評價、改進和優(yōu)化四個環(huán)節(jié)。在《數(shù)據(jù)治理規(guī)范》的指引下,根據(jù)檔案數(shù)據(jù)治理的現(xiàn)狀,本文構(gòu)建的檔案數(shù)據(jù)治理過程如圖2所示。
圖2:檔案數(shù)據(jù)治理過程
不同組織在檔案數(shù)據(jù)質(zhì)量、組織整體數(shù)據(jù)環(huán)境和文化氛圍上均有所差別,檔案數(shù)據(jù)治理是一個周而復始的過程,治理過程大多需要由治理環(huán)境評估開始,經(jīng)過方案制定與實施、評估,最后根據(jù)實施效果對方案進行調(diào)整優(yōu)化,之后根據(jù)新的數(shù)據(jù)環(huán)境進行新一輪的數(shù)據(jù)治理,直至實現(xiàn)檔案數(shù)據(jù)的價值增值。