摘要:在檔案資源對(duì)象發(fā)展演化的過程中,數(shù)據(jù)態(tài)檔案作為新型資源對(duì)象,具有信號(hào)和語義雙重離散的本質(zhì)特征。因此,有必要對(duì)已有檔案管理理念和實(shí)踐進(jìn)行重塑,建立能夠解除語義離散帶來的高階邏輯依賴的數(shù)據(jù)態(tài)檔案管理模式。本文在檔案資源連續(xù)空間演化圖景的指導(dǎo)下,明確數(shù)據(jù)態(tài)檔案管理模式的概念及功能定位,闡明其區(qū)別于其他形態(tài)檔案資源管理模式的特征,并對(duì)模式構(gòu)建所面臨的主要挑戰(zhàn)進(jìn)行分析。研究認(rèn)為數(shù)據(jù)態(tài)檔案管理模式以體系性、連續(xù)性、可理解性和專業(yè)性為主要特征,在空間管控、證用價(jià)值維系、管理機(jī)制協(xié)同與技術(shù)能力建設(shè)等方面面臨挑戰(zhàn)。
關(guān)鍵詞:數(shù)據(jù)態(tài)檔案 數(shù)據(jù)態(tài)檔案管理模式 概念內(nèi)涵
Abstract: In the development and evolution of archival resource objects, data-state archives as a new type of resource objects has the essen? tial characteristics of signal and semantic double discrete.Therefore it is necessary to reshape the existing archival management theory and practic? es, and establish a management model for datastate archives that can relieve the higher-order logical dependence brought about by semantic discrete. Guided by a scenario of continuous space evolution of archival resources, this paper clarifies the concept and function of the manage? ment model for data- state archives, elucidates its characteristics that distinguish it from other forms of management models, and analyses the main challenges faced in the construction of the model. The study concludes that the manage? ment model for data-state archives is character? ized by systematicity, continuity, comprehensibili? ty and professionalism, and that it faces challeng? es in terms of space control, maintenance of the value of evidence and utilization, coordination of management mechanisms and development of technical capacity.
Keywords:Data- state archives;Manage? ment model for data- state archives;Concept connotation
數(shù)據(jù)作為新型生產(chǎn)要素,正伴隨著數(shù)字中國戰(zhàn)略的深入實(shí)施成為數(shù)字化、網(wǎng)絡(luò)化、智能化的基礎(chǔ),深刻改變著生產(chǎn)生活方式和社會(huì)治理方式。由中國人民大學(xué)主辦的2023年“中國電子文件管理論壇”的主題為“面向數(shù)字中國戰(zhàn)略的檔案數(shù)據(jù)創(chuàng)新與發(fā)展”,精準(zhǔn)抓住了數(shù)據(jù)時(shí)代檔案管理的核心主題。數(shù)據(jù)是檔案資源體系的重要組成部分,數(shù)據(jù)態(tài)檔案是檔案資源對(duì)象演化在數(shù)據(jù)時(shí)代的新形態(tài),具有信號(hào)和語義雙重離散的核心特征。在國家政策肯定、信息技術(shù)賦能和業(yè)務(wù)數(shù)據(jù)驅(qū)動(dòng)的多重動(dòng)力之下,數(shù)據(jù)態(tài)檔案在業(yè)已形成的數(shù)據(jù)環(huán)境中產(chǎn)生并培育。數(shù)據(jù)態(tài)檔案體量指數(shù)級(jí)增長(zhǎng)、類型不斷豐富,為檔案事業(yè)提供新發(fā)展機(jī)遇的同時(shí),也對(duì)前一階段逐漸探索完善的電子文件歸檔和電子檔案管理模式提出挑戰(zhàn)。不同于實(shí)體檔案對(duì)象的序化載體管理、數(shù)字檔案對(duì)象的可信內(nèi)容管理,數(shù)據(jù)態(tài)檔案對(duì)象面對(duì)的是數(shù)據(jù)理解與復(fù)用、業(yè)務(wù)邏輯與規(guī)則表達(dá)、語義整合與復(fù)現(xiàn)等新問題,需要與之匹配的數(shù)據(jù)態(tài)檔案管理模式提供新的解決方案?;诖吮尘?,本文從管理模式的維度對(duì)數(shù)據(jù)態(tài)檔案的管理與維護(hù)展開探索,以充分挖掘并發(fā)揮數(shù)據(jù)態(tài)檔案在數(shù)智時(shí)代的多元價(jià)值,構(gòu)筑起凝結(jié)過去、基于當(dāng)下、面向?qū)淼臋n案信息化完整發(fā)展空間。
數(shù)據(jù)態(tài)檔案是在新一代信息技術(shù)條件下以數(shù)據(jù)形式存在的新型檔案形態(tài),具有信號(hào)和語義雙重離散的核心特征。相較于紙質(zhì)檔案管理所強(qiáng)調(diào)的載體管理、電子檔案管理所強(qiáng)調(diào)的文件管控,數(shù)據(jù)態(tài)檔案管理在歸檔、管理和長(zhǎng)期保存等核心業(yè)務(wù)環(huán)節(jié)都表現(xiàn)出極大的差異性。這種檔案資源形態(tài)演變所呈現(xiàn)出的新樣態(tài),同樣反映在政策法規(guī)的規(guī)制與理論研究的探索方面。
檔案領(lǐng)域相關(guān)政策法規(guī)以積極融入國家大數(shù)據(jù)戰(zhàn)略為導(dǎo)向,開始重點(diǎn)探索數(shù)據(jù)與檔案協(xié)同以及數(shù)據(jù)歸檔等問題。《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》要求“實(shí)現(xiàn)對(duì)國家和社會(huì)具有長(zhǎng)久保存價(jià)值的數(shù)據(jù)歸口各級(jí)各類檔案館集中管理”以及“大力推動(dòng)科學(xué)數(shù)據(jù)與科研檔案協(xié)同管理”。地方檔案部門如浙江省檔案局形成了《政務(wù)服務(wù)網(wǎng)電子文件歸檔數(shù)據(jù)規(guī)范》,對(duì)政務(wù)服務(wù)網(wǎng)電子文件歸檔過程中存檔信息包的數(shù)據(jù)結(jié)構(gòu)、命名規(guī)則和材料形成整理要求等進(jìn)行了規(guī)定,嘉興市檔案館更是探索形成了《嘉興市市級(jí)機(jī)關(guān)政務(wù)業(yè)務(wù)系統(tǒng)數(shù)據(jù)歸檔暫行標(biāo)準(zhǔn)》。
理論研究在法規(guī)政策引導(dǎo)、檔案部門響應(yīng)、學(xué)界研究推動(dòng)下,其研究已初具規(guī)模。筆者在2018年率先提出了包括模擬態(tài)、數(shù)字態(tài)和數(shù)據(jù)態(tài)的“三態(tài)”演化的觀點(diǎn),明確用“數(shù)據(jù)態(tài)”指代數(shù)據(jù)檔案空間。此后代表學(xué)者如趙生輝認(rèn)為檔案與數(shù)據(jù)分屬信息世界和機(jī)器世界,二者存在著相互依賴的雙軌共生關(guān)系[1];陳永生強(qiáng)調(diào)由電子數(shù)據(jù)條目構(gòu)成的電子檔案是真正意義上的原生性電子檔案,其信息內(nèi)容富語義化和價(jià)值增強(qiáng),但也易于失去解析情境[2];金波認(rèn)為檔案數(shù)據(jù)顆粒度細(xì)化,開發(fā)方式屬于內(nèi)容控制,其數(shù)據(jù)價(jià)值是檔案在數(shù)據(jù)時(shí)代的價(jià)值新發(fā)現(xiàn)[3];劉越男指出數(shù)據(jù)治理是大數(shù)據(jù)時(shí)代檔案管理的新職能,檔案管理分擔(dān)歷史性業(yè)務(wù)數(shù)據(jù)和文化記憶數(shù)據(jù)的治理,以文檔和內(nèi)容管理為立足點(diǎn)[4];趙躍提出檔案科學(xué)介入數(shù)據(jù)資源管理的檔案化模式,變控制為干預(yù),實(shí)現(xiàn)數(shù)據(jù)資源的檔案化認(rèn)同和數(shù)據(jù)資源管理過程的“檔案化”轉(zhuǎn)變[5]。可見,數(shù)據(jù)態(tài)檔案研究在概念認(rèn)知、核心內(nèi)容、業(yè)務(wù)與規(guī)則等方面均取得了一定進(jìn)展。
但檔案學(xué)研究的“數(shù)據(jù)熱”中,缺少針對(duì)普遍問題與困境展開的通用管理體系構(gòu)建,對(duì)數(shù)據(jù)態(tài)檔案管理模式的系統(tǒng)研究基本空白,這種只見樹木不見森林的研究態(tài)勢(shì)容易導(dǎo)致對(duì)這一新生對(duì)象的探討流于片面,不利于從整體對(duì)數(shù)據(jù)態(tài)檔案本質(zhì)進(jìn)行把握,從而阻礙空間整體管理能力形成。為有效管理數(shù)據(jù)態(tài)檔案,充分挖掘并發(fā)揮數(shù)據(jù)態(tài)檔案在數(shù)智時(shí)代的多元價(jià)值,亟須探索適應(yīng)數(shù)據(jù)態(tài)環(huán)境的檔案管理新模式。
數(shù)據(jù)態(tài)檔案管理模式的研究尚處于起步階段,但可以確定的是其相關(guān)研究必須堅(jiān)持以數(shù)據(jù)態(tài)對(duì)象本質(zhì)特征為核心,應(yīng)包含從全局角度對(duì)數(shù)據(jù)態(tài)檔案對(duì)象管理的理論重塑,以及對(duì)這一新型檔案對(duì)象核心業(yè)務(wù)的實(shí)踐重構(gòu)。
(一)數(shù)據(jù)態(tài)檔案管理模式是基于數(shù)據(jù)本質(zhì)的理論重塑
筆者在前序研究使用檔案管理對(duì)象空間概念來涵蓋特定態(tài)別檔案資源特質(zhì)及其相應(yīng)技術(shù)體系、管理環(huán)境、適用規(guī)范等要素[6],并在2023年“中國電子文件管理論壇”中以“檔案資源連續(xù)空間演化圖景分析”為主題,對(duì)管理空間的概念進(jìn)行了較為完整的闡釋。不同態(tài)別資源空間之間存在發(fā)展的連續(xù)性和動(dòng)態(tài)的轉(zhuǎn)換關(guān)系,數(shù)據(jù)態(tài)在連續(xù)空間中既是模擬態(tài)和數(shù)字態(tài)空間轉(zhuǎn)換的結(jié)果,也是知識(shí)態(tài)和價(jià)值態(tài)空間演化的基礎(chǔ),具有承上啟下的樞紐作用。但資源管理對(duì)象空間概念偏重于宏觀與整體表達(dá),旨在汲取空間立體性、綜合性、動(dòng)態(tài)性和連續(xù)性的精義,其相對(duì)抽象的表述不能與諸要素組成的管理情境直接聯(lián)系。因而本文提出將相應(yīng)態(tài)別的檔案管理模式作為空間表達(dá)的具體化形式,在與具體工作銜接時(shí)更能體現(xiàn)出特定態(tài)別對(duì)象的管理程序、方法、結(jié)構(gòu)等核心內(nèi)容。
數(shù)據(jù)態(tài)檔案管理模式是數(shù)據(jù)態(tài)空間在管理環(huán)境中的具象化,是該空間范疇內(nèi)相關(guān)理論、規(guī)范和業(yè)務(wù)規(guī)則的綜合。數(shù)據(jù)態(tài)檔案管理模式立足于檔案對(duì)象信號(hào)與語義雙離散的特點(diǎn),從理論層面回應(yīng)如何重構(gòu)離散數(shù)據(jù)語義的核心問題。數(shù)據(jù)態(tài)檔案對(duì)象離散的特點(diǎn)為信息對(duì)象的連續(xù)理解帶來困難,但其離散的顆粒度形式同時(shí)也為多視角、多維度、多層次的數(shù)據(jù)敘事和數(shù)據(jù)價(jià)值開發(fā)提供了嶄新的空間。為此,數(shù)據(jù)態(tài)檔案管理模式應(yīng)開展細(xì)致的理論重塑工作,要對(duì)維系數(shù)據(jù)語義連續(xù)、管控?cái)?shù)據(jù)之間關(guān)聯(lián)與結(jié)構(gòu)的方法進(jìn)行研究,并在此基礎(chǔ)上對(duì)受其影響而發(fā)生變化的業(yè)務(wù)流程和規(guī)范進(jìn)行更新再造。例如,在將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為XML文件進(jìn)行歸檔保存時(shí),利用XML處理工具或編程語言,根據(jù)數(shù)據(jù)庫中的外鍵約束,將數(shù)據(jù)模型中的對(duì)象進(jìn)行關(guān)聯(lián),建立表與表之間、表與主鍵之間的關(guān)聯(lián)關(guān)系,或者將存儲(chǔ)過程與相關(guān)的表進(jìn)行關(guān)聯(lián)。這種關(guān)聯(lián)使得XML文檔能夠清晰地反映數(shù)據(jù)庫中的結(jié)構(gòu)和關(guān)系,為后續(xù)的數(shù)據(jù)存儲(chǔ)、查詢和處理提供便利。數(shù)據(jù)態(tài)管理模式需要將此類關(guān)聯(lián)方法抽象為數(shù)據(jù)關(guān)聯(lián)的恢復(fù)和固化,并將其嵌入業(yè)務(wù)流程和管理系統(tǒng)中。[7]
(二)數(shù)據(jù)態(tài)檔案管理模式是面向業(yè)務(wù)環(huán)節(jié)的實(shí)踐重構(gòu)
數(shù)據(jù)態(tài)檔案管理模式不是虛化的理念,也不是實(shí)際模型,是介于二者之間的兼有理論導(dǎo)向與實(shí)踐指導(dǎo)功能的層級(jí)。該模式確定了對(duì)于數(shù)據(jù)態(tài)檔案這一特殊對(duì)象管理的基本理念和實(shí)踐方向,在抽象層級(jí)上與具體的管理方法仍有區(qū)隔,是指導(dǎo)管理方法形成的基礎(chǔ),具有豐富的實(shí)踐內(nèi)涵。
數(shù)據(jù)態(tài)檔案管理模式需要在資源管理的各業(yè)務(wù)環(huán)節(jié)實(shí)踐中解決由于雙重離散帶來的矛盾,這種疊加管理需求直接導(dǎo)致大量業(yè)務(wù)環(huán)節(jié)需要進(jìn)行實(shí)踐重構(gòu),典型的如歸檔、保存、鑒定、編研、開發(fā)利用等。此外,處于連續(xù)空間樞紐環(huán)節(jié)的數(shù)據(jù)態(tài),還產(chǎn)生了不少業(yè)務(wù)增量,如數(shù)據(jù)檔案化、數(shù)據(jù)語義化等新型業(yè)務(wù)形態(tài)。這些存量與增量業(yè)務(wù)都需要根據(jù)數(shù)據(jù)態(tài)檔案的對(duì)象特征進(jìn)行針對(duì)性的業(yè)務(wù)創(chuàng)新。歸檔方面,王強(qiáng)初步研究了業(yè)務(wù)系統(tǒng)中數(shù)據(jù)態(tài)對(duì)象的識(shí)別與歸檔策略,結(jié)合石油行業(yè)業(yè)務(wù)場(chǎng)景,將業(yè)務(wù)系統(tǒng)分為生產(chǎn)運(yùn)行類系統(tǒng)、連續(xù)監(jiān)測(cè)類系統(tǒng)、經(jīng)營管理類系統(tǒng)、綜合管理類系統(tǒng)四類。[8]檔案數(shù)據(jù)化方面,楊建梁等提出包含轉(zhuǎn)錄識(shí)別、描述增強(qiáng)、圖譜構(gòu)建和矢量處理在內(nèi)的開發(fā)流程。[9]保存方面,筆者提出了包括態(tài)勢(shì)感知、環(huán)境構(gòu)建、語義表達(dá)、反饋前端在內(nèi)的數(shù)據(jù)態(tài)長(zhǎng)期保存基本策略。[10]語義化與開發(fā)方面,夏天等提出檔案數(shù)據(jù)語義化重組模型[11];房小可與段榮婷則研究了在檔案著錄工具基礎(chǔ)上增強(qiáng)語義分析等手段,建立了將檔案描述數(shù)據(jù)融入語義網(wǎng)的橋梁[12-13]。
數(shù)據(jù)態(tài)檔案管理模式在將抽象的檔案數(shù)據(jù)對(duì)象管理空間與具體實(shí)踐場(chǎng)景結(jié)合的過程中,總體上呈現(xiàn)出體系性、連續(xù)性、可理解性、專業(yè)性的典型特征。
(一)體系性
數(shù)據(jù)態(tài)檔案管理模式的體系性特征,本質(zhì)上是由數(shù)據(jù)態(tài)對(duì)象的雙重離散特點(diǎn)激發(fā)的。因?yàn)殡x散,之前許多統(tǒng)一于載體管理、內(nèi)容管理的問題化整為零地出現(xiàn),這些問題涉及不同要素的統(tǒng)籌,如技術(shù)、組織、領(lǐng)導(dǎo)力等,需要一個(gè)有組織、有結(jié)構(gòu)的整體框架來確保數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量和合規(guī)性。此外,檔案數(shù)據(jù)本身的構(gòu)成情況也相當(dāng)復(fù)雜,包含大量的數(shù)據(jù)源、數(shù)據(jù)類型和數(shù)據(jù)使用場(chǎng)景,來自不同系統(tǒng)、部門的數(shù)據(jù)關(guān)聯(lián)著各種業(yè)務(wù)流程和操作,只有體系性的數(shù)據(jù)態(tài)檔案管理模式才能夠駕馭數(shù)據(jù)原生環(huán)境的業(yè)務(wù)背景,使得數(shù)據(jù)在全生命周期中得到協(xié)同管理。而且在環(huán)境的持續(xù)變動(dòng)和不確定性之中,新興的技術(shù)、業(yè)務(wù)需求和法規(guī)標(biāo)準(zhǔn)可能影響甚至改變數(shù)據(jù)態(tài)檔案管理的方式,體系性的數(shù)據(jù)態(tài)檔案管理模式能夠更靈活地應(yīng)對(duì)變化、識(shí)別和防范風(fēng)險(xiǎn),保證檔案管理體系的穩(wěn)定性和可持續(xù)性,在管理上體現(xiàn)聚合的能力。
數(shù)據(jù)態(tài)檔案管理模式涉及不同層級(jí)管理要素的疊加與統(tǒng)籌。模擬態(tài)和數(shù)字態(tài)對(duì)象信息顆粒度粗,整體表現(xiàn)力強(qiáng),如載體與信息統(tǒng)一的白紙黑字和語義與語法統(tǒng)一的非結(jié)構(gòu)化文件,而離散程度最高的數(shù)據(jù)態(tài)空間,需要完備程度更高的管理框架進(jìn)行管控,自然要求管理模式具有體系性,需要綜合考察前端復(fù)雜的業(yè)務(wù)背景、全生命周期涉及的各類系統(tǒng)與平臺(tái)要求、涵蓋數(shù)據(jù)合規(guī)與安全管理的各項(xiàng)數(shù)據(jù)治理規(guī)范,以及需要解決兩個(gè)離散帶來的長(zhǎng)期保存問題等。這些都要求數(shù)據(jù)態(tài)管理模式要具備體系性,統(tǒng)籌考慮各類管理要素,從而使數(shù)據(jù)態(tài)對(duì)象在全生命周期中得到協(xié)同管理。國家數(shù)據(jù)局局長(zhǎng)劉烈宏對(duì)《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》[14]進(jìn)行解讀時(shí)強(qiáng)調(diào)加快形成數(shù)據(jù)基礎(chǔ)制度體系和數(shù)字治理體系,明確了從體系層面進(jìn)行思考和布局的必要性,與數(shù)據(jù)態(tài)檔案管理模式的體系性特征高度契合,可見對(duì)數(shù)據(jù)對(duì)象的體系性管理已成為政策和戰(zhàn)略層面的共識(shí)。
(二)連續(xù)性
筆者提出的用于表達(dá)檔案資源形態(tài)與語義關(guān)系的U型曲線理論直觀地反映了檔案資源演化的連續(xù)性特征。[15]在該曲線中,數(shù)據(jù)態(tài)處于奇點(diǎn)樞紐位置,是計(jì)算活性最強(qiáng)的資源態(tài)別,發(fā)揮著承上啟下的作用。一方面,數(shù)據(jù)態(tài)是模擬態(tài)和數(shù)字態(tài)檔案資源持續(xù)向下破析,不斷計(jì)算增強(qiáng)的結(jié)果;另一方面,數(shù)據(jù)態(tài)也是朝著知識(shí)態(tài)、價(jià)值態(tài)進(jìn)行語義增強(qiáng)的起點(diǎn)。數(shù)據(jù)態(tài)檔案管理模式也繼承了資源空間的連續(xù)性特征,與紙質(zhì)檔案管理模式、電子文件管理模式前后相續(xù),共同塑造了檔案資源形態(tài)演化的連續(xù)譜系。良好的連續(xù)性特征使得數(shù)據(jù)態(tài)能夠在多個(gè)空間中實(shí)現(xiàn)銜接,充分發(fā)揮數(shù)據(jù)態(tài)在U型曲線的樞紐通衢作用。如數(shù)據(jù)檔案化、檔案數(shù)據(jù)化就是數(shù)據(jù)態(tài)與數(shù)字態(tài)之間的雙向轉(zhuǎn)換,語義化則使得數(shù)據(jù)態(tài)檔案很自然地面向知識(shí)態(tài)和價(jià)值態(tài)空間進(jìn)行數(shù)據(jù)增值和語義增強(qiáng)。
不單資源形態(tài)具有連續(xù)性,從資源模型角度看,數(shù)據(jù)態(tài)與周邊態(tài)別空間都存在模型內(nèi)在的連續(xù)性,根據(jù)筆者的研究,模擬態(tài)的序化模型、數(shù)字態(tài)的實(shí)體聯(lián)系模型、知識(shí)態(tài)的本體模型都與數(shù)據(jù)態(tài)的關(guān)聯(lián)模型存在較強(qiáng)的連續(xù)性,這使得多態(tài)空間資源的大批量轉(zhuǎn)換成為可能,為資源空間的有序和規(guī)范遷移提供了保障。[16]
(三)可理解性
可理解性實(shí)質(zhì)是表達(dá)了可見、可讀、可理解在內(nèi)的“三可”要求。從資源連續(xù)迭代的角度看,數(shù)據(jù)態(tài)檔案管理模式需要滿足“三可”要求,使得載體可見、文件可讀、數(shù)據(jù)可理解。“三可”要求反映了檔案對(duì)象在不同態(tài)別空間的應(yīng)然狀態(tài),即從物理上的存續(xù)、計(jì)算機(jī)系統(tǒng)的讀取再到人類用戶的理解??梢娛侵笖?shù)據(jù)的存在可以被識(shí)別和觀察到,對(duì)應(yīng)的工作包括對(duì)物理空間和各類型載體實(shí)體的管理工作??勺x是指數(shù)字文件按照某種模式或協(xié)議進(jìn)行組織,保證能夠被計(jì)算機(jī)正確地讀取和處理,對(duì)應(yīng)的工作包括數(shù)字資源的長(zhǎng)期保存,如格式管理、遷移仿真、備份恢復(fù)等??衫斫馐侵笖?shù)據(jù)以人類能夠理解的方式呈現(xiàn),是數(shù)據(jù)態(tài)檔案管理模式的重點(diǎn)與難點(diǎn)。元數(shù)據(jù)是通向可理解性的橋梁,基本數(shù)據(jù)屬性、背景元數(shù)據(jù)、過程元數(shù)據(jù)動(dòng)靜結(jié)合刻畫出數(shù)據(jù)發(fā)展變化過程,重新接續(xù)斷裂的語義,建立起機(jī)器與人的初步鏈接。數(shù)據(jù)可視化是可理解性的直觀表現(xiàn),通過使用圖表、時(shí)間軸等多種手段展示數(shù)據(jù)的模式和關(guān)系。數(shù)據(jù)管理強(qiáng)調(diào)數(shù)據(jù)生產(chǎn)要素價(jià)值的發(fā)揮,用戶無需理解數(shù)據(jù)也可以享受數(shù)據(jù)開發(fā)利用的成果,但檔案的可理解性需要面向社會(huì)全體,且要在檔案保存期限之內(nèi)持續(xù)維護(hù)可理解性。
進(jìn)一步細(xì)究,從依賴關(guān)系看,模擬態(tài)管理模式需要通過“八防”手段應(yīng)對(duì)載體的物理保存問題,從而解決載體依賴。數(shù)字態(tài)需要解決以軟硬件依賴性為核心的低階邏輯依賴,應(yīng)對(duì)信號(hào)離散帶來的保存問題。數(shù)據(jù)態(tài)需要解決以語義關(guān)聯(lián)為核心的高階邏輯依賴,管控諸如算法、規(guī)則、約束、模型等可解釋性要素?!叭伞币笮枰鉀Q的依賴關(guān)系可以簡(jiǎn)單表達(dá)為物理依賴(載體可見)-低階邏輯依賴(語法可讀)-高階邏輯依賴(語義可理解),從這個(gè)遞進(jìn)關(guān)系也能看出可理解性是“三可”要求的最高點(diǎn),是建立在可見和可讀基礎(chǔ)上的。
(四)專業(yè)性
專業(yè)性主要是指特定數(shù)據(jù)態(tài)對(duì)象語義復(fù)現(xiàn)需要相應(yīng)的專業(yè)知識(shí)提供支撐,專業(yè)性特征可視為對(duì)可理解性的回應(yīng),著眼于解決語義離散這一核心矛盾。以數(shù)據(jù)形態(tài)存在的檔案資源,在機(jī)器理解方面,需要專業(yè)計(jì)算機(jī)人員進(jìn)行模式設(shè)計(jì)、流程預(yù)置與操作;在用戶理解方面,需要與業(yè)務(wù)內(nèi)容直接相關(guān)的行業(yè)專家進(jìn)行數(shù)據(jù)解讀、降維與呈現(xiàn),具有明顯的專業(yè)性特征,對(duì)管理主體的知識(shí)水平和業(yè)務(wù)能力提出了較高的要求。一般來講,信號(hào)離散需要應(yīng)對(duì)軟硬件系統(tǒng)依賴性,其解決方案通常是進(jìn)行持續(xù)的系統(tǒng)運(yùn)維,面對(duì)的是具有一定的普適性的、共同性的問題,如硬件、軟件、格式的升級(jí)換代和版本更迭,抓住這幾個(gè)關(guān)鍵點(diǎn),就奠定了維護(hù)可讀性的基礎(chǔ)條件。而語義離散通常需要專業(yè)組織維持,從某種意義上講,語義離散的問題相對(duì)小眾,通常依附于特定的專業(yè)技術(shù)領(lǐng)域,因而需要針對(duì)不同類型的數(shù)據(jù)態(tài)對(duì)象進(jìn)行專門研究,具有較強(qiáng)的專業(yè)性。如LOTAR(Long Term Archiving and Retrieval)[17],是國際航空工業(yè)合作項(xiàng)目發(fā)布和維護(hù)一系列用于3D CAD/CAM和PDM數(shù)據(jù)長(zhǎng)期保存和檢索的標(biāo)準(zhǔn),包括基礎(chǔ)部分、通用流程和特定領(lǐng)域部分,其中特定領(lǐng)域就包括基于PMI的3D CAD機(jī)械信息、產(chǎn)品結(jié)構(gòu)信息、混合設(shè)計(jì)及先進(jìn)制造、電線束、基于模型的系統(tǒng)工程、工程分析和仿真,體現(xiàn)了該領(lǐng)域特定的專業(yè)性。類似的如數(shù)據(jù)庫領(lǐng)域用于簡(jiǎn)化關(guān)系數(shù)據(jù)庫存檔的SIARD規(guī)范[18]和用于定義和記錄數(shù)據(jù)庫模式和結(jié)構(gòu)的DBML開源語言[19],再如用于網(wǎng)絡(luò)資源歸檔保存的WARC存儲(chǔ)格式標(biāo)準(zhǔn)[20],都體現(xiàn)了各自數(shù)據(jù)態(tài)對(duì)象管理的專業(yè)性。
現(xiàn)有檔案管理模式與以體系性、連續(xù)性、可理解性和專業(yè)性為主要特征的數(shù)據(jù)態(tài)檔案管理模式之間仍存在差距,在空間管控、證用價(jià)值維系、管理機(jī)制協(xié)同與技術(shù)能力建設(shè)等方面都面臨巨大挑戰(zhàn)。
(一)需要建設(shè)保障“三可”特征的管控體系
數(shù)據(jù)態(tài)檔案管理模式構(gòu)建的直接挑戰(zhàn)就是搭建維系數(shù)據(jù)態(tài)檔案“三可”特征的相對(duì)完備的管控體系,“三可”的疊加要求使得數(shù)據(jù)態(tài)管理模式需要有效集成在模擬態(tài)、數(shù)字態(tài)積累的各核心要素。從依賴性角度看,一個(gè)相對(duì)完備的數(shù)據(jù)態(tài)管控體系應(yīng)包含對(duì)各類型依賴的應(yīng)對(duì)措施,包括物理依賴、語法依賴和語義依賴等??傮w上,模擬態(tài)以物理依賴的研究已臻于成熟,集中體現(xiàn)在對(duì)載體、字跡、材料三要素以及環(huán)境控制的“八防”要求上;數(shù)字態(tài)以軟硬件依賴為代表的低階依賴的研究也一直在持續(xù),可以說數(shù)字保存就是專門針對(duì)降低電子檔案軟硬件依賴性的研究領(lǐng)域。數(shù)據(jù)態(tài)檔案管理模式明確提出可理解性要求,需要直面語義離散帶來的語義依賴問題,對(duì)規(guī)則、模型、算法等語義關(guān)聯(lián)要素進(jìn)行管控。在檔案資源形態(tài)的演化過程中,較之于模擬態(tài)和數(shù)字態(tài)低態(tài)別對(duì)象,適應(yīng)高態(tài)別對(duì)象特征的管理模式對(duì)于所涉及的管理要素的完備性要求更高。例如,作為數(shù)字態(tài)環(huán)境中單套制管理的綜合性標(biāo)準(zhǔn)的《電子檔案單套管理一般要求》(DA/T 92-2022),是一個(gè)類似單套制準(zhǔn)入清單的綜合標(biāo)準(zhǔn),明確涉及的參照標(biāo)準(zhǔn)或要求多達(dá)28項(xiàng),可行性評(píng)估指標(biāo)包括前置性條件和26個(gè)指標(biāo),如果任何一個(gè)前置條件暫不具備,則評(píng)估結(jié)果直接為“未通過”。后續(xù)在構(gòu)建更為復(fù)雜的數(shù)據(jù)態(tài)管理模式時(shí),同樣需要拓展管理要素,滿足與數(shù)據(jù)細(xì)小顆粒度特征相適應(yīng)的精細(xì)化管理要求。
(二)需要探索兼顧證用價(jià)值的實(shí)現(xiàn)路徑
檔案學(xué)基礎(chǔ)理論揭示了檔案具有憑證價(jià)值與信息價(jià)值,在系統(tǒng)中通常表現(xiàn)為存證與利用服務(wù),而不同資源態(tài)別的證用價(jià)值實(shí)現(xiàn)路徑存在較大差異。數(shù)據(jù)態(tài)在U型曲線中處于承上啟下的奇點(diǎn)位置,可計(jì)算性最高但語義含量最低,檔案出證或提供利用時(shí)都需要經(jīng)歷語義恢復(fù)的長(zhǎng)鏈處理過程,過程中需要基于規(guī)則與模型從數(shù)據(jù)體中對(duì)于原件進(jìn)行顯性化,對(duì)技術(shù)和語義依賴層層解離。
因而,數(shù)據(jù)態(tài)管理模式應(yīng)實(shí)現(xiàn)以數(shù)據(jù)態(tài)對(duì)象為中心的兼顧證用價(jià)值的長(zhǎng)鏈管理,探索包括數(shù)據(jù)檔案化(數(shù)據(jù)態(tài)→數(shù)字態(tài)→模擬態(tài))、數(shù)據(jù)故事化(數(shù)據(jù)態(tài)→知識(shí)態(tài)→價(jià)值態(tài))在內(nèi)的實(shí)現(xiàn)路徑。《最高人民法院關(guān)于民事訴訟證據(jù)的若干規(guī)定》提到“以檔案管理方式保管的”電子數(shù)據(jù),人民法院可以確認(rèn)其真實(shí)性。由此可見,在價(jià)值定位上,檔案的證據(jù)價(jià)值得到了證據(jù)法相關(guān)法律法規(guī)的確認(rèn)和認(rèn)可。而在實(shí)際操作中數(shù)據(jù)檔案化通常需要按照事先約定的證明模板將離散的數(shù)據(jù)整合成語義連續(xù)且被認(rèn)可的原件形式,如成績(jī)數(shù)據(jù)庫生成的成績(jī)單、銀行系統(tǒng)開具的存款證明等。知識(shí)化和故事化的利用服務(wù)則需要層級(jí)豐富的檔案數(shù)據(jù)基礎(chǔ)設(shè)施與專業(yè)分化的協(xié)同支持才能實(shí)現(xiàn)。
(三)需要協(xié)同數(shù)據(jù)管理與檔案管理
數(shù)據(jù)態(tài)對(duì)象是業(yè)務(wù)前端技術(shù)環(huán)境變遷的直接結(jié)果,大量數(shù)據(jù)驅(qū)動(dòng)類系統(tǒng)和應(yīng)用最大限度地提升了業(yè)務(wù)數(shù)據(jù)的共享集成水平,也在相當(dāng)程度上模糊了傳統(tǒng)前端與后端的邊界。與此同時(shí),伴隨而來的技術(shù)復(fù)雜度也導(dǎo)致原先集中在特定物理空間(如辦公室)中的文檔管理職能在數(shù)字空間中的延展和離散,這都使得“文檔一體化”之類的協(xié)同理念在數(shù)據(jù)態(tài)環(huán)境中面臨巨大挑戰(zhàn)。協(xié)同不是簡(jiǎn)單的交互和接口,追求的是各要素的整體性和柔性效果。如數(shù)字態(tài)環(huán)境下提倡的“文檔一體化”與此處論述的數(shù)檔協(xié)同在理念上是一致的,但在協(xié)同精細(xì)度上二者存在明顯差異。傳統(tǒng)的“文檔一體化”協(xié)同對(duì)象是非結(jié)構(gòu)化的文件與檔案,實(shí)現(xiàn)方式依靠規(guī)范的元數(shù)據(jù)接口、協(xié)調(diào)的收發(fā)設(shè)置、通用的文件格式等相對(duì)硬性的協(xié)同手段;數(shù)據(jù)態(tài)管理模式協(xié)同對(duì)象是顆粒度趨于最小化的各類數(shù)據(jù),要進(jìn)行數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)權(quán)限等治理層面的要素全方位對(duì)接,需要更多潤(rùn)物細(xì)無聲的規(guī)則與操作。
由于涉及治理層面,數(shù)據(jù)管理和檔案管理之間需要在管理主體、方法、理論等多方面加強(qiáng)協(xié)同,這是當(dāng)前乃至今后一段時(shí)間數(shù)據(jù)態(tài)檔案管理模式的難點(diǎn)與重點(diǎn)。譬如,深化數(shù)據(jù)與檔案的概念協(xié)同,梳理數(shù)檔協(xié)同管理的多元路徑,探索數(shù)據(jù)態(tài)管理相關(guān)主體間的協(xié)同模式,實(shí)現(xiàn)包括檔案部門、數(shù)據(jù)管理機(jī)構(gòu)、第三方服務(wù)平臺(tái)、云服務(wù)商、業(yè)務(wù)部門、信息部門等在內(nèi)的跨領(lǐng)域跨部門協(xié)同。
(四)需要彌合兩個(gè)離散的技術(shù)能級(jí)
數(shù)據(jù)態(tài)是所有資源空間中離散程度最高的態(tài)別,即信號(hào)離散(第一離散)與語義離散(第二離散),在面向人進(jìn)行證用服務(wù)時(shí)需要相應(yīng)的解除依賴能力。由于離散性質(zhì)不同,可以將所需要的技術(shù)范疇分別視為兩大技術(shù)能級(jí)。其中,解決第一離散問題的技術(shù)能級(jí)包括傳統(tǒng)的數(shù)字保存手段和較為完善的軟硬件運(yùn)維能力等;解決第二離散問題的技術(shù)能級(jí)則是基于特定數(shù)據(jù)態(tài)對(duì)象的語義解析和彌合能力,通過搭建語義臺(tái)階彌合離散數(shù)據(jù),使檔案資源對(duì)象躍遷為可理解的知識(shí)對(duì)象和價(jià)值表現(xiàn),包括本體建設(shè)、關(guān)聯(lián)數(shù)據(jù)、知識(shí)融合等具體技術(shù)。因此,數(shù)據(jù)態(tài)所依托的語義基礎(chǔ)設(shè)施客觀上需要能夠更精確地表達(dá)依賴關(guān)系,需要運(yùn)用更為專業(yè)的工具和方法。
顯然,數(shù)據(jù)態(tài)檔案管理模式需要相對(duì)厚實(shí)的技術(shù)能力作為支撐,要求具備彌合兩個(gè)離散的技術(shù)能級(jí),尤其要滿足數(shù)據(jù)態(tài)對(duì)象脫離原生環(huán)境后用戶可理解性的要求,構(gòu)建相關(guān)行業(yè)專家深度合作形成的專業(yè)小生態(tài),包括檔案專家指導(dǎo)數(shù)據(jù)歸檔及長(zhǎng)期保存、數(shù)據(jù)管理專家指導(dǎo)數(shù)據(jù)質(zhì)量維護(hù)與數(shù)據(jù)利用開發(fā)、業(yè)務(wù)專家指導(dǎo)數(shù)據(jù)解讀與語義呈現(xiàn),滿足特定數(shù)據(jù)態(tài)對(duì)象全生命周期管理的各類技術(shù)需要。對(duì)于數(shù)據(jù)態(tài)檔案管理模式而言,其技術(shù)能力的挑戰(zhàn)并不來自是否能及時(shí)把握技術(shù)前沿或者攻克技術(shù)難關(guān),而是對(duì)于技術(shù)的了解是否能夠支持客觀審慎的評(píng)估的形成,在面對(duì)供應(yīng)商的方案時(shí)是否有能力進(jìn)行獨(dú)立判斷,形成平衡安全、收效、成本的選型決策。另外,在促進(jìn)數(shù)據(jù)態(tài)檔案對(duì)象向知識(shí)態(tài)等高級(jí)態(tài)別躍遷的過程中,可能會(huì)涉及潛在的安全與隱私問題,即使數(shù)據(jù)體本身不涉密、不包含隱私信息,但是在知識(shí)融合推理形成新的數(shù)據(jù)洞察之后,可能就會(huì)產(chǎn)生預(yù)料之外的隱私問題,這使得數(shù)據(jù)安全和隱私保護(hù)的難度再度提升。
在深化檔案信息化戰(zhàn)略轉(zhuǎn)型、推動(dòng)檔案工作走向現(xiàn)代化的背景下,檔案部門需要以“空間觀”的戰(zhàn)略視野把握資源形態(tài)演變趨勢(shì),洞察數(shù)據(jù)態(tài)新檔案對(duì)象雙重離散本質(zhì)及其帶來的業(yè)務(wù)流程與規(guī)則變化,在現(xiàn)實(shí)管理環(huán)境中進(jìn)行理論重塑和實(shí)踐重構(gòu),形成以體系性、連續(xù)性、可理解性和專業(yè)性為特征的數(shù)據(jù)態(tài)檔案管理模式,應(yīng)對(duì)維系“三可”特征、兼顧證用價(jià)值、協(xié)同數(shù)檔管理、搭建技術(shù)能級(jí)的挑戰(zhàn),最終解除離散語義帶來的高階邏輯依賴,在檔案對(duì)象管理空間中恢復(fù)數(shù)據(jù)的連續(xù)語義,為檔案數(shù)據(jù)資源開發(fā)利用奠定良好基礎(chǔ)。
*本文系國家社會(huì)科學(xué)基金項(xiàng)目“數(shù)據(jù)態(tài)環(huán)境下檔案管理模式創(chuàng)新研究”(23BTQ108)的階段性研究成果。
注釋及參考文獻(xiàn):
[1]趙生輝,胡瑩,黃依涵.數(shù)據(jù)、檔案及其共生演化的微觀機(jī)理解析[J].檔案學(xué)通訊,2022(2):4-12.
[2]陳永生,楊茜茜,王沐暉,等.基于互聯(lián)網(wǎng)政務(wù)服務(wù)平臺(tái)的文件歸檔與管理:記錄觀[J].檔案學(xué)研究,2019(3):16-23.
[3]金波,添志鵬.檔案數(shù)據(jù)的內(nèi)涵與特征探析[J].檔案學(xué)通訊,2020(3):4-11.
[4]劉越男.數(shù)據(jù)治理:大數(shù)據(jù)時(shí)代檔案管理的新視角和新職能[J].檔案學(xué)研究,2020(5):50-57.
[5]趙躍,孫晶瓊,段先娥.檔案化:檔案科學(xué)介入數(shù)據(jù)資源管理的理性思考[J].檔案學(xué)研究,2020(5):83-91.
[6]錢毅.技術(shù)變遷環(huán)境下檔案對(duì)象管理空間演化初探[J].檔案學(xué)通訊,2018(2):10-14.
[7]錢毅,劉力超.數(shù)據(jù)庫電子文件歸檔與長(zhǎng)期保存技術(shù)路徑研究[J].檔案學(xué)研究,2017(4):67-72.
[8]王強(qiáng),高強(qiáng).業(yè)務(wù)系統(tǒng)數(shù)據(jù)歸檔研究——以中國石油業(yè)務(wù)系統(tǒng)數(shù)據(jù)歸檔實(shí)踐為例[J].浙江檔案,2019(12):36-39.
[9]楊建梁,劉越男,祁天嬌.文檔數(shù)據(jù)化:概念、框架與方法[J].中國圖書館學(xué)報(bào),2022,48(3):63-78.
[10]錢毅.數(shù)據(jù)態(tài)環(huán)境中數(shù)字檔案對(duì)象保存問題與策略分析[J].檔案學(xué)通訊,2019(4):40-47.
[11]夏天,錢毅.面向知識(shí)服務(wù)的檔案數(shù)據(jù)語義化重組[J].檔案學(xué)研究,2021(2):36-44.
[12]房小可,王巧玲.檔案著錄、知識(shí)關(guān)聯(lián)與社會(huì)記憶重構(gòu)[J].檔案學(xué)通訊,2021(03):27-33.
[13]段榮婷,夏子涵,王昊.檔案著錄關(guān)聯(lián)數(shù)據(jù)化實(shí)現(xiàn)研究[J].檔案學(xué)研究,2021(04):100-110.
[14]新京報(bào).劉烈宏:釋放數(shù)據(jù)要素價(jià)值,是把握發(fā)展機(jī)遇的重點(diǎn)[EB/OL].(2024-01-07)[2024-03-24].https://baijiahao. baidu.com/s?id=1787433965437256213&wfr=spider&for=pc.
[15]錢毅.破析與融合——析檔案資源形態(tài)與語義表現(xiàn)相互作用的U型曲線現(xiàn)象[J].檔案學(xué)研究,2022(04):108-115.
[16]錢毅,潘潔敏.基于模型視角的檔案對(duì)象連續(xù)空間演化路徑[J].檔案學(xué)通訊,2024(2):4-12.
[17]LOTAR(Long Term Archiving and Retrieval).LO? TAR standards[EB/OL].[2024- 03- 24].https://lotar- interna? tional.org/lotar-standard/.
[18]Digital Information LifeCycle Interoperability Stan? dards.SIARD(SoftwareIndependentArchivingofRelationalData? bases)[EB/OL].[2024-03-24].https://dilcis.eu/content-types/ siard.
[19]Holistics.DBML- Database Markup Language[EB/ OL].[2024-03-24].https://dbml.dbdiagram.io/home/#intro.
[20]曾薩,黃新榮.WARC標(biāo)準(zhǔn)推廣策略研究[J].圖書館,2019(6):81-87.
作者單位:1.中國人民大學(xué)信息資源管理學(xué)院2.中國人民大學(xué)電子文件管理研究中心3.多模態(tài)檔案保護(hù)與開發(fā)國家檔案局重點(diǎn)實(shí)驗(yàn)室