田偉 蔣冠
摘要:檔案資源數(shù)據(jù)化應是新時代檔案事業(yè)發(fā)展的目標。文章基于OFD標準,以高校為具體應用場景,研究滿足檔案資源數(shù)據(jù)化需求的實施策略,包括對數(shù)據(jù)化資源充分包容與主要資源形態(tài)間順暢轉換的支持、對檔案資源元數(shù)據(jù)體系充分支持、對本體論知識庫充分支持、對檔案資源協(xié)同過濾機制充分支持等方面。
關鍵詞:OFD;數(shù)據(jù)化;高校檔案;協(xié)同過濾;本體論
分類號:G270.7
Research on University Archives Resource Datalization Strategy Based on the OFD Standard
Tian Wei, Jiang Guan
(Management School of Tianjin Normal University, Tianjin, 300387)
Abstract:The datalization of archival resources should be the goal of the archives development in the new era. Based on the OFD standard, the paper takes universities as specific application scenario, and studies the implementation strategies to meet the needs of archival resources datalization. These strategies mainly include being supportive to sufficient inclusiveness for various datalized resource and smooth transition between major resource forms, being supportive to archival resources metadata, being supportive to ontological knowledge base and being supportive to archival resources collaborative filtering mechanism.
Keywords:OFD;Datalization; University Archives; Collaborative Filtering; Ontology
檔案資源的數(shù)據(jù)化是新時代檔案事業(yè)發(fā)展的根基與前提。當前學界往往將“數(shù)據(jù)化”作為一個與“數(shù)字化”相對的概念,把檔案資源的“數(shù)據(jù)化”定義為:將檔案資源的形式與內(nèi)容轉化為電子計算機可處理的數(shù)據(jù),并通過檔案數(shù)據(jù)管理系統(tǒng)實現(xiàn)有效管理的系統(tǒng)化工作。
從實踐角度來看,離開了充分有效的檔案數(shù)據(jù)化資源,新時代檔案事業(yè)將成為無源之水、無本之木。根據(jù)調(diào)查結果,受訪各高校檔案部門幾乎都存在檔案資源檢索遺漏現(xiàn)象(即未能找到實際上存在的館藏檔案資源),給檔案工作帶來了一系列問題,而問題的根本原因在于檔案資源的數(shù)據(jù)化程度不足。
從理論角度來看,四重境界理論[1]表明,新時代“互聯(lián)網(wǎng)+檔案”的建設應從第一到第四重境界逐步開展。第一重境界建設完成的標志是:實現(xiàn)傳統(tǒng)介質(zhì)檔案的充分數(shù)據(jù)化,并建立相應完善的元數(shù)據(jù)標引體系。可見,數(shù)據(jù)化是實現(xiàn)“互聯(lián)網(wǎng)+檔案”建設的基礎條件。
當前,檔案界在不斷探索大數(shù)據(jù)、智能化等問題時,實際上亦應思考一個“根基問題”:檔案資源的形式與內(nèi)容都很好地進入計算機世界了嗎?這就是檔案資源“數(shù)據(jù)化”的要義所在。
如上所述,當前“找到”檔案資源的問題甚至尚未很好地解決,“第一境界”尚未實現(xiàn),又談何檔案資源的“高級應用”?檔案資源“數(shù)據(jù)化”問題尚未研究透徹而言他,就相當于還沒有解決“走”而直接去研究“跑”。
因此,必須對檔案資源數(shù)據(jù)化問題給予充分重視,對檔案資源數(shù)據(jù)化實現(xiàn)策略應加以系統(tǒng)性研究。當前,國家正在出臺一系列政策,推動OFD版式文件標準的廣泛應用,OFD代表著我國檔案資源數(shù)據(jù)化未來的發(fā)展方向。因此,本文基于OFD標準,著眼于高校檔案這一具體應用領域,提出檔案資源數(shù)據(jù)化的若干實現(xiàn)策略。
1相關研究
OFD是我國自主的版式文檔格式規(guī)范,由《電子文件存儲與交換格式版式文檔》(GB/T 33190-2016)確立。OFD標準體系使我國首次擁有了國家級的電子文檔自主版式格式標準及相應技術,對于實現(xiàn)新時代檔案資源“數(shù)據(jù)化”具有重要意義。
自相關標準發(fā)布后,圍繞OFD在檔案領域的應用研究逐步展開。例如,王姝等[2]對OFD在檔案領域的主要應用、存在的問題進行了分析,進而提出形成OFD標準族、加大應用試點等檔案OFD發(fā)展策略;高林等[3]對OFD標準進行了系統(tǒng)解讀,給出了其在電子公文、檔案等領域的應用實例;周楓等[4]對OFD格式應用場景進行了探討,以SWOT分析法對OFD在檔案領域的發(fā)展進行了分析;郭曉云[5]在研究中對OFD應用于電子公文檔案一體化的策略進行了研討;梁凱[6]對檔案部門應用OFD的應對之策進行了研究。
從總體上看,OFD作為我國大力推廣的、具有全面自主知識產(chǎn)權的版式文件標準,日益受到業(yè)界與學界的重視。相關工作具有良好的價值,但對OFD的研究尚處于初步階段。而一些研究也提到,OFD應進一步面向?qū)嵺`領域推動落地研究,以突破當前其所存在的局限性。
因此,我們應結合檔案具體領域的應用場景,加緊研究面向?qū)嶋H的OFD應用策略,以具體實踐推動整體研究,促進OFD廣泛應用與檔案資源數(shù)據(jù)化的實現(xiàn)。
2高校檔案資源“數(shù)據(jù)化”需求
2.1高校檔案資源主要特點
文章將高校檔案作為主要研究領域,是由于實現(xiàn)高校檔案資源的數(shù)據(jù)化具有典型示范意義。從總體上看,高校檔案具備以下特點:
一是檔案資源門類較齊全、數(shù)量豐富。當前各高?;靖鶕?jù)《普通高等學校檔案管理辦法》等文件設立了門類齊全的檔案資源體系,包含了黨政、教學、財務、基建等多種類型的檔案資源,在資源數(shù)量上有相當?shù)囊?guī)模,從而為檔案資源數(shù)據(jù)化提供了堅實的資源基礎。
二是對檔案資源的管理較為規(guī)范。當前國家出臺了一系列的規(guī)章制度與技術標準以規(guī)范高校檔案事業(yè)的開展,在實踐中這些法規(guī)基本得到了較好的執(zhí)行,使高校檔案資源處于良好有序的管理體系之下,從而為檔案資源數(shù)據(jù)化提供了較好的運行環(huán)境和制度保障。
三是對檔案資源的利用需求日益旺盛。根據(jù)以往課題的調(diào)查統(tǒng)計,當前對高校檔案資源的利用需求數(shù)量逐年遞增,對資源需求的種類也在逐步擴大。隨之由于對檔案資源未充分數(shù)據(jù)化而造成的各種問題也日益凸顯出來,給新時代檔案事業(yè)發(fā)展帶來了一定阻力,從而對檔案資源數(shù)據(jù)化的開展提出了迫切的要求。
2.2高校檔案資源主要形態(tài)
從總體上看,當前高校檔案資源主要包括以下幾種主要呈現(xiàn)形態(tài)。
(1)文檔。即文本文檔,以字符作為主要表達形式的文件。它有電子文件和非電子文件兩種形式。典型的文檔諸如政府文件、總結報告、文章稿件、統(tǒng)計報表等。電子文檔文件的格式包括TXT、DOC、PDF、XLS等。
(2)圖像文件。即以圖像信息為主要形式的文件。主要包括照片、圖紙、繪畫、地圖等檔案資源。它有電子文件和非電子文件兩種形式。電子圖像文件的主要格式包括JPG、PNG、BMP、TIFF等。紙質(zhì)文檔經(jīng)數(shù)字化掃描而得的圖片文件亦屬于此類。
(3)音頻音像文件。即以視頻或音頻為主要形式的文件。主要包括錄像資料、錄音資料等檔案資源。它有電子文件和非電子文件兩種形式,電子形式又可細分為磁介質(zhì)文件、光介質(zhì)文件、半導體介質(zhì)文件等。其電子文件主要格式包括MP4、WMV、ASF、3GP、RMVB等。
(4)數(shù)據(jù)庫文件。即由數(shù)據(jù)庫管理系統(tǒng)(DBMS)所定義、操縱的數(shù)據(jù)文件。數(shù)據(jù)庫文件全部為電子文件形式,包括關系型數(shù)據(jù)庫與非關系型數(shù)據(jù)庫兩種類型。典型的高校檔案資源中的數(shù)據(jù)庫文件包括教學成績數(shù)據(jù)、財務系統(tǒng)數(shù)據(jù)、各類統(tǒng)計數(shù)據(jù)等。數(shù)據(jù)庫文件的主要格式包括DBF、MDB、MDF等。
(5)軟件及其數(shù)據(jù)文件。即除上述四種形態(tài)資源之外的檔案資源中其他軟件及其數(shù)據(jù)文件。所包含的種類較為廣泛。隨著大數(shù)據(jù)、“互聯(lián)網(wǎng)+”等新時代技術環(huán)境的到來,各種應用軟件及其產(chǎn)生的數(shù)據(jù)越來越多地加入到檔案資源建設范圍中來。例如典型的軟件及數(shù)據(jù)文件歸檔包括工程CAD文件、網(wǎng)頁歸檔文件、社交媒體歸檔文件、科研軟件系統(tǒng)文件等。
五種形態(tài)之間互有包含、緊密聯(lián)系。如文檔中往往不單單含有文字,還包含一定的表格、圖像等,而圖像文件也必然含有文字說明要素,數(shù)據(jù)庫文件實際上是軟件及數(shù)據(jù)文件的特例。
2.3高校檔案資源數(shù)據(jù)化需求
以上五種形態(tài)檔案資源對于版式文件具有不同的需求。在“四重境界”理論的視域下,我們以形態(tài)和境界為兩個維度,總結高校檔案資源數(shù)據(jù)化任務需求(表1)。
3基于OFD標準的檔案資源數(shù)據(jù)化策略
基于以上的檔案資源數(shù)據(jù)化典型需求,結合OFD標準自主性、安全性、兼容性的特點,提出以下的檔案資源數(shù)據(jù)化實現(xiàn)策略。
3.1對數(shù)據(jù)化資源充分包容與主要形態(tài)間順暢轉換的支持
當前國家相關部門致力于推動使檔案資源版式文件格式統(tǒng)一于OFD標準。因此OFD標準應對多種形態(tài)的檔案資源具有較好的包容能力。OFD標準應充分包容各形態(tài)檔案資源,避免使檔案資源數(shù)據(jù)化成果呈現(xiàn)形態(tài)過于紛雜,同時實現(xiàn)檔案資源數(shù)據(jù)化成果統(tǒng)一于我國自主知識產(chǎn)權標準。
OFD標準擅長于實現(xiàn)各類文檔排版后的固化呈現(xiàn),因此文檔與圖像文件可較為直接地應用OFD標準實現(xiàn)數(shù)據(jù)化成果存儲。當前電子證照、政令文件等領域已經(jīng)成功地開展了OFD標準應用。因此,高校檔案資源中的類似數(shù)據(jù)化成果可參照實現(xiàn)。同時,應擴展OFD文件對于音頻音像文件的包容能力,使這類檔案資源能夠通過OFD標準實現(xiàn)有效的存儲與利用。
OFD是基于XML與壓縮技術的電子文檔格式標準。因此OFD對數(shù)據(jù)庫文件應該具有較好的支持度。XML善于描述結構化數(shù)據(jù),是一種存儲與傳輸數(shù)據(jù)的格式標準,與多數(shù)數(shù)據(jù)庫支持模型原理相通,具備對數(shù)據(jù)庫文件的良好支持度。當然,XML僅僅關注于存儲數(shù)據(jù),而不提供數(shù)據(jù)索引、排序、查找、相關一致性等功能。這就意味著,可保持數(shù)據(jù)庫文件的原有格式作為數(shù)據(jù)化資源形態(tài),不必一定將數(shù)據(jù)庫文件轉為OFD文檔存儲,但應保持數(shù)據(jù)庫文件歸檔后的長期可用性及其生成OFD版式文檔的能力。
應用OFD文檔存儲檔案數(shù)據(jù)化資源,應保障資源在相關形態(tài)間順暢轉換。例如,高校檔案資源中的教學成績單文件,往往以文檔的形態(tài)呈現(xiàn),但生成成績單文件的支持數(shù)據(jù)來源于教學數(shù)據(jù)庫,往往以關系型數(shù)據(jù)庫文件形態(tài)呈現(xiàn)。那么,成績單檔案資源應以何種形態(tài)實現(xiàn)數(shù)據(jù)化?是應以一個個獨立文檔(每個文檔對應一份成績單)的形態(tài)還是以數(shù)據(jù)庫文件(利用時再生成獨立成績單)的形態(tài)進行歸檔存儲?這是權衡多重因素應加以確定的問題,以確保文檔版式呈現(xiàn)與數(shù)據(jù)挖掘兩方面需求的充分滿足。
3.2對檔案資源元數(shù)據(jù)體系充分支持
檔案元數(shù)據(jù)是描述檔案資源與檔案業(yè)務活動的數(shù)據(jù)集合,其主要可分為基本元數(shù)據(jù)、管理元數(shù)據(jù)和業(yè)務元數(shù)據(jù)等。“互聯(lián)網(wǎng)+檔案”建設“四重境界”的發(fā)展要求對檔案資源元數(shù)據(jù)加以充分重視,各重境界的目標必須依靠檔案元數(shù)據(jù)的有效支持方能實現(xiàn)。這也就意味著,除了對檔案資源本身充分包容之外,OFD文檔也必須充分支持檔案資源元數(shù)據(jù)體系的存儲。
高校檔案資源元數(shù)據(jù)往往采用諸如都柏林核心元素集、MARC、GILS、FGDC/CSDGM等技術標準,因此OFD文檔應對相關的元數(shù)據(jù)實現(xiàn)充分有效的存儲,并保障其長期可用性。
相關研究表明[7],在一些情況下,OFD對于檔案文檔資源的屬性元數(shù)據(jù)保存存在信息損失現(xiàn)象。一些格式的流式文檔在轉換為OFD版式文檔后,一部分元數(shù)據(jù)會發(fā)生損失。這種缺失元數(shù)據(jù)副本的問題對于電子檔案資源來講并非是可忽略的小問題,應著力加以解決。在建設OFD文檔資源工程中,應充分認識到元數(shù)據(jù)對檔案資源的戰(zhàn)略意義,推動實現(xiàn)OFD對檔案資源元數(shù)據(jù)體系的充分支持。
3.3對本體論知識庫充分支持
以本體論所構建的檔案資源信息概念模型是計算機可理解的智能工具,這是傳統(tǒng)的主題詞表等工具所不具備的能力。本體方法比傳統(tǒng)的分類法、主題法等具有更強的知識導航功能,從而實現(xiàn)對檔案資源更有效的智能管理與組織。因此,本體知識庫對于實現(xiàn)檔案資源智能檢索等方面具有重要意義。
本體技術一般具有四個核心:一是形式化(Formal),本體是計算機可理解的;二是概念模型(Conceptualization),從現(xiàn)實世界抽象得到的、獨立于具體環(huán)境的概念集合;三是共享(Share),本體中所涵蓋的是人們對于事物的共同認知;四是明確(Explicit),本體中的概念與概念之間的聯(lián)系均有明確約束。本體的描述語言主要包括RDF、RDFS、OWL等。
檔案資源領域的本體知識庫建設一般通過領域?qū)<业南到y(tǒng)性設計實現(xiàn)。通過將檔案資源所含知識建為本體知識庫,實現(xiàn)以本體形式化描述檔案資源,以有效揭示檔案資源所反映的豐富內(nèi)容,提升檔案資源管理利用的智能化水平。所建設的本體知識庫作為智慧結晶,應確??煽康拈L期可用性。因此,應探索應用OFD文檔標準對檔案資源本體知識庫實施可靠存儲。通過發(fā)揮OFD標準在持續(xù)可解釋、顯示一致性、可轉換性等方面的優(yōu)勢,使檔案資源本體知識庫獲得一種良好的存儲環(huán)境,發(fā)揮其應有作用。
3.4對檔案資源協(xié)同過濾機制充分支持
個性化推薦是實現(xiàn)檔案資源智慧檢索的重要支持機制之一,協(xié)同過濾是實現(xiàn)個性化推薦的核心機制。為實現(xiàn)檔案資源協(xié)同過濾,需要收集存儲檔案用戶對檔案資源的評價反饋數(shù)據(jù)、檔案用戶自身屬性數(shù)據(jù)、檔案資源利用行為數(shù)據(jù)等。這些數(shù)據(jù)應與檔案資源數(shù)據(jù)化成果密切結合,有效驅(qū)動檔案智慧檢索系統(tǒng)的運作。因此,對檔案資源協(xié)同過濾支持數(shù)據(jù)的有效存儲和可用性保障可作為OFD文檔的一項應用。
OFD文檔標準是基于XML實現(xiàn)的,具有較強的描述結構化數(shù)據(jù)的能力。而協(xié)同過濾支持數(shù)據(jù)在概念模型層面往往是矩陣的形式,在邏輯存儲層面則可采用結構化數(shù)據(jù)結構。因此,應用OFD標準對協(xié)同過濾支持數(shù)據(jù)進行存儲是較為可行的。也就是將協(xié)同過濾支持數(shù)據(jù)作為若干獨立的OFD文檔進行歸檔存儲。該方式可較大程度上發(fā)揮OFD標準的優(yōu)勢,實現(xiàn)檔案資源協(xié)同過濾平穩(wěn)有效運行。
與將協(xié)同過濾支持數(shù)據(jù)嵌入檔案資源本身存儲相比,將協(xié)同過濾支持數(shù)據(jù)作為若干獨立的OFD文檔進行歸檔存儲有諸多優(yōu)點。例如檔案用戶評分反饋數(shù)據(jù)可獨立作為一系列OFD文檔存在,從而實現(xiàn)矩陣計算等方面的快速調(diào)用與運算,無需每次都調(diào)用檔案資源本身對應的各個OFD文檔。而檔案用戶屬性等數(shù)據(jù)作為獨立的OFD存儲,則有利于避免數(shù)據(jù)冗余與數(shù)據(jù)不一致等問題的出現(xiàn)。
3.5對檔案資源跨界獲取數(shù)據(jù)交換充分支持
應充分發(fā)揮OFD標準在安全性、兼容性等方面的優(yōu)勢,促進檔案資源數(shù)據(jù)化成果的遠程跨界交換共享的實現(xiàn)。
檔案資源的跨界獲取完備主要可分為兩類應用場景:一是事務辦理類,二是興趣研究類。前者要求檔案資源在事務所涉及的組織機構之間能夠?qū)崿F(xiàn)交換共享,后者要求與研究主題相關的檔案資源能夠打破物理位置限制而實現(xiàn)交換共享。當前應充分利用OFD標準推進實現(xiàn)這兩類場景檔案資源的跨界獲取交換。
由于OFD格式基于業(yè)界主流的“XML描述+ZIP打包”模式,因此OFD標準產(chǎn)品從其內(nèi)在機制上就較為適合實現(xiàn)數(shù)據(jù)化檔案資源的遠程跨界交換。一方面,XML是各種應用程序之間進行數(shù)據(jù)傳輸?shù)淖畛S玫墓ぞ?,為異構平臺間交換數(shù)據(jù)提供了良好的描述能力。另一方面,ZIP打包支持諸如ASIP、TSIP、AIP、DIP等信息包交換,易于實現(xiàn)數(shù)據(jù)化檔案資源的跨界共享。此外,OFD標準支持以數(shù)字簽名等方式進行數(shù)據(jù)交換過程中的安全認證,在數(shù)據(jù)交換安全性方面有較好保障。在以OFD標準存儲檔案資源數(shù)據(jù)化成果的基礎上,應進一步開發(fā)OFD文檔跨界交換應用軟件,制定相應數(shù)據(jù)交換規(guī)章制度,實現(xiàn)四重境界的建設目標。
4總結
OFD當前是一個主標準,解決了數(shù)據(jù)存儲、壓縮、位置等問題,但其相關標準族尚待研究完善。這不僅是一個圍繞OFD的技術問題,更是對于檔案資源數(shù)據(jù)化拓展與深化認識的問題。只有全面深刻認識檔案資源數(shù)據(jù)化、以數(shù)據(jù)化實踐拓展OFD應用領域,才能形成建立在實際需求之上的完善標準體系。
為此本文基于OFD標準提出若干檔案資源數(shù)據(jù)化實現(xiàn)策略,對于拓展OFD標準應用、推動檔案資源數(shù)據(jù)化工程具有積極意義。
*本文系中國高等教育學會檔案工作分會研究課題“‘互聯(lián)網(wǎng)+’時代高校檔案館發(fā)展研究”(項目編號:ZGD-Y-2018-05)階段性研究成果。
注釋與參考文獻
[1]田偉,韓海濤.基于“四重境界”的“互聯(lián)網(wǎng)+檔案”建設策略研究[J].檔案學研究, 2019(3):55-61.
[2][7]王姝,徐華,王少康.OFD版式文檔應用研究[J].檔案學研究,2019(1):95-100.
[3]高林,李海波,叢培勇,王寒冰.OFD版式文檔國家標準解讀[J].信息技術與標準化,2016(10):42-44.
[4]周楓,呂東偉,鄧晶京,黃麗萍,駱建珍.OFD格式在檔案領域的應用初探[J].檔案管理,2018(4):35-37.
[5]郭曉云.國家版式文檔格式規(guī)范(OFD)標準[J].蘭臺世界,2018(3):33-36+12.
[6]梁凱.檔案部門應用OFD格式的若干思考[J].浙江檔案,2017(1):64.