◇四川音樂學院檔案館 徐一男
四川大學圖書館 李 禾
在檔案數(shù)字化外包中,存在“基于前端監(jiān)管”“全程監(jiān)控方式”“關鍵時刻監(jiān)控”等多元質(zhì)量管理策略,但這些方式研究目標大多集中于外包環(huán)節(jié)本身,而未從不同的風險入手探索適應性的策略。為此,本文通過深入分析檔案外包過程中各環(huán)節(jié)所面臨的風險型態(tài),并針對性的提出多元化的數(shù)字化外包動態(tài)質(zhì)量管理策略,以期對從事檔案數(shù)字化質(zhì)量管理研究的工作,提供一定的借鑒和參考。
今天,信息內(nèi)涵與形態(tài)日益的多元化,加速推動了資源的整合利用。檔案作為文獻信息資源中不可或缺的組成部分,其科學化管理和利用受到長期關注。新媒體、大數(shù)據(jù)挖掘、區(qū)塊鏈技術等紛至沓來的新技術理念,給檔案事業(yè)發(fā)展注入了持久性動力的同時,如何高效完成大量紙本檔案數(shù)字化轉(zhuǎn)型,已成為未來發(fā)展的重中之重。
檔案數(shù)字化通常采用自主數(shù)字化或數(shù)字化外包模式。許多檔案管理單位面臨設備缺乏、技術力量不足等外部問題,最終選擇了外包模式。據(jù)案例顯示,該模式在具有極大便利性的同時,也有諸多影響其質(zhì)量的風險存在。而現(xiàn)階段大多數(shù)質(zhì)量管控模式,尚未能就過程多環(huán)節(jié)間深度關聯(lián)性,提出普適性動態(tài)質(zhì)量監(jiān)控策略。本文嘗試以檔案信息生存周期為基礎,探索檔案數(shù)字化外包中規(guī)避風險,提升質(zhì)量的智慧化管控途徑。
傳統(tǒng)紙質(zhì)檔案管理中,中外檔案學者提出了前端控制理念,即控制文件形成的源頭,以保證檔案的質(zhì)量,而當電子檔案廣泛被應用后,該理論也常被用于數(shù)字化質(zhì)量管理。加拿大檔案學者特里·庫克也指出:在電子文件時代,由于傳統(tǒng)的文件概念和物質(zhì)形態(tài)已經(jīng)不復存在、待鑒定的文件數(shù)量龐大,必須在文件產(chǎn)生之前系統(tǒng)涉及階段完成對電子文件的鑒定[1]。此外,全程管理的理念貫穿于文件生命周期的各個階段。
近年來,檔案數(shù)字化外包中所產(chǎn)生的諸多問題,逐漸被業(yè)界所關注。目前,國內(nèi)外研究成果較多從基本性質(zhì)、可行性、必要性以及外包風險等方面展開分析,而對質(zhì)量管理的研究相對較少。截止到2018年,針對質(zhì)量管理策略、關鍵點、辦法以及路徑等多個維度的研究成果共13篇。其中,魏振國建議從檔案數(shù)字化的標準體系入手,提出了通過外部因素管理來實現(xiàn)外包風險管控[2];羅娟、盧秀英等從不同方面,提出了關鍵階段控制的思路[3-4];鐘國文、童霞等試圖從整體上提出了深入分析自身情況,在全程中堅持責權分明、加強制度管理等,盡可能從規(guī)范、標準角度對數(shù)字化外包質(zhì)量進行管理[5];而郄紅巖則通過對檔案數(shù)字化過程中的質(zhì)量控制問題的分析,提出了全程控制、前端控制及動態(tài)控制等原則[6]。
綜上,既往研究者嘗試從多種途徑出發(fā)去解決存在諸多質(zhì)量問題。然而,由于缺乏對外包過程中多種風險因素的深層次分析,許多策略流于淺表。關鍵時刻、關鍵階段等思路在關注細節(jié)因素影響的同時,卻忽略了過程整體性,尤其對外包多元風險之間的關聯(lián)性認識不足。為此,本文通過對檔案外包的數(shù)字化前期(規(guī)則制定、基礎鑒定、檔案整理),數(shù)字過程(調(diào)卷、數(shù)字化加工)及收尾期(還卷、掛接)等多環(huán)節(jié)過程中各類風險的歸類與深入分析,提供了針對性優(yōu)化方案和策略。
各級檔案館或其他檔案收藏機構,存在服務職能、屬性及范圍等多維度的差異,其對檔案數(shù)字化的外包策略、實施途徑、數(shù)字化目標、個性化需求以及數(shù)字化流程等諸方面造成動態(tài)影響。當前的檔案數(shù)字化外包缺乏更具普適性的標準和權威性界定,按照通常經(jīng)驗,大致包含了數(shù)字化前期準備、數(shù)字化過程以及數(shù)字化收尾三個部分。
如圖1所示,檔案數(shù)字化前期是指數(shù)字化加工前的準備期。包括規(guī)則制定、基礎鑒定、檔案整理等工作內(nèi)容?;A鑒定部分是指對特定檔案加以管控,由劃控鑒定、開放鑒定組成。劃控鑒定是指檔案機構依據(jù)相關法令和規(guī)章,對館藏檔案在可接觸人群、可傳播范圍、使用目的、開發(fā)形式等方面加以嚴謹劃分和清晰界定的一項工作,目的是保障含有敏感或涉密信息的檔案安全可控[7]。開放鑒定需要系統(tǒng)梳理所屬檔案,剔除過于陳舊、破損嚴重、失效檔案,并根據(jù)自身人力、資金、時間、利用率高低及影響面寬窄等因素,挑選出適宜數(shù)字化的檔案集合,其涉及行政管理、公共管理、專業(yè)技術、知識產(chǎn)權、法律關系、信息安全等,需要由多部門協(xié)同合作完成[8]。
圖1 檔案數(shù)字化外包流程
規(guī)則制定是指全過程中操作規(guī)范、服務協(xié)議及數(shù)據(jù)標準的確立。操作規(guī)范是指檔案的交接、使用規(guī)則,如調(diào)卷手續(xù)等。服務協(xié)議是指外包中需要遵循的原則和制度,如記錄數(shù)字化紙質(zhì)檔案的細節(jié)(卷名、頁碼、標題及內(nèi)容描述等)。數(shù)據(jù)標準是指檔案數(shù)字化元格式、著錄標準等。
檔案整理是指數(shù)字化加工前對紙質(zhì)檔案的清理與核查。主要針對紙質(zhì)檔案的卷頁碼混亂、缺頁、頁面模糊、污跡及破損程度等問題,并完成適當處理。
如圖2所示,檔案數(shù)字化過程是利用掃描技術、數(shù)字成像技術、多媒體技術將選定紙質(zhì)檔案轉(zhuǎn)換成為數(shù)字化信息資源,并對其進行標引的加工過程,即調(diào)卷、加工、著錄。而檔案數(shù)字化收尾則包括掛接數(shù)據(jù)庫及歸還紙質(zhì)檔案的過程。
圖2 檔案數(shù)字化外包環(huán)節(jié)中的風險類型
這三部分并非獨立過程,而其環(huán)節(jié)間存在密切關聯(lián)性,如組織機制的影響貫穿了整個數(shù)字化流程,對操作規(guī)范及數(shù)據(jù)標準等進行了界定;紙質(zhì)檔案整理效果直接影響數(shù)字化的實施質(zhì)量,不良預處理必然導致數(shù)字化結(jié)果存在多種問題。
在檔案數(shù)字化外包中,根據(jù)屬性和產(chǎn)生機制不同,數(shù)字檔案質(zhì)量受到實體、環(huán)境、組織機制及系統(tǒng)四個方面[9]的風險影響。
實體風險包括紙質(zhì)檔案在調(diào)用、歸還、審閱等交接環(huán)節(jié)中,人為因素所造成損壞、遺失、混亂以及頁面污染等情況。
環(huán)境風險是指在數(shù)字加工中,物質(zhì)因素(如設備、技術及網(wǎng)絡環(huán)境等)所隱藏固有不足或漏洞,會對最終質(zhì)量造成影響。
規(guī)則風險是指因協(xié)議標準存在缺失或?qū)嵤┲羞`規(guī)操作造成檔案遺漏掃描、目錄著錄錯誤、關聯(lián)錯誤、顯示有誤、元數(shù)據(jù)丟失等問題[9]。
系統(tǒng)風險是指在數(shù)字化加工中,因非特定風險產(chǎn)生的、偶然性質(zhì)量下降風險,如掃描中圖像歪斜、污染、字跡洇透、拼接缺損以及模糊等偶然性失真;偶然性著錄誤差等。
如圖2所示,在外包過程中,檔案管理方通常存在實體、規(guī)則等風險,而外包方則通常存在規(guī)則和環(huán)境等風險。其中,雙方需共同面對風險是規(guī)則風險、實體風險,與之相對應的是制定標準、調(diào)卷、還卷等環(huán)節(jié)。而系統(tǒng)風險僅存在于外包方數(shù)字化加工環(huán)節(jié)中。
針對上述風險,只有建立科學化的、動態(tài)關聯(lián)的質(zhì)量管理模式及依靠可信溝通渠道,才能加以規(guī)避,實現(xiàn)檔案數(shù)字化質(zhì)量的控制和監(jiān)管。
當前對檔案數(shù)字化的監(jiān)管策略,通常還是采用一定數(shù)量的抽查和分析。然而,該方式依然存在諸多不便。當數(shù)字化量較大時,如抽查量大,其工作量依然較大,性價比較差。而抽查量不足時,又帶來了漏檢的風險。比較理想的方式是進行一一檢查,但顯然該方式需要花費時間和人力的巨大代價。為此,我們思考能否通過對一些策略,精準定位到卷面問題,從而降低質(zhì)量管理的成本。
如前所述,實體風險、環(huán)境風險以及系統(tǒng)風險等因人工、設備或其他因素的不穩(wěn)定性所產(chǎn)生的一系列疏漏。實際上,要完全杜絕上述因素中的各類細小問題,難度很大,但通過一定的措施和策略進行干預,可降低其中可控因素部分的風險。其具體內(nèi)容包括:在嚴格遵循《紙質(zhì)檔案數(shù)字化技術規(guī)范》DA/T31-2005等各類相關標準制度的基礎上,針對數(shù)字化過程中的不同環(huán)節(jié),制定嚴格管理辦法,實行專人負責責任制。如嚴格執(zhí)行《文件傳遞管理辦法》,包含基礎鑒定、檔案整理等環(huán)節(jié)中的文件傳遞制度?!稊?shù)字化設備管理辦法》則要求負責參與數(shù)字化實施過程的人員,定期監(jiān)控網(wǎng)絡、設備的運行情況,如有異常立即上報,并督促數(shù)字化實施單位及時解決。通過一系列嚴格的規(guī)章和制度,實現(xiàn)對各環(huán)節(jié)可控因素的管理。另外.要求實施單位制定突發(fā)事件緊急預案,針對數(shù)字化過程中可能出現(xiàn)的問題提出解決方案。
如上所述,嚴格制度管理可以進一步加強對可控因素產(chǎn)生的風險誤差的管理。而對于過程中所產(chǎn)生的偶然性風險誤差,如前文所提到的偶然性失真,可針對前期、中期和結(jié)尾等不同階段的工作,采取內(nèi)容標注的方式進行管理。
(1)檔案數(shù)字化前期內(nèi)容標注。管理數(shù)字化前期的內(nèi)容,可采取內(nèi)容的標注方式:將待數(shù)字化檔案卷宗文件所屬檔案頁的集合記為A。鑒定前,按檔案頁的原順序標注序號記為。根據(jù)頁面評級標準(包括普通檔案信息要件、頁面殘損度以及內(nèi)容等要件),逐頁進行標注。例如:普通基建檔案所有信息要件完備且頁面清潔、無損可計為10分、有折皺扣1分、頁面由污損扣1分(可污損或字跡洇染的程度而定),缺少信息要件扣1分等。通過該方式,對混亂、缺失、皺折及污損等原始檔案中的卷面信息進行量化標注,建立檔案初始信息集合。將整理后的頁面同樣按照評級規(guī)則進行標注(集合包含整個過程中,每個變化過程的卷面評級信息及鑒定人操作信息)。例如:集合為“鑒定”過程后的標注數(shù)據(jù)集。
(2)檔案數(shù)字化過程中內(nèi)容量對比。在紙質(zhì)文檔的數(shù)字化加工中,偶然性風險增加。為改善字體模糊、錯雜、重復等內(nèi)容失真,實現(xiàn)對錯誤地點的精確定位糾錯,同樣可采用人工方式建立標注對照表。通過數(shù)字化加工中不同卷面狀況集合表與的一一對比,查找到問題卷頁。毫無疑問,面對卷帙浩繁的檔案文獻,進行人工逐一標注,具有相當難度。為此可利用信息技術手段,可利用高清攝像采集和圖像技術獲取每頁待數(shù)字化加工的卷面圖像元素,并加上頁面序號組成新表θi和 加工后的圖像表θi+1利用圖像算法進行自動比對,有頁面扭曲、頁面模糊、字體洇染等卷面情況,則自動將信息標注到數(shù)字加工監(jiān)管信息集合。待文件i所有頁面都加工完畢,通過對初始集合和加工后集合的計算:可篩選出存在問題檔案頁集合,從該集合可進一步查看到無法匹配的卷面存在的問題,也可以根據(jù)操作軌跡查找問題責任人,進行后續(xù)處理。上述思路中圖像對比、自動標注及集合運算均有成熟算法可實現(xiàn)自動完成,可極大提升效率,具有較高可操作性,但需要注意的是由于調(diào)卷環(huán)節(jié)實體風險存在,加工中信息元集合可能存在序號不連續(xù)的情況,因此在與進行比對時,缺頁和亂序是需要首先被考慮和處理的。
而對于著錄環(huán)節(jié),則是在相應的數(shù)字化平臺完成,可以通過該數(shù)字化平臺調(diào)取著錄信息,并通過OCR等技術抽取檔案提名等關鍵字信息與之對比,完成相關核查。
(3)檔案數(shù)字化結(jié)尾的監(jiān)管策略。數(shù)字化結(jié)尾的各環(huán)節(jié)中,主要面臨風險的是還卷環(huán)節(jié),其涉及實體風險和規(guī)則風險。它與數(shù)字化加工的結(jié)果無關,為進一步加強監(jiān)管,一方面嚴格執(zhí)行之前建立的制度,另一方面,可將還卷的紙質(zhì)檔案與數(shù)字化前所收集文件頁信息量表進行比較,如出現(xiàn)頁碼缺失、頁面情況變化等,則查找相關責任人進行處理。其具體分析策略與上述相似就不過多贅述。
綜上所述,針對不同的風險形態(tài)采取多元化的方式,有利于尋找更優(yōu)化的實施手段。其中,內(nèi)容標注以量化方式對外包質(zhì)量監(jiān)管,具備了兩方面優(yōu)勢:其一,通過對前后檔案輸出結(jié)果的標注和對比,找出問題,提升檔案收集、整理和歸檔等各環(huán)節(jié)的質(zhì)量。其二,建立完備檔案數(shù)字化過程量化信息,以便發(fā)現(xiàn)普遍性的問題,優(yōu)化后續(xù)材料的數(shù)字化。
檔案數(shù)字化外包作為傳統(tǒng)檔案向多元化管理型態(tài)轉(zhuǎn)化的重要節(jié)點,但從長期以來,除一些外部因素的干擾,其諸多風險也對數(shù)字檔案質(zhì)量造成影響。近年,前端管理、全程管理及關鍵時刻管理等思路都試圖解決數(shù)字化外包中質(zhì)量監(jiān)管的問題,然而,上述思路固有的靜態(tài)化、非關聯(lián)性的質(zhì)量監(jiān)管策略很難從根本上解決質(zhì)量全面的把控,較多涉及淺表性的問題。為此,本文從質(zhì)量管理流程入手,采用標注方式在質(zhì)量監(jiān)管策略方面具有一些創(chuàng)新性,可供類似研究者參考,后續(xù)希望在數(shù)據(jù)實證方面展開更深入的研究。