王凡 秦茜 梅涵
摘 要:隨著信息技術(shù)的發(fā)展,檔案載體正面臨更新?lián)Q代的重要時(shí)刻,海量電子文件與檔案的涌現(xiàn)對檔案管理工作方式產(chǎn)生了巨大影響,檔案保管、保護(hù)、利用的理念及對象、體制和工作方式等都將經(jīng)歷重大變革。本文針對海河水利委員會(huì)近年開展的檔案數(shù)字化工作進(jìn)行了細(xì)致研究,并對數(shù)字化加工和文字識(shí)別業(yè)務(wù)范疇內(nèi)的各個(gè)流程細(xì)節(jié)及要求進(jìn)行了分析。
關(guān)鍵詞:數(shù)字化;圖像處理;文字識(shí)別
2006年12月27日,經(jīng)國家發(fā)展和改革委員會(huì)審核同意,《檔案事業(yè)發(fā)展“十一五”規(guī)劃》(以下簡稱“《規(guī)劃》”)正式施行?!兑?guī)劃》明確提出了“十一五”期間,檔案信息化建設(shè)是檔案事業(yè)的八項(xiàng)主要任務(wù)之一。在此期間,海河水利委員會(huì)(以下簡稱“海委”)信息化進(jìn)程的加快,使得信息資源成為了海委水利工作中愈發(fā)重要的戰(zhàn)略資源,信息資源的開發(fā)利用工作也成為實(shí)現(xiàn)海委水利工作全面、協(xié)調(diào)、可持續(xù)發(fā)展的重要途徑。檔案作為基礎(chǔ)性信息資源,是海委信息資源不可或缺的重要組成部分。隨著計(jì)算機(jī)信息技術(shù)、掃描技術(shù)、OCR技術(shù)、數(shù)字?jǐn)z影(錄音、錄像)技術(shù)、多媒體技術(shù)、數(shù)字存儲(chǔ)技術(shù)的發(fā)展而產(chǎn)生的檔案數(shù)字化工作就成為了適應(yīng)這種變革的主要措施。
1 檔案數(shù)字化
1.1 原則
在檔案數(shù)字化加工過程中,要堅(jiān)持和貫徹以下原則:實(shí)施規(guī)范、分類細(xì)致、利用便捷。
1.1.1實(shí)施規(guī)范
檔案數(shù)字化加工由始至終必須嚴(yán)格遵循國家相關(guān)規(guī)程規(guī)范,參照的規(guī)程規(guī)范主要包括:《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(DA/T 31—2005)、《連續(xù)色調(diào)靜態(tài)圖像的數(shù)字壓縮及編碼》(GB/T 17235.1-1998)、《電子文件歸檔與管理規(guī)范》(GB/T 18894-2002)、《檔案著錄規(guī)則》(DA/T18-1999)等。
1.1.2分類細(xì)致
細(xì)致的分類是檔案數(shù)字化加工的關(guān)鍵,要以完整的數(shù)據(jù)備份、存儲(chǔ)方案、檔案安全保管為前提,在切實(shí)保證檔案和數(shù)據(jù)完整、準(zhǔn)確、系統(tǒng)、安全的基礎(chǔ)上,根據(jù)檔案的類別、保管期限、密級、載體類型等因素,將正文、附件、審批單等分別采用不同的操作方式進(jìn)行加工。
1.1.3利用便捷
檔案數(shù)字化的目的是為了更高效、便捷地利用檔案,這就需要在檔案數(shù)據(jù)錄入管理系統(tǒng)后建立健全的索引機(jī)制,實(shí)現(xiàn)千萬量級數(shù)據(jù)資源的快速搜索,從而保證檔案信息的系統(tǒng)搜索、查閱和利用,更好地為海河水利事業(yè)服務(wù)。
1.2 流程
檔案數(shù)字化加工流程由以下主要步驟組成:從檔案館提取案卷,同時(shí)記錄提卷內(nèi)容,接著拆卷、去污、平整化;根據(jù)檔案紙張大小和厚薄不同選擇不同型號(hào)的掃描儀,較為規(guī)整的紙張選擇快速掃描儀,較薄、較厚和不規(guī)整的紙張選擇平板掃描儀;按照檔案管理系統(tǒng)的著錄項(xiàng),將標(biāo)題、責(zé)任者、歸檔時(shí)間、檔號(hào)等各種檔案信息錄入管理系統(tǒng)中;對照原始檔案進(jìn)行自檢,對錄入數(shù)據(jù)進(jìn)行兩次以上的人工校對,對掃描圖像進(jìn)行橫向和縱向校對;校對合格后在檔案管理系統(tǒng)中進(jìn)行質(zhì)檢,對圖像與文字的匹配程度和圖像在系統(tǒng)中的閱讀效果進(jìn)行再次檢驗(yàn),不合格的重新處理;按照檔案整理規(guī)范對檔案進(jìn)行整理還原,對檔案進(jìn)行數(shù)量檢驗(yàn),對卷目內(nèi)容與標(biāo)題的對應(yīng)進(jìn)行檢查,整理打印目錄和案卷封面并裝訂;將通過檢驗(yàn)后的成品電子檔案數(shù)據(jù)存儲(chǔ)于硬盤介質(zhì),并刻錄2套DVD光盤,編制盤號(hào)及光盤內(nèi)容等著錄信息作為電子檔案存檔;最后將原始檔案及時(shí)交還,如有檔案損毀或丟失,應(yīng)承擔(dān)相應(yīng)的法律責(zé)任。
1.3 管理
檔案數(shù)字化的管理工作主要包括過程、安全和細(xì)節(jié)管理三方面。過程管理關(guān)鍵在于完善保密與監(jiān)管機(jī)制,安全管理的關(guān)鍵是要以保障電子檔案數(shù)據(jù)的安全為最終目的,細(xì)節(jié)管理則是要重視每個(gè)關(guān)鍵節(jié)點(diǎn)的技術(shù)要求。
1.3.1過程管理
檔案數(shù)字化的過程管理要求建立健全各環(huán)節(jié)的安全保密機(jī)制,以確保檔案原件和檔案信息的安全。同時(shí)要對數(shù)字化的各個(gè)環(huán)節(jié)進(jìn)行詳細(xì)登記,并及時(shí)整理、匯總、裝訂成冊,建立完整、規(guī)范的加工記錄。
1.3.2安全管理
檔案數(shù)字化的安全管理必須嚴(yán)格遵守國家有關(guān)保密法律、法規(guī)及制度,應(yīng)采取措施加強(qiáng)實(shí)體檔案和電子檔案數(shù)據(jù)的絕對安全。要嚴(yán)格執(zhí)行“分級管理”的原則,當(dāng)檔案的密級為“公開”時(shí),進(jìn)行全文掃描和信息條目錄入;當(dāng)檔案的密級為“機(jī)密、秘密、絕密”時(shí),原文不進(jìn)行掃描,只進(jìn)行信息條目錄入。
1.3.3細(xì)節(jié)管理
檔案數(shù)字化的細(xì)節(jié)管理應(yīng)注重圖像清晰度、檔案整理裝訂、掃描處理、圖像加工、存儲(chǔ)及管理系統(tǒng)銜接等幾方面的技術(shù)要點(diǎn)。
1.圖像清晰度方面:要特別注意以下檔案文件(或部分)必須清晰:各種檔案中的紅、藍(lán)色印章信息;各種手寫、復(fù)寫信息;字體小且字跡較模糊的圖紙;歷史時(shí)期較長的檔案;其它因紙張、字跡等因素不清晰的文件。
2.整理裝訂方面:掃描前通過分類、排序、編寫頁碼、平整、去釘、裱補(bǔ)、蓋章、標(biāo)注等工序環(huán)節(jié)保證檔案掃描時(shí)的質(zhì)量,掃描完成后按規(guī)范裝訂立卷、裝盒,保證檔案無遺漏。整理裝訂標(biāo)準(zhǔn)為:根據(jù)要求確定掃描和掛接范圍,區(qū)分檔案中的掃描卷和不掃描卷、同一案卷中的掃描件和非掃描件;非掃描檔案及同一案卷中非掃描部分應(yīng)在非掃描檔案登記總帳中填寫清楚;掃描前需要對檔案進(jìn)行核實(shí),查看有無缺頁現(xiàn)象;案卷拆分應(yīng)注意保護(hù)原件,破損嚴(yán)重、無法進(jìn)行掃描的原件要先進(jìn)行修復(fù),折皺不平影響掃描質(zhì)量的原件應(yīng)先采取措施壓平后再進(jìn)行掃描;按要求裝訂檔案,確保不漏頁、掉頁錯(cuò)頁,不壓字,裝訂牢固。
3.掃描處理方面:通過掃描將以紙介質(zhì)為載體的檔案文件轉(zhuǎn)變?yōu)殡娮訖n案數(shù)據(jù),掃描方式為:對于用黑白二值掃描無法正確反映其上彩色信息的檔案,應(yīng)使用彩色掃描;對于使用黑白二值掃描不能獲得清晰圖像的檔案,可使用灰度掃描;對于上述情況外的大部分檔案,應(yīng)使用黑白二值掃描。要求掃描采用多頁TIFF格式存儲(chǔ)。掃描像素均應(yīng)不低于300dpi,可根據(jù)實(shí)際情況調(diào)整分辨率及其他相關(guān)參數(shù),做到圖像清晰,存量適中。掃描好的電子原文應(yīng)以“年度-保管期限-案卷號(hào)”方式命名。endprint
4.圖像加工方面:為確保每一幅掃描圖像的清晰、不失真,不允許采用批量圖像處理方法,需采用手工的圖像旋轉(zhuǎn)、糾斜、剪邊、線型彎曲校正、文字變形校正、中縫刪除、影像對中等處理。圖像處理后必須保證圖像信息與原文內(nèi)容完全一致,不得刪除頁面任何有用信息,包括正文內(nèi)容、頁眉、頁腳、手寫注釋和印鑒等。
5.存儲(chǔ)及管理系統(tǒng)銜接:經(jīng)過數(shù)字化加工后形成的電子檔案圖像及其屬性信息應(yīng)分別提交1套硬盤存儲(chǔ)和2套光盤存儲(chǔ)。光盤應(yīng)采用正版知名品牌的單片包裝盒盤片;盤盒包裝應(yīng)標(biāo)注目錄、編號(hào)等信息,檔案的同一卷文件,不得跨越兩片光盤。成品電子檔案數(shù)據(jù),須完全符合檔案系統(tǒng)的業(yè)務(wù)和技術(shù)要求,做到與系統(tǒng)的無縫銜接。
2 檔案文字識(shí)別
2.1 鑒定要求
僅對正式文件(及收發(fā)公文、公函)進(jìn)行文字識(shí)別,須嚴(yán)格比照電子檔案原文進(jìn)行鑒定。
2.2 識(shí)別要求
為確保文字識(shí)別后的電子文本顯示結(jié)果與檔案原件內(nèi)容一致,特別應(yīng)注意以下檔案文件(或部分)必須準(zhǔn)確無誤:各種檔案中的紅、黑色標(biāo)題;檔案正文中的主要單位名稱、行政條例、法令法規(guī)、人名;字體小且字跡較模糊的復(fù)印檔案;歷史時(shí)期較長的檔案;因紙張、字跡等因素不清晰的其他文件。
2.3 過程性要求
1.電子檔案檢查:對經(jīng)過鑒定、需進(jìn)行文字識(shí)別的電子檔案原件進(jìn)行漏頁、傾斜、清晰度檢查,查看文件內(nèi)容是否完整。對有問題的檔案須核對紙質(zhì)原件,做到準(zhǔn)確無誤。
2.文字識(shí)別工程的建立與自動(dòng)識(shí)別:每個(gè)多頁TIFF建立一個(gè)單獨(dú)的工程文件,檢查文件頁碼前后順序。
3.手動(dòng)校對:自動(dòng)識(shí)別好的txt工程文件,須進(jìn)行逐行逐字的二次校對,著重查看字形相近的、原始資料本身模糊的、平時(shí)少見的生僻字。
4.質(zhì)量檢查:質(zhì)檢人員要對手動(dòng)校對完的文件進(jìn)行再次全面檢查。
5.保存方式:對質(zhì)檢合格的文件保存一份txt文本格式文件。
3 結(jié)束語
檔案數(shù)字化加工是一項(xiàng)長期而艱巨的系統(tǒng)性工作,必須加快海委檔案信息資源的數(shù)字化進(jìn)程,積極開發(fā)檔案信息資源,促進(jìn)海委檔案信息化建設(shè),不斷滿足信息時(shí)代發(fā)展對檔案利用提出的新需求,把海河檔案館建設(shè)成為能夠便捷獲取海河流域各類信息資源的綜合型數(shù)字平臺(tái)。endprint