程媛媛
檔案局2012年以令的形式發(fā)布了《電子檔案移交與接收辦法》,根據(jù)媒體報(bào)道和筆者調(diào)研掌握的情況,各地電子檔案收集的格式主要以圖片格式為主,文本格式為輔。眾所周知,圖片格式的電子文件較文本格式雖更具有不可更改性,但因受自身格式的限制,只能通過題名進(jìn)行檢索,不能實(shí)現(xiàn)全文查詢,這樣就會(huì)影響電子檔案的查全率和查準(zhǔn)率,也與檔案數(shù)字化的初衷大相徑庭。而文本格式的電子文件雖然可以實(shí)現(xiàn)較為全面的全文檢索,但其易于更改的屬性又與電子檔案管理保持原貌、保證安全的要求相違背。因此,多數(shù)檔案部門往往從“確保原生電子公文的真實(shí)性、有效性、安全性”的角度出發(fā),而“棄文從圖”,要求“將原生電子公文以統(tǒng)一的數(shù)據(jù)格式(PDF格式)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,實(shí)行集中管理”。筆者認(rèn)為,做好原生電子檔案的移交接收工作,必須注重規(guī)范其格式,應(yīng)結(jié)合二者的優(yōu)點(diǎn),將收集到的“文”和“圖”,形成雙層PDF格式文件,使得兩種單一的電子文件轉(zhuǎn)化成“圖文并茂”的形式,達(dá)到既能實(shí)現(xiàn)全文檢索又能維持檔案原貌的效果。
實(shí)踐發(fā)現(xiàn),如未同時(shí)收集文本電子文件而僅收集圖片電子文件,制作雙層PDF的方法雖然簡(jiǎn)單,但實(shí)際操作卻較為繁瑣。下面,我們介紹一種制作雙層PDF格式電子文件的具體步驟:
1.掃描一頁文檔,命名為1.tif。
OCR識(shí)別軟件,從圖片中讀取文件1.tif。
3.點(diǎn)擊左上方菜單欄中的“識(shí)別”選項(xiàng)(圖1)。
4.得到識(shí)別后的結(jié)果(圖2)。左側(cè)紅色方框?yàn)閽呙鑸D片,右側(cè)紅色圓框?yàn)樽R(shí)別后文本。對(duì)文本進(jìn)行校對(duì)、
修改后,點(diǎn)擊左上方菜單欄中的“WORD”選項(xiàng)。得到WORD格式的文本文件,保存并命名為2.doc。?????????????????????????????5.使用WORD2007軟件,打開2.doc。點(diǎn)擊“插入”,選擇“圖片”選項(xiàng),將1.tif?插入2.doc。
6.選擇“格式”,點(diǎn)擊“位置”、“其他布局”選項(xiàng)。選擇“襯于文字下方”,確定。即得到初始的雙層文件(圖3)。此時(shí)文本與圖片未一一對(duì)應(yīng),因此能看到兩層。
7.將圖片調(diào)整至標(biāo)準(zhǔn)頁面大小,進(jìn)行文字排版,使其與圖片內(nèi)容排版一致(圖4)。注意:此項(xiàng)是制作的關(guān)鍵,調(diào)整應(yīng)選擇微調(diào),確?!皥D”“文”上下一一對(duì)應(yīng)。
8.選擇“文件”中的“另存為”選項(xiàng),再點(diǎn)擊“PDF或XPS”格式(圖5)。即得到雙層PDF格式文件。
以上操作方法雖然步驟簡(jiǎn)便,但真正做起來卻較為繁瑣,尤其是第7項(xiàng)的“‘圖‘文上下一一對(duì)應(yīng)”。通過實(shí)踐,筆者用一臺(tái)
已使用5年的Avision?AW6300掃描A4幅面1頁dpi為200點(diǎn)的文件,僅需要6秒,但后期進(jìn)行OCR轉(zhuǎn)換、校對(duì)、圖文對(duì)應(yīng)排版等步驟卻用了近3個(gè)小時(shí),其工作量之大可見一斑。(當(dāng)然,現(xiàn)在市場(chǎng)上有很多專業(yè)的雙層PDF文件加工系統(tǒng),使用起來會(huì)相對(duì)便捷。)
因此,筆者認(rèn)為在接收電子檔案時(shí)如果能夠同時(shí)接收其“圖”“文”兩種格式,會(huì)給檔案館日后的工作帶來巨大的便捷,接收電子文件格式的優(yōu)先等級(jí)應(yīng)為:“圖”+“文”>“文”>“圖”。
一、“圖文并收”的注意事項(xiàng)
圖文并收”即同時(shí)收集電子文件的“圖”格式和“文”格式。需要注意的是,“文”格式應(yīng)為定稿的文本格式(圖6),“圖”格式應(yīng)為其對(duì)外公布文件的圖片格式(圖7),且兩種格式的電子文件排版格式必須一一對(duì)應(yīng),可上下重疊,便于雙層PDF的直接應(yīng)用。
二、收集“文”格式的注意事項(xiàng)
收集“文”格式電子文件必須注意其易于更改的特點(diǎn)。下面,我們以WORD2007為例,介紹接收中便于保持電子文件原貌的具體步驟:
1.打開一個(gè)WORD文檔1.doc。選擇“審閱”、?“保護(hù)文檔”選項(xiàng)(圖8),再選擇“限制格式和編輯”。
2.選擇“僅允許在文檔中進(jìn)行此類編輯”和“不允許任何更改(只讀)”后,點(diǎn)擊“是,啟動(dòng)強(qiáng)制保護(hù)”(圖9)。
3.輸入密碼,確定,存盤(圖10)。
此時(shí),文檔已改為只讀模式,可以避免誤更改等現(xiàn)象發(fā)生。
三、收集“圖”格式的注意事項(xiàng)
收集“圖”格式電子文件的目的,一是直接用于利用,二是將“圖”通過OCR轉(zhuǎn)化成“文”后,通過“圖文并存”,達(dá)到“圖文并用”。但無論是哪一種用途,它都會(huì)受到掃描分辨率——DPI(每英寸的像素?cái)?shù))的影響。因此,在收集“圖”格式時(shí)我們必須注意——OCR轉(zhuǎn)換的正確率不以高分辨率做基礎(chǔ)。
國(guó)家檔案局在《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》中指出“需要進(jìn)行OCR漢字識(shí)別的檔案,掃描分辨率建議選擇≥200dpi”。部分檔案部門在掃描電子檔案時(shí),往往要求掃描數(shù)據(jù)的高分辨率,個(gè)別有甚者竟然要求達(dá)到600dpi。這樣做一是占用了過大的空間,二是掃描的“圖”轉(zhuǎn)化為“文”時(shí),其識(shí)別率和正確率反而不是最佳。因此,筆者建議接收“圖”文件時(shí),必須根據(jù)具體情況對(duì)其DPI值進(jìn)行規(guī)范,不求“最高”,只求“最佳”。
以下統(tǒng)計(jì)數(shù)據(jù),是以Color?Take?7730掃描儀為例,對(duì)同一段文本以不同的分辨率進(jìn)行掃描,然后用蒙恬識(shí)別王1.60版本的OCR軟件進(jìn)行漢字識(shí)別所得到的。
通過上表,我們可以清楚看出,分辨率在50dpi~200dpi時(shí),OCR的識(shí)別錯(cuò)誤率呈遞減趨勢(shì),但文件長(zhǎng)度卻翻倍擴(kuò)大;分辨率≥200dpi后,識(shí)別錯(cuò)誤率不穩(wěn)定上升,但文件長(zhǎng)度卻以更高速度翻倍增長(zhǎng)?!袄硐氲腛CR識(shí)別率和文件長(zhǎng)度較小的掃描分辨率”是我們應(yīng)該追求的目標(biāo)。通過上述實(shí)驗(yàn)我們可以看出200dpi是這臺(tái)機(jī)器的最佳分辨率。當(dāng)然以上僅為個(gè)例,掃描分辨率還會(huì)受掃描儀新舊、功能設(shè)置、掃描對(duì)象情況等一系列具體因素影響。但可以明確的是,電子文件進(jìn)行OCR轉(zhuǎn)換時(shí)可以通過測(cè)試選擇其最佳掃描分辨率,為“增量檔案電子化”把好關(guān)口。
(作者單位:河南省焦作市檔案局???來稿日期:2015-04-17)