岳曉峰,李慧穎,孫浩
(國(guó)家海洋信息中心天津 300171)
海洋科研檔案數(shù)字化關(guān)鍵問(wèn)題實(shí)踐
岳曉峰,李慧穎,孫浩
(國(guó)家海洋信息中心天津 300171)
檔案數(shù)字化是推進(jìn)檔案信息化建設(shè)的重要工作之一,科研檔案的復(fù)雜性使其檔案數(shù)字化進(jìn)程中遇到更多的問(wèn)題和難題。以海洋科研檔案為例,研究科研檔案在檔案掃描、數(shù)字化文件存儲(chǔ)、安全防護(hù)等數(shù)字化建設(shè)過(guò)程中遇到的關(guān)鍵問(wèn)題以及經(jīng)過(guò)實(shí)踐和分析得出的實(shí)際解決方法。
科研檔案;數(shù)字化;實(shí)踐
紙質(zhì)檔案數(shù)字化是檔案數(shù)字化的重要組成部分,是將傳統(tǒng)的紙質(zhì)檔案上記載的文字、圖形等內(nèi)容轉(zhuǎn)化成以二進(jìn)制數(shù)字代碼形式記錄的,能為計(jì)算機(jī)網(wǎng)絡(luò)所識(shí)別和表達(dá)的數(shù)字信息的過(guò)程。由于科研檔案產(chǎn)生于調(diào)查、勘查、試驗(yàn)、研究、統(tǒng)計(jì)等多種科研活動(dòng)中,背景比較復(fù)雜,檔案形式多種多樣,紙質(zhì)類(lèi)型“包羅萬(wàn)象”,因此科研檔案數(shù)字化難度相比其他類(lèi)型檔案的難度大,數(shù)字化過(guò)程中面臨的需要解決的問(wèn)題較多。
檔案掃描是檔案數(shù)字化中至關(guān)重要的一個(gè)環(huán)節(jié),掃描質(zhì)量的好壞,直接影響數(shù)字化工程的成敗和數(shù)字化成果的良莠。海洋科研檔案本體情況比較復(fù)雜,制定掃描標(biāo)準(zhǔn)應(yīng)該慎重,并細(xì)化到每個(gè)操作步驟。檔案掃描包括選擇掃描模式和設(shè)置掃描參數(shù)兩個(gè)重要環(huán)節(jié),海洋科研檔案掃描標(biāo)準(zhǔn)主要遵循忠于檔案本體內(nèi)容,保證所有數(shù)字化文件信息與其實(shí)體信息的清晰度、完整度保持一致,至少達(dá)到重要內(nèi)容與原件內(nèi)容一致等原則,根據(jù)每一件檔案實(shí)體紙張狀況、頁(yè)面文字清晰度等情況,并借鑒國(guó)家或其他行業(yè)相關(guān)標(biāo)準(zhǔn)制定。在具體實(shí)施過(guò)程中依據(jù)標(biāo)準(zhǔn)執(zhí)行的同時(shí),結(jié)合數(shù)字化檔案本體具體情況具體分析。
掃描模式有彩色、灰度、黑白3種。彩色掃描模式捕獲的色彩信息最多,掃描效果最佳,但掃描用時(shí)是3種掃描模式中最多的,掃描圖像占用空間也是最大的;灰度掃描模式可較準(zhǔn)確地顯示不同顏色內(nèi)容的色彩差別,掃描圖像的清晰度介于彩色掃描和黑白掃描之間;黑白掃描模式可以捕獲到?jīng)]有絲毫色調(diào)濃淡變化的純黑與純白雙色圖像,其形成的圖像與文檔的照相復(fù)制品相似,原件的亮度、黑度與色彩是無(wú)法通過(guò)黑白掃描反映出來(lái)的,但黑白掃描速度最快,掃描圖像文件最小。
選擇的模式不同,圖像的顯示效果、掃描時(shí)間和圖像存儲(chǔ)所占用空間大小也有所不同。由于海洋科研檔案紙質(zhì)除常見(jiàn)的復(fù)印紙、稿紙外,還有銅版紙、圖紙、機(jī)打紙、相紙等,記載方法有打印字,簽字筆、油筆、鉛筆等手寫(xiě)字,油墨印刷字、手繪圖、照片等,無(wú)論采用哪種單一的模式掃描,都不可能滿(mǎn)足其需求。在實(shí)踐中,掃描時(shí)則根據(jù)不同掃描模式優(yōu)勢(shì)、掃描原則和需求,結(jié)合紙質(zhì)特點(diǎn)、檔案信息內(nèi)容情況選擇不同的掃描模式。在選擇掃描模式時(shí),首先考慮檔案有效內(nèi)容顯示清楚。一般復(fù)印紙、稿紙等普通材質(zhì)且質(zhì)量較好、內(nèi)容比較清晰的黑白文字和圖件等原件采用黑白模式掃描,同樣紙質(zhì)和清晰度的彩色文字、圖件原件、重要手寫(xiě)稿、黑白或彩色照片采用彩色模式掃描,內(nèi)容較不清晰或不清晰的,銅版紙等特殊材質(zhì)、帶色或泛黃的,字跡較不清晰或不清晰的紙質(zhì)檔案均采用彩色模式掃描。其次考慮掃描速度最快化,為提高整個(gè)數(shù)字化加工工作效率,在上述考慮因素的基礎(chǔ)上,海洋科研檔案首選黑白模式掃描,其次是灰度模式掃描,只有在必須選擇彩色模式的情況下采用彩色模式掃描;再則,考慮數(shù)字化環(huán)境和條件,在構(gòu)建海洋科研檔案數(shù)字化硬件環(huán)境時(shí),基于提高掃描速度、加快整體數(shù)字化進(jìn)程的考慮,配備的掃描儀、臺(tái)式機(jī)等數(shù)字化設(shè)備及移動(dòng)硬盤(pán)、光盤(pán)、磁盤(pán)陣列等存儲(chǔ)設(shè)備的綜合性能比較高,因此海洋科研檔案數(shù)字化時(shí)掃描模式的選擇可以忽略圖像存儲(chǔ)占用空間、圖像掃描時(shí)間等因素。
經(jīng)過(guò)實(shí)踐和分析,海洋科研檔案不適宜采用灰度模式掃描。第一,灰度掃描圖像顯示效果欠佳,不是可讀性不夠高,就是頁(yè)面不夠清晰。海洋科研檔案中需要采用灰度模式掃描的檔案不多,但在掃描過(guò)程中,灰度模式與其他模式轉(zhuǎn)換又需要花費(fèi)時(shí)間,降低了整體掃描過(guò)程的效率。第二,從圖像占用空間考慮,雖然灰度模式優(yōu)于彩色模式,但經(jīng)過(guò)對(duì)30頁(yè)A4幅面不同內(nèi)容檔案采用200 dpi分辨率進(jìn)行灰度和彩色掃描,掃描后的圖像占用空間的比對(duì)測(cè)試,結(jié)果顯示平均每頁(yè)檔案灰度掃描比彩色掃描后的圖像占用空間少70 KB,100萬(wàn)頁(yè)檔案的空間差量是70 GB。現(xiàn)在存儲(chǔ)介質(zhì)的容量越來(lái)越大,70 GB對(duì)于TB級(jí)存儲(chǔ)介質(zhì)而言已是“輕量級(jí)”問(wèn)題,可以不作為主要考慮因素。第三,掃描速度的快慢和圖像存儲(chǔ)空間的大小與掃描模式、數(shù)字化硬件環(huán)境、存儲(chǔ)設(shè)備等有關(guān)。理論上,灰度掃描速度比彩色掃描速度快,但是現(xiàn)代的高速掃描儀大大提高了掃描速度,并縮減了灰度掃描和彩色掃描的時(shí)間差。經(jīng)過(guò)測(cè)試,A4幅面檔案采用200 dpi分辨率分別進(jìn)行灰度和彩色掃描,平均的時(shí)間差在0.5 s,因此灰度和彩色模式的選擇可以忽略?huà)呙杷俣纫蛩亍>C合考慮這3個(gè)因素,海洋科研檔案可以不考慮灰度掃描模式。
海洋科研檔案掃描參數(shù)的設(shè)置與管理和利用需求、掃描模式相結(jié)合。以文字為主的數(shù)字化文件需要進(jìn)行OCR識(shí)別提供全文檢索服務(wù),參數(shù)值太低,影響清晰度和識(shí)別率,參數(shù)值太高,文件太大,影響文件調(diào)用和傳輸速度。經(jīng)過(guò)多次實(shí)踐測(cè)試,海洋科研檔案數(shù)字化文件中,黑白模式掃描的圖像參數(shù)設(shè)為300 dpi,彩色模式掃描的文件參數(shù)設(shè)為200 dpi。海洋科研檔案中的照片、圖紙檔案色彩豐富、線(xiàn)條交錯(cuò)復(fù)雜,必須加大分辨率增加圖像的顯示度,因此參數(shù)設(shè)為600 dpi。
在海洋科研檔案數(shù)字化過(guò)程中遇到一些特殊情況時(shí),再適當(dāng)調(diào)節(jié)掃描軟件的對(duì)比度、亮度等參數(shù),以及采取特殊方法增強(qiáng)清晰度。如雙面均有鉛印字內(nèi)容的檔案,為了避免背面字透射至正面,掃描時(shí)紙張和掃描儀蓋板中間加一張白紙,可減輕透字情況;又如某些檔案紙質(zhì)為蠟紙,其特點(diǎn)為透明度較高,直觀(guān)紙張反面可清晰看見(jiàn)正面的印字,有時(shí)反面透字的清晰度較正面印字更清楚,可采取先掃描反面,對(duì)掃描后的圖像進(jìn)行鏡像,可增強(qiáng)正面字跡的清晰度等。
形成的數(shù)字化文件命名后按照一定的格式存儲(chǔ),才可進(jìn)行管理和利用。數(shù)字化命名有多種方式,如以流水號(hào)命名、按案卷號(hào)命名等。海洋科研檔案數(shù)字化實(shí)踐中,充分考慮“檔號(hào)”作為檔案實(shí)體案卷標(biāo)識(shí)的唯一性,引入“檔號(hào)”作為名稱(chēng)的一部分,命名為“同案卷檔號(hào)”+“文件序號(hào)”。這種命名方法既體現(xiàn)了數(shù)字化文件的唯一性,又實(shí)現(xiàn)了數(shù)字化文件與同案卷文件目錄的一一對(duì)應(yīng),為數(shù)字化文件管理和檢索利用提供了方便。
目前國(guó)際主流的文件格式有XML、TIFF、JPEG、PDF等,每種格式都有各自的特點(diǎn)和優(yōu)缺點(diǎn)。其中TIFF格式為非失真的壓縮格式,存儲(chǔ)的圖像質(zhì)量最好,但是占用空間較大;JPEG格式為壓縮格式,支持多種壓縮級(jí)別,占用空間較少,但它屬于有損壓縮,易造成圖像數(shù)據(jù)的損傷;PDF格式可以很好地保持圖像原貌,且網(wǎng)絡(luò)傳輸速度快,可以邊下載邊閱讀圖像,為國(guó)際電子文檔分發(fā)的公開(kāi)的實(shí)際標(biāo)準(zhǔn),但有時(shí)存儲(chǔ)的圖像占用空間比較大;XML格式為可擴(kuò)展格式,可以在不同系統(tǒng)之間進(jìn)行信息傳輸,并能進(jìn)行全文檢索,較適合于網(wǎng)絡(luò)管理,不太適合檔案管理。海洋科研檔案數(shù)字化文件存儲(chǔ)格式本著“占用空間小,圖像色彩丟失少”的原則,結(jié)合海洋科研檔案利用的需求,分別存儲(chǔ)為PDF格式、JPG格式、TIFF格式。其中以文字為主的數(shù)字化文件存儲(chǔ)為多頁(yè)雙層PDF格式文件,以方便文件下載、瀏覽、傳輸和OCR識(shí)別后的全文檢索;色彩豐富的圖幅、照片等數(shù)字化文件存儲(chǔ)為單頁(yè)的JPG格式文件,作為備份文件或提供圖像編輯等高級(jí)利用;所有數(shù)字化文件單獨(dú)存儲(chǔ)為多頁(yè)TIFF
格式作為備份文件之用。
在整個(gè)數(shù)字化加工過(guò)程中,檔案實(shí)體會(huì)經(jīng)過(guò)多個(gè)環(huán)節(jié)、多人之手操作,形成的數(shù)字化文件經(jīng)過(guò)計(jì)算機(jī)處理后,會(huì)保存在服務(wù)器硬盤(pán)、光盤(pán)、移動(dòng)硬盤(pán)等介質(zhì)中,一旦發(fā)生實(shí)體損毀、檔案信息外泄或丟失,會(huì)造成無(wú)法挽回的損失。因此,在數(shù)字化過(guò)程中,保證檔案實(shí)體的完整和數(shù)字化文件的安全非同小可。海洋科研檔案數(shù)字化的安全保障主要從管理和技術(shù)兩個(gè)方面著手。
首先,建立健全安全管理制度和強(qiáng)化人員安全保密意識(shí)。在海洋科研檔案數(shù)字化過(guò)程中,通過(guò)制定海洋科研檔案的數(shù)字化安全管理辦法、數(shù)字化操作手冊(cè)等規(guī)章制度,規(guī)范數(shù)字化加工各環(huán)節(jié)和流轉(zhuǎn)程序。同時(shí)定期對(duì)工作人員進(jìn)行安全保密教育,促使自覺(jué)地保護(hù)檔案實(shí)體和數(shù)字化文件的安全。
其次,采用技術(shù)手段保障安全。主要有:安裝殺毒軟件和防火墻;設(shè)置人員操作權(quán)限;設(shè)計(jì)日志系統(tǒng)記錄操作行為;對(duì)形成的數(shù)字化文件定期異地備份。
紙質(zhì)檔案數(shù)字化建設(shè)是一項(xiàng)龐大的工程,無(wú)論是海洋科研檔案,還是其他專(zhuān)業(yè)科研檔案數(shù)字化,遇到的問(wèn)題絕不僅僅是這些,本文中提到的幾個(gè)問(wèn)題和想法僅起到拋磚引玉的作用,借此以期引起業(yè)界專(zhuān)家對(duì)數(shù)字化建設(shè)問(wèn)題的關(guān)注。
2012-09-16