国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

檔案數(shù)字化存儲(chǔ)格式的選擇

2021-11-27 10:00韓李敏浙江省檔案館
浙江檔案 2021年9期
關(guān)鍵詞:數(shù)據(jù)格式紙質(zhì)成果

韓李敏/浙江省檔案館

檔案數(shù)字化掃描完成以后,如何保存和利用,存在一個(gè)數(shù)據(jù)格式選擇的問題。

1 國標(biāo)規(guī)定的數(shù)據(jù)存儲(chǔ)格式

國家標(biāo)準(zhǔn)《紙質(zhì)檔案數(shù)字化規(guī)范》(DA/T 31—2017 )第9章設(shè)立“存儲(chǔ)格式”一節(jié),專門規(guī)范檔案數(shù)字化成果保存和利用的數(shù)據(jù)格式。

9.5 存儲(chǔ)格式

9.5.1 紙質(zhì)檔案數(shù)字圖像長(zhǎng)期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據(jù)實(shí)際應(yīng)用的需求而定。

9.5.2 紙質(zhì)檔案數(shù)字圖像利用時(shí),也可從網(wǎng)絡(luò)瀏覽速度、易操作性、存儲(chǔ)空間占用等方面進(jìn)行綜合考慮,將圖像轉(zhuǎn)換為OFD、PDF等其他格式。

9.5.3 同一批檔案應(yīng)采用相同的存儲(chǔ)格式。

“存儲(chǔ)格式”一節(jié)表達(dá)了四層含義:第一,檔案數(shù)字化成果堅(jiān)持“存用分離”的原則,即數(shù)字化成果的數(shù)據(jù)格式實(shí)行存儲(chǔ)格式與利用格式相分離的方式。第二,長(zhǎng)期保存的數(shù)據(jù)格式為“TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據(jù)實(shí)際應(yīng)用的需求而定”。第三,利用時(shí)的數(shù)據(jù)格式,“可從網(wǎng)絡(luò)瀏覽速度、易操作性、存儲(chǔ)空間占用等方面進(jìn)行綜合考慮,將圖像轉(zhuǎn)換為OFD、PDF等其他格式”。第四,“同一批檔案應(yīng)采用相同的存儲(chǔ)格式”。

2 存用分離的原則

檔案數(shù)字化與一般的圖書資料數(shù)字化最大的區(qū)別就是其數(shù)字化成果實(shí)行存用分離的原則,即檔案數(shù)字化完成后,一般要形成兩種以上不同格式的數(shù)據(jù),一類數(shù)據(jù)用于長(zhǎng)期保存,一類數(shù)據(jù)投入實(shí)際使用。

為什么要形成兩類不同用途和格式的數(shù)據(jù)?這是檔案的特點(diǎn)所決定的。檔案是一種文獻(xiàn),具有普通文獻(xiàn)的共有特征,同時(shí)它又是一種歷史憑證,具有法律憑據(jù)的價(jià)值。作為憑據(jù),檔案數(shù)字化成果應(yīng)當(dāng)能夠最大限度地保持檔案的原始面貌?!都堎|(zhì)檔案數(shù)字化規(guī)范》中這方面的要求是十分具體而明確的。國標(biāo)規(guī)定要求掃描“參數(shù)的設(shè)置和調(diào)整應(yīng)保證掃描后數(shù)字圖像清晰、完整、不失真,圖像效果最接近檔案原貌”,“為最大限度保留檔案原件信息,便于多種方式的利用,宜全部采用彩色模式進(jìn)行掃描”,掃描的分辨率要求設(shè)置在200dpi以上(2005年的《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》要求不低于100dpi),“如文字偏小、密集、清晰度較差時(shí),建議掃描分辨率不小于300dpi”。如此高標(biāo)準(zhǔn)下形成的掃描圖像,質(zhì)量好、清晰度高,還原成紙質(zhì)打印輸出時(shí),復(fù)制件的真實(shí)性強(qiáng)。但是,這樣的掃描圖像,文件容量一般都非常大,這是毋庸置疑的。

對(duì)于實(shí)際投入利用的檔案數(shù)字化成果,必須考慮利用的方式和環(huán)境。檔案數(shù)字化成果一般都需要借助網(wǎng)絡(luò)投入實(shí)際的使用。而作為網(wǎng)絡(luò)利用,無論是內(nèi)部局域網(wǎng)還是政務(wù)網(wǎng)或公眾互聯(lián)網(wǎng),都受網(wǎng)絡(luò)帶寬和瀏覽速度的制約。數(shù)字化成果單個(gè)文件容量太大,勢(shì)必影響網(wǎng)絡(luò)的瀏覽速度和存儲(chǔ)空間占用率。為此,用于網(wǎng)絡(luò)等實(shí)際應(yīng)用的數(shù)字化成果必須在原來保存的基礎(chǔ)上進(jìn)行壓縮處理。圖像的壓縮,說到底主要就是兩種方式,一是縮小幅面,二是降低畫面質(zhì)量。這兩種壓縮方式都與“最大限度保持檔案原貌”相抵牾。圖像壓縮有個(gè)致命的缺陷就是“不可逆性”,解壓縮后的圖像是無法還原壓縮前原始面貌的,壓縮會(huì)對(duì)原始圖像的清晰度、色彩等產(chǎn)生損害。為此,國家標(biāo)準(zhǔn)明確規(guī)定,檔案的數(shù)字化采用存用分離的原則,不要隨意將利用的數(shù)據(jù)格式用作長(zhǎng)期保存,以免影響檔案歷史憑證價(jià)值的發(fā)揮。

檔案數(shù)字化成果在數(shù)據(jù)格式的應(yīng)用上采用存用分離的原則也是與國家的數(shù)字化戰(zhàn)略相適應(yīng)的。我國實(shí)施檔案數(shù)字化戰(zhàn)略,一是為了確保檔案安全,通過數(shù)字化形成檔案副本,保證檔案的長(zhǎng)治久安;二是適應(yīng)信息化發(fā)展,滿足人們通過網(wǎng)絡(luò)等形式利用檔案的需求。既要滿足長(zhǎng)期保存的需要,又要滿足眼前網(wǎng)絡(luò)等利用的需要,最佳的策略,就是在數(shù)字化成果的存儲(chǔ)上實(shí)行存用分離的原則。

有人認(rèn)為“存用分離”原則并不適用于所有檔案。比如《干部人事檔案數(shù)字化技術(shù)規(guī)范》(GB/T 33870—2017)就明確規(guī)定:干部人事檔案數(shù)字化只釆用JPEG格式存儲(chǔ),并未實(shí)施存用分離。實(shí)際上《干部人事檔案數(shù)字化技術(shù)規(guī)范》與《紙質(zhì)檔案數(shù)字化規(guī)范》并不矛盾。人事檔案數(shù)字化成果目前主要用于保存和系統(tǒng)內(nèi)傳輸,并不存在“網(wǎng)絡(luò)瀏覽”等利用需求,所以它只要求保留存儲(chǔ)格式是合理的。將來如果有網(wǎng)絡(luò)利用等需求出現(xiàn),再完善利用格式。

3 長(zhǎng)期保存的數(shù)據(jù)格式

《紙質(zhì)檔案數(shù)字化規(guī)范》明確作為長(zhǎng)期保存的數(shù)據(jù)格式為“TIFF、JPEG或JPEG2000等通用格式”。那么,這三種通用格式有何不同,數(shù)字化工作中我們?cè)撊绾芜x擇?

TIFF是我們用得最多、最普遍的長(zhǎng)期保存數(shù)據(jù)格式,它是早在1980年代中期各桌面掃描儀廠商共同商定采用的一個(gè)公用的統(tǒng)一的掃描圖像文件格式。TIFF可以包容黑白圖像、彩色圖像等。其最大特點(diǎn)是使用“LZW”(無損壓縮)的選項(xiàng),這是一種減小文件大小的無損壓縮技術(shù),對(duì)原始圖像的損害程度最小,被廣泛應(yīng)用于對(duì)圖像質(zhì)量要求較高的圖像存儲(chǔ)與轉(zhuǎn)換。它的結(jié)構(gòu)靈活、包容性大,已成為圖像文件格式的一種標(biāo)準(zhǔn),絕大多數(shù)圖像系統(tǒng)都支持這種格式。對(duì)于黑白二值掃描的圖像,比如大幅面的工程圖紙等,傳統(tǒng)的方法采用TIFF(G4)格式保存(2005年的《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》曾予推薦)。實(shí)踐證明,在同等壓縮比的條件下,對(duì)于黑白圖像的壓縮,TIFF(G4)的效率要遠(yuǎn)遠(yuǎn)高于JPEG的壓縮效率。

JPEG格式是日常用得較多、較普遍的長(zhǎng)期保存數(shù)據(jù)格式。JPEG文件的擴(kuò)展名為.jpg或.jpeg,是一種最為優(yōu)秀的圖像壓縮格式。其壓縮技術(shù)十分先進(jìn),它用有損壓縮方式去除冗余的圖像和彩色數(shù)據(jù),在獲取極高壓縮率的同時(shí)能展現(xiàn)十分豐富生動(dòng)的圖像,換句話說,就是可以用最少的磁盤空間得到較好的圖像質(zhì)量。對(duì)于彩色圖像的壓縮,JPEG比TIFF效率要高得多,即使采用類似于TIFF接近無損的最優(yōu)級(jí)壓縮,JPEG的壓縮比也可達(dá)到5:1,可以節(jié)約大量的存儲(chǔ)空間和存儲(chǔ)成本。

JPEG格式適用于黑白圖像、彩色圖像。JPEG格式具有調(diào)節(jié)圖像質(zhì)量的功能,允許用不同的壓縮比例對(duì)文件進(jìn)行壓縮,方便在圖像質(zhì)量和文件大小之間找到平衡點(diǎn)。實(shí)踐中,人們最難把握的是壓縮的最佳平衡點(diǎn)在哪里,即該選擇多少的壓縮率,既滿足不影響圖像質(zhì)量又得到最佳壓縮效果。為此,人們利用Photoshop軟件進(jìn)行了實(shí)驗(yàn)。在Photoshop軟件中以JPEG格式儲(chǔ)存時(shí),提供11級(jí)壓縮級(jí)別,以0—10級(jí)表示。其中0級(jí)壓縮比最高,圖像品質(zhì)最差;10級(jí)接近于無損壓縮,壓縮比最低,圖像質(zhì)量最佳。人們經(jīng)過多次實(shí)驗(yàn)比較,發(fā)現(xiàn)JPEG采用第8級(jí)壓縮時(shí),獲得的存儲(chǔ)空間與圖像質(zhì)量兼得的比例最佳。因此,可以稱JPEG圖像質(zhì)量與文件大小的最佳平衡點(diǎn)約在壓縮率達(dá)80%的位置。

為避免壓縮過度、影響圖像質(zhì)量,《干部人事檔案數(shù)字化技術(shù)規(guī)范》明確規(guī)定:采用JPEG格式存儲(chǔ),“壓縮率≥80%”。這個(gè)“壓縮率≥80%”的參數(shù)設(shè)定,大約就是參照了Photoshop軟件的實(shí)驗(yàn)成果。

JPEG2000是國家標(biāo)準(zhǔn)認(rèn)可的長(zhǎng)期保存數(shù)據(jù)格式。JPEG2000作為JPEG的升級(jí)版,其壓縮率比JPEG高約30%左右,同時(shí)支持有損壓縮和無損壓縮。JPEG2000格式有一個(gè)極其重要的特征,即能實(shí)現(xiàn)漸進(jìn)傳輸,先傳輸圖像的輪廓,然后逐步傳輸數(shù)據(jù),不斷提高圖像質(zhì)量,讓圖像由朦朧到清晰顯示。JPEG2000特別適合于超大規(guī)模彩色圖像的掃描,比如地圖等。JPEG2000在圖書館系統(tǒng)應(yīng)用得比較多,國外的日本國立公文書館等也有很好的應(yīng)用,但在國內(nèi)的檔案系統(tǒng),目前應(yīng)用的單位還很少。

4 以網(wǎng)絡(luò)瀏覽為主的利用型數(shù)據(jù)格式

作為長(zhǎng)期保存的數(shù)據(jù)都有一個(gè)共同的特點(diǎn),就是容量大。一般16K頁面的紙質(zhì)檔案,采用200dpi以上分辨率彩色掃描,形成的圖像經(jīng)LZW(無損壓縮)的TIFF格式保存,一般每個(gè)畫幅在6—10M左右;若用JPEG格式保存,一般也在1M以上。如果以50頁一個(gè)文件計(jì),形成的掃描件最小的也在50M以上。這么大容量的文件,實(shí)現(xiàn)網(wǎng)絡(luò)瀏覽利用等是不現(xiàn)實(shí)的,會(huì)嚴(yán)重影響瀏覽的速度和系統(tǒng)的工作效率。

要讓掃描形成的數(shù)字化成果能夠投入網(wǎng)上利用,比如通過單位內(nèi)部的局域網(wǎng)提供利用,或者通過網(wǎng)站向社會(huì)提供利用,都必須對(duì)TIFF或JPEG格式的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,形成文件大小合適、便于網(wǎng)上利用的數(shù)據(jù)格式。

PDF是目前檔案部門應(yīng)用最多的網(wǎng)上利用數(shù)據(jù)格式,PDF文件能顯示文字、圖片、矢量圖等,是目前公認(rèn)最佳的文獻(xiàn)數(shù)據(jù)格式。

PDF的優(yōu)點(diǎn)如下。一是一致性。在所有可以打開PDF的機(jī)器上,展示的效果是完全一致的,不會(huì)出現(xiàn)段落錯(cuò)亂、文字亂碼這些排版問題,可以把版式文檔原汁原味地發(fā)送給讀者。因此在印刷行業(yè),絕大多數(shù)用的都是PDF格式。二是不易修改。已經(jīng)保存之后的PDF文件,與圖片一樣,不能進(jìn)行重新排版,具有防篡改的特征。三是安全性。PDF文檔可以進(jìn)行加密,包括文檔打開密碼、文檔權(quán)限密碼、文檔證書密碼等加密形式,通過加密達(dá)到信息防擴(kuò)散等目的。四是不失真。PDF文件中,使用了矢量圖,在文件瀏覽時(shí),無論放大多少倍,都不會(huì)導(dǎo)致使用矢量圖繪制的文字、圖案的失真。五是壓縮容量。為減少單個(gè)PDF文件容量,PDF格式支持各種壓縮方式,包括jpeg(DCT)、jpeg2000(jpx)等。

將掃描的圖像文件制作成PDF文件,一般都通過相應(yīng)的軟件來完成。用戶可以根據(jù)自己使用的網(wǎng)絡(luò)帶寬,設(shè)定每個(gè)PDF文件容量的最大值,然后由軟件對(duì)掃描圖像采用JPEG等方式進(jìn)行壓縮(若需實(shí)行全文檢索的,在壓縮前還要進(jìn)行OCR識(shí)別),最終轉(zhuǎn)換成PDF文件。

OFD是國家標(biāo)準(zhǔn)認(rèn)可的檔案數(shù)字化成果網(wǎng)絡(luò)利用數(shù)據(jù)格式。2016年,國家標(biāo)準(zhǔn)GB/T 33190—2016《電子文件存儲(chǔ)與交換格式文書類版式文檔》(簡(jiǎn)稱OFD)正式發(fā)布。以同款軟件對(duì)OFD與PDF做比較,OFD的描述能力更強(qiáng),功能、性能不相上下,各有千秋,文件體量更加小巧,占用內(nèi)存更少。但是,由于OFD標(biāo)準(zhǔn)出臺(tái)時(shí)間不長(zhǎng),所以全國應(yīng)用范圍還很小,檔案部門也只有極個(gè)別的單位在進(jìn)行試驗(yàn)。其推廣應(yīng)用前景如何,最終有待時(shí)間檢驗(yàn)。

5 檔案數(shù)字化存儲(chǔ)格式的選擇及簡(jiǎn)短結(jié)論

檔案數(shù)字化成果存儲(chǔ)格式的選擇應(yīng)堅(jiān)持存用分離原則,不要混淆存儲(chǔ)格式與利用格式,更不能盲目地以利用格式代替存儲(chǔ)格式。對(duì)于只用于長(zhǎng)期保存暫時(shí)沒有網(wǎng)絡(luò)利用等需求的檔案,如人事檔案、涉密檔案等,可以只采用存儲(chǔ)格式加以保存,暫時(shí)不需要將其轉(zhuǎn)換成PDF等利用格式。各級(jí)檔案館在接收機(jī)關(guān)單位的檔案數(shù)字化成果時(shí),務(wù)必注意數(shù)據(jù)格式的選擇,且保證接收的數(shù)字化成果為原始的長(zhǎng)期保存數(shù)據(jù),而不是那些經(jīng)過PDF再轉(zhuǎn)換還原的過度壓縮的圖像數(shù)據(jù)。有的單位移交的數(shù)字化成果雖然數(shù)據(jù)格式符合標(biāo)準(zhǔn),但是每個(gè)畫幅的容量只有幾百K甚至幾十K,這樣的數(shù)據(jù)大都存在過度壓縮的可能性,有的就是將PDF等格式的數(shù)據(jù)再轉(zhuǎn)換形成的,一般都無法滿足長(zhǎng)期保存的質(zhì)量要求。

存儲(chǔ)格式選擇TIFF還是JPEG,主要還是取決于檔案本身。對(duì)于同一批次的檔案,應(yīng)采用相同的存儲(chǔ)格式,但是對(duì)于不同性質(zhì)的檔案,可以選擇不同的存儲(chǔ)格式。例如,浙江省檔案館在數(shù)字化過程中,一般的紙質(zhì)檔案數(shù)字化,選用的是TIFF(LZW)格式存儲(chǔ);而在《黃埔軍校同學(xué)錄》等專題檔案數(shù)據(jù)庫的建設(shè)中,因?yàn)橐詧D片掃描為主,就選擇了JPEG格式存儲(chǔ)。

長(zhǎng)期保存的存儲(chǔ)格式數(shù)據(jù),由于其容量超大,且一般很少使用,所以在存儲(chǔ)方式和存儲(chǔ)載體的選擇上,宜采用離線存儲(chǔ)或近線存儲(chǔ)的方式,存儲(chǔ)載體宜選用磁帶和光盤,以節(jié)約存儲(chǔ)成本。

PDF是目前檔案數(shù)字化成果網(wǎng)上瀏覽利用最普遍的數(shù)據(jù)格式,該格式的數(shù)據(jù)也能還原成JPEG等圖片格式,但是還原形成的圖片與用作長(zhǎng)期保存的圖片,存在巨大的差異,二者不能相互替換。OFD等格式數(shù)據(jù)為國家標(biāo)準(zhǔn)所認(rèn)可,有可能成為將來檔案數(shù)字化成果存儲(chǔ)和網(wǎng)絡(luò)利用的發(fā)展方向,應(yīng)引起高度重視,密切關(guān)注其軟件開發(fā)和在檔案部門的應(yīng)用情況。

猜你喜歡
數(shù)據(jù)格式紙質(zhì)成果
驗(yàn)收成果
為什么要讀紙質(zhì)書
數(shù)說中國—東盟經(jīng)貿(mào)合作成果
2018數(shù)博會(huì)4大成果
MIT—BIH心率失常數(shù)據(jù)庫的識(shí)讀
一張圖看懂“論壇成果清單”
基于RFID的戶外廣告監(jiān)管系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
電子疲勞
一種融合多業(yè)務(wù)的信息化系統(tǒng)框架研究
獨(dú)立書店浪漫的紙質(zhì)生活