国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電子文件長期保存格式探析

2009-01-14 09:11毛義春
北京檔案 2009年12期
關(guān)鍵詞:數(shù)字圖像

毛義春

電子文件格式是指將信息以某種格式進行編碼,而且只有依靠特定組合的軟硬件方能對文件實施讀寫操作。隨著信息化建設(shè)的發(fā)展,已有的電子文件格式很多,新的格式也不斷產(chǎn)生。因此,為了確保電子文件的長期存取,檔案部門作為永久保存電子文件的基地,應采取各種措施積極應對這種挑戰(zhàn)。

一、電子文件內(nèi)容、形式及常見的格式

電子文件是指在數(shù)字設(shè)備及環(huán)境中生成,以數(shù)碼形式存儲于磁帶、磁盤、光盤等載體,依賴計算機等數(shù)字設(shè)備閱讀、處理,并可在通信網(wǎng)絡(luò)上傳送的文件。它主要包括電子文書、電子信件、電子報表、電子圖紙等等。按載體劃分,可以把電子文件分為光盤文件、硬盤文件、軟盤文件和磁帶文件;以數(shù)據(jù)的表現(xiàn)形式為劃分標準,有字符文件、表格文件、圖文混排文件、數(shù)據(jù)庫文件、圖形文件、動態(tài)影像文件與聲音文件等;以屬性為劃分標準,數(shù)據(jù)庫文件又有FOXBASE(動態(tài)數(shù)據(jù)基地)數(shù)據(jù)庫、FOXPRO(“京通”軟件應用的)數(shù)據(jù)庫、ACCESS(通路)數(shù)據(jù)庫、ORCAL(“靈通”軟件應用的)數(shù)據(jù)庫等。

按電子文件的格式劃分,有數(shù)字文本文件 、數(shù)字影像文件、數(shù)字圖形文件、數(shù)字語音文件、數(shù)字視頻文件。文本文件常見格式有XML、TXT、UOF、RTF、WPS、PDF/A、CEB、SEP;圖像文件常見格式有TIFF、JPEG2000、JPEG、GIF、PNG、DjVu;音頻文件常見格式有WAV、MP3、WMA、OGG Vorbis 、FLAC;視頻文件常見格式有AVI、MOV、MPEG等。

二、電子文件長期保存格式選擇存在的問題

選擇專用媒體或是專用存儲格式將來會導致數(shù)字存儲問題,例如媒體格式。選擇專用媒體格式存儲電子文件,必須考慮將來該格式的過時問題。再例如文件格式。為了確保電子文件的長期存取,如果采用專用的文件格式,會由此增添更大的復雜性。專用軟件的應用常常升級至最新版本,然而軟件的功能卻沒有像版本變化那么明顯。隨著時間的過去,文件格式累積的變化更為顯著,甚至危及格式逆兼容。對遺產(chǎn)軟件的維護顯得很急迫,但是存在的問題頗多。就像應用軟件一樣,操作系統(tǒng)也得定期升級,隨著系統(tǒng)基本體系結(jié)構(gòu)的發(fā)展,將來不再支持遺產(chǎn)軟件,不對遺產(chǎn)軟件支持就意味著產(chǎn)生新的安全問題的風險也在增加。

三、電子文件長期保存格式的選擇標準

1、按格式種類分析

要作為文本型電子文件的歸檔格式,馬春茂①認為應該符合下列條件:(1)應該是公開的格式,不依賴特定的系統(tǒng)和軟件存在,能夠在可以預見的時間內(nèi)被正常讀取;(2)應該保持文件生成時的排版格式,即使經(jīng)過辦公軟件的不斷升級,也能輸出同紙質(zhì)文件一樣的格式;(3)應該便于數(shù)據(jù)交換、便于查找和檢索;(4)應能保證電子文件在處理過程中不被篡改和竊取。

為了對數(shù)字資源實施長期保存,對保存圖像格式的選擇尤其重要。葉新民②認為應滿足格式使用的標準化和廣泛性;格式應是公開的,而非私有的,而且應公開已出版的技術(shù)資料;格式應支持元數(shù)據(jù);格式應對存儲介質(zhì)無依賴性等要求。

對于數(shù)碼錄音的電子文件長期保存格式,張文浩③認為應支持真實性驗證技術(shù)、數(shù)碼音質(zhì)無損、文件格式開放透明、不綁定軟硬件、格式自描述、格式自包含、易于存儲、格式緊湊、信息安全、代價最小等要求。

數(shù)字攝像(DV) 、數(shù)字電視(DTV) 和網(wǎng)絡(luò)視頻系統(tǒng)的廣泛應用以及對現(xiàn)有模擬視頻的數(shù)字化, 視頻電子文件的數(shù)量和類型不斷豐富。項文新等④提出從保證視頻文件的原真性和檔案保管利用的便捷性出發(fā)選擇合適的視頻電子文件歸檔格式,認為視頻電子文件應盡可能保證視頻文件的原真性。

2、綜合性分析

對于長期保存人類文化遺產(chǎn)的檔案館、圖書館, 最關(guān)心的是數(shù)字信息的內(nèi)容不得丟失。劉家真⑤針對電子文件保存格式的選擇問題,認為該格式能在不同的環(huán)境下使用;應是通用的、非專用的格式;支持數(shù)據(jù)從專用格式的環(huán)境中移出;最好是標準格式;被業(yè)界或用戶廣泛支持;具有可擴展性;可真實完整地被用戶讀出并理解, 無論何時何地, 用戶所查到的該文件信息都與該文件最初情況完全一致;具有自身的可證明性;具有可評價性。

檔案是歷史的真實記錄,具有憑證價值與情報價值。李澤鋒⑥認為檔案數(shù)字化過程中選用電子文件格式應考慮:保持檔案原貌,利于網(wǎng)絡(luò)平臺下的傳輸交流,具有一定的標準性,具有較好的通用性和可移植性,選用電子格式的支持軟件應支持數(shù)據(jù)從專用格式中方便地移出。

為了應對電子文件長期保存的需求,Adrian Brown⑦對電子文件長期保存格式的選擇標準進行了積極的探討,認為應具備開放標準、普遍性、穩(wěn)定性、對元數(shù)據(jù)支持、互操作性、可生存性、真實性、可處理性、固定顯示等9個條件。

3、筆者的理解

電子文件的格式選擇是由電子文件創(chuàng)建過程的操作要求和電子文件長期存取的要求所決定的。綜合各位學者的觀點后,筆者認為電子文件長期保存格式的選擇標準應具有以下幾點:(1)開放性。格式開放,有公開發(fā)表的相應標準和技術(shù)規(guī)范,有與產(chǎn)品無關(guān)的技術(shù)專家組和標準化組織支持該格式。(2)標準性。該格式被廣泛使用,具有自由使用的技術(shù)規(guī)范,可轉(zhuǎn)換性高,支持保存元數(shù)據(jù)。(3)穩(wěn)定性。不會隨著時間的推移而作重大的變更,而且新版本的格式也應該能夠做到逆兼容。(4)廣采性。數(shù)字格式的廣采性包括個人電腦隨機軟件包、Web瀏覽器的本地化支持、數(shù)字產(chǎn)品格式易轉(zhuǎn)換等。軟件廠商對創(chuàng)建良好和廣泛使用的格式往往要比僅僅瞄準新市場的格式具有更寬泛和更長久的支持。流行格式會盡可能多地受到軟件廠商的支持,人們可能更喜歡采用。(5)軟硬件平臺的獨立性。被多種操作系統(tǒng)和應用軟件支持。支持多種存儲技術(shù),或與存儲技術(shù)無關(guān)。當用戶不能使用指定產(chǎn)品軟件時,可使用已有的插件讀取。使用與設(shè)備無關(guān)的顏色規(guī)范實現(xiàn)準確打印和再現(xiàn),不必考慮軟硬件平臺。(6)真實性。電子文件的真實性要求保留“原貌”(例如字體、顏色和外觀),數(shù)據(jù)遷移要求選取的文件格式能夠保留文件“原貌”。(7)可利用性。要確保電子文件可讀、可利用。

四、幾種適于長期保存的電子文件格式

1、 PDF/A格式

PDF格式規(guī)范已經(jīng)公開,并可免費獲取,具有廣泛的支持性。該格式具有與平臺、字體無關(guān)的特點,解除了電子文件與操作系統(tǒng)的依賴關(guān)系,用戶可以通過它的通用瀏覽器Adobe Reader在Windows、UNIX、Mac等任一系統(tǒng)平臺上原版原式地讀取PDF文檔,不受操作系統(tǒng)、網(wǎng)絡(luò)環(huán)境、應用程序的版本、字體的限制,從而從電子文件自身的角度保證了電子文件的可讀性。PDF格式所具有的高度兼容性使用戶可以輕松地將任何文檔原版原式地轉(zhuǎn)換成PDF文檔,進而固化信息,使之不易更改,保持了原文檔信息內(nèi)容和結(jié)構(gòu)的完整、真實,為不同軟件生成的電子文件提供了一個可完整遷移其信息內(nèi)容的統(tǒng)一文件格式。PDF/A-1a實現(xiàn)了對文檔邏輯結(jié)構(gòu)的保存和以自然閱讀順序保存文本。PDF/A-1b可實現(xiàn)對文本和附加內(nèi)容的正確顯示。在各國政府機構(gòu)包括美國、英國、德國、新加坡、印度、澳大利亞等的電子政務(wù)領(lǐng)域中,PDF格式也被廣泛應用。綜合來說,PDF/A格式的特點是支持數(shù)字簽名、格式開放、不綁定軟硬件、格式自包含、格式自描述、固定顯示、不包含加密、可向其他文本格式轉(zhuǎn)換等。

2、TIFF格式

TIFF(標記圖像文件格式)是由Aldus和Microsoft公司為桌面出版系統(tǒng)研制開發(fā)的一種靈活的位圖圖像格式,用于應用程序之間和計算機平臺之間交換文件。實際上已被所有繪畫、圖像編輯和頁面排版應用程序所支持,而且?guī)缀跛凶烂鎾呙鑳x都可以生成TIFF圖像。TIFF支持多種編碼方法,其中包括RGB無壓縮、RLE壓縮、LZW壓縮、ZIP壓縮、CCITT壓縮等,6.0版本又增加了JPEG壓縮選項。TIFF 格式由于存儲圖像質(zhì)量高非常有利于原稿的復制。另外,所有繪畫、圖像編輯和頁面排版應用程序以及大多數(shù)掃描儀對TIFF 格式都提供良好的支持,這使得TIFF格式成為數(shù)字圖像處理的最好選擇。

3、JPEG2000格式

JPEG2000于2001年正式成為國際標準。JPEG2000完全采用小波變換代替余弦變換,與JPEG相比,具備了更高的壓縮比以及更多新功能。在文件大小相同的情況下,JPEG2000壓縮的圖像比JPEG質(zhì)量更高,其壓縮率比JPEG高30%左右,精度損失更小。

JPEG2000的特點是⑧:

(1)同時支持有損和無損壓縮,而JPEG只能支持有損壓縮。(2)能實現(xiàn)漸進傳輸,先傳輸圖像的輪廓, 然后逐步傳輸數(shù)據(jù),不斷提高圖像質(zhì)量,讓圖像由朦朧到清晰顯示。(3)支持對圖像中細節(jié)較多或較為感興趣的區(qū)域進行高精度的無損編碼、很強的容錯性、支持水印等。(4)JPEG2000的許多優(yōu)點和新的功能都是建立在復雜的計算與較大的緩存基礎(chǔ)上,因此其速度與JPEG相比要慢許多。

4、FLAC格式

FLAC 屬于無損音頻壓縮文件格式(文件名為.flac)。⑨FLAC 格式文件較小,便于播放。OGG 計劃支持FLAC,也可將FLAC 音頻數(shù)據(jù)封裝在OGG 傳輸層中,生成OGG FLAC 格式文件(文件名為.ogg)。OGG FLAC 格式文件較大(比OGG Vorbis格式文件大得多),便于傳輸、編輯、播放。該格式的特點是支持真實性驗證技術(shù)、數(shù)碼音質(zhì)無損、文件格式開放透明、不綁定軟硬件、文件格式自描述、格式自包、易于存儲、信息安全。

5、MPEG格式

MPEG即Moving Picture Expert Group(運動圖像專家組),用該編碼器編碼的影音文件擴展名可以是MPG、MPE、MP4、M1V、M2V等,其中M1V和M2V都表示該影音文件中不包含音頻部分,只有視頻部分。這種格式也流行了很長時間。未壓縮的AVI格式文件經(jīng)MPEG-1、MPEG-2和MEG-4等編碼壓縮后,圖像容量大幅度縮小,畫質(zhì)則降低不大,而且圖像質(zhì)量視編碼參數(shù)而定。該格式具有壓縮算法公開、不綁定軟硬件、易于轉(zhuǎn)換等特點。

五、電子文件永久可讀性問題

文件格式種類繁多,打開方式多種多樣,產(chǎn)生它們的軟硬件環(huán)境也多種多樣。對于一代又一代不同系統(tǒng)中生成的各種格式的電子文件,必須確保人類能夠閱讀,否則保存就失去了應有的意義。解決該問題的辦法有:(1)不斷地將文件轉(zhuǎn)換成當前通行的新文件格式,使之不至于因為軟硬件平臺的過時而無法閱讀。(2)采用一定的獨立于任何計算機系統(tǒng)的統(tǒng)一格式存儲文件。(3)將電子文件連同生成該文件的軟件及其運行該軟件的操作系統(tǒng)和硬件一道保存起來。當然這些方法都還不是解決電子文件永久可讀性問題的萬全之策。我們在實踐中只能在以上方法中選擇損失信息較少,可行性較大的方法來作為現(xiàn)階段的對策。目前,大多數(shù)人選擇了第二種方法,他們舍棄了對原文件結(jié)構(gòu)、格式的追求,而重點強調(diào)對原文件內(nèi)容的忠實再現(xiàn),在可能的范圍內(nèi)使用較為通用的編碼格式。而對于那些特殊的,沒有標準格式的電子文件采用第三種方法,暫時將其支持系統(tǒng)一并保存下來,等待有關(guān)標準的出臺。另外,在目前電子文件數(shù)量較少的情況下,采用第一種方法也是可行的。

六、結(jié)語

如今數(shù)字技術(shù)飛速發(fā)展,數(shù)字信息的可存取性卻變得非常脆弱。電子文件采用可長久存取的文件格式的優(yōu)越性惠及數(shù)據(jù)創(chuàng)建者、數(shù)據(jù)管理者和電子檔案工作者。因此,對于電子文件的格式問題,不僅需要電子文件制作者,還需要負責電子文件管理和長久存取的所有人員都特別重視,積極采取措施確保電子文件的長期存取。

注釋:

①馬春茂:《電子文件歸檔格式思考》,《北京檔案》, 2007年第7期:28-30。

②葉新民:《數(shù)字資源長期保存中的圖像格式選擇分析》,《圖書情報工作》,2006年第5期:115-117。

③張文浩:《數(shù)碼錄音電子文件長期保存格式研究》,《黑龍江檔案》,2009年第2期:6-7。

④⑨項文新、張照余:《視頻電子文件的歸檔格式研究》,《檔案學研究》, 2006年第4期:52-56。

⑤劉家真:《文件保存格式與PDF文檔》,《檔案學研究》, 2002年第2期:46-51。

⑥李澤鋒:《檔案數(shù)字化的電子格式研究》,《檔案學研究》,2004年第5期:51-55。

⑦Adrian Brown:《Selecting File Formats for Long-Term Preservation》, http://www.nationalarchives.gov.uk/documents/selecting_file_formats.pdf。

⑧尹露娟、苑津莎、郭增為:《靜態(tài)圖像壓縮技術(shù)的研究》,《中國多媒體通信》, 2009年第7期:47-49。

作者單位:江銅集團德興銅礦檔案館

猜你喜歡
數(shù)字圖像
改進的LapSRN遙感圖像超分辨重建
基于FPGA的實時圖像去霧系統(tǒng)
淺析p-V圖像中的兩個疑難問題
有趣的圖像詩
數(shù)字
成雙成對
遙感圖像幾何糾正中GCP選取
數(shù)字變變變