国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

古籍文獻(xiàn)數(shù)字化加工系統(tǒng)硬件解決方案

2017-04-19 17:52:41陳英敏
卷宗 2016年12期
關(guān)鍵詞:古籍服務(wù)器加工

摘 要:古籍?dāng)?shù)字化與古籍整理、文獻(xiàn)保護(hù)、文化傳承緊密相關(guān)。文章從古籍?dāng)?shù)字化的概念與意義談起,詳細(xì)介紹了古籍?dāng)?shù)字化的加工流程,并從系統(tǒng)硬件配置入手,完整地設(shè)計并實現(xiàn)了一種通用古籍文獻(xiàn)數(shù)字化系統(tǒng)的構(gòu)建。

關(guān)鍵詞:古籍?dāng)?shù)字化;系統(tǒng)設(shè)計

1 古籍文獻(xiàn)數(shù)字化的概念與意義

古籍在各類文獻(xiàn)中獨具特色。以國家圖書館為例,其古籍文獻(xiàn)資源數(shù)量龐大,種類齊全,既包括甲骨、金石、簡帛、輿圖、善本等珍貴特藏,也包括圖書、期刊、報紙、縮微文獻(xiàn)等傳統(tǒng)普通古籍文獻(xiàn)類型。無論線裝古籍,還是碑帖拓本、古地圖,所有古籍文獻(xiàn)資源都蘊(yùn)含著獨特的文獻(xiàn)價值、藝術(shù)價值,彰顯著古老文明的魅力。據(jù)文化部統(tǒng)計,全國公共圖書館系統(tǒng)收藏古籍2717.5萬冊件,其中善本229.5萬冊件[1]。如此豐富的古籍資源,為古籍?dāng)?shù)字化建設(shè)提供了可供開采的豐富寶藏,成為數(shù)字圖書館資源建設(shè)不可缺少的重要內(nèi)容。

古籍?dāng)?shù)字化就是從利用和保護(hù)古籍的目的出發(fā),采用計算機(jī)技術(shù),將常見的語言文字或圖形符號轉(zhuǎn)化為能被計算機(jī)識別的數(shù)字符號,從而制成古籍文獻(xiàn)書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻(xiàn)信息資源的一項系統(tǒng)工作[2]。

古籍文獻(xiàn)數(shù)字化可以降低原件丟失和損失的風(fēng)險。古老的文獻(xiàn)、照片都可以轉(zhuǎn)換成數(shù)字化文獻(xiàn),避免讀者直接使用原件,以減少或避免原件損失的機(jī)率,同時也可以擴(kuò)大原始文獻(xiàn)的利用范圍。古籍文獻(xiàn)數(shù)字化后,可以產(chǎn)生較原件可靠而功能性更強(qiáng)的數(shù)字資源,這將有利于開展古籍文獻(xiàn)研究,從而擴(kuò)大研究范圍。例如:對手稿字跡的鑒別,對圖畫、照片的放大瀏覽等等。古籍?dāng)?shù)字化是數(shù)字圖書館資源建設(shè)的重要組成部分,數(shù)字圖書館推廣工程將在全國范圍內(nèi)依托圖書館館藏優(yōu)勢,建成內(nèi)容豐富、類型多樣的公共文化資源庫群。

2 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)工作流程

古籍文獻(xiàn)數(shù)字化加工系統(tǒng)的工作流程一般可大致分為六個部分:文獻(xiàn)整理、圖像掃描、圖像處理與質(zhì)檢、文字識別與質(zhì)檢、數(shù)據(jù)標(biāo)引與質(zhì)檢、數(shù)據(jù)整理。其中,“文字識別與質(zhì)檢”根據(jù)加工需求為可選流程。圖1為古籍文獻(xiàn)數(shù)字化加工系統(tǒng)工作流程,各類古籍文獻(xiàn)依據(jù)類型的差異在數(shù)字化細(xì)節(jié)上會有所不同。

根據(jù)古籍文獻(xiàn)數(shù)字化加工系統(tǒng)工作流程圖可以得出,完成古籍文獻(xiàn)加工的單條流水線主要包含以下幾個環(huán)節(jié):

(1)文獻(xiàn)整理:待加工的文獻(xiàn)存放在專門的資料管理室,由相關(guān)人員統(tǒng)一上架登記,保護(hù)文獻(xiàn)安全;需借出做加工和歸還的文獻(xiàn)需要登記入冊,統(tǒng)計書目信息和文獻(xiàn)數(shù)量;

(2)圖像掃描:按照加工要求對古籍文獻(xiàn)進(jìn)行掃描,對掃描圖像進(jìn)行命名、旋轉(zhuǎn)等;

(3)圖像處理:應(yīng)用專用圖像整理工具,自動檢查整理圖像的DPI與圖像模式,主要包括批量進(jìn)行傾斜校對,調(diào)整傾斜度、統(tǒng)一畫布尺寸、調(diào)整dpi、去除黑邊等操作、糾正文件名命名、建立圖像索引等,處理完成后導(dǎo)入數(shù)字化加工管理系統(tǒng)進(jìn)行數(shù)據(jù)自動分發(fā)與流轉(zhuǎn),系統(tǒng)會在流水線上自動派發(fā)任務(wù);

(4)OCR識別:應(yīng)用專業(yè)OCR識別軟件依照文獻(xiàn)數(shù)字化加工要求進(jìn)行全文或特定的文字識別;

(5)OCR數(shù)據(jù)質(zhì)檢:完成字體切分、校對,從而做到一字一框,精確對位,同時進(jìn)行聚類校對,將一批次中所有同一個字的字形聚集到一起,選出與標(biāo)準(zhǔn)字庫不一樣的那一個進(jìn)行標(biāo)紅,為下一步錯字修改做準(zhǔn)備;完成錯字修改,操作員通過管理客戶端可以實時讀取到上一步的校對結(jié)果,并進(jìn)行錯誤修改,修改完的字體會有高級人員校對;如遇操作員識別不了的字體,也可留給高級人員糾正。

(6)版式還原:包括原有版式編輯還原、XML排版、PDF排版、調(diào)整字體、字號、字間距、標(biāo)題格式等內(nèi)容;

(7)成品全檢:根據(jù)文獻(xiàn)數(shù)字化加工項目的特點,應(yīng)用成品檢查工具,對每批完成數(shù)據(jù)進(jìn)行成品檢查。對出錯的部分,按照誰做誰修改的原則,由管理系統(tǒng)返回給操作員進(jìn)行修改。

3 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)設(shè)計

參照古籍文獻(xiàn)數(shù)字化系統(tǒng)工作的一般流程,可以將加工系統(tǒng)設(shè)計為包含軟硬件運(yùn)行平臺、數(shù)字化專用采集和輸出設(shè)備、數(shù)字化加工管理軟件等幾大部分。整個古籍文獻(xiàn)數(shù)字化加工系統(tǒng)硬件架構(gòu)中將包含服務(wù)器、存儲設(shè)備、加工工作站(終端PC機(jī))、各類型掃描儀及網(wǎng)絡(luò)集成等。

3.1 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)拓?fù)浣Y(jié)構(gòu)圖

3.2 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)軟件

古籍文獻(xiàn)數(shù)字化加工系統(tǒng)軟件可分為數(shù)字化加工管理系統(tǒng)軟件和文獻(xiàn)數(shù)字化生產(chǎn)系統(tǒng)軟件兩大部分。軟件系統(tǒng)部署在服務(wù)器端和工位的PC機(jī)端。目前市面上成品數(shù)字化管理及生產(chǎn)系統(tǒng)軟件很多也比較成熟,可以依據(jù)古籍文獻(xiàn)數(shù)字化的具體要求直接采購使用。

3.3 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)服務(wù)器設(shè)計

古籍文獻(xiàn)數(shù)字化加工系統(tǒng)服務(wù)器可設(shè)計為數(shù)據(jù)庫及管理服務(wù)器2臺,互做雙機(jī)熱備,部署數(shù)據(jù)庫、中間件、文獻(xiàn)數(shù)字化生產(chǎn)系統(tǒng)和數(shù)字化加工管理系統(tǒng)。其中一臺兼做數(shù)據(jù)封裝服務(wù)器和數(shù)據(jù)自動處理服務(wù)器,另外一臺兼做元數(shù)據(jù)控制服務(wù)器和FTP服務(wù)器。由于有頻繁的數(shù)據(jù)處理,因此這2臺服務(wù)器建議為大內(nèi)存和多CPU。文獻(xiàn)數(shù)字化加工系統(tǒng)服務(wù)器2臺,參考配置如下:

☆4路PC服務(wù)器,配4顆Intel8核CPU。

☆內(nèi)存至少為128GB,硬盤至少配2塊1TB SAS 高速盤,做RAID1

☆至少配2個千兆網(wǎng)口,1個萬兆光口

☆配DVD,冗余電源和風(fēng)扇。

3.4 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)存儲設(shè)計

采用IP-SAN磁盤陣列作為加工系統(tǒng)存儲。目前各家IP-SAN廠商已研發(fā)出自己的卷共享軟件并能免費提供,并且其iSCSI口已支持到萬兆(10G)。iSCSI技術(shù)是一種新儲存技術(shù),該技術(shù)是將現(xiàn)有SCSI接口與以太網(wǎng)絡(luò)(Ethernet)技術(shù)結(jié)合,使服務(wù)器通過網(wǎng)絡(luò)交換機(jī)可與IP-SAN儲存進(jìn)行數(shù)據(jù)交換。文獻(xiàn)數(shù)字化加工過程中,由于有多路的請求對存儲數(shù)據(jù)進(jìn)行大量頻繁的數(shù)據(jù)讀寫,存儲控制器的緩存大小對響應(yīng)性能尤為重要,因此要求存儲系統(tǒng)至少需要128G緩存,且具備一定的擴(kuò)展能力。存儲系統(tǒng)IP-SAN的具體要求如下:

☆雙控制器,緩存為128G,有至少一倍以上的擴(kuò)展能力;

☆提供至少8個iSCSC 10G接口;

☆一定容量的SAS高速硬盤用于數(shù)據(jù)庫區(qū)和數(shù)據(jù)頻繁交換區(qū);

☆一定容量的SAS 低速硬盤用于掃描和加工數(shù)據(jù)的保存;

☆免費提供原廠的卷共享軟件和管理軟件。

3.5 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)網(wǎng)絡(luò)設(shè)計

根據(jù)以上硬件系統(tǒng)設(shè)計,加工系統(tǒng)網(wǎng)絡(luò)交換設(shè)備應(yīng)滿足2臺配有萬兆光口的服務(wù)器連接,8個iSCSI口IP-SAN連接,同時提供相應(yīng)數(shù)量的千兆網(wǎng)絡(luò)端口,能滿足古籍文獻(xiàn)加工區(qū)工位PC終端網(wǎng)絡(luò)接口的連接需求。

3.6 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)PC終端設(shè)計

依據(jù)古籍文獻(xiàn)數(shù)字化年加工量要求,可相應(yīng)配置加工系統(tǒng)終端PC機(jī)數(shù)量,具體配置如下:

☆CPU:Intel I5,內(nèi)存8G,硬盤1TB

☆2個千兆網(wǎng)口,配DVDRW

☆19寸液晶顯示器、鍵盤、鼠標(biāo)

☆預(yù)裝Windows7 32bit操作系統(tǒng)軟件。

3.7 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)掃描儀設(shè)計

古籍文獻(xiàn)數(shù)字化加工系統(tǒng)中服務(wù)器、存儲、終端PC和網(wǎng)絡(luò)集成這些硬件部分是通用的,主要的差異化來源于數(shù)字化加工的古籍文獻(xiàn)類型所帶來的區(qū)別。古籍文獻(xiàn)資源種類繁多,具有尺寸大小不一、載體材質(zhì)各不相同等諸多特點,這就要求古籍?dāng)?shù)字化加工系統(tǒng)要依據(jù)古籍文獻(xiàn)的資源類型,采用不同的前端掃描輸入設(shè)備。

(1)2A0幅面彩色古籍仿真掃描儀(適合大幅面文物、藝術(shù)品、古籍、圖書、報紙、字畫、畫冊、地圖等稿件)

主要性能參數(shù)指標(biāo):

☆頂置式掃描頭,非接觸掃描,

☆承稿臺可掃描幅面:≥1800mm×1200mm ,承稿臺采用特殊耐磨的合成材料,采集過程不會損害古籍原稿,

☆光學(xué)分辨率調(diào)節(jié)范圍:≥300Dpi至1000Dpi,

☆全自動設(shè)定:對焦、曝光時間、黑白平衡、幅面探測、自動裁切頁面等

☆輸出: (彩色)≥42-bit,(灰度)≥12-bit,(黑白)≥1-bit

輸出圖像格式:TIFF、TIFF G4、TIFF Multipage、TIFF LZW、DNG、PNG、JPEG、JPEG2000、PDF等等

(2)A1幅面彩色掃描儀(適合文物、古籍、圖書、報紙、字畫、地圖等單頁或裝訂成冊稿件)

主要性能參數(shù)指標(biāo):

☆頂置式掃描頭,臺式非接觸掃描,自動開啟式玻璃面板托書臺

☆最大原件尺寸:880×640 mm(超A1)

☆光學(xué)分辨率:600×600 dpi

☆掃描速度(彩色,A1):6.5秒/300dpi,12.3秒/600dpi

☆掃描模式:36 位彩色,12 位灰度,1 位黑白二值

☆原稿厚度:書本厚度最大為240mm,打開最大尺寸為1070 x675 mm

☆掃描方式:高解析度掃描鏡頭,8 線對/毫米,高精度掃描頭鏡頭,不失真,景深達(dá)50 毫米/2英寸

☆輸出圖像格式:TIFF 不壓縮,TIFF G4,JPEG,JP2,PDF,多頁TIFF,BNMP,PCS

(3)A2幅面彩色古籍仿真掃描儀(適合古籍、報紙、字畫、地圖等單頁或裝訂成冊稿件)

主要性能參數(shù)指標(biāo):

☆頂置式掃描頭,臺式非接觸掃描,帶完整的托書臺,自動開啟式玻璃壓稿臺

☆最大原件尺寸:635×460mm(超A2)

☆光學(xué)分辨率:600×600dpi

☆掃描速度(彩色,A2):3.5秒/300dpi,6.0秒/600dpi

☆掃描模式:36位彩色、12 位灰度,1 位黑白二值

☆原稿厚度:書本最大厚度為150毫米

☆掃描稿臺:連機(jī)書稿臺(可選90 度開合電動壓稿玻璃)

☆掃描方式:自動對焦,景深達(dá)50 毫米

☆輸出圖像格式:TIFF ,TIFF G4,JPEG,JP2,PDF,多頁TIFF,BNMP,PCS

(4)A3幅面零邊距掃描儀(適合裝訂成冊的普通古籍掃描)

主要性能參數(shù)指標(biāo):

☆進(jìn)紙方式:平臺式,邊距:不超過2mm,影像感應(yīng)器:CCD 影響感應(yīng)器

☆光學(xué)解析度:600 dpi,灰階模式:8 位元,彩色模式:24 位元

☆最大紙張規(guī)格:11.8 x 17 英吋 (299 x 431 公厘)

☆掃描速度: B&W@200 dpi, A3 : 7 秒

(5)V型彩色古籍仿真掃描儀(適合高精度古籍、拓片、輿圖、卷軸、實物拍照)

主要性能參數(shù)指標(biāo):

☆頂置式掃描頭,臺式非接觸掃描,帶完整的托書臺

☆最大原件尺寸≥455×315mm(超A3)

☆光學(xué)分辨率≥600×600dpi

☆掃描模式: 36位彩色,12位灰度,1位黑白

☆原稿厚度:書本最大厚度≥150毫米,可承受重量≥20公斤

☆掃描稿臺:V型臺可120°調(diào)整,V型玻璃臺由掃描程序自動控制升降。

☆掃描方式:自動對焦,景深≥50 毫米

☆全自動設(shè)置:對焦,曝光時間,白平衡,格式檢測

☆圖像加強(qiáng):糾偏,閾值,消手指,曲率校正

☆輸出圖像格式:TIFF, TIFF G4, 多頁 TIFF, TIFF 12 Bits, JPEG, BMP, JPEG 2000, PDF,多頁 PDF

以上列舉了目前市場主流的各類幅面掃描輸入設(shè)備類型及主要性能參數(shù)指標(biāo),在古籍文獻(xiàn)數(shù)字化加工系統(tǒng)搭建時可以依據(jù)古籍文獻(xiàn)類型有針對性配置選用。

4 結(jié)語

本文從系統(tǒng)架構(gòu)的角度給出了古籍文獻(xiàn)數(shù)字化系統(tǒng)硬件設(shè)計實現(xiàn)的一個通用方案。古籍文獻(xiàn)數(shù)字化加工系統(tǒng)的生產(chǎn)流程是古籍文獻(xiàn)的掃描、存儲、OCR識別、標(biāo)識、質(zhì)檢、成品等工作。作為文獻(xiàn)數(shù)字化生產(chǎn)系統(tǒng),除了硬件設(shè)備本身要具有實用、易搭建、可擴(kuò)展、故障率低、維護(hù)方便等特點之外,畢竟文獻(xiàn)數(shù)字化還是一個有人參與的復(fù)雜過程,文獻(xiàn)數(shù)字化的掃描工作是快速機(jī)械化的,而成品古籍?dāng)?shù)字資源的生產(chǎn)是由人工加軟件完成,這兩者之間存在著加工能力的不同,而整個生產(chǎn)又在一個統(tǒng)一的管理系統(tǒng)中完成,因此這兩個環(huán)節(jié)之間相應(yīng)的硬件設(shè)備要做好匹配。當(dāng)然還包括應(yīng)用軟件與服務(wù)器性能的匹配,掃描及加工古籍?dāng)?shù)字資源容量與存儲容量的匹配,在統(tǒng)一管理下的加工系統(tǒng)生產(chǎn)與網(wǎng)絡(luò)環(huán)境的匹配,另外還包括了加工場地生產(chǎn)環(huán)境(溫度、濕度、新風(fēng))與生產(chǎn)設(shè)備的匹配等等,實際系統(tǒng)搭建的時候只有充分考慮到這些差異化的因素,做好各分系統(tǒng)之間的協(xié)調(diào)配置,才能保證古籍?dāng)?shù)字化加工系統(tǒng)工作全流程的順暢高效。

參考文獻(xiàn)

[1] 張志清 .國家圖書館古籍保護(hù)的歷史、現(xiàn)狀和任務(wù)[M]. 杭州: 浙江省古籍出版社,2008: 7.

[2] 毛建軍.古籍?dāng)?shù)字化的概念與內(nèi)涵[J].圖書館理論與實踐,2007,(4):82-83.

作者簡介

陳英敏(1972-),男,國家圖書館數(shù)字資源部工程師,主要研究方向為文獻(xiàn)數(shù)字化加工。

猜你喜歡
古籍服務(wù)器加工
認(rèn)識“超加工食品”
中老年保健(2022年5期)2022-08-24 02:36:10
后期加工
中醫(yī)古籍“疒”部俗字考辨舉隅
關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
天一閣文叢(2020年0期)2020-11-05 08:28:06
通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計與實現(xiàn)
關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
天一閣文叢(2018年0期)2018-11-29 07:48:08
我是古籍修復(fù)師
金橋(2017年5期)2017-07-05 08:14:41
得形忘意的服務(wù)器標(biāo)準(zhǔn)
計算機(jī)網(wǎng)絡(luò)安全服務(wù)器入侵與防御
菱的簡易加工幾法
仁化县| 黑龙江省| 攀枝花市| 辽阳市| 阜新市| 杭锦后旗| 阿城市| 柯坪县| 宁波市| 万全县| 吉首市| 杭锦后旗| 金塔县| 东兴市| 平山县| 武宁县| 龙泉市| 长垣县| 洛扎县| 黄大仙区| 苏尼特右旗| 鄯善县| 吉木萨尔县| 运城市| 行唐县| 平武县| 深水埗区| 康乐县| 工布江达县| 博湖县| 广丰县| 迁西县| 宁陵县| 正镶白旗| 雷山县| 汉沽区| 和硕县| 新闻| 镇赉县| 平阳县| 永嘉县|