方杰
為保護(hù)民國(guó)時(shí)期珍貴文獻(xiàn),上海圖書(shū)館于2008年啟動(dòng)民國(guó)期刊數(shù)字化加工項(xiàng)目。該項(xiàng)目現(xiàn)已完成了一萬(wàn)多種、二十余萬(wàn)冊(cè)(期)民國(guó)期刊的數(shù)字化工作。在項(xiàng)目進(jìn)行過(guò)程中,由于民國(guó)期刊出版樣式的多樣化現(xiàn)狀,工作人員不斷改進(jìn)加工流程與系統(tǒng),降低人工成本、加快工作效率、提高產(chǎn)品質(zhì)量,保證了項(xiàng)目的順利實(shí)施,為各類(lèi)文獻(xiàn)數(shù)字化工作提供了借鑒。
民國(guó)時(shí)期文獻(xiàn)指形成于1911年至1949年這一特定歷史時(shí)期的各種知識(shí)和信息載體。由于正值中國(guó)社會(huì)急劇轉(zhuǎn)型,因此民國(guó)文獻(xiàn)具有鮮明的時(shí)代特征、學(xué)術(shù)價(jià)值和現(xiàn)實(shí)意義。然而限于諸多原因,目前民國(guó)文獻(xiàn)保護(hù)面臨諸多困難,如家底不清、保存條件不佳、酸化老化程度加劇、缺乏原生性保護(hù)、再生性保護(hù)進(jìn)展緩慢等。因此,為保護(hù)原件內(nèi)容的文化價(jià)值,必需借助數(shù)字化方式使已脆化的原件能為用戶所提取閱讀,并降低珍貴文獻(xiàn)丟失與破損的風(fēng)險(xiǎn),擴(kuò)大其利用范圍。為此,上海圖書(shū)館啟動(dòng)了民國(guó)期刊數(shù)字化加工項(xiàng)目。
數(shù)字化加工系統(tǒng)流程
民國(guó)期刊數(shù)字化加工系統(tǒng)自2008年開(kāi)始研發(fā),流程如圖1。自圖像掃描開(kāi)始,系統(tǒng)會(huì)自動(dòng)分配一個(gè)工作包ID作為基本加工單位,項(xiàng)目加工人員依次對(duì)其進(jìn)行圖像處理、版面分析、識(shí)別、縱校、橫校和版面還原等工序。
圖1 民國(guó)期刊數(shù)字化加工項(xiàng)目流程圖
掃描工序是通過(guò)系統(tǒng)自動(dòng)獲取掃描儀后,將紙質(zhì)件順次掃描為電子圖像,并在掃描完成后,打包上傳至服務(wù)器進(jìn)行圖像處理。為提高圖像的OCR識(shí)別率,在圖像處理中,需要進(jìn)行旋轉(zhuǎn)、糾斜、去噪點(diǎn)、去污等操作,圖像質(zhì)量控制程序也會(huì)自動(dòng)監(jiān)測(cè)處理質(zhì)量。然后進(jìn)入版面分析工序,簡(jiǎn)單來(lái)說(shuō),就是劃框并標(biāo)識(shí)該框?qū)傩?,如橫欄、豎欄、表格、圖像、英文等。在此工序中,系統(tǒng)有自動(dòng)版面分析和手動(dòng)版面分析兩種模式。系統(tǒng)會(huì)根據(jù)劃框的屬性將文字、數(shù)字、英文等圖像信息轉(zhuǎn)化為計(jì)算機(jī)文字和電子文字,以利于保存和閱讀。
為提高識(shí)別精確度,在識(shí)別后還將進(jìn)行縱校和橫校??v校即將一個(gè)圖像或若干個(gè)圖像中識(shí)別成同一個(gè)字的文字圖像并列顯示,并以突出顏色標(biāo)出可疑字,便于操作員發(fā)現(xiàn)錯(cuò)誤從而進(jìn)行修改。而橫校則需人工逐一校對(duì),系統(tǒng)會(huì)將單一文字、數(shù)字、外文圖像和識(shí)別出的文字分別對(duì)應(yīng)列出。加工人員據(jù)此人工對(duì)比,最終確定文字。完成上述工序后,工作人員將識(shí)別并修改好的文本分篇并標(biāo)識(shí)標(biāo)簽屬性,生成可供計(jì)算機(jī)閱讀、查詢、檢索的RTF、PDF、HTML、SGML/XML格式的數(shù)字文檔,完成整本(冊(cè))期刊的數(shù)字化流程。
文本多樣性成加工難點(diǎn)
經(jīng)過(guò)反復(fù)實(shí)踐,系統(tǒng)在加工過(guò)程中主要會(huì)遇到三大問(wèn)題。一是文獻(xiàn)管理難。上海圖書(shū)館是大型綜合性研究型公共圖書(shū)館,現(xiàn)藏中外文獻(xiàn)5300余萬(wàn)冊(cè)(件),原加工系統(tǒng)不能提供文獻(xiàn)管理功能。當(dāng)出現(xiàn)幾個(gè)工作人員同時(shí)加工一種期刊的情況時(shí)容易造成重復(fù)記錄,信息差錯(cuò)率很高,而且一旦出錯(cuò),整個(gè)工作包必須重新加工。如果沒(méi)有在后續(xù)工序中發(fā)現(xiàn)錯(cuò)誤,將造成數(shù)據(jù)重復(fù)、錯(cuò)誤等問(wèn)題,無(wú)疑影響整個(gè)項(xiàng)目的質(zhì)量。
二是掃描效果不佳。民國(guó)時(shí)期正是手工造紙向近代機(jī)械造紙和印刷過(guò)渡的時(shí)期,造紙材料混雜,制漿工藝落后。民國(guó)時(shí)期紙張壽命一般是50年至100年。上海圖書(shū)館民國(guó)文獻(xiàn)正面臨紙張酸化、老化嚴(yán)重,缺乏韌性,大量圖書(shū)變碎掉渣的情況。整本完整的圖書(shū)很難尋覓,尤其是抗戰(zhàn)文獻(xiàn)破損率達(dá)90%。加上部分紙質(zhì)過(guò)薄,且以油印方式印刷,因此透字、污損嚴(yán)重,使文獻(xiàn)掃描異常困難。在考慮了掃描質(zhì)量、圖像清晰度、存儲(chǔ)空間等因素后,項(xiàng)目使用平板掃描儀,采用300DPI的黑白掃描方式,用tif格式保存文件。遇到黃頁(yè)、透字、或者黑白掃描效果不佳的圖片則采用彩色掃描。雖然原加工系統(tǒng)在連續(xù)掃描時(shí)效果很好,但由于民國(guó)期刊的特殊性,在實(shí)際掃描過(guò)程中,人工干預(yù)程度高,連續(xù)掃描中斷多,圖片質(zhì)量不佳,掃描效率低下,日產(chǎn)量一直在600頁(yè)左右,產(chǎn)量和質(zhì)量均不能達(dá)到預(yù)期目標(biāo)。此外,由于部分圖片已經(jīng)提前掃描完成,將這些圖片導(dǎo)入系統(tǒng)時(shí),就需要手工將圖像以期(冊(cè))為單位逐一在掃描工序中上傳至系統(tǒng),經(jīng)常會(huì)發(fā)生重復(fù)上傳數(shù)據(jù)、漏傳、工作包描述張冠李戴等錯(cuò)誤,造成后續(xù)工序的延誤乃至數(shù)據(jù)錯(cuò)誤。
三是后期識(shí)別錯(cuò)誤率高。在圖像處理工序中,操作修改的功能性差,糾斜只能通過(guò)拉水平線完成,而裁剪、重命名等幾個(gè)簡(jiǎn)單的功能不能批量操作,效率低下。并且,與現(xiàn)刊書(shū)籍的高識(shí)別率相比,民國(guó)期刊因紙質(zhì)、保存狀況、印刷技術(shù)、部分手寫(xiě)體出版等原因,識(shí)別率最高只能達(dá)到80%左右,且半數(shù)以上的圖像識(shí)別率在60%以下。同時(shí),由于民國(guó)的文字還不規(guī)范,漢字簡(jiǎn)繁混合、異形字、錯(cuò)別字很多,縱校的批量性優(yōu)勢(shì)難以體現(xiàn),不能降低橫校的工作量。且標(biāo)簽信息(標(biāo)題、作者、團(tuán)體、作者、欄目、備注等)的標(biāo)引工作沒(méi)有工序進(jìn)行校驗(yàn),導(dǎo)致成品有多達(dá)15%的差錯(cuò)率??傊?,由于識(shí)別產(chǎn)量低下,在設(shè)計(jì)項(xiàng)目人工額定的情況下,難以保證工作進(jìn)度。
因勢(shì)利導(dǎo),完善系統(tǒng)
為增加產(chǎn)量,提高質(zhì)量,工作人員在綜合考慮各方意見(jiàn)后對(duì)加工系統(tǒng)進(jìn)行了以下修改。首先是建立“劃到系統(tǒng)”?!皠澋较到y(tǒng)”是上海圖書(shū)館為更好管理民國(guó)期刊刊名庫(kù)而單獨(dú)設(shè)計(jì)開(kāi)發(fā)的一個(gè)系統(tǒng),使刊名庫(kù)與全國(guó)報(bào)刊索引平臺(tái)實(shí)現(xiàn)無(wú)縫對(duì)接。
其次是重新定義掃描工序、識(shí)別工序和版面還原。經(jīng)過(guò)重新定義,掃描工序能自動(dòng)提取指定目錄下的各子文件夾中所有圖像,根據(jù)目錄依次上傳服務(wù)器,并在工作包描述記錄文件目錄。而重新定義識(shí)別工序后,增加了標(biāo)簽信息的檢驗(yàn)。雖然相當(dāng)于增加了10%的工作量,但由于將標(biāo)簽信息提前帶入流程,使得后續(xù)校對(duì)工序可以同時(shí)幫助校驗(yàn)標(biāo)簽信息,從而在總體上提高了工作效率。在重新定義版面還原后,可直接通過(guò)識(shí)別工序的標(biāo)引信息,自動(dòng)進(jìn)行版面還原,按要求生成PDF和TXT文件。因?yàn)榉侨斯げ僮?,從而杜絕了意外錯(cuò)誤。
再次,停用縱校功能,直接進(jìn)行橫校,使工作效率提高了35%左右。而在增加手寫(xiě)模塊復(fù)制功能后,將高頻率使用的“標(biāo)簽信息”+“內(nèi)容”成組保存,在需要時(shí)可直接復(fù)制到手寫(xiě)輸入?yún)^(qū),提高了輸入效率。在所有加工完成后,還將進(jìn)行整體合理性檢查、抽樣人工檢查,從而控制產(chǎn)品質(zhì)量。
通過(guò)以上措施,民國(guó)期刊數(shù)字化流程改為劃到、掃描、圖像校對(duì)、掃描上傳、識(shí)別、橫校、版面還原、質(zhì)量監(jiān)控八個(gè)工藝流程。在加工過(guò)程中,以80%的項(xiàng)目預(yù)設(shè)人工完成了全部任務(wù),取得了良好效果。
民國(guó)期刊等老舊文獻(xiàn)數(shù)字化加工項(xiàng)目都存在文獻(xiàn)本身的不確定性和特殊性,固定的加工流程不能滿足所有文獻(xiàn)數(shù)字化的加工要求,因此在實(shí)踐中需要一直不斷完善現(xiàn)有加工系統(tǒng),用數(shù)字化方式延續(xù)文化的生命。