李曉明(國家圖書館 北京 100081)
中文字符數(shù)轉(zhuǎn)模清晰度研究*
李曉明(國家圖書館 北京 100081)
中、英文字符在結(jié)構(gòu)、數(shù)量、字體等方面存在差異,相較來說,中文字符需要的線對數(shù)要求更高。數(shù)轉(zhuǎn)模技術(shù)結(jié)合中文字符的特征,以文字使用頻率和筆畫復(fù)雜度為遴選依據(jù),確定中文典型字符。以中文典型字符為研究對象,采用縮微影像可讀性質(zhì)量分析、文字光學(xué)等級測算和實驗驗證等方法進(jìn)行分析,有助于厘清解像力、縮率與字符高度等要素的關(guān)系,提出數(shù)轉(zhuǎn)模技術(shù)對被拍攝中文字符高度的要求。中文字符數(shù)轉(zhuǎn)模工作的順利開展,有利于保證文獻(xiàn)拍攝清晰度符合要求,實現(xiàn)對文獻(xiàn)的保護(hù)。
數(shù)轉(zhuǎn)模 光學(xué)等級 中文字符 解像力
數(shù)轉(zhuǎn)模技術(shù)是將數(shù)字圖像通過數(shù)字存檔機(jī)轉(zhuǎn)換到縮微膠片上進(jìn)行長期保存的技術(shù),是對珍貴數(shù)字資源異質(zhì)備份的有效手段,是數(shù)字資源長期保存的有效途徑。
近年來,全國圖書館文獻(xiàn)縮微復(fù)制中心(以下簡稱縮微中心)帶領(lǐng)多家成員館開展了數(shù)轉(zhuǎn)模轉(zhuǎn)換和設(shè)備研發(fā)工作,并從中發(fā)現(xiàn)了數(shù)轉(zhuǎn)模技術(shù)影像質(zhì)量標(biāo)準(zhǔn)中存在的問題。當(dāng)前國內(nèi)數(shù)轉(zhuǎn)模技術(shù)所采用的相關(guān)標(biāo)準(zhǔn)均由國外標(biāo)準(zhǔn)轉(zhuǎn)化而來,而以國外相關(guān)標(biāo)準(zhǔn)考察中文文獻(xiàn)縮微影像,其清晰度并未達(dá)到理想水平。這是由于中文字符與英文字符在文字結(jié)構(gòu)上的差異造成的。然而在實際工作中,這一點并沒有引起業(yè)界重視。業(yè)界普遍認(rèn)為以120線對/毫米的解像力標(biāo)準(zhǔn)進(jìn)行數(shù)轉(zhuǎn)模轉(zhuǎn)換便可得到令人滿意的影像,而忽略了字符結(jié)構(gòu)的復(fù)雜程度對文字影像清晰度的影響。在此情況下,制定一套針對中文字符的數(shù)轉(zhuǎn)模技術(shù)標(biāo)準(zhǔn)來規(guī)范我國數(shù)轉(zhuǎn)模技術(shù)應(yīng)用,是現(xiàn)階段亟待開展的工作。本文對中文字符進(jìn)行系統(tǒng)分析,找出中文字符典型特征與數(shù)轉(zhuǎn)模各項技術(shù)參數(shù)之間的關(guān)系,從而提出中文字符原件的標(biāo)準(zhǔn)要求,為中文字符數(shù)轉(zhuǎn)模技術(shù)標(biāo)準(zhǔn)的制定提供理論基礎(chǔ)。
中文字符結(jié)構(gòu)是指字符的形體和筆畫的復(fù)雜程度。在數(shù)轉(zhuǎn)模領(lǐng)域,字符結(jié)構(gòu)是需要重點關(guān)注的,它和系統(tǒng)解像力、拍攝倍率、字符高度以及文獻(xiàn)的背景反差等縮微技術(shù)參數(shù)共同作用,決定著字符影像的清晰程度。
根據(jù)國家標(biāo)準(zhǔn)GB/T 16573-2008的早期版本GB/T 16573-1996《縮微攝影技術(shù)——在16mm和35mm銀明膠型縮微卷片上拍攝文獻(xiàn)的操作程序》中附錄D顯示,每個字符都有一定的光學(xué)等級(符號為C),并通過下列公式計算:C=H/d。其中,H為字型的大寫字符的高度,d為基本細(xì)部尺寸(基本細(xì)部可以理解為字符的最小線條寬度)[1]。
通過上述公式可以看到,在中文字符結(jié)構(gòu)方面影響字符影像清晰度的關(guān)鍵在于字符的線條寬度。字符的結(jié)構(gòu)越復(fù)雜,則線條寬度越小,光學(xué)等級越高。而光學(xué)等級越高代表字符可讀性越低。
在數(shù)轉(zhuǎn)模技術(shù)參數(shù)中,系統(tǒng)解像力為拍攝系統(tǒng)的固定參數(shù),按國家標(biāo)準(zhǔn)要求應(yīng)達(dá)到120線對/毫米;文獻(xiàn)的背景密度反差可通過曝光技術(shù)使其符合國家標(biāo)準(zhǔn),其中涉及的變量是拍攝倍率、字符高度和字符線條寬度。
若要根據(jù)參數(shù)關(guān)系,獲得數(shù)轉(zhuǎn)模字符標(biāo)準(zhǔn),則需要固定字符線條寬度,從而對其他兩項參數(shù)進(jìn)行分析和研究。固定字符線條寬度的前提是明確研究對象,即遴選出中文典型字符。
表1 中文字符筆畫與使用頻率統(tǒng)計分析表
對于英文字符,通常選用小寫字母“e”為典型字母,這是由于在英文文獻(xiàn)印刷時,“e”字的清晰度最小。如果“e”的清晰度符合預(yù)定要求,那么其他字符的清晰度則都可以達(dá)到標(biāo)準(zhǔn)。1956年,美國NBS攝影技術(shù)部制作了“NBS解像力測試圖卡的使用法”手冊,其中有關(guān)于縮微膠片清晰度的鑒別基準(zhǔn)項目,均采用字母“e”作為典型字符。然而,中文字符的識別與英文字符相比存在著很大的差異,如二者在字符遠(yuǎn)近粘連、字體字符數(shù)量、形狀拓?fù)洳顒e等方面各具特殊性。所以,在中文字符的清晰度鑒別上,“e”并不能作為參照,需要選取相應(yīng)的中文典型字符。
在中文典型字符的選取過程中,我們以《通用規(guī)范漢字表》為基礎(chǔ),其將中文字符總共分為三級:一級字表為常用字集,收字3 500個,主要滿足基礎(chǔ)教育和文化普及的基本用字需要。二級字表收字3 000個,使用度僅次于一級字。一、二級字表合計6 500字,主要滿足出版印刷、辭書編纂和信息處理等方面的一般用字需要。三級字表收字1 605個,為姓氏人名、地名、科學(xué)技術(shù)術(shù)語和中小學(xué)語文教材文言文用字中未進(jìn)入一、二級字表的較通用的字,主要滿足各專門領(lǐng)域的用字需要[2]。在選取的過程中,我們以一級字表中的字符為選取范圍,以筆畫密度高、使用頻率高為原則,進(jìn)行典型字符的篩選。中文字符結(jié)構(gòu)復(fù)雜,僅選出某一文字作為典型字符是不具備代表性的。因此,筆者結(jié)合多重判斷條件,遴選出一組字符作為研究對象,結(jié)合相關(guān)漢字的使用頻率表和漢字的筆畫復(fù)雜程度[3],制作了數(shù)據(jù)統(tǒng)計分析表,如表1所示。
根據(jù)對一級字表中的漢字的橫畫進(jìn)行統(tǒng)計,結(jié)合漢字的復(fù)雜程度與字符的檢出率,我們初步確定中文典型字符為 “是”“事”“藏”“最”“露”“量”“警”“矗”。
在確定中文典型字符的基礎(chǔ)上,我們需要結(jié)合縮微技術(shù)成像原理及相關(guān)標(biāo)準(zhǔn),對上述字符進(jìn)行分析研究。首先確定字符線條寬度,從而得到拍攝縮率和字符高度之間的對應(yīng)關(guān)系,即在系統(tǒng)解像力為120線對/毫米的國家標(biāo)準(zhǔn)條件下,找出不同縮率對應(yīng)的被拍攝原件文字高度標(biāo)準(zhǔn)的計算方法。
在中文典型字符分析中,筆者采用的方法是字符縮微影像可讀性質(zhì)量分析法,分析對象是上述典型中文字符中最為復(fù)雜的“警”和“矗”。
在分析研究中,除了考慮文字本身的選取以外,我們還要考慮典型字符的字體。不同字體的光學(xué)等級不同,可識別程度也不同,因此典型字符的字體也是決定字符線條寬度的關(guān)鍵因素。在字體的選擇上,我們利用光學(xué)等級計算公式,對較為常用的宋體、楷體、黑體、隸書進(jìn)行初步測算,每種字體所對應(yīng)的光學(xué)等級數(shù)值如表2所示。
表2 不同字體對應(yīng)的光學(xué)等級數(shù)值
從表2我們可以看出,宋體的光學(xué)等級最高,也就是識別度最差。因此,我們選擇宋體為研究對象的字體,便于適用到中文字符所有字體。
在選定典型字符和字體的基礎(chǔ)上,我們需要對字符線條寬度進(jìn)行測量,并利用字符縮微影像可讀性質(zhì)量分析方法進(jìn)行進(jìn)一步分析研究。
字符縮微影像可讀性質(zhì)量分析可借鑒小穴純教授針對日文漢字縮微影像可讀性的研究成果。他在理論分析的基礎(chǔ)上提出了影像質(zhì)量的計算公式和像質(zhì)分級標(biāo)準(zhǔn),最終指出:日文漢字縮微影像的可讀性質(zhì)量(Q),與原件上漢字兩相鄰線條的最小距離,即細(xì)密度(S)和攝影解像力(R)成正比,而與拍攝時的縮率(M)成反比[4],如圖1所示計算公式為:
同時,將Q值分為3個質(zhì)量等級,分別為:
Q≥2.5 影像清晰
2.5 > Q≥1 影像可分辨
Q<1 影像不清晰
圖1 字符高度與細(xì)密度圖示
為了力求精確,筆者在word中將文字大小設(shè)置為700磅,對文字的高度及細(xì)密度進(jìn)行測量,并計算出高度與細(xì)密度的比值,結(jié)果如表3所示。
結(jié)合數(shù)轉(zhuǎn)模設(shè)備、膠片和光學(xué)成像原理,筆者將系統(tǒng)解像力設(shè)定為國家標(biāo)準(zhǔn)中要求的120線對/毫米,將縮率隨機(jī)設(shè)定為7.4、10.5和14.8,將質(zhì)量等級設(shè)定為2.5及1.0,帶入公式1,并參照表3中計算出的文字高度與細(xì)密度的比值,可推算出中文字符的最小高度要求,如表4、表5、表6所示。
表3 基于不同文字的影像可讀性分析表
表4 “e”字字高數(shù)值對照表
表5 “警”字字高數(shù)值對照表
表6 “?!弊肿指邤?shù)值對照表
上述理論分析是在解像力符合國家標(biāo)準(zhǔn)的情況下,在不同字符、不同縮率、不同安全系數(shù)條件下,對文字的最小高度要求。從表4、表5、表6可以看出,數(shù)轉(zhuǎn)模技術(shù)對中、英文字符的最小字符要求差距較大。經(jīng)分析,筆者認(rèn)為,“?!弊譃檩^復(fù)雜的常用文字,在一定程度上能體現(xiàn)常用中文字符的復(fù)雜程度。因此,在系統(tǒng)解像力為120線對/毫米、縮率為7.4時,原始文獻(xiàn)文字高度需高于2.4毫米;縮率為10.5時,原始文獻(xiàn)文字高度需高于3.41毫米;縮率為14.8時,原始文獻(xiàn)文字高度需高于4.81毫米。
這里需要說明的是,上述結(jié)論只適用于印刷字體,而不適用于手稿、油印件或是質(zhì)量較差的原件。
為驗證上述理論值是否可靠,我們選用3張數(shù)轉(zhuǎn)模設(shè)備檢測標(biāo)板,分別為7.4倍、10.5倍和14.8倍,以“是”“事”“藏”“最”“露”“量”“警”“矗”8個字符作為檢驗字符,如圖2所示,用數(shù)轉(zhuǎn)模設(shè)備OP300進(jìn)行拍攝,采用FP505沖洗機(jī)進(jìn)行沖洗,在顯微鏡下觀察試片、文字清晰度和文字高度。
5.1 觀察方法及原則
在觀察過程中,首先觀察固定縮率下能看清楚的文字高度,然后觀察在此縮率下所看到的測試圖的讀數(shù),并詳細(xì)記錄。按照此方法對7.4倍、10.5倍和14.8倍3塊標(biāo)板進(jìn)行觀察,并記錄觀察數(shù)據(jù)。用顯微鏡觀察測試圖樣時,如果某個測試圖樣上兩個方向的線條都能區(qū)別清楚且筆畫等寬,則認(rèn)為是可以分辨的;如果出現(xiàn)有某個筆畫突然變細(xì)的情況,則判定此字不能分辨清楚。按上述原則讀取并記錄可分辨的最小圖樣和最小字符高度。
5.2 實驗結(jié)果
圖2 實驗用技術(shù)標(biāo)板
筆者綜合表7數(shù)據(jù)與表5和表6中文字高度的理論數(shù)值進(jìn)行對比,考慮拍攝、沖洗等環(huán)節(jié)導(dǎo)致的誤差等因素,可以判斷實驗數(shù)據(jù)與理論數(shù)據(jù)基本吻合,可證明上述推斷方法具有參考意義。
表7 實驗中縮率、解像力、字高對應(yīng)關(guān)系表
6.1 中文字符標(biāo)準(zhǔn)要求
根據(jù)上述理論分析及實驗結(jié)果,在將質(zhì)量等級設(shè)定為2.5的情況下,數(shù)轉(zhuǎn)模工作可將字符高度標(biāo)準(zhǔn)要求設(shè)定如表8所示。
表8 文字高度與縮率、解像力關(guān)系
本文所選典型字符為中文字符中最為復(fù)雜的文字,因此,在制定標(biāo)準(zhǔn)時,文字高度最小值不必完全按照理論值進(jìn)行設(shè)定。在實際工作中,數(shù)轉(zhuǎn)模工作者可結(jié)合工作項目情況和文字特點,自行選取典型字符按上述方法計算文字高度標(biāo)準(zhǔn)。同時,在質(zhì)量等級的選擇上,數(shù)轉(zhuǎn)模工作者可根據(jù)項目需求在1到2.5之間選擇。
6.2 數(shù)轉(zhuǎn)模中文字符標(biāo)準(zhǔn)應(yīng)用情況
自2011年縮微中心開始數(shù)轉(zhuǎn)模工作,截止到2015年底完成約140萬拍的數(shù)字文獻(xiàn)搶救工作,建立了完善的工作流程與攝制標(biāo)準(zhǔn),并且將上述理論應(yīng)用于實際工作中。
以地方志數(shù)字資源轉(zhuǎn)換為縮微膠片工作為例,縮微中心在數(shù)字文獻(xiàn)選取之初,先對文獻(xiàn)進(jìn)行整理,測量待拍攝原件原始尺寸及文字高度。根據(jù)文獻(xiàn)原始尺寸確定拍攝縮率,以確保文獻(xiàn)影像大小符合國家標(biāo)準(zhǔn)。之后結(jié)合已確定的縮率和文獻(xiàn)文字高度,確定文獻(xiàn)拍攝清晰度是否符合要求。目前,地方志數(shù)轉(zhuǎn)模項目采用雙畫幅拍攝,縮率在10~14倍之間,按照表8 的縮率與文字高度的對應(yīng)關(guān)系,最小文字高度應(yīng)在4.05毫米到5.7毫米之間。若文字高度低于此標(biāo)準(zhǔn),則利用120線對/毫米的解像力將無法得到完全清晰的縮微影像,這就需要通過提高系統(tǒng)解像力來提升影像的清晰度。目前,縮微中心所拍攝的地方志的文獻(xiàn)高度一般在6.5毫米左右,已高于該項目文字高度要求,經(jīng)質(zhì)檢檢驗,拍攝的文獻(xiàn)清晰度符合要求。
中、英文字符在結(jié)構(gòu)、數(shù)量、字體等多方面存在差異,中文字符結(jié)構(gòu)比英文字符更為復(fù)雜,字符細(xì)密度相差很大,在相同清晰度下,相應(yīng)需要的線對數(shù)要求更高。數(shù)轉(zhuǎn)模技術(shù)在中文字符拍攝時需緊密結(jié)合中文字符的特征,將字體的光學(xué)等級與數(shù)轉(zhuǎn)模成像特點結(jié)合起來進(jìn)行分析,進(jìn)而確定中文字符在數(shù)轉(zhuǎn)模選取拍攝原始文件字體高度、縮率及解像力要求。同時,鑒于漢字結(jié)構(gòu)所具有的復(fù)雜性、多樣性和密集性等特點,數(shù)轉(zhuǎn)模工作還需要在后期大量實驗基礎(chǔ)上,對前期數(shù)據(jù)進(jìn)行不斷修正與整合,建立適合數(shù)轉(zhuǎn)模中文字符影像質(zhì)量控制方法,保證國內(nèi)數(shù)轉(zhuǎn)模的拍攝質(zhì)量。
[1]GB/T 16573-1996縮微攝影技術(shù)——在16mm和35mm銀明膠型縮微卷片上拍攝文獻(xiàn)的操作程序[S].北京:中國標(biāo)準(zhǔn)出版社,1996.
[2]教育部國家語言文字工作委員會.通用規(guī)范漢字表[M].北京:語文出版社, 2013:4-41.
[3]漢字使用頻率統(tǒng)計[EB/OL].[2016-03-21].http://wenku.baidu.com/view/0902c8cf05087632311212b3.html.
[4]中國檔案學(xué)會檔案縮微技術(shù)委員會.第一次檔案縮微技術(shù)討論會論文選集 [C].北京:檔案出版社, 1991:141-143.
Research on the Technology of COM Concentrated on the Field of Chinese Characters
Chinese characters need higher logarithmic demand for the differences in structure, amount and font features between Chinese and English characters.The technology of COM(Computer Output Microfilm) determines typical Chinese characters by combining the features of Chinese characters, and using the frequency and the complexity of the strokes as the selection basis.It is helpful to analyze the relationship of resolution, shrinkage and text height, and determine the requirements in height of the Chinese characters in technology of COM to take typical Chinese characters as research object, and analysing by readability quality estimation method, text optical grade calculations and experimental verification methods.The development of COM would protect the documents and ensure the film clarity of the documents.
Computer Output Microfilm(COM); Optical grade; Chinese characters; Resolution
G255.72
A
*本文系2015年度國家文化科技提升計劃項目“中文字符數(shù)轉(zhuǎn)模技術(shù)研究”的成果之一,項目編號:2015-05。
李曉明 女,1970年生,現(xiàn)工作于國家圖書館,副研究館員,研究方向為文獻(xiàn)保存保護(hù)及數(shù)字化服務(wù),已發(fā)表論文10余篇。
2016-03-31 ]