◆郭 軍
(鐵道警察學(xué)院 河南 450000)
基于OCR軟件性能的文本型數(shù)字圖像OCR識別準(zhǔn)確度提高策略研究
◆郭 軍
(鐵道警察學(xué)院 河南 450000)
本文以O(shè)CR軟件性能為視角,從對圖像噪聲的免疫力、對標(biāo)點符號的辨識、數(shù)字圖像預(yù)處理能力、能夠辨識的內(nèi)容范圍、交互界面便捷性、軟件自學(xué)習(xí)功能等7個方面對OCR識別準(zhǔn)確度的影響因素展開分析,并提出相應(yīng)針對性的應(yīng)對策略。
OCR識別;文本型數(shù)字圖像;信息資源數(shù)字化
OCR(Optical Character Recognition,光學(xué)字符識別)這一概念最早于1929年由德國科學(xué)家Tausheck提出[1]。信息資源數(shù)字化工作的目標(biāo)對象,是大量甚至海量的紙質(zhì)載體或固體載體形態(tài)的文獻(xiàn)資源,OCR憑借自身的智能識別及批量操作性能得以在信息資源數(shù)字化工作中廣泛應(yīng)用。信息資源數(shù)字化工作中的 OCR識別,其生命周期可以劃分為數(shù)字掃描對象的獲取、數(shù)字圖像的生產(chǎn)、數(shù)字圖像的處理和OCR文本識別等四個階段[2]。OCR文本識別,是信息資源數(shù)字化 OCR識別生命周期中的最后階段,是決定識別準(zhǔn)確度的關(guān)鍵階段。本文嘗試以O(shè)CR軟件性能為視角,對 OCR識別階段影響識別準(zhǔn)確度的相應(yīng)因素展開分析并提出針對性的應(yīng)對策略。
筆者曾借助具體的 OCR識別案例對清華紫光股份有限公司的 TH-OCR MF7.5、北京漢王科技股份有限公司的HW-PDF-OCR8.0等兩款常用OCR識別軟件的性能進(jìn)行分析[3],結(jié)果表明 OCR識別階段軟件性能是影響是識別準(zhǔn)確度的關(guān)鍵因素。具體而言,文本識別階段OCR 軟件的性能優(yōu)劣主要體現(xiàn)在對形近字符的辨識、對圖像噪聲的免疫力、對標(biāo)點符號的辨識、數(shù)字圖像預(yù)處理能力、能夠辨識的內(nèi)容范圍、交互界面便捷性、軟件自學(xué)習(xí)功能等7個方面。
1.1 對形近字符的辨識
文本型數(shù)字圖像的 OCR識別,實際上是基于字符圖案筆畫邊緣特征的模板匹配過程[4]。形近字符(如“籍”和“藉”、“璧”和“壁”)之間在筆畫邊緣部分存在較大相似度,辨識過程中容易造成 OCR軟件的誤判。信息資源數(shù)字化實踐證明,因誤判形近字符造成的錯誤識別在影響OCR識別準(zhǔn)確度的眾多因素中穩(wěn)居前列。
1.2 對數(shù)字圖像噪聲的“免疫力”
在對文本型數(shù)字圖像進(jìn)行 OCR識別之前,通常均已經(jīng)過了數(shù)字圖像的預(yù)處理操作,一般都對數(shù)字圖像中的噪聲進(jìn)行了降噪處理。但是,受數(shù)字圖像預(yù)處理程度、文本型數(shù)字圖像自身質(zhì)量等因素影響,在對文本型數(shù)字圖像進(jìn)行 OCR識別時數(shù)字圖像中往往仍然存在著不同程度的噪聲。因此,OCR識別軟件必須對數(shù)字圖像中的噪聲具備一定的抗干擾能力。
1.3 對標(biāo)點符號的辨識
文本型數(shù)字圖像中的標(biāo)點符號具備字符圖案體積小、所處空間位置特殊等兩個顯著特點。標(biāo)點符號字符圖案體積小,容易與其臨近的文字字符圖案混為一體,造成 OCR軟件的錯誤辨識。標(biāo)點符號字符圖案所處空間位置偏僻、且成對出現(xiàn)的標(biāo)點符號的不同部分之間往往有文字字符圖案,容易對OCR軟件的完整、準(zhǔn)確辨識造成干擾。
1.4 數(shù)字圖像預(yù)處理能力
在對文本型數(shù)字圖像(尤其是原始印刷、排版質(zhì)量欠佳的數(shù)字圖像)進(jìn)行正式識別之前,需要借助 OCR軟件的圖像預(yù)處理功能對數(shù)字圖像進(jìn)行微調(diào),微調(diào)效果對識別準(zhǔn)確度有直接影響。OCR軟件的圖像預(yù)處理功能主要包括圖像旋轉(zhuǎn)、傾斜矯正、剪切以及亮度、對比度、飽和度、清晰度調(diào)整等。
1.5 支持辨識的內(nèi)容范圍
文本型數(shù)字圖像中的字符信息,在語言種類、字體類別、字號大小等方面經(jīng)常呈現(xiàn)出混合排列的現(xiàn)象,部分?jǐn)?shù)字圖像的文本內(nèi)容為手寫體稿件,部分?jǐn)?shù)字圖像的文本內(nèi)容中在打印版字符圖案旁還存在手寫體批注內(nèi)容。OCR軟件能夠支持辨識的內(nèi)容范圍,不僅應(yīng)包括常規(guī)印刷版面的數(shù)字圖像,還應(yīng)支持對綜合、復(fù)雜版面數(shù)字圖像的辨識。
1.6 交互界面便捷性
信息資源數(shù)字化操作過程中,OCR軟件交互界面的友好、便捷程度會對操作人員的使用舒適性和最終的識別準(zhǔn)確度造成影響。OCR軟件交互界面的便捷性主要體現(xiàn)在頁面及窗口切換、快捷鍵及工具欄設(shè)計、鍵盤操作和鼠標(biāo)操作的兼容性、數(shù)據(jù)輸入、編輯及輸出保存的便利程度等方面。
1.7 軟件自學(xué)習(xí)功能
信息資源數(shù)字化過程中,同一字符圖案的辨識會經(jīng)常反復(fù)多次出現(xiàn)。對同一字符圖案的辨識,其操作具有統(tǒng)一性與穩(wěn)定性。為確保識別準(zhǔn)確度,OCR軟件應(yīng)具備一定程度的自學(xué)習(xí)功能,自動記憶存儲并強(qiáng)化對部分特殊字符圖案(形近字符、易混字符、簡寫手稿等)的辨識結(jié)果,并與具體的實踐操作保持同步更新。
基于上述對OCR文本識別階段識別準(zhǔn)確度影響因素的分析,筆者認(rèn)為應(yīng)圍繞強(qiáng)化OCR軟件性能,從強(qiáng)化對形近字符的辨識、提高對數(shù)字圖像噪聲的“免疫力”、增強(qiáng)對標(biāo)點符號的辨識、提高數(shù)字圖像預(yù)處理能力、拓展支持辨識的內(nèi)容范圍、增強(qiáng)交互界面便捷性、強(qiáng)化用戶自學(xué)習(xí)功能等7個方面著手提高文本型數(shù)字圖像的OCR識別準(zhǔn)確度。
2.1 強(qiáng)化對形近字符的辨識
(1)豐富形近字字符特征信息庫
OCR軟件對字符圖案的辨識,基于被識別字符圖案特征與OCR軟件自身字符特征信息庫的比對。OCR軟件形近字符特征信息庫,是其對形近字符進(jìn)行辨識的基礎(chǔ)和前提。為提高對形近字符的識別率,OCR軟件應(yīng)將各語種、各字體的形近字符特征抽取存儲至自身字符特征信息庫中,并在具體實踐過程中將其不斷豐富、完善。
(2)優(yōu)化形近字符匹配算法
OCR識別的核心和關(guān)鍵,在于被識別字符圖案特征和 OCR軟件自身字符特征庫之間的匹配算法。形近字符匹配算法,基于KMP算法、Horspool算法、BM算法、Shift-And算法等幾種常見的字符串匹配算法演變而來。不同的形近字符匹配算法,其出發(fā)點不同、匹配識別策略不同,相應(yīng)地對不同形近字符的適應(yīng)能力也不同。信息資源數(shù)字化操作實踐過程中,應(yīng)根據(jù)被識別對象的具體情況選擇合適算法的OCR軟件。
(3)加強(qiáng)人工抽驗與校對
任何一種形近字符匹配算法,在存在其識別強(qiáng)項的同時也不可避免地存在著識別盲區(qū)。因此,無論選用何種算法的 OCR軟件,信息資源數(shù)字化過程中均需要有必要的人工校正干預(yù)環(huán)節(jié)。具體實踐中,對識別結(jié)果進(jìn)行全部校正不現(xiàn)實也沒必要,可采用科學(xué)抽樣的方法抽取一定數(shù)量的識別結(jié)果進(jìn)行人工校正,以彌補(bǔ)OCR軟件對形近字符的識別誤差。
2.2 提高對數(shù)字圖像噪聲的“免疫力”
在對數(shù)字圖像進(jìn)行 OCR識別之前,如果原始數(shù)字圖像中噪點明顯且大量存在,需要先對其進(jìn)行降噪處理。但是,信息資源數(shù)字化實踐中對全部的原始數(shù)字圖像進(jìn)行降噪處理將會耗費大量的人力和時間成本。即便對原始數(shù)字圖像進(jìn)行降噪處理,實踐證明無論如何調(diào)整濾波方案,均無法完全去除數(shù)字圖像中的噪點。同時,如果對原始數(shù)字圖像進(jìn)行過度濾波處理,容易對數(shù)字圖像中的字符細(xì)節(jié)特征造成損壞,反而會干擾OCR精確識別。因此,OCR軟件自身應(yīng)具備一定程度的對數(shù)字圖像噪聲的抗干擾能力,這是信息資源數(shù)字化流程中對抗數(shù)字圖像中噪聲的最后一道防線。
2.3 增強(qiáng)對標(biāo)點符號的辨識
提高對文本型數(shù)字圖像中標(biāo)點符號的識別率,應(yīng)緊緊圍繞標(biāo)點符號字符圖案體積小、所處空間位置特殊這兩個特點進(jìn)行。可以借助提高對原始文獻(xiàn)資料的掃描分辨率,來克服標(biāo)點符號字符圖案體積小的困難,但是同時應(yīng)注意如果分辨率過高反而會影響識別速度和整體識別率[5]。可以通過提高OCR 軟件對數(shù)字圖像中各字符圖案的切分精確度,來克服標(biāo)點符號所處空間位置特殊的困難。
2.4 提高數(shù)字圖像預(yù)處理能力
在對文本型數(shù)字圖像OCR識別之前,應(yīng)對其進(jìn)行必要的預(yù)處理操作。為確保識別準(zhǔn)確度,筆者認(rèn)為 OCR軟件的數(shù)字圖像預(yù)處理性能應(yīng)主要包括以下6個方面:
(1)圖像傾斜校正
因原始文獻(xiàn)資料印刷排版質(zhì)量或物理損傷,造成文本型數(shù)字圖像中的字符偏離水平或垂直方向,影響 OCR軟件對其進(jìn)行文本定位和字符分割,進(jìn)而影響后續(xù)的識別準(zhǔn)確度。因此,OCR識別之前應(yīng)進(jìn)行數(shù)字圖像傾斜校正,OCR軟件應(yīng)具備自動校正和人工校正兩種校正功能。實際操作中,一般是以自動校正為主,必要情況下用人工校正作為補(bǔ)充。
(2)圖像反白
數(shù)字圖像經(jīng)二值化處理之后,數(shù)字圖像中的字符圖案呈黑色,其余背景部分呈白色。經(jīng)反白處理之后,數(shù)字圖像中的字符圖案呈白色,其余背景部分呈黑色。借助圖像反白處理,可以在黑色背景下把存在于數(shù)字圖像中的噪點凸顯出來,便于后續(xù)的降噪處理。
(3)圖像版面分析
在版面語種方面,OCR軟件應(yīng)支持對常見語種(如中文、英文、法文、德文)及混合語種內(nèi)容版面的分析能力,應(yīng)能夠根據(jù)版面語種的不同采取相應(yīng)的版面分析策略。在原始文獻(xiàn)資料的出版物類型方面,OCR軟件應(yīng)支持對圖書、期刊、報紙等常見出版類型的版面分析能力,應(yīng)能夠根據(jù)出版類型的不同采取相應(yīng)的版面分析策略。在版面分析功能類型方面,OCR軟件應(yīng)提供自動版面分析和手動版面分析兩種選擇,應(yīng)支持常規(guī)情況下進(jìn)行自動版面分析,特殊情況下輔以人工版面分析。
(4)版面屬性設(shè)置
文本型數(shù)字圖像在語種、字體、排版等方面的存在較大差別,尤其是部分文本型數(shù)字圖像出現(xiàn)多語種、多字體、多版型混合排版的情況。因此,針對有特殊排版情況的文本型數(shù)字圖像,OCR軟件在對其進(jìn)行識別之前應(yīng)進(jìn)行針對性的版面屬性設(shè)置以確保精確識別。
(5)圖像旋轉(zhuǎn)
因原始文獻(xiàn)資料印刷排版質(zhì)量或者數(shù)字掃描成像階段操作不慎,容易造成文本型數(shù)字圖像在水平或垂直方向上產(chǎn)生一定角度的傾斜。為確保對文本型數(shù)字圖像的精確識別,OCR軟件應(yīng)具備圖像旋轉(zhuǎn)功能,一般應(yīng)支持在順時針(或逆時針)方向上連續(xù)旋轉(zhuǎn)90度,并支持在順時針(或逆時針)方向上連續(xù)旋轉(zhuǎn)任意角度以供選擇。
(6)圖像剪裁
因原始文獻(xiàn)資料印刷排版質(zhì)量欠佳,或流通使用過程中產(chǎn)生污損,或在數(shù)字掃描成像階段操作不慎,容易在文本型數(shù)字圖像邊沿或文字區(qū)域形成明顯的噪點。借助數(shù)字圖像剪裁功能,OCR軟件可以輕松去除這部分噪點。
2.5 拓展支持辨識的內(nèi)容范圍
信息資源數(shù)字化實踐中,原始文獻(xiàn)資料在載體形態(tài)、語種、字體、字號等方面呈現(xiàn)出多樣性和復(fù)雜性的特點。為確保精確識別,OCR軟件在面對種類繁多、類型不一的文本型數(shù)字圖像時應(yīng)具有廣泛的適應(yīng)性。一方面,OCR軟件應(yīng)支持對常見語種、常見字體、常見字號單獨或混合排列的文本型數(shù)字圖像的識別。另一方面,OCR軟件應(yīng)支持對含有手寫字體、毛筆字、常規(guī)文字行間及旁邊的批注、藝術(shù)簽名等內(nèi)容的文本型數(shù)字圖像的識別。
2.6 增強(qiáng)交互界面便捷性
根據(jù)具體的文本型數(shù)字圖像 OCR操作實踐,筆者認(rèn)為應(yīng)從以下5個方面著手增強(qiáng)OCR軟件的交互界面便捷性。
(1)文本型數(shù)字圖像OCR識別過程中,在版面分析、圖像旋轉(zhuǎn)等環(huán)節(jié)需要將數(shù)字圖像的局部與整體進(jìn)行對比操作。OCR軟件應(yīng)能提供局部圖像與整體圖像的對比分析界面,并能提供相應(yīng)的快捷鍵設(shè)置選項。
(2)OCR軟件應(yīng)能在“后編改”界面下,將被識別的文本型數(shù)字圖像的原始內(nèi)容、初次識別結(jié)果及其他備選識別結(jié)果在同一窗口下集中展現(xiàn),以供用戶對初次識別結(jié)果進(jìn)行必要的判斷、編輯與修正。
(3)信息資源數(shù)字化過程中,在對文本型數(shù)字圖像進(jìn)行批量識別操作時需要將正在識別的數(shù)字圖像、已經(jīng)識別的數(shù)字圖像和尚未識別的數(shù)字圖像之間進(jìn)行參照,OCR軟件應(yīng)能夠?qū)⒛骋粏蝹€數(shù)字圖像和整批全部數(shù)字圖像之間建立鏈接與映射。
(4)OCR軟件應(yīng)結(jié)合信息資源數(shù)字化具體實踐操作需求,提供常用功能造作的快捷鍵。同時,OCR軟件應(yīng)支持對快捷鍵的隱藏、顯示、編輯、重設(shè)等操作。
(5)OCR軟件應(yīng)支持用戶對識別結(jié)果存儲路徑和保存格式的選擇。在存儲路徑方面,OCR軟件應(yīng)能夠支持對識別結(jié)果存儲路徑的預(yù)設(shè)與編輯操作。在保存格式方面,OCR軟件應(yīng)能夠支持txt、doc、log、conf 等常用文本格式。
2.7 強(qiáng)化用戶自學(xué)習(xí)功能
OCR軟件的用戶自學(xué)習(xí),是指在信息資源數(shù)字化過程中,用戶根據(jù)實際情況用新的字符圖案匹配選擇替換已有相應(yīng)的字符圖案匹配方案,是 OCR軟件在用戶的干預(yù)下更新字符特征匹配信息庫的過程。一方面,OCR軟件借助用戶自學(xué)習(xí)功能能夠?qū)崿F(xiàn)對字符圖案匹配方案的不斷更新與優(yōu)化;另一方面,新的字符圖案特征匹配方案也可能只是對已有匹配方案的補(bǔ)充但并不能將其完全替代。因此,在信息資源數(shù)字化操作實踐過程中,OCR軟件應(yīng)能夠支持在向用戶推送新匹配方案的同時,向用戶提供是對原匹配方案進(jìn)行補(bǔ)充或是替換的選項。
[1]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies, 1982.
[2]臧國全.文本數(shù)字化圖像OCR識別的準(zhǔn)確度測度實驗與提高[J].圖書情報知識,2010.
[3]郭軍.兩款常用中文OCR軟件的性能比較實驗與分析[J].情報探索,2011.
[4](日)谷口慶治.?dāng)?shù)字圖像處理—應(yīng)用篇[M].北京:科學(xué)出版社,2002.
[5]張青楊.提高OCR識別率的訣竅[N].電腦報,2005.