劉濤 張文娟 唐文博 楊露 左佳未
云南云電同方科技有限公司 云南 昆明 650000
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,電子設(shè)備的快速迭代進(jìn)步,信息技術(shù)對(duì)于大部分企業(yè)的現(xiàn)代信息化產(chǎn)業(yè)起到了巨大的推動(dòng)作用。對(duì)于大部分企業(yè)的檔案管理工作來(lái)說(shuō),都會(huì)面臨著將大量紙質(zhì)檔案信息化然后錄入計(jì)算機(jī)的難題。即使現(xiàn)在大力推行檔案信息化的發(fā)展,依然還有海量的歷史遺留檔案保存在檔案室中,僅僅只有部分的檔案通過(guò)簡(jiǎn)單的拍照上傳方式處理,以照片的形式存在數(shù)據(jù)庫(kù)中并不利于后續(xù)生產(chǎn)工作任務(wù)中處理和維護(hù),而且以這種形式存儲(chǔ)需要大量的存儲(chǔ)設(shè)備,耗費(fèi)財(cái)政收入。 并且現(xiàn)階段采取人工檢核手工錄入成本非常高,工作量巨大且效率非常低。
光學(xué)字符識(shí)別(Optical Character Recognition)是指通過(guò)利用現(xiàn)代計(jì)算機(jī)編程技術(shù),對(duì)紙質(zhì)文件的電子圖像副本進(jìn)行處理和分析,以獲取文件的原始文本信息等數(shù)據(jù)的過(guò)程。OCR識(shí)別技術(shù)其實(shí)是由計(jì)算機(jī)視覺(jué)系統(tǒng)研究領(lǐng)域的一個(gè)分支技術(shù)演變而來(lái),和人工智能技術(shù)和識(shí)別模式方向有著不可分割的密切聯(lián)系,是現(xiàn)代計(jì)算機(jī)發(fā)展過(guò)程中的熱門(mén)技術(shù)。同時(shí),OCR技術(shù)也是實(shí)現(xiàn)文字錄入技術(shù)向高速度和高精度的發(fā)展的必要技術(shù)條件。
在OCR技術(shù)茁壯成長(zhǎng)的生命周期中,最先誕生的成果便是對(duì)印刷體的數(shù)字識(shí)別技術(shù),這項(xiàng)技術(shù)在當(dāng)時(shí)是眾多文字識(shí)別中最成熟的。OCR的首個(gè)專利早在1929年便被一位德國(guó)科學(xué)家取得。然后隨著社會(huì)的發(fā)展,歐美國(guó)家產(chǎn)生了大量有價(jià)值的書(shū)籍,報(bào)刊和政府文件等有存儲(chǔ)價(jià)值的資料,在大量信息存儲(chǔ)需求的推動(dòng)下,各國(guó)展開(kāi)了對(duì)對(duì)常用語(yǔ)言如拉丁文、英文等語(yǔ)言的OCR識(shí)別技術(shù)的研究,意圖取代傳統(tǒng)的手工錄入模式。到了二十世紀(jì)末,伴隨計(jì)算機(jī)技術(shù)的蓬勃成長(zhǎng),拉丁文、英文等光學(xué)字符識(shí)別技術(shù)等到普及滲透于各個(gè)領(lǐng)域,將浩如煙海般的文字材料能夠便捷、迅速、節(jié)省人力財(cái)力并且及時(shí)錄入計(jì)算機(jī)中。
國(guó)內(nèi)對(duì)OCR算法的研發(fā)相比歐美國(guó)家起步較晚,從1970年開(kāi)始,我國(guó)開(kāi)始對(duì)OCR識(shí)別領(lǐng)域投入充足的科研經(jīng)費(fèi)和科學(xué)人才進(jìn)行支持,在這種環(huán)境下我國(guó)的識(shí)別技術(shù)獲得了飛躍式的進(jìn)步[1]。
從宏觀的角度來(lái)了解OCR技術(shù)的話,會(huì)發(fā)現(xiàn)主流OCR技術(shù)主要可以分為兩個(gè)階段,分別為圖像處理階段和文字識(shí)別階段。
在圖像處理這一階段,所做的工作就是對(duì)原始的圖片資料進(jìn)行一系列的加工處理,為揭曉來(lái)的文字識(shí)別階段做好準(zhǔn)備。本節(jié)會(huì)以圖1為例子,介紹說(shuō)明圖像處理階段所需要進(jìn)行的工作。
圖1 原始圖片
(1)灰度化
圖2 灰度化
首先進(jìn)行的工作便是對(duì)圖片進(jìn)行灰度化處理如圖2所示,灰度化是將一張彩色圖片轉(zhuǎn)化為灰度圖片的過(guò)程,灰度化以后的圖片只有黑白灰三種顏色,但是仍然保存了圖片整體的色度以及高亮等級(jí)的分布特征,可以有效地降低后續(xù)的計(jì)算量。
(2)二值化
對(duì)圖片進(jìn)行灰度化操作之后,圖片中仍然存在許多影響因素,所以需要再做進(jìn)一步進(jìn)行二值化處理,如圖3所示。
二值化最重要的操作就是為圖片選擇一個(gè)適合的閾值,這個(gè)閾值過(guò)高或者過(guò)低都會(huì)影響二值化最終的成果。然后根據(jù)這個(gè)閾值,我們可以將圖片中的所有圖像數(shù)據(jù)歸類到兩種截然不同的類型中去。最終,經(jīng)過(guò)二值化的灰度化圖片將不再包含灰色,僅僅剩下黑白兩種顏色,這就是二值化的最終效果。
圖3 二值化
(3)圖像降噪
在現(xiàn)實(shí)中工作中,圖片會(huì)因?yàn)槭艿饺斯げ僮魇д`和成像設(shè)備內(nèi)部老化的干擾而產(chǎn)生意料之外的噪聲干擾,而為了減少圖片中的這些影響我們需要對(duì)圖片進(jìn)行降噪處理,降噪結(jié)果如圖4所示。
從二值化過(guò)后的圖片中,如果仔細(xì)觀察我們會(huì)發(fā)現(xiàn)有大量細(xì)小的墨點(diǎn)分布在圖片的每一個(gè)部分,這些墨點(diǎn)就是這張圖片中需要消除的噪聲,如何處理這些墨點(diǎn)對(duì)OCR識(shí)別的結(jié)果會(huì)起到?jīng)Q定性的影響,所以我們?cè)谶@個(gè)階段需要進(jìn)行降噪處理。
圖4 降噪處理
(4)傾斜矯正
在實(shí)際操作的時(shí)候,人們通過(guò)拍照或者掃描的生成的圖像資料不可能完全的水平,所以在切圖之前,我們需要通過(guò)算法對(duì)圖像資料進(jìn)行旋轉(zhuǎn)處理,只有當(dāng)圖像資料接近完全水平時(shí),切圖工作才能準(zhǔn)確的分割圖像資料。
(5)文字切分
目前,主流的資料都 是多行文本的形式進(jìn)行保存的,在對(duì)這種形式的圖像資料進(jìn)行切割工作主要可以分為行切分和字符切分兩個(gè)步驟。文字切分的主要原理就是將上一步處理之后的文字投影到y(tǒng)軸上,并將所有的特偵知加在一起,這樣得到的就是一個(gè)關(guān)于行字符的特征直方圖,如圖5所示。
對(duì)于一段多行文本來(lái)講,文字切分包含了行切分與字符切分兩個(gè)步驟,傾斜矯正是文字切分的前提。我們將傾斜矯正后的文字投影到 Y軸,并將所有值累加,這樣就能得到一個(gè)在y軸上的直方圖。
圖5 特征直方圖
在這個(gè)直方圖之中,越靠近y軸說(shuō)明文字特征越少,當(dāng)圖像完全靠經(jīng)y軸就說(shuō)明這一部分是背景區(qū)域,根據(jù)這個(gè)規(guī)律,我們就可以將每一行文字單獨(dú)識(shí)別出來(lái),如圖6所示。
圖6 行切分
接下來(lái)的字符切分和行切分所使用的原理大致相同,只是將投影的方向從y軸變?yōu)閤軸,如圖7所示。
值得注意的是,當(dāng)兩個(gè)字符之間的距離較小時(shí),程序可能不會(huì)將兩個(gè)字符分開(kāi),又或者有些左右結(jié)構(gòu)的漢字由于中間存在間隙,導(dǎo)致被切割為兩個(gè)字符,這些都會(huì)導(dǎo)致最終的識(shí)別結(jié)果出現(xiàn)偏差。對(duì)于這種情況,現(xiàn)在主流的處理方式就是在進(jìn)行字符切割時(shí),提前為字符間距設(shè)置一個(gè)理想的期望值,這樣在對(duì)字符進(jìn)行切分時(shí)便會(huì)大大降低出現(xiàn)錯(cuò)誤切分的情況。
圖7 文字切分
通過(guò)文字切分對(duì)圖像資料中的文字進(jìn)行區(qū)域劃分后,就可以對(duì)區(qū)域內(nèi)的文字進(jìn)行識(shí)別,文字識(shí)別有以下幾個(gè)步驟。
(1)特征提取和降維
每一種文字都會(huì)有自己獨(dú)有的特征,這種特征使對(duì)不同種類文字的識(shí)別具有了可行性,也是程序進(jìn)行識(shí)別工作的重要信息。就拿常用的幾種語(yǔ)言來(lái)進(jìn)行說(shuō)明,英語(yǔ)和阿拉伯?dāng)?shù)字因?yàn)槠渥帜阜N類較少,分別為10和52個(gè)字符,所以他們的特征就容易提取。但是對(duì)于漢字來(lái)說(shuō),特征提取的難度就大幅增加,因?yàn)闈h字不僅擁有大量的總數(shù),并且字體結(jié)構(gòu)相當(dāng)復(fù)雜,所以擁有極大的特征維度。
所以在確定識(shí)別對(duì)象是中文后,我們需要對(duì)識(shí)別對(duì)象的特征維度進(jìn)行降維,否則分類器的效率會(huì)受到非常大的影響。并且,降維的程度和很重要,既要降低維數(shù)提升識(shí)別要率,也要保證降維后的特征向量有足夠的信息量去識(shí)別不同的文字[2]。
(2)分類器設(shè)計(jì)、訓(xùn)練
分類器是在文字識(shí)別中,對(duì)樣本資料進(jìn)行分類的方法程序的統(tǒng)稱,我們的任務(wù)就是根據(jù)根據(jù)識(shí)別樣本然后設(shè)計(jì)出對(duì)應(yīng)的設(shè)計(jì)器,現(xiàn)在主流的設(shè)計(jì)方法會(huì)選擇模板匹配法和神經(jīng)網(wǎng)絡(luò)分類法。在設(shè)計(jì)好之后,設(shè)計(jì)器往往還不能直接使用,我們還需要用監(jiān)督學(xué)習(xí)的方法對(duì)設(shè)計(jì)器進(jìn)行訓(xùn)練之后才能投入使用。
(3)后處理
分類器的處理結(jié)果僅僅相當(dāng)于一份草稿,我們還需要對(duì)對(duì)這份草稿進(jìn)行處理,這和自然語(yǔ)言理解有很大的關(guān)系。主要的處理內(nèi)容就是對(duì)形近字和文字排版進(jìn)行特殊處理。
最近幾年,只能檔案管理系統(tǒng)開(kāi)始逐漸應(yīng)用OCR技術(shù)來(lái)提高檔案管理的工作效率,實(shí)用的應(yīng)用方式有以下幾種:
在閱讀紙質(zhì)檔案時(shí),常常會(huì)出現(xiàn)需要使用檔案某一部分內(nèi)容的情況,這時(shí)使用OCR文字識(shí)別功能對(duì)目標(biāo)內(nèi)容進(jìn)行掃描識(shí)別操作,可以直接提供目標(biāo)文本的電子拷貝,可以有效減少信息利用過(guò)程中的重復(fù)勞動(dòng),提升工作效率。
檔案管理員可以在檔案新建,入庫(kù)時(shí)利用OCR技術(shù)制作對(duì)應(yīng)的電子檔案,在檔案利用者來(lái)申請(qǐng)檔案借閱等工作時(shí)優(yōu)先提供電子資料,減少檔案管理工作人員去檔案庫(kù)尋找檔案的次數(shù),并且紙質(zhì)檔案丟失損壞問(wèn)題也得以解決。
通過(guò)OCR文字識(shí)別和區(qū)塊鏈技術(shù)建立一個(gè)和紙質(zhì)檔案一一對(duì)應(yīng)的電子檔案數(shù)據(jù)庫(kù),可以為全文檢索提供對(duì)應(yīng)的條目數(shù)據(jù)。通過(guò)全文檢索來(lái)搜索檔案或者是目標(biāo)內(nèi)容可以在提高檢索效率的同時(shí),降低檔案管理人員的工作量[3]。
綜合上文所述,在檔案數(shù)字化的過(guò)程中,使用OCR技術(shù)可以有效地提高檔案錄入與輸出的速度與質(zhì)量,減少檔案管理工作所需的工作人員及其工作量,最大限度地降低了檔案管理工作中的人力消耗。然而,只有解決了OCR識(shí)別率方面存在的問(wèn)題,該技術(shù)才能真正地促進(jìn)檔案數(shù)字化的發(fā)展。