黨 琦,陳重遠(yuǎn),魯 釗,張淑芬
(1. 湖北省地圖院(湖北省地圖數(shù)據(jù)應(yīng)用中心),湖北 武漢 430074)
光學(xué)字符識(shí)別(OCR)是廣泛使用的一種文本自動(dòng)錄入技術(shù)[1],可以自動(dòng)對(duì)照識(shí)別圖像和圖形中的字符信息。近年來(lái),OCR在計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域引起的關(guān)注。本文提出一種基于OCR技術(shù)的智能地名地址識(shí)別方法,同時(shí)深入研究實(shí)施過(guò)程中的關(guān)鍵技術(shù),并與常規(guī)人工質(zhì)檢方式進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)證明基于OCR 的天地圖·湖北行政村(居)委會(huì)質(zhì)檢方式是必要與可行的。
天地圖·湖北是指湖北省地理信息公共服務(wù)平臺(tái),其建設(shè)目的是綜合利用湖北省全省基礎(chǔ)地理信息數(shù)據(jù)、專(zhuān)題數(shù)據(jù)集、多源多分辨率影像數(shù)據(jù),為社會(huì)公眾提供一站式、便捷的地理信息服務(wù)[2]。
行政村(居)委會(huì)作為天地圖·湖北地名地址的重要組成部分,通過(guò)外業(yè)調(diào)繪和內(nèi)業(yè)整理得到其空間地理位置和名稱(chēng)等信息。
天地圖·湖北行政村(居)委會(huì)外業(yè)調(diào)繪時(shí),利用手機(jī)定位軟件在行政村(居)委會(huì)大門(mén)中間定位獲取空間地理位置。拍攝兩張照片用于記錄名稱(chēng)信息,要求兩張照片中一張拍攝行政村(居)委會(huì)全景、一張拍攝掛牌照片,兩張照片均要求清晰可辨、且無(wú)遮擋,拍攝形式如圖1行政村(居)委會(huì)掛牌照片所示。
圖1 行政村(居)委會(huì)掛牌照片
行政村(居)委會(huì)內(nèi)業(yè)整理時(shí),根據(jù)外業(yè)調(diào)繪拍攝掛牌照片,在數(shù)據(jù)庫(kù)中錄入對(duì)應(yīng)的掛牌名稱(chēng),需要注意的是掛牌名稱(chēng)以最低行政級(jí)別錄入。
目前,常規(guī)的行政村(居)委會(huì)的質(zhì)檢方式是在ArcGIS軟件中加載行政村(居)委會(huì)數(shù)據(jù),人工對(duì)照外業(yè)調(diào)繪拍攝的掛牌照片,逐個(gè)檢查錄入的名稱(chēng)是否正確。該方式能確實(shí)檢查出行政村(居)委會(huì)名稱(chēng)內(nèi)業(yè)整理過(guò)程中的漏字、錯(cuò)字等情況,但是效率比較低下。
OCR是指將圖像上的文字轉(zhuǎn)化為計(jì)算機(jī)可編輯的文字內(nèi)容[3]。OCR 的概念于1929 年由德國(guó)科學(xué)家Tausheck[4]最先提出,隨著計(jì)算機(jī)技術(shù)和人工智能技術(shù)的不斷推進(jìn),OCR識(shí)別技術(shù)飛速發(fā)展,識(shí)別率和準(zhǔn)確率均有質(zhì)的飛躍。目前在國(guó)內(nèi),OCR技術(shù)在金融、醫(yī)療、交通等領(lǐng)域應(yīng)用普通,例如高速公路的ETC使用該種技術(shù)自動(dòng)識(shí)別車(chē)牌信息,百度和騰訊等互聯(lián)網(wǎng)公司也使用OCR進(jìn)行人工智能工作。
本文基于OCR 實(shí)現(xiàn)天地圖·湖北行政村(居)委會(huì)的質(zhì)檢,主要包括圖像預(yù)處理,文字識(shí)別,與數(shù)據(jù)庫(kù)行政村(居)委會(huì)比較3個(gè)步驟,流程如圖2所示。
圖2 基于OCR的天地圖·湖北行政村(居)委會(huì)質(zhì)檢流程
由于行政村(居)委會(huì)掛牌照片存在圖片分辨率低、飽和度低、噪聲多等問(wèn)題,需要對(duì)照片進(jìn)行圖像預(yù)處理,提高OCR的識(shí)別準(zhǔn)確率和效率。圖像預(yù)處理一般包括灰度化、圖像增強(qiáng)等操作。
1)灰度化。采用加權(quán)平均法進(jìn)行圖像灰度化,加權(quán)平均法公式如式(1)所示。
式中,R(x,y),G(x,y),B(x,y)為R、G、B3 個(gè)分量;i,j,k分別為加權(quán)系數(shù)。由于灰度圖像只有亮度差別,沒(méi)有顏色差別,所以不同的加權(quán)系數(shù)取值影響的是圖像的亮度,根據(jù)YUV 顏色模型[7]中亮度轉(zhuǎn)換公式,i,j,k分別設(shè)置為0.299,0.587,0.114。
2)圖像增強(qiáng)。為了減少或者降低圖像中的噪聲,加強(qiáng)行政村(居)委會(huì)文字識(shí)別的準(zhǔn)確率,需要對(duì)灰度化后的圖片進(jìn)行圖像增強(qiáng)。行政村(居)委會(huì)照片掛牌信息一般為規(guī)則的文字排列,為了更加符合掛牌信息的特點(diǎn),增強(qiáng)突出圖像中的掛牌信息部分的文字信息,去除其他無(wú)用信息,本文設(shè)計(jì)了二值化的圖像增強(qiáng)方式,將灰度化后的圖像轉(zhuǎn)換為黑白圖像,即圖像中文字部分轉(zhuǎn)換為黑色,其他部分轉(zhuǎn)換為白色。一般二值化的方法是通過(guò)指定特定的閥值,圖像中每個(gè)像素值大于該閥值的值,則為黑色,小于該閥值的值,則為白色,此種二值法方法十分簡(jiǎn)單實(shí)用,但是對(duì)于行政村(居)委會(huì)照片而言,不能準(zhǔn)確突出掛牌照片中的局部文字信息,所以本文設(shè)計(jì)局部自適應(yīng)閥值,通過(guò)將灰度圖像分成若干區(qū)塊,根據(jù)每個(gè)區(qū)塊的亮度分別設(shè)置閥值,進(jìn)行二值化操作,從而得到整個(gè)二值化的圖像。具體操作為:①將圖像切分成n個(gè)區(qū)塊;②計(jì)算這些區(qū)塊中每個(gè)像素的加權(quán)均值得到該區(qū)塊的自適應(yīng)閾值Y;③設(shè)區(qū)塊內(nèi)的每一像素值為X,當(dāng)X>Y-C (C 為常量),則該像素點(diǎn)為白色,否則為黑色。圖1 中行政村(居)委會(huì)照片二值化后后圖像如圖3所示。
圖3 二值化后圖像
2)文字識(shí)別。PaddleOCR是由百度公司開(kāi)源的超輕量OCR[8],由于其簡(jiǎn)單實(shí)用的特點(diǎn)目前被廣泛運(yùn)用于文字識(shí)別領(lǐng)域。本文使用PaddleOCR,指定卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)模型作為文本識(shí)別器,通過(guò)Pad?dleOCR封裝的recognize_text接口,識(shí)別出圖片中行政村(居)委會(huì)掛牌名稱(chēng),文字識(shí)別流程如圖4所示。
圖4 基于OCR文字識(shí)別流程
首先需要對(duì)圖像預(yù)處理后的行政村(居)委會(huì)照片進(jìn)行文本檢測(cè)得出圖像中的文字范圍。通過(guò)對(duì)照片中每一個(gè)像素進(jìn)行文本判斷,判斷該像素是否屬于一個(gè)文本目標(biāo)。對(duì)于連續(xù)的文本像素,進(jìn)行分割得到文本區(qū)域,再通過(guò)后處理方式得到該文本區(qū)域的最小包圍曲線(xiàn),從而得出圖像中的多個(gè)分割后的文字范圍。
其次,通過(guò)CRNN[9]模型進(jìn)行文字識(shí)別。CRNN模型是CNN+RNN+CTC 的結(jié)構(gòu),被廣泛應(yīng)用于圖像文字識(shí)別領(lǐng)域。CNN,卷積神經(jīng)網(wǎng)絡(luò),用于圖像特征提取。通過(guò)對(duì)每個(gè)分割的圖像文字區(qū)域建立一個(gè)個(gè)的細(xì)小矩形框來(lái)識(shí)別圖像中的文字特征,從而得到特征序列。由于一些非文本區(qū)域存在一些與文字類(lèi)似的特征,僅僅依靠CNN判斷識(shí)別區(qū)域中的文字,不足以完全識(shí)別文字區(qū)域定位和特征,這時(shí)RNN 應(yīng)運(yùn)而生。RNN為遞歸神經(jīng)網(wǎng)絡(luò),用于對(duì)文字的特征序列進(jìn)行預(yù)測(cè)。通過(guò)使用RNN對(duì)每個(gè)特征序列進(jìn)行預(yù)測(cè)打分,分?jǐn)?shù)低的區(qū)域判斷為無(wú)效區(qū)域,能夠更好的識(shí)別文字區(qū)域定位和特征。最后CTC 解決文字中的去重、去空、無(wú)法對(duì)齊等問(wèn)題,對(duì)每一個(gè)特征序列的結(jié)果進(jìn)行正確的翻譯,得到一個(gè)最終的文字識(shí)別結(jié)果。
3)與數(shù)據(jù)庫(kù)行政村(居)委會(huì)比較。通過(guò)OCR程序識(shí)別出掛牌名稱(chēng)信息,如圖1 行政村(居)委會(huì)掛牌照片識(shí)別出掛牌名稱(chēng)為“大莊村村民委員會(huì)”。再與數(shù)據(jù)庫(kù)中的相應(yīng)的名稱(chēng)進(jìn)行對(duì)比,檢查兩者名稱(chēng)是否一致,如果一致則表明正確,否則為錯(cuò)誤。
天地圖·湖北行政村(居)委會(huì)收集時(shí),還存在一些特殊情況,這些特殊情況使用OCR文字識(shí)別,無(wú)法得出準(zhǔn)確結(jié)果,如下所示:
1)照片質(zhì)量不高。部分行政村(居)委會(huì)照片由于光照、拍攝條件、調(diào)繪人員未按要求拍攝等原因,導(dǎo)致照片出現(xiàn)分辨率低、模糊,照片信息不全等質(zhì)量不高的情況,造成程序無(wú)法準(zhǔn)確識(shí)別文字。其次,由于掛牌名稱(chēng)信息均為漢字,漢字的結(jié)構(gòu)復(fù)雜、形近字較多,還存在一部分生僻字,通過(guò)OCR識(shí)別有一定幾率出現(xiàn)錯(cuò)誤。
2)存在行政村(居)委會(huì)未掛牌?,F(xiàn)實(shí)中,存在行政村(居)委會(huì)未掛牌的情況。外業(yè)調(diào)繪人員未拍攝到掛牌照片,內(nèi)業(yè)整理時(shí)將未掛牌的行政村(居)委會(huì)依據(jù)指定名稱(chēng)在數(shù)據(jù)庫(kù)中進(jìn)行錄入。
3)行政村(居)委會(huì)掛牌中缺少“村(居)民委員會(huì)”的說(shuō)明。此類(lèi)情況內(nèi)業(yè)人員需在掛牌名稱(chēng)的基礎(chǔ)上添加“村(居)民委員會(huì)”的后綴說(shuō)明。
出現(xiàn)上述3種情形時(shí),無(wú)法通過(guò)OCR自動(dòng)識(shí)別行政村(居)委會(huì),需人工根據(jù)照片或通過(guò)外業(yè)調(diào)繪人員處了解后判斷錄入數(shù)據(jù)是否正確。
1)實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)使用2021年天地圖·湖北行政村(居)委會(huì)外業(yè)調(diào)繪恩施市數(shù)據(jù),截至2021年6月該市共有208 個(gè)村(居)委會(huì)。通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證基于OCR 的天地圖·湖北行政村(居)委會(huì)質(zhì)檢方式的可行性和效率。
2)實(shí)驗(yàn)環(huán)境。使用1 臺(tái)工作站作為實(shí)驗(yàn)機(jī)器。硬件環(huán)境為Intel Xeon 四核3.7 GHZ CPU,內(nèi)存64 G,硬盤(pán)10 T。
3)實(shí)驗(yàn)結(jié)果分析??疾毂容^基于OCR的天地圖·湖北行政村(居)委會(huì)質(zhì)檢方式的前后時(shí)間和準(zhǔn)確率差異。實(shí)驗(yàn)步驟如下:分別使用常規(guī)質(zhì)檢方式與基于OCR 的質(zhì)檢方式對(duì)恩施市208 個(gè)行政村(居)委會(huì)進(jìn)行質(zhì)量檢查,實(shí)驗(yàn)結(jié)果如表1 和表2所示。
表1 質(zhì)檢方式前后時(shí)間對(duì)比/min
表2 質(zhì)檢方式前后準(zhǔn)確率對(duì)比/%
由表1 可知,基于OCR 質(zhì)檢方式(排除特殊情況)的花費(fèi)時(shí)間最少,但是由于天地圖·湖北行政村(居)委會(huì)信息存在一些特殊情況,這些特殊情況不能被程序自動(dòng)識(shí)別出來(lái),所以需要基于人工再判斷一次,導(dǎo)致基于OCR質(zhì)檢方式(包含特殊情況)相比未包含特殊情況時(shí)間有所增加,但是與常規(guī)人工質(zhì)檢方式相比,效率更高。
由表2可知,常規(guī)質(zhì)檢方式準(zhǔn)確率為100%。由于特殊情況的存在和OCR識(shí)別率本身的原因,基于OCR質(zhì)檢方式(排除特殊情況)的準(zhǔn)確率為73.1%。通過(guò)人工檢查行政村(居)委會(huì)的特殊情況,能夠使準(zhǔn)確率上升到92.8%,剩下7.2%的數(shù)據(jù)需人工確認(rèn)核查。盡管基于OCR質(zhì)檢方式的準(zhǔn)確率不足100%,但也已達(dá)到92.8%,識(shí)別效果較好,剩下需核查的點(diǎn)位非常少。
綜合實(shí)驗(yàn)可知,基于OCR 的天地圖·湖北行政村(居)委會(huì)質(zhì)檢方式的效率比常規(guī)方式高,準(zhǔn)確率方面沒(méi)有常規(guī)方式高,但也已達(dá)到較高水平。由此可知,基于OCR 的天地圖·湖北行政村(居)委會(huì)質(zhì)檢方式是必要與可行的。
本文基于OCR設(shè)計(jì)了一個(gè)新的天地圖·湖北行政村(居)委會(huì)質(zhì)檢方式并研究其關(guān)鍵技術(shù),通過(guò)實(shí)驗(yàn)可知,基于OCR 的質(zhì)檢方式能切實(shí)可行的提高天地圖·湖北行政村(居)委會(huì)的質(zhì)檢效率,該方法的推廣使用在天地圖·湖北地名地址質(zhì)檢工作中具備較大應(yīng)用價(jià)值。