国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于局部對(duì)比度和相位保持降噪的古籍圖像二值化算法

2022-02-19 10:23
關(guān)鍵詞:閾值古籍局部

馮 炎

(西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 西藏 拉薩 850000)

0 引 言

古籍具有重要的學(xué)術(shù)價(jià)值和文化價(jià)值,古籍?dāng)?shù)字化修復(fù)是解決古籍保護(hù)與文化傳播的重要途徑,二值化是數(shù)字化修復(fù)的關(guān)鍵預(yù)處理步驟,同時(shí)二值化算法也是學(xué)者們研究的熱點(diǎn)問(wèn)題。受自然環(huán)境和人為因素的破壞,多數(shù)古籍具有不同程度的頁(yè)面污漬、褪化和油墨印跡等復(fù)雜背景,給古籍二值化帶來(lái)極大的挑戰(zhàn)。

為提高圖像二值化算法性能,學(xué)者們提出了大量的算法,最關(guān)鍵的問(wèn)題是閾值計(jì)算,二值化算法可以分為全局閾值法和局部閾值法。經(jīng)典的全局閾值算法是Otsu算法[1],經(jīng)典的局部閾值算法是Niblack算法[2]和Sauvola算法[3],局部閾值方法相對(duì)于全局閾值方法來(lái)說(shuō)二值化準(zhǔn)確度較高。Otsu算法使用聚類的思想,提出了一個(gè)最優(yōu)化閾值計(jì)算方法,選擇一個(gè)閾值使得兩個(gè)類內(nèi)的方差盡可能小,類間的方差盡可能大,該算法適用于直方圖具有明顯雙峰模型的圖像,缺點(diǎn)是在低對(duì)比度和光照不均的條件下效果不好。Niblack算法根據(jù)局部均值和局部標(biāo)準(zhǔn)差為每個(gè)像素計(jì)算閾值,該算法能很好地將對(duì)比度低的字符分割出來(lái)并保持文字細(xì)節(jié),該算法對(duì)局部窗口大小的選擇敏感,窗口太大會(huì)丟失文字局部細(xì)節(jié),窗口太小會(huì)有殘留噪聲。Sauvola是Niblack算法的改進(jìn)版本,以局部均值為基準(zhǔn)再根據(jù)標(biāo)準(zhǔn)差做些微調(diào),從而過(guò)濾掉背景中一些干擾的紋理噪聲,算法缺點(diǎn)是在對(duì)比度較低的情況下效果仍然不好。

Lu等[4]提出了基于背景估計(jì)和筆劃寬度估計(jì)的二值化方法,算法首先通過(guò)迭代多項(xiàng)式平滑算法來(lái)估計(jì)古籍文檔圖像背景,然后用所估計(jì)背景去補(bǔ)償因不同退化類型造成的古籍文檔退化情況,對(duì)補(bǔ)償后的文檔圖像計(jì)算L1范數(shù)圖像梯度來(lái)獲得文本筆劃邊緣,最后在局部相鄰窗口內(nèi)計(jì)算補(bǔ)償后的像素均值和筆劃邊緣個(gè)數(shù)來(lái)對(duì)文檔圖像進(jìn)行二值化處理。接著,Su等[5]提出了一種改進(jìn)算法,該算法使用局部圖像對(duì)比度和局部圖像梯度來(lái)組成自適應(yīng)圖像對(duì)比度算法,然后用自適應(yīng)圖像對(duì)比度算法和Canny邊緣檢測(cè)算法來(lái)計(jì)算文字筆劃邊緣,從而較準(zhǔn)確地計(jì)算出文本筆劃邊緣并估計(jì)出文本筆劃寬度。最后采用Niblack二值化算法結(jié)合所估計(jì)的文本筆劃寬度來(lái)估計(jì)局部閾值并從古籍文檔圖像中分離文本。Howe[6]提出了一個(gè)基于拉普拉斯圖像的全局能量函數(shù)最優(yōu)化方法,該方法采用一系列的訓(xùn)練圖像用于最優(yōu)化算法,在DIBCO 2013[7]會(huì)議所提交的23個(gè)算法中該算法獲得了第二名,該算法的缺點(diǎn)是對(duì)退化嚴(yán)重的圖像效果不理想。

雖然學(xué)者們提出了眾多的算法,然而這些方法都不能很好地解決在低對(duì)比度和重污漬等復(fù)雜背景下的古籍圖像二值化問(wèn)題。

1 本文的算法

本文針對(duì)古籍圖像所存在的復(fù)雜背景,提出一種二值化算法,算法流程如圖1所示,分為三個(gè)步驟:(1) 文本筆劃像素識(shí)別,根據(jù)歸一化局部最大值最小值來(lái)構(gòu)造局部對(duì)比度圖像,同時(shí)對(duì)古籍圖像進(jìn)行相位保持降噪,將局部對(duì)比度圖像與降噪圖像相結(jié)合來(lái)識(shí)別文本筆劃像素;(2) 古籍背景估計(jì),通過(guò)局部窗口內(nèi)所檢測(cè)的文本筆劃像素估計(jì)局部閾值來(lái)計(jì)算古籍背景修復(fù)模板,用圖像修復(fù)算法和形態(tài)學(xué)閉操作估計(jì)古籍背景;(3) 古籍圖像增強(qiáng)及最終二值化,用所估計(jì)背景來(lái)增強(qiáng)圖像文本對(duì)比度,并用Howe算法對(duì)增強(qiáng)后的古籍圖像二值化求得最終結(jié)果。算法過(guò)程如圖2所示,示例圖片選自DIBCO2018數(shù)據(jù)集。

圖1 本文算法流程

圖2 本文算法過(guò)程展示

1.1 文本筆劃像素識(shí)別

前期研究中發(fā)現(xiàn)兩個(gè)問(wèn)題,第一是文獻(xiàn)[5]算法通過(guò)局部對(duì)比度和局部梯度來(lái)檢測(cè)文本筆劃邊緣,但無(wú)法處理細(xì)弱筆劃和低對(duì)比度區(qū)域的文本筆劃;第二是Kovesi[8]的相位保持降噪算法結(jié)果會(huì)保留細(xì)弱筆劃區(qū)域和低對(duì)比度區(qū)域的文本筆劃,然而受古籍退化的影響,該方法容易將文本筆劃邊緣丟失。為了更準(zhǔn)確地識(shí)別文本筆劃像素,本文結(jié)合文獻(xiàn)[5]算法和Kovesi相位保持降噪算法的優(yōu)缺點(diǎn),將局部對(duì)比度圖像與降噪圖像相結(jié)合設(shè)計(jì)一種文本筆劃像素識(shí)別算法。

首先,根據(jù)文獻(xiàn)[5]算法,本文設(shè)計(jì)了基于最大值最小值的局部對(duì)比度改進(jìn)算法,改進(jìn)后的局部對(duì)比度圖像C計(jì)算如下:

(1)

然后,算法采用Kovesi[8]提出的相位保持降噪算法對(duì)古籍圖像進(jìn)行降噪并歸一化處理,計(jì)算方法如下:

D=normalization(kovesi(I))

(2)

式中:I為古籍圖像;nomalization為歸一化函數(shù);kovesi為相位保持降噪算法。采用Otsu算法對(duì)歸一化后的降噪圖像D二值化,二值化后的結(jié)果表示為Db。

最后,將局部對(duì)比度圖像二值化結(jié)果Cb與相位保持降噪圖像二值化結(jié)果Db相結(jié)合來(lái)識(shí)別文本筆劃像素T,方法如下:

T(i,j)=Cb(i,j)×Db(i,j)

(3)

1.2 古籍背景估計(jì)

本文采用背景修復(fù)算法來(lái)消除修復(fù)模板中確定的文本信息從而獲得古籍背景,要求背景修復(fù)模板中的文本信息盡可能準(zhǔn)確并且不包含背景信息。然而,前面所識(shí)別的文本筆劃中殘留背景噪點(diǎn)太多,因此,本文采用局部閾值算法從原始古籍圖像中提取文本信息來(lái)計(jì)算背景修復(fù)模板M,局部閾值的計(jì)算是根據(jù)局部窗口內(nèi)所檢測(cè)的文本筆劃像素T估計(jì)局部閾值,背景修復(fù)模板M計(jì)算方法如下:

(4)

式中:I(i,j)為古籍圖像像素;Emean(i,j)和Estd(i,j)分別是局部窗口內(nèi)所檢測(cè)文本筆劃像素T(i,j)的局部均值和局部標(biāo)準(zhǔn)方差;窗口大小為2×Ewith,Ewith為古籍文檔筆劃寬度。

跟前面的文本筆劃像素T相比,背景修復(fù)模板M估計(jì)的文本信息更準(zhǔn)確,但引入了其他背景噪聲,需要進(jìn)一步消除這些噪聲,方法如下:

Mdenoise(i,j)=1-(1-M(i,j)×(1-T(i,j)))

(5)

另外,背景修復(fù)模板中會(huì)出現(xiàn)斷裂筆劃并且文字中有空洞,還需要用圖像腐蝕操作對(duì)Mdenoise處理從而獲得較為準(zhǔn)確的文本區(qū)域,腐蝕后的背景修復(fù)模板表示為Merode,腐蝕操作采用半徑為Ewith的菱形結(jié)構(gòu)元素,Ewith為古籍文檔筆劃寬度。

接下來(lái)采用Ntirogiannis等[9]的背景修復(fù)算法對(duì)原始古籍圖像I操作來(lái)估計(jì)古籍背景BG,修復(fù)模板為前面計(jì)算得到的Merode。最后通過(guò)形態(tài)學(xué)閉操作進(jìn)行背景平滑消除背景中存在的較弱或斷裂筆劃的文本信息,從而獲得更準(zhǔn)確的古籍背景BGsmooth,閉運(yùn)算操作時(shí)采用的結(jié)構(gòu)元素半徑為2×Ewith。

1.3 古籍圖像增強(qiáng)及最終二值化

為了獲得更準(zhǔn)確的二值化結(jié)果,本文用所估計(jì)古籍背景BGsmooth來(lái)增強(qiáng)古籍圖像的文本對(duì)比度,接著用Howe[6]的binarizeImageAlg3算法對(duì)增強(qiáng)后的二值化處理獲得最終結(jié)果。

其次,教師行為的集體化問(wèn)題?,F(xiàn)代教學(xué)中教師的含義變得廣泛了,不僅包含了傳統(tǒng)意義的教師,也包含了教學(xué)設(shè)計(jì)員等。在執(zhí)行某一課程時(shí),不是某一位教師可以完成的,必須是多名教師發(fā)展各自的特長(zhǎng),共同完成課程任務(wù)。教師與教師的合作必然導(dǎo)致教師行為的集體化。課程的編制將是集體勞動(dòng)的結(jié)晶。此時(shí),學(xué)生面對(duì)的不再是一位教師,而是一個(gè)專家組,要求教師的教學(xué)行為更進(jìn)一步協(xié)調(diào)。

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)環(huán)境及評(píng)估方法

本文的實(shí)驗(yàn)測(cè)試數(shù)據(jù)采用了DIBCO2016[10]、DIBCO2017[11]和DIBCO2018[12]提供的古籍圖像數(shù)據(jù)集。其中:DIBCO2016數(shù)據(jù)集包含10個(gè)手寫(xiě)體古籍圖像;DIBCO2017數(shù)據(jù)集有10個(gè)印刷體和10個(gè)手寫(xiě)體古籍圖像;DIBCO 2018數(shù)據(jù)集包含10個(gè)手寫(xiě)體古籍圖像。這些古籍圖像是具有不同退化類型的低質(zhì)量圖像,并有相應(yīng)的基準(zhǔn)圖像,使用這些數(shù)據(jù)集可以有效地檢驗(yàn)本文算法是否有效。

實(shí)驗(yàn)采用了5種圖像客觀評(píng)價(jià)指標(biāo)對(duì)本文算法進(jìn)行評(píng)估,具體是F值(Fmeasure)、峰值信噪比(Peak Signal to Noise Ratio, PSNR)、精確度(Precision)、距離倒數(shù)失真度量(Distance Reciprocal Distortion, DRD)和錯(cuò)誤分類處罰指標(biāo)(Misclassification Penalty Metric, MPM)。Fmeasure值是一種兼顧準(zhǔn)確率和召回率的圖像二值化度量方法,F(xiàn)measure值越大說(shuō)明二值化結(jié)果越接近于基準(zhǔn)圖像。 PSNR是基于對(duì)應(yīng)像素點(diǎn)間的誤差質(zhì)量評(píng)價(jià), PSNR越大說(shuō)明圖像二值化效果越好。Precision是二值化結(jié)果的正確率,指的是二值化結(jié)果中文本像素個(gè)數(shù)占的比例,指標(biāo)值越大說(shuō)明算法精確度越高。DRD是圖像失真度量方法,DRD值越小說(shuō)明圖像失真越小。MPM懲罰分類錯(cuò)誤的像素,MPM得分越小表示分類錯(cuò)誤越少。

本文實(shí)驗(yàn)選取了Howe[6]、Niblack[2]、Sauvola[3]、Bernsen[13]、Otsu[1]、Mesquita[14]等6個(gè)有代表性的二值化算法與本文算法進(jìn)行比較。算法中Kovesi[8]保持相位降噪算法參數(shù)為:k=1,nscale=5,mult=2,norient=3,softness=1。本文二值化算法是在圖像增強(qiáng)的基礎(chǔ)上進(jìn)行二值化,未采用Howe提供的參數(shù),而是根據(jù)實(shí)驗(yàn)值設(shè)置為:thilist=[0.3 0.6]。

2.2 實(shí)驗(yàn)結(jié)果分析

為直觀地展示本文算法與其他二值化算法的優(yōu)缺點(diǎn),顯示本文算法的優(yōu)越性,從DIBCO2017和DIBCO2018選取了2幅有代表性的測(cè)試圖像,圖3給出了本文算法與其他算法的對(duì)比結(jié)果。

圖3 不同二值化算法結(jié)果對(duì)比

圖3 (a)的原始圖像左邊是纖細(xì)筆劃圖像,右邊是墨跡浸潤(rùn)圖像,可以看出,文獻(xiàn)[1]算法對(duì)于對(duì)比度較高的區(qū)域二值化效果較好,但無(wú)法處理頁(yè)面線條、有污漬的低對(duì)比度區(qū)域以及細(xì)弱筆劃文本;文獻(xiàn)[3]算法、文獻(xiàn)[2]算法和文獻(xiàn)[13]算法殘留噪聲太多,更容易將較深的背景污漬和浸潤(rùn)墨跡錯(cuò)判為文本;文獻(xiàn)[14]算法和文獻(xiàn)[6]算法雖然能抑制噪聲,但對(duì)于頁(yè)面線條、有墨跡浸潤(rùn)的低對(duì)比度區(qū)域的處理結(jié)果不理想;本文提出的二值化算法能夠很好地解決復(fù)雜背景噪聲的干擾問(wèn)題,能有效地處理頁(yè)面線條和有浸潤(rùn)墨跡的低對(duì)比度區(qū)域,總的來(lái)說(shuō),本文算法結(jié)果比較滿意。

表1給出了各二值化算法在DIBCO2016數(shù)據(jù)集中10個(gè)圖像的二值化結(jié)果平均值對(duì)比。Fmeasure和PSNR以及 Precision的值是越大越好,而DRD和MPM值是越小越好。如表1所示,本文算法的平均PSNR值、平均Fmeasure值、平均Precision值、平均DRD值和平均DRD值都是最優(yōu)。與次優(yōu)的文獻(xiàn)[14]算法相比較,本文算法的Fmeasure、PSNR和 Precision分別提高了1.0%、1.4%和1.5%,DRD降低了18.1%,尤其是MPM值降低了46.2%。

表1 各二值化算法在DIBCO2016的評(píng)估結(jié)果(平均值)

表2給出了不同二值化算法在DIBCO 2017數(shù)據(jù)集中20個(gè)圖像的二值化結(jié)果平均值對(duì)比。如表2所示,本文的算法性能指標(biāo)都排第一,文獻(xiàn)[6]次之,文獻(xiàn)[14]排第三,文獻(xiàn)[3]性能最差。跟文獻(xiàn)[6]算法比較,本文算法的平均Fmeasure、PSNR和 Precision分別提高了1.0 %、2.5%和1.8%,DRD和MPM值分別降低了13.1%和25.0%。

表2 各二值化算法在DIBCO2017的評(píng)估結(jié)果(平均值)

續(xù)表2

表3給出了各二值化算法在DIBCO2018數(shù)據(jù)集中10個(gè)圖像的二值化結(jié)果平均值對(duì)比??梢钥闯?,本文算法各項(xiàng)指標(biāo)值最優(yōu),文獻(xiàn)[6]次之,文獻(xiàn)[14]排第三,文獻(xiàn)[3]性能最差。跟文獻(xiàn)[6]比較,本文算法的平均Fmeasure、PSNR和 Precision分別提高了6.3%、12.3%和7.2%,而DRD和MPM分別降低了49.3%、53.9%。DIBCO2018數(shù)據(jù)集更能體現(xiàn)本文算法的優(yōu)越性能。

表3 各二值化算法在DIBCO2018的評(píng)估結(jié)果(平均值)

從表1、表2和表3的實(shí)驗(yàn)數(shù)據(jù)可以看出,本文算法的5種性能指標(biāo)值都要好于其他二值化算法,說(shuō)明本文算法結(jié)果與對(duì)應(yīng)的基準(zhǔn)圖像相似度最高、失真度最小,整體性能優(yōu)于文獻(xiàn)[1-3,6,13-14]的算法,充分說(shuō)明了本文算法的魯棒性,表明本文算法可以處理多種退化類型的古籍圖像。

3 結(jié) 語(yǔ)

本文針對(duì)古籍圖像所存在的復(fù)雜背景,提出一種基于局部對(duì)比度和相位保持降噪的古籍圖像二值化算法。算法首先根據(jù)歸一化局部最大值最小值來(lái)構(gòu)造局部對(duì)比度圖像,同時(shí)對(duì)古籍圖像進(jìn)行相位保持降噪,將局部對(duì)比度圖像與降噪圖像相結(jié)合來(lái)識(shí)別文本筆劃像素;然后通過(guò)局部窗口內(nèi)所檢測(cè)的文本筆劃像素估計(jì)局部閾值來(lái)計(jì)算古籍背景修復(fù)模板,用圖像修復(fù)算法和形態(tài)學(xué)閉操作估計(jì)古籍背景;最后用古籍背景增強(qiáng)古籍圖像并計(jì)算最終二值化結(jié)果。本文算法能夠解決復(fù)雜背景噪聲的干擾問(wèn)題,從而很好地抑制背景噪聲,更有效地處理頁(yè)面線條和有浸潤(rùn)墨跡的低對(duì)比度區(qū)域,達(dá)到精確分離古籍前景文本和背景的目的。

猜你喜歡
閾值古籍局部
非平穩(wěn)聲信號(hào)下的小波變換去噪方法研究
日常的神性:局部(隨筆)
土石壩壩體失穩(wěn)破壞降水閾值的確定方法
一種改進(jìn)小波閾值去噪法及其仿真
一種小波閾值函數(shù)構(gòu)建的圖像去噪算法研究
凡·高《夜晚露天咖啡座》局部[荷蘭]
西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
古籍修復(fù)師的巧手與匠心
丁學(xué)軍作品
廣西古籍保護(hù)中心積極推動(dòng)古籍普查工作