国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于加權(quán)貝葉斯的脫機(jī)手寫阿文單詞識(shí)別

2021-03-17 07:49許亞美何繼愛
中文信息學(xué)報(bào) 2021年2期
關(guān)鍵詞:阿文手寫置信度

許亞美,何繼愛

(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,甘肅 蘭州 730050)

0 引言

在關(guān)于手寫文字識(shí)別的文獻(xiàn)中,阿拉伯文字識(shí)別的研究逐漸受到關(guān)注[1-4]。阿拉伯文,簡稱阿文,是西亞阿拉伯地區(qū)和伊斯蘭教信仰者使用的文字,使用者來自不同的國家與民族。阿文字母不能獨(dú)立運(yùn)用,字母相連書寫成單詞后才有語義,因此單詞識(shí)別具有實(shí)際意義[4]。

阿文共有28個(gè)輔音字母、1個(gè)復(fù)合字母和12個(gè)元音符號(hào),元音字母是在輔音字母上疊加元音符號(hào)而構(gòu)成,每個(gè)字母根據(jù)在詞中不同位置,有獨(dú)立、前連、雙連、后連中的2~4種字符格式,共演變成100個(gè)字符[5]。

圖1 手寫阿拉伯單詞結(jié)構(gòu)規(guī)則示例

鑒于上述討論,本文針對(duì)手寫阿拉伯文字,提出在組件(即字符或字符的一部分)層面上分解和識(shí)別單詞。算法首先建立阿拉伯單詞組件庫,過分割單詞圖像形成組件序列,再結(jié)合形態(tài)特征和位置信息識(shí)別各組件并估計(jì)其權(quán)重。然后構(gòu)建組件特征至單詞的加權(quán)貝葉斯推理模型,加權(quán)融合組件識(shí)別置信度和構(gòu)詞先驗(yàn)信息,得到最終的單詞識(shí)別結(jié)果。

1 阿文單詞的組件分析

阿文單詞組件是根據(jù)29個(gè)阿拉伯字母的100個(gè)變體字符和12個(gè)元音符號(hào)的形態(tài)和結(jié)構(gòu)[5]來定義的,指在阿文單詞中相對(duì)獨(dú)立且可被共享的筆畫區(qū)域塊。根據(jù)組件特征,可將阿文組件分為3類: ①主體組件(main grapheme, MG): 從字符的主要筆畫中分割出的沿著基線書寫的區(qū)域塊,鑒于多段型組件易被過分割為其他組件,這里去掉多段型組件,并將這類組件分解后以不同于現(xiàn)有組件的新區(qū)域添加到主體組件; ②點(diǎn)組件(dot grapheme, DG): 延遲筆畫中點(diǎn)筆畫的組合; ③附加組件(affix grapheme, AG): 延遲筆畫中除DG之外的區(qū)域塊,其中12個(gè)元音符號(hào)中有些是兩個(gè)AG的組合。阿拉伯文字組件庫如表1所示,共包含50個(gè)MG、5個(gè)DG和9個(gè)AG,其中DG和AG的虛線表示其位置在基線的上方或下方。

表1 阿拉伯文字組件庫

圖2 手寫阿文單詞的組件構(gòu)成示例

相比字符,在組件層面分解單詞,不僅有效解決了多段型字符在分割時(shí)易產(chǎn)生過分割錯(cuò)誤的問題,而且通過組件分析使相似字之間的微小差異被放大,從而易于檢出和辨別。

2 阿文單詞的貝葉斯推理模型

貝葉斯推理模型是一種以概率分析和圖論為基礎(chǔ)的數(shù)據(jù)模型,能有效地綜合數(shù)據(jù)的先驗(yàn)信息和樣本信息,近年來在模式識(shí)別領(lǐng)域上的應(yīng)用逐漸被關(guān)注[17-18]。

本文依據(jù)對(duì)阿文單詞的組件分析,構(gòu)建自組件特征至單詞類別的貝葉斯推理模型,該模型以單詞的組件特征為起始狀態(tài)節(jié)點(diǎn),以組件為中間節(jié)點(diǎn)、以單詞類別為終止節(jié)點(diǎn),形成一個(gè)關(guān)系網(wǎng)絡(luò)圖,各狀態(tài)節(jié)點(diǎn)之間的有向弧表示節(jié)點(diǎn)狀態(tài)發(fā)生的關(guān)系和概率,由父節(jié)點(diǎn)指向子節(jié)點(diǎn),如圖3所示。

圖3 阿文單詞的貝葉斯推理模型

該推理模型的具體解釋如下:

(2)基于單詞類別的模型規(guī)整在本文單詞識(shí)別算法中,需要利用單詞貝葉斯推理模型分別計(jì)算該單詞樣本至946個(gè)單詞類別的后驗(yàn)概率。由于單詞所包含的各類組件數(shù)目不定,為計(jì)算待測樣本至單詞類別的識(shí)別概率,設(shè)定一個(gè)空組件Φ,代表該處沒有組件,利用空組件Φ規(guī)整樣本特征和單詞類別的模型結(jié)構(gòu)。規(guī)整方法是: 以單詞類別的節(jié)點(diǎn)數(shù)為標(biāo)準(zhǔn),調(diào)整單詞樣本的節(jié)點(diǎn),如果樣本的組件節(jié)點(diǎn)個(gè)數(shù)較大,則去掉后面多余的組件;反之,則以空組件Φ補(bǔ)全。包含空組件后,組件數(shù)目變更為51個(gè)MG、6個(gè)DG和10個(gè)AG。

3 單詞識(shí)別算法整體流程

本文基于加權(quán)貝葉斯的阿文單詞識(shí)別算法,首先將阿文單詞分割為組件序列,再進(jìn)行組件識(shí)別和組件加權(quán)系數(shù)估計(jì),最后通過加權(quán)貝葉斯推理,計(jì)算單詞后驗(yàn)概率并獲得單詞識(shí)別結(jié)果。具體算法描述如下。

3.1 組件分割

本文采用我們?cè)谝郧肮ぷ鱗19]中所提出的主體分割和附加聚類算法(main segmentation and additional clustering,MSAC),對(duì)脫機(jī)阿文單詞進(jìn)行組件分割,組件分割的流程如圖4所示,主要包括以下幾個(gè)步驟。

圖4 MSAC組件分割流程

(1)預(yù)處理對(duì)脫機(jī)阿文單詞進(jìn)行預(yù)處理,包括二值化、歸一化、斷筆修復(fù)、傾斜校正和細(xì)化,其中二值化是灰度255置1,其余置0;歸一化為寬度512,高度等比例縮放;斷筆連接是兩筆畫間距小于筆畫寬度的3/2時(shí)進(jìn)行修復(fù);傾斜校正范圍是±30°;細(xì)化采用Z-S+Holt算法[19]。

(2)筆畫提取首先通過連通域檢測提取單詞筆畫,根據(jù)點(diǎn)閾值判定點(diǎn)筆畫,再對(duì)除去點(diǎn)筆畫后的剩余筆畫進(jìn)行Hough變換,并根據(jù)其峰值點(diǎn)找到基線位置,獲取基線域,然后將與基線域連通的筆畫確定為主要筆畫,其他筆畫為延遲筆畫。

(3)主體分割和MG序列獲取在基線域內(nèi)計(jì)算主要筆畫的垂直差分投影[20],取其極小值點(diǎn)為MG切分點(diǎn),自MG切分點(diǎn),垂直分割主要筆畫得到主體組件,按位置自右至左記作M=(M1,M2, …,Mn)。

(5)DG序列和AG序列的獲取聚類后的點(diǎn)群作為點(diǎn)組件,按位置自右至左,記作D=(D1,D2, …,Dm),除去MG和DG以外的單個(gè)筆畫構(gòu)成附加組件,按位置自右至左記作A=(A1,A2, …,Al)。

3.2 組件子分類和識(shí)別

本文結(jié)合組件分割時(shí)獲得的位置信息,提出一種新的多級(jí)混合式組件識(shí)別算法,首先根據(jù)位置信息和組件類型將所有組件預(yù)分類為8個(gè)子類,然后針對(duì)MG、AG、DG三類組件,根據(jù)各自的結(jié)構(gòu)特點(diǎn),設(shè)計(jì)不同的特征提取和分類器,在各自所屬的子類范圍內(nèi)再進(jìn)一步分類。組件子類的描述如表2所示。

表2 阿拉伯文組件的8個(gè)子類

表2中,MG根據(jù)其在連體段中所處的位置可分為獨(dú)立(S, stand alone)、前連(FC, front-connection)、雙連(m, middle)、后連(BC, behind-connection)[5]等4個(gè)子類,DG和AG各自根據(jù)其位于基線的上方或下方可分為上方(up-diacritics)和下方(down-diacritics)兩個(gè)子類,于是共有MG-S、MG-FC、MG-M、MG-BC、DG-U、DG-D、AG-U、AG-D等8個(gè)組件子類。

對(duì)于DG,由于點(diǎn)的數(shù)目特征確切直觀,于是直接根據(jù)點(diǎn)數(shù)目nd(nd=1, 2, 3)計(jì)算點(diǎn)組件的識(shí)別距離,并對(duì)點(diǎn)數(shù)目的差值加1以避免距離為0情況。設(shè)組件特征向量為x,那么點(diǎn)組件識(shí)別距離的計(jì)算如式(1)所示。

其中,di(x)代表組件x對(duì)第i類候選的識(shí)別距離,NS是組件子類別數(shù),對(duì)于DG-U,NS=3;對(duì)于DG-D,NS=2。

對(duì)于MG和AG,采用輪廓Freeman上、下、左、右4方向鏈碼結(jié)合彈性網(wǎng)格特征提取(elastic mesh directional features, EMDF)[22]??紤]到MG和AG的面積比例,網(wǎng)格大小對(duì)MG取8×8,對(duì)AG取4×4。采用MQDF分類器[23]計(jì)算MG和AG的識(shí)別距離,如式(2)所示。

其中,μi是均值向量,λi,k代表協(xié)方差矩陣的第k個(gè)特征值,φi,k是其對(duì)應(yīng)的特征向量,r是主軸個(gè)數(shù),r

另外,對(duì)3.2節(jié)中所描述的空組件Φ,規(guī)定空組件的特征為全0向量。

3.3 置信度轉(zhuǎn)換和權(quán)重估計(jì)

3.3.1 識(shí)別置信度轉(zhuǎn)換

根據(jù)組件分類器輸出的識(shí)別距離dj(x),j=1, …,NS,采用softmax函數(shù)對(duì)識(shí)別距離進(jìn)行置信度轉(zhuǎn)換,得到組件識(shí)別置信度,計(jì)算如式(3)所示。

(3)

其中,p(qj|x)代表組件x至第j類候選的識(shí)別置信度,NS是組件子類別數(shù)。

若上述估計(jì)出的識(shí)別置信度在不同子類范圍,則需要將其擴(kuò)張到統(tǒng)一的MG、DG或AG組件空間,擴(kuò)張方法如式(4)所示。

其中,p(ωi|x)為擴(kuò)張后的組件識(shí)別置信度,i= 1, …,N,對(duì)于MG,N=NM=51;對(duì)于DG,N=ND=6;對(duì)于AG,N=NA=10。

3.3.2 組件權(quán)重估計(jì)

實(shí)驗(yàn)發(fā)現(xiàn),單詞中各組件的識(shí)別可靠度不同。當(dāng)某組件的候選類別里具有相似字符時(shí),相似字符對(duì)應(yīng)的識(shí)別置信度往往較為相近,這時(shí)該組件的識(shí)別結(jié)果不太可靠;反之,當(dāng)某一候選識(shí)別置信度相較其他候選顯著地高,則說明該組件前幾候選中沒有相似字符的情況,識(shí)別結(jié)果較為可靠。本文算法試圖在單詞識(shí)別中對(duì)結(jié)果較可靠的組件給予較大的權(quán)重,以提高最終的單詞識(shí)別率,考慮以組件識(shí)別置信度的熵值的分布來表述可靠性,組件權(quán)重估計(jì)的計(jì)算如式(5)所示。

(5)

其中,λk是第k個(gè)組件的權(quán)重系數(shù),p(ωi|xk)是第k個(gè)組件的第i類候選識(shí)別置信度,N是組件類別數(shù),NG是該組件所在單詞中的組件總數(shù)。

3.4 單詞識(shí)別

單詞識(shí)別的原理是計(jì)算待測樣本至單詞類別的識(shí)別置信度(即后驗(yàn)概率),然后按照置信度自大至小的順序輸出候選單詞類別,整個(gè)識(shí)別過程包括訓(xùn)練階段和識(shí)別階段。

3.4.1 訓(xùn)練階段

在訓(xùn)練階段完成對(duì)單詞貝葉斯模型推理中狀態(tài)轉(zhuǎn)移概率的獲取。其中:

(1) 對(duì)于表示單詞和組件構(gòu)成關(guān)系的轉(zhuǎn)移概率p(WI|Mi),I= 1, …,NW,i=1, …,NM;p(WI|Dj),j=1, …,ND,p(WI|Ak),k=1, …,NA。采用最大似然估計(jì)進(jìn)行參數(shù)學(xué)習(xí),統(tǒng)計(jì)數(shù)據(jù)來自阿拉伯文語料庫,先由阿文字母使用頻率[24]轉(zhuǎn)化得到各組件的先驗(yàn)概率,再對(duì)各單詞類別的組件構(gòu)成統(tǒng)計(jì)得到單詞內(nèi)各組件和單詞的聯(lián)合概率,然后用條件概率公式計(jì)算得到組件至單詞的條件概率,即轉(zhuǎn)移概率。

3.4.2 識(shí)別階段

其中,Vi(i=1, …,NG)表示貝葉斯推理模型中與單詞WI相關(guān)聯(lián)的狀態(tài)節(jié)點(diǎn),有NG=n+m+l,pa(·)表示節(jié)點(diǎn)Vi的父節(jié)點(diǎn)集,Sh表示該父節(jié)點(diǎn)集的路徑分布。

結(jié)合圖3中所述的模型結(jié)構(gòu),如式(7)所示。

用組件權(quán)重系數(shù)λk(k=1, …,n+m+l)對(duì)式(7)進(jìn)行修正,得到式(8):

(8)

于是,組件特征為x的待測樣本,其單詞首選識(shí)別結(jié)果為最大后驗(yàn)概率對(duì)應(yīng)的單詞類別,如式(9)所示。

4 實(shí)驗(yàn)

算法性能在IFN/ENIT v2.0手寫阿拉伯文字?jǐn)?shù)據(jù)庫[6-7]上驗(yàn)證,該數(shù)據(jù)庫包含946個(gè)突尼斯城市/村莊名,共32 492個(gè)脫機(jī)阿文單詞樣本,分為編號(hào)為a、b、c、d和e的五個(gè)組[6-7]。以下各實(shí)驗(yàn)均使用a~d組數(shù)據(jù)訓(xùn)練,使用e組數(shù)據(jù)測試,算法用VC++6.0編程,運(yùn)行環(huán)境是2.6G Intel i5-4300M CPU、4.0 GB內(nèi)存的PC機(jī)。

4.1 組件分割性能分析

為評(píng)估分割結(jié)果,使用三個(gè)度量標(biāo)準(zhǔn): 準(zhǔn)確率、召回率和誤檢率。準(zhǔn)確率是算法所獲得分割點(diǎn)中正確的比率;召回率指真值分割位置中能被算法正確檢出的比率;誤檢率=1-準(zhǔn)確率,包括過分割和錯(cuò)分割兩種錯(cuò)誤,其中過分割是將一個(gè)組件分割成多個(gè)組件,而錯(cuò)分割則指分割邊界不正確。

本實(shí)驗(yàn)在IFN/ENIT v2.0數(shù)據(jù)庫[6-7]上測試三種過分割算法的性能,使用a~d組數(shù)據(jù)進(jìn)行訓(xùn)練,測試數(shù)據(jù)是e組6 033個(gè)單詞樣本所包含的65 884個(gè)組件分割點(diǎn)。算法1即本文過分割MSAC 算法。算法2是采用文獻(xiàn)[15]提出的最少像素定位結(jié)合最優(yōu)拓?fù)浣Y(jié)構(gòu)篩選的手寫阿文過分割算法。算法3是采用文獻(xiàn)[16]提出的基于改進(jìn)垂直投影和模板匹配的啟發(fā)式手寫阿文過分割算法。

表3給出了三種過分割算法的組件分割性能比較,可以看出,本文組件分割算法(算法1)性能良好,獲得97.78%準(zhǔn)確率和98.05%召回率。算法1針對(duì)過分割的誤檢率僅有0.96%,對(duì)于錯(cuò)分割的誤檢率為1.26%,均遠(yuǎn)低于另外兩種算法。良好的組件分割性能是本文基于分割策略的單詞識(shí)別算法實(shí)施的基礎(chǔ)。

表3 組件分割性能比較

4.2 組件識(shí)別性能分析

本實(shí)驗(yàn)所使用的組件樣本通過對(duì)IFN/ENIT v2.0數(shù)據(jù)庫[6-7]樣本進(jìn)行手動(dòng)分割得到,訓(xùn)練數(shù)據(jù)是來自該數(shù)據(jù)庫a~d組的共305 042個(gè)組件,測試數(shù)據(jù)是來自e組的71 917個(gè)組件。實(shí)驗(yàn)對(duì)比兩種識(shí)別算法的性能。算法1即本文多級(jí)混合式的手寫阿文組件識(shí)別算法。算法2是文獻(xiàn)[25]提出的脫機(jī)阿文字符識(shí)別算法,該算法基于神經(jīng)網(wǎng)絡(luò)分類器,并結(jié)合了統(tǒng)計(jì)和結(jié)構(gòu)特征。

表4列出了兩種識(shí)別算法分別對(duì)MG、DG和AG的識(shí)別結(jié)果比較,可以看出,本文組件識(shí)別算法(算法1)相較算法2性能較好,這是因?yàn)楸疚亩嗉?jí)混合式的手寫阿文組件識(shí)別算法根據(jù)組件分割時(shí)的位置信息預(yù)分類組件,又為MG、DG和AG設(shè)計(jì)不同的特征提取和分類器,能獲得較好的識(shí)別效果。而且,算法1使用距離分類器,因而相較算法2神經(jīng)網(wǎng)絡(luò)分類器的耗時(shí)少。對(duì)DG組件,算法1獲得的識(shí)別率較算法2高2.11%,因?yàn)楸疚乃惴紤]了三種點(diǎn)連筆的情況,因而對(duì)書寫連筆較多的樣本組識(shí)別率高。

表4 組件識(shí)別性能比較

4.3 單詞識(shí)別性能分析

本實(shí)驗(yàn)使用IFN/ENIT v2.0數(shù)據(jù)庫[6-7]的a~d組進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)包括單詞樣本26 459個(gè),字符樣本212 211個(gè),組件樣本305 042個(gè),測試數(shù)據(jù)是e組的6 033個(gè)單詞樣本。實(shí)驗(yàn)對(duì)比了四種算法的性能,算法1、2和3基于切分識(shí)別,算法1是本文手寫阿文單詞識(shí)別算法;算法2是文獻(xiàn)[13]提出的基于多邊形近似描述結(jié)構(gòu)特征和多邊形模糊匹配的阿文單詞識(shí)別算法;算法3采用文獻(xiàn)[14]提出的結(jié)合縱、橫向掃描模板和支持向量機(jī)(support vector machine,SVM)分類器的手寫阿文單詞識(shí)別算法;算法4基于整詞識(shí)別,由文獻(xiàn)[10]提出,采用滑動(dòng)窗統(tǒng)計(jì)特征結(jié)合多流隱馬爾可夫模型(hidden Markov models,HMM)分類器。表5總結(jié)了四種算法的單詞識(shí)別性能。

表5 單詞識(shí)別性能比較

可以看出,本文算法(算法1)性能良好,單詞首選識(shí)別率為90.03%,證實(shí)了該算法的有效性。分析來說,首先,在分割單元方面,對(duì)比算法1和算法2、3可知,本文基于組件的分解和建??梢詼p少過分割錯(cuò)誤,在組件層面識(shí)別單詞,能將相似詞間的微小差異定位至不同組件,并且在分割時(shí)考慮到點(diǎn)筆畫的三種連寫形式,有效解決了手寫文字筆畫粘連的識(shí)別難點(diǎn),進(jìn)而有效提高了單詞識(shí)別率。其次,對(duì)比識(shí)別策略可知,本文基于切分識(shí)別的算法1獲得的識(shí)別率稍高于基于整詞識(shí)別的算法4,而識(shí)別所需的訓(xùn)練基元是50個(gè)MG、9個(gè)AG和3個(gè)點(diǎn)連筆,共62個(gè)組件,訓(xùn)練所需類別數(shù)目小且固定,算法向大規(guī)模詞匯識(shí)別的可擴(kuò)展性較強(qiáng)。最后,在耗時(shí)方面,由于分割模塊會(huì)部分增加算法復(fù)雜度,切分識(shí)別策略相比整詞識(shí)別策略,算法的運(yùn)行時(shí)間較長。

5 結(jié)束語

脫機(jī)手寫阿文單詞書寫粘連,筆畫形態(tài)復(fù)雜,文字特征很難準(zhǔn)確提取。本文將阿文單詞分解為組件,并設(shè)計(jì)多級(jí)混合式分類器來識(shí)別組件,再通過單詞加權(quán)貝葉斯模型的構(gòu)建和推理來獲取單詞識(shí)別結(jié)果。算法不但能檢測和辨識(shí)到相似單詞間的微小差異,而且對(duì)書寫連筆、筆畫漂移等手寫復(fù)雜情況具魯棒性。另外,算法訓(xùn)練所需組件類別有限,易于向大詞匯量識(shí)別任務(wù)擴(kuò)展。

算法目前的識(shí)別錯(cuò)誤主要出現(xiàn)在書寫潦草、點(diǎn)筆畫連寫不規(guī)整和點(diǎn)筆畫丟失的情況。下一步研究期望通過提高組件識(shí)別率和改進(jìn)單詞結(jié)構(gòu)模型來獲得更好的單詞識(shí)別性能。

猜你喜歡
阿文手寫置信度
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
我手寫我心
抓住身邊事吾手寫吾心
基于集成學(xué)習(xí)的MINIST手寫數(shù)字識(shí)別
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
扶兒子一把
阿文的詩
深度學(xué)習(xí)在手寫漢字識(shí)別中的應(yīng)用綜述
置信度條件下軸承壽命的可靠度分析
多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?