国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于縫隙裁剪的滿文單詞分割和提取方法研究

2019-04-02 02:55賀建軍鄭蕊蕊
中文信息學報 2019年2期
關鍵詞:滿文分割線錯誤率

張 晶,許 爽,賀建軍,李 敏,鄭蕊蕊

(1. 大連民族大學 信息與通信工程學院,遼寧 大連 116600; 2. 中央民族大學 理學院,北京 100081)

0 引言

滿文作為清代法定推廣和使用的文字,歷經數百年,形成了大量的滿文古籍文檔。這些滿文文檔涉及廣泛,包括政治、經濟、軍事、歷史、文藝、宗教、風俗等各個方面,是清代通史和各種專史的珍貴資料,具有重要的價值和意義,亟待研究[1]。相對漢語、英語等語言,我國少數民族語言的文檔分析研究還沒有充分展開,對滿文文檔的分析研究更是處于起步階段,而文檔分析中,行列分割作為離線圖像文本識別和檢索中重要的一步,現在已成為國內外較為熱門的研究話題之一?,F有的文本行分割算法主要包含以下五類:基于投影的方法、基于筆畫特征的方法、基于霍夫變換的方法、基于隨機模型的方法和基于聚類的方法。文獻[2]提出了一種基于投影的古漢字切分方法,該方法的優(yōu)點在于計算復雜度較低,實現起來簡單,但缺點也十分明顯。首先,相對較短的文本行在投影直方圖上沒有明顯的峰值,容易被漏檢;其次,對于存在粘連或重疊的文本行,由于沒有明顯的谷值,導致文本行不能被分割開。文獻[3]通過筆畫特征分析的方法分割字符,這種方法不僅耗時間,而且對含有大量離散筆畫的文本行分割的準確率不高,容易跨行分割,難以達到分割期望。基于霍夫變換的方法[4],更適用于版面簡單的字母類文檔,對于版面復雜的文字文檔效果不佳?;陔S機模型[5]的行分割算法能夠較好地適應書寫風格的變化,但計算復雜度非常高。文獻[6]提出了自底向上的聚類方法,將連通域聚類成文本行,此方法對存在彎曲現象的文本行非常有效,但通常需要啟發(fā)式合并規(guī)則和人工調參。

針對以上問題,本文提出了一種適用于滿文文檔圖像的單詞分割和提取方法。首先采用最小能量縫自適應剪裁圖像的方法來計算相鄰行列間的分割線;然后通過中線區(qū)域約束得到不損壞滿文文字部件的最佳分割線;最后依據分割線提取獨立的滿文文本列和滿文單詞。該方法對自上而下書寫形式復雜、文本列長度不一、離散附屬筆畫較多、列間彎曲和傾斜及間距不均勻的滿文文檔能夠正確分割和提取,且分割精確度較高。

1 本文算法的整體框架

本文建立的滿文單詞分割和提取方法包含三個主要部分,即預處理部分、文本分割部分和文本提取部分,整體框架如圖1所示。

圖1 本文算法的整體框架

(1)預處理部分首先對輸入滿文文檔圖像進行預處理以減小干擾,提高圖像質量。預處理過程包括:灰度化和高斯濾波。

(2)文本分割部分文本分割部分包括內側縫計算、分割縫計算、中縫區(qū)域約束和分割后處理。采用投影輪廓匹配方法[7]進行內側縫計算,確定文本列數目并初步涂抹,對相鄰列間進行中縫區(qū)域約束,在受約束的兩兩相鄰文本列間采用縫隙裁剪算法[8]動態(tài)地計算最小能量,從而得到不切損文字部件的最佳分割線,并延伸所有分割線至頁面底端,再對漏切分行列進行再切分。

(3)文本提取部分文本提取部分包括文本列提取和滿文單詞提取。依據分割線對滿文文檔區(qū)域分割,選取背景中值進行背景補齊填充,提取獨立的文本列和滿文單詞。

2 預處理

原始的滿文文檔通常已有百年以上歷史,由于年代久遠,掃描獲取的滿文文檔圖像質量較差,存在大量的噪聲、污點、筆跡褪色、傾斜等現象。除了年代久遠,掃描過程中也會引入噪聲。為了保證后續(xù)工作的順利進行,有必要對掃描后的滿文文檔圖像進行有效的預處理,以減小干擾,提高圖像質量。一般的預處理步驟中普遍將圖像二值化處理,圖2(a)為二值化后的結果,圖2(b)為原始滿文手寫奏折文檔圖像??梢钥闯?,二值化會使原文檔圖像丟失一部分信息,使分割后文字不完整,所以,本文為更好地保留原始文檔信息,直接在灰度圖像和彩色圖像上進行處理,并且,本文方法不需要對滿文文檔圖像進行傾斜矯正等預處理,在對圖2(d)中具有傾斜角度的滿文文檔也可以有效分割。本文預處理步驟包括兩個部分。

(1) 彩色圖像轉灰度圖

假設輸入的滿文圖像為灰度圖像I∈Rn×m,如果是RGB彩色圖像,將根據式(1)的加權平均法將其轉化為灰度圖像,其中符號I(i,j)表示圖像在第i行、第j列的值,如式(1)所示。

(1)

(2) 高斯濾波

運用二維的高斯函數對圖像進行高斯濾波,如式(2)所示。

(2)

其中,a,b是像素的坐標位置,ρ是正態(tài)分布的標準偏差。圖像中的像素值是由鄰域內的其他像素值和其本身像素經過加權平均后計算得到的[9]。其本身的像素值具有最大的高斯分布值,所以權重最大,而相鄰像素隨著距離原始像素越來越遠,其權重也越來越小。這樣進行模糊處理比其他的均值模糊濾波能更好地保留了原始文檔的邊緣信息。

圖2 二值化和傾斜校正前后、滿文文檔分割結果示圖

3 文本分割

3.1 內側縫計算

(3)

(4)

如果式(4)中(Ⅰ)和(Ⅱ)的上述位置匹配一致,則它們用線連接。重復上面的過程,直到所有的切片被處理。文本列區(qū)域可以用矩陣Lh,j(h=1,…,l,j=1,…,n)表示。其中,元素Lh,j表示第h行的第j個坐標,l表示找到的最后列數。匹配完成后,得到初步涂抹的文本列。文本列數目及列間內側縫已計算得到。此時,定義任意兩個相鄰的內側縫間為計算分隔縫時的約束區(qū)域。該區(qū)域將分割縫約束在相鄰的兩文本列之間,避免跨列分割。

3.2 分割縫計算

本文采用提出的縫隙剪裁算法計算分割縫。

(1) 計算圖像能量圖Ei,j。能量圖是灰度文檔圖像的導數圖像,如式(5)所示。

(5)

其中,Iσ是原始灰度圖像經過標準偏差為σ的高斯濾波器平滑濾波獲得的圖像。在能量圖中,高能量區(qū)域對應文本分量,低能量區(qū)域對應紙張背景。用Eh=EJ表示兩個文本列之間的能量圖。其中J是寬度為m的二維網格,第j列包含兩個文本列位置之間的所有中間坐標i,即Jj={Lh,j,…,Lh+1,j}T,h=1,…,l-1,j=1,…,n。一個垂直穿過圖像網格Eh的接縫Sh可以定義為:

(6)

其中,yh:[1,…,n]→[Lh,j,…,Lh+1,j]。

(7)

從左到右遍歷圖像網格Eh,計算每個像素位置(yh(j),j)的所有連接縫的累積最小能量M,如式(8)、式(9)所示。

M最后一列為最小值時,分割縫計算結束。

(3) 更新能量圖。遍歷累積能量M向后找到最優(yōu)的分割縫路徑,對每個圖像網格Eh重復上述過程,不斷更新能量圖,直到整個滿文文檔圖像全部被處理。圖3為《軍機處滿文準噶爾使者檔譯編》[11]的手寫體滿文文檔的分割結果,其中圖3(a)為原始滿文文檔圖像,圖3(b)為列涂抹后的滿文文檔圖像,圖3(c)為列分割后的滿文文檔圖像。

圖3 手寫體滿文文檔圖像分割結果

圖4 中縫區(qū)域約束后印刷體滿文文檔分割結果

3.3 中縫區(qū)域約束

(10)

圖5 中縫區(qū)域約束后手寫體滿文文檔分割結果

3.4 分割后處理

(1) 延伸分割線

由于滿文文本列長短不一,所以存在一些分割線只延伸到短文本列長度,沒有貫穿整個文檔頁面。為了下一步實現獨立文本列的分割,在后處理中將分割線向文檔頁面末端延伸。首先,提取文檔圖像中的文字連通域cc,找到較短文本列對應的連通域ccs,然后,選取較短文本列相鄰左右兩列的中間位置對短文本列ccs進行擴展,直至圖像文檔頁面的底部,分割線也將延伸至文檔圖像底部。

(2) 漏切分列再切分

在分割過程中,可能出現一些文本列沒有被分割開,此時需要檢測到這些漏切分的列對其進行再次切分。通過向滿文文檔圖像的豎直方向投影,得到單一列的最大寬度Lwmax。若切割得到的列寬Lw大于最大寬度Lwmax,則此列為漏切分列,對漏切分列采用縫隙裁剪的方法再切分,直到所有的列都被成功分割。

4 文本提取

4.1 列提取

文本列分割作為離線文本分析中重要的一步,是字符識別和檢索的前提。實現字符的識別和檢索,文本列的提取也是必不可少的關鍵任務。對滿文文檔列進行線分割后,進一步以分割線切割相鄰文本列實現獨立文本列的提取。彎曲的分割線使得分割得到的文本列邊緣層次不齊,為得到完整的文本列圖像,需要將不規(guī)則的分割邊緣補齊。輸入分割線圖像I′∈Rn×m′,第一步是區(qū)域分割提取,第二步將背景補齊融合,得到背景完整的獨立滿文列圖像。

設(x,y)是輸入滿文文檔分割后帶有分割線的圖像平面坐標,其灰度級的取值范圍是G={0,1,2,…,Z-1},位于坐標點(x,y)上的像素點的灰度級表示為f(x,y)。設q∈G為分割閾值,B={b0,b1}代表一個二值灰度級,并且b0,b1∈G。于是圖像函數f(x,y)在閾值q上的可以由式(11)表示,以《軍機處滿文準噶爾使者檔譯編》中手寫體文檔分割為例,圖6(a)為列分割后的滿文文檔,圖6(b)為區(qū)域分割結果。

(11)

圖6 滿文文檔圖像區(qū)域分割結果

分割后的文本列邊緣由于彎曲的切割線而參差不齊,本文選用分割后文本列圖像背景的中值作為融合背景圖像。背景的中值為n×m′階矩陣Ib,其中第i行j列處點的值表示為b(i,j)(i≤n,j≤m′),切分后的獨立列為n×m′階矩陣It,第i行j列處點的值表示為t(i,j)(i≤n,j≤m′),α∈(0,1)表示融合權重,是背景圖像在結果圖像中所占的比例。融合結果圖像Ir由式(12)得出,圖7為對應于圖6(a)中的每列獨立文本列的提取結果。

Ir=α·Ib+(1-α)·It

(12)

圖7 滿文文本列提取結果 每一列對應圖6(a)中的每列

4.2 單詞提取

圖8 印刷體滿文單詞提取結果

圖9 手寫體滿文單詞提取結果

5 實驗結果

5.1 數據集

本文所采用的滿文數據集來源于滿文圖書和大連民族大學圖書館古籍館獲取的滿文檔案。為了保證得到的圖像具有較高的質量,將原始滿文文檔分別用600dpi和350dpi分辨率掃描獲得電子滿文文檔圖像。滿文文檔數據集如表1所示,包含四個(Ⅰ、Ⅱ、Ⅲ、Ⅳ)滿文文檔子集,數據集Ⅰ選取自胡增益主編的《新滿漢大詞典》中的目錄部分,共包括107頁639列15 950個滿文單詞。數據集Ⅱ選取自中國第一歷史檔案館和中國邊疆史地研究中心合編的《清代新疆滿文檔案匯編》。從中隨機選取100頁滿文印刷體文檔,包括1 490列9 040個滿文單詞。數據集Ⅲ為《清代新疆滿文檔案匯編》中隨機選取的100頁滿文手寫體文檔,包括1 471列8 905個滿文單詞,數據集Ⅳ為中國第一歷史檔案館收錄的真實滿文手寫掃描檔案《軍機處滿文準噶爾使者檔譯編》。從中隨機選取50頁包括735列7 350個滿文單詞,其中數據集Ⅰ、Ⅱ為印刷體滿文文檔,Ⅲ、Ⅳ為手寫體滿文文檔。

表1 滿文文檔數據集

5.2 評價方法

為了驗證本文分割算法的有效性,需要采用相應的評價指標來對算法進行衡量。在現有的研究中,一些研究人員采用人工評價的方法,也有朱宗曉、楊兵[14]等采用匹配度作為評價指標。本文采用匹配度作為評價指標。以如下評價方法對分割結果進行評價,設G為數據集中實際的列,R為程序處理分割出來的列,文本對實際列G與分割結果R定義了匹配度,如式(13)所示。

(13)

當匹配度(G,R)≥0.90時,認為分割列R正確。本文采用了召回率(R)、錯誤率(F)對本文的滿文文檔列和單詞分割提取進行評價,如式(14)~式(17)所示。

5.3 實驗分析

本文的實驗平臺為PIV2.50GHZ/4.00GBRAM,運行環(huán)境為Matlab 7.10,對象為滿文文檔數據集Ⅰ、Ⅱ、Ⅲ、Ⅳ。依據5.2節(jié)的評價方法,實驗分別統計了滿文文檔列分割和單詞分割的數據庫理論值、實際分割得到的值和分割正確的值。定義分割正確的值占數據集理論應切割得到值的百分比為召回率,體現了分割精確度;由于文檔圖像版面復雜,可能產生多于理論值的分割線,從而,導致分割錯誤率。定義錯誤分割的值占實際分割得到值的百分比為錯誤率。實驗進一步采用目前應用較為廣泛的投影切分方法[15]作為比較算法。分別在兩種方法下進行滿文文檔列和單詞的分割實驗,比較其分割召回率和錯誤率。

實驗對滿文文檔列分割的結果如表2所示。從表2中的實驗結果來看,本文的分割算法在滿文數據集上獲得了較高的召回率,最高可以達到98.75%。在數據集Ⅰ、Ⅱ、Ⅲ、Ⅳ上召回率逐漸降低,但相差不超過5個百分點。從這一點可以說明本文方法在對印刷體滿文文檔和手寫體滿文文檔上都可以有效分割。對數據集Ⅰ,本文方法召回率最高為98.75%,高于投影法的98.28%約0.5個百分點;對數據集Ⅱ,本文方法的召回率為97.11%,高于投影法的85.64%約11個百分點;對數據集Ⅲ,本文方法召回率為95.04%,高于投影法的57.72%約37個百分點;對數據集Ⅳ,本文方法召回率為94.69%,高于投影法的58.91%約36個百分點。對于印刷體數據集Ⅰ、Ⅱ,本文方法召回率高于投影法,但相差不大;對手寫數據集Ⅲ、Ⅳ,投影法召回率明顯下降。本文方法召回率高于投影法超過30個百分點,投影法無法達到對手寫體滿文檔分割預期,分割效果差。由此,相比投影法,本文算法不論是對印刷體還是對手寫體滿文文檔,分割結果都更佳。尤其在對附屬筆畫較多、列間彎曲傾斜、書寫復雜的手寫滿文文檔,本文方法明顯優(yōu)于投影法。

表2 滿文列分割實驗結果

表3給出了滿文單詞的分割結果。從表3實驗結果來看,本文方法在Ⅰ、Ⅱ、Ⅲ、Ⅳ數據集上的召回率都高于投影法,本文方法在數據集Ⅰ上召回率最高為95.02%,而投影法最高只有79.97%。就分割錯誤率來看,本文方法錯誤率低于投影法。其中對于數據集Ⅲ,投影法的錯誤率為46.14%,而本文方法只有3.52%,投影法的錯誤率遠大于本文方法錯誤率。進一步得出,本文方法可以對滿文單詞有效地分割,且效果優(yōu)于投影方法,錯誤率較低。

表3 滿文單詞分割實驗結果

6 結論

從大篇幅的滿文文檔圖像中分割和提取滿文單詞是滿文文檔分析的重要步驟,也是后續(xù)研究的前提。本文提出了一種基于縫隙裁剪的滿文文檔圖像分割算法,該算法可直接應用于灰度或彩色圖像。首先,利用投影輪廓匹配確定文本列數目,其次,在兩個連續(xù)文本行之間進行中縫區(qū)域約束,在受約束區(qū)域,通過尋找最小能量計算得到分離縫。在沒有進行二值化的灰度或彩色印刷體和手寫體滿文文檔集上,取得了很好的分割效果,更好地保留了原始文檔信息。對于文本列彎曲、有一定的傾斜角度、單詞間重疊粘連的滿文文檔也能有效分割,且不需要復雜的啟發(fā)規(guī)則。實驗證明,本文方法對滿文文檔能有效分割,且分割的精度較高。

猜你喜歡
滿文分割線錯誤率
全成形運動休閑外套分割線的設計與編織工藝
女裝分割線結構設計技術研究
滿文簡單句式之陳述句
滿文簡單句式之判斷句《尼山薩滿傳》節(jié)選(17)
崇謨閣本《滿文老檔》來歷
《滿文老檔》歷史密碼
小學生分數計算高錯誤率成因及對策
分割線在服裝結構設計中的運用思路探析
正視錯誤,尋求策略
分割線設計手法在服裝設計中的運用分析