吳文益, 李鎮(zhèn)宇
(1.大連民族大學(xué) 大連市漢字計(jì)算機(jī)字庫設(shè)計(jì)技術(shù)創(chuàng)新中心, 遼寧 大連 116600;2.大連瑞云字庫科技有限公司, 遼寧 大連 116023)
漢字字形輪廓有筆畫輪廓和字形輪廓2種方式如圖1。每個(gè)漢字都由若干筆畫組合, 筆畫輪廓中一個(gè)筆畫是一個(gè)封閉區(qū)域, 互相交叉的筆畫組成字形, 發(fā)布的字體通常是字形輪廓而不是筆畫輪廓。 在字體設(shè)計(jì)領(lǐng)域, 無筆畫輪廓的字形輪廓字庫的重構(gòu)需要漢字筆畫的提取和分割技術(shù);在脫機(jī)手寫體識(shí)別、手寫風(fēng)格分析等方面筆畫分割是重要的技術(shù)環(huán)節(jié);在基于深度學(xué)習(xí)的字體生成中筆畫錯(cuò)誤問題, 利用筆畫分割得到筆畫類別信息可以大幅降低錯(cuò)誤筆畫的生成概率。 因此漢字筆畫分割在漢字設(shè)計(jì)及字形計(jì)算機(jī)輔助設(shè)計(jì)技術(shù)具有重要的作用。
圖1 “?!弊值墓P畫輪廓與字形輪廓
漢字筆畫種類的多樣性和結(jié)構(gòu)的復(fù)雜性使得筆畫分割具有一定難度。 文獻(xiàn)[1]中把筆畫分為8個(gè)大類和36個(gè)小類見表1。
表1 筆畫類別對(duì)照表
在漢字筆畫分割相關(guān)研究領(lǐng)域中, 文獻(xiàn)[2]通過漢字輪廓, 使用約束Delaunay三角剖分將邊界內(nèi)的區(qū)域轉(zhuǎn)換為三角形網(wǎng)格, 并根據(jù)筆畫連續(xù)性分析通過合成子筆畫來提取目標(biāo)筆畫。 在文獻(xiàn)[3~4]中, 通過分析特征點(diǎn)和跟蹤順序?qū)h字輪廓進(jìn)行分割。 上述研究方法適于提取基本筆畫, 但對(duì)于合成筆畫分割效果較差, 常將其錯(cuò)誤分割為幾個(gè)基本筆畫;為使筆畫分割更為準(zhǔn)確, 文獻(xiàn)[5~7]引入標(biāo)注數(shù)據(jù)集克服上述問題, 采用GB2312楷體字體庫作為參考數(shù)據(jù), 其中首先對(duì)字形進(jìn)行骨架提取, 然后使用點(diǎn)集配準(zhǔn)算法, 如相干點(diǎn)漂移CPD[8]方法將目標(biāo)字符的骨架點(diǎn)與參考字符骨架點(diǎn)進(jìn)行匹配。 此外邵宏峰等利用基于動(dòng)態(tài)約束Delaunay三角割分的算法對(duì)筆畫進(jìn)行分割[9];陽平等提出一種從篆字骨架中分割出筆畫的方法[10];熬雪峰等通過提取篩選角點(diǎn)來分割楷體漢字筆畫[11];陳旭東等[12]構(gòu)建了一個(gè)提供評(píng)測(cè)工具的筆畫基準(zhǔn)測(cè)試庫。
基于深度分割模型的漢字筆畫分割方法主要利用深度神經(jīng)網(wǎng)絡(luò)表示與逼近能力實(shí)現(xiàn)“端到端的訓(xùn)練”。 該類方法的核心思想是把漢字看成圖像, 把漢字筆畫分割任務(wù)視為一種圖像語義分割任務(wù)。 在語義分割研究中, 文獻(xiàn)[13]提出一種全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network, FCN)來解決圖像語義分割, 后續(xù)研究出現(xiàn)了幾種基于FCN的變體網(wǎng)絡(luò)模型, 如Segnet[14]和Unet[15]等網(wǎng)絡(luò);王文光等提出一種筆畫提取框架[16], 通過改進(jìn)的語義分割模型Deepstroke來分割筆畫, 并利用禁忌搜索獲取筆順信息。
針對(duì)目前方法存在的筆畫分割不清、邊緣輪廓粗糙、對(duì)不同字體適應(yīng)性不強(qiáng)等問題。 本文提出一種全卷積神經(jīng)網(wǎng)絡(luò)模型一定程度克服上述問題, 進(jìn)而對(duì)筆畫進(jìn)行有效分割, 輔助設(shè)計(jì)師以提高字庫開發(fā)效率。
本文提出的融合跳躍連接的全卷積漢字筆畫分割模型如圖2。
圖2 語義分割模型結(jié)構(gòu)
提出模型中取消了池化層, 下采樣部分引入resnet-34[17], resnet-34殘差網(wǎng)絡(luò)可以避免由于網(wǎng)絡(luò)加深而導(dǎo)致的梯度消失和梯度爆炸問題。 模型中進(jìn)行3次下采樣, 每個(gè)下采樣塊由Residual Block[18], 并將最大池化層改為了空洞卷積, 減少了信息的丟失。 上采樣部分采用3個(gè)反卷積[19]和3個(gè)跳躍結(jié)構(gòu)[20]進(jìn)行特征融合, 以最大限度獲取淺層網(wǎng)絡(luò)的信息, 最后采用連續(xù)的兩個(gè)反卷積恢復(fù)原始尺寸。
下采樣部分由resnet-34改進(jìn)而來如圖3?;疑糠譃樵瓉韗esnet-34的結(jié)構(gòu), 白色部分為刪除掉的模塊。 其中由多個(gè)殘差塊(Residual Block)和1個(gè)批標(biāo)準(zhǔn)化層(batchnorm2d)構(gòu)成了1次下采樣, 共計(jì)3次下采樣, 并去除了最后的全連接層和全局平均池化層。 由于原網(wǎng)絡(luò)的輸出是一個(gè)歸一化指數(shù)層(SoftMax)多分類器, 為使下采樣的輸出作為上采樣部分的輸入, 所以去除最后的全連接層和全局平均池化層;由于最大池化在提供更大的感受視野的同時(shí), 分辨率降低, 會(huì)導(dǎo)致空間信息丟失, 數(shù)據(jù)丟失。 而空洞卷積可以避免使用下采樣, 并且在相同計(jì)算量的前提下, 提供更大的感受野。 故將原模型的最大池化層改為了空洞率為2的空洞卷積層。
圖3 下采樣部分resnet-34修改圖
模型上采樣模塊由3次上采樣構(gòu)成如圖4。 每次上采樣會(huì)與之前的下采樣以及空洞卷積進(jìn)行1次特征融合(通過1×1的卷積核將下采樣塊的通道數(shù)統(tǒng)一, 并與上采樣塊進(jìn)行加和操作), 以便獲得更多淺層信息, 如字體的邊緣信息等。
圖4 上采樣部分
融合完1次特征后, 利用2倍轉(zhuǎn)置卷積將特征圖放大, 以進(jìn)行下一次融合。 當(dāng)融合3次淺層特征信息后, 采用連續(xù)的兩次2倍卷積將特征圖恢復(fù)成原始大小。 為了避免訓(xùn)練不收斂問題, 轉(zhuǎn)置卷積的卷積核采用雙線性插值算法[21]進(jìn)行參數(shù)初始化。
本文利用筆畫類別信息作為筆畫語義。 根據(jù)《GB13000.1字符集漢字折筆規(guī)范》[22]對(duì)筆畫進(jìn)行類別標(biāo)記, 本文將筆畫交叉部分和背景單獨(dú)歸為一類, 故總計(jì)34類。本文用3維張量表示一個(gè)漢字字符的語義分割圖如圖5。 張量大小為288×288×34, 采用One-Hot編碼對(duì)筆畫類標(biāo)簽進(jìn)行表示[23]。
圖5 筆畫語義分割圖
定義K為筆畫類別數(shù), 本文中K=34, 定義輸入?yún)⒖甲煮w的二值圖像X=(x1,x2,…,xn),xi為第i張圖像,xi的張量大小統(tǒng)一為288×288×1, 目標(biāo)字體筆畫分割圖像Y=(y1,y2,…,yn), 其中目標(biāo)字體的n個(gè)字符為設(shè)計(jì)師手工分割筆畫的字符,yi經(jīng)過One-Hot對(duì)K種類別進(jìn)行編碼后的張量大小統(tǒng)一為288×288×K。
全卷積網(wǎng)絡(luò)通常采用前饋網(wǎng)絡(luò)直接學(xué)習(xí)參數(shù)為θ的映射函數(shù)Dθ:
(1)
(2)
式中:yi ,s,t類別為j的概率分布;yi ,s,t為類別為j的預(yù)測(cè)概率, 均由SoftMax函數(shù)計(jì)算得來。 由此可得, 對(duì)于每個(gè)像素點(diǎn), 有多元交叉熵?fù)p失函數(shù)Js,t:
(3)
本文采用商用漢字字庫作為數(shù)據(jù)集, 主要考慮漢字商用字庫數(shù)據(jù)集豐富而且規(guī)范。
本文選擇了9種漢字簡(jiǎn)體正文字庫作為數(shù)據(jù)集, 主要包括標(biāo)準(zhǔn)宋體、蘭亭黑體、隸書等字體。 該數(shù)據(jù)集包含較為全面的漢字筆畫和各種筆畫結(jié)構(gòu)組合如圖6。本文從字庫文件中提取漢字字符, 將矢量路徑轉(zhuǎn)換成288×288×1像素圖像, 每字庫選6 763個(gè)漢字作為樣本, 其中訓(xùn)練集3 436個(gè), 測(cè)試集3 350個(gè)。
預(yù)測(cè)分割圖像和原始分割圖像之間的差異度量是模型訓(xùn)練的關(guān)鍵問題之一, 漢字筆畫分割是以像素為單位。 故本文采用多種評(píng)價(jià)指標(biāo)對(duì)分割模型進(jìn)行評(píng)價(jià)。 假設(shè)i表示真實(shí)值,j表示預(yù)測(cè)值,pij表示將i預(yù)測(cè)為j, 并且該圖像有K種類別(包含空類)。
圖6 數(shù)據(jù)集字體樣式
(1)平均像素準(zhǔn)確率(Mean Pixel Accuracy, MPA), 其計(jì)算每個(gè)類別分類正確的像素?cái)?shù)占所有預(yù)測(cè)為該類別像素?cái)?shù)的比例的平均值。
(4)
(2)均交并比(Mean Intersection over Union, MIoU), 其計(jì)算每個(gè)類別像素交集和并集之比的平均值, 是語義分割常用的度量方法。
(5)
(3) 頻權(quán)交并比(Frequency Weight Intersection over Union, FWloU), 其對(duì)每一類出現(xiàn)的頻率設(shè)置權(quán)重, 權(quán)重乘以每類的IoU并進(jìn)行求和。
(6)
左側(cè)為原始圖像, 右側(cè)為網(wǎng)絡(luò)拆分筆畫后的圖像如圖7。經(jīng)計(jì)算圖7b的MIoU值為0.88, 圖7c的MIoU為0.77, 從圖中也可看出7b圖局部的分割噪點(diǎn)和連貫性要比7c圖分割效果好。
a)未拆分筆畫原字 b)MIoU=0.88 c)MIoU=0.77圖7 不同模型分割圖像對(duì)比
為驗(yàn)證跳躍結(jié)構(gòu)的有效性, 本文對(duì)跳躍結(jié)構(gòu)進(jìn)行了消融實(shí)驗(yàn)。 實(shí)驗(yàn)結(jié)果如圖8??梢娪刑S結(jié)構(gòu)模型分割筆畫效果更好。 這結(jié)果表明跳躍結(jié)構(gòu)的引入有利于準(zhǔn)確地分割字體筆畫。
圖8 跳躍結(jié)構(gòu)消融實(shí)驗(yàn)
為驗(yàn)證空洞卷積代替池化對(duì)于模型的有效性, 本文對(duì)空洞卷積結(jié)構(gòu)進(jìn)行了消融實(shí)驗(yàn)。 實(shí)驗(yàn)中, 將空洞卷積改為了最大池化,實(shí)驗(yàn)結(jié)果如圖9。 圖中可以看出具有空洞卷積的模型在分割質(zhì)量上都要優(yōu)于未使用空洞卷積的模型。 這結(jié)果表明空洞卷積的引入有利于準(zhǔn)確分割字體筆畫。
圖9 空洞卷積消融實(shí)驗(yàn)
為研究模型較為合適的訓(xùn)練周期和停止條件, 本文對(duì)迭代次數(shù)與分割字體筆畫質(zhì)量進(jìn)行了對(duì)比實(shí)驗(yàn), 給出本文模型在學(xué)習(xí)率為0.000 1, 使用Adam優(yōu)化器的條件下, 訓(xùn)練過程的Loss曲線如圖10。 可以看出, 在訓(xùn)練次數(shù)為50次左右時(shí), Loss值已不發(fā)生明顯變化。
同時(shí), 本文記錄了實(shí)驗(yàn)在第50次到300次迭代后分割圖像的MPA、MIoU和FWloU值見表2。在200次時(shí), 分割的精度基本達(dá)到上限。
圖10 Loss值隨訓(xùn)練次數(shù)的變化
表2 訓(xùn)練周期的影響
本文還與其他方法進(jìn)行對(duì)比實(shí)驗(yàn), 對(duì)比方法選取了FCN-8[13], Segnet[14]和Unet[15]三種典型語義分割網(wǎng)絡(luò)模型。 數(shù)據(jù)集采用標(biāo)準(zhǔn)宋體、方正卡通簡(jiǎn)體和方正蘭亭黑簡(jiǎn)體作為數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 迭代次數(shù)設(shè)置為50次, 并將分割的字符與目標(biāo)字庫的字體圖像進(jìn)行對(duì)比,見表3。 實(shí)驗(yàn)結(jié)果明本文方法MPA, MIoU和FWloU的全局平均值優(yōu)于其它3種方法。
表3 三種語義分割方法的定量評(píng)價(jià)
本文模型在整體上分割取得良好效果, 但在一些字的字體局部, 特別是彎曲筆畫分割上仍存在分割不清的問題如圖11。這些不足也有待于進(jìn)一步的深入研究。
a)原漢字 b)樣本標(biāo)簽 c)分割結(jié)果圖11 分割錯(cuò)誤問題
本文提出融合跳躍連接的全卷積漢字筆畫分割模型方法, 其中將跳躍結(jié)構(gòu)與網(wǎng)絡(luò)模型結(jié)合, 克服了筆畫分割效果差等問題。 在下采樣中, 為了更多保留筆畫結(jié)構(gòu)信息, 采用空洞卷積代替最大池化層, 實(shí)驗(yàn)結(jié)果表明本文方法提升了分割字體筆畫的細(xì)節(jié)和結(jié)構(gòu)完整性。 通過各類實(shí)驗(yàn)論述和對(duì)比了本文方法與其他方法的結(jié)果, 表明本文的方法具有較好應(yīng)用價(jià)值, 可以輔助字體筆畫分割, 提高字庫開發(fā)效率。
大連民族大學(xué)學(xué)報(bào)2022年5期