国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的甲骨文偏旁與合體字的識別研究

2021-10-22 07:30:44林小渝陳善雄高未澤莫伯峰焦清局
關(guān)鍵詞:合體甲骨文卷積

林小渝,陳善雄,高未澤,莫伯峰,焦清局

(1.西南大學(xué)計算機與信息科學(xué)學(xué)院,重慶 400715)(2.首都師范大學(xué)甲骨文研究中心,北京 100048)(3.安陽師范學(xué)院 計算機與信息工程學(xué)院,河南 安陽 455000)

從1899年甲骨文發(fā)現(xiàn)至今,已有120多年的歷史,甲骨文以其自身獨特的歷史文化價值引起了眾多學(xué)者的研究興趣[1],現(xiàn)已發(fā)展成為一門重要學(xué)科——甲骨學(xué). 2019年11月2日,在紀念甲骨文發(fā)現(xiàn)和研究120周年座談會上宣讀了習(xí)近平總書記的賀信[2],賀信指出:“甲骨文是迄今為止中國發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng),是漢字的源頭和中華優(yōu)秀傳統(tǒng)文化的根脈,值得倍加珍視,需多部門多學(xué)科協(xié)同開展甲骨文的研究和應(yīng)用. ”對此,我們要綜合運用人工智能識別等技術(shù)手段,讓甲骨文實現(xiàn)更好傳承與發(fā)展.

100多年以來,先后有15萬余片甲骨文出土,歷經(jīng)幾代學(xué)者的共同努力,認識或基本認識的甲骨文字卻僅占總數(shù)的2/5,甲骨文考釋仍然困難重重. 總結(jié)起來主要有兩方面原因:一是時間因素. 已知最早的商代甲骨文,距今已經(jīng)有3 600多年,在這么長的時間里,漢字的形體、意義和讀音都發(fā)生了很大的變化,這些變化都是甲骨文考釋的障礙. 二是空間因素. 甲骨文是眾多刻寫者(刻手)留下的文字材料,而當時缺乏十分明確的字形規(guī)范,即使同一甲骨文字,也存在著多種不同的形體(異體字),這種變化更增添了甲骨文考釋的難度.

紅色標記為甲骨文合體字圖1 龜甲拓片上的甲骨文字符Fig.1 A turtle shell with multiple oracle instances carved on it

盡管考古學(xué)家和古文字學(xué)家不斷努力,但從計算機視覺角度對甲骨文文字分析的研究卻較少,也缺乏相關(guān)的公共數(shù)據(jù)集. 雖然已有一些傳統(tǒng)的方法嘗試對甲骨文字進行識別,并且取得了一定的成果,如顧紹通基于拓撲配準識別甲骨文的方法[3];周新倫等基于圖論和筆劃特點識別的方法[4];李鋒等基于圖特征來識別甲骨文的方法[5];栗青生等基于圖同構(gòu)的方法來識別甲骨文字形的方法[6]. 這些研究的共同特征是將甲骨文字符當作一個整體圖形來處理,而沒有考慮不同字符之間的相似性和內(nèi)部結(jié)構(gòu). 由于甲骨文中合體字情況大量存在(如圖1所示),整體識別一些固有的局限性使得上述研究都存在發(fā)展的壁壘,因而實用性受到限制.

為此,本文從甲骨文單偏旁的角度出發(fā),分析組成甲骨文常用的基本結(jié)構(gòu)單位——偏旁,以此來進行甲骨文的識別. 一方面,本文建立了甲骨文常見的單偏旁數(shù)據(jù)集,在此基礎(chǔ)上設(shè)計甲骨文單偏旁自動識別的算法,方便考古學(xué)家和古文字學(xué)家在考釋甲骨文新字時,利用單偏旁分析輔助考釋. 另一方面,對于甲骨文字符識別領(lǐng)域來說,一個巨大的難題就是特定領(lǐng)域數(shù)據(jù)的缺乏,特別是在現(xiàn)有甲骨文字庫中的甲骨文合體字數(shù)量. 因此,本文在建立的甲骨文單偏旁數(shù)據(jù)集的基礎(chǔ)上,利用計算機輔助拼接技術(shù)生成了數(shù)量龐大的甲骨文合體字數(shù)據(jù)集,如圖2、3所示.

圖2 左右結(jié)構(gòu)不同變體的甲骨文拼合圖Fig.2 Different variants of the same character(left and right structure)

圖3 上下結(jié)構(gòu)不同變體的甲骨文拼合圖Fig.3 Different variants of the same character(upper and lower structure)

此外,由于新見的甲骨文字符必然超出現(xiàn)有數(shù)據(jù)集的范圍,因此識別這些甲骨文字符通常是一個零樣本學(xué)習(xí)問題. 近幾年,零樣本學(xué)習(xí)(zero-shot learning)引起了研究人員的濃厚興趣[7],這種類型的學(xué)習(xí)是一個具有挑戰(zhàn)性的問題,但具有巨大的潛在價值,所以本文提出從甲骨文偏旁分析來考釋甲骨文字符.

本文第一個貢獻在于甲骨文單偏旁檢測識別框架的設(shè)計. 由于我們?nèi)狈坠俏膯纹詷俗?shù)據(jù)集,深度學(xué)習(xí)檢測算法并不適用于此. 受漢字偏旁拆分的啟發(fā),本文采用最大極值穩(wěn)定區(qū)域(MSER)算法來篩選甲骨文單偏旁文本區(qū)域,再采用非極大值抑制算法進行后處理. 在甲骨文單偏旁識別實驗過程中,由于甲骨文單偏旁字符形狀不規(guī)則,單偏旁變形較多,導(dǎo)致甲骨文單偏旁特征難以表征,傳統(tǒng)漢字文字識別方法未能解決該問題,因此本文設(shè)計了BN-LeNet網(wǎng)絡(luò),對有d維的x=(x(1)…x(d))的輸入數(shù)據(jù),對每個批次的每一個維度進行歸一化處理,以此解決數(shù)據(jù)分布改變和網(wǎng)絡(luò)收斂較慢的問題,并在網(wǎng)絡(luò)結(jié)構(gòu)中插入Dropout層和L2正則化防止模型過擬合,可以有效地學(xué)習(xí)甲骨文拓片中有判別意義的深度特征.

本文第二個貢獻在于甲骨文合體字識別框架的設(shè)計. 由于甲骨文合體字圖像稀缺,我們進行了大量的實驗來評估不同因素對甲骨文合體字識別精度的影響,并與傳統(tǒng)CNN網(wǎng)絡(luò)在甲骨文字合體字識別比較,實驗結(jié)果證明本文甲骨文合體字識別方法的有效性. 近期研究表明[8],當外部數(shù)據(jù)可用時,對輔助任務(wù)進行預(yù)訓(xùn)練,然后對特定領(lǐng)域的數(shù)據(jù)進行微調(diào),是學(xué)習(xí)復(fù)雜領(lǐng)域特定模型的有效范例. 基于此,本文利用卷積神經(jīng)網(wǎng)絡(luò)在脫機手寫漢字HCL2000數(shù)據(jù)集[9]上預(yù)訓(xùn)練,在結(jié)合本文建立的甲骨文合體字數(shù)據(jù)集進行聯(lián)合訓(xùn)練,微調(diào)頂部三層卷積層提取深度特征,使卷積特征更有利于甲骨文合體字的表示,以解決在甲骨文合體字樣本稀缺的情況下,模型泛化能力差等問題,使模型對預(yù)測甲骨文合體字圖像具有更好的魯棒性.

1 模型設(shè)計

1.1 甲骨文單偏旁的檢測和識別

與英語或阿拉伯文字不同,漢字從甲骨文開始就可以分解成有限數(shù)量的偏旁,這些偏旁及其相互間的位置關(guān)系都具有區(qū)別字形的功能. 現(xiàn)有的文本識別模型大多數(shù)是面向現(xiàn)代漢字的,而甲骨文等古文字并不具有現(xiàn)代漢字豐富的數(shù)據(jù)集,所以針對現(xiàn)代漢字非常有效的整體識別方案,并不能簡單地套用在甲骨文識別上,基于這一認識,本文從甲骨文偏旁角度進行甲骨文識別的研究. 基于偏旁的甲骨文字符識別主要包括偏旁提取和偏旁識別兩個方面,本文先將甲骨文字符拆分成多個單偏旁,再對各個單偏旁順序識別,最后通過結(jié)構(gòu)標記組成該字符識別結(jié)果,圖4是本文提出的甲骨文單偏旁檢測識別框架流程.

圖4 甲骨文單偏旁檢測識別框架流程圖Fig.4 The Oracle’s single radical detection and recognition framework by our proposed approach

1.1.1 甲骨文單偏旁區(qū)域檢測

在甲骨文拓片中,由于背景和文本區(qū)域灰度對比度較大,而甲骨文單偏旁文本區(qū)域內(nèi)部灰度幾乎不變,并且該區(qū)域能夠在多重閾值下保持形狀不變,符合最大極值穩(wěn)定區(qū)域的特性,因此利用這一特性,本文采用最大極值穩(wěn)定區(qū)域(MSER)算法來篩選甲骨文單偏旁文本區(qū)域.

甲骨文單偏旁MSER選取具體實現(xiàn)過程如下:

將甲骨文圖像轉(zhuǎn)換成灰度圖像,在灰度區(qū)間[0,255]內(nèi)的256個不同閾值對灰度圖像進行二值化,令Qi表示二值化閾值i對應(yīng)的二值圖像中的某一連通區(qū)域,當二值化閾值由i變成i+Δ和i-Δ時,Δ為變化值,連通域Qi相應(yīng)變成了Qi+Δ和Qi-Δ.

隨著亮度閾值的增加或者減少,計算公式(1),當兩個不同閾值間的區(qū)域變化不超過閾值i就被認為是穩(wěn)定的.

(1)

式中,Qi表示第i個甲骨文單偏旁連通區(qū)域的面積,Δ表示微小的閾值變化,當v(i)小于給定閾值時認為該甲骨文單偏旁區(qū)域為最大極值穩(wěn)定區(qū)域.

為了進一步對MSER得到的甲骨文單偏旁不規(guī)則區(qū)域進行處理,需要對選定的甲骨文單偏旁區(qū)域進行輪廓擬合.

甲骨文單偏旁MSER區(qū)域輪廓擬合實現(xiàn)過程如下:

對甲骨文單偏旁最大極值穩(wěn)定區(qū)域內(nèi)的每個點,計算整個甲骨文單偏旁極值穩(wěn)定區(qū)域的幾何0階矩和幾何1階矩:

m00=∑I(x,y)m01=∑yI(x,y)m10=∑xI(x,y),

(2)

式中

μ20=∑(x-xc)2I(x,y),μ02=∑(y-yc)2I(xy),μ11=∑(x-xc)(y-yc)I(x,y).

(3)

計算該二階矩的兩個特征值,有

(4)

于是可以分別得到甲骨文單偏旁區(qū)域輪廓擬合的長半軸、短半軸、角度

(5)

在選取了甲骨文單偏旁最大極值穩(wěn)定區(qū)域后,為了進一步提升檢測精度,本文在MSER基礎(chǔ)上加入NMS后處理,篩選最優(yōu)甲骨文單偏旁區(qū)域,在實驗過程中發(fā)現(xiàn),在對甲骨文單偏旁進行MSER檢測之前,先進行形態(tài)學(xué)腐蝕操作,可以提升檢測精度,圖5是檢測結(jié)果示例圖.

圖5 MSER+NMS+形態(tài)學(xué)腐蝕結(jié)果圖Fig.5 MSER+NMS+Morphological erosion results

1.1.2 甲骨文單偏旁識別

由于甲骨文單偏旁字符形狀不規(guī)則,單偏旁變形較多,導(dǎo)致甲骨文單偏旁特征難以表征,本文構(gòu)造了包括批歸一化層、Dropout層、正則化的模型用于甲骨文單偏旁的識別,稱為BN-LeNet網(wǎng)絡(luò)模型,如圖6所示. 模型由2個卷積層、2個最大池化層、1個全連接層、1個softmax層、3個批歸一化層和1個隨機失活層構(gòu)成.

圖6 BN-LeNet網(wǎng)絡(luò)模型圖Fig.6 BN-LeNet network model

為了解決數(shù)據(jù)分布改變和模型過擬合的問題,我們在網(wǎng)絡(luò)的卷積層和池化層中間插入一個批歸一化層,總共添加3個批歸一化層,即對有d維的x=(x(1)…x(d))的輸入數(shù)據(jù),對每個批次的每一個維度進行歸一化處理.

(6)

上式中,E[·]和V[·]是通過甲骨文單偏旁訓(xùn)練集計算得到.如果對某一層的輸出數(shù)據(jù)只做歸一化處理,然后送入網(wǎng)絡(luò)的下一層,這樣會影響網(wǎng)絡(luò)該層所學(xué)習(xí)到甲骨文單偏旁特征.因此對網(wǎng)絡(luò)層的每一個激活函數(shù)x(k)引入一組可學(xué)習(xí)參數(shù)γ(k)和β(k)進行變換重構(gòu)

(7)

為了防止模型過擬合,通過實驗對比,我們在Conv1卷積層上添加L2正則,以及在全連接層和Softmax層添加概率p=0.5的Dropout層[10],在每個訓(xùn)練epoch中,在前向傳播的時候,讓某個神經(jīng)元的激活值以一定的概率p停止工作,可以明顯地減少模型過擬合現(xiàn)象.

1.2 甲骨文合體字的整體識別

為了解決甲骨文合體字樣本量小的問題,一方面我們將各單偏旁拼合成甲骨文合體字作為訓(xùn)練集,另一方面考慮脫機手寫漢字HCL2000數(shù)據(jù)集與甲骨文合體字相似性高,預(yù)訓(xùn)練網(wǎng)絡(luò)卷積層學(xué)到的特征空間層次結(jié)構(gòu)適用于甲骨文合體字識別,例如底層提取的局部且高度通用的圖像邊緣、筆畫紋理等特征,考慮到Vgg-16模型在特征提取和模型結(jié)構(gòu)的優(yōu)勢,本文選擇Vgg-16網(wǎng)絡(luò)作為特征提取的基網(wǎng)絡(luò). 由于脫機手寫漢字HCL2000數(shù)據(jù)集中為手寫漢字圖像集,雖部分筆畫特征和甲骨文合體字特征相似,但直接用手寫漢字的特征進行甲骨文識別,效果不佳,于是將在脫機手寫漢字HCL2000數(shù)據(jù)集上預(yù)訓(xùn)練好的Vgg-16模型進行微調(diào),先凍結(jié)預(yù)訓(xùn)練好的Vgg-16模型,然后解凍頂部三層卷積層,再在建立的甲骨文合體字數(shù)據(jù)集上進行聯(lián)合訓(xùn)練,以便讓卷積基提取的特征表示與甲骨文合體字特征更加相關(guān),再把原網(wǎng)絡(luò)最后一個包含1 000個神經(jīng)元的全連接層替換為包含450個神經(jīng)元的全連接層,以此適應(yīng)甲骨文合體字的分類任務(wù),圖7 是OraNet框架圖.

圖7 OraNet框架圖Fig.7 The framework of OraNet

甲骨文合體字識別的訓(xùn)練策略:

(1)將Vgg-16模型脫機手寫漢字HCL2000數(shù)據(jù)集上進行預(yù)訓(xùn)練得到Conv_base網(wǎng)絡(luò),去除網(wǎng)絡(luò)的密集連接分類器層.

(2)在頂部添加Dense層來擴展Conv_base網(wǎng)絡(luò),分類器類別數(shù)設(shè)為甲骨文合體字類別數(shù)450.

(3)凍結(jié)卷積基的前4個卷積塊,以此來防止卷積基在脫機手寫漢字HCL2000數(shù)據(jù)集上學(xué)到的表示不被修改.

(4)解凍Conv_base的最后一個卷積塊,并在在甲骨文合體字數(shù)據(jù)集上訓(xùn)練block5.

(5)將前4個卷積塊的輸出特征Fblock4和卷積塊5輸出特征Fblock5進行融合成高層特征Foracle輸入Dense層進行分類.

Foracle=[α×Fblock4,β×Fblock5],

(8)

式中,α、β為權(quán)重參數(shù),本文分別取值為0.6、0.4. 為了較為直觀地展示模型提取特征,本文借助Jupyter Notebook可視化卷積層特征圖,如圖8所示,網(wǎng)絡(luò)各個卷積塊對于甲骨文合體字不同位置的響應(yīng)值不同.

圖8 網(wǎng)絡(luò)各卷積塊輸出特征圖Fig.8 Output feature map of each convolution block of the network

2 數(shù)據(jù)集

2.1 數(shù)據(jù)采樣

本文所使用的甲骨文單偏旁樣本由甲骨文研究中心的專家提供,這些樣本來自于人工拓印所得,該樣本庫包括多個甲骨文單偏旁,每個偏旁約有20多個變形,同時為了克服手寫樣本的不足,本文設(shè)計了甲骨文樣本采集表,每頁123個甲骨文單偏旁,每行14個甲骨文單偏旁,共9行,奇數(shù)行為人工拓印圖,偶數(shù)行為人工臨摹寫得,共組織22人臨摹,每人2頁,共得到5 412個甲骨文手寫單偏旁,樣表如圖9所示.

圖9 采樣表及數(shù)據(jù)標簽Fig.9 Oracle radical sampling table and label

本文將樣本表進行圖像切割,并且還對甲骨文單偏旁數(shù)據(jù)集進行了數(shù)據(jù)擴增,對圖像進行旋轉(zhuǎn)30°/330°、裁剪、上下左右4個方向各平移30%等操作來擴增數(shù)據(jù)集,同時在甲骨文單偏旁數(shù)據(jù)集的基礎(chǔ)上,利用拼接技術(shù)建立了甲骨文合體字樣本庫,部分示例如圖2、3所示.

3 實驗結(jié)果與分析

3.1 實驗設(shè)置

實驗環(huán)境:Inter i7-7700 CPU,顯卡 NVIDIA GeForce GTX 2080,內(nèi)存16GB,通過 PyCharm 編程環(huán)境和深度學(xué)習(xí)Keras框架進行實現(xiàn),并借助 TensorBoard 和 matplotlib 等可視化工具對訓(xùn)練輸出進行可視化,數(shù)據(jù)集中的甲骨圖片源于甲骨文研究相關(guān)論著的配圖和對甲骨片的掃描圖像,由于原始的圖像大小不一,成像質(zhì)量參差不齊,且有噪聲干擾,本文對所有圖像進行了處理,消除了噪聲,為了避免數(shù)據(jù)不一致帶來實驗結(jié)果的誤差,本文工作中相關(guān)的實驗均使用相同的數(shù)據(jù)格式,即調(diào)整所有圖像大小為150×150像素,并將增強后的甲骨文單偏旁數(shù)據(jù)集和甲骨文合體字數(shù)據(jù)集隨機分成兩部分:60%作為訓(xùn)練集用于模型擬合的數(shù)據(jù)樣本;40%作為測試集用于評估模最終模型的泛化能力.

3.2 評價指標

本文中使用MSER+NMS方法對甲骨文單偏旁進行檢測,我們采用傳統(tǒng)本文檢測相關(guān)評價指標,準確率、召回率,hmean(f-score)作為綜合性能評價指標.

對于甲骨文單偏旁圖像分類和甲骨文合體字圖像分類,我們從圖像的分類準確率來判斷該分類網(wǎng)絡(luò)的性能,令代表測試集中圖像的總數(shù)量,代表其中分類正確的圖像數(shù)量,則分類準確率可以表示為:

(8)

3.3 甲骨文單偏旁檢測對比實驗分析

對于甲骨文單偏旁檢測,由于圖像標注成本代價較高,這里沒有對甲骨文單偏旁數(shù)據(jù)集進行圖像標注,所以采用傳統(tǒng)文本檢測算法,為了對比不同的傳統(tǒng)檢測方法對甲骨文單偏旁檢測精度的影響,設(shè)置了3組實驗.

實驗1:為了比較傳統(tǒng)檢測方法對甲骨文單偏旁的檢測效果,對傳統(tǒng)的文本檢測算法如筆畫寬度變換(SWT)文本檢測算法、傳統(tǒng)投影算法、連通分量算法、MSER文本檢測算法等進行了比較.

實驗2:為了驗證NMS的必要性,進行了兩個方面的測試:(1)僅使用MSER算法;(2)采用MSER+NMS算法檢測.

實驗3:為了驗證形態(tài)學(xué)腐蝕操作的必要性,這里驗證了僅用MSER+NMS方法能否達到較好的檢測精度,進行了如下實驗:(1)僅用MSER+NMS算法檢測;(2)利用MSER+NMS+形態(tài)學(xué)腐蝕算法檢測.

從表1結(jié)果可以看出,通過對比七種不同檢測方法的檢測結(jié)果數(shù)據(jù),可以發(fā)現(xiàn),基于傳統(tǒng)投影法的檢測時間較短,但是準確率和召回率較低,主要是由于有些甲骨文上下結(jié)構(gòu)和左右結(jié)構(gòu)有字符區(qū)域重疊的現(xiàn)象,而基于連通域的檢測方法能夠較好的處理字符區(qū)域重疊的問題,但是對于粘連字符,還是不能取得較好的檢測效果,在對兩種傳統(tǒng)的方法做了結(jié)合以后,準確率和召回率得到了一定的提升,基于MSER和SWT結(jié)合的方法使得效果下降,主要是因為甲骨文手寫拓片的筆畫寬度不一致,因此準確率反而有所下降,而且所用的運行時間也較長,基于MSER+NMS結(jié)合的算法,可以在MSER上過濾掉多余的框,從而使得準確率上升,加上本文提出基于MSER+NMS+形態(tài)學(xué)腐蝕的方法,可以較好地處理字符區(qū)域重疊和字符粘連的情況,準確率和召回率取得最好的效果.

表1 本文方法和其他傳統(tǒng)檢測方法在總體性能上的對比Table 1 Comparison of the overall performance on this method with other traditional detection methods

從圖10、圖11、圖12可知,基于MSER+NMS+形態(tài)學(xué)腐蝕的方法對于兩個偏旁組合的甲骨文合體字檢測效果最佳,對于3個偏旁組成的甲骨文合體字存在部分檢測框過大的現(xiàn)象,對于4個偏旁組成的甲骨文合體字檢測效果較差,根據(jù)甲骨文專家提供的領(lǐng)域知識可知,在甲骨文合體字中,90%甲骨文合體字由兩個單偏旁組成,因此本文MSER+NMS+形態(tài)學(xué)腐蝕的方法檢測準確率高.

圖10 兩個單偏旁甲骨文字符檢測結(jié)果圖Fig.10 The detection results of oracle characters with two oracle radicals

圖11 3個單偏旁甲骨文字符檢測結(jié)果圖Fig.11 The detection results of oracle characters with three oracle radicals

圖12 4個單偏旁甲骨文字符檢測結(jié)果圖Fig.12 The detection results of oracle characters with four oracle radicals

3.4 甲骨文單偏旁識別對比實驗分析

對于甲骨文單偏旁識別,為了對比不同網(wǎng)絡(luò)結(jié)構(gòu)對甲骨文單偏旁分類性能的影響,本文設(shè)置了3組實驗.

實驗1:為了比較參數(shù)量對實驗結(jié)果的影響,我們比較了不同結(jié)構(gòu)網(wǎng)絡(luò)模型對Oracle單偏旁識別的影響.

實驗2:為了驗證批處理歸一化層對神經(jīng)網(wǎng)絡(luò)的影響,進行了兩類訓(xùn)練測試:(1)訓(xùn)練LeNet網(wǎng)絡(luò);(2)訓(xùn)練包括批量歸一化層的LeNet網(wǎng)絡(luò).

實驗3:為了驗證添加Dropout層和L2正則化的有效性,進行了3類訓(xùn)練測試:(1)訓(xùn)練BN-LeNet網(wǎng)絡(luò);(2)訓(xùn)練僅包括dropout層的LeNet網(wǎng)絡(luò);(3)訓(xùn)練僅包括L2正則化訓(xùn)練LeNet網(wǎng)絡(luò).

第1組實驗分析:針對不同網(wǎng)絡(luò)模型對實驗結(jié)果的影響,我們比較了5種網(wǎng)絡(luò)模型. 從表2可以看出,相比其他模型,LeNet達到更好的精度,因此本文選擇了LeNet網(wǎng)絡(luò),如圖13(b)所示,當用相同的甲骨文單偏旁的數(shù)據(jù)集訓(xùn)練LeNet和AlexNet網(wǎng)絡(luò),AlexNet模型在訓(xùn)練第7個epoch時,訓(xùn)練精度為1,而測試集精度才僅僅達到0.39,加之圖13(a)所示的AlexNet模型較高的損失值,所以模型存在嚴重的過度擬合現(xiàn)象,這說明深度神經(jīng)網(wǎng)絡(luò)不能有效地提取特征信息來表征不同類別的甲骨文單偏旁之間的差異,反而參數(shù)較少的神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí),如圖14(a)和(b)所示.

表2 不同訓(xùn)練方法的分類準確率結(jié)果對比Table 2 Comparison of classification accuracy results on different structures

圖13 AlexNet模型的loss-acc圖Fig.13 The loss-acc diagram of the AlexNet model

圖14 LeNet模型的loss-acc圖Fig.14 The loss-acc diagram of the LeNet model

第2組實驗分析:如圖15(b)所示,當LeNet添加歸一化層時,訓(xùn)練精度高于LeNet,圖15(a)展示了LeNet添加歸一化層的loss-acc圖,我們可以看到loss下降速度和acc上升速度比單一LeNet網(wǎng)絡(luò)快,這表明批歸一化層的引入不僅可以加快網(wǎng)絡(luò)的收斂速度,而且還可以提高模型的精度.

圖15 LeNet+Batch normalization layer 模型loss-acc圖Fig.15 The loss-acc diagram of the LeNet with batch normalization layer

第3組實驗分析:為了驗證添加dropout層和L2正則化策略對甲骨文單偏旁分類性能的影響. 如圖16(b)所示,BN-LeNet網(wǎng)絡(luò)在測試集上的分類精度高達0.96,從圖16(a)可以看出,損失值也較低,表明在甲骨文單偏旁數(shù)據(jù)集上,BN-LeNet網(wǎng)絡(luò)充分學(xué)習(xí)到甲骨文單偏旁特征,并且模型在訓(xùn)練集和測試集都表現(xiàn)良好,分類精度較高.

圖16 BN-LeNet模型的loss-acc圖Fig.16 The loss-acc diagram of the BN-LeNet network

表3展示了部分甲骨文單偏旁手寫圖的預(yù)測結(jié)果.

表3 甲骨文單偏旁預(yù)測結(jié)果示例(部分)Table 3 Example of Oracle Single radical Prediction Results(Partial)

3.5 甲骨文合體字識別實驗分析

為了對比不同訓(xùn)練方法和不同網(wǎng)絡(luò)結(jié)構(gòu)對甲骨文合體字識別性能的影響,本文設(shè)置了 2 組實驗.

實驗1:為了對比網(wǎng)絡(luò)中待學(xué)習(xí)參數(shù)量的多少對實驗結(jié)果的影響,本文采用甲骨文合體字數(shù)據(jù)集對2種不同深度的神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練:(1)對LeNet網(wǎng)絡(luò)進行訓(xùn)練,待訓(xùn)練的參數(shù)較少,為簡單的網(wǎng)絡(luò)結(jié)構(gòu)代表;(2)對Vgg-16 網(wǎng)絡(luò)進行訓(xùn)練,待訓(xùn)練參數(shù)相對較多,為較深的網(wǎng)絡(luò)結(jié)構(gòu)代表.

實驗2:為了驗證遷移學(xué)習(xí)和微調(diào)模型的有效性,本文對甲骨文合體字數(shù)據(jù)集進2種不同方式的訓(xùn)練:(1)用在離線手寫漢字HCL2000數(shù)據(jù)集上的預(yù)訓(xùn)練的Vgg-16網(wǎng)絡(luò)對甲骨文合體字進行實驗;(2)用微調(diào)的OraNet模型對甲骨文合體字進行實驗,表4為實驗結(jié)果對比.

表4 不同訓(xùn)練方法的分類準確率結(jié)果對比Table 4 Comparison of classification accuracy results on different structures

第1組實驗分析:針對參數(shù)量對實驗結(jié)果的影響,采用不同深度的網(wǎng)絡(luò)做了2組對比實驗. 從圖17(b)和圖18(b)可以看出,LeNet網(wǎng)絡(luò)和Vgg-16網(wǎng)絡(luò)在相同的甲骨文合體字數(shù)據(jù)集上訓(xùn)練時,Vgg-16模型在測試集上的分類準確率明顯高于 LeNet 模型的分類準確率,對比圖17(a)和圖18(a),Vgg-16模型損失值較低,因此在甲骨文合體字識別時,選用較深的網(wǎng)絡(luò),分類準確率高.

圖17 LeNet模型的loss-acc圖Fig.17 The loss-acc diagram of the LeNet network

圖18 Vgg-16模型的loss-acc圖Fig.18 The loss-acc diagram of the Vgg-16 network

第2組實驗分析:如圖19所示,預(yù)訓(xùn)練模型比從頭訓(xùn)練的模型精度高,并且本文提出的微調(diào)預(yù)訓(xùn)練模型OraNet在甲骨文合體字數(shù)據(jù)集上表現(xiàn)更好,從圖19(a)、(b)圖可看出,OraNet模型在測試集上的分類準確率可達0.98,說明OraNet模型在脫機手寫漢字HCL2000數(shù)據(jù)集上學(xué)習(xí)到了一些有用特征,這些特征有助于對甲骨文合體字圖像的分類.

圖19 OraNet模型的loss-acc圖Fig.19 The loss-acc diagram of the OraNet network

表5展示了部分甲骨文合體字識別結(jié)果,本文約定甲骨文結(jié)構(gòu)標記:u_x代表該偏旁x在合體字上方,d_x代表該偏旁x在合體字上方,l_x代表該偏旁x在合體字左方,r_x代表該偏旁x在合體字右方,如表5中第一行合體字標簽為u_7_1__d_2_0,它代表著該合體字是上下結(jié)構(gòu),7_1偏旁位于該合體字上方,2 _0 偏旁位于該合體字下方.

表5 甲骨文合體字預(yù)測結(jié)果示例Table 5 Example of Oracle combined character Prediction Results(Partial)

4 結(jié)論

本文建立了甲骨文單偏旁數(shù)據(jù)集和甲骨文合體字數(shù)據(jù)集,接著提出兩種以甲骨文偏旁為構(gòu)件的卷積神經(jīng)網(wǎng)絡(luò)檢測識別方法. 不僅可以對研究甲骨文相關(guān)工作者提供幫助,簡化他們的數(shù)據(jù)處理相關(guān)工作,節(jié)省專家考釋甲骨文的時間,同時也為計算機介入甲骨文考釋提供了新思路——從偏旁的角度來實現(xiàn)甲骨文考釋,當有新的甲骨文字出土?xí)r,便可以利用本文提出的算法來識別該新字,那將是非常有影響的成果,因此在后續(xù)的研究工作中,我們將運用該方案嘗試其他少樣本文字的識別.

致謝:此次實驗的數(shù)據(jù)獲取得到了首都師范大學(xué)甲骨文研究專家的支持,在此表示衷心的感謝!

猜你喜歡
合體甲骨文卷積
硬漢合體
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
為了定居火星,人類可與水熊蟲“合體”?
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
甲骨文“禍”字新證
基于傅里葉域卷積表示的目標跟蹤算法
三千年甲骨文
遵義(2017年24期)2017-12-22 06:10:48
最“萌”甲骨文——心
“止”字變合體
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
许昌市| 贵阳市| 奉化市| 云霄县| 北辰区| 台南市| 古交市| 毕节市| 长春市| 蒙自县| 滕州市| 岳阳县| 大方县| 会泽县| 资中县| 泽库县| 蛟河市| 正蓝旗| 姜堰市| 灌南县| 大兴区| 康平县| 白城市| 镇安县| 昌宁县| 蒙阴县| 阿拉善盟| 屏东市| 纳雍县| 新巴尔虎左旗| 东丰县| 桑日县| 平泉县| 泸溪县| 同仁县| 江都市| 鄂州市| 临沭县| 乌拉特后旗| 抚州市| 邹平县|