酆格斐,顧紹通,楊亦鳴
(1.江蘇師范大學(xué)語(yǔ)言研究所,江蘇徐州221009;2.語(yǔ)言科學(xué)與神經(jīng)認(rèn)知工程江蘇省重點(diǎn)實(shí)驗(yàn)室,江蘇徐州221009;3.江蘇師范大學(xué)語(yǔ)言科學(xué)學(xué)院,江蘇徐州221009)
甲骨文作為我國(guó)迄今發(fā)現(xiàn)最早的一種成熟文字系統(tǒng),具有極重要的學(xué)術(shù)價(jià)值和文化遺產(chǎn)保護(hù)價(jià)值[1-3],可為語(yǔ)言文字學(xué)等相關(guān)學(xué)科的發(fā)展提供新材料、研究方法和課題。甲骨文由于契刻在龜甲與獸骨之上,距今已有三千多年,且文字形狀奇特,難于卒讀。自發(fā)現(xiàn)之日起,學(xué)者們就開始對(duì)其進(jìn)行鑒定、收集和研究,甲骨拓片的文字考釋現(xiàn)已成為甲骨學(xué)研究最重要的研究?jī)?nèi)容之一。
甲骨文與現(xiàn)代漢語(yǔ)文字在字形、語(yǔ)言和語(yǔ)意等方面都有較大差別[4],文字考釋工作基本采用人工的方法,大多利用語(yǔ)言文字學(xué)的理論與方法,并結(jié)合歷史、考古、民族學(xué)等研究方法進(jìn)行全方位考察。孫詒讓采用與金文比較的方法釋讀《鐵云藏龜》中的甲骨單字,并結(jié)合不同用例,初步嘗試了對(duì)甲骨卜辭內(nèi)容進(jìn)行考察[5];羅振玉采用字形比較與偏旁分析的方法,與所釋字在辭句中的位置與作用,將可讀的字識(shí)別出來[6];郭沫若將唯物史觀和近代科學(xué)方法引入甲骨文字考釋領(lǐng)域,將甲骨文中的十二支與古巴比倫人劃分黃道為十二宮相比照[7];唐蘭在總結(jié)甲骨文字考釋的理論與方法時(shí),特別注重字形研究,提出辨明古文字形體的對(duì)照法,認(rèn)為文字的形體研究應(yīng)該成為獨(dú)立的科學(xué)[8-9];于省吾考釋甲骨文嚴(yán)格從字形的審釋出發(fā),認(rèn)為字形是進(jìn)行研究的唯一基礎(chǔ),并通過分析點(diǎn)畫偏旁之法,輔以聲韻通假之方,即兼顧形音義三要素的原則進(jìn)行甲骨文字考釋[10-11];裘錫圭根據(jù)字形對(duì)甲骨文中各種農(nóng)作物和商代宮刑進(jìn)行了考釋[12-13],他還特別重視甲骨文書寫規(guī)律對(duì)文字考釋的影響,對(duì)合文重復(fù)偏旁的省略現(xiàn)象進(jìn)行了研究[14],并對(duì)甲骨文的析書、倒寫、側(cè)寫及特殊書寫習(xí)慣進(jìn)行了考察[15];于省吾以甲骨文字原形為對(duì)象,按字形總表的順序編篆甲骨文部首檢索系統(tǒng)[16]。
基于字形審釋的研究理論和方法在甲骨文字考釋中起著很重要的作用,然而,甲骨文字?jǐn)?shù)量多、字符繁復(fù)并具圖畫結(jié)構(gòu),且因條件限制一些甲骨拓片模糊不清,人工的考審工作現(xiàn)已耗費(fèi)甲骨學(xué)者們大量的經(jīng)歷和心血,僅為部分經(jīng)驗(yàn)豐富的甲骨學(xué)者所掌握,難以為計(jì)算機(jī)所識(shí)別而進(jìn)一步進(jìn)行輔助考釋研究。因此,周新倫等通過對(duì)甲骨文字形結(jié)構(gòu)特征的分析,提出了一種基于拓?fù)涮卣鞯挠?jì)算機(jī)識(shí)別方法[17];李峰等將甲骨文當(dāng)作無向圖來處理,提取它的圖特征,提出了一種基于圖論方法識(shí)別甲骨文的理論和技術(shù)[18]。上述方法僅提取了甲骨文字的拓?fù)涮卣骱凸P畫特征,不能涵蓋甲骨拓片字符的形態(tài)和結(jié)構(gòu)特征,難以推廣并應(yīng)用計(jì)算機(jī)進(jìn)行甲骨拓片綴合、校重、辨?zhèn)?、?fù)原和識(shí)別。
本文借鑒上述甲骨拓片字形對(duì)比分析方法,以計(jì)算機(jī)的角度去理解甲骨拓片的字形特征,并采用數(shù)學(xué)形態(tài)學(xué)方法對(duì)甲骨拓片圖像進(jìn)行處理,提取甲骨拓片的字形特征?;跀?shù)學(xué)形態(tài)學(xué)的甲骨拓片字形特征提取過程如圖1所示,主要包括預(yù)處理、數(shù)學(xué)形態(tài)學(xué)處理和特征提取等部分。
1)預(yù)處理。包括經(jīng)輸入設(shè)備(掃描儀)采集甲骨拓片點(diǎn)陣位圖,對(duì)甲骨拓片圖像進(jìn)行二值化、去噪點(diǎn)等處理;
2)數(shù)學(xué)形態(tài)學(xué)處理。對(duì)甲骨拓片進(jìn)行數(shù)學(xué)形態(tài)學(xué)處理,獲得去外框圖、凸包圖、特殊四邊形圖、骨架圖、連通圖和筆寬權(quán)值圖。
3)特征提取。計(jì)算甲骨拓片圖像的字形特征,即提取能充分反映甲骨拓片字形的筆畫線條風(fēng)格,同時(shí)又相對(duì)穩(wěn)定的特征。
圖1 基于數(shù)學(xué)形態(tài)學(xué)的甲骨拓片字形特征提取過程
甲骨拓片的預(yù)處理包括:掃描甲骨拓片圖片獲取點(diǎn)陣位圖、二值化處理點(diǎn)陣位圖、對(duì)二值圖像進(jìn)行去噪點(diǎn)處理。
利用掃描儀以固定分辨率將《甲骨文合集》(中華書局,1979~1983年)559(正面)的甲骨拓片掃描成灰度圖像,如圖2(a)所示。該拓片上有多個(gè)甲骨文字,因此通過字符切割可得到單個(gè)的甲骨字體圖像,該拓片上的“仆”字的點(diǎn)陣位圖如圖2(b)所示。進(jìn)一步利用迭代法將甲骨拓片圖像二值化(其中:以0表示黑像素即背景像素,1表示白像素即前景甲骨筆畫像素)處理,如圖2(c)所示。因甲骨拓片在地下深埋上千年,由于受到腐蝕、發(fā)掘損壞以及拓片質(zhì)地本身等原因,導(dǎo)致甲骨拓片有許多噪聲點(diǎn)[19],且噪聲點(diǎn)呈離散形態(tài)分布且區(qū)域面積較小,因此采用去掉面積較小的連通域的方法[20],對(duì)二值圖像進(jìn)行噪聲消除,最終得到去除噪點(diǎn)后的甲骨文字二值圖像,如圖2(d)所示。
字形特征的選取是影響甲骨拓片斷代的重要因素,本文在提取甲骨拓片圖像的字形特征時(shí),充分考慮甲骨拓片字形的筆畫線條特征[21-22]:(1)字形分布各異:甲骨文字字形外部輪廓往往參差不齊具有圖畫結(jié)構(gòu),且字體大小并不統(tǒng)一;(2)筆畫線條骨架:構(gòu)成甲骨文的線條多為直線,線條細(xì)瘦挺直且兩端尖銳,轉(zhuǎn)折處多是方筆棱角分明;(3)筆畫區(qū)域連通:甲骨文字形的筆畫一般都是單連通區(qū)域,僅有極個(gè)別筆段會(huì)出現(xiàn)斷裂;(4)筆畫寬度均衡:甲骨拓片字形多由手工鉆鑿而成,故筆畫寬度往往一致。
圖2 甲骨拓片圖像預(yù)處理
因此,需要依據(jù)甲骨拓片的字形演變、書體作風(fēng)和鉆鑿形態(tài)等,將人工鑒定所用到的視覺特征進(jìn)行轉(zhuǎn)化,對(duì)甲骨拓片進(jìn)行圖像處理并轉(zhuǎn)化抽取為計(jì)算機(jī)語(yǔ)言描述的字形特征量。數(shù)學(xué)形態(tài)學(xué)(Mathematical Morphology)作為一門建立在嚴(yán)格數(shù)學(xué)理論基礎(chǔ)上的學(xué)科[23-24],其基礎(chǔ)語(yǔ)言是集合論,可從圖像中提取表達(dá)或描繪區(qū)域形狀有用的圖像分量,廣泛應(yīng)用于圖像分割、噪聲濾除、圖像細(xì)化、邊緣提取、骨架抽取和形狀分析等處理,對(duì)圖像處理的理論和技術(shù)產(chǎn)生了重大影響[25]。因此,本文利用數(shù)學(xué)形態(tài)學(xué)圖像處理方法可以提取甲骨拓片的視覺特征。
對(duì)甲骨拓片進(jìn)行形態(tài)學(xué)圖像處理提取字形特征的主要過程為:首先,對(duì)單個(gè)甲骨拓片字體去噪聲點(diǎn)后二值黑白圖像進(jìn)行圖像處理,獲取外接矩形并得到去外框圖;其次,根據(jù)甲骨字形分布各異的特征,進(jìn)行凸包圖和特殊四邊形圖處理,針對(duì)筆劃細(xì)瘦直線線條特征提取骨架圖,根據(jù)筆劃區(qū)域連通特征提取連通圖,以及針對(duì)筆劃寬度均衡特征提取筆寬權(quán)值圖,分別進(jìn)行甲骨拓片圖像的數(shù)學(xué)形態(tài)學(xué)處理過程,如圖3所示。
圖3 甲骨拓片圖像的數(shù)學(xué)形態(tài)學(xué)處理過程
經(jīng)過去外框圖處理得到的單個(gè)甲骨字體的二值圖像,如圖4(a)所示。設(shè)以f (x,y)表示單個(gè)甲骨字體的外接矩形,因是二值圖像,故其取值非1即 0,其中0是黑色表示非字體背景像素,而1是白色表示字體筆畫前景像素。設(shè)該外接矩形圖像的大小為:M×N,其中M為圖像的水平像素?cái)?shù),N為垂直像素?cái)?shù)。從單個(gè)甲骨字體的去外接矩形,可以獲得如下特征:
1)外接矩形的寬高比例特征:可表現(xiàn)甲骨字體的扁平程度特征,定義為式(1)。
其中:M作為圖像的水平像素?cái)?shù),可表示甲骨拓片字體外接矩形的寬,N作為圖像的垂直像素?cái)?shù),為甲骨拓片字體外接矩形的高。
2)字體與外接矩形面積比:
s1表示甲骨拓片字體的實(shí)像素總和,而s2=M×N表示甲骨拓片外接矩形像素總和。
3)水平、垂直方向相對(duì)重心位置:
其中,a3,a4標(biāo)識(shí)為甲骨拓片字體的水平、垂直相對(duì)重心,ˉx,ˉy分別是圖像的水平重心位置和垂直中心位置,如圖4(b)所示。且有:
以單個(gè)甲骨拓片字體圖像作為有限點(diǎn)集,找到字體點(diǎn)集中最右頂點(diǎn),依照逆時(shí)針方向枚舉出包含該點(diǎn)集中所有點(diǎn)的最小面積的凸多邊形所有的頂點(diǎn),作為甲骨拓片字體輪廓的凸包圖,如圖4(c)所示。設(shè)凸包按逆時(shí)針的n個(gè)頂點(diǎn)A1(x1,y1),A2(x2,y2),…,An(xn,yn),根據(jù)甲骨字體凸包圖可以抽取特征:
4)字體與凸包面積比:
甲骨拓片字體圖像具有豐富的邊緣信息,除了上述外接矩形和凸包外,還有特殊四邊形。設(shè)該特殊四邊形中特殊的四個(gè)頂點(diǎn)分別是:最高點(diǎn)Au(xu,yu)、最左點(diǎn)Al(xl,yl)、最低點(diǎn)Ad(xd,yd)和最右點(diǎn)Ar(xr,yr)。這四個(gè)頂點(diǎn)組成一個(gè)不規(guī)則的四邊形,如圖4(d)所示,提取與之相關(guān)的特征有:
5)特殊四邊形對(duì)角線上半部分所占比例:
6)特殊四邊形對(duì)角線左半部分所占比例:
7)特殊四邊形對(duì)角線夾角的余弦值cosθ:
上述a5、a6、a7三個(gè)特征值一旦確定,甲骨拓片字體的特殊四邊形的形狀就確定了,且這三個(gè)特征值都具有大小不變性,所以這三個(gè)值能綜合體現(xiàn)甲骨拓片字體外部形態(tài)。
另外,對(duì)單個(gè)甲骨拓片字體圖形進(jìn)行細(xì)化分段后,獲取甲骨拓片字體的骨架圖,如圖4(e)所示,經(jīng)過統(tǒng)計(jì)可以分別抽?。?/p>
8)筆畫段數(shù)a9:經(jīng)圖像處理得到甲骨拓片字體的骨架圖后,可以刪除其所有的交叉點(diǎn)獲取一系列分離的線段,統(tǒng)計(jì)分離線段的個(gè)數(shù)用以體現(xiàn)甲骨字體筆畫的連筆特點(diǎn),如圖4(f)所示。
9)最長(zhǎng)的筆畫段長(zhǎng)與第二長(zhǎng)的筆畫段長(zhǎng)比a10:對(duì)各個(gè)分離線段的長(zhǎng)寬進(jìn)行從大到小排序,將最長(zhǎng)的筆畫段長(zhǎng)于第二長(zhǎng)的進(jìn)行對(duì)比反映甲骨字體筆畫搭配比例的特點(diǎn)。
從單個(gè)甲骨拓片字體的連通圖,如圖4(g)所示,可以抽?。?/p>
10)字體獨(dú)立連通塊數(shù)a11:根據(jù)連通特性,直接統(tǒng)計(jì)一個(gè)甲骨拓片字體由多少個(gè)獨(dú)立部分構(gòu)成,也應(yīng)用于體現(xiàn)甲骨拓片字體的連筆特性。
利用形態(tài)學(xué)的擊中和擊不中變換將甲骨拓片圖像做細(xì)化處理,圖4(h)是細(xì)化后的筆寬權(quán)值圖,將其表示成p (x ,y),可以抽取單個(gè)甲骨拓片字體的筆畫寬度特征:
11)筆畫寬度特征:
圖4 甲骨拓片的形態(tài)學(xué)處理和字形特征提取
為了驗(yàn)證方法的有效性,在PC機(jī)上用VC++和OpenCV編程實(shí)現(xiàn)了上述數(shù)學(xué)形態(tài)學(xué)處理過程及字形特征值的計(jì)算,系統(tǒng)界面如圖5所示。實(shí)驗(yàn)數(shù)據(jù)來自《甲骨文合集》(中華書局,1979~1983年),其收錄甲骨41 956片。在實(shí)驗(yàn)中,對(duì)甲骨拓片進(jìn)行掃描輸入,進(jìn)行圖像分割獲得單個(gè)甲骨拓片文字圖像,分別對(duì)各個(gè)甲骨文字進(jìn)行預(yù)處理和數(shù)學(xué)形態(tài)學(xué)處理,分別提取各個(gè)甲骨拓片的字形特征向量。
圖5 基于數(shù)學(xué)形態(tài)學(xué)的甲骨拓片字形特征提取系統(tǒng)
以第559號(hào)(正面)甲骨拓片上的“仆”字為樣本,如圖2(b)所示。獲取該樣本的字形特征,并以《甲骨文合集》中的甲骨拓片作為檢材庫(kù),分別進(jìn)行數(shù)學(xué)形態(tài)學(xué)處理,并獲取各個(gè)甲骨拓片的字形特征取值。因檢材庫(kù)中甲骨拓片眾多,故本文僅選取部分檢材標(biāo)本(圖6)進(jìn)行甲骨拓片字形特征的匹配驗(yàn)證實(shí)驗(yàn)案例分析。
利用基于數(shù)學(xué)形態(tài)學(xué)的甲骨拓片字形特征提取系統(tǒng),處理并計(jì)算樣本及各檢材標(biāo)本的12種甲骨拓片字形特征取值,如表1所示。針對(duì)檢材庫(kù)分別計(jì)算12種字形特征標(biāo)準(zhǔn)的閾值,利用線性函數(shù)轉(zhuǎn)換將各字形特征值進(jìn)行歸一化,并計(jì)算歸一化后各檢材標(biāo)本與樣本字形特征值之間的歐式距離d和余弦相似度Sim,從而進(jìn)行甲骨拓片字形的相似度匹配,并將具有最小歐式距離和最大余弦相似度的甲骨文字作為最相近的檢材結(jié)果。
圖6 甲骨拓片圖像檢材標(biāo)本
表1 甲骨拓片字形特征匹配驗(yàn)證實(shí)驗(yàn)結(jié)果
綜合比較分析實(shí)驗(yàn)數(shù)值結(jié)果,檢材b的歐式距離取值為0.817 878,余弦相似度為0.930 144,具有最小的歐式距離和最大的余弦相似度取值,為本文所選樣本的最相近字符,如圖6(b)所示。從直觀上來看對(duì)比樣本和檢材b這兩個(gè)甲骨文字,其筆畫形態(tài)和結(jié)構(gòu)相差不大,且這兩個(gè)甲骨文字的字形特征值具有較高的整體相似度。采用本文提出的字形特征作為甲骨文字識(shí)別標(biāo)準(zhǔn),可以較好地將具有相似字形特征的甲骨文字檢索出來,具有很高的識(shí)別率和代表性,說明本文方法提取出的字形特征能較好地反映甲骨文字的筆畫形態(tài)和結(jié)構(gòu)。
甲骨文實(shí)物發(fā)現(xiàn),催生了甲骨學(xué)的研究與發(fā)展,可為語(yǔ)言文字學(xué)等相關(guān)學(xué)科的發(fā)展提供新材料、研究方法和課題,在中國(guó)當(dāng)代學(xué)術(shù)史上具有劃時(shí)代的意義。利用計(jì)算機(jī)輔助進(jìn)行甲骨拓片復(fù)原、識(shí)別和斷代等工作,具有重要的研究意義和應(yīng)用價(jià)值。本文分析了甲骨拓片字形特征提取是利用計(jì)算機(jī)輔助甲骨學(xué)研究的關(guān)鍵,提出了一種基于數(shù)學(xué)形態(tài)學(xué)的甲骨拓片字形特征提取方法。為了盡可能準(zhǔn)確地把甲骨拓片從背景噪聲中分離出來,首先對(duì)原始甲骨拓片圖形進(jìn)行預(yù)處理,然后再應(yīng)用數(shù)學(xué)形態(tài)學(xué)方法對(duì)甲骨拓片進(jìn)行圖像處理和分析,提取出12項(xiàng)指標(biāo)用于表現(xiàn)甲骨拓片字形特征,并構(gòu)造了一個(gè)基于數(shù)學(xué)形態(tài)學(xué)方法的甲骨拓片字形特征提取系統(tǒng)。通過對(duì)《甲骨文合集》實(shí)驗(yàn)數(shù)據(jù)進(jìn)行基于字形特征的甲骨拓片圖像匹配驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,數(shù)學(xué)形態(tài)學(xué)的圖像處理方法能有效地提取出較好的反映甲骨文字的筆畫形態(tài)和結(jié)構(gòu)的字形特征。
[1] 顧紹通,酆格斐,馬小虎,等.基于泊松分布和分形幾何的甲骨拓片字形復(fù)原[J].中國(guó)科學(xué):信息科學(xué),2011,41(1):23-32.
[2] 顧紹通.甲骨拓片字形圖像復(fù)原方法[J].中文信息學(xué)報(bào),2010,24(2):116-121.
[3] 馬小虎,楊亦鳴,黃文帆,等.甲骨文輪廓字形生成技術(shù)研究與通用甲骨文字庫(kù)的建設(shè)[J].語(yǔ)言文字應(yīng)用,2004,3:105-110.
[4] 王宇信,魏建震.甲骨學(xué)導(dǎo)論[M].中國(guó)社會(huì)科學(xué)出版社,2010.
[5] 孫詒讓.契文舉例[M].齊魯書社,1993.
[6] 羅振玉.殷墟書契考釋[M]增訂本,臺(tái)北藝文印書館影印本,1968.
[7] 郭沫若.甲骨文字研究[M].科學(xué)出版社,1962.
[8] 唐蘭.殷墟文字記[M].中華書局,1981.
[9] 唐蘭.陜西省岐山縣董家村新出西周重要銅器銘辭的譯文和注釋[J].文物,1976,5.
[10] 于省吾.雙劍誃殷契駢枝、雙劍誃殷契駢枝續(xù)編、雙劍誃殷契駢枝三編(繁體豎排版)[M].中華書局,2009.
[11] 于省吾.甲骨文字釋林[M].中華書局,1979.
[12] 裘錫圭.甲骨文中所見的商代農(nóng)業(yè)[M].《農(nóng)史研究》8輯,農(nóng)業(yè)出版社,1989.
[13] 裘錫圭.甲骨文中所見的商代五刑——并釋(兀刂)、剢二字[J].考古,1961,2:107-110.
[14] 裘錫圭.甲骨文中重文和合文重復(fù)偏旁的省略[M],古文字論集.北京:中華書局,1992:141.
[15] 裘錫圭.甲骨文字特殊書寫習(xí)慣對(duì)甲骨文考釋的影響舉例[C]//安陽(yáng)殷墟筆會(huì)論文選,1984.
[16] 于省吾.甲骨文字詁林[M].中華書局,1996.
[17] 周新倫,李峰,華星城,等.甲骨文計(jì)算機(jī)識(shí)別方法研究[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),1996,35(5):481-486.
[18] 李峰,周新倫.甲骨文自動(dòng)識(shí)別的圖論方法[J].電子科學(xué)學(xué)刊,1996,18(增刊):41-47.
[19] 顧紹通,馬小虎,楊亦鳴.基于字形拓?fù)浣Y(jié)構(gòu)的甲骨文輸入編碼研究[J].中文信息學(xué)報(bào),2008,22(4):123-128.
[20] Maragos P.Differential morphology and image processing[J].IEEE Transactions Image Processing,1996,5(6):922-937.
[21] 馬小虎,黃文帆,顧紹通,等.甲骨文點(diǎn)陣字形轉(zhuǎn)換為甲骨文輪廓字形的方法[J].語(yǔ)言科學(xué),2004,3(3):3-11.
[22] 聶艷召,劉永革.甲骨文自由筆畫輸入法[J].中文信息學(xué)報(bào),2010,21(6):100-107.
[23] Maria C M.Fuzzy mathematical morphology:concepts and applications[J].Vistas in Astronomy,1996,40(4):469-477.
[24] Serra J.Mathematical morphology and its applications to image and signal processing[M].Boston:Kluwer Academic Publishers,1996:234-251.
[25] 占德勝,芮白林.基于數(shù)學(xué)形態(tài)學(xué)與圖論的數(shù)顯字符識(shí)別[J].安徽工業(yè)大學(xué)學(xué)報(bào),2008,25(2):181-184.