金園園 焦清局
摘 要:未知甲骨字的語義破譯是甲骨學研究的重要內容之一,也是歷史學家研究甲骨文遇到的最大瓶頸。隨著甲骨文拓片出土以及相關研究文獻的增多,甲骨文數(shù)據(jù)呈現(xiàn)海量化和系統(tǒng)化。大規(guī)模甲骨文數(shù)據(jù)的出現(xiàn)為利用計算機技術破譯未知甲骨字的語義提供可能,但現(xiàn)有的破譯未知甲骨字語義的方法卻寥寥無幾。本文充分利用現(xiàn)有甲骨文數(shù)據(jù)的海量化和系統(tǒng)化特性,根據(jù)拓片信息構建甲骨字網絡,并使用網絡的模塊特征分析甲骨字的場景。本文構建的網絡和識別的場景信息為歷史學家和計算機學家破譯未知甲骨字的語義提供新的研究思路和直接的數(shù)據(jù)支持。
關鍵詞:甲骨字;拓片;復雜網絡;場景
中圖分類號:TP399 文獻標識碼:A 文章編號:1003-5168(2019)04-0008-04
Module Structure-driven Prediction of Oracle Character Scenes
JIN Yuanyuan1 JIAO Qingju1,2
(1.School of Computer and Information Engineering, Anyang Normal University,Anyang Henan 455000;2.Key Laboratory of Oracle Information Processing in Henan Province,Anyang Henan 455000)
Abstract: The semantic interpretation of unknown oracle bone characters is one of the most important contents of oracle bone research, and also the biggest bottleneck for historians in oracle bone inscriptions research. With the discovery of oracle bone rubbings and the increase of related research literatures, oracle bone inscription data shows massive and systematic. The emergence of large-scale oracle bone inscription data makes it possible to use computer technology to decipher the semantics of unknown oracle bone characters. However, few methods exist to decipher the semantics of unknown oracle bone characters. In this paper, the author made full use of the existing oracle bone inscription data of the sea and systematic characteristics, according to the rubbing information to build oracle bone inscription network, and used the network module features to analyze the scene of oracle bone inscription. The network and scene information constructed in this paper provide new research ideas and direct data support for historians and computer scientists to decipher the meaning of unknown oracle bone characters.
Keywords: oracle bone inscriptions;rubbing;complex network;scenes
1 甲骨文研究現(xiàn)狀
甲骨文是迄今為止發(fā)現(xiàn)最早的、能夠全面地記錄漢語言的文字符號,距今已有3 500年的歷史。甲骨文所記載的內容極其豐富,涉及商代社會生活的諸多方面,如戰(zhàn)爭、文化、社會習俗等內容。甲骨文的研究會對語言文字學、考古學、歷史學、社會人類學等學科產生深刻的影響,具有重要的文化價值和傳承意義[1]。
甲骨字的語義破譯一直是甲骨學研究最為重要的內容。一百多年來,經過幾代學者的努力,在甲骨文字的考釋方面取得了豐碩的成果[2]。孫詔讓是第一個比較系統(tǒng)地考釋甲骨文字的人,其考釋之字有57字;羅振玉撰寫的《殷墟書契考釋》基本上將大部分常用字認出;王國維提倡的“二重證據(jù)法”對后世破譯甲骨文字具有深遠的影響;郭沫若是第一個運用歷史唯物主義來研究甲骨文的人,他考釋之字有50字。以上列出的只是較少一部分對甲骨文考釋做出貢獻的學者。當前,中國社會科學院的宋鎮(zhèn)豪、首都師范大學的黃天樹、復旦大學的裘錫圭和劉釗、清華大學的李學勤、北京大學的李家浩、華東師范大學的劉志基等人對甲骨學的研究也做出了巨大貢獻。
然而,人為地考釋甲骨文存在以下問題。第一,破譯甲骨文的語義需要豐富的專業(yè)知識和長期的學術鉆研,這一周期往往需要一二十年甚至更長時間。較長的時間周期嚴重阻礙了甲骨學的發(fā)展。第二,人為破譯甲骨文字的語義遇到了較大的瓶頸,大概2/3的甲骨文字還未知其義。第三,隨著對甲骨文的研究不斷加深,甲骨學積累的數(shù)據(jù)已呈現(xiàn)海量化和系統(tǒng)性[3],而人為地研究甲骨文無法充分利用大規(guī)模的甲骨文數(shù)據(jù)。第四,甲骨字之間通過拓片信息相互聯(lián)系,形成相應的語義單元,具有古文字的系統(tǒng)特性,而人為地研究甲骨字,無法很好地反映甲骨文的系統(tǒng)性。
海量化和系統(tǒng)性的甲骨文數(shù)據(jù),為計算機學家研究甲骨文提供了數(shù)據(jù)上的支撐。近年來,與計算機相關的甲骨文研究開始逐漸增多,甲骨文的研究進入了以人工研究為主和以計算機為輔的時代。目前,國內以計算機為輔助的研究在甲骨文輸入和可視化、甲骨字識別、甲骨文資料庫構建、甲骨文片綴合、甲骨文字語義預測等方面均取得了豐碩的成果。
甲骨文輸入和可視化方面。2004年,劉永革[4]等人通過建立甲骨文圖片化字庫,實現(xiàn)了甲骨文的可視化輸入。同年,肖明[5]等人利用模糊數(shù)學模型對甲骨文象形編碼進行研究,并運用熵理論得到甲骨文編碼的最佳碼長度為3。2008年,通過分析甲骨文字形、讀音等特征,顧紹通[6]等人設計了一種拆分取碼和現(xiàn)代漢字拼音的方法輸入甲骨文字形。2012年,為了解決甲骨字輸入難和定量難的問題,吳琴霞和栗青生[7]提出了一種利用有向筆段和筆元相結合的方法來描述甲骨文字。甲骨字識別方面。2014年,高峰[8]等人利用語境分析生成的候選字庫得到對應的甲骨文語義構件向量,然后結合基于Hopfield網絡的識別結果計算待識別的甲骨文模糊字的匹配度,根據(jù)匹配度識別甲骨字。2016年,顧紹通[9]通過拓片頂點、拓撲關系、拓片編碼相應的數(shù)據(jù)結構刻畫甲骨文字形頂點之間的關系,將其轉化為拓撲圖形,通過計算基準拓撲和待配準之間的歐式距離識別甲骨字形。2017年,劉永革和劉國英[10]以甲骨文圖片為基礎數(shù)據(jù),通過提取甲骨文字的骨架特征,并結合支持向量機對甲骨文字進行識別。甲骨文資料庫構建方面。2004年,江銘虎[11]等人介紹了用于計算機處理的甲骨文字庫、句法分析和綜合知識庫的建立方法以及計算機甲骨文輔助辨識分析的工作原理。2010年,毛建軍[12]撰寫論文調查和分析了國內外甲骨文全文數(shù)據(jù)庫的建設情況,并給出思考和建議。2015年,李志勇和高峰[13]借鑒知網的構建體系,建立了一個融合甲骨文、現(xiàn)代漢語的語義數(shù)據(jù)庫。甲骨文片綴合方面。2010年,王愛民[14]等人通過提取甲骨片的輪廓信息和輪廓片段特征向量信息,建立甲骨文碎片數(shù)據(jù)庫,進而綴合甲骨文碎片。2011年,王愛民[15]等人利用位置數(shù)、碎片邊界、碎片上文字筆畫、碎片邊界上文字方面信息對甲骨文進行綴合。甲骨文語義預測方面。2012年,袁冬[16]等人提出基于實例的甲骨文釋文機器翻譯方案,并實現(xiàn)了一個機器翻譯系統(tǒng)。2014年,熊晶[17]等人通過引入計算機輔助翻譯的技術,將已經過甲骨文專家確認正確的現(xiàn)代漢語釋讀存儲在翻譯記憶庫中,實現(xiàn)了專家知識的共享和重用。2015年,高峰等人[18]首先構建了一個融合甲骨文和現(xiàn)代漢語的語義知識庫,然后通過可拓模型解決甲骨卜辭釋義問題。同年,熊晶[19]等人在文本挖掘的基礎上,結合語義Web技術,將實體及其關系資源描述框架(RDF)化,并在生成的RDF集合中進行語義搜索,利用本體關系和本體推理挖掘RDF對象間顯式或隱式的語義關系。國際國內合作上。2016年,中山大學、北京微軟研究院以及瑞士日內瓦大學的研究人員通過圖像處理的方式識別甲骨字[20]。2016年,德國馬克斯普朗克研究所和上海大學的研究人員構建了有關動物甲骨字的認知網絡[21]。
雖然一些計算機學家在研究甲骨文方面取得了顯著的成績,但還存在很多問題需要我們深入地研究。例如,現(xiàn)有計算機學家的研究與預測未知甲骨文字的語義還有相當一段的距離;現(xiàn)有的研究方法并沒有充分利用大規(guī)模甲骨文數(shù)據(jù)提高語義預測的正確率。
針對以上問題,本文利用大規(guī)模的甲骨字網絡和其模塊結構特征對甲骨字的場景進行預測和分析。首先,利用拓片數(shù)據(jù),通過建模構建甲骨字網絡;其次,利用模塊挖掘算法ClusterONE[22]識別網絡中的模塊;最后,通過分析不同模塊內已識和未識甲骨字之間的關系及不同模塊之間的重疊性分析甲骨文系統(tǒng)的場景特征。
2 甲骨字網絡構建
在本文中,筆者以收集的72 151片甲骨文拓片為基礎數(shù)據(jù),通過建模構建甲骨字之間相互聯(lián)系的網絡。在構建網絡之前,筆者對所有的拓片信息進行預處理。第一,對于甲骨字之間殘缺的甲骨字,使用省略號代替。第二,如果一個拓片中只含有一個甲骨字,那么將無法獲取這個字和其他字之間的信息。因此,除去不含有甲骨字和含有一個甲骨字的拓片,共獲取71 891片拓片。第三,由于甲骨文系統(tǒng)中的“卜”被經常使用,但“卜”卻不具有實際的語義信息,因此,在構建甲骨字網絡時,不計算此字和其他甲骨字之間的距離。在拓片中,筆者以省略號代替“卜”字。
為了構建甲骨字網絡,本文需要定義甲骨字和甲骨字之間的距離(或稱相似性)。在定義甲骨字之間的距離時,筆者以拓片為語義單位構建網絡:同一拓片中的任意兩個甲骨字之間都存在距離,假設拓片中兩個甲骨字分別為i和j,那么i和j之間的距離為[dij][見公式(1)];如果兩個甲骨字i和j之間有殘缺的甲骨字,那么i和j之間的不僅包含[dij],而且包含它們之間殘缺甲骨字的信息length[見公式(2)]。
[dij=101interal] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
[interal=lj-li ? ? ? ? ? i和j之間無殘缺字length+lj-li i和j之間有殘缺字] ? ? ? ?(2)
其中,公式(1)中的參數(shù)interal由公式(2)定義。在公式(2)中,[li]和[lj]分別表示甲骨字i和j在拓片中的位置且字j在字i的后面。若甲骨字i和j之間有殘缺的甲骨字,經過試驗驗證length設置為2。
對于所有的71 891片甲骨拓片,筆者以6 199個甲骨字為基礎,構建6 199×6 199大小的相似性矩陣D(即權重網絡)。首先,如果兩個甲骨字i和j在同一甲骨片上出現(xiàn),使用公式(1)和(2)進行計算,并把[dij]賦予[Dij]處;其次,如果兩個甲骨字在不同的拓片上出現(xiàn),那么把這兩個字在不同拓片上計算的相似性距離在同一個D位置上疊加。圖1給出了計算相似性矩陣D的一個簡單示意圖。圖中有兩個拓片,共有9個甲骨字。以這9個甲骨字為基礎,構建大小為9×9的相似性矩陣。例如,利用公式(1)和(2)計算甲骨字2和甲骨字4之間的距離,然后把[d2,4]的值放在相似矩陣[D2,4]的位置上;再次,如果兩個甲骨字在不同拓片上同時出現(xiàn),需要分別計算這兩個甲骨字在不同拓片上的相似性距離,然后相加放在相似性矩陣對應的位置上。如圖中的甲骨字5和6,分別計算甲骨字5和6在拓片1和2上的距離[d15,6]和[d25,6],然后把[d15,6]和[d25,6]相加放在相似性矩陣[M5,6]的位置上。最后,依據(jù)71 455個拓片信息,得到6 199個甲骨字之間的相似矩陣,這個矩陣共包含了160 964條有權重邊。為了保證邊信息能真實反映甲骨字之間的拓片信息,筆者保留了權重大于5的邊,共有5 474個甲骨字和75 611條邊。
3 甲骨字場景預測
3.1 模塊結構識別算法描述
模塊結構是復雜網絡的一種典型特征。模塊是網絡中的一個子網絡,其要求模塊中的結點之間緊密相連,而與網絡中其他結點連接稀疏。由于模塊中的結點具有相似的屬性,因此,模塊結構在很多領域都取得了成功的應用。在本文中,筆者以模塊中的甲骨字描述同一場景為假設對甲骨字網絡的模塊進行識別。
甲骨字網絡中的模塊結構具有獨特之處:一是甲骨字的語義具有多樣性,在模塊結構方面表現(xiàn)為,甲骨字可能會屬于不同的模塊,因此模塊具有重疊性;二是由于甲骨字的單音節(jié)詞較多,因此,描述場景的甲骨字個數(shù)較少。這就會造成甲骨字網絡中模塊的尺度較小,含有結點較少。在本文中,筆者使用Nepusz等人開發(fā)的ClusterONE網絡聚類算法,此算法不僅能發(fā)現(xiàn)網絡中較小的模塊,而且能識別模塊中重疊的結點。
ClusterONE算法首先定義目標函數(shù)凝聚度[Cohesiveness,f,見公式(3)],然后通過逐步迭代實現(xiàn)模塊的識別。此算法主要包含兩個部分,第一部分具體包含以下六個步驟。第一步,選定網絡中結點度數(shù)(或者權重之和)最大的結點[v0]作為種子結點,令模塊[V0=v0],并設置步數(shù)[t=0]。第二步,計算模塊[Vt]的凝聚度值,令[Vt+1=Vt]。第三步,對于與模塊[Vt]中結點有邊相連的任意外部結點v,計算凝聚度[V=Vt?v]。如果[fV>fVt+1],則[Vt+1=V]。第四步,對于與模塊[Vt]中結點有邊相連的外部結點[V],計算[V=Vt/v]。如果[fV>fVt+1],則[Vt+1=V]。第五步,如果[Vt≠Vt+1],并且新的凝聚度值增加,返回步驟2;如果[Vt=Vt+1],則[Vt]是識別的模塊結果。
[fv=winvwinV+wboundV+pV] ? ? ? ? ? ? ?(3)
在公式(3)中,[win]表示模塊V中所有結點權重之和;[wbound]表示模塊V中的結點與網絡中其余結點連接邊的權重之和;[PP>0]表示懲罰系數(shù),可根據(jù)實驗情況設定。
第二部分,第一部分識別的很多模塊之間具有很大的重合性,因此,ClusterONE算法要對這些重合的模塊進行合并。如果兩個模塊間的[ω]值[[ω]的定義見公式(4)]大于0.8,合并這兩個模塊為一個模塊,并逐步迭代合并前一步驟中所有的模塊得到最終的結果。
[ωA,B=A?B2A×B] ? ? ? ? ? ? ? ? ? ? ? ? ?(4)
其中,A和B為兩個模塊,[A]和[B]是模塊[A]和[B]中結點的個數(shù)。
3.2 預測的甲骨字場景分析
在本節(jié)中,筆者使用嵌套在Cytoscape軟件的ClusterONE算法對甲骨字網絡的社團結構進行分析。含有5 474字的甲骨文網絡被劃分成1 393個社團,其中最大的社團含有1 553個甲骨字。其余的社團含有的甲骨字均為4~50個,其中3個社團含有的甲骨字在100個左右。在分析社團時,筆者除去最大的社團,即包含1 553個甲骨字的社團。
筆者對社團尺度為4~50的甲骨字進行了著重分析,通過分析筆者發(fā)現(xiàn),一些社團的甲骨字描述了“打獵”事件。進一步研究發(fā)現(xiàn):描述“打獵”的甲骨字極少,大概7~20甲骨字就可以描述一場完整的“打獵”事件;描述“打獵”事件的一些社團存在重疊甲骨字,而這些甲骨字主要表示的是時間、地點、獵物的數(shù)量;而未重疊的甲骨字主要體現(xiàn)在不同“打獵”場景下的人名、獵物的種類、打獵的工具、獵物的種類等。這些分析為人們認識未識甲骨字的場景語義提供直接的推測數(shù)據(jù)。
除了打獵社團之外,筆者還分析了有關“戰(zhàn)爭”的社團。描述“戰(zhàn)爭”的社團相對來說比較多,共涉及約50個社團(初步分析,更加詳細的數(shù)據(jù)需要甲骨文專家考證。需要注意的是,這50個社團中的大部分甲骨字是已識,其他社團中包含的未識甲骨字也可能是描述戰(zhàn)爭的)。與“打獵”社團相比,描述“戰(zhàn)爭”的社團更加詳細,包含的甲骨字更多。具體的分析:描述“戰(zhàn)爭”社團之間也有重疊的甲骨字,這些甲骨字也是用來表示時間、地點等信息;描述“戰(zhàn)爭”社團中未重疊的甲骨字,可能涉及戰(zhàn)爭人物、戰(zhàn)爭策略、戰(zhàn)爭前的祭祀、戰(zhàn)爭祭祀品等信息。我們進一步的預測是,有關描述戰(zhàn)爭祭祀品的甲骨字在不同的社團中也是不重疊的,這種信息意味著,不同的戰(zhàn)爭對當權人的意義不同。
4 結論
未知甲骨字語義破譯不僅是歷史學家研究甲骨學的最大瓶頸,也是計算機學家研究甲骨文遇到的最大挑戰(zhàn)。本文利用大規(guī)模的甲骨文拓片數(shù)據(jù)構建甲骨字網絡。構建的甲骨字網絡不僅能充分反映古文字單音詞多、復音節(jié)詞少的特征,而且能捕捉甲骨文系統(tǒng)的語義單元及甲骨字在拓片上的同現(xiàn)信息。在甲骨字網絡上,利用網絡的模塊結構特征,并結合ClusterONE算法識別網絡中的模塊。根據(jù)模塊分析甲骨字的場景。本文使用的方法和得到的數(shù)據(jù)為歷史學家和計算機學家破譯未知甲骨字的語義提供了新的思路。
參考文獻:
[1]江銘虎.自然語言處理[M].北京:高等教育出版社,2006.
[2]夏大兆.甲骨文字用研究[D].合肥:安微大學,2014.
[3]熊晶,高峰,吳琴霞.甲骨文大規(guī)?;A數(shù)據(jù)的語義挖掘研究[J].現(xiàn)代圖書情報技術,2015(2):7-14.
[4]劉永革,栗青生.可視化甲骨文輸入法的設計與實現(xiàn)[J].計算機工程與應用,2004(17):139-140.
[5]肖明,趙慧,甘仲惟.甲骨文象形碼編碼的模糊數(shù)學模型研究[J].計算機工程與設計,2004(3):358-361.
[6]顧紹通,馬小虎,楊亦鳴.基于字形拓撲結構的甲骨文輸入編碼研究[J].中文信息學報,2008(4):123-128.
[7]吳琴霞,栗青生.基于有向筆段甲骨文輸入方法的設計與實現(xiàn)[J].計算機應用,2012(8):2374-2377.
[8]高峰,吳琴霞,劉永革,等.基于語義構件的甲骨文模糊字形的識別方法[J].科學技術與工程,2014(30):67-70.
[9]顧紹通.基于拓撲配準的甲骨文字形識別方法[J].計算機與數(shù)字工程,2016(10):2001-2006.
[10]劉永革,劉國英.基于SVM的甲骨文字識別[J].安陽師范學院學報,2017(2):54-56.
[11]江銘虎,鄧北星,廖盼盼,等.甲骨文字庫與智能知識庫的建立[J].計算機工程與應用,2004(4):45-47.
[12]毛建軍.甲骨文獻全文數(shù)據(jù)庫的建設與思考[J].圖書館學研究,2010(12):37-38.
[13]李志勇,高峰.基于知網的甲骨文可拓模型建模技術[J].計算機與現(xiàn)代化,2015(5):30-34.
[14]王愛民,劉國英,葛文英,等.甲骨文計算機輔助綴合系統(tǒng)設計[J].計算機工程與應用,2006(21):59-62.
[15]王愛民,葛文英,趙哲,等.龜甲類甲骨文碎片計算機輔助綴合研究[J].計算機工程與設計,2011(10):3570-3572.
[16]袁冬,熊晶,劉永革.面向甲骨文的實例機器翻譯技術研究[J].現(xiàn)代圖書情報技術,2012(5):48-54.
[17]熊晶,高峰,吳琴霞.甲骨文計算機輔助翻譯技術研究[J].科學技術與工程,2014(2):179-182.
[18]高峰,熊晶,劉永革.基于知網的甲骨卜辭釋義問題的可拓性研究[J].現(xiàn)代圖書情報技術,2015(7):58-64.
[19]熊晶,高峰,吳琴霞.甲骨文大規(guī)模基礎數(shù)據(jù)的語義挖掘研究[J].現(xiàn)代圖書情報技術,2015(2):7-14.
[20]Guo J,Wang C,Roman-Rangel E,et al. Building Hierarchical Representations for Oracle Character and Sketch Recognition[J]. IEEE Transactions on Image Processing,201(1):104-118.
[21]Dress A,Stefan Grünewald,Zeng Z . A cognitive network for oracle bone characters related to animals[J]. International Journal of Modern Physics B,2016(4):1630001.
[22]Nepusz T,Yu H,Paccanaro A. Detecting overlapping protein complexes in protein-protein interaction networks[J]. Nature Methods,2013(9):471-472.