劉洋 陸逸 魏鈺馳 孫智瑩 朱立芳
摘要:[目的/意義]對(duì)數(shù)字人文視域下甲骨文識(shí)別研究進(jìn)行系統(tǒng)性綜述,為后續(xù)研究提供參考和借鑒,推動(dòng)數(shù)字人文研究有效發(fā)展與古籍文字識(shí)別利用。[方法/過(guò)程]采用文獻(xiàn)計(jì)量分析的方法,在WOS、中國(guó)知網(wǎng)等多個(gè)學(xué)術(shù)平臺(tái)檢索文獻(xiàn),共篩選103篇英文文獻(xiàn)和52篇中文文獻(xiàn)進(jìn)行綜述。[結(jié)果/結(jié)論]從傳統(tǒng)識(shí)別技術(shù)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)3個(gè)層面解讀甲骨文識(shí)別研究現(xiàn)狀,但并未深入闡述識(shí)別算法機(jī)制。甲骨文識(shí)別技術(shù)由傳統(tǒng)的特征提取逐漸轉(zhuǎn)為基于深度學(xué)習(xí)的識(shí)別技術(shù),在識(shí)別精度等方面有很大提升,但仍存在一些不足,同時(shí)甲骨文知識(shí)庫(kù)、知識(shí)圖譜的構(gòu)建與領(lǐng)域知識(shí)的建立在該領(lǐng)域有較好的發(fā)展?jié)摿Α?/p>
關(guān)鍵詞:數(shù)字人文? ? 甲骨文識(shí)別? ? 研究進(jìn)展? ?系統(tǒng)性綜述
分類(lèi)號(hào):G203
引用格式:劉洋, 陸逸, 魏鈺馳, 等. 甲骨文識(shí)別技術(shù)研究現(xiàn)狀與展望[J/OL]. 知識(shí)管理論壇, 2022, 8(2): 115-125[引用日期]. http://www.kmf.ac.cn/p/337/.
伴隨著數(shù)字技術(shù)與人文研究碰撞的不斷深入,作為交叉領(lǐng)域的“數(shù)字人文”研究其地位日益凸顯。數(shù)字人文借助信息技術(shù)、數(shù)字技術(shù)助力傳統(tǒng)人文學(xué)科研究,成為當(dāng)下“新文科”發(fā)展的新生長(zhǎng)點(diǎn)[1-2]。數(shù)字人文研究涉及多個(gè)領(lǐng)域,研究對(duì)象為人文學(xué)科領(lǐng)域各類(lèi)可數(shù)字化的資源[3],形式上包括圖像資料、無(wú)格式文本、視頻音頻等,內(nèi)容上包括歷史文獻(xiàn)、圖書(shū)檔案等。數(shù)字人文研究在文學(xué)、語(yǔ)言學(xué)、歷史、地理等多個(gè)領(lǐng)域發(fā)揮重要作用。
古籍?dāng)?shù)字化是數(shù)字人文研究最基礎(chǔ)的條件之一[4],甲骨文識(shí)別研究作為古籍?dāng)?shù)字化的重要一環(huán),也是數(shù)字人文的研究對(duì)象,在古籍特定領(lǐng)域數(shù)字人文研究中具有重要意義。在“數(shù)字人文”理念和技術(shù)的幫助下,甲骨文等古籍文字資源的挖掘整合、特征提取、識(shí)別研究等都能在深度與廣度上得到拓展,幫助古籍文字資源成為兼具歷史性、可視性且組織結(jié)構(gòu)合理的數(shù)字人文記憶。
甲骨文是迄今為止發(fā)現(xiàn)的最早具有完整體系的漢字[5],具有深厚的歷史文化意義。2017年甲骨文入選聯(lián)合國(guó)教科文組織“世界記憶名錄”,其重要的文化價(jià)值和歷史意義得到世界認(rèn)可。習(xí)總書(shū)記在2019年為紀(jì)念甲骨文發(fā)現(xiàn)120周年座談會(huì)所發(fā)賀信中提及“殷墟甲骨文的重大發(fā)現(xiàn)在中華文明乃至人類(lèi)文明發(fā)展史上具有劃時(shí)代的意義”,強(qiáng)調(diào)要確保甲骨文研究有人做、有傳承。綜合運(yùn)用人工智能等技術(shù)手段進(jìn)行甲骨文識(shí)別,促進(jìn)其在新時(shí)代的活化傳承,不僅是傳承中華文明、開(kāi)創(chuàng)新時(shí)代語(yǔ)言文字新局面的迫切要求,也是學(xué)術(shù)界一直以來(lái)探索和實(shí)踐的方向。
機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的迅速發(fā)展在給甲骨文識(shí)別帶來(lái)新的機(jī)遇的同時(shí),也提出了更加多元的需求,越來(lái)越多的學(xué)者開(kāi)始關(guān)注到甲骨文識(shí)別與古籍文字資源的深入挖掘整合與多途徑傳播。
已有的文獻(xiàn)[6-7]大多從計(jì)算機(jī)視覺(jué)角度出發(fā)對(duì)甲骨文識(shí)別技術(shù)進(jìn)行綜述,缺乏在數(shù)字人文視域下對(duì)甲骨文識(shí)別的前沿?zé)狳c(diǎn)探討。鑒于此,筆者采用系統(tǒng)性綜述的方法對(duì)截至2022年上半年的國(guó)內(nèi)外155篇針對(duì)甲骨文識(shí)別研究的文獻(xiàn)進(jìn)行梳理、歸納和分析,將數(shù)字人文理念、技術(shù)和方法與甲骨文識(shí)別技術(shù)相結(jié)合,旨在揭示數(shù)字人文視域下甲骨文識(shí)別的研究現(xiàn)狀,分析難點(diǎn)與挑戰(zhàn),進(jìn)而分析發(fā)展方向,助力甲骨文識(shí)別技術(shù)的發(fā)展,為甲骨文的活化利用、古籍特定領(lǐng)域數(shù)字人文研究提供支撐,促進(jìn)數(shù)字人文研究有效發(fā)展,拓寬數(shù)字人文邊界,同時(shí)幫助有關(guān)學(xué)者挖掘古籍文字的多維價(jià)值,促進(jìn)中華文明的傳承發(fā)展。
1? 甲骨文識(shí)別研究現(xiàn)狀
1.1? 數(shù)據(jù)來(lái)源與研究方法
本研究主要采用文獻(xiàn)計(jì)量分析法,在多個(gè)數(shù)據(jù)庫(kù)中通過(guò)特定檢索式,檢索獲得多篇相關(guān)文獻(xiàn),同時(shí)借助VOSviewer、Excel等可視化工具從宏觀層面把握甲骨文識(shí)別技術(shù)研究發(fā)展現(xiàn)狀,既可以在時(shí)間上分析相關(guān)主題的發(fā)展歷程,也可以系統(tǒng)地分析數(shù)字人文視域下甲骨文識(shí)別技術(shù)的研究重點(diǎn)與方向。
在Web of Science、谷歌學(xué)術(shù)數(shù)據(jù)庫(kù)中通過(guò)高級(jí)檢索,運(yùn)用檢索式TS=(‘oracle bone script or ‘Oracle or ‘oracle bone or ‘oracle bone inscriptions) AND TS=(‘recognition or ‘detection) 檢索英文文獻(xiàn)。同時(shí),在中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)中運(yùn)用檢索式SU=甲骨文識(shí)別 OR SU=甲骨文檢測(cè) OR SU=(‘甲骨文+甲骨文拓片)*(‘識(shí)別+檢測(cè)) OR KY=(‘甲骨文+甲骨文拓片)*(‘識(shí)別+檢測(cè)) OR (AB=(‘甲骨文+甲骨文拓片)*(‘識(shí)別+檢測(cè)) and KY=(‘識(shí)別+檢測(cè)))檢索中文文獻(xiàn),篩選截至2022年上半年的近幾十年來(lái)的文獻(xiàn),經(jīng)過(guò)人工篩選,剔除與甲骨文識(shí)別技術(shù)主題無(wú)關(guān)的文獻(xiàn),最終獲取103篇英文文獻(xiàn)和52篇中文文獻(xiàn)。
檢索結(jié)果所得論文年發(fā)文量如圖1所示。從圖1可以看出,學(xué)界對(duì)于甲骨文識(shí)別技術(shù)的相關(guān)研究熱度逐漸增加,論文年發(fā)文量在近5年呈現(xiàn)較快增長(zhǎng),對(duì)甲骨文識(shí)別進(jìn)行系統(tǒng)性綜述有較高的研究?jī)r(jià)值。
通過(guò)VOSviewer,對(duì)103篇英文文獻(xiàn)的標(biāo)題和摘要內(nèi)容進(jìn)行聚類(lèi)分析,從主題與時(shí)間兩個(gè)維度繪制聚類(lèi)圖,可以展現(xiàn)當(dāng)前甲骨文識(shí)別領(lǐng)域的研究熱點(diǎn)與研究趨勢(shì),如圖2、圖3所示:
從圖2、圖3可以看出,在研究對(duì)象上甲骨文識(shí)別主要針對(duì)甲骨文拓片圖像、甲骨文字形,在識(shí)別技術(shù)上主要依賴(lài)深度學(xué)習(xí)、構(gòu)建模型,準(zhǔn)確性、速度效率為該領(lǐng)域重要的評(píng)價(jià)指標(biāo)。隨著技術(shù)的發(fā)展成熟,深度學(xué)習(xí)技術(shù)的高度應(yīng)用與數(shù)據(jù)庫(kù)、知識(shí)庫(kù)的搭建逐漸成為學(xué)界關(guān)注的方向。
1.2? 甲骨文識(shí)別技術(shù)研究現(xiàn)狀
1.2.1? 傳統(tǒng)識(shí)別技術(shù)
傳統(tǒng)的甲骨文識(shí)別技術(shù)主要采用特征提?。╢eature extract)的方法,基于甲骨文字形結(jié)構(gòu)特征,從字形特征角度或拓?fù)鋱D形特征角度出發(fā),對(duì)其特征進(jìn)行提取,從而進(jìn)行分級(jí)甲骨文識(shí)別。
由于甲骨文字形復(fù)雜多變,之前的研究者將其視作線(xiàn)條圖,從字形特征出發(fā),通過(guò)分析筆劃方向、彎曲度、折彎程度等,來(lái)提取拓?fù)涮卣?。?fù)旦大學(xué)的周新倫和李鋒等[8-9]把甲骨文看作是由“線(xiàn)”與“點(diǎn)”構(gòu)成的無(wú)向圖,進(jìn)行圖特征提取,將各類(lèi)圖論編碼作為字符的拓?fù)涮卣?,從而進(jìn)行分級(jí)識(shí)別。
但甲骨文字大多是刻在硬骨甲殼上,噪聲較大,前者在去噪識(shí)別特征方面精確度較低,而基于輪廓線(xiàn)的特征提取、描述可以提高甲骨文識(shí)別的精確度,因此后者主要從圖形特征或拓?fù)浣Y(jié)構(gòu)出發(fā)進(jìn)行甲骨文識(shí)別。2010年呂肖慶、李沫楠等[10]將基于曲率直方圖的傅里葉描述子(Fourier descriptor of curvature histogram, FDCH)作為新的特征,并據(jù)此計(jì)算出甲骨文字對(duì)應(yīng)的特征向量,從而計(jì)算相似度進(jìn)行甲骨文識(shí)別。2016年顧紹通[11]通過(guò)分析甲骨文字形的拓?fù)涮卣?,將甲骨文轉(zhuǎn)化為拓?fù)鋱D形,對(duì)其進(jìn)行編碼,將拓?fù)渚幋a與拓?fù)涮卣鲙?kù)進(jìn)行配準(zhǔn),從而實(shí)現(xiàn)甲骨文識(shí)別。
1.2.2? 基于機(jī)器學(xué)習(xí)識(shí)別技術(shù)
由于機(jī)器學(xué)習(xí)算法在計(jì)算機(jī)視覺(jué)領(lǐng)域獲得了很大成功,因此除了圖論方法中手動(dòng)編碼進(jìn)行匹配之外,部分甲骨文字形識(shí)別工作也引入了機(jī)器學(xué)習(xí)算法。
支持向量機(jī)(Support Vector Machine, SVM)[12]是隸屬機(jī)器學(xué)習(xí)的新一代學(xué)習(xí)方法,廣泛應(yīng)用于圖像分類(lèi)、手寫(xiě)圖像識(shí)別等領(lǐng)域。與人工神經(jīng)網(wǎng)絡(luò)相比,SVM對(duì)測(cè)試樣本具有更好的泛化能力,對(duì)于資源稀缺的甲骨文識(shí)別具有優(yōu)勢(shì)。X. Shi[13]利用語(yǔ)料庫(kù)相關(guān)技術(shù)處理形成了一個(gè)簡(jiǎn)單的甲骨文數(shù)據(jù)庫(kù),并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,使用SVM進(jìn)行基于部首的分類(lèi),以達(dá)到知識(shí)共享和輔助甲骨文學(xué)者考證的目的。劉永革等[14]通過(guò)塊狀直方圖提取特征,引入經(jīng)典的SVM作為甲骨文識(shí)別的模型,使精確度達(dá)到了88%。此外,度量學(xué)習(xí)在克服甲骨文識(shí)別中訓(xùn)練數(shù)據(jù)的局限性和不平衡性方面也有較多應(yīng)用。
1.2.3? 基于深度學(xué)習(xí)識(shí)別技術(shù)
機(jī)器學(xué)習(xí)需要人為機(jī)器提供特征進(jìn)行學(xué)習(xí),對(duì)應(yīng)到甲骨文識(shí)別中,即需要先定義不同甲骨文類(lèi)的特征,對(duì)專(zhuān)家的依賴(lài)性較高而導(dǎo)致信息共享普及率較低,在識(shí)別精度、識(shí)別效率等方面仍有提升的空間。將深度學(xué)習(xí)技術(shù)運(yùn)用到甲骨文識(shí)別中,能夠利用大量甲骨文字形數(shù)據(jù)集自動(dòng)提取拓?fù)涮卣鳎床恍枰藶槎x特征和規(guī)則,交由計(jì)算機(jī)獨(dú)立識(shí)別圖像,并根據(jù)給定數(shù)據(jù)圖像進(jìn)行自我迭代訓(xùn)練,從而提高甲骨文識(shí)別精度與識(shí)別效率。
深度學(xué)習(xí)技術(shù)在甲骨文識(shí)別領(lǐng)域的應(yīng)用主要可以分為兩步:第一步是實(shí)現(xiàn)甲骨文字體的目標(biāo)檢測(cè)及實(shí)例分割,第二步是識(shí)別被提取的甲骨文字符。關(guān)于甲骨文識(shí)別方向的研究除了提升甲骨文識(shí)別精度以外,還包括低資源甲骨文字符識(shí)別、甲骨文變體識(shí)別等。近年來(lái),學(xué)界對(duì)甲骨文拓片圖像識(shí)別的研究逐漸增多,且識(shí)別效果較好,相關(guān)研究統(tǒng)計(jì)見(jiàn)表1。
(1)甲骨文檢測(cè)。Faster R-CNN是目標(biāo)檢測(cè)領(lǐng)域的代表性算法,在此基礎(chǔ)上Z. Liu等[27]優(yōu)化了Faster R-CNN負(fù)樣本過(guò)多的問(wèn)題,大大提高了檢測(cè)精度;L. Meng等[21]使用并擴(kuò)展了單次多箱探測(cè)器(Single Shot MultiBox Detector, SSD)[28]來(lái)檢測(cè)帶有摩擦的甲骨文字符,改進(jìn)了SSD在識(shí)別較小物體時(shí)準(zhǔn)確度較低的問(wèn)題;X. Yue等[25]應(yīng)用一種基于形態(tài)學(xué)的分割方法對(duì)白川手寫(xiě)甲骨文文檔中的字符進(jìn)行分割,并提出一種神經(jīng)網(wǎng)絡(luò)來(lái)消除錯(cuò)誤分割字符的噪聲。
(2)甲骨文識(shí)別?;谏疃葘W(xué)習(xí)的甲骨文識(shí)別技術(shù)將傳統(tǒng)方法的特征提取與多種處理過(guò)程合為一體,依靠大量的訓(xùn)練數(shù)據(jù)和強(qiáng)大的計(jì)算性能,在甲骨文識(shí)別中逐漸發(fā)揮重要作用。劉芳、李華飆等[16]基于Mask R-CNN進(jìn)行甲骨文拓片識(shí)別,識(shí)別準(zhǔn)確率提升至95%;閆升、劉芳等[17]進(jìn)一步改進(jìn)Mask R-CNN,實(shí)現(xiàn)類(lèi)別屏蔽與自動(dòng)識(shí)別較正相結(jié)合,首次針對(duì)拓片圖像進(jìn)行甲骨文字符檢測(cè)與識(shí)別一體化;林小渝等[18,29]在深度學(xué)習(xí)模型的基礎(chǔ)上,首次提出從甲骨文單偏旁角度進(jìn)行甲骨文識(shí)別,不僅取得較高的識(shí)別率,還能幫助識(shí)別甲骨文新字,即零樣本學(xué)習(xí)(zero-shot learning),具有較高的應(yīng)用意義。
Z. Guo等[30]提出一種基于Inception-v3的用于甲骨文識(shí)別神經(jīng)網(wǎng)絡(luò)模型,該模型比AlexNet、VGG-19更加優(yōu)越,在特征模糊、遮擋、殘缺的情況下仍能取得良好的效果;藤川等[31]提出了一種兩階段方法,采用最新的“只看一次”(YOLO)模型和MobileNet進(jìn)行帶有摩擦的甲骨文字符識(shí)別。這些方法引入了神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),使模型獲得了更好的特征表示能力,因此字符識(shí)別的準(zhǔn)確性得到顯著提高。由于甲骨文拓片圖像訓(xùn)練樣本較少、圖像磨損較大,因此基于拓片載體的甲骨文識(shí)別精確度較低。張頤康等[19]創(chuàng)新性地提出基于跨模態(tài)深度度量學(xué)習(xí)的甲骨文識(shí)別技術(shù),它改編自J. Guo等[32]提出的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的甲骨文識(shí)別,在CNN和深度度量學(xué)習(xí)的基礎(chǔ)上,配有臨摹、拓?fù)浼坠俏淖痔卣骶幋a器,實(shí)現(xiàn)跨模態(tài)特征空間建模,最終實(shí)現(xiàn)甲骨文識(shí)別,將精確度從單模態(tài)識(shí)別的66.6%提升至跨模態(tài)識(shí)別的88.4%。
也有學(xué)者提出新的甲骨文識(shí)別思路。F. Gao等[33]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的圖像從甲骨文到現(xiàn)代漢字的圖像翻譯方法,首次嘗試捕獲甲骨文字符圖像與現(xiàn)代漢字之間的隱形關(guān)系;W. Han等[34]將自我監(jiān)督學(xué)習(xí)的思想融入到數(shù)據(jù)增強(qiáng)中,在識(shí)別很少拍攝的甲骨文字符時(shí)具有較高的性能。
(3)低資源字符識(shí)別。標(biāo)注語(yǔ)料稀缺且分布不平衡,部分甲骨文字符只有一個(gè)或幾個(gè)基礎(chǔ)樣本,這種帶標(biāo)注訓(xùn)練語(yǔ)料不足條件下的識(shí)別任務(wù)被稱(chēng)為低資源識(shí)別任務(wù),直接使用深度學(xué)習(xí)方法不能很好地識(shí)別低資源字體。因此,J. Li等[35]提出了一種混淆策略,利用混合多數(shù)類(lèi)和少數(shù)類(lèi)的方法來(lái)增加樣本,并使用三重?fù)p失函數(shù)來(lái)克服分布不平衡的問(wèn)題。同時(shí)為了避免在數(shù)據(jù)集小、圖像質(zhì)量低的情況下模型數(shù)據(jù)過(guò)度擬合,L. Dazheng等[36]提出了隨機(jī)多邊形覆蓋算法的數(shù)據(jù)增強(qiáng)算法來(lái)模擬訓(xùn)練數(shù)據(jù)集中可能的損傷對(duì)象和數(shù)據(jù)丟失。
嚴(yán)格意義上的甲骨銘文總數(shù)為3 085個(gè),占甲骨銘文總數(shù)的51.91%[33],因此識(shí)別變體對(duì)于甲骨文研究至關(guān)重要。J. Gao等[37]提出了一種兩階段方法來(lái)區(qū)分它們,在第一階段通過(guò)計(jì)算機(jī)相關(guān)方法識(shí)別甲骨文變體字符,然后在第二階段通過(guò)結(jié)合先驗(yàn)知識(shí)的多域方法進(jìn)一步識(shí)別未識(shí)別的甲骨文變體字符;G. Liu等[38]提出通過(guò)將深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)與頻譜聚類(lèi)相結(jié)合來(lái)識(shí)別甲骨文的變體。前者用于為甲骨文圖像提供準(zhǔn)確的描述,后者用于查找每個(gè)甲骨文的變體。
2? 甲骨文數(shù)據(jù)處理與存儲(chǔ)
利用知識(shí)庫(kù)、人工智能等多方面新興技術(shù),并輔之人工復(fù)校,既可提升古籍文字識(shí)別的準(zhǔn)確率,也可充當(dāng)工具庫(kù)為數(shù)字人文研究提供幫助。甲骨文數(shù)據(jù)庫(kù)、知識(shí)庫(kù)的構(gòu)建,不僅為計(jì)算機(jī)識(shí)別甲骨文提供大量矢量字形,擴(kuò)充數(shù)據(jù)的多樣性,也為甲骨文各項(xiàng)研究提供豐富的檢索幫助,便于推動(dòng)甲骨文古籍?dāng)?shù)字化研究,愈發(fā)成為當(dāng)前學(xué)界關(guān)注的重點(diǎn)。
2.1? 數(shù)據(jù)庫(kù)的構(gòu)建和標(biāo)注
目前,有多家學(xué)術(shù)機(jī)構(gòu)開(kāi)展了甲骨文數(shù)據(jù)庫(kù)與知識(shí)庫(kù)的構(gòu)建工作。香港漢達(dá)文庫(kù)[39]甲骨文庫(kù)是最早的甲骨文數(shù)據(jù)庫(kù),目前最大的甲骨文數(shù)據(jù)庫(kù)是陳年福構(gòu)建的甲骨文原文釋文數(shù)據(jù)庫(kù)[40]。栗青生和吳琴霞等[41-42]為了解決對(duì)甲骨文異形字編碼與輸入的問(wèn)題,通過(guò)有向筆段和筆元描述甲骨文字形,并建立甲骨文字形動(dòng)態(tài)描述庫(kù),這也有助于甲骨文識(shí)別。
隨著人工智能等技術(shù)的突破,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)逐漸融入甲骨文字識(shí)別等古籍?dāng)?shù)字化工作中,助力數(shù)字人文研究。多位學(xué)者[43]提出基于人工智能技術(shù)訓(xùn)練深度學(xué)習(xí)模型,并在此基礎(chǔ)上建立甲骨文字形數(shù)據(jù)庫(kù),以此幫助甲骨文字檢索。S. Huang等[44]構(gòu)建了一個(gè)名為OBC306的甲骨文字符大型數(shù)據(jù)集,并基于標(biāo)準(zhǔn)的深度CNN對(duì)該數(shù)據(jù)集進(jìn)行評(píng)估,作為甲骨文識(shí)別的基準(zhǔn)模型。
在現(xiàn)有的技術(shù)環(huán)境中,只有經(jīng)驗(yàn)豐富的甲骨文專(zhuān)家才能對(duì)甲骨文進(jìn)行手動(dòng)注釋?zhuān)@不僅耗費(fèi)人力資源,而且效率低下。針對(duì)這一問(wèn)題,S. H. I. Xian-Jin等[45]在甲骨文圖像識(shí)別模型的基礎(chǔ)上,提出一種基于錨點(diǎn)的甲骨文字符級(jí)圖像自動(dòng)注釋算法。
2.2? 領(lǐng)域知識(shí)的建立
甲骨文知識(shí)庫(kù)與知識(shí)圖譜是甲骨文數(shù)據(jù)庫(kù)的擴(kuò)展,是在甲骨文數(shù)據(jù)庫(kù)、文字庫(kù)的基礎(chǔ)上,進(jìn)行條件概率語(yǔ)法現(xiàn)象統(tǒng)計(jì)、甲骨文語(yǔ)料分析、句法分析等之后建立的綜合知識(shí)庫(kù),用以進(jìn)行知識(shí)組織與知識(shí)服務(wù)。建立甲骨文文字庫(kù)和綜合智能知識(shí)庫(kù),支持逐級(jí)排歧校正,有助于準(zhǔn)確表達(dá)甲骨文含義,助力數(shù)字人文研究,也為甲骨文信息處理提供創(chuàng)新性的研究思路[46-47]。
J. Xiong等[46]針對(duì)甲骨文研究學(xué)習(xí)難度大、學(xué)習(xí)周期長(zhǎng)、知識(shí)點(diǎn)廣但知識(shí)連接弱、共享度低等問(wèn)題,提出一種構(gòu)建多模態(tài)知識(shí)圖譜的解決方案。甲骨文多模態(tài)知識(shí)圖譜可以為多源異構(gòu)數(shù)據(jù)提供統(tǒng)一的語(yǔ)義空間。通過(guò)多模態(tài)融合和信息互補(bǔ),可以解決信息處理中單一模態(tài)的缺陷。這個(gè)多模態(tài)知識(shí)圖譜可以更好地組織和管理基礎(chǔ)數(shù)據(jù),為甲骨文信息處理研究服務(wù)。
安陽(yáng)師范學(xué)院是國(guó)內(nèi)唯一的甲骨文理工科研究基地,與社會(huì)科學(xué)院甲骨學(xué)殷商史研究中心共同建設(shè)“三庫(kù)一平臺(tái)”,即甲骨文字庫(kù)、著錄庫(kù)、文獻(xiàn)庫(kù)和甲骨文知識(shí)服務(wù)平臺(tái),標(biāo)志著甲骨學(xué)研究由“數(shù)字化”進(jìn)入“智能化”時(shí)代[48]。其中大數(shù)據(jù)平臺(tái)構(gòu)建了基于人工手寫(xiě)甲骨文字符數(shù)據(jù)庫(kù)hwobc,它包含83 245個(gè)字符級(jí)樣本,3 881個(gè)字符類(lèi)別,并采用傳統(tǒng)深度學(xué)習(xí)分類(lèi)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)分類(lèi)。一方面深度學(xué)習(xí)打破館藏資源的界限,公開(kāi)擴(kuò)大數(shù)據(jù)集資源,從而形成豐富的測(cè)試集,提升深度學(xué)習(xí)的性能;另一方面實(shí)現(xiàn)文史研究與智能技術(shù)的深度融合,促進(jìn)甲骨文研究工作的發(fā)展。
在領(lǐng)域知識(shí)的建立中,知識(shí)本體可以以知識(shí)元的形式對(duì)智能技術(shù)提取出的數(shù)據(jù)進(jìn)行有效關(guān)聯(lián),構(gòu)建出語(yǔ)義網(wǎng)絡(luò),提高對(duì)數(shù)據(jù)資源的整合利用,同時(shí)語(yǔ)義網(wǎng)絡(luò)也可利用其推理、計(jì)算能力,幫助研究者考釋未破譯的甲骨文字[49]。例如,Q. Jiao等[50]構(gòu)建語(yǔ)義網(wǎng)絡(luò),進(jìn)行具有相似語(yǔ)義的甲骨文字符的模塊結(jié)構(gòu)檢測(cè)。
3? 現(xiàn)有不足
3.1? 數(shù)據(jù)特征
甲骨文的構(gòu)成方式主要為4種,分別是象形、形聲、會(huì)意和指事。其中,象形字占據(jù)了較大比例,一些形聲字、會(huì)意字也是在象形字的基礎(chǔ)上發(fā)展而來(lái)[11]。因此,甲骨文字具有較強(qiáng)的圖畫(huà)性。現(xiàn)階段,相關(guān)領(lǐng)域的大多數(shù)學(xué)者傾向于將甲骨文歸類(lèi)至圖形體文字而非筆畫(huà)體文字。他們認(rèn)為,甲骨文不僅不存在現(xiàn)代漢字中所謂的筆畫(huà)概念,在筆畫(huà)多少、正反向背等方面也沒(méi)有統(tǒng)一要求。甲骨文偏旁部首的排列既不是橫排也不是豎排,在字形結(jié)構(gòu)上有著一定的隨意性。同時(shí),由于甲骨文筆端尖細(xì)、難以區(qū)分筆畫(huà),專(zhuān)家在識(shí)別甲骨文時(shí)只能將其作為一個(gè)整體輸入。這些特點(diǎn)在學(xué)者采用現(xiàn)代化技術(shù)對(duì)其識(shí)別時(shí)造成了較大的困擾。
由于獸骨、龜甲上可供鐫刻、書(shū)寫(xiě)的位置有限,以現(xiàn)代標(biāo)準(zhǔn)來(lái)衡量,甲骨文的排版是參差錯(cuò)落、疏密不均、大小不一的,部分甲骨文字為了能夠更加準(zhǔn)確地表示相對(duì)復(fù)雜的實(shí)物,一個(gè)字通常會(huì)占據(jù)多個(gè)字的位置[10]。因此,在對(duì)甲骨文進(jìn)行識(shí)別的過(guò)程中少有版式信息可以借助。
類(lèi)比于現(xiàn)代漢字的書(shū)寫(xiě)系統(tǒng),不同的人對(duì)于同一個(gè)甲骨文字也有著多種不同的刻寫(xiě)方法。例如,一些會(huì)意字只需要指定偏旁結(jié)合就能夠表示某種含義,而不要求其位置固定[10]。不同的刻寫(xiě)方法造成了不同形體的甲骨文的存在,不同形體的甲骨文之間差別很大[51]。字體變體和相似字符之間的混淆使得甲骨文的識(shí)別具有一定的難度。此外,甲骨文字頻存在兩端集中現(xiàn)象,即少數(shù)高頻字占總字量的高比重,和在總字量中占極低比重的低頻字占單字總數(shù)的極高比重[52]。低頻字高度集中的現(xiàn)象表現(xiàn)出甲骨文作為一個(gè)文字系統(tǒng)的不成熟性。除此之外,還有大量的甲骨文屬于未考釋字[15],這些特征都為甲骨文的識(shí)別增加了難度。
部分甲骨拓片受到年代久遠(yuǎn)、保存條件惡劣等因素的影響,表面遭受不同程度的殘蝕與破損??脊艑W(xué)家在獲取拓片甲骨文字圖像的過(guò)程中也會(huì)對(duì)原始甲骨拓片產(chǎn)生一定的破壞,如去除拓片上的殘泐痕和其他文字的痕跡等[43],這些操作可能會(huì)導(dǎo)致甲骨文字缺筆變形。因此,大部分拓片甲骨文字圖像都具有圖像殘缺、噪聲嚴(yán)重等缺點(diǎn)。
3.2? 識(shí)別技術(shù)
甲骨文識(shí)別技術(shù)目前尚處于起步階段,現(xiàn)有的甲骨文識(shí)別技術(shù)不僅存在無(wú)法完全提取甲骨文字的特征、無(wú)法完全符合甲骨文字的實(shí)際情況等問(wèn)題,其本身的復(fù)雜性也使現(xiàn)有算法在使用范圍等方面受到一系列的限制。換言之,目前甲骨文識(shí)別技術(shù)的性能還不太能夠達(dá)到完全實(shí)用化水平,未來(lái)有待進(jìn)一步發(fā)展與完善。
以卷積神經(jīng)網(wǎng)絡(luò)為核心的深度學(xué)習(xí)技術(shù)在大數(shù)據(jù)環(huán)境下能夠取得較為理想的甲骨文識(shí)別效果,但該種技術(shù)并未充分利用甲骨文的自身特征,無(wú)法為神經(jīng)網(wǎng)絡(luò)提供大量的特征提取樣本,在其他條件下的識(shí)別效果不盡人意。
文字識(shí)別領(lǐng)域性能優(yōu)異的深度學(xué)習(xí)方法對(duì)大量樣本訓(xùn)練有著較高程度的依賴(lài)。因客觀條件的限制,獲取拓片甲骨文字具有較大的難度,這導(dǎo)致深度學(xué)習(xí)方法缺乏訓(xùn)練樣本,深度學(xué)習(xí)算法在訓(xùn)練集樣本足夠大的情況下才能充分發(fā)揮其性能,而甲骨文樣本數(shù)量少,歷史跨度大,字形演變豐富,數(shù)據(jù)集不充分[16]。因此,該種方法對(duì)真實(shí)的拓片資源很難取得較高的識(shí)別精度。
在目前出土的甲骨拓片中,大部分甲骨文的字形無(wú)法得到準(zhǔn)確辨識(shí),其讀音和意義仍待進(jìn)一步考究,這使得甲骨文編碼輸入的方法存在規(guī)則繁重、重碼多和識(shí)別效率低的缺陷[51]。以史小松為代表的“甲骨文字結(jié)構(gòu)派”學(xué)者采用語(yǔ)料庫(kù)和支持向量機(jī)的理論并建立了甲骨文字形庫(kù)和語(yǔ)料庫(kù),但該方法不僅在識(shí)別圖畫(huà)特征明顯、結(jié)構(gòu)不清晰的甲骨文字時(shí)存在困難,還伴有識(shí)別效率低的問(wèn)題。
4? 甲骨文識(shí)別的未來(lái)工作
4.1? 數(shù)據(jù)的擴(kuò)展
安陽(yáng)師范學(xué)院和中國(guó)社會(huì)科學(xué)院甲骨學(xué)殷商史研究中心合作建設(shè)的甲骨文大數(shù)據(jù)及資料檢索分析平臺(tái)“殷契文淵”[53]中涉及國(guó)內(nèi)外多家機(jī)構(gòu)的原始甲骨文拓片圖像,在一定程度上實(shí)現(xiàn)甲骨文拓片資源共享,幫助甲骨學(xué)資源由“獨(dú)享”到“共享”,提供更多的原始拓片數(shù)據(jù)集,提高數(shù)據(jù)量與覆蓋度。而要進(jìn)一步推動(dòng)甲骨文識(shí)別研究,需要進(jìn)一步拓寬這種資源共享的渠道,該項(xiàng)工作任重而道遠(yuǎn)。
數(shù)據(jù)集中樣本數(shù)量的缺少會(huì)導(dǎo)致識(shí)別精度較低,同時(shí)由于甲骨文原始資源大多存在圖像殘缺、背景噪聲嚴(yán)重的問(wèn)題,因此當(dāng)一個(gè)甲骨文字符寫(xiě)入時(shí)可以考慮從字符的角度或厚度出發(fā),通過(guò)順時(shí)針(clockwise rotate)或逆時(shí)針旋轉(zhuǎn)(counterclockwise rotate)、字符加深(dilate)或腐蝕化(erode)、壓縮(compress)或拉伸(stretch)等操作,經(jīng)過(guò)多次轉(zhuǎn)化生成新的圖像,由此擴(kuò)展數(shù)據(jù)集。
在將甲骨文數(shù)據(jù)信息轉(zhuǎn)移到電腦與網(wǎng)絡(luò)的過(guò)程中,無(wú)論是編碼類(lèi)輸入法還是無(wú)編碼類(lèi)輸入法均需要足夠的甲骨文專(zhuān)業(yè)知識(shí),且對(duì)于未破譯的甲骨文字需要逐個(gè)檢索甲骨文字形描述庫(kù),這無(wú)疑造成甲骨學(xué)研究的巨大障礙。因此,應(yīng)當(dāng)提升甲骨文輸入法技術(shù),實(shí)現(xiàn)零學(xué)習(xí)成本與輸入效率的雙贏,使數(shù)字人文中的古籍?dāng)?shù)字化研究更便利,也更有利于甲骨文的研究與發(fā)展。
4.2? 技術(shù)的優(yōu)化
甲骨文雖是較成熟的文字系統(tǒng),但仍處于漢字早期階段,異體字眾多、低頻字高度集中,大量實(shí)驗(yàn)存在檢測(cè)正確但識(shí)別錯(cuò)誤的情況,易出現(xiàn)分類(lèi)過(guò)度的問(wèn)題,仍需要專(zhuān)家復(fù)審,對(duì)專(zhuān)家的依賴(lài)度較高。甲骨文識(shí)別研究可從數(shù)據(jù)增強(qiáng)、模型結(jié)構(gòu)調(diào)整、優(yōu)化實(shí)現(xiàn)3個(gè)方向提高識(shí)別精度。當(dāng)前數(shù)據(jù)增廣策略的研究對(duì)象基本為拓片圖像,可進(jìn)一步利用甲骨文單字進(jìn)行研究。因此在日后的研究中,該領(lǐng)域研究者應(yīng)考慮數(shù)據(jù)的噪聲、圖像殘缺和算法的泛化能力弱等問(wèn)題,加快技術(shù)開(kāi)發(fā),提高針對(duì)原始甲骨文拓片資源的識(shí)別效率。針對(duì)卷積神經(jīng)網(wǎng)絡(luò)本身,網(wǎng)絡(luò)深度過(guò)多會(huì)導(dǎo)致梯度消失或爆炸的問(wèn)題,從而導(dǎo)致網(wǎng)絡(luò)性能下降,同時(shí)網(wǎng)絡(luò)深度也不容易訓(xùn)練,因此不需要選擇更深入的神經(jīng)網(wǎng)絡(luò),而是采用最合適的優(yōu)化方法。
數(shù)字人文是將信息技術(shù)、數(shù)字技術(shù)融入傳統(tǒng)的人文社科研究,數(shù)字人文研究者同時(shí)具備工具、數(shù)據(jù)與人文社科理論,應(yīng)當(dāng)逐步做到文本分析、文化分析[54-55],超越簡(jiǎn)單的文字闡釋。因此,在甲骨文知識(shí)庫(kù)、知識(shí)圖譜的構(gòu)建中,應(yīng)更多考慮提取拓片全文,抽取更多實(shí)體與關(guān)系,而非僅僅依靠元數(shù)據(jù)信息抽取,從而建立更完善的甲骨文知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),拓寬甲骨文考釋研究,從“數(shù)據(jù)化”“數(shù)字化”發(fā)展為“智能化”,加強(qiáng)甲骨文資源數(shù)據(jù)庫(kù)與智能深度識(shí)別甲骨文字信息應(yīng)用平臺(tái)的建設(shè)。
5? 結(jié)語(yǔ)
本研究對(duì)國(guó)內(nèi)外甲骨文識(shí)別研究現(xiàn)狀和發(fā)展動(dòng)態(tài)進(jìn)行了述評(píng),并在數(shù)字人文視閾下探討相關(guān)熱點(diǎn)??v觀當(dāng)前研究成果,隨著技術(shù)的發(fā)展應(yīng)用,甲骨文識(shí)別技術(shù)從傳統(tǒng)的特征提取到基于深度學(xué)習(xí)的各類(lèi)技術(shù),發(fā)展迅速且前景廣闊。展望未來(lái),數(shù)字人文視閾下的甲骨文識(shí)別的發(fā)展具有較高的研究意義。提升甲骨文識(shí)別技術(shù),提高甲骨文分類(lèi)率,構(gòu)建甲骨文知識(shí)庫(kù)和知識(shí)圖譜,建立領(lǐng)域知識(shí),這些都將成為甲骨文識(shí)別研究的重要內(nèi)容和重要命題,研究結(jié)果也將為新時(shí)代甲骨文的探索和實(shí)踐提供重要的理論指導(dǎo)和工具。
參考文獻(xiàn):
[1] 沃爾什, 科布, 弗雷默里, 等.iSchool中的數(shù)字人文[J].陳怡, 譯.數(shù)字人文研究, 2021, 1(3): 93-112.
[2] 鄧君, 王阮.數(shù)字人文視域下口述歷史檔案資源知識(shí)發(fā)現(xiàn)模型構(gòu)建[J].檔案學(xué)研究, 2022(1): 110-116.
[3] 李巧明, 王曉光.跨學(xué)科視角下數(shù)字人文研究中心的組織與運(yùn)作[J].數(shù)字圖書(shū)館論壇, 2013(3): 26-31.
[4] 陳力.數(shù)字人文視域下的古籍?dāng)?shù)字化與古典知識(shí)庫(kù)建設(shè)問(wèn)題[J].中國(guó)圖書(shū)館學(xué)報(bào), 2022, 48(2): 36-46.
[5] 劉乾先, 董蓮池, 張玉春, 等.中華文明實(shí)錄[M].哈爾濱: 黑龍江人民出版社, 2002.
[6] 盧芯怡.新時(shí)期甲骨文應(yīng)用研究述評(píng)[J].漢字文化, 2020(21): 73-78.
[7] 劉國(guó)英.基于深度學(xué)習(xí)的甲骨文字檢測(cè)與識(shí)別[J].殷都學(xué)刊, 2020, 41(3): 54-59.
[8] 李鋒, 周新倫.甲骨文自動(dòng)識(shí)別的圖論方法[J].電子科學(xué)學(xué)刊, 1996(S1): 41-47.
[9] 周新倫, 李鋒, 華星城, 等.甲骨文計(jì)算機(jī)識(shí)別方法研究[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版), 1996(5): 481-486.
[10] 呂肖慶, 李沫楠, 蔡凱偉, 等.一種基于圖形識(shí)別的甲骨文分類(lèi)方法[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010, 25(S2): 92-96.
[11] 顧紹通.基于拓?fù)渑錅?zhǔn)的甲骨文字形識(shí)別方法[J].計(jì)算機(jī)與數(shù)字工程, 2016, 44(10): 2001-2006.
[12] CRISTIANINI N, TAYLOR J S. 支持向量機(jī)導(dǎo)論[M]. 李國(guó)正, 王猛, 曾華軍, 譯. 北京: 電子工業(yè)出版社, 2004.
[13] SHI X. Research on oracle word structure analysis based on support vector machine[D]. Shanghai: East China Normal University, 2010.
[14] LIU Y, LIU G. Oracle-bone inscription recognition based on svm[J]. Journal of Anyang Normal University, 2017, 2: 54-56.
[15] 陳婷珠, 吳少騰, 吳江, 等.基于編碼的甲骨文識(shí)別技術(shù)研究[J].中國(guó)文字研究, 2019(1): 1-12.
[16] 劉芳, 李華飆, 馬晉, 等.基于Mask R-CNN的甲骨文拓片的自動(dòng)檢測(cè)與識(shí)別研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2021, 5(12): 88-97.
[17] 閆升, 劉芳, 孫岱萌, 等.博物館基于人工智能的甲骨文知識(shí)普及與活化傳承[J].中國(guó)博物館, 2021(3): 110-116, 144.
[18] 林小渝, 陳善雄, 高未澤, 等.基于深度學(xué)習(xí)的甲骨文偏旁與合體字的識(shí)別研究[J].南京師大學(xué)報(bào)(自然科學(xué)版), 2021, 44(2): 104-116.
[19] 張頤康, 張恒, 劉永革, 等.基于跨模態(tài)深度度量學(xué)習(xí)的甲骨文字識(shí)別[J].自動(dòng)化學(xué)報(bào), 2021, 47(4): 791-800.
[20] Meng L, Kamitoku N, Yamazaki K. Recognition of oracle bone inscriptions using deep learning based on data augmentation[C]//2018 metrology for archaeology and cultural heritage (MetroArchaeo). Piscataway: IEEE, 2018: 33-38.
[21] Meng L, Lyu B, Zhang Z, et al. Oracle bone inscription detector based on SSD[C]//International conference on image analysis and processing. Berlin: Springer, 2019: 126-136.
[22] Meng L, Kamitoku N, Kong X, et al. Deep learning based ancient literature recognition and preservation[C]//2019 58th annual conference of the Society of Instrument and Control Engineers of Japan (SICE). Piscataway: IEEE, 2019: 473-476.
[23] Wang N, Sun Q, Jiao Q, et al. Oracle bone inscriptions detection in rubbings based on deep learning[C]//2020 IEEE 9th joint international information technology and artificial intelligence conference (ITAIC). Piscataway: IEEE, 2020: 1671-1674.
[24] Du B, Liu G, Ge W. Deep self-supervised learning for Oracle bone inscriptions features representation[C]//2021 IEEE 4th international conference on information systems and computer aided education (ICISCAE). Piscataway: IEEE, 2021: 7-11.
[25] Yue X, Lyu B, Li H, et al. Deep learning and image processing combined organization of Shirakawas hand-notated documents on OBI research[C]//2021 IEEE international conference on networking, sensing and control (ICNSC). Piscataway: IEEE, 2021: 1-6.
[26] ZHANG C, ZONG R, CAO S, et al. AI-powered oracle bone inscriptions recognition and fragments rejoining[C]//Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence, Yokohama, 2021: 5309-5311.
[27] Liu Z, Wang X, Yang C, et al. Oracle character detection based on improved faster R-CNN[C]//2021 international conference on intelligent transportation, big data & smart city (ICITBS). Piscataway: IEEE, 2021: 697-700.
[28] LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single shot multibox detector[C]//Computer Vision–ECCV 2016: Proceedings of 14th European Conference. Burlin: Springer, 2016: 21-37.
[29] 林小渝. 基于深度學(xué)習(xí)的甲骨文偏旁與合體字識(shí)別的研究與實(shí)現(xiàn)[D]. 重慶: 西南大學(xué), 2021.
[30] Guo Z, Zhou Z, Liu B, et al. An improved neural network model based on inception-v3 for Oracle bone inscription character recognition[J/OL]. Scientific programming, 2022[2023-01-27]. https: //doi.org/10.1155/2022/7490363.
[31] Fujikawa Y, Li H, Yue X, et al. Recognition of oracle bone inscriptions by using two deep learning models[J/OL]. International journal of dental hygiene, 2022[2023-01-27]. https: //doi.org/10.1007/s42803-022-00044-9.
[32] Guo J, Wang C H, Roman-Rangel E, et al. Building hierarchical representations for oracle character and sketch recognition[J]. IEEE transactions on image processing, 2016, 25(1): 104?118.
[33] GAO F, ZHANG J, LIU Y, et al. Image translation for oracle bone character interpretation[J]. Symmetry, 2022, 14(4): 743.
[34] HAN W, REN X, LIN H, et al. Self-supervised learning of orc-bert augmentator for recognizing few-shot oracle characters[C]//Proceedings of the Asian conference on computer vision. Kyoto: Revised Selected Papers, 2020: 652-668.
[35] LI J, WANG Q F, ZHANG R, et al. Mix-up augmentation for oracle character recognition with imbalanced data distribution[C]//Document analysis and recognition–ICDAR 2021: 16th international conference. Berlin: Springer International Publishing, 2021: 237-251.
[36] DAZHENG L. Random polygon cover for Oracle bone character recognition[C]//2021 5th international conference on computer science and artificial intelligence. New York: Association for Computing Machinery, 2021: 138-142.
[37] GAO J, LIANG X. Distinguishing oracle variants based on the isomorphism and symmetry invariances of oracle-bone inscriptions[J]. IEEE access, 2020, 8: 152258-152275.
[38] LIU G, GE W, DU B. Recognition of OBICs variants by using deep neural networks and spectral clustering[C]//2021 IEEE 4th international conference on information systems and computer aided education (ICISCAE). Piscataway: IEEE, 2021: 39-42.
[39] 楊琳. 數(shù)字化古典文獻(xiàn)綜述[J].中國(guó)史研究動(dòng)態(tài), 2004(4): 20-27.
[40] 門(mén)藝.由甲骨學(xué)工具書(shū)的編纂到甲骨文數(shù)據(jù)庫(kù)的建設(shè)[J].漯河職業(yè)技術(shù)學(xué)院學(xué)報(bào), 2019, 18(5): 1-7.
[41] 栗青生, 吳琴霞, 王蕾. 基于甲骨文字形動(dòng)態(tài)描述庫(kù)的甲骨文輸入方法[J].中文信息學(xué)報(bào), 2012, 26(4): 28-33.
[42] 栗青生, 吳琴霞, 楊玉星. 甲骨文字形動(dòng)態(tài)描述庫(kù)及其字形生成技術(shù)研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 49(1): 61-67.
[43] 門(mén)藝, 張重生. 基于人工智能的甲骨文識(shí)別技術(shù)與字形數(shù)據(jù)庫(kù)構(gòu)建[J].中國(guó)文字研究, 2021(1): 9-16.
[44] Huang S, Wang H, Liu Y, et al. Obc306: a large-scale oracle bone character recognition dataset[C]//2019 international conference on document analysis and recognition (ICDAR). Piscataway: IEEE, 2019: 681-688.
[45] Xian-jin S H I, Shuang C A O, Chong-sheng Z, et al. Research on automatic annotation algorithm for character-level oracle-bone images based on anchor points[J]. Acta electonica SINICA, 2021, 49(10): 2020-2031.
[46] Xiong J, Liu G, Liu Y, et al. Oracle bone inscriptions information processing based on multi-modal knowledge graph[J]. Computers & electrical engineering, 2021, 92: 107173.
[47] 江銘虎, 鄧北星, 廖盼盼, 等.甲骨文字庫(kù)與智能知識(shí)庫(kù)的建立[J].計(jì)算機(jī)工程與應(yīng)用, 2004(4): 45-47, 60.
[48] 甲骨文信息處理重點(diǎn)實(shí)驗(yàn)室[EB/OL]. [2021-04-09]. http: //jgwsys. aynu.edu.cn/index.htm.
[49] 熊晶, 韓勝偉.甲骨文研究中跨模態(tài)知識(shí)圖譜的重要性芻議[J].殷都學(xué)刊, 2020, 41(3): 60-64, 97.
[50] Jiao Q, Jin Y, Liu Y, et al. Module structure detection of oracle characters with similar semantics[J]. Alexandria engineering journal, 2021, 60(5): 4819-4828.
[51] 顧紹通.基于分形幾何的甲骨文字形識(shí)別方法[J].中文信息學(xué)報(bào), 2018, 32(10): 138-142.
[52] 劉志基.簡(jiǎn)論甲骨文字頻的兩端集中現(xiàn)象[J].語(yǔ)言研究, 2010, 30(4): 114-122.
[53] 李邦, 劉永革.文獻(xiàn)數(shù)字化技術(shù)在甲骨文數(shù)據(jù)庫(kù)建設(shè)中的應(yīng)用與展望[J].殷都學(xué)刊, 2020, 41(3): 47-53.
[54] 趙薇.作為計(jì)算批評(píng)的數(shù)字人文[J].中國(guó)文學(xué)批評(píng), 2022(2): 157-166, 192.
[55] LIU A. Where is cultural criticism in the digital humanities?[M]. GOLD M K. Debates in the digital humanities. Minneapolis: University of Minnesota Press, 2012: 495-501.
作者貢獻(xiàn)說(shuō)明:
劉? 洋:確定選題,提出研究思路,修改論文;
陸? 逸:分析和處理數(shù)據(jù),撰寫(xiě)論文;
魏鈺馳:分析和處理數(shù)據(jù),撰寫(xiě)論文;
孫智瑩:分析和處理數(shù)據(jù),撰寫(xiě)論文;
朱立芳:修改論文。
Abstract: [Purpose/Significance] Digital humanities research is a prominent research hotspot in the current academic circle. This study systematically reviewed the frontier research on oracle bone inscription recognition from the perspective of digital humanities, which provided reference for follow-up research, promoting the effective development of digital humanities research and the recognition and utilization of characters in ancient books. [Method/Process] The literature was retrieved from multiple academic platforms such as WOS and CNKI using the method of bibliometric analysis, and a total of 103 English literature and 52 Chinese literature were screened for review. [Result/Conclusion] Interpreting the research status of oracle bone inscription recognition from three levels: traditional recognition technology, machine learning and deep learning, which analyzed the research development process, and discussed the future development trend. This paper mainly conducted a systematic review of oracle bone inscription recognition research from the perspective of digital humanities, which analyzed existing research technologies and research directions, but did not elaborate on the recognition algorithm mechanism in depth. Oracle recognition technology has gradually changed from traditional feature extraction to deep learning-based recognition technology. Although the recognition accuracy has been improved, there are still shortcomings such as serious overfitting and low recognition efficiency. Meanwhile, the construction of oracle knowledge base and knowledge graph, and the establishment of domain knowledge have good development potential in this field.
Keywords: digital humanities? ? oracle bone recognition? ? research progress? ? review