摘 要:針對(duì)中文古籍?dāng)?shù)字化處理中大規(guī)模高質(zhì)量數(shù)據(jù)集匱乏的問(wèn)題,本文提出了一種新穎的2級(jí)古籍?dāng)?shù)據(jù)集建設(shè)方法:一是構(gòu)建了包含119.5萬(wàn)張圖片、覆蓋6 610個(gè)字符類別的多字體古籍單字?jǐn)?shù)據(jù)集CACID;二是基于古籍文獻(xiàn)內(nèi)容合成了包含86 667列古籍文字圖片的古籍篇章數(shù)據(jù)集CASID,這是目前報(bào)道的最大中文古籍合成數(shù)據(jù)集。本文設(shè)計(jì)了古籍多任務(wù)融合識(shí)別模型,并基于所建數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,模型的識(shí)別準(zhǔn)確率從35.62%顯著提升至85.52%,驗(yàn)證了涵蓋多字體多朝代的中文合成數(shù)據(jù)在古籍文字識(shí)別中的核心作用和良好泛化能力。
關(guān)鍵詞:古籍;訓(xùn)練數(shù)據(jù)集;自動(dòng)構(gòu)建;深度學(xué)習(xí)模型;融合建模
中圖分類號(hào):TP391.43 DOI:10.16375/j.cnki.cn45-1395/t.2024.04.014
0 引言
隨著國(guó)家對(duì)古籍?dāng)?shù)字化工作的日益重視[1],古籍文獻(xiàn)的數(shù)字化不僅成為保護(hù)歷史文化遺產(chǎn)的重要手段,更是推動(dòng)文化傳承與創(chuàng)新的關(guān)鍵一環(huán)。近年來(lái),隨著古籍研究的不斷深入,人們對(duì)于古籍文獻(xiàn)價(jià)值的認(rèn)識(shí)愈發(fā)深刻,對(duì)古籍?dāng)?shù)字化的需求也日益迫切。同時(shí),隨著人工智能技術(shù)的快速發(fā)展,越來(lái)越多的AI技術(shù)被應(yīng)用到古籍?dāng)?shù)字化工作中,為古籍的保護(hù)與傳承注入了新的活力[2]。
盡管AI技術(shù)在古籍?dāng)?shù)字化中發(fā)揮了重要作用,但數(shù)字化性能的提升仍然受到高質(zhì)量古籍?dāng)?shù)據(jù)集缺乏的制約。目前,古籍?dāng)?shù)字化數(shù)據(jù)集的建設(shè)主要依賴于傳統(tǒng)的人工標(biāo)注方法,這不僅耗時(shí)耗力,而且標(biāo)注質(zhì)量難以保證,導(dǎo)致數(shù)字化效果不佳。同時(shí),由于古籍文獻(xiàn)的特殊性,如文字表現(xiàn)形式豐富、紙張老化發(fā)黃、頁(yè)面存在污漬等問(wèn)題,使得古籍圖像分析與識(shí)別成為一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)[3-4]。
針對(duì)上述問(wèn)題,本文提出了一種新穎的2級(jí)古籍?dāng)?shù)據(jù)集建設(shè)方法:一是構(gòu)建了包含119.5萬(wàn)張圖片、覆蓋6 610個(gè)字符類別的多字體古籍單字?jǐn)?shù)據(jù)集CACID,為字符識(shí)別提供豐富資源;二是基于古籍文獻(xiàn)內(nèi)容合成了包含86 667列古籍文字圖片的古籍篇章數(shù)據(jù)集CASID,進(jìn)一步擴(kuò)展數(shù)據(jù)集的規(guī)模和多樣性。此外,在構(gòu)建好的數(shù)據(jù)集基礎(chǔ)上,本文設(shè)計(jì)了古籍多任務(wù)融合識(shí)別模型,并基于所建數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。結(jié)果表明模型的識(shí)別準(zhǔn)確率得到大幅度提升,從而驗(yàn)證了高質(zhì)量大規(guī)模古籍合成數(shù)據(jù)在古籍文字識(shí)別中的核心作用和良好泛化能力。
1 數(shù)據(jù)集構(gòu)建
在古籍?dāng)?shù)字化進(jìn)程中,數(shù)據(jù)集的構(gòu)建至關(guān)重要[5]。古籍漢字形態(tài)豐富多樣,包括象形圖、書法字、刻板印刷、館閣體及活字印刷等,其多樣性和復(fù)雜性增加了識(shí)別難度,尤其是書法字,其書寫風(fēng)格的多樣性和筆畫的流動(dòng)性更是識(shí)別的難點(diǎn)。
由于古籍資源稀缺且標(biāo)注成本高昂,獲取真實(shí)、高質(zhì)量的標(biāo)注數(shù)據(jù)變得異常困難。因此,合成數(shù)據(jù)成為主流的獲取訓(xùn)練數(shù)據(jù)的手段,即通過(guò)模擬古籍文字圖像并添加標(biāo)簽,構(gòu)建古籍文字?jǐn)?shù)據(jù)集。
鑒于此,本文提出2級(jí)古籍?dāng)?shù)據(jù)集建設(shè)方法。首先,構(gòu)建古籍單字?jǐn)?shù)據(jù)集(CACID),專注于收集古籍中的單個(gè)漢字圖像,以支持精確的漢字識(shí)別研究。其次,構(gòu)建古籍篇章數(shù)據(jù)集(CASID),通過(guò)合成方式模擬古籍排版和格式,呈現(xiàn)連續(xù)文本段落,以提供接近實(shí)際閱讀場(chǎng)景的古籍圖像數(shù)據(jù)。這2個(gè)數(shù)據(jù)集的結(jié)合,全面覆蓋從單個(gè)漢字到連續(xù)文本段落的古籍內(nèi)容,為古籍?dāng)?shù)字化中的文字識(shí)別、版面分析等任務(wù)提供豐富多樣的數(shù)據(jù)資源。
1.1 單字?jǐn)?shù)據(jù)集構(gòu)建
中國(guó)書法的字體豐富多樣,包括甲骨體、大篆、小篆、隸書、草書、楷書、行書等。在構(gòu)建古籍單字?jǐn)?shù)據(jù)集時(shí),首先對(duì)單字圖像進(jìn)行預(yù)處理,去除背景、增強(qiáng)文字部分,并轉(zhuǎn)換成黑白二值圖像;其次,按命名規(guī)則對(duì)預(yù)處理后的圖像進(jìn)行標(biāo)注,將同標(biāo)簽、同字體的圖像進(jìn)行整合;最終形成多字體CACID數(shù)據(jù)集。
該數(shù)據(jù)集包含119.5萬(wàn)張圖片,涵蓋6 610個(gè)文字類別,每個(gè)文字類別包含多種書法字體。CACID數(shù)據(jù)集的采樣實(shí)例圖如圖1所示(示例為“書”的楷書、行書、草書、隸書、篆書字體)。
1.2 篇章數(shù)據(jù)集構(gòu)建
篇幅圖像生成是基于古籍文本生成含有單字標(biāo)注的篇幅級(jí)古籍文字圖像。其中,針對(duì)每一份古籍文本,可生成多份篇幅級(jí)古籍文字圖像與之對(duì)應(yīng),以楷書體、行書體、草書體、隸書體、篆書體等多種形式呈現(xiàn)。
本文整理了中文重要古籍文本300余篇,包括《晉書》《宋書》《南齊書》《梁書》《陳書》《魏書》《北齊書》《周書》《隋書》《南史》《北史》等,用作生成篇幅級(jí)古籍文字圖像的真實(shí)文字標(biāo)簽。構(gòu)建古籍篇章數(shù)據(jù)集CASID是一個(gè)復(fù)雜且精細(xì)的過(guò)程,涉及多個(gè)步驟以確保數(shù)據(jù)的準(zhǔn)確性和多樣性。以下是該構(gòu)建流程的詳細(xì)步驟。
Step 1 字符提取與識(shí)別
在構(gòu)建數(shù)據(jù)集的開始階段,首先從文字版古籍內(nèi)容中提取每一個(gè)擬使用的字符。隨后,在古籍單字?jǐn)?shù)據(jù)集CACID中查找這些字符的對(duì)應(yīng)圖像。為了保證合成數(shù)據(jù)的豐富性和多樣性,根據(jù)字體等標(biāo)簽隨機(jī)選擇字符圖像。如果在CACID數(shù)據(jù)集中找不到某個(gè)字符的圖像,記錄下這個(gè)缺失的字符,并繼續(xù)尋找下一個(gè)字符。
Step 2 字符圖像二值化
經(jīng)過(guò)提取和識(shí)別后,對(duì)每一個(gè)字符圖像進(jìn)行二值化處理。這一步驟的目的是將字符圖像轉(zhuǎn)換為只包含黑白像素點(diǎn)的形式,以便于后續(xù)的合成和處理。在二值化過(guò)程中,設(shè)定一個(gè)閾值(如200),圖像中灰度高于此值的部分會(huì)轉(zhuǎn)換為白色,低于此值的部分則轉(zhuǎn)換為黑色。
Step 3 調(diào)整字符尺寸
為了確保所有字符在視覺上保持一致和協(xié)調(diào),需要對(duì)每個(gè)字符圖像進(jìn)行尺寸調(diào)整。具體來(lái)說(shuō),調(diào)整字符圖像的寬度或高度,使其不超過(guò)設(shè)定的像素值(如80像素)。此外,根據(jù)字符中黑色文字的像素個(gè)數(shù)進(jìn)一步縮放調(diào)整,比如根據(jù)黑色占比的不同,將字符縮小到適當(dāng)?shù)谋壤?/p>
Step 4 背景圖與文字定位
為了模擬真實(shí)環(huán)境,準(zhǔn)備多個(gè)與古籍背景相似的圖像作為合成背景。這些背景圖像經(jīng)過(guò)調(diào)整,達(dá)到統(tǒng)一的像素大小(如1 110×2 110像素)。然后,在這些背景圖像上定位出文字的排列位置。按照古籍的閱讀順序(右上至左下),確定每個(gè)文字的中心點(diǎn)位置,并設(shè)置適當(dāng)?shù)拈g距,以確保文字的整齊排列。
Step 5 文字與背景融合
文字與背景定位完成后,將每個(gè)字符圖像的中心點(diǎn)與背景圖像上的文字中心點(diǎn)對(duì)齊。通過(guò)二值與“bitwise_and”操作將字符圖像融合到背景圖像中。因此,每個(gè)字符都會(huì)準(zhǔn)確地出現(xiàn)在預(yù)定的位置上,形成一幅完整的古籍篇章圖像。
Step 6 記錄字符位置
最后,為了便于后續(xù)的數(shù)據(jù)分析和處理,記錄每個(gè)字符在最終合成圖像中的位置信息。這通常包括字符的左上角和右下角坐標(biāo)等數(shù)據(jù)。這些位置信息有助于快速定位和分析字符在圖像中的分布情況。
通過(guò)以上6個(gè)步驟,本文構(gòu)建出一個(gè)古籍文字圖片與文本標(biāo)簽對(duì)應(yīng)的古籍篇章數(shù)據(jù)集CASID,共86 667列古籍文字圖片數(shù)據(jù)和對(duì)應(yīng)的列文本標(biāo)簽,涵蓋字符類別6 610個(gè),總計(jì)包含104.1萬(wàn)字,這是目前公開報(bào)道的最大規(guī)模的中文合成古籍篇章數(shù)據(jù)集。生成的篇幅古籍圖像實(shí)例如圖2所示(示例為三皇本紀(jì) 小司馬氏撰并注的篇幅圖像)。
2 文字識(shí)別模型
本文設(shè)計(jì)了古籍多任務(wù)融合識(shí)別模型CARM,模型結(jié)構(gòu)示意圖如圖3所示。
2.1 視覺特征提取
在經(jīng)典殘差模型[6]的基礎(chǔ)上,本文引入了通道混淆、分組卷積以及深度可分離卷積技術(shù),旨在保障模型深度的同時(shí)拓展其寬度,進(jìn)而增強(qiáng)通道間的信息交互與依賴關(guān)系學(xué)習(xí)。網(wǎng)絡(luò)結(jié)構(gòu)采用模塊化設(shè)計(jì),通過(guò)5種不同模塊與卷積的組合堆疊,構(gòu)建了一個(gè)18層的模型。此外,在模塊單元間實(shí)現(xiàn)了多尺度特征融合[7],將模型的計(jì)算復(fù)雜度控制在2.3 G FLOPs(floating point operations per second)以內(nèi),以確保在不顯著增加計(jì)算負(fù)擔(dān)的前提下,實(shí)現(xiàn)模型性能的優(yōu)化。
2.2 語(yǔ)義特征提取
在傳統(tǒng)序列識(shí)別結(jié)構(gòu)[8]的基礎(chǔ)上融入語(yǔ)義信息,結(jié)合雙向多門循環(huán)網(wǎng)絡(luò)[9]與雙向自注意力模型[10-11],通過(guò)聯(lián)合調(diào)節(jié)網(wǎng)絡(luò)內(nèi)所有神經(jīng)層的前后神經(jīng)元,對(duì)卷積網(wǎng)絡(luò)提取的圖像特征進(jìn)行深度雙向表達(dá)學(xué)習(xí)。如此,不僅實(shí)現(xiàn)了對(duì)圖像特征的降維語(yǔ)義編碼,并在不同層級(jí)上進(jìn)行了多輪迭代學(xué)習(xí),從而使模型深入挖掘圖像特征中的語(yǔ)義表征信息與關(guān)聯(lián)信息。
2.3 多階段多任務(wù)訓(xùn)練策略
為提升模型在形近字、繁體字、異體字識(shí)別上的精度及復(fù)雜背景的應(yīng)對(duì)能力,本文設(shè)計(jì)了多階段、多任務(wù)訓(xùn)練策略。
初始階段,混合使用合成與真實(shí)數(shù)據(jù)訓(xùn)練模型,以糾正合成樣本帶來(lái)的特征偏差。隨后,利用模型識(shí)別文字類別的核心表征,并用真實(shí)數(shù)據(jù)進(jìn)行文字表征微調(diào),確保學(xué)習(xí)到的文字表征與對(duì)應(yīng)類別的核心表征盡可能接近,而與其他類別的核心表征保持較遠(yuǎn)距離[12],以此確保文字表征的準(zhǔn)確性和區(qū)分度。最后,根據(jù)專業(yè)人員的反饋優(yōu)化系統(tǒng),并據(jù)此擴(kuò)充和篩選數(shù)據(jù)再次訓(xùn)練,以進(jìn)一步提升模型性能。
3 實(shí)驗(yàn)結(jié)果
3.1 實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集
本實(shí)驗(yàn)中的訓(xùn)練數(shù)據(jù)由兩部分組成:真實(shí)古籍?dāng)?shù)據(jù)集CARD和合成古籍篇章數(shù)據(jù)集CASID。CARD數(shù)據(jù)集來(lái)源于傳統(tǒng)的古籍文獻(xiàn)資源,共399萬(wàn)字符,包括來(lái)自《四庫(kù)全書》約10萬(wàn)列文字圖像,約189萬(wàn)字符,以及來(lái)自刻版印刷書籍(包括《晉書》《宋書》等多部史書)約10萬(wàn)列文字圖像,約210萬(wàn)字符。兩類數(shù)據(jù)共4 285個(gè)字符類別,樣本實(shí)例圖如圖4所示。基于這些數(shù)據(jù)構(gòu)建相應(yīng)的訓(xùn)練集和驗(yàn)證集,訓(xùn)練得到CARM-Base模型。
本文基于不同的數(shù)據(jù)集訓(xùn)練了2個(gè)識(shí)別模型:一是基于CARD數(shù)據(jù)集構(gòu)建相應(yīng)的訓(xùn)練集和驗(yàn)證集,訓(xùn)練得到CARM-Base模型;二是在CARD數(shù)據(jù)集中加入CASID數(shù)據(jù)集共同作為訓(xùn)練數(shù)據(jù),構(gòu)建相應(yīng)的訓(xùn)練集和驗(yàn)證集,訓(xùn)練得到CARM-Large模型。
在測(cè)試階段,選用100張真實(shí)的古籍圖像作為模型測(cè)試集,共計(jì)1 345列。其中,隨機(jī)抽取520列進(jìn)行標(biāo)注,包含8 865字。測(cè)試集數(shù)據(jù)未參與上述訓(xùn)練集的構(gòu)建,因此可以客觀評(píng)估模型的泛化性能。測(cè)試集數(shù)據(jù)實(shí)例圖如圖5所示。
3.2 評(píng)估指標(biāo)
本文采用的評(píng)估指標(biāo)為[Wc](字正確率)和[Wa](字準(zhǔn)確率)。[Wc]的計(jì)算如式(1)所示,
[Wc=Nc/Nr+Nd+Nc×100%], (1)
式中:[Nc]為模型正確識(shí)別并保留的字符數(shù);[Nr]為模型錯(cuò)誤將一個(gè)字符替換為另一個(gè)字符的數(shù)量;[Nd]為模型錯(cuò)誤刪除的字符數(shù)量。
[Wa]的計(jì)算如式(2)所示,
[Wa=Nc-Ni/Ni+Nd+Nc×100%], (2)
式中:[Ni]為模型錯(cuò)誤插入到文本中的字符數(shù)量。
[Wc]只關(guān)注模型保留正確字符的能力,不看其是否插入額外字符;[Wa]既考慮保留正確字符,又考慮是否插入不必要字符。因此,模型若插入過(guò)多額外字符,即使正確識(shí)別許多字符,其準(zhǔn)確率也會(huì)受影響。
3.3 結(jié)果分析
在測(cè)試集上,本文對(duì)CARM-Base和CARM-Large這2個(gè)模型進(jìn)行了評(píng)估。測(cè)試集的識(shí)別結(jié)果實(shí)例圖見圖6,模型的性能評(píng)估結(jié)果見表1。
從實(shí)驗(yàn)結(jié)果可以看出,CARM-Large在測(cè)試集上的表現(xiàn)顯著優(yōu)于CARM-Base。CARM-Large的字正確率達(dá)到了88.59%,比CARM-Base的55.53%提升了59.53%;CARM-Large的字準(zhǔn)確率為85.52%,比CARM-Base的35.62%提升了140.09%。2個(gè)指標(biāo)的大幅度提升意味著CARM-Large在識(shí)別古籍文字時(shí)能夠更好地處理各種復(fù)雜的字符特征,更準(zhǔn)確地還原古籍文本的內(nèi)容。
CARM-Large性能顯著提升主要?dú)w功于在訓(xùn)練過(guò)程中充分利用了多書法字體古籍?dāng)?shù)據(jù)集CASID。CASID的引入不僅豐富了訓(xùn)練樣本的多樣性,還使得模型能夠更好地適應(yīng)不同字體和風(fēng)格的古籍文字。實(shí)驗(yàn)結(jié)果充分驗(yàn)證了使用合成數(shù)據(jù)可以大幅提升古籍識(shí)別模型的識(shí)別能力和泛化性能,可以解決古籍文字識(shí)別中訓(xùn)練數(shù)據(jù)缺乏的問(wèn)題。
此外,本文分析了構(gòu)建古籍單字?jǐn)?shù)據(jù)集CACID后,數(shù)據(jù)集中單字分布的變化情況。原數(shù)據(jù)集包含4 285個(gè)單字類別,樣本數(shù)量分布不均,存在明顯的長(zhǎng)尾現(xiàn)象。經(jīng)過(guò)擴(kuò)充,字符類別的總數(shù)增長(zhǎng)至6 610個(gè),增長(zhǎng)了近55%,顯著豐富了數(shù)據(jù)集字符的多樣性。
具體到字符來(lái)看,一些原來(lái)樣本較少的字符在擴(kuò)充后得到了顯著增加。例如,“商”字的樣本數(shù)量從1 102個(gè)增加至3 191個(gè),增長(zhǎng)了近2倍;“簡(jiǎn)”字從695個(gè)增加至4 075個(gè);“趺”字從2個(gè)增加至48個(gè)等。這些字符樣本數(shù)量的提升有助于模型在訓(xùn)練過(guò)程中學(xué)習(xí)到其字體特征,從而提高識(shí)別性能。
但是,一些罕見字符的樣本數(shù)量增長(zhǎng)并不明顯。例如,“旈”字從1個(gè)增為2個(gè),這說(shuō)明對(duì)于這些罕見字符,現(xiàn)有的擴(kuò)充策略還不夠有效。這些發(fā)現(xiàn)為后續(xù)改進(jìn)和優(yōu)化古籍文字識(shí)別模型提供了重要的指導(dǎo)方向。
4 結(jié)論
本文針對(duì)中文古籍?dāng)?shù)字化處理中大規(guī)模高質(zhì)量數(shù)據(jù)集匱乏的瓶頸問(wèn)題,提出了一種新穎的2級(jí)古籍?dāng)?shù)據(jù)集建設(shè)方法,并成功構(gòu)建了CACID和CASID 2個(gè)數(shù)據(jù)集。古籍單字?jǐn)?shù)據(jù)集CACID的構(gòu)建豐富了古籍字符的種類和樣本數(shù)量,為模型訓(xùn)練提供全面和多樣的數(shù)據(jù)支持;古籍篇章數(shù)據(jù)集CASID的合成則基于實(shí)際古籍文獻(xiàn)中的文字布局和排列方式,有助于模型在實(shí)際應(yīng)用中適應(yīng)復(fù)雜多變的古籍識(shí)別場(chǎng)景。
本文設(shè)計(jì)的古籍多任務(wù)融合識(shí)別模型在構(gòu)建數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,模型的識(shí)別準(zhǔn)確率從35.62%顯著提升至85.52%,驗(yàn)證了涵蓋多字體多朝代的文字合成數(shù)據(jù)在實(shí)際應(yīng)用中具有優(yōu)異的識(shí)別能力和泛化能力。
本文通過(guò)對(duì)數(shù)據(jù)集中單字分布變化的分析,發(fā)現(xiàn)模型在識(shí)別罕見字符和復(fù)雜布局時(shí)的性能仍有待提升,這是本文后續(xù)需要重點(diǎn)改進(jìn)的方向。
參考文獻(xiàn)
[1] 全國(guó)古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組. 2021—2035年國(guó)家古籍工作規(guī)劃[R]. 2022.
[2] 王秋云.我國(guó)古籍?dāng)?shù)字化的研究現(xiàn)狀及發(fā)展趨勢(shì)分析[J].圖書館學(xué)研究,2021(24):9-14.
[3] 李國(guó)新.中國(guó)古籍資源數(shù)字化的進(jìn)展與任務(wù)[J].大學(xué)圖書館學(xué)報(bào),2002(1):21-26.
[4] 周迪,宋登漢.中文古籍?dāng)?shù)字化開發(fā)研究綜述[J].圖書情報(bào)知識(shí),2010(6):40-49.
[5] 李春桃,張騫,徐昊,等.基于人工智能技術(shù)的古文字研究[J].吉林大學(xué)社會(huì)科學(xué)學(xué)報(bào),2023,63(2):164-173.
[6] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778. DOI:10.1109/CVPR.2016.90.
[7] MA N N,ZHANG X Y,ZHENG H T,et al.ShuffleNet V2:practical guidelines for efficient CNN architecture design[C]//15th European Conference on Computer Vision(ECCV),Munich,Germany,September 8-14,2018. Proceedings,Part XIV,2018,11218:122-138.
[8] SHI B G,BAI X,YAO C.An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(11):2298-2304.
[9] SCHUSTER M,PALIWAL K K.Bidirectional recurrent neural network[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[10] MINJOON S,ANIRUDDHA K,ALI F,et al.Bidirectional attention flow for machine comprehension[C]//International Conference on Learning Representations,2016.
[11] CUI Y M,CHEN Z P,WEI S,et al.Attention-over-attention neural networks for reading comprehension[C]//55th Annual Meeting of the Association-for-Computational-Linguistics(ACL),2017. DOI:10.18653/v1/P17-1055.
[12] SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet:a unified embedding for face recognition and clustering[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015,Boston,MA,USA. DOI:10.1109/cvpr.2015.7298682.
Multi-task fusion recognition of Chinese multi-font ancient literature dataset
XUE Dejun, SHI Qinghui, BI Yanhong, LU Xiaofei, CHEN Jing, WANG Haishan, WU Chen
(Tongfang Knowledge Network Digital Publishing Technology Co., Ltd., Beijing 100192, China)
Abstract: To address the scarcity of large-scale, high-quality datasets for digitizing Chinese ancient literature, this paper introduces a novel two-tiered approach for dataset construction. Firstly, we establish a multi-font Chinese ancient character image dataset(CACID), containing 1.195 million images across 6 610 character categories. Secondly, we synthesize the Chinese ancient synthetic image dataset(CASID)which consists of 86 667 columns of ancient text images, based on authentic ancient literature content. This is currently the largest synthetic dataset for Chinese ancient literature reported. Then, we design a multi-task recognition model tailored for ancient literature and experimentally verify its effectiveness using our constructed datasets. The experimental results show a remarkable enhancement in recognition accuracy, with the model,s recognition rate soaring from 35.62% to 85.52%. This significant improvement verifies the excellent generalization capability of the synthetic data, encompassing diverse fonts and dynasties, in practical applications.
Keywords: ancient literature; training dataset; automatic construction; deep learning model; fusion modeling
(責(zé)任編輯:黎 婭)
收稿日期:2024-04-10;修回日期:2024-04-24
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃(2020YFC0833003);國(guó)家卓越行動(dòng)計(jì)劃(WKZB1911BJM501173/02)資助
第一作者:薛德軍,博士,高級(jí)工程師,研究方向:自然語(yǔ)言處理、深度學(xué)習(xí)、大模型,E-mail:xuedejun@cnki.net