面向數(shù)字人文的典籍圖像深度揭示與利用*

2022-10-10 05:51:40錢智勇陳濤張志美徐宇紅何書

大學圖書館學報 2022年5期

□錢智勇陳濤張志美徐宇紅何書

“典籍”最早是指記載先祖法度或國家法則的重要文獻，后被用作各種書籍的統(tǒng)稱[1]。典籍中的圖像又稱插圖，在寫本時期，典籍中包含了大量的插圖。南宋鄭樵《通志·圖譜略·索象篇》記載：“古之學者為學有要，置圖于左，置書于右，索象于圖，索理于書?！笨梢钥闯龉糯鷮W者治學過程中圖像與文字不可分割的關(guān)系。圖書館、博物館、檔案館等典藏機構(gòu)收藏大量典籍圖像載體，包括書影、印譜、地圖、卷軸、樂譜、手稿、檔案圖像等類型[2]，這些典籍圖像是寶貴的文化遺產(chǎn)，圖像數(shù)字化建設(shè)是數(shù)字人文基礎(chǔ)設(shè)施的重要內(nèi)容。利用國際圖像互操作框架(International Image Interoperability Framework，IIIF)與關(guān)聯(lián)數(shù)據(jù)描述框架可實現(xiàn)對典籍圖像深度揭示和語義關(guān)聯(lián)，使典籍圖像在數(shù)字人文中發(fā)揮重要價值與作用：(1)“以圖證史”作用。通過對典籍圖像高清圖呈現(xiàn)和內(nèi)容深度揭示，增強了圖像還原史實、以圖證史的文獻考證價值[3]。(2)“圖像敘事”作用。在碎片化閱讀時代，“圖像正以前所未有的力量從文化的每個層面向我們壓來”[4]，典籍中的圖像與文字通過互注、互文、互釋、互讀等方式實現(xiàn)文本敘事功能，為讀者呈現(xiàn)圖文同現(xiàn)的敘事效果。(3)增強典籍多媒介傳播作用。文學圖像化改變了文學傳播的場域、傳播方式及傳播理念，圖像與文本的深度關(guān)聯(lián)，可以互相帶動彼此在異域文化的深入傳播，并可啟發(fā)不同民族的讀者對典籍作品的深層認知[5]。

1 國內(nèi)外相關(guān)研究

基于元數(shù)據(jù)規(guī)范組織典籍圖像，揭示圖像的特征、主題、分類、創(chuàng)作者、館藏、版本等內(nèi)容，但讀者難以快速檢索典籍圖像內(nèi)容及其所蘊含的背景知識，典籍與圖像分離，成為信息孤島，難以廣泛傳播與利用，因此需要對典籍圖像內(nèi)容進行細粒度知識組織。近年，學者圍繞數(shù)字圖像內(nèi)容組織與利用進行了許多研究。在國內(nèi)，曾子明等提出面向數(shù)字人文的圖像語義描述模型[6]。張永娟等依據(jù)IIIF整合印譜圖像資源，輔助知識發(fā)現(xiàn)[7]。王曉光等構(gòu)建敦煌壁畫主題詞表、敦煌石窟本體及相關(guān)數(shù)據(jù)模型[8]。陳濤等通過IIIF與人工智能相結(jié)合，構(gòu)建沉浸式交互平臺，實現(xiàn)圖像資源標注與發(fā)布[9]。楊佳瑩等通過報紙廣告本體模型，準確揭示廣告圖像文本信息[10]。在國外，鄧斯特(Dunst A)等人研究圖形敘事語料庫，采用XML注釋標題和全文示例[11]。斯托克(Stork L)等人通過全文轉(zhuǎn)錄和實體提取，直接標記和注釋手寫檔案中的圖像文檔內(nèi)容[12]。程學芳(Cheng X F)等人構(gòu)建多層語義描述框架，描述圖像的內(nèi)涵語義信息[13]。亞勒米蘇·阿布加茲(Abgaz Y)等人提出一種利用人工智能技術(shù)挖掘文化遺產(chǎn)數(shù)字圖像中人文信息的方法[14]。

以上相關(guān)研究表明，在標注模型構(gòu)建、古籍自動識別、實體提取、圖像互操作、本體、關(guān)聯(lián)數(shù)據(jù)與人工智能應(yīng)用結(jié)合等方面，已經(jīng)取得了許多研究成果和技術(shù)工具，可以實現(xiàn)圖像元數(shù)據(jù)聚合、國際圖像互操作、圖像關(guān)聯(lián)數(shù)據(jù)與本體詞表開放數(shù)據(jù)服務(wù)。在典籍圖像中的古籍文本內(nèi)容深層標注、圖像認知計算、語義檢索、數(shù)字人文深度應(yīng)用等方面尚有進一步拓展研究的空間。本文參考已有研究方法與技術(shù)，依據(jù)圖像元數(shù)據(jù)規(guī)范、資源描述框架和國際圖像互操作標準，研究典籍圖像深度揭示與利用的實現(xiàn)路徑與方法，構(gòu)建面向數(shù)字人文的典籍圖像數(shù)字化和深度語義標注的模型架構(gòu)，并以《爾雅音圖》為例進行文本圖像的數(shù)字掃描、文本識別，通過《爾雅》多語語義詞表與《爾雅》圖像語義關(guān)聯(lián)，深度揭示《爾雅》詞匯和圖像中的背景知識，進一步探究《爾雅》圖像的以圖證史、圖像敘事、多媒介傳播等數(shù)字人文應(yīng)用場景。

2 典籍圖像深度揭示的相關(guān)標準規(guī)范

典籍圖像深度揭示是以圖像元數(shù)據(jù)標準規(guī)范、資源描述框架理論、國際圖像互操作框架為依據(jù)，實現(xiàn)基于圖像內(nèi)容的細粒度語義標注、檢索、發(fā)現(xiàn)和開放共享服務(wù)。

2.1 圖像元數(shù)據(jù)標準

圖像元數(shù)據(jù)標準是描述和限定圖像數(shù)據(jù)對象所需要的一系列原則的集合[15]。都柏林元數(shù)據(jù)標準(以下簡稱DC)對圖像內(nèi)容描述的核心元素包括題名、主題、描述、來源、關(guān)聯(lián)和范圍。已有的圖像元數(shù)據(jù)標準主要有描述藝術(shù)品、建筑物等類目的元數(shù)據(jù)標準(以下簡稱CDWA)、描述視覺及圖像資料類目的元數(shù)據(jù)(以下簡稱VRA Core)、數(shù)字圖書館圖像元數(shù)據(jù)標準(以下簡稱CDL)、描述靜態(tài)數(shù)字圖像的元數(shù)據(jù)標準(以下簡稱TMI)等[16]。現(xiàn)有標準主要關(guān)注整體圖像的不同屬性和圖像集合之間的同質(zhì)性，對圖像的外部特征進行詳細描述，在對圖像內(nèi)容進行描述時，不同元數(shù)據(jù)集的元素之間可以建立映射關(guān)系，表1展示了DC核心元素與CDWA、VRA Core描述圖像內(nèi)容的元素映射。通過不同元數(shù)據(jù)標準之間的元素映射，再結(jié)合資源描述框架以及國際圖像互操作標準，可以對圖像數(shù)字對象的內(nèi)容特征進行語義描述，多維度實現(xiàn)典籍圖像深度揭示與內(nèi)容檢索。

表1 描述圖像內(nèi)容的DC核心元素與CDWA、VRA Core映射表

2.2 資源描述框架

資源描述框架(以下簡稱RDF)是國際語義網(wǎng)聯(lián)盟(以下簡稱W3C)推出的用于對結(jié)構(gòu)化元數(shù)據(jù)進行編碼、交換與再利用的基礎(chǔ)架構(gòu)，它提供一致化描述領(lǐng)域資源的機制，并允許不同的使用者根據(jù)需要擴展元數(shù)據(jù)，編制人機可讀的領(lǐng)域詞匯表，此外還提供結(jié)構(gòu)化的相互兼容機制，為基于XML的各種不同元數(shù)據(jù)提供相互利用與轉(zhuǎn)換的平臺[17]。RDF提供了圖像資源對象描述的開放數(shù)據(jù)模型，該模型由資源、屬性、聲明組成，每個資源都被賦予一個URI，讀者既可獲取資源本身，又可獲取資源對象的內(nèi)容描述。屬性是指資源對象之間的關(guān)系。聲明明確了資源對象的屬性，RDF使用圖形化方式書寫相同聲明。如果許多RDF文檔使用不同的元數(shù)據(jù)標準標識了相同的圖像資源，通過聚合工具自動收集關(guān)于該資源的元數(shù)據(jù)并將所有開放數(shù)據(jù)融合起來，開放數(shù)據(jù)詞匯表可以通過數(shù)據(jù)接口被獲取并緩存到本地服務(wù)器中，以便快速訪問，這為數(shù)字人文提供了盡可能廣泛的圖像數(shù)據(jù)及其屬性關(guān)聯(lián)。

2.3 國際圖像互操作框架

國際圖像互操作框架(IIIF)是由英國國家圖書館、牛津大學圖書館、哈佛大學等29個著名館藏機構(gòu)協(xié)作制定的一組支持館藏數(shù)字圖像資源互操作的框架標準，提供操作與訪問圖像資源的統(tǒng)一標準與方法，對典籍圖像資源進行統(tǒng)一的在線組織、展示、檢索與應(yīng)用，以促進全球圖像資源的互操作與開放獲取[18]。IIIF框架通過定義一組通用的應(yīng)用程序接口(API)規(guī)范實現(xiàn)圖像資源互操作性與可獲取性。IIIF提供的應(yīng)用接口包括：圖像API(Image API)、呈現(xiàn)API(Presentation API)、檢索API(Search API) 與授權(quán)API(Authentication API)[19]。圖像API提供了圖像處理的方法[20]，呈現(xiàn)API提供了用于構(gòu)造圖像和圖像相關(guān)資源集合的數(shù)據(jù)模型[21]。檢索API通過擴展的標準參數(shù)檢索圖像元數(shù)據(jù)[22]。授權(quán)API通過注冊驗證，對圖像資源進行權(quán)限控制[23]。IIIF還開發(fā)了資源發(fā)現(xiàn)應(yīng)用程序[24]和具有圖像策展功能的應(yīng)用程序接口[25]。關(guān)聯(lián)數(shù)據(jù)和IIIF資源之間的雙向關(guān)系豐富了數(shù)據(jù)集的語義，這些規(guī)范和標準為典籍圖像的深度揭示提供了技術(shù)支撐。

3 典籍圖像深度揭示與利用模型架構(gòu)

典籍圖像深度揭示與利用模型的構(gòu)建目標是以圖像元數(shù)據(jù)、資源描述框架和國際圖像互操作標準為基礎(chǔ)，對典籍圖像進行數(shù)字化和內(nèi)容深度標注，實現(xiàn)圖像與內(nèi)外部文獻實體的語義關(guān)聯(lián)，提高典籍圖像的可理解性，促進典籍數(shù)字人文應(yīng)用。圖1展示的模型框架由典籍圖像數(shù)字化組織與存儲、圖像深度標注與語義關(guān)聯(lián)、數(shù)字人文應(yīng)用研究等三個相互關(guān)聯(lián)的模塊組成。

圖1 典籍圖像深度揭示與利用模型架構(gòu)

3.1 典籍圖像數(shù)字化

紙媒典籍數(shù)字化是采用高清掃描儀等數(shù)字設(shè)備，對選定的典籍文本、圖像進行掃描并轉(zhuǎn)化為能被計算機識別的數(shù)字符號，再通過圖像OCR識別、元數(shù)據(jù)組織等方式建成典籍全文和圖像數(shù)據(jù)庫。

第一步，掃描典籍文本。將文獻或圖片資料按原貌逐頁掃描并存儲為圖像文件。掃描圖像后，可能存在圖像傾斜、文字不清晰、版心不正等問題，需要進行圖像編輯校正、二值化處理，圖像二值化處理可以較為真實模擬還原典籍的原始形態(tài)，保證文獻的真實性，并可有效提高OCR識別率[26]。在IIIF圖像API中，每個掃描的圖像都被設(shè)置唯一的圖像URI標識，圖像API基于標準HTTP請求返回圖像的Web服務(wù)，對圖像平移和縮放只需在HTTP請求的URI中提供區(qū)域坐標和大小參數(shù)，IIIF服務(wù)器即可轉(zhuǎn)換原始圖像。

第二步，OCR識別。對掃描處理后的典籍圖像進行文本識別，實現(xiàn)機器可閱讀的全文生成，是數(shù)字人文的基礎(chǔ)工作，利用OCR技術(shù)可以進行各種印刷字體圖文版面的識別。難點在于如何準確識別典籍中的手寫字、異體字等各種變體，為了提高OCR識別的準確率，可將OCR技術(shù)與深度學習相結(jié)合，通過特征映射讓深度卷積神經(jīng)網(wǎng)絡(luò)(以下簡稱Deep CNN)去學習古文字的整體或偏旁的各種變體的一致性特征，然后將訓練好的Deep CNN用于識別模型未見過的其他變體[27]。典籍全文生成可采用OCR機器識別和眾包方式的手工輸入有效交互的方法進行，添加OCR的眾包工具有助于準確識別異體字[28]。

第三步，元數(shù)據(jù)組織。參考國外圖像元數(shù)據(jù)標準和國家圖書館元數(shù)據(jù)規(guī)范[29]，結(jié)合特定館藏的描述需求，映射和復用典籍圖像核心元素和著錄規(guī)則，據(jù)此進行圖像元數(shù)據(jù)標注。揭示圖像內(nèi)容的核心元素包括：對象主題、對象分類、創(chuàng)作朝代、創(chuàng)作地點、相關(guān)典籍記載、風格、文化、語種、責任者相關(guān)描述等。IIIF呈現(xiàn)API定義了描述圖像的標準模型，提供添加元數(shù)據(jù)的功能，可將任何圖像或區(qū)域描述為一個有序的集合，包含清單、序列、畫布、內(nèi)容的基本結(jié)構(gòu)。不同館藏通過IIIF圖像服務(wù)器發(fā)布出來的圖像可利用發(fā)布URI接口進行重新組織和圖像互操作。

3.2 典籍圖像深度標注與語義關(guān)聯(lián)

深度標注是通過元數(shù)據(jù)集對特定典籍圖像進行基于內(nèi)容的細粒度知識標引，來提高圖像的可理解性。語義關(guān)聯(lián)是通過IIIF與資源描述框架對典籍圖像進行內(nèi)部和外部詞表的語義關(guān)聯(lián)，以揭示圖像的語義知識，并將圖像與其他數(shù)字資源進行整合。根據(jù)典籍圖像的存儲異構(gòu)性、格式多樣性、內(nèi)容離散性等特點，我們提出深度揭示典籍圖像的實現(xiàn)路徑：以構(gòu)建典籍多語語義詞表為基礎(chǔ)，嵌入語義標注工具集，對典籍文獻進行深度語義標注與多維度關(guān)聯(lián)，并與相關(guān)資源進行整合。典籍多語語義詞表是對多語種典籍文獻中音、形、義相同或相似的字詞進行集中揭示的詞匯表，整個圖像和子圖像標注都可以使用詞表中的控制詞匯術(shù)語進行語義索引。通過元數(shù)據(jù)標注與關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換、存儲與發(fā)布，完成典籍多語語義詞表的構(gòu)建，再結(jié)合外部領(lǐng)域詞表對典籍圖像文本進行基于內(nèi)容的深度語義標注。常用語義標注工具有：CULTURA、CTEXT、TEXTGRID、MARKUS等文本標注系統(tǒng)，提供自動和手動分詞標注功能，還包括搜索功能和外部參考功能。我們依據(jù)IIIF和本體規(guī)范設(shè)計了典籍圖像深度標注的層級結(jié)構(gòu)，如圖2所示，分為場景標注、內(nèi)容標注、語義標注三個層次。

圖2 典籍圖像深度標注層次

第一層場景標注。根據(jù)圖像場景，標注不同場景中的圖像。采用矩形、圓形、多邊形、自由標注等工具進行圖像輪廓及其特征標注，并按主題對圖像場景進行有序排列。第二層內(nèi)容標注。對典籍、句子、詞匯及其句法關(guān)系等內(nèi)容進行標注。其中，句法關(guān)系包括典籍作品篇章之間的關(guān)系、句子結(jié)構(gòu)關(guān)系以及詞匯關(guān)系等。第三層語義標注。對典籍實體概念的語義及其關(guān)系進行深度標注。典籍中的實體概念包括“人”“動物”“地點”“時間”等概念類。“關(guān)系”包括概念層次關(guān)系和非層次關(guān)系。對典籍中的實體概念進行語義標注和屬性關(guān)聯(lián),可依據(jù)典籍多語語義詞表和相關(guān)本體詞表，利用自動或手動標注工具，進行基于自然語言處理的命名實體識別、標注與抽取。實體之間概念層次關(guān)系可采用基于模板的方法半自動標注與提??；概念之間非層次關(guān)系主要指動作，可通過基于監(jiān)督學習模型的方法，自動抽取實體關(guān)聯(lián)的動詞，實現(xiàn)典籍實體對象之間的語義關(guān)聯(lián)。

典籍圖像的深度揭示可以利用IIIF呈現(xiàn)API所定義的數(shù)據(jù)模型，實現(xiàn)典籍圖像資源與資源組織、標注等操作相分離。它提供了用于構(gòu)造圖像和圖像相關(guān)資源集合的數(shù)據(jù)模型，以及通過清單文件在IIIF感知應(yīng)用程序之間進行數(shù)據(jù)交換的方法。IIIF呈現(xiàn)API中的資源包括集合、清單、序列、畫布、注釋、注釋列表、范圍、層和內(nèi)容等。為了在呈現(xiàn)API中使用關(guān)聯(lián)數(shù)據(jù)控制的詞匯表，可以采用IIIF規(guī)范中定義的附加類型Annotation，將關(guān)聯(lián)數(shù)據(jù)分類中的概念連接到典籍圖像資源，可以將受控詞匯表中的主要資源主題URI插入IIIF畫布上的注釋資源中。通過IIIF檢索API可實現(xiàn)圖像標注層面的檢索，還可利用IIIF發(fā)現(xiàn)API定義的基本資源列表、資源變更列表中記錄的圖像URI發(fā)布與變更信息，實現(xiàn)跨庫與跨條目檢索。

3.3 典籍圖像數(shù)字人文應(yīng)用

對典籍圖像數(shù)字化、深度標注及語義關(guān)聯(lián)，再結(jié)合深度學習、文本挖掘、時空分析和社會網(wǎng)絡(luò)分析等技術(shù)，可實現(xiàn)典籍圖像以圖證史、圖像敘事、多媒介傳播等數(shù)字人文應(yīng)用。

首先，通過圖像比對、文獻考證等實現(xiàn)“以圖證史”。古籍中的圖像包括各種手繪插圖、印本木版插圖等紀實性原創(chuàng)圖畫，反映了古代社會歷史事件、人物形態(tài)、服飾、器具、宗教、建筑、音樂、動物、植物以及山川河流等自然地理面貌。經(jīng)過高清掃描的典籍圖像真實還原了各個朝代社會發(fā)展形態(tài)以及人類衣食住行等物質(zhì)生活方式，經(jīng)過文本識別和內(nèi)容深度標注，與不同館藏的同類圖像建立語義關(guān)聯(lián)，再結(jié)合機器學習進行圖像特征識別，與出土文物及相關(guān)典籍進行圖文比對和考證，可以實現(xiàn)以圖證史的數(shù)字人文研究。借助典籍圖像語義標注平臺，人文學者在解讀古籍文字和圖像時可以參考和使用各種典籍數(shù)據(jù)庫資源，進行分詞、標注和聚類分析，輔助圖文考證的研究。將漢字和圖畫可視化為知識圖譜，可以激發(fā)學者探索考證新觀點以及公眾對典籍學習的興趣與認知。

其次，通過場景標注、主題索引等實現(xiàn)“圖像敘事”功能。在文學圖像化語境下，典籍圖像高清呈現(xiàn)與瀏覽改變了傳統(tǒng)文字的呈現(xiàn)形式，典籍呈現(xiàn)可以向圖文并茂甚至以圖為主的多媒體形式轉(zhuǎn)變，圖像和文字以互讀、互文、互釋等方式呈現(xiàn)圖像敘事功能。通過元數(shù)據(jù)映射建立基于故事的圖像索引系統(tǒng)，識別圖像中每個實體對象，分離并提取目標元素及屬性，每一個元素都對應(yīng)一個語義概念。IIIF是描述圖像故事的基礎(chǔ)，提供了不同標記區(qū)域之間的坐標、形狀、顏色和重疊關(guān)系，可描述圖像中的主題和內(nèi)容，圖像資源的語義對象通過分類和互連被組織成圖結(jié)構(gòu)，每個故事或事件是通過圖像中的元素而不是自由文本來表現(xiàn)的，圖像中的設(shè)置和實體的變化隨時間和空間演變，這有助于讀者理解圖像，標注的數(shù)據(jù)集使圖像通過深度學習可理解，領(lǐng)域詞匯和本體可以對標注輸出進行標準化。

最后，利用多種媒介實現(xiàn)典籍圖像在世界的傳播。文學圖像化改變了典籍文獻傳播的場域、方式與觀念。利用IIIF與RDF將分散在世界不同館藏的典籍圖像進行組織、重構(gòu)和基于主題內(nèi)容的深度揭示，可開發(fā)各種應(yīng)用API，如策展API可以將畫布中的圖像進行任意形狀的裁剪切割，并添加元數(shù)據(jù)，還可從IIIF圖像典藏機構(gòu)收集相關(guān)主題的圖像，利用機器識別圖像并自動添加標簽，將圖像數(shù)據(jù)或文本文件按主題聚合在一起。IIIF發(fā)現(xiàn)API可以利用資源變更列表，對不同機構(gòu)、數(shù)據(jù)庫進行多維檢索，分布在世界各地的典籍圖像資源在多種平臺上以多種格式被獲取和分享，再利用流媒體、網(wǎng)站、搜索引擎、微信公眾號、微博、頭條、推特、抖音等多媒介發(fā)布與傳播。讀者與創(chuàng)作者通過手機等移動設(shè)備，利用沉浸式交互網(wǎng)絡(luò)平臺隨時進行交流互動、解讀欣賞典籍圖像、通過眾包參與圖像標注與研究，促進典籍的世界傳播與利用。

4 案例研究：《爾雅音圖》深度揭示與利用

本文選擇《爾雅音圖》作為典籍圖像深度揭示與利用案例，《爾雅》是我國古代最早的訓詁名物的語言專著，匯釋了戰(zhàn)國秦漢間的語言文字材料，漢代被列入《五經(jīng)》，是古代儒生誦經(jīng)的必讀工具書[30]，歷代《爾雅》注本以郭璞《爾雅注》最具代表性，郭璞在《爾雅注序》中稱所作“別為《音》、《圖》，用祛未寤?！盵31]據(jù)《隋書·經(jīng)籍志》記載，郭璞注本有《爾雅音》二卷，《爾雅圖贊》二卷，當時尚傳于世，可惜后來亡佚，僅散見于前代舊籍[32]。傳世《爾雅音圖》是清代兩淮都轉(zhuǎn)運監(jiān)使曾燠于清嘉慶六年(1801年)據(jù)影宋本刊刻，全書有圖有注，注后有讀音，保留了大量古代語言資料，對音韻、語音及藝術(shù)研究均有重要參考價值。本文以浙江人民美術(shù)出版社影印出版的《爾雅音圖》[33](該書影印清嘉慶六年曾氏刻本)為底本進行數(shù)字化、深度標注與數(shù)字人文應(yīng)用的例證研究。

4.1 《爾雅音圖》數(shù)字化

《爾雅音圖》的數(shù)字化過程包括書稿掃描及圖像處理、文字OCR識別、元數(shù)據(jù)映射組織。

首先完成書稿掃描與圖像處理。將《爾雅音圖》中的圖像、文字、讀音、注釋等內(nèi)容按原貌逐頁精確掃描處理并存貯為圖像文件。選擇掃描精度，掃描分辨率一般控制在300-600dpi，掃描方式包括黑白掃描、灰度掃描和彩色掃描方式，保存格式按存儲大小依次為：tif 、gif、jpeg、jpg、png。圖像掃描處理過程：導入圖片→校正處理→二值化處理→圖像抹白處理。其中二值化處理可提高圖像的壓縮比率，縮小文獻的存儲空間，提高OCR識別率。圖像抹白處理可清除二值化處理后的圖片可能會產(chǎn)生的黑色區(qū)域。

其次對掃描后的圖像文字進行OCR識別。例如識別釋詁中的第一句：“初哉首基肈兆祖元胎俶音叔落權(quán)輿始也”。先對其進行矩形框選，點擊自動OCR，調(diào)用外部OCR接口，可將OCR的結(jié)果顯示在JOCR部分，再進行人工審核后，保存JOCR，完成自動文字識別(見圖3)。系統(tǒng)可調(diào)用百度OCR、書同文OCR、漢王OCR等自動OCR接口，可識別豎版古籍的常用漢字及其符號，對于部分異體字的識別可利用機器深度學習結(jié)合眾包方式標注完成。將識別結(jié)果保存JOCR，為內(nèi)容標注和語義關(guān)聯(lián)做好準備。

圖3 自動OCR識別與JOCR保存

最后，元數(shù)據(jù)組織是進行圖像核心元素映射與書目數(shù)據(jù)轉(zhuǎn)化。通過映射DC、CDWA、VRA Core等元數(shù)據(jù)集：題目(DC:Title)|創(chuàng)建者(DC:Creator)|主題(DC:Subject) |分類(CDWA:Classification) |描述(VRA Core:Classification) |關(guān)聯(lián)(CDWA:Related works) |格式(DC:Format)|分類(CDWA:Classification)日期(DC:Date)|資源類型(VRA Core:Work type)|權(quán)限(CDWA:Copyright)|。創(chuàng)建《爾雅》圖像元數(shù)據(jù)核心元素集，依此進行《爾雅音圖》實體對象標注。再將標注數(shù)據(jù)轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù)的RDF 格式圖數(shù)據(jù)，存儲在三元組數(shù)據(jù)庫中，通過 SPARQL進行查詢與存取。

4.2 《爾雅音圖》深度標注與語義關(guān)聯(lián)

《爾雅音圖》的深度標注工具采用自主研發(fā)的多維圖像智慧系統(tǒng)，該系統(tǒng)是基于IIIF與RDF的沉浸式交互操作平臺(http://www.usources.cn/sas/ )，包括藏品檢索、藏品中心、集合中心、圖像標注、圖像管理、SPARQL EDITOR和藏品賞析等7個模塊。藏品按照IIIF框架進行組織，每個藏品有一個Manifest清單文件，系統(tǒng)核心功能是圖像標注。我們依據(jù)典籍圖像深度標注層次模型(見圖2)，利用系統(tǒng)圖像標注模塊，進行《爾雅音圖》的圖像標注和語義關(guān)聯(lián)。

第一層，圖像輪廓標注?！稜栄乓魣D》中的實體圖像包括人、鳥、魚、獸、畜、草、木、工具、建筑、天、地、山、水等名物實體，這些實體大多帶有背景環(huán)境，有不同的場景，因此先要根據(jù)圖像的不同場景進行圖像實體的輪廓標注，標注輪廓的工具共有5種：點標、矩形標注、圓形標注、多邊形標注、自由標注。《爾雅》插圖的實體標注使用較多的是矩形標注和自由標注。一般在標注輪廓較復雜、具有整體性內(nèi)涵以及都是文字的圖像時，使用矩形標注；而在對人、動物等輪廓較為清晰的圖像進行標注時，一般使用自由標注，如圖4所示。利用圖形標注工具，我們完成了《爾雅音圖》中630余幅圖像場景的輪廓標注。

圖4 圖像輪廓標注

第二層，實體對象標注?！稜栄乓魣D》中的實體分類依據(jù)《爾雅》19大類：釋詁、釋言、釋訓、釋親、釋宮、釋器、釋樂、釋天、釋地、釋丘、釋山、釋水、釋草、釋木、釋蟲、釋魚、釋鳥、釋獸、釋畜。例如標注一種被稱作 “駂”(別名“烏驄”)的馬的實體圖像，首先選用多邊形標注工具將圖像中的馬的實體標出來(圖5左)，實體框選出來后，在彈出的標注窗口(圖5右)上面輸入框中標注《爾雅》圖像上的文字注解“驪白雜毛駂”，以及《爾雅譯注》中對這種被稱作“駂”的馬的形象特征描述，在輸入框下面的“tag”中填入實體在《爾雅》中所隸屬的分類“釋畜”“馬屬”。這樣就完成了圖像實體的標注。

圖5 實體對象標注

第三層，深度語義標注。通過構(gòu)建領(lǐng)域詞表可以實現(xiàn)圖像深度語義揭示與關(guān)聯(lián)。我們以上海古籍出版社《爾雅譯注》[34](該書是上海古籍出版社邀請名家歷經(jīng)十年完成的簡體中文《十三經(jīng)譯注》之一，可幫助讀者最大程度讀通和理解原著)，參考相關(guān)詞表構(gòu)建了《爾雅》多語語義詞表，內(nèi)容結(jié)構(gòu)由訓釋詞語、被訓釋詞語、例證3部分組成，語種包括中文、英文、日文和韓文。設(shè)計了以“詞表”“典籍”“句子”“分類”“人”為實體類的《爾雅》詞匯知識本體，實體屬性關(guān)系包括： belongsTo(屬于分類)、SubClassOf(子類關(guān)系)、dc:source(句子來源)、name(作者姓名)、address(作者籍貫)、dynasty(作者朝代)等等。通過屬性實現(xiàn)了《爾雅》詞語釋義的語義關(guān)聯(lián)。根據(jù)中文釋義，進行詞匯釋義的多語翻譯和標注，完成了3584個被訓釋詞語和2219個訓釋詞語的英、日、韓語的釋義翻譯。最后通過對《爾雅》詞表關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換、存儲與發(fā)布，實現(xiàn)了語義關(guān)聯(lián)檢索和開放鏈接服務(wù)，為《爾雅音圖》語義關(guān)聯(lián)做好了準備。

當完成詞表構(gòu)建與發(fā)布之后，就可對《爾雅音圖》進行內(nèi)部詞表標注與關(guān)聯(lián)，進入標注中心，點擊語義標注按鈕，會出現(xiàn)輸入關(guān)聯(lián)信息的標注界面，首先輸入系統(tǒng)內(nèi)置的關(guān)系屬性URI(http://www.w3.org/2000/01/rdfschema#seeAlso)；其次，輸入關(guān)系對象URI，需要關(guān)聯(lián)到《爾雅》多語語義詞表中的訓釋詞，打開詞表搜索平臺(網(wǎng)址：http://dh.usources.cn:8080/sooopa)檢索訓釋詞語“駂”，得到詞表中“駂”的釋義與關(guān)聯(lián)的語義信息網(wǎng)址，在關(guān)系對象一欄輸入鏈接關(guān)聯(lián)的網(wǎng)址。進行對象描述時，參照《爾雅譯注》中文釋義，這樣就實現(xiàn)了《爾雅音圖》第286頁圖像“驪白雜毛駂”與《爾雅》詞表內(nèi)容的深度語義關(guān)聯(lián)(見圖6)。

圖6 圖像語義關(guān)聯(lián)

利用《爾雅》多語語義詞表關(guān)聯(lián)，檢索圖像“駂”時，就可以獲得該詞在詞表中關(guān)聯(lián)的這種馬的中、英、日、韓文釋義，別稱，讀音，所屬類別以及郭璞《爾雅注》原句“今之烏驄?！毙蠒m《爾雅疏》原句“毛色黑白而復有雜毛相錯者名為駂?！薄对娊?jīng)·鄭風·大叔于田》例句“叔于田，乘乘鴇。兩服齊首，兩驂如手?！薄睹姽视杺鳌纷⑨尵洹绑P白雜毛曰鴇?！?陸德明《經(jīng)典釋文》注句 “鴇，依字作駂。”等知識圖譜內(nèi)容(見圖7)。

圖7 《爾雅》詞表中“駂”知識圖譜與CBDB中《爾雅疏》作者邢昺關(guān)聯(lián)

語義詞表實現(xiàn)了對典籍圖像的深度揭示，再通過關(guān)聯(lián)外部詞表和其他相關(guān)資源，讀者可獲取更多相關(guān)的背景知識，探究作者與典籍知識發(fā)現(xiàn)。《爾雅音圖》與外部詞表進行關(guān)聯(lián)，可通過SPARQL聯(lián)邦檢索獲取外部數(shù)據(jù)API實現(xiàn),例如需要了解《爾雅》注疏者的更多背景資料信息時，可以檢索并關(guān)聯(lián)中國歷代人物傳記資料庫(CBDB)，CBDB API支持人物ID和人名兩種查詢方式，我們通過人名查詢《爾雅疏》作者邢昺，CBDB可顯示與邢昺的所處朝代、籍貫、科舉、同僚、合著者、學生、家人及其他相關(guān)的人物和作品等背景知識。通過在《爾雅》詞表里面加入一條三元組owl:same As 關(guān)聯(lián)到CBDB的邢昺知識圖譜。圖7不但顯示了古代一種被稱作“駂”的馬的相關(guān)注釋、注者、作品、分類、注疏原句、例句及注疏等典籍知識圖譜，還關(guān)聯(lián)到CBDB，顯示與注疏者邢昺有關(guān)的人、時、地、作品等更多背景信息，再進一步關(guān)聯(lián)其他典籍中相關(guān)馬的高清圖像及文本信息，為典籍考證和圖像敘事等數(shù)字人文應(yīng)用提供了幫助。

4.3 《爾雅音圖》數(shù)字人文應(yīng)用場景

通過對《爾雅音圖》的深度揭示，實現(xiàn)了《爾雅》圖文互釋、語義標注和關(guān)聯(lián)檢索功能，為數(shù)字人文應(yīng)用提供了可以眾包參與的交互操作平臺，可實現(xiàn)“以圖證史”“圖像敘事”“多媒介傳播”的數(shù)字人文應(yīng)用場景。

首先，“以圖證史”應(yīng)用。利用圖像互操作平臺，將《爾雅音圖》中的插圖及文字與相關(guān)典籍圖像、出土文物圖像等相互比對，對考證典籍出處、版本、作者、古代社會生活、經(jīng)濟、軍事、典章制度、自然環(huán)境等具有重要價值。例如，有學者在對《爾雅》插圖研究時，通過高清圖的呈現(xiàn)發(fā)現(xiàn)《爾雅》“釋天—講武圖”中犬的形象和《事林廣記》插圖中犬的形象非常相似，都有腦袋偏長、身上有條紋、尾巴上卷、頸上佩戴鈴鐺等特點，在出土元墓壁畫中的犬也有同樣形態(tài)(見圖8)，據(jù)此作為《爾雅》圖像有元代淵源的佐證[35]?！稜栄乓魣D》中的“釋草”“釋木”還可以和《唐本草》《本草圖經(jīng)》等醫(yī)藥典籍進行比對，再結(jié)合文本分析，從時空地多維度考證古代植物特征及其出處?！稜栄乓魣D》中神話人物、動物圖像與《山海經(jīng)》進行比對，考證神話傳說的歷史地理出處。

圖8 《爾雅音圖》與元墓壁畫中的犬

其次，圖像敘事應(yīng)用。人類最早的圖像符號象形文字就具有敘事屬性，國外學者將圖像敘事定義為“視覺或繪畫表現(xiàn)的文本表現(xiàn)”[36]?！稜栄乓魣D》中包含了大量反映先秦時期人類生活、自然生態(tài)和社會文化等多方面的寫實插圖，有宮廷建筑、常用器具、工具、樂器、天地四方、物產(chǎn)人物、天象、山川、河流、動物、植物等實體圖像630余幅，并配有注釋文字，對這些珍貴的插圖與文字記載，按主題進行深度揭示，建立《爾雅》圖像敘事模型，通過圖像場景分層、實體對象標注、情感詞語標注和實體關(guān)系抽取，建立圖像及其背景的文本關(guān)聯(lián)，描述圖文混搭的敘事情節(jié)，再通過主題關(guān)聯(lián)《詩經(jīng)》《尚書》《楚辭》《周易》《論語》等相關(guān)典籍文獻和插圖，給讀者提供豐富的圖像知識及其背景故事情節(jié)，在碎片化閱讀時代，激發(fā)讀者閱讀典籍的欲望、圖像審美和主體參與的探究精神。

最后，典籍多媒介傳播。隨著語義網(wǎng)絡(luò)和動態(tài)云計算的普及，讀者通過多媒介快速訪問、傳播藏品圖像，為《爾雅音圖》創(chuàng)建推特訂閱和RSS訂閱，以吸引更多讀者參與，通過語義網(wǎng)聚合引擎和IIIF圖像互操作標準，將中國典籍與世界各國典藏資源庫進行關(guān)聯(lián)和互操作，將翻譯、解釋、比較、分析等工作流程進行眾包，創(chuàng)建作者索引和搜索系統(tǒng)，記錄和展示讀者對藏品的操作與相關(guān)爭論，設(shè)計移動APP，使用移動設(shè)備標注圖像，編輯與呈現(xiàn)《爾雅》圖像敘事情節(jié)，利用沉浸式多媒介交互平臺，創(chuàng)作者、讀者、人文學者、留學生等都可以通過網(wǎng)絡(luò)進行交流互動。還可以利用虛擬現(xiàn)實技術(shù)，創(chuàng)設(shè)古代自然和人文環(huán)境，讓人身臨其境，學習和體驗古代社會生活，突破語言和文化的障礙，促進典籍圖像在世界范圍的數(shù)字人文推廣、傳播與利用。

5 結(jié)論與展望

典籍圖像在數(shù)字人文中具有以圖證史、圖像敘事和多媒介傳播等作用，國際圖像互操作框架(IIIF)和資源描述框架(RDF)促進了典籍圖像藏品的共享與利用。本文結(jié)合IIIF與RDF，參考圖像元數(shù)據(jù)標準，構(gòu)建包括圖像數(shù)字化、深度語義標注和數(shù)字人文應(yīng)用的典籍圖像深度揭示與利用的模型架構(gòu)，實現(xiàn)了圖像掃描、OCR識別與元數(shù)據(jù)組織的圖像數(shù)字化過程，提出了典籍圖像深度標注的三個層次：(1)利用IIIF呈現(xiàn)API實現(xiàn)圖像的場景標注；(2)通過映射圖像元數(shù)據(jù)核心元素進行典籍實體內(nèi)容標注；(3)通過構(gòu)建典籍多語語義詞表實現(xiàn)典籍實體概念的深度標注與語義關(guān)聯(lián)。例證采用經(jīng)典辭書《爾雅》的手繪插圖版《爾雅音圖》，利用自主研發(fā)的基于沉浸式多維圖像智慧互操作平臺進行《爾雅》圖像的數(shù)字化，通過構(gòu)建多語語義詞表，實現(xiàn)對《爾雅》圖像實體對象的深度語義關(guān)聯(lián)，擴展了對《爾雅》注者、作品等信息的關(guān)聯(lián)。最后探究了《爾雅音圖》的數(shù)字人文應(yīng)用場景，包括圖文互證、圖像敘事和多媒介傳播。未來將利用眾包工具深度標注更多不同版本的典籍圖像，通過領(lǐng)域多語語義詞表建立與世界不同館藏典籍圖像、文本的關(guān)聯(lián)；同時開發(fā)基于IIIF的移動式多媒介典籍傳播平臺，使分布在世界各地的讀者、學者利用移動設(shè)備眾包參與典籍閱讀、解釋、標注、分析、發(fā)現(xiàn)和研究，典籍文獻在公眾賞析、解讀、研究和討論的過程中獲得新的生命力，真正使書寫在古籍里的文字和圖像活起來，在典籍圖像多媒介傳播與利用的過程中，實現(xiàn)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展[37]。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡