劉瀏,齊月,劉雛菲,李文祺,王東波
(南京農(nóng)業(yè)大學信息管理學院,南京 210095)
中華典籍是中華傳統(tǒng)文化的重要載體,加強文物和古籍保護研究利用是“推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展”的主要途徑。在數(shù)據(jù)科學和人工智能迅猛發(fā)展的當下,面向古籍文本的知識挖掘與知識庫構建,以及古籍知識內(nèi)容的數(shù)據(jù)分析與可視化視角展開的計算人文探索,已逐漸成為古籍保護和研究利用的重要主題[1],既是傳承弘揚中華優(yōu)秀傳統(tǒng)文化的現(xiàn)代詮釋,也是“讓書寫在古籍里的文字都活起來”的鮮活實踐。
古籍引書是古籍計算人文研究的重要內(nèi)容。古籍引書中凝結著先賢智慧的結晶,“引據(jù)大義,正之經(jīng)典”,古人著書立言往往“旁征博引”以示學識之淵博,“詠古抒懷”以明立意之深遠,“辨章學術,考鏡源流”以求治學之嚴謹。卷帙浩繁的古籍以引書的形式彼此關聯(lián),源遠流長的文化則在引書里留下傳承印記。古籍引書研究作為對“引經(jīng)據(jù)典”的追本溯源,有助于發(fā)現(xiàn)古籍中記錄的思想發(fā)展源流,并從浩如煙海的古籍中梳理中華傳統(tǒng)文化傳承脈絡。從文獻學的角度看,古籍引書研究既可以通過考本源、辨支流的方法來厘清古代學術流派淵源,從而把握思想文化發(fā)展內(nèi)涵,也可以提供廣博的訓詁、音韻、校勘內(nèi)容,從而更準確地解釋和理解經(jīng)典文獻著作;從史學的角度看,古籍引書研究可以充分搜集和利用旁證來解析相互矛盾之說,從而還原歷史的真相;從圖書情報的角度來看,古籍引書研究可以通過對大規(guī)模古籍文獻資源的知識挖掘,實現(xiàn)古籍關聯(lián)的數(shù)據(jù)分析和影響力的客觀評價。古籍引書研究是傳統(tǒng)文化傳承研究的絕佳切入點,具備了較大的研究潛力和價值,將是弘揚中華優(yōu)秀傳統(tǒng)文化的有效助力。
計算人文時代的古籍研究以大規(guī)模數(shù)字化文本作為研究對象,以此為基礎的古籍引書研究則借文本知識挖掘和引文分析方法呈現(xiàn)新的發(fā)展?jié)摿2-4]。從研究內(nèi)容來看,不論是從結構化知識出發(fā)的量化統(tǒng)計分析,還是宏觀視角的大規(guī)模網(wǎng)絡關系發(fā)現(xiàn),抑或是基于客觀數(shù)據(jù)的古籍影響力衡量與評價,均需要更大規(guī)模的古籍語料、更智能的知識挖掘技術以及更高效的知識表示框架,古籍引書全文本知識庫的重要性由此可見一斑。計算人文視角的古籍引書研究及全文本知識庫資源構建,符合新文科尤其是圖情學科當下發(fā)展的新趨勢,契合“讓中華文化展現(xiàn)出永久魅力和時代風采”。
古籍引書是古籍中“引經(jīng)據(jù)典”的現(xiàn)象,也可以將其視為“古籍文本中的被引文獻”,與文獻計量學中的引文現(xiàn)象類似[3]。參考“引文分析”的定義[5],古籍引書包含了施引和被引的雙向引用行為和現(xiàn)象,也可特指被引用的古籍,含義視上下文而定,因此,古籍引書研究同時關注引用現(xiàn)象和被引古籍。
例1.史記正義 虞喜志林云.南公者.道士.識廢興之數(shù).知亡秦者必於楚.漢書藝文志云.南公十三篇.六國時人.在陰陽家流.
如例1所示,《史記正義》“虞喜志林云……”一句中,出現(xiàn)《志林》《漢書·藝文志》兩部古籍之處,均可以看作引書現(xiàn)象。其中《史記正義》為施引古籍,《志林》《漢書·藝文志》為被引古籍,“虞喜”為被引古籍作者,“南公者.道士.識廢興之數(shù).知亡秦者必于楚”“南公十三篇.六國時人.在陰陽家流”則為引書內(nèi)容。從該定義出發(fā)開展的古籍引書計量研究[2-3],充分利用了文獻計量學的數(shù)據(jù)解釋力,相較于傳統(tǒng)文獻學擅長的列舉和分析、考證和勘誤,能得到更加宏觀的分析和解釋視角。這恰恰體現(xiàn)出計算人文[6]的特點,通過引書知識的自動獲取、大規(guī)模計量分析和可視化數(shù)據(jù)結果呈現(xiàn),為古籍引書研究提供了新的思路,也帶來了大量亟待解決的技術問題。
計算人文視角的古籍引書研究以知識的獲取和表示為基礎,通過對古籍引書研究對象和技術框架的重點闡釋,本文首先力圖厘清計算人文下古籍引書研究的理論和技術內(nèi)涵。古籍引書從現(xiàn)象上可分為明引和暗引,其中,明引可分為目錄學典籍所引古籍題錄和經(jīng)學注疏文獻所引古籍觀點內(nèi)容,暗引可分為史學典籍所引古籍事實觀點和詩詞歌賦所引典故,不同類型的古籍引書目的風格存在較大差異。厘清各類型古籍引書特點異同,是引書知識的表示、標注和知識庫構建的基礎,也是計算人文下古籍引書研究的前提。
目錄典籍引書可用于覽全貌、考版本、辨源流,自西漢劉向《別錄》、劉歆《七略》以來,后世歷代目錄編纂為概覽當時的圖書全貌提供了絕佳的對象,典型如《二十四史》中多部史籍的《藝文志》《經(jīng)籍志》,宋代《太平御覽》、明代《永樂大典》、清代《四庫全書》《古今圖書集成》等,其數(shù)字化的工作也早已得到了廣泛的關注。從古籍引書研究視角看,目錄典籍所引古籍包含了書目題錄、版本卷冊等知識,《四庫全書總目》等還包含關于古籍主題內(nèi)容、關聯(lián)傳承的簡介摘要。書目題錄等是知識表示和知識庫構建的基礎,也可作為古籍引書自動標注的外部知識,以提升深度學習等模型的性能。
經(jīng)學注疏引書以解經(jīng)義,并逐漸形成了引書規(guī)范,顧炎武《日知錄》述為“凡引前人之言,必用原文”[7],清末陳澧進一步闡釋為“說經(jīng)之文與時文不同者,時文不能引書,說經(jīng)之文,則必須有引書”,并總結出“引書法”規(guī)范十條,與現(xiàn)代學術引文規(guī)范異曲同工[8]。經(jīng)學注疏的規(guī)范性使其成為古籍引書研究的絕佳對象,引據(jù)不僅包含出處、作者和原文,還兼顧觀點評價、二次文獻、共引評價等,以《十三經(jīng)注疏》為代表的系列注疏文獻還包含了注解疏解多層級的引用體系,也為計算人文下古籍引書的多視角對比研究提供了天然的知識來源。
史書引書以求史實,無引書不成史書,史籍中所含引書知識豐富程度不亞于經(jīng)學引書,然而其所引形式多為化用暗引,一般難以通過格式化手段自動獲得引書知識,借助自然語言處理前沿技術自動發(fā)現(xiàn)暗引內(nèi)容并補全引書知識,可以成為史學引書研究的重要技術手段。進一步來說,史籍暗引研究與經(jīng)籍明引研究相對應,在內(nèi)容上可互為參照,在方法上可互為補充,如《史記》三家注、《三國志》裴松之注等重要史籍注疏文獻,將是對兩者進行對照考察的重要對象。另外,通史引書與斷代史引書在研究對象方法上也存在明顯差異,通史引書研究可關注史籍成書前各時代典籍動態(tài)關聯(lián)或變化,而斷代史引書研究則可更多考察某一時代典籍的靜態(tài)面貌情況。
詩詞歌賦引典以寓言、詠志和抒懷,引典雖然不是對古籍內(nèi)容的直接引用,但從引用行為和引用效果來看,與引書十分相似,引典與引書均體現(xiàn)了古人“無一字無來歷”的寫作追求,可以將引典看作一類特殊的古籍引用現(xiàn)象。從古至今,詩詞歌賦引典之豐富讓人目不暇接,屈原、莊子的神話寓言,三曹與七子的建安風骨,引典以成詩文的同時,更成為后世所引之典,凝練在“莊生曉夢迷蝴蝶”“蓬萊文章建安骨”等傳世佳句中。引典的傳承造就了“中國盒子”式的藝術美感和文化內(nèi)涵,更是中華民族文化綿延千年的靈魂,王勃引六百年前馬援典故以抒“老當益壯,寧移白首之心?窮且益堅,不墜青云之志”,而一千三百年后的今人仍能感受其氣魄,由此可見一斑。計算人文視角的詩詞歌賦引典研究,視典故為所引對象,由于所引形式多為文學性的化用,少有固定的格式,因而標注難度較大。一方面,可以借用史書暗引自動發(fā)現(xiàn)相關技術;另一方面,也可以將其看作詞匯語義知識,并使用古文信息處理中常見的詞匯語義標注方法。值得注意的是,知識表示中的引典知識與引書知識存在較高的相似性,因此可將其視為古籍引書知識庫的有效補充。
古籍引書研究的重要性早已為經(jīng)學、史學、目錄、文獻等學科所發(fā)掘,但由于技術方法的限制,多精于單部經(jīng)典的釋義考證,較少關注系列古籍間的交織關聯(lián),難以梳理出古籍引書源流的客觀全貌,而這卻是計算人文的優(yōu)勢所在。相較于傳統(tǒng)的古籍引書研究,計算人文的視角包含了從獲取到分析的一系列技術方法和應用探索,包括但不限于引書知識的表示和標注,引書知識的獲取與引書知識庫構建,基于文獻計量和社會網(wǎng)絡的引書分析和評價,以及基于全文本內(nèi)容的引書情感分析、主題分析等。其中,全文本知識庫的構建具有承上啟下的作用,是古籍引書研究的核心內(nèi)容。借由引文分析視角探索古籍經(jīng)學引書的研究思路已得到初步嘗試,立足學術全文本分析挖掘目錄典籍引書、史書引書和詩詞歌賦引典的研究設想也具備了成熟的技術基礎。
古籍引書全文本知識庫之于古籍引書計算人文研究,就像引文數(shù)據(jù)庫之于引文分析研究,其構建過程還體現(xiàn)出對古籍引書內(nèi)涵的深刻辨析和對前沿古籍文本挖掘技術的全面應用。知識庫的構建需要對引書條目知識進行標注和表示,即文本中明確出現(xiàn)的書名、作者等,若以人工方法標注,則將耗費大量時間和人力成本;若以計算機自動標注,則對文本的格式化程度有較高要求。從古籍引書格式來看,目錄典籍和經(jīng)學引書相對規(guī)范,一般會在引用上下文中明確提及被引書名、作者和原文等,可稱為古籍明引。史書引書較為隱蔽,如《史記》雖也有對《詩經(jīng)》《論語》等經(jīng)典原文的直接引用,但更多的是在著述過程中化用史料,并輔以增補和刪減,較難在原文中直接找到明確規(guī)范的引書條目。詩詞歌賦引典則更為靈活,一般以詞語或短語形式化用被引內(nèi)容,且文學性體裁更重修辭,難以直接借助格式自動獲取。以上兩者可稱為古籍暗引。
古籍引書格式化程度的不同,面向明引和暗引的古籍引書知識庫構建遵循的思路方法和技術難度也不同。對于前者,通過小規(guī)模人工標注,結合命名實體識別方法,構建機器學習模型,以實現(xiàn)計算機自動標注,這一思路可行性已得到前期研究的驗證;后者則對古籍文本智能處理技術提出了較高的要求。值得欣喜的是,預訓練框架下的深度學習為文本知識挖掘帶來了技術飛躍,頗具影響力的Si‐kuBERT等古漢語預訓練模型展現(xiàn)出良好性能的同時,進一步降低了技術門檻。面向隱藏在古籍字里行間的暗引,深度學習預訓練模型分布式的文本語義表示能力,有助于實現(xiàn)更加準確的詞匯級和句子級引書知識自動發(fā)現(xiàn),使得面向暗引的古籍引書知識庫構建不再是空談。
古籍引書知識庫不僅限于文本中引書知識的標注,還包含了引書知識的完善。對于所有的引書條目來說,除了引書上下文中標注的知識外,還應補充引書上下文之外的相關知識,這對于更深入的古籍引書研究來說必不可少。具體來說,與書名相關的有卷名、篇章名、注疏關系等,與作者相關的有朝代、師承、學派等。引書知識的補充可以參考多種來源的知識,如目錄典籍引書中的“互著別裁”,經(jīng)學引書中的“互參”,也可以利用引書知識標注文本進行自動補全。對于一些文本內(nèi)容之外的知識,還可以通過人工方式參考專業(yè)文獻、書籍或辭典來完成。全文本知識庫也是對古籍引書相關全文本內(nèi)容的涵蓋,不僅包含了引書上下文,還包括了施引和被引古籍的全文本內(nèi)容,以及引書上下文和全文本內(nèi)容的對應位置關系和鏈接。此外,知識庫還包含對全文本內(nèi)容的詞匯語義知識標注,以及后續(xù)待考察的情感評價、主題風格等,知識庫的構建本身應體現(xiàn)出古籍引書研究的內(nèi)容,并結合研究成果實現(xiàn)知識庫的不斷更新。
計算人文下的古籍引書研究同時也是全文本知識庫應用的最佳方案。面向古籍引書知識庫的統(tǒng)計計量和數(shù)據(jù)分析等計算人文研究,借助古籍文本知識挖掘技術,通過對古籍文本內(nèi)容和關聯(lián)知識進行結構化組織、數(shù)據(jù)化闡釋和可視化呈現(xiàn),有助于從新的視角認識和推動優(yōu)秀傳統(tǒng)文化的傳承和發(fā)展,有利于降低專業(yè)研究成果的理解門檻,可助傳統(tǒng)文化的教育、普及和推廣。新視角下的古籍挖掘、應用與探索,是提升中華文化影響力的內(nèi)在要求,是第二個百年奮斗目標下,增強文化自信力并推動中華文化獲取世界話語權,讓世界了解中華文明的精神魅力,并讓世界理解和認可中國特色社會主義文化內(nèi)涵的必然選擇。
古籍引書全文本知識庫的提出并不是空中樓閣,而是現(xiàn)有多個領域成熟技術和探索經(jīng)驗的有效結合。其中,以深度學習為前沿的古文智能處理技術保證了古籍文本的信息處理和大規(guī)模知識自動挖掘,以關聯(lián)數(shù)據(jù)為代表的知識表示方法與知識庫構建技術保證了古籍引書多維度關聯(lián)知識的有效表示和存儲,而古典文獻學、史學、文獻計量學以及人文計算等傳統(tǒng)和現(xiàn)代的研究領域共同培育了古籍引書計算人文研究的應用土壤,使其成為一項具有獨特潛力的研究領域,并逐漸得到學者的關注和探索[3-4]。
古文智能處理是古籍引書全文本知識自動獲取和組織的技術前提。作為一個頗具中國特色的交叉研究領域,古文智能處理是從古籍中挖掘中華傳統(tǒng)文化知識的鑰匙。古文智能處理可以看作自然語言處理和中文信息處理相關技術和方法在古籍文本中的應用和遷移,其根據(jù)古漢語詞匯和語法等特點進行領域化的調(diào)整和改進,并以知識挖掘和提取為主要目的[9]。近年來,隨著深度學習在自然語言處理中的逐漸成熟,古文智能處理的諸多研究問題開始全面轉(zhuǎn)向深度學習的技術和方法,研究重心也逐漸從基礎的自動分詞、詞性標注和命名實體識別等研究,延伸至知識庫建設等更復雜的領域[10]。隨著深度學習在預訓練模型下引領自然語言處理進入新的發(fā)展階段,古文智能處理領域也跟進了較有影響力的SikuBERT預訓練模型[11],有望成為古文智能處理的新標桿。
較之前期的機器學習方法,深度學習下的表示學習能夠從文本語料中自動學習得到詞語的分布式表示特征,不再需要額外的特征工程,古文智能處理在當下也越發(fā)關注更大規(guī)模的古籍對象以及更復雜的知識挖掘任務。古籍引書全文本知識挖掘是對現(xiàn)有古文智能處理前沿技術的全面應用以及對技術邊界的拓展,目前以深度學習預訓練模型為前沿的古文智能處理技術集中于序列標注任務,尚未在古籍文本主題分類、詞義分析、情感分析、內(nèi)容生成等任務中得到較多嘗試和驗證,而這恰是古籍引書全文本知識挖掘的基礎,值得深入探索和解決。
知識表示是古籍引書全文本知識庫構建的主要內(nèi)容,其關注以何種形式表示古籍引書知識和相關屬性以及知識之間的關聯(lián)。目前,最成熟的知識表示框架源于Berners-Lee等提出的語義網(wǎng)[12]及后續(xù)的關聯(lián)數(shù)據(jù)[13],并在谷歌提出知識圖譜[14]后得到了廣泛的認可。源于語義網(wǎng)的知識表示框架以RDF(re‐source description framework)為基礎,其自提出至今不斷更新和修改,形成了圍繞三元組資源表示的語言規(guī)范[15]。作為語義網(wǎng)的發(fā)起和維護組織,W3C(world wide web consortium)面向逐漸復雜的知識表示需求,在RDF基礎上制定了包括知識建模詞表RDFS(resource description framework schema)[16]、序列化的表示語言Turtle[17]、關聯(lián)數(shù)據(jù)表示方法JSON-LD(JavaScript object notation for linked da‐ta)[18]等,同一框架下的OWL(web ontology lan‐guage)語言[19]和后續(xù)更新的OWL2語言[20]則成為專門的知識本體表示規(guī)范。國內(nèi)外重要的知識庫,如DBPedia、Schema.org、OpenKG和CN-DBPeidia等,均以語義網(wǎng)作為知識表示框架,隨著知識檢索、知識問答等人工智能應用的不斷探索,知識庫越發(fā)重要的資源價值也得到了更多領域和學科研究者的重視[21-23]。
語義網(wǎng)框架在本體構建、知識表示等多方面為古籍引書知識表示提供了較為完整的語言描述方案。對于古籍引書相關的古漢語研究、中國古代史研究、古代目錄文獻研究、古籍計算人文研究等領域來說,基于《十三經(jīng)注疏》《二十四史》等經(jīng)學、史學系列古籍構建的古籍引書全文本知識庫,可作為數(shù)據(jù)資源供相關研究者參考和使用。該知識庫以古籍引書本體為知識表示基礎,以RDF、OWL及Schema語言為框架,能夠與主流知識圖譜資源相對接,且以關聯(lián)數(shù)據(jù)形式構建結構化古籍引書知識,包含作者、書名、朝代、內(nèi)容、主題等多方面的屬性,也包含各屬性之間的引用、相似、繼承、反對等多維關聯(lián),并能夠支持知識檢索和知識問答,能夠提高古籍目錄研究、古籍版本研究、古籍散軼內(nèi)容整理等大量相關研究的資源利用效率。
古籍計算人文[6],也可稱為“人文計算”或“數(shù)字人文”,是當下令人矚目的研究熱點,相關研究發(fā)展歷程和趨勢對本文的古籍引書知識庫的應用研究具有重要的參考意義。大致起步于20世紀80年代的國內(nèi)計算人文以陳炳藻[24]關于《紅樓夢》作者的討論為代表[25-26],其研究和發(fā)展方向以計算機和信息技術為主要導向,并以面向古籍的歷史GIS(geographic information system)[27]和典籍數(shù)字化[28]研究最為鮮明。隨著自然語言處理技術的推進,計算人文得以將焦點從文本數(shù)字化逐漸轉(zhuǎn)向文本內(nèi)容。數(shù)字人文這一表述的火熱激發(fā)了學者們對這一領域更深層的思考和討論[29],在人文與技術交叉現(xiàn)象的背景下,人文對象、人文問題乃至人文學科的重要性越發(fā)得到了重視[30],以中華傳統(tǒng)文化探尋為線索的古籍計算人文研究也迎來了新的發(fā)展契機。一方面,基于古文智能處理技術的古籍文本內(nèi)容和知識挖掘如火如荼,詞法分析[31]、實體識別[32]、自動句讀[33]等領域和問題均取得了顯著的進步,而知識組織和知識庫建設也逐漸成為領域內(nèi)持續(xù)性研究的前提,典型代表有支撐唐宋時期歷史人物探索的中國歷代人物傳記資料庫(China Biographical Data‐base,CBDB)[34-35],以詞法分析和實體標注為主要內(nèi)容的《資治通鑒·周秦漢紀》知識庫[36],面向歷史事件結構化檢索的《史記·列傳》知識庫[37],面向農(nóng)史的方志物產(chǎn)知識庫[38]等。
古籍計算人文研究以文本知識挖掘和知識庫構建為橋梁,可助跨越古籍文本所固有的語言知識和字符技術門檻,其成為近年來的研究熱點是得益于知識庫構建技術的蓬勃發(fā)展。古籍計算人文研究對于知識庫的應用集中于知識的統(tǒng)計分析和可視化呈現(xiàn),因而對知識庫的結構化程度要求較高,而基于語義網(wǎng)框架的知識庫構建恰好能夠滿足這方面的應用需求;另一方面,古籍引書的計算人文視角能夠以更加直觀、樸素的方式切入傳統(tǒng)文化,通過數(shù)據(jù)分析技術獲得更加客觀、簡潔的研究結論,并以數(shù)據(jù)可視化的形式呈現(xiàn)出來,從而更契合研究成果的教育普及和大眾推廣,將傳承弘揚中華優(yōu)秀文化落到實處。
古籍引書是中國傳統(tǒng)文獻學的重要研究對象,其主要通過對引書內(nèi)容的??笨甲C,“正本清源”以幫助人們更好地理解古籍經(jīng)典。從對象來看,古籍引書研究主要關注對古籍經(jīng)典尤其是“四書五經(jīng)”的引用,相關研究可以按古籍引書類別進行簡單劃分。面向古籍辭書的引書研究以《爾雅》《說文解字》等最為常見,一般通過校勘和考證理解古籍經(jīng)書中的字詞句義。儒家經(jīng)典也是古籍引書的重要研究對象,《詩經(jīng)》被引最為常見,相關研究多以《詩經(jīng)》背后蘊含的文化傳承價值為主要內(nèi)容[39],其他先秦儒家經(jīng)典,如《尚書》[40]、《禮記》[41]、《論語》[42]的被引現(xiàn)象均得到了充分的關注,《春秋》引書研究則更多是對相關注疏所引其他古籍的考察[43]。還有研究專門以系列經(jīng)書如“五經(jīng)”或者“十三經(jīng)”為對象,以求考察引書現(xiàn)象的全貌[44]。值得注意的是,雖然發(fā)現(xiàn)和整理的難度較大,但古籍暗引的現(xiàn)象仍然得到了一定的探索[45]??梢钥闯觯瑐鹘y(tǒng)的古籍引書研究主要通過人工文獻查閱檢索,憑借個人主觀理解來解讀和評價引書內(nèi)容,也有少數(shù)研究直接關注引書背后的文化傳承現(xiàn)象,而基于大規(guī)模知識庫的數(shù)據(jù)分析和計算人文研究尚未得到太多關注。
古籍引書研究對經(jīng)典的考察日臻全面、深刻,研究對象也逐漸延伸至特殊體裁的文獻以及相對冷僻的古籍。古籍引書研究方法對引書現(xiàn)象及其背后思想價值和文化內(nèi)涵的把握和剖析較為深刻,然而大規(guī)模古籍引書之間的復雜關聯(lián)是傳統(tǒng)研究方法所難以企及的,其背后隱藏的文化傳承線索仍值得深入探究和挖掘。計算人文引入了數(shù)據(jù)計量與統(tǒng)計分析的視角,并以客觀、細實的研究結論充實現(xiàn)有古籍引書研究??偟膩碚f,該研究以古籍引書知識庫為基礎,結合引文分析等方法,靜態(tài)地判斷和評價古籍引書的影響力,動態(tài)地描繪古籍引書的生命周期,觀察系列古籍引書間的關聯(lián)全貌,發(fā)現(xiàn)少量古籍引書間的相互關系,從全文本分析視角下挖掘古籍引書文本內(nèi)容,對古籍引書主題和情感進行探索,發(fā)掘潛藏在古籍引書字里行間的文化礦脈。
知識庫在古籍引書計算人文研究中的重要地位已毋庸置疑,然而其具體技術框架仍需充分考慮古漢語典籍文本以及古籍引書研究的各種特殊之處,這也是保證計算人文研究深度和廣度的重要前提。古籍引書全文本知識庫的構建以引書知識的本體構建和知識表示為基礎,以引書知識的人工標注和自動發(fā)現(xiàn)為主要過程,以全文本標注語料庫、關聯(lián)數(shù)據(jù)庫、深度學習模型庫為主要內(nèi)容。本節(jié)圍繞上述環(huán)境闡述古籍引書全文本知識庫構建的主要框架。
古籍引書全文本知識庫以W3C知識表示體系作為技術基礎,使用RDF與OWL知識表示本體作為出發(fā)點。古籍引書本體關注古籍引用行為,面向史書引書和經(jīng)學注疏引書兩類古籍引書對象,明引和暗引兩類古籍引書行為,圍繞古籍的著錄知識、引書內(nèi)容等屬性,引用關系、著錄關系、人物關系等關系,并補充古籍引書全文本分析和數(shù)字人文研究所關注的引書計量分析數(shù)據(jù)和影響力評價指標等。具體來說,該本體將設計包括但不限于書籍、作者和引用條目三大類實體,題名、成書朝代、四部類別、思想學派、語言風格等屬性,篇章包含、直接引用、間接引用、暗引、情感評價、作者師承、內(nèi)容關聯(lián)性等關系。這階段力求準確、完整地將古籍引書相關的對象、行為、屬性、關系、計量評價、主題內(nèi)容等知識表示在同一個本體中,為后續(xù)相關的知識標注、知識庫構建以及計算人文研究提供可靠的知識來源。
基于OWL本體表示框架,使用protégé工具[46]設計古籍引書本體,圖1展示了古籍引書本體基本框架。具體來說,該本體設計了古籍引書對象、古籍引書作者和古籍引書條目三大類實體,并圍繞實體構建了七大類關系用于表示引用關系和著錄關系,描述了六種屬性用于補充古籍引書相關的其他知識,如朝代、被引頻次、引書內(nèi)容等。古籍引書本體的設計和構建先于知識標注和知識發(fā)現(xiàn),但應在此過程中逐漸完善,并在知識庫構建和后續(xù)應用研究中得到完整體現(xiàn)。
圖1 古籍引書本體示例(基于protégé)
RDF和OWL語言的優(yōu)勢在于可以將本體知識表示為XML格式的文本序列化格式,如圖2所示。這樣可以與序列化標注的文本對接,高效地利用人工和自動標注得到的古籍引書知識,并快速、準確地構建超大規(guī)模的古籍引書本體和知識圖譜。以RDF和OWL語言為基礎,可以進一步擴展更新至W3C體系下的JSON-LD或Schema知識表示框架,從而與現(xiàn)有的主流知識圖譜和知識庫資源對接,使古籍引書本體得到更廣泛的推廣和應用,并有助于該領域得到更多的關注。除此之外,古籍引書本體還支持SPARQL查詢語言,可以兼容知識查詢和推理等進一步的應用探索。
圖2 古籍引書本體的RDF/OWL序列化表示示例
構建古籍引書全文本知識庫需要面向古籍文本進行標注,以得到本體描述框架中的古籍引書相關實體、屬性和關系等。古籍引書知識標注須以人工標注工作為基礎,輔之以機器學習模型,從而實現(xiàn)超大規(guī)模語料庫的知識標注。人工標注一般需制定標注規(guī)范以保證標注的一致性,且該規(guī)范應與古籍引書本體相對應,以保證面向文本的標注結果可以自動轉(zhuǎn)換為序列化的RDF和OWL語言。基于上文的古籍引書知識本體,可以初步設計一個包含六類實體、十六類關系的知識標注規(guī)范,其中實體包括引書名稱、引書內(nèi)容、引用作者等,部分關系如表1所示。
2.PD1抑制劑:程序性細胞死亡蛋白-1(PD1)/CD279是一個CD28家族的共抑制分子。它主要在活化的CD4+和CD8+T細胞及Tregs細胞表面表達,也可以在活化的B細胞、NK細胞、單核細胞和特定的樹突狀細胞表面表達。PD1可以與其配體PD-L1和PD-L2相結合,參與調(diào)節(jié)外周T細胞的耐受性,導致T細胞增殖降低,使其失活并凋亡,形成免疫抑制的微環(huán)境。PD1抑制劑的代表性藥物是Nivolumab和Pembrolizumab,目前已經(jīng)在惡性黑色素瘤、腎細胞癌、肺癌等腫瘤的研究中有陽性結果。
表1 古籍引書標注規(guī)范示例
在標注規(guī)范的基礎上,可借助BRAT[47]標注平臺實現(xiàn)古籍引書知識的人工標注。BRAT是一個開源的可視化標注平臺,可以搭建在服務器上通過客服端訪問,實現(xiàn)多線程同步標注,極大地提高標注效率。BRAT支持自定義標注規(guī)范,并支持程序設計以實現(xiàn)在自動標注基礎上的人工校對,同時標注結果可保存為序列化形式,以便于與語義網(wǎng)RDF和OWL語言的自動轉(zhuǎn)換。圖3展示了本文引言中例1所含引書知識的標注結果,該結果包含了實體和關系兩類,格式如表2和表3所示。
表2 古籍引書知識標注格式(實體部分)
表3 古籍引書知識標注格式(關系部分)
圖3 BRAT下古籍引書知識人工標注示例
同時,序列化表示的人工標注結果易于轉(zhuǎn)換為機器學習序列化標注模型所需要的訓練語料,因此,各類引書知識可以通過命名實體識別、實體鏈接、文本分類等任務來實現(xiàn)大規(guī)模自動標注。仍以本文引言中例1為例,“虞喜志林云.南公者.道士……”一句在序列化標注模型中的表示形式如表4所示,在這一模型中,可以將引書作者、引書名、引書內(nèi)容視為不同類型的命名實體,并使用Siku‐BERT和SikuRoBERTa等古文預訓練模型構建深度學習下的命名實體識別任務,以實現(xiàn)多類別古籍引書知識的自動標注。而對于“南公者……”“南公十三篇……”兩處引書內(nèi)容,則可借助文本分類模型將其自動區(qū)分為引書原文和觀點。圖4展示了深度學習下使用句子分類任務的模型框架,其核心是通過神經(jīng)網(wǎng)絡模型自動學習得到引書內(nèi)容的向量表示,再結合句子分類模型來判斷引書內(nèi)容的具體類型。
表4 序列化標注模型中的古籍引書知識表示
圖4 深度學習下的引書內(nèi)容自動分類模型框架
值得注意的是,深度學習模型還可用于暗引內(nèi)容的自動發(fā)現(xiàn)。圖5展示了深度學習下的古籍暗引知識發(fā)現(xiàn)技術框架,基于孿生網(wǎng)絡模型這一神經(jīng)網(wǎng)絡耦合架構,可以同時獲取兩個句子的向量表示,并在高維空間中比較兩個句子向量的相似程度。由此可以判斷某一句子是否為古籍暗引的內(nèi)容,實現(xiàn)古籍暗引內(nèi)容的自動發(fā)現(xiàn)。
圖5 基于孿生網(wǎng)絡模型的古籍暗引知識發(fā)現(xiàn)技術框架
對古籍引書知識進行人工和自動標注后,即可將其自動轉(zhuǎn)換為本體知識表示所需的各類序列化文本格式,但若要以此為基礎實現(xiàn)完整的古籍引書知識庫構建,還需對標注內(nèi)容做進一步的補全和消歧,以保證知識的完整和準確。在例1中,“虞喜志林云……”一句可標注為一例引書實例,其中“虞喜”標注為引書作者,“志林”標注為引書對象,“南公者……”標注為引書內(nèi)容,“漢書藝文志云……”一句可標注為另一例引書實例,其中“漢書藝文志”標注為引書對象,“南公十三篇……”標注為引書內(nèi)容。此外,文本中引書知識之間的關系也已標注。不難發(fā)現(xiàn),由于標注知識直接源于古籍文本內(nèi)容,因此,仍有部分知識需要額外補充,如古籍《志林》的類型,虞喜所處朝代,《漢書》與《藝文志》之間篇章關系,《漢書》作者知識及所處朝代等。這部分引書知識的補全可以借助上下文標注知識相互補充,如此處“虞喜志林云”標注出《志林》的作者為虞喜,上下文中若單獨出現(xiàn)《志林》,則可以據(jù)此補充其作者“虞喜”。此外,也可以借助《漢語大詞典》等外部知識以人工方式補全。
同時,標注得到的引書知識之間可能存在指稱歧義,主要是古籍書名的同書異名和同名異書歧義[48],如《詩經(jīng)》和《詩三百》。此外,還有數(shù)量繁雜的縮略名、別名現(xiàn)象,如《左傳》與《春秋左傳》《春秋左氏傳》《春秋左氏》《左氏傳》等。古籍引書知識庫構建之前,需對引書對象即古籍書名進行有效的歧義消解,以保證知識庫中實體指稱的唯一性。引書名的歧義可以借助上下文和外部知識進行人工消解,也可以利用自然語言處理中的實體鏈接等方法進行自動消解。
本節(jié)從經(jīng)學引書、史書引書、文獻目錄學引書和詩詞歌賦引典四個方面,結合研究實例進一步描述古籍引書全文本知識庫構建的具體流程,古籍引書知識表示本體、知識標注技術以及知識補全和消歧方法已在上文詳細說明,因此,本節(jié)不在額外贅述具體過程,只在必要時做出補充,并具體闡釋各知識庫構建時的特點和難點。此外,本文在第5節(jié)進一步討論知識庫的應用前景,并在后續(xù)研究中對各類知識庫的構建和應用進行拓展。
《論語注疏》作為《十三經(jīng)注疏》之一,是注疏典籍中的經(jīng)典,也是經(jīng)學引書研究的代表對象?!墩撜Z注疏》成書于北宋時期,以魏晉何晏注和北宋邢昺疏為主體,引據(jù)典籍自先秦至隋唐,類型豐富,是儒家學說思想傳承脈絡的重要載體。
《論語注疏》引書時,大量使用作者的姓氏來指代其《論語》相關著作,如其序所言,“今謂何晏時.諸家謂孔安國.包咸.周氏.馬融.鄭玄.陳羣.王肅.周生烈也.集此諸家所說善者而存之.示無勦說.故各記其姓名.注言包曰馬曰之類是也”。
該書所引上述諸家著作形式一般為“鄭注云……”,其中“鄭注”即鄭玄所著《論語注》。其他經(jīng)典文獻,如杜預《春秋釋例》、王弼《老子注》等,也使用作者名指代。對于這類引書條目,標注了引書作者和引書內(nèi)容后,可以補全作者名、引書名等知識。而對于同一作者的不同著作,《論語注疏》引書時會有明確區(qū)分,如用形容“鄭注尚書……”明確區(qū)分于鄭玄《論語注》,避免了歧義。
《論語注疏》引書中還有一類重要的引書現(xiàn)象,形如“喪服四制引書云……”,即以《喪服四制》引用《尚書》的內(nèi)容作為引書內(nèi)容,類似于科學引文分析中的二次引用,是儒家經(jīng)典傳承脈絡的直接體現(xiàn),對于散軼古籍的自動整理和還原也大有裨益。對于此類引書條目,標注引書名的同時,需進一步標注其引用關系,以供引書知識的完整表示和知識庫的構建。此外,《論語注疏》中同一處引書條目下會出現(xiàn)多次引用現(xiàn)象,此時除首次出現(xiàn)的引書名,其余均會被省略引,如“晉灼曰……又曰……”,該例中前后兩處引書內(nèi)容均出自晉灼《漢書集注》,后一處引書內(nèi)容雖無法標注出引書或引書作者,但可以通過引書關系表示這類多次引用現(xiàn)象。
本文結合《論語注疏》的上述引書特點,利用古籍引書知識表示本體和古籍引書標注工具,通過人工標注和補全、消歧完成了《論語注疏》引書知識庫的構建。該知識庫包含引書條目1680條,如表5所示。
表5 《論語注疏》引書知識庫示例
《史記三家注》是《百衲本二十四史》所采用的《史記》版本,作為我國第一部紀傳體通史,歷代為之作注者眾多,然而現(xiàn)在大多都已亡佚,唯有南朝宋裴骃的《史記集解》、唐司馬貞的《史記索隱》和張守節(jié)的《史記正義》被保存了下來,合稱《史記三家注》。三者的成書時間不同,在注釋的側(cè)重點和完善程度上也有所差別,其中包含的引書知識十分豐富寶貴,對于古籍引書研究以及古代歷史研究都具有重要的價值。
《史記三家注》中,《史記集解》成書時間較早,因此《史記索隱》有時還會直接對《史記集解》的引書進行注解,從而形成更為復雜的引書現(xiàn)象,例如:
【集解】皇覽曰.蚩尤冢在東平郡壽張縣闞鄉(xiāng)城中.高七丈.民常十月祀之.有赤氣出.如匹絳帛.民名為蚩尤旗.肩髀冢在山陽郡鉅野縣重聚.大小與闞冢等.傳言黃帝與蚩尤戰(zhàn)於涿鹿之野.黃帝殺之.身體異處.故別葬之
【索隱】按.皇甫謐云.黃帝使應龍殺蚩尤于兇黎之谷.或曰黃帝斬蚩尤于中冀.因名其地曰絕轡之野.皇覽.書名也.記先代冢墓之處.宜皇王之省覽.故曰皇覽.是魏人王象.繆襲等所撰也
其中,《史記索隱》對《史記集解》所引《皇覽》的由來進行了解釋。從古籍引書視角來看,可以認為上述兩處引書條目都引用了《皇覽》,而《史記索隱》對《史記集解》所引《皇覽》還存在二次引用的關系,而這一現(xiàn)象可以通過文本格式自動抽取得到。
《史記三家注》引書內(nèi)容極為豐富,存在大量散軼、難考的古籍,同時異名現(xiàn)象十分豐富,本文為此參考了《史記三家注引書索引》《史記索隱引書考實》等研究專著予以補充和完善。由于引用書目種類繁多,在完成引書知識補全和消歧后,本文以“書名首字拼音的大寫字母和書名順序的數(shù)字編號”為規(guī)則,為每部引書制定了唯一的編號,并以此為基礎構建了引書知識庫,如表6所示。
表6 《史記三家注》引書知識庫示例
《四庫全書總目提要》(以下簡稱《總目》)是清代紀昀等為《四庫全書》編纂的目錄,包含了豐富的古籍目錄、傳承、版本相關知識,在規(guī)模、體制、編制能力等各方面均為歷代之最。本文不僅關注《總目》的目錄知識,還從古籍引書的視角進一步表示出其正文中出現(xiàn)的所有書目知識。以此為線索構建知識庫可以完整地表示《總目》的核心內(nèi)容,并為引書計量等后續(xù)研究提供可靠的資源。
《總目》引書以別稱和縮略最為常見,因此,書名的同名異指和異名同指現(xiàn)象較為豐富,需要進行充分的消歧處理。異名同指即同一對象具有多個別稱,常見于注疏文獻,與經(jīng)學引書中所見歧義相似,如《毛詩正義》又稱《詩正義》《毛詩》或《毛傳》。同名異指即多個對象具有同一個名稱,這在本文經(jīng)學引書中并不常見,或源于《十三經(jīng)注疏》的編寫體例和規(guī)范。但《總目》引書對象時間跨度大、類型范圍廣,因此存在較多同名異指,如《易傳》一名可指“十翼”,也可指《程子易傳》《朱子易傳》《東坡易傳》等共8部典籍。因此,《總目》引書知識標注中需要對兩類歧義進行重點消解。
此外,《總目》在書目的提要內(nèi)容中大量引用了典籍篇章名稱用于解釋書目源流。例如,在《周禮注疏》條目下有“故建都之制不與召誥洛誥合.封國之制不與武成孟子合.設官之制不與周官合.九畿之制不與禹貢合云云”。其中,《召誥》《洛誥》《武成》《周官》《禹貢》皆為《尚書》篇名。因此,知識標注和知識庫構建時需將篇章從屬關系表示完整。
本文標注《總目》全文共得到64766處引書實例,消歧后共24185種引書實體,除了通用的作者、朝代知識,還包含《總目》特有的收錄形式、部類、版本、卷數(shù)等知識,具體如表7所示。
表7 《四庫全書總目提要》引書知識庫示例
《唐詩三百首》是唐詩研究的重要對象,唐詩引典也是古詩詞研究尤其是詩詞翻譯研究的重要領域,因此,適合作為知識庫構建的對象。一方面,詩詞引典從用法和目的上均與古籍引書存在一定區(qū)別,引用對象十分靈活,既可以是人物生平、歷史事件,也可以是其他古籍、詩詞或成語。雖然知識標注仍可以沿用實體標注技術和工具,但知識補全需要進一步做分類處理。另一方面,詩詞較之一般古籍內(nèi)容結構較為特殊,一部典籍所收每首詩雖可看作篇章或者段落,但從引典的角度來看,將其作為單獨的作品對待更好,這樣才能對不同詩詞的引典現(xiàn)象進行對比分析和研究。因此,詩詞文章引典的全文本內(nèi)容無需像古籍引書那樣構建倒排索引庫,可以直接作為引書條目對待。具體的知識庫構建如表8所示。
表8 《唐詩三百首》引典知識庫示例
作為計算人文下古籍引書研究的技術和資源基礎,古籍引書全文本知識庫具有諸多應用領域和前景。
一方面,以古籍引書知識庫為基礎,利用引文分析和評價的思路和方法,可以對古籍引書進行計量分析和影響力評價,這也是計算人文下古籍引書研究的主要內(nèi)容。具體來說,圍繞古籍引書計量數(shù)據(jù),從成書朝代、古籍類型、思想學派等多個維度進行古籍引書計量以獲取高影響力古籍;利用G指數(shù)等作者評價指標,可以對古籍作者,如史學家、經(jīng)學家進行影響力評價;參考半衰期等計量指標,可以考察先秦古籍尤其是儒家經(jīng)典的持續(xù)影響力及影響力年代分布,還能從篇章角度進行對比分析,發(fā)現(xiàn)其中暗藏的思想和文化傳承線索;參考布拉德福定律,劃分古籍引書的核心區(qū),考察高影響力引書的群體分布特點以及其背后的引書傳承規(guī)律。古籍引書計量和影響力評價在于從計量數(shù)據(jù)的全貌出發(fā),獲取古籍的客觀影響力數(shù)據(jù),以提供古籍引書研究的新角度和新數(shù)據(jù)。
另一方面,以古籍引書知識庫中引書關系為主要內(nèi)容,基于引書知識之間的施引被引、耦合和同被引關系等引書關系,結合作者、朝代、類型等屬性關系,實現(xiàn)古籍引書關系網(wǎng)絡的構建,并以引書知識計量數(shù)據(jù)來確定網(wǎng)絡結點之間關系的權重。參考引文網(wǎng)絡分析方法,可以使用PageRank等算法得到引書網(wǎng)絡和作者網(wǎng)絡中引書和作者的排名,并使用這一排名進一步衡量引書和作者的影響力;根據(jù)引書網(wǎng)絡和作者網(wǎng)絡中的關系權重計算點度中心度,發(fā)現(xiàn)引用關系中頻繁出現(xiàn)的引書和作者,從而衡量其重要性和影響力;計算中介中心度發(fā)現(xiàn)引書網(wǎng)絡和作者網(wǎng)絡中的重要“中間人”,從而發(fā)現(xiàn)具有橋梁作用的古籍和作者;使用凝聚子群方法來發(fā)現(xiàn)引書網(wǎng)絡中和作者網(wǎng)絡中關系密切的小團體,探究古籍引用中的文化流派和學術團體?;谖墨I耦合關系和同被引關系的計量數(shù)據(jù),分別使用文獻耦合分析和同被引分析方法探究引書之間的相關性和主題相似性,并依此自動聚類以構建具有相同主題的引書集合,從引書主題關系的角度進行引書影響力評價。
基于古籍引書的全文本內(nèi)容,可以分析探究引書內(nèi)容,與學術文獻引用內(nèi)容分析類似,該研究不關注引書的計量數(shù)據(jù),而是關注具體的古籍引書內(nèi)容,可以從情感和主題等角度進行古籍內(nèi)容的理解和評價。這類研究主要使用自然語言處理中的文本分類和主題挖掘技術,如機器學習中LDA(latent Dirichlet allocation)主題模型,深度學習中句子向量表示模型等。借助這類文本內(nèi)容挖掘方法,可以獲取古籍引書全文本內(nèi)容中的主題、風格、思想等文化知識,以及歷史事件、人物關系、事實評價等歷史知識;可以對古籍影響力評價結果進行補充,以獲得更全面的評價結果,并結合情感分析、文本相似度分析等全文本分析思路,進一步考察古籍引書的觀點引用、數(shù)據(jù)引用、負面引用等特殊的引用現(xiàn)象。
引書內(nèi)容的情感分類即引書作者對被引古籍的態(tài)度和評價,情感類別包括贊同、中立和反對三種。參考文本情感內(nèi)容分析方法,可以使用機器學習中的SVM(support vector machine)模型和深度學習中的預訓練模型進行引書內(nèi)容的文本分類。對于情感分類的結果,可以根據(jù)引書內(nèi)容的不同類型即引書原文和觀點,進行更深入的計量分析;也可以計算引用情感類別與引書影響力、作者影響力的相關性,從而發(fā)現(xiàn)在古籍引書和傳統(tǒng)文化傳承過程中,古籍引書內(nèi)容的情感態(tài)度能夠產(chǎn)生多大程度的影響,產(chǎn)生的影響是正向的還是逆向的。
引書內(nèi)容的主題分析分為面向施引注疏文獻和面向被引古籍兩個方面。對于施引文獻來說,引用內(nèi)容主題反映注疏文獻引用古籍時所關注和使用的主題內(nèi)容,首先,基于引書知識庫中的引用內(nèi)容,可以構建引書內(nèi)容詞表并計算相應詞頻,結合TFIDF(term frequency-inverse document frequency)等特征詞抽取方法得到引書內(nèi)容主題詞語;其次,根據(jù)引書內(nèi)容語句,結合LDA主題模型求解古籍引書內(nèi)容的主題分布和每個主題的詞語分布;最后,綜合兩種方法分別獲取表征古籍引用內(nèi)容的主題詞語,并構建主題詞共現(xiàn)網(wǎng)絡,借助社會網(wǎng)絡分析方法挖掘分析引用內(nèi)容中主題詞語的關聯(lián),并藉此發(fā)掘主題詞語網(wǎng)絡中表現(xiàn)的傳統(tǒng)文化內(nèi)涵。對于被引古籍來說,引用內(nèi)容主題與被引古籍本身的主題并不一定相同,被引古籍引用內(nèi)容主題的分析方法與施引古籍相關研究方法相同,通過構建被引古籍的引用內(nèi)容主題詞語網(wǎng)絡,可以進一步計算引書影響力在不同引用內(nèi)容主題下的表現(xiàn),發(fā)現(xiàn)不同主題對引書影響力的貢獻程度,從而更深入地發(fā)現(xiàn)在古籍引用過程中、傳統(tǒng)文化傳承過程中,不同文化主題的地位及其發(fā)揮的影響力。
基于古籍引書知識庫及古籍引書影響力評價數(shù)據(jù),古籍引書的計算人文研究還可以文化傳承為線索開展。具體來說,以古籍尤其是先秦古籍和儒家經(jīng)典為對象,以《二十四史》《資治通鑒》等史書為朝代線索,以古籍引書知識為佐證材料,考察古籍中的觀點、思想和文化內(nèi)涵在朝代變化中的發(fā)展和傳承特點。以儒家經(jīng)典《論語》為例,從篇目、文本內(nèi)容、主題、情感評價等角度,綜合考察其在不同被引用的分布情況,并結合影響力等評價指標進行量化視角的數(shù)據(jù)分析,最終以可視化形式呈現(xiàn)分析結果,相關結果對接至公開的知識檢索和問答系統(tǒng),以助知識普及和文化推廣。此外,還可以利用上述主題挖掘知識開展傳統(tǒng)文化傳承內(nèi)容和脈絡的探究和梳理,藉由影響力知識、聚類知識和相關性知識等,進行主題內(nèi)容分析,將引書網(wǎng)絡擴展為主題網(wǎng)絡。從主題網(wǎng)絡出發(fā),探索主題之間關聯(lián)、傳承和影響,發(fā)現(xiàn)其中的演變規(guī)律,并以傳統(tǒng)文化為線索,對引書主題進一步整合,從中凝練出傳統(tǒng)文化的傳承和發(fā)展規(guī)律,比如,《春秋》所蘊含的儒家文化主題及其相關引書所體現(xiàn)的儒家文化傳承發(fā)展規(guī)律。文化傳承研究的重心在于對古籍引書知識庫和古籍引書計量和影響力評價結果的數(shù)據(jù)分析和可視化呈現(xiàn),為文化傳承研究提供基于數(shù)據(jù)的客觀解讀和量化結論。
基于古籍引書知識庫的全文本特點,可以面向散軼古籍整理進行輔助性的探索。實際上,目錄典籍引書和經(jīng)學注疏引書中保留了大量散軼古籍的線索,這些線索也是傳統(tǒng)文獻學研究散軼古籍的重要參考依據(jù)。許多散軼古籍以古籍引書內(nèi)容的形式分散留存在各類古籍中,人工獲取和整理的方式耗時、耗力。通過古籍引書全文本知識庫的助力,從計算人文視角探索大規(guī)模、系統(tǒng)化、自動化的散軼古籍內(nèi)容整理,對于古籍整理和保護來說具有較大的探索潛力和價值。而自動整理得到的散軼古籍內(nèi)容知識庫雖然不一定能完全還原散軼古籍本身,但對于古籍傳承脈絡探索和經(jīng)學發(fā)展等傳統(tǒng)文獻研究來說,仍然具有值得參考的資源價值。
古籍計算人文如今已成為古籍研究的重要領域,也為文獻學的重要對象——古籍引書研究賦予了新技術和方法的視角。本文從四種較為典型古籍引書類型出發(fā),關注其在引書現(xiàn)象中的共性和特點,并以知識庫的構建為落腳點,探討古籍引書研究在計算人文視角下的概念內(nèi)涵和技術框架。本文詳細描述了古籍引書全文本知識庫中的主要方法,包括知識表示、知識標注、知識補全和消歧,以四類古籍引書為例,介紹了本研究團隊在知識庫構建中的現(xiàn)狀和進展,并分析和展望了知識庫在古籍引書計算人文研究中的應用。
在未來的研究中,將以知識庫構建為核心,面向《十三經(jīng)注疏》《二十四史》等語料資源,進一步擴展和完善已有的古籍引書全文本知識庫。一方面,圍繞知識庫構建的技術框架,進一步探索引書知識的自動抽取和標注,引書內(nèi)容的自動分類和暗引內(nèi)容發(fā)現(xiàn)等任務;另一方面,以引書知識的計量分析、主題挖掘等研究為切入點,從大規(guī)模數(shù)據(jù)視角,考察和描述各類古籍的引書現(xiàn)象,發(fā)掘古籍引書計算人文研究的潛在價值。