艾毓茜,徐 健,何 琳,戚 筠
(南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095)
典籍作為記錄中華文明史的重要載體,承載著浩繁且豐富的傳統(tǒng)文化知識,對于史學(xué)與古文化知識的研究具有重要意義。傳統(tǒng)的典籍資源研究集中于古籍資源的保存、整合和利用等方面,通過開發(fā)古籍?dāng)?shù)據(jù)庫系統(tǒng),實現(xiàn)線上更新收錄資源以便利用,如《漢語古籍電子文獻知見錄》[1]、奎章閣網(wǎng)站[2]等。但這類傳統(tǒng)的典籍資源利用和開發(fā)方法,對于大規(guī)模古籍?dāng)?shù)據(jù)的深度開發(fā)和利用率較低,難以適應(yīng)人文學(xué)科研究發(fā)展[3]。
數(shù)字人文技術(shù)的蓬勃發(fā)展,為古籍文本深度開發(fā)提供了新的技術(shù)與思路,利用文本挖掘等多種中文信息處理技術(shù)可以幫助充分揭示和組織古籍?dāng)?shù)字資源,使其成為立體的學(xué)術(shù)知識庫,有效提高了古籍資源的開發(fā)利用效率[4]。如何借助數(shù)字人文技術(shù)對古籍資源進行深度挖掘與知識發(fā)現(xiàn),以便成就學(xué)業(yè)、研治古文的人使用,具有重要的學(xué)術(shù)意義與價值[5]。
為實現(xiàn)基于典籍內(nèi)容細粒度知識單元的管理、共享和重用的目的,需構(gòu)建一個面向數(shù)字人文領(lǐng)域、以典籍內(nèi)容分析為基礎(chǔ)的系統(tǒng)、全面的分類體系,以實現(xiàn)更準(zhǔn)確有效的信息檢索。已有的分類體系研究大多面向典籍的外部形式,多以典籍的載體形式[6]、記敘手法[7]和語言結(jié)構(gòu)[8]為依據(jù)進行分類,這類知識組織方法不能有效揭示典籍內(nèi)在知識信息和語義關(guān)系,分類較粗糙。隨著數(shù)字人文研究的不斷深入,對基于文本內(nèi)容的細粒度分類要求不斷提高。在此背景下,本文意圖構(gòu)建一種較為通用的典籍內(nèi)容分類體系,這一體系綜合了分面分類理念和字詞語義信息,從政治、經(jīng)濟、文化、社會和軍事5 個維度將典籍內(nèi)容進行有序的組織與揭示。
知識單元是知識領(lǐng)域中知識控制與處理的基本單位,是一切知識管理活動的前提和基本對象[9]。在自然語言處理中,語義組織是對知識單元間的語義關(guān)系進行描述,并進行存儲以便交流和傳遞,其目的是通過各種數(shù)字人文技術(shù),將非結(jié)構(gòu)化的文本數(shù)據(jù)資源轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并將數(shù)據(jù)間的語義關(guān)系通過敘詞表、元數(shù)據(jù)、本體等多種方式進行組織,以實現(xiàn)數(shù)據(jù)的關(guān)聯(lián)化和智能化[10],可以認(rèn)為語義組織關(guān)系著信息服務(wù)和信息共享的質(zhì)量和水平。面向數(shù)字人文領(lǐng)域的語義組織主要包括知識建模和知識抽取兩個方面。
知識建模通過對知識單元的結(jié)構(gòu)化、模型化表達,實現(xiàn)文本數(shù)據(jù)知識的語義化和共享化。傳統(tǒng)知識建模以分類敘詞表為主,早期多通過手工標(biāo)引的方式,進行知識組織,如 《歷代進士登科數(shù)據(jù)庫》[11]。隨著數(shù)字人文技術(shù)的發(fā)展,利用分詞、詞性標(biāo)注、命名實體識別、文本挖掘等自然語言處理技術(shù),有效實現(xiàn)對大規(guī)模數(shù)據(jù)資源的語義組織,可以快速抽取出典籍?dāng)?shù)據(jù)資源中的人名、地名、官職等信息[12],豐富了實體間關(guān)系的表示方式及更廣泛的知識組織,為數(shù)字遠讀奠定了基礎(chǔ)。
在數(shù)字人文領(lǐng)域,知識抽取主要用于識別大規(guī)模數(shù)據(jù)資源中潛藏的知識及其之間的語義關(guān)系,目前主要有基于規(guī)則匹配和基于機器學(xué)習(xí)兩種方法。其中,基于規(guī)則匹配的方法通過人工對文本資源進行特征分析,以相應(yīng)的領(lǐng)域知識為基礎(chǔ)構(gòu)建正則表達式,從而實現(xiàn)基于規(guī)則的知識抽取,如CBDB 項目[12]中領(lǐng)域?qū)<乙韵鄳?yīng)領(lǐng)域知識為背景,針對墓志銘等設(shè)計知識抽取正則表達式;丁君軍等[13]針對學(xué)術(shù)文獻中的概念屬性描述,構(gòu)建描述規(guī)則用以抽取學(xué)術(shù)概念屬性。而基于機器學(xué)習(xí)的方法通過對少量語料數(shù)據(jù)進行標(biāo)注,訓(xùn)練模型,以實現(xiàn)對大量文本的自動抽取,如意大利自然語言處理實驗室設(shè)計的LinguA、READ-IT、T2K 等工具,以實現(xiàn)文本標(biāo)注、命名實體識別、可視化[14]。
典籍作為文化傳承的重要載體,如何有效組織和利用典籍一直都是人文學(xué)者研究的重點之一。類書作為典籍的薈萃,將某一門類的古籍通過一定的方法加以組織以便尋檢和征引,從魏晉南北朝的 《皇覽》 到明清時期的 《永樂大典》,對文獻保存和學(xué)術(shù)研究起到了重要作用[15]。
20 世紀(jì)末,隨著計算機技術(shù)的發(fā)展,中文古籍?dāng)?shù)字化逐漸成為國內(nèi)典籍研究的重點。在典籍?dāng)?shù)字資源組織方面,王依民先生將傳統(tǒng)文獻學(xué)與數(shù)字技術(shù)相結(jié)合,提出 “數(shù)字文獻學(xué)”概念,研究涉及古籍文史資源的保存、整合、加工、傳播和利用等方面[6]。此后,有學(xué)者提出 “古籍電子文獻學(xué)”,從古籍?dāng)?shù)字資源的分類與導(dǎo)航、古籍聯(lián)合目錄和古籍?dāng)?shù)字資源的評價研究3個方面,展開對古籍?dāng)?shù)字資源的目錄學(xué)的研究[7]。為適應(yīng)大規(guī)模典籍?dāng)?shù)據(jù),學(xué)者們根據(jù)古籍?dāng)?shù)據(jù)資源分散、形式多元、數(shù)據(jù)格式多樣等特點,建立多種估計數(shù)據(jù)庫導(dǎo)航系統(tǒng),如 《漢語古籍電子文獻知見錄》[1]、奎章閣網(wǎng)站[2]等,在實現(xiàn)線上更新收錄資源的同時,提高與用戶的交互性。
隨著典籍分類體系的深入研究,單一的使用 《中圖法》 或 《四庫法》 進行典籍分類組織,無法將典籍的表象主題與深層主題進行有效結(jié)合,研究者開始將分面分類法引入典籍分類研究中。羅艷秋等[16]在綜合分析民族醫(yī)藥典籍內(nèi)容特征的基礎(chǔ)上,結(jié)合 《中國中醫(yī)古籍總目》,對民族醫(yī)藥古籍進行分類組織,共劃分11 個大類,并進一步細分三到四級小類以便使用。李娜等[17]以 《方志物產(chǎn)》 山西卷為研究對象,從物產(chǎn)、土產(chǎn)、食貨、方產(chǎn)等方面對 《方志物產(chǎn)》 中的物產(chǎn)西信息進行分類組織,實現(xiàn)了物產(chǎn)類目信息的智能完善。而針對古籍?dāng)?shù)據(jù)庫,張力元等[6]提出利用分面分類法,構(gòu)建古籍?dāng)?shù)據(jù)庫分面分類體系,包括主題、類型、建置主體、格式、權(quán)限和地區(qū)等6 個維度,在粗粒度層面對現(xiàn)有古籍?dāng)?shù)據(jù)庫資源進行了組織。
早期的典籍研究多以典籍詞匯研究為主。古籍詞匯研究始于漢代,學(xué)者在古籍的注疏中解釋古代語詞,如《爾雅》 《說文解字》 等,為后人研究奠定了基礎(chǔ)[18]。目前多集中于詞匯系統(tǒng)的發(fā)展、新詞的產(chǎn)生與變化、詞義演變以及構(gòu)詞法的發(fā)展等領(lǐng)域。社會制度、環(huán)境的演變使得詞匯數(shù)量增多,典籍文本中詞匯的變化反映著社會情況的變化,通過分析詞匯發(fā)展脈絡(luò)借以分析社會發(fā)展的情況[19,20]。
以詞匯研究為基礎(chǔ),國內(nèi)外學(xué)者面向典籍的文本內(nèi)容展開了事件抽取、主題挖掘及相關(guān)知識組織研究。RYAN 等[21]對中國古代和中世紀(jì)的500 多萬字的語料庫進行主題建模,從相交主題和不相交主題兩個角度,對《論語》《孟子》和《荀子》的競相關(guān)系進行了解釋。彭煒明等[22]在實例挖掘的基礎(chǔ)上,提出采用模式驅(qū)動的方式,構(gòu)建 《資治通鑒》 歷史領(lǐng)域本體,以實現(xiàn)對《資治通鑒》 先秦史部分的深度開發(fā)。何琳等[4]利用詞匹配算法抽取特征詞語料,然后使用LDA 主題模型對語料進行處理,并結(jié)合相關(guān)時間信息進行主題強度計算,從盟會、禮儀、戰(zhàn)爭、權(quán)力斗爭和周禮治國等主題入手,對春秋時期社會發(fā)展態(tài)勢進行了分析。
綜上所述,本文借鑒分面分類思想,以語義組織中知識建模和知識抽取的方法和技術(shù)為支撐,提取典籍?dāng)?shù)據(jù)中的概念及其關(guān)系,從細粒度知識單元語義信息的層面對典籍內(nèi)容進行組織和揭示。面向典籍內(nèi)容分析的分類體系的構(gòu)建可以突破典籍?dāng)?shù)量、體裁和種類的限制,有效地從典籍中抽取相關(guān)特征,為成就學(xué)業(yè)、研治古文的人刪繁取要,進而推動對典籍內(nèi)容的研究。
典籍?dāng)?shù)字資源與文化傳承及其相關(guān)活動密切相關(guān),因此具有一定的領(lǐng)域獨特性:①文化性,典籍資源產(chǎn)生于中華民族歷史社會中的某一特定時期,一定程度上反映了當(dāng)時環(huán)境下人類的人文、歷史、藝術(shù)等情況,是國家和民族的文化積淀。②延續(xù)性,典籍資源記錄了中華文明發(fā)展的歷史進程,即使其所記錄為數(shù)千年前之事,研究者們?nèi)耘f可以通過保存的典籍資源去發(fā)現(xiàn)歷史奧秘。③分散性,典籍資源涉及的信息涵蓋社會、經(jīng)濟、政治、軍事、文化等多個領(lǐng)域,且分布廣泛,很難在一部典籍中獲得全部信息。④繁雜性,典籍?dāng)?shù)據(jù)資源的語義和形式都很復(fù)雜,且古漢語與現(xiàn)代漢語表達結(jié)構(gòu)有很大差別。
針對典籍?dāng)?shù)據(jù)資源的以上特性,在構(gòu)建面向典籍內(nèi)容分析的分類體系時,需充分考慮典籍資源中數(shù)據(jù)的語義和形式特征,而分面分類法可以很好地根據(jù)不同的方面和范疇對數(shù)據(jù)進行有效劃分,通過多個組合表達復(fù)雜主題[23],因此本文利用分面分類法,考慮到分類體系的易用性,采用 “分面-類目”結(jié)構(gòu),以實現(xiàn)對典籍內(nèi)容多維度的組織與揭示。
本研究所構(gòu)建的典籍分類體系研究對象為典籍內(nèi)容數(shù)據(jù),而典籍的類型、編撰時間及其社會背景決定了典籍的內(nèi)容。由于歷史典籍一詞多義現(xiàn)象嚴(yán)重、文本短、缺乏結(jié)構(gòu)性,且在大量的古代用詞,與現(xiàn)代常用詞難以對應(yīng),因此本文廣泛收集與歷史典籍相關(guān)的主題詞表和詞典,如與 《左傳》 相關(guān)的楊伯峻 《春秋左傳詞典》 等,這些詞典是由專業(yè)人士編制的成熟的詞典,一定程度上保障了信息準(zhǔn)確性和有效性。在選詞過程中,以詞典中的詞釋義為主要依據(jù),通過對詞的釋義進行解析,對詞進行分類,并從相關(guān)歷史典籍如 《公羊傳》 《史記》 等中進行抽詞,從而保證自然語言環(huán)境下可以用典籍中的詞語進行檢索。
為確定面向典籍內(nèi)容分析的分類體系的具體分面,本研究結(jié)合 《中圖法》 并參考相關(guān)古籍分類與內(nèi)容分析研究文獻,以深入知識單元的詞義為主要分類依據(jù),確定最能有效描述與劃分典籍?dāng)?shù)據(jù)的類別維度為:政治、經(jīng)濟、文化、社會、軍事。
概念體系的建立以一般敘詞表的概念間邏輯關(guān)系為基礎(chǔ),采用分類法編制標(biāo)簽分類索引,來表示詞間的等級關(guān)系和屬性關(guān)系。通過對詞典中的詞數(shù)據(jù)進行初步標(biāo)引,對每個大類下各小類進行簡單劃分,采用自下而上和自上而下相結(jié)合的方法,構(gòu)建基于詞典和史籍的分類體系的概念語義網(wǎng)絡(luò)。
K-means 聚類算法自上世紀(jì)50 年代被提出后,廣泛應(yīng)用于不同學(xué)科領(lǐng)域的聚類劃分[24]。K-means 算法通過反復(fù)迭代,從初始K 個類別開始計算,分別將數(shù)據(jù)劃分至已知類別,并重新計算類別中心,最終使得各類別總距離平方和趨于最小值[25]。K-means 算法具有簡單、高效等優(yōu)勢,且類別個數(shù)K 值可通過人工指定,因此本文利用K-means 算法,本研究根據(jù)分類框架設(shè)計二級類目,對楊伯峻的 《春秋左傳詞典》 以詞釋義為文本相似度計算對象,并引入 《漢語大詞典》 對釋義進行擴展,對詞頭進行分類,以實現(xiàn)面向典籍內(nèi)容分析的分類體系二級類目的劃分。其中相似度計算分為兩部分:①分詞后利用TF-IDF 計算詞向量間的相似度,相似度超過閾值(0.3),即認(rèn)為兩個詞屬于同類詞。②若A 詞的詞頭出現(xiàn)于B 詞的釋義中,認(rèn)為A、B兩詞為同義詞。
算法中K 值設(shè)置為6,迭代次數(shù)為10 000,即分類結(jié)果共輸出6 類。觀察輸出結(jié)果,為其中5 類賦予最接近的類名:政治、經(jīng)濟、文化、社會、軍事,第六類為手工分類的補充數(shù)據(jù)。觀察第一次聚類結(jié)果后,對賦予類名的5 類詞進行簡單篩選,將不屬于當(dāng)前類的詞剔除至作為手工分類補充數(shù)據(jù),分別對5 個類別進行二次聚類。對第二次聚類結(jié)果進行簡單篩選后,參考相關(guān)研究文獻,設(shè)計二級類目。
面向典籍內(nèi)容分析的分類體系主要包括概念和概念間語義關(guān)系兩部分。在本文構(gòu)建的分類體系中,可以通過詞釋義對概念范圍進行規(guī)范,用于語義關(guān)系的構(gòu)建和組織。
3.5.1 等同關(guān)系
在詞典編纂時,編者需要對詞做必要的解釋以便使用者了解其含義,在此過程中,多利用已知的同義概念即同義詞對新概念進行綜合性描述。因此在古代社會畫像標(biāo)簽體系的構(gòu)建中,可以利用詞典中詞定義,獲取同義詞以完善詞間等同關(guān)系。主要通過以下3 種途徑。
(1)如果存在兩個詞A 詞和B 詞,A 詞的詞頭出現(xiàn)于B 詞的釋義中,且B 詞的詞頭出現(xiàn)于A 詞的釋義中,即這兩個詞可以形成詞頭-詞釋義的映射,那么認(rèn)為A、B 兩詞為同義詞。
(2)通過觀察語料,發(fā)現(xiàn)在 《春秋左傳詞典》 中,這種利用同義詞作術(shù)語詮釋時,通常會運用特定的指示詞,如“同”“見”“即”“又稱”“或稱”“參”“亦作”“亦稱”“猶言”“借為”等。利用模式匹配的方法,根據(jù)上述語言標(biāo)志尋找詞典中的同義詞。如表1 所示,“甸”——“甸服”“幣帛”——“幣钄”分別為一組同義詞。
表1 同義詞示例Table 1 Examples of synonyms
(3)對詞釋義分詞后利用TF-IDF 計算詞向量間的相似度,若存在兩個詞,其詞向量間相似度超過閾值,即認(rèn)為這兩個詞是同義詞。
3.5.2 相關(guān)關(guān)系
基于文本獲得相關(guān)關(guān)系時,通常通過計算兩個詞向量在多維空間中的距離來進行分析。Word2Vec 作為計算詞間距離的重要方法,也被稱為“Word Embedding”,可以將字詞轉(zhuǎn)化為向量的形式并用詞向量的方式表征詞的語義信息。通過將單詞從原先所屬的空間嵌入到一個多維空間里,使得語義上相似的單詞在該空間內(nèi)呈現(xiàn)較近的距離,該過程實質(zhì)上即是一個映射[26]。
在現(xiàn)代語言環(huán)境下,語言表述具有一定的結(jié)構(gòu)性,Word2Vec 可以很好地處理結(jié)構(gòu)化文本以發(fā)現(xiàn)文本內(nèi)容中的同義詞,但相對于古文這種一詞多義現(xiàn)象嚴(yán)重、文本短、缺少結(jié)構(gòu)化的文本,Word2Vec 可以更多的用于發(fā)現(xiàn)相關(guān)詞,以補充詞間相關(guān)關(guān)系。通過對相關(guān)典籍語料進行分詞后,去除特殊字符及停用詞,利用Word2Vec 訓(xùn)練模型,計算詞間相似度后,抽取詞間相似度高于閾值的詞,認(rèn)為抽取出來的詞組具有一定的相關(guān)度。
本研究構(gòu)建的面向典籍內(nèi)容分析的分類體系如圖1所示。分類體系共設(shè)置5 個分面,分別表示典籍內(nèi)容數(shù)據(jù)的5 個維度:政治、經(jīng)濟、文化、社會和軍事。研究者可根據(jù)分面和類目實現(xiàn)對典籍內(nèi)容的快速檢索。
圖1 面向典籍內(nèi)容分析的分類體系框架Fig.1 Classification system framework for content analysis of ancient books
歷史研究中,通常以史籍為重要研究依據(jù),而史籍記敘以國家大事為主,如 《春秋》 《史記》 等,因此政治分面極大程度上反映了典籍內(nèi)容的社會背景信息。本文將典籍?dāng)?shù)據(jù)的政治分面歸納為國家外交、律法及政權(quán)更迭等類目。其中外交為國家或證權(quán)對外交流情況,具體包括朝見、盟會、盟約、聘問、議和、斷交、賄賂、人質(zhì)等方面;律法為國家或證權(quán)對內(nèi)管理情況,具體包括基本法、刑法、法典以及訴訟等方面;朝代更迭則反映了國家或政權(quán)變遷情況,具體包括治國政務(wù)、新皇即位、政令發(fā)布、政變叛亂、逃亡和國家遷移等方面。
經(jīng)濟分面揭示了典籍記敘內(nèi)容的社會經(jīng)濟情況,本文將經(jīng)濟分面歸納為農(nóng)業(yè)、工業(yè)、商業(yè)、手工業(yè)和養(yǎng)殖業(yè)等類目。其中農(nóng)業(yè)數(shù)據(jù)包括農(nóng)作物、非農(nóng)作物和農(nóng)用器具;工業(yè)包括工業(yè)過程使用的材料、工藝、器具以及生產(chǎn)的工業(yè)產(chǎn)品等;商業(yè)包括市場流通過程中使用的貨幣及對應(yīng)產(chǎn)業(yè)數(shù)據(jù);手工業(yè)則涉及具體的手工材料、工藝以及手工產(chǎn)品等;養(yǎng)殖業(yè)則為生產(chǎn)養(yǎng)殖涉及的牲畜、禽鳥、水產(chǎn)等信息;建筑業(yè)專指建筑材料及工藝。
文化作為典籍研究的核心基礎(chǔ),對政治、經(jīng)濟有潛在的長期作用,本文將文化分面歸納為建筑、天文、歷算、醫(yī)學(xué)、文學(xué)、藝術(shù)及民俗信仰等類目。其中建筑專指古建筑類型,包括宗廟、宮殿、門、亭臺等,具體建筑名稱分別在對應(yīng)的小類中進行描述;天文和歷算多用作占卜、祭祀等,具體包括星象、天文現(xiàn)象、天像、節(jié)氣和時間等方面;醫(yī)學(xué)專指醫(yī)學(xué)典籍?dāng)?shù)據(jù),具體包括醫(yī)藥、病理等;文學(xué)以文學(xué)典籍、典籍載體和文學(xué)理論為主;藝術(shù)主要為舞蹈和樂曲,還包括棋、畫、狩獵等休閑活動;民俗信仰則進一步分為信仰類、活動類和飲食習(xí)慣等,其中信仰包括宗教、禁忌和倫理道德等方面,活動類以婚、喪、祭祀、節(jié)日和宴席等活動形式為主。
社會分面特指典籍中所記敘的社會習(xí)俗等信息,根據(jù)反映的社會活動形式對典籍?dāng)?shù)據(jù)進行劃分。具體包括婚喪嫁娶、祭祀、風(fēng)俗、生育以及社交等方面,利用典籍中這些社會活動中涉及的風(fēng)俗習(xí)慣、禮儀、器具等數(shù)據(jù)進行表征。
中華民族歷經(jīng)23 個朝代、近千位君王,歷史變遷中軍事始終占據(jù)的重要地位,因此軍事分面是歷史研究中重要的組成部分。典籍?dāng)?shù)據(jù)中的軍事分面具體包括軍人、軍職、軍制、軍備、戰(zhàn)爭、兵法等類目,其中軍人、軍職等類目從實體維度進行組織,而戰(zhàn)爭則是從時間維度進行組織,具體包括戰(zhàn)前軍事儲備力量、戰(zhàn)中使用兵法策略、戰(zhàn)后交戰(zhàn)雙方勝負(fù)和領(lǐng)土歸屬等方面。
本文構(gòu)建的面向典籍內(nèi)容分析的分類體系框架不僅涉及政治、經(jīng)濟等社會科學(xué)領(lǐng)域,還涵蓋了文學(xué)、宗教等人文學(xué)科知識。此分類體系可應(yīng)用于典籍?dāng)?shù)字資源的深度開發(fā)利用,以文本內(nèi)容為基礎(chǔ),從典籍的分類組織、知識導(dǎo)航和分析利用等方面為研究者提供便利。
現(xiàn)有的典籍資源組織系統(tǒng)如古籍全文數(shù)據(jù)庫、書目數(shù)據(jù)庫和索引數(shù)據(jù)庫,大多從從典籍的外部特征與主題角度對典籍?dāng)?shù)據(jù)進行組織和描述,缺少對于典籍內(nèi)容特征及內(nèi)在知識的組織。分類體系是學(xué)科知識組織與利用的框架,以分類體系為基礎(chǔ)構(gòu)建的分類表可系統(tǒng)地將知識資源加以分類組織,再通過瀏覽的方式逐層遍歷,以選擇需要的信息或資源。采用面向典籍內(nèi)容分析的分類體系對典籍?dāng)?shù)字資源進行分類標(biāo)引,將文本內(nèi)容與其內(nèi)在知識、語義相結(jié)合,對典籍資源進行知識層面的組織,可以幫助深度整合典籍資源,實現(xiàn)基于知識內(nèi)容的典籍?dāng)?shù)據(jù)組織和基于語義的典籍信息檢索。
數(shù)字人文技術(shù)的發(fā)展,為典籍文本智能標(biāo)注、語義分析、知識挖掘和數(shù)字化地圖建設(shè)等智能導(dǎo)航提供了技術(shù)支持[27]。面向典籍內(nèi)容分析的分類體系以規(guī)范數(shù)據(jù)為數(shù)據(jù)基礎(chǔ),從細粒度知識語義角度出發(fā),對典籍內(nèi)容進行重新組織,并利用規(guī)范數(shù)據(jù)對典籍中的實體信息提供參考,可以為讀者提供典籍知識導(dǎo)航,降低閱讀難度,幫助讀者理解和利用典籍?dāng)?shù)字資源。
典籍資源涉及時間跨度長、學(xué)科范圍廣,傳統(tǒng)的文獻細讀方式效率較低,不適用于大規(guī)模典籍?dāng)?shù)據(jù)的開發(fā)利用。借助數(shù)字人文理論與技術(shù),利用面向典籍內(nèi)容分析的分類體系,可以有效挖掘典籍文本中潛藏的知識和規(guī)律,并進行清晰、直觀的分析和展示。
筆者將分類體系應(yīng)用于古籍文本內(nèi)容分析,基于用戶畫像技術(shù)和數(shù)字遠讀技術(shù),以本文構(gòu)建的分類體系為基礎(chǔ),利用多種文本挖掘技術(shù)對典籍文本進行多維度特征抽取,通過構(gòu)建和分析古代社會畫像,全景化呈現(xiàn)社會發(fā)展?fàn)顩r,幫助研究者快速獲得古代社會概貌[28]。
典籍?dāng)?shù)字化資源的出現(xiàn),對于中華文化的傳承與研究具有重要意義。隨著典籍?dāng)?shù)字資源的不斷深入開發(fā)和利用,傳統(tǒng)的知識組織方式多以典籍外部載體形式特征為主,不能有效揭示典籍內(nèi)在知識信息和語義關(guān)系,在一定程度上限制的學(xué)者對典籍資源的開發(fā)利用深度,同時在研究過程中浪費了大量的時間和精力。
本研究試圖從細粒度知識單元語義信息的層面對典籍內(nèi)容進行組織和揭示,提出基于典籍內(nèi)容分析的分類體系,從政治、經(jīng)濟、文化、社會和軍事5 個維度將典籍內(nèi)容進行重新組織與揭示,以期幫助研究者快速分析典籍內(nèi)容,提高典籍?dāng)?shù)字資源的利用效率。但本文提出的分類體系框架具體分面與類目尚不完善,在分類實踐中需考慮到具體分類目的、分面組配方式和分類深度等問題,需要更多的典籍?dāng)?shù)據(jù)及人文學(xué)者的意見進行細化和修訂。