引書的自動識別及文獻(xiàn)計量學(xué)分析

2021-12-28 01:26:18黃水清彭秋茹王東波

情報學(xué)報 2021年12期

黃水清，周好，彭秋茹，王東波

（1. 南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院，南京 210095；2. 南京農(nóng)業(yè)大學(xué)領(lǐng)域知識關(guān)聯(lián)研究中心，南京 210095）

1 引言

自1955 年Garfield[1]系統(tǒng)地提出引文分析思想以來，經(jīng)過60 余年的發(fā)展，引文分析法已成為文獻(xiàn)計量學(xué)中系統(tǒng)而成熟的分析方法，并被推廣應(yīng)用于知識發(fā)現(xiàn)領(lǐng)域[2]。然而，在以漢語文獻(xiàn)為對象的計量分析中，引文分析法多針對現(xiàn)代漢語文本，而對古籍文本的研究相對較少。漢語古籍文本承載著豐厚的傳統(tǒng)文化，是歷史和現(xiàn)實(shí)之間的橋梁。與現(xiàn)代漢語文本一樣，單篇（部、冊）的漢語古籍文本并不是孤立存在的，文本與文本之間存在著千絲萬縷的聯(lián)系。古人在撰寫著作的過程中常常旁征博引，只是形式上不符合當(dāng)代學(xué)術(shù)期刊的引用規(guī)范，即古籍文本之間存在事實(shí)上的引用關(guān)系。引書就是古籍文本中旁征博引的表現(xiàn)形象，是古籍文本中的被引文獻(xiàn)，其引用形式雖不及現(xiàn)代文獻(xiàn)規(guī)范，但作用基本類似。

目前，關(guān)于引書并沒有真正的從引文分析法入手開展研究的成果，而是多采用“因書究學(xué)”的研究方法?！耙驎繉W(xué)”著重于研究知識傳承、學(xué)術(shù)脈絡(luò)等，忽視了引書在“量”（如引文量、共引量、共現(xiàn)量等）方面的特征。李夢姣[3]對《文選》人工逐卷標(biāo)注引書，在此基礎(chǔ)上總結(jié)和分析了《文選》的引書特點(diǎn)，并從文獻(xiàn)學(xué)意義上探討《文選》引書的價值。張麗[4]梳理了《分門古今類事》的引書，包括作者、內(nèi)容、性質(zhì)、流傳以及版本在內(nèi)的各項(xiàng)內(nèi)容，并對不同版本之間引書的異文情況以及部分引文進(jìn)行了校訂，并且考察了其中所引的佚書。類似的研究還有許多，這些研究把單部古籍的引書研究得非常細(xì)致透徹；然而，知識不是孤立存在，而是共生的[5]。古籍文本之間通過引書建立起了千絲萬縷的聯(lián)系，有必要進(jìn)行整體考察。馬創(chuàng)新等[6-7]利用XQuery（XML query）和SQL（structured query lan‐guage）查詢抽取了《十三經(jīng)注疏》中的注疏文獻(xiàn)及上下文，統(tǒng)計了其中注疏的數(shù)量分布，分析了注疏的特點(diǎn)以及耦合和同被引現(xiàn)象，進(jìn)而評估了注疏文獻(xiàn)的影響力。從數(shù)據(jù)上看，馬創(chuàng)新等[6-7]抽取得到的注疏文獻(xiàn)量大大低于本文針對對應(yīng)典籍識別出的引書條目數(shù)。馬創(chuàng)新的研究是結(jié)合信息處理手段對古籍文本的注疏進(jìn)行量化分析的有益嘗試，但總體處于初步階段，只涉及注疏這樣一種引書類型，并沒有真正把引書作為研究對象。由上述引書的研究可以看到，大多數(shù)的研究仍聚焦在微觀知識層面的引書統(tǒng)計、考證、歸類、辨析等，具有一定的研究深度；然而，很少有利用引文分析方法，從整體角度探尋古籍之間的聯(lián)系。前人的研究奠定了引書研究的基礎(chǔ)，對本文的研究具有一定的借鑒意義和價值。

數(shù)據(jù)的獲取是引文分析的第一步，也是最基礎(chǔ)的工作。不同于現(xiàn)代漢語文本中的參考文獻(xiàn)有統(tǒng)一的著錄格式，古籍文本中的引用以多種形式散布于文中。前人的研究中，獲取引書條目主要依賴于人工逐卷逐字的閱讀。然而，面對浩如煙海的古籍，純?nèi)斯げ僮黠@然單薄無力。對于大規(guī)模甚至超大規(guī)模的古籍文本語料來說，想要深度挖掘其中的相互引用關(guān)系，通過人工逐本逐卷標(biāo)注顯然是不現(xiàn)實(shí)的。引書條目中的引書名稱，從自然語言處理的角度來看，屬于命名實(shí)體的范疇，因此，可采用命名實(shí)體自動識別技術(shù)抽取古籍文本中的引書名稱，有效地解決大規(guī)模古籍文本引書語料難以構(gòu)建的問題[8]。目前，對于中文命名實(shí)體的抽取，不論是之前依賴人工標(biāo)注的基于統(tǒng)計的機(jī)器學(xué)習(xí)方法，還是現(xiàn)在的從數(shù)據(jù)中自主學(xué)習(xí)的深度學(xué)習(xí)方法，國內(nèi)都已經(jīng)取得了較為滿意的結(jié)果，且涉及的領(lǐng)域較多。在針對現(xiàn)代文本的命名實(shí)體識別中，近兩年的研究主要集中在直接使用深度學(xué)習(xí)方法或者基于統(tǒng)計的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)識別效果的對比。王東波等[9]對比了Bi-LSTM-CRF、CRF（conditional random field）和 Bi-LSTM （bidirectional long short-term memory）三種模型在識別數(shù)據(jù)科學(xué)招聘實(shí)體中的表現(xiàn)。相較于另外兩種模型，融入CRF 的Bi-LSTM 模型的準(zhǔn)確率、召回率以及F值的均值均超過91%，能夠更有力地保證識別的效果。黃煒等[10]基于Bi-LSTM 和Bi-LSTM-CRF 模型，進(jìn)行了兩組關(guān)于識別涉恐信息實(shí)體的對比實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果來看，加入考慮字符之間關(guān)聯(lián)性的Bi-LSTM-CRF 模型取得的效果更優(yōu)，準(zhǔn)確率與召回率均高達(dá)90%以上。在對古代漢語文本的命名實(shí)體識別中，基于CRF 模型在過去的研究中已經(jīng)取得了較好的效果，例如，李娜[11]在對方志類古籍別名的自動抽取實(shí)驗(yàn)中，CRF 模型的精確率達(dá)到了93.52%?；谏疃葘W(xué)習(xí)的模型，在古漢語中也有初步嘗試。高甦等[12]采用Bi-LSTM-CRF 對《黃帝內(nèi)經(jīng)》中的5 種實(shí)體進(jìn)行識別，在對各個模型識別性能比對的過程中，F(xiàn)值最高的是Bi-LSTM-CRF 模型，比CRF 模型的F值上升了接近10%。上述分別基于CRF、Bi-LSTM、Bi-LSTM-CRF 模型在不同領(lǐng)域進(jìn)行的各項(xiàng)實(shí)體抽取研究均取得了良好的識別效果，為本文利用這三種模型進(jìn)行引書條目的自動識別研究奠定了基礎(chǔ)，也是本文選擇這三種模型進(jìn)行實(shí)驗(yàn)的原因。

在古籍文本的引書語料構(gòu)建完成后，即可借助引文分析法對古籍文本的引書開展量化研究。相較于文獻(xiàn)學(xué)、訓(xùn)詁學(xué)等單純的“因書究學(xué)”引書研究方法，引文分析法能夠把隱藏在古籍文本中的引用關(guān)系量化，并揭示文本與文本之間的隱性關(guān)聯(lián)。同時，隨著對引文研究的深入，這些研究成果逐步形成了體系。除了引文分析法之外，還有引文內(nèi)容分析、引用行為分析等。其中，在引用行為的研究中，又可細(xì)分為引用動機(jī)、引用功能和引用偏好等研究。引用行為，實(shí)際上屬于信息行為的一種。關(guān)于引用行為的研究，一直存在兩個互相競爭的理論，一個是規(guī)范理論（normative theory），另一個是社會構(gòu)建論（social constructivist view）。前者主張引用是為了認(rèn)同前人的工作，是一種知識的傳承[13]；后者則主張引用僅是一種為了說服讀者、增強(qiáng)其觀點(diǎn)可信度的工具[14]。目前，學(xué)術(shù)界對引用行為的實(shí)證研究主要根植于這兩種不同的研究方法。其研究對象仍以期刊論文為主，關(guān)于中文圖書類的引用行為研究較少，尤其是對古代漢語典籍的相關(guān)研究比較缺乏。在以現(xiàn)代漢語圖書為研究對象的關(guān)于引用行為的研究中，主要通過兩種方法開展研究。一是利用具體的引文內(nèi)容特征，通過研究引文內(nèi)容的位置、引用次數(shù)、引文的上下文等來揭示引用行為。例如，章成志等[15]對39 本學(xué)術(shù)專著人工構(gòu)建引用語料庫，并分別從引用位置、引用次數(shù)以及引文上下文特征3 個層面分析學(xué)術(shù)專著的引用行為。二是通過訪談法或問卷調(diào)查法直接解讀作者的引用行為[16]。由于現(xiàn)代圖書和古代圖書的相似性，現(xiàn)代中文類圖書的研究方法對古籍的研究有可借鑒之處。但由于本文的側(cè)重點(diǎn)在于引書的文獻(xiàn)計量學(xué)分析，尚未涉及對引書具體引用內(nèi)容的分析，因此，關(guān)于引用行為的研究只是從通過可量化的引用指標(biāo)和相關(guān)背景知識方面進(jìn)行初探。

本文把引書當(dāng)作一種特殊形式的引用文獻(xiàn)，將引文分析法應(yīng)用于引書研究。首先，利用古文信息處理技術(shù)從古籍文本中獲取與引書有關(guān)的數(shù)據(jù)。把引書名稱當(dāng)作命名實(shí)體，在人工標(biāo)注訓(xùn)練語料的基礎(chǔ)上，通過機(jī)器學(xué)習(xí)等方法，自動識別出古籍文本中的引書條目。然后，對引書做量化分析，計算引書的各項(xiàng)引文計量指標(biāo)，展示古籍文本之間可量化的引證關(guān)系，并依據(jù)各項(xiàng)引文計量指標(biāo)探析影響古人引用動機(jī)及引用偏好的因素，分析古人的引用行為，以期為引書的相關(guān)研究帶來新的啟示。

2 實(shí)體界定與模型介紹

2.1 語料簡介與實(shí)體界定

本文選取阮元主持重刻的《十三經(jīng)注疏》中的《論語注疏》《毛詩正義》《春秋左傳正義》三部古籍的數(shù)字化文本為語料，所有的數(shù)據(jù)處理和研究都是在此語料上進(jìn)行和完成?！妒?jīng)》作為儒家的經(jīng)典，歷朝歷代研究解讀的不計其數(shù)，在所有解讀《十三經(jīng)》的典籍之中，以清朝著名學(xué)者阮元主持?？痰摹妒?jīng)注疏》流傳最為廣泛[17]。其中，《論語注疏》《毛詩正義》《春秋左傳正義》的引書條目不僅數(shù)量眾多，而且引用內(nèi)容廣泛，引書類型豐富，對經(jīng)典文獻(xiàn)的引用也較多。同時，《論語》《詩經(jīng)》《左傳》三部儒家經(jīng)典著作分別為語錄體典籍、詩歌類典籍、史書類典籍，體裁不同且各具代表性。因此，本文把這三部經(jīng)典著作作為研究對象是極為合適的。

與現(xiàn)代文獻(xiàn)中的引文不同，古籍文本中的引書不但沒有引用標(biāo)志，也沒有統(tǒng)一的著錄格式，更沒用統(tǒng)一的列舉位置。劉姝[18]把古籍文本的引書分為明引和隱引兩種類型。明引明確標(biāo)明了引用（引書的書名、作者），而隱引則與施引文獻(xiàn)的文字連為一體，較難分辨出引用的跡象。由于隱引較難識別，本文只統(tǒng)計明引形式的引書條目，即直接標(biāo)明了引書的引用類型。

2.2 模型選擇與簡介

在1995 年MUC-6 會議上，命名實(shí)體作為一個明確的概念被正式提出[19]，對命名實(shí)體識別（named entity recognition，NER）的研究從對象到方法都在不斷地推陳出新。從早期的簡單統(tǒng)計模型到現(xiàn)在的基于機(jī)器學(xué)習(xí)的方法，命名實(shí)體識別的性能在不斷地提升。CRF 模型是無向圖模型下的一種馬爾科夫網(wǎng)絡(luò)，因其是在某種特定條件下的馬爾科夫隨機(jī)場，所以稱之為條件隨機(jī)場。與最大熵模型和隱馬爾科夫模型相比，條件隨機(jī)場模型作為通過自定義特征模板能同時利用實(shí)體左右兩邊的邊界特征，而且還可以重疊多重特征，利用內(nèi)外部多重信息，采用豐富特征集的辦法來提高識別精準(zhǔn)度。在引書條目實(shí)體的識別過程中，也需要考慮實(shí)體左右邊界特征的影響，因此，本文選取了在以往實(shí)體識別任務(wù)中表現(xiàn)一貫良好的CRF 模型來完成識別實(shí)驗(yàn)。

近年來，隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展，需要大量人工標(biāo)注的傳統(tǒng)機(jī)器學(xué)習(xí)方法逐漸被效率更高的深度學(xué)習(xí)模型所替代或部分替代。循環(huán)神經(jīng)網(wǎng)絡(luò)（recur‐rent neural network，RNN）在每個隱藏層之間建立起關(guān)聯(lián)，能夠有效地捕捉上下文信息，并且尤其擅長序列標(biāo)記任務(wù)，但實(shí)際上RNN 在長期依賴關(guān)系的學(xué)習(xí)中表現(xiàn)并不良好。在RNN 的基礎(chǔ)上，能夠記憶更長數(shù)據(jù)序列的長短時記憶網(wǎng)絡(luò)（long shortterm memory，LSTM）、雙向長短時記憶網(wǎng)絡(luò)（Bi-LSTM）應(yīng)運(yùn)而生。LSTM 單元主要由存儲單元、輸入門、輸出門以及遺忘門構(gòu)成。通過模型的訓(xùn)練對各個門或者單元的參數(shù)進(jìn)行控制及更新，最終使LSTM 單元能夠高效地利用長距離的歷史信息。相比于LSTM 只能利用上文信息，Bi-LSTM 能夠同時利用文本的上下文信息，擁有前向?qū)雍头聪驅(qū)觾蓚€不同方向的并行層，可儲存來自兩個方向的未來的上下文信息，能讓文本特征信息有充分表達(dá)，更有助于命名實(shí)體的有效識別。由于識別效果良好且效率高，因此大量研究選擇了Bi-LSTM 模型。本文的研究是以字為單位進(jìn)行的引書條目實(shí)體識別，在模型訓(xùn)練過程中，需要考慮前后字之間的聯(lián)系和相互作用，因此，本文選擇此模型來處理實(shí)體識別任務(wù)。

盡管Bi-LSTM 模型識別命名實(shí)體的效果較好，但當(dāng)輸出標(biāo)簽之間存在較強(qiáng)的依賴關(guān)系時，其性能會受到一定程度的影響。Huang 等[20]提出了Bi-LSTM結(jié)合CRF 層的Bi-LSTM-CRF 模型。Bi-LSTM-CRF模型結(jié)合了Bi-LSTM 模型和CRF 模型的特性，在考慮實(shí)體上下文特征的同時，也能兼顧輸出獨(dú)立標(biāo)簽之間前后的依賴關(guān)系，強(qiáng)依賴的問題得到了較大改善。該模型應(yīng)用于命名實(shí)體識別任務(wù)后，能夠提升命名實(shí)體識別的性能。Bi-LSTM-CRF 模型的整體框架如圖1 所示。該模型主要包括輸入層、Embed‐ding 層、Bi-LSTM 中間層、CRF 層、輸出層等。在將單個字序列標(biāo)注以后，作為模型的輸入，中間通過正反兩個方向的LSTM 網(wǎng)絡(luò)層對其建模，再利用CRF 層對其前后關(guān)系建模，最后輸出對應(yīng)的標(biāo)簽序列。

圖1 LSTM-CRF模型的主要結(jié)構(gòu)

為了客觀檢驗(yàn)CRF 模型、Bi-LSTM 模型以及Bi-LSTM-CRF 模型在引書條目實(shí)體識別過程中的實(shí)際效果，本文以《論語注疏》《毛詩正義》《春秋左傳正義》為研究對象，分別采用CRF 模型、Bi-LSTM 模型、Bi-LSTM-CRF 模型識別和抽取引書條目，并對比實(shí)體識別效果，從中篩選最適用的引書實(shí)體識別技術(shù)方案。

3 實(shí)體識別實(shí)驗(yàn)

3.1 語料的預(yù)處理

文本中的實(shí)體，是以詞語或短語的形式對世間萬物的指稱，包括命名性指稱、名詞性指稱和代詞性指稱[21]。命名性指稱是指通過名字表示實(shí)體，如人名、地名等。名詞性指稱是指通過名詞或者名詞性短語表示實(shí)體，如職稱、職位等。代詞性指稱是指通過代詞來指代實(shí)體，如“你”“我”“他”。本文研究的命名實(shí)體集為《論語注疏》《毛詩正義》《春秋左傳正義》三部典籍中的引書，屬于名詞性指稱的一種。為了構(gòu)建實(shí)驗(yàn)語料，首先采用人工方式對《論語注疏》《毛詩正義》《春秋左傳正義》中明引條目進(jìn)行標(biāo)注，并規(guī)定標(biāo)記符號為“ 【】 ”。具體標(biāo)注后的樣例如下：

○正義曰：夫人孫意，傳文不明，故云魯人責(zé)之。蓋責(zé)其訴公於齊侯，而使公見殺，故慚懼而出奔也?！尽豆騻鳌贰吭唬骸皩O者何？孫猶孫也。內(nèi)諱奔，謂之孫。”【《穀梁傳》】曰：“孫之為言猶孫也，諱奔也?！倍庞帽藶檎f。昔帝堯?qū)O位以讓虞舜，故假彼美事而為之名，猶孫讓而去。

對標(biāo)注了引書條目的語料依次進(jìn)行文本格式轉(zhuǎn)換、合并以及數(shù)據(jù)預(yù)處理等工作，再去掉標(biāo)點(diǎn)；然后，選用5-tag 作為標(biāo)記集拆分成字，形成訓(xùn)練語料。 5-tag 標(biāo) 記集采用 {B-seg， M-seg， E-seg， S-seg，N-seg}標(biāo)注方式，即B-seg 表示實(shí)體的開始，M-seg 表示實(shí)體的中間部分，E-seg 表示實(shí)體的結(jié)尾，S-seg 表示單字實(shí)體，非實(shí)體用N-seg 表示。具體樣例如表1 所示。

表1 訓(xùn)練文本樣例

3.2 抽取性能評價指標(biāo)及參數(shù)設(shè)置

引書實(shí)體名的自動識別模型選用準(zhǔn)確率P（pre‐cision）、召回率R（recall）和調(diào)和平均數(shù)F（F-mea‐sure）作為測評指標(biāo)。具體計算方法為

準(zhǔn)確率（P）=識別正確的實(shí)體數(shù)/機(jī)器識別出的實(shí)體數(shù)×100%

召回率（R）=識別正確的實(shí)體數(shù)/人工標(biāo)注的實(shí)體數(shù)×100%

調(diào)和平均值（F）=(2×P×R)/(P+R)×100%

在實(shí)驗(yàn)過程中，分別選用了CRF、Bi-LSTM 和Bi-LSTM-CRF 三種訓(xùn)練模型，三者的區(qū)別在于部分參數(shù)有所不同。其中，Bi-LSTM 和Bi-LSTM-CRF 兩者的參數(shù)相近，后者僅在前者基礎(chǔ)上加入了一層CRF模型。在模型中，具體參數(shù)值的設(shè)置為：dropout_rate=1，learning_rate:=0.001；一次訓(xùn)練所選取的樣本數(shù)batch_size=32；迭代次數(shù)epoch_num 設(shè)置為200 輪；梯度閾值Clip=5；采用Adam 梯度下降算法。

3.3 實(shí)驗(yàn)結(jié)果及分析

本文分別采用CRF、Bi-LSTM、Bi-LSTM-CRF三種模型對《論語注疏》《毛詩正義》《春秋左傳正義》的引書條目進(jìn)行實(shí)體名識別。為了防止實(shí)驗(yàn)結(jié)果出現(xiàn)偶然性，在實(shí)驗(yàn)中，將語料按照9∶1 的比例分為測試語料和訓(xùn)練語料，使用十折交叉驗(yàn)證的方法來測試所構(gòu)建模型的性能，以期從中獲得最科學(xué)合理的自動抽取模型。測試結(jié)果如表2～表4 所示。

表2 基于CRF模型的引書條目實(shí)體識別性能

對比表2～表4 可以看出，Bi-LSTM-CRF、Bi-LSTM 模型的性能基本相同，而CRF 模型則存在明顯差距。具體而言，兩種深度學(xué)習(xí)模型的引書識別性能表現(xiàn)優(yōu)異，無論是Bi-LSTM-CRF 模型還是Bi-LSTM 模型，各組實(shí)驗(yàn)的識別準(zhǔn)確率、召回率和F值均超過了94%。與CRF 模型相比，基于Bi-LSTM所構(gòu)建的模型在準(zhǔn)確率上平均提高了5.43%，在召回率上平均提高了13.93%，F(xiàn)值提高了9.92%。相較于 Bi-LSTM 模型，Bi-LSTM-CRF 模型全部 10 組實(shí)驗(yàn)的均值有小幅度上升，其中準(zhǔn)確率提升了0.07%，召回率基本持平，F(xiàn)值提升了0.03%，但最優(yōu)模型的F值反而下降了0.01%?？梢哉J(rèn)為，在深度學(xué)習(xí)模型中加入CRF 層對引書的實(shí)體識別并無實(shí)質(zhì)影響，Bi-LSTM-CRF 模型與Bi-LSTM 模型的F值百分比小數(shù)點(diǎn)后兩位的差異是語料或統(tǒng)計誤差，實(shí)際上兩個模型的性能差不多。將CRF 加入Bi-LSTM模型，目的是改善標(biāo)簽之間強(qiáng)依賴關(guān)系對實(shí)體識別的可能影響，當(dāng)引書實(shí)體名的各字符之間關(guān)聯(lián)性不強(qiáng)時，引入CRF 層的意義就不大了。

表4 基于Bi-LSTM-CRF模型的引書條目實(shí)體識別性能

表3 基于Bi-LSTM模型的引書條目實(shí)體識別性能

以上數(shù)據(jù)說明，在引書的實(shí)體名識別方面，深度學(xué)習(xí)模型的性能比傳統(tǒng)機(jī)器學(xué)習(xí)的性能要優(yōu)越很多，在Bi-LSTM-CRF 和Bi-LSTM 兩種深度學(xué)習(xí)模型中，融入CRF 的模型有時能提高序列化模型的性能，但總體性能無明顯差異?？傊跓o任何人為特征添加的情況下，僅基于“字”這一基本構(gòu)成元素，Bi-LSTM-CRF、Bi-LSTM 兩種實(shí)體識別模型均可選擇。綜合實(shí)驗(yàn)結(jié)果與技術(shù)先進(jìn)性兩方面考慮，Bi-LSTM-CRF 模型可作為首選。

4 古籍引文分析

4.1 引書總體情況

對識別出的引書條目進(jìn)行匯總，計算得出三部典籍總計發(fā)生了12369 次引用行為，統(tǒng)計結(jié)果如表5 所示。從統(tǒng)計數(shù)據(jù)來看，引用的總次數(shù)越多，引書的種類就越豐富；反之，引用的總次數(shù)越少，引書的種類也越少。同時，數(shù)據(jù)也顯示，古籍文本本身的篇幅長短會影響引書的規(guī)模和種類。此外，體裁和內(nèi)容上的不同也會影響引書類型。

表5 引用概況

《論語》全書20 篇492 章，累計1.1 萬余字，而《論語注疏》的篇幅總計達(dá)到23.6 萬余字?！蹲髠鳌啡珪s19.6 萬余字，《春秋左傳正義》汲取各家之營養(yǎng)，全文共計200 多萬字?！对娊?jīng)》收錄詩歌305篇，共3.9 萬余字，在孔穎達(dá)旁征博引之下，《毛詩正義》成為了一部將近800 萬字的鴻篇巨著。在內(nèi)容體裁上，《論語》是一部記錄孔子一行人言語形為的語錄體著作，是儒家思想最初階段最重要的源泉?？鬃訉W(xué)識淵博，《論語》一書的內(nèi)容幾乎無所不包，涉及社會、政治、經(jīng)濟(jì)、文化等各個方面。因此，詮釋《論語》必然要具備廣博的學(xué)識。由于《論語》的文體主要是語錄和對話的形式，而《論語注疏》中的引書更多的是對其中的對話背景信息進(jìn)行補(bǔ)充，其次才是解釋某一詞語在特定情境下的含義。《詩經(jīng)》內(nèi)容豐富，用詞考究，反映了包括政治、祭祀、天文、地理、動植物等在內(nèi)的社會生活的方方面面。為了更好地服務(wù)于科舉考試，孔穎達(dá)熔鑄百家之長，尤其注重“禮教”和“訓(xùn)詁”，對《詩經(jīng)》的內(nèi)容進(jìn)行了盡可能細(xì)致入微的呈現(xiàn)，使得《毛詩正義》成為《五經(jīng)正義》中最具價值的一部著作?！蹲髠鳌放c《公羊傳》和《谷梁傳》一起為解釋《春秋》而著，是一部編年體史學(xué)著作。與《公羊傳》和《谷梁傳》重解經(jīng)不同，《左傳》重記事，以故事的形式講述了《春秋》涉及的史實(shí)；而《春秋左傳正義》則從政治角度通過大量引用歷史類文獻(xiàn)，對某些歷史人物和事件其進(jìn)行詮釋和辨正。

4.2 引書分布特征分析

4.2.1 引書的分布特點(diǎn)與核心古籍

古籍文本的引書呈現(xiàn)二八律，即引書分布不均勻，小部分的引書承擔(dān)了大部分的被引量。在三部古籍中，引用次數(shù)排前10 位的引書在總引用次數(shù)中占比較大，均超過了70%，《毛詩正義》更是達(dá)到了79%（表6）。另外，統(tǒng)計數(shù)據(jù)顯示，《論語注疏》中引用總次數(shù)的一半來自6%的引書，而20%的引書被引次數(shù)之和占總被引用總數(shù)的81%；《毛詩正義》中引用總次數(shù)的一半來自2%的引書，9%的引書被引次數(shù)之和占總被引用次數(shù)的81%；《春秋左傳正義》中引用總次數(shù)的一半來自3%的引書，8%的引書被引次數(shù)之和占總被引用次數(shù)的80%。并且，三部典籍中單種引書被引次數(shù)占比極高的引書多有重復(fù)。以上數(shù)據(jù)說明，古籍中也存在“核心”文獻(xiàn)，處在核心區(qū)的古籍相較于非核心區(qū)的古籍更具影響力。

表6 引用次數(shù)前10位的引書占比

4.2.2 引書中各類別文獻(xiàn)引用情況

按照經(jīng)史子集四部分類法，《論語注疏》《毛詩正義》《春秋左傳正義》三部典籍中的引書均以經(jīng)部文獻(xiàn)最多，其次是史部文獻(xiàn)，然后才是子部和集部文獻(xiàn)。屬于經(jīng)部的引書在《論語注疏》中占比達(dá)75%，在《毛詩正義》中占比達(dá)88%，在《春秋左傳正義》中占比達(dá)80%。分析三部典籍的原文發(fā)現(xiàn)，部分對史部、子部、集部的引用也是出于解經(jīng)釋經(jīng)的目的。這些數(shù)據(jù)充分證明了《論語注疏》《毛詩正義》《春秋左傳正義》的絕對經(jīng)學(xué)屬性。出現(xiàn)這種情況，主要有三方面原因。第一，參與編撰三部典籍的皆為當(dāng)時的博學(xué)大儒，主持編撰的兩人均是著名的經(jīng)學(xué)家。孔穎達(dá)為孔子的第三十二代孫，師從大儒劉焯，家學(xué)淵源又勤奮好學(xué)，經(jīng)學(xué)功底深厚。邢昺為北宋經(jīng)學(xué)家，對儒學(xué)有極大的造詣，其經(jīng)學(xué)思想上承孔穎達(dá)，曾被選為太宗諸子講群經(jīng)。因此，相較于其他類型的文獻(xiàn)，他們對于經(jīng)部文獻(xiàn)更為熟悉。第二，唐宋的統(tǒng)治者都把儒家思想作為主導(dǎo)思想，儒學(xué)盛行。第三，與注疏的特點(diǎn)有關(guān)。“以經(jīng)釋經(jīng)”是訓(xùn)詁學(xué)的傳統(tǒng)體例，上述三者的引書數(shù)量分布恰好體現(xiàn)了“以釋經(jīng)義”為核心的基本原則，全面體現(xiàn)了注疏的重點(diǎn)和方法。

為了更直觀地顯示出《論語注疏》《毛詩正義》《春秋左傳正義》三部注疏文獻(xiàn)中引書的引用情況，本文特繪制引書詞云圖，如圖2 所示。通過詞云圖，可以清楚地看到三部注疏文獻(xiàn)總引書量較大，具體引書情況各不相同，但高被引引書有所重合。

圖2 《論語注疏》《毛詩正義》《春秋左傳正義》引書詞云圖

4.3 引書引文耦合分析

引文耦合[22-23]是指兩篇或多篇文獻(xiàn)具有共同的引用文獻(xiàn)，耦合強(qiáng)度反映了文獻(xiàn)與文獻(xiàn)之間關(guān)聯(lián)關(guān)系的強(qiáng)弱。典籍之間同樣存在大量的共同引書現(xiàn)象，因此也可以使用引文耦合方法來探究。通過對《論語注疏》《毛詩正義》《春秋左傳正義》共同引書的計算，得到三部典籍的耦合強(qiáng)度矩陣，如表7所示。

表7 引書引文耦合矩陣

耦合強(qiáng)度用施引文獻(xiàn)共同引用的參考文獻(xiàn)來衡量，共同引用的參考文獻(xiàn)越多，耦合強(qiáng)度也越大，表示兩者關(guān)系越近。在三部典籍中，單從共同引用的引書量來看，《春秋左傳正義》和《毛詩正義》的耦合強(qiáng)度最高，三部典籍之間的平均耦合強(qiáng)度為54.67。但由于三部典籍的引書基數(shù)的大小不一，因此，僅考慮數(shù)量的耦合強(qiáng)度存在一定的偏差。加入對引書基數(shù)的考慮后可以看出，在三者之間，《論語注疏》與《春秋左傳正義》的關(guān)系比《論語注疏》與《毛詩正義》之間的關(guān)系要更近，《毛詩正義》和《春秋左傳正義》之間的關(guān)系又比兩者分別與《論語注疏》的關(guān)系要近。從成書時間線來看，《詩經(jīng)》成書于春秋中期，《左傳》成書于春秋末期，《論語》成書于戰(zhàn)國初期。一般來說，同時代背景的典籍可能在各方面有更多的共同點(diǎn)。在補(bǔ)充、解釋典籍時，時間相近的典籍由于社會環(huán)境等的相似，引用的書目也會更趨于一致。從注疏風(fēng)格來看，《毛詩正義》和《春秋左傳正義》同屬唐疏，而《論語注疏》屬宋疏。同一時代的注疏風(fēng)格較為相近，而且前兩者的注疏人相同，因此，前兩者之間的關(guān)系更為親密。從典籍自身特點(diǎn)來看，《毛詩正義》《春秋左傳正義》《論語注疏》三者都廣泛征引了經(jīng)史子集各個門類的著作，但前兩者在篇幅上遠(yuǎn)勝于后者，因此前兩者之間的耦合強(qiáng)度會更大。再看《論語》《詩經(jīng)》《左傳》三部原著本身，《左傳》用敘事散文的形式記載了具體的史實(shí)，《詩經(jīng)》用詩歌的形式反映了社會風(fēng)貌，而《論語》則主要以對話的形式體現(xiàn)孔子的思想。就內(nèi)容和形式來說，孔子及其弟子的言行勢必要從具體的事件當(dāng)中發(fā)生，詩歌的編排也要出于一定的現(xiàn)實(shí)事件，那么《論語》和《詩經(jīng)》分別與《左傳》在內(nèi)容上存在關(guān)聯(lián)也是合理的，因此，《論語注疏》和《春秋左傳正義》以及《毛詩正義》和《春秋左傳正義》在撰述時必然有可能大量借鑒相同的資料。

為了能更清晰地展現(xiàn)三部典籍之間的關(guān)聯(lián)，本文選取了引用次數(shù)前30 位的引書，繪制了三部典籍的引用關(guān)系網(wǎng)絡(luò)圖，如圖3 所示。

圖3 引用關(guān)系網(wǎng)絡(luò)圖

三部典籍的引書數(shù)據(jù)還有一個有趣的現(xiàn)象?！墩撜Z注疏》對《論語》以及《春秋左傳正義》對《左傳》的引用比例較低，而《毛詩正義》引用《詩經(jīng)》的比例達(dá)到了13%。王力先生曾說，“孔穎達(dá)作疏的長處在于五經(jīng)融會貫通，特別善于以本書證本書”[24]?！睹娬x》正體現(xiàn)了這一點(diǎn)。不同于三傳之間互為補(bǔ)充的《春秋三傳》，作為中國古代詩歌開端的《詩經(jīng)》是獨(dú)立存在的一部詩歌總集，在內(nèi)容上并沒有其他同時代的作品與其互為補(bǔ)充。在注釋《詩經(jīng)》時，《毛詩正義》通過“以詩釋詩”來達(dá)到闡明主旨、解釋詞義、融會貫通的作用。在《毛詩正義》對《詩經(jīng)》本身的這些引證中，既有對內(nèi)容的背景補(bǔ)充，也有對內(nèi)容情感的闡釋說明等。由此可見，《詩經(jīng)》的前后內(nèi)容之間是具有一定關(guān)聯(lián)性的，前文與后文相互呼應(yīng)。

4.4 引書文獻(xiàn)影響力分析

4.4.1 同被引矩陣

引書被引頻次越高，說明該書參考價值越大。三部典籍有很多共同的引書，而且這些共同的引書在總引用次數(shù)中占比很大。本文選取被引次數(shù)合計大致占到總被引次數(shù)90%的引書，作為全部引書的典型代表，對其做同被引分析?；谕灰龜?shù)據(jù)，生成同被引矩陣，如表8 所示。同被引矩陣是表示兩篇文獻(xiàn)之間相似度程度的矩陣[25]，即兩者的數(shù)字越大，表明兩者的關(guān)系越近。

表8 引書同被引矩陣

在所得到的18×18 矩陣中，同被引次數(shù)的范圍為4～1407，最大同被引次數(shù)1407 由引書《禮記》與《詩經(jīng)》所形成。同被引次數(shù)在1000 以上的還有：《禮記》與《爾雅》，《禮記》與《周禮》，《詩經(jīng)》與《爾雅》，《周禮》與《爾雅》，《詩經(jīng)》與《周禮》。從上述數(shù)據(jù)可以看出，高同被引對幾乎都是“三禮”《詩經(jīng)》《爾雅》三者之間的組合。另外，根據(jù)同被引矩陣計算出引書的平均同被引次數(shù)如表9 所示。其中，《禮記》的平均同被引次數(shù)最大，為476.18；而《孝經(jīng)》的平均同被引次數(shù)最低，為39.06。

表9 引書平均同被引

從平均同被引次數(shù)的高低來看，排名前4 位的引書分別是《禮記》《詩經(jīng)》《周禮》《爾雅》。綜合來看，禮制類古籍在對這三部典籍來說都具有較大的影響力。本文所選取的三部典籍均為欽定的官修經(jīng)書，本意就是為統(tǒng)治者鞏固統(tǒng)治、教化天下所著，而能反映儒家禮樂文化的“三禮”，恰恰是維護(hù)封建等級制度的手段。再者，典籍的內(nèi)容或多或少能反映當(dāng)時的社會背景。春秋戰(zhàn)國時期，各國紛爭不斷，兼并戰(zhàn)爭四起，勢必會出現(xiàn)較多破壞禮法的事件。而“《禮》以節(jié)人”，孔子也要求統(tǒng)治者“克己復(fù)禮”。由此可見，三部典籍引用較多的“三禮”來做補(bǔ)充解釋也不無道理。又有言說“禮”是詩教的根本，《詩經(jīng)》在相當(dāng)程度上也能體現(xiàn)周代的禮樂文化。先秦諸子在說理論證時，也多引用《詩經(jīng)》中的句子以增強(qiáng)說服力。而小學(xué)類引書的作用是解釋經(jīng)傳的字義，研習(xí)經(jīng)典，在于理解其中的奧義，而以解釋字詞為主的小學(xué)類書籍無疑是理解經(jīng)典意義的“橋梁”。

4.4.2 同被引引書的聚類

利用SPSS Statistics 軟件中聚類分析的分層聚類法，將上述引書同被引矩陣導(dǎo)入SPSS 中，聚類方法選擇組間連接，度量標(biāo)準(zhǔn)選擇Pearson 相關(guān)性，標(biāo)準(zhǔn)化選擇Z得分，由此得到聚類譜系圖，如圖4所示。18 種引書被分成了3 大類、6 小類。

圖4 引書聚類譜系圖

區(qū)別于一般性的古籍分類目錄，圖4 的各類目融入了典籍影響力因素。圖4 從上至下6 小類引書的平均同被引分別為458、48、47、253、290、190。由于樣本量過小，帶來了圖4 中個別類目的區(qū)分度較小的問題，但總體上圖4 的各類目之間的界限還是比較清晰的。

通過計算譜系圖4 小類中各類典籍的平均同被引次數(shù)，按數(shù)值高低排序得到圖5。從圖5 中可得知，從左至右，六類典籍的影響力逐漸減弱?？梢钥闯?，排在前面的典籍為“三禮”、《詩經(jīng)》和小學(xué)類典籍《爾雅》《說文解字》，此三類典籍的重要性已在前文講述過，在此不再贅述。之后為《尚書》《左傳》《公羊傳》《國語》《漢書》《史記》等，它們的共同之處在于同為史書，都是歷史事件的匯編，保存著重要的史料。排在最后的《春秋》和《孝經(jīng)》也是存在共性的，其中，《春秋》雖為第一部編年體史書，但記事語言極為簡練，一字褒貶、數(shù)字成言，其后出現(xiàn)的“春秋三傳”都是對其進(jìn)行補(bǔ)充和解釋的書籍。《孝經(jīng)》為古代論述孝道的著作，南宋以后才被列為十三經(jīng)之一。而其本身僅二卷十八章，是十三經(jīng)中篇幅最短的一部。兩者篇幅都較短，且內(nèi)容上與別的典籍具有重復(fù)性，在歷史上的影響力也可作等量齊觀。由此可見，與傳統(tǒng)分類目錄相比，融入影響力的分類方法可以方便地識別出影響力類似的典籍，當(dāng)研究具體問題時更有針對性。

圖5 引書影響力大小

5 古人引用行為探析

包括引書在內(nèi)的引文，是引用行為的外化形式，受到施引者的引用動機(jī)、引用偏好等影響。而引用行為則是學(xué)者在學(xué)術(shù)行為中借鑒他人的研究成果以表達(dá)自己思想的行為，是信息交流行為的一種[26]。信息交流行為又隸屬于信息行為。引用行為功能多種多樣，形式也復(fù)雜多變。但是，作為信息行為的一種，引用行為存在共性，比如遵循價值決定規(guī)律、穆爾斯定律等。以下將通過所得到的多維度引書計量指標(biāo)，從成書目的和成書背景兩個角度，具體探討學(xué)者特征、組織環(huán)境等對引用行為的影響。

5.1 成書目的

《論語注疏》《春秋左傳正義》《毛詩正義》三部典籍皆與科舉制度有著千絲萬縷的聯(lián)系。自隋代有科舉之事起，科舉考試既是統(tǒng)治者選拔人才的有效途徑，也是統(tǒng)治者實(shí)現(xiàn)其政治目的的有力手段。自漢代以來，在經(jīng)學(xué)領(lǐng)域存在諸多流派，發(fā)展到唐朝初期，儒學(xué)仍然存在南北殊途、各類注釋書籍紛紜甚至混亂的局面，朝廷為了統(tǒng)一政權(quán)的需要，勢必要先統(tǒng)一思想。因此，朝廷急需一個統(tǒng)一的人才選舉規(guī)范，便組織人員給科舉考試編寫教科書之舉。唐朝的科舉，分設(shè)進(jìn)士科和明經(jīng)科，其中，明經(jīng)科的主要考察《五經(jīng)》的經(jīng)義。《五經(jīng)》包括《周易》《尚書》《詩經(jīng)》《禮記》和《春秋左傳》，是儒學(xué)思想的重要載體。因此，孔穎達(dá)等奉詔主持編撰了《五經(jīng)正義》，本文所選取的《毛詩正義》《春秋左傳正義》正屬于其范疇。唐朝滅亡以后，在歷經(jīng)了五代十國的分裂而建立起來的北宋王朝深知文化教育對于國家長治久安的重要性，于是統(tǒng)治者確立了“尊孔崇儒”的基本國策。作為儒家思想最原始載體的《論語》，地位空前提升，再次引起了極大的重視。于是，邢昺等奉宋真宗之詔，修改舊疏，成新疏《論語注疏》。

為了能更詳細(xì)地解讀經(jīng)典以更好的為科舉考試提供參考資料，注疏者們俯察歷史，廣泛取材，吸收經(jīng)史子集各個門類的著作。從表5 可看到，注疏者們征引了大量的文獻(xiàn)；而從表6 來看，征引的文獻(xiàn)大部分為經(jīng)部著作。這些數(shù)據(jù)可以證明，唐宋學(xué)術(shù)熔鑄百家，且《毛詩正義》《春秋左傳正義》《論語注疏》具有絕對的經(jīng)學(xué)屬性。這也和三部典籍的本質(zhì)分不開。作為官修書的經(jīng)學(xué)，這些典籍屬于官方意識形態(tài)，其目的是維護(hù)統(tǒng)治階級的思想意識，編纂的初衷不是追求“新”思想，而是為政治服務(wù)。Garfield[27]曾列出15 種典型的引用動機(jī)，此處的引書明顯符合其中的2 種：提供背景資料；標(biāo)識某想法的原始文獻(xiàn)。此外，“依經(jīng)立義”是古代慣例[28]，金克木先生曾說，“按照古代慣例，無論什么新思想都得依傍并引證古圣先賢，最好是利用古書作注”[29]。中國文化以儒學(xué)為主，而儒學(xué)的代表為經(jīng)學(xué)著作，因此，古人有著引經(jīng)據(jù)典的寫作習(xí)慣。在大多數(shù)情況下，把經(jīng)典著作搬出來引用，能使自己的主張更具說服力，增強(qiáng)權(quán)威性。在這個意義上，古人的引用動機(jī)更符合社會構(gòu)建論的主張。

5.2 成書背景

與對任何事物的研究一樣，對古籍的注釋也受到社會環(huán)境和研究者主觀因素的制約。一定的學(xué)術(shù)文化總是依托于特定的社會政治背景之中。在封建社會，儒學(xué)一直都是社會的正統(tǒng)思想。自漢武帝提出“罷黜百家，獨(dú)尊儒術(shù)”，儒家的正統(tǒng)地位已基本確立，同時期國家實(shí)力也有了顯著提升。東漢末年至魏晉南北朝時期，儒學(xué)受到挑戰(zhàn)，地位不保，相繼了出現(xiàn)了多起滅國現(xiàn)象。后來的統(tǒng)治者從中吸取了經(jīng)驗(yàn)教訓(xùn)，自唐朝開始，統(tǒng)治者極力提升儒學(xué)在國家各個層面的地位，以求興邦安國。本文所研究的三本古籍，均為王朝建朝初期為解決儒學(xué)內(nèi)部“章句繁雜”所著，編撰的并非一家之言，而是幾個時代的注家共同的成果。《毛詩正義》在編撰過程中，以成書于漢代的《毛傳》和《鄭箋》為基礎(chǔ)，或在其注解的基礎(chǔ)上加以闡明，或?qū)烧叩牟煌M(jìn)行辨正，或提出一些新的看法。《春秋左傳正義》以杜預(yù)《左傳注》為底本，在綜合劉炫等義疏的基礎(chǔ)上，搜集大量《公羊傳》《谷梁傳》、“三禮”以及《爾雅》等資料，對《春秋左傳》進(jìn)行了翔實(shí)的注解?！墩撜Z注疏》的成書主要經(jīng)歷了如下幾個階段：①何宴融合了東漢和魏晉南北朝時期的注釋，形成了《論語集解》；②皇侃對《論語集解》進(jìn)行疏解，加工整理成《論語義疏》，極具玄學(xué)色彩；③北宋邢昺等奉詔重新為《論語》作疏，刪除《論語義疏》中的涉玄之語，增加對《論語》內(nèi)容的解釋，形成《論語注疏》。

除了成書的社會環(huán)境類似以外，為首的兩位注疏人也在不同時期分別經(jīng)歷過政權(quán)由分散走向統(tǒng)一?？追f達(dá)，公元574 年生于北朝，貞觀年間奉唐太宗詔完成《毛詩正義》和《春秋左傳正義》疏解。同樣由亂世入統(tǒng)一王朝的邢昺出生于公元932年的后唐。宋真宗咸平二年（公元999 年），68 歲的邢昺奉詔改舊疏，并于公元1001 年編成。兩人不僅在人生經(jīng)歷上有共同點(diǎn)，思想上更是一脈相承。邢昺的《論語注疏》秉承孔穎達(dá)《五經(jīng)正義》的注疏原則，注釋翔實(shí)。從上述引書的分布特征來看，三部典籍的引書都是經(jīng)部文獻(xiàn)居多，平均占到了總引用文獻(xiàn)的81%以上。上述學(xué)者均為儒家學(xué)者、經(jīng)學(xué)大師，其自身的學(xué)術(shù)主張本就為儒學(xué)，在知識結(jié)構(gòu)方面經(jīng)部文獻(xiàn)是其本源，多引經(jīng)部文獻(xiàn)符合所謂的行為習(xí)慣。由于施引者的學(xué)術(shù)背景，再加上儒學(xué)在中國封建社會中正統(tǒng)地位，經(jīng)部文獻(xiàn)無論是從施引者對其的熟悉度，還是保存的完整性和傳播的廣泛性來看，都比其他類型的文獻(xiàn)更具有易獲取性，正是“省力法則”的體現(xiàn)，也符合所謂的穆爾斯定律。而實(shí)際引用結(jié)果也證明了這一點(diǎn)。

6 結(jié) 語

本文將古籍文本中的引書看作被引文獻(xiàn)，在解決引書條目自動識別問題的基礎(chǔ)上，利用引文分析法研究引書分布規(guī)律，進(jìn)而探討了古籍文本之間的關(guān)聯(lián)和影響力，并從不同的角度探析了古人引用行為，構(gòu)建了古籍文本引書計量學(xué)研究的初步框架，為引書的研究提供了新視角。

本文在三個方面存在局限。首先，在數(shù)據(jù)處理上，對訓(xùn)練集的人工標(biāo)引可能存在誤差，特別是未對隱引進(jìn)行標(biāo)注；其次，在引文指標(biāo)方面，僅關(guān)注了量化指標(biāo)，沒有對引用做深入的文本內(nèi)容分析；最后，本文的研究對象僅為《十三經(jīng)注疏》中的三部典籍的引書，得出的結(jié)論具有一定的片面性。

在未來的研究中，可擴(kuò)大研究對象，增加樣本典籍的數(shù)量，使數(shù)據(jù)更充實(shí)，以期得出更具普遍性的研究結(jié)論。同時，在研究內(nèi)容方面可以考慮對引用內(nèi)容進(jìn)行挖掘，更加深入地研究古籍文本中的引用行為，為引書研究提供更有價值的視角。另外，也可以考慮在數(shù)據(jù)樣本覆蓋面足夠大以后，構(gòu)建一個全面的古籍文本引文數(shù)據(jù)庫，相當(dāng)于構(gòu)建中華古籍的SCI。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡