劉瀏 王東波 黃水清 蘇新寧
摘 ? 要:實(shí)體知識(shí)的自動(dòng)識(shí)別是古文智能處理的重要內(nèi)容,也是古文數(shù)字人文研究的技術(shù)支撐。以實(shí)體知識(shí)為基礎(chǔ)的數(shù)字人文研究若不考慮古籍中普遍存在的實(shí)體歧義,將難以得到準(zhǔn)確可靠的數(shù)據(jù)和結(jié)論。文章以《春秋經(jīng)傳引得》為文本語(yǔ)料,考察了語(yǔ)料中同名異指和異名同指兩大類人名實(shí)體歧義,根據(jù)古文實(shí)體歧義消解的特殊性,提出兩類歧義的消解方法和思路。研究基于實(shí)體語(yǔ)境和時(shí)間知識(shí),構(gòu)建了消歧規(guī)則并以先秦古漢語(yǔ)為實(shí)例進(jìn)行了驗(yàn)證。上述方法在其他古漢語(yǔ)語(yǔ)料中的適用性值得進(jìn)一步探究,基于消歧后的語(yǔ)料,文章呈現(xiàn)了先秦人物的基本全貌,表明了本研究的價(jià)值所在。
關(guān)鍵詞:古文信息處理;實(shí)體歧義;古文智能處理;古文數(shù)字人文
中圖分類號(hào):TP393.1 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? DOI:10.11968/tsyqb.1003-6938.2020089
Abstract In Ancient Chinese Information Processing, the extraction of entity knowledge is one of the most important studies. Study of digital humanities with entity knowledge should concern more about entity ambiguity for more precise results. The article presents two rule-based methods on entity disambiguation with the ancient Chinese corpus. Two types of entity ambiguity were deeply discussed and two methods with examples of entities in Chunqiu Jingzhuan Yinde were presented. Further research on more ancient Chinese corpus would have shown better understanding of the methods presented above. A visualization study with the data of disambiguated entities was carried out at last and thus showed the value of this study.
Key words ancient Chinese information processing; entity ambiguity; intelligent processing; ancient Chinese digital humanities
1 ? 引言
近年來(lái),得益于古籍?dāng)?shù)字化資源規(guī)模的迅速增長(zhǎng)和古文智能處理技術(shù)的飛速進(jìn)步,以人名、地名為主的實(shí)體識(shí)別研究得到了較為廣泛的關(guān)注和研究,識(shí)別的技術(shù)和方法也得到了不斷的改進(jìn),識(shí)別效果逐漸提升。實(shí)體識(shí)別技術(shù)的進(jìn)步,使得面向大規(guī)模古籍文本的實(shí)體知識(shí)自動(dòng)獲取越發(fā)高效[1],以實(shí)體知識(shí)為基礎(chǔ)的數(shù)字人文研究也因此得以逐步開(kāi)展[2-3],且成為古籍文本數(shù)字人文中值得期待的發(fā)展方向[4]。
然而,圍繞實(shí)體展開(kāi)的古文智能處理及以此為基礎(chǔ)的古文數(shù)字人文研究,為簡(jiǎn)化實(shí)體知識(shí)的獲取難度,大多以實(shí)體詞語(yǔ)代替實(shí)體知識(shí),忽略了古籍中大量存在的實(shí)體指稱歧義,尤其是人名指稱歧義,因而難以保證研究結(jié)論的準(zhǔn)確。實(shí)體歧義的消解,尤其是大規(guī)模文本中實(shí)體歧義的自動(dòng)消解,是古文數(shù)字人文研究深入開(kāi)展前無(wú)法回避的話題,這也正是本文研究的意義和目的所在。
本文主要分為三個(gè)部分,首先介紹了兩類典型的實(shí)體歧義,分析了古漢語(yǔ)實(shí)體歧義的特殊性,探討了古漢語(yǔ)實(shí)體歧義消解的方法;其次以先秦時(shí)期古漢語(yǔ)實(shí)體歧義為例,在《春秋經(jīng)傳引得》語(yǔ)料的基礎(chǔ)上,結(jié)合具體的實(shí)體歧義實(shí)例,分析了基于規(guī)則的實(shí)體消歧的可行性;最后使用上述方法完成了《春秋經(jīng)傳引得》中實(shí)體歧義的消解,并在該消歧語(yǔ)料的基礎(chǔ)上,從計(jì)量統(tǒng)計(jì)、影響力分析和數(shù)據(jù)可視化的角度展現(xiàn)了先秦人物的基本全貌。
2 ? 研究背景和語(yǔ)料介紹
2.1 ? ?實(shí)體歧義相關(guān)研究
實(shí)體歧義可以定義為“一個(gè)命名實(shí)體指稱項(xiàng)可對(duì)應(yīng)到多個(gè)命名實(shí)體概念”,古籍中的實(shí)體歧義以人名歧義為主,如《左傳》中的實(shí)體詞“吳王”,可能是指“夫差”、也可能是指“諸樊”。歧義實(shí)體詞的指稱一般因語(yǔ)境而不同,實(shí)體消歧需要做的就是判斷在某個(gè)語(yǔ)境下,有歧義的實(shí)體詞語(yǔ)具體指稱的實(shí)體概念。雖然古文實(shí)體消歧目前還未得到重視,但在現(xiàn)代漢語(yǔ)和英語(yǔ)等文本語(yǔ)境下,相關(guān)研究從實(shí)體識(shí)別研究提出伊始便已得到了充分的關(guān)注[5]。
實(shí)體消歧方法最先以構(gòu)建規(guī)則為主,實(shí)體的上下文和外部知識(shí)得到了充分的嘗試[6-7],相關(guān)方法構(gòu)建的規(guī)則受限于特定文本領(lǐng)域,可擴(kuò)展性不高,但總體而言消歧效果不錯(cuò);在此之后興起的機(jī)器學(xué)習(xí)方法主要關(guān)注開(kāi)放領(lǐng)域的實(shí)體消歧,早期的方法以聚類為主,將文本表示為向量空間,并根據(jù)文本向量的相似度實(shí)現(xiàn)歧義的消解[8]。不同聚類模型都得到了深入探究,各類特征如二元詞語(yǔ)[9]、社會(huì)化網(wǎng)絡(luò)[10]、外部知識(shí)[11]等也得到了充分的嘗試。隨著機(jī)器學(xué)習(xí)方法的不斷深入,實(shí)體消歧轉(zhuǎn)向一種將實(shí)體識(shí)別和實(shí)體消歧同時(shí)包含在內(nèi)的研究新框架,也就是實(shí)體鏈接,該方法先找出文本中表示實(shí)體的指稱,再與特定知識(shí)源中的實(shí)體概念相鏈接,以此達(dá)到實(shí)體消歧目的[12],其中維基百科等百科知識(shí)是最常見(jiàn)的知識(shí)源。對(duì)于實(shí)體鏈接來(lái)說(shuō),選取知識(shí)源中的候選實(shí)體是任務(wù)的關(guān)鍵,一般通過(guò)實(shí)體指稱和候選實(shí)體之間的相似度來(lái)決定候選實(shí)體排名,而在相似度計(jì)算過(guò)程中,特征的選取就顯得尤為重要[13]。近年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,實(shí)體鏈接問(wèn)題得到了進(jìn)一步的推進(jìn),并與語(yǔ)義分析、實(shí)體關(guān)系抽取、跨語(yǔ)言實(shí)體消歧研究等問(wèn)題聯(lián)系密切。
實(shí)體消歧研究仍然是自然語(yǔ)言處理中十分火熱的研究問(wèn)題,基于實(shí)體鏈接的消歧方法也在不斷提高消歧的效果,但目前實(shí)體消歧極少有面向古漢語(yǔ)的研究,這一方面是由于沒(méi)有適當(dāng)規(guī)模的語(yǔ)料和知識(shí)源作為支撐,另一方面古漢語(yǔ)實(shí)體的歧義較之于現(xiàn)代漢語(yǔ)要復(fù)雜的多,這也加大了消歧的難度。
2.2 ? ?語(yǔ)料選取和處理
本研究語(yǔ)料來(lái)源于《春秋經(jīng)傳引得》,“春秋經(jīng)傳”是《春秋》《春秋左氏傳》《春秋谷梁傳》及《春秋公羊傳》四部典籍的合稱,該資源在前期研究工作中完成了數(shù)字化工作,全文錄入共計(jì)320030字(含標(biāo)點(diǎn))。作為《漢學(xué)引得叢刊》的特刊,《春秋經(jīng)傳引得》包含了正文部分以及引得(索引)部分,其中引得部分包括引得詞表以及詞表對(duì)應(yīng)的全文語(yǔ)境。詞表進(jìn)行了細(xì)致的人工消歧,對(duì)于多義詞,詞表中設(shè)立多個(gè)同形詞頭,并且這些詞頭下的語(yǔ)境互不交叉。對(duì)于人名實(shí)體來(lái)說(shuō),相關(guān)消歧做得更為細(xì)致,所有同名的實(shí)體,不僅詞頭和語(yǔ)境做了準(zhǔn)確的區(qū)分,詞頭本身還添加了更為詳細(xì)的人名參考信息,用以區(qū)分這些詞頭,詳見(jiàn)下例:
例1: 宋公(參:宋莊公)
故遂相宋公
宋人者宋公也
……
宋公(參:宋共公)
宋公使公孫壽來(lái)納幣
公會(huì)晉侯齊侯宋公衞侯曹伯伐鄭
……
宋襄公(參:大子慈父,襄公,宋子,宋公,宋公慈父)
宋襄公卽位
宋襄公問(wèn)焉
……
宋宣公
宋宣公可謂知人矣
……
本研究以此為基礎(chǔ),對(duì)詞表中的人名實(shí)體進(jìn)行人工識(shí)別,從而得到了“春秋經(jīng)傳”中所有人名及其相關(guān)語(yǔ)境,并構(gòu)建了語(yǔ)料庫(kù)。與語(yǔ)境的關(guān)聯(lián)以及引得本身的專業(yè)背景,使其成為研究古漢語(yǔ)實(shí)體歧義的優(yōu)秀資源,其在實(shí)體歧義標(biāo)注中的專業(yè)性,保證了本研究實(shí)體歧義研究的可靠,避免了古漢語(yǔ)專業(yè)問(wèn)題的爭(zhēng)議。另一方面,實(shí)體歧義的研究須以實(shí)體識(shí)別為基礎(chǔ),而古漢語(yǔ)實(shí)體識(shí)別研究多以“春秋”為對(duì)象,因此本研究以“春秋經(jīng)傳”為語(yǔ)料資源,進(jìn)行古漢語(yǔ)實(shí)體歧義的探究,這也是對(duì)已有古漢語(yǔ)實(shí)體研究的有效補(bǔ)充。
3 ? 古漢語(yǔ)中的實(shí)體歧義
3.1 ? ?兩類實(shí)體歧義
實(shí)體歧義可以看作實(shí)體詞語(yǔ)和實(shí)體概念之間存在的多對(duì)一或者一對(duì)多的關(guān)系,根據(jù)關(guān)系的不同,可以分為同名異指歧義和異名同指歧義。同名異指歧義是一種一對(duì)多的關(guān)系,即一個(gè)實(shí)體詞語(yǔ)可以指稱多個(gè)實(shí)體;而異名同指歧義是多對(duì)一的關(guān)系,即多個(gè)實(shí)體詞語(yǔ)可以指向同一個(gè)實(shí)體。
以上兩類實(shí)體歧義在古漢語(yǔ)中均十分常見(jiàn),且往往相互關(guān)聯(lián),構(gòu)成十分復(fù)雜的實(shí)體歧義網(wǎng)絡(luò)(見(jiàn)圖1)。實(shí)體歧義的大量存在及復(fù)雜關(guān)聯(lián),表明了古漢語(yǔ)實(shí)體歧義研究的必要性,以及實(shí)體消歧的困難性。在兩類實(shí)體歧義中,同名異指歧義在現(xiàn)代漢語(yǔ)及英語(yǔ)等自然語(yǔ)言處理中得到的關(guān)注明顯更多,這源于其相對(duì)更廣泛的應(yīng)用場(chǎng)景和較低的解決難度;但在古文尤其是先秦古文中,由于名詞性實(shí)體的顯著地位(如“晉侯”“宋襄公”等包含爵位或尊稱的實(shí)體名稱),異名同指歧義的重要性同樣不容忽視。對(duì)于面向?qū)嶓w知識(shí)的古文數(shù)字人文而言,同時(shí)消解同名異指和異名同指兩類歧義,是順利開(kāi)展研究并得到準(zhǔn)確結(jié)論的重要前提。
3.2 ? ?古漢語(yǔ)實(shí)體消歧的特殊性
實(shí)體消歧是古漢語(yǔ)實(shí)體歧義研究的重要目標(biāo),不同于現(xiàn)代漢語(yǔ)或英語(yǔ),古漢語(yǔ)文本中的實(shí)體消歧問(wèn)題具有較強(qiáng)的特殊性,這種特殊性體現(xiàn)在歧義實(shí)體所在語(yǔ)料和歧義實(shí)體本身。了解這一特殊性,是開(kāi)展古漢語(yǔ)實(shí)體消歧研究的重要前提。
(1)固定的語(yǔ)料。古文信息處理和古文數(shù)字人文研究主要以傳世的古籍文本為語(yǔ)料來(lái)源,而對(duì)于特定的研究問(wèn)題和對(duì)象而言,可以選擇的文本語(yǔ)料總體較為固定,以先秦實(shí)體研究為例,合適的語(yǔ)料基本以《春秋》及三傳為主。有限的語(yǔ)料帶來(lái)了相對(duì)固定的實(shí)體歧義,古漢語(yǔ)實(shí)體消歧研究因而不可能、也不需要像現(xiàn)代漢語(yǔ)那樣關(guān)注開(kāi)放領(lǐng)域問(wèn)題。在這樣的前提下,如何充分利用前人的研究成果,獲取語(yǔ)料外部的實(shí)體知識(shí),構(gòu)建基于規(guī)則的消歧方法,以獲取更準(zhǔn)確的消歧結(jié)果,成為古漢語(yǔ)實(shí)體消歧中最實(shí)際可行的研究思路。
(2)較小的語(yǔ)料規(guī)模。與現(xiàn)代漢語(yǔ)相關(guān)研究相比,研究古漢語(yǔ)實(shí)體消歧時(shí)可獲取的語(yǔ)料規(guī)模較小,這使得現(xiàn)代漢語(yǔ)實(shí)體消歧中常用的機(jī)器學(xué)習(xí)方法很難發(fā)揮出理想的效果。如以《春秋經(jīng)傳引得》為例,該書包含了《春秋》及三傳4部古籍的內(nèi)容,對(duì)于春秋時(shí)期實(shí)體歧義研究來(lái)說(shuō),該語(yǔ)料就內(nèi)容而言已經(jīng)足夠充分,但全文也僅有32萬(wàn)余字,若要使用現(xiàn)代漢語(yǔ)實(shí)體消歧中常用的文本聚類或?qū)嶓w鏈接方法,這樣的語(yǔ)料規(guī)模遠(yuǎn)遠(yuǎn)不夠。從該角度來(lái)看,機(jī)器學(xué)習(xí)方法并不適用于古漢語(yǔ)實(shí)體消歧研究。
(3)較多的歧義數(shù)量。對(duì)于現(xiàn)代漢語(yǔ)實(shí)體消歧來(lái)說(shuō),待消解的同名異指實(shí)體一般只包含2個(gè)歧義;而在古漢語(yǔ)語(yǔ)料中,實(shí)體歧義的情況要更為復(fù)雜,名詞性實(shí)體的存在帶來(lái)了大量的同名異指實(shí)體,這類實(shí)體包含的歧義數(shù)量也很多,在《春秋經(jīng)傳引得》中,一個(gè)實(shí)體詞語(yǔ)最多可能包含15種同名異指歧義(見(jiàn)表1)。另一方面,正如本文所述,大量的歧義實(shí)體對(duì)應(yīng)的卻是小規(guī)模的語(yǔ)料,這導(dǎo)致語(yǔ)料中大多數(shù)歧義實(shí)體對(duì)應(yīng)的只有一兩個(gè)句子。在面對(duì)如此復(fù)雜的實(shí)體歧義問(wèn)題時(shí),僅利用一兩個(gè)句子的內(nèi)容而不借助于外部的知識(shí),顯然難以獲得準(zhǔn)確的實(shí)體消歧結(jié)果。如何有效地利用外部的知識(shí)來(lái)減少歧義的復(fù)雜性,是解決古漢語(yǔ)實(shí)體消歧問(wèn)題的關(guān)鍵。
3.3 ? ?古漢語(yǔ)實(shí)體消歧方法探討
正如本文所述,由于語(yǔ)料固定、語(yǔ)料規(guī)模小、歧義數(shù)量多等特點(diǎn),機(jī)器學(xué)習(xí)方法用于古漢語(yǔ)實(shí)體消歧的難度相當(dāng)高,利用外部實(shí)體知識(shí)構(gòu)建規(guī)則的方法則更為適合。
(1)古漢語(yǔ)實(shí)體消歧的對(duì)象。根據(jù)古漢語(yǔ)實(shí)體歧義的特殊性,在進(jìn)行消歧之前,還可以從另一個(gè)角度將實(shí)體歧義分為兩類,一類實(shí)體的歧義只存在于不相關(guān)的典籍之間,如“孟子”既可以指稱魯惠公的原配夫人,也可以指稱儒家思想家孟軻;但“孟子”在《春秋》中指稱前者,在《孟子》中指稱后者,該實(shí)體詞在單部典籍的內(nèi)部不存在歧義,這類實(shí)體詞的歧義消解通過(guò)限定典籍的范圍就可以完成。
另一類實(shí)體詞語(yǔ)的歧義存在于單部典籍內(nèi)部,這些實(shí)體詞的歧義消解一般需要上下文語(yǔ)境的幫助。如以實(shí)體詞語(yǔ)“晉侯”為例,該詞可以指稱“晉成公”“晉文公”和“晉襄公”等,在語(yǔ)境“晉侯伐鄭及郔”中“晉侯”表示“晉成公”;在語(yǔ)境“晉侯潛會(huì)秦伯于王城”中“晉侯”表示“晉文公”,“晉侯”歧義的消解與其出現(xiàn)的上下文語(yǔ)境密切相關(guān)。
(2)實(shí)體消歧的思路。在以上兩類實(shí)體歧義消解中,本文主要關(guān)注單部典籍內(nèi)部的實(shí)體消歧,這類實(shí)體歧義消解一般圍繞和利用實(shí)體詞所在的上下文語(yǔ)境,主要思路是將實(shí)體消歧轉(zhuǎn)化為對(duì)實(shí)體詞語(yǔ)所在語(yǔ)境的消歧。據(jù)此,同名異指歧義消解就是將出現(xiàn)歧義實(shí)體詞的語(yǔ)境劃分為多個(gè)類別,每個(gè)類別指稱一個(gè)實(shí)體;而異名同指歧義消解就是將包含多個(gè)實(shí)體詞語(yǔ)的語(yǔ)境合并為一個(gè)類別,使得它們指稱同一個(gè)實(shí)體(見(jiàn)表2、表3)。上述思路可以通過(guò)構(gòu)建規(guī)則的方式來(lái)實(shí)現(xiàn),結(jié)合實(shí)體上下文語(yǔ)境特點(diǎn),借助實(shí)體外部知識(shí)可以有效地實(shí)現(xiàn)實(shí)體歧義的自動(dòng)消解。
對(duì)于同名異指歧義來(lái)說(shuō),由于古籍中同一時(shí)間段一般不會(huì)出現(xiàn)同名現(xiàn)象,因此可以借助實(shí)體語(yǔ)境的時(shí)間知識(shí)來(lái)消解歧義。如以“晉侯”為例,根據(jù)《春秋》,“晉景公”在位于魯宣公到魯成公時(shí)期,“晉昭公”在位于魯昭公時(shí)期,“晉獻(xiàn)公”在位于魯莊公到魯僖公時(shí)期,“晉成公”在位于魯宣公時(shí)期,對(duì)于實(shí)體詞“晉侯”而言,其指稱的不同實(shí)體存在于不同的時(shí)間段中,且時(shí)間段相互之間不交叉。因此,可以直接通過(guò)標(biāo)注“晉侯”所在語(yǔ)境的時(shí)間,根據(jù)上述時(shí)間段劃分語(yǔ)境類別,實(shí)現(xiàn)實(shí)體詞“晉侯”的歧義消解。同樣的情況在《春秋經(jīng)傳引得》來(lái)說(shuō)十分常見(jiàn),不大的語(yǔ)料規(guī)模,以史實(shí)為主文本內(nèi)容和以名詞性指稱詞為主的歧義實(shí)體,使得這種實(shí)體歧義消解方法十分可靠。
異名同指歧義依然可以通過(guò)語(yǔ)境進(jìn)行消解,方法以同名異指歧義的消解為基礎(chǔ),且需要借助實(shí)體百科知識(shí)。異名同指歧義的消解總體可以分為兩個(gè)部分,以表3中實(shí)體詞“晉文公”為例,首先需要借助實(shí)體百科知識(shí)得到“重耳”“晉侯”與“晉文公”之間的對(duì)應(yīng)關(guān)系,并以此為基礎(chǔ)獲取“晉文公”的候選實(shí)體詞及相應(yīng)語(yǔ)境;接著,對(duì)于“晉侯”這類本身具有同名異指歧義的實(shí)體詞,其相關(guān)候選語(yǔ)境還應(yīng)該再進(jìn)行消岐,消岐方法與上文方法相同。異名同指歧義消解時(shí),一般選取最常見(jiàn)和通用的實(shí)體詞作為消歧后的實(shí)體詞,如“晉文公”“鄭莊公”等,選取標(biāo)準(zhǔn)可以參考百科知識(shí)。
4 ? 古漢語(yǔ)同名異指消歧規(guī)則初探
本文簡(jiǎn)單闡述了古漢語(yǔ)實(shí)體歧義的特點(diǎn)以及該特點(diǎn)下最合適的實(shí)體消歧方法,并提出了使用實(shí)體語(yǔ)境時(shí)間知識(shí)消解同名異指歧義的基本思路。本研究將以先秦古漢語(yǔ)實(shí)體歧義為例,通過(guò)細(xì)化和制定相關(guān)規(guī)則,結(jié)合典型實(shí)例,來(lái)驗(yàn)證該方法在消解同名異指歧義時(shí)的可行性和有效性。研究以《春秋經(jīng)傳引得》為語(yǔ)料,該語(yǔ)料包含了4695個(gè)人名實(shí)體詞,共表示了1421個(gè)人物,正如本文所述,對(duì)于研究先秦古漢語(yǔ)實(shí)體歧義來(lái)說(shuō),該語(yǔ)料已足夠充分。
4.1 ? ?《春秋》的時(shí)間表示
《春秋》使用魯國(guó)國(guó)君的謚號(hào)加年份來(lái)表示年號(hào),這些年號(hào)與公元紀(jì)年相互對(duì)應(yīng)(見(jiàn)表4),據(jù)此,可以將《春秋經(jīng)傳引得》所有語(yǔ)境發(fā)生的時(shí)間以公元紀(jì)年的方式來(lái)表示,這樣更有利于后續(xù)消歧研究中進(jìn)行的時(shí)間比較,詳見(jiàn)下例:
例2:{桓公十二年}
1 ?十有二年,春,正月。
2 ?夏,六月,壬寅,公會(huì)紀(jì)侯莒子盟于歐蛇。
左 ?十二年,夏,盟于曲池,平杞莒也。
4.2 ? ?語(yǔ)境的時(shí)間標(biāo)注
完成語(yǔ)料中年號(hào)和公元紀(jì)年的轉(zhuǎn)換之后,自動(dòng)查找并標(biāo)注《春秋經(jīng)傳引得》中每一個(gè)實(shí)體詞頭下,所有語(yǔ)境在原文中對(duì)應(yīng)的時(shí)間,完成標(biāo)注后的實(shí)體語(yǔ)境見(jiàn)例3所示:
例3:晉侯(參:晉襄公)
晉侯敗狄于箕 前627年
晉侯伐衞 ? 前632年
晉侯朝王於溫 前626年
公孫敖會(huì)晉侯于戚 ? 前626年
晉侯疆戚田 ?前626年
晉侯及秦師戰(zhàn)于彭衙 ?前625年
晉侯禦之 ? 前625年
公及晉侯盟 ?前614年
4.3 ? ?基于時(shí)間規(guī)則的兩類同名異指歧義消解
標(biāo)注了語(yǔ)境的時(shí)間之后,可以得到語(yǔ)境所屬實(shí)體詞的時(shí)間區(qū)間,如“晉侯(參:晉襄公)”的時(shí)間區(qū)間就是[前614年:前632年]。使用時(shí)間規(guī)則進(jìn)行同名異指歧義消解需要滿足一個(gè)要求,即同名實(shí)體詞之間的時(shí)間區(qū)間不能交叉。本文以《春秋經(jīng)傳引得》為語(yǔ)料,該語(yǔ)料中的同名異指歧義實(shí)體均滿足這一要求。根據(jù)實(shí)體歧義的數(shù)量以及實(shí)體語(yǔ)境的規(guī)模,同名實(shí)體不同指稱下的實(shí)體時(shí)間區(qū)間有可能間隔較大,也有可能基本連續(xù)。對(duì)于前者,可以直接利用時(shí)間間隔進(jìn)行歧義消解;對(duì)于后者,需要借助額外的時(shí)間知識(shí)幫助歧義消解。
(1)基于時(shí)間間隔的歧義消解。當(dāng)實(shí)體歧義數(shù)量較少或?qū)嶓w語(yǔ)境規(guī)模較小時(shí),歧義實(shí)體的時(shí)間區(qū)間間隔較為明顯,利用這些間隔實(shí)現(xiàn)語(yǔ)境的分類,可以迅速實(shí)現(xiàn)同名異指歧義的消解。本文將以“趙孟”為例,詳細(xì)描述這種方法?!摆w孟”在《春秋》中有四個(gè)歧義指稱,分別為“趙武”“趙襄子”“趙鞅”和“趙盾”,對(duì)“趙孟”所屬的語(yǔ)境的時(shí)間進(jìn)行標(biāo)注之后,可以統(tǒng)計(jì)出每一年出現(xiàn)相關(guān)語(yǔ)境的次數(shù)(見(jiàn)表5),統(tǒng)計(jì)可知該實(shí)體詞出現(xiàn)的年份并不連續(xù),有時(shí)甚至跨度很大(見(jiàn)圖2),如“趙孟”所屬語(yǔ)境很鮮明地分為四個(gè)部分,即四個(gè)時(shí)間區(qū)間,這個(gè)四個(gè)時(shí)間區(qū)間也就對(duì)應(yīng)了 “趙孟”所指向的四個(gè)不同的實(shí)體。語(yǔ)境出現(xiàn)次數(shù)隨時(shí)間分布類似于“趙孟”的同名異指實(shí)體詞,可以通過(guò)時(shí)間區(qū)間的間隔實(shí)現(xiàn)語(yǔ)境劃分,從而實(shí)現(xiàn)歧義消解。
(2)基于時(shí)間知識(shí)的歧義消解。當(dāng)然實(shí)體的歧義數(shù)量較多或?qū)嶓w相關(guān)語(yǔ)境數(shù)量較多時(shí),很難從語(yǔ)境的時(shí)間分布中找出明顯的時(shí)間間隔,這類實(shí)體歧義的消解還需要借助額外的時(shí)間知識(shí)。如以“晉侯”為例,該實(shí)體詞在《春秋經(jīng)傳引得》中可以指向15個(gè)實(shí)體,從其出現(xiàn)的時(shí)間分布(見(jiàn)圖3),可見(jiàn)由于歧義數(shù)量相對(duì)比較多,難以在語(yǔ)境時(shí)間分布上準(zhǔn)確區(qū)分出時(shí)間間隔,此時(shí)想要根據(jù)時(shí)間區(qū)間和時(shí)間間隔進(jìn)行準(zhǔn)確的同名異指歧義消解十分困難。這種情況對(duì)于“鄭伯”“齊侯”等實(shí)體詞來(lái)說(shuō)同樣如此(見(jiàn)圖4、圖5)。
對(duì)于這一類語(yǔ)境時(shí)間分布較為復(fù)雜的同名異指實(shí)體詞來(lái)說(shuō),需要借助外部知識(shí)來(lái)劃分時(shí)間區(qū)間。根據(jù)魯國(guó)國(guó)君年號(hào)的轉(zhuǎn)換方式,可以同樣對(duì)“晉侯”“鄭伯”和“齊侯”等進(jìn)行在位年份的轉(zhuǎn)換。如以“鄭伯”為例,其對(duì)應(yīng)了14個(gè)實(shí)體的在位年份(見(jiàn)表6),根據(jù)表6的時(shí)間區(qū)間可以劃分得到“鄭伯”指向的14個(gè)實(shí)體的所屬語(yǔ)境,從而完成對(duì)“鄭伯”的歧義消解。該方法同樣適用于“晉侯”“齊侯”這類表示諸侯的實(shí)體詞,對(duì)于其他人名實(shí)體詞,也可以通過(guò)類似的百科知識(shí)構(gòu)建語(yǔ)境年份對(duì)照表,從而實(shí)現(xiàn)歧義消解。
綜上可以看出,對(duì)于同名異指歧義實(shí)體來(lái)說(shuō),通過(guò)語(yǔ)境的時(shí)間間隔或?qū)嶓w相關(guān)時(shí)間知識(shí)構(gòu)建規(guī)則,可以有效地消解歧義。在《春秋》這類編年體古籍中,語(yǔ)境時(shí)間的獲取較為容易;而對(duì)于其他類型的古籍來(lái)說(shuō),可以結(jié)合機(jī)器學(xué)習(xí)的方法自動(dòng)識(shí)別實(shí)體語(yǔ)境中的時(shí)間實(shí)體,并將之轉(zhuǎn)換為可用的語(yǔ)境時(shí)間。實(shí)體相關(guān)的時(shí)間知識(shí),可以從《漢語(yǔ)大詞典》《春秋左傳詞典》為主的詞典或百科中自動(dòng)獲取。基于規(guī)則的方法可以保證歧義消解的準(zhǔn)確性,也可以為異名同指歧義的消解提供可靠的知識(shí)來(lái)源。
5 ? 基于消歧實(shí)體的春秋人物概貌
消歧完成后得到的實(shí)體知識(shí)更加準(zhǔn)確,以此為基礎(chǔ)進(jìn)行的實(shí)體知識(shí)挖掘和數(shù)字人文研究也將得到更可靠的結(jié)果。本研究對(duì)《春秋經(jīng)傳引得》中所有人名實(shí)體進(jìn)行了歧義消解,并對(duì)消歧后的實(shí)體進(jìn)行了計(jì)量統(tǒng)計(jì)、影響力分析和數(shù)據(jù)可視化呈現(xiàn),從整體上描繪出春秋時(shí)期的人物概貌。
5.1 ? ?春秋人物異名解析
《春秋經(jīng)傳引得》中包含了4695個(gè)人名實(shí)體詞,共表示了1421個(gè)人物,其中875個(gè)人物有兩個(gè)以上的名稱,占總數(shù)的61.58%,可見(jiàn)異名同指現(xiàn)象在春秋時(shí)期十分普遍。有超過(guò)188個(gè)(近30%)的人物有三個(gè)以上名稱,超過(guò)87個(gè)人物有四個(gè)以上名稱,這表明了該時(shí)期異名同指現(xiàn)象的普遍和復(fù)雜。異名同指現(xiàn)象實(shí)際上反映了春秋時(shí)期人物的成長(zhǎng)和經(jīng)歷,如異名數(shù)目排第一的“士會(huì)”還有“士季、隨會(huì)、隨季、范子、范會(huì)、武季、隨武子、范武子、會(huì)”等名稱。其中“士會(huì)”表明了他父親的“氏”和他自己的“名”;“隨會(huì)、范會(huì)”是由于他被封于“隨”和“范”之后以封地為氏;“士季、隨季”表明了他在家族中的排行(四子);“武季、隨武子、范武子”則是根據(jù)“謚號(hào)”對(duì)他的尊稱。通過(guò)對(duì)“士會(huì)”異名的分析,可以發(fā)現(xiàn)他豐富的人生經(jīng)歷和較高的社會(huì)地位?!洞呵铩分挟惷麛?shù)量較多的人物大多如“士會(huì)”一樣有自己的封地和相應(yīng)的謚號(hào),在當(dāng)時(shí)具有較高的社會(huì)影響力,人物異名統(tǒng)計(jì)相關(guān)數(shù)據(jù)也支持這一論斷(異名數(shù)量排名靠前的人物大多是大諸侯和地位顯赫的貴族)。因此從一定程度上可以認(rèn)為,人物的異名數(shù)量越多,其人生經(jīng)歷越豐富,社會(huì)地位越高(異名實(shí)體分布的相關(guān)數(shù)據(jù)見(jiàn)圖6、表7)。
5.2 ? ?春秋人物影響力分析
人物的異名數(shù)量可以看出其社會(huì)地位,但并不能準(zhǔn)確反映他對(duì)時(shí)代的影響力。衡量一個(gè)人物影響力的高低,可以參考文獻(xiàn)計(jì)量的思路,通過(guò)其在語(yǔ)料中出現(xiàn)的次數(shù)來(lái)計(jì)量,而這樣的計(jì)量必須基于消歧后的統(tǒng)計(jì)數(shù)據(jù)才能保證準(zhǔn)確。根據(jù)實(shí)體消歧后的語(yǔ)料,可以統(tǒng)計(jì)得到《春秋經(jīng)傳引得》中人物出現(xiàn)次數(shù)的分布數(shù)據(jù)(見(jiàn)表8),將之與消歧前人物出現(xiàn)次數(shù)的分布數(shù)據(jù)(見(jiàn)表9)相比較,可以發(fā)現(xiàn)實(shí)體歧義消解對(duì)數(shù)字人文研究的重要影響。
對(duì)比分析表8和表9可以發(fā)現(xiàn),絕大多數(shù)的人物排名出現(xiàn)了較大的變化,尤其是“晉文公、齊桓公”等消歧前排名并不靠前的人物,在歧義消解之后排名躍居前列,而這恰與他們?cè)凇按呵铩睍r(shí)代的影響力相符,因此歧義的消解可以使得通過(guò)人物出現(xiàn)次數(shù)獲得的影響力分析數(shù)據(jù)更加準(zhǔn)確。具體來(lái)看,公孫僑(也就是子產(chǎn))始終是出現(xiàn)次數(shù)最多的人名實(shí)體,無(wú)愧于其“春秋第一人”的稱號(hào);在眾多諸侯中,“晉文公”消歧后的排名提高了很多,達(dá)到第2名的水平,符合其“春秋五霸”地位,“齊桓公”也同樣如此,而齊國(guó)的三位君主排列3至5名,展現(xiàn)了他們強(qiáng)大的實(shí)力和對(duì)魯國(guó)的影響力,除此之外,著名的“鄭莊公”也高居第11位,無(wú)愧其“春秋三小霸之首”的地位。除諸侯之外,其余的實(shí)體也都是“春秋”中重要的人物,其中“趙氏”非常顯著,晉國(guó)大夫趙盾、其孫“趙氏孤兒”趙武、趙武之孫趙鞅均排名靠前,而與趙武關(guān)系密切的韓起的排名也很高,表明了“韓氏”在晉國(guó)的顯赫,“趙氏”“韓氏”的重要地位也預(yù)示著春秋末期“三家分晉”的必然性。
根據(jù)消歧后人物出現(xiàn)次數(shù)統(tǒng)計(jì)數(shù)據(jù),可以通過(guò)詞云的形式進(jìn)行可視化的數(shù)據(jù)展示,以對(duì)“春秋”中的人物有一個(gè)更為直觀的了解(見(jiàn)圖7),從圖中可以看出實(shí)體的字號(hào)與該實(shí)體的出現(xiàn)次數(shù)有關(guān),字號(hào)越大說(shuō)明該人名實(shí)體出現(xiàn)次數(shù)越多,排名前200的人名實(shí)體均包含在該圖中,該圖可以看作“春秋”人物的一個(gè)縮影。
6 ? 結(jié)論
對(duì)于以實(shí)體知識(shí)為基礎(chǔ)的數(shù)字人文研究來(lái)說(shuō),知識(shí)的準(zhǔn)確與否決定了相關(guān)研究結(jié)論是否可靠,本文以《春秋》中的人名歧義為例,一方面發(fā)現(xiàn)了歧義存在的普遍性和歧義消解的必要性,另一方面也驗(yàn)證了基于規(guī)則的方法在歧義消解問(wèn)題中的可行性。本文通過(guò)人物異名數(shù)來(lái)考察其人生經(jīng)歷和社會(huì)地位,說(shuō)明了消歧后的實(shí)體知識(shí)可以為古文數(shù)字人文研究提供新的研究視角;而通過(guò)對(duì)出現(xiàn)次數(shù)排名靠前人物進(jìn)行的統(tǒng)計(jì)分析,本文也驗(yàn)證了消歧后的實(shí)體知識(shí)可以帶來(lái)更加準(zhǔn)確的分析結(jié)果。通過(guò)獲取更大規(guī)模的消歧實(shí)體語(yǔ)料和相應(yīng)的實(shí)體知識(shí),可以期待更加豐富同時(shí)更加可靠的古文數(shù)字人文研究。
參考文獻(xiàn):
[1] ?王東波,高瑞卿,沈思,等.面向先秦典籍的歷史事件基本實(shí)體構(gòu)件自動(dòng)識(shí)別研究[J].國(guó)家圖書館學(xué)刊,2018,27(1):65-77.
[2] ?范佳.“數(shù)字人文”內(nèi)涵與古籍?dāng)?shù)字化的深度開(kāi)發(fā)[J].圖書館學(xué)研究,2013(3):29-32.
[3] ?歐陽(yáng)劍.大規(guī)模古籍文本在中國(guó)史定量研究中的應(yīng)用探索[J].大學(xué)圖書館學(xué)報(bào),2016,34(3):5-15.
[4] ?歐陽(yáng)劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國(guó)圖書館學(xué)報(bào),2016,42(2):66-80.
[5] ?Wacholder N,Ravin Y,Choi M.Disambiguation of proper names in text[C].In Association for Computational Linguistics,1997:202-208.
[6] ?Ravin Y,Kazi Z.Is Hillary Rodham Clinton the president?:disambiguating names across documents[C].In Association for Computational Linguistics,1999:9-16.
[7] ?Smith D A,Crane G.Disambiguating geographic names in a historical digital library[C].In Springer,2001:127-136.
[8] ?Bagga A,Baldwin B.Entity-based cross-document coreferencing using the vector space model[C].In Association for Computational Linguistics,1998:79-85.
[9] ?Pedersen T,Purandare A,Kulkarni A.Name discrimination by clustering similar contexts[C].In Springer,2005:226-237.
[10] ?Bekkerman R,McCallum A.Disambiguating web appearances of people in a social network[C].In ACM,2005:463-470.
[11] ?Han X,Zhao J.Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C].In Association for Computational Linguistics,2010:50-59.
[12] ?Bikel D M,Castelli V,F(xiàn)lorian R,et al.Entity Linking and Slot Filling through Statistical Processing and Inference Rules[C].TAC,2009.
[13] ?線巖團(tuán),余正濤,洪旭東,等.基于特征加權(quán)重疊度的中文實(shí)體協(xié)同消歧方法[J].中文信息學(xué)報(bào),2017,31(2):36-41.
作者簡(jiǎn)介:劉瀏,男,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院講師;王東波,男,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授;黃水清,男,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授;蘇新寧,男,南京大學(xué)信息管理學(xué)院教授。