国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

時間維度下的史籍全文自動重組研究—數(shù)字人文視角下的探索

2022-04-01 01:57:16張琪王東波黃水清李斌孟凱鄧三鴻
圖書情報知識 2022年1期
關鍵詞:王公史書古漢語

張琪 王東波 黃水清 李斌 孟凱 鄧三鴻

(1.南京大學信息管理學院,南京,210023; 2.南京農(nóng)業(yè)大學信息管理學院,江蘇,21095; 3.南京師范大學文學院,南京,210023; 4.南京農(nóng)業(yè)大學馬克思主義學院,南京,210095; 5.江蘇省數(shù)據(jù)工程與知識服務重點實驗室,南京,210023)

1 引言

時間是信息空間的重要維度[1],也是歷史學家研究歷史主體的重要工具[2]。在時間序列中,史學家“通古今之變”,揭示社會、經(jīng)濟、文化的發(fā)展線索與規(guī)律。然而,在以紀傳體、國別體、紀事本末體等體裁寫就的史書中,時間線索被斬斷。一方面,描述同一時間段歷史事件的史料分散于一部史書的各卷乃至多部史書之中;另一方面,史書中的時間描述存在省略、共指、歧義、模糊等特點。在兩者的共同作用下,增加了讀者收集和處理信息的負擔。

知識重組旨在重新組織知識客體,從而克服因知識分散而造成的檢索困難[3]。以時間為線索重組史籍能夠有效解決時間維度下史料分散的問題,幫助讀者快速定位與時間相關聯(lián)的所有相關史料。然而,古漢語史書時間描述中時間元素的多樣性與復雜性使得任務具有極高的復雜度。一方面,“桓公”“齊桓公小白”“齊桓公午”等表述存在歧義與共指;另一方面,“後三年”“十一月晦”等時間描述缺失必要的時間元素。文獻[4]將時間描述劃分為精確型時間描述(Precise Time Expressions,如“桓公五年”“五年”)、模糊型時間描述(如“昔者”“先日”“將來”“后代”等)以及事件觸發(fā)型時間描述(“桓公立”“幽公弟沸自立,是為魏公”)等類型。Zhao和Jin等人[5]進一步將精確型時間描述劃分為時間元素完備的顯式時間描述(Explicit Time Expressions,如“秦穆公任好元年”“桓公五年”)和缺失時間元素的隱式時間描述(Implicit Time Expressions,如“元年”“其歲”“後三年”“十一月晦”)??梢姡瑫r間維度下的史書全文重組無法通過簡單的字符串處理完成。

歷史上,“東漢史學家荀悅將紀傳體的《漢書》刪改成編年體的《漢紀》[6]”。固然,除完成時間維度的史書全文重組外,《漢紀》還采用類舉等方法為編年體史書的寫作做出了卓越的貢獻。然而就時間維度的史料查詢層面來看,隨著歷史的推移和史書數(shù)量的增多,時間維度的信息離散規(guī)模也隨之擴大—歷代史官以紀傳體寫就二十五部正史(又有二十四史,二十六史之說);“《隋書·經(jīng)籍志》著錄史書817部”[7]……顯然難以通過人工完成對所有史書的重寫。數(shù)字人文的研究范式下,面對規(guī)模龐大的史籍,亟待探索一套以時間為線索重組史書全文的自動化方法。

本研究探索了以時間為線索重組史書全文的方法,并將其分解為以下兩個子問題:

(1)古漢語時間描述識別與語義解析:完成時間描述識別、時間描述規(guī)范化和時間表達式鏈接;

(2)事件句識別與事件時間語義關聯(lián):包含事件句識別和事件時間語義關聯(lián)。

最終,本文將提出的方法應用于紀傳體史書《史記》與國別體史書《國語》中,檢驗方法的有效性。本研究采用數(shù)字手段回應人文研究中信息獲取和處理的需求,旨在破除紀傳體等史書體裁形成的時間信息獲取壁壘,從而改善人文領域學者獲取信息的方式方法。這是數(shù)字人文研究的具體實踐,也是對情報學傳統(tǒng)研究領域信息獲取與處理技術的探究。

2 相關研究

以時間為主線呈現(xiàn)事件的發(fā)生和發(fā)展是后續(xù)對事件演化形勢的研判、分析、預測的基礎。然而在以自然語言組成的新聞、醫(yī)療等文本中,語言的多樣性導致對時間的具體描述往往具有省略、模糊等特性,無法直接加以利用,因此對時間信息處理方法的探索引發(fā)了各國學者的關注。

英文與現(xiàn)代漢語領域對時間信息處理的研究已經(jīng)相對比較成熟,相關研究主要涉及時間描述抽取、時間描述規(guī)范化以及時間事件關系抽取三方面:

(1)時間描述抽?。═emporal Extraction)的主要任務是識別非結構化文本中時間描述的邊界及其具體類別。時間描述類別及標注規(guī)范方面,繼英文領域相關規(guī)范推出并應用于后續(xù)任務之后,自動內(nèi)容抽取項目(Automatic Content Extraction Program,ACE)[4]于2009年發(fā)布了中文時間標注規(guī)范,將中文時間描述劃分為精確型、模糊型、事件觸發(fā)型等,為后續(xù)開展現(xiàn)代漢語時間信息處理研究奠定了基礎;時間描述識別算法與模型方面,冷啟動條件下往往采用基于規(guī)則的方法[8-9]。隨著中英領域相關語料庫日漸成熟,機器學習和深度學習的方法受到更多關注[10-11]。

(2)時間規(guī)范化(Temporal Normalization)是指利用時間描述之間的關系,將文本中的時間描述如“下周三”“某月某日”等轉變?yōu)樾稳纭澳?月-日”的規(guī)范化表達。相關研究主要面向新聞文本提出上下文無關策略和上下文局部相關策略,前者將新聞文本的發(fā)布時間作為參照時間(Reference Time),后者則主要采用最鄰近的上文時間作為參照時間,之后又提出了兩者相融合的動態(tài)選擇方法[5]。本研究分析了涉及古漢語時間的規(guī)范化問題,由于史籍成書時間對正文具體時間描述的參照價值較小,因此必須結合史書自身特點制定相應的時間規(guī)范化方法。

(3)時間事件關系抽取(Temporal Relation Extraction)包括事件與時間的關系[12](又稱為事件時間對齊,Event Time Alignment)以及事件時序關系[13],前者確定事件與時間描述的關系,后者確定事件發(fā)生的先后順序。其中,事件與時間的關聯(lián)主要通過文本內(nèi)容的相關性、修辭成分等特征確定,文本中所描述的事件往往與上下文中一定范圍內(nèi)出現(xiàn)的時間具有相關性,但在史書中呈現(xiàn)何種關聯(lián)仍有待探索。

綜合已有研究所涉及的語言類別及文本類別可知,過去對時間信息處理的研究主要集中在英文及現(xiàn)代漢語領域且主要面向新聞文本,近年來則正在朝多語言[14]、多領域[15-16]的方向發(fā)展。

相較于英文與現(xiàn)代漢語,古漢語文本中的時間描述更具特殊性和多樣性。特殊性主要體現(xiàn)在紀年法的不同,多樣性則表現(xiàn)在古漢語中除年、月、日之外還有王公名、年號等時間元素,因此古漢語時間信息處理與上述研究存在較大差異。需要指出的是,古籍的成書年代、版本年代屬于外部書目信息,相關研究如王兆鵬、邵大為[17]以作品創(chuàng)作時間、創(chuàng)作地點為基礎實現(xiàn)時間和空間維度下的古代作家資料的整理,而本研究旨在探索史籍全文在時間維度下的自動重組,因此主要關注史籍全文中所包含的時間描述信息。目前相關研究主要包括:肖懷志[18]構建了一個歷史年代知識元本體,建?!度龂尽匪婕暗哪晏柵c帝王之間的關系,但僅在理論層面指出了古漢語時間的歧義性,且未探索時間描述自動識別與語義解析的具體方法;董慧、徐雷等[19]提出一套古漢語時間處理流程,主要包含時間表達式抽取模塊及以段落為單位的時間規(guī)范化模塊,但未考慮古漢語時間描述歧義的問題;徐蒙蒙[19]分析了地方志中的時間信息,并初步提出地方志時間描述規(guī)范化的方法。

總體來看,目前缺少以下兩項關鍵研究導致無法支持以時間為線索的史書全文重組:

(1)古漢語時間描述消歧與共指消解方法,這一點正是古漢語時間處理與英文、現(xiàn)代漢語時間處理的核心區(qū)別,例如“桓公元年”這一時間描述雖包含了完整的時間元素,但“桓公”這一王公名存在歧義;

(2)缺少時間事件句關系識別的相關研究。對上述問題的探索,不僅能夠為史書知識跨體裁自動獲取與呈現(xiàn)奠定基礎,還有利于促進古漢語時間信息處理向深層次、語義化的方向發(fā)展。

3 時間維度下的史籍全文自動重組方法

3.1 技術路線

如圖1所示,系統(tǒng)以卷為單位(如《高祖本紀》卷)處理史書原文。經(jīng)過詞性標注之后,進入兩個核心處理模塊。一是時間描述識別與語義解析模塊的處理過程,如下:

(1)識別原文中的時間描述(如“桓公五年”“二十七年”);

(2)將存在省略、共指、歧義、模糊性的時間描述統(tǒng)一規(guī)范化為具有包含完整元素的古漢語時間表達式;

(3)將時間表達式轉化為基準統(tǒng)一、語義唯一(無歧義與共指)的公元時間表達式。

二是事件句識別與事件時間語義關聯(lián)模塊的處理過程,如下:

(1)剔除“王翦者,頻陽東鄉(xiāng)人也”等陳述客觀事實而非表述事件的句子;

(2)大量事件句中不包含時間描述,因此需要通過對史書文本的分析制定方法,建立事件句與時間描述之間的語義關聯(lián)。

圖1 ?時間維度下的史籍全文自動重組技術路線Fig.1 Technology Roadmap of Automatic Reorganization of Historical Records from Time Dimension

圖2 ?時間描述識別與語義解析示例Fig. 2 Examples of Ancient Chinese Temporal Expression Recognition and Semantic Parsing

兩個核心模塊分別實現(xiàn)了事件句與時間描述以及時間描述與公元時間軸的兩層語義關聯(lián),從而使史書中的事件句得以定位于基準統(tǒng)一的時間軸上,實現(xiàn)時間維度下的史籍全文自動重組。兩個核心模塊的進一步描述與其各個子模塊的具體實現(xiàn)方法分別在3.2和3.3節(jié)中進行闡述。

3.2 時間描述識別與語義解析

如圖2所示,時間描述識別與語義解析包含三部分,即時間描述識別、時間描述規(guī)范化和時間表達式鏈接。

3.2.1 時間描述識別

與時間詞不同,時間描述指文獻中描述時間的完整表述。如“秦侯(NB1)立(VH1)十(S)年(NA5)……”中包含時間詞“年”以及時間描述“秦侯立十年”;又如句子“竫公(NB1)子(NA1)立(VH1),是(NH)為(VG)寧公(NB1)”不含時間詞,但包含事件觸發(fā)型時間描述“寧公立”。本研究采用規(guī)則匹配的方法識別史書中時間描述的邊界及其所屬類別,具體規(guī)則見腳注①https://github.com/strawberrylunar/ancient-chinese-time-expression中的說明,識別結果示例如表1所示。

對于同一個句子中存在多個時間描述情況,借鑒文獻[11]采用優(yōu)先權值的方法選擇時間表達式,本文結合史書時間描述的特點進一步根據(jù)不同的情景確定時間描述的優(yōu)先權值,最終保留優(yōu)先權值最高的時間描述,其余的時間描述均去除,保證一個句子只有一個時間表達式。如圖3所示,以句子“<繆侯七年>,而<魯隱公元年>也”為例,該句包含兩個時間描述,由于前文包含顯式時間描述,因此進一步判斷句子中是否包含王公轉換觸發(fā)詞。由于不包含王公轉換觸發(fā)詞,因此根據(jù)各個時間描述在句子中的位置確定兩個時間描述的優(yōu)先權值,“繆侯七年”的位置為[1,4](即句子“繆侯七年,而魯隱公元年也”的第一個字至第四個字),而“魯隱公元年”的位置為[7,11],前者位置更靠前,因此最終保留“繆侯七年”。

3.2.2 時間描述規(guī)范化

時間描述規(guī)范化的目的是將上一節(jié)從原文中識別到的時間描述轉化為包含王公(或年號)、年份、月份等時間元素的時間表達式。本研究根據(jù)不同時間描述類型的特點,分別制定了不同的時間規(guī)范化方法。

表1 ?時間描述識別結果示例Table 1 Examples of Time Expression Recognition Results

圖3 ?基于具體語境的時間描述優(yōu)先權確定方法Fig.3 Method of Determining the Priority of Time Expression According to Specific Context

精確型時間描述包含顯式時間描述與隱式時間描述。顯式時間描述的規(guī)范化無需依靠參照時間,直接在時間描述實例內(nèi)部提取相應時間元素分別填充對應槽位即可。隱式時間描述規(guī)范化則需要結合參照時間、偏移粒度、偏移量,將時間描述(如“元年”)解析為包含完整時間元素的時間表達式(如“王公:齊桓公;年份:元年”和“年號:元鼎;年份:三年”)。不同的文本類型在參照時間的選擇方法上有所差異,一般分為上下文無關策略和上下文局部相關策略。與新聞、臨床報告等文本不同,史書對歷史事件的時間描述較少以成書時間為基準,而往往以上文時間描述為參照,因此本研究采用上文局部相關策略規(guī)范化隱式時間描述。其中,“二十七年”“元年”等省略型時間直接從參照時間中提取缺失的信息;“是歲”“後六年”等方位型時間描述則首先獲取偏移方向、偏移粒度以及偏移量,完成后再進行規(guī)范化處理。值得注意的是,若方位型時間前為模糊型時間,其參照時間不應繼續(xù)向前追溯。

事件觸發(fā)型時間描述通過特殊事件指出具體時間,本文主要考慮了如“幽公弟沸自立,是為魏公”等王公即位型時間描述,即通過王位更替這一特殊事件指明時間。值得注意的是,各諸侯國在王位的更替銜接中在何年為元年的問題上具有不同的取向。根據(jù)陳美東[21]對西周共和之后紀年法進行系統(tǒng)探究所得出的結論可知,大部分諸侯國采用次年王公紀年法,而晉、宋、衛(wèi)采用當年王公紀年法。因此,將涉及晉、宋、衛(wèi)三國的王公即位型時間描述的年份設為“元年”,其他國家王公的時間描述均設為“零年”(元年的前一年)。

模糊型時間描述無法準確定位在時間軸上,且轉換后的結果將直接影響后續(xù)時間描述規(guī)范化的準確性,因此僅做識別但不進行規(guī)范化處理。

圖4 ?王公實體消歧實例Fig.4 Example of Emperor Entities' Disambiguation

3.2.3 時間表達式鏈接

{王公:桓公,年份:二十七年}、{王公:繆公,年份:元年}等時間表達式具有完整時間元素,但無法直接通過計算定位在同一條時間軸上,必須解決的問題包括時間元素層面的歧義、共指,以及時間表達式整體層面的共指。

(1)時間元素消歧與共指消解

古漢語時間元素的歧義主要在于王公名(或年號)存在歧義,例如,僅春秋戰(zhàn)國時期謚號為“桓公”的王公多達十一位。為此,本研究探索了作為時間元素的王公實體的自動消歧方法。如圖4所示,首先生成候選實體列表(Candidate Entity Generation),繼而結合上下文信息進行置信度排序從而完成消歧(Entity Disambiguation)。

① 生成王公候選歧義列表與王公別名列表

若王公名Mi存在歧義,則其具有候選王公候選歧義列表Ci=(ei1,...,eij)。本研究構建王公候選歧義列表的方法如下:首先,編寫正則表達式匹配史書年表中形如“齊桓公小白”“齊桓公午”等王公主稱謂。其次,將其進行分解從而得到王公的多個別名,并通過史書引得進一步補充王公別名,形成王公別名表,如表2所示。最后,對王公別名表進行縱向對比,若兩個或多個王公實體具有相同別名,則將相同別名放入王公歧義列表,同時將其對應的所有王公主稱謂放入該歧義王公名的候選歧義列表。例如,“齊桓公”具有歧義,其對應的王公候選歧義列表包括“齊桓公小白”與“齊桓公午”等。

② 基于上下文信息相關度排序完成王公實體消歧

通過對包含歧義王公名的文本內(nèi)容及邏輯結構進行分析,發(fā)現(xiàn)以下特征:

(a)歧義王公名中被省略的“國家”元素在上文出現(xiàn)頻率較高;(b)史書篇章內(nèi)部的時間記敘多為順序。因此,分別計算了候選王公所屬諸侯國上文出現(xiàn)頻率、候選王公與上文王公實體的時間連貫性,將兩者轉化為權重值相加,得分最高的候選實體作為消歧結果,具體實現(xiàn)方法如下:

表2 ?王公別名列表與歧義列表生成示例Table 2 Examples of Generating Alias List and Ambiguity List

首先,統(tǒng)計歧義王公上文中各諸侯國的出現(xiàn)頻次。由于“齊桓公小白”等王公正式稱謂均包含其所屬國家(諸侯國),因此若判定歧義王公所屬國家,便可大范圍縮小鏈接范圍。統(tǒng)計歧義實體的上文(Preceding Text)中各候選王公實體所屬國家ekij的出現(xiàn)頻次Npre(ekij),頻次越高,候選王公實體的權重也越高,如公式1所示。

然后,量化候選王公與上文王公實體的時間連貫性。與前文最相鄰時間描述所對應的公元時間進行大小比較,大于前文時間且時間距離越近則時間連貫性越強,如公式2所示。

最終,將上述兩項轉化為權重值相加(公式3),得到歧義王公與候選王公列表中各個實體的相關度權重。將相關度權重排序,將權重最高的ei作為消歧結果輸出,如公式4所示。

③ 借助王公別名列表完成王公實體的共指消解

如表2所示,在生成王公候選歧義列表的過程中,也生成了王公別名列表(如“齊桓公小白”的別名有:“齊桓公”“小白”“小白”“桓公小白”“公子小白”)。在前文完成王公實體消歧的基礎上,以該別名列表為依據(jù),通過映射完成王公實體的共指消解。

(2)時間表達式整體共指消解

對于“王公:秦繆公任好,年份:元年”“齊桓公小白,年份:二十七年”等時間表達式整體層面的共指問題,由于以《春秋》等史書采用一國紀年作為基準的方式難以串聯(lián)所有的歷史時期,本文以近代史學家所制定的中西歷對照表為基準,以公元紀年為標準統(tǒng)一所有時間描述。經(jīng)過上述規(guī)范化處理與消歧、共指消解處理,史書原文中的“二十七年”等時間描述被解析為具有完整時間元素的古漢語時間表達式與公元時間表達式。

3.3 事件句識別與事件時間語義關聯(lián)

為實現(xiàn)史書原文句子以時間為線索的重組,必須確定句子與時間描述之間的關系。然而,一方面,并非所有句子都具有事件屬性,例如“二十七年,魯泯公母曰哀姜,桓公女弟也”雖包含時間描述,但其僅表述客觀事實,因此不具有事件屬性,不應定位于時間軸上;另一方面,大量事件句自身不包含時間描述,如“桓公召哀姜,殺之”。本研究首先識別事件句,然后將事件句關聯(lián)至時間描述,如圖5所示。

3.3.1 事件句識別

事件句表示一個具有實際終點的、敘述完整且獨立的句子[22],自然語言處理領域多借助動詞、介詞短語等標注事件句[23-24]。本文結合詞性標記識別事件句,以臺灣“中央研究院”所提供的標注集為例,該數(shù)據(jù)集將動詞分為動作類動詞(動作不及物動詞、動作類單賓動詞等6種,標記為VA-VF)、狀態(tài)類動詞(狀態(tài)不及物動詞、狀態(tài)句賓動詞等5種,標記為VH-VL)以及分類動詞(VG)三類[25]。本文將包含動作類動詞及狀態(tài)類動詞的句子視為事件句,識別結果示例如表3所示。

圖5 ?事件句識別與事件時間語義關聯(lián)實例Fig 5 Examples of Event Sentence Recognition and Event-time Relation Extraction

表3 ?事件句識別結果示例Table 3 Examples of Event Sentence Recognition Results

3.3.2 事件時間語義關聯(lián)

由于史書寫作具有很強的邏輯性,文本中所記載的事件往往與其在一定距離范圍內(nèi)的時間描述相關聯(lián),因此本文采用了前向鄰近時間焦點保留的方法,并考慮了時間焦點轉移的情況,從而完成事件句與時間描述的語義關聯(lián)。具體處理過程如下:按文本敘述先后順序輸入所有事件句,若事件句中含有時間描述,直接將其與事件句關聯(lián);若事件句中不含時間描述,則首先判斷時間焦點是否發(fā)生轉移。在時間焦點未發(fā)生轉移的情況下(見表4),鏈接至上文最鄰近時間描述;若時間焦點轉移,則時間置為空,直至出現(xiàn)下一個時間描述。

表4 ?時間焦點轉移類型Table 4 Types of Time Focus Shift

4 時間維度下的《國語》《史記》重組

本章將上文提出的方法應用至體裁不同的史書,從而驗證其有效性。鑒于中國古代由史官寫就的正史均采用紀傳體,因此選取我國第一部紀傳體史書《史記》,另外選取了與《史記》所涉時代有重疊的另一部國別體史書《國語》。下文首先介紹語料的獲取與預處理過程,然后對系統(tǒng)標注結果進行評價與分析。

4.1 語料來源與預處理

本文分別基于臺灣“中央研究院”上古漢語語料庫[26]與中國哲學電子書電子計劃[27]中獲取兩冊史書的兩種電子化語料,前者包含領域專家所添加的分詞與詞性標記、特征標記;后者具有段落信息,且包含已添加公元年份的史書年表,整合之后得到本研究所采用的語料,語料基礎信息在表5中給出。在此基礎上,將每卷語料按句進行分割,并為其中每個句子添加由“段落號-句子編號”組成的唯一標識。

表5 ?實驗語料基礎信息Table 5 Basic Information of Experimental Corpus

王公名消歧與共指消解所采用的王公同名詞典與王公別名詞典的具體獲取方式已在上文給出。此處針對《史記》與《國語》的抽取結果如下:共獲得具有歧義的王公名233個(如“桓公”),共涉及1,012位王公(如“齊桓公小白”“齊桓公午”等);共獲得具有別名的王公963位(如“齊桓公小白”),共涉及2,255個王公名(如“公子小白”“桓公小白”“小白”“桓公”“齊桓公”),平均每個王公有2.34個別名。

中西歷時間映射詞典獲取自經(jīng)人工補齊公元年份的《史記》年表[27]。編寫正則表達式提取王公主稱謂(若缺少王公所屬國,根據(jù)表頭自動補齊)及其在位元年所對應的公元年份,共獲取441條記錄,詞典樣例如表6所示。

表6 ?中西歷映射詞典樣例Table 6 Examples of Chinese and Western Calendar Mapping Dictionary

4.2 實驗結果

融合《國語》《史記》兩部史書的歷史事件時間軸示例如圖6所示,《史記·周本紀》《史記·秦本紀》以及《周語·國語上》等不同史書或不同卷冊中的歷史事件被定位至同一時間軸上??梢姳狙芯刻岢龅姆椒軌蛴行У貙ⅰ妒酚洝返确蔷幠牦w史書中的歷史事件以時間為脈絡重組,便于以時間為索引獲取同一史書以及不同史書中的相關信息。

為了對處理效果進行定量評價,表7給出了《史記》《國語》的處理結果。最終《史記》中有19,868個事件句定位于時間軸上,《國語》中則有715個事件句定位于時間軸上。需要進一步說明的是,部分直接從原文中獲取的時間描述及其所對應的事件句未能鏈接至公元時間軸,主要原因如下:

(1)時間描述規(guī)范化過程中,與新聞文本中前文缺乏局部參照時間時可轉而采用參照發(fā)布時間不同,若前文缺乏可參照時間,隱式時間描述無法進行規(guī)范化;

圖6 ?歷史事件時間軸生成結果示例Fig. 6 Examples of Historical Events' Timeline Generation Results

(2)時間表達式鏈接過程中,部分規(guī)范化之后的時間表達式因目前無法考證其具體所指公元年份,無法鏈接至公元時間,如“帝顓頊元年”“周文王元年”;

(3)實驗所采用中西歷映射表缺乏相關信息從而導致的時間表達式鏈接失敗,如“軍臣單于”的在位元年在年表中未給出,之后將進一步擴大中西歷映射表覆蓋范圍。

為了進一步評價系統(tǒng)準確率,在《史記》本紀、世家、列傳中各隨機選取一卷,在《國語》中選取包含時間描述最多的《晉語四》,人工校驗各處理階段系統(tǒng)的準確率,結果在表8中給出。

如表8所示,總體來看系統(tǒng)達到了較高的準確率,其中《史記》三卷的準確率均達到89%以上,《晉語四》的準確率則為77.33%,可見本研究在減少人工標注的前提下,達到了較高的準確率,取得了較好的應用效果。

為了開展進一步的相關研究,下面主要對系統(tǒng)實現(xiàn)方法存在的不足做分析,提出未來在方法層面改進的可能方向。從系統(tǒng)不同模塊的處理效果來看,時間描述識別、時間表達式鏈接、事件句識別均已達到了較高的準確率,因此重點分析時間描述規(guī)范化、事件時間語義關聯(lián)方法等存在的缺陷以及今后的提升方向。

時間描述規(guī)范化模塊存在的主要問題是不同史書效果的差異。人工檢驗發(fā)現(xiàn),《國語》中大量隱式時間在上下文并無可參照時間。未來一方面可以進一步探討特殊情況下時間描述規(guī)范化的方法;另一方面可以引入異文句,借助描述相同事件句子所包含的時間信息加以修正。

事件時間語義關聯(lián)則可從以下兩方面出發(fā)展開進一步探索:

(1)部分事件句無法關聯(lián)至上下文中的任何時間描述,例如《田敬仲完世家》有以下描述:“……<立他,為厲公>。厲公既立,娶蔡女。蔡女淫於蔡人,數(shù)歸,厲公亦數(shù)如蔡?;腹僮恿衷箙柟珰⑵涓概c兄,乃令蔡人誘厲公而殺之?!弊詈笠粋€句子“桓公之少子林怨厲公殺……”被錯誤關聯(lián)至前文最鄰近時間描述“立他,為厲公”,但參照《陳杞世家》“七年,厲公所殺桓公太子免之三弟,……與蔡人共殺厲公而立躍,是為利公”可知陳厲公被殺一事發(fā)生于陳厲公七年。發(fā)生這一錯誤的原因在于《田敬仲完世家》的描述主體非陳國,因此對陳國事件未逐年詳寫。此外,插敘而具體描述中缺乏明顯的指引詞也會導致相同的結果,例如“是歲,管仲、隰朋皆卒。管仲病,桓公問曰:「群臣誰可相者?」”中“管仲病”為插敘。對于上述情況,同樣可以在完成異文句對齊的基礎上對前者的時間進行修正。

表7 ?《史記》、《國語》處理結果Table 7 Processing Results of Shi Ji and Guo Yu

表8 ?各階段準確率評價結果Table 8 Evaluation Results of Precision Rate at Each Stage

(2)由于史書中具體到月的時間描述極少,因此本文僅定位至以年為粒度的時間軸上,同一年內(nèi)的事件句無法通過時間描述排序,而需通過詞法、句法、語義特征、推理規(guī)則判斷事件時序關系。但目前缺乏古文方面的整理與歸納,未來可以在對相應特征及推理規(guī)則進行系統(tǒng)整理的基礎上展開進一步探索。

5 總結與展望

從上世紀八十年代開始,英文、現(xiàn)代漢語時間信息處理領域歷經(jīng)三十多年的探究發(fā)展,對時間描述信息的處理已經(jīng)比較成熟。然而古漢語時間描述的特殊性導致目前的相關研究較少,且大多停留在理論分析上。本研究提出了一套以時間為線索重組史書全文的具體方法,并設計了一套完整的方法流程對其進行了實現(xiàn)。首先,通過古漢語時間描述識別與語義解析,完成時間描述識別、時間描述規(guī)范化和時間表達式鏈接,從而使史書中的時間描述關聯(lián)至基準統(tǒng)一的公元時間軸;然后,通過事件識別與事件時間語義關聯(lián),實現(xiàn)事件句關聯(lián)至文中的時間描述。通過上述兩層語義關聯(lián),事件句得以在時間軸上定位,從而完成以時間為序的史料重排。最后,通過實驗證明系統(tǒng)達到了較高的準確率,能夠有效減少人工標注,便于大規(guī)模推廣。

同時,本研究也存在一定局限。首先,本研究目前主要對先秦兩漢時期史書進行了驗證,方法的實用性有待通過擴大語料規(guī)模與規(guī)則集之后得到進一步證實。其次,本研究在時間描述識別與語義解析的基礎上通過史書事件時間對齊將非編年體史書中的事件句定位到以年為單位上的公元時間軸上。由于史書中具體到月、日的時間描述相對較少,同一年及少量同一時期的事件句之間時序的排列將借助事件時序關系識別進一步確定。未來,我們將在本研究的基礎上展開進一步探索。

作者貢獻說明

王東波,黃水清:提出研究思路;

王東波,張琪,李斌,孟凱:設計研究方案;

王東波,張琪:采集、清洗和分析數(shù)據(jù),進行實驗,起草論文;

鄧三鴻,張琪:論文最終版本修訂。

支撐數(shù)據(jù)

支撐數(shù)據(jù)由作者自存儲,Email:db.wang@njua.edu.cn。

1、王東波,張琪.Pos_taged_shishu.json.史書詞性標注結果.

2、王東波,張琪.Dict.json.同名詞典與歧義詞典.

3、王東波,張琪.Shishu_time_processed_result.json. 史書時間處理結果.

猜你喜歡
王公史書古漢語
文化常識
馬周以腳“喝酒”智辯掌柜
古漢語疑問句末“為”字補證
《巴林王公世襲》中記載的固倫淑慧公主四子質疑
上古漢語“施”字音義考
“汗青”原來是史書
談談古漢語的翻譯
語言與翻譯(2014年1期)2014-07-10 13:06:11
古漢語中表反問的一組能愿動詞
語文知識(2014年3期)2014-02-28 21:59:31
Synthesis of Didodecyl Carbonate via Transesterification Catalyzed by KF/MgO*
話說王公三則
长顺县| 亚东县| 玉环县| 阳城县| 曲麻莱县| 大港区| 奎屯市| 鲁山县| 天长市| 阜平县| 汤阴县| 岳普湖县| 桦南县| 钟山县| 盘锦市| 远安县| 青龙| 马公市| 乌拉特后旗| 老河口市| 辰溪县| 灵川县| 稻城县| 铜鼓县| 济南市| 西城区| 六枝特区| 卫辉市| 天津市| 西乡县| 日照市| 花莲县| 金门县| 宁乡县| 房山区| 凤山县| 岳普湖县| 鄂托克前旗| 黄石市| 平顺县| 汪清县|