国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字人文視域下SikuBERT增強(qiáng)的史籍實(shí)體識(shí)別研究*

2022-09-23 00:58:30劉江峰馮鈺童王東波胡昊天張逸勤
圖書館論壇 2022年10期
關(guān)鍵詞:典籍分詞語(yǔ)料

劉江峰,馮鈺童,王東波,胡昊天,張逸勤

0 引言

中華文明源遠(yuǎn)流長(zhǎng),一本本典籍演繹著一幅幅絢麗的歷史畫卷。以人為鑒,可以明得失;以史為鑒,可以知興替。從漫長(zhǎng)的歷史中獲取知識(shí)與經(jīng)驗(yàn),是實(shí)現(xiàn)國(guó)家富強(qiáng)、民族復(fù)興、人民幸福的制勝法寶。近年傳統(tǒng)人文學(xué)科社科化、社會(huì)科學(xué)信息化的趨勢(shì)日益增強(qiáng),數(shù)字人文(又稱人文計(jì)算)研究悄然興起,為傳統(tǒng)人文與社會(huì)科學(xué)研究提供了新的研究范式[1]。文本挖掘與可視化分析成為數(shù)字人文領(lǐng)域研究的重要技術(shù),典籍文獻(xiàn)的深度挖掘和利用成為可能。從研究的精細(xì)程度來(lái)看,文獻(xiàn)信息處理主要分為詞匯級(jí)、句子級(jí)、篇章級(jí)。古文詞匯級(jí)研究主要包括自動(dòng)分詞、詞性標(biāo)注與命名實(shí)體識(shí)別[2]。其中,實(shí)體識(shí)別作為實(shí)體關(guān)系識(shí)別、知識(shí)圖譜構(gòu)建以及其他研究的基石,其準(zhǔn)確性和效率尤為重要。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,文學(xué)、地理、天文等領(lǐng)域均對(duì)命名實(shí)體識(shí)別進(jìn)行廣泛研究。機(jī)器學(xué)習(xí)時(shí)代,CRF模型能夠融合上下文特征,被廣泛應(yīng)用于常見(jiàn)實(shí)體的識(shí)別,但存在過(guò)分依賴標(biāo)注數(shù)據(jù)集的缺點(diǎn),對(duì)較少見(jiàn)的實(shí)體名稱,識(shí)別效果不夠理想。近年來(lái),深度學(xué)習(xí)技術(shù)日益成熟,諸如LSTM、BERT模型及其變體在命名實(shí)體識(shí)別領(lǐng)域均有很多成功的應(yīng)用。由于語(yǔ)法上的獨(dú)特性且與現(xiàn)代漢語(yǔ)、英語(yǔ)存在較大差異,漢語(yǔ)古文語(yǔ)料的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別難度較大。

2018 年Google 發(fā)布基于雙向Transformer編碼器表征的語(yǔ)言模型(BERT)。在BERT 模型中,一個(gè)已經(jīng)過(guò)大量語(yǔ)料預(yù)訓(xùn)練的預(yù)訓(xùn)練模型能使模型的下游應(yīng)用效率更高:只需一個(gè)額外的輸出層就可對(duì)已有的預(yù)訓(xùn)練模型進(jìn)行微調(diào),并應(yīng)用在各類領(lǐng)域任務(wù)中,無(wú)需根據(jù)特定任務(wù)對(duì)模型進(jìn)行實(shí)質(zhì)性修改。BERT發(fā)展了預(yù)訓(xùn)練-微調(diào)的語(yǔ)言模型研究新范式。當(dāng)前常用中文預(yù)訓(xùn)練模型包括Google官方提供的BERT-Base-Chinese(以下簡(jiǎn)稱“BERT-base”)、哈爾濱工業(yè)大學(xué)訊飛聯(lián)合實(shí)驗(yàn)室提供的中文RoBERTa、北京理工大學(xué)提供的GuwenBERT等。其中,BERT-base和RoBERTa是基于中文維基百科的包含簡(jiǎn)體與繁體中文的預(yù)訓(xùn)練模型,GuwenBERT是基于殆知閣古漢語(yǔ)語(yǔ)料的簡(jiǎn)體中文預(yù)訓(xùn)練模型。相較于殆知閣古漢語(yǔ)語(yǔ)料,中文維基百科在語(yǔ)法上與典籍文獻(xiàn)有較大差異;而GuwenBERT卻是完全采用簡(jiǎn)體中文古文文獻(xiàn)的預(yù)訓(xùn)練模型??梢灶A(yù)見(jiàn),在繁體中文的典籍文獻(xiàn)命名實(shí)體識(shí)別中,上述3個(gè)預(yù)訓(xùn)練模型皆有其各自的優(yōu)缺點(diǎn)。

《四庫(kù)全書》是我國(guó)古代最大的文化工程,完整呈現(xiàn)了我國(guó)古典文化的知識(shí)體系。近日由南京農(nóng)業(yè)大學(xué)信息管理學(xué)院牽頭、南京師范大學(xué)文學(xué)院參與,使用《四庫(kù)全書》繁體版本語(yǔ)料分別在BERT-base和Chinese-RoBERTa-wwmext(以下簡(jiǎn)稱“RoBERTa”)上進(jìn)行繼續(xù)訓(xùn)練的SikuBERT、SikuRoBERTa發(fā)布。該研究在基于《左傳》語(yǔ)料的自動(dòng)分詞、詞性標(biāo)注、斷句、命名實(shí)體識(shí)別等下游任務(wù)上作了簡(jiǎn)要驗(yàn)證,效果較上述3 個(gè)預(yù)訓(xùn)練模型均有不同幅度的提升。因此,本文嘗試?yán)肂ERT-base、RoBERTa、GuwenBERT、 SikuBERT、 SikuRoBERTa 等BERT預(yù)訓(xùn)練模型,以《左傳》《史記》《漢書》《后漢書》《三國(guó)志》等為實(shí)驗(yàn)語(yǔ)料,對(duì)人名、地名、時(shí)間詞等3種歷史事件的主要構(gòu)成實(shí)體進(jìn)行識(shí)別,進(jìn)一步探究SikuBERT、SikuRoBERTa在不同典籍、不同規(guī)模、不同語(yǔ)體風(fēng)格語(yǔ)料上的泛化能力并作可能的改進(jìn)嘗試。

1 研究回顧

1.1 數(shù)字人文視域下的古籍智能信息處理

數(shù)字人文(Digital Humanities)[3]為傳統(tǒng)人文學(xué)科提供了新的研究方法,著眼于數(shù)字化文本計(jì)算,如“數(shù)字敦煌”項(xiàng)目[4]、青州龍興寺遺址出土佛像保護(hù)項(xiàng)目[5]以及其他古籍修復(fù)[6]項(xiàng)目。近年隨著各類資源數(shù)字化規(guī)模的擴(kuò)大和機(jī)器學(xué)習(xí)、大數(shù)據(jù)等計(jì)算機(jī)技術(shù)的飛速發(fā)展,數(shù)字人文研究模式轉(zhuǎn)變?yōu)椴捎脭?shù)據(jù)密集型計(jì)算來(lái)服務(wù)人文學(xué)科領(lǐng)域[7]。在20世紀(jì)末期,我國(guó)古籍?dāng)?shù)字化研究就已取得一定成果,如1999年史睿[8]提出古籍?dāng)?shù)字化構(gòu)建方案。21世紀(jì)初以來(lái),我國(guó)逐步構(gòu)建了大批古籍?dāng)?shù)據(jù)庫(kù)[9],古籍?dāng)?shù)字化技術(shù)[10](如數(shù)字化輸入技術(shù)、OCR光學(xué)識(shí)別技術(shù)、字處理技術(shù)、智能化處理技術(shù))得到很大發(fā)展。近年文本挖掘技術(shù)的進(jìn)步推進(jìn)了古籍信息智能處理研究的不斷發(fā)展,自然語(yǔ)言處理技術(shù)為更加方便地處理、利用古文文本知識(shí)提供了理論、方法和應(yīng)用思路。其中,古文自動(dòng)斷句、古文詞匯處理(分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等)是古籍智能處理的關(guān)鍵方向。

(1)古文自動(dòng)斷句。古文斷句是根據(jù)古代漢語(yǔ)句子的組合原則,結(jié)合現(xiàn)代漢語(yǔ)的句讀集合,通過(guò)自動(dòng)和智能化的策略完成對(duì)古代漢語(yǔ)自動(dòng)添加句讀的功能,進(jìn)而實(shí)現(xiàn)對(duì)古代漢語(yǔ)句子的斷句[11]。目前古文自動(dòng)斷句技術(shù)主要分為兩類。一是基于規(guī)則庫(kù)的方法,主要由人工制定斷句規(guī)則來(lái)進(jìn)行匹配,如黃建年[12]構(gòu)建了農(nóng)業(yè)古籍的斷句標(biāo)點(diǎn)規(guī)則庫(kù),并設(shè)計(jì)出農(nóng)業(yè)古籍?dāng)嗑錁?biāo)點(diǎn)的原型系統(tǒng)。再如,陳天瑩等[13]提出了基于上下文的N-gram模型,用于古文斷句。但這種方法由于規(guī)則的泛化能力較差、難以覆蓋全面等原因,越來(lái)越不被學(xué)者使用。二是基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法。一些學(xué)者[14-15]提出了層疊條件隨機(jī)場(chǎng)模型,這一策略的性能比基于規(guī)則匹配的方法效果更優(yōu),更加適用于古文斷句。王博立等[16]提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的古文斷句方法,在大規(guī)模語(yǔ)料上訓(xùn)練后能獲得比傳統(tǒng)機(jī)器學(xué)習(xí)更高的準(zhǔn)確率。俞敬松等[17]使用BERT+微調(diào)模型對(duì)《道藏》文本進(jìn)行斷句,模型的效果優(yōu)于BiLSTM+CRF模型并擁有較好的泛化性。這類深度學(xué)習(xí)方法是目前主流的自動(dòng)斷句方法,擁有較大的研究空間和研究?jī)r(jià)值。

(2)古文詞匯智能處理。古文詞匯處理是指通過(guò)計(jì)算機(jī)算法,對(duì)數(shù)字化處理后的古代典籍文獻(xiàn)進(jìn)行自動(dòng)分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等操作,從而開(kāi)展詞匯層面的知識(shí)挖掘[18]。由于漢語(yǔ)中詞與詞之間沒(méi)有分隔,需要對(duì)句子進(jìn)行詞匯切分。自動(dòng)分詞技術(shù)可以使分詞更為高效、準(zhǔn)確,同時(shí)也是進(jìn)行詞性標(biāo)注、命名實(shí)體識(shí)別的基礎(chǔ)。基于機(jī)器學(xué)習(xí)的自動(dòng)分詞方法是目前的主流分詞方法。比如,梁社會(huì)等[19]利用條件隨機(jī)場(chǎng)模型和注疏文獻(xiàn)對(duì)《孟子》進(jìn)行自動(dòng)分詞;魏一[20]使用殆知閣古漢語(yǔ)語(yǔ)料進(jìn)行BERT 模型訓(xùn)練,使用《左傳》數(shù)據(jù)集進(jìn)行模型測(cè)試,獲得了泛化能力和穩(wěn)定性較好的分詞模型。

古文的詞性標(biāo)注是在分詞的基礎(chǔ)上,按照一定的規(guī)則為詞語(yǔ)標(biāo)注對(duì)應(yīng)的詞性,以進(jìn)一步增強(qiáng)詞匯的特征。目前詞匯標(biāo)注主要通過(guò)機(jī)器學(xué)習(xí)展開(kāi),有分詞和詞性標(biāo)注分別進(jìn)行和分詞與詞性標(biāo)注一體化兩種方式。例如,王東波等[21]使用條件隨機(jī)場(chǎng)模型,并結(jié)合統(tǒng)計(jì)方法確定組合特征模板,得到具有較強(qiáng)推廣性的先秦典籍詞性自動(dòng)標(biāo)注模型。石民等[22]使用條件隨機(jī)場(chǎng)模型對(duì)《左傳》文本進(jìn)行分詞標(biāo)注一體化實(shí)驗(yàn),證明一體化方法可以提高分詞和詞性標(biāo)注的精度。留金騰等[23]在上古漢語(yǔ)分詞和詞性標(biāo)注的過(guò)程中,采用自動(dòng)標(biāo)引和人工校正相結(jié)合的方式,使用條件隨機(jī)場(chǎng)模型并嘗試調(diào)整特征模板進(jìn)行分詞和詞性標(biāo)注,有效提高了模型準(zhǔn)確性,減少了后續(xù)人工校正的工作量。

命名實(shí)體識(shí)別是古文詞匯處理過(guò)程中的關(guān)鍵環(huán)節(jié),也是本文的研究?jī)?nèi)容。如皇甫晶等[24]以《三國(guó)志·蜀書》為實(shí)驗(yàn)文本,驗(yàn)證了基于規(guī)則匹配的方式進(jìn)行實(shí)體命名識(shí)別的可行性;朱鎖玲等[25]以《方志物產(chǎn)》為語(yǔ)料,采用規(guī)則匹配和統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的方式,實(shí)現(xiàn)了物產(chǎn)地名的自動(dòng)識(shí)別。諸多學(xué)者[18,26]在進(jìn)行古籍命名實(shí)體識(shí)別研究時(shí),使用隱馬爾科夫模型(HMM)、最大熵模型(ME)、支持向量機(jī)(SVM)、條件隨機(jī)場(chǎng)模型(CRF)等統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型。近年隨著深度學(xué)習(xí)技術(shù)的不斷深入發(fā)展,各類深度學(xué)習(xí)模型被應(yīng)用于各類命名實(shí)體識(shí)別任務(wù)。命名實(shí)體識(shí)別既是古文信息提取的重要任務(wù),也是文本結(jié)構(gòu)化的基本步驟。

1.2 命名實(shí)體識(shí)別

以命名實(shí)體識(shí)別(Named Entity Recognition,NER)為代表的信息抽取技術(shù)研究,最早開(kāi)始于20 世紀(jì)60 年代。MUC-6(Sixth Message Understanding Conference)會(huì)議提出,命名實(shí)體識(shí)別研究為信息抽取效果評(píng)測(cè)的重要指標(biāo)之一[27]。按其歷史發(fā)展進(jìn)程,命名實(shí)體識(shí)別研究主要分為基于規(guī)則和詞典匹配的命名實(shí)體識(shí)別、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別、基于深度學(xué)習(xí)的命名實(shí)體識(shí)別等3類。早期的命名實(shí)體識(shí)別主要采用基于規(guī)則的方法,通過(guò)分析實(shí)體的特點(diǎn)及其在語(yǔ)言文本中的特征,構(gòu)建一定數(shù)目的規(guī)則,從文本中匹配符合這些規(guī)則的實(shí)體。這些規(guī)則往往需要眾多領(lǐng)域?qū)<液馁M(fèi)較長(zhǎng)時(shí)間來(lái)構(gòu)造,且可移植性差。隨著領(lǐng)域知識(shí)的發(fā)展,規(guī)則還需要不斷更新。如今,這類方法在特殊語(yǔ)種(如阿拉伯語(yǔ)[28])的命名實(shí)體識(shí)別上尚有一定應(yīng)用。

(1)基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別。20 世紀(jì)90 年代,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別研究逐漸興起。隱馬爾可夫模型(Hidden Markov Models,HMM)、最大熵模型(Maximum Entropy Models,MEM)、支持向量機(jī)(Support Vector Machines,SVM)、條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)等統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型成為該時(shí)期改進(jìn)NER研究的重點(diǎn)。1999年Bikel等[29]使用HMM對(duì)日期、時(shí)間等實(shí)體進(jìn)行識(shí)別,在英語(yǔ)、西班牙語(yǔ)的語(yǔ)料測(cè)試中取得較好的結(jié)果。Borthwick等[30]將MEM與其他基于規(guī)則的查找工具結(jié)合,提出一個(gè)最大熵命名實(shí)體(MENE)系統(tǒng)。Lee等[31]提出基于SVM的兩階段命名實(shí)體識(shí)別器,使用生物醫(yī)學(xué)領(lǐng)域的GENIA語(yǔ)料進(jìn)行測(cè)試,有效解決了語(yǔ)義分類的多類問(wèn)題。Song等[32]使用CRF模型對(duì)生物醫(yī)學(xué)語(yǔ)料進(jìn)行命名實(shí)體識(shí)別,獲得具有競(jìng)爭(zhēng)力的系統(tǒng)POSBIOTM-NER。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的NER研究,主要思路是將實(shí)體識(shí)別問(wèn)題轉(zhuǎn)換為序列標(biāo)注問(wèn)題。HMM的輸出獨(dú)立性假設(shè)使其無(wú)法考慮上下文特征,MEM彌補(bǔ)了這一缺陷,但其在每個(gè)結(jié)點(diǎn)都要進(jìn)行歸一化處理,只能獲得局部最優(yōu)解。而CRF模型不僅考慮上下文特征,還實(shí)行全局歸一化,能得到全局最優(yōu)值,較HMM、MEM等效果更優(yōu)。因此,在眾多機(jī)器學(xué)習(xí)模型中,CRF模型更受到學(xué)者的關(guān)注。

在CRF的模型訓(xùn)練方面,McCallum[33]提出一種自動(dòng)歸納特征的方法,可以提升準(zhǔn)確性、顯著減少參數(shù)計(jì)數(shù),并提高模型在命名實(shí)體識(shí)別實(shí)驗(yàn)中的性能。Cohn等[34]提出一種利用糾錯(cuò)輸出碼(ECOC)訓(xùn)練CRF模型的方法,發(fā)現(xiàn)糾錯(cuò)CRF訓(xùn)練消耗的資源更少,能有效縮短實(shí)體識(shí)別時(shí)間。在中文命名實(shí)體識(shí)別方面,向曉雯[35]以CRF為基本框架,采用層疊結(jié)構(gòu)構(gòu)建了適用于人名、地名的命名實(shí)體識(shí)別系統(tǒng)。何炎祥等[36]使用CRF模型進(jìn)行地名識(shí)別,并加入規(guī)則庫(kù)對(duì)實(shí)體進(jìn)行召回,研究表明,設(shè)計(jì)合適的規(guī)則可以提升識(shí)別效率。郭劍毅等[37]提出一種旅游領(lǐng)域命名實(shí)體識(shí)別方法,能實(shí)現(xiàn)嵌套景點(diǎn)、特產(chǎn)風(fēng)味等實(shí)體的識(shí)別,此實(shí)證研究表明,采用層疊CRF模型,比HMM和單層CRF模型的性能有所提高。CRF模型擁有靈活加入多種特征、克服標(biāo)注偏置問(wèn)題等優(yōu)點(diǎn),但隨著深度學(xué)習(xí)技術(shù)的興起和發(fā)展,命名實(shí)體識(shí)別領(lǐng)域的技術(shù)重心逐漸向深度學(xué)習(xí)偏移。

(2)基于深度學(xué)習(xí)的命名實(shí)體識(shí)別。2006年Hinton等[38]提出深度學(xué)習(xí)的概念,開(kāi)啟深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的應(yīng)用浪潮。近年深度學(xué)習(xí)通過(guò)模擬人腦的識(shí)別處理能力,成為熱門的技術(shù)研究方向。在命名實(shí)體識(shí)別研究中,深度學(xué)習(xí)逐漸取代基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。其中,主流深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和最近提出的Transformer。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),主要由輸入層、卷積層、池化層、激活層以及頂端的全連接層、損失函數(shù)層組成[39],模型參數(shù)小,表達(dá)能力強(qiáng)。在命名實(shí)體識(shí)別中,Collobert等[40]首次使用CNN 與CRF 結(jié)合的方式來(lái)實(shí)現(xiàn)NER,發(fā)現(xiàn)加入CRF層后NER的效果有了明顯提高。Strubell等[41]提出了DI-CNN模型,通過(guò)在卷積核中增加空洞,擴(kuò)大上下文的接收寬度,使模型獲得更好的泛化能力。Zhu等[42]同時(shí)使用字符嵌入和單詞嵌入,提出GRAM-CNN模型,用于生物醫(yī)學(xué)領(lǐng)域的實(shí)體識(shí)別。

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò),其最大的特點(diǎn)就是對(duì)輸入信息有記憶功能,但RNN存在梯度消失等問(wèn)題;于是出現(xiàn)了RNN的變體長(zhǎng)短期記憶模型(Long Short-Term Memory, LSTM), 以及實(shí)現(xiàn)雙向上下文模型訓(xùn)練的BiLSTM。其另一變體——門控循環(huán)單元 (Gated Recurrent Unit,GRU),則是對(duì)LSTM的簡(jiǎn)化。在命名實(shí)體識(shí)別中,Chiu等[43]使用BiLSTM和CNN混合結(jié)構(gòu)模型來(lái)自動(dòng)檢測(cè)字符級(jí)特征,減少了人工構(gòu)造特征的需要。Lample 等[44]使用添加了CRF層的BiLSTM模型,對(duì)英語(yǔ)、荷蘭語(yǔ)、德語(yǔ)和西班牙語(yǔ)語(yǔ)料進(jìn)行命名實(shí)體識(shí)別,均取得較好的效果。王仁武等[45]提出面向中文實(shí)體識(shí)別的實(shí)體—屬性抽取方法,使用GRU 與CRF 結(jié)合的模型提高識(shí)別能力。

2017 年 Vaswani 等[46]提 出Transformer 模型,摒完全依賴于self-attention機(jī)制,并憑借其高效性和易訓(xùn)練性在自然語(yǔ)言處理領(lǐng)域獲得了巨大的成功。2018 年Google 提出了采用雙向Transformer 結(jié)構(gòu)的模型BERT(Bidirectional Encoder Representations from Transformers),在當(dāng)年11 項(xiàng)NLP 任務(wù)中取得了令人矚目的成績(jī),成為目前最好的突破性技術(shù)之一[47]。Kim等[48]訓(xùn)練了多語(yǔ)種BERT模型,并在韓語(yǔ)臨床實(shí)體識(shí)別數(shù)據(jù)集上進(jìn)行測(cè)試,證明BERT的識(shí)別結(jié)果顯著優(yōu)于字符級(jí)BiLSTM-CRF 模型。楊飄等[49]構(gòu)建BERT-BiGRU-CRF模型,用于表征語(yǔ)句特征,實(shí)現(xiàn)了表征字的多義性,并在MSRA語(yǔ)料上取得了較高的F值。岳琪等[50]使用基于實(shí)體Mask 的BERT 詞向量,構(gòu)建BERT-BiLSTMCRF模型,進(jìn)行中文林業(yè)領(lǐng)域的實(shí)體識(shí)別,發(fā)現(xiàn)使用BERT模型能更加充分地提取語(yǔ)義特征。

2 數(shù)據(jù)與方法

2.1 研究框架

作為中華優(yōu)秀傳統(tǒng)文化的重要載體,史籍文獻(xiàn)一直占據(jù)著重要地位。如圖1所示,本研究以“前四史”(《史記》《漢書》《后漢書》《三國(guó)志》)以及《左傳》共5本史書為研究對(duì)象,基于深度學(xué)習(xí)模型識(shí)別其中的命名實(shí)體(包括人名、地名、時(shí)間詞)。

圖1 研究框架

2.2 數(shù)據(jù)

(1)語(yǔ)料庫(kù)簡(jiǎn)介?!蹲髠鳌芬员容^原始的材料,相對(duì)全面地反映了春秋時(shí)期的政治、經(jīng)濟(jì)、文化等情況,是現(xiàn)存有關(guān)春秋時(shí)期歷史社會(huì)的最珍貴史料?!妒酚洝贰稘h書》《后漢書》《三國(guó)志》合稱“前四史”,是對(duì)中國(guó)各民族進(jìn)行系統(tǒng)記錄與研究的重要史籍,其民族傳記開(kāi)創(chuàng)了統(tǒng)一多民族中國(guó)歷史的敘事范式,最早揭示了各民族之間的矛盾、交流和交融,對(duì)于后世有著重要而深遠(yuǎn)的影響[51]。本研究所采用的訓(xùn)練語(yǔ)料是基于人工分詞和詞性標(biāo)注并經(jīng)過(guò)多輪校對(duì)的上述5種典籍文獻(xiàn),語(yǔ)料中包含標(biāo)點(diǎn)符號(hào)。

(2)數(shù)據(jù)標(biāo)注。本研究中,對(duì)典籍文獻(xiàn)的標(biāo)注采取分詞與詞性標(biāo)注相結(jié)合的方式,使用“/”進(jìn)行分詞,使用人民日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)(PFR)的詞性標(biāo)記標(biāo)簽標(biāo)準(zhǔn),其中所需的人名、地名、時(shí)間詞標(biāo)記如表1所示。標(biāo)注示例:董仲舒/nr以為/v先/n是/r四國(guó)/n共/d伐/v魯/n,/w大/v破/v之/r於/p龍門/ns。/w

表1 命名實(shí)體詞性標(biāo)記對(duì)照

(3)語(yǔ)料庫(kù)數(shù)據(jù)統(tǒng)計(jì)。表2展示各部典籍的句子數(shù)、字?jǐn)?shù)、標(biāo)點(diǎn)數(shù)、句長(zhǎng)等,在統(tǒng)計(jì)字?jǐn)?shù)、句長(zhǎng)時(shí)沒(méi)有計(jì)算語(yǔ)料中的標(biāo)點(diǎn)??傮w而言,相較于《左傳》而言,“前四史”語(yǔ)料的句子數(shù)更多、平均句長(zhǎng)更長(zhǎng)、字?jǐn)?shù)/標(biāo)點(diǎn)數(shù)的比值更大。而《左傳》語(yǔ)料較小,卻擁有更多標(biāo)點(diǎn)等特殊符號(hào)。

表2 典籍語(yǔ)料句子、字、標(biāo)點(diǎn)統(tǒng)計(jì)數(shù)據(jù)

2.3 模型

BERT(Bidirectional Encoder Representation from Transformers)是一種雙向語(yǔ)言表征模型,采用基于自注意力機(jī)制的Transformer 結(jié)構(gòu),最先由Google自然語(yǔ)言處理團(tuán)隊(duì)于2018年提出[52]?;贐ERT的自然語(yǔ)言處理主要包含兩個(gè)步驟:模型預(yù)訓(xùn)練(Pretraining)和微調(diào)(Fineturning)。BERT的預(yù)訓(xùn)練模型是基于大量語(yǔ)料進(jìn)行自監(jiān)督訓(xùn)練而形成的語(yǔ)言模型,在執(zhí)行BERT具體任務(wù)時(shí),可以選擇對(duì)應(yīng)的預(yù)訓(xùn)練模型,在此基礎(chǔ)上進(jìn)行微調(diào)即可。本文采用的預(yù)訓(xùn)練模型包括 BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa。各類預(yù)訓(xùn)練模型的基本情況見(jiàn)表3。其中,BERT-base①是Google提供的中文BERT預(yù)訓(xùn)練模型。RoBERTa②是更具魯棒性的預(yù)訓(xùn)練模型,用動(dòng)態(tài)掩碼機(jī)制替代原BERT 預(yù)訓(xùn)練模型的靜態(tài)掩碼機(jī)制,去除效果不佳的下一句預(yù)測(cè)任務(wù)(Next Sentence Prediction,NSP),且采用更大的預(yù)訓(xùn)練語(yǔ)料庫(kù)、Batch-Size(每次訓(xùn)練的樣本數(shù))和詞表。Ro-BERTa 采用全詞遮罩(Whole Word Masking,WWM)技術(shù),將文本中的詞作為mask對(duì)象,相較于BERT-base以字為粒度的切分方式,其識(shí)別效果更優(yōu)。

表3 5種BERT預(yù)訓(xùn)練模型簡(jiǎn)介

GuwenBERT③由北京理工大學(xué)提供,是基于殆知閣古漢語(yǔ)語(yǔ)料的古文預(yù)訓(xùn)練模型,使用RoBERTa相同的技術(shù)并結(jié)合現(xiàn)代漢語(yǔ)RoBERTa權(quán)重與無(wú)監(jiān)督古文語(yǔ)料進(jìn)行繼續(xù)訓(xùn)練。SikuBERT和SikuRoBERTa④是南京農(nóng)業(yè)大學(xué)、南京師范大學(xué)等提出的使用繁體《四庫(kù)全書》語(yǔ)料分別在BERT-base和RoBERTa上進(jìn)行預(yù)訓(xùn)練的古文預(yù)訓(xùn)練模型。與原始BERT 相比,SikuBERT、SikuRoBERTa 的預(yù)訓(xùn)練過(guò)程僅保留掩碼語(yǔ)言模型(Masked Language Model,MLM)任務(wù),去除對(duì)性能提升表現(xiàn)不佳的NSP任務(wù)。SikuRoBERTa在保留RoBERTa使用的全詞遮罩(WWM)技術(shù)的基礎(chǔ)上進(jìn)一步從5 億多字的《四庫(kù)全書》語(yǔ)料上進(jìn)行學(xué)習(xí),一定程度上彌補(bǔ)了RoBERTa較少在繁體中文上訓(xùn)練的缺憾。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)計(jì)

(1)數(shù)據(jù)的預(yù)處理。實(shí)驗(yàn)數(shù)據(jù)在前期手工分詞與詞性標(biāo)注的基礎(chǔ)上,進(jìn)一步進(jìn)行命名實(shí)體識(shí)別實(shí)驗(yàn)。此時(shí),需要將語(yǔ)料轉(zhuǎn)換為序列格式,因而對(duì)實(shí)體采用BIESO的單字標(biāo)注方式:使用S標(biāo)識(shí)單獨(dú)由一個(gè)字組成的實(shí)體,使用B、I、E分別標(biāo)識(shí)由多個(gè)字組成的實(shí)體的開(kāi)頭、中間、結(jié)尾字,使用O標(biāo)識(shí)非實(shí)體字。標(biāo)注示例見(jiàn)表4。

表4 序列數(shù)據(jù)的單字標(biāo)注示例

(2)評(píng)價(jià)指標(biāo)。為科學(xué)評(píng)價(jià)實(shí)驗(yàn)結(jié)果的有效性,采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)、調(diào)和平均值(F1-score,F(xiàn)1值)這3個(gè)指標(biāo)作為評(píng)價(jià)模型性能的標(biāo)準(zhǔn)。評(píng)估中的混淆矩陣見(jiàn)表5,指標(biāo)計(jì)算采用公式(1)-(3):

表5 混淆矩陣

(3)實(shí)驗(yàn)環(huán)境與模型參數(shù)設(shè)置。由于一般CPU無(wú)法滿足神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中所需的大量并行計(jì)算,因而本實(shí)驗(yàn)采用高性能的NVIDIA Tesla P40處理器來(lái)完成實(shí)驗(yàn)。計(jì)算機(jī)配置如下:操作系統(tǒng)為CentOS 3.10.0;CPU為48顆Intel(R)Xeon(R)CPU E5-2650 v4@ 2.20GHz;內(nèi)存 256GB;GPU 為 6 塊 NVIDIA Tesla P40;顯存24GB。SikuBERT和SikuRoBERTa模型和用于對(duì)比的 BERT、RoBERTa 和 GuwenBert 均采用相同的結(jié)構(gòu)進(jìn)行預(yù)訓(xùn)練,即實(shí)驗(yàn)以統(tǒng)一的超參數(shù)進(jìn)行實(shí)體識(shí)別任務(wù),設(shè)置見(jiàn)表6。

表6 實(shí)驗(yàn)主要超參數(shù)設(shè)置

3.2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)基于BERT模型對(duì)典籍文獻(xiàn)中的人名、地名、時(shí)間名作識(shí)別。研究對(duì)數(shù)據(jù)集以整句為單位,按照9∶1劃分訓(xùn)練集和驗(yàn)證集。

3.2.1 全語(yǔ)料庫(kù)數(shù)據(jù)的實(shí)體識(shí)別

經(jīng)過(guò)語(yǔ)料庫(kù)處理與模型構(gòu)建,基于全部語(yǔ)料(包括含標(biāo)點(diǎn)、不含標(biāo)點(diǎn)兩種)訓(xùn)練得到各類BERT 預(yù)訓(xùn)練模型測(cè)試效果(如表7 所示)。從表7 可看出,在未進(jìn)行任何人工操作情況下,有4 種BERT 預(yù)訓(xùn)練模型在含標(biāo)點(diǎn)的全部語(yǔ)料上取得不錯(cuò)的效果,而GuwenBERT 由于其詞表中不含繁體中文,訓(xùn)練效果略為遜色。在5 種預(yù)訓(xùn)練模型中,BERT-base 效果最優(yōu),訓(xùn)練三輪次調(diào)和平均值F1 就能達(dá)到89.74%,SikuBERT、SikuRoBERTa的F1值略低,分別為89.03%、88.74%。經(jīng)過(guò)十輪訓(xùn)練后,SikuBERT和SikuRoBERTa的效果均有略微提升。在去除標(biāo)點(diǎn)的全部語(yǔ)料上,SikuBERT效果最好,三輪次調(diào)和平均值F1 能夠達(dá)到85.95%,其次是SikuRoBERTa,達(dá)到85.58%;十輪次后的訓(xùn)練效果也得到略微提升。全語(yǔ)料庫(kù)數(shù)據(jù)實(shí)體識(shí)別效果的具體情況如下。

表7 全語(yǔ)料庫(kù)數(shù)據(jù)實(shí)體識(shí)別效果(F1值)

(1)總體上,無(wú)標(biāo)點(diǎn)語(yǔ)料在各預(yù)訓(xùn)練模型的測(cè)試效果均低于含標(biāo)點(diǎn)語(yǔ)料的測(cè)試結(jié)果。這是由于標(biāo)點(diǎn)符號(hào)在一定程度上反映了語(yǔ)言的句讀,而較為規(guī)則的句讀有助于深度學(xué)習(xí)模型習(xí)得語(yǔ)言特征。然而,傳統(tǒng)意義上的古籍均不含標(biāo)點(diǎn),因此在無(wú)標(biāo)點(diǎn)語(yǔ)料上的測(cè)試結(jié)果對(duì)于古籍研究者而言更為重要。

(2)在去除標(biāo)點(diǎn)的語(yǔ)料上,SikuBERT、SikuRoBerta 的效果超過(guò)了BERT-base。這可能是由于這兩個(gè)預(yù)訓(xùn)練模型是在大量繁體無(wú)標(biāo)點(diǎn)的《四庫(kù)全書》語(yǔ)料上進(jìn)行訓(xùn)練。在語(yǔ)料來(lái)源、語(yǔ)體風(fēng)格上,相較于有標(biāo)點(diǎn)的中文繁體維基百科等知識(shí)庫(kù),無(wú)標(biāo)點(diǎn)的繁體《四庫(kù)全書》訓(xùn)練語(yǔ)料在結(jié)構(gòu)及語(yǔ)言上可能與上古典籍文獻(xiàn)更為相似,因而效果略優(yōu)。

(3)RoBERTa預(yù)訓(xùn)練模型的效果低于BERT-base。這可能是由于RoBERTa 在BERT-base基礎(chǔ)上進(jìn)行繼續(xù)訓(xùn)練時(shí),采用大量簡(jiǎn)體語(yǔ)料,使模型中繁體字的權(quán)重下降。而SikuRoBERTa是在RoBERTa 基礎(chǔ)上,采用大量繁體《四庫(kù)全書》語(yǔ)料繼續(xù)進(jìn)行預(yù)訓(xùn)練的模型,因而其整體效果有所提升。

3.2.2 不同語(yǔ)料規(guī)模數(shù)據(jù)的實(shí)體識(shí)別

對(duì)于深度學(xué)習(xí)模型而言,大量的文本數(shù)據(jù)可以幫助其掌握更多的上下文文本特征,用于實(shí)體識(shí)別,從而有效降低學(xué)習(xí)過(guò)程中過(guò)擬合情況的發(fā)生。為研究不同語(yǔ)料規(guī)模對(duì)模型效果的影響,探究在小樣本數(shù)據(jù)上模型的實(shí)驗(yàn)性能,本研究開(kāi)展對(duì)比試驗(yàn)。結(jié)果表明,相較于其他幾種典籍,《史記》的實(shí)體識(shí)別效果最好,因而本節(jié)僅以《史記》為語(yǔ)料進(jìn)行實(shí)驗(yàn)。本節(jié)將語(yǔ)料庫(kù)規(guī)模劃分為全部和1/2、1/4、1/8,實(shí)驗(yàn)結(jié)果的調(diào)和平均值F1如表8所示。

表8 不同語(yǔ)料規(guī)模的《史記》命名實(shí)體識(shí)別效果(F1值)

上述實(shí)驗(yàn)結(jié)果顯示,語(yǔ)料庫(kù)的規(guī)模對(duì)于模型的效果有較大影響。(1)隨著語(yǔ)料庫(kù)規(guī)模的不斷減小,RoBERTa 預(yù)訓(xùn)練模型的微調(diào)效果急劇下降,而 SikuBERT、SikuRoBERTa 的 F1 值下降幅度較小。雖然RoBERTa采用WWM全詞遮罩技術(shù),能更好地學(xué)習(xí)文本的語(yǔ)體風(fēng)格等,但從百科知識(shí)、社區(qū)平臺(tái)上獲取的具有現(xiàn)代風(fēng)格的語(yǔ)言知識(shí)在小規(guī)模繁體古籍的命名實(shí)體識(shí)別中劣勢(shì)明顯。(2)SikuRoBERTa模型的效果在語(yǔ)料規(guī)模較小時(shí)或epoch 訓(xùn)練輪次較小時(shí),往往效果不如SikuBERT,但隨著語(yǔ)料規(guī)模的擴(kuò)大與訓(xùn)練輪次的增加,其效果逐步提升并能在某些實(shí)體類型或語(yǔ)料的識(shí)別上接近或超過(guò)SikuBERT。SikuRoBERTa 是基于RoBERTa 繼續(xù)訓(xùn)練而獲得的預(yù)訓(xùn)練模型,這表明在大規(guī)模語(yǔ)料上RoBERTa采用的WWM全詞遮罩技術(shù)具有先進(jìn)性。(3)從1/8 語(yǔ)料到1/4 語(yǔ)料再到1/2 語(yǔ)料時(shí),BERT模型的性能提高得很快;而從1/2語(yǔ)料到全部語(yǔ)料,模型效果的提升并不明顯。這說(shuō)明BERT模型在大規(guī)模文本上的性能更為穩(wěn)定,大規(guī)模數(shù)據(jù)集更適合BERT模型。

本節(jié)進(jìn)一步論證了SikuBERT、SikuRoBERTa預(yù)訓(xùn)練模型在典籍命名實(shí)體識(shí)別,尤其是小規(guī)模語(yǔ)料上的優(yōu)勢(shì)。

3.2.3 不同語(yǔ)體風(fēng)格數(shù)據(jù)的實(shí)體識(shí)別

“前四史”陸續(xù)成書于漢以后,《左傳》則成書于戰(zhàn)國(guó)中前期,在語(yǔ)體風(fēng)格上具有一定差異。為探究不同語(yǔ)體風(fēng)格對(duì)模型實(shí)驗(yàn)的影響,本節(jié)分別在“前四史”、《左傳》(均去除了標(biāo)點(diǎn)等特殊字符)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果(調(diào)和平均值/F1值)如表9所示。

表9 不同語(yǔ)體風(fēng)格的單一典籍命名實(shí)體識(shí)別效果(F1值)

根據(jù)本節(jié)實(shí)驗(yàn)數(shù)據(jù),可以發(fā)現(xiàn)語(yǔ)體風(fēng)格對(duì)實(shí)驗(yàn)結(jié)果存在一定影響。模型在字?jǐn)?shù)最多的《漢書》和字?jǐn)?shù)最少的《左傳》上,識(shí)別效果最差。而上節(jié)對(duì)不同規(guī)模數(shù)據(jù)的對(duì)照試驗(yàn)表明,當(dāng)語(yǔ)料達(dá)到一定大小時(shí),模型的識(shí)別效果將變得相對(duì)穩(wěn)定,語(yǔ)料規(guī)模的進(jìn)一步擴(kuò)大對(duì)實(shí)體識(shí)別性能的提升并無(wú)較大幫助。在本節(jié)中,《漢書》《后漢書》《三國(guó)志》的語(yǔ)料規(guī)模均大于《史記》,但三者的實(shí)體識(shí)別效果均低于《史記》。其中,模型在《漢書》上的識(shí)別效果最差,較《史記》約低8個(gè)百分點(diǎn),《后漢書》《三國(guó)志》則約低5 個(gè)百分點(diǎn)。出現(xiàn)上述差異的影響因素包括:一是語(yǔ)料標(biāo)注的規(guī)范性程度。規(guī)范不統(tǒng)一的標(biāo)注、錯(cuò)誤標(biāo)注、漏標(biāo)注等因素,都會(huì)造成模型識(shí)別性能的弱化。本實(shí)驗(yàn)語(yǔ)料經(jīng)過(guò)多輪人工校對(duì),最大程度降低了錯(cuò)漏標(biāo)注的可能。二是各典籍在語(yǔ)體風(fēng)格、時(shí)代文化背景上存在較大差異?!蹲髠鳌烦蓵趹?zhàn)國(guó)中期,《史記》成書于西漢前期,《漢書》成書于東漢時(shí)期,《后漢書》成書于南朝宋,而《三國(guó)志》成書于西晉時(shí)期。這些歷史時(shí)期相距較為遙遠(yuǎn),文學(xué)的風(fēng)格也各有不同,與模型預(yù)訓(xùn)練語(yǔ)料的語(yǔ)體風(fēng)格相似度有所差異,因而可能會(huì)對(duì)模型識(shí)別造成影響。

4 基于SikuBERT的命名實(shí)體識(shí)別軟件構(gòu)建

依據(jù)前述研究,本實(shí)驗(yàn)構(gòu)建了一個(gè)基于SikuBERT、SikuRoBERTa的命名實(shí)體識(shí)別應(yīng)用系統(tǒng),集成了分詞、詞性標(biāo)注、斷句、實(shí)體抽取、自動(dòng)標(biāo)點(diǎn)等常見(jiàn)古籍智能信息處理功能。該系統(tǒng)旨在幫助古籍研究學(xué)者更好地快速了解典籍,以推動(dòng)研究的深化。通過(guò)使用PyQt工具包,結(jié)合Mysql數(shù)據(jù)庫(kù)存儲(chǔ)方式和其他開(kāi)發(fā)技術(shù),完成基于Siku 系列BERT預(yù)訓(xùn)練模型的“SIKU-BERT典籍智能處理系統(tǒng)”的構(gòu)建。該系統(tǒng)具有兩種語(yǔ)料輸入模式:?jiǎn)挝谋灸J胶驼Z(yǔ)料庫(kù)模式,見(jiàn)圖2。單文本模式可以即時(shí)輸入和處理文本,語(yǔ)料庫(kù)模式能對(duì)多個(gè)語(yǔ)料文件進(jìn)行識(shí)別。SIKUBERT典籍智能處理系統(tǒng)可以識(shí)別人名、地名和時(shí)間詞3類經(jīng)典實(shí)體,能更好地幫助使用者掌握事件發(fā)展脈絡(luò),進(jìn)行特定類別事件的篩選,挖掘文本特征和規(guī)律,提高研究效率,并對(duì)后續(xù)古籍資源的利用提供幫助。

圖2 SIKU-BERT典籍智能處理系統(tǒng)首頁(yè)

圖6 語(yǔ)料庫(kù)模式實(shí)體識(shí)別

點(diǎn)擊相應(yīng)模式進(jìn)入主功能頁(yè)面。單文本模式見(jiàn)圖3,在左側(cè)“原始文本”欄輸入待處理語(yǔ)料,系統(tǒng)在右側(cè)“處理結(jié)果”欄輸出結(jié)果;語(yǔ)料庫(kù)模式見(jiàn)圖4,單擊右側(cè)“瀏覽”按鈕,指定語(yǔ)料輸入路徑和結(jié)果輸出路徑,下方“信息提示”欄中會(huì)顯示輸入語(yǔ)料的詳情。該系統(tǒng)將自動(dòng)分類、自動(dòng)分詞、實(shí)體識(shí)別、詞性標(biāo)注和自動(dòng)斷句等功能集中羅列在主(功能)頁(yè)面的下方,方便操作。

圖3 單文本模式主功能頁(yè)面

圖4 語(yǔ)料庫(kù)模式主功能頁(yè)面

單擊“實(shí)體識(shí)別”功能按鈕,系統(tǒng)自動(dòng)調(diào)用模型對(duì)語(yǔ)料進(jìn)行實(shí)體識(shí)別,并輸出結(jié)果。單文本模式直接在右側(cè)顯示處理結(jié)果,而語(yǔ)料庫(kù)模式則在“信息提示”欄顯示處理進(jìn)度,任務(wù)完成后,將結(jié)果寫入txt文檔存儲(chǔ)在輸出路徑中(見(jiàn)圖5-6)。

圖5 單文本模式實(shí)體識(shí)別

在實(shí)體識(shí)別功能中,該系統(tǒng)使用SikuBERT和SikuRoBERTa 模型對(duì)輸入語(yǔ)料進(jìn)行實(shí)體識(shí)別,并返回帶“<>”標(biāo)簽的結(jié)果(見(jiàn)圖7)。比如,輸入序列:“二年冬十月,省徹侯之國(guó)。”輸出序列:“,省之國(guó)?!?/p>

圖7 語(yǔ)料庫(kù)模式實(shí)體識(shí)別效果

SIKU- BERT 典籍智能處理系統(tǒng)基于SikuBERT、SikuRoBERTa模型,能較為精準(zhǔn)地實(shí)現(xiàn)古籍語(yǔ)料的命名實(shí)體識(shí)別任務(wù),并且集成了自動(dòng)分類等其他處理功能,界面簡(jiǎn)潔、操作簡(jiǎn)便、直觀易用,能更好地為學(xué)者提供幫助。

5 結(jié)語(yǔ)

基于自然處理技術(shù)的古代典籍命名實(shí)體識(shí)別對(duì)進(jìn)一步分析挖掘和利用典籍文獻(xiàn)具有重要意義。本文基于SikuBERT 和SikuRoBERTa 構(gòu)建典籍命名實(shí)體識(shí)別模型,模型在“前四史”、《左傳》等5種史籍中的表現(xiàn),較文中其他3類基線模型更優(yōu)。研究論證了深度學(xué)習(xí)模型應(yīng)用于大規(guī)模古籍文本實(shí)體識(shí)別的可行性,探究不同預(yù)訓(xùn)練模型、語(yǔ)料規(guī)模、語(yǔ)體風(fēng)格對(duì)于典籍文獻(xiàn)實(shí)體識(shí)別的影響,進(jìn)一步論證了BERT 引領(lǐng)的“預(yù)訓(xùn)練-微調(diào)”深度學(xué)習(xí)新模式的優(yōu)越性,為探究及構(gòu)建更適合特定領(lǐng)域語(yǔ)料的預(yù)訓(xùn)練模型提供參考。

下一步的研究將從以下方面開(kāi)展:(1)以《四庫(kù)全書》為基準(zhǔn)構(gòu)建詞表,從頭開(kāi)始訓(xùn)練預(yù)訓(xùn)練模型而非基于BERT-base或RoBERTA 進(jìn)行訓(xùn)練;(2)基于已有典籍知識(shí)圖譜構(gòu)建BERT模型,以提高模型在專業(yè)性典籍自然語(yǔ)言處理任務(wù)中的泛化能力;(3)使用近期各研究機(jī)構(gòu)提出的一系列能將外部知識(shí)融于預(yù)訓(xùn)練語(yǔ)言模型的改進(jìn)模型框架,基于《漢語(yǔ)大詞典》構(gòu)建典籍詞表,并融入Siku系列預(yù)訓(xùn)練模型,以提升現(xiàn)有識(shí)別效果。

注釋

①參見(jiàn):https://github.com/google-research/bert.

②參見(jiàn):https://github.com/ymcui/Chinese-BERT-wwm.

③參見(jiàn):https://github.com/Ethan-yt/guwenbert.

④參見(jiàn):https://github.com/SIKU-BERT/SikuBERT.

猜你喜歡
典籍分詞語(yǔ)料
《典籍里的中國(guó)》為什么火?
金橋(2021年4期)2021-05-21 08:19:24
結(jié)巴分詞在詞云中的應(yīng)用
在詩(shī)詞典籍中賞春日盛景
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
值得重視的分詞的特殊用法
典籍翻譯模式的構(gòu)建與啟發(fā)
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
先秦典籍中的男嬖形象探微
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
温泉县| 陕西省| 蛟河市| 渝中区| 青河县| 沙湾县| 民县| 客服| 广昌县| 墨玉县| 鹿邑县| 弥勒县| 澳门| 乐清市| 桃园市| 儋州市| 平利县| 塔城市| 丰原市| 萨嘎县| 大姚县| 甘谷县| 镇巴县| 会宁县| 尼木县| 息烽县| 江永县| 呼和浩特市| 沁源县| 楚雄市| 武安市| 商丘市| 芷江| 樟树市| 会理县| 台东县| 嵊泗县| 长沙县| 卢氏县| 瑞安市| 墨江|