国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT+BiLSTM+CRF模型與新預(yù)處理方法的古籍自動標(biāo)點

2022-09-22 05:59:38瑤,顧
軟件導(dǎo)刊 2022年9期
關(guān)鍵詞:斷句標(biāo)點古文

王 瑤,顧 磊

(南京郵電大學(xué)計算機學(xué)院軟件學(xué)院網(wǎng)絡(luò)空間安全學(xué)院,江蘇南京 210023)

0 引言

中華文明源遠流長,流傳下很多古籍文本,涵蓋了政治、歷史、哲學(xué)、文學(xué)、醫(yī)學(xué)等多方面內(nèi)容。通過對古籍文本進行整理和學(xué)習(xí),現(xiàn)代人能夠了解并學(xué)習(xí)古人的智慧,更加準(zhǔn)確地認(rèn)識歷史。中文古籍文本一般不添加標(biāo)點符號[1]。韓愈在《師說》中云:“彼童子之師,授之書而習(xí)其句讀者?!北闶钦f古代孩子不僅要學(xué)習(xí)字詞,還要學(xué)習(xí)斷句?,F(xiàn)代人習(xí)慣在寫作過程中加入標(biāo)點符號幫助理解語義,在閱讀古籍文本時便會遇到諸多困難。因此,對古籍文本進行斷句和標(biāo)點是人們學(xué)習(xí)和理解歷史文化的基礎(chǔ)環(huán)節(jié)[2]。

1 相關(guān)研究

傳統(tǒng)的古文斷句和標(biāo)點方法主要分為基于規(guī)則的方法和基于統(tǒng)計的方法兩種。例如,黃建年等[3]采用基于規(guī)則的方法對農(nóng)業(yè)古籍文本進行斷句和標(biāo)點,但需要語言專家針對目標(biāo)文本制定復(fù)雜的規(guī)則,不僅耗費大量人力物力,還需要不斷修改和完善規(guī)則,且僅適用于目標(biāo)文本,移植性很差?;谝?guī)則的方法存在較多不足,研究人員開始嘗試采用基于統(tǒng)計的方法進行古文斷句和標(biāo)點。例如,陳天瑩等[4]提出古文句子切分算法,通過n-gram 提取上下文信息;黃瀚萱[5]采用字標(biāo)注的形式,通過條件隨機場模型(Conditional Random Field,CRF)進行古文斷句,性能優(yōu)于隱馬爾可夫模型(Hidden Markov Model,HMM)模型;張開旭等[6]將古文斷句問題看作是一個序列標(biāo)注問題,將CRF模型應(yīng)用于古文自動斷句和標(biāo)點任務(wù)中;Huang 等[7]將雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory,BiLSTM)+CRF 模型應(yīng)用于自然語言處理的基準(zhǔn)序列標(biāo)記數(shù)據(jù)集工作中,發(fā)現(xiàn)該模型可有效利用上下文內(nèi)容。然而,這些模型對連續(xù)文本的內(nèi)在聯(lián)系和語境信息學(xué)習(xí)并不充分,雖然提高了自動斷句和標(biāo)點性能,但離實際應(yīng)用還有很大距離。

隨著自然語言處理技術(shù)的發(fā)展,研究人員嘗試將基于深度學(xué)習(xí)的方法應(yīng)用于古籍文本的處理中,主要應(yīng)用在斷句方面。例如,Wang 等[8]采用神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model,NNLM)進行古文斷句實驗,得到了與CRF 模型相媲美的性能;王博立等[9]采用基于GRU(Gated Recurrent unit)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進行古文斷句,取得比傳統(tǒng)方法更高的F1 值;HAN 等[10]提出一種基于字根嵌入的BiLSTM+CRF 模型進行古文自動斷句,該模型可更好地學(xué)習(xí)連續(xù)文本的內(nèi)在聯(lián)系和語境信息;俞敬松等[11]將深層語言模型BERT(Bidirectional Encoder Representation from Transformers)用于古文斷句,采用二元標(biāo)記法在大規(guī)模語料庫上進行訓(xùn)練,整體斷句正確率達90%左右;胡韌奮等[12]在BERT 模型的基礎(chǔ)上加入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型和CRF 模型進行斷句,分別在詩、詞和古文3 種不同數(shù)據(jù)集上進行訓(xùn)練和測試,結(jié)果較BERT+微調(diào)模型性能有所提升。

然而,相較于斷句,對古籍文本進行標(biāo)點面臨著更大困難。傳統(tǒng)的機器學(xué)習(xí)和深度學(xué)習(xí)方法大都基于監(jiān)督學(xué)習(xí)設(shè)計,現(xiàn)代標(biāo)點符號的體系結(jié)構(gòu)并不能完全適用于古文。為此,本文將深層語言模型BERT 與BiLSTM+CRF 相結(jié)合用于古籍自動標(biāo)點,同時對文本數(shù)據(jù)進行以段落分行為格式的預(yù)處理,與以標(biāo)點分行為格式的預(yù)處理方法相比,可使模型更好地學(xué)習(xí)古文的語義和上下文之間的聯(lián)系。然后將本文模型與BiLSTM+CRF、BERT+CNN、BERT+CRF、BERT+微調(diào)等已應(yīng)用于現(xiàn)代文處理和古文斷句的深度學(xué)習(xí)模型進行性能比較。

2 用于文本處理的基本深度學(xué)習(xí)模型

2.1 BiLSTM 模型

傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型中,輸入的信息是沒有順序的,但在自然語言處理領(lǐng)域中經(jīng)常需要將詞匯映射成詞向量,然后輸入到神經(jīng)網(wǎng)絡(luò)。單詞不同的排列順序可能會導(dǎo)致語句意義的天差地別。為解決長距離句子信息的捕獲問題,Zaremba 等[13]提出了RNN 模型,但該模型會帶來梯度消失和梯度爆炸的問題。為解決該問題,Hochreiter等[14]提出長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型,該模型的整體邏輯與RNN 類似,都會經(jīng)過一個閉合的隱藏中間單元,但該模型引入了3 個門控單元解決梯度消失和爆炸問題。LSTM 模型通過訓(xùn)練過程可以學(xué)到記憶哪些信息和遺忘哪些信息,因此可以很好地捕捉較長距離的依賴關(guān)系,但其只能編碼從前到后的信息,并不能獲取當(dāng)前位置后面的信息。為解決這個問題,Dyer等[15]在LSTM 模型的基礎(chǔ)上提出BiLSTM 模型,其由前向LSTM和后向LSTM 組合而成,在自然語言處理任務(wù)中常被用于建模上下文信息。該模型既能編碼從前向后的信息,也能編碼從后向前的信息,可以更好地捕捉雙向的語義依賴。

2.2 CRF模型

CRF 是自然語言處理領(lǐng)域中的基礎(chǔ)模型,廣泛應(yīng)用于分詞、命名實體識別和詞性標(biāo)注等場景。CRF 是一個無向概率圖模型,通過建立概率模型分割和標(biāo)記序列數(shù)據(jù)[16]。CRF 將條件模型的優(yōu)點與隨機場模型的全局歸一化相結(jié)合,可獲得全局最優(yōu)結(jié)果。由于全局訓(xùn)練比較復(fù)雜,該模型僅訓(xùn)練正確選擇相鄰標(biāo)簽情況下的單個標(biāo)簽決策,最大程度地減少了誤差。

2.3 BERT模型

2018 年,Devlin 等[17]提出基于Transformer 的預(yù)訓(xùn)練語言模型BERT。與傳統(tǒng)語言模型不同,BERT 模型不是使用從左到右或從右到左的語言模型進行預(yù)訓(xùn)練,而是使用Taylor 等[18]提出的完型填空程序和下一句預(yù)測任務(wù)進行預(yù)訓(xùn)練,通過這兩個任務(wù)可以分別捕捉到詞語和句子級別的表示,從而實現(xiàn)真正意義上的雙向。

BERT 模型結(jié)構(gòu)如圖1 所示[19]。模型輸入為文本,位于圖1 的第①部分。輸入文本后,需要對文本進行向量表示,具體操作流程為圖1 的第②部分。模型的輸入向量(Input Embeddings,IE)除了從字向量表中查詢得到的字向量(Token Embeddings,TE)外,還加入了文本向量(Segment Embeddings,SE)和位置向量(Position Embeddings,PE)。SE 用于刻畫文本的全局語義信息,并且與字的語義信息相融合;PE 用于區(qū)分不同位置的字所攜帶的語義信息之間的差異。模型最終向量表示為:

輸入向量經(jīng)過12 層的Transformer Encoder 進行學(xué)習(xí),即圖1 的第③部分。Transformer Encoder 的結(jié)構(gòu)位于圖1右側(cè),圖中Nx=6 表示由6 個相同的層組成,每層由一個多頭注意力機制(Multi-Head Attention)和層歸一化(Add &Norm)加上一個前饋網(wǎng)絡(luò)(Feed Forward)和層歸一化(Add&Norm)組合而成,且多頭注意力機制和前饋網(wǎng)絡(luò)均有各自的殘差網(wǎng)絡(luò)(Residual Connection)。多頭注意力機制是將注意力機制操作多遍,將每次經(jīng)過注意力機制學(xué)習(xí)得到的結(jié)果組合得到最終輸出。注意力機制有Query、Key 和Value 3 個向量表示,其中Query 向量由目標(biāo)字線性轉(zhuǎn)換得到,Key 向量由上下文各字線性轉(zhuǎn)換得到,Value 由目標(biāo)字和上下文各字的原始向量表示得到。注意力機制首先通過計算Query 和Key 的相似度作為權(quán)重,然后加權(quán)融合目標(biāo)字和上下文各字的Value 向量作為注意力機制的輸出。注意力機制可以區(qū)分輸入的不同部分對輸出的影響,多頭注意力機制有助于幫助網(wǎng)絡(luò)捕捉到更豐富的特征和信息。前饋網(wǎng)絡(luò)將經(jīng)過注意力機制層后輸出的多個向量分別輸入到一個全連接層中。殘差連接將輸入與輸出相加,可有效避免在反向傳播過程中梯度連乘導(dǎo)致的梯度消失問題。層歸一化將輸入轉(zhuǎn)化為均值為0、方差為1 的數(shù)據(jù),以減少偏差,防止梯度消失和爆炸。最終,經(jīng)過12 層Transformer Encoder 的學(xué)習(xí)后可以得到模型的輸出向量,即圖1 的第④部分。輸出向量經(jīng)過損失函數(shù)和真值比較,將結(jié)果反饋給第③部分。

Fig.1 BERT model architecture圖1 BERT模型結(jié)構(gòu)

BERT 模型相較于傳統(tǒng)深度學(xué)習(xí)模型實現(xiàn)了從淺層雙向模型到深度雙向模型的突破性改變。傳統(tǒng)語言模型進行訓(xùn)練時分別通過編碼前向和后向信息達到雙向,這種淺層連接效果遠低于深度雙向模型。為使模型更好地學(xué)習(xí)前向和后向信息,BERT 模型提出了完型填空任務(wù)和下一句預(yù)測任務(wù),這兩項任務(wù)主要由12 層Transformer Encoder完成。在完型填空任務(wù)中,BERT 模型在向量表示部分會隨機遮蓋掉15%的字,然后根據(jù)上下文預(yù)測被遮蓋的字,被迫增加對上下文的記憶。為提高模型的遷移能力,BERT 模型會將80%被遮蓋的詞替換成[MASK]標(biāo)簽,10%用其他單詞隨機替換,10%保留原詞,使得模型在訓(xùn)練時需要關(guān)注到每個詞。為使模型能夠理解句子之間的聯(lián)系,BERT 模型增加了下一句預(yù)測任務(wù),使其具備抽象連續(xù)長序列特征的能力,其中50%的數(shù)據(jù)存在先后關(guān)系,是真實的下一句;另外50%是從語料中隨機拼湊而來,不具備先后關(guān)系,不是真正的下一句。同時,BERT 模型可以在大量未標(biāo)記數(shù)據(jù)[20]上預(yù)先進行訓(xùn)練,然后針對特定任務(wù)進行微調(diào)得到最終結(jié)果。

3 數(shù)據(jù)預(yù)處理格式改進

本文采用的文本數(shù)據(jù)均從網(wǎng)上下載而來,不能直接使用,需要對其進行清洗和預(yù)處理后才能送入BERT 模型。數(shù)據(jù)預(yù)處理是在數(shù)據(jù)轉(zhuǎn)化為輸入向量之前完成的,其不僅有利于模型訓(xùn)練和測試,還可以使其更好地學(xué)習(xí)古文的語義信息。

模型通常將每行數(shù)據(jù)作為一個單元進行處理,一個處理單元包含的信息越多,模型獲得的信息也就越多。進行斷句和標(biāo)點前需要對古文的每個字進行分類。本文吸取前人經(jīng)驗,選擇較為簡潔的二元標(biāo)簽組對數(shù)據(jù)集進行標(biāo)記。二元標(biāo)簽組只能區(qū)分句子的開頭和其他部分,開頭用[B]標(biāo)簽標(biāo)記,其他部分用[I]標(biāo)簽標(biāo)記。現(xiàn)有古文標(biāo)點數(shù)據(jù)集中的標(biāo)點較為雜亂,包含很多特殊的標(biāo)點符號,且數(shù)量較少,使得模型不易學(xué)習(xí)。為此,本文選取7 個常用標(biāo)點符號進行學(xué)習(xí),其他符號省略。7 個常用標(biāo)點符號分別為逗號(,)、句號(。)、問號(?)、感嘆號(!)、冒號(:)、分號(;)、頓號(、),對應(yīng)的標(biāo)點集為{(,),(。),(?),(?。?,(:),(;),(、)}。結(jié)合對開頭和其他部分的標(biāo)記,標(biāo)點對應(yīng)的分類標(biāo)簽分別為{[B_,],[I_,],[B_。],[I_。],[B_?],[I_?],[B_!],[I_?。?,[B_:],[I_:],[B_;],[I_;],[B_、],[I_、]}。

用于古文信息處理的深度學(xué)習(xí)模型通常按照標(biāo)點符號分行進行數(shù)據(jù)預(yù)處理,將該種方法以PreA 表示。如表1所示,PreA 只要遇到標(biāo)點便進行分行,例如“已上五符,書投酒中,傾火穴傾符酒,咒曰:奔盧奔盧陀禹,念三徧”依據(jù)標(biāo)點符號可分成6 行,每行只有1 個標(biāo)點符號。此外,本文還設(shè)計了新的預(yù)處理方法,即按照段落分行,該種方法以PreB 表示。如表2 所示,“已上五符,書投酒中,傾火穴傾符酒,咒曰:奔盧奔盧陀禹,念三徧”依據(jù)段落進行分行后只能處于一行,不能進行換行。

PreA 使得模型每次只學(xué)習(xí)1 個標(biāo)點符號及其前面的文本,不能很好地學(xué)習(xí)上下文之間的關(guān)聯(lián),獲取到的文本語義和關(guān)聯(lián)信息較少。PreB 不僅使模型學(xué)習(xí)到上下文信息,還可獲得文本語義和一些關(guān)聯(lián)信息。

Table 1 Data preprocessing in the form of punctuation branch(PreA)表1 以標(biāo)點分行為格式的數(shù)據(jù)預(yù)處理(PreA)

Table 2 Data preprocessing in the format of paragraphs and branches(PreB)表2 以段落分行為格式的數(shù)據(jù)預(yù)處理(PreB)

4 基于深度學(xué)習(xí)模型的古文自動標(biāo)點模型

本文進行對比實驗使用的5 種深度學(xué)習(xí)模型結(jié)構(gòu)如圖2 所示,其輸入均為文本,輸出均為向量。Dropout 機制能夠提高模型性能,有效防止過擬合,因此本文在所有模型中均添加了Dropout機制[21]。

BiLSTM+CRF 模型結(jié)構(gòu)如圖2 中①所示,其將輸入送入BiLSTM 層中,再將BiLSTM 的輸出送入CRF 層中,直接使用CRF 的損失函數(shù),從而找出最有可能的標(biāo)簽。BERT+微調(diào)模型結(jié)構(gòu)如圖2 中②所示,其將BERT 模型的輸出傳入一個全連接層得到每個標(biāo)點標(biāo)簽的可能性,然后送入Softmax 層,Softmax 層再將全連接層輸出的可能性全部映射到(0,1)區(qū)間上,使映射后的所有值累計和為1,最后選取映射后值最大的結(jié)點,從而找到最有可能的標(biāo)點標(biāo)簽。BERT+CNN 模型結(jié)構(gòu)如圖2 中③所示,其引入CNN 模型,將BERT 的輸出直接送入到100 個寬度為3 的卷積核中進行再次學(xué)習(xí),得到的輸出傳入全連接層得到每個標(biāo)點標(biāo)簽的可能性,再傳入Softmax 層,以找到最有可能的標(biāo)點標(biāo)簽。BERT+CRF 模型結(jié)構(gòu)如圖2 中④所示,其在BERT 中引入CRF 模型,將BERT 的輸出直接送入CRF 層中。該模型舍棄了BERT+微調(diào)模型中的全連接層和Softmax 層,直接使用CRF 的損失函數(shù),從而找出最有可能的標(biāo)簽。CRF層能進一步提高模型預(yù)測準(zhǔn)確率,學(xué)習(xí)標(biāo)點標(biāo)記之間的聯(lián)系,規(guī)范預(yù)測結(jié)果。本文模型BERT+BiLSTM+CRF 結(jié)構(gòu)如圖2 中⑤所示,其將BERT 的輸出直接送入BiLSTM 層,再將BiLSTM 的輸出送入CRF 層中。該模型亦舍棄了BERT+微調(diào)模型中的全連接層和Softmax 層,直接使用CRF 的損失函數(shù),以找出最有可能的標(biāo)簽。BiLSTM 和CRF 層相結(jié)合能達到互補的效果,既能夠?qū)W習(xí)上下文之間的關(guān)聯(lián)信息,又可以學(xué)習(xí)標(biāo)點標(biāo)記之間的聯(lián)系。

Fig.2 Structure of automatic punctuation models for ancient Chinese based on deep learning圖2 基于深度學(xué)習(xí)模型的古文自動標(biāo)點結(jié)構(gòu)

5 實驗結(jié)果與分析

5.1 數(shù)據(jù)集

由于沒有開源的處理好的古文標(biāo)點數(shù)據(jù)集,本文從殆知閣(http://www.daizhige.org/)下載古文,并進行數(shù)據(jù)清洗和整理。殆知閣中包括易藏、儒藏、道藏、佛藏、子藏、史藏、詩藏、易藏和藝藏多個領(lǐng)域古文,但文本并沒有全部進行斷句和標(biāo)點,且不同類別文本的標(biāo)點效果也不同。本文采用標(biāo)點質(zhì)量較好的道藏作為訓(xùn)練集和測試集。為進一步測試模型和預(yù)處理方法PreB 的性能,本文還選取了史藏的部分內(nèi)容作為測試集,史藏測試集的大小與道藏測試集類似。本文所有訓(xùn)練集和測試集均無重復(fù)內(nèi)容,所有測試集均未參與預(yù)訓(xùn)練任務(wù)。具體標(biāo)點訓(xùn)練集和測試集規(guī)模大小如表3所示。

Table 3 Punctuation training and test set size表3 標(biāo)點訓(xùn)練集與測試集規(guī)模

5.2 實驗配置

硬件環(huán)境:64 位Ubuntu18.04 系統(tǒng),Intel Silver 4210@2.10GHz40 處理器,128GB內(nèi)存,GeForce RTX 2080 Ti 顯卡。軟件環(huán)境:Python3.6,TensorFlow1.14.0。

以BERT+微調(diào)模型作為基線模型,采用12 層Transformer 模型,hidden_size 設(shè)為768,num_attention_heads 設(shè)為12。按標(biāo)點分行的數(shù)據(jù)集最大序列長度為64,按段落分行的數(shù)據(jù)集最大序列長度為512。對于其他4 個模型,為了特征抽取,CNN 選取100 個寬度為3 的卷積核,CRF 層使用默認(rèn)設(shè)置,BiLSTM 使用的lstm_size 為768。

5.3 評價標(biāo)準(zhǔn)

使用準(zhǔn)確率(P)、召回率(R)和調(diào)和平均值F1 作為模型評價指標(biāo)。由于標(biāo)點標(biāo)簽有多個,并且每個標(biāo)簽的學(xué)習(xí)結(jié)果不同,其中關(guān)于逗號(,)和句號(。)的數(shù)據(jù)集較多,學(xué)習(xí)效果優(yōu)于其他標(biāo)點符號。因此,考慮到標(biāo)點標(biāo)簽的不平衡性,采用微平均(micro)對模型進行評價,該指標(biāo)適用于數(shù)據(jù)分布不平衡的情況[11],具體評價公式為:

式中,TP為標(biāo)點標(biāo)簽預(yù)測正確的數(shù)量,F(xiàn)P為標(biāo)點標(biāo)簽預(yù)測錯誤的數(shù)量,F(xiàn)N為標(biāo)點標(biāo)簽沒有被預(yù)測出的數(shù)量。

5.4 實驗結(jié)果

標(biāo)點質(zhì)量較高的道藏數(shù)據(jù)集按PreA 方法進行數(shù)據(jù)預(yù)處理,將處理好的數(shù)據(jù)送入模型,得到的實驗結(jié)果如表4所示。為測試模型的泛化能力,本文還選取了與道藏測試集大小相似的史藏數(shù)據(jù)集,同樣按PreA 方法進行測試,得到的實驗結(jié)果如表5所示。

Table 4 Results of Taoist sutra dataset(preprocessing method:PreA)表4 道藏數(shù)據(jù)集測試結(jié)果(預(yù)處理方法:PreA)

Table 5 Results of history sutra dataset(preprocessing method:PreA)表5 史藏數(shù)據(jù)集測試結(jié)果(預(yù)處理方法:PreA)

由表4 可知,BERT+BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最優(yōu),F(xiàn)1 值達到77.46%;BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最差,F(xiàn)1 值僅為58.25%??梢钥闯?,在BiLSTM+CRF 模型的基礎(chǔ)上增加BERT 模型能夠提高準(zhǔn)確率。由表5 可知,BERT+BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最優(yōu),F(xiàn)1 值達到63.95%;BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最差,F(xiàn)1 值僅為52.81%??梢钥闯觯贐iLSTM+CRF 模型的基礎(chǔ)上增加BERT 模型能夠改善泛化能力。

此外,本文還嘗試采用PreB 方法進行數(shù)據(jù)預(yù)處理,以期模型能夠更好地學(xué)習(xí)文本的語義信息。采用PreB 方法預(yù)處理標(biāo)點質(zhì)量較高的道藏數(shù)據(jù)集,結(jié)果如表6 所示。為了進一步考察按照PreB 方法進行數(shù)據(jù)預(yù)處理后訓(xùn)練出的模型的泛化性,本文還選取了與道藏數(shù)據(jù)集大小相似的史藏數(shù)據(jù)集進行測試,結(jié)果如表7所示。

由表6 可知,BERT+微調(diào)模型在道藏測試集上的測試結(jié)果最優(yōu),F(xiàn)1 值達到85.46%;BiLSTM+CRF 模型在道藏測試集上的測試結(jié)果最差,F(xiàn)1 值僅為77.97%。由表7 可知,BERT+CRF 模型在史藏測試集上的測試結(jié)果最優(yōu),F(xiàn)1 值達到78.56%;BiLSTM+CRF 模型在史藏測試集上的測試結(jié)果最差,F(xiàn)1 值僅為70.14%。對比表4 和表6 結(jié)果可以發(fā)現(xiàn),使用PreB 方法進行數(shù)據(jù)預(yù)處理得到的結(jié)果優(yōu)于使用PreA方法的結(jié)果,最高F1 值提升了8%左右,說明使用PreB 方式進行數(shù)據(jù)預(yù)處理可使模型更好地學(xué)習(xí)文本信息及其內(nèi)在聯(lián)系。對比表5 和表7 結(jié)果可以發(fā)現(xiàn),使用PreB 方法進行數(shù)據(jù)預(yù)處理后模型的泛化效果優(yōu)于使用PreA 方法,最高F1值提高了14%左右。

Table 6 Results of Taoist sutra dataset(preprocessing method:PreB)表6 道藏數(shù)據(jù)集測試結(jié)果(預(yù)處理方法:PreB)

Table 7 Results of history sutra dataset(preprocessing method:PreB)表7 史藏數(shù)據(jù)集測試結(jié)果(預(yù)處理方法:PreB)

5.5 案例應(yīng)用

從道藏數(shù)據(jù)集中選取兩個標(biāo)點案例進行預(yù)測,預(yù)測文本與訓(xùn)練語料無任何關(guān)系。采用不同數(shù)據(jù)預(yù)處理方式訓(xùn)練得到的模型進行標(biāo)點,標(biāo)點標(biāo)錯的位置采用▲標(biāo)記。案例1標(biāo)點結(jié)果如表8所示,案例2標(biāo)點結(jié)果如表9所示。

Table 8 Prediction results of Taoist sutra dataset punctuation case 1表8 道藏數(shù)據(jù)集標(biāo)點案例1預(yù)測結(jié)果

Table 9 Prediction results of Taoist sutra dataset punctuation case 2表9 道藏數(shù)據(jù)集標(biāo)點案例2預(yù)測結(jié)果

由表8 可知,使用PreB 方法進行訓(xùn)練和預(yù)測的結(jié)果優(yōu)于PreA。由表9 可知,相較于BERT+CNN、BERT+CRF 和BERT+BiLSTM+CRF 模型,BERT+微調(diào)模型對于數(shù)據(jù)量較少的標(biāo)點符號預(yù)測效果較差,例如頓號(、)。然而,BERT+BiLSTM+CRF 模型在長文本數(shù)據(jù)的學(xué)習(xí)上相較于BERT+微調(diào)模型并沒有表現(xiàn)出更好的效果,反而會影響數(shù)據(jù)量較多的標(biāo)點符號學(xué)習(xí)。在日常生活中需要使用到很多標(biāo)點,有些不經(jīng)常被使用,數(shù)據(jù)量較少。后續(xù)如果引入更多類型的標(biāo)點符號,BERT+BiLSTM+CRF 模型可能會取得更好的標(biāo)記效果。

6 結(jié)語

本文在BERT 模型的基礎(chǔ)上加入BiLSTM+CRF 模型學(xué)習(xí)古籍文本語義信息與標(biāo)點標(biāo)簽的規(guī)范信息,同時提出按段落分行的數(shù)據(jù)預(yù)處理方法,使得一個數(shù)據(jù)處理單元能包含更多信息,模型能夠更好地學(xué)習(xí)到文本的語義和上下文關(guān)聯(lián)等信息。雖然使用按段落分行的數(shù)據(jù)預(yù)處理方法會使BERT+BiLSTM+CRF 模型的訓(xùn)練結(jié)果略遜于BERT+微調(diào)模型,但通過應(yīng)用案例可以發(fā)現(xiàn),在一些標(biāo)簽數(shù)量較少的標(biāo)點符號中,BERT+BiLSTM+CRF 模型的學(xué)習(xí)效果更好。后續(xù)可進一步增加古文常用的標(biāo)點標(biāo)簽數(shù)量,以驗證BERT+BiLSTM+CRF 模型的性能。同時,也可以進一步增加標(biāo)點質(zhì)量較差的數(shù)據(jù)集,以提高模型的泛化性能。

猜你喜歡
斷句標(biāo)點古文
中古文學(xué)劄叢之二(五題)
國學(xué)(2021年0期)2022-01-18 05:58:20
標(biāo)點可有可無嗎
《遼史》標(biāo)點辨誤四則
小小標(biāo)點真厲害
古文中走出的“超能力者”
稱象
文言斷句判斷法
讀《隸定古文疏證》札記
“斷句” “密碼”費人解(二則)
中華詩詞(2017年3期)2017-11-27 03:44:18
妙用標(biāo)點巧斷句
乌苏市| 遂宁市| 福清市| 吉安县| 喀喇沁旗| 栾城县| 民乐县| 中江县| 当涂县| 沧州市| 河源市| 奇台县| 巩留县| 游戏| 竹山县| 奉节县| 凤庆县| 加查县| 惠州市| 汤阴县| 靖江市| 石楼县| 赣榆县| 四平市| 环江| 黎平县| 吉首市| 泰兴市| 黄平县| 丹江口市| 洮南市| 蒙山县| 苗栗市| 铜山县| 广汉市| 柏乡县| 石首市| 阳春市| 华安县| 东乡县| 平和县|