国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向數字人文的融合外部特征的典籍自動分詞研究
——以SikuBERT預訓練模型為例*

2022-06-17 09:03:00王東波胡昊天張逸勤
圖書館論壇 2022年6期
關鍵詞:分詞古籍語料

劉 暢,王東波,胡昊天,張逸勤,李 斌

0 引言

卷帙浩繁的古籍文獻是人類文明中最璀璨的瑰寶之一。繼承與發(fā)揚古籍中的優(yōu)秀文化是豐富精神文明建設,提高文化軟實力的必然要求。然而,古代典籍由于時代色彩,其閱讀與推廣需要讀者具備較高的語言學與歷史學素養(yǎng),給初學者帶來了不低的門檻。這就要求知識提供方能夠打破學科壁壘,從多個維度對文本資源進行全方位的展現。盡管我國經過30余年的古籍數字化建設,建成了一批優(yōu)質古籍電子資源庫,但長期以來,數字化古籍文本僅僅充當印刷資源或影印資源的替代物,缺乏結構化的知識組織和深度利用,大量珍貴的古籍資源仍被束之高閣。數字人文(Digital humanities)概念的提出為古籍資源的深度開發(fā)提供了思路,作為新興的交叉學科,數字人文旨在采用計算機技術對傳統人文學科的研究內容進行組織與發(fā)現,從多角度具象化深藏于文本中或僅被少數領域專家掌握的隱性知識。正如黃水清[1]所說,數字人文研究的目的在于得到領域專家“心中所有,口中所無”的知識,并將這些知識以易于理解和使用的方式加以呈現。

詞匯是含有完整語義信息,且能獨立應用的最小語言單位。精準有效的切分文本,是文本從非結構化向結構化轉變的關鍵,也是實現智能化文本處理的基石。在古漢語文本中,詞與詞之間缺少顯著的分隔,且由于詞類活用、特殊句式等語法現象的廣泛存在,分詞的困難程度大大加深。以往的古漢語分詞研究中,基于詞典的和基于統計學習的分詞方法是分詞處理的主流,這些方法通常依賴于構建大規(guī)模的詞表與復雜的特征制定,僅適用于部分特定的古籍文本。而多變的古文題材,不同時代不同的文言寫作風格也決定了這兩類方法不易移植。因此,使用深度學習技術自動提取文本特征,實現文本的智能處理,是處理大規(guī)模古籍數據的必由之路。

本研究選取了記載先秦至三國時期歷史的最具有代表性的6 部官修史籍,充分結合外部信息,引入基于《四庫全書》全文數據預訓練的BERT 模型和融合詞典信息的BiLSTM-CRF 和Lattice-LSTM模型,通過多項對比實驗探索多種深度學習模型的分詞效果。并結合第一版《漢語大詞典》的全部古漢語詞匯構建融合詞性特征的古文智能處理單機版軟件,為從事古籍研究的相關學科工作者提供高效易用的自動分詞工具。

1 相關研究

1.1 面向古籍處理的數字人文研究綜述

數字人文學科的研究方法與內容靈活多變。面向不同的人文學科內容,采用合適的計算機手段加以描述和呈現是數字人文研究的特征。朱本軍等[2]調查了國內外數字人文實驗室的研究項目與所開發(fā)的工具,將數字人文研究內容總結為4個層面:簡化人文學科研究的工作流程以提升效率,解決傳統人文學科的問題,使用計算機技術從人文研究內容中發(fā)現并解答新問題以及對人文領域研究進行創(chuàng)造性建設。在面向古籍的數字人文研究中,結合人工智能的文本挖掘方法是對古籍文獻進行知識層面的組織與可視化的主要手段。國內學者利用計算機技術對古籍資源的深度開發(fā)進行了一系列的探索。歐陽劍[3]結合大數據、文本處理、GIS 等技術,創(chuàng)建了面向語言學、歷史學、地理學研究的古籍分析一體化平臺。于純良等[4]采用語義分析方法挖掘稷下學資料中隱含的知識,設計致力于人文計算的稷下學語義處理框架。李海濤等[5]采用LDA主題模型對少林寺檔案進行主題抽取,并以知識圖譜和多媒體技術進行可視化呈現。王兆鵬等[6]從古代文學研究資料離散和時空分離兩大問題入手論述引入數字人文技術的必要性,并簡要介紹應用于古代文學研究中的知識抽取方案。

當前國內古籍數字人文研究雖然成果頗豐,但面臨的問題也十分嚴峻。一方面,古籍數字人文研究缺少統一的研究范式和評價標準,大多數研究僅僅在古籍的處理中簡單的調用計算機技術,缺乏導向性。另一方面,國內古籍數字人文研究者缺少高效易用的古籍分析工具。古籍文本所用的語言是繁體的文言文或古白話文,而當前的主流文本自動化分析工具僅面向簡體白話文的處理,難以有效識別繁體文言文中的關鍵信息,古籍隱藏知識的抽取仍需花費大量人力,導致研究的大部分時間都耗費在了信息的提取上。人工智能技術的普及雖然在一定程度上緩解了這一現象,但國內許多實驗室和個人仍面臨著算力不足,精加工數據缺乏的問題,這些都是制約數字人文研究發(fā)展的重要因素。

1.2 中文分詞研究綜述

中文分詞是中文自然語言處理中的重要一環(huán),不同于英文文本,中文文本的詞與詞之間缺乏顯著的分隔標記,而當以字為基本單位進行文本處理時必然割裂句子中豐富的語義信息。因此,高效、精確的中文分詞是計算機理解文本的基礎。根據技術手段的不同,筆者將當前的中文分詞研究概括為3個層面的內容。

(1)基于詞典的中文分詞研究。詞典法是實現中文分詞任務最簡單高效的方法。該方法通過構建通用的漢語詞典或領域專用詞典,按照規(guī)則匹配文本中的詞匯以完成詞語切分。最大匹配法是中文分詞最常用的方法,通過正向、逆向或雙向掃描輸入文本,以最長匹配、加字匹配或減字匹配為策略進行匹配。直至今日,這種簡潔快速的匹配方法仍大規(guī)模應用在通用文本和特定領域文本的分詞任務中。但該方法的缺點在于可移植性較差,需根據領域的不同構建高質量的詞典,且難以解決未登錄詞問題和切分歧義問題。部分學者對詞典法做了改進。比如,莫建文等[7]學者結合雙字哈希結構,改進了最大正向匹配算法,這種方法對長詞切分效果具有一定提升,有效的改善了分詞精度。陳之彥等[8]提出一種可用于雙向匹配的詞典結構,并設計出與之相應的匹配算法,以互信息處理模塊解決切分歧義問題,其切分準確率超過了雙向最大匹配算法。蔡燦民等[9]設計了一種結合新詞發(fā)現的智能詞典解決未登錄詞問題,但使用該方法的時間成本較高。周程遠等[10]提出一種基于TRIE索引樹的分層逐字二分分詞方法,并結合逆向最大匹配算法從整詞切分和逐字切分兩個層面實現文本的分詞,有效的解決了詞典算法分詞緩慢的問題。

(2)基于統計學習與深度學習的中文分詞研究。隨著計算機硬件算力的快速提升,機器學習與深度學習技術再度受到學術界與工業(yè)界的青睞,在自然語言處理工作中,研究者一般將中文分詞歸結為以字符為單位的序列標注任務。采用人工智能方法解決分詞問題是當下分詞研究的主流方法。在面向古籍文本的分詞中,石民等[11]采用條件隨機場模型,測試了只進行分詞,只進行詞性標注,同時進行分詞和詞性標注3種詞匯切分策略的效果,結果表明,同時進行分詞和詞性標注的分詞效果最佳,其調和平均數最高可達89.65%。錢智勇等[12]基于全切分分詞法和HMM(隱馬爾科夫模型)進行《楚辭》的分詞和詞性標注一體化實驗,在封閉測試中分詞的調和平均值最終達97.31%。王莉軍等[13]采用BiLSTM-CRF訓練面向中醫(yī)古籍的文本分詞模型,效果顯著優(yōu)于主流漢語分詞器,且具有更高的魯棒性。張琪等[14]使用BERT基于25部先秦典籍構建分詞詞性標注一體化模型,以此為基礎開發(fā)分詞平臺,在未經人工標注的《史記》數據集上進行了觸發(fā)詞抽取測試,取得了良好的實驗效果。俞敬松等[15]從無監(jiān)督學習中得到啟發(fā),設計出一種結合非參數貝葉斯和BERT的組合模型,并將其應用于古漢語分詞。

(3)多特征融合的中文分詞研究。盡管深度學習技術的使用有效提升了中文分詞的效率,但仍面臨著一些難以解決的問題。例如,以漢字字符為粒度的序列處理模式難以考慮詞匯的整體特征造成錯誤切分,該問題在特定領域的文本分詞上尤為嚴重。讓深度學習模型結合外部信息,是解決該問題的關鍵。目前,常用的外部信息融合方法主要是預訓練技術和詞典信息融合。Zhang 等[16]設計將詞典信息融入BiLSTM-CRF 網絡的方法,在9 種公開數據集上進行效果測試,證明該模型能夠從特定領域的字典中獲利,但這一方法比較依賴高質量的領域詞典。成于思等[17]將上述方法與遷移學習技術相結合,加入土木工程與法律領域專用詞典,實現工程法律文本的自動分詞。Zhang等[18]設計出用于中文命名實體識別的模型Lattice-LSTM,這種模型將輸入的字符級序列和序列中潛在的包含在字典中的詞匯進行編碼,能有效利用詞序信息,使中文實體的邊界更加清晰,該論文一舉成為融入詞典信息序列標注的開山之作。張文靜等[19]將Lattice-LSTM的思想應用在中文分詞任務上,以公開的多粒度的分詞數據集進行對比實驗,在測試集中獲得最高96.39%的F值。崔丹丹等[20]將Lattice-LSTM應用于古籍處理,將簡體的《四庫全書》全文利用甲言分詞工具分詞,并使用word2vec 訓練出古文詞向量作為模型的輸入,識別《四庫全書》中“史部”文獻全文中的人名、地名、機構名、職官名4 類實體,模 型 的 F1 值比 BiLSTM-CRF 提 升3.95%,證實Lattice-LSTM 用于序列標注任務的可行性,但目前研究暫時沒有把該方法應用到古漢語分詞中。陳美等[21]基于預訓練技術,選取《新華字典》訓練詞向量,并以BiLSTM-CRF模型加載詞向量完成《辭?!啡臄祿姆衷~。

綜合相關文獻的閱讀,目前用于中文分詞的方式多種多樣,但大都應用于現代漢語或簡體古籍文本的分詞,在古籍繁體文本的分詞探索上缺少外部信息的融入。多數研究僅僅是運用深度學習模型做了對比實驗,不能為研究典籍的數字人文學者提供通用性的文本分詞解決方案。本實驗基于預訓練技術和詞典信息融合方法,為古籍繁體文本的自動分詞任務選擇合適高效的模型,解決人文學科研究者缺少自動化古籍分詞工具的問題,助力數字人文研究。

2 數據集與方法簡介

2.1 數據集簡介

本研究選用《左傳》《戰(zhàn)國策》《史記》《漢書》《后漢書》《三國志》6部史籍原文作為實驗語料,以句子為單位完成文本切分,由語言學專業(yè)研究生采用人工標注的方式進行文本的分詞和詞性標注。最終得到大小為18.6MB的精加工史籍語料,語料具體信息見表1。

表1 精加工史籍語料的基本信息

在標注過程中,參考張穎杰等[22]提出的先秦漢語詞義標注方法,在人工分詞的基礎上標記共22種詞性標簽。本研究主要注重古籍文本的自動分詞,對詞性標注情況不予贅述,表2主要展示了對6部史書的分詞結果。

表2 史籍語料的分詞結果

根據分詞詞匯的詞長,將詞匯劃分為單字成詞、雙字成詞、多字(三字及以上)成詞3種類型。語料中單字成詞的情況最多,共有83.04%詞匯(含標點)僅包含一個字符,雙字成詞的情況占比為14.96%。多字成詞的情況最少,占總詞數2.00%,且從詞性來看,該類詞匯多表達人物稱謂、地理位置、時間等信息,其詞性以名詞為主。分詞樣例如下:

太 祖/恱/,/謂/禁/曰/:「淯 水/之/難/,/吾/其/急/也/,/將 軍/在/亂/能/整/,/討 暴/堅/壘/,/有/不/可/動/之/節(jié)/,/雖/古/名將/,/何以/加/之/!/

加入詞性標簽后的樣例如下:

太祖/nr 恱/v,/w 謂/v 禁/n 曰/v:/w 「/w 淯水/ns 之/u 難/n,/w 吾/r 其/r 急/n 也/u,/w 將軍/n 在/v亂/n能/v整/v,/w討暴/v堅/v壘/n,/w有/v不/d可/v動/v之/u節(jié)/n,/w雖/c古/t名將/nx,/w何以/d加/v之/r!/w

2.2 模型簡介

選取基于神經網絡架構的層疊式深度學習模型BiLSTM-CRF,基于雙向Transformer架構的BERT預訓練模型,以及使用大規(guī)模古籍數據繼續(xù)訓練的SikuBERT 預訓練模型作為實驗工具。在以字為粒度的文本序列上完成分詞任務,探索不同模型在古文分詞上的性能差別。

(1)融合詞典信息的BiLSTM-CRF 介紹。BiLSTM-CRF[23]是由百度研究院2015年發(fā)布的深度學習模型,該模型兼顧長短時記憶神經網絡(LSTM)和條件隨機場(CRF)模型的優(yōu)點,其基本結構主要分為輸入層,雙向LSTM層和CRF層3個部分,詳見圖1。在輸入層中,模型以中文字符為單位讀入序列文本和分詞標簽,并生成詞向量矩陣向上層傳遞。雙向LSTM 層包含了前向LSTM和后向LSTM。其中,前向LSTM層按順序讀入字向量,后向LSTM按逆序讀入字向量,分別得到正向隱狀態(tài)向量(hl0,hl1,hl2…,hli)和逆向隱狀態(tài)向量(hr0,hr1,hr2…,hri),將正向與逆向隱狀態(tài)向量進行拼接,得到綜合句子順序與逆序特征的隱狀態(tài)向量(h0,h1,h2…,hi),從而克服LSTM只能編碼正向文本序列,無法獲取句子雙向語義特征的問題。模型的第三層是CRF層,該部分主要為BiLSTM層的預測值分數提供特定約束。CRF層能夠從訓練數據中學習標簽的轉移概率,確保輸出序列的順序的合理性,防止模型輸出中含有不符合語言邏輯的標簽組合。在本實驗中,筆者采用Zhang等[16]①的解決方案,在神經網絡中加入《漢語大詞典》中共計408,619個漢語詞匯的文本信息,構建具有漢語大詞典特征的超LSTM,向主干LSTM動態(tài)生成詞向量,用于增強模型在古漢語語料上的新詞發(fā)現能力。

圖1 BiLSTM-CRF的基本結構

(2)Lattice-LSTM介紹。Lattice-LSTM②是一種以LSTM-CRF結構為主干的結合詞典特征的序列的標注模型,詳見圖2。當前深度學習模型處理文本序列的主要思路是將定長的句子切分為單個字符的集合,再從字符序列中自動學習語義關系完成模型訓練。這一做法的好處在于可以忽略分詞錯誤的影響,但同時也導致了部分語義信息的缺失,此現象在含有大量術語的專業(yè)領域(如生物、醫(yī)學等學科)的語料中尤為明顯。Lattice-LSTM模型創(chuàng)造性地將領域詞典與深度學習模型相結合,依靠word2vec訓練的詞向量實現詞典功能。Lattice-LSTM在處理輸入的句子序列時,先對字符級的序列進行預處理,將單個的字符與詞典進行匹配發(fā)現潛在詞匯,在此基礎上構造同時包含字符和單詞序列的格子結構,詳見圖3。在模型的主干部分,原先LSTM模型的細胞(cell)結構被用來儲存和處理潛在詞匯信息,每個細胞單元與原字符級序列相連,使得LSTM擁有發(fā)現序列中潛在詞匯的能力,從而減少了序列標注任務中的歧義問題。在本實驗中,筆者基于雙向最大匹配的方法用《漢語大詞典》中的詞匯對詞典中年代在民國以前的所有例句進行了分詞,這些例句涵蓋詩歌、政論、散文、傳記、小說等多種文學體裁。在此基礎上使用word2vec算法訓練出50維的古文詞向量和字向量,作為詞典特征加入到Lattice-LSTM結構。

圖2 超LSTM與主干LSTM結構[16]

圖3 Lattice-LSTM的格子結構

(3)BERT預訓練模型介紹。BERT預訓練模型[24]是Google2018 年發(fā)布的基于深度雙向Transformer編碼器的預訓練模型,通過預訓練和微調兩個階段的任務完成不同的自然語言處理工作。在預訓練階段,BERT模型創(chuàng)造性的利于近乎無限的未經人工標注的數據,以掩碼語言模型(Masked Language Model)和下一句預測(Next Sentence Prediction)兩個無監(jiān)督任務更新模型底層參數。在掩碼語言模型任務中,BERT按一定百分比隨機遮罩句子中的詞匯,并根據上下文預測該詞。在下一句預測任務中,BERT模型成對的讀入句子,判斷兩個句子是否相鄰,以獲取句子間的語義關系,通過對兩個任務的損失函數優(yōu)化,實現模型參數調優(yōu)。而在下游任務中,只需要對上層參數進行輕微調整,即可使模型獲得傳統神經網絡模型需消耗更多計算資源才能達到的效果。圖4展示了BERT模型的基本結構。

圖4 BERT模型的基本結構

如圖4所示,在Embedding層,BERT模型對輸入的中文序列以字為單位進行分詞,使用自帶的中文字典將字符映射為數值序列。例如,當模型讀入“寡人之于國也”這個序列時,這句話先被BERT模型按字符為單位分割,加入序列起始標記[CLS]和終止標記[SEP],轉換為輸入序列[[CLS],寡,人,之,于,國,也,[SEP]],再自動地結合每個字在詞表中相對應地索引值原字符以生成詞向量,結合詞在句中位置的位置向量,以及表示句子類別的分段向量,一起求和生成一個組合向量。通過堆疊的多層雙向transformer 編碼器,把最后結果通過一個softmax層,可以獲取每一個字符對應標簽的最大概率,將這一系列標簽輸出即可實現序列標注。非常適合進行文本分類與序列標注等判別式任務,是當前NLP業(yè)界使用熱度最高的模型之一。在本實驗中,筆者選取了HuggingFace提供的12層、768個隱藏單元、1.1億參數量、用于Pytorch 框架的BERT-base 中文預訓練模型③,該模型已在包含維基百科數據集在內的大量語料上完成了預訓練,對于中文自然語言處理任務的效果提升顯著。

(4)SikuBERT 預訓練模型介紹。SikuBERT預訓練模型[25]④是由南京農業(yè)大學、南京理工大學、南京師范大學聯合發(fā)布的面向古文智能處理的預訓練模型。該模型基于掩碼語言模型策略,在去除注釋信息的無標點繁體《四庫全書》全文上完成了對BERT和RoBERTa中文模型的二次預訓練。除以困惑度為指標作為判斷依據外,作者還以分詞、詞性標注、命名實體識別和斷句四項NLP任務在公開的《左傳》數據集上完成了多項對比實驗,多組實驗的效果均超過基線模型BERT-base 和Chinese-RoBERTa-wwm,且當數據規(guī)模越小時,SikuBERT的性能提升就更加顯著。在本實驗中,將SikuBERT作為領域數據預訓練的模型用于對比實驗和分詞工具的開發(fā)。

3 實驗

3.1 實驗方案設計

通過大量預實驗,發(fā)現除基本超參數外,標點符號的有無、訓練數據的規(guī)模以及語料的語言特征對模型的分詞效果有著顯著影響。因此,通過更改以上因素,初步設計了4組實驗,表3介紹了實驗中外部信息的結合方式與代碼的運行環(huán)境。

使用Lattice-LSTM用于古籍分詞需要訓練古文詞向量,筆者借助專用于機器學習的python工具包gensim,使用其中的word2vec模塊用于《漢語大詞典》分詞數據的詞向量生成。實驗設置的參數如表4所示。

表4 word2vec方法的參數設置

使用word2vec工具,訓練出50維的古文字向量和詞向量,以供后續(xù)實驗使用。在實驗中所有模型的超參數均調整至最佳狀態(tài),表5-6展示了兩類模型在最佳狀態(tài)下的主要超參數設置。

表5 LSTM類模型超參數設置

表6 BERT類模型超參數設置

將分詞語料以句子為單位,進行隨機打亂,以“9∶1”的比例將處理好的語料劃分訓練集、測試集與驗證集。在語料中采用{B,M,E,S}標注體系給字符加上標簽,其中B,M,E標簽分別代表詞首字,詞中間字和詞末尾字,S標簽代表獨立成詞的單字。實驗語料樣例見表7。

表7 實驗語料樣例

采用準確率P(Precision)、召回率R(Recall)和調和平均值F(F-measure)作為模型分詞效果的評測指標,3種指標的計算方法如下:

準確率和召回率分別體現了模型分詞的精確程度和全面程度,而調和平均值綜合兩者優(yōu)點,避免二者差距過大的情況,能更為客觀的評價分詞結果,是實驗中關鍵的評價指標。

3.2 基于原始語料的模型性能對比實驗

在初步實驗中,基于原始語料分別測試各種模型的分詞性能,得到如表8所示的實驗結果。實驗結果表明,在含有標點符號的繁體中文語料上,4種深度學習模型均取得了95%以上的調和平均值,其中表現最佳的是BERT中文預訓練模型,其調和平均值達到97.36%,且BERT類模型的表現比LSTM類模型更佳。

表8 基于原始語料的模型分詞效果(%)

3.3 基于無標點語料的模型性能對比實驗

考慮到SikuBERT模型采用了無標點語料進行了預訓練,且在原始語料上的分詞表現并未超過BERT。對此,筆者提出假設:標點符號的存在與否對預訓練模型的分詞性能具有顯著影響。基于該假設,去除了語料中全部的中文標點符號,并重新進行模型分詞。實驗結果如表9所示。

表9 基于無標點語料的模型分詞效果(%)

在該組實驗中,SikuBERT的分詞效果達到了最優(yōu),最高調和平均值達到95.18%,對此,筆者給出的解釋是SikuBERT依靠MLM的預訓練方式屬于典型的自動編碼器(AE),這一訓練策略旨在對已損壞句子的重構更新模型參數,因訓練語料不含標點,模型在計算句子被遮罩詞或計算句子概率時依賴的是不含有標點的上下文,而當模型面對下游任務時,標點符號實際上成為模型推測字符類別歸屬的噪聲??梢姡褂妙I域數據預訓練的模型需要在形式相近的文本處理上方能取得更好的效果。

3.4 不同語料規(guī)模下模型分詞性能對比

數字人文的研究者在處理古籍文本時,面臨的多是未經人工處理的數據,精加工的標注數據由于需要耗費大量的人力成本,往往數量稀少且難以獲取。因此,良好深度學習模型應當能夠適應低資源環(huán)境,僅需依靠少量的標注數據就能實現較強的泛化能力?;谶@一思路,縮減了訓練數據的規(guī)模,分別將無標點的訓練數據縮減至1/2、1/4、1/8、1/10,以探索語料規(guī)模對模型分詞性能的影響,模擬僅有少量標注數據情況下的分詞效果。此實驗以調和平均數作為分詞評價指標,表10描述了實驗的結果。

表10 不同語料規(guī)模下模型分詞結果(%)

以F 值為基準,4 種模型的分詞性能排序為:Lattice-LSTM<BiLSTM-CRF<BERT<SikuBERT,從分詞結果來看,LSTM 類的模型對語料規(guī)模變化敏感,當語料減少時,分詞效果的變動幅度更大。BERT類模型在總體的分詞效果優(yōu)于LSTM類模型,且隨著語料規(guī)模的降低,SikuBERT與BERT模型的分詞效果的差距不斷增加。當使用全部的訓練數據時,這一差距僅為0.25%,而當訓練集數據下降到1/10時,該差距已經超過了1%??梢?,SikuBERT 在訓練語料較少的情況下分詞效果要顯著好于BERT 模型,該實驗結論也與SikuBERT 模型開發(fā)者的說明相一致。

3.5 不同語言風格語料下模型分詞性能對比

本實驗采用的語料來自成書時間介于戰(zhàn)國中期至南朝劉宋時期的官修史籍,從語言風格上看,成書時間最早的《左傳》和其他史籍的語言風格有較大差異。文獻[26]對《左傳》的語言特色做了探討,指出《左傳》行文語言極度簡潔凝練,作者大量使用了省略和節(jié)縮的方法,使文章難以理解。相比之下,《戰(zhàn)國策》語言清晰直白、富于修辭。而成書時間在漢朝及以后的史籍更是注重修辭的使用和歷史事件的詳細描寫。筆者根據這一特點設計了實驗4,以《左傳》單獨作為測試集,其他5部史籍作為訓練集進行開放測試,以比較幾種模型面對不同分詞語料時的魯棒性。實驗結果如表11所示。

表11 不同風格語料下模型分詞性能對比(%)

在魯棒性測試實驗中,兩種融合詞典信息的LSTM 模型表現均優(yōu)于BERT 類模型,其中Lattice-LSTM 的分詞效果最佳,其F 值達到91.67%,其特有的格子結構能有效兼顧登錄詞與未登錄詞,這一實驗表明詞典融合策略的有效性更多地體現在對陌生語料的新詞發(fā)現上。該實驗也從側面說明并非結構復雜、算力消耗大的模型性能一定會優(yōu)于結構簡單、算力消耗小的模型,在選擇模型時應更多考慮具體任務的語料類型。

3.6 實驗結果分析

(1)在不添加任何人工特征的前提下,BERT模型在含有標點語料上的分詞效果最佳,這體現了Transformer結構和超大規(guī)模通用數據預訓練的優(yōu)越性。

(2)使用《四庫全書》全文數據預訓練的SikuBERT模型在所有的無標點語料分詞任務上均取得了最優(yōu)結果,因此該模型更適合用于對未經人工斷句的古籍原文進行詞匯切分,當前眾多的數字化古籍資源的本質僅是對原本的古籍原文的錄入,并不包含標點符號。而散佚民間的古籍孤本更是不包含標點信息,SikuBERT模型可以比BERT更好地應對這一情況,具有更高的應用價值。

(3)結合領域知識的模型在模擬低資源環(huán)境和陌生語料的任務中均取得了較好的分詞效果,說明預訓練和詞典融合的方法能夠有效提升模型在古文分詞任務中的泛化能力。BERT類模型受文本規(guī)模變化的影響比LSTM類的模型更小,而融合詞典信息的LSTM類模型對于陌生語料的新詞發(fā)現能力更強,分詞效果比未加入詞典特征的BERT類模型更佳,該實驗結論對于算力資源不充足的人文學科實驗室或個人意義較大。

4 單機版古文智能處理平臺設計

根據上述實驗的結果,選取了SikuBERT模型用于古文智能處理平臺中自動分詞功能的開發(fā)。單機版SikuBERT 典籍自動處理平臺是基于python語言,使用pyQt5圖形界面編程實現的,當前的1.0版本包含文本分類、自動分詞、自動斷句、實體識別和詞性標注功能。這一項目的主旨在于減少數字人文工作者在文本處理上的人力消耗。在構建分詞功能時,利用《漢語大詞典》的分詞文本對SikuBERT 的訓練集進行了擴充,提升模型對于非史籍文本分詞的準確性。

通過對代碼的整合,完成了單句分詞,單文本文件分詞和多文件分詞3種功能,以適用于不同規(guī)模文本的處理。軟件中的分詞按鈕通過pyQt5的信號發(fā)送功能與作為槽函數的分詞函數相連接,分詞函數的參數如表12所示。

表12 分詞函數的參數和功能

在以上參數中,inputpath和outputpath用于接受用戶輸入的待處理文件路徑和處理后輸出的文件路徑,輸入文件中每個序列的長度一般控制在512以下,對單個過長的序列則自動截斷為多個子序列。軟件能以CPU和GPU兩種方式運行,從而最大限度地利用計算資源。以下展示SikuBERT古文智能處理平臺的界面和分詞功能。

圖5是智能處理平臺的主界面,用戶單擊單文本模式和語料庫模式按鈕后即可跳轉至分詞界面。在單文本模式下,用戶需要在左側輸入繁體中文的典籍文本,單擊自動分詞按鈕,即可在右側生成古籍文本分詞結果。圖6以《資治通鑒·魏紀》中的部分內容為輸入句,可以看到在右側生成結果中,幾乎正確地切分了所有人名、地名、官職和時間表述,適用于對一般古籍的處理。當用戶需要處理大規(guī)模文本時,應選擇語料庫模式進入系統,單擊瀏覽按鈕選取待處理文件夾和輸出文件夾,再點擊自動分詞按鈕,即可自動調用SikuBERT分詞模型以實現對批量文本的分詞,詳見圖7。

圖5 智能處理平臺主界面

圖6 單句自動分詞處理

圖7 語料庫分詞功能

5 結語

古漢語文本的精準切分,是實現古籍數字人文研究的基礎性工作,本研究結合了《四庫全書》和《漢語大詞典》的語義信息,以LSTM和BERT兩類四種模型對史籍文本進行了四組不同的分詞實驗。實驗結果表明,BERT預訓練模型適用于含有中文標點的古文語料分詞任務,而SikuBERT適用于不含中文標點的古籍分詞和低資源情況下的分詞,兩種BERT模型在各自適用的數據集上分詞的調和平均數分別達到97.36%和95.18%,體現了預訓練策略和模型架構的優(yōu)勢。而當模型面對風格不同的陌生語料時,結合詞典特征的 BiLSTM-CRF 和 Lattice-LSTM 則取得了更佳的實驗效果。根據實驗結論,本實驗設計了調用SikuBERT 模型的分詞接口,解決數字人文研究者缺少簡單易用的繁體中文分詞工具的問題。筆者認為,本研究可以從如下方向加以改進:(1)采用多模態(tài)融合的方法,兼顧圖像信息與文本信息兩方面的內容,對還未實現電子化僅存有古籍孤本或影印資源的文本進行分詞,以擴展研究廣度。(2)隨著知識圖譜在NLP任務中大規(guī)模使用,領域知識融合的方法越發(fā)新穎,后續(xù)研究可以考慮借助高質量的領域知識圖譜來實現詞匯增強,具體可以使用ERNIE[27]、K-BERT[28]等能夠融合知識圖譜的模型提升分詞性能。(3)綜合詞典信息融合和領域數據預訓練兩種遷移先驗知識的方法,加強模型在古籍語料上的新詞發(fā)現能力,可以采用SikuBERT 與 LEBERT[29]或 Lattice-BERT[30]等融合詞典信息的BERT 類模型相結合的方式實現,獲得更強大的語言表征能力,從而更好的助力數字人文研究。

注釋

① https://github.com/fudannlp16/CWS_Dict.

② https://github.com/jiesutd/LatticeLSTM.

③ https://github.com/google-research/bert.

④ https://github.com/SIKU-BERT/SikuBERT.

猜你喜歡
分詞古籍語料
中醫(yī)古籍“疒”部俗字考辨舉隅
關于版本學的問答——《古籍善本》修訂重版說明
天一閣文叢(2020年0期)2020-11-05 08:28:06
結巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
關于古籍保護人才培養(yǎng)的若干思考
天一閣文叢(2018年0期)2018-11-29 07:48:08
我是古籍修復師
金橋(2017年5期)2017-07-05 08:14:41
基于語料調查的“連……都(也)……”出現的語義背景分析
值得重視的分詞的特殊用法
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
历史| 福建省| 临邑县| 阳原县| 修武县| 青阳县| 侯马市| 边坝县| 古蔺县| 同江市| 阳春市| 察雅县| 阿拉善右旗| 文山县| 保德县| 天镇县| 宁国市| 六安市| 新昌县| 蒙城县| 开鲁县| 麟游县| 梁平县| 茌平县| 轮台县| 黎城县| 黄陵县| 平原县| 徐水县| 固始县| 晋州市| 临沭县| 黑水县| 开鲁县| 修水县| 嘉峪关市| 沈阳市| 鹰潭市| 巴林左旗| 滦南县| 临沧市|