国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

古漢語自動(dòng)分詞技術(shù)研究現(xiàn)狀及進(jìn)展

2022-10-11 01:47:10王進(jìn)張義
關(guān)鍵詞:古漢語分詞語料

王進(jìn),張義

(淮北師范大學(xué) 文學(xué)院,安徽 淮北 235000)

隨著計(jì)算機(jī)輔助漢語史研究的不斷深入,當(dāng)前古漢語語言數(shù)據(jù)亟需基于內(nèi)容的深度挖掘,此背景下,古漢語自動(dòng)分詞技術(shù)的重要性愈加凸顯。然而,古漢語詞匯的演變并不平衡,在詞匯、語法等方面與現(xiàn)代漢語相比存在較大差異,因此,簡單地將現(xiàn)代漢語自動(dòng)分詞技術(shù)準(zhǔn)則直接移用到對(duì)古漢語的處理,可能會(huì)出現(xiàn)古漢語詞匯判定的問題;除此之外,受古漢語文本類型、古漢語語用習(xí)慣等特殊因素的影響,采取單一的分詞方案處理古漢語語料,效果也不夠理想。

古漢語自動(dòng)分詞技術(shù)經(jīng)歷了基于詞典和統(tǒng)計(jì)的方法、基于機(jī)器學(xué)習(xí)的序列標(biāo)注方法等幾個(gè)早期發(fā)展階段,近年來,深度學(xué)習(xí)技術(shù)的應(yīng)用越來越廣泛,利用深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)訓(xùn)練、后處理方式成為古漢語自動(dòng)分詞研究的新嘗試,并表現(xiàn)出了較大優(yōu)勢。本文梳理了當(dāng)前古漢語分詞領(lǐng)域的相關(guān)技術(shù)方法,重點(diǎn)關(guān)注新進(jìn)展,以期理清未來的研究方向。

一、古漢語分詞的關(guān)鍵問題

分詞粒度界定、歧義消解和未登錄詞處理等是漢語自動(dòng)分詞的關(guān)鍵問題,具體到古漢語分詞中,情況可能更加復(fù)雜。要完成詞語的自動(dòng)切分,詞匯判別是實(shí)現(xiàn)漢語詞匯自動(dòng)切分的第一步。古漢語以單音節(jié)詞匯為主,但在單音詞向復(fù)音詞演進(jìn)過程中,古漢語的詞、短語界限并不明晰,因此,古漢語領(lǐng)域的分詞粒度界定較難,如果缺乏切分標(biāo)準(zhǔn),很大程度上會(huì)造成歧義切分。另外,古漢語中大量存在的未登錄詞也影響著分詞的準(zhǔn)確率。

表1 古漢語分詞關(guān)鍵問題及解決思路

(一)分詞粒度界定

分詞標(biāo)準(zhǔn)與分詞粒度界定直接決定了分詞詞匯的判別。古漢語詞匯的凝固程度在不同時(shí)段并不一致,如果沿用“結(jié)合緊密、使用穩(wěn)定”作為界定標(biāo)準(zhǔn),由于該標(biāo)準(zhǔn)較為主觀,可能導(dǎo)致切分彈性過大。不但如此,單一的分詞標(biāo)準(zhǔn)在應(yīng)對(duì)不同的古漢語文本類型時(shí)也顯得捉襟見肘,為解決以上問題,于是就有了以文本類型為導(dǎo)向的分詞標(biāo)準(zhǔn),如辭書詞匯、佛經(jīng)詞匯、醫(yī)學(xué)詞匯、史傳詞匯等。

以文本類型為導(dǎo)向的分詞標(biāo)準(zhǔn),雖針對(duì)性強(qiáng),但實(shí)際的分詞粒度仍較粗。化振紅以佛經(jīng)文獻(xiàn)詞語特點(diǎn)為觀照,進(jìn)一步細(xì)化詞匯標(biāo)準(zhǔn),提出分詞單位的概念:分詞單位是從中古文獻(xiàn)中切分出來的、具有確定的語義和語法功能的詞語組合。除通用的詞匯,還包括“結(jié)合較緊密、搭配較固定”[1]的部分詞組,對(duì)于該定義,化文給出了具體的判定指標(biāo),相較傳統(tǒng)單一的分詞標(biāo)準(zhǔn)而言,已在思路和操作性方面具有了較大的改進(jìn)。應(yīng)當(dāng)肯定,化文提出分詞單位的概念,使分詞時(shí)避免陷入詞和詞組的爭論,提升了分詞效率,但是如何科學(xué)、嚴(yán)謹(jǐn)?shù)刂贫ㄅ卸ㄖ笜?biāo)又值得深入探討,而且僅以佛教詞匯為觀照,雖一定程度上細(xì)化了分詞標(biāo)準(zhǔn),但基于佛教詞匯特點(diǎn)的分詞標(biāo)準(zhǔn)也局限了對(duì)其他類型詞匯的拓展性。

(二)未登錄詞處理

由于古漢語的詞匯總量不會(huì)再增長,構(gòu)建古漢語未登錄詞詞典存在理論的可行性,但從現(xiàn)有的古漢語分詞詞典對(duì)未登錄詞收錄的現(xiàn)狀來看,覆蓋面顯然還不夠?qū)挿?,比如古人名、古地名、古機(jī)構(gòu)名、古官職名等專有名詞總有失落在外的情況;而且,因共時(shí)或歷時(shí)語言演變所造成的未登錄詞,在不同古籍中情況不一,如何清查和辨析都存在較大難度。隨著知識(shí)圖譜技術(shù)的興起,充分利用字際、詞際、字詞與語境等的關(guān)系,建立大規(guī)模古漢語知識(shí)網(wǎng)絡(luò)進(jìn)行古漢語相關(guān)實(shí)體推理的思路,為破解古漢語未登錄詞問題提供了重要啟示。

(三)分詞歧義消解

分詞歧義消解與分詞粒度界定是一體兩面的關(guān)系——前者從分詞結(jié)果出發(fā),倒推分詞過程中存在的問題,而后者是前置性地給出分詞所遇問題的解決方案。為進(jìn)行有效的分詞歧義消解,除了要關(guān)注提升分詞算法,還要從古漢語詞匯特點(diǎn)出發(fā),深挖切分歧義的形成原因。舉例來說,古漢語演進(jìn)過程中單音詞與復(fù)音詞使用頻率的不平衡性是導(dǎo)致古漢語切分歧義的顯著因素之一。由于漢字的總字?jǐn)?shù)有限,隨著語料長度的增加,單音詞達(dá)到一定數(shù)量之后將不再有明顯的增加,而復(fù)音詞數(shù)則會(huì)有較為明顯的增長。但是目前對(duì)于復(fù)音詞的衡量指標(biāo)并不統(tǒng)一,且在統(tǒng)計(jì)時(shí)也并未考慮單音詞和雙音詞出現(xiàn)的頻率,統(tǒng)計(jì)結(jié)果準(zhǔn)確性欠佳。因而,以復(fù)音詞的認(rèn)定和統(tǒng)計(jì)為關(guān)注點(diǎn),尋求歧義消解方案,對(duì)提升分詞精度無疑也會(huì)具有較大幫助。

二、基于詞典和統(tǒng)計(jì)的分詞方法

基于詞典的分詞方法是分詞領(lǐng)域的經(jīng)典方法,切分效果主要取決于給定的分詞詞典容量、查詢和匹配詞典的方式等;基于統(tǒng)計(jì)的分詞方法通過統(tǒng)計(jì)詞語的成詞概率,從而實(shí)現(xiàn)詞語切分,因此不再受限于分詞詞典。

(一)基于分詞詞典的分詞方法

由于古漢語的書面語詞匯在某個(gè)時(shí)段內(nèi)數(shù)量相對(duì)穩(wěn)定,實(shí)現(xiàn)一個(gè)相對(duì)封閉、針對(duì)性強(qiáng)的分詞詞典存在可操作性。歐陽劍[2]提出構(gòu)建古漢語斷代分詞詞典的思路:斷代詞典在時(shí)間線上可以分段,為保證詞匯使用的連續(xù)性,可以分段疊加詞典,即后一詞典在前一詞典的基礎(chǔ)上通過添加當(dāng)前朝代的新詞匯進(jìn)行累加,以古籍的時(shí)間為依據(jù)調(diào)用不同詞典。與歐陽劍有所不同,化振紅[3]根據(jù)詞匯特點(diǎn),構(gòu)建了不同的中古漢語語料庫,如典雅的官修正史、口語成分較多的佛道作品、醫(yī)農(nóng)雜著等語料庫。相形之下,充分關(guān)注古漢語文本特征,兼顧古漢語文本內(nèi)容與形式兩方面的中古漢語語料庫更為科學(xué),能夠在分詞實(shí)踐時(shí)提供多角度的詞匯判定參考,歐陽劍僅關(guān)注古漢語詞匯的時(shí)間,而相同時(shí)段內(nèi)文本特征可能存在較大差異,如不加區(qū)分,可能會(huì)削弱分詞的精度。

基于詞典的分詞方法,除了分詞詞典的覆蓋程度會(huì)影響切分效果外,查詢和匹配分詞詞典的方式也會(huì)限制分詞效果。邱冰、皇甫娟[4]從古漢語詞匯的角度出發(fā),以一種定量、高效的方式對(duì)古代漢語詞匯進(jìn)行了統(tǒng)計(jì)和分析,提出基于《漢語大詞典》的詞典自動(dòng)查詢技術(shù),這在理論和技術(shù)方面對(duì)基于詞典的古漢語自動(dòng)分詞極具借鑒意義。

文本匹配方式即查詢分詞詞典進(jìn)行匹配,較常使用的是最大匹配法(包括正向最大匹配和反向最大匹配),但最大匹配法在分詞過程中仍然僅依靠分詞詞典,并不具備詞法、句法和語義知識(shí),在面對(duì)復(fù)雜的古漢語時(shí)易出現(xiàn)切分歧義的問題。莫建文、鄭陽、首照宇等[5]為了解決此問題,采用雙字哈希結(jié)構(gòu)的字典查詢方式,在傳統(tǒng)分詞詞典構(gòu)造及相應(yīng)算法的基礎(chǔ)上,設(shè)計(jì)了一種改進(jìn)的正向最大匹配法,在分詞中實(shí)驗(yàn)中該方法對(duì)長字詞分詞速度和分詞精度提升明顯,這種方法對(duì)佛經(jīng)翻譯、白話文本的切分提供了思路。

(二)融合統(tǒng)計(jì)指標(biāo)的分詞技術(shù)

為了解決基于詞典分詞容易出現(xiàn)的未登錄詞識(shí)別失誤、切分歧義等問題,于是嘗試加入統(tǒng)計(jì)指標(biāo)來進(jìn)行歧義發(fā)現(xiàn)和歧義消解的思路被提出,如N-Gram(N元語法)、互信息等。融合統(tǒng)計(jì)指標(biāo)的分詞方法主要關(guān)注上下文相鄰詞匯間的搭配信息,如N-Gram認(rèn)為第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),與其它任何詞相關(guān)性較小,通過統(tǒng)計(jì)N和N-1的成詞概率即可;互信息是計(jì)算語言學(xué)中統(tǒng)計(jì)兩個(gè)變量相互依賴程度的一種度量,其基于概率分布來計(jì)算相關(guān)性,與互信息結(jié)合密切的有似然比、信息熵等算法。

將上述思想落實(shí)到分詞實(shí)踐層面的諸如黃建年[6]將詞典分詞與N-Gram結(jié)合,設(shè)計(jì)出農(nóng)業(yè)古籍自動(dòng)分詞系統(tǒng),在《齊民要術(shù)》等13本農(nóng)業(yè)古籍文本上進(jìn)行測驗(yàn),分詞精度達(dá)85%以上。段磊等[7]在《史記》語料上采用基于頻率、互信息等6種方法進(jìn)行了自動(dòng)抽取雙字詞能力的對(duì)比實(shí)驗(yàn),結(jié)果驗(yàn)證了每種的分詞方法所具有的獨(dú)特優(yōu)勢。邢付貴、朱廷劭[8]通過互聯(lián)網(wǎng)先構(gòu)建一個(gè)古漢語基礎(chǔ)詞典,再結(jié)合N-Gram、互信息等新詞發(fā)現(xiàn)方法構(gòu)建一個(gè)候補(bǔ)詞典,最后利用正向最大匹配實(shí)現(xiàn)分詞,然而通過互聯(lián)網(wǎng)所構(gòu)建的基礎(chǔ)詞典僅保證了數(shù)據(jù)量,但忽略了詞典的針對(duì)性,其后的候補(bǔ)詞典中這一問題也未能解決,且沒有考慮到歧義詞的處理,局限性明顯。

除了單純從分詞技術(shù)視角出發(fā),徐潤華、梁社會(huì)[9]針對(duì)較小規(guī)模且主題與內(nèi)容存在較大差異的先秦語料特點(diǎn),將《左傳》與之注疏進(jìn)行了文本對(duì)齊,構(gòu)造注疏詞典,再基于最大匹配分詞算法進(jìn)行分詞,F(xiàn)1值達(dá)89%。姜欣等[10]同樣在考察了古漢語文本特征后,將《茶經(jīng)》作為實(shí)驗(yàn)語料,利用樹剪枝算法進(jìn)行了分詞實(shí)驗(yàn),提出了一種基于似然比統(tǒng)計(jì)的古漢語分詞方法。

基于詞典和融合統(tǒng)計(jì)指標(biāo)的分詞方法具有實(shí)現(xiàn)簡單、效率高等優(yōu)勢,但該方法對(duì)詞典的完備程度、字典查詢匹配效率以及統(tǒng)計(jì)算法的依賴程度較高,當(dāng)面向復(fù)雜的古漢語文本時(shí),不具備推理能力或泛化能力較差的分詞方法逐漸不能滿足研究的需求。

三、基于機(jī)器學(xué)習(xí)的序列標(biāo)注方法

基于機(jī)器學(xué)習(xí)的自動(dòng)分詞方法其基本思想是讓計(jì)算機(jī)學(xué)習(xí)和模擬人將漢字序列劃分成詞序列的過程。目前古漢語分詞領(lǐng)域常用的序列標(biāo)注方法主要有基于條件隨機(jī)場(Conditional Random Field,CRF)、基于馬爾可夫模型(Markov Model,MM)等。

(一)基于條件隨機(jī)場模型

CRF是經(jīng)典的判別式模型,在自然語言處理任務(wù)中應(yīng)用廣泛。石民、李斌、陳小荷[11]作為國內(nèi)較早采取機(jī)器學(xué)習(xí)方法進(jìn)行古漢語分詞研究的學(xué)者,他們提出將分詞和詞性標(biāo)注進(jìn)行歸一化以減小錯(cuò)誤傳播帶來的影響,并在字符分類基礎(chǔ)上加入音韻學(xué)知識(shí),以此訓(xùn)練CRF模型,對(duì)《左傳》進(jìn)行了有效實(shí)驗(yàn)。在石民等人的技術(shù)思路下,王嘉靈[12]首先統(tǒng)計(jì)了《漢書》中的用詞情況,據(jù)此擬定了《漢書》分詞規(guī)范,然后在分詞實(shí)踐中將古漢語多元特征與CRF模型結(jié)合運(yùn)用,最終得到的實(shí)驗(yàn)結(jié)果顯示增加字符分類和上古音二元特征模板所取得的效果最優(yōu)。嚴(yán)順[13]使用漢語詞匯的語言學(xué)規(guī)則構(gòu)建CRF特征模板對(duì)經(jīng)典先秦典籍語料進(jìn)行詞性標(biāo)注探索,F(xiàn)1值達(dá)到90.33%。王珊珊等[14]利用詞性特征、字符類別、語音特征等,對(duì)《詩經(jīng)》進(jìn)行了自動(dòng)分詞實(shí)驗(yàn),得到了97.39%的F1值,然后再將獲取的特征模板結(jié)合統(tǒng)計(jì)方法構(gòu)建組合特征模板,通過CRF模型訓(xùn)練得到先秦典籍的詞性自動(dòng)標(biāo)注算法模型,以此便實(shí)現(xiàn)了一個(gè)多任務(wù)模型,極大地提升了分詞效率。

與前述方法有所不同,沈勤中、周國棟等[15]忠實(shí)于漢語詞匯是漢字的組合結(jié)構(gòu)這一語言學(xué)定義,采用CRF模型給出了基于字位置的成詞概率特征的分詞方法。沈文的思路是將分詞過程類比為對(duì)漢字字符的隨機(jī)分類過程,據(jù)CRF模型實(shí)現(xiàn)對(duì)句中每個(gè)漢字的標(biāo)記,并最終將標(biāo)記結(jié)果通過概率進(jìn)行分類組合,從而轉(zhuǎn)化成分詞結(jié)果。王曉玉、李斌[16]的做法與沈勤中等人類似,同樣從字符分類和字符標(biāo)記出發(fā),區(qū)別在于王曉玉、李斌利用了已有字典的標(biāo)記,以此作為CRF模型的分詞特征,最終達(dá)到F值90%以上的較高分詞水平。黃水清等[17]也利用CRF模型進(jìn)行訓(xùn)練,得到不同特征模板下的分詞模型,并完成了對(duì)先秦典籍自動(dòng)分詞模型的研究,模型表現(xiàn)出色。陸啟文[18]將逆向最大匹配法與CRF模型結(jié)合對(duì)《左傳》進(jìn)行了分詞實(shí)驗(yàn),取得了一定的效果,但作為其基線的分詞方法較單一,而且其構(gòu)建的分詞詞典并不全,在進(jìn)行分詞方法的比較時(shí),也只選用了基于詞典的分詞法與基于條件隨機(jī)場的分詞法做了對(duì)比,實(shí)驗(yàn)的說服力有限。

充分關(guān)注古漢語作品中豐富的語言信息和詞語特征的注疏語料,無疑也會(huì)對(duì)古漢語分詞幫助巨大。梁社會(huì)、陳小荷[19]基于《孟子》語料,率先采用CRF模型對(duì)先秦文獻(xiàn)進(jìn)行自動(dòng)分詞,并實(shí)現(xiàn)了利用注疏文獻(xiàn)的自動(dòng)分詞方法。徐潤華[20]的做法則更進(jìn)一步,其先行構(gòu)建了《左傳》注疏詞典,在CRF模型上加入注疏文獻(xiàn)并充分考慮古漢語信息處理特殊性的分詞方法,對(duì)相似領(lǐng)域的古漢語分詞極具借鑒作用。表2總結(jié)了目前古漢語分詞領(lǐng)域基于CRF模型的相關(guān)方法。

表2 基于CRF模型的古漢語分詞

根據(jù)上表,從所據(jù)語料來看,當(dāng)下古代漢語的分詞大多針對(duì)通行古漢語文本語料,而且語言特征的選擇對(duì)分詞效果影響較大;就分詞技術(shù)來說,以CRF為底層模型,充分融合其他機(jī)器學(xué)習(xí)的技術(shù),在同類分詞實(shí)驗(yàn)中表現(xiàn)優(yōu)異,但是對(duì)于目前有待提高的古籍?dāng)?shù)字化程度現(xiàn)狀而言,基于機(jī)器學(xué)習(xí)技術(shù)的分詞技術(shù),其分詞效果受制于人工標(biāo)注語料質(zhì)量和數(shù)量,因此局限性也很明顯。

近年來,隨著與分詞相關(guān)的聯(lián)合模型出現(xiàn),該模型增加了下游的多個(gè)子任務(wù)間的信息交互性,提升了分詞的準(zhǔn)確率,但同時(shí)也使得模型越來越復(fù)雜,如自動(dòng)分詞-詞性標(biāo)注聯(lián)合模型。

(二)基于馬爾科夫模型

馬爾科夫模型(Markov Model,MM)假設(shè)漢語的字符串組合是遵循某種可測的概率模型,將文本的字符串抽象成一個(gè)隨機(jī)過程,以共現(xiàn)信息作為衡量漢字間結(jié)合緊密度的指標(biāo),即字與字之間的相鄰共現(xiàn)率越高,生成固定詞的可能性就越大。從一定程度上來說,利用統(tǒng)計(jì)的思想來處理古漢語詞匯,在應(yīng)對(duì)語料數(shù)量、語用情況較為固定的古漢語文本時(shí)能夠取得不錯(cuò)的效果,但如果語料龐雜,則情況可能并非如此。錢志勇、周建忠等[21]結(jié)合馬爾科夫模型的衍生模型——隱馬爾可夫(Hidden Markov Model,HMM)模型,以全切分的方式對(duì)《楚辭》語料進(jìn)行一體化分詞,并取最大概率作為最后的結(jié)果,該方法能夠視為HMM模型應(yīng)用到古漢語領(lǐng)域的較好嘗試。

四、基于深度神經(jīng)網(wǎng)絡(luò)的分詞

深度神經(jīng)網(wǎng)絡(luò)通過對(duì)人腦功能和行為基本特征的模擬,構(gòu)建大量簡單的神經(jīng)元,然后再讓其廣泛連接,構(gòu)成一個(gè)復(fù)雜的非線性網(wǎng)絡(luò),其不需要人為地先給出特征表示,也能夠自動(dòng)學(xué)習(xí)上下文特征,因而具備了出色的知識(shí)泛化能力和自學(xué)習(xí)能力,在關(guān)注語言特征、保留句子信息等方面表現(xiàn)更優(yōu)。

(一)古漢語分詞常用的基礎(chǔ)網(wǎng)絡(luò)模型

古漢語分詞領(lǐng)域常用的神經(jīng)網(wǎng)絡(luò)模型如LSTM模型(Long Short-Term Memory,LSTM)、BERT模型(Bidirectional Encoder Representation from Transformers,BERT)等。LSTM模型最大的優(yōu)勢在于可以獲得更遠(yuǎn)距離上的上下文內(nèi)在聯(lián)系。然而,LSTM模型單向的學(xué)習(xí)特征,導(dǎo)致容易遺漏后向傳到前向的一些文本語義信息。為了解決這個(gè)問題,BiLSTM(雙向LSTM)模型被提出,雙向遞歸神經(jīng)網(wǎng)絡(luò)的每個(gè)訓(xùn)練序列都有一組前向和后向遞歸神經(jīng)網(wǎng)絡(luò),具有這種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)輸出層的每個(gè)點(diǎn)都可以清楚地獲得完整的過去和未來上下文信息。因此,BiLSTM模型可以更好地捕捉古漢語文本中上下文體現(xiàn)的語義依賴。在分詞任務(wù)中,該模型能夠關(guān)注各種附帶語義特征的詞匯之間的相互關(guān)聯(lián),此特點(diǎn)在應(yīng)對(duì)古漢語上下文信息較離散的情況時(shí)優(yōu)勢明顯。

BERT模型是基于Transformer的大規(guī)模預(yù)訓(xùn)練語言模型,該模型可以獨(dú)立地在各個(gè)大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后針對(duì)特定的領(lǐng)域以及任務(wù)進(jìn)行微調(diào),使其適用最終的目標(biāo)任務(wù),這些顯著的特點(diǎn)在應(yīng)對(duì)古漢語較為復(fù)雜多變的句式、語法、詞匯情況時(shí)表現(xiàn)更優(yōu)。使用BERT模型進(jìn)行古漢語分詞主要有以下幾種范式:在預(yù)訓(xùn)練階段融合古漢語詞匯特征的神經(jīng)網(wǎng)絡(luò)模型;或者利用已有模型針對(duì)古漢語分詞任務(wù)的語料進(jìn)行微調(diào)。

(二)融合特征的神經(jīng)網(wǎng)絡(luò)模型

古漢語分詞的預(yù)訓(xùn)練通常以字詞的語義、偏旁、注音、注解等為基本單位。HAN等[22]提出了將字根融入BiLSTM-CRF模型的古文處理方法,其通過對(duì)古文字符和對(duì)應(yīng)的字根分別進(jìn)行字向量的訓(xùn)練,在唐代墓志銘測試語料上實(shí)驗(yàn)得到81.34%的F1值。除了字本身信息外,位置信息和外部知識(shí)庫也被研究人員嘗試使用,為了解決訓(xùn)練集中未登錄詞問題,研究者嘗試引入外部知識(shí)庫與深度學(xué)習(xí)相結(jié)合。在此之上的改進(jìn)方案可進(jìn)一步包括引入注意力機(jī)制或外部知識(shí),如詞典、拼音、字根等。Zhang等[23]融入詞典外部知識(shí)之后,將分詞準(zhǔn)確率提升了2%左右。

值得注意的是基于深度學(xué)習(xí)模型的分詞效果與訓(xùn)練集的質(zhì)量呈正相關(guān),古文語料處理、人工標(biāo)注與計(jì)算機(jī)輔助標(biāo)注的訓(xùn)練集對(duì)古漢語分詞效果影響較大,但是目前正缺乏大規(guī)模純凈的古文數(shù)據(jù)集。

(三)預(yù)訓(xùn)練和后處理方式

預(yù)訓(xùn)練和后處理方式指在已有預(yù)訓(xùn)練模型之上融入指定特征,微調(diào)模型參數(shù)或重新訓(xùn)練的過程。其優(yōu)勢之一在于可以靈活根據(jù)領(lǐng)域需要加入訓(xùn)練特征。Ma等[24]基于深度學(xué)習(xí)的預(yù)訓(xùn)練、超參調(diào)優(yōu),僅使用一個(gè)簡單的Bi-LSTM模型,使得分詞準(zhǔn)確率平均提升0.78%,通過錯(cuò)誤分析發(fā)現(xiàn)2/3的錯(cuò)誤來自未登錄詞。程寧、李斌等[25]以BERT作為模型輸入,后接Bi-LSTM對(duì)古文進(jìn)行特征提取,在輸出層接入CRF構(gòu)建出了適用于古文詞法分析架構(gòu)模型,在《左傳》《夢溪筆談》《閱微草堂筆記》《清史稿》等語料中進(jìn)行古漢語分詞實(shí)驗(yàn),F(xiàn)1值達(dá)到85.73%。俞敬松、魏一等[26]將非參數(shù)貝葉斯模型與BERT模型結(jié)合,通過實(shí)驗(yàn)給出了一種無監(jiān)督多階段迭代的訓(xùn)練分詞框架,在數(shù)據(jù)集上實(shí)驗(yàn)F1值達(dá)到95.32%。

目前面向古漢語的預(yù)訓(xùn)練模型多是基于通用語料訓(xùn)練,在遷移到特定領(lǐng)域的文本時(shí)效果有限,難以達(dá)到在通用語料上的性能水準(zhǔn)。為解決此問題,通過將古漢語相關(guān)知識(shí)加入神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)綜合任務(wù)模型的做法逐漸顯示出優(yōu)勢。

在古漢語領(lǐng)域,構(gòu)建高質(zhì)量無監(jiān)督古文數(shù)據(jù)集,訓(xùn)練面向古文自然語言處理任務(wù)的預(yù)訓(xùn)練模型,對(duì)高效開展古文信息處理下游任務(wù)研究具有重要意義。胡韌奮、李紳、諸雨辰[27]將BERT模型融入文本的語義和語音信息進(jìn)行古漢語知識(shí)表示,在近8億字的《四庫全書》語料上進(jìn)行訓(xùn)練,實(shí)現(xiàn)了自動(dòng)斷句模型,在詩、詞、古文上的F1值分別達(dá)到99%、95%和92%。

關(guān)注到GuwenBERT模型將BERT遷移至古漢語時(shí),由于語料規(guī)模、簡繁轉(zhuǎn)換等因素的限制,效果有限。王東波、劉暢、朱子赫等[28]將基于深層語言模型的古漢語知識(shí)表示方法引入到古漢語的處理中以適用復(fù)雜的古漢語表達(dá)習(xí)慣,基于BERT模型對(duì)《四庫全書》語料進(jìn)行預(yù)訓(xùn)練,設(shè)計(jì)了面向《左傳》語料的古文自動(dòng)分詞、斷句標(biāo)點(diǎn)、詞性標(biāo)注和命名實(shí)體識(shí)別4個(gè)下游任務(wù)。經(jīng)過實(shí)驗(yàn),其所設(shè)計(jì)的預(yù)訓(xùn)練模型SikuBERT和SikuRoBERTa在全部4個(gè)下游任務(wù)中的表現(xiàn)均超越其他預(yù)訓(xùn)練模型,體現(xiàn)了該預(yù)訓(xùn)練模型具有較強(qiáng)的學(xué)習(xí)能力和泛化能力。表3展示了近幾年結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型的漢語處理方法。

表3 結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型的漢語處理方法

五、研究展望

基于深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)訓(xùn)練技術(shù)在面向較為復(fù)雜的古漢語時(shí)顯示出了較大的優(yōu)勢,將深度學(xué)習(xí)技術(shù)與古漢語處理深度融合必然是未來的發(fā)展趨勢。但是還應(yīng)看到,目前在深度神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行訓(xùn)練的古漢語文本大多屬于通行領(lǐng)域,當(dāng)面向特殊領(lǐng)域時(shí),效果可能會(huì)降低;而且古漢語分詞語料是制約技術(shù)發(fā)展的因素之一,因此,未來古漢語自動(dòng)分詞研究還需要著力于以下三個(gè)方面:

(一)擴(kuò)充古漢語分詞語料數(shù)據(jù)量

目前古漢語領(lǐng)域公開可用的標(biāo)注集和評(píng)測集極少且覆蓋面也不廣,語料的缺乏導(dǎo)致通用模型的適應(yīng)性存在嚴(yán)重局限,因而,亟待擴(kuò)充古漢語分詞語料的數(shù)據(jù)量,同時(shí)在此基礎(chǔ)上加大力度進(jìn)行大規(guī)模古漢語形式化知識(shí)庫的建設(shè)。

(二)構(gòu)建適應(yīng)不同領(lǐng)域的古漢語分詞模型

當(dāng)前在通行領(lǐng)域文本上訓(xùn)練的古漢語分詞模型表現(xiàn)出了較好的效果,但是精度難以進(jìn)一步提升,而且在面向特殊領(lǐng)域文本時(shí)效果有限,因此,需要考慮到古漢語不同的文本特征,利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建適應(yīng)不同領(lǐng)域的古漢語分詞模型。

(三)開發(fā)一體化模型

忽略古漢語處理各子任務(wù)間的關(guān)聯(lián),單一進(jìn)行子任務(wù)研究,所用的管道模型存在錯(cuò)誤傳播和模型間信息共享不暢的問題。因此,同時(shí)處理各子任務(wù)的聯(lián)合模型也是未來研究方向之一,如開發(fā)集成自動(dòng)分詞、自動(dòng)句讀、古文相似度計(jì)算、古文知識(shí)圖譜一體的模型。

古漢語自動(dòng)分詞技術(shù)直接關(guān)乎機(jī)輔漢語史研究的深入程度。在充分關(guān)注古漢語本體特征的前提下,借助先進(jìn)的預(yù)訓(xùn)練模型,不斷提升古漢語自動(dòng)分詞能力,不管對(duì)于漢語史研究還是計(jì)算機(jī)工程技術(shù)的發(fā)展而言,無疑都具有積極地探索性作用。

猜你喜歡
古漢語分詞語料
古漢語疑問句末“為”字補(bǔ)證
結(jié)巴分詞在詞云中的應(yīng)用
上古漢語“施”字音義考
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
值得重視的分詞的特殊用法
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
談?wù)劰艥h語的翻譯
語言與翻譯(2014年1期)2014-07-10 13:06:11
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
古漢語中表反問的一組能愿動(dòng)詞
孝感市| 临西县| 双柏县| 道真| 新和县| 奇台县| 东山县| 都兰县| 凭祥市| 牡丹江市| 渝北区| 博客| 房山区| 靖安县| 壤塘县| 蒲城县| 乐东| 连山| 云和县| 沈阳市| 宁安市| 佳木斯市| 集贤县| 丹凤县| 都江堰市| 竹溪县| 昌黎县| 云梦县| 景宁| 湖北省| 平山县| 仪征市| 巫山县| 岫岩| 安阳市| 大兴区| 太和县| 孟州市| 富顺县| 云浮市| 谷城县|