国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

古漢語(yǔ)NLP研究現(xiàn)狀綜述(2009—2024)

2024-09-19 00:00:00勞斌彭瑤呂薇植思喆
現(xiàn)代信息科技 2024年13期

摘 要:文章綜述了古漢語(yǔ)自然語(yǔ)言處理(NLP)領(lǐng)域的研究現(xiàn)狀,特別是下游任務(wù)方面的進(jìn)展。通過(guò)分析2009年至2024年的23篇相關(guān)論文,文章指出古漢語(yǔ)NLP面臨的挑戰(zhàn),并探討了包括斷句與標(biāo)點(diǎn)、分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等任務(wù)的研究方法和成果。研究發(fā)現(xiàn),盡管古漢語(yǔ)與現(xiàn)代漢語(yǔ)在NLP任務(wù)上存在差異,但深度學(xué)習(xí)等技術(shù)的發(fā)展為古漢語(yǔ)文本處理提供了新途徑。文章還討論了多任務(wù)一體化研究的潛力,并對(duì)未來(lái)發(fā)展趨勢(shì)進(jìn)行了展望,強(qiáng)調(diào)了構(gòu)建結(jié)構(gòu)化數(shù)據(jù)集的重要性和對(duì)領(lǐng)域發(fā)展的促進(jìn)作用。

關(guān)鍵詞:古漢語(yǔ);自然語(yǔ)言處理;下游任務(wù);研究現(xiàn)狀綜述

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)13-0146-06

The Overview of Research Status for NLP Research in Ancient Chinese (2009-2024)

LAO Bin1, PENG Yao1, LYU Wei2, ZHI Sizhe1

(1.School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou 510006, China; 2.School of Foreign Languages, Sun Yat-Sen University, Guangzhou 510275, China)

Abstract: This paper provides an overview of the current research status in the field of Natural Language Processing (NLP) of ancient Chinese, especially the progress in downstream tasks. By analyzing 23 relevant papers from 2009 to 2024, the paper points out the challenges faced by NLP in ancient Chinese and explores research methods and achievements including sentence breaks and punctuation, word segmentation, part of speech tagging, named entity recognition, and other tasks. The research finds that although there are differences in NLP tasks between ancient and modern Chinese, the development of technologies such as Deep Learning has provided new avenues for ancient Chinese text processing. This paper also discusses the potential of multi-task integration research and looks forward to future development trends, emphasizing the importance of constructing structured datasets and their promoting role in domain development.

Keywords: ancient Chinese; natural language processing; downstream task; overview of research status

0 引 言

隨著自然語(yǔ)言處理(NLP)技術(shù)的持續(xù)進(jìn)步,其研究視野逐漸擴(kuò)展至古漢語(yǔ)這一中文語(yǔ)言的重要組成部分。古漢語(yǔ)作為中國(guó)傳統(tǒng)文化的精華,蘊(yùn)含了深厚的歷史、文化與哲學(xué)價(jià)值,對(duì)其的研究不僅具有學(xué)術(shù)意義,也對(duì)傳承和弘揚(yáng)中華文化具有重要作用。盡管古漢語(yǔ)與現(xiàn)代漢語(yǔ)存在顯著差異,帶來(lái)了諸多研究挑戰(zhàn),但近年來(lái)NLP技術(shù)的發(fā)展為古漢語(yǔ)的研究提供了新的視角和方法。本文旨在全面綜述古漢語(yǔ)NLP領(lǐng)域的最新研究進(jìn)展,特別是下游任務(wù)方面的成果,以期為研究人員提供有價(jià)值的信息和啟示。

通過(guò)在中國(guó)知網(wǎng)中使用“古漢語(yǔ)”及“分詞、詞性標(biāo)注、命名實(shí)體識(shí)別”等下游任務(wù)作為關(guān)鍵詞進(jìn)行檢索,文章收集了跨度從2009年至2024年的相關(guān)文獻(xiàn)。經(jīng)過(guò)精心篩選,共納入23篇論文,并依據(jù)不同的下游任務(wù)對(duì)這些論文進(jìn)行分類(lèi)。文章首先對(duì)古漢語(yǔ)NLP的研究現(xiàn)狀進(jìn)行概述,然后基于發(fā)表年份和各類(lèi)任務(wù)的論文占比兩個(gè)維度對(duì)收集的論文進(jìn)行分析,并探討其背后的原因。最后,文章總結(jié)了古漢語(yǔ)NLP領(lǐng)域的現(xiàn)狀和面臨的挑戰(zhàn),并對(duì)其未來(lái)的發(fā)展方向提出展望,旨在為該領(lǐng)域的持續(xù)進(jìn)步貢獻(xiàn)力量。

1 古漢語(yǔ)NLP領(lǐng)域的研究現(xiàn)狀

與現(xiàn)代漢語(yǔ)的下游任務(wù)相比,古漢語(yǔ)領(lǐng)域自然語(yǔ)言處理的下游任務(wù)與現(xiàn)代漢語(yǔ)基本相似。但由于古漢語(yǔ)與現(xiàn)代漢語(yǔ)存在著一些區(qū)別,如語(yǔ)言形式不同、語(yǔ)料庫(kù)難以獲取、字義歧義較多、文化背景不同等原因,因此在古漢語(yǔ)NLP領(lǐng)域的具體實(shí)現(xiàn)過(guò)程中存在一定的差異。在現(xiàn)代漢語(yǔ)NLP領(lǐng)域中,下游任務(wù)包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、句法分析、情感分析、文本分類(lèi)、文本摘要、機(jī)器翻譯等。而在古漢語(yǔ)NLP領(lǐng)域中,同樣也存在這些下游任務(wù)。但是,相比現(xiàn)代漢語(yǔ),古漢語(yǔ)則多出了一項(xiàng)下游任務(wù),即古文斷句與標(biāo)點(diǎn)。下文按照古漢語(yǔ)NLP研究的先后順序展開(kāi)說(shuō)明。

1.1 古漢語(yǔ)斷句與標(biāo)點(diǎn)

古漢語(yǔ)與現(xiàn)代漢語(yǔ)在句子結(jié)構(gòu)和標(biāo)點(diǎn)使用上存在差異。古漢語(yǔ)依賴(lài)口頭傳承,文學(xué)作品多用于朗誦,故標(biāo)點(diǎn)使用較少,常采用主題述補(bǔ)結(jié)構(gòu),有時(shí)文字間無(wú)間隔?,F(xiàn)代漢語(yǔ)則廣泛應(yīng)用標(biāo)點(diǎn)符號(hào),注重語(yǔ)法和意義的精確表達(dá)。盡管如此,古代漢語(yǔ)也有類(lèi)似頓號(hào)、句號(hào)等標(biāo)點(diǎn),以及主謂賓、并列和復(fù)合等結(jié)構(gòu)。這些差異主要源于不同的語(yǔ)言使用環(huán)境和需求,給后續(xù)的文本分析和理解帶來(lái)了挑戰(zhàn)。為了提升文本處理的效率和準(zhǔn)確性,研究人員在處理古漢語(yǔ)的下游任務(wù)中添加了斷句和標(biāo)點(diǎn)這一項(xiàng)任務(wù)。

在古漢語(yǔ)短句與標(biāo)點(diǎn)方面的研究中,胡韌奮等人[1]在其研究中強(qiáng)調(diào)斷句過(guò)程中需綜合語(yǔ)義、語(yǔ)境及歷史文化等因素,提出了一種基于BERT預(yù)訓(xùn)練模型(BERT模型的經(jīng)典結(jié)構(gòu)如圖1所示)的古漢語(yǔ)知識(shí)表示方法,并結(jié)合條件隨機(jī)場(chǎng)和卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)了高精度的自動(dòng)斷句模型。王倩等人[2]利用《四庫(kù)全書(shū)》作為語(yǔ)料庫(kù),建立了一套標(biāo)注體系,并通過(guò)構(gòu)建基于BERT-LSTM-CRF和多特征LSTM-CRF的層疊深度學(xué)習(xí)模型,實(shí)現(xiàn)了古漢語(yǔ)的自動(dòng)斷句與標(biāo)點(diǎn)。張開(kāi)旭等人[3]引入互信息和t檢驗(yàn)作為特征,提出了一種基于條件隨機(jī)場(chǎng)(CRF)的古漢語(yǔ)自動(dòng)斷句與標(biāo)點(diǎn)方法。并通過(guò)在《論語(yǔ)》和《史記》上的實(shí)驗(yàn)表明,CRF方法能有效處理古文自動(dòng)標(biāo)點(diǎn)問(wèn)題,且層疊CRF策略?xún)?yōu)于單層策略。

1.2 古漢語(yǔ)分詞

中文分詞是中文自然語(yǔ)言處理中的核心環(huán)節(jié),其目的是將連續(xù)的文本切分成有意義的詞或短語(yǔ)。與現(xiàn)代漢語(yǔ)分詞任務(wù)相似,但古漢語(yǔ)具有其特殊性:古漢語(yǔ)中的詞語(yǔ)多由單字或多字組成,每個(gè)字均承載特定含義。因此,在執(zhí)行古漢語(yǔ)分詞時(shí),必須細(xì)致考量每個(gè)字的內(nèi)在含義及其在文本中的關(guān)系。舉例說(shuō)明,現(xiàn)代漢語(yǔ)中的“可以”通常作為一個(gè)詞,表示允許或可能;然而,在古漢語(yǔ)中,“可”與“以”是兩個(gè)獨(dú)立的文字,各自代表“能夠”和“依靠”的意思,合在一起才構(gòu)成“可以憑借”的含義。這一差異意味著,在現(xiàn)代漢語(yǔ)分詞中,“可以”可能被視為一個(gè)單一詞匯,但在古漢語(yǔ)分詞中,則需將其拆分為“可”和“以”兩個(gè)獨(dú)立的字。因此,古漢語(yǔ)分詞任務(wù)要求對(duì)文本進(jìn)行更為細(xì)致的語(yǔ)義和結(jié)構(gòu)分析。主要的分詞方法包括基于詞典、基于統(tǒng)計(jì)和基于理解的分詞?;谠~典的方法依賴(lài)于預(yù)設(shè)的詞匯庫(kù),通過(guò)正向、逆向或雙向匹配,并采用最大匹配、最小匹配或最佳匹配策略,以實(shí)現(xiàn)快速分詞,但需注意歧義處理?;诮y(tǒng)計(jì)的分詞則通過(guò)大量標(biāo)注數(shù)據(jù)訓(xùn)練模型,擅長(zhǎng)識(shí)別未知詞和處理歧義,但該方法計(jì)算成本較高,速度較慢。而基于理解的分詞進(jìn)一步結(jié)合了詞典、統(tǒng)計(jì)信息和深層語(yǔ)義分析,以獲得更高的準(zhǔn)確度,但相應(yīng)地,它在處理速度和計(jì)算資源上有更高的要求。在實(shí)際應(yīng)用中,選擇哪種分詞算法需根據(jù)具體任務(wù)的需求和可用資源來(lái)決定。

在古漢語(yǔ)分詞研究方面,石民等研究者[4]專(zhuān)注于先秦文獻(xiàn),尤其是《左傳》的分詞與詞性標(biāo)注研究,他們通過(guò)條件隨機(jī)場(chǎng)模型對(duì)《左傳》進(jìn)行了一體化的自動(dòng)分詞、詞性標(biāo)注及分詞標(biāo)注實(shí)驗(yàn),發(fā)現(xiàn)一體化分詞在準(zhǔn)確率和召回率上優(yōu)于單獨(dú)分詞方法。高毅[5]探討了古漢語(yǔ)自然語(yǔ)言處理技術(shù)發(fā)展緩慢的問(wèn)題,并提出了一種基于雙向最大匹配法則和專(zhuān)門(mén)訓(xùn)練的古漢語(yǔ)語(yǔ)料庫(kù)的BERT模型,用于自動(dòng)分詞。唐俊等人[6]設(shè)計(jì)了一種針對(duì)古漢語(yǔ)的BERT預(yù)訓(xùn)練模型即SikuBert-CNN-CRF模型,該模型通過(guò)領(lǐng)域適應(yīng)訓(xùn)練,使用大量古文語(yǔ)料進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,并結(jié)合多層CNN和條件隨機(jī)場(chǎng)(CRF)進(jìn)行古漢語(yǔ)分詞,在實(shí)驗(yàn)中展現(xiàn)出較強(qiáng)的處理能力和泛化性。魏一[7]在其研究中提出一種基于大量古漢語(yǔ)語(yǔ)料的預(yù)訓(xùn)練模型,有效解決了句讀和分詞問(wèn)題,還引入滑動(dòng)窗口法處理連續(xù)文本,并結(jié)合無(wú)指導(dǎo)預(yù)訓(xùn)練BERT模型,實(shí)現(xiàn)了超越傳統(tǒng)機(jī)器學(xué)習(xí)方法的泛化性能。刑付貴等人[8]通過(guò)整合在線(xiàn)古漢語(yǔ)資料,創(chuàng)建了一個(gè)含349 740個(gè)詞匯的古文詞典CCIDict,在對(duì)比測(cè)試中,基于此詞典的分詞算法比現(xiàn)有的甲言分詞器在F值上提升了14%,驗(yàn)證了大型語(yǔ)料庫(kù)構(gòu)建的詞典對(duì)提高古文分詞準(zhǔn)確性的效用。常博林等人[9]提出了一種融合部首信息的古漢語(yǔ)分詞與詞性標(biāo)注模型,利用Radical2Vector生成部首向量,并結(jié)合SikuRoBERTa模型,通過(guò)BiLSTM-CRF結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)。唐雪梅等人[10]提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的分詞框架,該框架整合預(yù)訓(xùn)練語(yǔ)言模型與圖卷積網(wǎng)絡(luò),引入外部知識(shí)以提升分詞效果。楊世超[11]對(duì)古漢語(yǔ)的詞性和用法特征進(jìn)行了細(xì)致分析,并據(jù)此創(chuàng)建了一套專(zhuān)門(mén)的詞性標(biāo)記系統(tǒng)。通過(guò)應(yīng)用分布式假說(shuō)理論,他實(shí)現(xiàn)了將古漢語(yǔ)文本轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別和處理的字詞向量表示,此外,他還設(shè)計(jì)了一個(gè)高效的計(jì)算模型,顯著提高了古漢語(yǔ)分詞和詞性標(biāo)注任務(wù)的性能。王曉玉等人[12]通過(guò)結(jié)合CRFs模型與詞典,針對(duì)中古漢語(yǔ)分詞效率和一致性進(jìn)行研究,優(yōu)化了適用于史書(shū)、佛經(jīng)、小說(shuō)等語(yǔ)料的分詞策略,并引入了字符分類(lèi)與字典信息特征以提升分詞性能。

1.3 古漢語(yǔ)詞性標(biāo)注

古漢語(yǔ)詞性標(biāo)注是將古漢語(yǔ)中的詞匯按照其語(yǔ)法功能進(jìn)行分類(lèi)的過(guò)程,對(duì)于文本的正確解讀和翻譯具有基礎(chǔ)性的重要性。鑒于古漢語(yǔ)中單個(gè)字可能承載多重詞性,準(zhǔn)確的詞性標(biāo)注顯得尤為關(guān)鍵。古漢語(yǔ)的詞性體系包括名詞、動(dòng)詞、形容詞、副詞、介詞等基本類(lèi)別,其中名詞用于指代人、物或概念,動(dòng)詞表達(dá)行為或狀態(tài)的變遷,形容詞描述特性或?qū)傩?,副詞對(duì)動(dòng)詞或形容詞進(jìn)行修飾,而介詞則負(fù)責(zé)連接句子中的各個(gè)成分。此外,古漢語(yǔ)中還包含特殊的助動(dòng)詞和虛詞,如“之”“乎”“矣”等,它們用于表達(dá)肯定或否定的意義,而“了”“著”等助動(dòng)詞則指示動(dòng)作的完成或持續(xù)狀態(tài)。這些詞性的準(zhǔn)確識(shí)別對(duì)于深入理解古漢語(yǔ)文本結(jié)構(gòu)和語(yǔ)義具有不可或缺的作用。

目前在詞性標(biāo)注集方面,現(xiàn)代漢語(yǔ)的詞性標(biāo)注集較為常見(jiàn),如表1所示。

盡管現(xiàn)代漢語(yǔ)的詞性標(biāo)注集種類(lèi)繁多,但它們并不適用于古漢語(yǔ)的詞性標(biāo)注任務(wù)。在廣泛文獻(xiàn)回顧的基礎(chǔ)上,石民等人在2010年發(fā)表的論文《基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究》中提出了一套較為適宜的古漢語(yǔ)詞性標(biāo)注體系。近期,鄭童哲恒等人[13]針對(duì)上古時(shí)期古籍的計(jì)算處理,也制定了一套古漢語(yǔ)分詞與詞性標(biāo)注規(guī)范,以應(yīng)對(duì)研究不足和標(biāo)注規(guī)范缺失的問(wèn)題,該規(guī)范涵蓋7個(gè)分詞原則、3個(gè)詞性標(biāo)注原則,并定義了14個(gè)一級(jí)詞類(lèi)與15個(gè)二級(jí)詞類(lèi),配備了詳細(xì)的標(biāo)注示例。

在古漢語(yǔ)詞性標(biāo)注研究中,陳火龍[14]在其研究中針對(duì)古漢語(yǔ)虛詞詞性標(biāo)注問(wèn)題,構(gòu)建并擴(kuò)充了虛詞數(shù)據(jù)集,并利用Bi-LSTM-CRF模型開(kāi)發(fā)了一個(gè)標(biāo)注系統(tǒng)。楊新生等人[15]提出了一種融合隱馬爾可夫模型和維特比算法的古漢語(yǔ)詞性標(biāo)注方法,并開(kāi)發(fā)了專(zhuān)用標(biāo)記集,該方法改進(jìn)了傳統(tǒng)流程,顯著提高了標(biāo)注準(zhǔn)確率,包括對(duì)未登錄詞的有效識(shí)別。

1.4 古漢語(yǔ)詞法分析

古漢語(yǔ)句法分析旨在解析古漢語(yǔ)文本的語(yǔ)法結(jié)構(gòu)及其成分間的關(guān)系。鑒于古漢語(yǔ)的特殊性,如文化背景和表達(dá)習(xí)慣的差異,句法分析面臨諸多挑戰(zhàn),包括詞序變化、省略、重復(fù)和修飾等復(fù)雜現(xiàn)象,這些都需要綜合上下文信息以準(zhǔn)確解讀。目前,古漢語(yǔ)句法分析主要采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),包括隱馬爾可夫模型(HMM)、條件隨機(jī)場(chǎng)(CRF)、最大熵馬爾可夫模型(MEMM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。除此之外,規(guī)則基礎(chǔ)、圖論和統(tǒng)計(jì)語(yǔ)言模型等技術(shù)也被應(yīng)用于句法分析。然而,這些方法在處理特定領(lǐng)域或文本類(lèi)型的語(yǔ)料庫(kù)時(shí)可能存在局限,因此,需根據(jù)具體任務(wù)和需求選擇合適的分析方法。

在古漢語(yǔ)詞法分析中,程寧等人[16]在其論文中探討了未經(jīng)標(biāo)點(diǎn)斷句的古漢語(yǔ)文本在進(jìn)行詞法分析時(shí)可能遇到的多級(jí)錯(cuò)誤傳播問(wèn)題,并提出了一種基于BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)的一體化標(biāo)注方法,通過(guò)在四個(gè)不同時(shí)代的測(cè)試集上進(jìn)行實(shí)驗(yàn),他們驗(yàn)證了該方法在古漢語(yǔ)斷句、分詞和詞性標(biāo)注任務(wù)上的有效性。

1.5 古漢語(yǔ)命名實(shí)體識(shí)別

古漢語(yǔ)命名實(shí)體識(shí)別技術(shù)旨在自動(dòng)識(shí)別古代文本中的人名、地名和機(jī)構(gòu)名等特定實(shí)體。鑒于古代漢字的命名特點(diǎn),該技術(shù)通常結(jié)合規(guī)則和統(tǒng)計(jì)學(xué)方法進(jìn)行實(shí)體初步識(shí)別與結(jié)果優(yōu)化。規(guī)則方法用于識(shí)別常見(jiàn)部首和字詞組合,而統(tǒng)計(jì)學(xué)方法用于處理不常見(jiàn)的組合和歧義糾錯(cuò),同時(shí),需考慮上下文信息和構(gòu)建知識(shí)庫(kù)以輔助實(shí)體的準(zhǔn)確識(shí)別。這些方法的選擇和應(yīng)用需根據(jù)具體場(chǎng)景和需求來(lái)定。

由于古漢語(yǔ)命名實(shí)體識(shí)別具有很強(qiáng)的歷史文化價(jià)值和應(yīng)用前景,在自然語(yǔ)言處理領(lǐng)域得到了較為廣泛的關(guān)注和研究。崔丹丹等人[17]提出了一種基于Lattice-LSTM并結(jié)合了字符和詞序列信息的古漢語(yǔ)命名實(shí)體識(shí)別算法,并使用甲言分詞工具與Word2Vec優(yōu)化字詞向量,相較于BiLSTM-CRF模型,識(shí)別效果有所提升。陳雪松等人[18]也發(fā)表了一種結(jié)合SikuBERT與MHA的方法,旨在解決傳統(tǒng)方法在處理古漢語(yǔ)復(fù)雜結(jié)構(gòu)和長(zhǎng)序列特征時(shí)的信息損失問(wèn)題。詹子依[19]則探討了古漢語(yǔ)知識(shí)點(diǎn)自動(dòng)化標(biāo)注,提出了改進(jìn)傳統(tǒng)命名實(shí)體識(shí)別的新方法,結(jié)合SikuBERT和多頭注意力機(jī)制,以及字詞信息融合策略。李靖[20]在其研究中提出m5W9hd6NOXRohGVEc7KU3noYtGMVqVO37Otmcl4o5Zk=了SLFFN和MFFN兩種模型,旨在提高古漢語(yǔ)命名實(shí)體識(shí)別的性能并減少標(biāo)注成本。SLFFN模型融合了字-詞和字結(jié)構(gòu)特征,而MFFN模型在此基礎(chǔ)上增加了字讀音特征,兩者均有效提升了實(shí)體識(shí)別的準(zhǔn)確性。吳夢(mèng)成等人[21]致力于挖掘先秦典籍中的植物知識(shí),通過(guò)細(xì)致的植物詞標(biāo)注和分析,開(kāi)發(fā)了基于CRF和深度學(xué)習(xí)的古漢語(yǔ)植物命名實(shí)體識(shí)別模型,旨在豐富對(duì)古代社會(huì)生活的認(rèn)識(shí)。

1.6 古漢語(yǔ)機(jī)器翻譯

古漢語(yǔ)機(jī)器翻譯旨在將古代漢語(yǔ)轉(zhuǎn)換為現(xiàn)代漢語(yǔ)或其他語(yǔ)言,面臨形態(tài)、用法及含義差異等挑戰(zhàn)。該領(lǐng)域主要采用結(jié)合規(guī)則和統(tǒng)計(jì)學(xué)方法,以及新興的深度學(xué)習(xí)技術(shù)?;谝?guī)則的方法依賴(lài)專(zhuān)家規(guī)則庫(kù),具有高可解釋性但覆蓋面有限;統(tǒng)計(jì)學(xué)方法通過(guò)學(xué)習(xí)平行文本概率模型實(shí)現(xiàn)翻譯,能自動(dòng)學(xué)習(xí)但存在不確定性;深度學(xué)習(xí)方法使用神經(jīng)網(wǎng)絡(luò)處理復(fù)雜語(yǔ)言任務(wù),盡管需要大量數(shù)據(jù)和計(jì)算資源,模型解釋性有限,但已取得進(jìn)展并有望促進(jìn)文化遺產(chǎn)保護(hù)和歷史研究。

在古漢語(yǔ)翻譯成現(xiàn)代漢語(yǔ)的相關(guān)研究中,韓芳等人[22]開(kāi)發(fā)了針對(duì)古漢語(yǔ)的詞典模型,并整合了黎錦熙提出的句本位句法規(guī)則以構(gòu)建知識(shí)庫(kù),同時(shí)應(yīng)用詞義消歧算法,致力于古漢語(yǔ)的機(jī)器翻譯研究。

1.7 古詩(shī)詞與古文生成

在調(diào)研的過(guò)程中,我們還注意到了一個(gè)引人入勝的領(lǐng)域——古詩(shī)詞及古文的自動(dòng)生成。這一領(lǐng)域利用人工智能技術(shù),通過(guò)模擬古代詩(shī)人的創(chuàng)作手法,開(kāi)發(fā)出能夠自動(dòng)生成遵循古典文學(xué)規(guī)范和形式的古詩(shī)文的自然語(yǔ)言處理應(yīng)用。

其中,劉江峰等人[23]在其研究中針對(duì)古詩(shī)詞自動(dòng)生成問(wèn)題,采用繁體《四庫(kù)全書(shū)》及古詩(shī)詞語(yǔ)料對(duì)gpt2-chinese-cluecorpussmall模型進(jìn)行預(yù)訓(xùn)練,構(gòu)建了SikuGPT2和SikuGPT2-poem模型。實(shí)驗(yàn)顯示,SikuGPT2-poem在生成古詩(shī)方面取得了較低困惑度和更高BLEU評(píng)分,且人工評(píng)分優(yōu)于基準(zhǔn)模型。盡管模型通過(guò)圖靈測(cè)試表現(xiàn)良好,但受限于預(yù)訓(xùn)練語(yǔ)料的規(guī)模,對(duì)賦、曲等體裁的適應(yīng)性仍有待提高。

1.8 研究總結(jié)

在自然語(yǔ)言處理(NLP)的領(lǐng)域中,古漢語(yǔ)與現(xiàn)代漢語(yǔ)的比較研究由于其復(fù)雜性和邊緣性,目前尚未成為研究的主流。因此,該領(lǐng)域各個(gè)下游任務(wù)的論文相對(duì)較少,難以直接比較優(yōu)劣。導(dǎo)致這一現(xiàn)象的原因包括古漢語(yǔ)與現(xiàn)代漢語(yǔ)在語(yǔ)法、詞匯和句式上的顯著差異,這為直接比較分析帶來(lái)了挑戰(zhàn)。此外,古漢語(yǔ)的語(yǔ)料庫(kù)不僅規(guī)模較小,而且難以獲取高質(zhì)量的標(biāo)注數(shù)據(jù),這對(duì)機(jī)器學(xué)習(xí)模型的訓(xùn)練和驗(yàn)證構(gòu)成了障礙。盡管現(xiàn)代漢語(yǔ)作為活語(yǔ)言在社會(huì)、文化、經(jīng)濟(jì)等多個(gè)領(lǐng)域中應(yīng)用廣泛,吸引了大量的研究興趣和資源,但古漢語(yǔ)的NLP技術(shù)發(fā)展還處于初級(jí)階段。古漢語(yǔ)研究需要語(yǔ)言學(xué)家、歷史學(xué)家和計(jì)算機(jī)科學(xué)家等多學(xué)科專(zhuān)家的合作,這種跨學(xué)科合作的難度較大。同時(shí),NLP的下游任務(wù)在古漢語(yǔ)上的應(yīng)用研究還不成熟,缺乏足夠的實(shí)證研究來(lái)評(píng)估其效果。古漢語(yǔ)文本所蘊(yùn)含的深厚文化內(nèi)涵和歷史背景,也給現(xiàn)代技術(shù)理解和處理這些文本帶來(lái)了障礙。盡管面臨諸多困難,古漢語(yǔ)與現(xiàn)代漢語(yǔ)的比較研究具有重要的學(xué)術(shù)價(jià)值和潛在的應(yīng)用前景,隨著技術(shù)的進(jìn)步和跨學(xué)科合作的深入,未來(lái)有望產(chǎn)生更多高質(zhì)量的研究成果。

2 分析與評(píng)述

本章根據(jù)收集到的文獻(xiàn)從兩個(gè)維度進(jìn)行整理,分別是相關(guān)論文歷年發(fā)表數(shù)量和各個(gè)下游任務(wù)的論文占比。以下將從這兩個(gè)維度進(jìn)行詳細(xì)分析。

2.1 相關(guān)論文歷年發(fā)表數(shù)量

相關(guān)論文的發(fā)表年份與發(fā)表數(shù)量的關(guān)系如圖2所示。通過(guò)分析圖2所示的柱狀圖,可以清晰地看到古漢語(yǔ)與自然語(yǔ)言處理下游任務(wù)相關(guān)研究論文的發(fā)表趨勢(shì)隨時(shí)間的變化情況。在該柱狀圖中,橫軸代表發(fā)表年份,縱軸代表論文發(fā)表數(shù)量,數(shù)據(jù)按非連續(xù)的年份進(jìn)行展示。從圖中可以明顯觀(guān)察到,在2020年之前,相關(guān)領(lǐng)域的論文發(fā)表數(shù)量較為有限。然而,進(jìn)入2020年,這一領(lǐng)域的研究論文發(fā)表量開(kāi)始急劇上升,與2009至2019年這十年間相比,研究的熱度和成果產(chǎn)出顯著增加。

圖2 相關(guān)論文歷年發(fā)表數(shù)量

這一顯著的增長(zhǎng)趨勢(shì)可以歸因于多個(gè)因素。首先,技術(shù)的進(jìn)步尤其是深度學(xué)習(xí)和大數(shù)據(jù)技術(shù)的發(fā)展,為古漢語(yǔ)文本的處理提供了強(qiáng)大的技術(shù)支持,這些技術(shù)的發(fā)展極大地提高了研究者處理古漢語(yǔ)文本的能力,使得研究工作更為深入和精確;其次,隨著數(shù)字化進(jìn)程的加速,大量古漢語(yǔ)文獻(xiàn)被數(shù)字化并公開(kāi),為自然語(yǔ)言處理模型的訓(xùn)練和測(cè)試提供了豐富的數(shù)據(jù)資源,從而推動(dòng)了研究工作的深入;最后,跨學(xué)科合作的興起也為古漢語(yǔ)智能處理研究帶來(lái)了新的活力,計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、歷史學(xué)等多學(xué)科的融合,為研究者提供了新的視角和解決方案,促進(jìn)了創(chuàng)新和探索。以上幾個(gè)因素相互作用,共同促進(jìn)了古漢語(yǔ)智能處理研究的發(fā)展。

2.2 各個(gè)下游任務(wù)的論文占比

從圖3數(shù)據(jù)可以清晰地看到,分詞任務(wù)在古漢語(yǔ)研究論文中占據(jù)了顯著的比重,緊隨其后的是命名實(shí)體識(shí)別任務(wù)。相對(duì)而言,詞法分析、機(jī)器翻譯以及古詩(shī)詞和古文生成等任務(wù)的論文比例較小。在古漢語(yǔ)領(lǐng)域的自然語(yǔ)言處理研究中,分詞任務(wù)和命名實(shí)體識(shí)別(NER)相關(guān)的論文數(shù)量占據(jù)了較大比例,這主要是因?yàn)榉衷~作為基礎(chǔ)性任務(wù)對(duì)后續(xù)處理工作至關(guān)重要,尤其是在古漢語(yǔ)這種缺乏明顯詞間分隔的語(yǔ)言中,而命名實(shí)體識(shí)別則因其在提取關(guān)鍵信息和理解文本內(nèi)容方面的實(shí)際應(yīng)用價(jià)值而受到重視。相比之下,詞法分析、機(jī)器翻譯和古詩(shī)詞古文生成任務(wù)的論文數(shù)量較少,這是由于它們?cè)诠艥h語(yǔ)處理上的復(fù)雜性和挑戰(zhàn)性較高,以及相對(duì)于分詞和NER,它們可能獲得的研究資源和學(xué)術(shù)關(guān)注較少。因此,研究者們?cè)诠艥h語(yǔ)智能處理的研究中,更傾向于關(guān)注那些能夠?yàn)槔斫夤盼谋咎峁┲苯訋椭幕A(chǔ)任務(wù)和技術(shù)。

在自然語(yǔ)言處理的研究中,除了對(duì)單一下游任務(wù)進(jìn)行深入探討,一些研究者開(kāi)始嘗試將多個(gè)任務(wù)整合,開(kāi)展一體化的研究。例如,程寧等人[16]將斷句和詞法分析任務(wù)結(jié)合起來(lái),進(jìn)行了聯(lián)合研究,而常博林等人[9]則針對(duì)分詞和詞性標(biāo)注任務(wù)進(jìn)行了類(lèi)似的一體化探索。這種多任務(wù)聯(lián)合的創(chuàng)新研究方法,在實(shí)驗(yàn)中已經(jīng)展現(xiàn)出了積極的成效。展望未來(lái),多任務(wù)一體化的研究路徑無(wú)疑值得進(jìn)一步探索,它有潛力為自然語(yǔ)言處理領(lǐng)域帶來(lái)更為全面和高效的解決方案。

3 結(jié) 論

目前,在古漢語(yǔ)NLP領(lǐng)域中的下游任務(wù)方面,除了分詞、斷句與標(biāo)點(diǎn)、命名實(shí)體識(shí)別等幾個(gè)熱門(mén)任務(wù)的研究成果比較多之外,其他幾個(gè)下游任務(wù)的研究較少,目前還存在較多的空白。出現(xiàn)研究空白的主要原因是這些任務(wù)需要依賴(lài)前置任務(wù)的研究進(jìn)展,而前置任務(wù)的研究還需要更多的努力和時(shí)間。在數(shù)據(jù)集方面,原始語(yǔ)料也并不難獲取,但是根據(jù)各個(gè)具體的下游任務(wù)而做出不同處理的結(jié)構(gòu)化數(shù)據(jù)集極其缺乏。因?yàn)檫@樣的結(jié)構(gòu)化數(shù)據(jù)集需要與古漢語(yǔ)相關(guān)專(zhuān)業(yè)的從事人員或研究人員進(jìn)行標(biāo)注,代價(jià)極大。這也是古漢語(yǔ)NLP領(lǐng)域中的科研人員需要面臨的重大問(wèn)題。而該問(wèn)題若得不到解決,會(huì)極大地阻礙古漢語(yǔ)NLP領(lǐng)域的發(fā)展。因此,解決這些問(wèn)題對(duì)于古漢語(yǔ)NLP領(lǐng)域發(fā)展來(lái)說(shuō)至關(guān)重要。只有不斷努力和持續(xù)投入,才能夠進(jìn)一步拓展該領(lǐng)域下游任務(wù)研究的廣度和深度,并建立起更加完善和可靠的數(shù)據(jù)集等基礎(chǔ)設(shè)施。

參考文獻(xiàn):

[1] 胡韌奮,李紳,諸雨辰.基于深層語(yǔ)言模型的古漢語(yǔ)知識(shí)表示及自動(dòng)斷句研究 [J].中文信息學(xué)報(bào),2021,35(4):8-15.

[2] 王倩,王東波,李斌,等.面向海量典籍文本的深度學(xué)習(xí)自動(dòng)斷句與標(biāo)點(diǎn)平臺(tái)構(gòu)建研究 [J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021,5(3):25-34.

[3] 張開(kāi)旭,夏云慶,宇航.基于條件隨機(jī)場(chǎng)的古漢語(yǔ)自動(dòng)斷句與標(biāo)點(diǎn)方法 [J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2009,49(10):1733-1736.

[4] 石民,李斌,陳小荷.基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究 [J].中文信息學(xué)報(bào),2010,24(2):39-45.

[5] 高毅.基于BERT預(yù)訓(xùn)練模型的古漢語(yǔ)自動(dòng)分詞方法研究 [J].電子設(shè)計(jì)工程,2021,29(22):28-32.

[6] 唐俊,高大貴,陳銘萱,等.一種基于預(yù)訓(xùn)練的古漢語(yǔ)分詞模型 [C]//2022中國(guó)自動(dòng)化大會(huì).廈門(mén):中國(guó)自動(dòng)化學(xué)會(huì),2022:730-735.

[7] 魏一.古漢語(yǔ)自動(dòng)句讀與分詞研究 [D].北京:北京大學(xué),2020.

[8] 邢付貴,朱廷劭.基于大規(guī)模語(yǔ)料庫(kù)的古文詞典構(gòu)建及分詞技術(shù)研究 [J].中文信息學(xué)報(bào),2021,35(7):41-46.

[9] 常博林,袁義國(guó),李斌,等.融合部首信息的古漢語(yǔ)自動(dòng)分詞與詞性標(biāo)注一體化分析 [J/OL]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2024:1-17(2024-01-09).http://kns.cnki.net/kcms/detail/10.1478.G2.20240108.1326.002.html.

[10] 唐雪梅,蘇祺,王軍,等.基于圖卷積神經(jīng)網(wǎng)絡(luò)的古漢語(yǔ)分詞研究 [J].情報(bào)學(xué)報(bào),2023,42(6):740-750.

[11] 楊世超.古漢語(yǔ)分詞與詞性標(biāo)注方法研究 [D].唐山:華北理工大學(xué),2018.

[12] 王曉玉,李斌.基于CRFs和詞典信息的中古漢語(yǔ)自動(dòng)分詞 [J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(5):62-70.

[13] 鄭童哲恒,李斌.上古漢語(yǔ)分詞與詞性標(biāo)注加工規(guī)范——基于《史記》深加工語(yǔ)料庫(kù)的標(biāo)注實(shí)踐 [J].語(yǔ)言文字應(yīng)用,2023(4):93-104.

[14] 陳火龍.基于Bi-LSTM-CRF的古漢語(yǔ)虛詞詞性標(biāo)注系統(tǒng) [D].武漢:華中科技大學(xué),2019.

[15] 楊新生,胡立生.基于隱馬爾科夫模型的古漢語(yǔ)詞性標(biāo)注 [J].微型電腦應(yīng)用,2020,36(5):130-133.

[16] 程寧,李斌,葛四嘉,等.基于BiLSTM-CRF的古漢語(yǔ)自動(dòng)斷句與詞法分析一體化研究 [J].中文信息學(xué)報(bào),2020,34(4):1-9.

[17] 崔丹丹,劉秀磊,陳若愚,等.基于Lattice LSTM的古漢語(yǔ)命名實(shí)體識(shí)別 [J].計(jì)算機(jī)科學(xué),2020,47(S2):18-22.

[18] 陳雪松,詹子依,王浩暢.融合SikuBERT模型與MHA的古漢語(yǔ)命名實(shí)體識(shí)別 [J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2023,41(5):866-875.

[19] 詹子依.面向古漢語(yǔ)領(lǐng)域的命名實(shí)體識(shí)別 [D].大慶:東北石油大學(xué),2023.

[20] 李靖.基于特征融合與數(shù)據(jù)增強(qiáng)的古漢語(yǔ)命名實(shí)體識(shí)別研究 [D].長(zhǎng)春:吉林大學(xué),2023.

[21] 吳夢(mèng)成,林立濤,齊月,等.數(shù)字人文視域下先秦典籍植物知識(shí)挖掘與組織研究 [J].圖書(shū)情報(bào)工作,2023,67(12):103-113.

[22] 韓芳,楊天心,宋繼華.基于句本位句法體系的古漢語(yǔ)機(jī)器翻譯研究 [J].中文信息學(xué)報(bào),2015,29(2):103-110+117.

[23] 劉江峰,劉雛菲,齊月,等.AIGC助力數(shù)字人文研究的實(shí)踐探索:SikuGPT驅(qū)動(dòng)的古詩(shī)詞生成研究 [J].情報(bào)理論與實(shí)踐,2023,46(5):23-31.

作者簡(jiǎn)介:勞斌(1985—),男,漢族,廣東廣州人,講師,博士,研究方向:數(shù)字人文;通訊作者:彭瑤(1999—),男,漢族,廣東揭陽(yáng)人,碩士研究生在讀,研究方向:數(shù)字人文。

瑞金市| 大厂| 南靖县| 衡东县| 博爱县| 司法| 洪雅县| 巴林右旗| 汤原县| 巴中市| 平顺县| 深圳市| 玉溪市| 尼玛县| 沧州市| 嘉兴市| 吉水县| 木兰县| 武宁县| 平阴县| 阳新县| 嘉祥县| 黑龙江省| 太和县| 宣化县| 天峻县| 金阳县| 宜章县| 澳门| 乡城县| 依安县| 科尔| 平度市| 盐山县| 望奎县| 漳浦县| 大埔县| 习水县| 英德市| 余姚市| 文安县|