国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞匯聚類方法的現(xiàn)代漢語(yǔ)分期與分期體系構(gòu)建

2017-03-12 08:46饒高琦李宇明
中文信息學(xué)報(bào) 2017年6期
關(guān)鍵詞:語(yǔ)料現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)

饒高琦,李宇明

(1. 北京語(yǔ)言大學(xué) 對(duì)外漢語(yǔ)研究中心,北京 100083;2. 北京語(yǔ)言大學(xué) 語(yǔ)言政策與標(biāo)準(zhǔn)研究所,北京 100083)

0 引言

進(jìn)行有關(guān)現(xiàn)代漢語(yǔ)歷史變遷的研究無(wú)法不涉及分期問(wèn)題。以往對(duì)現(xiàn)代漢語(yǔ)史的研究多直接借用政治史的分期方式將現(xiàn)代漢語(yǔ)分為新文化運(yùn)動(dòng)到1949年、1950—1966年、1967—1976年和1977—至今四個(gè)時(shí)期,并在這一基礎(chǔ)上開(kāi)展了許多研究[1-4]。雖然語(yǔ)言生活,尤其是本文使用的報(bào)刊歷史語(yǔ)料,在內(nèi)容上與政治生活有密切聯(lián)系,但語(yǔ)言系統(tǒng)有其自身的演變規(guī)律。從語(yǔ)言數(shù)據(jù)出發(fā)對(duì)語(yǔ)言進(jìn)行分期是更加合適的選擇。傳統(tǒng)的分期方法缺乏定量分析,往往根據(jù)相對(duì)孤立的語(yǔ)法現(xiàn)象和語(yǔ)法點(diǎn)進(jìn)行分析,無(wú)法根據(jù)廣泛的語(yǔ)言使用情況來(lái)獲得較合理的分期依據(jù)。

本文將語(yǔ)言的分期落實(shí)在語(yǔ)料的分期中。語(yǔ)料的分期則可以視作不同時(shí)間文本的自然分組任務(wù),即聚類問(wèn)題。本文基于歷史的詞匯分層工作的結(jié)果[5-6],使用機(jī)器學(xué)習(xí)方法對(duì)歷史語(yǔ)料庫(kù)中的文本進(jìn)行自動(dòng)聚類。以期從詞語(yǔ)使用的角度,進(jìn)行定量的歷史語(yǔ)料時(shí)期劃分。

1 基礎(chǔ)工作

1.1 歷史語(yǔ)料庫(kù)

本文使用的語(yǔ)料為BCC歷史檢索系統(tǒng)*http://bcc.blcu.edu.cn/hc.[7-8]中1946年到2015年的《人民日?qǐng)?bào)》語(yǔ)料*由于種種原因,本文實(shí)驗(yàn)過(guò)程中沒(méi)有獲得2003年到2008年的《人民日?qǐng)?bào)》語(yǔ)料,該部分由實(shí)驗(yàn)室積累的相應(yīng)年份的《貴州日?qǐng)?bào)》替補(bǔ)。,時(shí)間跨度70年,規(guī)模12億字。使用GPWS通用分詞系統(tǒng)*宋柔,羅智勇. 現(xiàn)代漢語(yǔ)通用分詞系統(tǒng)(GPWS v3.5)http://democlip.blcu.edu.cn:8081/gpws/.[9]并輔之以小規(guī)模人工修正對(duì)歷史語(yǔ)料庫(kù)進(jìn)行分詞,詞種數(shù)約220萬(wàn)。

1.2 時(shí)間敏感詞

饒高琦[5]基于70年跨度的歷史報(bào)刊語(yǔ)料庫(kù),使用了包括TF-IDF、互信息、聯(lián)合熵、變異系數(shù)、詞項(xiàng)隨機(jī)采樣、修正頻率、累積頻率等九種統(tǒng)計(jì)方法計(jì)算了詞匯在歷史中的使用穩(wěn)定性,并通過(guò)對(duì)穩(wěn)定性、覆蓋度和時(shí)間區(qū)分性能的考察,確定了以月為劃分文本的時(shí)間顆粒度、以TF-IDF為主的計(jì)量方法,并獲得了規(guī)模為3 013詞的歷時(shí)穩(wěn)態(tài)詞候選詞集。其中詞語(yǔ)的時(shí)間敏感性極差,包括功能詞和基本名詞等,構(gòu)成語(yǔ)言生活的底層,即基干層。

饒高琦[6]發(fā)現(xiàn),基干層之外的詞匯中,以月顆粒度計(jì)算TF-IDF值按降序排列,第10 000到50 000位之間的詞匯對(duì)時(shí)間變化較為敏感,且平均頻次較大,例如,合作社、非典、撥亂反正等。它們與快速出現(xiàn)獲得較高頻次,但迅速退出使用的命名實(shí)體有很大不同。這部分詞匯構(gòu)成了時(shí)間敏感層。許多時(shí)間敏感的社會(huì)語(yǔ)言現(xiàn)象多由這一層中的詞語(yǔ)構(gòu)成。流行語(yǔ)和年度詞亦多出自此層。

1.3 聚類算法

本文選擇K均值算法和期望最大化算法對(duì)歷史語(yǔ)料庫(kù)中的文本進(jìn)行聚類,并使用機(jī)器學(xué)習(xí)平臺(tái)Weka*http://www.cs.waikato.ac.nz/ml/weka/.[10]實(shí)現(xiàn)。

K均值(K-means)算法是一種十分常用的聚類機(jī)器學(xué)習(xí)算法,也是一種基于距離的迭代聚類算法[11]。本文中的K均值算法采用歐氏空間距離。其優(yōu)點(diǎn)是可以確保一個(gè)類中每個(gè)實(shí)例到中心的距離平方和最小。但聚類數(shù)量K需要人工指定,且只能獲得局部距離平方和最小值。通常通過(guò)對(duì)不同K值進(jìn)行多次實(shí)驗(yàn)來(lái)尋找較優(yōu)的聚類數(shù)量,對(duì)特定K值進(jìn)行多次實(shí)驗(yàn)則可以在一定程度上克服無(wú)法獲得全局最優(yōu)聚類的缺陷。根據(jù)經(jīng)驗(yàn)K均值方法中的聚類數(shù)K?N,N為樣本數(shù)量,在本文中就是歷史語(yǔ)料的年數(shù)。

期望最大算法(expectation-maximum algorithm)是一種基于統(tǒng)計(jì)的聚類方法,其基礎(chǔ)是建立一個(gè)限混合(finite mixtures)統(tǒng)計(jì)模型[12]。期望最大算法在給定一個(gè)(隨機(jī))初始值后不斷進(jìn)行迭代,進(jìn)行重新估計(jì)直到收斂。該算法的優(yōu)勢(shì)在于無(wú)需事先指定聚類數(shù)量(分布的數(shù)量),但同樣不能保證收斂于全局極大值。為了有機(jī)會(huì)獲得全局極大值,需要對(duì)同一組數(shù)據(jù)進(jìn)行多次試驗(yàn)。

2 對(duì)歷史語(yǔ)料進(jìn)行聚類

本文在歷史語(yǔ)料庫(kù)中提取各年度的詞表,使用基干層詞匯和時(shí)間敏感層(簡(jiǎn)稱詞敏層)詞匯兩個(gè)時(shí)間敏感性幾乎相反的詞集進(jìn)行處理,以獲得進(jìn)行聚類實(shí)驗(yàn)的特征集,處理方法如下。

處理A在第i年詞表Lexi中保留出現(xiàn)的時(shí)敏層詞匯Ssens,即FAi=Lexi∪Ssens。FAi為第i年的特征集。

將兩種方法處理后獲得的特征集FAi和FBi中的詞當(dāng)作聚類特征,把其在當(dāng)年的頻率當(dāng)作特征值,分別使用K均值和期望最大化兩種方法進(jìn)行聚類。語(yǔ)料的時(shí)間顆粒度為年。

由前文已知K均值和期望最大化算法的缺陷,每種實(shí)驗(yàn)設(shè)定均對(duì)相同數(shù)據(jù)進(jìn)行五次實(shí)驗(yàn)以獲得穩(wěn)定的聚類結(jié)果。表1是K均值選取不同聚類數(shù)時(shí)的聚類結(jié)果。

表1 K均值在不同聚類數(shù)時(shí)的實(shí)驗(yàn)結(jié)果

表2是期望最大化算法自動(dòng)獲得聚類數(shù)時(shí)的聚類結(jié)果。

表2 期望最大化算法實(shí)驗(yàn)

語(yǔ)言的演變是連續(xù)而漸進(jìn)的,依據(jù)語(yǔ)言特征的時(shí)間演變進(jìn)行聚類,其結(jié)果在時(shí)間軸上也應(yīng)當(dāng)是連續(xù)的,即一個(gè)聚類應(yīng)由年份連續(xù)的語(yǔ)料組成。

通過(guò)對(duì)表1的觀察,發(fā)現(xiàn)處理A僅在聚類數(shù)量增加到7的時(shí)候開(kāi)始出現(xiàn)類和類之間互相穿插的現(xiàn)象,如類1和類2將彼此切割成了3段和2段。處理B在許多實(shí)驗(yàn)的聚類數(shù)量下容易出現(xiàn)類和類之間互相穿插的現(xiàn)象。如K=2和3時(shí)類1被類2截為兩段;K=6時(shí)類1和類2則互相穿插多次,而且K>2的聚類中始終都存在一個(gè)孤立點(diǎn)。這與語(yǔ)言演變具有漸變性的認(rèn)知有較大的沖突。因而處理B在使用K均值算法進(jìn)行的聚類中并不是一種好的選擇。處理A在聚類數(shù)量增加到7時(shí),聚類質(zhì)量也開(kāi)始變差。下一節(jié)將選擇聚類數(shù)從2到7的實(shí)驗(yàn)進(jìn)行分析。

我們嘗試對(duì)處理B的較差效果進(jìn)行解釋。處理B是將每年詞表去除出現(xiàn)在當(dāng)年的基干層詞后的結(jié)果。每年語(yǔ)料的特征數(shù)量過(guò)于龐大,詞匯繁雜。其中既有時(shí)間敏感性略差的介于基干層與時(shí)間敏感層之間的詞匯,也有大量超低頻的出現(xiàn)時(shí)間極短的詞匯(大多是命名實(shí)體)。這些特征對(duì)聚類過(guò)程形成了一定干擾。

與K均值不同,在期望最大化算法的結(jié)果中,兩種處理方式都有較好的表現(xiàn)。期望最大化算法在處理B時(shí)的聚類結(jié)果和K均值算法中聚類數(shù)量K=3時(shí)的結(jié)果一致。期望最大化算法中使用處理A時(shí)的聚類結(jié)果和K均值算法中聚類數(shù)量K=2時(shí)的結(jié)果一致。這也在一定程度上使我們可以更確信地在后文中使用K=2和3時(shí)的K均值的聚類結(jié)果。

3 聚類結(jié)果分析

語(yǔ)言變化的速率是不均勻的。當(dāng)變化較快,在一個(gè)特定時(shí)間單位(如年)內(nèi)無(wú)法刻畫變化過(guò)程的時(shí)候,該時(shí)間單位就形成一個(gè)邊界。而較為緩慢的變化可以在幾個(gè)時(shí)間單位內(nèi)被觀察到,這就形成了若干時(shí)間單位構(gòu)成的一個(gè)過(guò)渡(地帶),更加緩慢的變化以至于在很長(zhǎng)一段時(shí)間內(nèi)保持穩(wěn)定,那么就形成了前文中所描述的一個(gè)聚類,其現(xiàn)實(shí)意義就是一個(gè)時(shí)期。本節(jié)通過(guò)這三種方式對(duì)聚類結(jié)果進(jìn)行分析,從而獲得語(yǔ)言使用的時(shí)期信息。

K均值在不同聚類數(shù)量下的聚類結(jié)果給我們提供了一扇觀察歷史語(yǔ)料分期,尤其是歷史詞匯使用分期的窗口。K均值在處理A的特征集FAi的實(shí)驗(yàn)中存在一些較為穩(wěn)定的聚類邊界。如1979—1980年的邊界在聚類數(shù)為2、3和4時(shí)均無(wú)變化,在聚類數(shù)為5、6時(shí)變化為1977—1978年邊界和1978—1979年邊界。聚類邊界的移動(dòng)或變化是算法受聚類數(shù)量影響的結(jié)果。但其移動(dòng)幅度小說(shuō)明類的聚類比較穩(wěn)定。聚類的小幅度移動(dòng)也符合對(duì)語(yǔ)言使用演變是漸變的假設(shè),剛性的邊界在語(yǔ)言使用的變化中可能不多見(jiàn)。因此本節(jié)將聚類的邊界模糊處理,即將較少的若干個(gè)樣本(即若干年的語(yǔ)料)視作兩個(gè)聚類的過(guò)渡,如1979—1980年邊界可以擴(kuò)大為1977—1980年過(guò)渡。

聚類數(shù)為3時(shí)的2000—2001年邊界在聚類數(shù)量為4—6時(shí)可以擴(kuò)大為1997—2002年過(guò)渡。聚類數(shù)為5時(shí)的1988—1989年邊界在聚類數(shù)量為6時(shí)可以擴(kuò)大為1988—1990年過(guò)渡。聚類結(jié)果中也存在不變化或移動(dòng)的邊界,如2007—2008年邊界在聚類數(shù)量為4時(shí)出現(xiàn),在后來(lái)的實(shí)驗(yàn)中保持穩(wěn)定,并未變化。而1964—1965邊界出現(xiàn)的很晚(K=6時(shí)才出現(xiàn)),也未移動(dòng)或變化。

如果將上述邊界和過(guò)渡都整理到一張樹(shù)狀圖(圖1)中,就可以較清晰地看到1946—2015年歷史語(yǔ)料由詞匯使用來(lái)劃分的年代分期情況。

圖1 基于K均值方法的歷史語(yǔ)料詞匯使用分期

圖中,{m,n}表示年份m到年份n形成的過(guò)渡,如{1988,1990}為前文中描述的1988—1990年過(guò)渡。我們將邊界、過(guò)渡和聚類的數(shù)量同時(shí)映射到一張樹(shù)形圖上,可以得到圖2,以反映分期和聚類數(shù)量之間更直觀的關(guān)系。

圖3則將不同聚類數(shù)目中的分期結(jié)果繪制在時(shí)間軸上。深淺差異用來(lái)表示不同的聚類分裂的早晚和親疏關(guān)系。

如前文所述,這些“邊界”或“過(guò)渡”中,1977—1980年過(guò)渡和1997—2002年過(guò)渡也在期望最大化算法中出現(xiàn),將語(yǔ)料分為兩個(gè)或三個(gè)相對(duì)穩(wěn)定聚類。而它們出現(xiàn)時(shí)的實(shí)驗(yàn)設(shè)定(K=2和3)也表明,如果只將歷史語(yǔ)料劃分為兩段,那么應(yīng)該選擇1977—1980年進(jìn)行切分。如果劃分為三段,應(yīng)該再將80年代至今劃分為80年代到2000年和新世紀(jì)以來(lái)兩個(gè)階段。

這一劃分結(jié)果和對(duì)過(guò)去70年語(yǔ)言生活變遷的直觀感受基本相符。1977—1980年過(guò)渡是改革開(kāi)放政策開(kāi)始并逐漸起步的階段,語(yǔ)言使用的情況隨著國(guó)人思想的變化煥然一新。可以說(shuō)改革開(kāi)放的開(kāi)始是過(guò)去70年詞匯使用變遷最重要的分水嶺。

圖2 基于K均值方法的歷史語(yǔ)料詞匯使用分期及其聚類數(shù)量

圖3 歷史語(yǔ)料詞匯使用分期及其聚類數(shù)量

1997—2002年過(guò)渡則是在改革開(kāi)放漸入佳境,我國(guó)綜合國(guó)力高速上升的階段。語(yǔ)言生活和媒體的發(fā)展步入新的階段。但是這一過(guò)渡在已有的研究中很少被注意到。在刁晏斌[1-2]和Rao[3]的研究中, 都借用政治史將中華人民共和國(guó)成立后的現(xiàn)代漢語(yǔ)白話以文革運(yùn)動(dòng)為界分為三段。王建華[4]意識(shí)到“跨世紀(jì)穩(wěn)定發(fā)展期”的存在,但是將1990年至今的時(shí)段劃為此段。涉及新政權(quán)建立前的語(yǔ)料,則簡(jiǎn)單地以1949年為邊界分為兩段。并沒(méi)有注意到在詞匯使用的層面,新政權(quán)建立在語(yǔ)言上所產(chǎn)生的沖擊不如改革開(kāi)放,甚至不如進(jìn)入新世紀(jì)的影響大。

聚類的分裂率先從圖2第二層的右側(cè)(也就是圖3的第一層的淺色部分)開(kāi)始。當(dāng)二分類時(shí)的類2已經(jīng)分裂為四個(gè)類的時(shí)候,二分類時(shí)的類1才開(kāi)始分裂。這從一個(gè)側(cè)面展現(xiàn)了改革開(kāi)放前后詞匯使用更新速度的差異。改革開(kāi)放以前詞匯使用總的來(lái)說(shuō)變化緩慢,該聚類較之改革開(kāi)放后更為穩(wěn)固,分裂得晚。

4 兩層三段分期體系

綜上所述,本文將1946—2015年共70年的歷史語(yǔ)料的時(shí)期劃分任務(wù)分為兩個(gè)層次。第一層次分為兩段,1946年到1977—1980年過(guò)渡為一段(E1),之后為一段(E2),并以1980年為實(shí)際操作時(shí)的邊界。第二層次分為三段,即第一層次中的第二段進(jìn)一步分為1980年到1997—2002年過(guò)渡為一段(E2.1),之后為一段(E2.2),并以2000年為實(shí)際操作時(shí)的邊界。為行文簡(jiǎn)便,后文中也使用E1、E2、E2.1和E2.2指代該分期體系中的時(shí)期。該體系示意如圖4所示。

圖4 兩層三段分期體系示意圖

對(duì)應(yīng)Rao[3]在傳統(tǒng)分期方法下進(jìn)行的詞語(yǔ)使用統(tǒng)計(jì),本文在新的分期體系下對(duì)用詞情況進(jìn)行了統(tǒng)計(jì),如表3~5所示。

從表3容易發(fā)現(xiàn): E2在詞語(yǔ)使用的豐富程度上大大超越E1,這在總詞種數(shù)和年均詞種數(shù)上都得到體現(xiàn)。在表4中比較年均詞種數(shù)可以發(fā)現(xiàn)E2.1處于最高峰。表5統(tǒng)計(jì)了各時(shí)期達(dá)到特定詞語(yǔ)覆蓋度(按詞頻降序獲得的詞匯累積頻率)所需的詞數(shù)。該組數(shù)據(jù)也刻畫了諸時(shí)期的詞語(yǔ)使用豐富程度,比例越高說(shuō)明詞匯使用越豐富。表5數(shù)據(jù)體現(xiàn)出E2高于E1,E2.2高于E2.1高于E1的趨勢(shì)。這表明雖然高頻段詞種數(shù)在E2.1較多,但內(nèi)部分布于E2.2更為平均,詞匯分布在高頻段更為多樣??傮w而言,改革開(kāi)放后(E2)的詞匯豐富程度有了明顯提高,并且呈現(xiàn)出先增長(zhǎng)(E2.1)后回調(diào)(E2.2)的態(tài)勢(shì),詞匯使用的多樣性持續(xù)增長(zhǎng)。

表3 在第一層次分兩段時(shí)各段的用詞情況

表4 在第二層次分三段時(shí)各段的用詞情況

表5 各時(shí)期用詞覆蓋度

表3~5所示數(shù)據(jù)與傳統(tǒng)分期中用詞簡(jiǎn)況[3]所展現(xiàn)的數(shù)據(jù)趨勢(shì)差異并不懸殊。首先是因?yàn)殡p層分期體系依據(jù)時(shí)敏層詞的使用狀況而非全體詞匯的頻率進(jìn)行分期, 表3和表4中著重分析的共用詞恰是基干層的重要部分;其次是因?yàn)闀r(shí)期的劃分本身具有一定的模糊性,這也恰恰表明僅僅通過(guò)對(duì)詞匯系統(tǒng)做整體的頻次統(tǒng)計(jì),難以獲得時(shí)期劃分的線索。

5 小結(jié)

不同于過(guò)去借用政治史對(duì)現(xiàn)代漢語(yǔ)白話文進(jìn)行分期的方法,本文工作使用統(tǒng)計(jì)聚類方法,以具有時(shí)間敏感性的詞匯的使用頻率為特征對(duì)70年跨度的報(bào)刊語(yǔ)料進(jìn)行了聚類,尋找到了較穩(wěn)定的聚類,并在不同的聚類數(shù)下繪制了具有層次性的詞匯使用分期樹(shù)。本文以1980年和2000年為實(shí)際操作邊界,構(gòu)建了兩層三段分期體系。從純粹的語(yǔ)言學(xué)數(shù)據(jù)出發(fā)進(jìn)行語(yǔ)言分期,打破了現(xiàn)代漢語(yǔ)白話文分期借鑒政治史分期的局面,揭示了把改革開(kāi)放的開(kāi)始作為過(guò)去70年間詞匯使用變遷最重要分水嶺的重要事實(shí),世紀(jì)之交具有第二重要地位,并顯示了語(yǔ)言使用相對(duì)于社會(huì)變革的短暫滯后效應(yīng)。

[1] 刁晏斌. 現(xiàn)代漢語(yǔ)史概論[M]. 北京: 北京師范大學(xué)出版社,2006.

[2] 刁晏斌. 現(xiàn)代漢語(yǔ)史[M]. 北京: 人民出版社,2006.

[3] Gaoqi R, Endong X. Words and characters in official newspapers since the foundation of PRC: Guizhou Daily and People’s Daily as Examples[C]//Proceedings of International Journal of Knowledge and Language Processing (IJKLP), 2015, 6(2): 23-33.

[4] 王建華,周明強(qiáng),劉福根. 信息時(shí)代報(bào)刊語(yǔ)言跟蹤研究[M]. 杭州: 浙江大學(xué)出版社,2006.

[5] 饒高琦,李宇明. 基于70年報(bào)刊語(yǔ)料的現(xiàn)代漢語(yǔ)歷時(shí)穩(wěn)態(tài)詞抽取與考察[J]. 中文信息學(xué)報(bào),2016,30(06):49-58.

[6] 饒高琦,李宇明. 基于詞頻逆文檔頻統(tǒng)計(jì)的詞匯時(shí)間分布層次[C]//第十八屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),樂(lè)山,2017.

[7] 荀恩東,饒高琦,肖曉悅,等.大數(shù)據(jù)背景下BCC語(yǔ)料庫(kù)的研制[J].語(yǔ)料庫(kù)語(yǔ)言學(xué),2016, 3(1):93-118.

[8] 荀恩東,饒高琦,謝佳莉,等. 現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng)與應(yīng)用研究[J],中文信息學(xué)報(bào),2015(3): 169-176.

[9] 羅智勇. 現(xiàn)代漢語(yǔ)通用分詞系統(tǒng)的技術(shù)與實(shí)現(xiàn)[D]. 北京: 北京工業(yè)大學(xué)碩士學(xué)位論文, 2002.

[10] Ian H W, Eibe F, Mark A H. Data mining: Practical machine learning tools and techniques[M]. (3rd Edition). Morgan Kaufmann, 2011.

[11] Altman N S. An introduction to kernel and nearest-neighbor nonparametric regression[J]. The American Statistician,1992, 46 (3): 175-185.

[12] Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, Series B. 1977,39 (1): 1-38.

猜你喜歡
語(yǔ)料現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
現(xiàn)代漢語(yǔ)位移終點(diǎn)標(biāo)記“往”
平行語(yǔ)料庫(kù)在翻譯教學(xué)中的應(yīng)用研究
“楞”“愣”關(guān)系及“楞”在現(xiàn)代漢語(yǔ)中的地位
山西省2019年專升本選拔考試 現(xiàn)代漢語(yǔ)
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
山西省2018年專升本選拔考試 現(xiàn)代漢語(yǔ)
瀕危語(yǔ)言與漢語(yǔ)平行語(yǔ)料庫(kù)動(dòng)態(tài)構(gòu)建技術(shù)研究
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
語(yǔ)篇元功能的語(yǔ)料庫(kù)支撐范式介入