提 要 語言規(guī)范實施效力的檢測和反饋是語言規(guī)劃工作中的重要問題。本文對基于計算方法的語言規(guī)范效力檢測進(jìn)行了可行性論證,并以異形詞整理工作為對象進(jìn)行了實踐。計算結(jié)果表明,1949年新中國成立以來的異形詞整理工作基礎(chǔ)較好,效果顯著。本文也探討了計算方法的適用性以及計算方法視角下人工規(guī)范應(yīng)注意的事項。
關(guān)鍵詞 計算方法;效力檢測;異形詞;語言規(guī)范
Abstract The monitoring and measurement of the implementation of language standards have long been a challenging task for language planning. Based on a large-scale Chinese newspaper corpus, this paper attempts to explore the feasibility of a computation-based method in the measurement of language standards in practice. Chinese words with variant forms are taken as a case study, and the tendency of their change from the year 1949 to 2012 has been examined. The statistic results show that for the words with variant forms, the frequency of officially-recognized standard forms is remarkably higher than that of nonstandard forms. Therefore, the computation-based method of monitoring language practice is a promising endeavor. However, the application scope of computational methods and the time window of artificial regulations have to be carefully controlled in the computational analysis.
Key words computational method; effectiveness monitoring; words with variant forms; language standard
一、引 言
語言規(guī)范實施效力的檢測與反饋是語言政策與規(guī)劃領(lǐng)域的一大難題。
自然語言在使用時面臨內(nèi)在和外在擾動。內(nèi)外擾動的結(jié)果常表現(xiàn)為一段時間內(nèi)的無序狀態(tài),如一種內(nèi)容對應(yīng)多種形式。語言生活中的不少規(guī)范問題是由此造成的。異形詞不同詞形間的混用便是典型例子。自然語言面對內(nèi)在和外在擾動時,具有規(guī)范和調(diào)節(jié)的能力。這樣的規(guī)范和調(diào)節(jié)有的來自其自身,有的來自人工干預(yù)。后者主要指各類語言文字規(guī)范。而語言規(guī)范的過程體現(xiàn)為自然語言遭遇擾動后經(jīng)過規(guī)范而恢復(fù)和諧、豐富狀態(tài)的過程。
語言規(guī)范的行為和語言政策本身都是對各種語言變項的選擇(戴昭銘 1999;李宇明 2015;伯納德·斯波斯基 2016)。相比于“雅正觀”,這一觀念被稱為語言規(guī)劃的“選擇觀”(李宇明 2015)。基于“選擇觀”,語言規(guī)范的過程可以視作一定時間段和一定領(lǐng)域內(nèi)不同語言變項間的競爭過程。競爭將通過語言社團(tuán)集體性的“用口投票”或“用筆(鍵盤)投票”完成。語言社團(tuán)的選擇在數(shù)據(jù)上就體現(xiàn)為諸語言變項使用的多寡,從而可以用頻率、分布和生命度等計算方法對其進(jìn)行刻畫與分析。由于變項的競爭發(fā)生在一定時間段內(nèi),因而規(guī)范實施的效力也是具有時間屬性的分析對象。同時,大規(guī)模語料庫可以視作對語言生活的采樣。綜上所述,在語料庫中對可形式化的語言變項進(jìn)行歷時計算分析可以考察語言規(guī)范的實施效力。
要開展這一工作,在數(shù)據(jù)上要求具備一定時間跨度的歷時語料庫,在技術(shù)上需要具備對規(guī)范對象(即相應(yīng)語言變項)進(jìn)行計算的手段,在方法上需要對語言變項進(jìn)行形式化處理并控制其規(guī)模,以適應(yīng)計算和分析的需求。
本文擬就使用計算手段檢測語言規(guī)范實施效力的方法進(jìn)行初步探索,并對異形詞規(guī)范工作進(jìn)行研究,借此實踐基于詞語定量計算的效力檢測方法。
二、研究現(xiàn)狀
(一)使用語言信息處理技術(shù)的詞語定量研究
面向現(xiàn)代漢語并基于語言信息處理技術(shù)的詞語定量研究20世紀(jì)80年代就已開始。其代表性成果就是《現(xiàn)代漢語頻率詞典》(北京語言學(xué)院語言教學(xué)研究所 1986)。張普及其團(tuán)隊的一系列研究(張普1999,2003,2008a,2008b;郭慧志等 2004)推動了詞語定量研究中資源和計算方法的持續(xù)進(jìn)步,并為大規(guī)模的語言監(jiān)測奠定了基礎(chǔ),進(jìn)而支持了穩(wěn)態(tài)詞(趙小兵 2007;謝曉燕 2010)、新詞語(劉長征2008,2011)、政府話語(張沖 2011)、成語(劉長征、秦鵬 2007;李彥燕 2015)、流行語(謝學(xué)敏 2006)、中醫(yī)術(shù)語(王文媛 2013)、 傳統(tǒng)經(jīng)典著作中的詞語(陳曉丹 2014;王佳 2014;郭景旋 2016)使用及變遷的監(jiān)測。
當(dāng)前對現(xiàn)代漢語開展的最大規(guī)模的詞語定量研究是國家語言資源監(jiān)測與研究中心從2005年開始并延續(xù)至今的語言生活狀況調(diào)查(教育部語言信息管理司 2005—2015)。詞語的使用調(diào)查以《中國語言生活狀況報告·數(shù)據(jù)篇》和“漢語盤點”活動的形式逐年向社會發(fā)布。
(二)中文歷時語料庫資源
中文方面,鄒嘉彥等(2011)的泛華語地區(qū)漢語共時語料庫(LIVAC)主要收集兩岸三地的報刊數(shù)據(jù),尤其是同題報刊數(shù)據(jù),目前規(guī)模5.5億字。雖名為共時,但其數(shù)據(jù)特點決定了其穩(wěn)定的更新速率,因此自1993年啟動以來,該工程就具有監(jiān)測歷時語言演變的功能。
北京語言大學(xué)建立的動態(tài)流通語料庫(DCC)是國家主導(dǎo)語言監(jiān)測工作的直接產(chǎn)物,輯錄近30年的報紙語料,并根據(jù)動態(tài)流通理論逐年更新?,F(xiàn)已成為中國語言生活監(jiān)測的最重要語料庫之一。與其具有類似功能和目標(biāo)的還有中國傳媒大學(xué)的有聲媒體語料庫與華中師范大學(xué)的網(wǎng)絡(luò)媒體語料庫。但是它們的時間跨度都遠(yuǎn)遠(yuǎn)小于DCC語料庫。
針對目前歷時語言資源建設(shè)的短板,北京語言大學(xué)荀恩東團(tuán)隊于2012年建設(shè)了“現(xiàn)代漢語詞匯歷時檢索系統(tǒng)”,即現(xiàn)在BCC語料庫歷時頻道的前身(荀恩東等 2015,2016)。該語料庫涵蓋1946年到2015年的《人民日報》語料①,時間跨度70年,規(guī)模12億字,經(jīng)過分詞和詞性標(biāo)注后獲得分詞單元種數(shù)約220萬。并收集了近似跨度的《貴州日報》語料。本文所使用的數(shù)據(jù)即來自該語料庫1949年到2012年的部分。
由于報刊語言是語言規(guī)范的先行者和執(zhí)行標(biāo)桿,可以忽略規(guī)范標(biāo)準(zhǔn)的社會宣傳與推廣這一變量,因而適合作為語言規(guī)范尤其是人工規(guī)范相關(guān)研究的語料。
三、對異形詞整理規(guī)范效力的考察
異形詞是書面語中存在的一種特殊詞匯現(xiàn)象,如“筆畫—筆劃”“身份—身分”。異形詞是漢語漫長發(fā)展過程中的累積現(xiàn)象,使用非常廣泛,給語言學(xué)習(xí)與傳播帶來了不必要的負(fù)擔(dān)和障礙,也增加了語言使用的復(fù)雜程度。2002年教育部和國家語委聯(lián)合發(fā)布了《第一批異形詞整理表》。2003年中國出版協(xié)會校對研究委員會和中國語文報刊協(xié)會等四家單位又編制了《第二批異形詞整理表(試行)》。
異形詞整理首先遵從的是“約定俗成”,其他還包括“義明”“音準(zhǔn)”“形簡”“分化”和“兼顧”幾個原則(楊劍橋 2006)。本文基于語料庫的考察主要著眼于“從俗從眾”。在長時間跨度的歷時語料庫中可以觀測到異形詞不同詞形間使用的頻率關(guān)系,從而判斷語言規(guī)范在報紙上的實施效力。
(一)對具體詞形使用趨勢變化的考察
在微觀上,歷時語料庫中不同詞形的頻次對比可以直觀反映一組異形詞不同詞形在報紙中的使用變化情況,圖1、圖2和圖3分別展示了“筆畫—筆劃”(第一個為規(guī)范文件中的推薦詞形,后同)、“計劃—計畫”和“孜孜—孳孳”在1949年到2012年間使用情況的變化。其中橫坐標(biāo)為年份、縱坐標(biāo)為頻率,如無特殊說明皆為此意。這三組異形詞分別代表了詞形間頻率差異不明顯、一種詞形完全不使用和一種詞形極少使用三種分布情況。
過去幾十年中頻率上占據(jù)明顯優(yōu)勢的詞形為優(yōu)勢詞形,如圖2和圖3中的“計劃”和“孜孜”;頻率上處劣勢的為劣勢詞形,如圖2和圖3中的“計畫”和“孳孳”。圖1中的兩個詞形則無法確定哪一個占有整體性的優(yōu)勢。在本文歷時語料庫中,規(guī)范文件中的絕大多數(shù)推薦詞形是優(yōu)勢詞形?!兜谝慌愋卧~整理表》和《第二批異形詞整理表》分別整理異形詞338組和264組,其中推薦詞形為非優(yōu)勢詞形的分別僅有7組和5組③。可見異形詞的規(guī)范工作基本上遵循了“從俗”“從眾”的原則。
如果一個詞的各詞形在多數(shù)年份的語料中均出現(xiàn)10次以下,其在語料庫中的使用可認(rèn)為具有較大偶然性,統(tǒng)計可信度較差,本文不予考察。兩份規(guī)范文件中這樣的異形詞分別有50組和75組。
對異形詞使用情況的考察側(cè)重于不同詞形間使用情況的對比,有些劣勢詞形在語料庫中基本不出現(xiàn),即異形詞的多種詞形在語料庫中已不再混用,如圖2和圖3中所示,因而在統(tǒng)計推薦詞形的頻率優(yōu)勢時也將其排除。這一部分異形詞兩份規(guī)范文件中分別有198個和111個。除去上述兩種情況后,剩余的168組異形詞為本文的有效數(shù)據(jù)。
我們將兩批整理表的發(fā)布時間2002年和2003年視作分界時間點,在歷時語料中統(tǒng)計該時間點到2011年間具有混用情況的異形詞的推薦詞形(它們大多為優(yōu)勢詞形或優(yōu)劣不明顯詞形)使用頻率的變化情況。結(jié)果如表1所示。
由表1可知,兩批整理表對有混用情況的異形詞的使用起到了明顯的規(guī)范作用。整理表發(fā)布后,有60%到70%的推薦詞形的優(yōu)勢得以擴(kuò)大,減少了語言使用中的混淆情況。推薦詞形不占明顯優(yōu)勢的情況也存在,這一類被歸入表中“優(yōu)勢不明”一欄。推薦詞形優(yōu)勢擴(kuò)大的異形詞如圖4所示的“啟程—起程”,優(yōu)勢縮小的例子如圖5的“襤褸—藍(lán)褸”,優(yōu)勢不變的例子如圖6的“神采—神彩”,優(yōu)勢不明的例子如圖7的“戰(zhàn)栗—顫栗”。
(二)對推薦詞形整體使用情況的考察
如果要考察整個異形詞群體的規(guī)范使用情況,可以使用所有推薦詞形的頻次之和與非推薦詞形頻次之和的對比來進(jìn)行衡量。本文稱之為“倍比”(r),其計算方法如公式(1)所示。
公式(1)
其中f(w)為詞w在當(dāng)年的詞頻,wu為非推薦詞形,wt為推薦詞形。在歷時語料庫中對兩批異形詞整理表中的異形詞進(jìn)行計算,諸年度倍比的數(shù)據(jù)如圖8所示,橫軸為年份,縱軸為倍比數(shù)值。
兩批異形詞整理表中異形詞推薦詞形與非推薦詞形的倍比的變化區(qū)間為8.9倍到236.2倍,即非推薦詞形的總頻率最高時約為推薦詞形頻率的九分之一,最低時推薦詞形每出現(xiàn)200余次非推薦詞形出現(xiàn)一次??梢?,規(guī)范狀況較好。從1946年到21世紀(jì)初,規(guī)范詞形的使用頻率持續(xù)緩慢增長,這也體現(xiàn)出語言社團(tuán)自發(fā)的語言規(guī)范行為在發(fā)揮作用。
2002年、2003年兩批《異形詞整理表》的發(fā)布帶來了規(guī)范詞形使用頻率的明顯增長。2003年后,許多異形詞在語料中都過渡到了非推薦詞形頻率為零的狀態(tài)。倍比的增長主要由處于該種狀態(tài)的推薦詞形的頻率增加而造成。如2009年到2010年的高峰,主要由“參與”“人才”“計劃”“標(biāo)志”等詞本身頻率的大幅增加造成,它們所對應(yīng)的非推薦詞形在當(dāng)年語料中已經(jīng)消失,語言規(guī)范的成果在該語域內(nèi)得到了鞏固??梢酝茰y,這些詞在語言生活中已基本不存在可選的變項,穩(wěn)定的語言規(guī)范已經(jīng)形成。因而此時出現(xiàn)的倍比高峰和之后倍比的下跌不再代表推薦詞形和非推薦詞形的實力對比。
如果僅對存在混用情況的異形詞進(jìn)行考察,以評價語言規(guī)范在有混用情況下的作用,則不需要考慮非推薦詞形頻率為零的詞對觀察的影響。我們將單純基于頻率的倍比r發(fā)展為公式(2)所示的修正倍比kr。
公式(2)
其中f(w)為詞w的詞頻,wu為非推薦詞形,wt為推薦詞形。但修正倍比中w的選擇范圍比計算倍比時有所縮小。修正倍比僅計算非推薦詞形頻率大于零的異形詞的頻率,即存在混用的異形詞。同時,考慮到存在混用的異形詞越多,規(guī)范狀況越差,而混用詞語的數(shù)量對公式(1)并無影響,因此我們在公式(2)中使用存在混用情況的異形詞的數(shù)量n在分母上對混用詞數(shù)較多的情況進(jìn)行調(diào)節(jié)。
我們對兩批異形詞整理表中存在混用的異形詞使用公式(2)進(jìn)行計算,修正倍比的變化情況如圖9所示,橫軸為年份,縱軸為修正倍比數(shù)值。
2002年頒布《異形詞整理表》引起了2003年推薦詞形頻率的增長和2004年非推薦詞形數(shù)的迅速下降。兩種效應(yīng)合力之下2008年到2010年出現(xiàn)了修正倍比的高峰,非推薦詞形的數(shù)量則下降并停留在10到20個之間。在這種情況下,個別非推薦詞形偶然的頻率起伏就會對修正倍比產(chǎn)生較大影響。但總體上推薦詞形的使用頻率在震蕩中保持著遠(yuǎn)高于2003年以前的水平(150—200倍)。
(三)對具體推薦詞形在歷史時期中使用情況的考察
倍比和修正倍比描述了異形詞在一個時間點上的使用情況,但若量化考察一組異形詞在整個歷史時期中的使用情況則需要不同的計算方法。一組異形詞的不同詞形在一段時間內(nèi)平均使用頻次的比值可以刻畫它們的使用情況的差異,其計算方法如公式(3)所示:
公式(3)
S為該異形詞在一個時間段中的兩種詞形的平均頻率比。其中e為時間段的終了年份,s為時間段的開始年份,fai和fbi分別代表詞形a和b在i年語料里出現(xiàn)的頻次。假設(shè)計算1950年到2005年間“筆畫—筆劃”的平均使用頻次之比,則e為2005,s為1950。由于有的詞形在許多年份中不出現(xiàn),為避免分母為0,在分式中使用了加一平滑策略。
顯然公式(3)所示的計算方法中各年份數(shù)據(jù)的地位是一致的。但對現(xiàn)實的語言規(guī)劃工作而言,更晚近的語言數(shù)據(jù)重要性更高。因而我們對公式(3)進(jìn)行了改進(jìn),形成公式(4):
公式(4)
公式(4)中各符號的意義不變。其中,越早年份的語料,其詞形頻次比在最終結(jié)果S中所占的權(quán)重越低。假設(shè)以公式(4)對“筆畫—筆劃”這組異形詞在1950年至2005年時間段中進(jìn)行計算。則1950年兩詞形頻次之比所占的權(quán)重為1/(2005-1950+1)≈0.018,而1990年頻次之比所占的權(quán)重為1/(2005-1990+1)≈0.063。年份越近的數(shù)據(jù)對S的影響越大,即參考價值越高。假設(shè)存在一組異形詞,其詞形在每年語料中的頻次fai和fbi都相等,s和e分別取本文所使用語料的開頭年份(1949)和結(jié)尾年份(2012),則此時的S值為4.74,可稱之為臨界值。大于臨界值的異形詞可以認(rèn)為其詞形a相對詞形b在70年的考察范圍內(nèi)具有整體性的優(yōu)勢,反之亦然。
如果在使用公式(4)進(jìn)行計算時將推薦詞形設(shè)為a,那么在《第一批異形詞整理表》和《第二批異形詞整理表(試行)》的有效數(shù)據(jù)中有94.6%的S值高于臨界值,79%的S值超過臨界值兩倍,57%的S值超過臨界值五倍??梢姰愋卧~規(guī)范工作中所選擇的推薦詞形在較長的時間跨度內(nèi)具有整體性的使用優(yōu)勢。我們認(rèn)為,這樣的優(yōu)勢在人工規(guī)范制定前來自語言社團(tuán)的自我規(guī)范,在人工規(guī)范制定后部分來自人工規(guī)范的強(qiáng)制力量。
總體而言,《異形詞整理表》在報紙語言中得到了良好的執(zhí)行,規(guī)范實施效果顯著。因所選語料在語言規(guī)范問題上比較嚴(yán)格,是執(zhí)行語言規(guī)范標(biāo)準(zhǔn)的模范,因此統(tǒng)計數(shù)據(jù)只能在一定程度上反映語言規(guī)范的效力。如果更換其他語料,具體數(shù)值可能會有變化,但總的趨向不會改變,即《異形詞整理表》起到了提高語言文字使用效率、減少學(xué)習(xí)負(fù)擔(dān)的作用。
四、語言規(guī)范計算分析的反思
(一)計算方法的適用范圍
我們對異形詞整理的實施效力進(jìn)行了研究。顯然不是每一類語言規(guī)范的實施效力都適合通過計算方法進(jìn)行分析和檢測。計算方法檢測的適用范圍是由語料庫和分析方法的形式化能力決定的。因此我們可以歸納適用于計算方法分析的語言規(guī)范所應(yīng)具備的幾類特征。
首先,計算方法基于對語言現(xiàn)象的符號化和形式化,因而規(guī)范對象可以形式化為符號或符號序列的適合使用計算方法進(jìn)行檢測,如字、詞。以當(dāng)前技術(shù)手段難以形式化的規(guī)范對象,如文風(fēng)、語體等,就難以使用計算方法進(jìn)行檢測和分析。
其次,計算方法所涉及的語料數(shù)量極大,需要自然語言處理諸多技術(shù)支持,規(guī)范對象的處理不應(yīng)超出相應(yīng)語言信息處理技術(shù)的適應(yīng)范圍。例如,目前通用文本上的自動分詞與詞性標(biāo)注已具有較高精度,面向詞語,尤其是字詞形式的規(guī)范可以進(jìn)行計算調(diào)查。但句法分析性能尚無法令人滿意,在大規(guī)模語料上語法規(guī)范效力的檢測就面臨巨大困難。
再次,語言變項間具有較好的可對比性?;凇斑x擇觀”的語言規(guī)范本身就是語言變項的選擇過程。因而規(guī)范實施效力的核心刻畫手段就是語言變項間的對比。在時間、語域、種類等不同側(cè)面對語言變項進(jìn)行對比,從而從不同側(cè)面獲得語言規(guī)范對變項使用情況的影響,進(jìn)而評價其實施效力。
最后,歷時語料庫的時間或領(lǐng)域?qū)σ?guī)范內(nèi)容有較好覆蓋。時間方面,語料庫需覆蓋規(guī)范實施前后較長的時間段,以提供規(guī)范實施效力參考。領(lǐng)域方面,語料需覆蓋規(guī)范對象的常用領(lǐng)域。
由此容易發(fā)現(xiàn),除異形詞外,規(guī)范漢字、異體字、阿拉伯?dāng)?shù)字、字母詞、計量單位符號等也適合使用計算方法對其規(guī)范的實施效力進(jìn)行分析和反饋。
(二)人工規(guī)范的時機(jī)選擇
如果視語言使用者對語言變項的選擇行為為隨機(jī)過程,當(dāng)一個變項的使用衰減成為小概率事件③時,變項間的實力對比就失去了意義。這在異形詞的倍比統(tǒng)計中得到體現(xiàn)。如果此時占據(jù)使用頻率優(yōu)勢地位的是規(guī)范標(biāo)準(zhǔn)所支持的變項,則可以認(rèn)為社會規(guī)范在該語域內(nèi)已經(jīng)得以實現(xiàn)。此時人工規(guī)范應(yīng)該關(guān)注具體的失范實例,并進(jìn)行微調(diào)。
對語言單位的規(guī)范過程進(jìn)行人為干預(yù),需要把握時機(jī)。由圖8和圖9可知,《異形詞整理表》發(fā)布的時候,推薦詞形的總體頻率已經(jīng)達(dá)到了非推薦詞形的79倍(圖8),修正倍比為11倍(圖9)。如果以最大似然估計進(jìn)行概率估計,非推薦詞形的使用概率已經(jīng)很小。變項間實力對比出現(xiàn)這種情況的時期可以視作人工干預(yù)期。這個階段的人工規(guī)范容易取得較好效果。
在中國語言規(guī)劃的歷史上,出版物數(shù)字使用的規(guī)范則展現(xiàn)出不同的情況。1956年、1980年、1981年三次發(fā)布的相關(guān)規(guī)范④均是在漢字?jǐn)?shù)字書寫占據(jù)絕對優(yōu)勢情況下,逆勢拉升阿拉伯?dāng)?shù)字的使用頻率。當(dāng)時效果雖然較為明顯,但沒能改變變項間的實力對比,且緊隨其后出現(xiàn)了60年代到80年代初較強(qiáng)的反彈。變項間實力對比類似以上情況的時期可以視作觀察期。這個階段的人工規(guī)范應(yīng)當(dāng)十分慎重,強(qiáng)行推廣規(guī)范可能遭遇較強(qiáng)烈的反彈。
介于觀察期和干預(yù)期之間的是引導(dǎo)期。此時應(yīng)廣泛收集語言變項,甄別選擇適合的變項,為制定人工語言規(guī)范進(jìn)行準(zhǔn)備。2011年最新頒布的“出版物數(shù)字使用國家標(biāo)準(zhǔn)”不再強(qiáng)調(diào)阿拉伯?dāng)?shù)字的使用,而要求使用者更加重視“得體原則”和“局部體例一致原則”。這恰好體現(xiàn)了引導(dǎo)期語言規(guī)范工作的特點。
五、結(jié)論與展望
本文對使用計算方法尤其是詞語計算方法進(jìn)行語言規(guī)范實施效力的調(diào)查和分析的數(shù)據(jù)資源、適用范圍和具體方法進(jìn)行了初步探索,并對異形詞在歷時語料庫中的使用情況進(jìn)行了統(tǒng)計和分析。對異形詞規(guī)范工作的效力給出了定量計算,并基于數(shù)據(jù)得出了異形詞規(guī)范工作基礎(chǔ)較好、效果顯著的結(jié)論。
作為使用計算手段檢測語言規(guī)范實施效力的初步探索,本文的工作還有許多尚待完善之處,尤其是對異形詞整理工作的研究還較為粗糙。為適應(yīng)長時間、多領(lǐng)域的語言規(guī)范效力檢測,還應(yīng)該在報紙語料之外擴(kuò)充多語域、多語體的歷時語料庫,在計算手段上廣泛使用更加多樣化的方法。此外,充分融合語言本體研究的成果,對語言規(guī)范對象進(jìn)行更科學(xué)的形式化建模也是重要的研究內(nèi)容。
注 釋
① 由于種種原因,本文實驗過程中沒有獲得2003年到2008年《人民日報》的語料,該部分由相應(yīng)年份的《貴州日報》語料替補(bǔ)。
② 第一批:“渾水摸魚—混水摸魚”“摩拳擦掌—磨拳擦掌”“叫花子—叫化子”“綿連—綿聯(lián)”“五勞七傷—五癆七傷”“小題大做—小題大作”“凝練—凝煉”;第二批:“黏液—粘液”“黏性—粘性”“黏土—粘土”“黏稠—粘稠”“俯首帖耳—俯首貼耳”。
③ 統(tǒng)計學(xué)上常用的兩個小概率事件閾值為1%和5%。
④ 三項規(guī)范分別為:關(guān)于國家機(jī)關(guān)的公文、電報和機(jī)關(guān)刊物橫排橫寫以后采用阿拉伯?dāng)?shù)碼的通知,關(guān)于數(shù)目字改排阿拉伯?dāng)?shù)字的規(guī)定,國家行政機(jī)關(guān)公文處理暫行辦法。
參考文獻(xiàn)
北京語言學(xué)院語言教學(xué)研究所編 1986 《現(xiàn)代漢語頻率詞典》,北京:北京語言學(xué)院出版社。
伯納德·斯波斯基 2016 《語言管理》,張治國譯,北京:商務(wù)印書館。
陳曉丹 2014 基于動態(tài)流通語料庫的《道德經(jīng)》語言使用狀況調(diào)查研究,北京語言大學(xué)碩士學(xué)位論文。
戴昭銘 1999 《語言功能和可能規(guī)范》,《語言文字應(yīng)用》第2期。
郭慧志、王強(qiáng)軍、劉 華、張 普 2004 《大規(guī)模動態(tài)流通語料庫的構(gòu)建》,全國學(xué)生計算語言學(xué)研討會論文。
郭景旋 2016 《組合類成語的詞匯化考察:以出自〈孟子〉的組合類成語為例》,北京語言大學(xué)碩士學(xué)位論文。
教育部語言文字信息管理司 2005―2015 《中國語言生活狀況報告》,北京:商務(wù)印書館。
李彥燕 2015 《報紙媒體四字成語使用狀況調(diào)查》,北京語言大學(xué)碩士學(xué)位論文。
李宇明 2015 《語言規(guī)范試說》,《當(dāng)代修辭學(xué)》第4期。
劉長征 2008 《基于動態(tài)流通語料庫(DCC)的新詞語監(jiān)測》,《長江學(xué)術(shù)》第1期。
劉長征 2011 《基于動態(tài)流通語料庫的新詞語監(jiān)測研究》,北京:世界圖書出版社。
劉長征、秦 鵬 2007 《基于中國主流報紙動態(tài)流通語料庫(DCC)的成語使用情況調(diào)查》,《語言文字應(yīng)用》第3期。
王 佳 2014 《當(dāng)代語言生活中的〈論語〉使用情況考察》,北京語言大學(xué)碩士學(xué)位論文。
王文媛 2013 《基于動態(tài)流通語料庫的中國傳統(tǒng)醫(yī)學(xué)術(shù)語使用情況考察》,北京語言大學(xué)碩士學(xué)位論文。
謝曉燕 2010 《基于26年〈深圳特區(qū)報〉的穩(wěn)態(tài)詞語提取與考察研究》,北京語言大學(xué)博士學(xué)位論文。
謝學(xué)敏 2006 《基于動態(tài)流通語料庫(DCC)的流行語釋義信息自動提取研究》,北京語言大學(xué)博士學(xué)位論文。
荀恩東、饒高琦、肖曉悅、臧嬌嬌 2016 《大數(shù)據(jù)背景下BCC語料庫的研制》,《語料庫語言學(xué)》第3期。
荀恩東、饒高琦、謝佳莉、黃志娥 2015 《現(xiàn)代漢語詞匯歷時檢索系統(tǒng)與應(yīng)用研究》,《中文信息學(xué)報》第3期。
楊劍橋 2006 《關(guān)于漢語多音節(jié)異形詞的幾個問題》,《復(fù)旦大學(xué)學(xué)報》第6期。
張 沖 2011 《歷年〈政府工作報告〉的詞語變化及其反映的內(nèi)容分析》,北京語言大學(xué)碩士學(xué)位論文。
張 普 1999 《關(guān)于網(wǎng)絡(luò)時代語言規(guī)劃的思考》,中國科協(xié)首屆學(xué)術(shù)年會論文。
張 普 2003 《基于DCC的流行語動態(tài)跟蹤與輔助發(fā)現(xiàn)研究》,全國計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文。
張 普 2008a 《論語言的穩(wěn)態(tài)》,《鄭州大學(xué)學(xué)報》(哲學(xué)社會科學(xué)版)第2期。
張 普 2008b 《論語言的動態(tài)》,《長江學(xué)術(shù)》第1期。
趙小兵 2007 《基于動態(tài)流通語料庫的現(xiàn)代漢語基本詞匯自動識別與提取方法研究》,北京語言大學(xué)博士學(xué)位論文。
鄒嘉彥、鄺藹兒、陸 斌、蔡永富 2011 《漢語共時語料庫與追蹤語料庫》,《中文信息學(xué)報》第6期。
責(zé)任編輯:戴 燃