国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多維度熵值考察的常用字表構(gòu)建

2024-05-21 23:56張艷梅李如龍呂展
華文教學(xué)與研究 2024年2期
關(guān)鍵詞:常用字熵值法

張艷梅 李如龍 呂展

[關(guān)鍵詞] 常用字;常用字表;漢字效用;熵值法

[摘 要] 常用字除了字頻這一外顯特性外,還應(yīng)當(dāng)具有穩(wěn)定性、較廣的分布性、構(gòu)詞構(gòu)字的能產(chǎn)性等特征。以往基于語(yǔ)料選取來(lái)考察漢字,無(wú)法對(duì)每個(gè)漢字不同維度的特征進(jìn)行量化,最終仍主要通過(guò)字頻來(lái)構(gòu)建字表。文章基于2007—2021年《中國(guó)語(yǔ)言生活狀況報(bào)告》語(yǔ)言大數(shù)據(jù),對(duì)常用字的字頻、穩(wěn)定性、分布度、構(gòu)詞頻、構(gòu)字頻等五個(gè)維度進(jìn)行詳細(xì)的數(shù)據(jù)考察與特征分析,使用熵值法建立漢字效用綜合測(cè)度模型,構(gòu)建多維度常用字表。通過(guò)熵值法構(gòu)建的漢字效用綜合測(cè)度模型,從多個(gè)方面測(cè)量、量化了漢字的效用,得出的排序結(jié)果與以往的字表有著較大的差異。不單單考慮字頻這一維度之后,大量在穩(wěn)定性、分布度、構(gòu)詞構(gòu)字能力等維度具有突出優(yōu)勢(shì)的常用字躋身字表前列,由此也更為科學(xué)合理。

[中圖分類號(hào)]H195.3? [文獻(xiàn)標(biāo)識(shí)碼]A? [文章編號(hào)]1674-8174(2024)02-0068-14

1. 引言

我國(guó)關(guān)于現(xiàn)代漢字常用字的研究是基于字頻統(tǒng)計(jì)開(kāi)展的,比較科學(xué)的字頻統(tǒng)計(jì)起于上世紀(jì)二三十年代,發(fā)端之作當(dāng)屬1928年陳鶴琴先生的《語(yǔ)體文應(yīng)用字匯》,隨后經(jīng)過(guò)一代代學(xué)者篳路藍(lán)縷的探索,字頻統(tǒng)計(jì)研究的方法更加科學(xué)、應(yīng)用的范圍更加廣泛。至本世紀(jì)初教育部國(guó)家語(yǔ)委、國(guó)家語(yǔ)言資源監(jiān)測(cè)中心首次進(jìn)行大規(guī)模的社會(huì)用字用詞調(diào)查,字頻統(tǒng)計(jì)這項(xiàng)工作在語(yǔ)料庫(kù)規(guī)模、統(tǒng)計(jì)工具、分析方法等方面均有了長(zhǎng)足的進(jìn)步。

回顧近百年的字頻統(tǒng)計(jì)、常用字研究,整體來(lái)看分為三個(gè)部分:一是對(duì)常用字的理論研究,如周有光(1980)、費(fèi)錦昌(1988)、高家鶯等(1993)、蘇培成(1994)等學(xué)者,主要集中于常用字的效用問(wèn)題、功能特征問(wèn)題等的探討;二是基于字頻統(tǒng)計(jì)的常用字表構(gòu)建,如《常用字表》(1952)、《常用字和常用詞》(1985)、《現(xiàn)代漢字常用字表》(1988)、《通用規(guī)范漢字表》(2013)等成果,為中小學(xué)語(yǔ)文基礎(chǔ)教育教材選字用字、國(guó)際中文教育教材選字用字、辭書(shū)編纂以及漢字機(jī)械處理和信息處理等領(lǐng)域提供了重要參考;三是基于大型語(yǔ)料庫(kù)的用字調(diào)查,如周美玲、蘇新春(2009)、王衍軍(2009)、劉華(2010)、張軍(2013)、史曉東等(2015)、趙雪等(2018)、張艷梅、呂展(2022)等學(xué)者,基于大規(guī)模的語(yǔ)料庫(kù),從各個(gè)角度對(duì)中國(guó)語(yǔ)言文字的使用進(jìn)行調(diào)查研究,反映當(dāng)代漢字用字現(xiàn)狀。

在以上的常用字研究中,常用字表的研制最為引人注目。新中國(guó)以來(lái)常用字表的研制成為了一項(xiàng)重要工作,并取得了一系列豐富的成果,主要由國(guó)家組織,規(guī)模大、影響深遠(yuǎn)。在常用字表的研制基礎(chǔ)上,高家鶯等(1993)、蘇培成(1994)等學(xué)者總結(jié)了構(gòu)建常用字表所需要考察的維度問(wèn)題,與《現(xiàn)代漢字常用字表》的選取原則一致,大抵是字頻、穩(wěn)定性、分布度、構(gòu)詞能力、構(gòu)字能力等五個(gè)方面,另外還考慮到了生活常識(shí)。以往的常用字表構(gòu)建工作中,對(duì)以上漢字不同維度的考察是基于語(yǔ)料庫(kù)的選取而開(kāi)展的:通過(guò)選取不同時(shí)期、不同學(xué)科領(lǐng)域的語(yǔ)料進(jìn)行字頻統(tǒng)計(jì),繼而通過(guò)考察漢字的構(gòu)詞構(gòu)字能力與實(shí)際使用進(jìn)行人工干預(yù)調(diào)整。盡管基于語(yǔ)料選取來(lái)考察漢字的不同維度體現(xiàn)了語(yǔ)料基礎(chǔ)的科學(xué)、全面,但無(wú)法對(duì)每個(gè)漢字不同維度的特征進(jìn)行量化,最終仍主要通過(guò)字頻來(lái)構(gòu)建字表,字頻依舊是最主要的參考指標(biāo)。

關(guān)于常用字的理論研究有一個(gè)非常重要的結(jié)論,即周有光(1980)《現(xiàn)代漢字學(xué)發(fā)凡》總結(jié)的漢字字頻的不平衡規(guī)律,即后來(lái)抽象出的“漢字效用遞減率”:“漢字的使用效率是很不平衡的。各家的頻率統(tǒng)計(jì)互有出入。斟酌于各家之間,得到如下的規(guī)律:最高頻1000字的覆蓋率大約是90%,以后每增加1400字大約提高覆蓋率十分之一。這就叫‘漢字效用遞減率?!保ㄖ苡泄猓?980;周有光,2009:63-64;蘇培成,2019:43)周有光先生雖沒(méi)有明確指出“漢字效用”的概念,但認(rèn)為字頻越大的漢字“漢字效用”越大,因此提出“想辦法把用途很小的大量漢字少用乃至不用,‘取其少,棄其多”(周有光,2009:63-64)。 結(jié)合這一觀點(diǎn),本研究認(rèn)為“漢字效用”是指漢字在中國(guó)語(yǔ)言文字生活中實(shí)際發(fā)揮的作用,不同的漢字“效用”不同,掌握少部分的高效用漢字,就可以識(shí)讀和聽(tīng)懂漢語(yǔ)實(shí)際語(yǔ)言生活中大部分的語(yǔ)言和言語(yǔ)。同時(shí),我們認(rèn)為,“漢字效用”是一個(gè)綜合的字用體現(xiàn),字頻只是其外顯的一個(gè)方面,難以完全反映漢字的總體效用,構(gòu)建綜合的多維度“漢字效用”測(cè)度體系能夠更全面、更完整地測(cè)量與分析常用字在多個(gè)維度中的“漢字效用”特點(diǎn)。

因此,基于前人對(duì)于常用字選取的原則問(wèn)題,我們嘗試基于2007—2021年《中國(guó)語(yǔ)言生活狀況報(bào)告》的語(yǔ)言大數(shù)據(jù),運(yùn)用計(jì)量語(yǔ)言學(xué)、數(shù)據(jù)挖掘的方法對(duì)現(xiàn)代漢字常用字的多個(gè)維度進(jìn)行數(shù)據(jù)考察并量化,使用相關(guān)性分析、線性回歸、分層回歸等方法分析各個(gè)維度特征之間的關(guān)系,并使用熵值法建立漢字效用綜合測(cè)度模型,構(gòu)建多維度常用字表。

2. 相關(guān)說(shuō)明

2.1 相關(guān)術(shù)語(yǔ)

根據(jù)國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心《中國(guó)語(yǔ)言生活狀況報(bào)告2013》中的《語(yǔ)言監(jiān)測(cè)相關(guān)術(shù)語(yǔ)》,本研究涉及的相關(guān)術(shù)語(yǔ)如下:

字種:指被調(diào)查語(yǔ)料中字形不同的漢字;

詞種:指被調(diào)查語(yǔ)料中不重復(fù)的詞(不區(qū)分同形詞);

頻次:指被調(diào)查對(duì)象在調(diào)查語(yǔ)料中出現(xiàn)的次數(shù);

頻序:指被調(diào)查對(duì)象的頻次排序;

覆蓋率:指被調(diào)查語(yǔ)料內(nèi)指定調(diào)查對(duì)象占所有調(diào)查對(duì)象總量的百分比。

2.2常用字的考察維度

以往常用字表的構(gòu)建很大程度上基于字頻而開(kāi)展,而字頻并不代表漢字的效用,因此有學(xué)者提出了“使用度”的說(shuō)法,將字頻與分布結(jié)合起來(lái),以此代表效用發(fā)揮范圍的廣狹,而漢字效用發(fā)揮的穩(wěn)定性也十分重要,劉華(2010)提出了漢字的時(shí)空分布。這些相關(guān)探索,啟示我們漢字效用不能單單靠字頻表現(xiàn),常用字表需要構(gòu)建綜合測(cè)度指標(biāo)體系。

對(duì)于常用字需要考察的維度問(wèn)題,基于前人對(duì)于常用字特征的分析與總結(jié),我們可以歸納為漢字字頻、時(shí)空分布能力、生成能力等三個(gè)方面。漢字的時(shí)空分布能力表現(xiàn)為時(shí)間和空間的兩條軸上,時(shí)間的分布體現(xiàn)為字詞在歷時(shí)發(fā)展中的恒定情況即穩(wěn)定性,空間則集中于領(lǐng)域(適用人群和適用領(lǐng)域)分布即分布度(劉華,2010:100),分別體現(xiàn)了漢字效用發(fā)揮的穩(wěn)定程度以及范圍的廣狹。漢字的生成能力表現(xiàn)為構(gòu)詞能力與構(gòu)字能力,即構(gòu)詞頻(次)、構(gòu)字頻(次)兩個(gè)方面,可以突破單個(gè)字用的限制,與其他漢字組合成多個(gè)高頻詞,或成為其他漢字的部件。因此,本研究對(duì)于常用字的多維度考察,從漢字字頻、時(shí)空分布能力、生成能力三大方面入手,從字頻、穩(wěn)定性、分布度、構(gòu)詞頻、構(gòu)字頻五個(gè)維度考慮,如圖1所示:

2.3 語(yǔ)料說(shuō)明

自2005年起,教育部國(guó)家語(yǔ)委、國(guó)家語(yǔ)言資源監(jiān)測(cè)中心《中國(guó)語(yǔ)言生活狀況報(bào)告》對(duì)每年的報(bào)紙、廣播電視、網(wǎng)絡(luò)(新聞)用字用詞進(jìn)行調(diào)查統(tǒng)計(jì),建立年度國(guó)家語(yǔ)言資源監(jiān)測(cè)語(yǔ)料庫(kù),包括平面、有聲、網(wǎng)絡(luò)三種媒體:平面媒體語(yǔ)料來(lái)源包括國(guó)內(nèi)23家報(bào)紙;有聲媒體語(yǔ)料來(lái)源包括中央電視臺(tái)3個(gè)欄目、中央人民廣播電臺(tái)8個(gè)欄目以及央廣網(wǎng)、央視網(wǎng)、北京、安徽等16家融媒體共63個(gè)欄目的轉(zhuǎn)寫(xiě)文本;網(wǎng)絡(luò)媒體語(yǔ)料來(lái)自新浪的新聞網(wǎng)頁(yè)。語(yǔ)料選取的規(guī)模性、來(lái)源的科學(xué)性,是自建語(yǔ)料庫(kù)難以達(dá)到的程度,且有聲媒體語(yǔ)料一定程度上彌補(bǔ)了以往字頻統(tǒng)計(jì)中口語(yǔ)語(yǔ)料的不足,因此基于此語(yǔ)料庫(kù)所統(tǒng)計(jì)得出的《年度媒體用字總表》《年度媒體高頻詞語(yǔ)表》,是目前來(lái)說(shuō)當(dāng)代中國(guó)語(yǔ)言生活中用字用詞調(diào)查最為科學(xué)、全面、可靠的字詞使用數(shù)據(jù),是測(cè)量漢字字頻、穩(wěn)定性、分布度、構(gòu)詞頻、構(gòu)字頻的權(quán)威數(shù)據(jù)。

由于2006年并未公布《年度媒體用字總表》《年度媒體高頻詞語(yǔ)表》,我們選取了《中國(guó)語(yǔ)言生活狀況報(bào)告》中2007—2021共15年的《年度媒體用字總表》《年度媒體高頻詞語(yǔ)表》,校對(duì)、整理并二度統(tǒng)計(jì)數(shù)據(jù),自建15年媒體用字用詞數(shù)據(jù)庫(kù)。

3. 研究過(guò)程

3.1 常用字字頻維度考察

對(duì)于常用字字頻維度的考察,本研究通過(guò)計(jì)算漢字的頻次來(lái)體現(xiàn)?;?007至2021年度共15年的《年度媒體用字總表》,匯總常用字在15年間的總的頻次,以考察其頻序,體現(xiàn)字頻屬性。具體方法如下:將《年度媒體用字總表》中所有字種進(jìn)行匯總,計(jì)算這些字在15年中每年具體的頻次值并加和運(yùn)算,形成15年的總頻次值,然后按各個(gè)漢字的總頻次由高到低排列,形成《現(xiàn)代漢字常用字頻度排序表》。受文章篇幅所限,《現(xiàn)代漢字常用字頻度排序表》部分展示如表1所示:

3.2 常用字穩(wěn)定性維度考察

上文關(guān)于漢字字頻屬性的考察,能發(fā)現(xiàn)不同漢字之間效用的巨大差異。如前文所言,“漢字效用”的巨大差異為周有光先生“漢字效用遞減率”的主要內(nèi)容,即隨著字頻的下降,漢字使用的覆蓋率呈遞減趨勢(shì),漢字的效用也呈遞減趨勢(shì)。而漢字效用是動(dòng)態(tài)變化著的,負(fù)載著實(shí)體意義的漢字在不同年份、不同時(shí)期的效用可能存在差異,高頻字種①的使用頻率是否穩(wěn)定也應(yīng)當(dāng)是其效用的一部分體現(xiàn),還應(yīng)當(dāng)考察漢字效用的時(shí)間分布是否均勻穩(wěn)定??梢酝ㄟ^(guò)分析漢字在各個(gè)年份《年度媒體用字總表》中頻序上下波動(dòng)的狀況,即計(jì)算每個(gè)漢字15年頻序的方差,來(lái)體現(xiàn)其效用穩(wěn)定程度。方差值越小,則頻序變化程度越小,漢字效用的穩(wěn)定性越強(qiáng)。

所謂方差,就是和中心偏離的程度,是用來(lái)衡量數(shù)據(jù)的波動(dòng)大?。催@組數(shù)據(jù)偏離平均數(shù)的大?。┑亩攘恐怠T跇颖救萘肯嗤那闆r下,方差越大,說(shuō)明數(shù)據(jù)的波動(dòng)越大,越不穩(wěn)定。其公式為:

[S2=[1n][(X1-x)2+(X2-x)2+…+(Xn-x)2]] 其中,x表示某個(gè)漢字15年頻序的平均值,n表示頻序值的數(shù)量,Xn表示某個(gè)漢字在第n年的頻序,如X1表示某個(gè)漢字2007年的頻序,X2表示某個(gè)漢字2008年的頻序,以此類推,X15表示某個(gè)漢字2021年的頻序。基于上文的《現(xiàn)代漢字常用字頻度排序表》,將前3500字②在2007年至2021年中每年的頻序進(jìn)行統(tǒng)計(jì),計(jì)算15年頻序的方差,部分統(tǒng)計(jì)結(jié)果展示如表2所示。如“的”字,在《現(xiàn)代漢字常用字頻度排序表》中字頻屬性排第一位,在2007年至2021年的《年度媒體用字總表》中每年頻序均排第一位,頻序方差為0,15年間字頻效用非常穩(wěn)定。

通過(guò)表2的數(shù)據(jù)及觀察所有前3500字的歷年穩(wěn)定性,可以發(fā)現(xiàn)漢字頻序的穩(wěn)定程度跟字頻在整體上存在正相關(guān)的關(guān)系:此表中頻序代表著字頻的大小,頻序越靠前的字,字頻越大。隨著頻序的降低,字頻的減小,頻序方差整體上逐漸增大,漢字的穩(wěn)定性降低。為了更直觀地展示前3500字歷年穩(wěn)定性數(shù)據(jù)的全貌,我們將這3500字的頻序方差制成散點(diǎn)圖按穩(wěn)定程度聚類(如圖2所示)可以更明顯地觀察出穩(wěn)定性與字頻呈正相關(guān)的關(guān)系。當(dāng)橫坐標(biāo)頻序逐漸增大時(shí),字頻減小,漢字的頻序方差整體上也逐漸增大,穩(wěn)定性整體上減弱,但相似頻度段內(nèi)部的漢字穩(wěn)定程度不一。如取任一數(shù)值的頻序,相似頻度段內(nèi)的漢字,頻序方差均有一定的大小差異。

通過(guò)觀察圖2,可以發(fā)現(xiàn)位于前1000頻序的高頻字中有兩個(gè)字的穩(wěn)定性較差,離散程度較大,分別是頻序位于760的“疫”和895的“貧”字,具體頻序變化如表3所示?!耙摺弊衷?020年、2021年兩年中頻序極其靠前,并當(dāng)選“漢語(yǔ)盤(pán)點(diǎn)2021”年度國(guó)內(nèi)字、國(guó)際字,“貧”字自2016年其頻序逐漸上升。兩字的穩(wěn)定性程度相對(duì)于前1000頻序的字而言較差,頻序方差大。主要是因社會(huì)熱點(diǎn)事件的發(fā)生,這兩字在近幾年字頻急升,組成高頻詞“防疫”“抗疫”以及“扶貧”“脫貧攻堅(jiān)”等。這說(shuō)明漢字的效用是動(dòng)態(tài)變化著的,且動(dòng)態(tài)變化的程度不同??傊?fù)載著實(shí)體意義的字在不同年份、不同時(shí)期的效用是不同的,熱點(diǎn)事件輿情的爆發(fā)對(duì)相應(yīng)漢字的效用影響較大。

3.3 常用字分布度維度考察

漢字效用在不同學(xué)科、不同領(lǐng)域的文本中的分布情況是不同的。在詞頻統(tǒng)計(jì)方面,尹斌庸、方世增(1994)提出了使用度公式,張普(1999)提出了流通度公式,劉華(2010)將字詞的頻次、分布、生成能力結(jié)合起來(lái)提出了字詞的使用度公式,以上研究均是將字詞的空間分布能力考慮到了常用程度的衡量之中。本研究對(duì)于漢字分布度的考察通過(guò)分布率來(lái)體現(xiàn),具體方法為:基于上文的《現(xiàn)代漢字常用字頻度排序表》,將頻序位于前3500的字在2007年至2021年各年統(tǒng)計(jì)中的出現(xiàn)文本數(shù)進(jìn)行統(tǒng)計(jì),計(jì)算得出其文本分布率,分布率越大,分布度越強(qiáng)。分布率計(jì)算的公式如下:

Di=ti/T

其中,Di是第i號(hào)字的分布率,ti為第i號(hào)字的出現(xiàn)文本數(shù),T為所有語(yǔ)料的文本總數(shù),且T為常數(shù)。由于《中國(guó)語(yǔ)言生活狀況報(bào)告》并未詳細(xì)公布2007至2013年所使用的的語(yǔ)料文本總數(shù),因此在文本總數(shù)的計(jì)算上,2007年至2013年以分布率近乎于1的“的”字的出現(xiàn)文本數(shù)為準(zhǔn),2014至2021年以《年度媒體用字總表說(shuō)明》的實(shí)際文本總數(shù)為準(zhǔn)。此處的常數(shù)T計(jì)算之后為15812431。分布率計(jì)算結(jié)果的部分展示如表4所示。

通過(guò)表4的數(shù)據(jù)及觀察所有前3500字的分布率,可以發(fā)現(xiàn)漢字的文本分布率即分布度跟字頻在整體上存在正相關(guān)的關(guān)系:隨著頻序的增高,字頻的降低,漢字的文本分布率整體上逐漸降低。將這3500字的文本分布率制成散點(diǎn)圖按分布程度聚類,如圖3所示。當(dāng)橫坐標(biāo)頻序逐漸增大時(shí),漢字的分布率整體上也逐漸變小,分布度整體上減弱,但相似頻度段內(nèi)部的漢字分布度不等。如取任一數(shù)值的頻序,相似頻度段內(nèi)的漢字,分布率均有一定的大小差異。

通過(guò)觀察圖3,可以發(fā)現(xiàn)位于前1000頻序的高頻字中有兩個(gè)字的分布率較低,為前1000字的最低值。分別是頻序位于895的“貧”和921的“媽”字,具體分布率情況如表5所示。“貧”“媽”二字相較于前1000頻序的漢字而言分布率較低,效用發(fā)揮的文本范圍相對(duì)較窄?!柏殹弊侄嘟M成“扶貧”“脫貧攻堅(jiān)”等詞,較書(shū)面化,“媽”字多組成“媽媽”或單用,較口語(yǔ)化。

3.4 常用字構(gòu)詞頻維度考察

漢字的效用還可以體現(xiàn)在突破單個(gè)字用的限制,通過(guò)與其他的字組合成詞的能力,即漢字的構(gòu)詞能力。對(duì)于漢字的構(gòu)詞能力,前人已有相關(guān)研究,如張凱(1997)對(duì)《現(xiàn)代漢語(yǔ)常用字表》(1988)3500字的構(gòu)詞能力進(jìn)行了統(tǒng)計(jì)與分級(jí)。本研究參照此思路,以構(gòu)詞頻即生成詞數(shù)為調(diào)查內(nèi)容,體現(xiàn)漢字的構(gòu)詞能力,并將其與字頻、詞頻結(jié)合起來(lái)。

我們通過(guò)對(duì)《中國(guó)語(yǔ)言生活狀況報(bào)告》2007—2021年共15年《年度媒體高頻詞語(yǔ)表》的所有詞種進(jìn)行統(tǒng)計(jì)分析,進(jìn)行漢字的構(gòu)詞數(shù)統(tǒng)計(jì),分析常用字的構(gòu)詞能力。各年度的《年度媒體高頻詞語(yǔ)表》的調(diào)查語(yǔ)料均來(lái)自國(guó)家語(yǔ)言資源監(jiān)測(cè)語(yǔ)料庫(kù),包括平面、有聲、網(wǎng)絡(luò)三種媒體①。具體方法:基于上文的《現(xiàn)代漢字常用字頻度排序表》,將前3500字在歷年《年度媒體高頻詞語(yǔ)表》中的生成詞數(shù)進(jìn)行統(tǒng)計(jì),計(jì)算3500字各個(gè)字的構(gòu)詞頻。統(tǒng)計(jì)結(jié)果展示如下:

通過(guò)表6的數(shù)據(jù)及觀察所有前3500字的構(gòu)詞頻,可以發(fā)現(xiàn)漢字的構(gòu)詞頻即構(gòu)詞能力跟字頻在整體上亦存在一定的正相關(guān)的關(guān)系:隨著頻序的增加,字頻的降低,漢字的構(gòu)詞頻整體上逐漸降低。為了更直觀地展示前3500字歷年構(gòu)詞頻數(shù)據(jù)的全貌,我們將這3500字的構(gòu)詞頻制成散點(diǎn)圖按構(gòu)詞能力聚類,如圖4所示。當(dāng)橫坐標(biāo)頻序逐漸增大時(shí),漢字的構(gòu)詞頻整體上也逐漸變小,構(gòu)詞能力整體上減弱,但相似頻度段內(nèi)部的構(gòu)詞能力不等。如取任一數(shù)值的頻序,相似頻度段內(nèi)的漢字,構(gòu)詞頻均有一定的大小差異。再比如“的”字,盡管字頻表現(xiàn)最突出,但它的構(gòu)詞頻卻比較低。

3.5 常用字構(gòu)字頻維度考察

漢字的生成能力除構(gòu)詞能力以外,構(gòu)字能力也是其重要的屬性特點(diǎn)。有些字的構(gòu)字能力特別強(qiáng),常常作為構(gòu)字部件跟別的部件拼合成另外一些字,邢紅兵(2007:33)對(duì)漢字部件的構(gòu)字情況進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)漢字部件在構(gòu)字能力上是不均勻的。90年前,高本漢曾說(shuō)過(guò):“中國(guó)文字是中國(guó)人精神創(chuàng)造力的產(chǎn)品,并不是從他族借來(lái)的;書(shū)體很美麗可愛(ài),所以中國(guó)人常應(yīng)用它為藝術(shù)裝飾品,而且學(xué)習(xí)起來(lái)也不見(jiàn)得怎么繁難,只需熟悉了幾百個(gè)單體字,就得到了各種合體字里所包含的分子?!保ǜ弑緷h,1931:20)因此,本部分以構(gòu)字頻即構(gòu)成合體字的數(shù)量為調(diào)查內(nèi)容,并將其與字頻結(jié)合起來(lái),測(cè)量《現(xiàn)代漢字常用字頻度排序表》前3500字的能產(chǎn)度。

本研究對(duì)于構(gòu)字頻的統(tǒng)計(jì),是基于現(xiàn)行漢字的“活字”范圍之內(nèi)的,即中國(guó)當(dāng)代語(yǔ)言文字生活中仍在使用的漢字。具體方法如下:首先,對(duì)2007—2021共15年《年度媒體用字總表》的所有字種進(jìn)行統(tǒng)計(jì),共獲得17154個(gè)字種;其次,剔除17154個(gè)字種中的繁體字、異體字、舊計(jì)量用字等非簡(jiǎn)體字字種,剩下12569個(gè)字種;最后,對(duì)12569個(gè)簡(jiǎn)體字字種進(jìn)行拆分,計(jì)算常用字的構(gòu)字能力。對(duì)于漢字的拆分,充分考慮到了字理,遵循以下原則:

(1)一般來(lái)說(shuō),拆至獨(dú)體字:合體字拆,獨(dú)體字不拆。如“冊(cè)”“書(shū)”“刀”“弓”“尸”“單”等字為獨(dú)體字,不作拆分;合體字“蟬”拆為“蟲(chóng),單”,拆到了獨(dú)體字便不繼續(xù)拆。另外,需要注意的是:根據(jù)漢字的造字原理,有的看上去不是特別典型的合體字,實(shí)際上是合體字,能拆分成兩個(gè)或幾個(gè)典型的獨(dú)體字,這樣的情況也拆,比如“看”拆分成“手”和“目”。(2)“草、木、手、水、金、火、刀、言、心、食”等由獨(dú)體字構(gòu)成的偏旁,拆分后維持獨(dú)體字的形狀,其他依據(jù)《信息處理用GB13000.1字符集漢字部件規(guī)范》拆成部件,如果還成字則保持,不成字則刪去。

統(tǒng)計(jì)結(jié)果部分展示如表7。

通過(guò)表7的數(shù)據(jù)可以發(fā)現(xiàn)漢字的構(gòu)字頻即構(gòu)字能力跟字頻的相關(guān)性并沒(méi)有前三個(gè)維度那么顯著。我們認(rèn)為,主要是因?yàn)闈h字之間構(gòu)字頻的差別過(guò)大,只有少部分字具有構(gòu)字能力,極少數(shù)字具有強(qiáng)構(gòu)字能力。因此本研究將3500字中極端大的值去掉,即去掉33個(gè)構(gòu)字頻在100以上的字,保留剩下的3467個(gè)字,將其構(gòu)字頻制作成散點(diǎn)圖按構(gòu)字能力聚類,如圖5所示??梢园l(fā)現(xiàn)構(gòu)字頻即構(gòu)字能力跟字頻仍有一定的相關(guān)性:當(dāng)橫坐標(biāo)頻序逐漸增大時(shí),字頻降低,漢字的構(gòu)字頻整體上也逐漸變小,構(gòu)字能力整體上減弱,但相似頻度段內(nèi)部的構(gòu)字能力不等。如取任一數(shù)值的頻序,相似頻度段內(nèi)的漢字,構(gòu)字頻均有一定的大小差異。

將3500字中構(gòu)字能力最強(qiáng)、構(gòu)字頻在100以上的33個(gè)字按構(gòu)字能力降序排列,如表8所示。這些構(gòu)字能力極強(qiáng)的漢字所代表的大多是從古至今人們?nèi)粘I钪卸贾陵P(guān)重要的事物,如“水”“木”“草”“口”“人”等,這些極少數(shù)的字便可以生成大量的合體字。常用字之間構(gòu)字能力差異顯著,構(gòu)字頻較高的漢字學(xué)習(xí)起來(lái)更加經(jīng)濟(jì)能產(chǎn),這也說(shuō)明將其作為常用字的考察維度之一非常有必要。

4. 基于熵值法的漢字效用綜合測(cè)度

通過(guò)上文的分析,可以發(fā)現(xiàn)字頻只是常用字外顯的屬性,很大程度上受漢字時(shí)空分布能力、生成能力的影響。因此,字頻并不能決定一個(gè)漢字的總體效用。本研究嘗試通過(guò)字頻(X1)、穩(wěn)定性(即頻序方差,X2)、分布率(X3)、構(gòu)詞頻(X4)、構(gòu)字頻(X5)等五個(gè)維度構(gòu)建綜合測(cè)度模型,考察、量化漢字的總效用(Y),構(gòu)建多維度常用字表。

在綜合指標(biāo)體系的測(cè)度中,確定指標(biāo)權(quán)重的方法主要有主觀賦權(quán)法和客觀賦權(quán)法。主觀賦權(quán)法是一類根據(jù)評(píng)價(jià)者主觀上對(duì)各指標(biāo)的重視程度來(lái)決定權(quán)重的方法,客觀賦權(quán)法所依據(jù)的賦權(quán)原始信息來(lái)源于客觀環(huán)境,它根據(jù)各指標(biāo)所提供的信息量來(lái)決定指標(biāo)的權(quán)重。熵值法即是結(jié)合熵值提供的信息值來(lái)確定權(quán)重的一種客觀賦權(quán)法,相對(duì)主觀賦權(quán)具有較高的可信度和精確度,能深刻反映出指標(biāo)的區(qū)分能力。熵值(Entropy)是一種物理計(jì)量單位,熵越大說(shuō)明數(shù)據(jù)越混亂,攜帶的信息越少,效用值越小,因而權(quán)重也越小。熵值法也具有局限性,它僅憑數(shù)據(jù)的波動(dòng)程度,或者說(shuō)所謂的信息量來(lái)獲得權(quán)重,不考慮數(shù)據(jù)的實(shí)際意義,很可能得出違背常識(shí)的結(jié)果。所以,確定權(quán)重前有時(shí)需要確定指標(biāo)對(duì)目標(biāo)得分的影響方向,對(duì)可能使得權(quán)重失真的指標(biāo)要進(jìn)行預(yù)處理或者剔除。故此,盡管熵值法可單獨(dú)進(jìn)行綜合評(píng)價(jià),但因?yàn)檠芯繂?wèn)題的復(fù)雜性,為盡可能避免熵值法計(jì)算權(quán)重的局限性,熵值法通常情況下也會(huì)與其他方法相結(jié)合。

對(duì)于漢字效用綜合測(cè)度,我們認(rèn)為很難通過(guò)人為主觀賦權(quán)達(dá)到理想客觀的測(cè)度結(jié)果,因此本研究采用熵值法客觀賦權(quán),以消除確定權(quán)重的人為主觀因素。為確保結(jié)論的可靠,通過(guò)熵值法構(gòu)建漢字效用綜合測(cè)度模型前,首先通過(guò)相關(guān)分析確認(rèn)有相關(guān)關(guān)系,可進(jìn)行回歸分析;然后通過(guò)線性回歸、分層回歸進(jìn)行檢驗(yàn),確任模型構(gòu)建有意義、模型較好;在以上基礎(chǔ)上再通過(guò)熵值法計(jì)算權(quán)重。我們使用SPSS軟件,基于前文的數(shù)據(jù),以字頻為因變量,穩(wěn)定性(頻序方差)、分布率、構(gòu)詞頻、構(gòu)字頻等四種數(shù)據(jù)作為自變量,先通過(guò)相關(guān)性分析、線性回歸分析、分層回歸分析,對(duì)模型進(jìn)行檢驗(yàn)。結(jié)論如下:(1)發(fā)現(xiàn)字頻與其它四個(gè)維度之間具有顯著的相關(guān)關(guān)系。具體來(lái)說(shuō),字頻和頻序方差之間有著顯著的負(fù)相關(guān)關(guān)系;字頻和分布率之間有著顯著的正相關(guān)關(guān)系;字頻和構(gòu)詞頻之間有著顯著的正相關(guān)關(guān)系;字頻和構(gòu)字頻之間有著顯著的正相關(guān)關(guān)系。(2)發(fā)現(xiàn)模型通過(guò)F檢驗(yàn),模型構(gòu)建有意義;模型中VIF值全部均小于5,意味著不存在共線性問(wèn)題;并且D-W值在數(shù)字2附近,說(shuō)明模型不存在自相關(guān)性,樣本數(shù)據(jù)之間并沒(méi)有關(guān)聯(lián)關(guān)系,模型較好。

在通過(guò)以上檢驗(yàn)的基礎(chǔ)上,本研究熵值法的主要步驟如下:

4.1 數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理

在多維度的綜合測(cè)度中,由于幾組維度指標(biāo)的性質(zhì)不同,具有不同的量綱和數(shù)量級(jí),各類數(shù)值之間的水平相差很大,如果使用原始數(shù)值進(jìn)行分析,就會(huì)突出數(shù)值較高的維度在綜合分析中的作用(如字頻),相對(duì)削弱數(shù)值水平較低維度的作用(如分布率)。因此,為了保證結(jié)果的可靠性,本研究對(duì)原始指標(biāo)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化預(yù)處理。標(biāo)準(zhǔn)化的公式為:

[x-xStd]

其中x表示數(shù)據(jù)的平均值,Std表示數(shù)據(jù)的標(biāo)準(zhǔn)差。將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化之后,取穩(wěn)定性維度頻序方差值的相反值,與其他數(shù)據(jù)保持一致。

4.2 熵值法綜合測(cè)度模型

(1)根據(jù)熵值法的原理及其特性, 建立m(3500)個(gè)評(píng)價(jià)樣本,n(5)個(gè)評(píng)價(jià)維度的初始矩陣為:

X=[X11? ?X12 … X1nX21? ?X22 … X2nX31? ?X32 … X3nXm1? ?Xm2 … Xmn],其中Xij是第i個(gè)漢字的第j項(xiàng)維度指標(biāo)。

(2)計(jì)算第j項(xiàng)維度指標(biāo)下第 i個(gè)漢字占該指標(biāo)的比重:

Pij=[Xijn=1nXij]

(3)計(jì)算第j項(xiàng)維度指標(biāo)的熵值:

eij=-k[n=1nPijln(Pij)],其中k=[1ln(n)]

(4)計(jì)算第j項(xiàng)維度指標(biāo)的差異系數(shù):

gj = 1-ej

對(duì)第j項(xiàng)指標(biāo),指標(biāo)值的差異越大,對(duì)方案評(píng)價(jià)的左右就越大,熵值就越小。則gj越大,指標(biāo)越重要(裴瑋,2020:119-122)。

(5)計(jì)算權(quán)值:

WJ =[gjj=1mgj],其中1≤j≤m

(6)計(jì)算各漢字的多維度綜合效用:

SI=[J=1MWJPij]

4.3 綜合測(cè)度權(quán)重系數(shù)

對(duì)于漢字效用的綜合測(cè)度, 每個(gè)維度指標(biāo)下所有漢字的差異系數(shù)越大, 所得到的熵值越小,該指標(biāo)的相對(duì)權(quán)重越大;差異系數(shù)越小,所得到的熵值越大, 該指標(biāo)的相對(duì)權(quán)重越小。將各維度指標(biāo)的數(shù)值代入公式進(jìn)行計(jì)算,得出各項(xiàng)維度指標(biāo)的熵值和權(quán)重系數(shù),如表9所示:

使用熵值法對(duì)字頻等總共5項(xiàng)進(jìn)行權(quán)重計(jì)算,從上表可以看出:字頻、頻序方差、 分布率、構(gòu)詞頻、構(gòu)字頻總共5項(xiàng),它們的權(quán)重值分別是0.2483、0.0482、0.1718、0.1368、0.3949。因此綜合測(cè)度模型為:

漢字總效用Y=X1*0.2483+X2*-0.0482+X3*0.1718+X4*0.1368+X5*0.3949

X1至X5分別字頻、頻序方差、 分布率、構(gòu)詞頻、構(gòu)字頻。此處0.0482為負(fù)數(shù),是因?yàn)樽诸l和頻序方差之間的相關(guān)系數(shù)值為-0.285,呈現(xiàn)顯著的負(fù)相關(guān)關(guān)系。

其中構(gòu)字頻維度下所有的漢字的差異系數(shù)最大,相對(duì)權(quán)重大。這與我們的經(jīng)驗(yàn)常識(shí)是相符合的,三千多的常用漢字中僅有少部分漢字有著較高的構(gòu)字能力,據(jù)本研究的調(diào)查數(shù)據(jù),近15年《中國(guó)語(yǔ)言生活狀況報(bào)告》媒體用字總表前3500個(gè)高頻字中,構(gòu)字頻大于等于2的漢字僅有955個(gè)、大于等于10的漢字僅有429個(gè)、大于等于100的漢字僅有33個(gè),因此構(gòu)字頻屬于漢字效用綜合測(cè)度的優(yōu)勢(shì)維度,權(quán)重系數(shù)大。而頻序方差的差異系數(shù)相對(duì)較小,熵值最大,權(quán)重系數(shù)最小,這與我們的經(jīng)驗(yàn)常識(shí)也是相符合的:前3500高頻字,這些字本身便都具備了一定的穩(wěn)定性,因而15年總頻次較大,只是相似頻度段內(nèi)部的漢字穩(wěn)定程度不一,因此權(quán)重系數(shù)較小。

4.4 綜合測(cè)度排序結(jié)果

基于前文《現(xiàn)代漢字常用字頻度排序表》中的頻次(X1)、《現(xiàn)代漢字常用字頻度排序表》中的頻序方差(X2)、《現(xiàn)代漢字常用字頻度排序表》中的分布率(X3)、《現(xiàn)代漢字常用字頻度排序表》中的構(gòu)詞頻(X4)、《現(xiàn)代漢字常用字頻度排序表》中的構(gòu)字頻(X5),將數(shù)據(jù)標(biāo)準(zhǔn)化之后使用以上的綜合測(cè)度模型,可以得出漢字效用的總效用值(Y),并按總效用值由大到小排序,構(gòu)建多維度的常用字表,部分計(jì)算結(jié)果如下:

根據(jù)以上的綜合測(cè)度排序結(jié)果,可以發(fā)現(xiàn) “人”“水”“的”位居前三?!叭恕蔽鍌€(gè)維度均展現(xiàn)出突出的數(shù)據(jù)排名,不僅字頻高,而且穩(wěn)定性強(qiáng)、分布度高、構(gòu)詞頻大、構(gòu)字頻大,因此綜合排序第一;“水”字在字頻、穩(wěn)定性、分布度等三個(gè)維度表現(xiàn)較好,在構(gòu)詞頻、構(gòu)字頻兩個(gè)維度中表現(xiàn)突出,因此綜合排序位于第二;“的”字的構(gòu)詞頻、構(gòu)字頻相對(duì)較低,但是在字頻、穩(wěn)定性、分布度三個(gè)方面表現(xiàn)突出。

按照以上的漢字效用綜合測(cè)度排序結(jié)果所形成的多維度常用字表,取1~2500、2501~3500兩個(gè)級(jí)別,具體結(jié)果在文后附表中展示。

與《通用規(guī)范漢字表》(2013)對(duì)比,本研究得出的以上3500字,與一級(jí)字表3500字有336字的差異,具體體現(xiàn)在級(jí)別分布不同:多維度常用字表1~2500字中,有61個(gè)二級(jí)字、1個(gè)三級(jí)字;多維度常用字表2501~3500字中,有271個(gè)二級(jí)字,3個(gè)三級(jí)字。

在以上多維度常用字表中,排序最為靠前的一批字,往往在各維度中均有著較大的優(yōu)勢(shì),綜合起來(lái)看呈現(xiàn)出各方面良好的特征。排序較為靠后的一批字,如2501~3500的1000字,則是在各個(gè)維度表現(xiàn)中有良有劣,可以通過(guò)各維度的排序來(lái)觀察,以2501~2506的5個(gè)字為例,各個(gè)維度的排序表現(xiàn)如表15所示?!盃q駱?biāo)熬尽?個(gè)字的構(gòu)字頻均為0,并列1259位,因此構(gòu)字頻對(duì)這些字的影響相同。其中,“爍”“駱”的穩(wěn)定性為優(yōu)勢(shì)維度,字頻、分布度、構(gòu)詞頻為劣勢(shì)維度;“塌”“桶”的字頻、分布度、構(gòu)詞頻為優(yōu)勢(shì)維度,穩(wěn)定性為劣勢(shì)維度;“揪”的穩(wěn)定性為優(yōu)勢(shì)維度,字頻、分布度、構(gòu)詞頻為劣勢(shì)維度。且以上5個(gè)字各個(gè)維度的優(yōu)劣程度也有著具體的大小差別,據(jù)此可以看出漢字效用多維度測(cè)量對(duì)于常用字排序的影響。當(dāng)然,像“桶”這樣的口語(yǔ)用字未能進(jìn)入前2500字,應(yīng)當(dāng)與我們采用的語(yǔ)料(《中國(guó)語(yǔ)言生活狀況報(bào)告》語(yǔ)言大數(shù)據(jù))中純口語(yǔ)語(yǔ)料仍較少有關(guān)。將來(lái)或可補(bǔ)充海量的(比如與書(shū)面語(yǔ)語(yǔ)料同等體量的)口語(yǔ)語(yǔ)料并進(jìn)行科學(xué)的計(jì)量統(tǒng)計(jì),將高頻用字按“書(shū)口五分法”分為“純書(shū)面用字”“偏書(shū)面用字”“書(shū)口兼用”“偏口語(yǔ)用字”“純口語(yǔ)用字”五類,以此給口語(yǔ)用字(尤其是純口語(yǔ)用字)“加權(quán)”,從而讓總效用值排序更為科學(xué)地反映常用字在書(shū)面語(yǔ)和口語(yǔ)中的實(shí)際效用。

5. 結(jié)語(yǔ)

在新中國(guó)以來(lái)常用字表的制定中,大多是主要通過(guò)字頻的高低來(lái)選取常用字并進(jìn)行分級(jí),其它維度指標(biāo)并沒(méi)有進(jìn)行量化。文章嘗試在前人理論與應(yīng)用研究的基礎(chǔ)上,基于15年《中國(guó)語(yǔ)言生活狀況報(bào)告》的語(yǔ)言大數(shù)據(jù)庫(kù),進(jìn)行漢字效用的量化考察,并使用多種分析方法分析各維度之間的相關(guān)關(guān)系、影響關(guān)系,最終使用熵值法構(gòu)建字頻、穩(wěn)定性(頻序方差)、分布率、構(gòu)詞頻、構(gòu)字頻的綜合測(cè)度模型,按總體效用值降序排列得出了3500數(shù)的多維度常用字表。通過(guò)熵值法構(gòu)建的漢字效用綜合測(cè)度模型,從多個(gè)方面測(cè)量、量化了漢字的效用,得出的排序結(jié)果與以往的字表有著較大的差異。不單單考慮字頻這一維度之后,大量在穩(wěn)定性、分布度、構(gòu)詞構(gòu)字能力等維度具有突出優(yōu)勢(shì)的常用字躋身字表前列,如前二十字中“人水口木草手心一日大金土女火山”等,均是各方面效用都較為突出的常用字。

本研究關(guān)于常用字表的多維度指標(biāo)構(gòu)建的理念以及研究方法,期待能為現(xiàn)代漢字的研究、常用字表的制定、中小學(xué)語(yǔ)文基礎(chǔ)教育教材及國(guó)際中文教育教材的用字選字等提供一些可供參考的數(shù)據(jù)和結(jié)論。而文中提到的“書(shū)口五分法”“純口語(yǔ)加權(quán)”等更多進(jìn)一步的、扎實(shí)細(xì)致的調(diào)查,我們將持續(xù)進(jìn)行,以期字表構(gòu)建更加科學(xué)地反映常用字在書(shū)面語(yǔ)和口語(yǔ)中的實(shí)際效用。

[參考文獻(xiàn)]

陳明星,陸大道,張 華 2009 中國(guó)城市化水平的綜合測(cè)度及其動(dòng)力因子分析[J].地理學(xué)報(bào)(4).

費(fèi)錦昌 1988 常用字的性質(zhì)、特點(diǎn)及其選取標(biāo)準(zhǔn)[J].語(yǔ)文學(xué)習(xí)(9).

馮志偉 1989 現(xiàn)代漢字和計(jì)算機(jī)[M].北京:北京大學(xué)出版社.

高本漢 1931 中國(guó)語(yǔ)與中國(guó)文[M].北京:商務(wù)印書(shū)館.

高家鶯,范可育,費(fèi)錦昌 1993 現(xiàn)代漢字學(xué)[M].北京:高等教育出版社.

國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 2008a 中國(guó)語(yǔ)言生活狀況報(bào)告2007(上)[M].北京:商務(wù)印書(shū)館.

——— 2008b 中國(guó)語(yǔ)言生活狀況報(bào)告2007(下)[M].北京:商務(wù)印書(shū)館.

——— 2009a 中國(guó)語(yǔ)言生活狀況報(bào)告2008(上)[M].北京:商務(wù)印書(shū)館.

——— 2009b 中國(guó)語(yǔ)言生活狀況報(bào)告2008(下)[M].北京:商務(wù)印書(shū)館.

——— 2010a 中國(guó)語(yǔ)言生活狀況報(bào)告2009(上)[M].北京:商務(wù)印書(shū)館.

——— 2010b 中國(guó)語(yǔ)言生活狀況報(bào)告2009(下)[M].北京:商務(wù)印書(shū)館.

——— 2011 中國(guó)語(yǔ)言生活狀況報(bào)告2011[M].北京:商務(wù)印書(shū)館.

——— 2012 中國(guó)語(yǔ)言生活狀況報(bào)告2012[M].北京:商務(wù)印書(shū)館.

——— 2013 中國(guó)語(yǔ)言生活狀況報(bào)告2013[M].北京:商務(wù)印書(shū)館.

——— 2014 中國(guó)語(yǔ)言生活狀況報(bào)告2014[M].北京:商務(wù)印書(shū)館.

——— 2015 中國(guó)語(yǔ)言生活狀況報(bào)告2015[M].北京:商務(wù)印書(shū)館.

——— 2016 中國(guó)語(yǔ)言生活狀況報(bào)告2016[M].北京:商務(wù)印書(shū)館.

——— 2017 中國(guó)語(yǔ)言生活狀況報(bào)告2017[M].北京:商務(wù)印書(shū)館.

——— 2018 中國(guó)語(yǔ)言生活狀況報(bào)告2018[M].北京:商務(wù)印書(shū)館.

——— 2019 中國(guó)語(yǔ)言生活狀況報(bào)告2019[M].北京:商務(wù)印書(shū)館.

——— 2020 中國(guó)語(yǔ)言生活狀況報(bào)告2020[M].北京:商務(wù)印書(shū)館.

——— 2021 中國(guó)語(yǔ)言生活狀況報(bào)告2021[M].北京:商務(wù)印書(shū)館.

——— 2022 中國(guó)語(yǔ)言生活狀況報(bào)告2022[M].北京:商務(wù)印書(shū)館.

李如龍 2016 漢字的發(fā)展脈絡(luò)和現(xiàn)實(shí)走向[J].社會(huì)科學(xué)文摘(1).

——— 2018 漢字雙重性質(zhì)論綱[J].漢字漢語(yǔ)研究(4).

劉 華 2010a 詞語(yǔ)計(jì)算與應(yīng)用[M].廣州:暨南大學(xué)出版社.

——— 2010b 東南亞主要華文媒體用字情況調(diào)查[J].華文教學(xué)與研究(1).

——— 2020 語(yǔ)料庫(kù)語(yǔ)言學(xué)——理論、工具與案例[M].北京:外語(yǔ)教學(xué)與研究出版社.

裴 瑋 2020 基于熵值法的城市高質(zhì)量發(fā)展綜合評(píng)價(jià)[J]. 統(tǒng)計(jì)與決策(36).

史曉東,王博立 2015 臺(tái)灣漢字使用狀況,中國(guó)語(yǔ)言生活狀況報(bào)告2015[M].北京:商務(wù)印書(shū)館.

蘇培成? ?2010 當(dāng)代中國(guó)的語(yǔ)文改革和語(yǔ)文規(guī)范[M].北京:商務(wù)印書(shū)館.

——— 2019 現(xiàn)代漢字學(xué)綱要(第3版)[M].北京:商務(wù)印書(shū)館.

王 寧(主編),李宇明、王鐵琨(審定) 2013 通用規(guī)范漢字表解讀[M].北京:商務(wù)印書(shū)館.

王衍軍 2009 20世紀(jì)50年代以來(lái)對(duì)外漢語(yǔ)精讀教材用字情況調(diào)查——以五套對(duì)外漢語(yǔ)精讀教材為例[J]. 暨南大學(xué)華文學(xué)院學(xué)報(bào)(華文教學(xué)與研究)(2).

吳 茗 2008 現(xiàn)代漢語(yǔ)常用語(yǔ)素項(xiàng)屬性研究[D].中國(guó)傳媒大學(xué)博士學(xué)位論文.

邢紅兵 2007 現(xiàn)代漢字特征分析與計(jì)算研究[M].北京:商務(wù)印書(shū)館.

尹斌庸,方世增 1994 詞頻統(tǒng)計(jì)的新概念和新方法[J].語(yǔ)言文字應(yīng)用(2).

張 軍 2014 傈僳族新老文字使用問(wèn)題,中國(guó)語(yǔ)言生活狀況報(bào)告2013[M]. 北京:商務(wù)印書(shū)館.

張 凱 1997 漢語(yǔ)構(gòu)詞基本字的統(tǒng)計(jì)分析[J].語(yǔ)言教學(xué)與研究(1).

張 普 1992 關(guān)于語(yǔ)感與流通度的思考[J].語(yǔ)言教學(xué)與研究(2).

張艷梅,呂 展 2022 從當(dāng)前漢字使用情況調(diào)查看《現(xiàn)代漢語(yǔ)常用字表》[J].華文教學(xué)與研究(4).

張宇鐳,黨 琰,賀平安 2005 利用Pearson相關(guān)系數(shù)定量分析生物親緣關(guān)系[J].計(jì)算機(jī)工程與應(yīng)用(33).

趙 雪,魯瑾芳,劉一凡 2018 北京城區(qū)社會(huì)用字調(diào)查研究[J].語(yǔ)言文字應(yīng)用(2).

周美玲,蘇新春 2009 四套基礎(chǔ)教育語(yǔ)文教材的用字狀況調(diào)查及思考——基于人教、蘇教、北師大、語(yǔ)文版教材[J].上海教育科研(4).

周有光 1980 現(xiàn)代漢字學(xué)發(fā)凡[J].語(yǔ)言現(xiàn)代化叢刊(2).

——— 2009 中國(guó)語(yǔ)文的時(shí)代演進(jìn)[M].北京:人民文學(xué)出版社.

威廉H·格林 1998 經(jīng)濟(jì)計(jì)量分析[M].北京:中國(guó)社會(huì)科學(xué)出版社.

Hauke, J. & T. Kossowski 2011 Comparison of values of Pearsons and Spearmans correlation coefficients on the same sets of data[J]. Quaestiones Geographicae(30).

On construction of a commonly used glossary based on multidimensional entropy examination

ZHANG Yanmei1, LI Rulong2, LV Zhan3

(1. School of Foreign Languages, Wuhan Institute of Technology, Wuhan, Hubei 430205, China; 2. Department of Chinese Language and Literature, Xiamen University, Xiamen, Fujian 361005, China; 3. College of Chinese Language and

Culture, Jinan University, Guangzhou, Guangdong 510610, China)

Key words: commonly used characters; glossary of commonly used characters; utility of Chinese characters; entropy method

Abstract: In addition to the external characteristics of character frequency, commonly used characters should possess stability, wide distribution, and the ability to form new characters and words. Chinese characters used to be examined on the basis of corpus selection, but it was not possible to quantify the characteristics of each character in different dimensions, and eventually the glossary was constructed mainly through character frequency. Based on the language data from Language Situation in China (2007-2021), the article examines and analyzes the character frequency, stability, distribution and word-formation frequency and character-formation frequency in detail. And the entropy method was used to establish a comprehensive model for measuring the utility of Chinese characters and to construct a multi-dimensional glossary of commonly used characters. The comprehensive model built by entropy method measures and quantifies the utility of Chinese characters in a number of ways, and the ranking results are significantly different from those of previous glossaries. Once the research considers not only character frequency, but also the stability, distribution, and word-formation ability of characters from multiple dimensions, a large number of commonly used characters with these significant characteristics will occupy top positions in the glossary. Therefore, a glossary of commonly used characters created from comprehensive consideration is more scientific and logical.

【責(zé)任編輯 匡小榮】

[收稿日期] 2023-09-27

[作者簡(jiǎn)介] 張艷梅,女,主要研究方向?yàn)楣盼淖謱W(xué)、漢字學(xué)、國(guó)際中文教育、出土文獻(xiàn)語(yǔ)言研究,576720717

@qq.com;李如龍,男,主要研究方向?yàn)闈h語(yǔ)方言學(xué)、漢語(yǔ)音韻學(xué)、漢字學(xué)、漢語(yǔ)詞匯學(xué)、漢語(yǔ)地名學(xué)、社會(huì)語(yǔ)言學(xué)、應(yīng)用語(yǔ)言學(xué)(包括國(guó)際中文教育、語(yǔ)文教育等),lirulongchina@126.com;呂展,男,主要研究方向?yàn)橛?jì)量語(yǔ)言學(xué)、國(guó)際中文教育,1181203904@qq.com。本文通訊作者:呂展。

[基金項(xiàng)目] 教育部中外語(yǔ)言交流合作中心2022年國(guó)際中文教育研究中外聯(lián)合專項(xiàng)課題“基于《國(guó)際中文教育中文水平等級(jí)標(biāo)準(zhǔn)》的漢字分級(jí)讀物《漢字會(huì)說(shuō)話》”(22YH29ZW);2021年湖北省高等學(xué)校教學(xué)研究項(xiàng)目 “趣話漢字故事—《漢字與文化》社會(huì)實(shí)踐一流課程建設(shè)”(2021323);2020年湖北省高等學(xué)校哲學(xué)社會(huì)科學(xué)研究重大項(xiàng)目(省社科基金前期資助項(xiàng)目)“中華優(yōu)秀漢字文化融入大中小學(xué)教育研究”(20ZD049)

① 論文修改過(guò)程中先后蒙教育部語(yǔ)言文字應(yīng)用研究所馮志偉先生,暨南大學(xué)華文學(xué)院王漢衛(wèi)教授、邵宜教授、劉華教授,廈門(mén)大學(xué)國(guó)際中文教育學(xué)院/海外教育學(xué)院張靈芝副教授及《華文教學(xué)與研究》匿名審稿專家指教,謹(jǐn)此一并致以誠(chéng)摯的謝意。唯文責(zé)自負(fù)。

1? 高頻字種指的是頻次較高的字種,如表1中的“的”“一”“在”。

② 正如周有光先生所提出的“漢字效用遞減率”,常用范圍之外的漢字效用已然很低。因此本研究對(duì)于常用字各個(gè)維度的分析考察,均以3500數(shù),即以《通用規(guī)范漢字表》(2013)所設(shè)置的常用字?jǐn)?shù)為限,并不擴(kuò)大到通用范圍和專用范圍。

1 為方便廣大讀者使用國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心的研究成果,實(shí)現(xiàn)語(yǔ)言資源共享,《中國(guó)語(yǔ)言生活狀況報(bào)告》從2011年開(kāi)始,用光盤(pán)形式呈現(xiàn)語(yǔ)言數(shù)據(jù)。據(jù)我們統(tǒng)計(jì),光盤(pán)呈現(xiàn)的2010—2021年《高頻詞語(yǔ)表》收錄詞種數(shù)共35904個(gè)。

1 本研究在漢字拆分時(shí)兼顧了字理,左耳旁“阝”與右耳旁“阝”拆為了“阜”“邑”二字,使“阜”“邑”二字的構(gòu)字頻與綜合效用值極高,最終的排序分別為252、178??紤]到“阜”“邑”二字作為部首但字形已發(fā)生改變,且字頻、穩(wěn)定性、分布度、構(gòu)詞頻等其余四個(gè)維度的表現(xiàn)較為一般,本文將其稍作處理,排到“綜合效用值前2500字”的最后兩位。

猜你喜歡
常用字熵值法
關(guān)于常用字覆蓋率統(tǒng)計(jì)算法的研究
古代頭衣常用字“帽、冠、巾”的演變研究
小學(xué)一年級(jí)學(xué)習(xí)常用字和生字表對(duì)比研究
“壓力—狀態(tài)—響應(yīng)”模型下城市土地集約利用水平
應(yīng)用型高校實(shí)踐教學(xué)質(zhì)量評(píng)價(jià)指標(biāo)體系研究
基于改進(jìn)突變級(jí)數(shù)的農(nóng)產(chǎn)品流通體系建設(shè)績(jī)效研究
灰色關(guān)聯(lián)模型在白酒企業(yè)財(cái)務(wù)競(jìng)爭(zhēng)力評(píng)價(jià)中的應(yīng)用
基于主成分分析法及熵值法結(jié)合的耕地集約利用時(shí)空變化
根字練習(xí)(十九)
常用字辨正——“己-巳-已”