国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向分級閱讀的分級詞表研制*

2022-07-20 01:54:24吳云芳胡章樹王迎蘭
辭書研究 2022年4期
關(guān)鍵詞:詞表童書學(xué)段

吳云芳 胡章樹 王迎蘭

分級閱讀,是指根據(jù)兒童的身心發(fā)展規(guī)律,給不同的兒童提供適合其閱讀水平的文本讀物。文本閱讀難度分級,是對于給定的文本,根據(jù)其中的詞語、句法、語義、篇章等特征,計算機(jī)自動判斷其閱讀難度,進(jìn)而推薦給適合的讀者。早在2011年,國務(wù)院就頒布《中國兒童發(fā)展綱要(2011—2020年)》,提出“推廣面向兒童的圖書分級制,為不同年齡的兒童提供適合其年齡特點(diǎn)的圖書,為兒童家長選擇圖書提供建議和指導(dǎo)”的要求。

教育部于2019年頒布了《義務(wù)教育常用詞表》(以下簡稱《義務(wù)詞表》)(蘇新春 2019),由專家學(xué)者歷經(jīng)多年潛心研制而成。不同于前人主要依靠專家人工評定的方法,面向漢語分級閱讀,本文研制的現(xiàn)代漢語分級詞表主要基于大規(guī)模語料庫的統(tǒng)計分析,遵循詞語在實際語料中的使用規(guī)律,采用計算機(jī)自動處理與人工審核相結(jié)合的方式。本文分級詞表構(gòu)建努力追求的目標(biāo)是:

1) 主要依據(jù)大規(guī)模語料的統(tǒng)計分析;

2) 盡可能地由計算機(jī)自動處理,將專家的人工勞動減到最少;

3) 構(gòu)建流程透明化、規(guī)范化,總體上可復(fù)現(xiàn);

4) 詞表能夠快速地構(gòu)建,能夠隨時代便捷地迭代更新。

本文構(gòu)建的分級詞表主要依據(jù)大規(guī)模語料庫的詞頻分析。早在20世紀(jì)30年代,葉圣陶先生就指出了詞匯量化對課本編輯的重要意義(賴華強(qiáng) 2006):“如果把目前通行的書報作為依據(jù),統(tǒng)計其中每個詞的出現(xiàn)次數(shù),把得票最多的若干詞組織在課本里頭,我想,讀了這課本的人固然不能夠就去閱讀《五經(jīng)》或者《史》《漢》,但是看看《申報周刊》,或者《現(xiàn)代十國論》,該不會有‘面熟陌生’的憾事了?!?0世紀(jì)60年代,呂叔湘先生指出:“關(guān)于詞的出現(xiàn)頻率的研究就很重要。西方國家特別是美國幾十年前就有人做這種統(tǒng)計。這種材料對編教科書編詞典都很有用處?!保ㄙ嚾A強(qiáng) 2006)2019年頒布的《義務(wù)教育常用詞表》也將詞頻高低作為詞表分級的主要依據(jù)之一。

下文我們將介紹分級詞表所依據(jù)的語料庫、選詞的基本原則、構(gòu)建的基本流程,并分析詞表的詞語分布狀況。期望本文所構(gòu)建的分級詞表能服務(wù)于漢語分級閱讀,成為專家詞表的有益補(bǔ)充。

一、漢語分級語料庫的構(gòu)建及詞匯分析

文本難度的自動分級、分級詞表的構(gòu)建都需要以大規(guī)模的分級語料庫為基礎(chǔ),因此我們構(gòu)建了較大規(guī)模的漢語分級閱讀語料庫,包括教材語料庫和童書語料庫。

教材語料庫。通過不同的途徑,包括網(wǎng)絡(luò)檢索和人工錄入等方式,我們搜集了國內(nèi)多個出版社的中小學(xué)語文教材課文,包括部編版、人教版、北師大版、蘇教版等多種版本,對文本進(jìn)行了格式處理和文字核對。配合漢語分級閱讀系統(tǒng)的程序?qū)嶒灒コ似渲械脑姼韬臀难晕摹?/p>

童書語料庫。主要通過人工錄入的方式,整理了約400本經(jīng)典的兒童圖書。進(jìn)一步根據(jù)教育部《中小學(xué)生閱讀指導(dǎo)目錄(2020年版)》以及《愛閱小學(xué)圖書館基本配備書目》2018年版為每一本圖書賦予了一個級別標(biāo)簽。

網(wǎng)頁文本語料。此外,通過搜索引擎,從超大規(guī)模網(wǎng)絡(luò)文本中抽取出了所有詞語,將之作為本文詞表構(gòu)建的重要參考。

在初始語料的基礎(chǔ)上,利用自動分詞軟件pkuseg(Luoet al. 2019)對所有文本進(jìn)行了分詞和詞性標(biāo)注,進(jìn)而對漢語詞匯運(yùn)用情況進(jìn)行了統(tǒng)計分析。上述不同語料庫的字頻、詞頻統(tǒng)計信息請見表1所示。

表1 三種語料的字?jǐn)?shù)與詞數(shù)信息

依據(jù)三種不同的語料庫,構(gòu)建了三個按照詞頻降序排列的詞語列表(如表2所示),這些是進(jìn)行分級詞表構(gòu)建的原始素材。

表2 三種語料前10位高頻詞語

教材文本、童書語料、網(wǎng)頁語料面向不同的閱讀對象,關(guān)注不同的內(nèi)容主題,在語言使用、詞匯運(yùn)用上存在差異。為了考察不同語料在詞語使用上的異同,我們統(tǒng)計了不同語料之間的斯皮爾曼(Spearman)相關(guān)系數(shù),如表3、表4所示。斯皮爾曼系數(shù)反映了兩個變量之間的相關(guān)性:0.8—1.0表示極強(qiáng)相關(guān),0.6—0.8表示強(qiáng)相關(guān),0.4—0.6表示中等程度相關(guān),0.2—0.4表示弱相關(guān),0.0—0.2表示極弱相關(guān)或不相關(guān)。

表3 前90%詞語

表4 前80%詞語

上述統(tǒng)計結(jié)果與人們的直觀認(rèn)識相符合,我們可以觀察到:

1) 教材文本與童書語料在詞匯運(yùn)用上極強(qiáng)相關(guān),提示兩者可以合并考察;

2) 網(wǎng)頁語料與教材文本、童書語料弱相關(guān),這說明教材文本、童書語料的詞語使用與網(wǎng)頁語料存在較大差距,提示在分級詞表構(gòu)建中需要合理收入部分網(wǎng)頁詞語,以滿足生活閱讀的實際需求。

3) 網(wǎng)頁語料、童書語料的相關(guān)性大于網(wǎng)頁語料、教材文本的相關(guān)性,說明在詞語運(yùn)用規(guī)范方面:教材>童書>網(wǎng)頁。

二、分級詞表的規(guī)模和等級設(shè)定

分級詞表構(gòu)建要回答的第一個問題是:一共要收錄多少詞語呢?

《義務(wù)教育常用詞表》一共收錄了15114個詞目,按照學(xué)段劃分為四級。面向?qū)ν鉂h語教學(xué),《國際中文教育中文水平等級標(biāo)準(zhǔn)》(2021) 收錄了三等九級共11092個詞目。而早期的《漢語水平詞匯與漢字等級大綱》(1992) 僅收錄了8822個詞語。

青少年兒童認(rèn)識多少詞就能滿足閱讀需求呢?我們對教材、童書、網(wǎng)頁語料中的高頻詞語進(jìn)行了統(tǒng)計分析,不同語料中的詞頻分布都符合齊夫定律(Zipf)定律。三種語料中高頻詞的累加頻率分布如表5所示。

表5 三種語料詞語的累加頻率分布

雖然三種語料的總詞匯量差別巨大,但是累加頻率的詞匯量分布大體相當(dāng)。具體而言,14350個詞語覆蓋到教材語料的90%,14552個詞語覆蓋到童書語料的86%,14991個詞語覆蓋到網(wǎng)頁語料的87%。由此推知,1.4萬—1.5萬詞匯量就基本能夠滿足閱讀需求,因此我們初步選擇 1.5萬個候選詞語進(jìn)入分級詞表。

《義務(wù)教育常用詞表》按照學(xué)段設(shè)定的分級詞表稍顯粗略,每級詞表包含太多詞語而不具區(qū)分性,例如二級詞包含5503個詞語,三級詞包含5975個詞語。本文依年級區(qū)分,劃分為七級詞表,一—六級分別對應(yīng)1—6年級,七級對應(yīng)初中階段。后期研究中,根據(jù)需要可以將一—二級詞語合并為第一學(xué)段,三—四級合并為第二學(xué)段,五—六級合并為第三學(xué)段,初中為第四學(xué)段。

按照由易到難、循序漸進(jìn)的原則,并參考前人的成果,各級詞表數(shù)目初步設(shè)定為:一級600,二級1200,三級1800,四級2400,五級2800,六級3200,七級3600,總計1.56萬個詞語。

三、分級詞表的選詞方法

本文的分級詞表構(gòu)建基于大規(guī)模語料庫,將詞頻作為劃分詞語難度等級的主要依據(jù)。

網(wǎng)頁語料反映了語言在現(xiàn)實生活中的真實運(yùn)用情況,教材文本是專家們精心編選的名著作品,童書是對教材文本的有益補(bǔ)充與拓展。根據(jù)表3、表4的統(tǒng)計分析,教材和童書在詞匯使用上高度相關(guān),為了擴(kuò)大語料規(guī)模,選詞時將兩者合并考察。但網(wǎng)頁語料與教材文本差異很大,考慮到詞匯學(xué)習(xí)的語言交際與應(yīng)用功能,分級詞表應(yīng)適當(dāng)選擇部分網(wǎng)頁詞語作為補(bǔ)充。例如,“手機(jī)”和“超市”在日常生活中使用頻繁,在網(wǎng)頁語料的頻率詞表中,“手機(jī)”排位第26,“超市”排位第760。但是,這兩個詞在教材語料中的出現(xiàn)頻率都非常低(在人教版教材中均沒有出現(xiàn),在北師大版教材中都僅出現(xiàn)1次)。這提示我們,在重點(diǎn)關(guān)注教材語料詞語的同時,需要兼顧網(wǎng)頁語言的實際應(yīng)用情況。

網(wǎng)頁詞匯對教材語料的補(bǔ)充體現(xiàn)在兩個方面:(1) 對于一些高頻使用的新詞,補(bǔ)充進(jìn)分級詞表;(2) 對于一些在網(wǎng)頁中使用頻繁,而在教材語料中出現(xiàn)次數(shù)較少的詞語,降低其難度級別。

經(jīng)過多次嘗試,我們制定了選詞規(guī)則:每級候選詞=90%教材童書詞語+10%網(wǎng)頁語料詞語。對教材童書語料和網(wǎng)頁語料的詞語按照出現(xiàn)頻率分別從高到低排序,根據(jù)前文所設(shè)定的分級詞語數(shù)目,選定一個頻率斷點(diǎn),即得到一—七級的候選詞語列表。在具體選詞過程中,從低到高逐級選擇,每級先教材童書語料再網(wǎng)頁語料。

分級詞表數(shù)據(jù)庫以“級別”為單位來組織詞語。對于詞表中的每一條詞目,設(shè)定三個字段:詞語,詞頻,語料來源,如表6所示。

表6 一級詞語呈現(xiàn)示例

詞語是分級詞表呈現(xiàn)的主要對象。不同于前人詞表,分級詞表將如實列出詞語在語料庫中出現(xiàn)的頻率。詞語的難易度是個相對的序列問題,級別的區(qū)分只是人為的一種劃定。給定“詞頻”,對于詞語的使用狀況就有了清晰的顯示,在同一個級別下對于詞語難度也有了一定的區(qū)分,還便于后期的其他應(yīng)用。給定“語料來源”,明示了選詞的來源,由于網(wǎng)絡(luò)詞匯變化較快,依據(jù)“語料來源”,將來可以快速更新網(wǎng)絡(luò)詞語。

四、詞語的批量預(yù)處理

本文的分級詞表構(gòu)建盡可能應(yīng)用了計算機(jī)程序來自動處理,以減少專家的人工勞動。面向中小學(xué)閱讀和學(xué)習(xí),分級詞表規(guī)模有限,要盡量收錄有價值的學(xué)習(xí)型詞語;而對于具有能產(chǎn)性、類推性的詞語,則不宜收錄。基于大規(guī)模語料庫的頻率詞表,利用程序進(jìn)行了預(yù)處理,批量刪除了一些不宜收入的詞語。

(一) 基于《現(xiàn)代漢語詞典》和《現(xiàn)代漢語語法信息詞典》的“非詞”排除

候選詞語是基于語料利用自動分詞軟件切分得到的詞語,但可能存在一些非詞的分詞碎片。還有一些片段,從自然語言處理的角度被當(dāng)作了“詞”,但不是學(xué)習(xí)意義上的詞語。因此,利用《現(xiàn)代漢語詞典》第5版(以下簡稱《現(xiàn)漢》)對詞語進(jìn)行了過濾,即刪除了那些不在《現(xiàn)漢》中的詞語。但是,人工觀察詞表發(fā)現(xiàn),《現(xiàn)漢》收詞嚴(yán)格(或者是所依據(jù)的電子版本不完全、有遺漏),有些常用的詞語并沒有收錄。因此,我們進(jìn)一步依據(jù)北京大學(xué)的《現(xiàn)代漢語語法信息詞典》(俞士汶 1998,以下簡稱《語法詞典》)進(jìn)行補(bǔ)充,將雖然沒有在《現(xiàn)漢》中出現(xiàn)但是出現(xiàn)在《語法詞典》的部分詞收入分級詞表。

操作中,我們編寫程序刪除了“同時”不在《現(xiàn)漢》和《語法詞典》中的語言片段,部分刪除的非詞如表 7所示。對于教材童書中的“非詞”直接刪除;而對于網(wǎng)頁語料中的“非詞”則添加一個刪除標(biāo)記,等待進(jìn)一步人工審核,以保留部分新詞補(bǔ)充到分級詞表中。

表7 基于《現(xiàn)漢》和《語法詞典》刪除的“非詞”示例

(二) 刪除專有名詞

因分級詞表主要收錄語文詞而不收錄地名、人名等專有名詞,故我們編寫計算機(jī)程序,根據(jù)詞性標(biāo)記刪除了詞表中的人名、地名、時間詞、數(shù)詞等。

(三) 刪除組合疊加詞

組合疊加詞數(shù)量眾多,可以類推產(chǎn)生,也不宜收入分級詞表,故我們編寫計算機(jī)程序,刪除了以下類型的組合疊加詞。

1) 由趨向動詞結(jié)尾組成的組合詞,趨向動詞包括“來、去、上、下、進(jìn)、出、回、過、起、開、到”,例如“出來” “看到” “想起” “走進(jìn)” “拿出”等。

2) 刪除重疊詞,例如“慢慢” “深深” “靜靜” “輕輕”等。

3) 刪除“一月”“二月”“星期一”“星期二”這樣的時間數(shù)詞組合形式。

(四) 刪除網(wǎng)頁語料的單字詞

我們希望通過網(wǎng)頁語料來補(bǔ)充一些新出現(xiàn)的、高頻使用的詞語。新出現(xiàn)的詞語絕大多數(shù)是兩字詞或者三字詞,因此我們編寫程序刪除了網(wǎng)頁語料中的單字詞。

五、網(wǎng)頁語料詞表的人工審核

按照上文分級詞表規(guī)模和等級的初步設(shè)定,我們根據(jù)網(wǎng)頁語料的詞頻表收錄了約 15600*10% =1560個詞語。將網(wǎng)頁詞語加入分級詞表需要分外小心,仔細(xì)斟酌。

經(jīng)過上述程序的批量預(yù)處理后,在網(wǎng)頁詞頻表中未在《現(xiàn)漢》和《語法詞典》中出現(xiàn)的語言片段被添加了刪除標(biāo)記,專有名詞、組合疊加詞、單字詞已被刪除。而后,課題組聘請了一位漢語詞匯語義專家對網(wǎng)頁語料中的高頻詞語進(jìn)行了仔細(xì)篩選,又經(jīng)本文作者多遍審核,選出約 2000個候選詞語加入詞表。

由表 8可以看出,擬擴(kuò)充分級詞表的網(wǎng)絡(luò)詞語主要有兩種。一種是應(yīng)用廣泛、關(guān)涉現(xiàn)代科技的一些詞語,例如“手機(jī)”“視頻” “微信”“下載”等,這些詞語可能未在教材童書語料中出現(xiàn),但應(yīng)作為新詞補(bǔ)充進(jìn)分級詞表。另一種是生活交際中的常用詞語,例如“公司” “圖片” “英語” “作文”等,這些詞語在教材童書語料中出現(xiàn)次數(shù)少,但由于在網(wǎng)頁語料中高頻出現(xiàn),將降低其難度級別列入分級詞表。

表8 高頻網(wǎng)絡(luò)詞語示例

六、基于《義務(wù)教育常用詞表》的調(diào)整

本文基于大規(guī)模語料庫的詞頻分析來構(gòu)建分級詞表,也充分借鑒、參考了前人的研究成果。蘇新春教授歷經(jīng)多年編著的《義務(wù)詞表》,凝聚了豐富的專家知識,為我們提供了很好的參照和基礎(chǔ)。

我們將目前階段的分級詞表候選詞與《義務(wù)詞表》做了對比分析,結(jié)果如下:

兩個詞表共有詞:8987,占比:8987/15600=57.6%。

在分級詞表但不在《義務(wù)詞表》中的詞:6613,占比6613/15600=42.4%。

在《義務(wù)詞表》但不在分級詞表中的詞:5238,其中成語有 2238 個,成語占比 2238/ 5238=42.7%。

(一) 人工審核在分級詞表但不在《義務(wù)詞表》中的詞

分級詞表的候選集中有6613個詞語未出現(xiàn)在《義務(wù)詞表》中,對這些詞語,我們聘請專家進(jìn)行了仔細(xì)的人工審核,刪除了以下類型的詞語共計2273個:

1) 一些組合詞,如“心中”“大樹”等;

2) 一些不常用或者表義不清的單字詞,如“備”“稟”“昂”等;

3) 一些重疊詞,如“安安靜靜”“匆匆忙忙”等;

4) 一些口語色彩明顯的詞,如“行不通” “夠嗆” “吊死”等。

(二) 人工增加部分在《義務(wù)詞表》但不在分級詞表中的成語

在《義務(wù)詞表》但不在分級詞表中的詞語有5238個,其中42.7%是成語?!读x務(wù)詞表》利用專家的經(jīng)驗知識收錄了一些成語,而大多成語在真實語言運(yùn)用中并未頻繁出現(xiàn),因此未能進(jìn)入分級詞表的候選詞集。為了文化傳承和書面語言的學(xué)習(xí),我們認(rèn)為分級詞表需要增加收錄部分成語。

因此,對于在《義務(wù)詞表》而不在分級詞表中的2238個成語,我們在教材童書語料中進(jìn)行了檢索,共出現(xiàn)有1081個成語。對這1081個成語,專家人工進(jìn)行了甄別并標(biāo)記了難度等級,將其中1032個成語補(bǔ)充收錄至分級詞表。表 9是分級詞表中的部分成語及其分級。

表9 增加的部分成語示例

七、基于《語文課程標(biāo)準(zhǔn)》的調(diào)整

教育部制定的《義務(wù)教育語文課程標(biāo)準(zhǔn)》(2011年版) 列出了“識字、寫字教學(xué)基本字表”,包含300個漢字,明確指出“這些字應(yīng)作為第一學(xué)段教科書中識字、寫字教學(xué)的基本內(nèi)容”。同時列出了“義務(wù)教育語文課程常用字表”,包含常用漢字 3500個。漢字是通過詞語承載的,中小學(xué)生在學(xué)習(xí)詞語的同時也即學(xué)習(xí)了漢字。根據(jù)課程標(biāo)準(zhǔn),我們進(jìn)一步對分級詞表的候選詞做出了調(diào)整。

(一) 基本字表的 300 字應(yīng)被一—二級詞表全覆蓋

基本字表中的300個漢字按規(guī)定應(yīng)該在第一學(xué)段掌握。經(jīng)程序統(tǒng)計,基本字表中有 18 個漢字在候選詞表中沒有出現(xiàn),分別是:

我們對候選詞表進(jìn)行了人工調(diào)整,規(guī)則如下:1) 在高級別的詞表中查找包含上述字首次出現(xiàn)的詞語,將其調(diào)整到第一學(xué)段;2) 級別調(diào)整時,優(yōu)先調(diào)整入距離相近的級別,再結(jié)合人工經(jīng)驗知識加以判斷。表 10列出了根據(jù)上述規(guī)則所做的一些詞語的級別 調(diào)整。

表10 根據(jù)基本字表的部分詞語的級別調(diào)整

是否存在“詞不越字”的規(guī)則呢?即第一學(xué)段詞表中包含的字不能超越基本字表中的字。我們對候選一二級詞表進(jìn)行了統(tǒng)計,發(fā)現(xiàn)這樣的字共有 1555 個,全部刪除顯然不合適,因此這條規(guī)則不適用。

(二) 常用字表的3500字應(yīng)被一—七級詞表全覆蓋

在義務(wù)教育階段,應(yīng)該掌握常用字表中的 3500 個字。對應(yīng)到分級詞表,這3500個字應(yīng)該被一—七級詞語全部覆蓋。

經(jīng)程序統(tǒng)計,常用字表一2500字中有74個在候選詞表中沒有出現(xiàn),分別是:

常用字表二1000字中有226個在候選詞表中沒有出現(xiàn),分別是:

可以看到,未出現(xiàn)的主要是一些筆畫繁雜、使用頻率極低的字,以及一些姓氏用字(前期處理中刪除了專有名詞)。另外,由于語料中詞頻分布的長尾效應(yīng),對低頻的詞語,頻率因素的重要性降低。因此,我們檢索了包含上述漢字的部分詞語,人工調(diào)整到分級詞表中。

從教材童書語料的詞表中,共找到包含上述300個字的詞語 289 個,人工增加到六級或七級詞表中,少數(shù)高頻出現(xiàn)的姓氏用字增加到了三、四、五級中。例如下面是新增加的一些詞語,其中涵蓋了需要學(xué)習(xí)的常用字:

但教材童書語料的詞表中,仍有以下漢字未包含(刪除了專有名詞):

主要是三類漢字:大寫的數(shù)字、化學(xué)元素名稱、人名用字。我們進(jìn)而人工將大寫數(shù)字加入了六級詞表,將化學(xué)元素名稱、人名用字加入了七級詞表。

八、分級詞表的詞語分析

經(jīng)過上述一系列處理,分級詞表的構(gòu)建基本完成。下文將對分級詞表的詞語進(jìn)行分析。

(一) 基本數(shù)據(jù)分析

詞表一共收錄了14459個詞語,各級詞語數(shù)目如表 11所示。其中,語料來源為網(wǎng)頁語料的詞語數(shù)為1420個,占比9.8%,與最初的設(shè)定基本相符。

表11 分級詞表中各級詞語數(shù)目

表12列出了不同音節(jié)的詞語數(shù)目,其中雙音節(jié)詞占比72.61%;四音節(jié)詞語數(shù)占比9.25%,絕大多數(shù)為成語;而三音節(jié)詞占比最低。

表12 不同音節(jié)的詞語數(shù)目

(二) 與《義務(wù)教育常用詞表》的比較分析

本文所構(gòu)建的分級詞表,與《義務(wù)詞表》的最大區(qū)別是:基于大規(guī)模語料庫由計算機(jī)半自動構(gòu)建,詞語的選擇與等級的設(shè)定都以語料的客觀使用為依據(jù)。其優(yōu)點(diǎn)是構(gòu)建快速,方便重現(xiàn),更新便捷;而缺點(diǎn)則是缺少專家人工的精雕細(xì)琢。為了更好地理解兩表的異同,我們將所構(gòu)建的分級詞表與《義務(wù)詞表》進(jìn)行了比較分析。

表 13顯示了兩個詞表在收詞數(shù)目上的不同。兩詞表詞語規(guī)模大體相當(dāng),《義務(wù)詞表》詞目數(shù)略多于分級詞表,兩詞表共有詞為10032個,約占三分之二。

表13 分級詞表與《義務(wù)詞表》收詞數(shù)目的比較

分級詞表的年級分級可以映射到《義務(wù)詞表》的學(xué)段,即一—二級映射第一學(xué)段,三—四級為第二學(xué)段,五—六級為第三學(xué)段,七級(初中)為第四學(xué)段。以分級詞表為基準(zhǔn),我們考察了兩個詞表不同學(xué)段收詞數(shù)的差異,如表 14所示??梢钥吹?,一、二學(xué)段共有詞比例較高,分別為93.9%和83.3%;而隨著學(xué)段升高,共有詞比例逐漸降低,第四學(xué)段的共有詞比例低于50%。這顯示,在基于頻率的分級詞表中,使用頻率越高的詞與專家的經(jīng)驗認(rèn)知更為一致,而頻率較低的詞與人工經(jīng)驗的判別就存在較大差別。

表14 兩詞表不同學(xué)段的共有詞

我們進(jìn)一步比較了兩個詞表在不同學(xué)段上詞語的差異。從表 15可以觀察到,不同學(xué)段的最大值都在混淆表的對角線上,這顯示了兩個詞表的分級相關(guān)性較高。

表15 分級詞表與《義務(wù)詞表》的分級混淆表

(三) 與對外漢語詞表的比較分析

漢語作為第二語言的對外漢語教學(xué)與漢語作為母語的中小學(xué)教學(xué)存在差別,但在詞匯學(xué)習(xí)、詞匯等級劃分上有共通性,都遵循循序漸進(jìn)、由易到難的基本原則。因此,我們以廣泛使用的《漢語水平詞匯與漢字等級大綱》(以下簡稱《漢語水平詞匯》)(1992)為基礎(chǔ),比較了分級詞表與對外漢語詞表的共同性與差異性。

分級詞表收錄詞語14459個,劃分為一—七級;《漢語水平詞匯》收錄詞語8822個,劃分為甲、乙、丙、丁四級。兩個詞表總詞匯量差別較大,等級劃分也不一致,圖1展示了分級詞表一—四級詞語與《漢語水平詞匯》甲、乙、丙、丁四級的對應(yīng)關(guān)系。

圖1 分級詞表一—四級與《漢語水平詞匯》甲、乙、丙、丁四級的對應(yīng)關(guān)系

令人驚喜的是,主要基于使用頻率制定的分級詞表,與專家制定的對外漢語詞表存在較好的對應(yīng)關(guān)系。其中,一級詞與甲級詞很好對應(yīng),映射比例為388/562=69%;二級詞與乙級詞映射比例最高;三級詞與乙+丙級詞對應(yīng);四級詞的對應(yīng)則較為分散。隨著詞級的升高,分級詞表中有更多詞語在《漢語水平詞匯》中沒有被收錄。

九、結(jié)語

本文基于大規(guī)模語料庫的統(tǒng)計,采用計算機(jī)程序處理與專家人工審核相結(jié)合的方式,半自動構(gòu)建了漢語分級詞表。詞語的選擇與分級主要依據(jù)詞語的使用頻率,有數(shù)可依、更新快捷。統(tǒng)計分析顯示,我們所構(gòu)建的分級詞表與《義務(wù)詞表》、對外漢語詞表都呈現(xiàn)較大的相關(guān)性。本文所構(gòu)建的分級詞表可應(yīng)用于漢語分級閱讀的系統(tǒng)研制、中小學(xué)語文教學(xué)以及對外漢語詞匯教學(xué)中。我們將在漢語分級閱讀網(wǎng)站(http://www.chinesepku.com/)上發(fā)布此數(shù)據(jù),供業(yè)界與學(xué)界免費(fèi)使用。誠然,相比于專家人工積多年心血構(gòu)建的詞表,本文構(gòu)建的分級詞表還顯得比較粗糙,還需不斷地完善改進(jìn)。

猜你喜歡
詞表童書學(xué)段
二手童書交換會
小主人報(2022年12期)2022-08-23 06:10:30
新東方童書
幼兒園(2021年10期)2021-08-21 07:50:48
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
放緩坡度 因勢利導(dǎo) 激發(fā)潛能——第二學(xué)段自主習(xí)作教學(xué)的有效嘗試
AR童書熱的冷思考
新聞傳播(2018年3期)2018-05-30 07:01:33
英文原版童書推薦(0~2歲)
媽媽寶寶(2017年2期)2017-02-21 01:21:16
第二學(xué)段數(shù)學(xué)新授課“學(xué)導(dǎo)課堂”的教學(xué)范式
新課程研究(2016年4期)2016-12-01 05:55:05
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
如何設(shè)計小學(xué)語文第一學(xué)段的家庭作業(yè)
高中各學(xué)段史料教學(xué)與歷史思維能力的培養(yǎng)
广东省| 阿拉善盟| 敦煌市| 左权县| 都兰县| 遂平县| 花莲县| 贡嘎县| 太和县| 清涧县| 通州市| 临湘市| 日土县| 开鲁县| 修水县| 龙岩市| 南昌县| 肥东县| 荣成市| 德兴市| 扎赉特旗| 彭泽县| 沈阳市| 外汇| 红河县| 子长县| 鱼台县| 长岛县| 木里| 荔波县| 平昌县| 涡阳县| 那坡县| 万载县| 鹿泉市| 康定县| 汽车| 娱乐| 合作市| 拉孜县| 尼木县|