兒童分級(jí)閱讀,簡(jiǎn)單地講就是為兒童選擇同其閱讀能力相適合的閱讀材料。這個(gè)閱讀材料,可以是課文、閱讀測(cè)試題、兒童圖書(shū)。兒童閱讀材料的選擇,尤其是在幼兒園和小學(xué)階段,通常由大人決定。很多大人在為孩子選擇閱讀材料時(shí),都有一個(gè)樸素的疑問(wèn):這篇文章或這本書(shū),適合我的孩子閱讀嗎?確定適合兒童的閱讀材料,是分級(jí)閱讀的現(xiàn)實(shí)需求,也是理論出發(fā)點(diǎn)。
● 兒童分級(jí)閱讀研究的范疇
兒童分級(jí)閱讀的核心是兒童的閱讀能力和閱讀材料的匹配,主要涉及兩方面的內(nèi)容。第一是兒童的閱讀能力。兒童閱讀能力包括很多分項(xiàng),例如,語(yǔ)音意識(shí),解碼能力,詞匯、文體知識(shí)、語(yǔ)言結(jié)構(gòu)、背景知識(shí)的掌握情況等。需要注意的是,兒童閱讀能力的發(fā)展,并不只是和年齡相關(guān),同一年齡的孩子,閱讀能力可能相差很大。因此,真正的分級(jí)閱讀,應(yīng)該是根據(jù)孩子的閱讀能力分級(jí),而不是根據(jù)年齡分級(jí)。第二是文本難度。文本難度由文本的長(zhǎng)度、字詞難度、語(yǔ)法難度、語(yǔ)義難度等綜合構(gòu)成,直接影響著文本的可讀性。在現(xiàn)實(shí)生活中,我們也常有這樣的困惑:同樣的一篇文章,例如馮驥才的《珍珠鳥(niǎo)》,曾經(jīng)被放在4年級(jí)、5年級(jí)、7年級(jí)、9年級(jí)等不同的教材或讀本中。那么,從文本難度而言,《珍珠鳥(niǎo)》到底適合哪個(gè)年級(jí)的學(xué)生呢?這就需要進(jìn)行科學(xué)的測(cè)定。因此,兒童分級(jí)閱讀,本質(zhì)上講就是閱讀的科學(xué)化,讓不同閱讀能力的孩子能讀到適合他的文本,這樣就不會(huì)因?yàn)樘y而影響理解,或者因?yàn)樘?jiǎn)單而失去閱讀興趣。
兒童分級(jí)閱讀研究涉及多個(gè)學(xué)科的研究,如文學(xué)、教育學(xué)、心理學(xué)、圖書(shū)館學(xué)等。除了一些文科的研究之外,還尤其需要加入計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、機(jī)器學(xué)習(xí)等理科領(lǐng)域的研究。分級(jí)閱讀屬于科學(xué)研究,本意就是要去除個(gè)人或集體的經(jīng)驗(yàn)判斷。在分級(jí)閱讀中引入科技研究有兩大好處:一是可以進(jìn)行大規(guī)模的機(jī)器測(cè)定,二是去除掉人工經(jīng)驗(yàn)的不準(zhǔn)確。人工智能時(shí)代,“大型語(yǔ)料庫(kù)+神經(jīng)網(wǎng)絡(luò)”模型讓科學(xué)測(cè)定文本難度成為可能。
● 兒童分級(jí)閱讀研究的現(xiàn)實(shí)意義
中國(guó)的兒童分級(jí)閱讀是在全民閱讀的背景下展開(kāi)的。近些年來(lái),黨和政府非常重視全民閱讀,全民閱讀已經(jīng)連續(xù)11年寫(xiě)入政府工作報(bào)告。黨的二十大報(bào)告中,也提出了“深化全民閱讀活動(dòng)”。2022年4月,在北京舉辦的“首屆全民閱讀大會(huì)”上,習(xí)近平總書(shū)記發(fā)來(lái)賀信,希望少年兒童“快樂(lè)閱讀,健康成長(zhǎng)”。2023年,教育部、中宣部等八部委印發(fā)了《全國(guó)青少年學(xué)生讀書(shū)行動(dòng)實(shí)施方案》,在學(xué)校掀起了閱讀熱潮。兒童閱讀是全民閱讀的基礎(chǔ),書(shū)香校園是書(shū)香社會(huì)的基礎(chǔ)。
從全民閱讀的角度看,分級(jí)閱讀是閱讀與教育的結(jié)合,是閱讀研究精細(xì)化、精確化的必然要求。2011年,國(guó)務(wù)院頒布的《中國(guó)兒童發(fā)展綱要(2011—2020年)》就提出:“推廣面向兒童的圖書(shū)分級(jí)制,為不同年齡的兒童提供適合其年齡特點(diǎn)的圖書(shū),為兒童家長(zhǎng)選擇圖書(shū)提供建議和指導(dǎo)?!碑?dāng)然,我們不能指望所有孩子的閱讀都按照大人設(shè)計(jì)好的步驟一步步進(jìn)行,這既無(wú)可能,也無(wú)必要。分級(jí)閱讀只是提供一個(gè)可以參考的依據(jù),在兒童閱讀的關(guān)鍵時(shí)期,把孩子“扶上馬送一程”,而不是做好一個(gè)模子,把孩子的閱讀摁在模子中。
兒童分級(jí)閱讀研究,應(yīng)當(dāng)把兒童興趣作為首要考慮因素。也就是說(shuō),分級(jí)閱讀要一切從兒童出發(fā),一切從閱讀出發(fā)。兒童分級(jí)閱讀細(xì)分了孩子的閱讀能力,有助于培養(yǎng)孩子對(duì)書(shū)籍的熱愛(ài),形成“愛(ài)讀書(shū)、讀好書(shū)、善讀書(shū)”的良好習(xí)慣,針對(duì)孩子的年齡特點(diǎn)有計(jì)劃地提供閱讀材料,讓孩子感受閱讀的快樂(lè),提高他們的閱讀能力,使閱讀成為他們接受終身教育的最好形式,使不同年齡階段的孩子充分感受閱讀之美,保持高品位的閱讀。
在我國(guó),分級(jí)閱讀已引起學(xué)界的廣泛關(guān)注。因?yàn)樵谶@個(gè)傳媒多元、閱讀多元的時(shí)代,分級(jí)閱讀符合時(shí)代的需要、公眾的需求。未來(lái)的分級(jí)閱讀,至少有三個(gè)方面的運(yùn)用場(chǎng)景:在教材編寫(xiě)中,對(duì)課文難度的基本標(biāo)定;在學(xué)校和教研室,對(duì)閱讀題難度的基本標(biāo)定;在出版社特別是少兒出版社,對(duì)少兒讀物難度的基本標(biāo)定。
● 人工智能時(shí)代的兒童分級(jí)閱讀研究
由于語(yǔ)言的特殊性,中文的分級(jí)閱讀研究仍有待完善,學(xué)界一直希望能有一個(gè)分級(jí)閱讀標(biāo)準(zhǔn)。人工智能的廣泛使用,為兒童分級(jí)閱讀的研究帶來(lái)新的思路,我們可以采取“大型語(yǔ)料庫(kù)+神經(jīng)網(wǎng)絡(luò)模型”的研究方法推進(jìn)兒童分級(jí)閱讀研究。
兒童分級(jí)閱讀語(yǔ)料庫(kù)的建設(shè)。分級(jí)語(yǔ)料庫(kù)是文本難度自動(dòng)分級(jí)系統(tǒng)的基石。一個(gè)大規(guī)模的漢語(yǔ)分級(jí)語(yǔ)料庫(kù),主要包括學(xué)校教材語(yǔ)料庫(kù)、兒童圖書(shū)語(yǔ)料庫(kù)、輔助閱讀語(yǔ)料三部分。研究機(jī)構(gòu)可以搜集國(guó)內(nèi)多個(gè)出版社的中小學(xué)語(yǔ)文教材文本,并對(duì)文本進(jìn)行了格式處理和文字核對(duì);配合漢語(yǔ)分級(jí)閱讀系統(tǒng)的程序?qū)嶒?yàn),去除詩(shī)歌和文言文,依據(jù)80%:10%:10%的比例劃分訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集。研究機(jī)構(gòu)還可以通過(guò)搜集整理、人工錄入等多種方式采集中小學(xué)課外輔助讀物作為分級(jí)語(yǔ)料的補(bǔ)充,包括人教社配套輔助閱讀材料、小書(shū)房分級(jí)閱讀書(shū)目、中小學(xué)語(yǔ)文課外讀物等不同類(lèi)型語(yǔ)料的篇目。
分級(jí)詞表的研制。面向中小學(xué)語(yǔ)文分級(jí)閱讀,研究機(jī)構(gòu)可以研制現(xiàn)代漢語(yǔ)分級(jí)詞表。不同于前人主要依靠專(zhuān)家人工評(píng)定的方法,新的分級(jí)詞表研制需要依據(jù)大規(guī)模語(yǔ)料的統(tǒng)計(jì)分析,盡可能地由程序自動(dòng)處理;構(gòu)建流程透明化、規(guī)范化,總體上可復(fù)現(xiàn);能夠快速地構(gòu)建,便捷地迭代更新。分級(jí)詞表還應(yīng)利用自動(dòng)分詞軟件對(duì)所有文本進(jìn)行分詞和詞性標(biāo)注,進(jìn)而基于大規(guī)模語(yǔ)料庫(kù)對(duì)漢語(yǔ)詞語(yǔ)運(yùn)用情況進(jìn)行統(tǒng)計(jì)分析;詞表的收錄與分級(jí)應(yīng)依據(jù)詞語(yǔ)的使用頻率,有數(shù)可依、有表可查、更新快捷;分級(jí)詞表還應(yīng)與義務(wù)教育常用詞表、對(duì)外漢語(yǔ)詞表都呈現(xiàn)較大的相關(guān)性,用以證明其實(shí)用性與科學(xué)性。
文本難度分級(jí)的專(zhuān)家標(biāo)注。為文本標(biāo)注閱讀難度等級(jí)是一個(gè)困難的任務(wù),聘請(qǐng)專(zhuān)家開(kāi)展閱讀難度標(biāo)注的實(shí)驗(yàn)是一項(xiàng)十分必要的工作。標(biāo)注結(jié)果一致性是語(yǔ)料標(biāo)注的一個(gè)非常重要的指標(biāo)。如果專(zhuān)家之間一致性低,表明人在做出區(qū)分時(shí)有難度,計(jì)算機(jī)不容易學(xué)習(xí)到區(qū)別性知識(shí),那么難度分級(jí)沒(méi)有意義,需要對(duì)原先的10級(jí)做出調(diào)整;反之,一致性高,那么人類(lèi)較容易對(duì)文本難度做出一致的劃分,表明原先的10級(jí)假定是有意義的。
文本難度分級(jí)的主要方法。漢語(yǔ)的復(fù)雜性大大提高了文本可讀性評(píng)價(jià)的難度,基于神經(jīng)網(wǎng)絡(luò)模型來(lái)展開(kāi)漢語(yǔ)文本的難度分級(jí)具有較好的可行性。
主流神經(jīng)網(wǎng)絡(luò)模型中,卷積神經(jīng)網(wǎng)絡(luò)CNN能夠抽取局部n-gram特征卻無(wú)法捕捉長(zhǎng)距離依賴關(guān)系;循環(huán)神經(jīng)網(wǎng)絡(luò)RNN可以處理序列結(jié)構(gòu),但在分類(lèi)任務(wù)上由于關(guān)鍵詞的不同位置而影響實(shí)驗(yàn)結(jié)果。結(jié)合兩種模型的優(yōu)點(diǎn),我們可以提出CNN+LSTM的難度分級(jí)模型,特征提取過(guò)程從詞到短語(yǔ)再到篇章,符合人們?cè)陂喿x過(guò)程中對(duì)文章的理解過(guò)程。研究機(jī)構(gòu)可以搜集教材語(yǔ)料庫(kù)作為實(shí)驗(yàn)數(shù)據(jù),同時(shí)人工構(gòu)建一個(gè)漢語(yǔ)文本分級(jí)評(píng)測(cè)語(yǔ)料,基于兩個(gè)數(shù)據(jù)集對(duì)不同神經(jīng)網(wǎng)絡(luò)模型進(jìn)行詳細(xì)的實(shí)驗(yàn)。
對(duì)于兒童圖書(shū)數(shù)據(jù)集的難度分級(jí),研究機(jī)構(gòu)可以采用幾種不同方法進(jìn)行實(shí)驗(yàn)。一是使用傳統(tǒng)的可讀性公式,把公式得分作為圖書(shū)的難度值。二是使用支持向量機(jī)模型對(duì)圖書(shū)進(jìn)行難度分類(lèi),使用的特征包括字詞句特征、BERT特征和不同類(lèi)型的LDA主題特征。三是使用神經(jīng)網(wǎng)絡(luò)模型對(duì)圖書(shū)進(jìn)行難度分類(lèi),使用CNN和LSTM這兩個(gè)模型,并嘗試在模型中融入支持向量機(jī)的字詞句特征,來(lái)進(jìn)一步提升分級(jí)的準(zhǔn)確率。
分級(jí)系統(tǒng)網(wǎng)站的開(kāi)發(fā)。構(gòu)建具有針對(duì)性的包含權(quán)威語(yǔ)文教材語(yǔ)料的檢索系統(tǒng)十分重要,它可以實(shí)現(xiàn)以下功能:一是可在教材的現(xiàn)代文中對(duì)任意關(guān)鍵詞進(jìn)行精確匹配全文檢索以及正則表達(dá)式匹配全文檢索;二是可在教材的文言文與詩(shī)歌中對(duì)任意關(guān)鍵詞進(jìn)行精確匹配全文檢索;三是可查看任意檢索結(jié)果的文章詳情;四是體裁、總字?jǐn)?shù)、平均句長(zhǎng)、最長(zhǎng)句長(zhǎng)以及包含的新漢語(yǔ)水平考試(HSK)各等級(jí)詞匯列表;五是可對(duì)用戶輸入或上傳的文章及文章片段進(jìn)行分級(jí);六是可對(duì)用戶輸入或上傳的文章及文章片段進(jìn)行統(tǒng)計(jì)分析。
● 結(jié)語(yǔ)
中文文本閱讀難度的自動(dòng)分級(jí)效果還有提升空間:其一,擴(kuò)充分級(jí)閱讀的文本數(shù)據(jù),構(gòu)建更大規(guī)模的漢語(yǔ)文本難度分級(jí)語(yǔ)料庫(kù);其二,在神經(jīng)網(wǎng)絡(luò)模型中融入豐富的語(yǔ)言特征和先驗(yàn)知識(shí),進(jìn)一步提升難度自動(dòng)分級(jí)系統(tǒng)的性能;其三,將文本難度分級(jí)與兒童自身的閱讀水平相匹配,構(gòu)建完整的兒童圖書(shū)分級(jí)推薦系統(tǒng)。