◎ 鄒一斌
為深入響應國家課程改革要求,提高語文學科課程建設水平,全面提升上海學生的語文素養(yǎng),為上海學生適應未來社會生存和全球化競爭打下良好的閱讀素養(yǎng)基礎,上海市教育委員會教學研究室(以下簡稱“市教委教研室”)于2013 年12 月正式啟動中小學漢語分級閱讀標準研制項目,嘗試采用實證的方式構建上海市中小學漢語分級閱讀標準。截至2016 年7 月完成第一階段研究任務,形成了《上海市中小學生漢語閱讀能力分級標準(暫定稿)》《國內(nèi)外分級閱讀研究與實踐狀況概覽》《分級閱讀標準研制中的相關問題概述》《上海市中小學生漢語閱讀現(xiàn)狀調(diào)研報告》《上海市中小學生漢語閱讀能力測試說明及樣題》《上海市中小學生漢語閱讀能力測試報告》等一系列研究成果,并出版了《上海市中小學漢語分級閱讀標準研究報告——閱讀能力分級》一書。
自2016 年12 月起,項目團隊啟動開展上海市中小學漢語閱讀文本分級標準的研制工作。以第一階段的研究成果為基礎,開展影響漢語閱讀文本分級的相關指標研究,提煉關鍵要素,重在提出影響漢語文本難易度的假設指標,初步形成可觀察、可評量的文本分級模型。建設一套線上漢語文本分級系統(tǒng),選取一批典型文本,參照模型利用系統(tǒng)對典型文本進行量化分級標定。構建相應的閱讀學習平臺進行數(shù)據(jù)采集及實證研究,運用相關統(tǒng)計方法標定文本的分級以及分析學生分級閱讀數(shù)據(jù),不斷修正模型,以此形成通用文本分級標準。
將文本分級標準與第一階段完成的閱讀能力分級標準結(jié)合,形成完善的閱讀分級標準,為上海市中小學生漢語閱讀能力測評、中小學語文教材的編制等提供學理依據(jù),也為漢語分級閱讀書目的推出提供支持,從而有效推動上海市中小學生的閱讀活動,進一步提升學生的閱讀素養(yǎng)。
以“文獻梳理—標準假設—測試驗證—指標修正”為基本研究路徑,采用調(diào)查研究、文獻研究、測量研究等方法,開展項目研究。
(1)調(diào)查研究:采用實地考察等方法,對國內(nèi)外相關公司利用技術進行語言處理的平臺、工具、軟件開發(fā)等情況開展調(diào)研。
(2)文獻研究:對國內(nèi)外相關的技術文獻進行梳理分析,尋找利用技術進行文本分級的路徑和方法。
(3)測量研究:通過測試題編制與測試,搜集關鍵指標的相關數(shù)據(jù)并進行分析。
在第一階段所完成的國內(nèi)外分級閱讀文獻資料梳理基礎上,從量化分析工具和測量指標領域,繼續(xù)細化相關文獻研究。圍繞漢語閱讀文本分級標準這個研究重點,探索采用信息技術支持漢語文本分級研究的方法和路徑,以專家質(zhì)性研究為前提,以閱讀文本自動分級技術為突破點,制訂和完善高效率進行文本難易度標定的研究實施方案。
基于第一階段閱讀能力分級研究的成果,繼續(xù)保留高校專家團隊,同時引入上海中文在線文化發(fā)展有限公司(以下簡稱“中文在線”),借助專業(yè)公司的技術力量,通過質(zhì)性研究與量化分析相結(jié)合的方式開展閱讀文本分級標準的研制。由高校專家團隊開展針對閱讀文本內(nèi)容的質(zhì)性指標研究,構建基于文本語言要素的假設指標。由中文在線運用現(xiàn)有成熟可行的計算和信息處理技術,利用深度神經(jīng)網(wǎng)絡分級模型,對專家團隊提出的假設指標進行篩選,確定適用于中小學漢語閱讀文本復雜度的量化測度指標。最后由市教委教研室組織協(xié)調(diào)研究,確立文本分級核心指標。
由高校團隊基于文本分級核心指標,根據(jù)原有高中語文課程標準推薦的閱讀篇目,組織測試團隊進行人工分級標注,對文本分級核心指標進行第一輪驗證。在市教委教研室課程教材部和市教育考試院的協(xié)助下,由中文在線技術團隊對全國各版本高中語文教材和上海過去十五年的高考現(xiàn)代文文本進行計算機分級,對文本分級核心指標進行第二輪驗證,并就驗證結(jié)果進行系統(tǒng)分析。2017 版高中語文課程標準修訂版發(fā)布后,高校團隊再次根據(jù)新的課標推薦書目和專家推薦書目組織進行第三輪驗證,并將標注文本提供給中文在線進行計算機對比分析,利用深度神經(jīng)網(wǎng)絡實施端到端自動分級。由市教委教研室組織對人工分級和計算機分級情況進行對比分析,找出差異所在,從語言學的角度分析差異存在的原因,提出對計算機自動分級模型的改進建議,形成人機測評對比分析報告。
由市教委教研室組織高校團隊和中文在線,借助中文在線相關閱讀學習平臺,在嘉定區(qū)進行大樣本測試,獲取有效的學生分級閱讀數(shù)據(jù)。將得到的學生分級閱讀數(shù)據(jù)與文本分級標定進行分析和比較,為文本分級核心指標的修正提供實證依據(jù),指導文本分級標準模型的修正。由于本次測試樣本量較大,我們也利用這次測試重新檢核第一階段閱讀能力分級標準和各個參數(shù)分類表內(nèi)部的對應性,對各個分類參數(shù)和維度內(nèi)部的關聯(lián)性、相關能力層級劃分的適切性、分層關鍵特征描述的精確度也進行了全面反思。
針對分級閱讀標準研制中的基本問題,項目組在第一階段能力分級標準研制過程中開展了細致而深入的文獻研究工作,搜集大量原始資料并進行了高質(zhì)量的梳理和分析,編寫了高水平的文獻報告。以此為基礎,項目組在本階段關于閱讀文本分級標準的研究中,重點圍繞“文本難度”(也稱“文本難易度”或“文本復雜度”)展開及時而有效的理論研究,理清了近百年來閱讀文本難度分級研究的發(fā)展歷程,開展了影響漢語閱讀文本難度因素的相關文獻梳理和研究,完成《漢語閱讀文本自動分級技術研究綜述》和《文獻中文本難度分析因素》等報告,提出了分別利用自然語言處理技術和深度學習技術,實施漢語閱讀文本自動分級的可行技術路徑,為漢語閱讀文本分級標準的編制提供了有力的理論支持。
以中文在線技術團隊為主,輔以結(jié)合高校專家團隊的支持,連續(xù)開展了多輪漢語閱讀文本的人工測試,初步構建了基于文本語言要素的量化評估指標體系,確立以語句復雜度為核心的指標結(jié)構,對復雜度的內(nèi)涵與外延予以細化,創(chuàng)立自身的操作性定義,提高了整個指標體系的結(jié)構化水平。整合和開發(fā)線上文本分級系統(tǒng),根據(jù)指標對典型文本進行快速標定。以高校專家團隊為主,結(jié)合中文在線團隊的技術支持,開發(fā)了包含主題、結(jié)構、語言特點、理解背景和體裁舉例5 項指標在內(nèi)的質(zhì)性評估指標體系,完成了分級閱讀文本難度質(zhì)性指標的具體描述。
將量化評估指標與質(zhì)性評估指標相結(jié)合,建立閱讀文本分級標準,與第一階段完成的漢語閱讀能力分級標準相配套,構成完整的中小學漢語分級閱讀標準,實現(xiàn)了文本難度與學生閱讀能力的對應,為中小學語文課程、教材和評價提供了重要工具,也為出版機構編制更適合青少年心智特征的讀物提供了參照標準。
市教委教研室組織協(xié)調(diào)中文在線和華東師范大學語文教育中心,組建包括語言學、文學、心理學、測試評價、信息技術和相關邊緣學科在內(nèi)的研究團隊,由高校專家和教研室教研員基于自身專業(yè)經(jīng)驗,針對相關典型閱讀文本予以標注,并提煉假設指標。由技術團隊利用信息處理和分析技術對標注的文本進行深度分析,驗證相關指標的合理性和適切性,再反饋專家團隊進行修正。如此循環(huán)往復,確立了借鑒互聯(lián)網(wǎng)快速迭代的策略進行實證研究的操作路徑。借助這一路徑,實施完成了針對閱讀文本語言形式的量化指標研究,提煉相關維度,構建文本分析指標模型,參照指標模型對大批量文本分級進行快速標定。運用信息技術工具和平臺進行學生閱讀數(shù)據(jù)采集和分析的方案,形成文本的量化分級標準。根據(jù)修正后的模型重新進行文本分級標定,再進行學生閱讀數(shù)據(jù)的采集和分析,多輪循環(huán),完善文本的量化分級指標。
與以往依托測量為主的實證方式不同,文本分級標準研制采用以大數(shù)據(jù)為基礎的技術路線實現(xiàn)中文文本難度的自動評估,即建立以文本復雜度量化指標為基礎的分級自動分級模型,對文本進行自動分級,然后結(jié)合專家對質(zhì)性指標、閱讀的讀者因數(shù)和任務因數(shù)的分析,在該級別中完成對中文文本的分級評估。
項目組嘗試通過使用機器學習和自然語言處理的前沿方法,提取有效特征——語句復雜度指標,研究該特征對于文本難易度的描述能力,并進行實驗驗證:首先對大量文本進行人工難易度的標定,然后利用神經(jīng)網(wǎng)絡進行有監(jiān)督的訓練,最終利用訓練得出的語言模型對文本難易度進行直接標定。相關實踐表明,當前所采用的基于神經(jīng)網(wǎng)絡的語句復雜度評估模型能夠較好地提取文本難易度特征,可以進一步確定語句復雜度對于文本的難度等級有著較強的指導性意義。本項目已基本實現(xiàn)以字、詞和句子三個維度的難易度測度指標為基礎的文本自動分級模型構建,并將它用于中小學漢語閱讀文本自動分級。
項目組以文本難度為核心概念,從量化評估和質(zhì)性評估兩個方面入手,通過專家團隊和技術團隊先后實施了項目預研究、指標研究與分析系統(tǒng)開發(fā)研究,形成了《漢語閱讀文本自動分級技術研究綜述》《文獻中文本難度分析因素》《上海“二期課改”語文教材分析報告》《國內(nèi)語文教材分析報告》等報告,提出了文本分級模型的基本構想。形成了基于文本語言要素的量化分級指標體系,完成了閱讀文本分級難度質(zhì)性指標的具體描述,編制完成了基于人工測試的難易度分級技術分析報告,保證了基于字頻、詞頻和句長的量化分析指標體系的科學性,提高了系統(tǒng)量化分析的精準性,從學術層面為后續(xù)文本難度的深入實踐打下良好基礎。
在實踐層面則實施了針對相關指標體系的大樣本測試驗證。完成針對60 本書的閱讀在線調(diào)查問卷的審讀修訂工作,開展閱讀能力分級各學段測試題的修訂工作,實施了嘉定區(qū)小初高三個學段86 所學校(小初高共計52605名學生)的大規(guī)模在線測試驗證工作,完成了嘉定調(diào)研測試的數(shù)據(jù)梳理及分析,形成研究報告,為閱讀文本分級標準的修正提供了大數(shù)據(jù)支撐。
項目組通過對文本難度、語句復雜度等關鍵概念的內(nèi)涵界定,運用基于深度學習的自動文本分級技術,構造神經(jīng)網(wǎng)絡模型和訓練用于解決自然語言處理領域的問題。攝取全國范圍內(nèi)應用最為廣泛的四個版本語文課程教材(一至十二年級)作為語料庫,利用訓練好的最佳語言模型,分別測量四種教材中文本的語句復雜度,提出相關的文本分級指標。然后根據(jù)高校專家提供的經(jīng)典書目60 篇(含課標推薦),再次進行數(shù)據(jù)采集及分析,對照原有文本分級的指標,對語句復雜度的相關核心指標的權重及關系予以修正。
已經(jīng)進行的文本測試實驗結(jié)果表明,本研究所采用基于深度學習的自動文本分級技術所構建的語句復雜度評估模型,對提煉文本難度特征及劃分難度等級,其精度和效率都顯著提高,在一定程度填補了國內(nèi)基礎教育閱讀研究領域的空白。
伴隨著《中國學生發(fā)展核心素養(yǎng)》的發(fā)布、國家高中課程方案的修訂完成,2017 年教育部完成并發(fā)布新修訂的高中各學科課程標準。和原課程標準相比,修訂版課程標準構建并確立了各學科學業(yè)質(zhì)量標準,其核心在于學生學習水平的分層標準。但值得注意的是,與其他學科課程標準相比,語文學科卻沒有呈現(xiàn)核心素養(yǎng)水平劃分。一個重要的原因,就在于作為以文本教學為主要呈現(xiàn)方式的語文課程,百年學科發(fā)展的知識內(nèi)容體系始終未能確認。本項目嘗試從閱讀者的視角,從量化評估和質(zhì)性評估兩個方面建立文本分級標準,客觀上也為國家語文課程建設的內(nèi)涵發(fā)展提供了重要參考。
項目組經(jīng)過三年的努力,初步建構了漢語閱讀文本分級標準。但要真正實現(xiàn)基于中文文本自動分級技術對大批量閱讀文本的自動分級,還需有一個逐步推進的漫長過程。目前已經(jīng)實現(xiàn)以字、詞和句子三個維度的難易度測度指標為基礎的文本自動分級模型,用于中小學漢語閱讀文本自動分級。后續(xù)應努力實現(xiàn)將語篇銜接為基礎的測度指標引入模型,完善文本量化測度模型,實現(xiàn)更準確的文本自動分級。終極目標是將深度學習技術全面應用于文本自動分級模型,建立與專家人工分級基本一致的文本自動分級系統(tǒng)。
項目組雖然采取專家經(jīng)驗與技術驗證融合的研究路徑,但相關研究成果的驗證范圍還需進一步擴大,以提高標準的精度和效度。閱讀文本分級標準和已經(jīng)完成的能力分級標準是一個完整的體系,合成后體系內(nèi)部的關聯(lián)性和自洽性還需進一步完善和提高。