◎ 吳 邊 肖 敏
上海市中小學漢語分級閱讀標準研制項目于2013 年12 月正式啟動,截至2016 年上半年完成第一階段任務,形成一系列成果,并出版階段性成果《上海市中小學漢語分級閱讀標準研究報告——閱讀能力分級》一書。在此基礎之上,項目團隊繼續(xù)開展影響漢語閱讀文本分級的相關指標研究,旨在提出影響漢語文本難易度的量化指標,初步形成一個文本分級評估模型,嘗試探索建設一套利用信息技術支撐的線上漢語文本自動分級系統(tǒng)。
一套通用的文本分級系統(tǒng)不僅可以為學生尋找最適合其閱讀能力的閱讀材料,實現(xiàn)“個性化閱讀文本推薦”,而且在信息檢索系統(tǒng)中可以對檢索結果進行難易排序,將更易于理解的內容以較高順位提供給使用者。更重要的是,將文本分級標準與第一階段完成的閱讀能力分級標準結合,形成完善的閱讀分級標準,可以為上海市中小學生漢語閱讀能力測評、中小學語文教材配套閱讀資源的選擇等提供量化依據,也可以為漢語分級閱讀書目的推出提供支持,從而有效推動上海市中小學生的閱讀活動,進一步促進學生閱讀素養(yǎng)的提升。
文本自動分級的研究目標是利用分級量化模型為待分級文本進行文本難易級別評估,以實現(xiàn)對中小學閱讀文本提供與專家主觀分級較為一致的自動化分級標注。本研究是上海市中小學漢語分級閱讀標準研制項目的一部分。本研究選取一批典型文本,參照模型利用系統(tǒng)對典型文本進行量化分級標定,并構建相應的閱讀學習平臺進行數(shù)據采集及實證研究,運用相關統(tǒng)計方法對文本的分級標定以及學生分級閱讀數(shù)據進行分析和比較,不斷修正模型,借此獲得一套通用的文本分級標準。
文本難易度分級常常被視為一個文本分類問題,即以分級別的方式來劃分文本閱讀的難易程度。文本難易度分級已經是業(yè)界長期以來在持續(xù)研究的問題,對其比較系統(tǒng)的研究已經發(fā)展近百年,但目前仍然談不上是一個被解決的問題。文本難易度分級從時間跨度上主要可以分為以下四個階段。
20 世紀20 年代的研究者們主要關注詞匯控制,即從詞匯的結構難度、內容或功能多樣性、使用范圍等方面考慮設計一個詞匯難度標準。該標準的優(yōu)劣主要依賴于專家的經驗和相關性分析指標?;谶@種詞匯表可以對文本的難度作簡單的判斷。
20 世紀30 年代到70 年代期間,研究者們開始關注大量的文本因素,并嘗試使用可讀性公式以實現(xiàn)更準確的文本難易度分級。從沃格爾(Vogel)和沃什伯恩(Washburne)在1928年設計Winnetka 公式開始,到1981 年可讀性評估公式的數(shù)量就超過200 個。其中比較有名的是Dale-Chall 公式和Flesch 公式。前者使用句長和詞匯難度來評估文本難易度;而后者則使用平均句長和平均單詞音節(jié)數(shù)來度量文本難易度。
事實上,后續(xù)的研究表明單單考慮詞匯度量對于文本難易度分級來說是不充分的;而各種有效可讀性公式的廣泛運用則從側面證明結構度量確實對文本難易度分級有幫助。
在20 世紀80 年代和90 年代,受認知理論的啟發(fā),研究者傾向于認為文本難易度的概念更多的與文本語義結構有關。研究者開始關注文本的內容組織、連貫性、凝聚性等語義結構特點,他們不認為難的文章含有難詞是因為它們討論的是抽象的問題,容易的文章使用一般的單詞是因為它們處理的是具體的經驗。研究者將聯(lián)結理論、構思圖式理論、原型理論以及擴散激活理論等引入研究中,用來解釋人是如何在長期記憶中存儲和檢索信息的。
近十幾年來,隨著計算機性能的提升以及自然語言處理和機器學習領域的發(fā)展,文本難易度研究又有了新進展。得益于詞性標注、語法分析、連貫度分析等新興的自然語言處理技術,研究者能深入地挖掘文本語法和語義的結構信息,并設計出更多的文本難易度評價特征。此外,諸如支持向量機、樸素貝葉斯、對率回歸等機器學習新技術也被用于新的文本難易度評估方法。
文本自動分級技術主要是利用文本難易度的量化指標建立文本自動分級模型,對文本進行自動化的分級評估。因此,文本自動分級技術應包含兩個方面的研究任務:①研究并提出決定文本難易度的量化指標;②研究如何綜合各種量化指標,建立模型,確定文本分級標注。
經過大量的文獻研究和技術分析,可以得到以下結論:傳統(tǒng)的文本自動分級方法都是僅關注語義單元的熟悉程度和語法的復雜程度,所提取的特征并不足以反映出文本的難易程度。我們嘗試通過使用機器學習和自然語言處理的前沿方法,提取有效特征——語句復雜度指標,研究該特征對于文本難易度的描述能力,并實驗驗證。首先對大量文本進行人工難易度的標定,然后利用神經網絡進行有監(jiān)督的訓練,最終利用訓練得出的語言模型對文本難易度進行直接標定。而選取語句復雜度作為指標的理由是:語句是組成文本的基本單元,可將文本可讀性評估簡化為文本平均語句復雜度評估。
深度學習是一種表示學習方法,是人工神經網絡的一個分支;具有深度網絡結構的人工神經網絡是深度學習最早的網絡模型。深度學習可以避免繁瑣的人工特征抽取,有效地利用無監(jiān)督數(shù)據,并且具有優(yōu)秀的泛化能力,因此非常適用于解決自然語言處理領域一系列難題。
首先,由于語言本身的高維特性,傳統(tǒng)的自然語言處理系統(tǒng)往往需要復雜的語言學知識以便手工提取分類特征。而利用深度學習,則可以通過構造神經網絡模型和訓練來自動學習用于解決自然語言處理領域的問題所需的特征。其次,在自然語言處理領域,無標簽數(shù)據可輕易大量獲得,而有標簽數(shù)據則相對稀少且昂貴,深度學習則剛好可以利用大量的無標簽數(shù)據來獲取特征。最后,自然語言處理領域的許多問題往往相互之間具有非常強的關聯(lián)性,深度學習可以在特征抽取層面構造統(tǒng)一的模型以同時處理這些問題,并通過多任務學習的方法在模型中對其關聯(lián)性進行建模,從而獲得更好的性能。
在自然語言處理中,語言模型是一個非常重要的基礎性工具。我們可以從多個角度去理解語言模型和文本可讀性,其中較為有代表性的一個角度就是:基于語言模型的文本可讀性是對語言確定性的計算。在具體研究中,我們常希望將語言進行建模,用量化方式來衡量某個語料庫的確定性(或可預測性)。
在計算語言模型時,我們將每個語句視為一個詞匯序列,確定性則是要回答“當一個模型觀察到一個詞序列中的前(t–1)個詞之后,能否準確預測出第t個詞”這一個問題。即如果一個語言集合所包含的語言較為簡單,則我們可以認為其語句序列較為可預測,在觀察到前若干個詞之后,能夠將之后才出現(xiàn)的下一個詞較為確定地鎖定在若干個候選者之中;而對于一個含有大量較復雜語句的語料庫來說,則觀察到某一語句中的前(t–1)個詞后,預測其之后的第t個詞則依舊非常困難。
傳統(tǒng)語言模型是指基于n-gram 模型構建的,但n-gram 模型存在著一個兩難問題:如果參數(shù)取得越大,其所需的計算量與特征空間的稀疏度會越大;反之如果n取得較小,模型無法使用序列中距離較遠的信息,這將導致模型預測并不準確。
所幸在神經網絡語言模型中,序列中的詞被參數(shù)化為連續(xù)的實數(shù)向量,并將其作為神經網絡的輸入來解決n-gram 模型中數(shù)據稀疏性的問題。這些參數(shù)也將作為模型訓練中的一部分進行學習。而循環(huán)神經網絡在神經網絡語言模型中的應用,大幅度地提高模型在長序列上學習相關上下文的能力。
如圖1 所示,本文采用一個基于長短期記憶神經網絡的語句復雜度評估模型,該模型由一層詞嵌入層、兩層 LSTM 層以及一層Softmax 層構成。其中,詞嵌入層用于將每個詞嵌入連續(xù)的實數(shù)向量空間;LSTM 層用于處理詞序列與記住歷史信息;Softmax 層用于獲得輸入詞序列中每個詞對應的概率,該概率將會用于語句復雜度的計算之中。這樣一來,訓練樣本中的每個詞、詞序列、歷史信息、輸入詞序列中每個詞對應的概率等信息都被綜合在一起以得到一個語言模型。之后,我們就可以量化計算“語句復雜度”這一指標。
圖1 “語句復雜度”評估模型
本研究中進行的所有實驗都是基于PyTorch及其子模塊所編寫的。
本研究共選取兩個來源的數(shù)據集:①國內應用最為廣泛的四個版本語文課程教材作為本實驗模型的語料庫(去除詩歌和古文);②由專家遴選的60 本經典圖書。
其中,選擇語文教材作為訓練樣本的原因有以下三點。
(1)教材覆蓋區(qū)域、人群廣泛,具有一定代表性。
(2)教材符合一定的文本難度遞增規(guī)則,具有較高可分辨性。
(3)教材是由相關領域的專家組完成編撰的,具有權威性。
在模型訓練之前,所有課文都進行分句與分詞的預處理。句子長度方面,本研究選取數(shù)據集中長度大于或等于2 個字符且小于或等于128 個字符的所有句子,僅少量句子長度超過128 字符(小于1%)。預處理后,合并所有數(shù)據用于模型訓練。
另外,還需對訓練集進行采樣處理,這是因為在實際學習中,各個學期的教材都是以一個學期時間為單位進行學習的。也就是說,不論每個學期的教材課文文本量為多少,學生所付出的學習時間大致相同。其中,低年級的課文語句數(shù)量較少,那么該年級的學生在同一句話上所花費的時間自然會更多。為在模型訓練中反映這一現(xiàn)象并且平衡各年級語句數(shù)量,本研究采用蒙特卡洛采樣法,重新平衡各個年級中句子數(shù)量在訓練集中的分布。
在實驗中,我們所選取的教材都服從以下兩個假設。
(1)假設課文難度的評判主體是已學習過所有課文的學生,因此語言模型將所有年級的課文作為學習數(shù)據。
(2)假設每個學期內的課文難度大致保持一致,而不同學期的課文難度與年級符合一定程度的線性增長關系,且由年級序列號決定(即一年級第一學期難度為1,以此類推)。
利用訓練好的最佳語言模型,分別測量四種教材中課文的語句復雜度,結果如圖2 所示。從圖2 中不難發(fā)現(xiàn),難度等級與語句平均復雜度有著很強的相關性(詳見表1),除A 教材為+0.788 外,其余三種教材課文平均語句復雜度與難度等級的相關性都達到+0.86 以上,并且四套教材之間還存在著較強的相似度。
圖 2 基于神經網絡的語句復雜度模型——四套教材的實驗結果
表1 教材中語句復雜度與難度等級的皮爾遜相關性結果
為進行對比,我們還使用SRILM 工具來構建傳統(tǒng)的n-gram 語言模型,在使用相同訓練集數(shù)據訓練得到語言模型后,同樣對各版本教材進行語句復雜度的測量,并標記為KN 3-gram。具體實驗結果可見圖3。
圖 3 基于KN 3-gram 的語句復雜度模型——四套教材的實驗結果
從表1 中可以看出,KN 3-gram 模型得到的結果,其各教材的相關性均低于本模型,甚至在A 教材中的相關系數(shù)只有+0.356。在圖3中可以更為直觀地看出差別。本研究認為這是由于n-gram 模型單純地基于統(tǒng)計頻率,無法抽取語句更多的相關特征所導致的。該對比結果在一定程度上展示語句復雜度對課文難度等級具有指導性意義。
此外,本研究還使用專家推薦的60 本經典圖書用于驗證模型的有效性:一方面,由19位相關專家為60 本圖書做主觀難易打分,并取平均值;另一方面,使用本文方法測量60本圖書的文本難易度。結果表明,文本難易度打分與專家主觀打分基本一致。
從上述實驗結果可以看出,本研究所采用的基于神經網絡的語句復雜度評估模型能夠較好地提取文本難易度特征,可以進一步確定語句復雜度對于課文的難度等級有著很強的指導性價值,同時語句復雜度對于文本可讀性評估任務來說是一個擁有良好指向性的指標。