基于隨機(jī)森林算法的對外漢語文本可讀性評估

2019-09-09 07:43楊文娣曾致中

中國教育信息化·基礎(chǔ)教育 2019年7期

楊文娣　曾致中

摘要：可讀性指文本易于閱讀的程度或性質(zhì)，評估對外漢語文本可讀性在對外漢語教學(xué)中十分重要。文章針對對外漢語文本可讀性難以人工評估的問題，提出了一種基于隨機(jī)森林算法的對外漢語文本可讀性自動評估方法。該方法從基礎(chǔ)特征、詞性特征、等級特征和語法特征這四個維度提取特征，進(jìn)行特征選擇后在訓(xùn)練集上利用隨機(jī)森林算法訓(xùn)練分類器，并在測試集上證實了該方法的有效性。

關(guān)鍵詞：對外漢語;可讀性評估;隨機(jī)森林

中圖分類號：G40-057 ? ? 文獻(xiàn)標(biāo)志碼：A? ? ? ? ? 文章編號：1673-8454（2019）14-0089-08

一、引言

發(fā)展閱讀能力是學(xué)習(xí)語言的重要組成部分[1][2]，閱讀材料對發(fā)展閱讀能力的重要性不言而喻。為了確保閱讀材料符合潛在讀者的熟練程度，準(zhǔn)確預(yù)測L2（第二語言）學(xué)習(xí)者閱讀材料的可讀性對于教育工作者、作者、出版商等非常重要[3]。然而對L2學(xué)習(xí)者和教師而言，預(yù)測閱讀材料的難度非常耗時且常常帶有主觀性。隨著自然語言處理與機(jī)器學(xué)習(xí)的發(fā)展，文本可讀性的研究也隨之進(jìn)步，并可以在一定程度上解決這一問題。

可讀性是文本材料中影響讀者理解、閱讀速度和對材料感興趣程度的所有要素之和[4]。影響文本可讀性的因素可分為主觀因素和客觀因素兩大方面，其中主觀因素主要指讀者因素，如讀者自身的閱讀水平，客觀因素是指那些脫離具體對象、不因人的主觀意志為轉(zhuǎn)移、一切實際存在的影響文本易讀性的因素的總和[5]。

與可讀性研究歷史悠久的英語不同[6][10]，中文的可讀性分析只有少數(shù)研究[11][12]。對外漢語（Chinese as a Foreign Language）文本可讀性評估是中文可讀性研究的重要分支，至今為止，對外漢語文本可讀性評估的研究大都針對客觀因素，且大致可以分為兩類：

1.基于傳統(tǒng)文本特征的可讀性公式方法研究

“可讀性公式只是一個通過回歸分析得出的數(shù)學(xué)公式”[9]，它“通常可以給出數(shù)字得分以評價書或者篇章型閱讀材料的難易度，并可以按照其難易程度進(jìn)行排序”[13]，是一種“預(yù)測性的手段”[14]。在對外漢語領(lǐng)域中，該研究方法包含但不限于以下成果：①王蕾針對初中級日韓學(xué)生制定了一個可讀性公式[15];②楊金余研制了高級精讀教材的可讀性公式[16];③郭望皓制定了對外漢語文本可讀性公式[5];④左虹和朱勇針對中級歐美留學(xué)生制定了一個可讀性公式[17]。

2.基于機(jī)器學(xué)習(xí)的可讀性評估

首先提取可讀性相關(guān)指標(biāo)，使用特征向量對文本進(jìn)行表示，然后應(yīng)用機(jī)器學(xué)習(xí)中的算法，在訓(xùn)練集上進(jìn)行訓(xùn)練后得到分類模型，最后將測試集輸入該分類模型并預(yù)測測試集文本對應(yīng)的可讀性等級。隨著信息技術(shù)的發(fā)展，可讀性分析領(lǐng)域的學(xué)者們逐漸意識到基于機(jī)器學(xué)習(xí)的文本分類可以評估文本的可讀性，而且也從相關(guān)研究中了解到，單獨使用傳統(tǒng)的可讀性公式并不可靠[18][23]。在對外漢語可讀性評估研究中應(yīng)用機(jī)器學(xué)習(xí)方法的成果相對較少，具有代表性的成果有我國臺灣地區(qū)學(xué)者YAO-TING SUNG等人提出的“基于多層次語言特征與CEFR相結(jié)合”的分類方法：首先對外漢語專家教師團(tuán)隊將1，578個對外漢語文本分類到適當(dāng)?shù)腃EFR（歐洲語言共同框架）級別;然后從文本中提取30個對外漢語可讀性特征，并使用以F-scores為依據(jù)的重要性對特征進(jìn)行排序;最后，SVM分類器通過將特征順序地集成到模型中以優(yōu)化性能而訓(xùn)練得到;該方法得到了精度為74.97%、相鄰準(zhǔn)確率為99.62%的對外漢語文本可讀性評估模型[24]。

本研究收集了6個系列的教材，整理得到文章共計578篇，使用文本分析工具并編寫代碼從基礎(chǔ)特征、詞性特征、等級特征和語法特征這四個維度提取特征共計86個，在訓(xùn)練集上使用隨機(jī)森林算法進(jìn)行訓(xùn)練，并在測試集上進(jìn)行性能評估，得到了精度為65.51%、相鄰準(zhǔn)確率為92.52%的分類模型。

二、數(shù)據(jù)

1.數(shù)據(jù)收集

劉珣[25]指出新一代對外漢語教材的編寫應(yīng)參考以下四條原則：①以熟練運用為導(dǎo)向，以培養(yǎng)交際能力為基本目標(biāo);②以學(xué)生為中心，較好地體現(xiàn)語言習(xí)得的過程和規(guī)律;③堅持并不斷發(fā)展結(jié)構(gòu)、功能、文化相結(jié)合的原則;④教材的現(xiàn)代化與立體化。

我們參考以上原則，選取了表1中6個系列的對外漢語教材。這6個系列教材在網(wǎng)絡(luò)上只能找到影印版PDF，有的甚至不能找到完整的影印版PDF（以下簡稱PDF版），遇到這種情況時我們使用掃描儀對教材進(jìn)行掃描得到對應(yīng)電子版（以下簡稱掃描版）。緊接著我們使用光學(xué)字符識別（Optical Character Recognition，以下簡稱OCR）工具對教材PDF版和掃描版進(jìn)行文字識別，并將識別出來的內(nèi)容存儲在txt格式的文件中。

然而這些txt格式的文件不能直接作為數(shù)據(jù)集使用，因為OCR工具識別得到的文字并不能保證100%的準(zhǔn)確率，并且PDF版和掃描版中存在著大量的插圖、頁碼、表格等干擾信息。所以必須要對這些txt文件進(jìn)行數(shù)據(jù)處理，以保證數(shù)據(jù)的有效性。

2.數(shù)據(jù)處理

在數(shù)據(jù)處理的過程中我們進(jìn)行了3次人工排錯：第一次檢查排版格式，去除多余的換行符、空格;第二次通讀全文與原文對比，排除明顯的文字錯誤;第二次檢查易錯誤識別的文字，如“拔”（易錯誤識別為“撥”）、“王”（易錯誤識別為“玉”）等會因字形相似導(dǎo)致OCR工具錯誤識別的文字。在人工排錯中發(fā)現(xiàn)《漢語閱讀教程》中有22篇文章是表單形式的應(yīng)用文，這些文章重點在于教會L2學(xué)習(xí)者掌握漢語在日常中的應(yīng)用。這些應(yīng)用文漢字?jǐn)?shù)量較少且不是連續(xù)的句子、段落，不適用于作為本研究的數(shù)據(jù)集，所以從數(shù)據(jù)集中剔除了這些文章，得到的中、高級對外漢語教材系列統(tǒng)計表如表2所示。

3.數(shù)據(jù)集打標(biāo)簽與劃分

由于原始數(shù)據(jù)集中包含有中級上冊（M1）、中級下冊（M2）、高級上冊（H1）和高級下冊（H2）這四個由易到難的等級，所以筆者就以樣本本身所在的等級為樣本標(biāo)簽，如《故都的秋》這篇文章來自《大學(xué)漢語高級精讀》（下），即高級下冊，所以樣本《故都的秋》的標(biāo)簽為高級下冊（H2），其他文章以此類推。

通常，我們通過測試集來測試分類器的泛化能力，因此，我們需要將數(shù)據(jù)集劃分成訓(xùn)練集和測試集兩部分。其中訓(xùn)練集參與特征選擇、分類器訓(xùn)練等步驟，測試集只參與最終分類器泛化能力評估。為了保證訓(xùn)練集和測試集數(shù)據(jù)分布的一致性，我們在578篇文章中隨機(jī)抽取測試集，并按照訓(xùn)練集：測試集=7：3的比例劃分?jǐn)?shù)據(jù)集，得到訓(xùn)練集數(shù)據(jù)404個、測試集數(shù)據(jù)174個。

三、特征工程

1.特征提取

眾所周知，中文文本沒有英文空格這種天然的詞邊界標(biāo)志。所以想要分析中文就要進(jìn)行中文分詞，簡單地說，中文分詞就是要由機(jī)器在中文文本的詞與詞之間自動加上空格[26]。詞性是詞的句法功能類別，在各種中文的自然語言處理過程中，幾乎都要進(jìn)行詞性標(biāo)注[27]。由于詞匯也是本研究中重要的研究對象，所以在對數(shù)據(jù)集進(jìn)行特征提取之前首先需要進(jìn)行分詞和詞性標(biāo)注?，F(xiàn)有的中文分詞、詞性標(biāo)注的工具有很多，其中，由大數(shù)據(jù)搜索與挖掘?qū)嶒炇已邪l(fā)的NLPIR漢語分詞系統(tǒng)是國內(nèi)深受業(yè)界好評的自然語言處理平臺，主要功能包括中文的分詞、詞性標(biāo)注、命名實體識別、關(guān)鍵詞提取等。并且NLPIR漢語分詞系統(tǒng)還支持多種編碼、多種操作系統(tǒng)，同時能夠兼容多種開發(fā)語言和平臺。

本文根據(jù)對外漢語的特點編寫代碼，提取了適用于對外漢語文本可讀性評估的特征，包括基礎(chǔ)特征、等級特征、詞性特征、語法特征這四個維度的特征共計86個。接下來我們詳細(xì)介紹這四個維度的特征：

（1）基礎(chǔ)特征

基礎(chǔ)特征指文章中較為淺顯且易于提取的特征?；A(chǔ)特征最初廣泛使用在可讀性公式的研究中[28]。其中，金凱德（Flesch-Kincaid）公式是微軟辦公軟件Word的內(nèi)置可讀性公式[10]。本文根據(jù)英文可讀性公式、對外漢語可讀性公式的研究成果，提取了21個基礎(chǔ)特征，如表3所示。

（2）詞性特征

詞的語言學(xué)特征在表征文本方面也是至關(guān)重要的，例如不同詞性的詞對文本的表征能力是不同的[29]。所以，我們使用PyNLPIR（NLPIR漢語分詞系統(tǒng)提供的Python接口）進(jìn)行詞性標(biāo)注。NLPIR漢語分詞系統(tǒng)提供的《計算所漢語詞性標(biāo)記集》分別有一類22個、二類66個、三類11個（共計99個），基本滿足了本研究提取詞性特征的需求，本文提取了所有的一類詞性（如表4所示）以及國內(nèi)外第二語言文本可讀性評估重要特征（如表5所示），共計34個，但后期將特征全部提取出來后發(fā)現(xiàn)“字符串”特征值全部為0，所以該特征無意義，因此去除這一特征，詞性特征最終有33個。

（3）等級特征

在等級特征提取的過程中，我們用到了以下標(biāo)準(zhǔn)：《國際漢語教學(xué)通用課程大綱》（2013年修訂版）（以下簡稱《大綱》）中的《常用漢字表（一-六級）》《常用漢語詞語表（一-六級）》（以下簡稱分別為《漢字等級表》《詞語等級表》）?！洞缶V》由孔子學(xué)院總部組織研制，用于梳理對外漢語教學(xué)課程目標(biāo)與內(nèi)容，旨在為漢語教學(xué)機(jī)構(gòu)和教師在制訂教學(xué)計劃、測評L2學(xué)習(xí)者語言掌握能力、編寫教材等眾多方面提供參考依據(jù)和標(biāo)準(zhǔn)?！洞缶V》中的《漢字等級表》《詞語等級表》對于將漢語作為L2學(xué)習(xí)者而言是標(biāo)準(zhǔn)等級字詞表，在對外漢語教學(xué)領(lǐng)域具有普適性、權(quán)威性[30]。我們參考國內(nèi)外第二語言文本可讀性特征指標(biāo)提取的等級特征如表6所示。

（4）語法特征

以上“基礎(chǔ)特征”“詞性特征”“等級特征”都是基于統(tǒng)計的特征，并沒有提取語義、語法等層次的特征。試想一下，在學(xué)習(xí)英語時，即使在所有單詞都掌握了的情況下，如果句子的語法復(fù)雜，我們?nèi)匀粫@句英文一知半解，無法真正掌握句子的意思。同樣，一個語法結(jié)構(gòu)復(fù)雜的中文句子亦會對L2學(xué)習(xí)者造成困惑，即這個句子的難度較高、可讀性較低。所以接下來著重介紹一下“語法特征”的提取。我們采用斯坦福NLP小組研發(fā)的斯坦福解析器進(jìn)行對外漢語文本的語法分析，具體工具使用的是NLTK提供的斯坦福語法解析器的python接口。該工具可以將一句話分析成語法樹，將句子結(jié)構(gòu)用圖形表示，代表了句子的推導(dǎo)結(jié)果，可用于分析句子語法結(jié)構(gòu)。簡單來說，語法樹就是按照某一規(guī)則進(jìn)行推導(dǎo)后形成的樹狀圖，樹狀圖的層級是指將語法分析的結(jié)果轉(zhuǎn)換為樹狀圖后各節(jié)點的層次，以此類推[31]。語法分析樹的結(jié)構(gòu)層次如圖1所示，接下來我們根據(jù)語法樹的分析結(jié)果提取了語法特征12個，如表7所示。

2.特征預(yù)處理

將以上86個特征提取完畢后發(fā)現(xiàn)，特征數(shù)據(jù)差異較大，如特征“總字次”的取值區(qū)間為[109，4621]，特征“語法分析樹平均節(jié)點數(shù)”的取值區(qū)間為[39.493151，180.6]，所以在對特征進(jìn)行特征選擇之前，需要對特征進(jìn)行數(shù)據(jù)預(yù)處理。本研究中采用了區(qū)間縮放法，公式表達(dá)為：

x'= 公式1

采用區(qū)間縮放法后，每個特征的取值范圍都在[0，1]區(qū)間，避免了由于特征取值范圍差異巨大而影響后期的特征選擇、分類器訓(xùn)練。

3.特征選擇

特征選擇定義如下：給定一組候選特征，選擇出在某個分類器下最佳的子集[32]。特征選擇可以去除無關(guān)特征和冗余特征，防止分類器過擬合[33]、泛化能力降低。此過程不僅可以通過減少需要收集的特征數(shù)量來降低計算成本，而且在某些情況下，由于樣本大小有限，它還可以提高分類器性能[34]。

想要在初始特征集中找到一個合適的特征子集，最直接的方式就是遍歷所有特征子集，即窮舉搜索，但這樣會消耗大量的計算資源，一般在計算上是不可行的。常見的特征選擇方法大致可分成嵌入式（Filter）、過濾式（Wrapper）和包裹式（Embeded）三種。

嵌入式特征選擇將特征選擇過程與分類器訓(xùn)練過程同步進(jìn)行，兩者在同一優(yōu)化過程中完成;過濾式特征選擇與后續(xù)分類器無關(guān)，相當(dāng)于先對初始特征集進(jìn)行“過濾”，再用“過濾”后得到的特征子集來訓(xùn)練模型，具有選擇快速等優(yōu)勢;與過濾式特征選擇不同，包裹式特征選擇直接將最終要使用的分類器的性能指標(biāo)作為評價特征子集的標(biāo)準(zhǔn)，一般情況下，包裹式特征選擇的最終分類器性能比過濾式特征選擇的效果更好，但是由于包裹式特征選擇過程中多次訓(xùn)練分類器，其計算開銷也要比過濾式特征選擇大得多。目前包裹式特征選擇多與過濾式特征選擇相結(jié)合輔助特征選擇[33]。在本研究中我們采用了過濾式特征選擇中的卡方檢驗法。

卡方檢驗（Chi-Square Test，CHI）是一種用途很廣的假設(shè)檢驗方法，在文本分類中可以用于表示特征f與類別c的相關(guān)性，先假設(shè)f與c相互獨立，然后通過比較理論值與實際值的偏差，來體現(xiàn)f與c的相關(guān)程度。其根本思想就是在于比較理論值和實際值的吻合程度或擬合優(yōu)度問題。特征f與類別c的卡方統(tǒng)計量如公式2所示。

CHI（f，c）=公式2

其中：N是樣本總數(shù);A是屬于類別c且包含特征f的樣本頻率;B是不屬于類別c但包含特征f的樣本頻率;C是屬于類別c但不包含特征f的樣本頻率;D是不屬于類別c且不包含特征f的樣本頻率。

我們使用sklearn featureselection庫的SelectKBest類結(jié)合卡方檢驗來計算每個非負(fù)特征和分類（M1、M2、H1、H2，共計四類）之間的卡方統(tǒng)計量，該統(tǒng)計量可以檢驗測量特征與分類之間的依賴關(guān)系，我們可以通過這個方法將獨立于類的特征“過濾”。

四、隨機(jī)森林算法

傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法有很多，如決策樹、支持向量機(jī)、貝葉斯、K近鄰等，但存在單個分類器的性能提升有限以及過擬合的問題。集成學(xué)習(xí)不同于傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法，它通過集成多個分類器來提高分類性能，集成學(xué)習(xí)算法中的隨機(jī)森林算法以簡單高效著稱。

隨機(jī)森林是基于決策樹的一種非參數(shù)集成學(xué)習(xí)分類算法，只需通過對給定樣本的學(xué)習(xí)訓(xùn)練分類規(guī)則，并不需要先驗知識[35]。其中隨機(jī)森林分類的基本思想是：使用bootstrap抽樣從訓(xùn)練集全集D中抽取出k個樣本;這k個樣本分別建立k個決策樹模型，將測試集數(shù)據(jù)輸入這k個決策樹模型后會得到k個分類結(jié)果;最后通過投票表決預(yù)測其最終分類。算法示意如圖2所示。

五、實驗

1.實驗設(shè)計

本文實驗主要分為四大模塊。

（1）數(shù)據(jù)

數(shù)據(jù)收集：選取《大學(xué)漢語精讀》《漢語閱讀教程》《實踐感悟漢語》（包括《實踐漢語》和《感悟漢語》兩套）《漢語閱讀與寫作教程》《成功之路》《發(fā)展?jié)h語》等六個中、高級對外漢語教材系列;使用OCR工具、掃描儀將以上六個系列教材的影印版PDF文件、紙質(zhì)書籍轉(zhuǎn)化為存儲在txt格式文件中的電子版，獲取共計600篇文章。

數(shù)據(jù)處理：三次人工排錯、去除22篇不適用于進(jìn)行特征提取的文章，最終整理出共計578篇校對后的文章。具體文章數(shù)據(jù)統(tǒng)計詳見表2。

數(shù)據(jù)集打標(biāo)簽與劃分：將數(shù)據(jù)集打亂后按照訓(xùn)練集：測試集=7：3的比例劃分?jǐn)?shù)據(jù)集，得到訓(xùn)練集數(shù)據(jù)404個、測試集數(shù)據(jù)174個。

（2）特征工程

特征提?。菏褂肞yNLPIR對文章數(shù)據(jù)進(jìn)行分詞、編寫python代碼提取基礎(chǔ)特征、等級特征、詞性特征、語法特征四個維度的特征共計86個，具體特征詳見表3-表7。

特征預(yù)處理：使用區(qū)間縮放法對所有特征進(jìn)行區(qū)間縮放，使每個特征值都分布在[0，1]區(qū)間，詳見公式1。

特征選擇：使用過濾式特征選擇中的卡方檢驗“過濾”得到卡方值在平均值以上的特征。

（3）分類器訓(xùn)練

將經(jīng)過特征工程的訓(xùn)練集輸入隨機(jī)森林分類算法中，訓(xùn)練出分類器。

（4）性能評估

將測試集輸入上一步得到的分類器中進(jìn)行性能測試，使用精度（Acc）、相鄰準(zhǔn)確度（±Acc）、查準(zhǔn)率（precision）、查全率（recall）、F1值（F1-score）這5個指標(biāo)對實驗結(jié)果進(jìn)行評估。

綜上所述，對基于隨機(jī)森林的外漢語文本可讀性評估的整體流程如圖3所示。

2.評價指標(biāo)

文本可讀性的評估與具體的應(yīng)用場景有關(guān)，不同的應(yīng)用場景有不同評價指標(biāo)，本次實驗采用了以下五個可以定量的評價指標(biāo)：

（1）精度（Acc）

評價一個分類模型常用的指標(biāo)就是精度，精度也是最為直觀的指標(biāo)，精度的計算公式為：

其中I（·）表示指示函數(shù)，當(dāng)·為真時I（·）取值為1，當(dāng)·為假時I（·）取值為0，簡單來說，精度等于所有參與預(yù)測的樣本總數(shù)中預(yù)測正確的樣本數(shù)所占的比例。一般情況下精度越高表示分類器性能越好，但過于籠統(tǒng)粗糙，因此還需要相鄰準(zhǔn)確度、查準(zhǔn)率、查全率和F1值等指標(biāo)來輔助。

（2）相鄰準(zhǔn)確度（±Acc）

文本可讀性的評估與其他的分類不盡相同，比如水果的分類，蘋果被錯誤地預(yù)測為香蕉，錯了就是錯了，因為蘋果和香蕉之間沒有遞進(jìn)關(guān)系。而文本可讀性的等級是存在遞進(jìn)關(guān)系的，以本研究的四個等級舉例（M1、M2、H1、H2），比如一篇真實可讀性等級為H2的文章被分類器錯誤地預(yù)測為H1和被錯誤地預(yù)測為M1是不同的。雖然從精度方面考慮，兩者的情況是一樣的，但是同樣是誤判，被誤判為H1要比被誤判為M1要好得多，所以使用相鄰準(zhǔn)確度作為評價指標(biāo)之一是十分有必要的。

（3）查準(zhǔn)率（precision，又稱準(zhǔn)確率）和查全率（recall，又稱召回率）

這兩個評價指標(biāo)在實際研究中經(jīng)常被使用。然而查準(zhǔn)率和查全率是一對互相矛盾的評價指標(biāo)，當(dāng)其中一個值上升時，通常情況下，另一個值會對應(yīng)下降。查準(zhǔn)率和查全率可以通過分類情況混淆矩陣計算得出，混淆矩陣如表8所示。

其中，TP表示真正例，F(xiàn)N表示假反例，F(xiàn)P表示假正例，TN表示真反例。

3.實驗結(jié)果與分析

我們完成上一小節(jié)中的實驗步驟訓(xùn)練好分類器后，將事先劃分出來的測試集輸入分類器，得到的實驗結(jié)果如表9所示。

從表9可以看出，通過隨機(jī)森林算法，文本可讀性評估四分類（M1、M2、H1、H2）中單類查準(zhǔn)率最高的是H2，達(dá)到了0.81，單類查準(zhǔn)率最低的是M1，為0.60，但M1的查全率為四類中最高的，達(dá)到了0.85?？傮w上說，此次四分類的精度為65.51%、相鄰準(zhǔn)確度達(dá)到了92.52%。

六、總結(jié)

隨著自然語言處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等相關(guān)技術(shù)的發(fā)展，基于機(jī)器學(xué)習(xí)的對外漢語文本可讀性評估逐漸成為研究熱點。機(jī)器學(xué)習(xí)從使用的個體分類器數(shù)量上來說又可以分為單分類器機(jī)器學(xué)習(xí)和集成學(xué)習(xí)，集成學(xué)習(xí)中的隨機(jī)森林算法更是以易于理解、性能優(yōu)異著稱，在世界上多個數(shù)據(jù)挖掘競賽上嶄露頭角。因此，本文提出了基于隨機(jī)森林算法的對外漢語文本可讀性評估研究。

由于數(shù)據(jù)的稀缺性，本文中使用的數(shù)據(jù)集相對較小，在小數(shù)據(jù)集上提取了基礎(chǔ)特征、等級特征、詞性特征、語法特征這四個維度的特征共計86個。進(jìn)行了Filter特征選擇后使用訓(xùn)練集訓(xùn)練隨機(jī)森林分類器，使用測試集進(jìn)行了性能評估，得到了精度為65.51%、相鄰準(zhǔn)確度為92.52%的對外漢語文本可讀性評估模型。本研究也為同類型的實驗提供了新的方向，可以在接下來的研究中嘗試使用隨機(jī)森林等集成學(xué)習(xí)進(jìn)行對外漢語文本可讀性評估。

參考文獻(xiàn)：

[1]Petersen S E，Ostendorf M. A machine learning approach to reading level assessment[J]. Computer Speech and Language，2009，23（1）：89-106.

[2]Xia M，Kochmar E，Briscoe T.Text Readability Assessment for Second Language Learners[C].San Diego：Proceedings of the 11th Workshop on Innovative Use of NLP for Building Educational Applications，2016：12-22.

[3]Crossley S A，Greenfield J，McNamara D S. Assessing Text Readability Using Cognitively Based Indices[J].Tesol Quarterly，2008，42（3）：475-493.

[4]Dale E，Chall J S.The Concept of Readability[J]. Elementary English，1949，26（1）：19-26.

[5]郭望皓.對外漢語文本易讀性公式研究[D].上海：上海交通大學(xué)，2010.

[6]Dale E，Chall J S.A Formula for Predicting Readability： Instructions[J]. Educational Research Bulletin，1948，27（2）：37-54.

[7]Flesch R.A New Readability Yardstick.[J]. Journal of Applied Psychology，1948，32（3）：221-233.

[8]Fry E.A Readability Formula That Saves Time[J].Journal of Reading，1968，11（7）：513-578.

[9]McLaughlin G H.SMOG Grading-a New Readability Formula[J]. Journal of Reading，1969，12（8）：639-646.

[10]Gunning R.The Technique of Clear Writing[J]. McGraw-Hill，1952：36-37.

[11]Jeng C C.Chinese Readability Analysis using Artificial Neural Networks[D]. Dekalb：Northern Illinois University，2001.

[12]李紹山.易讀性研究概述[J].解放軍外國語學(xué)院學(xué)報，2000，23（4）：1-5.

[13]Fry E. Readability versus Leveling[J].Reading Teacher，2002，56（3）：286-291.

[14]Klare G R. Readability[J]. Handbook of Reading Research，1984（1）： 681-744.

[15]王蕾.初中級日韓留學(xué)生文本可讀性公式初探[D].北京：北京語言大學(xué)，2005.

[16]楊金余.高級漢語精讀教材語言難度測定研究[D].北京：北京大學(xué)，2008.

[17]左虹，朱勇.中級歐美留學(xué)生漢語文本可讀性公式研究[J].世界漢語教學(xué)，2014，28（2）：263-276.

[18]Feng L，Jansche M， Huenerfauth M，et al.A Comparison of Features for Automatic Readability Assessment[C].Beijing：Proceedings of the 23rd International Conference on Computational Linguistics，2010：276-284.

[19]Lau T P. Chinese Readability Analysis and its Applications on the Internet[D]. Hong Kong：Hong Kong University，2006.

[20]Chen Y H， Tsai Y H， Chen Y T. Chinese Readability Assessment using TF-IDF and SVM[C].Guilin： International Conference on Machine Learning and Cybernetics， 2011：10-13.

[21]Heilman M，Collins-Thompson K，Callan J，et al. Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts[C]. Rochester： Proceedings of North American Chapter of the Association for Computational Linguistics– Human Language Technologies，2007：460-467.

[22]Kate R J，Luo X，Patwardhan S，et al.Learning to Predict Readability using Diverse Linguistic Features[C].Beijing： Proceedings of the 23rd International Conference on Computational Linguistics，2010：546-554.

[23]Collins‐Thompson K， Callan J. Predicting reading difficulty with statistical language models[J]. Journal of the American Society for Information Science and Technology，2005， 56（13）：1448-1462.

[24]YAO–TING SUNG， WEI–CHUN LIN，SCOTT BENJAMIN DYSON，et al.Leveling L2 Texts Through Readability： Combining Multilevel Linguistic Features with the CEFR[J]. Modern Language Journal，2015，99（2）：371-391.

[25]劉珣.新一代對外漢語教材的展望——再談漢語教材的編寫原則[J].世界漢語教學(xué)，1994（1）：58-67.

[26]駱正清，陳增武，王澤兵，等.漢語自動分詞研究綜述[J].浙江大學(xué)學(xué)報（工學(xué)版），1997（3）：306-312.

[27]洪銘材，張闊，唐杰，等.基于條件隨機(jī)場（CRFs）的中文詞性標(biāo)注方法[J].計算機(jī)科學(xué)，2006，33（10）：148-151+155.

[28]Kincaid J P，F(xiàn)ishburne Jr R P，Rogers R L，et al. Derivation of New Readability Formulas （Automated Readability Index， Fog Count and Flesch Reading Ease Formula） for Navy Enlisted Personnel[R]. Memphis：Reasearch Branch Report，1975：8-75.

[29]施侃晟，劉海濤，宋文濤.基于詞性和中心點改進(jìn)的文本聚類方法[J].模式識別與人工智能，2012，25（6）：996-1001.

[30]孫曉明.漢語國際推廣背景下的詞匯等級標(biāo)準(zhǔn)研究[J].民族教育研究，2012，23（1）：110-114.

[31]楊鴻武，王曉麗，陳龍，等.基于語法樹高度的漢語韻律短語預(yù)測[J].計算機(jī)工程與應(yīng)用，2006，46（36）：139-143+167.

[32]Jain A，Zongker D. Feature selection： evaluation，application， and small sample performance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，1997，19（2）：153-158.

[33]許堯，胡學(xué)鋼，李培培.一種基于組策略的過濾式特征選擇算法[J].計算機(jī)應(yīng)用研究，2016，33（5）：1322-1326.

[34]Jain A K， Chandrasekaran B. 39 Dimensionality and Sample Size Considerations in Pattern Recognition Practice[J]. Handbook of Statistics，1982，2（39）： 835-855.

[35]賈斌，馬嚴(yán)，趙翔.基于組合分類器的DDoS攻擊流量分布式檢測模型[J].華中科技大學(xué)學(xué)報（自然科學(xué)版），2016，44（S1）：1-5+10.

（編輯：魯利瑞）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡