国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國際中文教育的文本可讀性研究回顧

2022-12-16 14:57:10張慶翔
現(xiàn)代語文 2022年10期
關(guān)鍵詞:可讀性詞數(shù)語料

張慶翔,張 瑩

(上海大學(xué) 文學(xué)院,上海 200436)

一、引言

文本可讀性,也稱為“易讀性”,一般是指文本易于閱讀和理解的程度或性質(zhì)。王蕾把國際中文教育領(lǐng)域的可讀性定義為:漢語閱讀材料的難易度,是否適合某種水平的某一類漢語第二語言學(xué)習(xí)者的閱讀[1]。文本可讀性既要對閱讀材料的難度或可讀性進(jìn)行測評,也要對讀者的閱讀能力進(jìn)行測評。因此,在研究國際中文教育領(lǐng)域的可讀性問題時,不僅要考慮到閱讀者的水平,還要考慮到他們的語言文化背景,如是否為漢字文化圈國家、是否為華僑等因素。

可讀性研究起源于美國,國內(nèi)最早應(yīng)用于英語教學(xué)領(lǐng)域。文本可讀性的研究思路是對閱讀材料的難度進(jìn)行客觀評價,通過建立一套實用、易操作的文本可讀性評估體系,以實現(xiàn)在教學(xué)中幫助選取與學(xué)習(xí)者水平相適應(yīng)的語料以及預(yù)測語料難度的目的,并可直接作用于建立分級閱讀標(biāo)準(zhǔn)或分級閱讀系統(tǒng)。

在國際中文教育領(lǐng)域中,張寧志最早嘗試運用量化方法來衡量教材難易度,作者定量分析了29 部國際中文教育教材語料的平均句長,研究發(fā)現(xiàn),句長和非常用詞比率都是影響漢語文本閱讀難度的重要因素[2]。這是國際中文教育領(lǐng)域最早的關(guān)于可讀性的相關(guān)研究。王蕾則構(gòu)擬了第一個文本可讀性公式[3],并引起了一些學(xué)者對文本可讀性研究的關(guān)注,由此產(chǎn)生了一些根據(jù)差異性文本來構(gòu)建適用于不同范圍的可讀性公式的成果。隨著研究方法的更新和交叉學(xué)科成果的介入,一些學(xué)者突破了國際中文教育領(lǐng)域可讀性研究的范式,創(chuàng)造性地采用樸素貝葉斯和支持向量機等學(xué)習(xí)算法,通過建立數(shù)學(xué)模型來評價文本可讀性,為國際中文教育領(lǐng)域的文本可讀性研究提供了新的思路和方法??梢哉f,通過梳理國際中文教育文本可讀性的相關(guān)研究成果,不僅能夠了解文本可讀性的研究脈絡(luò)、研究方法,而且有助于開辟新的研究思路。

二、關(guān)于可讀性公式的研究

國際中文教育領(lǐng)域的文本可讀性研究主要集中在三個方面:歸納影響難度的文本特征因素、測定特征因素對難度的影響力、依據(jù)設(shè)定的標(biāo)準(zhǔn)定量考察語料文本難度。其中,定量分析將模糊的因素用具體的數(shù)據(jù)來表示,從而達(dá)到分析比較的目的,它成為研究文本難度的必要手段,可讀性公式則是定量研究語料文本難度的最直接形式。

(一)影響可讀性的文本特征

文本可讀性研究的重點是選擇文本特征,按照選定的參考標(biāo)準(zhǔn)統(tǒng)計影響文本難度的特征變量是建立可讀性公式的關(guān)鍵。按照文本特征因素在研究階段中所起的作用,可以將其分為三類:預(yù)測特征變量、有效預(yù)測特征變量和結(jié)果特征變量。在研究初始階段,系統(tǒng)性預(yù)設(shè)的文本特征因素即為預(yù)測變量。在調(diào)查實驗過程中,能夠賦值或者對研究目的起作用的變量即為有效預(yù)測變量。有效預(yù)測變量經(jīng)過賦值和回歸分析后,剔除對文本可讀性不產(chǎn)生影響或影響極小的成分,在可讀性公式中保留下來,影響閱讀難度的有效預(yù)測變量即為結(jié)果變量。

基于回歸分析的可讀性公式研究中的文本特征,主要涉及字、詞、句、語法和篇章層面。由于各種可讀性公式在研究目的、研究對象、分析手段或研究者知識背景等方面會有所不同,因此,在文本特征的選擇和排除上也存在一定差異。對可讀性公式研究中所涉及的文本因素進(jìn)行統(tǒng)計,與字相關(guān)的文本特征有總字?jǐn)?shù)、非重復(fù)字?jǐn)?shù)、字種數(shù)、簡單字?jǐn)?shù)(甲級字?jǐn)?shù))、字均筆畫數(shù)、非重復(fù)字均筆畫數(shù)、字頻、漢字部件數(shù)、丙級/丁級/超綱字?jǐn)?shù)等;與詞相關(guān)的文本特征有總詞數(shù)(固定詞組數(shù))、非重復(fù)詞數(shù)(相異詞比)、簡單詞數(shù)(甲級詞數(shù))、詞頻、平均詞長、難詞比(丙級/丁級/超綱詞占總詞比)、實虛詞比、實詞密度、虛詞數(shù)、丙級/丁級/超綱詞數(shù)等,這些特征因素體現(xiàn)了詞的數(shù)量、類別、難度和差異性;與句相關(guān)的文本特征有句子數(shù)、句均字?jǐn)?shù)、句均詞數(shù)、分句數(shù)、分句均字?jǐn)?shù)、分句均詞數(shù)、語法點難度、平均句長、篇長、名詞短語比率。在選取字和詞層面的文本特征時,所依據(jù)的標(biāo)準(zhǔn)一般是2001 年發(fā)布的《漢語水平詞匯與漢字等級大綱(修訂本)》。由于項目統(tǒng)計復(fù)雜,語法和篇章層面的文本特征較少被提及,與語法相關(guān)的文本特征只出現(xiàn)丙級以上語法項目1 項,主要是根據(jù)《對外漢語教學(xué)初級階段教學(xué)大綱》確定其難度,依據(jù)《漢語水平等級標(biāo)準(zhǔn)與語法等級大綱》確定其項目等級;與篇章相關(guān)的文本特征有標(biāo)志詞數(shù)(關(guān)聯(lián)詞)和人稱代詞數(shù)兩項,以《實用現(xiàn)代漢語語法》為選取標(biāo)準(zhǔn)。2021 年,《國際中文教育中文水平等級標(biāo)準(zhǔn)》頒布,將會對今后研究中文本特征的選用和分析產(chǎn)生一定影響。

文本特征對可讀性的影響具有不同的權(quán)重,在以往的研究中,對文本可讀性產(chǎn)生影響的特征主要集中在字、詞和句層面,語法和篇章的層面的影響因素相對較少。鄒紅建、楊爾弘考察了《新編漢語報刊閱讀教程》的難易度,認(rèn)為通用詞覆蓋率、文本長度值對文本難易度產(chǎn)生了重要影響[4](P378)。李燕、張英偉對《博雅漢語(中級沖刺篇Ⅰ)》的語料難度進(jìn)行了定量分析,研究顯示,平均句長、每百字含非常用字?jǐn)?shù)和文學(xué)性修辭表達(dá)手法,是影響教材語料可讀性的重要變量[5]。郭望皓、宿飛鴻通過問卷調(diào)查的方式,根據(jù)不同級別學(xué)習(xí)者的回答,加權(quán)得出了影響漢語文本難度因素的權(quán)重系數(shù)矩陣[6]。王鴻濱對漢語可讀性公式進(jìn)行了對比研究,認(rèn)為產(chǎn)生影響的文本特征主要為漢字難度、詞匯難度和句子難度,其中,詞匯難度多基于大綱對詞匯等級的劃分,句子難度多以句長為依據(jù)[7]。張寧志認(rèn)為,句子數(shù)、平均句長和甲乙兩級以外的非常用詞,是影響語料可讀性的重要變量[2]。吳佩考察了影響漢語句子復(fù)雜性的通用句法特征,為文本可讀性研究在句法層面上的指標(biāo)選擇提供了依據(jù)[8]。可見,文本特征的選用和測定是可讀性公式研究的重點和難點。目前,這方面仍然存在需要改進(jìn)之處,牛士偉曾指出了其中的一些問題,如同一語言層面特征不同、相同特征的統(tǒng)計方法不一、某些層面上的特征可以合并等[9]。

(二)可讀性公式的構(gòu)建

可讀性公式是針對某種閱讀文本,將所有影響閱讀難度的、可量化的文本特征因素綜合起來,所制定的一個評價文本難易程度的公式,它能夠直觀地定量分析文本難度。基于文本特征的可讀性公式研究的典型范式,是通過選取相關(guān)文本特征作為變量,采用完型填空、回答問題等被試參與的實驗方法,或者對教材中的相關(guān)文本特征變量進(jìn)行直接量化,通過采用多元線性回歸公式的擬測算法,構(gòu)建出多種表征閱讀文本難度的多元線性公式。選取不同的文本特征變量會造成公式表達(dá)的差異,根據(jù)不同特征變量的組合情況,需要從幾個公式中選取擬合優(yōu)度最高的一個公式,并將它確定為最終衡量文本難度的可讀性公式。有些公式計算的是文本可讀性,有些公式則統(tǒng)計可讀性的難度,這是兩個相反的指標(biāo),但都反映了文本語料的復(fù)雜程度。國際中文教育領(lǐng)域產(chǎn)生了一批較有影響力的可讀性公式的研究成果,通過梳理、分析這些成果,可以管窺文本可讀性公式研究的思路和方法。

王蕾以初中級日韓留學(xué)生記敘性漢語文本語料難度為研究對象,以《漢語水平詞匯與漢字等級大綱(修訂本)》為標(biāo)準(zhǔn),進(jìn)行字、詞等層面的文本特征劃分與統(tǒng)計。該文以《對外漢語教學(xué)初級階段教學(xué)大綱》為依據(jù)來確定句子層面的文本特征,以《實用現(xiàn)代漢語語法》為依據(jù)來確定篇章層面的文本特征,在這一基礎(chǔ)上,考察了《標(biāo)準(zhǔn)漢語教程》《新世紀(jì)漢語》的語料難度與文本可讀性。在作者所設(shè)置的涉及字、詞、句和篇章層面的16 項文本特征因素中,字層面的特征有總字?jǐn)?shù)、非重復(fù)字?jǐn)?shù)、非重復(fù)字均筆畫數(shù)和簡單字?jǐn)?shù),詞層面的特征有總詞數(shù)、非重復(fù)詞數(shù)、簡單詞數(shù)和虛詞數(shù),句層面的特征包括句子數(shù)、句均字?jǐn)?shù)、句均詞數(shù)、分句數(shù)、分句均字?jǐn)?shù)、分句均詞數(shù)和語法點難度(后3 項只見于該研究),篇章層面的特征僅有標(biāo)志詞數(shù)(關(guān)聯(lián)詞)1 項。具有有效性的特征因素共有9 項,它們分別是:非重復(fù)字?jǐn)?shù)、非重復(fù)字均筆畫數(shù)、總詞數(shù)、簡單詞數(shù)、虛詞數(shù)、句子數(shù)、分句數(shù)、語法點難度、標(biāo)志詞數(shù),其中,有4 項對文本可讀性產(chǎn)生了影響,分別是詞層面的總詞數(shù)、簡單詞數(shù)、虛詞數(shù)與句層面的分句數(shù)。其可讀性公式為:Y=72.749-0.462X3+0.802X4-7.515X5+2.446X7,其中,Y為可讀性分?jǐn)?shù),X3為總詞數(shù),X4為簡單詞數(shù),X5為虛詞數(shù),X7為分句數(shù)。該公式的擬合優(yōu)度檢驗值是0.803,簡單詞數(shù)和分句數(shù)與可讀性正相關(guān),總詞數(shù)和虛詞數(shù)與可讀性負(fù)相關(guān),虛詞數(shù)X5相對影響較大[3]。

楊金余以高級漢語精讀教材《現(xiàn)代漢語高級教程》《漢語精讀課本》《博雅漢語(高級飛翔篇Ⅰ)》為研究對象,以《漢語水平詞匯與漢字等級大綱》為依據(jù),確定漢字的使用頻率、固定詞組數(shù)和丙級/丁級/超綱詞語數(shù);以《漢語水平等級標(biāo)準(zhǔn)與語法等級大綱》為標(biāo)準(zhǔn),確定語法項目等級,構(gòu)擬出具有5 項特征的可讀性公式。與其他研究有所不同,該研究的預(yù)測變量、有效變量和結(jié)果變量具有一致性,預(yù)測變量全部成為影響可讀性的因素。其特征變量包括字層面的丙級/丁級/超綱字?jǐn)?shù)、詞層面的總詞數(shù)和丙級/丁級/超綱詞數(shù),句層面的平均句長與語法層面的丙級以上語法項目,其中,丙級/丁級/超綱字?jǐn)?shù)、丙級/丁級/超綱詞數(shù)和丙級以上語法項目作為影響可讀性的變量,只在該研究中使用過。作者所構(gòu)擬的可讀性難度公式為:Y =0.95X1+0.975(X2+X3)+X4+X5,其中,Y 為難度系數(shù),X1為平均每百字丙級/丁級/超綱字?jǐn)?shù),X2為平均每百字丙級/丁級/超綱詞數(shù),X3為平均每百字固定詞組數(shù),X4為平均句長,X5為平均每百字丙級以上語法項目數(shù)。所有變量均與可讀性難度成正相關(guān),并且影響程度大致相同[10]。

郭望皓從《博雅漢語》中選取28 篇課文作為語料,以《漢語水平詞匯與漢字等級大綱(修訂本)》為難度劃分的標(biāo)準(zhǔn),將字、詞、句等層面的8 項特征設(shè)置為預(yù)測變量。其中,字層面的預(yù)測特征變量是字種數(shù)、字均筆畫數(shù)和字頻,詞層面的預(yù)測特征變量是詞頻、平均詞長和實虛詞比,句層面的預(yù)測特征變量是平均句長和篇長,篇章層面的預(yù)測特征變量僅有標(biāo)志詞數(shù)(關(guān)聯(lián)詞)1 項。值得注意的是,字頻、詞頻、實虛詞比和篇長4 項變量只見于該研究。8 項預(yù)測變量經(jīng)分析后產(chǎn)生有效性的是字種數(shù)、實虛詞比和平均句長,它們都影響了文本難度,進(jìn)入公式成為結(jié)果變量。作者所構(gòu)擬的可讀性公式為:Y =-11.946 +0.123X1+0.198X2+0.811X3,其中,Y 為文本可讀性難度,X1是平均句長,X2是表漢字難度的字種數(shù),X3是表詞匯難度的實虛詞比。該公式的擬合優(yōu)度檢驗值調(diào)整后為0.906,3 項特征變量均與可讀難度成正相關(guān),實虛詞比的影響力略大[11]。

左虹、朱勇以中級歐美留學(xué)生漢語教材《新實用漢語課本》為研究對象,以《漢語水平詞匯與漢字等級大綱(修訂本)》為標(biāo)準(zhǔn),考察字頻、甲級字?jǐn)?shù)、甲級詞數(shù)和難詞比。在對教師問卷調(diào)查和對歐美學(xué)生完形填空測試的基礎(chǔ)上,設(shè)置了9 項預(yù)測特征變量。其中,字層面的預(yù)測特征變量有簡單字?jǐn)?shù)、字均筆畫數(shù)和漢字部件數(shù),詞層面的預(yù)測特征變量有簡單詞數(shù)、平均詞長、難詞比和虛詞數(shù),句層面的預(yù)測特征變量有句均字?jǐn)?shù)和平均詞數(shù)。這些預(yù)測特征變量經(jīng)分析后,除了漢字部件數(shù)外都是有效變量,能夠在回歸方程中影響文本可讀性的特征變量則只有字層面的簡單字?jǐn)?shù)(甲級字?jǐn)?shù))和詞層面的難詞比、虛詞數(shù)3項。經(jīng)過多元線性回歸分析,作者建立了一個針對中級歐美留學(xué)生的可讀性公式:Y =23.646 +0.485X2-125.931X3-0.647X1,其中,Y 為文本可讀性分?jǐn)?shù),X1為虛詞數(shù),X2為甲級字?jǐn)?shù),X3為難詞比。該公式的擬合優(yōu)度檢驗值為0.795。在3 項特征變量中,甲級字?jǐn)?shù)與可讀性成正相關(guān),虛詞數(shù)、難詞比與可讀性成負(fù)相關(guān);甲級字?jǐn)?shù)和虛詞數(shù)對可讀性的影響極小,難詞比對可讀性的影響極大[12]。

龍李琴以初中級泰越留學(xué)生漢語閱讀為研究對象,從《成功之路》系列教材中隨機選取了16 段語料,以《漢語水平詞匯與漢字等級大綱(修訂本)》為字、詞層面的劃分與統(tǒng)計標(biāo)準(zhǔn),根據(jù)不同文本特征變量的組合情況,設(shè)置了涉及字、詞和句的11 項預(yù)測特征變量。字層面的預(yù)測特征變量包括總字?jǐn)?shù)、非復(fù)現(xiàn)字?jǐn)?shù)、非復(fù)現(xiàn)字均筆畫數(shù)和簡單字?jǐn)?shù),詞層面的預(yù)測特征變量包括簡單詞數(shù)、難詞比和虛詞數(shù),句層面的預(yù)測特征變量包括句子數(shù)、句均字?jǐn)?shù)、句均詞數(shù)和分句數(shù)。排除非復(fù)現(xiàn)字?jǐn)?shù)、簡單詞數(shù)、句子數(shù)和句均字?jǐn)?shù)4 項后得出有效預(yù)測特征,其中,總字?jǐn)?shù)、非復(fù)現(xiàn)字均筆畫數(shù)和句均詞數(shù)3 項影響了文本難度,選取擬合優(yōu)度最高的一個公式作為衡量文本難度的可讀性成果,從而構(gòu)建出可讀性公式:Y =11.343 +0.052X1-1.313X2-0.216X3,其中,Y 為可讀性分?jǐn)?shù),X1為漢字總數(shù),X2為非復(fù)現(xiàn)字平均筆畫數(shù),X3為句平均詞數(shù)。該公式的擬合優(yōu)度檢驗值為0.689,漢字總數(shù)與文本可讀性正相關(guān),非復(fù)現(xiàn)字平均筆畫數(shù)、句平均詞數(shù)與可讀性負(fù)相關(guān),其中,非復(fù)現(xiàn)字平均筆畫數(shù)這一特征對可讀性的影響最大[13]。

江新等學(xué)者以HSK高級閱讀測試材料為研究對象,以《漢語水平詞匯與漢字等級大綱(修訂本)》為統(tǒng)計標(biāo)準(zhǔn),設(shè)置了涉及字、詞、句和篇章層面的14 項預(yù)測特征變量。字層面的預(yù)測特征變量有總字?jǐn)?shù)、非重復(fù)字?jǐn)?shù)、簡單字?jǐn)?shù)和字均筆畫數(shù),詞層面的預(yù)測特征變量有總詞數(shù)、非重復(fù)詞數(shù)、難詞比、實詞密度和虛詞數(shù),句層面的預(yù)測特征變量有句子數(shù)、句均詞數(shù)和名詞短語比率,篇章層面的預(yù)測特征變量是標(biāo)志詞數(shù)(關(guān)聯(lián)詞)和人稱代詞數(shù)。值得注意的是,人稱代詞數(shù)只在該研究中被作為預(yù)測變量進(jìn)行考察。排除總字?jǐn)?shù)、非重復(fù)字?jǐn)?shù)、總詞數(shù)、實詞密度和句子數(shù)5 項后,剩余9 項均是有效變量,其中,只有相異詞比和虛詞數(shù)2 項在回歸分析中影響了文本難度。作者所構(gòu)擬的可讀性公式為:Y =178.261-134.363X1-0.515X2,其中,Y 為可讀性分?jǐn)?shù),X1為不重復(fù)的相異詞比率,X2為虛詞數(shù)。該公式的擬合優(yōu)度檢驗值為0.806,都與文本可讀性成負(fù)相關(guān),相異詞比對文本可讀性影響極大,虛詞數(shù)則對可讀性影響極小[14]。

從上述研究可以看出,對影響可讀性的文本特征的劃分及統(tǒng)計,大都是以《漢語水平詞匯與漢字等級大綱》《漢語水平等級標(biāo)準(zhǔn)與語法等級大綱》等為參考依據(jù)。字層面表征漢字?jǐn)?shù)量和難度的特征基本都影響可讀性,其中,總字?jǐn)?shù)、字種數(shù)、非重復(fù)字均筆畫數(shù)、簡單字?jǐn)?shù)和丙級/丁級/超綱字?jǐn)?shù)都在不同研究中成為影響可讀性的結(jié)果變量。詞層面的總詞數(shù)、非重復(fù)詞數(shù)、簡單詞數(shù)、難詞比、實虛詞比、虛詞數(shù)和丙級/丁級/超綱詞數(shù),均是能夠影響可讀性的文本特征。句層面特征與句子的結(jié)構(gòu)和組成部分有關(guān),其中,分句數(shù)、分句均字?jǐn)?shù)、篇長和名詞短語比率與可讀性有關(guān)。語法和篇章層面主要涉及到丙級以上語法項目、標(biāo)志詞數(shù)(關(guān)聯(lián)詞)和人稱代詞數(shù)3 項特征,其中,楊金余考察了語法層面中的丙級以上語法項目,并認(rèn)為它對文本可讀性產(chǎn)生影響;王蕾、江新等則著重分析了篇章層面的標(biāo)志詞數(shù)量和人稱代詞數(shù)量,并在驗證后否定了這些變量對可讀性的影響作用。

三、基于分類的可讀性模型研究

文本可讀性研究量化分析的早期成果主要集中于公式的構(gòu)建,隨著研究方法的變化和研究手段的更新,基于分類模型的文本可讀性研究成為新的熱點。分類是數(shù)據(jù)分析和機器學(xué)習(xí)領(lǐng)域的一個基本問題,文本分類已廣泛應(yīng)用于網(wǎng)絡(luò)信息過濾、信息檢索和信息推薦等多個方面??梢哉f,特征結(jié)合機器學(xué)習(xí)的可讀性評估方法是建立在文本分類的基礎(chǔ)上的,對數(shù)據(jù)計算技術(shù)要求較高,需要相關(guān)的學(xué)科專業(yè)給予技術(shù)支持。

機器學(xué)習(xí)法將文本的復(fù)雜特征表征為有關(guān)數(shù)據(jù),對各種與文本可讀性相關(guān)的指標(biāo)進(jìn)行計算,然后運用機器學(xué)習(xí)中的分類方法訓(xùn)練得到可讀性分類器,再應(yīng)用分類器來判定文本所屬的可讀性級別。數(shù)據(jù)驅(qū)動分類器學(xué)習(xí)的方法有很多,主要包括神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機、樸素貝葉斯等,分類模型對于文本可讀性的預(yù)測效果要明顯好于傳統(tǒng)的公式方法。其中,支持向量機(SVM)和樸素貝葉斯(NB)是目前在可讀性預(yù)測領(lǐng)域中應(yīng)用比較廣泛的分類方法。支持向量機是按照監(jiān)督學(xué)習(xí)方式對相關(guān)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其模式識別可應(yīng)用于人像識別、文本分類和手寫字符識別等領(lǐng)域。樸素貝葉斯分類法在文字識別方面起著較為重要的作用,它建立在所有特征均相互獨立、互不影響的假設(shè)基礎(chǔ)上,對文本進(jìn)行特征選擇,并將未知的文字根據(jù)已有的規(guī)則予以分類。也就是說,該分類法屬于一種利用先驗概率計算后驗概率的學(xué)習(xí)算法。因此,不需通讀整篇文本,僅僅根據(jù)一些代表詞就能確定文章的主題。這種直觀的文本分類算法能夠達(dá)到較高的分類效率,并具有很好的可解釋性。

基于分類的使用特征、結(jié)合機器學(xué)習(xí)的文本可讀性評估,突破了國際中文教育領(lǐng)域可讀性研究的范式,創(chuàng)造性地采用學(xué)習(xí)算法,通過建立數(shù)學(xué)模型來評價文本可讀性,為該研究提供了新的思路和方法。目前的相關(guān)研究成果較少,并且研究者相對集中。楊純莉以《(新編)讀報紙,學(xué)中文——漢語報刊閱讀》初級、中級、準(zhǔn)高級和高級四個難度等級的262 篇教材文本為語料樣本,以《現(xiàn)代漢語語料庫詞頻表》《現(xiàn)代漢語常用詞用法詞典(最新版)》《現(xiàn)代漢語新詞語詞典》《現(xiàn)代常用文言書面語》為考察標(biāo)準(zhǔn),從中篩選出8 個影響顯著的詞匯因素,然后采用樸素貝葉斯和支持向量機算法建立數(shù)學(xué)模型,對文本可讀性進(jìn)行了預(yù)測與驗證[15]。孫未未以《HSK 詞匯等級標(biāo)準(zhǔn)大綱》①原文如此。這里的《HSK 詞匯等級標(biāo)準(zhǔn)大綱》即《漢語水平詞匯與漢字等級大綱》。下同。為詞語維度的評判標(biāo)準(zhǔn),利用SVM 算法,對6 套國際中文教育教材的語料分別進(jìn)行分類和回歸建模,研究顯示,分類模型更適合對閱讀材料的可讀性進(jìn)行評估[16]。孫未未、夏菁、曾致中還運用特征結(jié)合機器學(xué)習(xí)的方法,將《HSK詞匯等級標(biāo)準(zhǔn)大綱》和《HSK 詞性表》作為詞語等級評判的標(biāo)準(zhǔn),利用SVM 算法進(jìn)行分類和回歸建模,構(gòu)建了一個適用于小數(shù)據(jù)量對外漢語閱讀材料的可讀性評估模型[17]。楊文娣、曾致中提出了一種基于隨機森林算法的對外漢語文本可讀性自動評估方法,利用NLPIR 漢語分詞系統(tǒng)所提供的《計算所漢語詞性標(biāo)記集》來提取詞性特征,依照《國際漢語教學(xué)通用課程大綱(2013 年修訂版)》中的《常用漢字表(一~六級)》《常用漢語詞語表(一~六級)》來提取等級特征,最終得出了精度為65.51%、相鄰準(zhǔn)確度為92.52%的對外漢語文本可讀性評估模型[18]。夏菁、孫未未先將文本進(jìn)行自然語言處理,依循《HSK 詞匯等級標(biāo)準(zhǔn)大綱》劃定6 套教材中不同等級的詞語及難易度,再經(jīng)過詞頻統(tǒng)計提取出每個特征的數(shù)量值并將其標(biāo)準(zhǔn)化,結(jié)合SVM 算法和特征選擇技術(shù),分別構(gòu)建和驗證了詞語、語義、篇章和整體等不同向度特征的可讀性評估模型[19]。

就依據(jù)標(biāo)準(zhǔn)而言,上述學(xué)者在提取詞匯層面的文本特征時,大多依據(jù)的是《漢語水平詞匯與漢字等級大綱》,在《國際中文教育中文水平等級標(biāo)準(zhǔn)》這一新標(biāo)準(zhǔn)頒布后,文本特征的提取和學(xué)習(xí)也會發(fā)生相應(yīng)改變。就研究材料而言,除楊純莉以《(新編)讀報紙,學(xué)中文——漢語報刊閱讀》為研究樣本外,孫未未等、楊文娣與曾致中、夏菁與孫未未所選取的研究材料《大學(xué)漢語精讀》《漢語閱讀教程》《實踐漢語》《感悟漢語》《漢語閱讀與寫作教程》《發(fā)展?jié)h語》和《成功之路》漢語系列等,均為漢語中高級教材,其語料具有高度的一致性,未涉及其他國際中文教育教材。

總之,基于特征結(jié)合機器學(xué)習(xí)的研究方法,主要是通過對標(biāo)注等級的語料庫進(jìn)行文本特征的學(xué)習(xí)來構(gòu)建分類模型。該研究的有效性取決于語料標(biāo)注的精度,難度等級納入的特征越多,則模型的預(yù)測效度越好,其研究的難點在于語料庫難度標(biāo)注的構(gòu)建是一個相對復(fù)雜的工作。就目前的研究來看,基于特征分類結(jié)合機器學(xué)習(xí)評估文本難度的方法,所選取的材料重合率較高,未能涵蓋大部分的國際中文教育教材,是否有必要擴(kuò)大研究材料的范圍,是否能夠?qū)⑵溲芯砍晒麘?yīng)用于各種語料難度的評估,還需要進(jìn)一步的探討。

四、結(jié)語

綜上所述,國際中文教育領(lǐng)域可讀性研究一般應(yīng)用于對漢語文本難度進(jìn)行定量分析,目前的研究方法主要是基于文本特征的可讀性公式研究和基于分類模型的機器結(jié)合學(xué)習(xí)研究。

文本可讀性研究初步階段的成果集中于公式法,可讀性公式的構(gòu)建首先需要針對特定閱讀人群或文本語料,選取與可讀性密切相關(guān)的文本特征因素,然后建立各特征因素與可讀性級別之間的函數(shù)關(guān)系,通過量化手段客觀地評估文本閱讀難度。可讀性公式可以快速、直觀地獲得文本難度的分析結(jié)果,具有客觀性、簡便性和經(jīng)濟(jì)性等優(yōu)點,不僅為文本語料的難度測定提供了便利,也為教材編寫和教學(xué)設(shè)計提供了參考??勺x性公式的構(gòu)建既是傳統(tǒng)性公式的重要內(nèi)容,也為后來的可讀性研究奠定了基礎(chǔ)。隨著研究的不斷深入,近些年來又出現(xiàn)了基于分類模型的文本可讀性研究方法。它通常采用支持向量機和樸素貝葉斯等方法進(jìn)行模型的構(gòu)建,能夠涵蓋較多的文本因素,同時,對可讀性的預(yù)測效果要優(yōu)于公式法。不過,其構(gòu)建過程相對繁瑣復(fù)雜,一般需要交叉學(xué)科或者跨領(lǐng)域的合作,研究者既要對本體知識有較好的掌握,還需要具備較強的邏輯分析和編程能力,在操作層面具有一定的難度。在確定可讀性難度方面,分類模型體現(xiàn)出構(gòu)建難度大和分析準(zhǔn)確性高的特點,具有較強的深入研究的可能性。

文本特征因素的選取和測定是可讀性研究的重點和難點,字、詞、句層面的文本特征是影響可讀性的重要因素,字和詞特征的影響體現(xiàn)在數(shù)量、難度上,句子特征的影響以句長為主。不同的研究者在選擇和分析文本特征時會各有側(cè)重,文本語料類型、研究目的或者學(xué)者背景的差異等,是造成特征選用多樣性的主要原因。無論是公式法還是分類法,在提取文本特征時都需要依據(jù)一定的標(biāo)準(zhǔn)對研究對象進(jìn)行數(shù)據(jù)處理,現(xiàn)有的研究基本上是將《漢語水平詞匯與漢字等級大綱》《漢語水平等級標(biāo)準(zhǔn)與語法等級大綱》等作為特征選取的主要依據(jù)。2021 年7 月起頒布實施的《國際中文教育中文水平等級標(biāo)準(zhǔn)》,是新時代的國家級標(biāo)準(zhǔn)和語言文字規(guī)范,是國際中文教育領(lǐng)域?qū)W習(xí)、教學(xué)、測試與評估的重要依據(jù),依托新標(biāo)準(zhǔn)的可讀性研究,在文本特征因素的選擇和分析上必然會發(fā)生較大變化。

就現(xiàn)有的研究成果而言,可讀性研究也存在著一定的局限性。首先是研究對象同質(zhì)化嚴(yán)重,研究材料以漢語教材為主,缺少對其他文本語料的評估分析,今后的研究可以將報刊資料、網(wǎng)頁信息、考試文本等語料納入研究對象,研究范圍需要橫向拓展,研究層次需要縱向延伸。其次,大部分研究立足于自建的語料庫,在文本特征和標(biāo)準(zhǔn)的選取上缺乏統(tǒng)一性、規(guī)范性,不易推廣,有待于建立基于統(tǒng)一標(biāo)準(zhǔn)的研究規(guī)范。再次,研究方法較為單一,可讀性公式均采用多元線性回歸的方法,往往只考慮有限的可計量的文本特征,回歸方程所涉及的特征因素大都小于5 個,無法涵蓋所有影響文本可讀性的特征變量。也就是說,簡單地使用幾個文本因素進(jìn)行預(yù)測,在有效性、適用性和可信度方面,可能會存在一定偏差。最后,可讀性公式中選取的文本特征因素多為字、詞或句子層面,由于歸類和分析的復(fù)雜性,大部分研究都不考慮語法、語義、篇章等變量,缺乏對語法、語篇等因素的深度挖掘。同時,特征因素的選取具有一定的隨意性,缺乏統(tǒng)一的標(biāo)準(zhǔn)。針對這些問題,學(xué)界應(yīng)采取切實可行的解決方案。比如,依托新標(biāo)準(zhǔn),將文本語料的詞匯等級信息及平均句長、平均每百字句數(shù)等多種信息加以整合和量化,盡可能涵蓋更多的文本因素,并形成詞匯難度、句子難度、語法難度、語篇難度等穩(wěn)定的數(shù)據(jù)集。再如,關(guān)注閱讀主體的心理因素測查,對漢語教師和漢語學(xué)習(xí)者進(jìn)行問卷調(diào)查,考察影響漢語文本可讀性的各因素的比重,按照影響程度重新確定加權(quán)系數(shù),進(jìn)而形成最終的可讀性評估模型,以拓展研究的廣度、挖掘研究的深度。總之,可讀性研究已取得豐碩的成果,隨著研究方法的更新、研究內(nèi)容的深入,必將會出現(xiàn)評估結(jié)果更為精確、使用范圍更為廣泛、也更適合漢語文本的新的自動評估方法。

猜你喜歡
可讀性詞數(shù)語料
Adult bees teach their babies how to dance
騎行吧,Liam!
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
對增強吸引力可讀性引導(dǎo)力的幾點思考
新聞傳播(2015年11期)2015-07-18 11:15:03
淺談對提高黨報可讀性的幾點看法
新聞傳播(2015年9期)2015-07-18 11:04:12
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
在增強地方時政新聞可讀性上用足心思
中國記者(2014年2期)2014-03-01 01:38:34
閱讀訓(xùn)練一
滨州市| 黑河市| 禄劝| 邵武市| 溆浦县| 沙洋县| 临沂市| 内黄县| 江山市| 全椒县| 安吉县| 吴旗县| 平南县| 如皋市| 张家界市| 郑州市| 敦煌市| 葫芦岛市| 扶余县| 龙游县| 衡山县| 宝丰县| 石首市| 阜康市| 根河市| 光泽县| 新沂市| 盘山县| 锡林郭勒盟| 屯昌县| 浏阳市| 洪洞县| 榕江县| 武夷山市| 屏东市| 渭源县| 本溪市| 东莞市| 扎囊县| 牟定县| 区。|