王淑華 朱伊苓
摘? 要:以99篇韓國(guó)漢語(yǔ)學(xué)習(xí)者的新HSK5看圖寫作文本為研究對(duì)象,從詞匯和語(yǔ)法兩個(gè)維度,設(shè)立7個(gè)特征項(xiàng)、33個(gè)區(qū)別性指標(biāo),考察不同指標(biāo)與寫作文本質(zhì)量的相關(guān)性。研究顯示,詞匯維度、語(yǔ)法維度均有多個(gè)指標(biāo)與看圖寫作文本質(zhì)量強(qiáng)相關(guān)或中度相關(guān)。使用語(yǔ)法維度指標(biāo)建立的方程解釋力優(yōu)于詞匯維度建立的方程;結(jié)合詞匯和語(yǔ)法維度建立的方程雖然解釋力更強(qiáng),但使用的預(yù)測(cè)變量較多,操作難度增加。
關(guān)鍵詞:韓國(guó)漢語(yǔ)學(xué)習(xí)者;看圖寫作;質(zhì)量評(píng)估;詞匯維度;語(yǔ)法維度;預(yù)測(cè)方程
在第二語(yǔ)言能力評(píng)估中,聽和讀的評(píng)估可以通過(guò)選擇、判斷、填空等客觀性試題來(lái)進(jìn)行,但說(shuō)和寫的評(píng)估一般只能通過(guò)主觀性試題來(lái)完成。因此,近些年來(lái),關(guān)于口語(yǔ)和寫作能力的評(píng)估在第二語(yǔ)言能力評(píng)估研究中逐漸成為熱點(diǎn)話題[1]-[5]。由于評(píng)估者個(gè)人的興趣、情緒、意志以及光環(huán)效應(yīng)、位置效應(yīng)等,均會(huì)引起評(píng)分誤差,學(xué)界雖然盡力使用各種手段來(lái)提高評(píng)分者信度,如規(guī)定標(biāo)準(zhǔn)化評(píng)分細(xì)則、對(duì)評(píng)分員進(jìn)行崗前培訓(xùn)、配備評(píng)分仲裁等,但人工評(píng)估的客觀性和準(zhǔn)確性仍一直飽受爭(zhēng)議,因此,學(xué)界在多年前就開始了對(duì)機(jī)器自動(dòng)評(píng)估的探索[6]-[8]。機(jī)器自動(dòng)評(píng)估技術(shù)的發(fā)展,主要是依賴于口語(yǔ)測(cè)試、寫作測(cè)試中各項(xiàng)區(qū)別性特征的正確選擇和不同特征的權(quán)重設(shè)置[9]-[12]。這些探索為漢語(yǔ)二語(yǔ)能力評(píng)估研究作出了很大貢獻(xiàn),但仍有一些問(wèn)題值得繼續(xù)深入探討。
就漢語(yǔ)寫作質(zhì)量評(píng)估來(lái)說(shuō),前人多單獨(dú)考察詞匯維度或語(yǔ)法維度對(duì)寫作質(zhì)量的影響,綜合考察兩個(gè)維度的研究較少;同時(shí),前人考察的文本或來(lái)自于老HSK,或是自建語(yǔ)料庫(kù),對(duì)新HSK的寫作文本關(guān)注不夠。實(shí)際上,不同長(zhǎng)度、任務(wù)的寫作文本,其質(zhì)量評(píng)估因素也有一定差異。有鑒于此,本文擬從詞匯和語(yǔ)法兩個(gè)維度出發(fā),對(duì)韓國(guó)漢語(yǔ)學(xué)習(xí)者的寫作質(zhì)量進(jìn)行綜合考察,以期能為漢語(yǔ)作為第二語(yǔ)言的寫作教學(xué)和質(zhì)量評(píng)估工作提供參考。
一、研究問(wèn)題和語(yǔ)料選取
本文以韓國(guó)漢語(yǔ)學(xué)習(xí)者的新HSK5看圖寫作文本為研究對(duì)象,在Read的詞匯豐富性框架[11]和Wolfe- Quintero等學(xué)者的CAF框架[13]指導(dǎo)下,從詞匯和語(yǔ)法兩個(gè)維度,考察不同區(qū)別性指標(biāo)與寫作質(zhì)量的相關(guān)性,并結(jié)合詞匯和語(yǔ)法維度的指標(biāo),建立看圖寫作自動(dòng)評(píng)分方程。
(一)研究問(wèn)題
本文所探討的問(wèn)題主要包括三個(gè)方面:
1.詞匯維度和語(yǔ)法維度的不同區(qū)別性指標(biāo),與看圖寫作文本質(zhì)量的相關(guān)性如何?
2.詞匯和語(yǔ)法維度具體有哪些區(qū)別性指標(biāo),它們以何種方式預(yù)測(cè)看圖寫作文本的質(zhì)量?
3.影響新HSK5看圖寫作文本質(zhì)量和影響漢語(yǔ)其他類型寫作任務(wù)質(zhì)量的因素有何不同?
(二)語(yǔ)料選取
為了較為全面地考察學(xué)習(xí)者的寫作質(zhì)量,我們首先選擇了3幅在場(chǎng)景、人物、行為等方面具有較大差異的圖片作為考察范圍,其整卷編號(hào)分別為H51445、H51552、H51560。然后再依據(jù)成績(jī),將文本分為高(24—30分)、中(18—23分)、低(12—17)三個(gè)組別。需要說(shuō)明的是,由于得分低于11分的作文錯(cuò)誤較多,研究?jī)r(jià)值較低,因此,未納入本文的研究范圍。最后,每組選定33篇、一共99篇文本作為本文的具體考察對(duì)象。3幅圖片分別如圖1、圖2、圖3所示:
二、詞匯、語(yǔ)法維度的區(qū)別性指標(biāo)
與寫作質(zhì)量的相關(guān)性
一般認(rèn)為,寫作質(zhì)量評(píng)估主要涉及語(yǔ)言表現(xiàn)和內(nèi)容質(zhì)量?jī)蓚€(gè)方面??紤]到內(nèi)容質(zhì)量方面的標(biāo)準(zhǔn)較難實(shí)現(xiàn)客觀化且不易操作,在二語(yǔ)寫作中尤其是篇幅較短的情況下,考察點(diǎn)大多集中在學(xué)生是否能使用規(guī)范的目的語(yǔ),而立意構(gòu)思和謀篇布局更多是母語(yǔ)寫作中的考察點(diǎn)[14]。也有學(xué)者將漢字正確性作為一個(gè)獨(dú)立維度,考慮到機(jī)考在不斷普及且在漢字正確方面的表現(xiàn)優(yōu)于紙筆考,故本文未將漢字正確性作為獨(dú)立指標(biāo)。因此,本文僅從詞匯和語(yǔ)法兩個(gè)維度來(lái)考察其區(qū)別性指標(biāo)與寫作文本質(zhì)量之間的相關(guān)性。
(一)詞匯維度區(qū)別性指標(biāo)與寫作質(zhì)量的相關(guān)性
Read的詞匯豐富性框架包括5個(gè)特征:詞匯多樣性、詞匯復(fù)雜性、詞頻概貌、詞匯錯(cuò)誤和詞匯密度,其中,詞匯密度不太適合考察寫作質(zhì)量,故本文不把這一指標(biāo)列入考察范圍。本文中的詞匯多樣性包括實(shí)詞數(shù)(總詞數(shù)減去副詞、介詞、連詞、助詞、嘆詞、擬聲詞后的數(shù)量)、詞種數(shù)、自然文本長(zhǎng)度TTR(Type-Token Ratio)、控制文本長(zhǎng)度TTR等4個(gè)指標(biāo)①。詞匯復(fù)雜性包括復(fù)雜詞數(shù)和占比、復(fù)雜詞種數(shù)和占比等4個(gè)指標(biāo),這里的復(fù)雜詞語(yǔ)是指新HSK詞匯大綱5級(jí)詞語(yǔ)以外的詞語(yǔ),即6級(jí)詞和超綱詞。詞頻概貌包括常用詞數(shù)和占比、次常用詞數(shù)和占比、非常用詞數(shù)和占比等6個(gè)指標(biāo),這里的常用詞是指新HSK詞匯大綱中的1—2級(jí)詞,次常用詞是指大綱中的3—4級(jí)詞,非常用詞是指大綱中的5—6級(jí)詞和超綱詞。詞匯錯(cuò)誤包括詞語(yǔ)混用數(shù)和占比、生造詞數(shù)和占比等4個(gè)指標(biāo)。
1.詞匯多樣性與寫作質(zhì)量的相關(guān)性
我們對(duì)韓國(guó)漢語(yǔ)學(xué)習(xí)者看圖寫作文本的詞匯多樣性進(jìn)行了歸納、統(tǒng)計(jì),具體如表1所示:
從表1可以看出,從低分組到中分組,實(shí)詞數(shù)和詞種數(shù)分別增加了340個(gè)和246個(gè),增幅分別為33.1%和25.1%;從中分組到高分組,實(shí)詞數(shù)和詞種數(shù)分別增加了83個(gè)和159個(gè),增幅分別為6.1%和13.0%。低分組到中分組的增幅明顯高于中分組到高分組的增幅。從低分組到高分組,實(shí)詞數(shù)、詞種數(shù)、控制文本長(zhǎng)度TTR均與文本成績(jī)成正比,但自然文本長(zhǎng)度TTR呈“U”型,中分組最低,低分組略高于高分組。
我們使用spss25.0來(lái)計(jì)算看圖寫作文本質(zhì)量與以上4個(gè)指標(biāo)之間的Spearman相關(guān)系數(shù)。其中,|0.8|≤r<|1.0|為非常強(qiáng)的相關(guān),|0.6|≤r<|0.8|為強(qiáng)相關(guān),|0.4|≤r<|0.6|為中度相關(guān),|0.2|≤r<|0.4|為弱相關(guān),r<|0.2|為不相關(guān)。統(tǒng)計(jì)結(jié)果顯示,看圖寫作文本質(zhì)量與詞種數(shù)(r=0.619,p<0.01)強(qiáng)相關(guān),與實(shí)詞數(shù)(r=0.499,p<0.01)中度相關(guān),與控制文本長(zhǎng)度TTR(r=0.394,p<0.01)弱相關(guān),與自然文本長(zhǎng)度TTR(r=-0.061,p=0.546>0.05)不相關(guān)。詞匯多樣性主要反映了詞匯使用的廣度,詞種數(shù)越多,詞匯量越大;實(shí)詞數(shù)越多,文本信息越豐富。
2.詞匯復(fù)雜性與寫作質(zhì)量的相關(guān)性
我們對(duì)韓國(guó)漢語(yǔ)學(xué)習(xí)者看圖寫作文本的詞匯復(fù)雜性進(jìn)行了歸納、統(tǒng)計(jì),具體如表2所示:
從表2可以看出,復(fù)雜詞數(shù)、復(fù)雜詞占比、復(fù)雜詞種數(shù)、復(fù)雜詞種占比等4個(gè)指標(biāo),均與文本成績(jī)成正比。低分組復(fù)雜詞數(shù)和復(fù)雜詞種數(shù)之間的差別遠(yuǎn)高于中分組和高分組的對(duì)應(yīng)差別,這主要是因?yàn)榈头纸M的學(xué)習(xí)者詞匯量較小,同一個(gè)詞常常多次使用造成的。從低分組到高分組,復(fù)雜詞數(shù)、詞種數(shù)均有較大幅度的增長(zhǎng),其中,低分組到中分組的增幅分別為70.8%、129.2%,中分組到高分組的增幅分別為58.5%、53.9%。
進(jìn)一步的統(tǒng)計(jì)顯示,看圖寫作文本質(zhì)量與復(fù)雜詞數(shù)(r=.574,p<.01)、復(fù)雜詞種數(shù)(r=.571,p<.01)為中度相關(guān),與復(fù)雜詞占比(r=.278,p<.01)和復(fù)雜詞種占比(r=.356,p<.01)為弱相關(guān)。這說(shuō)明,隨著學(xué)習(xí)者漢語(yǔ)水平的提高,詞匯量也逐漸增大,他們對(duì)復(fù)雜詞的使用也越發(fā)嫻熟。
3.詞頻概貌與寫作質(zhì)量的相關(guān)性
我們對(duì)韓國(guó)漢語(yǔ)學(xué)習(xí)者看圖寫作文本的詞頻概貌進(jìn)行了歸納、統(tǒng)計(jì),具體如表3所示:
一般來(lái)說(shuō),寫作水平從低到高,常用詞的使用應(yīng)該呈遞減狀態(tài),次常用詞、非常用詞的使用呈遞增狀態(tài)。但從表3可以看出,不同組別的詞頻概貌呈現(xiàn)出比較復(fù)雜的情況。在常用詞的使用方面,中分組的常用詞總數(shù)和占比均為最高,但低分組比例和中分組差別不大;次常用詞的數(shù)量雖然從低分組到高分組逐漸遞增,但其占比呈U型;非常用詞的使用和文本質(zhì)量呈正比,從低分組到高分組逐漸遞增。從總體上來(lái)說(shuō),低分組和中分組的詞頻概貌較為接近,中分組和高分組之間的差距遠(yuǎn)大于它與低分組的差距。
進(jìn)一步的統(tǒng)計(jì)顯示,次常用詞數(shù)(r=.547,p<.01)和非常用詞數(shù)(r=.574,p<.01),均與文本質(zhì)量中度相關(guān);常用詞數(shù)(r=.265,p<.01)、常用詞占比(r=-.277,p<.01)、次常用詞占比(r=.211,p<.05)和非常用詞占比(r=.285,p<.01),均與文本質(zhì)量弱相關(guān)。這說(shuō)明,盡量使用更多的次常用詞和非常用詞,有助于提升寫作文本的質(zhì)量。
4.詞匯錯(cuò)誤與寫作質(zhì)量的相關(guān)性
我們對(duì)韓國(guó)漢語(yǔ)學(xué)習(xí)者看圖寫作文本中的詞匯錯(cuò)誤進(jìn)行了歸納、統(tǒng)計(jì),具體如表4所示:
從表4可以看出,就不同組別來(lái)說(shuō),低分組最明顯的錯(cuò)誤是生造詞,而中分組和高分組最明顯的錯(cuò)誤是詞語(yǔ)混用。就詞語(yǔ)混用來(lái)說(shuō),從低分組到中分組,數(shù)量有一定增加;但從中分組到高分組,降幅明顯。就生造詞來(lái)說(shuō),其數(shù)量和占比均與文本質(zhì)量高低呈反比關(guān)系,從低分組到中分組再到高分組,降幅明顯。
進(jìn)一步的統(tǒng)計(jì)發(fā)現(xiàn),生造詞數(shù)(r=-.544,p<.01)和生造詞占比(r=-.584,p<.01)與文本質(zhì)量中度負(fù)相關(guān),混用數(shù)(r=-.282,p<.01)和混用占比(r=-.371,p<.01)與文本質(zhì)量弱負(fù)相關(guān)。這說(shuō)明,生造詞的錯(cuò)誤會(huì)隨著寫作水平的提高而逐漸減少,但詞語(yǔ)混用是寫作中一個(gè)需要長(zhǎng)期關(guān)注的問(wèn)題,易混淆詞語(yǔ)的辨析在相當(dāng)長(zhǎng)的時(shí)間內(nèi)都會(huì)是教學(xué)的重點(diǎn)與難點(diǎn)。
(二)語(yǔ)法維度區(qū)別性特征與寫作質(zhì)量的相關(guān)性
Wolfe-Quintero等學(xué)者的CAF框架包括文本復(fù)雜性(Complexity)、準(zhǔn)確性(Accuracy)和流利性(Fluency)三個(gè)指標(biāo)。本文中的句法復(fù)雜性包括復(fù)句數(shù)量和占比、特殊句式數(shù)量和占比、平均句長(zhǎng)、T單位平均小句數(shù)等6個(gè)指標(biāo)。其中,特殊句式包括“把”字句、被動(dòng)句、雙賓句、連動(dòng)句、比較句、兼語(yǔ)句、“是……的”強(qiáng)調(diào)句、“得”字句、存現(xiàn)句、主謂謂語(yǔ)句等10種,同一小句出現(xiàn)兩種句式特征則統(tǒng)計(jì)兩次。特殊句式占比的計(jì)算方法是特殊句式數(shù)除以所有小句數(shù)。平均句長(zhǎng)是指文章總字?jǐn)?shù)除以小句數(shù)。T單位的計(jì)算采用安福勇的方法[3],單句算作一個(gè)T單位;聯(lián)合復(fù)句分句間沒(méi)有主從關(guān)系,地位平等,因此,各算一個(gè)T單位;偏正復(fù)句有一個(gè)分句承擔(dān)主要信息,另一個(gè)分句為補(bǔ)充,所以算一個(gè)T單位。T單位平均小句數(shù)的計(jì)算方法是小句總數(shù)除以T單位總數(shù)。準(zhǔn)確性包括虛詞錯(cuò)誤數(shù)、有誤特殊句式數(shù)、有誤句子數(shù)、有誤句子占比等4個(gè)指標(biāo)。流利性包括總句數(shù)、總字?jǐn)?shù)四次方根[15]、T單位平均長(zhǎng)度(總字?jǐn)?shù)除以T單位的個(gè)數(shù))、無(wú)誤T單位(沒(méi)有任何詞匯或語(yǔ)法方面錯(cuò)誤)個(gè)數(shù)和占比等5個(gè)指標(biāo)①。
1.句法復(fù)雜性與寫作質(zhì)量的相關(guān)性
我們對(duì)韓國(guó)漢語(yǔ)學(xué)習(xí)者看圖寫作文本的句法復(fù)雜性進(jìn)行了歸納、統(tǒng)計(jì),具體如表5所示:
從表5可以看出,句法復(fù)雜性特征下的6個(gè)指標(biāo),均與文本質(zhì)量呈正比關(guān)系。從低分組到中分組,復(fù)句和特殊句式數(shù)量增幅分別為51.9%、147.8%,平均句長(zhǎng)增幅為33.6%,T單位平均分句數(shù)增幅為12.0%。從中分組到高分組,復(fù)句和特殊句式數(shù)量增幅分別為25.3%、29.8%,平均句長(zhǎng)增幅為25.6%,T單位平均分句數(shù)增幅為3.5%??梢姡头纸M和中分組之間的差距要大于中分組和高分組之間的差距。
進(jìn)一步的統(tǒng)計(jì)表明,特殊句式數(shù)量(r=.603,p<.01)和文本質(zhì)量強(qiáng)相關(guān),復(fù)句數(shù)量(r=.538,p<.01)、平均句長(zhǎng)(r=.590,p<.01)、復(fù)句占比(r=.485,p<.01)、特殊句式占比(r=.471,p<.05),均與文本質(zhì)量中度相關(guān);T單位平均分句數(shù)(r=.294,p<.01)與文本質(zhì)量弱相關(guān)。這說(shuō)明,在寫作中增加句子長(zhǎng)度、較多使用特殊句式和復(fù)句,有助于提升文本質(zhì)量。
2.句法準(zhǔn)確性與寫作質(zhì)量的相關(guān)性
句法準(zhǔn)確性這一特征,這里主要是通過(guò)句法錯(cuò)誤來(lái)描述。也就是說(shuō),錯(cuò)誤越少,準(zhǔn)確性越高,文本質(zhì)量相應(yīng)也越高。我們對(duì)韓國(guó)學(xué)習(xí)者看圖寫作文本中的句法錯(cuò)誤進(jìn)行了歸納、統(tǒng)計(jì),具體如表6所示:
從表6可以看出,除了有誤特殊句式數(shù)這一指標(biāo)是中分組數(shù)值最高外,其余3個(gè)指標(biāo)即虛詞錯(cuò)誤數(shù)、有誤句子結(jié)構(gòu)數(shù)、有誤句子結(jié)構(gòu)占比,均與文本質(zhì)量呈反比關(guān)系。相對(duì)而言,中分組在句法準(zhǔn)確性方面的表現(xiàn)更接近于低分組,從低分組到中分組的變化幅度遠(yuǎn)遠(yuǎn)小于從中分組到高分組的變化幅度。
進(jìn)一步的統(tǒng)計(jì)表明,句法準(zhǔn)確性特征下有誤句子結(jié)構(gòu)的占比(r=-.444,p<.01)和文本質(zhì)量中度負(fù)相關(guān),虛詞錯(cuò)誤(r=-.201,p<.05)、有誤句子結(jié)構(gòu)的數(shù)量(r=-.320,p<.01)和文本質(zhì)量是弱負(fù)相關(guān),有誤特殊句式數(shù)(r=-.161,p>.05)和文本質(zhì)量無(wú)關(guān)??梢姡鄬?duì)而言,評(píng)分者對(duì)虛詞和特殊句式使用錯(cuò)誤的容忍度,要高于普通句子發(fā)生錯(cuò)誤的容忍度。
3.句子流利性與寫作質(zhì)量的相關(guān)性
我們對(duì)韓國(guó)漢語(yǔ)學(xué)習(xí)者看圖寫作文本的句子流利性進(jìn)行了歸納、統(tǒng)計(jì),具體如表7所示:
從表7可以看出,除了總句數(shù)這一指標(biāo)呈拋物線形態(tài)(高分組最低、中分組最高)外,其他各項(xiàng)指標(biāo)均與文本質(zhì)量呈正比關(guān)系。進(jìn)一步的統(tǒng)計(jì)表明,句子流利性特征中與看圖文本質(zhì)量達(dá)到強(qiáng)相關(guān)的指標(biāo)有總字?jǐn)?shù)四次方根(r=.664,p<.01)、無(wú)誤T單位個(gè)數(shù)(r=.643,p<.01)和無(wú)誤T單位個(gè)數(shù)占比(r=.679,p<.01),平均T單位長(zhǎng)度與文本質(zhì)量中度相關(guān)(r=.447,p<.01),總句數(shù)(r=-.0.043,p>0.05)和文本質(zhì)量不相關(guān)。也就是說(shuō),對(duì)學(xué)習(xí)者而言,文章篇幅長(zhǎng)一些,多用長(zhǎng)句,句子結(jié)構(gòu)正確,有利于取得更好的成績(jī)。
三、不同維度下看圖寫作文本質(zhì)量的
評(píng)估方程
為了進(jìn)一步了解詞匯維度和語(yǔ)法維度下不同區(qū)別性指標(biāo)對(duì)新HSK5看圖寫作文本質(zhì)量的影響,我們?cè)诨貧w分析的基礎(chǔ)上,分別從詞匯維度、語(yǔ)法維度、詞匯和語(yǔ)法相結(jié)合的維度,建立了3個(gè)看圖寫作文本質(zhì)量的評(píng)估方程。
(一)詞匯維度下看圖寫作文本質(zhì)量的評(píng)估方程
我們將詞匯豐富性框架中的4個(gè)特征、20個(gè)區(qū)別性指標(biāo)設(shè)為參數(shù)項(xiàng),進(jìn)行回歸分析,并建立模型。具體數(shù)據(jù)如表8所示:
在表8中,a.預(yù)測(cè)變量:(常量),詞種數(shù);b.預(yù)測(cè)變量:(常量),詞種數(shù),生造詞占比;c.預(yù)測(cè)變量:(常量),詞種數(shù),生造詞占比,次常用詞數(shù);d.預(yù)測(cè)變量:(常量),詞種數(shù),生造詞占比,次常用詞數(shù),復(fù)雜詞數(shù);e.預(yù)測(cè)變量:(常量),詞種數(shù),生造詞占比,次常用詞數(shù),復(fù)雜詞數(shù),常用詞數(shù);f.預(yù)測(cè)變量:(常量),生造詞占比,次常用詞數(shù),復(fù)雜詞數(shù),常用詞數(shù)。統(tǒng)計(jì)顯示,在多元線性回歸分析中,生造詞占比、次常用詞數(shù)、復(fù)雜詞數(shù)和常用詞數(shù)4個(gè)參項(xiàng)進(jìn)入回歸模型,聯(lián)合復(fù)相關(guān)系數(shù)為R=0.791,四者聯(lián)合的R2決定系數(shù)為0.626,即可以聯(lián)合解釋作文成績(jī)62.6%的方差,模型對(duì)數(shù)據(jù)的擬合情況較好。
我們又進(jìn)行了自變量回歸系數(shù)的顯著性t檢驗(yàn),具體數(shù)據(jù)如表9所示:
從表9可以看出,生造詞占比、次常用詞數(shù)、復(fù)雜詞數(shù)和常用詞數(shù)均為有效預(yù)測(cè)參項(xiàng),可以據(jù)此建立方程:
寫作成績(jī)=11.266+0.111×常用詞數(shù)+0.339×復(fù)雜詞數(shù)+0.342×次常用詞數(shù)-38.633×生造詞占比
以上四者的標(biāo)準(zhǔn)化回歸系數(shù)由大到小為:0.355>|-0.345|>0.334>0.314,即次常用詞數(shù)>生造詞占比>復(fù)雜詞數(shù)>常用詞數(shù)。這說(shuō)明,次常用詞數(shù)對(duì)寫作成績(jī)的影響最大,其次是生造詞占比和復(fù)雜詞數(shù),常用詞數(shù)影響最小。
(二)語(yǔ)法維度下看圖寫作文本質(zhì)量的評(píng)估方程
考慮到無(wú)誤T單位的確定同時(shí)也涉及詞匯錯(cuò)誤的指標(biāo),為了使語(yǔ)法維度建立的預(yù)測(cè)方程指標(biāo)更為純粹,我們將這兩個(gè)指標(biāo)予以剔除。然后,將剩下的13個(gè)指標(biāo)設(shè)為參項(xiàng)進(jìn)行回歸分析,并建立模型。具體數(shù)據(jù)如表10所示:
在表10中,a.預(yù)測(cè)變量:(常量),總字?jǐn)?shù)四次方根;b.預(yù)測(cè)變量:(常量),總字?jǐn)?shù)四次根,特殊句式占比;c.預(yù)測(cè)變量:(常量),總字?jǐn)?shù)四次方根,特殊句式占比,總句數(shù);d.預(yù)測(cè)變量:(常量),總字?jǐn)?shù)四次方根,特殊句式占比,總句數(shù),有誤句子數(shù)。統(tǒng)計(jì)顯示,總字?jǐn)?shù)四次根、特殊句式占比、總句數(shù)、有誤句子數(shù)4個(gè)參項(xiàng)進(jìn)入回歸模型,聯(lián)合復(fù)相關(guān)系數(shù)為0.670,即可以聯(lián)合解釋作文成績(jī)67%的方差,模型擬合情況較好。
我們又進(jìn)行了自變量回歸系數(shù)的顯著性t檢驗(yàn),具體數(shù)據(jù)如表11所示:
從表11可以看出,總字?jǐn)?shù)四次方根、特殊句式占比、總句數(shù)、有誤句子數(shù)等均為有效預(yù)測(cè)參項(xiàng),可以據(jù)此建立方程:
寫作成績(jī)=-22.218+14.506×總字?jǐn)?shù)四次方根+7.248×特殊句式占比-0.549×總句數(shù)-0.455×有誤句子數(shù)
四者的標(biāo)準(zhǔn)化回歸系數(shù)由大到小依次為:0.757>0.251>|-0.229|>|-0.129|,即總字?jǐn)?shù)四次方根>特殊句式占比>總句數(shù)>有誤句子數(shù)。這說(shuō)明,總字?jǐn)?shù)四次方根對(duì)寫作成績(jī)的影響最大,其次是特殊句式占比和總句數(shù),有誤句子數(shù)影響最小。
(三)結(jié)合詞匯和語(yǔ)法維度建立的看圖寫作文本質(zhì)量評(píng)估方程
按照上述程序,我們將詞匯和語(yǔ)法維度下的33個(gè)指標(biāo)設(shè)為參數(shù)項(xiàng),進(jìn)行回歸分析并建立模型,得出方程如下:
寫作成績(jī)=-16.635+11.441×總字?jǐn)?shù)四次方根+3.221×特殊句式占比+0.222×次常用詞數(shù)-27.654×生造詞占比-0.696×虛詞錯(cuò)誤數(shù)+4.944×復(fù)句占比-0.443×有誤句子數(shù)-復(fù)句數(shù)×0.862
這個(gè)方程結(jié)合了詞匯和語(yǔ)法兩個(gè)維度,一共有8個(gè)指標(biāo)項(xiàng)進(jìn)入了回歸模型。其中,詞匯維度有3個(gè)區(qū)別性指標(biāo),語(yǔ)法維度有5個(gè)區(qū)別性指標(biāo)。這幾個(gè)指標(biāo)與前文僅僅依據(jù)詞匯維度和語(yǔ)法維度進(jìn)入模型的指標(biāo)略有不同,主要是因?yàn)樵~匯維度和語(yǔ)法維度中有些指標(biāo)之間互相關(guān)聯(lián)。這8個(gè)指標(biāo)項(xiàng)的聯(lián)合復(fù)相關(guān)系數(shù)為0.768,即可以解釋作文成績(jī)76.8%的方差。這一方程的解釋力要優(yōu)于單用詞匯維度或語(yǔ)法維度建立的方程,但是由于進(jìn)入模型的指標(biāo)項(xiàng)較多,進(jìn)行評(píng)估時(shí)相應(yīng)地需要進(jìn)行更多的前期準(zhǔn)備。
需要指出的是,除了詞匯和語(yǔ)法維度的指標(biāo)外,寫作文本的內(nèi)容質(zhì)量、上下文的連貫性和邏輯性、標(biāo)點(diǎn)符號(hào)的使用等其他因素,也會(huì)對(duì)寫作文本的質(zhì)量產(chǎn)生一定影響。
四、討論與建議
本文的研究語(yǔ)料來(lái)自新HSK5看圖寫作文本,在寫作任務(wù)、文本長(zhǎng)度和具體要求等方面,和漢語(yǔ)作為第二語(yǔ)言的其他寫作任務(wù)體現(xiàn)出一定的差異。下面,我們就以本文的研究結(jié)果為基礎(chǔ),結(jié)合其他學(xué)者的相關(guān)研究,探討影響寫作文本質(zhì)量評(píng)估的指標(biāo)和不同方程對(duì)寫作文本質(zhì)量的解釋度問(wèn)題,并針對(duì)韓國(guó)漢語(yǔ)學(xué)習(xí)者的寫作,提出一些切實(shí)可行的建議。
(一)影響寫作文本質(zhì)量評(píng)估的指標(biāo)
通過(guò)上文的分析,可以發(fā)現(xiàn),在詞匯維度的4個(gè)特征18個(gè)指標(biāo)中,有17個(gè)指標(biāo)與看圖寫作成績(jī)呈現(xiàn)出強(qiáng)弱不同的相關(guān)性。相關(guān)系數(shù)較高的6個(gè)指標(biāo)項(xiàng)分別是:詞種數(shù)、生造詞占比、非常用詞數(shù)、次常用詞數(shù)、復(fù)雜詞數(shù)和生造詞數(shù)。結(jié)合王藝璇的相關(guān)研究[11],我們發(fā)現(xiàn),寫作文本體裁、題材、長(zhǎng)度和任務(wù)不同,影響寫作質(zhì)量的詞匯因素也有一定差異。
就詞匯多樣性特征而言,兩項(xiàng)研究中,寫作成績(jī)與各因素的相關(guān)性序列趨勢(shì)基本相同,詞種數(shù)是與寫作文本相關(guān)性最高的指標(biāo),實(shí)詞數(shù)/詞數(shù)居于第二位,自然文本長(zhǎng)度TTR與文本質(zhì)量不相關(guān)。
就詞匯復(fù)雜性特征而言,在王文中,復(fù)雜詞種數(shù)和占比均優(yōu)于復(fù)雜詞數(shù)和占比的相關(guān)性;我們統(tǒng)計(jì)的結(jié)果是,復(fù)雜詞和詞種數(shù)量與寫作質(zhì)量的相關(guān)性均優(yōu)于復(fù)雜詞和詞種的占比,這應(yīng)該與看圖寫作文本普遍較短有關(guān)。
就詞頻概貌特征而言,表面上看兩個(gè)統(tǒng)計(jì)相關(guān)性指標(biāo)有較大不同。王文的統(tǒng)計(jì)結(jié)果顯示,無(wú)論是詞形數(shù)還是詞種數(shù),均是最常用詞與寫作文本的相關(guān)性最高,為負(fù)相關(guān),最常用詞用得越多,文本質(zhì)量越低。本文的統(tǒng)計(jì)結(jié)果是,次常用詞數(shù)和非常用詞數(shù)相關(guān)性最高,為正相關(guān),這兩類詞用得越多,文本質(zhì)量越高。這個(gè)結(jié)論,一方面,反映了硬幣的正反兩面,在文本中,常用詞使用越多,相對(duì)而言,次常用詞和非常用詞則使用越少;另一方面,也與兩篇論文的詞頻等級(jí)分類標(biāo)準(zhǔn)不同有較大關(guān)系,新HSK詞表不僅數(shù)量較少,而且難度較低,它的次常用詞、非常用詞有較多屬于王文中的最常用詞、常用詞或次常用詞等級(jí)。
就詞匯錯(cuò)誤特征而言,王文發(fā)現(xiàn),詞匯錯(cuò)誤占比與寫作成績(jī)的相關(guān)性高于詞匯錯(cuò)誤數(shù)量,但未討論每種錯(cuò)誤與寫作成績(jī)的相關(guān)性;我們發(fā)現(xiàn),詞匯錯(cuò)誤中,生造詞占比、生造詞數(shù)與寫作質(zhì)量相關(guān)性最高。此外,王文統(tǒng)計(jì)的指標(biāo)相關(guān)系數(shù)明顯高于我們的統(tǒng)計(jì)結(jié)果,這可能與其樣本量更大、文本更長(zhǎng)有一定的關(guān)系。
在語(yǔ)法維度的3個(gè)特征15個(gè)指標(biāo)中,有13個(gè)指標(biāo)與寫作文本質(zhì)量呈現(xiàn)出強(qiáng)弱不同的相關(guān)性。強(qiáng)相關(guān)因素有4個(gè),分別是無(wú)誤T單位占比、總字?jǐn)?shù)四次方根、無(wú)誤T單位個(gè)數(shù)、特殊句式數(shù)量。其中,有3個(gè)指標(biāo)都居于流利性特征之下,并且2個(gè)指標(biāo)均與無(wú)誤T單位有關(guān),這說(shuō)明能夠正確地輸出T單位是寫作水平較高的主要標(biāo)志。考慮到T單位測(cè)量框架內(nèi)的指標(biāo)實(shí)際上是兼顧了復(fù)雜性和正確性的復(fù)合型指標(biāo),因此,它和寫作質(zhì)量相關(guān)性比較強(qiáng)是可以預(yù)見的結(jié)果。特殊句式數(shù)量指標(biāo)為本文首次單獨(dú)設(shè)立,它和寫作文本質(zhì)量也是強(qiáng)相關(guān)的關(guān)系。吳繼峰等學(xué)者曾以語(yǔ)言特征和內(nèi)容質(zhì)量為測(cè)量維度,對(duì)韓語(yǔ)母語(yǔ)者漢語(yǔ)二語(yǔ)寫作質(zhì)量進(jìn)行了評(píng)估研究,該研究顯示,語(yǔ)法正確性和句法復(fù)雜性均與寫作成績(jī)相關(guān),相關(guān)系數(shù)分別為0.439和0.415[5]。我們的研究結(jié)果和吳繼峰等學(xué)者的研究結(jié)果大體一致。
(二)不同方程對(duì)寫作文本質(zhì)量的解釋度
如前所述,我們分別從詞匯維度、語(yǔ)法維度、詞匯和語(yǔ)法相結(jié)合的維度出發(fā),構(gòu)建了三個(gè)質(zhì)量評(píng)估方程,以預(yù)測(cè)看圖寫作文本的質(zhì)量。通過(guò)對(duì)這三個(gè)方程以及與其他學(xué)者所建立的方程的比較,我們得出三點(diǎn)結(jié)論:
第一,就單個(gè)維度來(lái)說(shuō),語(yǔ)法維度的方程優(yōu)于詞匯維度的方程。詞匯維度使用4個(gè)預(yù)測(cè)指標(biāo),可以解釋寫作成績(jī)總變異的62.6%;語(yǔ)法維度同樣使用4個(gè)指標(biāo),卻可以解釋寫作成績(jī)總變異的67%。這是因?yàn)樵~匯和語(yǔ)法常常界限模糊,難以截然分開。如HSK語(yǔ)法大綱中的部分條目其實(shí)就是屬于詞匯范圍的;同時(shí),由于一個(gè)句子是由多個(gè)詞語(yǔ)按照特定的規(guī)則組合生成的,所以語(yǔ)法維度中的無(wú)誤T單位這一指標(biāo),實(shí)際上同時(shí)反映了學(xué)習(xí)者正確選用詞語(yǔ)和組合詞語(yǔ)的能力。語(yǔ)法維度主要是綜合能力的考察,因此,根據(jù)其區(qū)別性指標(biāo)建立的方程自然要優(yōu)于詞匯維度建立的方程。
第二,在可操作性和使用便利度方面,三個(gè)方程體現(xiàn)出一定的差異性。結(jié)合詞匯和語(yǔ)法維度所建立的方程,雖然解釋力明顯高于僅僅依據(jù)詞匯或語(yǔ)法單一維度建立的方程,但后兩者使用的指標(biāo)數(shù)量較少,相對(duì)來(lái)說(shuō),具有更強(qiáng)的可操作性。在計(jì)算機(jī)自動(dòng)評(píng)分時(shí),可以根據(jù)實(shí)際情況的需要,在評(píng)分的有效性和操作的便利性之間進(jìn)行權(quán)衡。
第三,本研究根據(jù)詞匯維度建立的方程解釋力,跟王藝璇構(gòu)建的方程有較大差別[11]。王文認(rèn)為,詞種數(shù)、詞匯錯(cuò)誤比重、常用詞數(shù)三者聯(lián)合的R2,可以解釋作文成績(jī)92.8%的方差。我們對(duì)此持懷疑態(tài)度,因?yàn)榧词挂黄魑脑谶@3個(gè)指標(biāo)上表現(xiàn)良好,但如果偏離主題或邏輯性不強(qiáng),也很難得到高分。決定寫作質(zhì)量的除了詞匯方面的指標(biāo)之外,還有語(yǔ)法表現(xiàn)、內(nèi)容質(zhì)量和標(biāo)點(diǎn)符號(hào)的使用等因素。雖然我們與吳繼峰等學(xué)者的考察對(duì)象不同[5]、[12],具體指標(biāo)設(shè)置和計(jì)算方法也有一定差異,但在研究結(jié)果方面,表現(xiàn)出較強(qiáng)的一致性。
(三)面向韓國(guó)漢語(yǔ)學(xué)習(xí)者的寫作建議
從上文的分析可以看出,低分組的學(xué)習(xí)者由于詞匯量有限,導(dǎo)致寫作中出現(xiàn)詞種總數(shù)較少而生造詞較多的現(xiàn)象,生造詞和句子結(jié)構(gòu)雜糅是造成作文得分較低的主要原因。因此,學(xué)習(xí)者除了努力擴(kuò)大詞匯量、提升正確運(yùn)用詞匯的能力以外,還需要將句子寫長(zhǎng),并有意識(shí)地使用特殊句式,提高語(yǔ)法的復(fù)雜度。
中分組的學(xué)習(xí)者文章篇幅基本達(dá)標(biāo),有明確的使用復(fù)雜詞和特殊句式的意識(shí),但語(yǔ)法錯(cuò)誤較多,這是被高分組拉開差距的主要原因。這一水平的學(xué)習(xí)者,應(yīng)該有意識(shí)地加強(qiáng)復(fù)雜詞語(yǔ)和特殊句式的使用,并通過(guò)多種途徑提高正確率,盡量減少語(yǔ)法錯(cuò)誤。
高分組的學(xué)習(xí)者在詞匯使用的廣度和深度方面表現(xiàn)良好,會(huì)使用多種類型的復(fù)句,特殊句式使用的準(zhǔn)確率也較高,其錯(cuò)誤主要集中在詞語(yǔ)混用方面。這說(shuō)明對(duì)學(xué)習(xí)者而言,掌握了基本的語(yǔ)法規(guī)則以后,詞匯學(xué)習(xí)仍然任重道遠(yuǎn)。
(本文在撰寫時(shí)曾得到漢考國(guó)際教育科技[北京]有限公司的數(shù)據(jù)支持,謹(jǐn)致謝忱!)
參考文獻(xiàn):
[1]翟艷.漢語(yǔ)口語(yǔ)成績(jī)測(cè)試評(píng)估標(biāo)準(zhǔn)[J].華文教學(xué)與研究, 2012,(1).
[2]Jiang,Wenying.Measurements of development in L2 written production:The case of L2 Chinese[J].Applied Linguistics,2013,(1).
[3]安福勇.不同水平CSL學(xué)習(xí)者作文流暢性、句法復(fù)雜度和準(zhǔn)確性分析——一項(xiàng)基于T單位測(cè)量法的研究[J].語(yǔ)言教學(xué)與研究,2015,(3).
[4]金檀,劉力,郭凱.口語(yǔ)測(cè)試評(píng)分標(biāo)準(zhǔn)研究與實(shí)踐三十年[J].現(xiàn)代外語(yǔ),2016,(6).
[5]吳繼峰,周蔚,盧達(dá)威.韓語(yǔ)母語(yǔ)者漢語(yǔ)二語(yǔ)寫作質(zhì)量評(píng)估研究——以語(yǔ)言特征和內(nèi)容質(zhì)量為測(cè)量維度[J].世界漢語(yǔ)教學(xué),2019,(1).
[6]李亞男.漢語(yǔ)作為第二語(yǔ)言測(cè)試的作文自動(dòng)評(píng)分研究[D].北京:北京語(yǔ)言大學(xué)碩士學(xué)位論文,2006.
[7]梁茂成.中國(guó)學(xué)生英語(yǔ)作文自動(dòng)評(píng)分模型的構(gòu)建[D].南京:南京大學(xué)博士學(xué)位論文,2005.
[8]徐昌火,陳東,吳倩,謝沚藍(lán).漢語(yǔ)作為第二語(yǔ)言作文自動(dòng)評(píng)分研究初探[J].國(guó)際漢語(yǔ)教學(xué)研究,2015,(1).
[9]王佶旻.三類口語(yǔ)考試題型的評(píng)分研究[J].世界漢語(yǔ)教學(xué),2002,(4).
[10]陳默,李侑璟.韓語(yǔ)母語(yǔ)者漢語(yǔ)口語(yǔ)復(fù)雜度研究[J].語(yǔ)言文字應(yīng)用,2016,(4).
[11]王藝璇.漢語(yǔ)二語(yǔ)者詞匯豐富性與寫作成績(jī)的相關(guān)性——兼論測(cè)量寫作質(zhì)量的多元線性回歸模型及方程[J].語(yǔ)言文字應(yīng)用,2017,(2).
[12]吳繼峰.韓語(yǔ)母語(yǔ)者漢語(yǔ)書面語(yǔ)句法復(fù)雜性測(cè)量指標(biāo)及與寫作質(zhì)量關(guān)系研究[J].語(yǔ)言科學(xué),2018,(5).
[13]Wolfe-Quintero,K.,Inagaki,S.& Kim,H.-Y.Second language development in Writing:Measures of fluency, accuracy and complexity[M].Honolulu:University of Hawai‘i Press,1998.
[14]陳賢純.對(duì)外漢語(yǔ)教學(xué)寫作課初探[J].語(yǔ)言教學(xué)與研究,2003,(5).
[15]陳東.基于文本特征提取的漢語(yǔ)L2作文電子評(píng)分系統(tǒng)初探[D].南京:南京大學(xué)碩士學(xué)位論文,2013.
A Study on the Quality Assessment of the Korean Chinese-Learners Writing
——A Discussion Based on the Writing Texts of Picture-Reading-and-Writing in New HSK5
Wang Shuhua1,Zhu Yiling2
(1.College of Liberal Arts, Shanghai University, Shanghai 200444;
2.English Teaching and Research Group, Seven-Color Flower Elementary School, Shanghai 200020, China)
Abstract:This paper takes Korean Chinese-learners 99 writing texts of Picture-Reading-and-Writing in new HSK5 as the research object. It sets up 7 characteristic items and 33 distinguishing indicators from the two dimensions to examine the correlations between these indicators and the quality of the writing texts. The study show that multiple indicators of both the vocabulary dimension and the grammar dimension are strongly or moderately related to the quality of the writing texts. The explanatory power of the equation established using the grammar dimension indicators is better than that of the equation established using the vocabulary dimension indicators. Although the equations built combining the vocabulary and grammatical dimensions have stronger explanatory power, more predictive variables are used and thus the difficulty of operation is increased.
Key words:Korean Chinese-learners;Picture-Reading-and-Writing;quality assessment;vocabulary dimension;grammar dimension;prediction equation
基金項(xiàng)目:國(guó)家社會(huì)科學(xué)基金項(xiàng)目“英語(yǔ)和漢語(yǔ)作為外語(yǔ)的綜合性寫作測(cè)評(píng)研究”(17BYY108)
作者簡(jiǎn)介:1.王淑華,女,上海大學(xué)文學(xué)院副教授,文學(xué)博士;
2.朱伊苓,女,上海七色花小學(xué)英語(yǔ)教研組小教二級(jí),教育學(xué)碩士。
①Read采用TTR來(lái)計(jì)算詞匯多樣性,計(jì)算方法是文本中詞種數(shù)與總詞數(shù)之比。一個(gè)詞在文本中出現(xiàn)多次僅計(jì)為1個(gè)詞種,但每次出現(xiàn)均計(jì)入詞數(shù)。為了減少文本長(zhǎng)度的影響,同時(shí)考慮到99篇文本中字?jǐn)?shù)最少的1篇為33字,因此,我們將33字設(shè)為控制文本長(zhǎng)度,其他篇目均從第二個(gè)任意標(biāo)點(diǎn)符號(hào)開始截取33個(gè)字作為控制文本,這部分文本中的詞種數(shù)和總詞數(shù)的比例即為控制文本TTR。
①陳東指出,短文長(zhǎng)度、短文長(zhǎng)度的四次方根和詞類型的數(shù)目,是測(cè)量語(yǔ)言流利性的3種最普遍的指標(biāo);但他采用回歸模型實(shí)驗(yàn)后發(fā)現(xiàn),短文長(zhǎng)度的四次方根的指標(biāo)的預(yù)測(cè)結(jié)果優(yōu)于其他兩項(xiàng)[15]。因此,本文也采用了文本總字?jǐn)?shù)四次方根這個(gè)指標(biāo)。