欒 嵐,董連忠
(1.哈爾濱工程大學(xué),哈爾濱 150001;2.中國勞動(dòng)關(guān)系學(xué)院,北京 100048)
英語寫作是英語綜合能力的體現(xiàn),如何有效提高大學(xué)生的英語寫作水平一直是英語教學(xué)研究領(lǐng)域的一項(xiàng)重要課題。眾所周知,增加寫作實(shí)踐是提高學(xué)生寫作能力的一條主要途徑。然而,大學(xué)英語教學(xué)班級人數(shù)多、教學(xué)任務(wù)重,作文批改和評閱是一項(xiàng)耗時(shí)費(fèi)力的工作,教師鮮有空余時(shí)間和精力為學(xué)生認(rèn)真批改作文。學(xué)生作文中出現(xiàn)的錯(cuò)誤得不到及時(shí)糾正,其英語寫作水平難以提高,亦很難取得良好的教學(xué)效果。近年來作文自動(dòng)評分系統(tǒng)通過給學(xué)生作文提供寫作規(guī)范、語法和結(jié)構(gòu)等方面的即時(shí)反饋,幫助學(xué)生開展自主學(xué)習(xí)活動(dòng),減輕了教師批改學(xué)生作文的負(fù)擔(dān),一定程度上促進(jìn)學(xué)生寫作能力和教學(xué)效果的提高[1]。語言教學(xué)中,任何評價(jià)均以信度來衡量其有效性,即評價(jià)結(jié)果(所得分?jǐn)?shù))在很大程度上代表了被試的語言能力。寫作評分信度以評分信度為基礎(chǔ),即評分員依照作文評分標(biāo)準(zhǔn)評分的穩(wěn)定性和評分員間評分的一致性作為寫作教學(xué)的輔助工具,作文自動(dòng)評分系統(tǒng)近年來雖在二語/外語寫作教學(xué)中得到了廣泛的應(yīng)用,但學(xué)界對其評分信度仍有分歧[2]。本研究選用i-Write 自動(dòng)評分系統(tǒng)2.0(簡稱iWrite),以北京市某高校大學(xué)英語二年級經(jīng)濟(jì)管理專業(yè)1 班的36 篇作文為例,將iWrite 評分信度與人工評分信度進(jìn)行對比分析,探析iWrite 評分信度及其對大學(xué)英語寫作教學(xué)的啟示。
寫作自動(dòng)評價(jià)(Automated writing evaluation)源于20 世紀(jì)60 年代的美國杜克大學(xué),Page 教授等應(yīng)美國大學(xué)委員會(huì)請求,通過對文本淺層語言特征進(jìn)行多元回歸分析,如文本長度和平均句子長度等,構(gòu)建語料庫評分模型研制出了Page Essay Grade 系統(tǒng),旨在提升大規(guī)??荚囎魑脑u分效率[3-4]。20 世紀(jì)90 年代美國教育考試服務(wù)中心(ETS)和Vantage Learning 又分別研發(fā)了包含更多有關(guān)詞法、句法、語篇內(nèi)容和結(jié)構(gòu)元素的系統(tǒng),并出現(xiàn)了分析更加復(fù)雜的E-rater 和IntelliMetric 作文自動(dòng)評分系統(tǒng)[5-6],科羅拉多大學(xué)Landauer 等[7]基于潛在語義分析(Latent Semantic Analysis)研發(fā)了智能作文評估引擎(Intelligent Essay Assessor)。基于以上研究,21 世紀(jì)初ETS 又相繼研發(fā)了My Access、Criterion、Hot Online Essay Scoring 和Writing Roadmap 等用于課堂的寫作自動(dòng)評價(jià)系統(tǒng)[8]。寫作評價(jià)系統(tǒng)的應(yīng)用不僅能夠提升評分效率,同時(shí)還在語法、拼寫和語篇結(jié)構(gòu)等方面為文本作者提供詳細(xì)的反饋,幫助教師開展寫作教學(xué)和學(xué)生課外英語自主學(xué)習(xí)活動(dòng)。
國外對寫作自動(dòng)評價(jià)系統(tǒng)的研究主要集中在系統(tǒng)的信度、新功能開發(fā)和寫作評價(jià)系統(tǒng)與課堂教學(xué)的實(shí)踐應(yīng)用[2]。受國外寫作自動(dòng)評價(jià)系統(tǒng)的啟發(fā),國內(nèi)寫作自動(dòng)評價(jià)系統(tǒng)研發(fā)也取得了顯著成效。梁茂成及其研究團(tuán)隊(duì)研發(fā)了基于我國英語學(xué)習(xí)者的iWrite 2.0 系統(tǒng),該系統(tǒng)不僅能夠從語言、內(nèi)容、篇章結(jié)構(gòu)和技術(shù)規(guī)范等維度對作文進(jìn)行評價(jià),還可從錯(cuò)誤類型、客觀特征及學(xué)習(xí)情況統(tǒng)計(jì)等方面提供反饋。隨著iWrite 應(yīng)用范圍的擴(kuò)展與深入,國內(nèi)學(xué)者相繼開展了系統(tǒng)的介紹與實(shí)踐應(yīng)用[9-10]、使用效果[1]等研究,鮮有對iWrite 評分信度與人工評分信度進(jìn)行對比研究。本研究擬通過將iWrite 評分信度與人工評分信度進(jìn)行對比分析,探析其評分信度及在我國高校大學(xué)英語寫作教學(xué)中應(yīng)用的可行性,促進(jìn)我國大學(xué)英語寫作教學(xué)和大學(xué)生寫作能力的提升與發(fā)展。
外語作文評分通常采用整體評分(Holistic approach)和分項(xiàng)式評分(Analytical Scoring approach)兩種評分方法。整體評分法是評分員基于受試文本的總體印象給出分?jǐn)?shù),其優(yōu)點(diǎn)是能在短時(shí)間內(nèi)作出判斷,效率較高,通常用于大型考試,如四、六級考試作文評分;而分項(xiàng)式評分是基于受試文本的不同方面的質(zhì)量分別給分,然后把各項(xiàng)分?jǐn)?shù)相加作為受試的作文成績,其優(yōu)點(diǎn)是能給教師和受試提供詳細(xì)的反饋,有助于受試發(fā)現(xiàn)自身的不足和教師進(jìn)行補(bǔ)救教學(xué)[11]。本研究的研究工具選用iWrite 系統(tǒng)和2 名四、六級考試寫作評分員?;谡Z言測試和二語寫作理論,利用多元回歸統(tǒng)計(jì)、智能化自然語言處理及信息檢索等技術(shù),采用分項(xiàng)式評分法,i-Write 從作文的語言、內(nèi)容、篇章結(jié)構(gòu)和技術(shù)規(guī)范四個(gè)維度全方位考查評價(jià)構(gòu)念,近年來在我國高校大學(xué)英語寫作教學(xué)中得到了廣泛應(yīng)用。本研究作文滿分為15 分,將該班機(jī)評作文評分與人工評分進(jìn)行了對比分析。
2 位評分員均為2 所普通高校的大學(xué)英語教師(北京、河北高校各1 所),均有20 年以上的大學(xué)英語教學(xué)經(jīng)歷,多次參加英語四、六級考試作文評閱工作,且在作文評分同行中信度較高。其作為非英語專業(yè)大學(xué)生水平英語考試,四、六級考試內(nèi)容、考試任務(wù)及評分標(biāo)準(zhǔn)等均得到業(yè)界的認(rèn)可。四、六級考試作文評分員評分前均按照評分標(biāo)準(zhǔn)接受嚴(yán)格培訓(xùn),對大學(xué)英語作文評分有較深的認(rèn)識和熟練的評分技能。在四、六級考試作文評分結(jié)束后,2 位評分信度較高的優(yōu)秀評分員,按作文滿分15分,依據(jù)四、六級考試評分標(biāo)準(zhǔn)——根據(jù)內(nèi)容和語言要求具體評分標(biāo)準(zhǔn)又分為2 分、5 分、8 分、11 分和14 分五個(gè)等級,采用整體評分法對該班的36 篇作文(每人各18 篇)進(jìn)行了評分。
研究對象為北京市某普通本科高校二年級經(jīng)濟(jì)管理專業(yè)大學(xué)英語1 班的36 名學(xué)生的作文,其中男生17人,女生19 人。任務(wù)要求如下:For this part,you are allowed 30 minutes to write a short essay on the following topic Stop Phubbing on Campus.You should write at least 120 words but no more than 180 words.(受試者要求在30 分鐘內(nèi)完成一篇120~180 詞的英語作文,題目為“不做校園低頭族”)。該班學(xué)生的36 篇作文全部有效。
本研究的自變量是iWrite 和四、六級考試寫作評分員,因變量為36 篇作文的平均成績,旨在發(fā)現(xiàn)iWrite 評分(機(jī)評)信度。具體研究問題為:
(1)iWrite 評分信度如何?
(2)研究結(jié)果對大學(xué)英語寫作教學(xué)與評價(jià)有何重要啟示?
評分結(jié)束后,使用SPSS19.0 對收集的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析。
由表1 可以看出,機(jī)器評分的最小值為7 分,最大值12 分,平均分9.5 分,中位數(shù)9 分,標(biāo)準(zhǔn)差為0.167;人工評分的最低分5 分,最高分14 分,平均分8.69,中位數(shù)8 分,標(biāo)準(zhǔn)差為0.427。據(jù)此可計(jì)算出機(jī)器評分、人工評分的標(biāo)準(zhǔn)差分別為0.167、0.427,這表明機(jī)器評分平均成績的代表性大于人工閱卷平均成績的代表性。但人工評分的偏度為0.447,峰度為-0.817,說明人工評分的成績不具有正態(tài)性。因此,考慮使用配對樣本T 檢驗(yàn)(見表2 和表3)。
表1 配對樣本統(tǒng)計(jì)
表2 正態(tài)性檢驗(yàn)
表3 配對樣本相關(guān)性
盡管機(jī)器評分和相應(yīng)的人工評分的差經(jīng)夏皮洛-威爾克檢驗(yàn)具有正態(tài)性(見表2),但在配對樣本相關(guān)性檢驗(yàn)時(shí),相關(guān)性為-0.039,顯著性水平為0.821(見表3),說明樣本不具有線性相關(guān)性。最終,選擇使用兩配對樣本的威爾科克森(Wilcoxon)非參數(shù)檢驗(yàn)。
兩配對樣本的Wilcoxon 檢驗(yàn)的結(jié)果見表4 和表5。負(fù)號的秩和為335.5,正號的秩和為160.5,z 檢驗(yàn)統(tǒng)計(jì)量的值為-1.725,其所對應(yīng)的概率值(雙尾)p=0.085>0.05,因此可認(rèn)為機(jī)器評分和人工評分盡管有差異,但差異不明顯,不具有統(tǒng)計(jì)學(xué)意義。
表4 威爾科克森符號秩檢驗(yàn):人工—機(jī)評—秩
表5 威爾科克森符號秩檢驗(yàn):人工—機(jī)評—秩
從評分結(jié)果對比可以看出,iWrite 評分平均分較高,偏度較小,作文分?jǐn)?shù)較為集中,而人工評分偏度較大,不同寫作水平學(xué)生作文成績能得到較好體現(xiàn)。從總體看,iWrite 自動(dòng)評分信度較高,與人工評分差異不明顯。本研究結(jié)果對大學(xué)英語寫作教學(xué)與測試有如下啟示。
(1)iWrite 系統(tǒng)反饋與大學(xué)英語教學(xué)評價(jià)相結(jié)合。教學(xué)與評價(jià)密不可分,大學(xué)英語教學(xué)評價(jià)由形成性評價(jià)和終結(jié)性評價(jià)兩部分組成。iWrite 自動(dòng)評價(jià)系統(tǒng)針對學(xué)生的語法、詞匯難度及句法進(jìn)行評價(jià),教師可基于智能評價(jià)反饋進(jìn)行必要的補(bǔ)充并提出修改意見,從而有助于培養(yǎng)學(xué)生的自我糾錯(cuò)、自我評價(jià)能力。因此,教師可將iWrite 系統(tǒng)評價(jià)用于大學(xué)英語寫作測試,充分發(fā)揮iWrite 評價(jià)系統(tǒng)的輔助作用。
(2)激發(fā)大學(xué)生英語寫作興趣,增加基于iWrite 自動(dòng)評價(jià)系統(tǒng)的寫作實(shí)踐。寫作反饋是為幫助學(xué)習(xí)者提高寫作能力對其寫作文本予以評價(jià)的信息。iWrite 自動(dòng)評價(jià)系統(tǒng)對學(xué)習(xí)者的語言問題,如拼寫錯(cuò)誤、用詞、搭配與表達(dá)等進(jìn)行自動(dòng)批改并提供修改意見,對學(xué)生作文的總體水平予以總體評價(jià)可激發(fā)學(xué)習(xí)者的寫作興趣,減輕教師批改作文的工作量,從而把充足的時(shí)間和精力用于教學(xué)[12]。因此,大學(xué)英語教師可基于教材內(nèi)容開展課外寫作教學(xué)活動(dòng),增加大學(xué)生課外寫作實(shí)踐,提升他們的英語寫作水平。
(3)開展學(xué)生間寫作互評,提升大學(xué)生的自主學(xué)習(xí)能力。寫作自動(dòng)評分系統(tǒng)不僅能夠給學(xué)生提供語言質(zhì)量、用詞和語法等方面的反饋,使學(xué)生在不斷修改過程中作文不斷得到完善,同時(shí)提升了他們的寫作技巧。然而,自動(dòng)評分系統(tǒng)也存在一些不足,如不能識別結(jié)構(gòu)較復(fù)雜的句子,無法全面評估作文內(nèi)容切題、篇章結(jié)構(gòu)和文章邏輯等,因而開展學(xué)生間寫作互評,可彌補(bǔ)寫作自動(dòng)評分系統(tǒng)的不足,從而提升大學(xué)生的自主學(xué)習(xí)能力。
通過對iWrite 和四、六級作文評分員評分結(jié)果對比分析,本研究發(fā)現(xiàn),iWrite 具有較好的評分信度,亦驗(yàn)證了國內(nèi)其他同類研究結(jié)果[13],對在大學(xué)英語寫作教學(xué)與評價(jià)予以重要啟示。尤其是在當(dāng)前疫情持續(xù)反復(fù)和蔓延的情況下,iWrite 輔以教師評價(jià)不僅可以幫助大學(xué)英語教師開展寫作活動(dòng),還可用于大學(xué)英語寫作教學(xué)的平時(shí)測驗(yàn)、期中及期末考試等教學(xué)評價(jià)活動(dòng),促進(jìn)大學(xué)英語寫作教學(xué)效果與評價(jià)的不斷提升與發(fā)展。