蔣春麗 張青妹
(北京工業(yè)大學,北京 101101)
寫作測試評估目前在國內(nèi)主要有人工評估與電子評估兩種。在人工評估中,寫作測試評分中的中心因素是評分員和評分量表,在評分量表中,整體評分法與分項評分法是寫作測試中最常用的兩種評分法。整體評分法是按考官對考生的寫作內(nèi)容和流利性等方面的整體印象,總體給一個等級或分數(shù),分項評分法則把考生寫作能力的各個構成因素分解開來,從不同的維度分別評分,然后根據(jù)每個方面的得分和權重算出寫作總分。這兩種評分方法主要應用于口語與寫作等主觀性測試,國內(nèi)外對于兩種方法的評分信度進行了相關研究,但選用哪種評分法以達更高的評分信度,在語言測試界見解不一。在外語寫作測試領域,由于疲勞因素和不一致性,人工評估成績在可信度方面存在著不可避免的問題,而電子軟件評估則克服了人工評估的不足,被應用到外語寫作測評中來。但作文自動評分系統(tǒng)一直受到一些專家和學者的質(zhì)疑。認為其在對每篇學生的習作在文章立意、篇章結構、遣詞造句等方面沒有一個整體的把握。近幾年來國內(nèi)也出現(xiàn)了很多寫作的電子評估,其中也包括基于語料庫的寫作評估,但不管是哪種電子評估,在以往的研究中都說它好,但其有效性、可靠性都沒有有效地、科學地檢驗,我們試圖通過生成的寫作評估量表中收集到的具體客觀的數(shù)值,利用卡方檢驗的方法來證明其是否真的具有有效性,與學生的作文得分是否相關。
由于目前大學英語寫作的評分缺乏一個客觀、系統(tǒng)的標準和體系,評分往往過于主觀而導致評分出現(xiàn)偏差,使得寫作測試分數(shù)的信度大大降低。而借助于計算機的評估方法,盡管減少了人為因素帶來的影響,保證了客觀合理地給學生打分,但又忽略了學生作文在篇章結構等方面的把握。
我們設計的評估量表主要利用Wordsmith、CST等軟件,在短時間內(nèi)通過電腦得出學生在句子、單詞等上的統(tǒng)計結果,給每位學生生成評估報告,建立他們個人的寫作檔案。然而,利用語料庫進行的寫作評估并不能完全代替教師的批改。因此,雖然我們看到語料庫的介入使得英語寫作評估工作變得更有效,但也應意識到教師還對每篇學生的習作在文章立意、篇章結構、遣詞造句等方面有一個整體的把握,才能更好地促進寫作教學和評估。在進行總評時,我們建議客觀描述占70%,教師評價占30%,這樣既尊重了客觀事實,又促進了多樣化的教學和個性化的學習。在設計評估量表時,我們充分考慮了計算機的作用。大多數(shù)參數(shù)都直接由計算機進行統(tǒng)計分析。如作文長度、型符比、詞匯密度和平均詞長等參數(shù)。人工主要介入語篇層面的分析,比如思想內(nèi)容以及語篇連貫等。
我們在北京工業(yè)大學實驗學院08及09級的非英語專業(yè)學生里隨堂布置寫作任務,題目為“Shopping on the Internet”,要求學生在30分鐘內(nèi)寫出一篇100詞的短文,能夠正確表達思想,意義連貫,無重大語法錯誤。寫作任務完成后不以書面形式提交,而是以電子文檔的格式在網(wǎng)絡上提交。
我們采用了冰果英語智能評閱系統(tǒng)收集學生的作文,并通過冰果系統(tǒng)先自動為學生打分。此次調(diào)查共收集了399份學生作文。
收集到學生作文后,我們通過Wordsmith軟件為每位學生生成一份自動的電子評估量表,其中包括作文長度、型符比、詞匯密度和平均詞長等參數(shù)。之后我們再對每篇學生作文進行人工評閱,主要針對學生在作文的用詞、思想性、組織交流性等方面進行打分,并給出具體的評語。把冰果系統(tǒng)得出的自動評分作為參考值,再由兩位教師結合評估量表的數(shù)值及其他整體情況的把握對學生作文進行再次評分,最后我們?nèi)∵@三項的平均分作為學生作文的最后得分。
根據(jù)Wordsmith軟件自動生成的報告再結合教師的人工評閱及評語,生成最后的評估報告,反饋給學生。下面是一篇學生作文在經(jīng)過Wordsmith軟件和教師評閱之后生成的評估報告。
學生寫作分析報告
為了檢驗我們這份評估量表的可靠性和可行性,我們做了一下研究。從我們收集的語料里,總共提取90份作文,分別為11分及以上的作文30篇,9分到10分的30篇,以及9分以下的30篇。
我們通過Wordsmith軟件為這90份作文生成了90份評估報告,根據(jù)這90份評估報告,我們發(fā)現(xiàn):
表3-1
根據(jù)這份表格我們發(fā)現(xiàn)抽取的90份作文里,平均詞次為177.80,平均詞型為99.40,平均詞長為4.37,平均句數(shù)為11.97,平均句長為14.91,平均1-5個字母的單詞為129.43,平均6-10個字母的單詞為54.43,平均11-13個字母的單詞為3.7個。我們再以這個平均值為基礎,分別按得分不同(11分及以上、9-10分、8分及以下)統(tǒng)計出在平均數(shù)以上、及以下的人數(shù),見下表:
表3-2
我們再利用這份表格的數(shù)據(jù)分別就學生作文得分與詞次、詞型、詞長、句數(shù)、句長、1-5個字母單詞、6-10個字母單詞、11-13個字母單詞做卡方獨立性檢驗,得出以下結論:
表3-3 學生作文得分
卡方檢驗結果顯示:
1)學生作文得分受詞次多少的影響顯著(X=61.071,df=2,p<0.05)。得分11分及以上的學生詞次總數(shù)全在平均詞次以上,得分在9-10分的學生詞次總數(shù)大部分(18人)在平均詞次以下,而得分在8分及以下的同學詞次總數(shù)全在平均詞次以下。
2)學生作文得分受詞型多少的影響顯著(X2=52.500,df=2,p<0.05),得分11分及以上的同學詞型總數(shù)大部分(27人)在平均詞型以上,得分在9-10分的詞型總數(shù)大部分(21人)在平均詞型以下,而得分在8分及以下的詞型總數(shù)全部在平均詞型以下。
3)學生作文得分受詞長多少的影響不顯著(X2=5.625,df=2,p>0.05),即學生作文得分與詞長的多少不相關。
4)學生作文得分受句數(shù)多少的影響顯著(X2=39.910,df=2,p<0.05),得分11分及以上的同學句數(shù)總數(shù)全部在平均句數(shù)以上,得分在9-10分的同學句數(shù)總數(shù)有一半在平均句數(shù)以下,而得分在8分及以下的同學句數(shù)總數(shù)大部分(24人)在平均句數(shù)以下。
5)學生作文得分受句長的影響顯著 (X2=32.073,df=2,p<0.05),得分11分及以上的同學句長大部分(24人)在平均句長以上,得分在9-10分的同學(24人)句長大部分在平均句長以下,而得分在8分及以下的同學句長也大部分在平均句長以下,不過人數(shù)比9-10分的同學更多(25人)。
6)學生作文得分受 1-5個字母單詞多少的影響顯著(X2=49.683,df=2,p<0.05),得分 11分及以上的同學1-5個字母單詞總數(shù)大部分(27人)在平均值以上,得分在9-10分的同學1-5個字母單詞總數(shù)大部分(18人)在平均值以下,而得分在8分及以下的同學1-5個字母單詞總數(shù)全部在平均值以下。
7)學生作文得分受6-10個字母單詞多少的影響顯著(X2=28.864,df=2,p<0.05),得分11分及以上的同學6-10個字母單詞總數(shù)一半在平均值以上,得分在9-10分的同學則大部分(28人)在平均值以下,而得分在8分及以下同學則全部在平均數(shù)以下。
8)學生作文得分受 11-13個字母單詞多少的影響顯著(X2=33.698,df=2,p<0.05),得分11分及以上的同學大部分(21人)在平均值以上,得分在9-10分的同學大部分在平均值以下,而得分在8分及以下的同學也大部分在平均數(shù)以下,不過人數(shù)更多(29人),只有一個同學使用了11-13個字母的單詞。
總的說來學生作文得分受詞次、詞型、句數(shù)、句長、1-5個字母單詞、6-10個字母單詞、11-13個字母單詞多少的影響顯著,而受詞長的影響不顯著。這說明學生作文里詞次詞型越多,學生作文得分越高;學生作文的句數(shù)越多,句長越長,得分也越高,這說明學生使用的句式越豐富;學生作文的單詞1-5個字母的單詞往往是使用最多的,同時各類單詞(包括6-10詞及11-13詞)使用的越多,學生作文得分也越高,這同時也說明得分高的學生詞匯量越豐富,使用的單詞也越復雜。但是學生作文的得分與平均詞長沒有關系,根據(jù)上表我們發(fā)現(xiàn),不管是得分11分及以上的學生,還是5分的學生,平均詞長都在4.37左右。學生作文得分高,詞次、詞型、句數(shù)、句長等客觀值也相應越高,這可能是因為得分高的學生詞匯量更大,因此在作文里使用的單詞更多,使用的單詞也相應更復雜。另外也可能因為學生在句型的掌握及應用上更好,因此在作文里使用的句式也相應越多、越復雜。學生作文得分與詞長關系不大,可能是因為在作文里,學生大部分使用的都是常用詞匯和一般句型,所以不管是得分高還是得分低,平均詞長都相差不大。
我們的評估報告里客觀描述主要是以數(shù)值為主,經(jīng)過研究發(fā)現(xiàn)數(shù)值越高,學生作文得分越高,這也就說明我們的評估報告具有可靠性和可行性,是可以推廣的。學生可以簡單的通過自己作文的評估報告知道自己作文的優(yōu)缺點。
我們的評估量表及最后生成的評估報告清晰明了地向?qū)W生展示了自己作文在用詞及句式等方面的內(nèi)容,而且通過明確的數(shù)值很容易讓學生看到自己在具體各方面的差距,在今后的寫作及練習過程中可以相應地提高詞匯量,增加句式的變化,使用多種句型及復合句等。同時這份評估報告也讓教師清楚地看到學生在哪一方面有弱點,需要加強在哪一方面的課堂輸入,在教學的過程中可以有針對性地進行教學。當然我們對學生作文的評估不能簡單地借助于wordsmith軟件提供給我們的數(shù)據(jù),我們同時也要在學生作文的用詞、思想性、組織交流性等方面進行打分,并給出具體的評語,這樣才能更有效地也更明確地讓學生看到自己的缺點,同時教師積極認真的態(tài)度也會刺激學生更有效地學習,提高他們學習的積極性。另外,學生把作業(yè)以電子文本的形式上交,教師只要對提交的作業(yè)進行語料分析,往往可以得到可信的實證材料用于科研和教學。教師只要把數(shù)據(jù)庫的文本導出,即可利用語料庫索引軟件對學生的作文進行分析,就很容易得到實證的語言材料,發(fā)現(xiàn)自己教學中的不足及學生易犯的錯誤。
Hughes,A.(2000).Testing for language teachers[M].Peking and Cambridge:Foreign Language Teaching and Research Press.
蔣春麗(2010).基于語料庫軟件的大學英語寫作評估量表的設計 [J].語文學刊。
溫晉方(2003).英語寫作常模測試的高信度評估體系 [J].廣州大學學報(社會科學版)(2)。
楊惠中(1999).語言測試與語言教學 [J].外語界(1)。
曾用強(2003).基于語料庫的診斷評估系統(tǒng) [J].外語電化教學(91)。