自動(dòng)測評(píng)系統(tǒng)在高職英語寫作評(píng)分中應(yīng)用的信度和效度分析

2015-12-17 01:56查靜，寧毅

濰坊工程職業(yè)學(xué)院學(xué)報(bào) 2015年2期

關(guān)鍵詞：英語寫作效度信度

查　靜，寧　毅

(武漢職業(yè)技術(shù)學(xué)院，外語學(xué)院，武漢　430074)

自動(dòng)測評(píng)系統(tǒng)在高職英語寫作評(píng)分中應(yīng)用的信度和效度分析

查靜，寧毅

(武漢職業(yè)技術(shù)學(xué)院，外語學(xué)院，武漢430074)

摘要：文章首先回顧了信度和效度的概念以及檢測信度和效度的方法，以此為依據(jù)，將收集到的電腦評(píng)分和專家人工評(píng)分的數(shù)據(jù)進(jìn)行了相關(guān)性分析、信度檢驗(yàn)、重復(fù)性方差分析、獨(dú)立樣本t檢驗(yàn)以及定性分析等各項(xiàng)分析，多方位地多元評(píng)分系統(tǒng)的信度和效度進(jìn)行了驗(yàn)證。結(jié)果表明，本系統(tǒng)具有良好的內(nèi)部一致性，信度較好，但是初評(píng)分比例較高時(shí)，信度較低；與專家評(píng)分的結(jié)果對比研究表明，自動(dòng)評(píng)分系統(tǒng)結(jié)果對說明文和應(yīng)用文體兩種文體寫作能力解釋力較差。

關(guān)鍵詞：多元作文評(píng)分系統(tǒng)；英語寫作；信度；效度

引言

自動(dòng)作文評(píng)分系統(tǒng)是一種基于計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的語言教學(xué)評(píng)價(jià)平臺(tái)。它為語言提供了更加經(jīng)濟(jì)、便捷和客觀的評(píng)價(jià)方式，使得大規(guī)模語言測評(píng)成為現(xiàn)實(shí)，被認(rèn)為是一種更加公平和客觀的語言測試和評(píng)價(jià)方式?；诮y(tǒng)計(jì)學(xué)原理和自然語言處理及人工智能技術(shù)的自動(dòng)評(píng)分系統(tǒng)在國外起步較早。近年來，國內(nèi)也出現(xiàn)了一批較為優(yōu)秀的計(jì)算機(jī)輔助英語作文評(píng)改系統(tǒng)。盡管計(jì)算機(jī)語言測試(CBLT)在大規(guī)模英語測試中有著較大的優(yōu)勢，但是計(jì)算機(jī)自動(dòng)評(píng)分系統(tǒng)的評(píng)分模式的構(gòu)建、參數(shù)設(shè)置是否能有效地反映學(xué)習(xí)者的英語寫作水平和能力，其是否與人工評(píng)分具有同等效度和信度等，一直是研究者和系統(tǒng)開發(fā)者關(guān)注的問題。

鑒于自動(dòng)作文評(píng)分系統(tǒng)開發(fā)的主要目的是減輕教師的負(fù)擔(dān)，提高大規(guī)?？荚囍凶魑脑u(píng)分的客觀性和效率，從而推動(dòng)我國大規(guī)模英語考試作文評(píng)分自動(dòng)化的進(jìn)程。自動(dòng)作文評(píng)分系統(tǒng)的開發(fā)主要以服務(wù)大型英語考試如四六級(jí)考試為主，目前其研究的樣本大多為論述文以及少量說明文體。評(píng)分信度的報(bào)告多用吻合率和相關(guān)性系數(shù)，大多沒有將信度和效度兩個(gè)概念進(jìn)行區(qū)分，而是將其看作一個(gè)統(tǒng)一的概念整體或?qū)⑿哦鹊韧谛Ф?，未對效度進(jìn)行深入的定性分析，這樣得出的驗(yàn)證結(jié)果顯然也是不充分的。

綜上所述，我們認(rèn)為對自動(dòng)評(píng)分系統(tǒng)信度和效度的驗(yàn)證應(yīng)該建立在對其內(nèi)涵的解讀上，不應(yīng)該把應(yīng)用文體、說明文體等常見文體類型排除在外，應(yīng)該多角度考查人工評(píng)分和系統(tǒng)自動(dòng)評(píng)分的等效性，從定性和定量兩個(gè)方面全面考查自動(dòng)評(píng)分系統(tǒng)的信度和效度。

一、信度和效度的內(nèi)涵及驗(yàn)證方法

1. 信度的內(nèi)涵及其驗(yàn)證方法

衡量語言測試兩項(xiàng)基本的指標(biāo)就是信度和效度。國內(nèi)外大多數(shù)的研究都將信度定義為：測試分?jǐn)?shù)的穩(wěn)定性和一致性的程度 (Colin Phelan&Julie,2005)。在本研究中，我們認(rèn)為自動(dòng)寫作測評(píng)系統(tǒng)的信度與語言測試的信度應(yīng)具有相同的內(nèi)涵，即系統(tǒng)評(píng)分的結(jié)果具有一定的穩(wěn)定性，排除一些偶然因素對結(jié)果的干擾作用。根據(jù)胡春洞(1996)等人提出的觀點(diǎn)，信度可以從測試的穩(wěn)定性、等值性以及內(nèi)部一致性三個(gè)方面來衡量。 Bachman，L.F(1990) 分別列舉了再測信度、對等信度、內(nèi)部一致性信度這三種具體的測試信度的方法。再測信度是指讓被試在不同的時(shí)間對同一份試卷進(jìn)行測試，比較前后兩次測試的相關(guān)性程度；對等信度是采用平行試卷的測試方式，比較測試結(jié)果的穩(wěn)定性；內(nèi)部一致性信度則是比較一份試卷中的不同題型的分?jǐn)?shù)之間的差異性(王俊菊、修旭東，2003)。由于再測信度和對等信度存在諸多的局限性，在本研究中我們采用內(nèi)部一致性信度檢測的方式來考查計(jì)算機(jī)評(píng)分的信度。同時(shí)為了考查不同的評(píng)分參數(shù)的設(shè)定是否會(huì)造成測試結(jié)果的差異性，我們分別對同一份試卷設(shè)置三種不同的參數(shù)值，每份試卷得到三個(gè)不同的測試分?jǐn)?shù)，我們試圖通過比較三個(gè)分?jǐn)?shù)之間是否存在統(tǒng)計(jì)意義上的顯著差異性來排除因參數(shù)設(shè)置的不同而導(dǎo)致的分?jǐn)?shù)的不一致或不穩(wěn)定。

2. 效度的內(nèi)涵及其驗(yàn)證方法

信度與效度是兩個(gè)相輔相成的概念，信度體現(xiàn)的是測試的一致性，而效度則是體現(xiàn)語言測試的真實(shí)性(Davies et al,2005)。Messick (1989)認(rèn)為“理論依據(jù)和經(jīng)驗(yàn)證據(jù)在某種程度上對建立在測試分?jǐn)?shù)進(jìn)行或其他評(píng)估形式所采取的行動(dòng)或做出的判斷是否適當(dāng)、充分地對這一問題進(jìn)行綜合性的評(píng)判便是效度”。也就是說，效度是指測試的結(jié)果能在多大程度上反映出被試的語言能力水平。與一般的語言測試一樣，基于計(jì)算機(jī)的語言測試評(píng)分系統(tǒng)也要經(jīng)過信度的檢驗(yàn)才能證明其有效性和準(zhǔn)確性。在本次測試中，我們分別進(jìn)行專家評(píng)分和電腦自動(dòng)評(píng)分，比較兩種評(píng)分方式的等效性。我們借鑒了1985年美國心理學(xué)協(xié)會(huì)頒布的《教育與心理測試的標(biāo)準(zhǔn)》中提供的關(guān)于基于計(jì)算機(jī)語言測試(CBLT)和基于紙筆的語言測試 (PBLT)等效研究的原則以及李清華(2006)研究紙筆和計(jì)算機(jī)兩種介質(zhì)下的測試等效研究方法：考查均分、離散程度和分?jǐn)?shù)的分布形態(tài)對比；比較兩種方式得到的被試分?jǐn)?shù)是否具有統(tǒng)計(jì)意義上的差異性；進(jìn)行定性分析，分析自動(dòng)評(píng)分系統(tǒng)的參數(shù)標(biāo)準(zhǔn)對這應(yīng)用文和說明文寫作能力檢驗(yàn)的有效性。

二、信度和效度實(shí)證研究

1. 研究基本概況

本研究中，寫作測試分為兩部分：第一部分是根據(jù)所給的信息寫一封備忘錄，內(nèi)容提示為：假設(shè)你是Fomark Company行政部門的秘書，試寫一封關(guān)于試用新的辦公系統(tǒng)的郵件給公司所有的員工, 字?jǐn)?shù)需要超過100字。第二部分，被試要根據(jù)所給的圖表信息寫一篇200字以上的報(bào)告，該圖表上顯示的是北京擁有信用卡和沒有信用卡大學(xué)生的消費(fèi)情況對比圖。整個(gè)測試都在電腦上完成，學(xué)生提交了作文后，教師將接收到的文章導(dǎo)入E-scorer 寫作多元評(píng)分系統(tǒng)(version 6.0 Beta)。該系統(tǒng)由高等教育出版社研發(fā)，可用于海量批閱學(xué)生作文。每篇文章的評(píng)分由初始評(píng)分、結(jié)構(gòu)評(píng)分、主題評(píng)分和綜合評(píng)分組成，教師可以根據(jù)文章的內(nèi)型、測試的目的和寫作要求調(diào)整結(jié)構(gòu)評(píng)分和主題評(píng)分的參數(shù)，結(jié)構(gòu)評(píng)分項(xiàng)下有“單詞總數(shù)”、“詞重復(fù)率”、“單詞類型”、“平均詞長”、“平均句長”五項(xiàng)參數(shù)在結(jié)構(gòu)評(píng)分中所占的比例，主題評(píng)分項(xiàng)下可以設(shè)定關(guān)鍵詞簇類以及其權(quán)重以判斷文章是否跑題，在綜合評(píng)分項(xiàng)下，教師可以設(shè)定“初始評(píng)分”、“結(jié)構(gòu)評(píng)分”、“主題評(píng)分”在“綜合評(píng)分”中的比例。我們分別對收集到的60篇文章進(jìn)行了三次測試，在主題評(píng)分項(xiàng)下選擇的第一部分的關(guān)鍵詞為office system, 第二部分的關(guān)鍵詞設(shè)為credit card、expenditure等,三次機(jī)評(píng)參數(shù)設(shè)置如表1。

表1　三次機(jī)評(píng)參數(shù)設(shè)置表

同時(shí)，我們邀請了來自不同高校的八位專家評(píng)委對這兩題進(jìn)行評(píng)分。每一題的評(píng)分都分五個(gè)檔次，圓滿完成答題任務(wù)(90-100分)，較好完成答題任務(wù)(80-90分)，基本完成答題任務(wù)(70-80分)，未能按要求完成答題任務(wù)(60-70分)，未能完成答題任務(wù)(30-60分)以及無法評(píng)價(jià)或辨認(rèn)(0-30分)。每個(gè)檔次下包含若干評(píng)分要素，主要考察是否包含所要求的內(nèi)容要點(diǎn)，詞匯語法結(jié)構(gòu)的豐富和難易程度，語言使用的正確恰當(dāng)與否，語用銜接和語篇組織是否有條理和符合邏輯等方面。為保證評(píng)分標(biāo)準(zhǔn)的一致性，在開始評(píng)分之前，八位專家試評(píng)了五篇文章，比較了各位專家的評(píng)分及其排序，在確定了評(píng)分的基準(zhǔn)后才開始對剩余的文章進(jìn)行手工評(píng)分。最后的得分由八位專家給出的評(píng)分中去掉最高分和最低分后,取平均分。

2. 信度分析

(1) 相關(guān)性分析

我們將經(jīng)過處理的八位專家的平均評(píng)分和電腦的評(píng)分輸入電腦后，借助SPSS13.0分別進(jìn)行獨(dú)立樣本t檢驗(yàn)，分析同一學(xué)生的兩道作文題目電腦給出的評(píng)分之間是否存在相關(guān)性，以判斷電腦評(píng)分系統(tǒng)的內(nèi)部一致性。數(shù)據(jù)結(jié)果表明，三次評(píng)分中第一題的成績和第二題的成績之間在0.01的水平上具有顯著性相關(guān)關(guān)系。同時(shí)，對三次電腦評(píng)分的信度分析(reliability statistics)，第一部分測試分?jǐn)?shù)的Cronbach's Alpha系數(shù)為0.985，第二部分為0.985，高于人工評(píng)分的0.857和0.741，這也證明該測試系統(tǒng)的內(nèi)部一致性較高，信度較好。

(2) 重復(fù)性方差分析

為了檢測三次不同參數(shù)是否會(huì)對評(píng)分成績造成顯著性影響，剔除參數(shù)設(shè)定因素造成的不穩(wěn)定因素。我們對三次計(jì)算機(jī)評(píng)測的結(jié)果進(jìn)行了重復(fù)性方差分析，比較每個(gè)題目的三次計(jì)算機(jī)評(píng)測之間是否存在差異，兩兩之間是否存在差異，判斷差異造成的主要因素。

表2Mauchly 的球形度檢驗(yàn)b

度量:MEASURE_1

主體內(nèi)效應(yīng)Mauchly的近似卡方dfSig.EpsilonaGreenhouse-GeisserHuynh-Feldt下限因子10.118124.17220.0000.5310.5330.500

檢驗(yàn)零假設(shè)，即標(biāo)準(zhǔn)正交轉(zhuǎn)換因變量的誤差協(xié)方差矩陣與一個(gè)單位矩陣成比例。

表3主體內(nèi)效應(yīng)的檢驗(yàn)

度量:MEASURE_1

源III型平方和df均方FSig.因子1采用的球形度52.211226.1067.5170.001Greenhouse-Geisser52.2111.06249.1427.5170.007Huynh-Feldt52.2111.06648.9907.5170.007下限52.2111.00052.2117.5170.008誤差(因子1)采用的球形度409.7891183.473Greenhouse-Geisser409.78962.6846.537Huynh-Feldt409.78962.8796.517下限409.78959.0006.946

由表2和表3可以看出,Mauchly 的球形度檢驗(yàn)b顯著水平小于0.05(Sig.=0.000)拒絕了球形檢驗(yàn), Greenhouse-Geisser和Huynh-Feldt 校正后的P值均為0.007,兩項(xiàng)的均值小于0.05,說明因素變量的效應(yīng)明顯。也就是說，不同的機(jī)評(píng)參數(shù)設(shè)定對第一題作文成績評(píng)定的影響顯著。成對比較也顯示，第一次和第二次評(píng)分以及第一次和第三次評(píng)分成績相互之間均值差值在0.05級(jí)別上具有差異性(F值分別為0.003和0.035)，但是第二次和第三次評(píng)分成績之間不具有顯著性差異(F值為1)。

第二題機(jī)器評(píng)分成績的重復(fù)性方差分析中，Mauchly 的球形度檢驗(yàn)b中F值小于0.000，而Greenhouse-Geisser和Huynh-Feldt 校正后的P值均為0.012，均值仍然是小于0.05，成對比較也顯示，第一次和第二次評(píng)分以及第一次和第三次評(píng)分成績相互之間均值差值在0.05級(jí)別上具有差異性(F值分別為0.022和0.039)，但是第二次和第三次評(píng)分成績之間不具有顯著性差異(F值為0.136)。

以上對兩個(gè)作文題目的計(jì)算機(jī)測評(píng)結(jié)果的重復(fù)性方差分析結(jié)果都表明,第一次評(píng)分和第二、第三次評(píng)分之間有顯著性差異,而第二和第三次評(píng)分之間的差異不顯著。究其原因,我們可以看到,第二次和第三次評(píng)分的參數(shù)設(shè)置和第一次參數(shù)設(shè)置最大的區(qū)別在于初評(píng)在整個(gè)評(píng)分中所占的權(quán)重不同,第一次評(píng)分中初評(píng)占50%,而第二次和第三次初評(píng)分別占到了30%和20%(見表1)。由此可見，初評(píng)的比例高于50%可能會(huì)影響到系統(tǒng)評(píng)分的連貫性。

3. 效度分析

效度分析的目的是判定電腦評(píng)分的結(jié)果與人工專家評(píng)分是否存在等效性。為此，我們將分別比較每道題目的均值、離散程度以及通過獨(dú)立樣本t檢驗(yàn)來檢測電腦評(píng)分和專家評(píng)分之間是否存在顯著性差異。

表4　組統(tǒng)計(jì)量

表4顯示的是兩種評(píng)分方式下,第一題和第二題分?jǐn)?shù)的均分、離散程度和分?jǐn)?shù)的分布形態(tài),由此可以看出,兩個(gè)題目的電腦給出的分?jǐn)?shù)均值(75.9444和75.7056)以及專家給出的分?jǐn)?shù)均值(67.8125和65.2500)差異不大, 但是電腦評(píng)分的均值都高于專家評(píng)分。第一題的電腦評(píng)分標(biāo)準(zhǔn)差明顯小于專家評(píng)分,表明電腦評(píng)分?jǐn)?shù)相對比較集中,而專家給出的分?jǐn)?shù)較為分散,分?jǐn)?shù)差異較大。第二題的專家評(píng)分與電腦給出的分?jǐn)?shù)標(biāo)準(zhǔn)差差距不大。究其原因，我們認(rèn)為，這可能是由于第一題作文與第二題作文的長度以及類型存在差異。第一題的作文為應(yīng)用文體，字?jǐn)?shù)在100字左右，而第二篇文體為說明性，字?jǐn)?shù)一般達(dá)到300字以上。通過評(píng)分后專家的座談我們了解到，專家們認(rèn)為參加測試的高職學(xué)生的語用能力和語言流暢性這兩個(gè)方面存在較大的差異，因而造成第一部分應(yīng)用文體的成績離散程度較大，而電腦評(píng)分標(biāo)準(zhǔn)中對于語用，特別是語言是否符合語境以及語氣是否符合題中寫作人的身份等方面的考查缺失。

(1) 方差齊性檢驗(yàn)

Levine齊性方差檢驗(yàn)表明兩變量顯著性概率(Sig.)分別為0.012和0.130, 一個(gè)小于0.05,一個(gè)大于0.05, 這說明在第一題分?jǐn)?shù)上,兩個(gè)變量(電腦評(píng)分和專家評(píng)分)方差是不相等的,而這兩個(gè)變量在第二題的方差是相等的，這與表4的組統(tǒng)計(jì)描述性分析結(jié)果是一致的。但是無論假設(shè)方差是相等還是不相等,Sig(雙側(cè))欄值都小于0.05,也就是說電腦評(píng)分系統(tǒng)和專家評(píng)出分均值都具有顯著性差異,而且第一題兩個(gè)評(píng)分方式所獲得的方差還不相等,從t值上看, 電腦的評(píng)分要高于專家的評(píng)分,這一結(jié)果與表4的結(jié)果是吻合的。

(2) 定性分析

從語言的角度分析，我們發(fā)現(xiàn)電腦評(píng)出的第一名文章在使用的詞匯范圍較廣，詞匯豐富，大量使用了如spirits, efficiency，combined, previous, artificial intelligence, unprecedented等較為復(fù)雜的詞匯，詞匯和句型的使用也很豐富且恰當(dāng)，但在句法表達(dá)上中文思維痕跡較為明顯，所表述的內(nèi)容有一些偏離主題，而專家評(píng)出的第一名文章所使用的單詞雖然很簡單，語言表達(dá)也比較單一，但是條理思路清晰，無啰唆廢話，意思表達(dá)清楚，雖然有一些小的語法和拼寫的錯(cuò)誤但是不影響對文章的理解，內(nèi)容也符合題目要求，沒有明顯的中式英文的表達(dá)，可以實(shí)現(xiàn)溝通的目標(biāo)。

傳統(tǒng)的四六級(jí)考試作文主要考查文章是否切題，論點(diǎn)是否明確，文字是否連貫以及闡述是否透徹，語言是否準(zhǔn)確和多樣。整個(gè)評(píng)分系統(tǒng)偏重語言形式，語用得體性指標(biāo)缺失。就本次對高職學(xué)生的英語作文測試的兩個(gè)題目要求，一篇是應(yīng)用文體，一篇是報(bào)告說明文體，主要目的是考查學(xué)生是否能清晰有條理地?cái)⑹鍪聦?shí)，同時(shí)也考查學(xué)生是否能得體地用英語溝通交際，能否用英語實(shí)現(xiàn)交際目的。由此來看，專家的評(píng)分更加符合對高職學(xué)生英語作文考查的目的和要求，其評(píng)分的效度要高于電腦評(píng)分。

結(jié)論

對多元寫作系統(tǒng)的信度和效度的分析表明，電腦評(píng)分系統(tǒng)的優(yōu)勢在于具有較好的內(nèi)部一致性，評(píng)分標(biāo)準(zhǔn)執(zhí)行較好，內(nèi)部信度較高；當(dāng)初評(píng)值在整個(gè)分?jǐn)?shù)體系中的權(quán)重控制在50%以下時(shí)，重復(fù)性測試結(jié)果仍然具有較好的一致性，說明該系統(tǒng)的整體信度較好。等效分析表明，當(dāng)本系統(tǒng)用于應(yīng)用文體或說明性文體文章的測評(píng)時(shí)，其結(jié)果與人工測評(píng)存在很大的差異性。雖然我們未用本系統(tǒng)對議論文體或其他類型作文進(jìn)行評(píng)分和對比研究，無法斷定其是否適用于議論文或其他文體的作文測評(píng)，但從上述研究至少可以說明由于語用指標(biāo)缺失，系統(tǒng)測試結(jié)果對測試者用英語進(jìn)行溝通和交際的能力的解釋力低，其應(yīng)用范圍有限。我們寄希望于系統(tǒng)的開發(fā)和研究者能研制出適合高職學(xué)校英語教學(xué)要求和需要的作文評(píng)分系統(tǒng)。另一方面，計(jì)算機(jī)評(píng)分的模式刻板公式化，很容易讓參加測試者發(fā)現(xiàn)“高分規(guī)律”，從而可能會(huì)有意識(shí)地通過訓(xùn)練提高應(yīng)試的能力和技巧，從而影響到電腦系統(tǒng)評(píng)分的有效性，這也是系統(tǒng)開發(fā)者和研究者需要深入探討和解決的難題。

參考文獻(xiàn)：

[1] 梁茂成，文秋芳. 國外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語電化教學(xué), 2007, 117(5):18-24.

[2] 梁茂成.大規(guī)?？荚囉⒄Z作文自動(dòng)評(píng)分系統(tǒng)的研制[M].北京：高等教育出版社, 2012.

[3] Colin Phelan,Julie Wren.Exploring Reliability in Academic Assessmenx[EB/OL].http://www.uni.edu/chfasoa/reliability and validity.htm,2005.

[4] 胡春洞.英語測試論[M]. 南寧：廣西教育出版社, 1996.

[5] Bacheman,L.F. Fundamental Considerations in Language Testing[M]. Oxford: Oxford University Press,1990.

[6] 王俊菊，修旭東.語言測試中信度計(jì)算的三種理論模式探討[J].外語與外語教學(xué), 2009, 174(9):51-55.

[7] Davies,A.& Elder,C. Validity and validation in language testing[A]. Hinkel E．(Ed.) Handbook of Research in Second Language Teaching and Learning[C]．London： Lawrence Erlbaum Associates，Inc．，2005：796-811.

[8] Messick,S.Validity. In R.L.Linn(ed). Educational Measurement (3rd Edition)[C].New York: Macmillan,1989:13.

[9] 李清華.基于紙筆的語言測試與基于計(jì)算機(jī)的語言測試的等效研究綜述[J].外語界, 2006, 114(4):73-77.

(責(zé)任編輯：潘敏)

Statistical Analysis of the Reliability and Validity of Automated Essay Scoring with E-scorer in English Writing in Higher Vocational Colleges

ZHA Jing，NING Yi

(Foreign Language School, Wuhan Polytechnic College, Wuhan430074)

Abstract:The paper sets out to analyze the reliability and validity of automated essay scoring with E-scorer. It begins with a review on previous empirical researches on the reliability and validity of automated essay scoring systems. The evidence based approach is used in this study to examine the reliability of automated scoring and compare the automated and human scores. The relevance test, reliability statistics, repeated measures and independent samples T-test show that the automated scoring system is highly reliable when the proportion of preliminary scores is below 50%. However, the statistical and quality analyses show that the scoring results from automated scoring system are not able to provide good interpretation for practical and informative writing ability.

Key words:automated scoring; reliability; validity

作者簡介：查靜(1980-)，女，湖南武漢人，武漢職業(yè)技術(shù)學(xué)院外語學(xué)院教研室主任，講師，碩士研究生；寧毅(1964-)，男，武漢職業(yè)技術(shù)學(xué)院外語學(xué)院院長，副教授。

收稿日期：2015-02-29

中圖分類號(hào)：H315

文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1009-2080(2015)02-0097-05

doi：10.3969/j.issn.1009-2080.2015.02.026

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

自動(dòng)測評(píng)系統(tǒng)在高職英語寫作評(píng)分中應(yīng)用的信度和效度分析