国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高職英語教學(xué)質(zhì)控量化研究

2013-09-12 07:57
外國語文 2013年4期
關(guān)鍵詞:考試分?jǐn)?shù)平均分試卷

甘 利

(廣東工程職業(yè)技術(shù)學(xué)院 外語系,廣東 廣州 510000)

1.引言

近些年來,語言測試的研究中心開始從經(jīng)典理論的信、效度的研究轉(zhuǎn)移至測試行為和過程的研究(曾用強(qiáng),2012)。目前,雖然每年都舉行全校、全省以至全國的英語考試,包括英語四、六級考試,大專水平的應(yīng)用能力考試,但是各校一般只追求過級率,未能充分發(fā)揮測試應(yīng)起的作用。上述考試都有相當(dāng)?shù)臋?quán)威,考試的區(qū)分度、難度、信度、效度等都經(jīng)過嚴(yán)格的檢驗,考生的成績很大程度上反映出學(xué)生的學(xué)習(xí)成果和教學(xué)效果。若我們以這些考試所反饋的數(shù)據(jù)為基礎(chǔ),加上科學(xué)的分析,利用學(xué)生入學(xué)后由學(xué)校組織,按英語考試大綱要求所設(shè)計的英語水平考試,綜合檢測教學(xué)效果,便可以對英語教學(xué)質(zhì)量進(jìn)行科學(xué)的定量分析、跟蹤與監(jiān)控,從而對英語教學(xué)質(zhì)量進(jìn)行宏觀調(diào)控。

國內(nèi)外有關(guān)英語測試研究由來已久。Bachman(1990:155)指出,語言測試研究的目標(biāo)之一就是考察影響語言測試行為的因素,語言測試成績的多變是考生個人語言能力和測試方法特點(diǎn)共同作用的結(jié)果,并將測試方法細(xì)分為五大方面,其中包括測試環(huán)境、試題要求、輸入性質(zhì)等。因此,大量研究都致力于探究某些因素的特定層面對語言測試的影響或不同層面對測試的交互影響,如對語言測試的整體研究(Liying et al.,2011;Jungok et al.,2011)/、聽力測試(Berne,1995;Ginther,2001,2002)、完形填空測試(JM O’et al.,2011)等各方面的專項研究。但是將數(shù)據(jù)統(tǒng)計分析應(yīng)用到外語教學(xué)和測試尤其是高職英語教學(xué)和測試的研究遠(yuǎn)未到達(dá)滿意的程度。為了彌補(bǔ)此項研究的不足,本文嘗試展開了一項關(guān)于高職英語的實證研究,旨在發(fā)揮數(shù)據(jù)統(tǒng)計分析在此類研究中應(yīng)有的作用,從而提高高職英語教學(xué)質(zhì)量。

2.研究方法

2.1 研究描述

本研究通過自主研發(fā)的高職英語課程測試與教學(xué)質(zhì)量量化監(jiān)控系統(tǒng)軟件采集學(xué)生的測試數(shù)據(jù)并進(jìn)行系統(tǒng)的自動分析。對比學(xué)生的測試成績和按要求所測試的測試組成元素和技能,監(jiān)控教師的教學(xué)表現(xiàn)、學(xué)生的學(xué)習(xí)效果和試卷的質(zhì)量。例如比較學(xué)生成績、按要求測試的技能點(diǎn)和相關(guān)因素,從而達(dá)到對以下三個方面進(jìn)行監(jiān)控:(1)課堂教學(xué)表現(xiàn);(2)師生個體表現(xiàn);(3)試卷質(zhì)量。

2.2 研究問題

本研究采用定性和定量的研究方法,研究問題如下;

(1)該系統(tǒng)是否能監(jiān)控課堂教學(xué)效果;

(2)該系統(tǒng)是否能監(jiān)控師生個體表現(xiàn);

(3)該系統(tǒng)是否能監(jiān)控試卷質(zhì)量嗎。

2.3 研究對象

受試來自廣東工程職業(yè)技術(shù)學(xué)院三個系11個班的789名2008級新生。研究對象是學(xué)習(xí)公共英語的全體學(xué)生,平均年齡19歲,來自廣東省的不同縣市。

2.4 研究過程

為了了解受試的英語基礎(chǔ),2008年9月對其進(jìn)行了一場英語水平測試并獲取第一次考試的成績。受試完成該學(xué)期80學(xué)時的英語學(xué)習(xí)后,期末參加了由學(xué)院統(tǒng)一組織的期末考試,考試時間均為120分鐘,試卷類型相同,均包括六道大題,滿分100分??荚囋嚲碛蓭酌淌诟鶕?jù)教學(xué)大綱和命題要求編寫,例如要具有一定的現(xiàn)實可行性、可比較性、可復(fù)制性、基礎(chǔ)性,每道小題都要達(dá)到所定的質(zhì)量標(biāo)準(zhǔn),題目要求編寫簡明易懂。不同考試分別使用的AB卷是平行卷,每次考試都要做項目分析。具體的聽、讀、譯要求單獨(dú)列表如下:其中聽讀譯各部分的比例分配是依據(jù)高職英語課程教學(xué)能力目標(biāo)(培養(yǎng)高職類學(xué)生的語言綜合能力和實際應(yīng)用能力,即用英語做事的能力)的要求并結(jié)合本校的教學(xué)實際(學(xué)生語言基礎(chǔ)普遍薄弱,技能欠缺,可供支配的教學(xué)資源有限)而定的。其中第一部分聽力的Section A五小題,聽5個句子,然后回答5個問題。Section B十小題,聽十組男女對話,然后回答十個問題。其目的是要測試學(xué)生對句子、對話的掌握。題材源于日常生活,難度由淺入深,這個部分的題型設(shè)計,一般與全國統(tǒng)考的題型大致相同,目的在于強(qiáng)化對比度,與全國考試接軌。第二部分詞語結(jié)構(gòu)與語法包括詞匯和語法兩個方面。詞匯方面,第一次水平考試所覆蓋的詞匯(含詞組)約在2000個基本單詞以下,以后每次期末水平考試遞增1000個左右,都是學(xué)生應(yīng)該掌握的常用語,目的在于考核學(xué)生常用語的掌握程度。語法方面為英語的基本語法,初始階段測試學(xué)生對基本語法的掌握程度。以后逐漸深化。最后著重考核學(xué)生在語法方面的應(yīng)用能力及熟悉程度。第三部分閱讀理解四篇文章,從不同角度分別測試學(xué)生判斷、邏輯思維、運(yùn)用能力,強(qiáng)調(diào)實用性、基礎(chǔ)性。試題設(shè)計由淺入深。第一次水平測試以簡單形式的閱讀理解為主,逐漸過渡到理解句子字里行間的邏輯關(guān)系、分析作者的態(tài)度等。第四部分閱讀判斷目的是考察學(xué)生能否區(qū)分信息正誤及信息有無提及的能力。第五部分完形填空旨在考察學(xué)生綜合運(yùn)用語言的能力,包括詞匯、基本語法、邏輯思維、同義詞反義詞。第六題翻譯都是基礎(chǔ)、實用型的題,目的在于考察學(xué)生英漢互譯中的綜合技能??傊?,試題設(shè)計把聽、讀、譯及綜合能力都考慮在內(nèi)。說和寫的能力在時機(jī)成熟時,都要包括在內(nèi)。

聽力播放由播音室將錄音通過揚(yáng)聲器清晰地傳送到每間考室,機(jī)讀卡由機(jī)器閱卷直接生成數(shù)據(jù)庫并自動錄入數(shù)據(jù)統(tǒng)計軟件包。全過程由考務(wù)部門的技術(shù)人員完成。主觀題的評分由任課教師集中統(tǒng)一評分,并事先進(jìn)行試評,統(tǒng)一標(biāo)準(zhǔn),試評結(jié)果顯示評分員之間的相關(guān)系數(shù)均達(dá)到0.8以上,在此過程中排除掉評分標(biāo)準(zhǔn)前后不一致的評分員,這樣單個評分員的前后評分標(biāo)準(zhǔn)也得到了控制,以保證評分的信度和效度。

對于本研究采集的數(shù)據(jù),我們使用了不同的統(tǒng)計分析方法。每道題的項目分析標(biāo)準(zhǔn)如下表所示:

表1 項目分析標(biāo)準(zhǔn)(Li,1997:274)

考試分?jǐn)?shù)通過SPSS軟件分析處理,結(jié)果有:平均分、標(biāo)準(zhǔn)誤(S.D.)、Z 值、圖表等。

3.?dāng)?shù)據(jù)收集與分析

第一次測試于2008年9月舉行,第二次測試于2009年2月舉行,即期末考試。所有的受試在同一時間考試,時長2小時。每次考試均按高考標(biāo)準(zhǔn)嚴(yán)格施行。所有答題卡回收后交付教務(wù)處專門的技術(shù)人員進(jìn)行評分。

每學(xué)期的每次考試都按實施、分析、監(jiān)控和跟蹤的流程進(jìn)行,包括每次的不同班級不同專業(yè)和不同系別的分?jǐn)?shù)比較。每次測試的分析結(jié)果包括平均分、通過率、標(biāo)準(zhǔn)誤等。通過比較每次考試的相同題目的作答情況,我們能清晰地看出某位學(xué)生在此項考點(diǎn)技能上是進(jìn)步還是退步了,同時也能得知他/她的英語總成績和分項成績在班級年級系以及整個學(xué)院的排名。還可以根據(jù)進(jìn)退的絕對值而不僅是最終值或最終排名看出其進(jìn)退的程度,例如某個學(xué)生的成績或某個班級的平均分從60上升到75,而另一個學(xué)生的成績或另一個班級的平均分從90上升到95,如果從最終值來看,后者肯定優(yōu)于前者,但從進(jìn)退程度和教學(xué)效果來看,前者顯然優(yōu)于后者。

既然有很多分?jǐn)?shù)之外的因素影響教學(xué),監(jiān)控系統(tǒng)不能僅通過分?jǐn)?shù)還要通過一些輔助手段來做出判斷或決策,例如應(yīng)該對教師教學(xué)態(tài)度、教學(xué)水平、教學(xué)表現(xiàn)、教學(xué)指導(dǎo)、教學(xué)方法進(jìn)行測評和定量分析,但這些因素較主觀,在總評成績中的比重不應(yīng)超過20%。

有了這個系統(tǒng),我們既可以發(fā)現(xiàn)問題還能對某些班級在某些題目上提供建議,還能對某位學(xué)生的所有考試成績或某個題目的得分提供分析和建議。該系統(tǒng)還可以監(jiān)控某位學(xué)生整個的學(xué)習(xí)進(jìn)程或某位教師的英語教學(xué)中出現(xiàn)的問題。通過分析,我們可以了解到某個班在某個題目上得分最高,我們由此找出原因,總結(jié)經(jīng)驗并加以推廣。例如通過兩次考試比較我們找出進(jìn)步最大的一個班級和退步最嚴(yán)重的一個班級進(jìn)行實地案例研究,通過隨時深入課堂聽課錄像,師生座談等形式找到其背后原因。在我們的實地調(diào)查中,發(fā)現(xiàn)了一些原來沒考慮到的影響教學(xué)質(zhì)量的因素,例如教師在課堂教學(xué)中的語碼轉(zhuǎn)換風(fēng)格、個性化語言風(fēng)格、人格魅力、感染力、駕馭力、情感情緒狀態(tài)、教師本人的語言觀和跨文化意識、教師變更頻繁等。據(jù)此,每年都要評選出最優(yōu)秀的教師加以表揚(yáng)獎勵或委以重任,表現(xiàn)不佳的需要再學(xué)習(xí)再培訓(xùn),仍達(dá)不到要求的為了確保教學(xué)質(zhì)量的調(diào)換崗位。

4.研究結(jié)果和討論

4.1 課堂教學(xué)效果的監(jiān)控

此次實驗中,來自三個系的789名受試被分成11個教學(xué)班。以下是兩次考試分?jǐn)?shù)的描述性數(shù)據(jù)分析。

表2 第一次考試描述性統(tǒng)計數(shù)據(jù)

表3 第二次考試描述性統(tǒng)計數(shù)據(jù)

由上圖可知兩次考試的總體情況:第一次考試分?jǐn)?shù)為正態(tài)分布(斜率值為0.009),即“兩頭少,中間多”,高分和低分人數(shù)少,中間段分?jǐn)?shù)居多;第二次考試分?jǐn)?shù)呈負(fù)偏態(tài)分布(斜率值為-1.248);中高分段人數(shù)居多,低分段人數(shù)顯著減少。第二次平均分也遠(yuǎn)高于第一次,從方差值來看,第一次分?jǐn)?shù)分布比較集中均勻,第二次比較分散參差不齊。這也說明了受試剛?cè)雽W(xué)時的英語水平分布均勻,經(jīng)過半年的學(xué)習(xí)后,開始出現(xiàn)了分化和差距,大部分經(jīng)過半學(xué)期的學(xué)習(xí)取得了相應(yīng)的提高,達(dá)到了預(yù)期學(xué)習(xí)目標(biāo)和教學(xué)效果。

下表是兩次考試分?jǐn)?shù)的平均分比較的一個實例。

表4 兩次考試分?jǐn)?shù)的獨(dú)立樣本T檢驗

由上表知,P值是.000遠(yuǎn)小于0.05,因此我們可以說兩次平均數(shù)之間的差異達(dá)到了統(tǒng)計學(xué)上的顯著程度,拒絕零假設(shè)。也就是說,受試第二次比第一次表現(xiàn)更好。

為了獲得更多的有用信息,類似的比較還可以用于每個班每個系兩次考試分?jǐn)?shù)以及三個系11個班之間某一次的分?jǐn)?shù)比較。

4.2 師生個體表現(xiàn)監(jiān)控

該系統(tǒng)可以自動生成每次每個系的每個學(xué)生的分?jǐn)?shù)。我們把每次所有的結(jié)果發(fā)布給每個系和每個教師。這樣當(dāng)教學(xué)管理人員和教師們得知每個學(xué)生的考試情況后,就會去尋找背后的原因,并采取改進(jìn)措施。例如,A受試的兩次考試成績,兩次年級排名和進(jìn)退情況。在第一次考試中,A受試考了27分,但在第二次考試中上升至900分,這個進(jìn)步很巨大;B受試第一次考了819分,第二次降至639分。

我們還可分析比較每個班的兩次考試的具體分?jǐn)?shù)以及三個系11個班之間某一次的分?jǐn)?shù)比較。如兩次考試中,第2次考試進(jìn)步最大的班為商管系3班,其平均分從入學(xué)35分升為46分。退步最大的班為計算機(jī)1班,其平均分從入學(xué)48分下降到45分。其原因主要是該班任課教師不穩(wěn)定,頻繁調(diào)換過三位。由于學(xué)習(xí)方式和手段趨向多樣化,教師要想給眾多學(xué)習(xí)者提供足夠的幫助已力不從心。解決這一問題的有效辦法之一就是利用計算機(jī)實現(xiàn)對學(xué)生學(xué)習(xí)過程跟蹤檢測的診斷測試,電腦化診斷測試。計算機(jī)的采用推進(jìn)了個別化自主學(xué)習(xí)的發(fā)展,學(xué)習(xí)者更加需要及時、詳盡的指導(dǎo)。(杜金榜、桂詩春,2000)

4.3 試卷監(jiān)控

該系統(tǒng)能保存并分析每次考試每個學(xué)生的總分和分項得分情況,由此我們就能分析出此次試卷是否達(dá)標(biāo),是否能有效區(qū)分學(xué)生成績的好壞。

經(jīng)統(tǒng)計,我們得知題目6的FV值是1.199,題目55的FV值是1.213,意味著他們是最容易的。題目3的FV值是 -0.2,題目62的FV是 -0.014,意味著他們是最難的,題目71的FV值是0.5,此難度值比較理想,因為這意味著一半的受試正確作答一般的受試作答錯誤。根據(jù)標(biāo)準(zhǔn)差,0.3至0.7認(rèn)為是可接受的難度值。還有大量題目的難度值變化幅度很大,下一步將對試題區(qū)分度和效度作進(jìn)一步研究。

基于以上的研究,我們可以得出結(jié)論:該系統(tǒng)通過對兩次考試的平均分、最高分、最低分、集中趨勢、分?jǐn)?shù)升降的比較,能對課堂教學(xué)效果進(jìn)行量化監(jiān)控此次實驗結(jié)果告訴我們第二次考試總體取得了進(jìn)步,這是師生共同努力的結(jié)果,但仍有許多細(xì)節(jié)問題需要解決。通過對進(jìn)步和退步背后原因的仔細(xì)分析,我們獲得了能反映師生個體表現(xiàn)的除了成績之外的更多的有用信息,這些信息大大完善和提高了分?jǐn)?shù)的解釋力和監(jiān)控力。同時也說明該系統(tǒng)能監(jiān)控師生個體表現(xiàn)。

從考試的每道題目的分項數(shù)據(jù)來看,它不僅反映了師生在每個技能模塊的教學(xué)表現(xiàn),還能提前獲得關(guān)于試卷質(zhì)量控制的一些關(guān)鍵技術(shù)指標(biāo)值,例如信度、效度、區(qū)分度、難度等。有了這些數(shù)據(jù)反饋信息,以后我們每次編寫試題的時候都能據(jù)此做相應(yīng)的改善以提高試卷編寫質(zhì)量。這也說明該系統(tǒng)能監(jiān)控試卷質(zhì)量。

5.結(jié)語

通過現(xiàn)代化的測試手段,利用電腦軟件包,提供數(shù)據(jù)分析(學(xué)生成績),監(jiān)控學(xué)生學(xué)習(xí)成績、教師教學(xué)效果所用測試試卷。通過量化的形式監(jiān)控教學(xué)質(zhì)量。此研究價值如下:(1)突破傳統(tǒng);(2)以現(xiàn)代測試手段,通過量化的形式監(jiān)控教學(xué)質(zhì)量;(3)不僅跟蹤學(xué)生學(xué)習(xí)成績,更能跟蹤教師的教學(xué)成果,還能監(jiān)控考試試卷,便于動態(tài)管理;(4)數(shù)據(jù)正確,行之有效,說服力強(qiáng),判斷科學(xué);(5)操作方便,應(yīng)推廣應(yīng)用到各種語言教學(xué)測試的監(jiān)控中,特別是人財物稀缺的高職院校。桂詩春(1989)指出,教育技術(shù)(educational technology)在語言測試中占有重要的位置。計算機(jī)為語言測試開辟了誘人的前景,目前所能做到的僅是一些初步的嘗試,它的潛力還有待發(fā)揮。語言測試在中國教育界特別是高職教育方面還有漫漫長路要走。

[1]Bachman,L.F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1990.

[2]Berne,J.How does Varying Pre-Listening Activities Affect Second Language Listening Comprehension?[J].Hispania,1995(78):316-329.

[3]Ginther,A.Effects of the Presence and Absence of Visuals on Performance on TOEFL CBT Listening-Comprehension Stimuli(Research Report No.66)[C].Princeton,NJ:Educational Testing Service,2001.

[4]Ginther,A.Context and Content Visuals and Performance on Listening Comprehension Stimuli[J].Language Testing,2002(2):133-167.

[5]JM O’T.& K.RAR.The Deceptive Mean:Conceptual Scoring of Cloze Entries Differentially Advantages More able Readers[J].Language Testing,2011(28):127 -144.

[6]Jungok,B.& L.Yae-Sheik.The Validation of Parallel Test Forms:“Mountain”and“Beach”Picture Series for Assessment of Language Skills[J].Language Testing,2011(28):155-177.

[7]Liying,C.,Stephen,A.& Y.Ying.Impact and Consequences of School-based Assessment(SBA):Students’and Parents’Views of SBA in Hong Kong[J].Language Testing,2011(28):221-249.

[8]曾用強(qiáng).自信心與語言測試行為[J].現(xiàn)代外語,2012(2).

猜你喜歡
考試分?jǐn)?shù)平均分試卷
這樣做合理嗎
教你學(xué)會平均分
考試分
Module5 A Trip Along the Three Gorges
Module5 Great People and Great Inventions of Ancient China
Module 4 Sandstorms in Asia
Module 1 Europe
平均分一半
透過試卷分?jǐn)?shù)查找知識能力缺陷
衛(wèi)生行業(yè)職業(yè)技能鑒定成績與從業(yè)人員工作績效的相關(guān)性研究