包 蕾
(湛江師范學院基礎教育學院,廣東湛江524300)
任何語言測試都必須考量其效度與信度。按照Henning的解釋,測試的有效程度依賴其在多大程度上測出了預期測量的東西[1]89。此外,Bachman提到,測試效度關心的問題是“測試的分數在多大程度上反映被測試者的語言能力”[2]161。而且在眾多的測試效度中,Bachman認為結構效度最為核心,因為它回答了一個測試最基本的問題,即該測試所要測量的能力。而結構效度的高低意味著測試結果能多大程度上揭示受試者的語言能力以及與語言能力相關的心理特征。這一點也體現了它在語言測試中相當重要的地位[3]26。
但在國內外語言測試效度研究中,絕大多數都采用了因子分析(factor analysis)、多特征多方法設計(multitrait-multimethod design)和差異組設計(group difference design),從統計學的角度收集相關證據和實驗證據。盡管這些研究方法各有其優(yōu)點,但卻存在著共同的問題。Bachman認為這些研究方法只關注了測試的結果——分數,而忽略了驗證測試效度最為重要的部分,即受試者的思維過程,也就是無法直接證明測試結果與受試者在測試中認知活動正確程度的關系[2]。僅僅通過對測試所得分數的分析,是無法揭示受試者在答題過程中是通過什么途徑、以什么方式、經過什么步驟獲取正確答案的。而最為直接的驗證測試結構效度的研究方法是過程分析法(process approach)。
Bachman提出Cohen最先采用口陳報告(verbal report)來研究受試者在語言測試中所采用的策略[2]269[4]。該研究利用自我口陳報告的數據來揭示受試者在進行完型填空和單項選擇的閱讀測試中所使用的各種閱讀和應試策略。為了研究這一思維過程,國內外許多研究[5-8]都采用了即時內省法(immediate introspection)的方式來驗證閱讀測試的結構效度。但這種即時作出口陳報告的方法會打斷閱讀時連續(xù)的思維過程,受試者需要同時兼顧測試和報告兩項任務,使得數據的可靠性受到質疑。Alavi提出回顧報告(retrospective report)可以彌補即時內省法的不足[9]。同樣要求受試者報告其在測試中的思維過程,前者是與測試同時進行,而后者則在測試完成后回顧答題時的思考過程再作報告?;诖耍狙芯渴褂没仡檲蟾娴姆绞綄ν晷吞羁盏慕Y構效度進行驗證。
完型填空一直是大學英語考試和專業(yè)英語考試中常見的題型,除了涉及語法和詞匯知識之外,還需對短文進行閱讀理解。它要求受試者根據文章結構和上下文意思推測所缺信息并選擇適當的單詞來填補,與單項選擇的閱讀理解題相比,完型填空考察了受試者對文章的綜合理解程度,包括詞義的理解、句子的理解和語篇的理解等。對于受試者來說,并不僅僅依靠閱讀理解能力就能完成試題,同時需要依靠邏輯推理、猜測等應試技巧或策略。有些應試策略的使用并不是試題設計者所希望考察的語言能力,但卻可以幫助受試者完成試題。為了了解受試者在完型填空測試中所使用的閱讀和應試策略,在前人的研究基礎上,本文采用回顧報告的研究方法,通過對受試者真實答題過程與預期答題過程一致性的分析,來檢驗TEM-4完型填空測試的結構效度。本研究將主要探討以下兩個問題:(1)受試者在TEM-4完型填空測試中采用了哪些閱讀和應試策略?(2)受試者在測試中的實際答題過程與命題者設計的預期答題行為是否相符?
參加實驗的調查對象來自湛江師范學院基礎教育學院2010級英語專業(yè)二年級近200名學生中隨機抽取的30名學生。經過預測,他們的英語水平總體上接近TEM-4的考試群體,可以反映備考學生的基本水平。實驗前,我們將此實驗的目的、程序及時間告訴了受試者,以期獲得他們最大限度的合作。
實驗材料為2011年TEM-4完型填空試題。該部分由一篇224個單詞的閱讀材料和20個單項選擇題(第31題至第50題)構成。受試者須在15分鐘內完成試題,并將答案填在答題卡上。
為了了解調查對象在閱讀測試中的行為和思維過程,我們采用了閱讀和應試策略列表的方法,在受試者完成測試后立即根據答題時的思維過程給每一題選擇出所使用的閱讀策略和應試技巧。閱讀和應試策略列表的制訂以Weir和Khalifa提出的閱讀模式[10]為理論依據,并以Weir等人在其研究中所用的閱讀策略列表[11]為藍本,根據中國學生的實際情況和語言習慣作了修改。該閱讀和應試策略列表包括兩個主要部分:閱讀前的策略、閱讀和應試策略。閱讀前的策略主要指閱讀技巧中的快速閱讀(expeditious reading)和仔細閱讀(careful reading)兩種模式。目的是查看受試者在處理一篇閱讀材料時,會用何種方式預覽文章大致的意思。而閱讀和應試策略部分則根據Weir和Khalifa閱讀模式中的核心部分設計,包括四個主要方面:詞匯層面(第5至8項策略)、句子層面(第9至12項策略)、段落層面(第13至15項策略)和應試技巧(第16至20項策略)。經過篩選和修改,最終的閱讀和應試策略列表包括4項閱讀前策略和16項閱讀和應試策略,見表1。
表1 閱讀和應試策略列表
實驗的所有數據都采用統計軟件SPSS10.0進行分析。圖1中顯示了受試者在模擬測試中得分的分布情況??偡譃?0分,每小題1分,平均分為11.2分,平均得分率略高于50%。最高分為18.0分,而最低分為7.0分。
圖2顯示了每小題的正確率。根據該柱形圖可見第37小題正確率最高;第41小題正確率最低,不足20%;有50%的受試者可以答對12題或以上。
圖1 模擬測試得分分布圖
圖2 每小題正確率統計圖
在閱讀前策略運用部分,受試者需要在四個讀前策略選項中選擇一個。其選擇表明受試者在進行完型填空每小題的選擇之前,是如何對完型填空閱讀材料預先進行處理的,表2顯示了統計的結果。
表2 閱讀前部分數據統計
21名受試者采用了第1項和第2項快速閱讀的技巧,其中30名受試者的50%選擇了第2項策略,這表明受試者更關注閱讀材料大意,認為掌握文章主旨比細節(jié)的斟酌更為重要。
為了顯示讀前策略與分數之間的關系,圖3顯示了各分數層閱讀前策略運用的調查數據對比,圖中平均值為某一分數層中選用某一策略的總次數與該分數層的總數的比值,圖4和圖5也是如此。因為平均分為11.2分,所以分數層次的劃分包括低分層(≤9),中分層(10—12)和高分層(≥13)。
圖3 各分數層讀前策略運用情況對比
各個分數層的受試者都傾向于使用第2項策略,快速閱讀并獲取文章大意。但高分層和低分層的受試者都完全沒有采用第3項策略,即仔細閱讀。為此,筆者特意對部分受試者進行訪問。多數高分層的受試者認為沒有必要花過多時間在細節(jié)上,閱讀材料并不是很難理解,答案也較容易確定。而且,他們對于第2項和第4項策略的使用率比較高,表明高分層的受試者并不需要花較多時間在預先閱讀材料上就能理解文章并選出正確的答案。而低分層的受試者則認為要理解每一個單詞的意思很難,他們也沒有足夠的時間逐字逐句地看。因此,他們大部分選擇第2項策略,通過快速瀏覽獲取文章大意。而對于中層的受試者來說,他們竟然都沒有使用第4項策略,即不讀而直接看選項。他們認為還是需要花時間對閱讀材料有基本的認識,才能更好地理解文章,更肯定每小題的答案。
表3為第5項至第20項閱讀和應試策略運用的統計,表中平均值為某一策略30名學生選用的總次數與總人數30的比值。根據表3的數據,不難看出:就平均值來言,第5—20項閱讀和應試策略中平均使用次數在2 次及以上的有第 5、7、8、9、11 項閱讀策略;不足 1 次的有第 6、13、14、15、16、17、18和20項閱讀和應試策略。
表3 閱讀和應試策略列表調查統計結果(N=30)
在閱讀和應試策略的調查中,受試者對于每小題的策略選用可以多選,不局限在一種策略的使用上,而各個層次的策略與分數之間的關系反映在圖4、圖5中。按照前一節(jié)所介紹,分數層的劃分包括低分層(≤9),中分層(10—12)和高分層(≥13),而策略的分層則包括詞匯層面(第5至8項策略)、句子層面(第9至12項策略)、段落層面(第13至15項策略)和應試技巧(第16至20項策略)。
圖4 各分數層受試者閱讀和應試策略使用情況(一)
圖5 各分數層受試者閱讀和應試策略使用情況(二)
如圖4顯示,與其他詞匯層面的策略相比,高分層受試者較多地使用第5項策略(運用詞匯知識),而第7和第8項策略的使用情況,各分數層受試者運用情況相似,說明對于選項和閱讀材料的理解都需要運用詞匯和語法的基礎知識進行分析。在句子層面策略的使用方面,分數的提高與第9、10和11項策略使用的增加相一致,說明分數越高的受試者越傾向采用這三項句子層面的策略,對于句子的分析所獲得的信息更容易幫助受試者確定正確的答案。
如圖5顯示,與其他段落層面的策略對比,使用頻率較高的策略為第13項(理解該段的大意),但是該項策略使用的多少與得分的高低卻是負相關。經過事后的訪問得知,相對其他分數層受試者來說,高分層的受試者相對少地使用該項策略的原因主要是他們在理解文章段落上沒有太大的困難,同時也印證了他們幾乎不需要使用第14項策略的原因,即他們沒有必要在已經理解文章的基礎上再回顧整個段落來找答案。
第16至20項為應試策略。猜測、推理和對選項的排除等方法都不是試題設計者設計完型填空時想要測試的技巧。而高分層的受試者對于這五項應試策略相對于其他受試者運用得較少,平均不足一次。第18項策略,高分層和低分層的使用情況相似,結合訪問所得,受試者都認為在閱讀和理解文章的過程中,都需要結合一定的常識,這是該策略在各分數層運用情況差異不大的主要原因。而低分層的受試者運用第19項策略(用排除法來選出可能的選項)的平均次數則約為高分層的近3倍。這意味著他們在四個選項的辨析上存在較大的困難,無法直接準確地選出正確的答案。
對閱讀和應試策略的使用和測試分數進行相關性分析,可以顯示出策略與分數之間的相關性。在表4中,只列出有顯著相關的策略,即第10、11、12、16和17項。其中第12、11和10項策略與測試分數之間有著顯著正相關,而第16和17項策略則與分數呈現顯著負相關,說明較多地使用猜測的應試策略反而不容易選中正確的答案。
表4 策略與分數的相關數據
策略與策略之間的相關性分析也同樣印證了前一節(jié)的分析結論。根據各分數層和各層次策略的對比分析,第5項策略是高分層受試者使用率最高的閱讀策略,而第19和20項應試策略被認為是不能提高答題正確率的,同時也不是試題設計者期望受試者使用的應試技巧。在表5中列出這三項策略與其他策略使用情況的相關數據。第5項策略與第11項策略之間呈顯著正相關,與第20項策略之間呈負相關。這說明高分的受試者傾向于使用第5和11項策略組合,選擇答案的過程基于對詞匯意思的理解和句子之間的聯系,而不能通過猜測將正確的答案選出。對詞匯和句子層面策略的集中使用與TEM-4完型填空試題設計的預期答題思路相一致。在對第19和20項策略進行分析時,同樣發(fā)現其與詞匯和句子層面的閱讀策略有較顯著的負相關,說明該應試技巧并不是試題測試者希望受試者采用的策略,而采用這些策略也反映了受試者在對某些考察的詞匯和句子的理解上有缺失。排除法和猜測法這些常用的應試技巧并不能提高受試者的答題正確率,這也說明其題目的設計能夠考察受試者的語言和閱讀能力,具有一定的測試效度。
表5 策略之間的相關數據
但是要通過過程分析法來回答受試者在測試中的實際答題過程與命題者設計的預期答題行為是否相符這一問題,還需要對策略的正確使用率作統計和分析?;谥暗奈墨I綜述和研究方法的分析,對于結構效度的驗證過程需要對受試者的分數和策略的正確使用次數作對比。根據該試題提供的參考答案和分析,對比受試者測試后完成的閱讀與應試策略調查表,將受試者使用策略的數據采用SPSS10.0進行分析,受試者的分數與策略的正確使用次數之間明顯正相關,相關系數為0.682??墒沁@只是結論的一部分,而通過統計數據的整體情況來看,30名受試者的總得分為335,意味著一共答對的題目數量為335題,而其中完全正確地使用閱讀策略的題目只有137題,只是占了全部的41%,還有超過一半的題沒有完全使用正確的策略或還用了其他應試策略來完成的。因此,受試者在接受2011年TEM-4的完型填空測試時,并沒有在很大程度上展現試題設計者期望受試者展現的語言和閱讀能力。綜合多方面的研究數據,不能絕對地認為該完型填空測試具有非常高的結構效度。
本調查旨在從一個新的角度對英語專業(yè)四級(TEM-4)中的完型填空題目進行結構效度的檢驗。與之前的研究多采用的口陳報告或即時內省等方法不同,本次研究采用回顧報告的方法,結合閱讀和應試策略列表的使用,對30名備考TEM-4的學生作調查,調查結果主要有以下幾個方面:
(1)高分層的受試者較多地采用快速閱讀的策略對材料作初步了解,中分層在選擇答案前則需要仔細閱讀整篇文章,而低分層未掌握足量詞匯,無足夠時間仔細閱讀。這表明不同分數層的受試者由于詞匯量和閱讀理解能力的差異,對閱讀前策略的應用有所不同。
(2)在閱讀和應試策略中,使用頻率最高的是第5和第9項,這兩項策略主要是對詞匯和句子層面知識的運用,并且他們的使用多少與分數的高低有著明顯的正相關。而與分數有著明顯負相關的則是第19和20項策略,也就是猜測和排除法等應試技巧。這說明該完型填空的測試構念在于考察受試者的詞匯和句子策略的運用和閱讀能力,而不是純粹應試技巧的使用。
(3)相關分析顯示受試者較多地使用詞匯、句子、段落層面的閱讀策略,表明TEM-4完型填空試題確實達到預期測試目標:考察受試者的語言和閱讀能力。同時,考綱所要求的閱讀策略在數據檢驗中呈現顯著性。但是在對比答題正確數據和正確使用策略的數據時,發(fā)現閱讀策略的正確使用率卻不如預期中的高,說明試題的設計仍需要不斷完善和改進以達到較高的結構效度。
本調查是了解TEM-4備考學生在完型填空測試中的閱讀和思維過程的初步嘗試,同時也采用了不同的實驗方法驗證了前人所做的一些研究。由于樣本量的限制,結論并不能全面地體現其對TEM-4完型填空試題結構效度的驗證,但本次調查還是對于保證測試的科學性和合理性有著一定的理論和實際意義的。
[1]Henning G.A Guide to Language Testing:Development,Evaluation and Research[M].Beijing:Foreign Language Teaching and Researching Press,2001.
[2]Bachman L F.Fundamental Considerations in Language Testing[M].上海:上海外語教育出版社,1999.
[3]Hughes A.Testing for Language Teachers[M].2nd Edition.Cambridge:Cambridge University Press,2003.
[4]Cohen A D.On taking language tests:What the students report[J].Language Testing,1984(1):70-81.
[5]Anderson N,Bachman L,Perkins K,etc.An exploratory study into the construct validity of a reading comprehension test:Triangulation of data sources[J].Language Testing,1991,8(1):41-66.
[6]金艷,吳江.以“內省法”檢驗CET閱讀理解測試的效度[J].外語界,1998(2):47-52.
[7]張文霞,付瓊.試用口陳報告驗證CET-6閱讀理解測試結構效度[J].中國英語教學,2002(4):2-5.
[8]陳曉扣,李紹山.TEM-4完型填空測試結構效度研究——答題過程分析法[J].現代外語,2006(1):71-77.
[9]Alavi S M.On the adequacy of verbal protocols in examining an underlying construct of a test[J].Studies in Educational E-valuation,2005(31):1-26.
[10]Weir C,Khalifa H.A cognitive processing approach towards defining reading comprehension[J].Cambridge ESOL:Research notes,2008(31):2-10.
[11]Weir C,Hawkey R,Green A,etc.The cognitive processes underlying the reading construct as measured by IELTS[J].IELTS Research Reports,2006(9):157-189.