朱麗紅
(教育部 語言文字應(yīng)用研究所,北京 100010)
《普通話水平測試大綱》①教育部、國家語委發(fā)教語用[2003]2號文件。(以下簡稱“《大綱》”)規(guī)定:普通話水平測試的內(nèi)容包括普通話語音、詞匯和語法,試卷包括5個組成部分,滿分為100分:讀單音節(jié)字、讀多音節(jié)詞語、選擇判斷、朗讀短文、命題說話。每個測試項分值不同,有各自不同的檢測目的(表1):
表1 普通話水平測試項目、分值及檢測目的
同時并說明:“各省、自治區(qū)、直轄市語言文字工作部門可以根據(jù)測試對象或本地區(qū)的實際情況,決定是否免測‘選擇判斷’測試項?!盵1]
從各地區(qū)開展測試的實際情況看,除了內(nèi)地個別省份、港澳臺地區(qū)及海外測試還保留“選擇判斷”測試項,其他地區(qū)都采取免測“選擇判斷”測試項的做法。可以說,不論是在區(qū)域上還是在測試人數(shù)上,免測“選擇判斷”測試項的四項測試都是主流。
“普通話水平測試不是一般的學(xué)術(shù)性的測試,不是可有可無的,而是關(guān)系到推普大業(yè)的一項測試”[2],《中華人民共和國國家通用語言文字法》對應(yīng)當接受測試的人群有明確的規(guī)定,普通話水平測試的成績成為資格準入的條件。免測“選擇判斷”測試項,直接改變了測試項目和評分標準,這種變化對測試成績會產(chǎn)生怎樣的影響?《大綱》為什么允許“選擇判斷”測試項的免測與不免測并存?基于對母語的經(jīng)驗性認識和判斷,免測“選擇判斷”測試項的大局早在普通話水平測試開始實施的階段就已經(jīng)形成,而實證研究一直比較缺乏。
關(guān)于免測“選擇判斷”(不免測“選擇判斷”的下文稱“五項測試”,免測“選擇判斷”的下文稱“四項測試”)對應(yīng)試人成績的影響,陶昱霖曾經(jīng)做過一個小樣本研究。[3]這一研究選擇了28個樣本,測試員先后根據(jù)《大綱》五項測試的評分標準和某省《評分細則》評分,通過應(yīng)試人成績的變化比較《大綱》的評分標準與某省的《評分細則》的差異。在這個小樣本研究中,使用的評分標準并不完全相同,測試員先后兩次評分也會存在差異,這些都是可以改進的地方。本研究擬擴大樣本量,以《大綱》的評分標準為唯一依據(jù),同時避免測試員重復(fù)評分時主客觀條件變化帶來的影響,再進行統(tǒng)計分析。
限于語音樣本選擇條件,本研究隨機選取88位香港應(yīng)試人參加電腦錄音測試的語音數(shù)據(jù)和評分數(shù)據(jù)進行分析。香港采用的是五項測試,本研究采用的方法是:先根據(jù)《大綱》五項測試的評分標準進行評分,語音數(shù)據(jù)不變、測試員不變、也不做重復(fù)評分,只是根據(jù)《大綱》對四項測試的評分標準調(diào)整評分,然后進行對比分析,借以觀察免測“選擇判斷”后應(yīng)試人成績的變化情況。數(shù)據(jù)采用SPSS13.0統(tǒng)計工具進行統(tǒng)計。
《大綱》規(guī)定,如果免測“選擇判斷”項,單音節(jié)詞、多音節(jié)詞語、朗讀短文的分值和評分標準都不變,只是“命題說話”測試項的分值由原來的30分調(diào)整為40分。具體來說,原來賦予“選擇判斷”的10分重新分配給“命題說話”項的“語音標準程度”和“詞匯語法規(guī)范程度”兩個評分項,“語音標準程度的分值由20分調(diào)整為25分”,“詞匯語法規(guī)范程度的分值由5分調(diào)整為10分”。分值的調(diào)整存在以下規(guī)律(表2):
表2 免測“選擇判斷”后的分值調(diào)整
劉照雄先生曾預(yù)測,“免測‘選擇判斷’項相對提高了測試的難度。如果確定得不恰當,會在一定程度上影響測試的信度?!盵4]應(yīng)試人參加五項測試和四項測試最后分數(shù)的分布曲線的偏態(tài)系數(shù)和峰度系數(shù)都在±1之內(nèi),基本符合正態(tài)分布。五項測試的平均分為75.99分,四項測試的平均分為75.13分,五項測試比四項測試的平均分高0.86分。經(jīng)配對樣本T檢驗,在95%置信度下,雙尾檢驗的顯著性為0.000,小于0.05,五項測試與四項測試的平均分存在顯著性差異,證明四項測試的難度確實大于五項測試。
同時,統(tǒng)計表明,五項測試與四項測試的分數(shù)的皮爾森相關(guān)系數(shù)(Pearson correlation)達到0.996,顯著性為0.000,五項測試與四項測試的分數(shù)存在顯著相關(guān),證明四項測試與五項測試具有同樣的信度和效度水平。
免測“選擇判斷”后分數(shù)變化的三種情況分別為(表3):
表3 免測“選擇判斷”后分數(shù)的變化情況
考察發(fā)現(xiàn),總分提高的樣本在“選擇判斷”測試項的平均失分為3.69分,而總分降低的68個樣本在“選擇判斷”測試項的平均失分為1.16分,相差明顯。如果不考慮語音失分,總分提高的應(yīng)試人在“判斷”中的平均失分達到2.17分,遠遠高于0.9分的平均失分。取消“選擇判斷”項以后,雖然在“命題說話”中“語音標準程度”和“詞匯語法規(guī)范程度”的失分都會增加,但語音失分最多增加2分,詞匯語法失分最多增加1分,再加上“選擇判斷”項中的語音失分失而復(fù)得,這部分應(yīng)試人的最后成績反而提高了?!斑x擇判斷”失分越多,免測“選擇判斷”項以后分數(shù)的補償作用越明顯,而那些在“選擇判斷”中本來失分很少或根本不失分的應(yīng)試人只能眼睜睜地看著“命題說話”中的失分增加。
相對于分數(shù),應(yīng)試人更關(guān)注等級,因為行業(yè)準入標準一般是以等級來劃定的。統(tǒng)計顯示,五項測試與四項測試在等級上分布基本符合正態(tài)分布,等級分布的具體變化如下表(表4):
表4 免測“選擇判斷”后等級分布的變化情況
經(jīng)統(tǒng)計,在95%置信度下,雙尾檢驗的差異顯著性為0.000,小于0.05,說明五項測試與四項測試的等級存在顯著性差異。五項測試與四項測試的等級的斯皮爾曼相關(guān)系數(shù)(Spearman correlation)達到0.915,顯著性水平為0.000,五項測試的等級與四項測試的等級顯著相關(guān),證明從等級的角度看,五項測試與四項測試也具有同樣的信度和效度水平。
五項測試與四項測試的等級分布情況說明,雖然本研究語音樣本的地域來源比較單一,但測試等級分布也與全國的分布形勢大體相同,也就是“二級乙等數(shù)量最多,二級甲等和三級甲等數(shù)量其次,一級乙等和三級乙等再次,一級甲等和不入級最少”。[5]免測“選擇判斷”項以后,在等級分布上,一級乙等、二級乙等減少,主要向三級甲等集中,但二級乙等和三級甲等占主要的總趨勢沒有改變,也比較符合香港的實際情況。
免測“選擇判斷”后等級變化的三種情況分別為(表5):
表5 免測“選擇判斷”后等級變化的情況
數(shù)據(jù)表明,免測“選擇判斷”之后,測試項目、評分標準發(fā)生變化,幾乎100%的應(yīng)試人分數(shù)都發(fā)生了變化,但仍然有82%的應(yīng)試人可以維持在原來的等級,原來是三級水平的樣本都沒有發(fā)生等級變化??疾斓燃壈l(fā)生變化的16個樣本,發(fā)現(xiàn)應(yīng)試人的分數(shù)有明顯的共性:不論是等級提高還是等級降低,這些分數(shù)都是某一等級的臨界分數(shù)(一般為±1分,不超過2分),等級變化之后的分數(shù)仍然屬于臨界分數(shù)。這主要是因為普通話水平測試的三級六等各有一定的分數(shù)范圍,等級越低,分數(shù)范圍越大,如果原來的分數(shù)處在邊緣地帶,調(diào)整以后很容易引起等級的變化。
我們一直認為“選擇判斷”項存在難度低、區(qū)分度也低。“選擇判斷”測試項平均失分1.6分,其中“語音”平均失分0.7分,只有4人沒有出現(xiàn)語音錯誤;②《大綱》規(guī)定在“選擇判斷”測試項中“答題時語音錯誤,每個錯誤音節(jié)扣0.1分;如判斷錯誤已經(jīng)扣分,不重復(fù)扣分”?!芭袛唷逼骄Х?.9分,只有25人(28%)沒有出現(xiàn)判斷錯誤。除去語音因素,“判斷”的平均失分僅為0.8分。以得分率計算,“選擇判斷”測試項總體的難度系數(shù)為0.84,不考慮語音因素,則達到0.92,得分系數(shù)偏高,說明“選擇判斷”測試項試題的難度偏低。
在經(jīng)典測試理論中,區(qū)分度常常以某測試項高分組與低分組平均分數(shù)的差異或某測試項的得分與測驗總分之間的相關(guān)程度來表示,差異越大或相關(guān)系數(shù)越高,試題的區(qū)分度越好。將應(yīng)試人的“選擇判斷”成績進行分組統(tǒng)計,有23人在高分組,65人在低分組,高分組平均失分3.49分,低分組平均失分0.96分,采用獨立樣本T檢驗的結(jié)果為,在95%置信度下,雙尾檢驗的顯著性水平為0.000,差異非常顯著。同時,統(tǒng)計表明,“選擇判斷”與五項測試的總成績之間的相關(guān)系數(shù)為0.863,在99%置信度下的顯著性水平為0.000,相關(guān)性非常顯著,說明“選擇判斷”的區(qū)分度良好。數(shù)據(jù)同時也能證明“選擇判斷”在普通話水平測試中也有效度和信度上的價值和貢獻。但是,在“選擇判斷”測試項的失分中如果不考慮答題方式錯誤(比如照念題干和選項)有近50%來自語音失分,該測試項測查詞匯語法規(guī)范程度的效度要打一些折扣。除去語音因素,“判斷”與“命題說話”項中“詞匯語法”小項失分情況對照(表6):
表6 “判斷”與“命題說話”項中“詞匯語法”小項失分情況對照
“選擇判斷”中“判斷”與“命題說話”中的“詞匯語法規(guī)范程度”的相關(guān)系數(shù)僅為0.035,雙尾檢驗顯著性水平為0.749,大于0.05,沒有顯著性相關(guān),不能簡單類推。
本研究中的應(yīng)試人在有文字憑借的“選擇判斷”項中,有72%的應(yīng)試人出現(xiàn)了判斷失誤,在無文字憑借的“命題說話”項中,78%的應(yīng)試人出現(xiàn)了詞匯語法錯誤?!捌胀ㄔ挼恼Z序及表達方式,粵方言口語雖然不這么用,但應(yīng)試者在學(xué)習(xí)書面語時已掌握,有一定的語感,在測試中基本都有正確的選擇”,但在實際的口語運用中還是不能運用自如。[6]
(1)由于五項測試與四項測試的分數(shù)和等級都存在統(tǒng)計學(xué)意義上的顯著差異,為保證普通話水平測試的公平性,應(yīng)盡量避免五項測試與四項測試兩種測試模式同時存在。
(2)由于五項測試與四項測試在分數(shù)和等級上都存在統(tǒng)計學(xué)意義上的顯著相關(guān),五項測試與四項測試具有同等的信度和效度水平,采取五項測試或四項測試都是可以接受的,從工作實際來看,四項測試被廣泛采用,也可以說四項測試是未來的發(fā)展趨勢。
(3)“選擇判斷”項對某些特定人群來說仍有一定的價值。香港地區(qū)的語言生活與內(nèi)地不同,對多數(shù)香港應(yīng)試人來說,這一項的保留在超考試效度層面能夠提醒應(yīng)試人在普通話學(xué)習(xí)過程中詞匯語法規(guī)范程度仍是需要注意的問題。
(4)由于事實上目前五項測試與四項測試仍是并存的局面,考慮到影響的主要是臨界分數(shù)以及由此引起的等級的變化,應(yīng)當加強對等級臨界分數(shù)的復(fù)審。
本研究在語音樣本的選擇及數(shù)量上存在一定的局限性,但對于免測“選擇判斷”項的研究有一定的啟發(fā)。鑒于普通話水平測試的測試量已達3 300余萬[7],是大規(guī)模國家級測試,本研究的樣本量仍然偏小,下一步的研究中可以考慮將樣本量擴大到1 000個以上,并考慮樣本地域分布、等級分布等相關(guān)因素。
“選擇判斷”測試的目的是測查應(yīng)試人詞匯、語法的規(guī)范程度,它的存在直接體現(xiàn)了普通話水平測試的語言觀和語言測試觀——語音、詞匯、語法是普通話不可缺少的要素,也是普通話水平測試不可或缺的內(nèi)容。免測“選擇判斷”項被廣泛采用和接受,與普通話水平測試的性質(zhì)、應(yīng)試人群以及“選擇判斷”測試項本身的試題形式有直接的關(guān)系。
“普通話水平測試主要考查應(yīng)試人的語音規(guī)范程度,同時兼顧詞匯和語法等非語音要素。”[8]語音是語言的物質(zhì)外殼,普通話水平測試是面向漢語母語人的口語測試,在方言與普通話的差異中,最容易感受到的是語音的差異,普通話水平測試以語音規(guī)范程度、標準程度為檢測重點是非常合理的。
從現(xiàn)階段主要的應(yīng)試人群構(gòu)成情況分析,按照有關(guān)法律和規(guī)定的要求,目前應(yīng)接受測試的人員為:教師和申請教師資格的人員;廣播電臺、電視臺的播音員、節(jié)目主持人;影視話劇演員;國家機關(guān)工作人員;師范類專業(yè)、播音與主持藝術(shù)專業(yè)、影視話劇表演專業(yè)以及其他與口語表達密切相關(guān)專業(yè)的學(xué)生;行業(yè)主管部門規(guī)定的其他應(yīng)該接受測試的人員。普通話既是學(xué)校母語教育的目的語,也是母語教育的工具,這些人群已接受比較系統(tǒng)的母語基礎(chǔ)教育,達到中等文化程度,在長期的書面語學(xué)習(xí)過程中已基本掌握普通話詞匯、語法,在從方言到普通話的轉(zhuǎn)變過程中,普通話水平的高低主要體現(xiàn)為語音規(guī)范程度和熟練程度的差異。
“選擇判斷”的試題形式為多項選擇和搭配組合,這兩種題型客觀性高,能實現(xiàn)較高的信度,但是不夠真實,實驗數(shù)據(jù)也證明“選擇判斷”與“命題說話”的相關(guān)性不顯著。多項選擇和搭配組合題型都很難排除答題時的猜測因素,選項越少,猜對概率越高。有些試題本身還有提示正確答案的作用,比如有的干擾項中用到“、”等字,這些字屬于方言用字,該方言區(qū)的應(yīng)試人和其他方言區(qū)的應(yīng)試人看到這樣的字都不會選擇這個選項,這樣干擾項就失去了干擾作用。這些因素都進一步降低了測試的難度,使“選擇判斷”幾乎成了送分題。此外,“選擇判斷”現(xiàn)有題庫中有些試題本身的典型性還值得商榷,用來作為試題未必是合適的。這些因素也是大部分地區(qū)選擇免測“選擇判斷”項的原因。
另外,普通話水平測試的等級有一定的分數(shù)范圍,越是高等級,分數(shù)的浮動范圍越小,對評分標準的調(diào)整越敏感,最典型的應(yīng)該是一級甲等。免測“選擇判斷”項對自我目標為一級甲等的應(yīng)試人有什么影響也有待進一步探討。
為體現(xiàn)詞匯、語法規(guī)范程度在普通話中的重要地位,同時保證普通話水平測試的全面性,《大綱》對免測“選擇判斷”測試項以后的分值做了重新分配。從實驗數(shù)據(jù)來看,由于免測“選擇判斷”測試項,應(yīng)試人在“命題說話”測試項中的“語音標準程度”扣分平均增加了2分(約27%),在“詞匯語法規(guī)范程度”上的扣分數(shù)值上雖然很少,但比例上平均增加了1倍(100%),扣分更為嚴格。這種調(diào)整是對免測“選擇判斷”以后對詞匯語法規(guī)范程度檢測的一種補償,“使得詞匯、語法與語音的分值權(quán)重比例保持了相對均衡”。[9]普通話學(xué)習(xí)者應(yīng)清楚地認識到,免測“選擇判斷”項并不意味著免檢詞匯、語法的規(guī)范程度。在注重語音標準、規(guī)范的同時,不能忽略詞匯、語法的規(guī)范程度的提高。相對于語音,普通話水平測試中詞匯、語法的研究仍顯不足,如何有效檢測應(yīng)試人詞匯、語法的規(guī)范程度仍在探討之中。在既有形勢下,普通話水平測試員應(yīng)按照評分標準對應(yīng)試人的詞匯、語法規(guī)范程度進行評測。至于在具體評測時如何把握尺度,已有很多專題研究,本文不再贅述。
[1]國家語委普通話培訓(xùn)測試中心編制.普通話水平測試實施綱要[Z].北京:商務(wù)印書館,2004:5.
[2]姚喜雙.推普工作的重要抓手——談依法推進的普通話水平測試[J].語言文字應(yīng)用,2010(3):26-34.
[3]陶昱霖.《普通話水平測試大綱》與江蘇省《評分細則》的比較分析[J].語言文字應(yīng)用,2007,增刊:126-130.
[4]劉照雄.《普通話水平測試實施綱要》概述[J].語言文字應(yīng)用,2004(3):10-14.
[5]韓玉華.普通話水平測試等級標準樣本庫采集方案初探[J].語言文字應(yīng)用,2010(4):98-104.
[6]劉慧.對“選擇判斷”中“語序及表達形式判斷”項的一些建議[J].語言文字應(yīng)用.2007(增刊):117-120.
[7][8]姚喜雙.普通話水平測試概論[M].北京:高等教育出版社,2011:1,66.
[9]王暉.普通話水平測試中的詞匯、語法問題[A]//第二屆全國普通話水平測試學(xué)術(shù)研討會論文集.北京:商務(wù)印書館,2006:166-174.
【責(zé)任編輯 曹 萌】