普通話水平測試免測“選擇判斷”項實證研究

2014-05-16 06:13朱麗紅

沈陽師范大學(xué)學(xué)報（社會科學(xué)版） 2014年2期

朱麗紅

（教育部語言文字應(yīng)用研究所，北京 100010）

一、問題的提出

《普通話水平測試大綱》①教育部、國家語委發(fā)教語用[2003]2號文件。（以下簡稱“《大綱》”）規(guī)定：普通話水平測試的內(nèi)容包括普通話語音、詞匯和語法，試卷包括5個組成部分，滿分為100分：讀單音節(jié)字、讀多音節(jié)詞語、選擇判斷、朗讀短文、命題說話。每個測試項分值不同，有各自不同的檢測目的（表1）：

表1 普通話水平測試項目、分值及檢測目的

同時并說明：“各省、自治區(qū)、直轄市語言文字工作部門可以根據(jù)測試對象或本地區(qū)的實際情況，決定是否免測‘選擇判斷’測試項?！盵1]

從各地區(qū)開展測試的實際情況看，除了內(nèi)地個別省份、港澳臺地區(qū)及海外測試還保留“選擇判斷”測試項，其他地區(qū)都采取免測“選擇判斷”測試項的做法。可以說，不論是在區(qū)域上還是在測試人數(shù)上，免測“選擇判斷”測試項的四項測試都是主流。

“普通話水平測試不是一般的學(xué)術(shù)性的測試，不是可有可無的，而是關(guān)系到推普大業(yè)的一項測試”[2]，《中華人民共和國國家通用語言文字法》對應(yīng)當接受測試的人群有明確的規(guī)定，普通話水平測試的成績成為資格準入的條件。免測“選擇判斷”測試項，直接改變了測試項目和評分標準，這種變化對測試成績會產(chǎn)生怎樣的影響？《大綱》為什么允許“選擇判斷”測試項的免測與不免測并存？基于對母語的經(jīng)驗性認識和判斷，免測“選擇判斷”測試項的大局早在普通話水平測試開始實施的階段就已經(jīng)形成，而實證研究一直比較缺乏。

關(guān)于免測“選擇判斷”（不免測“選擇判斷”的下文稱“五項測試”，免測“選擇判斷”的下文稱“四項測試”）對應(yīng)試人成績的影響，陶昱霖曾經(jīng)做過一個小樣本研究。[3]這一研究選擇了28個樣本，測試員先后根據(jù)《大綱》五項測試的評分標準和某省《評分細則》評分，通過應(yīng)試人成績的變化比較《大綱》的評分標準與某省的《評分細則》的差異。在這個小樣本研究中，使用的評分標準并不完全相同，測試員先后兩次評分也會存在差異，這些都是可以改進的地方。本研究擬擴大樣本量，以《大綱》的評分標準為唯一依據(jù)，同時避免測試員重復(fù)評分時主客觀條件變化帶來的影響，再進行統(tǒng)計分析。

二、免測“選擇判斷”項的實證研究

限于語音樣本選擇條件，本研究隨機選取88位香港應(yīng)試人參加電腦錄音測試的語音數(shù)據(jù)和評分數(shù)據(jù)進行分析。香港采用的是五項測試，本研究采用的方法是：先根據(jù)《大綱》五項測試的評分標準進行評分，語音數(shù)據(jù)不變、測試員不變、也不做重復(fù)評分，只是根據(jù)《大綱》對四項測試的評分標準調(diào)整評分，然后進行對比分析，借以觀察免測“選擇判斷”后應(yīng)試人成績的變化情況。數(shù)據(jù)采用SPSS13.0統(tǒng)計工具進行統(tǒng)計。

《大綱》規(guī)定，如果免測“選擇判斷”項，單音節(jié)詞、多音節(jié)詞語、朗讀短文的分值和評分標準都不變，只是“命題說話”測試項的分值由原來的30分調(diào)整為40分。具體來說，原來賦予“選擇判斷”的10分重新分配給“命題說話”項的“語音標準程度”和“詞匯語法規(guī)范程度”兩個評分項，“語音標準程度的分值由20分調(diào)整為25分”，“詞匯語法規(guī)范程度的分值由5分調(diào)整為10分”。分值的調(diào)整存在以下規(guī)律（表2）：

表2 免測“選擇判斷”后的分值調(diào)整

（一）免測“選擇判斷”項以后分數(shù)的變化

劉照雄先生曾預(yù)測，“免測‘選擇判斷’項相對提高了測試的難度。如果確定得不恰當，會在一定程度上影響測試的信度?！盵4]應(yīng)試人參加五項測試和四項測試最后分數(shù)的分布曲線的偏態(tài)系數(shù)和峰度系數(shù)都在±1之內(nèi)，基本符合正態(tài)分布。五項測試的平均分為75.99分，四項測試的平均分為75.13分，五項測試比四項測試的平均分高0.86分。經(jīng)配對樣本T檢驗，在95%置信度下，雙尾檢驗的顯著性為0.000，小于0.05，五項測試與四項測試的平均分存在顯著性差異，證明四項測試的難度確實大于五項測試。

同時，統(tǒng)計表明，五項測試與四項測試的分數(shù)的皮爾森相關(guān)系數(shù)（Pearson correlation）達到0.996，顯著性為0.000，五項測試與四項測試的分數(shù)存在顯著相關(guān)，證明四項測試與五項測試具有同樣的信度和效度水平。

免測“選擇判斷”后分數(shù)變化的三種情況分別為（表3）：

表3 免測“選擇判斷”后分數(shù)的變化情況

考察發(fā)現(xiàn)，總分提高的樣本在“選擇判斷”測試項的平均失分為3.69分，而總分降低的68個樣本在“選擇判斷”測試項的平均失分為1.16分，相差明顯。如果不考慮語音失分，總分提高的應(yīng)試人在“判斷”中的平均失分達到2.17分，遠遠高于0.9分的平均失分。取消“選擇判斷”項以后，雖然在“命題說話”中“語音標準程度”和“詞匯語法規(guī)范程度”的失分都會增加，但語音失分最多增加2分，詞匯語法失分最多增加1分，再加上“選擇判斷”項中的語音失分失而復(fù)得，這部分應(yīng)試人的最后成績反而提高了?！斑x擇判斷”失分越多，免測“選擇判斷”項以后分數(shù)的補償作用越明顯，而那些在“選擇判斷”中本來失分很少或根本不失分的應(yīng)試人只能眼睜睜地看著“命題說話”中的失分增加。

（二）免測“選擇判斷”項以后等級的變化

相對于分數(shù)，應(yīng)試人更關(guān)注等級，因為行業(yè)準入標準一般是以等級來劃定的。統(tǒng)計顯示，五項測試與四項測試在等級上分布基本符合正態(tài)分布，等級分布的具體變化如下表（表4）：

表4 免測“選擇判斷”后等級分布的變化情況

經(jīng)統(tǒng)計，在95%置信度下，雙尾檢驗的差異顯著性為0.000，小于0.05，說明五項測試與四項測試的等級存在顯著性差異。五項測試與四項測試的等級的斯皮爾曼相關(guān)系數(shù)（Spearman correlation）達到0.915，顯著性水平為0.000，五項測試的等級與四項測試的等級顯著相關(guān)，證明從等級的角度看，五項測試與四項測試也具有同樣的信度和效度水平。

五項測試與四項測試的等級分布情況說明，雖然本研究語音樣本的地域來源比較單一，但測試等級分布也與全國的分布形勢大體相同，也就是“二級乙等數(shù)量最多，二級甲等和三級甲等數(shù)量其次，一級乙等和三級乙等再次，一級甲等和不入級最少”。[5]免測“選擇判斷”項以后，在等級分布上，一級乙等、二級乙等減少，主要向三級甲等集中，但二級乙等和三級甲等占主要的總趨勢沒有改變，也比較符合香港的實際情況。

免測“選擇判斷”后等級變化的三種情況分別為（表5）：

表5 免測“選擇判斷”后等級變化的情況

數(shù)據(jù)表明，免測“選擇判斷”之后，測試項目、評分標準發(fā)生變化，幾乎100%的應(yīng)試人分數(shù)都發(fā)生了變化，但仍然有82%的應(yīng)試人可以維持在原來的等級，原來是三級水平的樣本都沒有發(fā)生等級變化?？疾斓燃壈l(fā)生變化的16個樣本，發(fā)現(xiàn)應(yīng)試人的分數(shù)有明顯的共性：不論是等級提高還是等級降低，這些分數(shù)都是某一等級的臨界分數(shù)（一般為±1分，不超過2分），等級變化之后的分數(shù)仍然屬于臨界分數(shù)。這主要是因為普通話水平測試的三級六等各有一定的分數(shù)范圍，等級越低，分數(shù)范圍越大，如果原來的分數(shù)處在邊緣地帶，調(diào)整以后很容易引起等級的變化。

（三）應(yīng)試人“選擇判斷”項成績分析

我們一直認為“選擇判斷”項存在難度低、區(qū)分度也低。“選擇判斷”測試項平均失分1.6分，其中“語音”平均失分0.7分，只有4人沒有出現(xiàn)語音錯誤；②《大綱》規(guī)定在“選擇判斷”測試項中“答題時語音錯誤，每個錯誤音節(jié)扣0.1分；如判斷錯誤已經(jīng)扣分，不重復(fù)扣分”?！芭袛唷逼骄Х?.9分，只有25人（28%）沒有出現(xiàn)判斷錯誤。除去語音因素，“判斷”的平均失分僅為0.8分。以得分率計算，“選擇判斷”測試項總體的難度系數(shù)為0.84，不考慮語音因素，則達到0.92，得分系數(shù)偏高，說明“選擇判斷”測試項試題的難度偏低。

在經(jīng)典測試理論中，區(qū)分度常常以某測試項高分組與低分組平均分數(shù)的差異或某測試項的得分與測驗總分之間的相關(guān)程度來表示，差異越大或相關(guān)系數(shù)越高，試題的區(qū)分度越好。將應(yīng)試人的“選擇判斷”成績進行分組統(tǒng)計，有23人在高分組，65人在低分組，高分組平均失分3.49分，低分組平均失分0.96分，采用獨立樣本T檢驗的結(jié)果為，在95%置信度下，雙尾檢驗的顯著性水平為0.000，差異非常顯著。同時，統(tǒng)計表明，“選擇判斷”與五項測試的總成績之間的相關(guān)系數(shù)為0.863，在99%置信度下的顯著性水平為0.000，相關(guān)性非常顯著，說明“選擇判斷”的區(qū)分度良好。數(shù)據(jù)同時也能證明“選擇判斷”在普通話水平測試中也有效度和信度上的價值和貢獻。但是，在“選擇判斷”測試項的失分中如果不考慮答題方式錯誤（比如照念題干和選項）有近50%來自語音失分，該測試項測查詞匯語法規(guī)范程度的效度要打一些折扣。除去語音因素，“判斷”與“命題說話”項中“詞匯語法”小項失分情況對照（表6）：

表6 “判斷”與“命題說話”項中“詞匯語法”小項失分情況對照

“選擇判斷”中“判斷”與“命題說話”中的“詞匯語法規(guī)范程度”的相關(guān)系數(shù)僅為0.035，雙尾檢驗顯著性水平為0.749，大于0.05，沒有顯著性相關(guān)，不能簡單類推。

本研究中的應(yīng)試人在有文字憑借的“選擇判斷”項中，有72%的應(yīng)試人出現(xiàn)了判斷失誤，在無文字憑借的“命題說話”項中，78%的應(yīng)試人出現(xiàn)了詞匯語法錯誤?！捌胀ㄔ挼恼Z序及表達方式，粵方言口語雖然不這么用，但應(yīng)試者在學(xué)習(xí)書面語時已掌握，有一定的語感，在測試中基本都有正確的選擇”，但在實際的口語運用中還是不能運用自如。[6]

（四）結(jié)論

（1）由于五項測試與四項測試的分數(shù)和等級都存在統(tǒng)計學(xué)意義上的顯著差異，為保證普通話水平測試的公平性，應(yīng)盡量避免五項測試與四項測試兩種測試模式同時存在。

（2）由于五項測試與四項測試在分數(shù)和等級上都存在統(tǒng)計學(xué)意義上的顯著相關(guān)，五項測試與四項測試具有同等的信度和效度水平，采取五項測試或四項測試都是可以接受的，從工作實際來看，四項測試被廣泛采用，也可以說四項測試是未來的發(fā)展趨勢。

（3）“選擇判斷”項對某些特定人群來說仍有一定的價值。香港地區(qū)的語言生活與內(nèi)地不同，對多數(shù)香港應(yīng)試人來說，這一項的保留在超考試效度層面能夠提醒應(yīng)試人在普通話學(xué)習(xí)過程中詞匯語法規(guī)范程度仍是需要注意的問題。

（4）由于事實上目前五項測試與四項測試仍是并存的局面，考慮到影響的主要是臨界分數(shù)以及由此引起的等級的變化，應(yīng)當加強對等級臨界分數(shù)的復(fù)審。

本研究在語音樣本的選擇及數(shù)量上存在一定的局限性，但對于免測“選擇判斷”項的研究有一定的啟發(fā)。鑒于普通話水平測試的測試量已達3 300余萬[7]，是大規(guī)模國家級測試，本研究的樣本量仍然偏小，下一步的研究中可以考慮將樣本量擴大到1 000個以上，并考慮樣本地域分布、等級分布等相關(guān)因素。

三、余論

“選擇判斷”測試的目的是測查應(yīng)試人詞匯、語法的規(guī)范程度，它的存在直接體現(xiàn)了普通話水平測試的語言觀和語言測試觀——語音、詞匯、語法是普通話不可缺少的要素，也是普通話水平測試不可或缺的內(nèi)容。免測“選擇判斷”項被廣泛采用和接受，與普通話水平測試的性質(zhì)、應(yīng)試人群以及“選擇判斷”測試項本身的試題形式有直接的關(guān)系。

“普通話水平測試主要考查應(yīng)試人的語音規(guī)范程度，同時兼顧詞匯和語法等非語音要素。”[8]語音是語言的物質(zhì)外殼，普通話水平測試是面向漢語母語人的口語測試，在方言與普通話的差異中，最容易感受到的是語音的差異，普通話水平測試以語音規(guī)范程度、標準程度為檢測重點是非常合理的。

從現(xiàn)階段主要的應(yīng)試人群構(gòu)成情況分析，按照有關(guān)法律和規(guī)定的要求，目前應(yīng)接受測試的人員為：教師和申請教師資格的人員；廣播電臺、電視臺的播音員、節(jié)目主持人；影視話劇演員；國家機關(guān)工作人員；師范類專業(yè)、播音與主持藝術(shù)專業(yè)、影視話劇表演專業(yè)以及其他與口語表達密切相關(guān)專業(yè)的學(xué)生；行業(yè)主管部門規(guī)定的其他應(yīng)該接受測試的人員。普通話既是學(xué)校母語教育的目的語，也是母語教育的工具，這些人群已接受比較系統(tǒng)的母語基礎(chǔ)教育，達到中等文化程度，在長期的書面語學(xué)習(xí)過程中已基本掌握普通話詞匯、語法，在從方言到普通話的轉(zhuǎn)變過程中，普通話水平的高低主要體現(xiàn)為語音規(guī)范程度和熟練程度的差異。

“選擇判斷”的試題形式為多項選擇和搭配組合，這兩種題型客觀性高，能實現(xiàn)較高的信度，但是不夠真實，實驗數(shù)據(jù)也證明“選擇判斷”與“命題說話”的相關(guān)性不顯著。多項選擇和搭配組合題型都很難排除答題時的猜測因素，選項越少，猜對概率越高。有些試題本身還有提示正確答案的作用，比如有的干擾項中用到“、”等字，這些字屬于方言用字，該方言區(qū)的應(yīng)試人和其他方言區(qū)的應(yīng)試人看到這樣的字都不會選擇這個選項，這樣干擾項就失去了干擾作用。這些因素都進一步降低了測試的難度，使“選擇判斷”幾乎成了送分題。此外，“選擇判斷”現(xiàn)有題庫中有些試題本身的典型性還值得商榷，用來作為試題未必是合適的。這些因素也是大部分地區(qū)選擇免測“選擇判斷”項的原因。

另外，普通話水平測試的等級有一定的分數(shù)范圍，越是高等級，分數(shù)的浮動范圍越小，對評分標準的調(diào)整越敏感，最典型的應(yīng)該是一級甲等。免測“選擇判斷”項對自我目標為一級甲等的應(yīng)試人有什么影響也有待進一步探討。

為體現(xiàn)詞匯、語法規(guī)范程度在普通話中的重要地位，同時保證普通話水平測試的全面性，《大綱》對免測“選擇判斷”測試項以后的分值做了重新分配。從實驗數(shù)據(jù)來看，由于免測“選擇判斷”測試項，應(yīng)試人在“命題說話”測試項中的“語音標準程度”扣分平均增加了2分（約27%），在“詞匯語法規(guī)范程度”上的扣分數(shù)值上雖然很少，但比例上平均增加了1倍（100%），扣分更為嚴格。這種調(diào)整是對免測“選擇判斷”以后對詞匯語法規(guī)范程度檢測的一種補償，“使得詞匯、語法與語音的分值權(quán)重比例保持了相對均衡”。[9]普通話學(xué)習(xí)者應(yīng)清楚地認識到，免測“選擇判斷”項并不意味著免檢詞匯、語法的規(guī)范程度。在注重語音標準、規(guī)范的同時，不能忽略詞匯、語法的規(guī)范程度的提高。相對于語音，普通話水平測試中詞匯、語法的研究仍顯不足，如何有效檢測應(yīng)試人詞匯、語法的規(guī)范程度仍在探討之中。在既有形勢下，普通話水平測試員應(yīng)按照評分標準對應(yīng)試人的詞匯、語法規(guī)范程度進行評測。至于在具體評測時如何把握尺度，已有很多專題研究，本文不再贅述。

[1]國家語委普通話培訓(xùn)測試中心編制.普通話水平測試實施綱要[Z].北京:商務(wù)印書館,2004:5.

[2]姚喜雙.推普工作的重要抓手——談依法推進的普通話水平測試[J].語言文字應(yīng)用，2010(3):26-34.

[3]陶昱霖.《普通話水平測試大綱》與江蘇省《評分細則》的比較分析[J].語言文字應(yīng)用，2007,增刊:126-130.

[4]劉照雄.《普通話水平測試實施綱要》概述[J].語言文字應(yīng)用，2004(3):10-14.

[5]韓玉華.普通話水平測試等級標準樣本庫采集方案初探[J].語言文字應(yīng)用，2010(4):98-104.

[6]劉慧.對“選擇判斷”中“語序及表達形式判斷”項的一些建議[J].語言文字應(yīng)用.2007(增刊):117-120.

[7][8]姚喜雙.普通話水平測試概論[M].北京:高等教育出版社,2011:1,66.

[9]王暉.普通話水平測試中的詞匯、語法問題[A]//第二屆全國普通話水平測試學(xué)術(shù)研討會論文集.北京:商務(wù)印書館,2006:166-174.

【責(zé)任編輯曹萌】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡