王淑華
(上海大學(xué) 文學(xué)院,上海 200444)
為提高國(guó)民語(yǔ)言文字素質(zhì),推進(jìn)中華文化傳承,教育部、國(guó)家語(yǔ)委組織語(yǔ)言學(xué)、教育測(cè)量學(xué)等不同領(lǐng)域的專(zhuān)家,在充分調(diào)查和取樣的基礎(chǔ)上,研制了《漢字應(yīng)用水平測(cè)試等級(jí)及測(cè)試大綱》(2006年8月28日發(fā)布),并于2007年正式推出漢字應(yīng)用水平測(cè)試。目前已在北京、天津、河北、遼寧、黑龍江、上海、江蘇、江西、山東、河南、湖南、云南、甘肅、寧夏等14個(gè)省(自治區(qū)、直轄市)組織開(kāi)展,已有20萬(wàn)以上人次獲得成績(jī)認(rèn)證。
漢字應(yīng)用水平測(cè)試屬于國(guó)家級(jí)語(yǔ)言類(lèi)標(biāo)準(zhǔn)化測(cè)試,用來(lái)檢測(cè)中等以上受教育程度人群的漢字應(yīng)用水平,可作為部分與漢字關(guān)系密切的職業(yè)或行業(yè)錄用人才的參考。
信度和效度是評(píng)價(jià)測(cè)試質(zhì)量的兩個(gè)重要指標(biāo)。漢字應(yīng)用水平測(cè)試作為一項(xiàng)國(guó)家級(jí)語(yǔ)言類(lèi)標(biāo)準(zhǔn)化水平測(cè)試,理應(yīng)具備較為理想的信度和效度。
漢字應(yīng)用水平測(cè)試從首測(cè)到現(xiàn)在已經(jīng)超過(guò)10年,其間測(cè)試范圍、題型、等級(jí)劃分、入級(jí)標(biāo)準(zhǔn)、受測(cè)對(duì)象測(cè)試成績(jī)和入級(jí)結(jié)構(gòu)等均發(fā)生了一定程度的變化。[1]比較明顯的分界線是在2014年。在此之前實(shí)行的是2006年發(fā)布的大綱,在此之后開(kāi)始使用的是新大綱(2014年試行,2016年發(fā)布)。
通過(guò)對(duì)新大綱實(shí)施前后漢字應(yīng)用水平測(cè)試的信度和效度進(jìn)行分析,探究十多年來(lái)漢字應(yīng)用水平測(cè)試的穩(wěn)定性、可靠性和有效性。我們分別以上海市2012和2015年的測(cè)試成績(jī)作為新大綱實(shí)施前后測(cè)試成績(jī)的代表??紤]上海市參測(cè)人數(shù)較多 ,故從2012年和2015年的受測(cè)者中隨機(jī)抽取400位左右作為樣本,最終抽取結(jié)果是2012年407位,2015年413位。樣本成績(jī)概況如下:
表1 漢字應(yīng)用水平測(cè)試樣本成績(jī)表
下面我們將運(yùn)用教育測(cè)量學(xué)的方法,使用Spss20.0對(duì)新大綱實(shí)施前后漢字應(yīng)用水平測(cè)試的信度和效度進(jìn)行研究。
(1)信度和漢字應(yīng)用水平測(cè)試。信度是指測(cè)驗(yàn)結(jié)果的一致性、穩(wěn)定性及可靠性。信度系數(shù)越高即表示該測(cè)驗(yàn)的結(jié)果越一致、穩(wěn)定與可靠。常見(jiàn)的信度有再測(cè)信度、復(fù)本信度、內(nèi)部一致性信度和評(píng)分者信度。[2]117
就漢字應(yīng)用水平測(cè)試而言,上文提到的4種信度,再測(cè)信度不具備現(xiàn)實(shí)性,因?yàn)闇y(cè)試目前并未大面積開(kāi)展,所以很難找到適合規(guī)模的受測(cè)者在適當(dāng)?shù)臅r(shí)間內(nèi)參加兩次漢字應(yīng)用水平測(cè)試。復(fù)本信度也較難操作,2007年和2008年測(cè)試曾有多種卷面,但2009年以后僅有一種。漢字應(yīng)用水平測(cè)試試題的主觀性試題較少,僅占整個(gè)卷面的25%左右,故也不宜僅考察評(píng)分者信度。因此,本文采用的是較為常用而且相對(duì)方便的內(nèi)部一致性信度。
內(nèi)部一致性信度有兩個(gè)重要指標(biāo),一個(gè)是分半信度,一個(gè)是克隆巴赫α系數(shù)。分半系數(shù)是按不同的方法(如前后分半、奇偶分半、隨機(jī)分半、人工分半等)將卷面試題分成兩個(gè)組成部分,計(jì)算這兩部分得分的相關(guān)系數(shù)。目前,國(guó)際上對(duì)信度的分析,通常采用α系數(shù)進(jìn)行衡量,它提供的信度可以視為所有分半信度的平均值,α系數(shù)越高時(shí),信度就越高。一般認(rèn)為,對(duì)于總量表來(lái)說(shuō), 0.65~0.69為最小可接受值,0.70~0.79為比較可靠,0.80~0.90為相當(dāng)可靠;0.9以上為非??煽浚粚?duì)分量表來(lái)說(shuō),系數(shù)最好在0.70以上,0.60~0.69也可以接受。
(2)2012和2015年漢字應(yīng)用水平測(cè)試信度分析。我們計(jì)算了2012和2015年測(cè)試試卷整體信度和每個(gè)部分的信度,具體如下:
表2 漢字應(yīng)用水平測(cè)試試卷信度系數(shù)表
從表2可以看出,2012和2015年度漢字應(yīng)用水平測(cè)試試卷的α系數(shù)非常接近,整卷信度都超過(guò)了0.9,說(shuō)明這兩份測(cè)試試卷的可靠性非常好,有很高的使用價(jià)值。曹昭計(jì)算了河北省2007年四個(gè)批次漢字應(yīng)用水平測(cè)試信度,結(jié)果分別為0.934、0.964、0.975、0.973。[3]對(duì)比這6份測(cè)試試卷的信度可知,漢字應(yīng)用水平測(cè)試試卷命題過(guò)程經(jīng)過(guò)了精心的組織與安排,質(zhì)量相當(dāng)穩(wěn)定,具有較高的可靠性。繼續(xù)觀察2012和2015年度每個(gè)部分的信度系數(shù),可以發(fā)現(xiàn)它們都較為接近,4個(gè)部分的差值依次為0.032、-0.028、0.022、0.003。2012年第一、三、四部分的系數(shù)略高于2015年的對(duì)應(yīng)部分,但2015年的整卷系數(shù)和第二部分的系數(shù)高于2012年。可見(jiàn),雖然2012和2015年度的試卷題型發(fā)生了較大的變化 ,但整卷和各組成部分的α系數(shù)并未發(fā)生明顯變化。
就測(cè)試試卷4個(gè)具體的組成部分而言,漢字書(shū)寫(xiě)部分的信度系數(shù)在兩個(gè)年度中均是最高值,字音認(rèn)讀和字形辨誤居中,漢字選用部分在兩個(gè)年度均是最低值,不過(guò)也居于0.6~0.7之間,屬于可以接受的范圍。我們進(jìn)一步計(jì)算了測(cè)試試卷4個(gè)組成部分試題的平均難度和區(qū)分度 ,發(fā)現(xiàn)其呈現(xiàn)出的趨勢(shì)也與信度系數(shù)基本相同,具體如下:
表3 漢字應(yīng)用水平測(cè)試試卷組成部分的難度和區(qū)分度
從表3可以看出,2012年的字音認(rèn)讀部分難度和區(qū)分度均處于合理區(qū)間,但2015年略低于理想水平;字形辨誤部分,兩年的難度和區(qū)分度均略低于理想水平; 漢字選用部分,兩年的難度和區(qū)分度也均低于理想水平,尤其是區(qū)分度,不僅是兩個(gè)年度最低水平,而且距理想值相差較大;漢字書(shū)寫(xiě)部分表現(xiàn)最佳,兩年的難度和區(qū)分度均處于合理的區(qū)間。結(jié)合表2和表3,可以發(fā)現(xiàn),相較于其他部分的試題,漢字選用部分應(yīng)該給予更多關(guān)注,以提高其難度和區(qū)分度,進(jìn)而提高整個(gè)組成部分的信度。
(1)效度和漢字應(yīng)用水平測(cè)試。效度是測(cè)量的有效性,即測(cè)量工具的準(zhǔn)確性、有用性,能測(cè)出其所要測(cè)量特質(zhì)的程度。效度是科學(xué)的測(cè)量工具所必須具備的最重要的條件。正常情況下,測(cè)量不會(huì)“完全有效”或“完全無(wú)效”,所以,效度只有程度上的差異。
美國(guó)心理學(xué)會(huì)編制的《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)》第3、4版將效度分為3種類(lèi)型:內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度和構(gòu)想效度。[2]122這種分類(lèi)是業(yè)界最常采用的效度分類(lèi)方法。
漢字應(yīng)用水平測(cè)試尚處于試點(diǎn)階段,受測(cè)群體主要是學(xué)生和教師,還有部分是編輯、公務(wù)員、廣告從業(yè)人員等。由于目前沒(méi)有類(lèi)似的可以與該測(cè)試進(jìn)行比較或關(guān)聯(lián)的其他指標(biāo)、測(cè)試或變量作為效標(biāo),因此,不適合采用效標(biāo)關(guān)聯(lián)效度,故下文對(duì)漢字應(yīng)用水平測(cè)試效度的驗(yàn)證,采用內(nèi)容效度和構(gòu)想效度相結(jié)合的方法。
(2)2012和2015年漢字應(yīng)用水平測(cè)試效度分析:①內(nèi)容效度。內(nèi)容效度又稱(chēng)邏輯效度,指測(cè)驗(yàn)項(xiàng)目對(duì)應(yīng)測(cè)內(nèi)容或行為領(lǐng)域取樣的適當(dāng)程度,即測(cè)量?jī)?nèi)容的適當(dāng)性和相符性。其分析常采用邏輯方法,依靠專(zhuān)家對(duì)測(cè)驗(yàn)題目與應(yīng)測(cè)內(nèi)容范圍的吻合程度做出判斷。常用方法是把所有題目按考試內(nèi)容分布和考察目標(biāo)分布進(jìn)行雙向分類(lèi),形成一份“題目雙向分類(lèi)表”。以這個(gè)表為基礎(chǔ),對(duì)測(cè)試內(nèi)容效度的滿意程度做出判斷或描述。對(duì)漢字應(yīng)用水平測(cè)試內(nèi)容效度的分析可以從試題卷對(duì)測(cè)試字表和測(cè)試點(diǎn)的覆蓋程度等兩個(gè)角度來(lái)進(jìn)行。
試題卷對(duì)測(cè)試字表的覆蓋程度。《漢字應(yīng)用水平等級(jí)及測(cè)試大綱》明確規(guī)定,漢字應(yīng)用水平測(cè)試的范圍是《通用規(guī)范漢字表》中的一級(jí)字和部分二級(jí)字,測(cè)試內(nèi)容是“漢字應(yīng)用水平測(cè)試字表”(簡(jiǎn)稱(chēng)為“字表”)中全部漢字的字形、字音、字義及用法。字表總字量為5 500字,分甲、乙、丙三個(gè)子表,其中甲表4 000字,乙表500字,丙表1 000字。試題卷由四個(gè)部分共120道試題構(gòu)成,四個(gè)部分的內(nèi)容均按7∶2∶1的比例從甲、乙、丙三表中選取。
我們統(tǒng)計(jì)了2012和2015年各部分總體用字和直接測(cè)試字的字表屬性,具體如下:
表4 2012年漢字應(yīng)用水平測(cè)試組成部分字種和測(cè)試字字表屬性n(%)
表5 2015年漢字應(yīng)用水平測(cè)試組成部分字種和測(cè)試字字表屬性n(%)
從表4和表5可以看出;
第一,兩個(gè)年度各部分的總字種和測(cè)試字在滿足大綱比例要求方面均有所欠缺??偟膬A向是甲表字使用較多,乙表字、丙表字較少;
第二,兩個(gè)年度所用總字種的字表比例較為接近,測(cè)試字的比例較總字種更接近大綱的要求。2015年度各部分測(cè)試字的字表比例優(yōu)于2012年的對(duì)應(yīng)部分,尤其是2015年的第四部分漢字書(shū)寫(xiě),跟大綱要求完全一致。
第三,2012年度卷面中出現(xiàn)了4個(gè)表外字,其中1個(gè)為測(cè)試字??紤]到在漢字實(shí)際應(yīng)用的閱讀和書(shū)寫(xiě)實(shí)踐中,會(huì)經(jīng)常遇到表外字,因此,在試卷中出現(xiàn)適當(dāng)比例的表外字是較為合理的,尤其是不以直接測(cè)試字的形式出現(xiàn)時(shí),能更準(zhǔn)確地衡量受測(cè)者的漢字能力。
總的來(lái)說(shuō),測(cè)試研制部門(mén)應(yīng)采取相關(guān)措施,以保證試題測(cè)試內(nèi)容尤其是測(cè)試字的字表比例滿足大綱要求,這是測(cè)試內(nèi)容效度的一個(gè)重要方面。
試題卷對(duì)大綱測(cè)試點(diǎn)的覆蓋程度。大綱要求的具體測(cè)試點(diǎn)主要包括如下內(nèi)容:能否準(zhǔn)確識(shí)別和使用字表中漢字的規(guī)范字形,能否辨析并糾正書(shū)寫(xiě)和使用中的各類(lèi)錯(cuò)誤;能否準(zhǔn)確判斷和使用這些漢字的普通話讀音,在使用環(huán)境中,能否識(shí)別和使用其中多音字的恰當(dāng)讀音;在使用環(huán)境中,能否掌握和使用這些漢字的常用意義、基本用法和一些特殊用法;是否具備了順暢地閱讀以規(guī)范漢字為媒介的現(xiàn)代文獻(xiàn)資料的漢字基礎(chǔ),能否在廣泛領(lǐng)域或一般領(lǐng)域用漢字進(jìn)行書(shū)面表達(dá)。[4]2-3
兩個(gè)年度測(cè)試試卷均分為4個(gè)組成部分,每部分30題。下面我們對(duì)照大綱的表述,依次來(lái)分析2012和2015年測(cè)試試卷每個(gè)組成部分的內(nèi)容效度。
表6 漢字應(yīng)用水平測(cè)試試卷各組成部分內(nèi)容效度分析 HJ*3
從表6可以看出,大綱的測(cè)試點(diǎn)中,除了“能否在廣泛領(lǐng)域或一般領(lǐng)域用漢字進(jìn)行書(shū)面表達(dá)”一點(diǎn)在測(cè)試試卷中未有涉及,漢字的普通話讀音、規(guī)范字形和常用意義等均在多處進(jìn)行了考查。其中,辨別形聲字、同音字、形近字和音近字,并在詞語(yǔ)或更大語(yǔ)境中準(zhǔn)確使用這些漢字的能力,規(guī)范書(shū)寫(xiě)漢字字形,是漢字應(yīng)用水平測(cè)試的重要測(cè)試點(diǎn)。因此,可以認(rèn)為漢字應(yīng)用水平測(cè)試在覆蓋大綱測(cè)試點(diǎn)方面,表現(xiàn)良好。
2015年的試題有較強(qiáng)的“去語(yǔ)境化”的趨勢(shì):字音認(rèn)讀部分的題干調(diào)整為漢字;字形辨誤部分的題干調(diào)整為詞語(yǔ),不再出現(xiàn)以句子為題干的試題;漢字書(shū)寫(xiě)部分的題干調(diào)整為詞語(yǔ)和句子,不再出現(xiàn)以語(yǔ)段為題干的試題。因此,2015年試卷,對(duì)多音字的讀音、具備順暢地閱讀以規(guī)范漢字為媒介的現(xiàn)代文獻(xiàn)資料的漢字基礎(chǔ)這兩點(diǎn)的考查,均弱于2012年。
②構(gòu)想效度。構(gòu)想效度又稱(chēng)結(jié)構(gòu)效度。一般認(rèn)為,所謂結(jié)構(gòu),是“心理學(xué)或社會(huì)學(xué)上的一種理論構(gòu)想或特質(zhì)。它本身觀察不到,并且也無(wú)法直接測(cè)量到,但學(xué)術(shù)理論假設(shè)它是存在的,以便能夠來(lái)解釋或預(yù)測(cè)個(gè)人或團(tuán)體的行為表現(xiàn)。”[5]60-61結(jié)構(gòu)效度就是指一個(gè)測(cè)驗(yàn)實(shí)際測(cè)到所要測(cè)量的理論結(jié)構(gòu)或特質(zhì)的程度,或者說(shuō)它是指測(cè)驗(yàn)分?jǐn)?shù)能夠說(shuō)明心理學(xué)理論的某種結(jié)構(gòu)或特質(zhì)的程度。一般是先采用因子分析的方法進(jìn)行公因子的提取,然后通過(guò)累計(jì)解釋的方差百分比來(lái)比較效度高低。
首先,我們要對(duì)有效樣本數(shù)據(jù)進(jìn)行KMO抽樣適當(dāng)性檢驗(yàn)和Bartlett球形檢驗(yàn),然后觀察檢驗(yàn)結(jié)果。KMO值在0和1之間,越接近于1,說(shuō)明變量間的相關(guān)性越強(qiáng),原有變量越適合作因子分析;KMO值越接近于0,說(shuō)明變量間的相關(guān)性越弱,原有變量越不適合做因子分析。常用的KMO度量標(biāo)準(zhǔn)如下:0.9以上表示非常適合;0.8~0.9表示很適合;0.7~0.8以上表示適合;0.6~0.7表示勉強(qiáng)適合;0.5~0.6表示不太適合,0.5以下表示不適合。Bartlett球形檢驗(yàn)的p值小于或等于0.01,表示非常適合。
接下來(lái)我們采用主成分分析法,進(jìn)行最大方差法的正交旋轉(zhuǎn),最終提取特征值大于1的因子若干個(gè),假如這些共同因子累計(jì)解釋的變異量為大于60%的話 ,說(shuō)明該部分內(nèi)容的結(jié)構(gòu)效度較好。2012年和2015年漢字應(yīng)用水平測(cè)試試卷結(jié)構(gòu)效度如下:
表7 2012和2015年漢字應(yīng)用水平測(cè)試試卷結(jié)構(gòu)效度
從上表可以看出,就KMO值而言,2012年和2015年除第三部分,整體和另三個(gè)部分的值均在0.7以上,第四部分還超過(guò)了0.8;Bartlett球形檢驗(yàn)p值均小于0.01。就整卷而言,共同因子的解釋變量均達(dá)到65%以上,說(shuō)明2012年和2015年漢字應(yīng)用水平測(cè)試試卷的效度都在可以接受的范圍,但也存在繼續(xù)改進(jìn)的空間。
影響測(cè)試信度的主要因素是受測(cè)者、施測(cè)者、施測(cè)情境、測(cè)量工具、兩次施測(cè)時(shí)間間隔等;影響測(cè)試效度的主要因素是測(cè)量工具、測(cè)試實(shí)施過(guò)程等,其中測(cè)量工具是主要因素。
就漢字應(yīng)用水平測(cè)試本身來(lái)說(shuō),測(cè)試要求在80分鐘內(nèi)完成120個(gè)得分點(diǎn),時(shí)間合適,題量充足;就具體施測(cè)過(guò)程來(lái)說(shuō),測(cè)試通常在每年11月中旬的非工作日舉行,因未涉聽(tīng)力與口語(yǔ),對(duì)測(cè)試環(huán)境要求不高,各地語(yǔ)委在測(cè)前均會(huì)組織監(jiān)考人員參加培訓(xùn),并按時(shí)巡查,以應(yīng)對(duì)意外情況的發(fā)生,管理組織工作到位;因此,提高漢字應(yīng)用水平測(cè)試的信度和效度主要可以從受測(cè)者、施測(cè)者、測(cè)試工具等方面入手。
(1)擴(kuò)大受測(cè)范圍,增強(qiáng)受測(cè)者之間的異質(zhì)性。受測(cè)者就個(gè)人而言,其測(cè)試成績(jī)常受個(gè)體身心狀況、注意力集中程度等因素的影響。不過(guò),這些因素較難控制,我們暫不討論。而就受測(cè)群體而言,目前漢字應(yīng)用水平測(cè)試的受測(cè)對(duì)象主要集中在學(xué)生與教師兩大群體中,考慮到漢字應(yīng)用能力應(yīng)該是每一個(gè)漢語(yǔ)母語(yǔ)者應(yīng)具備的基本能力,未來(lái)測(cè)試應(yīng)逐漸擴(kuò)展至其他人群。受測(cè)者之間的異質(zhì)程度越高,信度就越高。
(2)提高評(píng)分者信度,降低測(cè)試人工閱卷部分的主觀性。漢字應(yīng)用水平測(cè)試第四部分“漢字書(shū)寫(xiě)”(共30道題)為主觀性試題,由閱卷老師進(jìn)行評(píng)閱。閱卷時(shí),不同評(píng)閱教師、同一教師在不同時(shí)間對(duì)連筆、形近筆畫(huà)之間的替代、部分筆畫(huà)居于“米”字格外等問(wèn)題的容忍程度可能有別,對(duì)位于不同位置的筆畫(huà)變形、筆畫(huà)形狀和筆畫(huà)之間關(guān)系的準(zhǔn)確程度要求不一,這些都會(huì)導(dǎo)致評(píng)分者誤差的產(chǎn)生。
國(guó)家語(yǔ)委可以組織各地語(yǔ)委同時(shí)進(jìn)行預(yù)閱卷工作 ,擴(kuò)大預(yù)閱卷的數(shù)量和范圍,了解本次測(cè)試所涉漢字評(píng)分標(biāo)準(zhǔn)可能存在差異的各種表現(xiàn),制定出相應(yīng)的評(píng)分標(biāo)準(zhǔn),再加強(qiáng)對(duì)閱卷員的培訓(xùn)工作,可以最大限度地保證評(píng)分標(biāo)準(zhǔn)解釋的確定性,減少評(píng)分員主觀判斷的成分,以此提高評(píng)分者信度。
(3)豐富測(cè)試題型,全面覆蓋漢字應(yīng)用水平測(cè)試大綱中的測(cè)試點(diǎn)。上文已指出,2012和2015年試卷各組成部分的用字情況在滿足大綱要求(甲、乙、丙3表比例為7:2:1)方面均有所欠缺,未考查到受測(cè)者“用書(shū)面漢字進(jìn)行表達(dá)”的能力,且對(duì)漢字字義的考查不夠明確。2015年測(cè)試試卷對(duì)多音字的考查較少,對(duì)現(xiàn)代文獻(xiàn)閱讀能力的考查較少,這些都是可以改進(jìn)的地方。測(cè)試研發(fā)者應(yīng)盡量開(kāi)發(fā)更多試題類(lèi)型,以適應(yīng)大綱對(duì)漢字能力不同側(cè)面的考核要求。
(4)加強(qiáng)題庫(kù)建設(shè),提高試題對(duì)大綱不同字表的準(zhǔn)確覆蓋程度。題庫(kù)是按照一定的教育測(cè)量理論在計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)的大量試題的集合。對(duì)于任何一項(xiàng)測(cè)試來(lái)說(shuō),題庫(kù)都是非常重要的資源。以漢字應(yīng)用水平測(cè)試字表中的漢字為核心,建立漢字應(yīng)用水平測(cè)試題庫(kù),標(biāo)注題庫(kù)中所有漢字的字表屬性,利用計(jì)算機(jī)程序完成初步的組卷工作,再進(jìn)行人工干預(yù),可以有效提高試題覆蓋甲、乙、丙三個(gè)字表的準(zhǔn)確程度。
(5)對(duì)測(cè)試結(jié)果進(jìn)行定量分析,加強(qiáng)對(duì)試題難度與區(qū)分度的把握。對(duì)測(cè)試試卷的分析表明,各組成部分尤其是漢字選用部分,有一些試題總體難度和區(qū)分度均未達(dá)到理想?yún)^(qū)間,不符合要求。因此,如何保證漢字應(yīng)用水平測(cè)試各組成部分試題的難度和區(qū)分度處于理想?yún)^(qū)間,是測(cè)試開(kāi)發(fā)者需要重視的一個(gè)問(wèn)題。對(duì)歷年試卷的用字用詞情況和測(cè)試結(jié)果等進(jìn)行定量分析,逐步豐富題庫(kù)中的試題屬性,可促進(jìn)漢字應(yīng)用水平測(cè)試命題工作朝更規(guī)范、科學(xué)的方向發(fā)展。