普通話水平測試第四題“人機”測試模式信度研究

2023-02-03 08:40楊惠麟

綿陽師范學(xué)院學(xué)報 2023年1期

楊惠麟，張俊

(1.西南醫(yī)科大學(xué)，四川瀘州 646000；2.瀘州市語言文字工作委員會，四川瀘州 646000)

一、引言

普通話水平測試(Putonghua Shuiping Ceshi,以下簡稱PSC)是一項國家級語言測試。公平公正地執(zhí)行測試，是國家憲法賦予的使命[1]。自從2007年計算機輔助測試在安徽、上海開始試點，PSC開始了計算機測試前三題，兩位測試員測試第四題(“命題說話”項)的機測模式。這一模式在全國施行已有十多年。國內(nèi)的研究者通過大量的數(shù)據(jù)收集和分析認(rèn)為：計算機輔助測試是普通話水平測試未來的發(fā)展方向，但尚有許多技術(shù)問題需要解決。機測系統(tǒng)有其明顯的優(yōu)點，也有顯而易見的不足。其優(yōu)點主要表現(xiàn)為：減少了測試員的勞動，增加了測試量；減少了測試員主觀因素的干擾，從而增強了測試的客觀性和公正性。其不足主要有：計算機對“語音標(biāo)準(zhǔn)程度”的評測，“正誤”辨識度高，“缺陷”辨識不準(zhǔn)確[2]；計算機測試系統(tǒng)評測時“字化”現(xiàn)象明顯[3];對整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確，不能有效評測朗讀的語感；語調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語音現(xiàn)象，成為制約機評準(zhǔn)確性的瓶頸[4]；機評前三題使兩名測試員在測評第四題時無前三題的參考，對受測者“語音面貌”不能準(zhǔn)確定檔，導(dǎo)致評分差異加大，復(fù)評率上升[5]；機評導(dǎo)致復(fù)審二甲錯檔人數(shù)增加。

從2019年開始，計算機輔助測試又向前邁進了一大步，進入計算機與一名測試員共測第四題的全新階段。這就意味著，普通話水平測試工作已大部分由計算機完成，測試員只參與第四題，并且是與計算機共同評分，采用“人+機”的全新模式。其信度目前尚無相關(guān)的研究。

二、研究設(shè)計

此次研究采用描述性統(tǒng)計分析方法，以2018、2019、2020年瀘州市語言文字工作委員會測試站的測試數(shù)據(jù)為依據(jù)，篩選出偏差復(fù)審的被試成績，提取第四題的評分細(xì)節(jié)進行分析。普通話水平測試中的復(fù)審包括一級復(fù)審、抽查復(fù)審、偏差復(fù)審、異常復(fù)審。偏差復(fù)審是指普通話水平測試中同一應(yīng)試人第四題“說話”項的語料因計算機和測試員(2019年以前是兩位測試員)評分差異較大，由復(fù)審員(國家級測試員)進行再次審核測評的考評機制。應(yīng)試人的最終成績由復(fù)審員給出的分?jǐn)?shù)與一評時計算機或測試員中評出相近成績一方的分?jǐn)?shù)平均而成。此次研究偏差復(fù)審的標(biāo)準(zhǔn)，四川省語言文字工作委員會文件要求為：2018、2019年為2分，2020年為1.5分。本研究只選取偏差復(fù)審的語料進行統(tǒng)計分析，其優(yōu)點是：統(tǒng)計偏差復(fù)審率，可以直觀分析計算機與測試員的評分差異；通過復(fù)審員的復(fù)審可以進一步比較計算機與復(fù)審員的評分差異；便于從龐大的測試數(shù)據(jù)中選出有代表性的數(shù)據(jù)進行分析研究，減少了人力、物力和時間上的浪費。

由于計算機測試系統(tǒng)對第四題只提供一個總成績，筆者分別進行了三年復(fù)審率比對，2019、2020年復(fù)審數(shù)據(jù)計算機與測試員評分差、計算機與復(fù)審員評分差、復(fù)審成績等級變化比對，異常偏差復(fù)審語料50例語音面貌描述和第三次測評比對、討論，并輔以測試員評分問卷調(diào)查表，多維度地探求計算機測試第四題的信度。

三、偏差復(fù)審數(shù)據(jù)分析研究

(一)(2018—2020)偏差復(fù)審復(fù)評率比對

從表1的數(shù)據(jù)看，2018年采用兩名測試員測試第四題(即“人+人”模式)，復(fù)評率高于施行人機共測(即“人+機”模式)的2019年和2020年；2020年復(fù)評率略高于2019年，應(yīng)是復(fù)評標(biāo)準(zhǔn)由第四題機器與測試員相差2分復(fù)評，改為相差1.5分復(fù)評的緣故。可以看出，“人+人”模式比“人+機”模式的復(fù)評率高。造成“人+人”模式復(fù)評率高的原因主要有：1.由于前三題為計算機測試，測試員只測試第四題，沒有更多語料參考對受測者“語音面貌”準(zhǔn)確定檔；2.“人+人”模式的兩名測試員是隨機確定的，雙方并不了解彼此的評分習(xí)慣，造成復(fù)評率高。但“人+人”模式的高復(fù)評率并不是壞事，有爭議的語料可以通過復(fù)審再次測評，從而保證了測試成績的準(zhǔn)確、公正?！叭?機”模式中，測試員有可能在長期的測試實踐中與計算機“磨合”，自覺或不自覺地迎合計算機進行評分，從而使看似公平的測試有最終成為計算機“一言堂”的風(fēng)險。

表1 偏差復(fù)審復(fù)評率比對

(二)偏差復(fù)審語料計算機與測試員評分比對

從表2可知，2020年偏差復(fù)審的語料以測試員評分高為主，占94.8%；計算機評分高的僅占5.2%。以往研究者認(rèn)為計算機對前三題的測試存在過于嚴(yán)苛的現(xiàn)象，例如：1.計算機把原本應(yīng)判為“缺陷”的語音判為了“錯誤”；2.對語調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語音現(xiàn)象判斷不準(zhǔn)確；3.對整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確，不能有效評測朗讀的語感。第四題“說話”項，被測者根據(jù)所選的話題自由說話三分鐘。面對不同說話對象，沒有固定模板，語料測評情況更為復(fù)雜，這一現(xiàn)象似乎更為明顯。除上述幾點外，由于計算機評測時對無效語料時間的計算比測試員更為精準(zhǔn)，因而會扣掉更多的分值，加之評測第四題的測試員評分往往是“定性”——整體語音面貌判斷和“定量”——扣分?jǐn)?shù)值相結(jié)合，因此導(dǎo)致計算機評分普遍偏低。

表2 2020第四大題偏差復(fù)審語料“人機”評分比對

(三)偏差復(fù)審語料復(fù)審員與計算機、測試員評分比對

為了使研究數(shù)據(jù)更為客觀，此次研究的第三審測試員均選取未參加過“人+機”模式測試，對計算機評分習(xí)慣不熟悉的測試員。從表3和表4可知：1.計算機、測試員、復(fù)審員三方測試比對，2019年復(fù)審員評分最低，2020年計算機評分最低，初評測試員兩年評分均為最高；2.復(fù)審員與計算機評分2019年至2020年分差值越來越小，與初評測試員分差進一步加大。這一情況是否說明，“人+機”模式說明了瀘州市部分省級測試員業(yè)務(wù)水平有待提高，專業(yè)能力訓(xùn)練需要加強；專業(yè)能力強的復(fù)審員與計算機的評分高度一致，反映出計算機評分的準(zhǔn)確性高，亦或更熟悉計算機的復(fù)審員會自覺或不自覺地為降低與計算機的分差而迎合計算機評分，從而使復(fù)審有失公正。這一統(tǒng)計與此次研究從2019年和2020年所有偏差復(fù)審語料中選出的異常偏差復(fù)審語料50例的情況一致。從表5的統(tǒng)計數(shù)據(jù)可看出，第三審測試員的評分與第一審測試員評分一致率高達70%，而復(fù)審員與計算機評分一致率竟高達90%。即便考慮測試員業(yè)務(wù)水平差異導(dǎo)致的誤差，從統(tǒng)計數(shù)據(jù)的呈現(xiàn)上看，也讓人憂慮偏差復(fù)審這一環(huán)節(jié)，復(fù)審員會自覺或不自覺地迎合計算機的評分規(guī)律評分，從而使復(fù)審失去意義。

表3 2019年偏差復(fù)審語料“人機”評分差比對

表4 2020年偏差復(fù)審語料“人機”評分差比對

表5 異常偏差復(fù)審語料50例“人機”評分差比對

(四)偏差復(fù)審語料等級變化比對

四川省偏差復(fù)審由語言文字工作委員會辦公室組織，選調(diào)其他地市州國測員組織進行。從表6數(shù)據(jù)比對可見，機測第四題以后，復(fù)評等級變化情況不大，整體仍以等級降低占絕對高值，即便在異常偏差復(fù)審50例中也高達42%(見表7)。這一數(shù)據(jù)說明：1.復(fù)審等級降低占絕對高值這一情況在計算機參與第四題測試前后沒有發(fā)生改變；2.異常偏差復(fù)審50例中的語料，雖因各種原因造成評分困難或分差較大，但等級不變的卻能高達58%，這說明計算機對情況復(fù)雜、難于評分的語料定檔還是比較準(zhǔn)確的。此50例語料為2019、2020年共445例偏差復(fù)審語料中精選的有較強語音特征和評分爭議的語料。等級降低的21例中“二乙”降為“三甲”15人，“二甲”降為“二乙”的6人。

表6 2020年與2018年偏差復(fù)審等級變化比對

表7 異常偏差復(fù)審語料50例等級變化情況

(五)異常偏差復(fù)審語料50例分析

1.8號語料

評分情況如下：第一審計算機評分23分、測試員評分29分；復(fù)審評分25分；三審評分28分。語料情況描述:“語音標(biāo)準(zhǔn)程度”定檔四檔，但因考前未做準(zhǔn)備，有效話語時長共五個時段，共34秒左右。此語料計算機與一審測試員分差6分，與復(fù)審員分差2分，與三審測試員分差5分，其原因應(yīng)為：(1)計算缺時的時間差異；(2)評判無效語料的標(biāo)準(zhǔn)。其中計算缺時時長應(yīng)為最主要的原因，計算機顯然比人工更為精確，測試員之間對時間的計算差異較大。這樣的情況同樣出現(xiàn)在4號、38號、40號、44號、47號、48號、49號語料上。依據(jù)《普通話水平測試大綱》(教育部、國家語言文字工作委員會發(fā)教語用〔2003〕2號文件)的評分標(biāo)準(zhǔn)，說話不足3分鐘，酌情扣分：缺時1分鐘以內(nèi)(含1分鐘)，扣1分、2分、3分；缺時1分鐘以上，扣4分、5分、6分；說話不滿30秒(含30秒)本測試項成績計為0分[6]。另在評分時，補充評分標(biāo)準(zhǔn)為：(1)說話時間不足2分鐘的，“語音標(biāo)準(zhǔn)程度”已得分?jǐn)?shù)再降2分；“詞匯語法規(guī)范程度”和“自然流暢程度”至多定為二檔，這兩項各自再扣1分或2分。(2)說話不足1分鐘的，“語音標(biāo)準(zhǔn)程度”已得分?jǐn)?shù)再降4分；“詞匯語法規(guī)范程度”和“自然流暢程度”至多定為三檔，這兩項各自再扣3分或4分。缺時1分鐘以內(nèi)(含1分鐘)按20秒為一個檔次計，缺時1分鐘以上按30秒一個檔次計，時間計算相差幾秒，有可能產(chǎn)生8分至9分，甚至更大的分差。這一標(biāo)準(zhǔn)使測試員在具體實施時很難操作。測試員之間差異大，計算機與測試員之間差異更大。隨著評分方式的變化，為了考試的公平公正，國家相關(guān)部門應(yīng)重新出臺更適合目前測試方式的評分細(xì)則，減少計算機與測試員之間對“缺時”的差異，使評分更為客觀公正。

2.44號、19號、21號語料

評分情況如下：第一審計算機評分29分、測試員評分33分；復(fù)審評分30分；三審評分33.5分。語料情況描述:“語音標(biāo)準(zhǔn)程度”定檔四檔，“詞匯語法規(guī)范”和“缺時”兩項容易判斷，分差應(yīng)出現(xiàn)在“自然流暢度”上。由于準(zhǔn)備不充分，談話者在1∶15—2∶40區(qū)間，每一兩句出現(xiàn)2～3秒的停頓多次，2∶40—2∶48出現(xiàn)8秒停頓一次。另有兩例為19和21號，將這兩例語料由兩名省測員進行了第四次測試并由幾名測試員進行了討論，較為認(rèn)可的等級均為“二乙”，與初測等級相同。經(jīng)討論認(rèn)為這兩例語料的共同特點為：(1)整體語音面貌和語音標(biāo)準(zhǔn)程度尚可定為四檔；(2)由于受測者在說話初始階段，因緊張等因素，自然流暢度受到影響，但隨著自我調(diào)整慢慢恢復(fù)到正常狀態(tài)。其中21號語料此特點最為明顯。三次評分均為計算機最低，復(fù)審員其次，第三測最高。其中初評與第三次測試的測試員評分分差低于1分，而與計算機分差為3～4分，和復(fù)審員分差2～3分。這一現(xiàn)象說明計算機的評分過于死板，忽略了人在情緒變化時語言流暢度正常的變化，而一般的測試員對這一現(xiàn)象有更包容的態(tài)度。

停頓是一種自然的言語現(xiàn)象，停頓的頻次和長短常常被用作言語流暢與非流暢的量化標(biāo)準(zhǔn)。關(guān)于停頓的頻次和時長，國內(nèi)外語言學(xué)者都做了許多的研究，但在自然狀態(tài)下的言語過程中，影響停頓的因素很多，例如年齡、性別、習(xí)慣、情緒等，因此并未有公認(rèn)的較為客觀的界定流暢與非流暢的明確標(biāo)準(zhǔn)。這使計算機和測試員在判斷“自然流暢”“基本流暢”“語言不連貫”上很難統(tǒng)一。由于沒有數(shù)據(jù)，無法知道計算機是怎樣給一段3分鐘話語的流暢度進行評分的，加之《普通話水平測試大綱》上并沒有明確的頻次和長短的參考數(shù)值，測試員基本上是依據(jù)自己的專業(yè)和生活經(jīng)驗來進行評分。從評分的情況對比來看，測試員的“人腦”似乎比“電腦”在評分標(biāo)準(zhǔn)上更具靈活性和包容度，能依據(jù)說話人的年齡、語言習(xí)慣、情緒等作出判斷，因此普遍評分偏高。除了以上3例語料，在這50例語料中，還有多個語料亦是這種情況。

3.32號、40號語料

評分情況如下：第一審計算機評分30分、測試員33.5分；復(fù)審評分30分；三審評分34.8分。語料情況描述:語音面貌定檔三檔(扣4分)或四檔(扣5分)，此語料在“詞匯語法規(guī)范”“自然流暢度”和“缺時”上無爭議。評分差應(yīng)為錄音效果不好(話筒距離受測者太近或錄音設(shè)備故障)導(dǎo)致對“語音標(biāo)準(zhǔn)程度”的扣分。40號語料也是這種情況。40號評分情況如下：第一審計算機評分30分、測試員33.5分；復(fù)審評分31分；三審評分34分。為此，筆者組織了兩名測試員第四次測試和討論。結(jié)果為：32號和40號語料排除掉錄音效果干擾，單從整體語音面貌印象來判斷，32號為二乙高段，40號為二乙中段。有研究認(rèn)為，“人腦”可以自動“修復(fù)”因外界因素導(dǎo)致的語音信息不全，排除干擾，從而獲得更多的信息。而這也是導(dǎo)致計算機和測試員面對此類語料分差大的原因。如果上述兩則語料不是受測者自身操作不當(dāng)，那么提高計算機的語音識別能力，縮小與“人腦”的差距，會讓考試更為公正。

(六)測試員問卷調(diào)查情況

本次研究，采用了問卷調(diào)查法，對參與初審的測試員進行了測試感受的問卷調(diào)查。此次問卷共7個問題，共20名瀘州市語言文字工作委員會測試員參與，有效問卷14份，調(diào)查結(jié)果如下：

問卷問題分別為：1.測試的過程中，你是否有不自覺地根據(jù)電腦的評分特征評分的行為？2.測試的過程中，你是否會為減少偏差分?jǐn)?shù)，根據(jù)電腦的評分特征迎合電腦評分？3.你認(rèn)為機測與人測分?jǐn)?shù)偏差最大的是哪項？4.你認(rèn)為機測與人測分?jǐn)?shù)偏差最小的是哪項？5.你認(rèn)為機測與人測的分?jǐn)?shù)偏差是否能接受？6.你認(rèn)為電腦測試的最終結(jié)果是否可信？7.你認(rèn)為電腦會不會最終完全取代測試員？

從問卷調(diào)查的結(jié)果，可以分析出以下信息：1.測試員有可能在長期的測試實踐中與計算機“磨合”，自覺或不自覺地迎合計算機進行評分，從而使看似公平的測試有最終成為計算機“一言堂”的風(fēng)險。2.從測試員主觀感受來看，“詞匯、語法規(guī)范程度”評分結(jié)果偏差最小，“無效話語界定”評分結(jié)果偏差最大。3.大部分測試員認(rèn)為機測與人測的分?jǐn)?shù)偏差是能接受的，并認(rèn)為電腦測試的最終結(jié)果基本可信。4.大部分測試員認(rèn)為電腦不會完全取代測試員，認(rèn)為普通話水平測試是仍需要測試員參與的。

四、結(jié)論

從本次研究數(shù)據(jù)分析的結(jié)果，可以得出如下的結(jié)論：普通話水平測試機評第四題“命題說話”測試成績基本可信，大部分測試工作者對“人+機”測試模式及測試結(jié)果是認(rèn)可的。但第四題“命題說話”測試目的，是測查應(yīng)試人在無文字憑借的情況下，使用普通話進行言語表達和交際的能力。不僅要測試語音標(biāo)準(zhǔn)程度，還要測試詞匯語法規(guī)范程度，更要測試其使用普通話時的說話語感、自然流暢度。因此“人+機”模式仍有如下問題需要解決：1.測試員、復(fù)審員在長期的測試實踐中與計算機“磨合”，自覺或不自覺地迎合計算機進行評分，從而使看似公平的測試有最終成為計算機“一言堂”的風(fēng)險。2.計算機、測試員、復(fù)審員三方測試比對，計算機評分最低，最為嚴(yán)格，而這種嚴(yán)格與第四題測試目的不符，顯得過于“嚴(yán)苛”。之前有研究者提出計算機在前三題的測試中存在以下問題：“語音標(biāo)準(zhǔn)程度”的評測，“正誤”辨識度高，“缺陷”辨識不準(zhǔn)確；評測時“字化”現(xiàn)象明顯，對整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確；對語調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語音現(xiàn)象不能準(zhǔn)確地處理判斷。這些問題最終使計算機評分普遍低于測試員，從而造成了“嚴(yán)苛”這一現(xiàn)象。由于此次研究時間偏短，數(shù)據(jù)不夠充分，未能作進一步探討，但從已知的數(shù)據(jù)看，計算機在“自然流暢程度”和“缺時”的評分上與測試員有較大分歧，且評分較低。3.計算機對錄音效果要求高，錄音語料出現(xiàn)意外干擾會嚴(yán)重影響評分的準(zhǔn)確性。

通過此次研究，筆者對今后普通話測試工作有如下建議：1.普通話測試應(yīng)緊跟科技發(fā)展的步伐，不斷完善測試系統(tǒng)平臺的各項工作，進一步解決計算機語音識別系統(tǒng)存在的技術(shù)性問題；采集更多的語料數(shù)據(jù)，完善數(shù)據(jù)庫；完善系統(tǒng)管理功能；緊跟時代特征，完善測試題庫建設(shè)。2.建立協(xié)調(diào)互補的多維度評分體系和測試管理體系。如：評分差異最大的“無效話語界定”可否將評分細(xì)則進一步細(xì)化，以減少評分偏差；“缺時”扣分計算機比測試員更精準(zhǔn)，這項評分是否可由計算機獨立完成，測試員不再參與；“自然流暢度”評分，由于測試員在評分標(biāo)準(zhǔn)把握上更具靈活性和包容度，能依據(jù)說話人的年齡、語言習(xí)慣、情緒等作出判斷，更符合第四題的測試目的，能否由測試員獨立評分或測試員評分權(quán)重更大；3.應(yīng)處理好計算機與測試員之間的協(xié)作關(guān)系。隨著計算機技術(shù)的不斷發(fā)展，計算機將更多地參與到國家各級各類考評測試中，處理好“人機”關(guān)系是不得不思考的問題?！叭藱C”誰為“主導(dǎo)”，誰為“輔助”？揚長避短，充分發(fā)揮“人”與“機”各自的優(yōu)勢，才能使測試更加客觀、公正。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡