国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能口語雙機(jī)評測模式在外語聽說機(jī)考評卷中的可行性研究

2023-12-12 06:43沈晨羅雙虎
考試研究 2023年3期
關(guān)鍵詞:中考

沈晨 羅雙虎

[摘要]基于現(xiàn)有英語聽說考試人機(jī)互評的評卷模式,探索雙機(jī)評測模式可行性,使用上海市初中外語聽說測試全真模擬數(shù)據(jù)試驗(yàn),對比3種獨(dú)立計(jì)算機(jī)智能評分算法的效果。結(jié)果顯示,機(jī)評分與報(bào)道分一致性達(dá)到96%以上,具備良好的效果,但存在1659份樣本雙機(jī)評后仍誤判的效果風(fēng)險(xiǎn),綜合考慮雙機(jī)評測模式的評卷組織、機(jī)評評價(jià)機(jī)制仍不完備,暫不具備可行性,需要進(jìn)一步的算法提升和應(yīng)用方法研究;算力改變對比驗(yàn)證結(jié)果表明,評分準(zhǔn)確性幾乎不下降的情況下,采用GPU算力結(jié)構(gòu)的評分算法的運(yùn)算速度相當(dāng)于CPU算力結(jié)構(gòu)的6倍,這可以使得評分時(shí)間和硬件投入大幅度減少。

[關(guān)鍵詞]中考;外語聽說測試;計(jì)算機(jī)智能評分

[中圖分類號]G424.74[文獻(xiàn)標(biāo)識碼]A

[文章編號]1673—1654(2023)03—075—016

一、研究背景

習(xí)近平總書記在2018年底的中央經(jīng)濟(jì)工作會議上首次明確提出“加快5G商用步伐、加強(qiáng)人工智能、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新型基礎(chǔ)設(shè)施建設(shè)”[1]。2019年2月,中共中央、國務(wù)院印發(fā)《中國教育現(xiàn)代化2035》,明確提出“大力推進(jìn)教育理念、體系、制度、內(nèi)容、方法、治理現(xiàn)代化,著力提高教育質(zhì)量,促進(jìn)教育公平,優(yōu)化教育結(jié)構(gòu)”[2]。在教育考試領(lǐng)域,現(xiàn)代化人工智能技術(shù)已在普通中高考、大學(xué)英語四六級等高利害考試評卷方面形成規(guī)模化、標(biāo)準(zhǔn)化應(yīng)用,一方面,通過“人機(jī)雙評”模式有效降低教師評卷工作量,保障評卷公平;另一方面,通過“智能評分質(zhì)檢”對教師評卷進(jìn)行校準(zhǔn)和質(zhì)檢檢測,保障評卷質(zhì)量。

隨著人工智能技術(shù)的發(fā)展[3],計(jì)算機(jī)智能評分技術(shù)(以下簡稱機(jī)器評分)日趨成熟[4]。上海市教育考試院從2017年新高考改革第一年開始,在高考外語聽說測試中采用機(jī)器評分技術(shù),使用“人一評、機(jī)一評”的人機(jī)雙評模式進(jìn)行,避免了大規(guī)模抽調(diào)教師評分帶來的一系列復(fù)雜的調(diào)度事宜,節(jié)省了大量人力,同時(shí)也避免了多人評卷帶來的標(biāo)準(zhǔn)難以統(tǒng)一等問題。

目前機(jī)器評分在上海高考外語聽說測試評卷中已經(jīng)穩(wěn)定應(yīng)用了10次,在歷次效果驗(yàn)證集上,機(jī)器評分效果已達(dá)到或超過人工評卷水平。基于高考外語聽說測試機(jī)器評分的經(jīng)驗(yàn),在2021年上海新中考改革第一年首次開考的初中外語聽說測試中也使用了同樣的技術(shù)。實(shí)行計(jì)算機(jī)考試,使用人機(jī)雙評模式保障評卷質(zhì)量。目前此項(xiàng)考試不包含聽力,既有的聽說部分,總分值為10分,由四個題塊構(gòu)成,分別為朗讀、交際應(yīng)答、復(fù)述、表達(dá)。從2015年以來上海市小學(xué)入學(xué)人口統(tǒng)計(jì)來看,預(yù)計(jì)2029年參加中考人數(shù)近19萬,相較2018年的約10萬增長90%,考生語音的人工評卷組織成本仍然較高。因此,本研究嘗試探索雙機(jī)評模式替代人機(jī)互評模式的可行性。

二、智能測評技術(shù)在語音評卷中的應(yīng)用

(一)口語智能評測基本原理及方法

口語智能評測是指使用計(jì)算機(jī)對口語能力進(jìn)行自動評分。依據(jù)對口語能力維度的劃分,口語智能評測包括發(fā)音評分和自然口語評分兩類評分任務(wù),前者以限定文本的詞、句、篇朗讀為測試任務(wù),后者以非限定文本的情景應(yīng)答、口頭復(fù)述、看圖說話、觀點(diǎn)陳述等為測試任務(wù)。

口語智能評測從20世紀(jì)90年代開始得到廣泛研究,發(fā)展迅速。目前,主流的口語智能評測方法分為兩種:基于人工特征的評分方法[5]和基于深度學(xué)習(xí)的端到端評分方法[6]?;谌斯ぬ卣鞯脑u分方法利用語音和語言處理淺層分析的結(jié)果構(gòu)建特征(如音素發(fā)音錯誤率、語速、停頓頻率、詞匯多樣性等),將評分任務(wù)作為回歸任務(wù),從而對口語作答進(jìn)行評分。該方法應(yīng)用廣泛,具備高度的可解釋性,但由于人工特征與人工評分考察的維度和深度相距較遠(yuǎn),如難以抽取內(nèi)容語義特征,并不能完全適用于對評分準(zhǔn)確性有高要求的大規(guī)模口語考試評測。近年來,基于深度學(xué)習(xí)的端到端評分方法開始應(yīng)用于口語智能評測。該方法首先通過神經(jīng)網(wǎng)絡(luò)將口語作答的語音和文本形式的識別結(jié)果抽象地表示為分布式向量,然后再學(xué)習(xí)分布式向量與分?jǐn)?shù)之間的關(guān)系。近來一些研究成果顯示此類方法可以取得優(yōu)于基于人工特征評分方法的效果,但存在可解釋性較差、對標(biāo)注數(shù)據(jù)依賴性強(qiáng)的問題。

1.算法選取

為論證雙機(jī)評模式的可行性,本文采用當(dāng)前已大規(guī)模應(yīng)用的三套獨(dú)立的口語智能評測算法,在相同的有專家評分的定標(biāo)集上進(jìn)行定標(biāo)學(xué)習(xí),并經(jīng)過驗(yàn)證集的核驗(yàn)后對相同的全集數(shù)據(jù)進(jìn)行評分。評分結(jié)束后,將機(jī)器評分與報(bào)道分進(jìn)行對比分析。最終通過分析實(shí)驗(yàn)數(shù)據(jù),探究多機(jī)器評分并行代替人工雙評的可行性。

(1)算法I基本原理(如圖1):算法I分為朗讀類題型評測和表達(dá)類題型評測,采用非端到端方案和端到端方案相融合的方法,最大程度上利用兩者的優(yōu)勢,保障評分準(zhǔn)確性。在非端到端方案中,對于詞組和句子朗讀題型,基于語音識別結(jié)果,對考生朗讀進(jìn)行漏讀、增讀、重復(fù)、不當(dāng)停頓檢測,獲得完成度、流暢度維度的評分特征;通過發(fā)音檢錯技術(shù),對考生朗讀內(nèi)容進(jìn)行音素級發(fā)音準(zhǔn)確度評分特征提取。對于交際問答、復(fù)述和表達(dá)題型,基于語音識別結(jié)果,通過語義匹配技術(shù)計(jì)算與參考答案的相似度,以獲得信息完整度和正確度相關(guān)評分特征;通過語法檢錯技術(shù)提取詞匯及語法正確度評分特征;發(fā)音和流暢度則采用與朗讀題型一樣的評分特征。在端到端方案中,對于詞組和句子朗讀題型,端到端模型接受朗讀語音和朗讀文本作為輸入,直接預(yù)測專家分。對于交際問答、復(fù)述和表達(dá)題型,端到端模型接受考生語音和識別結(jié)果,直接預(yù)測專家分。在非端到端方案中,語音識別、發(fā)音檢錯、內(nèi)容及語義表征是核心。為提升最終的評分效果,算法I采用基于注意力機(jī)制的端到端語音識別系統(tǒng),識別性能顯著超過傳統(tǒng)的混合識別系統(tǒng),極大地提升了評分準(zhǔn)確率,特別是交際問答這類短語音題型。為提升發(fā)音分析的準(zhǔn)確度和區(qū)分性,算法I開發(fā)了基于端到端框架的音素發(fā)音檢錯模型,檢錯效果顯著優(yōu)于傳統(tǒng)的基于GOP(Goodness of Pronunciation,計(jì)算機(jī)實(shí)現(xiàn)英語發(fā)音評價(jià)的一種算法)[7]的檢錯模型。在內(nèi)容和語義表示方面,除了計(jì)算學(xué)生回答與參考答案詞級的淺層相似度之外,算法I還融合了基于LSTM(Long Short Term Memory Network,長短期記憶人工神經(jīng)網(wǎng)絡(luò))[8]、BERT(Bidirectional Encoder Representations from Transformer,來自變換器的雙向編碼器表征量)[9]等預(yù)訓(xùn)練語言模型的句子和段落級的矢量化方法,獲得了更好的穩(wěn)定性和準(zhǔn)確性。

(2)算法II與算法III基本原理(如圖2):首先將原始語音信號輸入到模型中,對原始信號按照10ms的窗口進(jìn)行采樣,在加快速度的同時(shí),減少了信息的損失。將采樣后的信號輸入到卷積神經(jīng)網(wǎng)絡(luò)[10],用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取語音的局部不變性特征。經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)得到的特征序列經(jīng)過線性變換層,特征序列得到進(jìn)一步映射。經(jīng)過映射后的特征序列,被輸入到多層循環(huán)迭代神經(jīng)網(wǎng)絡(luò),提取完整的音頻上下文信息。同時(shí),該特征序列輸入到多層卷積網(wǎng)絡(luò),進(jìn)一步捕獲局部不變形特征。將全局上下文信息與局部上下文信息進(jìn)行拼接,得到最終的特征向量。該特征向量經(jīng)過深度神經(jīng)網(wǎng)絡(luò),進(jìn)行高維空間映射到一維。將一維分?jǐn)?shù)經(jīng)過sigmoid激活函數(shù)進(jìn)行分?jǐn)?shù)非線性變換,獲得最終的評分。

算法II與算法III的不同之處在于,兩類算法在語音識別準(zhǔn)確性和內(nèi)容特征矢量化方面均有所區(qū)別。在語音識別方面,以LSTM神經(jīng)網(wǎng)絡(luò)為聲學(xué)模型,識別率已經(jīng)達(dá)到90%以上,分別經(jīng)過改寫和參數(shù)調(diào)整后,兩者差別不大。在內(nèi)容矢量表示方面,基于 Word2vec[11]、LSTM、CNN(ConvolutionalNeural Network,卷積神經(jīng)網(wǎng)絡(luò))、Decoder-Encoder(解碼器和編碼器)[12]、RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))的內(nèi)容表示分別部分融合使用,呈現(xiàn)出不同的結(jié)果,以進(jìn)行研究和分析。

2.實(shí)驗(yàn)流程規(guī)劃

如表1所示,整體實(shí)驗(yàn)流程規(guī)劃確定了9個工作步驟,前7個工作步驟讓機(jī)器能真正學(xué)會理解評判的方法。

(二)設(shè)計(jì)思路

1.訓(xùn)練評分方案

機(jī)器評分根據(jù)每個題型的特點(diǎn)選擇合適的特征,參考定標(biāo)集人工評分的標(biāo)準(zhǔn)進(jìn)行學(xué)習(xí),然后用各個題型學(xué)習(xí)到的評分標(biāo)準(zhǔn)對全集數(shù)據(jù)進(jìn)行評分。這樣就可以得到每個考生的小題機(jī)器分,然后按照各題的教師評卷規(guī)整方式(即教師評閱各題的最小顆粒度)進(jìn)行規(guī)整,得到最終各個題型的機(jī)器分(見表2)。

2.對比分析方案

本次實(shí)驗(yàn)對比,基于上海市2021年度首次開考的初中外語聽說測試的全真模擬全部數(shù)據(jù)進(jìn)行對比分析,以當(dāng)次考試發(fā)布的報(bào)道分作為標(biāo)準(zhǔn),三套算法基于同樣的定標(biāo)集專家評分進(jìn)行訓(xùn)練出分,即算法 I、算法II、算法III的機(jī)評分,通過對比算法I、算法II、算法III與報(bào)道分的一致性,在確保機(jī)評分效果達(dá)到評卷要求的前提下,挑選最優(yōu)效果算法作為機(jī)評主評,第二優(yōu)效果算法作為機(jī)評副評,以報(bào)道分作為標(biāo)準(zhǔn),探索雙機(jī)評模式的可行性,并同步驗(yàn)證基于CPU(計(jì)算機(jī)中央處理器)運(yùn)算的機(jī)評方案升級到基于GPU(高性能計(jì)算、深度學(xué)習(xí)訓(xùn)練和推理的計(jì)算機(jī)處理器)運(yùn)算的機(jī)評方案,所帶來的評分效果影響及效率提升情況。

實(shí)驗(yàn)對比過程中涉及多個概念:報(bào)道分、機(jī)評分、專家仲裁等:

(1)報(bào)道分:外語聽說測試經(jīng)過雙評+仲裁模式后,形成的對外發(fā)布的最終報(bào)道分,計(jì)算方式是:雙評分在分差閾值范圍內(nèi)的采信雙評均分,超過分差閾值的交由專家仲裁,采信仲裁分。

(2)專家仲裁:經(jīng)過雙評后,雙評分差超過分差閾值,由評卷組提交評卷專家進(jìn)行人工仲裁。

(3)算法I:算法I的機(jī)評分。

(4)算法II:算法II的機(jī)評分。

(5)算法III:算法III的機(jī)評分。

3.評價(jià)指標(biāo)定義

本次實(shí)驗(yàn)中所需用到的評價(jià)指標(biāo)定義如下:

(1)得分率

得分率為考生成績的平均分與滿分的比值換算成的百分?jǐn)?shù)。它反映試題的難易程度,得分率越高說明題目越簡單,反之則越難。

(2)標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反映一個數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù),標(biāo)準(zhǔn)差未必相同。

(3)相關(guān)度

相關(guān)度的取值范圍介于-1~1之間,越接近1表示兩組評分的排序關(guān)系越接近。

(4)一致率

假設(shè)評分設(shè)定的仲裁閾值是m分,將一組評分與報(bào)道分之間誤差絕對值小于等于m分的數(shù)據(jù)占總評分?jǐn)?shù)量的比例稱為一致率。一致率反映了在允許誤差范圍內(nèi)評分的準(zhǔn)確性,取值范圍介于0~1之間,越接近1越好。

(三)實(shí)驗(yàn)結(jié)果分析

1.實(shí)驗(yàn)數(shù)據(jù)集說明

本實(shí)驗(yàn)中的數(shù)據(jù)為初中外語聽說測試全真模擬數(shù)據(jù),所用的數(shù)據(jù)集包含定標(biāo)集與驗(yàn)證集,定標(biāo)集是機(jī)器用于學(xué)習(xí)評分標(biāo)準(zhǔn)的數(shù)據(jù)集合,驗(yàn)證集是用于檢驗(yàn)機(jī)器評分性能的數(shù)據(jù)集合,機(jī)評全集是計(jì)算機(jī)能夠正常評卷的數(shù)據(jù)集合。由于本實(shí)驗(yàn)已有全集報(bào)道分,故使用機(jī)評全集數(shù)據(jù)進(jìn)行比對分析。表3列出了本次驗(yàn)證各題的定標(biāo)集和驗(yàn)證集數(shù)量、全集數(shù)量、滿分以及仲裁閾值。仲裁閾值是根據(jù)專家組給定的雙評大分差上限,超過閾值則表示兩個評分之間誤差過大,兩評均不可信,會交由仲裁專家進(jìn)行仲裁。

2.算法I、II、III與報(bào)道分的效果對比分析

在機(jī)評全集的88322份樣本上,以報(bào)道分為標(biāo)準(zhǔn),分別對算法I、算法II、算法III的機(jī)器評分效果進(jìn)行對比分析。T1【朗讀】、T2【交際應(yīng)答】、T3【復(fù)述】、T4【表達(dá)】4類題型依據(jù)相關(guān)度、一致率指標(biāo)對機(jī)器評分效果進(jìn)行對比分析的結(jié)果如表4~8所示。

分析表4~8可以發(fā)現(xiàn):

(1)從相關(guān)度、完全一致率、≤0.25分一致率和≤0.5分(滿分2.5分)一致率上看,T1【朗讀】、T2【交際問答】、T3【復(fù)述】、T4【表達(dá)】4類題型機(jī)器評分效果最優(yōu)的均是算法I,T1【朗讀】、T2【交際應(yīng)答】、T3【復(fù)述】題型效果排第二的是算法II,T4【表達(dá)】是算法III。

(2)從≤0.25分一致率指標(biāo)來看,在T1【朗讀】題型,效果最優(yōu)與第二的一致率差異為2.45%,且一致率均超過95%,效果較好;在T2【交際應(yīng)答】、T3【復(fù)述】、T4【表達(dá)】題型,效果最優(yōu)與第二差異為4.81%~ 10%不等,算法II、算法III在這些題型仍需持續(xù)優(yōu)化效果。

3.雙機(jī)評可行性分析

依據(jù)算法I、算法II、算法III與報(bào)道分對比分析結(jié)果,擬采用效果最優(yōu)的算法I作為機(jī)評主評(以下簡稱評1)、效果相對較優(yōu)的算法II作為機(jī)評副評(以下簡稱評2),探索雙機(jī)評模式的可行性;雙機(jī)評模式下,評1與評2的分?jǐn)?shù)在分差閾值范圍內(nèi),采信機(jī)器評分,取評1和評2的均分作為最終分;分?jǐn)?shù)在分差閾值以外的,由評卷組安排專家仲裁,仲裁分作為最終分。

對T1【朗讀】、T2【交際應(yīng)答】、T3【復(fù)述】、T4【表達(dá)】4類題型,評1和評2的分?jǐn)?shù)進(jìn)行對比如表9、表10所示,共計(jì)僅有2758份樣本需專家仲裁,教師評卷工作量顯著降低。

針對需專家仲裁樣本集,即評1與評2不一致(分差>0.5分),評卷組需按照專家進(jìn)行仲裁評分,仲裁分作為最終分進(jìn)行發(fā)布,該數(shù)據(jù)集上不存在效果風(fēng)險(xiǎn)。

在采信機(jī)器評分樣本集上,即評1與評2一致(分差≤0.5分)的樣本集上,取評1和評2的平均分(以下簡稱“均分”)與報(bào)道分進(jìn)行對比分析,如表11、表12所示。從4個題型均分與報(bào)道分分差分布指標(biāo)來看,存在1659份樣本均分與報(bào)道分相差超過0.5分,會造成評分偏誤;針對上述大分差樣本進(jìn)行深度分析,對集合上報(bào)道分的評分分布進(jìn)行統(tǒng)計(jì)如表13所示,無有效途徑對效果風(fēng)險(xiǎn)進(jìn)行檢出。另外,從≤0.25分一致率指標(biāo)來看,T3【復(fù)述】、T4【表達(dá)】題型上報(bào)道分與均分一致率較低。

綜上所述,針對英語聽說測試場景的雙機(jī)評方案,從評卷組織上能夠極大地降低教師評卷工作量;但從評卷質(zhì)量保障上,存在1659份樣本雙機(jī)評后與報(bào)道分產(chǎn)生大分差的效果風(fēng)險(xiǎn),暫不具備可行性,仍需智能評分技術(shù)的持續(xù)進(jìn)步以及評卷組織流程上針對性的完善,才能更好地推進(jìn)方案執(zhí)行落地。

4. GPU方案驗(yàn)證分析

本次實(shí)驗(yàn),針對算法I,同步對機(jī)評全集數(shù)據(jù)進(jìn)行CPU方案和GPU方案的對比分析論證。保證在相同的數(shù)據(jù)基礎(chǔ)上進(jìn)行CPU與GPU不同版本的評分,針對這兩種評分方式的結(jié)果從時(shí)間效率、評分效果上進(jìn)行了對比分析,其結(jié)果如下:

(1)時(shí)間效率對比:GPU評分效率遠(yuǎn)遠(yuǎn)優(yōu)于CPU評分效率,一臺雙GPU顯卡服務(wù)器的運(yùn)行效率相對于一臺CPU服務(wù)器的效率提升6倍。

本次考試參與口語評分的人數(shù)約8.8萬,在中考評測過程中使用了11臺CPU服務(wù)器,同步使用2臺GPU服務(wù)器進(jìn)行驗(yàn)證。為了直觀地呈現(xiàn)CPU服務(wù)器與GPU服務(wù)器在口語評分中的時(shí)間性能差異,對本次評分中涉及的主要時(shí)間進(jìn)行了統(tǒng)計(jì),如表14所示。

考慮到后期上海中考人數(shù)可能增加的情況,對服務(wù)器數(shù)量使用進(jìn)行了估算。根據(jù)本次口語評分時(shí)間效率的統(tǒng)計(jì),若保證目前的評分周期不變,對10萬名考生進(jìn)行評分,所需要的CPU與GPU服務(wù)器配置和數(shù)量如表15、表16所示。

(2)評分效果對比:基于得分率、標(biāo)準(zhǔn)差、相關(guān)度、一致率等指標(biāo)對兩次評分進(jìn)行對比,證實(shí)GPU評分效果略低于CPU的評分效果。

表17分別基于得分率、標(biāo)準(zhǔn)差等指標(biāo)對各題型得分與總分進(jìn)行對比??梢钥闯觯篏PU分與報(bào)道分之間的得分率最大差異為0.03、標(biāo)準(zhǔn)差最大差異為0.06,效果基本相當(dāng);GPU分與CPU分得分率最大差異是0.01、標(biāo)準(zhǔn)差最大差異為0.05,基本一致。

基于相關(guān)度、一致率(閾值范圍內(nèi))指標(biāo)對驗(yàn)證集上每個題型得分與總分進(jìn)行對比,結(jié)果如表18所示:總分上,GPU分與報(bào)道分的相關(guān)度、一致率高于人一評和人二評之間的統(tǒng)計(jì)結(jié)果,而與CPU分和報(bào)道分的統(tǒng)計(jì)結(jié)果基本相當(dāng);復(fù)述題、表達(dá)題上,GPU分與報(bào)道分的相關(guān)度、一致率明顯高于人一評和人二評之間的統(tǒng)計(jì)結(jié)果,略低于CPU分和報(bào)道分;朗讀、交際應(yīng)答上,GPU分與報(bào)道分的一致率略低于人一評和人二評,CPU分與報(bào)道分的相關(guān)度、一致率與人一評和人二評相當(dāng)。

綜上,基于本次實(shí)驗(yàn)結(jié)果分析,可以得出結(jié)論:

第一,GPU在評分效率上有明顯優(yōu)勢,基于目前提供的評分設(shè)備,1臺搭載NVIDIA T4雙GPU卡服務(wù)器的性能相當(dāng)于6臺搭載Intel Xeon 20核40線程CPU服務(wù)器。

第二,GPU評分效果在復(fù)述、表達(dá)題上與CPU評分效果相當(dāng),在朗讀、交際問答題上還有差距,有待進(jìn)一步改進(jìn)。

三、實(shí)驗(yàn)總結(jié)及展望

人工智能是引領(lǐng)未來的新興戰(zhàn)略性技術(shù),是驅(qū)動新一輪科技革命和產(chǎn)業(yè)變革的重要力量。習(xí)近平總書記多次作出重要指示,強(qiáng)調(diào)“要深入把握新一代人工智能發(fā)展的特點(diǎn),加強(qiáng)人工智能和產(chǎn)業(yè)發(fā)展融合,為高質(zhì)量發(fā)展提供新動能”。

此次針對上海市2021年度首次開考的初中外語聽說測試的全真模擬數(shù)據(jù)進(jìn)行的計(jì)算機(jī)智能評分,是一次突破性的創(chuàng)新和實(shí)驗(yàn),更是一次智能閱卷替代人工閱卷的有益嘗試。其在評分過程中呈現(xiàn)的智能程度、算法的先進(jìn)性、結(jié)果的準(zhǔn)確性和極高的效率等,都代表著未來專業(yè)化考試機(jī)構(gòu)人工智能的應(yīng)用方向,也為今后計(jì)算機(jī)智能評卷從后臺走向前臺,由離線方式變?yōu)閷?shí)時(shí)、動態(tài)應(yīng)用方式奠定了良好的基礎(chǔ)。

(一)智能測評技術(shù)應(yīng)用評分準(zhǔn)確性

計(jì)算機(jī)智能評分已經(jīng)形成了一套完善的“端到端”的識別處理方案。在語音識別方面,深度卷積神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫模型結(jié)合的(CNN-HMM)模型,構(gòu)建一個狀態(tài)網(wǎng)絡(luò)并從中尋找與聲音最匹配的路徑,能夠準(zhǔn)確進(jìn)行語音識別。在英文識別方面,主要采用深度遞歸網(wǎng)絡(luò)識別算法(RNN),該算法已經(jīng)成熟并廣泛應(yīng)用于拉丁語系文字的識別中,且已被證明具有良好的識別效果。本次計(jì)算機(jī)智能評分中,對語音的識別率均已經(jīng)達(dá)到了97%以上,能夠滿足自動評卷的要求。從最終人機(jī)對比結(jié)果可以看出,計(jì)算機(jī)智能評分與報(bào)道分的一致率達(dá)到了97%。另外,由于評卷教師在長時(shí)間、高強(qiáng)度的評分過程中,極易身心疲憊,一定程度上會影響評卷教師對評分尺度的把握和評分一致性的把控,甚至出現(xiàn)打保險(xiǎn)分的現(xiàn)象,而計(jì)算機(jī)智能評分不會受到情緒、身心狀態(tài)、個人喜好等主觀因素的影響,能夠始終采用統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行評測,從而很大程度上保證了評分的客觀公正性。

1.算力效果提升評分效率

隨著上海初中考生人數(shù)的增加,在評分周期不變情況下如何減少智能評卷對硬件的要求顯得十分重要,使用GPU機(jī)評方案提升機(jī)評效率勢在必行。

從本次GPU機(jī)評驗(yàn)證的結(jié)果看,在得分率、標(biāo)準(zhǔn)差、評分分布等基礎(chǔ)指標(biāo)上,GPU機(jī)評分已經(jīng)接近或達(dá)到人工評分水平,但整體效果略低于CPU評分,需要后期進(jìn)一步的優(yōu)化改進(jìn)??赡艿脑蛟谟冢旱谝淮螌τ谛驴荚嚨男骂}型進(jìn)行機(jī)評,還需不斷地訓(xùn)練,在避免過度擬合的情況下進(jìn)行迭代。后期計(jì)劃對GPU評分策略做進(jìn)一步改進(jìn),需經(jīng)過多輪驗(yàn)證,確保GPU評分達(dá)到與CPU一致的水平,才能最終使用GPU評分取代CPU評分。

2.三類獨(dú)立算法的改進(jìn)方向

智能測評技術(shù)在語音評卷中還需不斷改進(jìn)和優(yōu)化,本文三類獨(dú)立算法在內(nèi)容維度的評分特征均無法自主直接提取,目前業(yè)內(nèi)其他各類智能測評的應(yīng)用中,對于語音也無法全覆蓋地進(jìn)行答案枚舉。存在的問題就是沒有標(biāo)準(zhǔn)答案,答案不可窮舉,機(jī)器不知道什么樣的作答是高分、中分和低分。雖然有人工定標(biāo)訓(xùn)練,靠人工提取定標(biāo)得分特征,通過選取的包含高、中、低水平的數(shù)據(jù),進(jìn)行人工打分,機(jī)器依據(jù)人工打分學(xué)習(xí)高低分的回答模式三種途徑,但由于訓(xùn)練集和驗(yàn)證集均是機(jī)器選取的,選取的合理性、科學(xué)性、代表性還有待進(jìn)一步研究??梢?,智能測評技術(shù)通用性的研究還需持續(xù)進(jìn)行,本次實(shí)驗(yàn)中使用的算法還需不斷迭代,在防止過度擬合的前提下保證機(jī)器評閱得更加精準(zhǔn),但從實(shí)際使用的角度也只能保證機(jī)器在某一項(xiàng)考試或者某一種類別(即語音且是英語的作答)中進(jìn)行評判,真正的廣泛性還需商榷。

(二)對未來考試評卷智能化應(yīng)用的展望

近年來計(jì)算機(jī)智能評卷技術(shù)在大規(guī)模紙筆考試和計(jì)算機(jī)考試中的應(yīng)用,已經(jīng)驗(yàn)證了智能評測技術(shù)的實(shí)用性和可靠性。當(dāng)前針對外語聽說測試場景,使用人機(jī)互評+專家仲裁的評卷模式,已經(jīng)能夠高效率、高質(zhì)量地保障評卷工作;但是,使用雙機(jī)評模式,經(jīng)過本輪實(shí)驗(yàn)驗(yàn)證,當(dāng)前仍存在評卷質(zhì)量風(fēng)險(xiǎn);另外,以采信機(jī)器評分為主的雙機(jī)評模式,仍需要解決社會認(rèn)可度、可解釋性、多套算法如何同步進(jìn)行技術(shù)升級、評卷組織過程如何監(jiān)控質(zhì)量等具體問題。

在后續(xù)的研究中,需從三個方面持續(xù)推進(jìn)評卷智能化進(jìn)程。第一,智能評卷技術(shù)的持續(xù)優(yōu)化迭代:歷年聽說外語測試積累的龐大數(shù)據(jù)集,以及語音識別、自然語義理解、多維度智能評測等技術(shù)上的持續(xù)進(jìn)步,是智能評卷技術(shù)效果穩(wěn)定的保障。第二,評卷組織流程上,需要針對雙機(jī)評模式設(shè)計(jì)完備的效果保障機(jī)制、運(yùn)營監(jiān)控機(jī)制以及應(yīng)急預(yù)案:具體來說,仍需建立一套以人工評卷校驗(yàn)為核心的效果保障機(jī)制,防范雙機(jī)評出現(xiàn)系統(tǒng)性評分偏誤,由此產(chǎn)生的人工評卷工作量及保障機(jī)制也需深入研究;仍需具備隨時(shí)切換人機(jī)互評的應(yīng)急預(yù)案,保障機(jī)評出現(xiàn)系統(tǒng)性評分偏誤后評卷的正常開展;需要建立自動化、可視化的運(yùn)營監(jiān)管機(jī)制,保障機(jī)評效率及穩(wěn)定性。第三,以采信機(jī)器評分為主(僅少量人工校驗(yàn))的雙機(jī)評模式需要完備的可解釋性,需要建立并完善對智能評分結(jié)果的評價(jià)機(jī)制。

總之,要充分抓住目前人工智能高速發(fā)展的大好機(jī)遇,加強(qiáng)每次大規(guī)模驗(yàn)證和應(yīng)用之后的數(shù)據(jù)分析工作,逐步建立一套完整的、科學(xué)的對評分結(jié)果的評價(jià)機(jī)制,全力推進(jìn)人工智能向應(yīng)用成果的轉(zhuǎn)換。

參考文獻(xiàn):

[1]國家發(fā)改委,科技部,工信部,等.“互聯(lián)網(wǎng)+”人工智能三年行動實(shí)施方案[EB/OL]. [2023-01-11]. http://www.gov.cn/xinwen/2016-05/23/content_5075944.htm.

[2]中共中央,國務(wù)院.中國教育現(xiàn)代化2035[EB/OL].[2023-01-11].http://www.gov.cn/xinwen/2019-02/23/content_5367987.htm.

[3]中國信息通信研究院.人工智能白皮書(2022年)[C].2022.

[4]何屹松,徐飛,劉惠,等.新一代智能網(wǎng)上評卷系統(tǒng)的技術(shù)實(shí)現(xiàn)及在高考網(wǎng)評中的應(yīng)用實(shí)例分析[J].中國考試,2019,(1):57-65.

[5] Mao S,Wu Z,Jiang J,et al. NN-based Ordinal Regression for Assessing Fluency of ESL Speech [C] // ICASSP 2019 - 2019 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). IEEE,2019.

[6] B. Lin,L. Wang,X. Feng,and J. Zhang,Automatic Scoring at Multi-granularity for l2 Pronunciation [C] // Interspeech,2020.

[7] Witt S M,F(xiàn) S J Y. Phone-level Pronunciation Scoring and AssessmentforInteractiveLanguageLearning[J].Speech Communication,2000,30(2/3):95-108.

[8] Sundermeyer M,Schlüter R,Ney H. LSTM Neural Networks for Language Modeling [C] // Thirteenth Annual Conference of the International Speech Communication Association,2012.

[9] Devlin J,Chang M W,Lee K,et al. Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding [J]. arXiv preprint arXiv:1810.04805,2018.

[10] Hori T,Watanabe S,Zhang Y,et al. Advances in Joint CTCattention Based End-to -end Speech Recognition with a Deep CNN Encoder and RNN-LM [J]. arXiv preprint arXiv:1706.02737,2017.

[11] Mikolov T,Chen K,Corrado G,et al. Efficient Estimation of Word Representations in Vector Space [J]. arXiv preprint arXiv:1301.3781,2013.

[12] Bahdanau D,Cho K,Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate [J]. arXiv preprint arXiv:1409.0473,2014.

Feasibility Study of Intelligent Dual-machine Speaking Assessment Mode in Computer-based Foreign Language Listening and Speaking Test

Shen Chen Luo Shuanghu

Shanghai Municipal Educational Examinations Authority,Shanghai,200433

Abstract:Based on the existing evaluation mode of human-computer mutual assessment of English listening and speaking test,the feasibility of dual-computer evaluation mode was tentatively explored,and three independent computer intelligent scoring algorithms were compared by using the full-real simulation data test of Shanghai junior high school foreign language listening and speaking test. The results show that the consistency between the machine score and the report score reaches more than 96%,which has good results,but there is a risk that the effect of 1659 samples is still misjudged after the dual-machine evaluation,and the evaluation organization and evaluation mechanism of the dual-machine evaluation mode are still incomplete,and the dual-machine evaluation mode is not feasible for the time being,and further algorithm improvement and application method research are needed. The comparative verification results show that the scoring speed of the scoring algorithm using the GPU computing power structure is equivalent to 6 times that of the CPU computing power structure without the decrease in scoring accuracy,which can greatly reduce the time and hardware spent on scoring.

Key Words:Junior Entrance Examination,F(xiàn)oreign Language Listening and Speaking Test,Computer Intelligence Scoring

附件:

初中外語聽說樣卷

I. Read aloud朗讀(5小題,共2.5分)

Section 1:

Directions:Read the following phrases. You will have 10 seconds to prepare and 15 seconds to read.

朗讀詞組。準(zhǔn)備時(shí)間為10秒,朗讀時(shí)間為15秒。(3小題,共1.5分)

1. national flag

2. look after the children

3. surprised at the news

Section 2:

Directions:Read the following sentences. You will have 10 seconds to prepare and 20 seconds to read.

朗讀句子。準(zhǔn)備時(shí)間為10秒,朗讀時(shí)間為20秒。(2小題,共1分)

1. Would you come to my birthday party?

2. John is talking about the TV programme with his friends.

II. Quick response交際應(yīng)答(5小題,共2.5分)

Directions:You will hear five sentences. Make quick responses to the sentences you have heard. For each sentence,you will have 5 seconds to prepare and 10 seconds to answer.

根據(jù)你聽到的句子作出應(yīng)答,每個句子準(zhǔn)備時(shí)間為5秒,答題時(shí)間為10秒。

1.

2.

3.

4.

5.

III. Retell復(fù)述(1小題,共2.5分)

Directions:Retell what you hear with the given points. You will hear the recording twice. You will have 60 seconds to prepare and 60 seconds to retell.

你將聽到一段音頻,請根據(jù)所給要點(diǎn)進(jìn)行復(fù)述。錄音播放兩遍。準(zhǔn)備時(shí)間為60秒,答題時(shí)間為60秒。

你的復(fù)述可以這樣開始:Henry keeps pets at home...

IV. Free talk表達(dá)(1小題,共2.5分)

Directions:Say at least five sentences according to the following information. You will have 60 seconds to prepare and 60 seconds to talk.

根據(jù)以下提示進(jìn)行表達(dá),至少講5句話。準(zhǔn)備時(shí)間為60秒,答題時(shí)間為60秒。

你的表達(dá)必須包含以下要點(diǎn):

1. What are the people in the picture doing?

2. What can you learn from the boy?

初中外語聽說樣卷參考答案及評分標(biāo)準(zhǔn)

I.朗讀

Section 1:

1. national flag辨音

清晰、正確朗讀2個單詞得0.5分

清晰、正確朗讀1個單詞得0.25分

清晰、正確朗讀0個單詞得0分

2. look after the children連讀

清晰、正確朗讀look after,the children 2個詞塊得0.5分

清晰、正確朗讀1個詞塊得0.25分

清晰、正確朗讀0個詞塊得0分

3. surprised at the news失爆

清晰、正確朗讀surprised,at the news 2個詞塊得0.5分

清晰、正確朗讀1個詞塊得0.25分

清晰、正確朗讀0個詞塊得0分

Section 2:

1. Would you come to my birthday party?(語調(diào))

清晰、正確體現(xiàn)升調(diào)得0.25

清晰、正確朗讀句子得0.25,讀錯1個單詞不扣分(讀錯≥2個單詞扣0.25分)

2. John is talking about the TV programme with his friends.(意群和停頓)

意群和停頓不影響理解得0.25

清晰、正確朗讀句子得0.25,讀錯1個單詞不扣分(讀錯≥2個單詞扣0.25分)

II.交際應(yīng)答

0.5分能對所給的句子進(jìn)行恰當(dāng)應(yīng)答

0.25分能應(yīng)答,但應(yīng)答不完全符合英語表達(dá)習(xí)慣

0分不能應(yīng)答或應(yīng)答不符合英語表達(dá)習(xí)慣

1. Thanks. / Thank you./ ...

2. Once a week. / Twice a month. / Every day. / Never.

3. Its worth watching. / This is the most exciting film that Ive ever seen. / Boring. / Interesting. / Fantastic...

4. Of course/ Certainly./ No problem. / Sorry,Im using it myself. / Sorry,Ive just lent it to Alice. /Sure.

5. Congratulations! / Good for you! / Great! / Good job! / Im glad to hear that. / You must have put a lot of effort into it. / You must have worked hard for it. / How nice! / How marvelous!

III.復(fù)述

Key points:

1. Henry has two pet cats.(0.5)

2. One is a black cat named Tommy.(0.5)

3. The other is a white cat called Kitty.(0.5)

4. Cats can take care of themselves(but dogs need people to walk them every day).(0.5)

5. Cats are quiet(but dogs usually make a lot of noises).(0.5)

IV.表達(dá)

Key points:

1. What

do housework;wipe the window;clean the floor;stand on a chair to clean the upper part of the window…

2. Opinion

learn to keep ones home clean and tidy;learn to share housework;show love for;form the habit of…

參考答案:

The people in the picture are doing housework. The boy is wiping the window while his mother is cleaning the floor. The boy is not tall enough,so he is standing on a chair to clean the upper part of the window. We can learn from the boy that we should share housework with our parents. And we should form the habit of doing housework.

2.5分內(nèi)容完整充實(shí),表達(dá)流暢連貫,語言結(jié)構(gòu)和用詞基本正確。

2分內(nèi)容完整、較充實(shí),表達(dá)較流暢連貫,語言結(jié)構(gòu)和用詞基本正確。

1.5分內(nèi)容較完整充實(shí),表達(dá)基本流暢連貫,語言結(jié)構(gòu)和用詞存在較多錯誤,但不影響理解。

1分內(nèi)容不完整,表達(dá)欠流暢連貫,語言結(jié)構(gòu)和用詞存在較多錯誤,但不影響理解。

0.5分僅能說出個別單詞。

0分無法表達(dá)或表達(dá)內(nèi)容與所給提示完全不符。

只能講述4句,得分不高于2分

只能講述3句,得分不高于1.5分

只能講述2句,得分不高于1分

只能講述1句,得分不高于0.5分

(責(zé)任編輯:吳茳)

猜你喜歡
中考
一個模型在中考中的應(yīng)用
因式分解中考都考啥
優(yōu)秀中考圖書推薦
優(yōu)秀中考圖書推薦
優(yōu)秀中考圖書推薦
優(yōu)秀中考圖書推薦
2020年中考作文備考點(diǎn)津
伴你走進(jìn)“旋轉(zhuǎn)”中考園
中考“三數(shù)”大掃描
垂直平分線,中考怎樣考?
鄂伦春自治旗| 桐庐县| 巴林右旗| 长宁县| 蓝山县| 凤凰县| 大庆市| 比如县| 化德县| 湛江市| 静海县| 张北县| 沂南县| 石渠县| 浑源县| 永定县| 安远县| 青州市| 崇阳县| 韶山市| 紫金县| 南江县| 德安县| 阳城县| 麻阳| 大厂| 泸西县| 罗甸县| 肇东市| 陕西省| 黎川县| 沐川县| 莱芜市| 中宁县| 梨树县| 武汉市| 镇雄县| 白银市| 额尔古纳市| 肥东县| 黑山县|