何屹松 孫媛媛 汪張龍 竺 博
(1.安徽省教育招生考試院,合肥 230001;2.科大訊飛股份有限公司,合肥 230001)
在教育領(lǐng)域,人工智能技術(shù)正在全面、深刻地影響著教育理念、教學(xué)模式和考試方式,建立在語音技術(shù)基礎(chǔ)上的英語聽力、口語上機(jī)考試已經(jīng)得以大范圍應(yīng)用,手寫識別、自然語言理解等人工智能相關(guān)技術(shù)也正在教育考試評卷過程中進(jìn)行探索和應(yīng)用,這與《國務(wù)院關(guān)于深化考試招生制度改革的實施意見》中提出的“改進(jìn)評分方式,加強(qiáng)評卷管理,完善成績報告”[1]的目標(biāo)十分吻合。具體而言,目前普通高考網(wǎng)上評卷以掃描后的答卷切分圖像為基礎(chǔ),組織評卷教師以網(wǎng)上閱卷方式進(jìn)行;而采用人工智能技術(shù)的計算機(jī)智能評分則是在對答題掃描圖像進(jìn)行全方位識別、文本轉(zhuǎn)寫、內(nèi)容分析和關(guān)鍵特征提取的基礎(chǔ)上,運(yùn)用人工智能的方法,深度學(xué)習(xí)專家的評分標(biāo)準(zhǔn)和評分結(jié)果,自動對考生答題內(nèi)容進(jìn)行評分。
在國內(nèi)外人工智能評分領(lǐng)域所進(jìn)行的研究工作,按照其側(cè)重點(diǎn)不同,分為人工特征工程方案和深度學(xué)習(xí)方案2個主要方向[2]。其中:人工特征方案的代表方法是使用淺層語言學(xué)特征分析法,先對試題評卷標(biāo)準(zhǔn)提取相關(guān)特征進(jìn)行定義,然后基于統(tǒng)計數(shù)據(jù)自動抽取考生答卷樣本信息抽象對應(yīng)到相應(yīng)特征,完成對樣本的評分;深度學(xué)習(xí)方案的算法則更加復(fù)雜,主要是通過多引層的神經(jīng)網(wǎng)絡(luò)來自動抽取與評分標(biāo)準(zhǔn)相關(guān)的特征,在多個維度上建立起對待評作文樣本的完整數(shù)學(xué)模型,并進(jìn)行匹配評分。2種方案各有利弊,深度學(xué)習(xí)方案需要大量的考試數(shù)據(jù),其性能隨著數(shù)據(jù)量的增加有著穩(wěn)步且顯著的提升,能夠更好地滿足大規(guī)??荚囬喚砉ぷ鞯男枰?。尤其是2010年之后,以深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法為代表的新一代機(jī)器學(xué)習(xí)算法的誕生與發(fā)展預(yù)示著一次全新的人工智能科技浪潮已經(jīng)到來。在此背景下,安徽省教育招生考試院與科大訊飛股份有限公司合作,于2016年9月先行開展了“基于2016年高考英語作文掃描圖像的計算機(jī)智能評測實驗驗證”。2017年6月高考評卷期間,雙方進(jìn)一步對考生的語文作文和英語作文答題情況進(jìn)行后臺離線智能評分,并將評分結(jié)果應(yīng)用于網(wǎng)評質(zhì)量監(jiān)控。本文基于這一應(yīng)用探索,對人工智能在大規(guī)模中英文作文閱卷過程中的應(yīng)用進(jìn)行初步探討和分析。
本次智能評分安排在獨(dú)立場地進(jìn)行,由6~8臺服務(wù)器、1臺千兆交換機(jī)、2臺操作終端、光盤刻錄機(jī)和少量移動硬盤組成局域網(wǎng),與現(xiàn)有網(wǎng)上評卷系統(tǒng)相隔離,所有數(shù)據(jù)交換通過光盤或移動硬盤完成。服務(wù)器主要配置要求:CPU Intel Xeon V3 12核24線程;內(nèi)存≥64G,3通道以上;千兆網(wǎng)口;操作系統(tǒng)WindowsServer 2008 R2 64位。
數(shù)據(jù)準(zhǔn)備包括:語文和英語2個科目的考試試卷(圖像格式或pdf格式均可),語文作文和英語作文全部待評樣本掃描切分圖像,用于定標(biāo)的人工專家評分樣本(定標(biāo)集圖像及分?jǐn)?shù))各500份,考生密號與切分圖對應(yīng)關(guān)系表和圖像存儲目錄格式說明。
以試卷掃描完成時間為基點(diǎn),主要時間節(jié)點(diǎn)包括:提前2天完成設(shè)備部署和系統(tǒng)測試;提前1天完成相應(yīng)科目的試卷接收和定標(biāo)集數(shù)據(jù)接收;定標(biāo)數(shù)據(jù)處理后至待評數(shù)據(jù)接收前,系統(tǒng)初步完成深度學(xué)習(xí);接收全部待評樣本掃描圖像,40小時內(nèi)完成轉(zhuǎn)寫識別;轉(zhuǎn)寫識別完成后12小時內(nèi)完成自動評分,并及時提交智能評分結(jié)果。
本次智能評分應(yīng)用題型為語文作文題和英語作文題,需對全部樣本進(jìn)行計算機(jī)智能評分,以及與指定內(nèi)容的高相似度文本檢出,并對所有結(jié)果進(jìn)行分析和處理。主要流程步驟見表1。
表1 智能閱卷實施主要流程步驟
本次智能評分中的所有圖像文件均以密號命名,各類樣本處理總量見表2。此次驗證對除定標(biāo)集、異常作答的2部分以外的樣本都進(jìn)行了計算機(jī)評分。從結(jié)果看,語文作文智能評分420 070份,占全部樣本量的99.82%,英語作文智能評分418 820份,占全部樣本量的99.53%。樣本的機(jī)評平均分和方差統(tǒng)計見表3。檢出的異常作答樣本包括與范文庫中文本內(nèi)容相似度高、與當(dāng)次考試試卷題干(閱讀理解)相似度高、考生之間作答內(nèi)容相似度高3種情況,其中:語文作文235份,占全部試卷比例的0.06%;英語作文1 469份,占全部試卷比例的0.35%。學(xué)科專家組對異常樣本進(jìn)行有針對性的質(zhì)檢復(fù)評。
針對智能閱卷系統(tǒng)檢測出的各類異常作答樣本,對235份語文作文和1 469份英語作文摘取與檢測出的標(biāo)準(zhǔn)目標(biāo)文本相匹配的內(nèi)容進(jìn)行識別率的統(tǒng)計對比。統(tǒng)計結(jié)果為:語文字符的識別準(zhǔn)確率為97.6%,英語單詞的識別準(zhǔn)確率為97.3%。這種高精度的轉(zhuǎn)寫識別有3個重要因素:一是考生對高考作文的重視程度保證了書寫的規(guī)范性;二是語文作文區(qū)域按方格紙格式設(shè)計、英語作文區(qū)域按逐行下劃線格式設(shè)計保證了字符書寫位置;三是先進(jìn)的識別算法。這3方面因素能夠保證對所有評分樣本的準(zhǔn)確識別,其整體轉(zhuǎn)寫識別率也應(yīng)該保持在97%左右,能夠達(dá)到閱卷評分的實戰(zhàn)要求。
表4和表5給出了定標(biāo)集下對所有語文作文待評樣本進(jìn)行智能評分后得到的人機(jī)評分的對比情況。在表4中,機(jī)器評分得到的平均分與人工評分得到的平均分,其分差均小于1分,標(biāo)準(zhǔn)差也基本一致。在表5中,機(jī)器評分與報道分的相關(guān)度為0.95,評分一致率為95.24%,非常接近人工1評與人工 2評的相關(guān)度和一致率,處于較高水平,很好地證明了智能評分整體效果優(yōu)良。同時,也從另一角度說明智能閱卷系統(tǒng)對定標(biāo)集有著很高的學(xué)習(xí)能力,基本達(dá)到與評卷教師掌握評分標(biāo)準(zhǔn)相當(dāng)?shù)乃健?/p>
表2 語文作文和英語作文各類樣本數(shù)據(jù)量表
表3 定標(biāo)集和智能閱卷完成評分樣本集合的評分均值和方差比較
表4 語文作文人機(jī)平均分和標(biāo)準(zhǔn)差對比表
表5 語文作文人機(jī)評分相關(guān)度比較表
參照語文作文的分析方法,對英語作文智能評分情況也作了相應(yīng)分析,表6和表7給出了定標(biāo)集下對所有英語作文待評樣本進(jìn)行智能評分后得到的人機(jī)評分的對比情況。
在表6中,機(jī)器評分得到的平均分與人工評分得到的平均分,其分差約為0.6分,標(biāo)準(zhǔn)差也非常接近。在表7中,機(jī)器評分與報道分的相關(guān)度為0.93,處于較高水平,評分一致率達(dá)到92.31%,高出人工兩評一致率(88.1%)4個多百分點(diǎn),同樣說明計算機(jī)評分整體效果優(yōu)良。從表7中也可以看到,由于絕大多數(shù)樣本的報道分是由評分閾值以內(nèi)的人工兩評取平均分獲得,將人工1評分或人工2評分與報道分相比均能獲得很高的相關(guān)度和一致率。
表6 英語作文人機(jī)平均分和標(biāo)準(zhǔn)差對比表
表7 英語作文人機(jī)評分相關(guān)度比較表
此次針對安徽省2017年普通高考網(wǎng)上評卷進(jìn)行的計算機(jī)智能評分具備同步、后臺、離線、智能、應(yīng)用5大特點(diǎn),是一次突破性的創(chuàng)新和實驗,更是一次人工智能結(jié)合人工閱卷的有益嘗試,在評分過程的智能程度、算法的先進(jìn)性、結(jié)果的準(zhǔn)確性和極高的效率等方面代表著未來專業(yè)化考試機(jī)構(gòu)人工智能的應(yīng)用方向,為今后計算機(jī)智能閱卷從后臺走向前臺、由離線方式變?yōu)閷崟r、動態(tài)的應(yīng)用方式奠定了良好基礎(chǔ)。
4.1.1智能閱卷系統(tǒng)具有極高的效率
本次針對高考語文作文和英語作文的計算機(jī)智能評分與常規(guī)的網(wǎng)上評卷時間同步。6月12日圖像文件交接,6月15日結(jié)束評測,6月16日提交各類評測數(shù)據(jù),共計5天時間完成近85萬余份答題的手寫體轉(zhuǎn)寫識別(文檔化)、質(zhì)檢和智能評分,并檢出語文作文17 762份空白答卷和235份異常答卷,以及英語作文24 455份空白答卷和1 469份異常答卷,其成本之低、效率之高和智能化程度之高,均為人工閱卷所無法比擬。
4.1.2智能閱卷系統(tǒng)具有很好的評分準(zhǔn)確性
基于全連接型的卷積神經(jīng)網(wǎng)絡(luò)(Fully Connect?ed Convolutional Neural Networks)的版面分析理解和文字識別技術(shù)核心算法使得計算機(jī)智能閱卷評分系統(tǒng)已經(jīng)形成了一套完善的“端到端”(圖片直接輸入,文字識別直接輸出)的識別處理方案[3]。在漢字識別方面,深度卷積神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫模型結(jié)合的模型(CNN-HMM),符合中文方格字的結(jié)構(gòu)特點(diǎn),能夠準(zhǔn)確進(jìn)行中文字符識別[4]。在英文識別方面,主要采用深度遞歸網(wǎng)絡(luò)識別算法(Recurrent Neural Network,RNN)[5]。該算法已經(jīng)成熟并廣泛應(yīng)用于到拉丁語系文字的識別中,并已被證明具有良好的識別效果。本次計算機(jī)智能閱卷系統(tǒng)對中英文手寫字符的識別率均已達(dá)到97%以上的水平,能夠滿足智能評分的要求。
先進(jìn)的評分算法也是保證評分準(zhǔn)確性的重要的因素。以作文評分為例,多維度計算機(jī)智能評分首先將文字片段進(jìn)行序列化處理,采用word2vec[6]的方法,還會對待處理的每篇文本提取其他維度的特征,主要包括字跡工整程度、詞匯豐富度、句子通順性、文采、論辯結(jié)構(gòu)、離題檢測、立意判別等。這些特征與前面的詞向量矩陣一道組成了更加完整的特征矩陣,用以表征作文的客觀情況。每一個維度都以數(shù)值表示,哪些維度對于評分有用以及有用程度,都將由該維度對應(yīng)的權(quán)重來體現(xiàn);作用越大權(quán)重越大,反之亦然,沒有作用的則權(quán)重趨近零。權(quán)重以回歸模型的參數(shù)方式呈現(xiàn),可以通過機(jī)器學(xué)習(xí)算法訓(xùn)練得到。具體來說,將這個數(shù)學(xué)表示矩陣通過多層的深度循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的迭代后,將LSTM[7]單元層的輸出拼接為當(dāng)前文章的特征向量作為回歸特征,即完成了文章的深度網(wǎng)絡(luò)內(nèi)容特征提取。接下來,將定標(biāo)集樣本進(jìn)行同樣的特征提取,并以專家評分作為目標(biāo)即可進(jìn)行嶺回歸(ridge regression)[8]等統(tǒng)計分析,以獲得每一維特征對應(yīng)的權(quán)重,即當(dāng)次考試的回歸評分模型。
從實際評分結(jié)果來看,通過相關(guān)度和評分一致率可以看出,對于語文作文和英語作文而言,智能評分與最終報道分的評分一致率分別約為95%和92%,達(dá)到了很高的水平,說明智能評分具有很好的評分準(zhǔn)確性。另外,由于評卷教師在長時間高強(qiáng)度的評分過程中極易身心疲憊,一定程度上會影響評卷教師對評分尺度的把握和評分一致性的把控,甚至?xí)霈F(xiàn)打保險分的現(xiàn)象,計算機(jī)智能閱卷系統(tǒng)就不會受到情緒、身心狀態(tài)、個人喜好等主觀因素的影響,始終采用統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行評分,從而很大程度上能夠保證評分的客觀公正性。
4.1.3智能閱卷系統(tǒng)具有完備的輔助質(zhì)檢功能
本次智能評測設(shè)定的工作目標(biāo)有4項:一是將智能評分作為輔助質(zhì)檢參考,與人工評分進(jìn)行后臺比對,并將比對結(jié)果反饋到網(wǎng)評過程當(dāng)中。對差值較大的考生答題情況,提交學(xué)科組重新進(jìn)行審核認(rèn)定評分。二是比對試卷題干內(nèi)容和范文庫,對作文內(nèi)容進(jìn)行高相似度文本檢測,將檢出答卷提交學(xué)科組予以重點(diǎn)核查。三是對考生之間高相似度作答情況進(jìn)行文本檢測,將檢出答卷提交學(xué)科組予以審核確認(rèn)。四是對空白答題進(jìn)行自動檢測,避免因評卷教師誤操作鍵盤而導(dǎo)致空白卷有分的情況發(fā)生。
正是由于計算機(jī)智能閱卷系統(tǒng)具備了強(qiáng)大的特定文本的檢測功能,才可以從大量數(shù)據(jù)中將這些特殊的考生答題情況挑選出來,反饋給學(xué)科評卷組,進(jìn)行非常具有針對性的質(zhì)量監(jiān)控。以語文作文評分結(jié)果為例:現(xiàn)場兩評的大分差樣本量為18 437份,人工1評與機(jī)評分的大分差樣本量為26 899份,其中人人(人工1評與人工2評)大分差和人機(jī)(人工1評與機(jī)評分)大分差的重合樣本僅為6 425份,如圖1所示。
圖1 語文作文人人大分差樣本(圓圈)和人機(jī)大分差樣本(方框)重合量示意圖
對于這6 425份樣本,若以最終得分(報道分)作為標(biāo)準(zhǔn),比較人工1評和機(jī)評分,有3 775份樣本機(jī)評分與報道分(專家仲裁結(jié)果)更為接近,占比為58.75%,說明計算機(jī)評分結(jié)果可以作為有效手段用于對人工評分進(jìn)行質(zhì)檢校驗,并且能夠以較高的命中率將存在評分偏差的樣本檢出,比隨機(jī)抽檢方案更加科學(xué)和更具效率。同時,需要注意的是,雖然圓圈內(nèi)的18 437份人人大分差樣本(約占全部樣本總量的4.4%)都會經(jīng)過網(wǎng)評系統(tǒng)進(jìn)入3評和仲裁流程,但對于圓圈外的、由智能評分和人工1評比較檢索出的20 474份樣本而言,現(xiàn)有網(wǎng)評系統(tǒng)還未能提供真正有效的手段去進(jìn)行質(zhì)量監(jiān)控。
英語作文大分差樣本重合量如圖2所示。在人人大分差和人工1評與機(jī)評分大分差的兩組重合樣本的15 717份樣本中,若以最終得分(報道分)作為標(biāo)準(zhǔn)比較人工1評和機(jī)評分,則有8 338份的樣本機(jī)評分與報道分(專家仲裁結(jié)果)更為接近,占比為53.05%。同時需要注意的是,對圓圈之外的34 246份人機(jī)大分差樣本,現(xiàn)有網(wǎng)評系統(tǒng)還未能提供真正有效的手段予以監(jiān)控。
圖2 英語作文人人大分差樣本(圓圈)和人機(jī)大分差樣本(方框)重合量示意圖
網(wǎng)評過程中,研究人員有選擇性地對抄寫題干內(nèi)容的72份語文作文樣本進(jìn)行了反饋(這些語文作文的人工雙評得分處于某一分?jǐn)?shù)段內(nèi)),由學(xué)科評卷組進(jìn)行質(zhì)檢審查和仲裁評分,最終對這些考生的語文作文成績均有一定程度的向下修正。同時,對1 469份英語作文各類異常樣本,通過網(wǎng)上評卷系統(tǒng)進(jìn)行了分?jǐn)?shù)檢查,確認(rèn)這些樣本在人工評卷時都已經(jīng)進(jìn)行了合理評分,未反饋給學(xué)科評卷組進(jìn)行評分修正。
需要說明的是,考慮到默寫范文與引用范文在度上很難把握以及范文庫尚不全面等多種情況,未對計算機(jī)檢出的與范文庫有一定相似度的考生作文情況進(jìn)行質(zhì)檢反饋。
4.1.4智能閱卷系統(tǒng)能夠提供客觀的第三方質(zhì)量評價標(biāo)準(zhǔn)
與早期的人工閱卷模式相比,現(xiàn)有網(wǎng)上評卷組織模式在評卷效率和質(zhì)量監(jiān)控能力上已大為提高,但對評卷質(zhì)量仍然很難做到科學(xué)、準(zhǔn)確的定量分析。計算機(jī)智能閱卷系統(tǒng)的應(yīng)用已經(jīng)很好地解決了這一業(yè)界難題。管理部門和學(xué)科評卷點(diǎn)之間對評卷質(zhì)量的監(jiān)控和評價,能夠由單一的網(wǎng)上評卷系統(tǒng)按照技術(shù)規(guī)范進(jìn)行質(zhì)量監(jiān)控,上升到通過計算機(jī)智能評分來逐一對比計算人工評分的準(zhǔn)確程度并進(jìn)行統(tǒng)計分析,具備了第三方質(zhì)量評價的顯著特點(diǎn),對形成多樣化的評卷質(zhì)量監(jiān)控體系具有重要意義。同時,所有評分?jǐn)?shù)據(jù)客觀、完整,對評分標(biāo)準(zhǔn)的把握程度進(jìn)行量化分析,這對評卷教師的專業(yè)水準(zhǔn)和責(zé)任心既是一種評價,更是一種約束。
4.2.1智能閱卷替代人工1評或部分替代人工評閱
鑒于計算機(jī)智能閱卷系統(tǒng)在文字轉(zhuǎn)寫識別上的高識別率,以及建立在自然語義理解等核心算法上的多維度計算機(jī)智能評分的高準(zhǔn)確率,在未來的考試閱卷智能化應(yīng)用上可以考慮用計算機(jī)智能閱卷替代人工1評或部分替代人工評卷。人機(jī)相結(jié)合的智能評分流程見圖3??梢钥闯觯嬎銠C(jī)智能閱卷評測對原有的人工評分流程幾乎沒有任何影響。該系統(tǒng)可以獨(dú)立于人工評分流程運(yùn)行,只需將機(jī)器評分結(jié)果及時反饋到人工評分流程,與人工評分進(jìn)行合并、比對、分析、計算,得出最終成績。同時,可以在正式人工閱卷開始前,對存在高相似度等異常答題試卷進(jìn)行標(biāo)注,為人工閱卷提示需要重點(diǎn)關(guān)注的相關(guān)信息,從而大幅度提升閱卷效率,節(jié)省人力資源,保障評卷質(zhì)量。
近年計算機(jī)智能閱卷技術(shù)在大規(guī)模紙筆考試中的應(yīng)用和測試印證了智能評測技術(shù)的實用性和可靠性。未來在學(xué)業(yè)水平考試、成人高考、高教自學(xué)考試及社會化考試等相對低利害的考試中,可以考慮用計算機(jī)智能評分替代多評模式下的人工1評評分,甚至可以直接替代某些高可信度分?jǐn)?shù)段內(nèi)的人工評分。這種人機(jī)結(jié)合的智能閱卷模式是未來考試閱卷智能化應(yīng)用的發(fā)展方向。
4.2.2 智能閱卷向多科目、多題型應(yīng)用擴(kuò)展
圖3 人機(jī)結(jié)合的智能評分流程
計算機(jī)智能評分已經(jīng)實現(xiàn)了對語文作文和英語作文的評分,從技術(shù)層面而言,可以歸納為智能閱卷系統(tǒng)在多個維度上建立起對待評分作文樣本的完整數(shù)學(xué)模型。以作文評分為例,表8給出了評分要求與評分特征提取的抽象對應(yīng)關(guān)系。這個數(shù)學(xué)模型可以表征作文的客觀情況,每一項評分要求都對應(yīng)著一個維度,每一個維度都以數(shù)值表示,每一個維度又都對應(yīng)相應(yīng)的權(quán)重,以體現(xiàn)這些維度對于評分的有用程度(作用越大權(quán)重越大,反之亦然),從而建立起科學(xué)的回歸模型,通過機(jī)器學(xué)習(xí)算法進(jìn)行智能評分。
表8 評分要求與機(jī)評特征的抽象對應(yīng)關(guān)系
根據(jù)這一原理,可以在更大范圍類建立起科學(xué)的智能評卷模型,擴(kuò)大智能閱卷應(yīng)用科目范圍,實現(xiàn)對具有確定答案的填空題、改錯題、文科類簡答題以及包含公式和解題過程的數(shù)學(xué)、物理、化學(xué)、生物等特定題型的智能評分,將智能閱卷成果向縱深擴(kuò)展。
4.2.3 智能閱卷向?qū)崟r、動態(tài)、應(yīng)用方向發(fā)展
本次智能評分在高考中的應(yīng)用是以后臺離線方式進(jìn)行的,所有樣本的圖像信息通過移動硬盤導(dǎo)入智能閱卷系統(tǒng),機(jī)器評分結(jié)果和高相似度文本的檢測結(jié)果通過光盤導(dǎo)入網(wǎng)評系統(tǒng),提供給管理部門和學(xué)科組,作為質(zhì)量監(jiān)控和輔助質(zhì)檢的重要手段。網(wǎng)上評卷系統(tǒng)和智能閱卷系統(tǒng)還未實現(xiàn)網(wǎng)絡(luò)層面的相互訪問,數(shù)據(jù)也沒有做到動態(tài)交換和實時共享,因而智能閱卷系統(tǒng)的應(yīng)用成果尚不能在網(wǎng)上評卷系統(tǒng)中很好地發(fā)揮作用。可以預(yù)見,當(dāng)2個系統(tǒng)在訪問權(quán)限、數(shù)據(jù)接口、網(wǎng)絡(luò)連接等重要層面進(jìn)行新的規(guī)劃和設(shè)計之后,其相互融合是必然的。在應(yīng)用上,只有兩者融合,才能利用智能閱卷系統(tǒng)的文字轉(zhuǎn)寫功能和自主學(xué)習(xí)功能更有針對性地為學(xué)科評卷組挑選專家樣卷;才能實現(xiàn)機(jī)器評分和人工評分相互結(jié)合的新的雙評模式,充分節(jié)省人工和提高效率;才能使評卷系統(tǒng)具備及時發(fā)現(xiàn)人工評分偏差的能力,實現(xiàn)對機(jī)器評分與人工評分分差較大的樣本進(jìn)行有針對性的質(zhì)檢反饋;才能使計算機(jī)智能閱卷系統(tǒng)通過持續(xù)的數(shù)據(jù)挖掘和自主學(xué)習(xí),在某種程度上達(dá)到專家評價水平,成為新一代的智能網(wǎng)上評卷系統(tǒng)。
4.3.1建立并完善對定標(biāo)集的專家評分樣本選取原則
計算機(jī)智能閱卷系統(tǒng)中,定標(biāo)集選擇的好壞將直接影響著智能評分的最終效果。對本次計算機(jī)智能評分結(jié)果的分析表明,高分段作文的機(jī)器評分和人工評分在一致性方面,沒有中間段作文的機(jī)器評分和人工評分的吻合度高。其原因主要是,定標(biāo)集的專家評分中,高分段樣本的數(shù)量較少,造成計算機(jī)對高分作文的學(xué)習(xí)能力不足,制約了計算機(jī)對高分作文的評出。為此,智能閱卷系統(tǒng)需要建立更加科學(xué)的定標(biāo)樣本的選擇機(jī)制,即在計算機(jī)完成對所有待評圖象的機(jī)器轉(zhuǎn)寫后,進(jìn)行試卷樣本的文本聚類分析。從所有待評樣本中,考慮考生的地域覆蓋、水平等級等影響因素,選出最具有代表性的樣本,組成定標(biāo)數(shù)據(jù)集合,提供給專家評卷教師進(jìn)行定標(biāo)評分。通過學(xué)習(xí)專家教師的定標(biāo)結(jié)果來讓計算機(jī)充分理解和掌握評分標(biāo)準(zhǔn),讓更多有經(jīng)驗的一線專家知識反哺智能閱卷系統(tǒng),更好提升智能閱卷系統(tǒng)的整體水平。
4.3.2建立并完善對智能評分結(jié)果的評價機(jī)制
在經(jīng)過大量的實驗驗證之后,計算機(jī)智能閱卷系統(tǒng)具備了一定的應(yīng)用能力;但是,在高利害教育考試閱卷工作中,要讓考生、家長、社會接受人工智能閱卷方式,既需要長期的認(rèn)識轉(zhuǎn)化過程,也需要技術(shù)的不斷進(jìn)步。為此,要充分抓住目前人工智能高速發(fā)展的大好機(jī)遇,加強(qiáng)對每次大規(guī)模驗證和應(yīng)用之后的數(shù)據(jù)分析工作,逐步建立一套完整的、科學(xué)的對評分結(jié)果的評價機(jī)制,全力推進(jìn)人工智能向應(yīng)用成果的轉(zhuǎn)換。