林梓柔 閆寒冰
[摘 ? 要] 教師信息化教學(xué)能力是體現(xiàn)教育信息化深度融合成效的關(guān)鍵。為探索一種證據(jù)易獲得、分析自動(dòng)化、反饋可持續(xù)的測(cè)評(píng)手段,文章提出了基于預(yù)訓(xùn)練的教師信息化教學(xué)微能力自動(dòng)識(shí)別方法。具體為,基于包含學(xué)情分析、教學(xué)設(shè)計(jì)、學(xué)法指導(dǎo)和學(xué)業(yè)評(píng)價(jià)4個(gè)維度的13項(xiàng)微能力,利用基于預(yù)訓(xùn)練的深度學(xué)習(xí)模型對(duì)16,371條信息化課堂評(píng)課反饋文本進(jìn)行實(shí)驗(yàn)。遞進(jìn)式實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)深度學(xué)習(xí)模型,預(yù)訓(xùn)練模型普遍具有更高準(zhǔn)確率,最高能提升16%。領(lǐng)域通用語料的預(yù)訓(xùn)練有效解決了教育領(lǐng)域自建數(shù)據(jù)匱乏的現(xiàn)實(shí)問題;在預(yù)訓(xùn)練模型中,ERNIE以86.43%的準(zhǔn)確率取得了最優(yōu)性能,混淆誤差小。該方法能夠基于評(píng)課文本自動(dòng)化識(shí)別并可視化表征教師信息化教學(xué)微能力,提供常態(tài)化反饋支持。最后,文章闡述了其在教師教研、能力畫像和發(fā)展決策中的應(yīng)用場(chǎng)景,并提出后續(xù)研究方向。
[關(guān)鍵詞] 信息化教學(xué); 微能力; 聽評(píng)課; 深度學(xué)習(xí); 預(yù)訓(xùn)練
[中圖分類號(hào)] G434 ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼] A
[作者簡介] 林梓柔(1996—),女,廣東茂名人。博士研究生,主要從事智能教育、培訓(xùn)專業(yè)化、信息化教學(xué)教研研究。E-mail:Lzirou@126.com。
一、引 ? 言
技術(shù)在推陳出新中不斷與教育教學(xué)深度融合,教師信息化教學(xué)能力是體現(xiàn)教育信息化深度融合的關(guān)鍵。教育部在《關(guān)于實(shí)施全國中小學(xué)教師信息技術(shù)應(yīng)用能力提升工程2.0的意見》[1]中對(duì)通過“整校推進(jìn)”提升教師信息化教學(xué)能力提出期待和要求。在工程推進(jìn)中,能力測(cè)評(píng)作為反促教師信息化教學(xué)能力的手段,受到研究者的關(guān)注。2021年,教育部教師工作司發(fā)布《全國中小學(xué)教師信息技術(shù)應(yīng)用能力提升工程2.0校本應(yīng)用考核指南》[2],將“教師信息化教學(xué)能力測(cè)評(píng)”作為重點(diǎn)內(nèi)容。其依據(jù)微認(rèn)證思路,將不同教學(xué)環(huán)境下的信息化教學(xué)能力解構(gòu)為多項(xiàng)微能力,指明了能力本位、證據(jù)支持、精準(zhǔn)測(cè)評(píng)的邏輯和取向,采用基于過程考核和成果考核的證據(jù)驅(qū)動(dòng)測(cè)評(píng)方法。然而,在大規(guī)模信息化教學(xué)能力提升項(xiàng)目中,對(duì)全體教師進(jìn)行教學(xué)研培證據(jù)收集、分析與認(rèn)證是一項(xiàng)長周期、高難度、高成本的工程。在教育數(shù)字化轉(zhuǎn)型浪潮下,大數(shù)據(jù)與人工智能不斷驅(qū)動(dòng)教育測(cè)評(píng)范式變革。能否在遵循測(cè)評(píng)內(nèi)涵基礎(chǔ)上,探索一種證據(jù)易獲得、分析自動(dòng)化、反饋可持續(xù)的信息化教學(xué)微能力識(shí)別方法是值得關(guān)注的問題。因此,本研究立足教師信息化教學(xué)微能力,采集信息化課堂評(píng)課文本,利用深度學(xué)習(xí)實(shí)現(xiàn)微能力自動(dòng)識(shí)別,為課堂改進(jìn)、教師教研、校本考核提供支撐。
二、相關(guān)研究
(一)教師信息化教學(xué)微能力
信息化教學(xué)微能力是對(duì)信息化教學(xué)能力的細(xì)粒度解構(gòu)。盡管在不同視域下,研究者對(duì)信息化教學(xué)能力的內(nèi)涵界定不盡相同,但指向一個(gè)共識(shí):信息化教學(xué)能力立足課堂真實(shí)情境,關(guān)注教師如何應(yīng)用信息技術(shù)支持教學(xué)活動(dòng)設(shè)計(jì)、實(shí)施與評(píng)價(jià),以促進(jìn)教師的“教”與學(xué)生的“學(xué)”[3]。對(duì)信息化教學(xué)能力內(nèi)涵解構(gòu)的要素或維度是微能力自動(dòng)識(shí)別的理論支撐。面向中小學(xué)教師,駱舒寒等從國培成效視角將教師信息化教學(xué)能力劃分為信息化教學(xué)知識(shí)、信息化教學(xué)技能、信息化教學(xué)能力和信息化教學(xué)教育觀念[4];孫妍妍等則在“停課不停學(xué)”期間從教學(xué)效果、反思與計(jì)劃和信息技術(shù)能力角度開展大規(guī)模調(diào)研[5];閆寒冰等從關(guān)注差異的角度評(píng)價(jià)信息化課堂中的教學(xué)設(shè)計(jì)、教學(xué)實(shí)施、教學(xué)效果、教師素質(zhì)等[6]??梢园l(fā)現(xiàn),基于問卷調(diào)研進(jìn)行主觀視角測(cè)評(píng)能夠靈活調(diào)整以適應(yīng)各類情境,但具有粒度粗、主觀性強(qiáng)等不足。面向“改進(jìn)結(jié)果評(píng)價(jià)、強(qiáng)化過程評(píng)價(jià)”的評(píng)價(jià)理念,教師信息化教學(xué)能力測(cè)評(píng)有必要更加聚焦課堂情境、關(guān)注微能力點(diǎn),立足客觀證據(jù)。因此,《全國中小學(xué)教師信息技術(shù)應(yīng)用能力提升工程2.0校本應(yīng)用考核指南》提供了指導(dǎo),所附的《中小學(xué)教師信息化教學(xué)能力測(cè)評(píng)指南》(簡稱《測(cè)評(píng)指南》)提出教師利用信息技術(shù)進(jìn)行學(xué)情分析、教學(xué)設(shè)計(jì)、學(xué)法指導(dǎo)和學(xué)業(yè)評(píng)價(jià)所需的30項(xiàng)微能力,分別適于多媒體教學(xué)環(huán)境、混合學(xué)習(xí)環(huán)境、智慧學(xué)習(xí)環(huán)境。已有研究明確了信息化教學(xué)微能力識(shí)別的必要性,政策指南則為信息化教學(xué)微能力自動(dòng)識(shí)別提供了理論依據(jù)。
(二)聚焦課堂情境的評(píng)課反饋文本
《測(cè)評(píng)指南》提出,過程考核關(guān)注教師個(gè)人信息化教學(xué)能力提升計(jì)劃、課程學(xué)習(xí)記錄,以及校本研修與實(shí)踐應(yīng)用情況,成果考核關(guān)注教師與本校信息化環(huán)境相適應(yīng)的信息化教學(xué)應(yīng)用成果。這對(duì)能力提升工程成效檢驗(yàn)非常重要,但長周期、多樣態(tài)的證據(jù)鏈不利于教師在常態(tài)化教學(xué)中獲得即時(shí)動(dòng)態(tài)的反饋。隨著聽評(píng)課應(yīng)用普及,依托信息化課堂實(shí)錄進(jìn)行在線聽評(píng)課成為中小學(xué)教師在線教研的有效手段[7]。基于移動(dòng)聽評(píng)課,任何教師可在課堂實(shí)錄的任意時(shí)間戳發(fā)布評(píng)課反饋,為任課教師提供實(shí)時(shí)細(xì)微的點(diǎn)評(píng)和建議。這些反饋文本映射了任課教師在信息化教學(xué)設(shè)計(jì)、實(shí)施和評(píng)價(jià)過程中的表現(xiàn)[8],為聚焦課堂情境的教師信息化教學(xué)微能力自動(dòng)識(shí)別提供了可能。同時(shí),利用文本模態(tài)的同伴反饋進(jìn)行能力識(shí)別和分析是便捷可行的。Rico-Juan等利用機(jī)器學(xué)習(xí)檢測(cè)同伴評(píng)估分?jǐn)?shù)和反饋文本的一致性,證明了反饋文本的語義特征能夠預(yù)測(cè)同伴任務(wù)水平[9]。此外,汪維富等構(gòu)建了教師評(píng)課反饋分析模型,可依據(jù)文本內(nèi)容判斷評(píng)課反饋傾向和類型[10],印證了反饋文本分析對(duì)聽評(píng)課成效診斷的支持,以及反饋文本識(shí)別自動(dòng)化的必要性??傊?,利用評(píng)課反饋文本進(jìn)行教師信息化教學(xué)微能力識(shí)別具有以下優(yōu)點(diǎn):一是情境化。評(píng)課文本覆蓋課堂全程,反映教師在各個(gè)環(huán)節(jié)的能力,是教師信息化教學(xué)能力在課堂情境的集中體現(xiàn)。二是精準(zhǔn)性。由于評(píng)課文本短小精悍,少了篇章文檔的前后文語境,因此一條評(píng)課文本通常僅描述一個(gè)問題,符合精準(zhǔn)表征某項(xiàng)微能力的細(xì)粒度需求。三是客觀性。不同于主觀報(bào)告,評(píng)課文本是同伴教師對(duì)任課教師課堂教學(xué)客觀、真實(shí)的反饋。
(三)基于預(yù)訓(xùn)練的深度學(xué)習(xí)文本分類方法
文本識(shí)別與分類是人工智能領(lǐng)域的研究熱點(diǎn)。國內(nèi)外學(xué)者對(duì)文本分類問題開展了諸多研究,算法實(shí)現(xiàn)主要有機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。機(jī)器學(xué)習(xí)算法包括樸素貝葉斯、邏輯回歸和支持向量機(jī)等[11]。但基于機(jī)器學(xué)習(xí)的文本分類忽略詞間和句間的關(guān)系,對(duì)高維數(shù)據(jù)的處理能力較差。自深度學(xué)習(xí)[12]被提出后,成了自然語言處理的主流選擇,卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度金字塔卷積神經(jīng)網(wǎng)絡(luò)(DPCNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RCNN)等模型在文本分類中取得更出色的效果[13],同時(shí)也被引入教育領(lǐng)域進(jìn)行應(yīng)用[14-15]。深度學(xué)習(xí)模型解決文本分類問題的一般流程為:將數(shù)據(jù)集進(jìn)行預(yù)處理和文本表征后輸入模型,通過迭代訓(xùn)練實(shí)現(xiàn)學(xué)習(xí)并分類。數(shù)據(jù)數(shù)量和質(zhì)量對(duì)模型的性能有直接影響,而教育領(lǐng)域特定主題的文本數(shù)量不夠龐大,傳統(tǒng)深度學(xué)習(xí)模型難以引入外部數(shù)據(jù)支持以優(yōu)化訓(xùn)練樣本。為提升小樣本問題的分類準(zhǔn)確性,基于預(yù)訓(xùn)練的深度學(xué)習(xí)模型在文本分類中受到關(guān)注,常見模型有BERT、XLNET和 ERNIE等。其邏輯是先利用領(lǐng)域通用語料庫的大數(shù)據(jù)集進(jìn)行訓(xùn)練,在不需要人工標(biāo)注的情況下模型自主學(xué)習(xí)并獲得較優(yōu)參數(shù),在此基礎(chǔ)上再根據(jù)特定任務(wù)微調(diào)模型,實(shí)現(xiàn)更好的分類性能[16]。因此,本研究在信息化教學(xué)微能力自動(dòng)識(shí)別任務(wù)中創(chuàng)新引入基于預(yù)訓(xùn)練的深度學(xué)習(xí)模型。
三、研究設(shè)計(jì)
(一)教師信息化教學(xué)微能力框架
前期研究結(jié)果發(fā)現(xiàn),當(dāng)前我國60%~80%的中小學(xué)仍基于多媒體教學(xué)環(huán)境開展信息化教學(xué)[3]。因此,本研究從《測(cè)評(píng)指南》提取面向多媒體教學(xué)環(huán)境的微能力框架,信息化教學(xué)能力包括學(xué)情分析、教學(xué)設(shè)計(jì)、學(xué)法指導(dǎo)和學(xué)業(yè)評(píng)價(jià)4個(gè)維度,同時(shí)解構(gòu)為技術(shù)支持的學(xué)情分析、教學(xué)資源設(shè)計(jì)、學(xué)習(xí)過程設(shè)計(jì)、學(xué)習(xí)活動(dòng)設(shè)計(jì)、技術(shù)支持的課堂導(dǎo)入、技術(shù)支持的課堂講授、技術(shù)支持的總結(jié)與提升、技術(shù)支持的方法指導(dǎo)、技術(shù)支持的小組學(xué)習(xí)、技術(shù)支持的展示交流、評(píng)價(jià)量規(guī)設(shè)計(jì)與應(yīng)用、評(píng)價(jià)數(shù)據(jù)的伴隨性采集、數(shù)據(jù)可視化呈現(xiàn)與解讀共13個(gè)微能力點(diǎn),每個(gè)微能力點(diǎn)提供了對(duì)應(yīng)的評(píng)課文本示例,具體見表1。
(二)數(shù)據(jù)來源
實(shí)驗(yàn)數(shù)據(jù)由兩部分組成:其一是用于預(yù)訓(xùn)練的教育通用語料庫,使用“清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室”提供的THUCNews數(shù)據(jù)集中的教育類子集,包含41,936篇文檔。其二是自建數(shù)據(jù)集,來源于某移動(dòng)聽評(píng)課系統(tǒng),該系統(tǒng)可支持教師直播課堂教學(xué)或回傳課堂實(shí)錄,評(píng)課教師可使用移動(dòng)設(shè)備通過彈幕實(shí)時(shí)發(fā)布數(shù)量不限的評(píng)課文本。本研究采集了“能力提升工程2.0”項(xiàng)目部分單位的評(píng)課文本并進(jìn)行脫敏處理,數(shù)據(jù)來源方對(duì)數(shù)據(jù)的研究用途已知情。
(三)實(shí)驗(yàn)過程
基于預(yù)訓(xùn)練的教師信息化教學(xué)微能力識(shí)別任務(wù)包括數(shù)據(jù)采集與清洗、語料標(biāo)注、文本預(yù)處理、模型預(yù)訓(xùn)練、模型調(diào)優(yōu)與驗(yàn)證等步驟,實(shí)驗(yàn)流程如圖1所示。
1. 數(shù)據(jù)采集與清洗
本研究從移動(dòng)聽評(píng)課系統(tǒng)共采集到18,247條評(píng)課文本。為保證數(shù)據(jù)質(zhì)量,將所采集的文本進(jìn)行匯總后,按以下規(guī)則進(jìn)行清洗:(1)刪除空值;(2)剔除重復(fù)的、復(fù)制轉(zhuǎn)發(fā)的、與課堂教學(xué)無關(guān)的內(nèi)容;(3)校正分句、短句和拼寫錯(cuò)誤。最終得到16,371條評(píng)課文本。
2. 語料標(biāo)注
兩名研究助理對(duì)清洗后的評(píng)課文本進(jìn)行語料標(biāo)注。首先,研究者制定了“語料標(biāo)注指南”,詳細(xì)介紹13項(xiàng)微能力的內(nèi)涵與標(biāo)準(zhǔn),并提供語料標(biāo)注示例(見表1)。其次,兩名研究助理背對(duì)背共同標(biāo)注1000條語料,統(tǒng)計(jì)兩者的標(biāo)注結(jié)果。Kappa系數(shù)為0.87(0.81~1表示幾乎完全一致),說明研究助理對(duì)語料標(biāo)注要求已達(dá)成高度共識(shí),標(biāo)注結(jié)果具有可靠性。最后,研究助理分工完成剩余語料標(biāo)注工作,對(duì)標(biāo)注結(jié)果按5%的比例進(jìn)行質(zhì)量抽查,準(zhǔn)確率皆達(dá)到95%以上。
3. 文本預(yù)處理
首先去除評(píng)課文本的空格和表情符號(hào),接著使用LAC(Lexical Analysis of Chinese)工具進(jìn)行文本分詞,再使用哈工大中文停用詞表以優(yōu)化分詞結(jié)果,最后去除分詞中的低頻詞,低頻詞閾值為3。至此,用于微能力識(shí)別實(shí)驗(yàn)的數(shù)據(jù)集就緒。
4. 模型預(yù)訓(xùn)練
本研究選取BERT和ERNIE作為預(yù)訓(xùn)練模型,以驗(yàn)證它們?cè)谖⒛芰ψR(shí)別任務(wù)中的效果。
(1)BERT模型。BERT(Bidirectional Encoder Representation from Transformers)是谷歌發(fā)布的基于Transformer的預(yù)訓(xùn)練模型[17]。BERT引入兩個(gè)無監(jiān)督的學(xué)習(xí)任務(wù)進(jìn)行預(yù)訓(xùn)練:第一是預(yù)測(cè)句子詞語,對(duì)部分詞語隨機(jī)遮擋或替換,模型根據(jù)上下文信息預(yù)測(cè)該詞語。第二是預(yù)測(cè)下一個(gè)句子,模型從原句的下一個(gè)句子和隨機(jī)句子中進(jìn)行學(xué)習(xí)。BERT在文本分類、問答推理等任務(wù)中表現(xiàn)優(yōu)異,適用于段落和句子級(jí)別的自然語言處理任務(wù)。由于原始BERT使用了以字為粒度切割的中文語料,并未考慮中文分詞,本研究選取基于全詞掩碼技術(shù)的BERT-wwm作為預(yù)訓(xùn)練模型,使用THUCNews語料對(duì) BERT-wwm進(jìn)行預(yù)訓(xùn)練。
(2)ERNIE模型。ERNIE(Enhanced Language Representation with Informative Entities)是百度在BERT基礎(chǔ)上提出的一種知識(shí)增強(qiáng)語義表示模型[18]。不同于BERT學(xué)習(xí)原始語言特征,ERNIE直接對(duì)先驗(yàn)語義知識(shí)單元進(jìn)行建模,增強(qiáng)了模型語義表示能力。在模型表現(xiàn)上,ERNIE在中英兩類語料測(cè)試中皆大幅度超越了BERT。ERNIE 3.0 使用包含純文本和知識(shí)圖譜的4TB語料庫進(jìn)行預(yù)訓(xùn)練,因此,本研究選取ERNIE 3.0作為預(yù)訓(xùn)練模型。為了確保實(shí)驗(yàn)有效性,本研究同樣使用THUCNews語料對(duì)ERNIE 3.0進(jìn)行預(yù)訓(xùn)練。
5. 模型調(diào)優(yōu)與驗(yàn)證
模型調(diào)優(yōu)上,微調(diào)過程選擇了較小的學(xué)習(xí)率,使預(yù)訓(xùn)練模型學(xué)習(xí)過程更加穩(wěn)定,從而得到較好的可行解。由于BERT等模型為適應(yīng)大規(guī)模樣本預(yù)訓(xùn)練,使用了省略偏移修正的Adam權(quán)重衰減方法作為優(yōu)化器,當(dāng)其用在樣本較少的下游任務(wù)中會(huì)出現(xiàn)訓(xùn)練不穩(wěn)定的問題,因此本實(shí)驗(yàn)使用增加偏移修正的Adam權(quán)重衰減方法進(jìn)行優(yōu)化。模型驗(yàn)證上,使用準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)和F1 Score作為評(píng)價(jià)指標(biāo)。
四、研究結(jié)果
(一)數(shù)據(jù)集描述
本研究將16,371條評(píng)課文本按照6:2:2進(jìn)行訓(xùn)練集、驗(yàn)證集和測(cè)試集劃分,最終得到訓(xùn)練集9818條,驗(yàn)證集3273條和測(cè)試集3280條,見表2。
(二)對(duì)比實(shí)驗(yàn)設(shè)置
由于缺乏評(píng)課文本公開數(shù)據(jù)集和已有實(shí)驗(yàn),本研究利用自建數(shù)據(jù)集開展實(shí)驗(yàn),無法與基于同類數(shù)據(jù)集的已有識(shí)別任務(wù)進(jìn)行效果比對(duì),因此采用兩階段的遞進(jìn)式實(shí)驗(yàn)開展研究。第一階段,構(gòu)建傳統(tǒng)深度學(xué)習(xí)模型對(duì)比實(shí)驗(yàn),使用的模型包括CNN、DPCNN、RNN和RCNN,以分析這些模型在微能力識(shí)別上的性能表現(xiàn);第二階段,構(gòu)建基于預(yù)訓(xùn)練的深度學(xué)習(xí)模型對(duì)比實(shí)驗(yàn),使用的模型包括BERT、BERT-CNN、BERT-DPCNN、BERT-RNN、BERT-RCNN和ERNIE,評(píng)價(jià)與檢驗(yàn)預(yù)訓(xùn)練模型是否優(yōu)于傳統(tǒng)深度學(xué)習(xí)模型,同時(shí)選出性能最優(yōu)的模型,回答研究問題。
(三)模型參數(shù)設(shè)置
第一階段實(shí)驗(yàn)各模型參數(shù)如下:詞向量的embedding維度為300,使用Xavier初始化模型參數(shù),訓(xùn)練數(shù)據(jù)集的批大小為128。其中,CNN的卷積核數(shù)量設(shè)置為256,RNN的hidden size設(shè)置為128。第二階段實(shí)驗(yàn)各模型參數(shù)如下:訓(xùn)練數(shù)據(jù)集的批大小為128。本實(shí)驗(yàn)選取10次實(shí)驗(yàn)結(jié)果的平均值作為該模型的最終性能表現(xiàn)。
(四)實(shí)驗(yàn)結(jié)果分析
1. 微能力識(shí)別模型效果分析
本研究構(gòu)建的微能力識(shí)別任務(wù)性能結(jié)果見表3。遞進(jìn)式對(duì)比實(shí)驗(yàn)表明,基于預(yù)訓(xùn)練的深度學(xué)習(xí)模型比傳統(tǒng)深度學(xué)習(xí)模型的分類效果更好,這得益于預(yù)訓(xùn)練模型可以額外引進(jìn)更多外部知識(shí)進(jìn)行學(xué)習(xí)和訓(xùn)練,從而具備優(yōu)秀的語義表征和推理能力。
在傳統(tǒng)深度學(xué)習(xí)模型中,不同模型對(duì)微能力的識(shí)別效果有一定差異。其中 RCNN在微能力識(shí)別中效果最優(yōu),比其他傳統(tǒng)的深度學(xué)習(xí)模型的性能高5%左右。該模型利用雙向循環(huán)結(jié)構(gòu)較好地捕獲了上下文信息,并使用最大池化層提取文本的重要特征。實(shí)驗(yàn)結(jié)果證明,RCNN可以很好地結(jié)合RNN和CNN的優(yōu)點(diǎn),并克服兩者局限。RNN比CNN和DPCNN分類性能更優(yōu),這是因?yàn)橄啾扔贑NN,RNN更有利于對(duì)文本進(jìn)行序列建模,具有長文本記憶功能。DPCNN比CNN分類效果更好,這是因?yàn)镈PCNN可以通過不斷加深網(wǎng)絡(luò),從而抽取更長距離的文本依賴關(guān)系,提高詞語embedding的豐富性。
在基于預(yù)訓(xùn)練的深度學(xué)習(xí)模型中,ERNIE在微能力識(shí)別中效果最優(yōu),取得86.43%的準(zhǔn)確率。因?yàn)镋RNIE不僅從海量數(shù)據(jù)中學(xué)習(xí)語句結(jié)構(gòu)和語義,而且還從大規(guī)模知識(shí)圖譜中進(jìn)行學(xué)習(xí),大幅提升了模型的語言推理能力。BERT-CNN和BERT-RNN都把BERT作為文本表征輸入,在實(shí)驗(yàn)中BERT性能要比BERT-CNN和BERT-RNN分類性能更優(yōu),這可能是因?yàn)樵谙掠文P陀捎谧陨斫Y(jié)構(gòu)的局限性無法對(duì)BERT模型海量的語義信息進(jìn)行有效提取,導(dǎo)致性能變差。BERT-RCNN比BERT性能更優(yōu),結(jié)合第一階段實(shí)驗(yàn)結(jié)果,說明RCNN可以很好地抽取BERT的重要語義特征,從而獲得更好的識(shí)別效果。
2. 微能力識(shí)別任務(wù)誤差分析
圖2 ? 基于ERNIE的教師信息化教學(xué)微能力識(shí)別混淆矩陣
為分析各項(xiàng)微能力預(yù)測(cè)準(zhǔn)確率,本研究使用混淆矩陣(Confusion Matrix)進(jìn)行表征。將分類精度表示在一個(gè)矩陣中,每列表示預(yù)測(cè)標(biāo)簽,每行表示真實(shí)標(biāo)簽,可直觀呈現(xiàn)和比較模型的分類精度和結(jié)果誤差。圖2呈現(xiàn)了最優(yōu)預(yù)訓(xùn)練模型ERNIE的混淆矩陣。在矩陣對(duì)角線中,矩陣數(shù)值為A1-A13的預(yù)測(cè)準(zhǔn)確率,矩陣顏色深淺表示該類別的預(yù)測(cè)準(zhǔn)確程度;矩陣對(duì)角線外的區(qū)域?yàn)樵撐⒛芰Φ幕煜`差值和混淆程度??梢钥闯?,基于ERNIE進(jìn)行微能力分類識(shí)別,13個(gè)微能力的預(yù)測(cè)準(zhǔn)確率都達(dá)到0.6以上,混淆類別少,預(yù)測(cè)精度高。
分析A1、A3這兩個(gè)準(zhǔn)確率低于0.7的類別:其一,A1“技術(shù)支持的學(xué)情分析”準(zhǔn)確率為0.6,與之混淆較多的類別為A3“學(xué)習(xí)過程設(shè)計(jì)”,這因?yàn)閷W(xué)情分析結(jié)果通常影響教師對(duì)學(xué)習(xí)過程的設(shè)計(jì)。例如,評(píng)課文本“這堂課每個(gè)環(huán)節(jié)之間的過渡較快,這樣的節(jié)奏沒有考慮到是否所有學(xué)生都跟得上”。這表明了教師在設(shè)計(jì)這堂課的學(xué)習(xí)過程時(shí)沒有全面考慮學(xué)生的知識(shí)基礎(chǔ)是否跟得上,其本質(zhì)原因是沒有借助工具或數(shù)據(jù)做好充分的“學(xué)情分析”,而主觀地認(rèn)定學(xué)生符合自己的設(shè)計(jì)想象。因此,人工歸因?yàn)锳1,但模型從A3的數(shù)據(jù)集學(xué)習(xí)到相似的內(nèi)容而出現(xiàn)誤判。其二,A3和A6也易于混淆,20%的“學(xué)習(xí)過程設(shè)計(jì)”被錯(cuò)誤預(yù)測(cè)為“技術(shù)支持的課堂講授”。由于在多媒體教學(xué)環(huán)境下,課堂講授與互動(dòng)作為主要的課堂形態(tài),是學(xué)習(xí)過程設(shè)計(jì)的重要環(huán)節(jié),因此模型容易混淆評(píng)課教師是更加關(guān)注授課教師的課堂講授表現(xiàn)還是歸因其學(xué)習(xí)過程設(shè)計(jì)的準(zhǔn)備程度。總體而言,由于信息化教學(xué)微能力多達(dá)13個(gè),導(dǎo)致識(shí)別任務(wù)難度較大。相較于教育領(lǐng)域普遍在4至6維的分類任務(wù),ERNIE在多維度微能力識(shí)別中仍取得了較高的預(yù)測(cè)準(zhǔn)確率,達(dá)到了每個(gè)微能力的準(zhǔn)確率0.6以上的效果,存在極個(gè)別子類誤差是可接受的?;煜仃嚱Y(jié)果表明,當(dāng)理論框架本身的類別區(qū)分難度較大時(shí),深度學(xué)習(xí)模型需要獲取和學(xué)習(xí)更多同類數(shù)據(jù),才能繼續(xù)提高識(shí)別任務(wù)的準(zhǔn)確率。
3. 微能力識(shí)別的可視化表征
依托基于預(yù)訓(xùn)練的ERNIE模型,可以對(duì)信息化教學(xué)課堂進(jìn)行微能力自動(dòng)化識(shí)別和可視化表征。本研究選取上海市某中學(xué)周老師的一堂課作為案例,課程為滬教版初中化學(xué)九年級(jí)上冊(cè)2.1《認(rèn)識(shí)空氣大家族》,該課依托移動(dòng)聽評(píng)課平臺(tái)進(jìn)行直播,獲得65條其他評(píng)課教師的反饋文本。利用ERNIE模型進(jìn)行微能力識(shí)別預(yù)測(cè)并提取關(guān)鍵詞,識(shí)別結(jié)果覆蓋了9個(gè)微能力點(diǎn),可視化結(jié)果如圖3所示。分析發(fā)現(xiàn),這是一堂實(shí)驗(yàn)操作課,實(shí)驗(yàn)動(dòng)畫資源(A2)、實(shí)操展示活動(dòng)(A4)和教師對(duì)實(shí)驗(yàn)的講解(A6)等是這堂課的重點(diǎn),因此評(píng)課教師對(duì)這些部分給予了更多關(guān)注和反饋。此外,教師還對(duì)實(shí)驗(yàn)演示過程中的失誤和誤差轉(zhuǎn)換成巧妙的學(xué)生討論活動(dòng)(A8),啟發(fā)學(xué)生思考。值得一提的是,這堂課沒有完整覆蓋13個(gè)微能力點(diǎn)。這是由于每堂課因教學(xué)目標(biāo)、內(nèi)容和方法不同,課堂呈現(xiàn)各有側(cè)重,評(píng)課教師只能立足課堂特點(diǎn)進(jìn)行肯定、點(diǎn)評(píng)和建議等反饋,未必都覆蓋13個(gè)微能力點(diǎn)。隨著教師累積的課堂數(shù)據(jù)不斷增多,則能夠獲得完整的個(gè)體信息化教學(xué)微能力畫像。與此同時(shí),若基于大量課堂數(shù)據(jù)仍無法全覆蓋13個(gè)微能力點(diǎn),這也反映出教師的能力短板。
圖3 ? 基于《認(rèn)識(shí)空氣大家族》的教師信息化
教學(xué)微能力可視化表征
五、結(jié) ? 語
本研究提出了一種利用評(píng)課文本自動(dòng)化識(shí)別和可視化表征教師微能力的方法,基于預(yù)訓(xùn)練的ERNIE模型取得最佳實(shí)驗(yàn)效果,準(zhǔn)確率達(dá)到86.43%,優(yōu)于一般的深度學(xué)習(xí)模型。這證明了預(yù)訓(xùn)練模型能夠引入外部數(shù)據(jù)進(jìn)行自主學(xué)習(xí),這一優(yōu)勢(shì)恰好彌補(bǔ)了教育領(lǐng)域自建數(shù)據(jù)數(shù)量有限的不足。在能力測(cè)評(píng)方面,與大規(guī)模調(diào)研相比,該方法更加客觀便利,盤活教師教研過程生成的海量反饋文本資源,從他者視角分析教師在真實(shí)課堂中的信息化教學(xué)能力;與微認(rèn)證相比,該方法更加常態(tài)高效,數(shù)據(jù)來源于教師日常教學(xué),支持面向教師的常態(tài)化自動(dòng)反饋,用較小成本豐富了教師成長的證據(jù)。需說明的是,教師信息化教學(xué)微能力自動(dòng)識(shí)別是常態(tài)化反饋的支持手段,提供了強(qiáng)化過程和改進(jìn)結(jié)果的教師專業(yè)發(fā)展證據(jù)視角,并非全盤否定大規(guī)模調(diào)研和微認(rèn)證測(cè)評(píng),對(duì)于“能力提升工程”等大規(guī)模、終結(jié)性評(píng)價(jià)需求而言,仍有必要采集教師的綜合性成長證據(jù)鏈進(jìn)行能力認(rèn)證。
將模型嵌入聽評(píng)課系統(tǒng),可應(yīng)用于以下教育場(chǎng)景:其一,生成評(píng)課標(biāo)簽集,支持教學(xué)改進(jìn)。評(píng)課文本被自動(dòng)識(shí)別至13個(gè)微能力點(diǎn),任課教師依此了解一堂課的高頻關(guān)注點(diǎn),針對(duì)性復(fù)盤、采納建議和調(diào)整教學(xué)計(jì)劃。其二,輔助個(gè)體教師的信息化教學(xué)微能力畫像。隨著聽評(píng)課常態(tài)化開展,豐富的評(píng)課反饋能夠描摹出教師的信息化教學(xué)特征、偏好和不足,使個(gè)體畫像更加豐滿,為能力提升工程成效評(píng)估提供佐證。其三,形成群體教師的信息化教學(xué)微能力圖譜,體現(xiàn)學(xué)校信息化成效。信息化管理者和決策者能夠了解和評(píng)估學(xué)校各學(xué)段、各學(xué)科的信息化教學(xué)樣態(tài),通過校本應(yīng)用考核找準(zhǔn)薄弱處并提供專業(yè)發(fā)展支持。同時(shí),后續(xù)研究將不斷深耕以下方向:在微能力識(shí)別方面,利用基于預(yù)訓(xùn)練的深度學(xué)習(xí)進(jìn)一步實(shí)現(xiàn)混合學(xué)習(xí)環(huán)境和智慧學(xué)習(xí)環(huán)境下的微能力識(shí)別研究。此外,可基于更大數(shù)據(jù)體量和更多數(shù)據(jù)模態(tài)實(shí)現(xiàn)微能力的診斷、測(cè)評(píng)與預(yù)測(cè),減輕人力資源負(fù)擔(dān)。在方法應(yīng)用方面,未來可將基于預(yù)訓(xùn)練的深度學(xué)習(xí)遷移至教育領(lǐng)域的其他小樣本、多分類任務(wù)場(chǎng)景,能夠有效提升任務(wù)效果,使教育領(lǐng)域的自然語言處理更細(xì)粒度、精準(zhǔn)化和高效化。
[參考文獻(xiàn)]
[1] 教育部.關(guān)于實(shí)施全國中小學(xué)教師信息技術(shù)應(yīng)用能力提升工程2.0的意見[EB/OL].(2019-04-02)[2022-07-15].http://www.moe.gov.cn/srcsite/A10/s7034/201904/t20190402_376493.html.
[2] 教育部教師工作司.關(guān)于印發(fā)《全國中小學(xué)教師信息技術(shù)應(yīng)用能力提升工程2.0校本應(yīng)用考核指南》的通知[EB/OL].(2021-08-15)[2022-07-15].https://www.edu.cn/xxh/focus/zc/202109/t20210910_2153759.shtml.
[3] 魏非,宮玲玲,章玉霞,祝智庭.基于微能力的教師信息化教學(xué)能力測(cè)評(píng)模型[J].現(xiàn)代遠(yuǎn)程教育研究,2021,33(6):94-102.
[4] 駱舒寒,林世員,馮曉英,王冬冬,馬小強(qiáng).教師培訓(xùn)助力教師信息化教學(xué)能力提升——基于培訓(xùn)成效的年度比較研究[J].中國電化教育,2021(6):128-134.
[5] 孫妍妍,吳雪琦,王超,顧小清.中小學(xué)教師信息化教學(xué)能力調(diào)研[J].開放教育研究,2021,27(1):84-93.
[6] 閆寒冰,林梓柔,湯猛.關(guān)注差異的信息化教學(xué)課堂評(píng)價(jià)指標(biāo)設(shè)計(jì)與應(yīng)用[J].電化教育研究,2022,43(8):92-100.
[7] 陳玲,楊丹,黃馨然.移動(dòng)聽評(píng)課是否促進(jìn)教師平等交流和深度協(xié)同——一項(xiàng)基于移動(dòng)聽評(píng)課工具的實(shí)證研究[J].中國電化教育,2018(6):107-114.
[8] KLEINKNECHT M, GR?魻SCHNER A. Fostering preservice teachers' noticing with structured video feedback: results of an online-and video-based intervention study[J]. Teaching and teacher education, 2016, 59: 45-56.
[9] RICO-JUAN J R, GALLEGO A J, CALVO-ZARAGOZA J. Automatic detection of inconsistencies between numerical scores and textual feedback in peer-assessment processes with machine learning[J]. Computers & education, 2019, 140: 103609.
[10] 汪維富,毛美娟,閆寒冰.精準(zhǔn)教研視域下的教師評(píng)課反饋分析模型研究[J].電化教育研究,2022,43(1):122-128.
[11] KADHIM A I. Survey on supervised machine learning techniques for automatic text classification[J]. Artificial intelligence review, 2019, 52(1): 273-292.
[12] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[13] MINAEE S, KALCHBRENNER N, CAMBRIA E, et al. Deep learning based text classification: a comprehensive review[J]. ACM computing surveys (CSUR), 2021, 54(3): 1-40.
[14] 王保華,熊余,姚玉,儲(chǔ)雯,呂翊.基于深度學(xué)習(xí)的學(xué)生教學(xué)評(píng)價(jià)情感分析[J].電化教育研究,2021,42(4):101-107.
[15] 馬玉慧,夏雪瑩,張文慧.基于深度學(xué)習(xí)的教師課堂提問分析方法研究[J].電化教育研究,2021,42(9):108-114.
[16] LIU P, YUAN W, FU J, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing[J]. arXiv preprint arXiv:2107.13586, 2021.
[17] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st Annual Conference on Neural Information Processing Systems. IL: Long Beach, 2017.
[18] SUN Y, WANG S, LI Y, et al. Ernie: enhanced representation through knowledge integration[J]. arXiv preprint arXiv:1904.09223, 2019.
Research on Automatic Identification of Teachers' Micro-competence in Informatization Teaching Based on Pre-training
LIN Zirou1, ?YAN Hanbing2
(1.Department of Education Information Technology, East China Normal University, Shanghai 200062;
2.School of teacher development, East China Normal University, Shanghai 200062)
[Abstract] Teachers' informatization teaching ability is the key to reflect the effectiveness of deep integration of education informatization. In order to explore an assessment method with easy access to evidence, automatic analysis and sustainable feedback, this paper proposes an automatic identification method of teachers' micro-competence in informatization teaching based on pre-training. Specifically, based on 13 micro-competence including four dimensions of learning situation analysis, instructional design, learning method guidance and academic evaluation, a deep learning model based on pre-training is used to conduct an experiment on 16,371 feedback texts of informatization classroom. The progressive experimental results show that compared to traditional deep learning models, the pre-training model generally has higher accuracy, with a maximum improvement of 16%. The pre-training of domain-general corpus effectively solves the problem of lack of self-constructed data in education. In the pre-training model, ERNIE achieves the optimal performance with 86.43% accuracy and small confusion deviation. This method can automatically identify and visually represent teachers' micro-competence of informatization teaching based on the evaluation text, and provide regular feedback support. Finally, this paper expounds its application scenarios in teacher teaching and research, competency portrait and development decision-making, and puts forward future research directions.
[Keywords] Informatization Teaching; Micro-competence; Visiting and Evaluating Class Observation; Deep Learning; Pre-training