李洋洋,譚 曦,陳艷平,唐瑞雪,唐向紅,林 川
(1. 公共大數(shù)據(jù)國家重點實驗室,貴州 貴陽 550025;2. 貴州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025;3. 貴州青朵科技有限公司,貴州 貴陽 550025)
2018年,教育部發(fā)行了《教育信息化2.0行動計劃》[1]以推動教育的現(xiàn)代化建設(shè),培養(yǎng)創(chuàng)新型人才。在《2020年教育信息化和網(wǎng)絡(luò)安全工作要點》中,國家又提出啟動“百區(qū)千校萬課”引領(lǐng)行動,樹立區(qū)域性標桿,以此推動各地智慧教育建設(shè)水平的提升[2]。由此看出隨著教育信息化的發(fā)展,智慧教育得到逐步推廣。智慧教育作為一種全面、豐富、多元、綜合的教育方式,既可以提高學(xué)生學(xué)習(xí)的趣味性,又可以調(diào)動學(xué)生學(xué)習(xí)的積極性、主動性;還可以突破傳統(tǒng)教學(xué)模式中的時空限制。試題知識點分類作為智慧教育領(lǐng)域中的一項基礎(chǔ)性工作,其主要任務(wù)是預(yù)測試題所考察的知識點。試題知識點是對試題考察內(nèi)容的概括,如物理學(xué)科的知識點包括電磁學(xué)、力學(xué)、電學(xué)等。通過試題知識點分類并結(jié)合學(xué)生的學(xué)習(xí)記錄,不僅可以了解學(xué)生對知識點的掌握情況,還可以為相似試題檢測[3-4]、智能組卷[5-6]、試卷質(zhì)量評估[7]、個性化試題推薦[8-9]等下游任務(wù)提供支撐。
試題是命題者按照一定的考核要求編寫出來的題目。通過對初高中物理試題的分析可知以下兩點: ①試題由題面、答案、解析等構(gòu)成; ②試題中存在多源異構(gòu)數(shù)據(jù),如試題文本、圖片等信息。試題信息如表1所示。
表1 試題信息
通過上述試題信息可知,該試題考查的一級知識點為電磁學(xué),二級知識點為電磁學(xué)下的電場。隨著知識點層數(shù)的增加,知識點的數(shù)量也在增加,這不僅會影響試題知識點的分類性能,而且還將加劇小樣本試題占比的程度,導(dǎo)致分類器難以從小樣本試題中學(xué)習(xí)到有用的特征。傳統(tǒng)的試題知識點分類方法僅關(guān)注試題中的文本信息,而試題圖片作為試題的組成部分,也包含直接的語義信息。由于不同模態(tài)的試題特征之間存在互補關(guān)系,為了使試題的特征信息更加豐富飽滿,本文提出了一種基于多模態(tài)學(xué)習(xí)的試題知識點分類方法。本文主要工作如下:
(1) 結(jié)合試題圖片提出了一個基于協(xié)同注意力機制的多模態(tài)融合模型,分別通過試題文本引導(dǎo)試題圖片的注意力和試題圖片引導(dǎo)試題文本的注意力來融合試題文本和試題圖片的特征,以獲取更豐富的試題語義信息;
(2) 在某教育機構(gòu)提供的物理試題數(shù)據(jù)集上進行驗證分析,表明本文所提模型既可有效提高試題知識點的分類性能,可有效緩解小樣本試題知識點分類中的特征稀疏問題。
針對多模態(tài)數(shù)據(jù)的試題知識點分類問題,其相關(guān)工作可分為以下兩種,即試題知識點分類和多模態(tài)融合。
傳統(tǒng)的知識點分類方法有兩種,即手工標注方法[10]和基于機器學(xué)習(xí)的方法?;谑止俗⒌姆椒ú粌H耗時耗力,而且需要具備高水平的專業(yè)知識,同時由于不同專家標注標準的不同,因此存在標注主觀性強、一致性低等問題。傳統(tǒng)的基于機器學(xué)習(xí)的方法主要采用向量空間模型(Vector Space Model,VSM)[11]和支持向量機(Support Vector Machines,SVM)[12]。例如,植兆衍等人[13]設(shè)計了一個基于VSM的試題分類系統(tǒng),對試題按知識點進行分類。朱劉影等人[14]借助TF-IDF提取試題中的關(guān)鍵詞,然后將SVM作為分類器對地理試題知識點進行分類。郭崇慧等人[15]利用基于集成學(xué)習(xí)的方法來構(gòu)建多個SVM基分類器以預(yù)測數(shù)學(xué)試題考查的知識點。以上方法雖然解決了標注一致性低的問題但僅關(guān)注試題文本的淺層特征。因此,梁圣[16]采用雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,Bi-LSTM)對試題進行語義編碼,然后通過分類器對試題知識點進行分類。胡國平等[17]提出了一種教研知識強化的卷積神經(jīng)網(wǎng)絡(luò)方法對試題知識點進行分類。上述研究均利用試題文本信息進行分類,忽略了試題圖片與試題文本之間的深層語義關(guān)聯(lián),從而導(dǎo)致對試題的理解不充分。通過對數(shù)據(jù)集的統(tǒng)計分析可知,在物理試題數(shù)據(jù)集中約42%的試題均帶有圖片信息。因此,結(jié)合試題圖片信息進行試題知識點分類是有必要的。以下將介紹多模態(tài)融合的研究現(xiàn)狀。
多模態(tài)由兩種或兩種以上的不同模態(tài)數(shù)據(jù)組合而成。不同模態(tài)的數(shù)據(jù)雖然在本質(zhì)上是異質(zhì)的,但是在模態(tài)內(nèi)部的特征中,模態(tài)之間又是相互關(guān)聯(lián)的。多模態(tài)融合就是利用計算機進行多模態(tài)數(shù)據(jù)的綜合處理[18],如文本和圖片、視頻和音頻等。本文的多模態(tài)數(shù)據(jù)融合屬于文本和圖片的融合,許多學(xué)術(shù)專家在此方面進行了大量的研究。例如,Liu等人[19]提出了一個基于注意力機制的多模態(tài)神經(jīng)網(wǎng)絡(luò)模型,用于學(xué)習(xí)多模態(tài)試題數(shù)據(jù)的統(tǒng)一表示,然后將其應(yīng)用于相似試題檢測中。Yin等人[20]通過嵌入層將異構(gòu)的試題數(shù)據(jù)映射到一個統(tǒng)一的空間中,然后采用層級預(yù)訓(xùn)練算法以無監(jiān)督學(xué)習(xí)的方式獲取試題的表示,并將其應(yīng)用到試題難度評估和學(xué)生學(xué)習(xí)行為預(yù)測中。Truong等人[21]提出了一種視覺注意力網(wǎng)絡(luò)VistaNet,用于對齊不同模態(tài)的情感信息,以將其應(yīng)用于情感分類中。Huang等人[22]結(jié)合注意力機制,對文本和圖片分別建模,然后對新生成的文本和圖片特征進行融合,最后使用融合后的特征進行情感分類。Wang等人[23]提出了一個多模態(tài)圖卷積網(wǎng)絡(luò)來建模文本信息和圖片信息以獲取統(tǒng)一的語義表示,最后將其應(yīng)用于假新聞檢測中。
上述方法忽略了各模態(tài)內(nèi)部信息與模態(tài)之間交互作用的結(jié)合,無法有效捕獲不同模態(tài)之間的交互。
給定試題文本T={t1,t2,…,tn}和試題圖片I,其中n為試題文本信息的總長度,試題文本信息包括試題題面文本信息、試題答案和試題解析。試題知識點分類的目標是學(xué)習(xí)一個分類模型Ω,從中預(yù)測試題所考察的知識點Y,即
Ω(T,I)→Y
(1)
本文受Zhang等人[24]提出的應(yīng)用于命名實體識別任務(wù)的自適應(yīng)協(xié)同注意力網(wǎng)絡(luò)的啟發(fā),提出了一個基于多模態(tài)學(xué)習(xí)的試題知識點分類模型。結(jié)合基于Transformer的雙向編碼器表示(Bidirectional Encoder Representation from Transformers,BERT)[25]、文本卷積神經(jīng)網(wǎng)絡(luò)(Text Convolutional Neural Network,TextCNN)[26]、深層卷積神經(jīng)網(wǎng)絡(luò)VGG-Net16[27]和協(xié)同注意力機制的特點,采用BERT預(yù)訓(xùn)練模型獲取試題文本的詞向量表示,并通過TextCNN捕獲不同粒度的試題文本特征;然后采用深層卷積神經(jīng)網(wǎng)絡(luò)VGG-Net16捕獲試題的圖片特征;再將兩者的特征通過協(xié)同注意力機制進行融合;最后采用全連接層輸出試題知識點的分類結(jié)果。本文將從試題文本特征獲取、試題圖片特征獲取、基于協(xié)同注意力的多模態(tài)試題數(shù)據(jù)融合和試題知識點分類四個方面介紹該模型。模型結(jié)構(gòu)如圖1所示。
圖1 基于多模態(tài)學(xué)習(xí)的試題知識點分類模型
BERT因其在Transformer的基礎(chǔ)上,采用大規(guī)模語料訓(xùn)練使之擁有強大的特征表示能力被廣泛應(yīng)用于預(yù)訓(xùn)練和下游任務(wù)中。因此,本文采用BERT預(yù)訓(xùn)練模型獲取試題文本信息的詞向量。令試題文本序列的詞向量表示如式(2)所示。
w={w1,w2,…,wn}
(2)
其中,w∈n×d,d為詞向量的維度,n為試題文本的長度,wi表示第i個字的詞向量表示。
在分類任務(wù)中,TextCNN常被用于建立N-gram的語義特征,本文借助TextCNN的該特點捕獲不同粒度的試題文本特征。令卷積核的窗口大小為[l1,l2,…,lk],卷積核為[H1,H2,…,Hk],Hj∈lj×d,經(jīng)過卷積后所生成的試題文本特征圖表示式(3)~式(5)所示。
其中,lj為卷積核的窗口大小,f為非線性激活函數(shù),bci為偏置項。C表示所有卷積核對應(yīng)的特征圖。為了捕獲試題文本中的重要特征,對卷積后得到的特征向量采取最大池化的操作,以輸出試題文本中的重要特征表示如式(6)所示。
(6)
最后,我們將不同卷積核窗口對應(yīng)的試題文本的重要特征進行拼接,作為試題文本特征表示。
(7)
其中,⊕表示拼接操作。
CNN在圖像處理領(lǐng)域擁有廣泛的應(yīng)用。為了獲取圖片信息的高階特征表示,現(xiàn)有方法多采用深層卷積神經(jīng)網(wǎng)絡(luò)。本文借助ImageNet中預(yù)訓(xùn)練的VGG-Net16捕獲試題的圖片特征。VGG-Net16由五段卷積神經(jīng)網(wǎng)絡(luò)和三段全連接層組成。由于試題圖片大小不一,因此首先將其處理為固定大小224×224 像素。為了獲取試題圖片的高階特征表示,本文選取VGG-Net16最后一層(池化層)的輸出作為試題的圖片特征,其大小為7×7×512,其中512為圖片特征向量的維度,7×7為特征圖的數(shù)量。因此,試題圖片可以被表示如式(8)所示。
(8)
為了獲得相同維度的圖片特征和文本特征,本文借助一個簡單的線性層對圖片特征向量進行轉(zhuǎn)換,如式(9)所示。
(9)
由于試題知識點類別繁多,導(dǎo)致小樣本試題知識點分類性能較差。為了捕獲更豐富的試題語義信息,本文采用協(xié)同注意力機制,分別通過試題文本引導(dǎo)的試題圖片的注意力和試題圖片引導(dǎo)的試題文本的注意力來融合試題文本和試題圖片的特征。
3.3.1 試題文本引導(dǎo)的注意力機制
通過對試題文本和試題圖片的分析可知,試題文本和試題圖片之間存在一定的關(guān)聯(lián)。因此,直接利用試題文本特征與圖片特征預(yù)測試題考查的知識點將引入更多的噪聲,導(dǎo)致性能下降。通過試題文本引導(dǎo)試題圖片的注意力將會使注意力更多地關(guān)注與試題文本相關(guān)的區(qū)域。
3.3.2 試題圖片引導(dǎo)的注意力機制
通過試題文本引導(dǎo)的注意力機制將會使注意力更多地關(guān)注與試題文本相關(guān)的區(qū)域。通過試題圖片引導(dǎo)的注意力機制可以將注意力更多地關(guān)注到與試題圖片相關(guān)的試題文本。因此,采用更新后的試題圖片特征引導(dǎo)的注意力機制獲取與試題圖片相關(guān)的試題文本的表示,相關(guān)計算如式(13)~式(15)所示。
其中,hT為重要的試題文本特征。Wvj、WT、Wβj都為權(quán)重矩陣,βj∈k,表示在試題文本中的重要特征的注意力分布,其值在[0-1]之間。為更新后的試題文本特征表示。
3.3.3 多模態(tài)試題數(shù)據(jù)融合
通過上述的協(xié)同注意力機制可以得到新生成的試題圖片特征表示和試題文本特征表示。為了獲取更豐富的試題語義信息,本文借助一個多模態(tài)門控機制對更新后的試題文本特征和試題圖片特征動態(tài)融合,以選擇更適合于試題知識點分類的特征。最后,由于并非所有試題文本中的重要特征都與試題圖片關(guān)聯(lián),因此在多模態(tài)融合特征中可能會引入一些冗余信息和噪聲。為了解決該問題,本文通過一個過濾門對試題文本與圖片的融合特征中的噪聲進行過濾。多模態(tài)融合門的相關(guān)公式如式(16)~式(19)所示。
過濾門的相關(guān)公式如式(20)~式(22)所示。
經(jīng)過基于協(xié)同注意力機制的多模態(tài)試題數(shù)據(jù)融合模塊后,本文獲得了試題文本和試題圖片特征的融合表示。最后通過一個全連接層輸出試題知識點的分類結(jié)果,如式(23)所示。
(23)
其中,y為每類知識點對應(yīng)的分類概率,Wy為全連接層的權(quán)重矩陣。
本文所用數(shù)據(jù)集由貴州青朵科技有限公司提供。該數(shù)據(jù)集為物理學(xué)科試題數(shù)據(jù)集。試題知識點由該學(xué)科教育學(xué)領(lǐng)域?qū)<掖_定,并在其指導(dǎo)下由一線任課教師進行人工標注,對于標注不一致的試題再由任課教師和學(xué)科專家共同討論確定。由于并非所有試題都有圖片信息,因此本文從10 000道初高中物理試題中抽取出帶有圖片信息的4 279道試題作為該文的數(shù)據(jù)集,并將其按照8∶1∶1的比例切分為訓(xùn)練集、驗證集和測試集。在該數(shù)據(jù)集中一級知識點有12個,二級知識點有54個。以一級知識點“力學(xué)”為例,該教育機構(gòu)的試題知識點體系結(jié)構(gòu)如表2所示。
表2 知識點體系結(jié)構(gòu)
圖2為試題樣本分布圖,為了便于統(tǒng)計,圖中將樣本量小于100的知識點歸為其他類。通過分析可知,隨著知識點層數(shù)的增加,知識點的數(shù)量也在增加,這將導(dǎo)致每類二級知識點對應(yīng)的試題樣本量減少,即小樣本試題占比增加。
圖2 試題樣本分布圖
為了評價本文所提方法對試題知識點的分類效果。本文使用準確率(Accuracy,Acc)、宏平均精準率(Macro_P)、宏平均召回率(Macro_R)、宏平均F1值(Macro_F)作為評價指標。其公式分別為:
其中n為試題總數(shù)。P、R、F的表示如下:
令試題所考察的知識點原本為y,則TP表示試題所考察的知識點被正確預(yù)測為y的試題數(shù)量;FN表示試題所考察的知識點被錯誤預(yù)測的試題數(shù)量;FP表示試題所考察的知識點本來不是y,但被錯誤預(yù)測為y的試題數(shù)量;TN表示試題所考察的知識點本來不是y,預(yù)測的知識點也不是y的試題數(shù)量。
本文分別將RoBERTa和TAL-EduBERT作為預(yù)訓(xùn)練模型訓(xùn)練試題文本的詞向量。由于試題文本的平均長度為217,因此本文將試題文本長度設(shè)置為220,如果試題文本超過該長度,則截斷;反之,則填充。設(shè)卷積核的窗口大小為[2,2,3,3,4,4],每個尺寸對應(yīng)的卷積核數(shù)量為256。由于試題中圖片的尺寸大小不一,因此將試題圖片大小處理為固定尺寸224×224×3。圖片特征的維度設(shè)置為512,圖片特征圖的數(shù)量為7×7。
如果使用預(yù)訓(xùn)練模型提取試題文本詞向量表示,則模型的學(xué)習(xí)率設(shè)置為0.000 01;如果選用隨機生成的詞向量表示,則模型的學(xué)習(xí)率設(shè)置為0.001。損失函數(shù)選用交叉熵損失函數(shù),訓(xùn)練批次為16,Dropout設(shè)置為0.5。
為了驗證本文所提模型的有效性,本文選用TextCNN、Bi-LSTM、FastText、RoBERTa、RoBERTa+TextCNN、TAL-EduBERT+TextCNN作為基線模型。這些模型均僅利用單一的試題文本信息進行分類。一級知識點的實驗結(jié)果如表3所示,二級知識點的實驗結(jié)果如表4所示。
表3 一級知識點的實驗結(jié)果 (單位:%)
表4 二級知識點的實驗結(jié)果 (單位:%)
表中“Ours”表示TextCNN的多模態(tài)融合模型;“Ours+Ro”表示RoBERTa+TextCNN的多模態(tài)融合模型;“Ours+Edu”表示TAL-EduBERT+TextCNN的多模態(tài)融合模型。實驗結(jié)果表明,本文所提方法在一級知識點和二級知識點上均優(yōu)于上述基線模型。與TextCNN模型的實驗結(jié)果相比,本文所提方法的準確率在一級知識點上提高了3.5%,在二級知識點上提高了4.91%;宏平均F1值在一級知識點上提高了10.51%,在二級知識點上提高了13.47%。這表明結(jié)合試題圖片信息可以捕獲更豐富的試題語義信息。
為了證明本文所提方法可以有效提高小樣本試題知識點的分類性能,本文分別選取5個典型的一級知識點和6個典型的二級知識點。在所選一級知識點中,能量、運動和相互作用的試題樣本較多,物質(zhì)居中,力學(xué)和電磁學(xué)對應(yīng)的試題樣本較少。在所選的二級知識點中,知識點歐姆定律和電流與電路的試題樣本占比較高,其余四種占比較低。圖3為五種典型的一級知識點的分類結(jié)果, 圖4為六種典型的二級知識點的分類結(jié)果。由圖可知,本文所提方法可以顯著提高小樣本試題知識點的分類性能,從而進一步提高總體性能。
圖3 五種典型的一級知識點的分類結(jié)果
圖4 六種典型的二級知識點的分類結(jié)果
為了進一步驗證本文所提方法的有效性,本文進行了消融分析,即在未使用預(yù)訓(xùn)練模型的基礎(chǔ)上分別去除協(xié)同注意力層、多模態(tài)融合門、過濾門。Co-att表示去除協(xié)同注意力層;Fus-gate表示去除多模態(tài)融合門;Fil-gate表示去除過濾門。表5為一級知識點消融實驗的結(jié)果,表6為二級知識點消融實驗的結(jié)果。通過分析可知,去除協(xié)同注意力層、多模態(tài)融合門、過濾門中的任意一個都將導(dǎo)致試題知識點分類性能下降。對實驗結(jié)果影響最大的為過濾門,其次為多模態(tài)融合門,最后為協(xié)同注意力層。且過濾門對二級知識點的實驗結(jié)果影響最大。原因可能是二級知識點類別繁多,導(dǎo)致試題知識點分類難度較大,通過過濾門可以很好地過濾掉與該類別無關(guān)的冗余信息,從而提高細粒度知識點的分類性能。
表5 一級知識點消融實驗結(jié)果 (單位:%)
表6 二級知識點消融實驗結(jié)果 (單位:%)
本文針對小樣本試題知識點分類性能較差的問題,考慮到試題圖片作為試題的一部分,其包含直接的語義信息,因此提出了一個基于多模態(tài)學(xué)習(xí)的試題知識點分類模型。通過結(jié)合試題圖片使試題的特征信息更加豐富飽滿。在某教育機構(gòu)提供的初高中物理試題數(shù)據(jù)集上進行驗證,相比僅使用試題文本信息的方法,本文所提方法可以捕獲更豐富的試題語義信息,以提高小樣本知識點的分類性能,從而進一步提高總體性能。由于本文試題知識點體系結(jié)構(gòu)為兩層,因此下一步將考慮如何構(gòu)建級聯(lián)模型,同時輸出一級知識點和二級知識點。