王保華 熊余 姚玉 儲雯 呂翊
[摘? ?要] 隨著教育信息化建設的深入推進,教學系統(tǒng)中積累了海量的學生教學評價數(shù)據(jù),這些數(shù)據(jù)蘊含了豐富的信息,亟待挖掘利用。為了挖掘學生教學評價中的情感傾向,為提高教學質量提供科學依據(jù),文章提出了一種基于雙通道深度記憶網(wǎng)絡的深度學習模型,用于學生教學評價的方面級情感分析。在該模型中,設計了雙通道策略以充分提取評語中隱含的局部特征和上下文依賴信息,并使用循環(huán)注意力機制提取與特定教學方面相關的情感信息以實現(xiàn)細粒度的方面級情感分析。通過在真實的教學評價數(shù)據(jù)集上進行實驗,結果表明,所提出的方法能有效挖掘學生評價中關于不同教學方面的情感傾向,為教師和教學管理者了解并改進教學提供依據(jù)。
[關鍵詞] 學生教學評價; 情感分析; 深度學習; 深度記憶網(wǎng)絡; 卷積神經(jīng)網(wǎng)絡
一、引? ?言
提高教學質量是當前教育的核心任務,也是建設教育強國的基本要求。提高教學質量,首先要能對教學質量進行客觀科學的評判或評價。由于教學服務的直接受眾是學生,故學生對教學的反饋信息在教學質量評價中至關重要[1-2]。學生教學評價(Student Evaluations of? Teaching,SET)是各類學校廣泛使用的收集課程教學質量反饋信息的方法,能較好地反映學生對教學的滿意度,可以作為教學管理部門衡量教學效果的重要手段,也可以用于幫助任課教師有針對性地改進教學。此外,SET還常常用于輔助行政決策,如作為教師職稱晉升和崗位聘用的依據(jù)或參考[3]??梢?,SET已經(jīng)成為一種普遍采用的教學評價與管理制度,是教學體系內涵建設的重要內容[4]。
隨著教育信息化的深入推進,SET已經(jīng)逐步電子化[5],然而,由于其龐大的數(shù)據(jù)量,通過人工獲取學生的反饋信息仍然十分繁瑣。文本情感分析(Sentiment Analysis,SA)主要是基于文本數(shù)據(jù)研究人們對于商品、服務、事件等對象的情感、意見或態(tài)度,可以實現(xiàn)文本數(shù)據(jù)的自動化處理。因此,如何利用情感分析技術從大量的SET數(shù)據(jù)中挖掘學生的情感傾向,是充分實現(xiàn)SET教學功能的關鍵,也是目前教育領域亟待解決的重要問題之一[6]。
現(xiàn)有的SA方法主要有基于詞典的方法、基于機器學習(Machine Learning,ML)的方法和基于深度學習(Deep Learning,DL)的方法[7]。其中,基于詞典的方法主要利用情感詞典將語料庫中表達情感的關鍵詞提取出來,進而對目標語句進行情感分析[8]?;谠~典的方法能體現(xiàn)文本的非結構化特征,在情感詞典覆蓋率和標注準確率較高的情況下分類效果較理想[9],然而,此類方法依賴語料庫的領域、語言等背景知識,在實踐中難以構建高質量的情感詞典。基于ML的方法可以通過語句中詞語級別的情感特征準確捕獲文本中有用的情感信息,這種詞級特征可以將語義信息表示成向量形式,方便衡量兩個詞之間的相似度,因而在情感分析任務中表現(xiàn)良好[10]。據(jù)此,F(xiàn)rancis F. Balahadia等人開發(fā)了一個基于意見挖掘和情感分析的教師績效評價系統(tǒng),將學生教學評價中的情感信息作為教師績效的評價標準之一[11]。Qika Lin等人分別使用樸素貝葉斯(Naive Bayesian,NB)、邏輯回歸等機器學習方法,自動從學生教學評價中分析學生的情感傾向,并比較了這些方法的性能表現(xiàn),進而實際應用于學校教學管理系統(tǒng)的學生評教環(huán)節(jié)[12]?;贛L的方法簡單易用,但是這種詞級特征過于依賴特征提取,對復雜句式的建模并不理想。近年來,隨著基于DL的情感分析研究取得重大的進展,各種DL模型被用來分析產品評論、社交媒體評論的情感傾向,并取得了良好的效果[13],因而研究者開始將其應用于教育領域[14-17]。Chiu-Wang Tseng等人設計了一個決策支持系統(tǒng),使用了NB、深度神經(jīng)網(wǎng)絡、注意力機制的循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)和長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)等多種方法對學生教學評價問卷的評語進行情感分析,并將結果作為學校評選優(yōu)秀教師的參考依據(jù)[18]。
然而,上述研究多是對教學評價進行句子或篇章級的情感分析,忽略了學生教學評價中細粒度的情感,即未考慮教學評價中學生對教學態(tài)度、教學方法等某個特定方面的情感傾向,難以讓教師有針對性地改進教學。為此,本文設計了一種基于雙向門控循環(huán)單元(Bidirectional-Gated Recurrent Unit, Bi-GRU)和CNN的雙通道深度記憶網(wǎng)絡(Dual-Channel Deep Memory Network,DDMN),以用于學生教學評價的方面級情感分析(Aspect Based Sentiment Analysis,ABSA)。左通道中基于CNN的深度記憶網(wǎng)絡(Deep Memory Network,DMN)提取評語中的局部特征,右通道中基于Bi-GRU的DMN提取上下文依賴信息,將兩個通道得到的情感特征加以融合并通過Softmax分類器得到評語關于特定方面的情感傾向。
二、問題描述
SET的評語作為最直觀的學生反饋,包含豐富的信息。觀察評語可以發(fā)現(xiàn),很多評語不僅表達了對教學整體的積極或者消極的情感,還表達了對教學的某個具體方面的情感。例如:評語“非常棒的教授、非常好的教學技巧、謝謝老師給我們上這門課”中,表達了學生對教師“教學方法”方面的認同,即表達了對該方面的積極情感。并且,通過對各個教學方面的挖掘分析,能深入了解學生對不同教學方面的關注程度。SET中這種細粒度的情感,表達了學生更加真實的感受,可以幫助教師和管理者更加了解教學效果,進而為教學反思和針對性的教學改進提供科學依據(jù)。
與電商產品評論相比,SET評語中的情感更加隱晦,情感特征提取更困難。如電商產品評論表達對某產品消極的情感可能很直接:“這個相機的畫質很差”,對于這種直接性的評語采用CNN提取局部特征效果良好。而學生對某教師教學效果持負面評論時,可能表述更為委婉,例如:比較性評語“李老師的課相比張老師的課還有提升空間”,或者“希望老師能配備一個好的助教”,這使得傳統(tǒng)的機器學習和CNN難以捕獲其中的情感特征。這時需要通過評語的語境,即上下文的依賴信息來綜合判斷評語的情感傾向,而RNN能很好地提取這種上下文的依賴信息,進而得到更準確的情感特征。
三、雙通道深度記憶網(wǎng)絡模型
DDMN模型用于SET方面級情感分析的流程如圖1所示。其中,SET數(shù)據(jù)收集和預處理部分是為了從教學評價網(wǎng)站獲取真實的學生評價數(shù)據(jù),經(jīng)預處理后將其作為情感分析所需的SET數(shù)據(jù)集。情感分析部分則是利用DDMN模型來提取評語的情感特征,進而得到其情感標簽。其中,左右兩個通道分別是兩個深度記憶網(wǎng)絡,均包括記憶模塊、循環(huán)注意模塊兩個部分,不同之處在于,左通道由CNN構建記憶模塊,右通道由Bi-GRU構建記憶模塊。給定一條來自評語數(shù)據(jù)集的評語,首先通過詞嵌入模塊得到評語的上下文表示,并將其分別輸入左、右通道中的記憶模塊。然后,左、右通道分別通過循環(huán)注意模塊從各自的記憶模塊中多次關注并提取特定方面的相關信息,以得到更準確的情感特征。最后,將兩個通道得到的情感特征相融合以獲取最終的情感特征f,并輸入分類器得到該評語的情感標簽。
(一)數(shù)據(jù)收集與預處理
隨著在線學習平臺、學評教信息系統(tǒng)、教學質量監(jiān)控系統(tǒng)的應用,逐漸積累了大量SET數(shù)據(jù)。盡管不同系統(tǒng)的SET有著不同的評價指標和方式,但主要都包括定量的評分和定性的評語兩種。在獲取上述數(shù)據(jù)后,可先根據(jù)數(shù)據(jù)的實際情況進行數(shù)據(jù)清洗,去除空白評語和包含無法識別的特殊字符的評語,然后進行評語情感標簽和方面標簽的標注。進行情感標注時,由于評分定量地表達了學生的情感,因此,可以作為評語情感標簽的依據(jù),而方面標注的依據(jù)是評語中是否出現(xiàn)方面詞。
(二)詞嵌入模塊
在處理定性的評語文本時,為了將非結構化的文本語句表示為計算機程序可識別的數(shù)據(jù),需要將每個詞映射成一個低維、連續(xù)、實值的向量,即評語的詞嵌入。設L∈Rd×|V|是由GloVe生成的嵌入查找表,其中,d代表詞嵌入的維度,|V|代表查找表的大小,所有的詞向量都堆疊在該嵌入矩陣中[20]。給定由n個詞語組成的評語S={w1,w2,...,wi,...,wn},其中,第i個詞wi為方面詞,輸入模塊從L檢索詞向量,將評語和對應的方面i映射到低維向量,得到評語的向量表示X={x1,x2,...,xi,...,xn}。將其中的方面詞的向量xi抽取出來,作為后續(xù)循環(huán)注意模塊的輸入,其余的評語上下文表示x1,...,xi-1,xi+1,...,xn作為左、右通道的記憶模塊的輸入。
(三)記憶模塊
1. 左通道:CNN構建記憶模塊
由于CNN能夠快速訓練模型并從語句序列中獲取上下文的局部特征,因此,其被廣泛用于情感分析任務。CNN構建記憶模塊主要由輸入層、卷積層、池化層組成,當輸入為評語s={w1,w2,...,wi,...,wn}時,通過詞嵌入后,CNN的輸入即為去除方面詞的評語上下文:
2. 右通道:Bi-GRU構建記憶模塊
評語中的情感特征不僅包括單個單詞和局部特征,而且還包括上下文依賴性強的短語類特征。如在評語“李老師上課很有特點,不過我有點難以接受”中,“很有特點”和“難以接受”表達的情感信息完全不同。對于這種委婉表達的評語,為了能更加準確地對學生評價進行情感分類,需要盡可能地利用評語的上下文依賴信息來提取出更準確的情感特征。
RNN是一種能夠對可變長語句序列進行建模,并捕獲語句中單詞間長期依賴信息的模型,其被廣泛應用于自然語言處理領域的文本語義信息建模,因此,使用RNN可以有效捕獲評語中的上下文依賴信息。然而,委婉表達的評語一般是較長的復雜句,而RNN的記憶周期相對較短且容易發(fā)生梯度爆炸或梯度消失問題。GRU作為RNN的一種改進模型,其參數(shù)數(shù)量相對較少,訓練更加容易,因而能夠在情感分析、圖像分類等任務中取得更優(yōu)異的性能表現(xiàn)。GRU單元包括更新門和復位門,對應兩個Sigmoid非線性激活函數(shù)。更新門和復位門都能夠獨立地控制上一個時刻隱藏狀態(tài)信息的輸入,更新門用來控制當前狀態(tài)需要遺忘的歷史信息量和接收的新信息量,復位門用來控制候選狀態(tài)中的歷史信息量,其模型結構如圖2所示??梢詫RU模型簡化為:
然而,由于評語上下文存在依賴性,即每個詞的語義同時與前面的詞和后面的詞相關,而GRU內部的隱藏狀態(tài)只保留了評語前面的詞的語義信息,忽略了后面的詞的語義信息。因此,這里可使用同時組合前向GRU和后向GRU的雙向GRU網(wǎng)絡。該網(wǎng)絡將每個GRU單元輸出拼接成最終輸出,使每個單元的輸出都包含了輸入評語中各個詞的完整上下文信息。雙向GRU在 t時刻輸出隱藏層狀態(tài)ht為:
(四)循環(huán)注意模塊
由于評語中每個詞對于情感分析的重要程度不同,通過Bi-GRU和CNN得到的各個記憶片對情感的貢獻也各不相同。例如:評語“上課比較拖拉,喜歡布置作業(yè),學生很累但成績有保障”的語境較為豐富,這里“但成績有保障”比上文的“拖拉”“很累”更重要。為了能關注到評語中的重要信息,可使用深度記憶網(wǎng)絡來實現(xiàn)對記憶的循環(huán)注意,以充分利用記憶中的有用信息,從而獲取更準確的情感特征。循環(huán)注意模塊由多個計算層(hop)組成,每個計算層都包含一個注意力層和線性層,其結構如圖3所示。在第一個計算層(hop1)中,方面的向量表示xi作為輸入,通過注意力層對記憶片進行加權后自適應地從記憶M中提取出情感信息,再將此信息與輸入的線性變換相加作為輸出,并將結果作為下一層(hop2)的輸入;通過疊加hop,使得記憶中的有用信息被多次提取,最后一層中的輸出向量被認為是該語句的情感表示,將其用作方面情感分類的特征進行分類。
在每個計算層里,首先需要構建注意力機制以提取記憶中的信息,假設共有K個計算層,則對于每一個記憶片mj,使用前饋神經(jīng)網(wǎng)絡來計算它與輸入的相關性,計算公式為:
(五)情感分類器模塊
對記憶進行多次關注、提取信息后,最后一個計算層的輸出向量xik即為該通道中評語的情感特征,將兩個通道得到的情感特征進行拼接得到最終的情感特征f,將其輸入到一個Softmax分類器中進行情感分類:
、實驗與結果分析
(一)實驗數(shù)據(jù)集描述
為了收集一個關于SET的文本語料庫,我們利用爬蟲技術從美國著名的教師評價網(wǎng)站www. ratemyprofessors.com收集了4.49萬條學生對教師的評論。在這個網(wǎng)站上,學生可以編輯文本發(fā)表對各個教師的定性評語,并用5分制對教師進行整體性的定量評分。經(jīng)數(shù)據(jù)清洗后,按照上述方法對原始評語數(shù)據(jù)進行數(shù)據(jù)預處理,步驟如圖4所示。
首先,對每條評語進行情感標注,將整體分數(shù)小于或等于2.0的評語標記為“消極”,大于或等于4.0的評語標記為“積極”,其他的評語標記為“中性”;然后,對描述過長的評語進行評語分割,將其劃分為多個簡單句,其中,每個簡單句表達獨立含義的評語,情感標簽為原評語的標簽;最后,對每條評語進行方面標注,先根據(jù)語義人工構建方面的詞典,如“教學態(tài)度”的詞典包含“態(tài)度”“認真負責”等詞語,如果評語中出現(xiàn)這些詞,則將其標注為“教學態(tài)度”。其他評語同理,對于沒有出現(xiàn)此類詞的評語標注為“others”。
通過上述方法得到經(jīng)預處理的由44382條SET評語組成的數(shù)據(jù)集,每條評語都有方面標簽和情感標簽,該數(shù)據(jù)集的統(tǒng)計信息見表1。
(二)實驗結果與分析
為了驗證所提深度學習模型對學生教學評教情感分析的有效性,將SET數(shù)據(jù)集中約10%的關于同一教師的評語作為驗證集,其余數(shù)據(jù)作為訓練集進行實驗。首先,與單通道模型進行對比實驗,詞向量維度設為300維,其準確率、宏F1均值如圖5所示??梢钥闯?,雙通道的DDMN模型性能最佳,單通道的Bi-GRU模型次之。其中,在計算層數(shù)為4層時,雙通道DDMN模型準確率分別較單通道Bi-GRU和CNN提高了3.26%、4.98%,宏F1均值分別提高了4.13%、5.89%。這是由于CNN提取局部特征的特性難以有效地對學生評語中委婉的情感表達進行建模,而Bi-GRU網(wǎng)絡能有效地提取學生評語中的上下文依賴信息,因而能更好地捕獲學生評語中的隱晦的情感特征,取得優(yōu)于CNN網(wǎng)絡的效果。DDMN模型結合了CNN、Bi-GRU提取的情感特征,故能有效地提取委婉的學生評語中的情感特征,得到最優(yōu)的情感分類效果。
然后,與現(xiàn)有研究中常用的五種效果較好的方法進行分類準確率的對比,包括樸素貝葉斯(NB)[12]、支持向量機(SVM)[9]、注意力機制的長短期記憶網(wǎng)絡(AT-LSTM)[18]、卷積神經(jīng)網(wǎng)絡(CNN)[16]和基于ELMo的情感分類方法(ELMo-ACSA)[19],結果見表2??梢姡珼DMN模型獲得了比現(xiàn)有方法更好的分類效果,其中,CNN和AT-LSTM分別取得了72.59%和74.11%的準確率,這是由于AT-LSTM能有效提取評語中的上下文依賴信息,并且利用注意力機制給特定詞語賦予權重,而CNN不擅長處理長語句,容易忽略評語的上下文依賴信息。DDMN模型不僅結合了AT-LSTM和CNN的優(yōu)勢,還使用了循環(huán)注意力機制,因而準確率達到了79.61%。
通過挖掘學生教學評價中的情感傾向,可以了解更加真實的教學情況。例如:由驗證集的情感分析結果(見表3)可知,該教師在“教學方法”“教學效果”兩個方面的“積極率”分別為40.83%、34.99%,顯著高于表1中教師群體在這兩個方面的36.28%和32.91%的“積極率”,但是“教學效果”方面的“積極率”略低于該教師自身總體“積極率”的35.99%。因此,可以認為該教師在“教學方法”方面表現(xiàn)較好,而“教學效果”方面表現(xiàn)一般且大部分教師在“教學效果”方面都表現(xiàn)一般。類似地,通過對特定教師或者特定方面以及總體的情感分析結果進行對比分析和相關性分析,可以全面地了解真實的學生感受和教學情況,進而幫助改善教學效果、提高教學質量。此外,在實際教學實踐中還可以根據(jù)不同的教學場景和需求來確定不同的“方面”,如教師和教學管理者對教學的關注點可能不同,那么對學生教學評價進行情感分析時的“方面”也就不同。
五、結? ?語
學生教學評價是了解教學情況、提高教學質量的重要依據(jù),故挖掘其中的情感傾向進而反饋于教學具有重要的研究意義。針對現(xiàn)有學生教學評價情感分析的有關研究沒有考慮特定教學方面的情感且在情感分析時容易忽略評語中的局部特征和上下文依賴信息的問題,為了更精準地挖掘學生教學評價中的情感傾向,本研究提出了一種基于雙通道深度記憶網(wǎng)絡的深度學習模型。通過在真實的評語數(shù)據(jù)中進行實驗,表明所提出的模型能有效改善情感分析的效果,從而為教師和教學管理者了解教學情況、針對性地改進教學提供科學依據(jù)。由于學生的情感是多因素相互作用產生的,學生評價中蘊含的情感也與學生個人表現(xiàn)有潛在的聯(lián)系,因此,下一步工作可結合學生個人特質和學習情況來對學生評語進行情感挖掘分析。
[參考文獻]
[1] 盛津芳,董科,李龍,等.基于Web的學生反饋系統(tǒng)的構建及在高校教學中的實踐分析[J].電化教育研究,2015,36(1):48-54.
[2] PARDO A, HAN F, ELLIS R A. Combining university student self-regulated learning indicators and engagement with online learning events to predict academic performance[J]. IEEE transactions on learning technologies, 2017, 10(1):82-92.
[3] 孫眾,蘧征,楊現(xiàn)民,等.有意義的大數(shù)據(jù)與教學優(yōu)化改革[J].電化教育研究,2018,39(3):43-48.
[4] 杜江,程建鋼.數(shù)據(jù)驅動的高校學生評教實施策略研究[J].中國電化教育,2019(9):112-120.
[5] 熊余,儲雯,蔡婷,於隆甲,田航.高校教育大數(shù)據(jù)應用支撐體系的設計與實踐[J].現(xiàn)代教育技術,2020,30(11):91-97.
[6] ROMERO C, VENTURA S.? Educational data mining and learning analytics: an updated survey[J]. Wiley interdisciplinary reviews: data mining and knowledge discovery, 2020, 10(3): 1-21.
[7] 李然,林政,林海倫,等.文本情緒分析綜述[J].計算機研究與發(fā)展,2018,55(1):30-52.
[8] SIVAKUMAR M, REDDY U S. Aspect based sentiment analysis of students opinion using machine learning techniques[C]//2017 International Conference on Inventive Computing and Informatics (ICICI).Coimbatore: IEEE Press,2017:726-731.
[9] RANI S, KUMAR P. A Sentiment analysis system to improve teaching and learning[J]. Computer, 2017, 50(5):36-43.
[10] GUTIERREZ G, CANUL-REICH J, ZEZZATTI A O, MARGAIN L, Ponce J. Mining: students comments about teacher performance assessment using machine learning algorithms[J]. International journal of combinatorial optimization problems and informatics, 2018:9(3), 26-40.
[11] BALAHADIA F F, FERNANDO M C G, JUANATAS I C. Teacher's performance evaluation tool using opinion mining with sentiment analysis[C]// 2016 IEEE Region 10 Symposium (TENSYMP). Bali: IEEE Press,2016:95-98.
[12] LIN Q, ZHU Y, ZHANG S, et al. Lexical based automated teaching evaluation via students' short reviews[J]. Computer applications in engineering education, 2019, 27(1):194-205.
[13] WADAWADAGI R, PAGI V. Sentiment analysis with deep neural networks: comparative study and performance assessment[J]. Artificial intelligence review, 2020(5):1-41.
[14] 陳德鑫,占袁圓,楊兵.深度學習技術在教育大數(shù)據(jù)挖掘領域的應用分析[J].電化教育研究,2019,40(2):68-76.
[15] 徐振國,張冠文,孟祥增,等.基于深度學習的學習者情感識別與應用[J].電化教育研究,2019,40(2):87-94.
[16] ONAN A. Mining opinions from instructor evaluation reviews: a deep learning approach[J]. Computer applications in engineering education, 2020, 28(1) :117-138.
[17] CABADA R Z, ESTRADA M L B, BUSTILLOS R O. Mining of educational opinions with deep learning[J]. Journal of universal computer ence, 2018, 24(11):1604-1626.
[18] TSENG C W, CHOU J J, TSAI Y C. Text mining analysis of teaching evaluation questionnaires for the selection of outstanding teaching faculty [J]. IEEE access, 2018, (6): 72870-72879.
[19] WANG Y, YANG Z, TIAN F, et al. ELMo-ACSA based multi-aspect view mining of students' reviews on teaching[C]// 2019 5th International Conference on Big Data and Information Analytics (BigDIA). Kunming: IEEE Press,2019:78-83.
[20] PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg:ACL Press, 2014:1532-1543.