肖 正,朱靖宇,宋 超,劉孝炎,魏鵬程
(湖南大學(xué)信息科學(xué)與工程學(xué)院,湖南 長沙 410082)
隨著互聯(lián)網(wǎng)的迅速發(fā)展和人工智能、大數(shù)據(jù)、云計算等技術(shù)迅速發(fā)展,傳統(tǒng)課堂教學(xué)已無法滿足當(dāng)代師生的需求。于是探索信息技術(shù)與教育的深度融合,實施信息化教學(xué)[1]。學(xué)生上課產(chǎn)生的疑惑不僅僅與學(xué)生的課堂專注度相關(guān),教師的授課水平與知識點的難易程度也會影響學(xué)生。因此學(xué)生專注度、教師授課水平和知識點難易程度三者密切相關(guān)。由于知識點之間相互聯(lián)系,若學(xué)生困惑知識無法被及時解答,則會導(dǎo)致其難以聽懂授課內(nèi)容。在教學(xué)過程中,會產(chǎn)生許多數(shù)據(jù),獲取和分析課堂教學(xué)數(shù)據(jù),可精準(zhǔn)掌握教師授課情況,并且,教師可針對性地修改授課形式與教學(xué)計劃。因此,面對豐富的課堂學(xué)情數(shù)據(jù),如何有效利用和分析數(shù)據(jù)至關(guān)重要。
由于互聯(lián)網(wǎng)學(xué)習(xí)資源繁雜冗余,學(xué)生往往需要花費大量時間尋找針對性的學(xué)習(xí)資料,降低了學(xué)習(xí)效率。部分教學(xué)資源缺乏趣味性,導(dǎo)致學(xué)生學(xué)習(xí)興趣降低,閱讀積極性不高。面對海量互聯(lián)網(wǎng)學(xué)習(xí)資源,如何針對性為學(xué)生推薦風(fēng)格化的學(xué)習(xí)資源,提高學(xué)生學(xué)習(xí)興趣和積極性也是急需解決的問題。
國內(nèi)很多高校在課堂教學(xué)方面仍然延續(xù)著傳統(tǒng)教學(xué)手段,課堂智能信息化程度不高。智能技術(shù)的迅速發(fā)展為智慧課堂提供了便利,將傳統(tǒng)課堂改造為智能教學(xué)課堂,應(yīng)用智能化技術(shù)賦能,支持教師精準(zhǔn)化教學(xué),滿足學(xué)生個性化學(xué)習(xí)。智能教學(xué)課堂可利用人工智能技術(shù)分析課堂的行為狀態(tài);其次基于大數(shù)據(jù)分析學(xué)生聽課效率和教師授課效果,以全面了解課堂情況,提高課堂學(xué)情數(shù)據(jù)的利用率;最后利用大量互聯(lián)網(wǎng)學(xué)習(xí)課程,為學(xué)生提供豐富的學(xué)習(xí)資源。
孫曙光等[2]利用微服務(wù)器、云計算等技術(shù)手段,依據(jù)學(xué)生行為構(gòu)建動態(tài)學(xué)習(xí)數(shù)據(jù)分析和云端應(yīng)用智慧課堂信息環(huán)境,實現(xiàn)教與學(xué)的有效互動。劉邦奇[3]通過創(chuàng)設(shè)智慧型學(xué)習(xí)環(huán)境、基于動態(tài)學(xué)習(xí)數(shù)據(jù)的收集和分析,以數(shù)據(jù)化方式呈現(xiàn)學(xué)生學(xué)習(xí)的全過程及效果,使教學(xué)過程從依賴教師的教學(xué)經(jīng)驗轉(zhuǎn)向客觀數(shù)據(jù),依靠數(shù)據(jù)精準(zhǔn)掌握學(xué)情,提高教學(xué)過程中的數(shù)據(jù)分析及資源推送能力。同時,作為科技行業(yè)巨頭的騰訊、百度、科大訊飛等公司對智慧教育提出了新的解決方案。百度智慧課堂[4]通過教育大數(shù)據(jù)實現(xiàn)校園數(shù)據(jù)互通、資源多端同步、學(xué)情智能分析等功能,為師生提供智能化的課堂解決方案。雖然智慧課堂在教學(xué)應(yīng)用中取得了一定的效果,但經(jīng)過分析調(diào)研表明,還有許多改進(jìn)空間,主要體現(xiàn)在以下2 點:
(1)孫曙光等[2-3]缺乏對學(xué)生、教師授課水平、知識點難度的綜合分析。學(xué)生對課堂知識的掌握情況與教師授課水平和知識點的難易程度具有關(guān)聯(lián)性,課堂數(shù)據(jù)分析不夠深入,可能會導(dǎo)致學(xué)習(xí)診斷不準(zhǔn)確。
(2)百度智慧課堂[4]等所包含的互聯(lián)網(wǎng)資源繁雜,缺少針對性的知識點和資源推薦,然而提供的學(xué)習(xí)資源與學(xué)生自身需求缺乏相關(guān)性,部分資源枯燥乏味,導(dǎo)致學(xué)生課后學(xué)習(xí)興趣與積極性不高。
基于以上考慮,本文設(shè)計了基于智慧課堂的三位一體化輔助學(xué)習(xí)平臺,通過人工智能技術(shù)與課堂結(jié)合,采集和分析整個教學(xué)過程的數(shù)據(jù),全面展示課堂授課情況,同時推薦滿足學(xué)生個性化需求的學(xué)習(xí)資源,及時為學(xué)生提供針對性的答疑解惑。本文的主要工作如下:
(1)考慮到學(xué)生對知識點的疑惑程度不僅與自身專注度和教師授課水平有關(guān),而且與課堂知識點的難易程度具有關(guān)聯(lián)性。通過基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Convolutional Neural Network,MTCNN)[5]技術(shù)將檢測的人臉進(jìn)行靜態(tài)表情識別[6],然后與人眼張合度相結(jié)合判斷學(xué)生上課的專注度。對于教師生動程度的判斷,基于Openpose 模型[7]檢測教師姿態(tài),通過教師授課身體擺動的幅度對生動度進(jìn)行判斷。最后,在文字識別中應(yīng)用注意力機制,精準(zhǔn)識別教師所述內(nèi)容,準(zhǔn)確無誤地提取知識點信息。
(2)由于知識點之間是相互聯(lián)系的,如果知識點不能被及時解答,疑惑知識堆積,學(xué)生聽課難度上升,就會導(dǎo)致上課效率降低。因此本文基于準(zhǔn)確的學(xué)情分析,為學(xué)生推薦針對性的學(xué)習(xí)資源,并及時解答學(xué)生的疑問。
(3)基于TextRank[8]算法將學(xué)習(xí)資源內(nèi)容風(fēng)格化,根據(jù)學(xué)生學(xué)習(xí)習(xí)慣、興趣愛好及場景,生成學(xué)生喜聞樂見的風(fēng)格化學(xué)習(xí)資源。例如:知識的摘要生成、圖文并茂、符合學(xué)者文學(xué)風(fēng)格的閱讀內(nèi)容等學(xué)習(xí)資源。
最后,通過湖南大學(xué)大學(xué)物理課程實踐調(diào)研表明:模型人臉識別準(zhǔn)確率達(dá)到99%;文字識別準(zhǔn)確率達(dá)到92%;學(xué)生的4 個評估指標(biāo)中,非常滿意平均占比為31.4%,滿意平均占比為51.9%。學(xué)生普遍認(rèn)為三位一體化的輔助學(xué)習(xí)平臺效果顯著,針對性的學(xué)習(xí)資源推薦能夠為他們提供學(xué)習(xí)指導(dǎo),減少疑惑知識點,提高聽課效率。而且風(fēng)格化學(xué)習(xí)資源能讓學(xué)生輕松愉快的學(xué)習(xí),提高學(xué)習(xí)興趣與積極性。
本文中展示了兩大系統(tǒng)智慧課堂系統(tǒng)、APP 資源推薦端和六大功能。其中,包括學(xué)生專注度分析、教師生動度分析、黑板紙知識點提取、針對性資源推薦、知識點摘要生成、風(fēng)格化資源生成以及學(xué)生、教師、家長、管理者四大用戶。平臺框架如圖1 所示,具體介紹如下:
(1)學(xué)生專注度分析通過捕捉學(xué)生表情及人眼張合度分析學(xué)生課堂專注情況。
(2)教師生動度分析主要根據(jù)教師鼻子、眼睛、手肘、肩膀等關(guān)鍵點位置擺動的幅度進(jìn)行分析判斷。此外結(jié)合多模態(tài)技術(shù),添加姿態(tài)、表情和聲音數(shù)據(jù),以準(zhǔn)確判斷教師生動度。
(3)黑板知識點提取通過準(zhǔn)確識別黑板上的文字并結(jié)合知識庫提取知識點,并分析知識點的難易程度。
(4)針對性資料推送基于課堂三要素作出全面的學(xué)情診斷,然后針對學(xué)生疑問,基于知識圖譜知識點匹配和推薦,為學(xué)生推薦符合需求的學(xué)習(xí)資源。
(5)知識點摘要式總結(jié)是風(fēng)格化學(xué)習(xí)資源的一部分,主要將冗余、過長的學(xué)習(xí)內(nèi)容,處理成簡潔明了的摘要文檔供學(xué)生閱讀。
(6)風(fēng)格化學(xué)習(xí)資源生成要考慮學(xué)生的學(xué)習(xí)習(xí)慣、興趣愛好及所處場景,為學(xué)生生成樂于接受,符合學(xué)生需求的個性化學(xué)習(xí)資源。
Fig.1 Framework of learning assistant platform integrating three key elements圖1 三位一體輔助學(xué)習(xí)平臺框架
本文所提出的基于智慧課堂的三位一體化輔助學(xué)習(xí)平臺框架如圖2 所示。該平臺分為數(shù)據(jù)分析與數(shù)據(jù)服務(wù)兩部分。數(shù)據(jù)分析部分,基于深度學(xué)習(xí)平臺與InsightFace[9]模型的人臉識別和基于MTCNN 的靜態(tài)表情識別模型,結(jié)合改進(jìn)后的文字識別技術(shù)對黑板板書內(nèi)容進(jìn)行識別及知識匹配,分析課堂數(shù)據(jù)。同時基于Flink 流處理引擎加速深度學(xué)習(xí)平臺的實時處理,通過Web 端動態(tài)展示課堂教學(xué)情況。數(shù)據(jù)服務(wù)基于全面的課堂數(shù)據(jù)分析,結(jié)合多標(biāo)簽分類、知識圖譜、推薦算法等技術(shù)為學(xué)生推薦針對性的風(fēng)格化學(xué)習(xí)資源。
Fig.2 Technology framework of Smart Class圖2 智慧課堂技術(shù)框架
為滿足本文學(xué)生人臉識別、表情識別、教師姿態(tài)識別、黑板板書內(nèi)容識別等需求,本文搭載了多個深度學(xué)習(xí)框架,包括Tensorflow、Caffe、MXNet、Keras、Torch、Pytorch 等及用于人臉識別的InsightFace 模型、基于MTCNN 的靜態(tài)表情識別模型、用于教師姿態(tài)識別的Openpose 模型、基于YOLOV3[10]的黑板檢測和基于AOA[11](Attention on Attention)注意力機制的文字識別模型。提供了從模型開發(fā)、訓(xùn)練、部署的完整流程和工具,支持高性能GPU 和分布式訓(xùn)練功能,同時配備良好的深度學(xué)習(xí)硬件平臺,全面提高AI 應(yīng)用開發(fā),滿足開發(fā)者對各模型搭建的需求,為快速融入后續(xù)模型接口提供便利。通過AI 賦能課堂,分析學(xué)生上課的專注度、教師授課生動度和黑板知識點提取所組成的三要素課堂數(shù)據(jù),產(chǎn)生一體化學(xué)情數(shù)據(jù),為應(yīng)用平臺提供海量數(shù)據(jù)支撐。
為提高效率,需要對上課教學(xué)視頻進(jìn)行加速處理,能否實時、快速對學(xué)生進(jìn)行表情識別、教師姿態(tài)識別和黑板板書內(nèi)容識別則格外重要。但經(jīng)過深度學(xué)習(xí)訓(xùn)練后模型網(wǎng)絡(luò)結(jié)構(gòu)較深,體積較大,處理數(shù)據(jù)所需時間較長。因此,如何快速、準(zhǔn)確處理視頻數(shù)據(jù),縮短處理時間則成為目前亟待解決的問題。選擇使用基于流處理的推理服務(wù)平臺,在智慧課堂中主要負(fù)責(zé)2 方面:①基于Flink 流處理引擎,配合深度學(xué)習(xí)模型緩存和模型劃分、放置策略,綜合降低視頻幀處理延遲;②平臺負(fù)責(zé)維護(hù)、管理和更新智慧課堂所使用的深度學(xué)習(xí)模型,包括人臉識別模型、人體姿態(tài)識別模型、文字識別模型等,為用戶提供一體化服務(wù)。本文使用Flink 作為計算引擎,計算效率更高,方便系統(tǒng)部署、管理和維護(hù),有效降低了推理延遲。
平臺通過融合多標(biāo)簽分類與知識點圖譜技術(shù),實現(xiàn)學(xué)習(xí)資源分類,減少人力標(biāo)注成本,提升推薦資料實用性和相關(guān)性。針對知識點在爬取相關(guān)網(wǎng)絡(luò)學(xué)習(xí)資源時,由于知識點之間具有層級關(guān)系,學(xué)習(xí)資源分類問題難以解決,例如物理中“電學(xué)—電流—電荷”三個標(biāo)簽具有層級關(guān)系,在為學(xué)生推薦學(xué)習(xí)資源時,如何提高推薦資源實用性及相關(guān)性則至關(guān)重要。
文本多標(biāo)簽分類技術(shù)在智慧課堂系統(tǒng)中應(yīng)用于各學(xué)科學(xué)習(xí)資源的分類。首先,構(gòu)建多學(xué)科知識庫,將各學(xué)科知識點按照樹狀結(jié)構(gòu)組合,確定知識點間的關(guān)系。隨后,將文本形式的學(xué)習(xí)資源歸類為樹狀知識點結(jié)構(gòu),實現(xiàn)學(xué)習(xí)資源分類,減少人力標(biāo)注成本。
對于知識圖譜應(yīng)用,旨在通過建立知識點數(shù)據(jù)間的關(guān)聯(lián)性形式知識庫,讓數(shù)據(jù)更容易被人和機器理解和處理,便于課堂知識點匹配。同時,構(gòu)建課程知識之間的關(guān)聯(lián)性圖譜幫助梳理整個學(xué)科的知識脈絡(luò),為學(xué)生推薦實用和相關(guān)性更強的學(xué)習(xí)資源。
項目的關(guān)鍵是需要可行性較高的技術(shù)分析課堂三要素。隨著人臉表情識別、姿態(tài)識別、文字識別等研究和深度學(xué)習(xí)模型愈發(fā)成熟,為項目提供了一定的理論基礎(chǔ)和技術(shù)支持。對于檢測學(xué)生專注度,首先基于人臉表情識別模型檢測學(xué)生基本表情,然后輔助眼睛和鼻子的張合度進(jìn)行矯正;對于教師生動度,基于Openpose 模型以及多模態(tài)技術(shù)分析教師的生動度;黑板知識點基于知識圖譜匹配知識點;學(xué)習(xí)資源風(fēng)格化則基于TextRank 算法生成簡潔明了的短文摘要。
分析學(xué)生上課的專注度,為學(xué)生推薦針對性的學(xué)習(xí)資源及與該知識點相關(guān)的學(xué)習(xí)資源,讓學(xué)生多角度、深層次進(jìn)行學(xué)習(xí),減少疑惑知識點堆積。教師可及時了解本堂課學(xué)生的上課效率及對于各知識點的理解情況,便于教師及時修改教學(xué)計劃,提高教學(xué)質(zhì)量。
學(xué)生表情識別使用了Lopes 團隊基于卷積神經(jīng)網(wǎng)絡(luò)的面部表情識別分類器[6],該模型的基本結(jié)構(gòu)如圖3 所示。其中包含了5 個卷積層,6 個隨機池層和6 個完全連接層,級聯(lián)了6 個state-of-the-art 人臉檢測算法,從而保證人臉檢測的正確性。此處自適應(yīng)地為每個網(wǎng)絡(luò)分配不同權(quán)重,即學(xué)習(xí)集合權(quán)重設(shè)置為w。獨立訓(xùn)練多個不同初始化的CNN并輸出訓(xùn)練響應(yīng)。在加權(quán)的集合響應(yīng)上定義了訓(xùn)練損失,通過w優(yōu)化以最小化該損失。在測試中,學(xué)習(xí)的w也被用以計算整體測試響應(yīng),架構(gòu)最后有P 個Dense,通過P 個擾動樣本輸出結(jié)果,作為圖像的預(yù)測值。在本文模型中,為了能在一定程度上實現(xiàn)數(shù)據(jù)增強,將圖像尺寸歸一化、直方圖均衡化并去均值除方差。
Fig.3 Static facial expression recognition model圖3 靜態(tài)表情識別模型
在課堂環(huán)境下,由于學(xué)生眼睛的張合度與其上課狀態(tài)密切相關(guān),如果僅通過基本表情評判學(xué)生專注度分析結(jié)果,準(zhǔn)確度不高,可將人眼張合度納入學(xué)生專注度狀態(tài)評價指標(biāo)之一。由于人眼呈現(xiàn)橢圓狀,為了方便圖形處理將眼睛面積視為長方形,張合度為人眼長方形中寬度和長度的比值,比值越大則表示越專注。但在實際訓(xùn)練中,課堂學(xué)生較為密集,單張人臉分辨率較低,人眼面積更小,故考慮使用雙眼和鼻子3 個關(guān)鍵點的角度關(guān)系代替眼睛張合度評價指標(biāo)。
經(jīng)過數(shù)據(jù)處理發(fā)現(xiàn)可知,鼻子的位置相對固定。在攝像頭位置不變的情況下,學(xué)生抬頭、低頭、側(cè)身等動作都會影響實際截取人臉中雙眼和鼻子的角度關(guān)系。例如若學(xué)生低頭,則監(jiān)控攝像截取人眼面積較小,鼻子位置相對較高,造成夾角C 相對較大;若學(xué)生抬頭,攝像頭截取人眼面積仍然較小,鼻子位置相對不變,夾角C 也會變大;若學(xué)生側(cè)臉,則某一只眼睛和鼻子的距離就會變小,從而導(dǎo)致夾角C 變大。如圖4 所示,采取三點檢測法可大幅度降低計算量,并提升系統(tǒng)疑惑度分析的準(zhǔn)確度。
通過分析已有數(shù)據(jù),將角度C 的閾值設(shè)置為66°最為適合,則夾角余弦的閾值為0.41,大于0.41 則可判定為專注狀態(tài),否則為不專注狀態(tài)。
最后本模塊結(jié)合專注度評判準(zhǔn)則修正最基本的靜態(tài)表情判斷。若情緒判斷為疑惑狀態(tài)且眼鼻關(guān)鍵點角度正常,則修正為正常狀態(tài);若眼鼻關(guān)鍵點異常,則仍然為疑惑。若情緒判斷為正常且眼鼻關(guān)鍵點角度正常,則為專注,否則為正常態(tài)。最終的結(jié)果以正常、專注、疑惑三種狀態(tài)呈現(xiàn)。
Fig.4 Eye and nose angle evaluation圖4 人眼鼻子角度評價
在課堂上,教師的行為狀態(tài)包含了許多信息,例如從教師的授課語氣、授課姿態(tài)變化中,可反應(yīng)當(dāng)前所講知識點的重要程度,這些信息可用來輔助智慧課堂的建設(shè)。
如圖5 所示,OpenPose[7]人體姿態(tài)識別是美國卡耐基梅隆大學(xué)基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)并以caffe 框架開發(fā)的開源庫??蓪崿F(xiàn)人體動作、面部表情、手指運動等姿態(tài)估計,適用性廣泛,具有極高的魯棒性。針對教師姿態(tài),采用OpenPose 模型能滿足項目的基本需求,對教師鼻子、眼睛、肩膀、耳朵等關(guān)鍵點進(jìn)行檢測識別,根據(jù)每一幀關(guān)鍵點的位置,采用歐氏距離計算相似度以計算教師授課的生動度。
Fig.5 Openpose model structure diagram圖5 Openpose 模型結(jié)構(gòu)
計算教師動作相似度方法參考KNN[12]分類算法,使用類似于基于距離圖像相似性度量方法進(jìn)行分類或匹配。由于輸入視頻幀的大小不一致,視頻幀中人的大小也不一致,因此需要歸一化處理不同大小視頻幀中大小不一人的相似度計算值。之后,針對教師姿態(tài)、表情及上課語音,利用多模態(tài)技術(shù)對三者數(shù)據(jù)進(jìn)行模態(tài)融合,對最終結(jié)果進(jìn)行判斷從而輔助建設(shè)智慧課堂。
知識點的難易程度因人而異,難度越大的知識點,學(xué)生的疑問也隨之越多。因此,需要針對疑問知識點為學(xué)生推薦學(xué)習(xí)資源。目前考慮基于深度學(xué)習(xí)技術(shù)提取黑板的板書內(nèi)容,接著對數(shù)據(jù)進(jìn)行清洗、切詞和去停用詞操作,對比分析處理后的數(shù)據(jù)與已有知識點,生成詞頻矩陣。最后,計算二者的余弦相似度,將余弦值大于一定閾值且與原知識點庫對比后不存在的知識點插入知識點庫中。
CTPN[13](Connectionist Text Proposal Network)是 一 種將CNN 和LSTM(Long Short-Term Memory,LSTM)結(jié)合的深度神經(jīng)網(wǎng)絡(luò),能有效檢測復(fù)雜場景中橫向分布的文字。但課堂環(huán)境特殊,受到光照、中文字符較多、識別圖像的分辨率等因素影響,導(dǎo)致CTPN 在課堂環(huán)境下檢測效果一般,識別率不高。同時,由于注意機制廣泛應(yīng)用于編碼、解碼器框架中,在每個時間步長生成編碼向量加權(quán)平均值以指導(dǎo)解碼過程。但解碼器幾乎無法查詢向量與輸入向量是否相關(guān),因此可能會使解碼器產(chǎn)生誤導(dǎo)。為了解決上述問題,通過引入“Attention on Attention”(AoA)模塊擴展常規(guī)的注意力機制,以確保注意力結(jié)果和查詢之間的相關(guān)性。
本模塊提出了端到端的基于編碼器—解碼器架構(gòu)的文本識別模型解決場景文本識別中存在的問題,模型由轉(zhuǎn)換(Trans)、特征提?。‵eat)、優(yōu)化模塊、序列建模(Seq)、預(yù)測(Pred)五部分組成,模型的結(jié)構(gòu)如圖6 所示。
(1)將圖片作為輸入,首先使用空間轉(zhuǎn)換器網(wǎng)絡(luò)標(biāo)準(zhǔn)化輸入文本圖像,將原始彎曲或者傾斜的圖像進(jìn)行標(biāo)準(zhǔn)化,簡化下游任務(wù),使下游特征提取階段不需要學(xué)習(xí)圖像文本的幾何形狀不變性表示。
(2)將標(biāo)準(zhǔn)化文本圖像通過CNN 進(jìn)行特征提取,重點關(guān)注與字符識別相關(guān)的屬性,抑制圖像中不相關(guān)的特征,比如字體、大小、顏色和背景。
(3)優(yōu)化模塊中,使用AoA 優(yōu)化模塊提取特征。通過多頭注意力機制對特征向量進(jìn)行建模,構(gòu)建圖像中字符間的關(guān)系,然后應(yīng)用AoA 確定其關(guān)聯(lián)程度。
(4)將優(yōu)化后的特征向量送入序列建模階段,該模塊基于BiLSTM 通過捕捉下一階段字符序列的上下文信息,從而更穩(wěn)健地預(yù)測每個字符。
(5)最后,使用AoA 模塊預(yù)測結(jié)果輸出。通過注意力機制幫助特征對齊,自動捕獲輸入序列內(nèi)的信息流以預(yù)測輸出序列。其中,擴展注意力機制模塊可過濾無關(guān)或誤導(dǎo)的注意力結(jié)果,僅保留有用信息。
Fig.6 Text recognition model圖6 文字識別模型
為了滿足不同學(xué)生的學(xué)習(xí)興趣,體現(xiàn)學(xué)習(xí)的個性化,通過處理推送的互聯(lián)網(wǎng)學(xué)習(xí)資源,將學(xué)習(xí)資源生成摘要式文本。TextRank 算法[8]是一種基于圖的文本排序算法,基本思想來源于谷歌的PageRank[14]算法,通過把文本分割成若干組成單元(單詞、句子)后建立圖模型,利用投票機制對文本的重要成分進(jìn)行排序,僅利用單篇文檔本身的信息即可實現(xiàn)關(guān)鍵詞提取、文摘。TextRank 簡潔有效,無需事先對多篇文檔進(jìn)行學(xué)習(xí)訓(xùn)練,通過使用TextRank 算法進(jìn)一步處理互聯(lián)網(wǎng)獲取的學(xué)習(xí)資源,可為學(xué)生生成簡潔明了的學(xué)生資源,便于閱讀。這是風(fēng)格化學(xué)習(xí)資源的一部分,此外還考慮了結(jié)合學(xué)生的興趣愛好、閱讀習(xí)慣,將學(xué)習(xí)內(nèi)容進(jìn)一步處理成為學(xué)生喜歡閱讀的方式。
將平臺分為4 個部分進(jìn)行介紹,依次為硬件平臺配置、系統(tǒng)實現(xiàn)效果圖、實驗結(jié)果分析和實踐效果?;诤洗髮W(xué)信息科學(xué)與工程學(xué)院三個班級大學(xué)物理課程進(jìn)行實踐。此外,以問卷調(diào)查的形式獲取學(xué)生反饋并作出簡要的分析。
硬件平臺主要分為深度學(xué)習(xí)硬件平臺和大數(shù)據(jù)硬件平臺配置,深度學(xué)習(xí)的機器配置為:GeForce GTX1080 顯卡和48GB 內(nèi)存,以及兩臺配備NVIDIA TITAN V 和128GB 內(nèi)存的服務(wù)器構(gòu)成,配置如表1 所示。
Table 1 Deep learning hardware configuration表1 深度學(xué)習(xí)硬件配置
通過集成Caffe、Tensor-Flow、PyTorch、Keras 等主流深度學(xué)習(xí)框架作為技術(shù)支持,全力加速深度學(xué)習(xí)領(lǐng)域的人工智能開發(fā)。大數(shù)據(jù)硬件平臺主要存儲教學(xué)視頻的流式數(shù)據(jù)和互聯(lián)網(wǎng)爬取的學(xué)習(xí)資源與課堂數(shù)據(jù)分析結(jié)果。通過5臺曙光服務(wù)器進(jìn)行試驗測試,配置如表2 所示。
Table 2 Big data storage platform configuration表2 大數(shù)據(jù)存儲平臺配置
Web 端和APP 端均有相應(yīng)的技術(shù)人員進(jìn)行開發(fā)和維護(hù)。如圖7 所示,首先在Web 端展示課堂(學(xué)生、教師和黑板知識點)三要素的學(xué)情分析結(jié)果。通過動態(tài)展示學(xué)生上課專注度、教師授課生動度情況、黑板板書內(nèi)容,學(xué)生能及時了解自己對知識點的疑惑程度,教師和管理者也能全面了解課堂的整體學(xué)情,并根據(jù)反饋信息及時修改教學(xué)方案。
接下來,介紹為學(xué)生推薦個性化學(xué)習(xí)資源的App 端。其中,第一部分為針對疑惑知識點的學(xué)習(xí)資源推送(含有百度百科、博客、PPT、視頻等);第二部分為趣味學(xué)習(xí)資源。通過對知識點資料的內(nèi)容凝煉,實現(xiàn)了知識點摘要生成功能,但這僅屬于實現(xiàn)風(fēng)格化生成的開始。相信隨著技術(shù)發(fā)展,風(fēng)格化學(xué)習(xí)資源的生成功能會越來越完善,可滿足不同學(xué)習(xí)者的需求。
4.3.1 實驗分析
Deng 等[9]所提出的InsightFace 模型與Yu 等[6]所提出的靜態(tài)表情識別模型對人臉和表情進(jìn)行識別。通過實驗證明:人臉識別準(zhǔn)確率達(dá)到95%,基本能夠滿足項目的需求;表情識別只有61.29%,有待改進(jìn)。下一步,將研究新的模型以更精確識別學(xué)生的表情特征。
Fig.7 Smart Class platform圖7 智慧課堂數(shù)據(jù)展示平臺
4.3.2 改進(jìn)后的模型實驗分析
(1)黑板檢測
①數(shù)據(jù)集
此方面工作較少,缺乏標(biāo)注完整的數(shù)據(jù)集,因此通過網(wǎng)絡(luò)采集、現(xiàn)場拍攝、同學(xué)收集等形式共制作300 張圖片。選取的標(biāo)準(zhǔn)為圖片中清晰、完整的黑板,并且黑板的大小至少占據(jù)圖片的四分之一,黑板的位置在圖片的中部或者兩側(cè)。在收集完畢之后,利用LabelImg 軟件標(biāo)注圖片。最終,將300 張圖片隨機分為train.txt、val.txt、test.txt,數(shù)量分別為240,30,30。在訓(xùn)練過程中,首先利用開源的ImageNet 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后利用標(biāo)注好的數(shù)據(jù)集進(jìn)行訓(xùn)練。
②黑板檢測實驗分析
由于要應(yīng)對課堂這一特殊環(huán)境,需要對YOLOv3 網(wǎng)絡(luò)模型進(jìn)行修改。原因有以下3 點:黑板目標(biāo)具有位置相對單一、類別相對固定的特點,檢測難度不高;針對課堂黑板中單一的目標(biāo)檢測,可通過壓縮網(wǎng)絡(luò),去除復(fù)雜的殘差層,進(jìn)一步提升訓(xùn)練效率和檢測速度;課堂黑板一般位于視頻中央或中央偏兩側(cè)位置,因此黑板會占據(jù)整體視頻圖像中較大的面積,可以暫時忽略檢測到的小物體。
Table 3 Blackboard detection experimental results表3 黑板檢測實驗結(jié)果
實驗結(jié)果如表3 所示:當(dāng)Grid_size 為15 時,損失為0.34,判斷物體種類準(zhǔn)確率為100%,置信度準(zhǔn)確度為0.947;當(dāng)Gird_size 為30 時,損失為0.48,判斷物體種類準(zhǔn)確率為100%,置信度準(zhǔn)確度為0.959,總體準(zhǔn)確率達(dá)到95%,能夠精準(zhǔn)檢測黑板位置,基本能夠滿足項目需求。
(2)文字識別
①數(shù)據(jù)集
通過使用人工合成的數(shù)據(jù)集,包括SynthText(ST)和MJSynth(MJ)兩個主流的人工合成文本識別數(shù)據(jù)集,分別從中取5 500 000 張和8 900 000 張圖片用于實驗。對于測試集而言,使用了3 個真實場景數(shù)據(jù)。其中,SVT 數(shù)據(jù)集包含了647 張圖片,圖片來自于Google 街景采集的戶外街道,包含了一些低分辨率、模糊的圖像;IC03 數(shù)據(jù)集包含了867張圖片,來自于ICDAR 2003 健壯閱讀比賽中用閱讀相機捕捉的場景文本;IC13 數(shù)據(jù)集包含了1015 張圖片,在繼承IC03 的大多數(shù)圖像的基礎(chǔ)上了擴充了來自于ICDAR 2013健壯閱讀比賽捕捉的圖片。
②實驗分析
本文所提出的文字識別模型與現(xiàn)有模型進(jìn)行對比,使用相同的訓(xùn)練集訓(xùn)練,在不同的數(shù)據(jù)集上測試,結(jié)果如表4所示。其中,本文提出的模型在不同數(shù)據(jù)集上均具有良好的性能,在多個數(shù)據(jù)集上總體準(zhǔn)確率為93%,針對性能上的提升,分析原因如下:通過引入AoA 模塊擴展了常規(guī)的注意力機制,以確定注意力結(jié)果和查詢之間的相關(guān)性。構(gòu)建了基于編碼器-解碼器架構(gòu)的模型以解決文本識別中存在的問題;在編碼器階段,通過CNN 提取圖片特征之后,未直接將其送入解碼器中,而是構(gòu)建了一個包含AoA 的模塊優(yōu)化網(wǎng)絡(luò),有助于更好地建模圖像中不同字符之間的關(guān)系,優(yōu)化特征表示;在解碼器階段,應(yīng)用AoA 過濾無關(guān)的注意力結(jié)果,只保留有用信息。
從表4 可見,本文提出的模型相比現(xiàn)有模型,在文字識別準(zhǔn)確率方面有著一定的提升,在課堂中取得了很好的效果。
Table 4 Text recognition experimental results表4 文字識別實驗結(jié)果
在2020 年度下學(xué)期的教學(xué)實踐中,對湖南大學(xué)信息科學(xué)與工程學(xué)院計算機專業(yè)學(xué)生的物理課程(3 個班級)采用了基于智慧課堂的三位一體輔助學(xué)習(xí)平臺。通過問卷調(diào)查(78 份有效問卷)包括3 個班級的78 名學(xué)生獲取反饋信息,問卷調(diào)查數(shù)據(jù)統(tǒng)計如表5 所示。
Table 5 Results of student questionnaire survey表5 學(xué)生問卷調(diào)查結(jié)果
在這四個評估指標(biāo)中滿意度取平均值,學(xué)生非常滿意率為31.5%、滿意率為51.9%、不滿意率為16.6%。從統(tǒng)計數(shù)據(jù)可見,絕大多數(shù)學(xué)生認(rèn)為個性化輔助學(xué)習(xí)平臺能夠為學(xué)生及時答疑解惑,提供針對性的學(xué)習(xí)資源,并且學(xué)習(xí)內(nèi)容豐富,趣味性強,滿足學(xué)生并的學(xué)習(xí)需求。不僅提高了學(xué)生學(xué)習(xí)的效率和積極性,而且明顯改善了當(dāng)前教學(xué)效果。當(dāng)然,也有少部分學(xué)生存在不滿意的情況,證明平臺仍有待完善和改進(jìn)。一方面,需加強學(xué)習(xí)資源風(fēng)格化技術(shù)的研究,滿足不同學(xué)生的個性化學(xué)習(xí)需求以及提高對于學(xué)生專注度、教師生動度等關(guān)鍵部分評判的準(zhǔn)確性;另一方面,加強學(xué)生在課堂中的實踐性與互動性,提高學(xué)生解決問題的能力和創(chuàng)新能力。隨著科學(xué)技術(shù)的迅速發(fā)展,后期將持續(xù)對平臺進(jìn)行升級,為師生提供更優(yōu)質(zhì)的課堂服務(wù)。
本文提出的面向智慧課堂的三位一體化輔助學(xué)習(xí)平臺,通過實時智能分析課堂三要素,從多維角度產(chǎn)生一體化學(xué)情數(shù)據(jù),及時為學(xué)生答疑解惑,并考慮知識點之間的關(guān)聯(lián)性,讓學(xué)生查缺補漏。提供針對性的風(fēng)格化學(xué)習(xí)資源,充分調(diào)動了學(xué)生學(xué)習(xí)興趣與積極性,提高學(xué)生課后學(xué)習(xí)的主動性和效率。主要工作和創(chuàng)新點如下:
(1)本文提出了一種新理念,綜合考慮學(xué)生對于知識點的理解與學(xué)生自身專注度、教師授課水平以及知識點的難易程度三者息息相關(guān),從多維角度產(chǎn)生一體化學(xué)情數(shù)據(jù),使課堂分析更加全面,為學(xué)生推薦更加準(zhǔn)確的學(xué)習(xí)資源。
(2)利用人工智能技術(shù)賦能課堂,結(jié)合云推理服務(wù)、大數(shù)據(jù)技術(shù),初步實現(xiàn)了面向智慧課堂的三位一體化輔助學(xué)習(xí)平臺。
(3)在實際應(yīng)用過程中,研究了黑板檢測和文字識別,通過實驗證明測試的準(zhǔn)確率分別為95%與93%,能基本滿足項目需求。
同時該平臺也存在一些不足,要繼續(xù)深入研究關(guān)鍵技術(shù),提高模型精度。今后將持續(xù)豐富和完善平臺的各項功能,真正為學(xué)生和教師提供便利,提高學(xué)習(xí)效率和教學(xué)質(zhì)量。