劉 謙 周勁廷 羅 晶
(湖南環(huán)境生物職業(yè)技術(shù)學院,湖南 衡陽 421005)
隨著互聯(lián)網(wǎng)技術(shù)的不斷普及與發(fā)展,在線教育行業(yè)也逐漸形成百家爭鳴的局面[1]。加之疫情的影響,新上線的在線教育系統(tǒng)數(shù)量出現(xiàn)井噴式增長,這也是大眾對在線教育的認可。但是隨著在線教育行業(yè)的不斷發(fā)展,問題也不斷涌現(xiàn)出來,例如系統(tǒng)使用不便、人為操作導(dǎo)致系統(tǒng)崩潰等。因此在線教育系統(tǒng)還需要進一步完善,才能保證教育行業(yè)在互聯(lián)網(wǎng)時代有良好的適應(yīng)性轉(zhuǎn)變以及師生教學系統(tǒng)的穩(wěn)固發(fā)展,從而達到教育創(chuàng)新和促進現(xiàn)代教育技術(shù)發(fā)展的目的。
目前,國內(nèi)一些的網(wǎng)絡(luò)教學平臺如猿輔導(dǎo)、學而思等雖然規(guī)模較大,但也存在很多問題[2]。地域差異過大,每個地區(qū)的教學大綱不一樣,每個地方的考生也都有自己的特點,但網(wǎng)絡(luò)教學平臺只能給考生提供一些專業(yè)教學,而不是專門為考生量身定做的。所以,該項目的研究目的一是節(jié)省學生時間,提高學習效率;二是使老師能更好地對學生進行有目標的培訓(xùn);三是可以更好地滿足學校和教育部門的要求。
1.2.1 個性化推薦相關(guān)算法
在線教育系統(tǒng)模擬創(chuàng)新板塊主要是針對學生需求而建立的,該系統(tǒng)可根據(jù)學生的不足進行推薦,因此采用的是個性化推薦相關(guān)算法[3]。如圖1 所示,個性化推薦相關(guān)算法主要包括基于內(nèi)容的推薦、基于知識的推薦以及協(xié)同過濾推薦,而該課題主要采用的是協(xié)同過濾推薦算法。該算法基于項目、學生以及模型等,具有協(xié)同過濾的作用,能夠?qū)⑾嚓P(guān)專業(yè)創(chuàng)新培訓(xùn)內(nèi)容推薦給學生。
圖1 個性化推薦相關(guān)算法
1.2.2 協(xié)同過濾推薦算法
顧名思義,協(xié)同過濾推薦算法涵蓋協(xié)同和過濾2個步驟[4]。通常情況下,創(chuàng)新培訓(xùn)板塊包括大量的行業(yè)知識、學習知識以及專業(yè)課程等數(shù)據(jù),而運用推薦技術(shù)能夠?qū)崿F(xiàn)對學生的個性化推薦,以滿足各類學生的需求。另外,個性化服務(wù)能夠以推薦最想要的課程、書籍等為主,提高學生對其的使用率,進而提升學生的學習興趣和能力。該技術(shù)在系統(tǒng)推薦領(lǐng)域得到了普遍應(yīng)用。協(xié)同過濾算法以學生行為為基礎(chǔ),如圖2 所示,通過學生用戶的對課程的使用或者多次瀏覽,平臺積累了大量的學生行為信息數(shù)據(jù),計算機會對數(shù)據(jù)進行分析和協(xié)同過濾,即可得出一定的學生偏好。然后通過學生偏好衡量學生或培訓(xùn)之間的相似性。而該系統(tǒng)推薦的特點就是推薦對象可以是普遍性的,沒有特殊要求或不需要特殊處理。
圖2 協(xié)同過濾算法的基礎(chǔ)思想
該設(shè)計需要對學生數(shù)據(jù)進行挖掘和處理,可以釆用的推薦算法是LFM 算法[5]。該算法的主要優(yōu)勢在于能夠?qū)φn程、專業(yè)信息等的潛在主題和分類進行處理,同時可進行數(shù)據(jù)挖掘,因此它可以應(yīng)用到該設(shè)計中,便于學生對各種主題進行整合,所收集的主題可供學生參考。
對給定的學生行為數(shù)據(jù)集,假設(shè)設(shè)計者使用3 個學生、4個數(shù)據(jù)集,LFM 所采用的分類數(shù)為4,則設(shè)計者得到的LFM模型如圖3 所示。
圖3 LFM 模型
R為學生用戶-數(shù)據(jù)集矩陣,矩陣值Rij為學生用戶對數(shù)據(jù)集所做的評價。當在全部數(shù)據(jù)集中獲得某個同學的序列值時,就可以做出推薦。
LFM 算法要做的就是將R矩陣分解為P、Q矩陣,以進行學生用戶關(guān)于數(shù)據(jù)集評價的預(yù)測。RUI權(quán)重越高,表示學生用戶對創(chuàng)新培訓(xùn)數(shù)據(jù)集的興趣度或者是評分越高,如公式(1)所示。
式中:RUI為LFM 算法的權(quán)重;P矩陣為學生用戶-class,矩陣中的值為學生用戶對-class的興趣度;Q矩陣中的值是數(shù)據(jù)集在-class分類中的權(quán)重值。
對P、Q矩陣的參數(shù)值進行問題解決,對P、Q采用最優(yōu)化損失函數(shù)來求參數(shù)。損失函數(shù)可說明數(shù)據(jù)集以及對評分的取值。該數(shù)據(jù)集由全部的學生使用者、所有的創(chuàng)新訓(xùn)練數(shù)據(jù)集以及學生使用者-數(shù)據(jù)集矩陣組成,其中最重要的是全部的學生使用者對相應(yīng)數(shù)據(jù)集進行評級的項目,只有那些項目才能成為對設(shè)計人員有幫助的數(shù)據(jù)[6]。將學生用戶在該數(shù)據(jù)集上獲得評分的項目作為正樣本并且興趣值RUI=1 且需要選擇未計分的負樣本。另外還要求興趣值RUI=0,所以興趣值鎖定為[0,1]。
設(shè)計者通過收集正、負樣本來構(gòu)造學生用戶-數(shù)據(jù)集的矩陣K,可以寫為K={(U,I)},這里規(guī)定:如果(U,I)是正的樣本,那么RUI就是1,反過來即為0。而損失函數(shù)的表達式如公式(2)所示。
式中:λ||PU||2+λ||QI||2為用于避免過度擬合的正則化項,其中λ為基于重復(fù)多次完成而獲得的。
關(guān)于損失函數(shù)的優(yōu)化,設(shè)計者可使用隨機梯度下降算法,過程如下。
首先,分別對PU,k和Qk,I求偏導(dǎo),以得到隨機梯度下降的最快方向,如公式(3)、公式(4)所示。
其次,通過迭代計算來不斷優(yōu)化如公式(5)、公式(6)所示函數(shù)中的參數(shù),直到參數(shù)收斂。
式中:α為學習速率。
α越大,迭代下降得越快。α需要不斷根據(jù)實際情況進行試驗求得。
結(jié)合相關(guān)公式和計算,可以總結(jié)出LFM 算法的特色。1)減少關(guān)注,沒有必要把注意力集中在數(shù)據(jù)集中的分類上,結(jié)果都是根據(jù)學生數(shù)據(jù)集內(nèi)容自動聚類的。2)與此同時,設(shè)計者不需要將注意力集中在分類的粒度問題上,可以通過設(shè)置函數(shù)中的F來控制分類的粒度,分類數(shù)越大,粒度就越細。3)對數(shù)據(jù)集,并不要求設(shè)計人員必須將其歸入與其相匹配的類別,而只要求將其歸入該類別的可能性,這是一種軟分類。4)設(shè)計者只需要知道學生用戶對相應(yīng)的創(chuàng)新培訓(xùn)數(shù)據(jù)集的興趣值(評分),而不需要關(guān)心對應(yīng)的類別。
該系統(tǒng)以個性化習題為例,個性化習題的推薦方面的問題如下:一是怎樣將學生的認知水平模型構(gòu)建出來;二是怎樣將具有可解釋性的習題向?qū)W生進行推薦。
將學生集合設(shè)為T,在其中習題集和學生分別為Exercise和u個的情況下,包括k個知識點相關(guān)知識點集合,簡稱S={S1,S2,…,Sk}。將學生的習題得分記錄組成一個學生習題矩陣α=[uv]U×V。當αuv=1 時,代表學生u對習題v的答案是正確;當αuv=0 時,代表學生u對習題v的答案是錯誤。習題知識點關(guān)聯(lián)情況組成了一個矩陣Q=[qvk]V×K。矩陣元素的定義如下:就習題v所考察的知識點而言,qvk=0 表示知識點k并不包括在內(nèi)為0,qvk=1 表示知識點k包括在內(nèi)為1,可對習題知識點考查的情況進行描述,即判斷學生知識點的掌握情況。
該文提出的基于認知診斷的個性化習題推薦算法流程圖如圖4 所示。其中的輸入包括學生的習題答案R矩陣,習題-知識點關(guān)聯(lián)Q矩陣。R矩陣和Q矩陣經(jīng)過DINA 模型得到學生-知識點α矩陣,并將其作為第二部分的輸入。同時,第二部分的輸入還有習題-知識點Q矩陣和專家標注習題難度D矩陣。根據(jù)學生對習題可能的掌握程度,輸出個性化習題的推薦結(jié)果。
圖4 基于認知診斷的個性化習題推薦算法
對學生進行相關(guān)知識點方面掌握程度的診斷需要借助于DINA 模型。而學生的認知水平在這樣的基礎(chǔ)上是能夠得以成功構(gòu)建的。在針對每個知識點K的前提條件之下,就每個學生Tu而言,所構(gòu)成的向量為αv={αu1,αu2,...,αuk}。當αuk=1 時,表示學生u已掌握知識點K;當αuk=0 時,表示學生u還未做到對知識點K的完全掌握。在學生Tu相關(guān)知識點掌握向量αu已經(jīng)得知的情況下,可以根據(jù)公式(7)獲得學生Tu對習題Jv的潛在作答情況。其中,ηuv為學生Tu無法正確回答習題Jv,ηuv=1 為學生Tu可以正確回答習題Jv。
式中:ηuv為學生Tu無法正確回答習題Jv;αuk為學生u對知識點K的掌握;qvk為學生v對知識點K的掌握。
DINA 模型需要引入2 個參數(shù)。在個性化習題推薦中,DINA 模型通過引入失誤率和猜測率對學生在真實狀態(tài)下的答題情況,進行建模。失誤率Sv為對掌握了習題對應(yīng)的全部知識點的學生仍答錯習題v的概率,猜測率gv為未掌握習題所對應(yīng)的全部知識點的學生仍可以答對習題v的概率。所以,學生Tu對習題Jv的響應(yīng)如公式(8)所示。其中就DINA 模型而言,其所使用的EM 算法以公式(2)邊緣似然最大化為根本目標,得到Pv(?↓u)權(quán)重數(shù)值,該權(quán)重數(shù)值能夠確定學生Tu的知識點掌握情況,如公式(8)所示。。
借助相關(guān)學生習題得分的后驗概率,能夠確定學生Tu的知識點掌握向量αu。而學生二分知識點掌握向量αu就能夠在這樣的情況下得到了,如公式(9)所示。
式中:Ru為學生習題得分矩陣;α為學生u在習題v上的得分;S為知識點概率;gv為未掌握習題所對應(yīng)的全部知識點的學生仍可以答對習題v的概率;Sv為對掌握了習題對應(yīng)的全部知識點的學生仍答錯習題v的概率。
系統(tǒng)功能實現(xiàn)如圖5 所示。該系統(tǒng)主要提供線上服務(wù),可對行業(yè)特征、創(chuàng)業(yè)信息和請求信息等進行論述,學生進行注冊登錄后可由此獲得個性化推薦信息。面向?qū)W生首先需要收集學生信息,其中的學習數(shù)據(jù)包括1)學生進行習題瀏覽時,系統(tǒng)記錄習題類型、知識點標簽等。2)學生可以選擇習題進行練習,系統(tǒng)會自動記錄作答情況,并根據(jù)作答情況進一步優(yōu)化推薦結(jié)果。3)學生對習題進行點贊、收藏、取消收藏和反饋操作時,系統(tǒng)會收集相關(guān)信息。4)學生在搜索相應(yīng)習題時,系統(tǒng)會自動保存搜索記錄。
圖5 系統(tǒng)功能實現(xiàn)
該文對大學生創(chuàng)新培訓(xùn)在線教育系統(tǒng)模擬創(chuàng)新板塊進行了設(shè)計,該設(shè)計主要以在線教育系統(tǒng)為主,在系統(tǒng)功能中推出了創(chuàng)新板塊。創(chuàng)新板塊既可以進行功能應(yīng)用,又可以進行個性化推薦,包括個性化習題、專業(yè)知識、創(chuàng)業(yè)信息以及行業(yè)特征等各類信息的推薦,能夠有效提高信息利用率,對實現(xiàn)學生查缺補漏、能力提升和專業(yè)發(fā)展具有重要作用。因此協(xié)同推薦算法能夠?qū)π畔⑦M行及時處理,應(yīng)用前景廣泛,在很多系統(tǒng)中具有較高的可行性。