盧淑怡,李美子,許 多,張 波,2,3
(1.上海師范大學(xué) 信息與機電工程學(xué)院;2.上海師范大學(xué) 人工智能教育研究院;3.上海智能教育大數(shù)據(jù)工程技術(shù)研究中心,上海 200234)
知識爆炸時代,高等教育已進入知識量大、學(xué)科交叉強、知識更新速度快的階段,對學(xué)生專業(yè)知識交叉融合學(xué)習(xí)提出了更高要求。高校培養(yǎng)復(fù)合型人才過程中亟需為學(xué)生構(gòu)建全面綜合知識能力體系[1]。然而,傳統(tǒng)教學(xué)模式跨課程知識的關(guān)聯(lián)學(xué)習(xí)程度較低,無法為學(xué)生提供快速知識關(guān)聯(lián)獲取工具,主要表現(xiàn)為以下3 個方面:①傳統(tǒng)高校學(xué)科專業(yè)設(shè)置的課程銜接緊密度低,跨課程綜合課程少[2];②獨立授課導(dǎo)致課程內(nèi)容差異大,缺乏知識連貫性;③不同課程、教材間術(shù)語名稱不同、知識點表達不同,學(xué)生受自身知識限制,難以發(fā)現(xiàn)知識點間隱性和長路徑關(guān)聯(lián)。這些原因共同導(dǎo)致知識點不連貫,造成學(xué)生所學(xué)知識點在跨課程的宏觀角度上呈相對離散的狀態(tài)。
因此,實現(xiàn)學(xué)科專業(yè)知識融合學(xué)習(xí),應(yīng)從智能輔助工具的角度探索創(chuàng)新途徑[3-5]。當(dāng)前,主要的知識融合技術(shù)利用數(shù)據(jù)融合方法,根據(jù)知識融合數(shù)據(jù)特征,將數(shù)據(jù)融合方法應(yīng)用于知識融合[6]。然而,該技術(shù)需要處理海量的龐雜數(shù)據(jù)并達到復(fù)雜的知識融合目標,當(dāng)計算量過大時將難以及時動態(tài)反饋調(diào)整,無法保證知識融合效率[7]。
目前,知識圖譜技術(shù)被廣泛應(yīng)用于知識表示、知識問答和知識推理等任務(wù),具有大范圍、多樣性和可解釋性的優(yōu)點,其中知識實體呈顯性連接狀態(tài),能提供良好的關(guān)聯(lián)檢索與推理能力[8-11]。因此,從跨課程知識關(guān)聯(lián)的角度將課程內(nèi)知識點實體及其關(guān)聯(lián)關(guān)系構(gòu)建知識圖譜,將不同課程知識圖譜中的知識點實體建立連接,實現(xiàn)跨課程知識點實體融合,達到跨課程知識點實體連接的目標,進而完成跨課程知識推送,滿足學(xué)生交叉融合學(xué)習(xí)的要求[12-14]。
基于上述考慮,本文提出一種基于知識圖譜的高??缯n程知識推送工具設(shè)計方法及其應(yīng)用案例。該工具首先構(gòu)建了高校教育學(xué)科知識圖譜(Educational Cause Knowledge Graph,ECKG)的基本框架,實現(xiàn)了學(xué)科層、課程層和知識點層的3 層知識圖譜架構(gòu);其次,在ECKG 上設(shè)計跨課程知識推送算法,從“標準+個性”角度提供課程間連接的知識推送方法;最后,通過ECKG 應(yīng)用案例為智能化知識融合學(xué)習(xí)提供支持。
高校教育學(xué)科知識圖譜是一種對零散知識進行整合并描述知識間相互關(guān)聯(lián)的方法。本文通過對ECKG 的形式化構(gòu)建,關(guān)聯(lián)整理高校教育資源的教育知識點的知識體系和邏輯結(jié)構(gòu)。
隨著教育革新和社會發(fā)展需求,學(xué)科交叉與課程融合趨勢在高校教育中逐漸興起。許多專業(yè)課程存在交集,但不同專業(yè)考察的側(cè)重點不盡相同,相較于其他傳統(tǒng)學(xué)科知識圖譜,本文從節(jié)點類角度出發(fā),將ECKG 層次結(jié)構(gòu)分為學(xué)科、課程、知識點3層,如圖1所示。
Fig.1 Hierarchy structure of ECKG for Science and Engineering subjects in universities圖1 理工學(xué)科的高校教育學(xué)科知識圖譜ECKG層次結(jié)構(gòu)
由圖1 可見,3 個層次間通過包含關(guān)系自上而下進行N-N映射。每個子類將繼承父類的相應(yīng)祖先類別,通過自上向下的分層構(gòu)建保證ECKG 的知識覆蓋范圍。具體的實體與關(guān)系描述如下:①學(xué)科層實體包括依據(jù)學(xué)術(shù)性質(zhì)而劃分的科學(xué)門類和門類下的具體教學(xué)科目,學(xué)科門類和教學(xué)科目通過組成的關(guān)系進行1-N連接;②課程層的實體根據(jù)不同教學(xué)目標和教學(xué)形式,分為理論類課程、實踐類課程和綜合性課程,各類課程通過前驅(qū)關(guān)系連接或獨立,以更好地挖掘課程和知識點之間的隱性關(guān)系;③知識點層的實體包括不同粒度知識點,在關(guān)系層面本文以近年來廣受認可的牛頓平臺(Knewton Platform)為基礎(chǔ),主要考慮知識點間的組成、評價、前驅(qū)、分類這4種邏輯關(guān)系。
圖1 為理工學(xué)科為例的ECKG 層次結(jié)構(gòu)示例。其中,學(xué)科層中包含理科、工科兩大科學(xué)門類;科學(xué)門類又由各種不同的教學(xué)科目組成;教學(xué)科目包含多門課程,因此將學(xué)科層和課程層相聯(lián)系;課程層與知識點層自上而下挖掘潛在關(guān)聯(lián)知識,通過多維角度提高學(xué)科素養(yǎng)。ECKG 的意義在于打破學(xué)科、專業(yè)、課程間的界限,依據(jù)知識點間邏輯關(guān)系、組織結(jié)構(gòu)等進行整理關(guān)聯(lián)。
圖2 展示了本文所提理論構(gòu)建的部分ECKG。具體的,ECKG 通過挖掘教育資源,整合知識點間存在的關(guān)聯(lián),將不同學(xué)科專業(yè)知識點構(gòu)建為一張有向的知識網(wǎng)絡(luò)。
Fig.2 Partial ECKG圖2 部分ECKG
如圖3 所示,ECKG 應(yīng)用流程由3 個部分組成。具體為:①層次化知識圖譜模塊。ECKG 抽取不同學(xué)科、專業(yè)學(xué)習(xí)資料數(shù)據(jù),整理關(guān)聯(lián)得到的知識點,整合出知識網(wǎng)絡(luò)構(gòu)建ECKG;②標準化知識查詢模塊。通過知識快速定位算法查詢知識點或知識間的關(guān)聯(lián);③個性化知識推送模塊。對歷史數(shù)據(jù)進行挖掘分析,構(gòu)建個性化的學(xué)習(xí)模型,智能化分析用戶可能感興趣的知識點,針對用戶學(xué)習(xí)習(xí)慣進行推送。綜上所述,該應(yīng)用從“標準(基于關(guān)鍵詞的知識快速定位查詢方法)+個性(教育知識點智能推送算法)”的應(yīng)用角度,從課前、課中、課后3 個時段全方位輔助學(xué)生進行針對性學(xué)習(xí)。
Fig.3 Application process of ECKG圖3 ECKG應(yīng)用流程
由于海量的教育知識點及知識點間錯綜復(fù)雜的關(guān)系會使學(xué)生在學(xué)習(xí)時無法清晰地厘清知識間的關(guān)聯(lián),學(xué)生也無法在規(guī)模龐大、結(jié)構(gòu)復(fù)雜的知識圖譜中快速尋找知識點間的關(guān)系。因此,本文提出利用關(guān)鍵詞定位目標節(jié)點的檢索方法,相較于傳統(tǒng)方法節(jié)省了遍歷索引所耗費的時間。算法描述如下所示:
步驟1:對大規(guī)模RDF 數(shù)據(jù)圖進行子圖劃分。將ECKG 劃分為多棵知識樹,分別構(gòu)建知識點索引與關(guān)系索引進行分布式檢索。其中,知識點索引包含頂點下標和標簽,關(guān)系索引包含關(guān)系下標和標簽及相關(guān)聯(lián)的父節(jié)點下標。圖4 為索引關(guān)系示例,假設(shè)圖4(a)為一個劃分后的知識樹,圖4(b)就是針對該樹構(gòu)建的索引關(guān)系。該方法在實現(xiàn)查詢時既能提升大規(guī)模RDF 數(shù)據(jù)圖的檢索速率,又能降低索引的存儲空間。
Fig.4 Index relationship圖4 索引關(guān)系
步驟2:構(gòu)建最小知識子樹。遍歷每棵知識樹的節(jié)點,定位所有關(guān)鍵知識點,假設(shè)關(guān)鍵知識點≥2,尋找連通該知識點的最短距離,構(gòu)建最小知識子樹。并通過知識點索引與關(guān)系索引尋找最小知識子樹的根節(jié)點。若關(guān)鍵知識點為1,則直接進入下一階段。
步驟3:構(gòu)建候選知識子樹遍歷最小知識子樹的邊,定位關(guān)系關(guān)鍵詞。對于未被定位的關(guān)系關(guān)鍵詞,通過索引查尋最小知識子樹根節(jié)點和葉子節(jié)點連邊是否包含關(guān)系關(guān)鍵詞。若包含,將對最小知識子樹進行拓展;若不包含,則記下不被包含的關(guān)系關(guān)鍵詞個數(shù)。當(dāng)關(guān)鍵知識點為1,將直接遍歷相關(guān)聯(lián)邊查找關(guān)系關(guān)鍵詞。
步驟4:評分規(guī)則。對構(gòu)建的候選知識子樹進行評分計算,返回前k個結(jié)果供用戶選擇。本文評分函數(shù)考慮了候選知識子樹的緊密度及精準度,評分函數(shù)公式如式(1)所示:
其中,t為候選知識子樹根節(jié)點,num(ε)代表ε個數(shù),sp(a,b)代表a到b的最短距離,α、β在實際應(yīng)用中調(diào)整緊密度和精準度對評分結(jié)果的影響程度。
假設(shè)已完成對ECKG 與RDF 數(shù)據(jù)圖劃分得到i棵知識樹,并且識別問題關(guān)鍵詞得到n個知識點關(guān)鍵詞構(gòu)成集合和m個關(guān)系關(guān)鍵詞構(gòu)成的集合集Rk=結(jié)合上文對答案快速定位方法的具體描述,給出快速定位答案的算法偽代碼描述。
算法1基于關(guān)鍵詞的答案快速定位算法
針對以人為本的智慧教育學(xué)習(xí)理念,本文提出一種對歷史記錄和特征挖掘進行智能化知識推送的算法。該算法結(jié)合用戶檢索記錄,以每次定位答案中心知識點為基準,構(gòu)建個性化模型計算中心知識點相關(guān)性,圍繞中心知識點間的最短路徑挖掘用戶檢索規(guī)律,并結(jié)合節(jié)點重要性增加可推薦知識間的區(qū)分度,從而構(gòu)建個性化知識智能推薦模型。具體算法流程如下:
步驟1:確立中心知識點oi、知識點集C。通過尋找子圖每個點到其他關(guān)鍵知識點的距離并求和,分別計算各知識點的中心度core(ex),選取core(ex)最大的知識點o為中心知識點。
其中,N(ex)為ex的鄰居節(jié)點,l(ej,ek)=0 代表ej、ek不存在連邊,l(ej,ek)=1 代表ej、ek直接相關(guān)聯(lián)。同時,從平均路徑長度dist、支持度wl兩個因素分析一定時間內(nèi)用戶搜索歷史的知識點集。
對不同關(guān)系的支持度表示如下:
其中,num(r)代表關(guān)系r在路徑中出現(xiàn)的次數(shù)。
步驟2:計算中心知識點的相關(guān)性sim(oi,oi+1)。不同用戶的個性化學(xué)習(xí)方式導(dǎo)致知識相關(guān)性不僅與知識圖譜中知識的位置相關(guān),本文提及的知識相關(guān)性即在個性化模型限制下從當(dāng)前中心知識點游走到另一個中心知識點的概率。
步驟3:計算候選知識點的中心度core(ex)。中心知識相關(guān)性主要考慮歷史中心知識點間的路徑關(guān)系,從而預(yù)測可推薦中心知識點,但可能面臨預(yù)測結(jié)果較為粗糙的情況,此時將難以區(qū)分部分節(jié)點可推薦度。為此,本文對知識點集合C中的節(jié)點進行中心度計算,提高推薦度的劃分效果。
步驟4:利用T(oi+1)對答案進行打分并排名,將前top-k的知識點返回給用戶。
結(jié)合上文對個性化教育知識點推送方法的具體描述,給出智能推送算法的偽代碼描述。
算法2個性化的教育知識點智能推送算法
以計算機學(xué)科的跨課程教學(xué)為例,包含算法、概率論、高等數(shù)學(xué)等課程,證明ECKG 知識推送工具應(yīng)用及其教學(xué)模式改革的有效性。在傳統(tǒng)課程學(xué)習(xí)的3 個階段,學(xué)生通常會遇到以下問題:
(1)課前預(yù)習(xí)時,無法明確跨課程知識點間的關(guān)聯(lián)關(guān)系。學(xué)生在預(yù)習(xí)時,無法將預(yù)習(xí)知識和已學(xué)知識融會貫通,給預(yù)習(xí)增加很大的困難。通??此茻o關(guān)的知識點卻內(nèi)含強關(guān)聯(lián),使學(xué)生不得不翻閱不同課程教材尋找他們之間的聯(lián)系。
(2)課中學(xué)習(xí)時,無法快速回顧某個確切的知識點內(nèi)容。教師在授課時,經(jīng)常通過拓展延伸、反問學(xué)生的方法推進課堂教育進程。例如,運用計算曲面積分方法可得出答案,學(xué)生則需要快速反應(yīng)計算曲面積分的方法。
(3)課后復(fù)習(xí)時,無法對薄弱知識進行針對性鞏固提高。學(xué)生在復(fù)習(xí)時,遇到多個薄弱知識點,無法尋找核心知識進行梳理復(fù)習(xí),復(fù)習(xí)效果較差,知識結(jié)構(gòu)體系散亂。
在應(yīng)用ECKG 工具后,學(xué)生在教學(xué)活動中將化被動為主動,從課前—課中—課后3 個階段完善自身知識體系,教師也可逐漸改變傳統(tǒng)教學(xué)設(shè)計。具體的,學(xué)生前期通過ECKG 了解知識結(jié)構(gòu)關(guān)系,教師通過翻轉(zhuǎn)課堂等形式激發(fā)學(xué)生學(xué)習(xí)積極性,達到更好的教學(xué)效果。以下將從具體實例分析入手,展示ECKG 如何運用本文設(shè)計的算法幫助學(xué)生掌握知識點間的關(guān)聯(lián)性,應(yīng)用流程實例如圖5所示。
Fig.5 Example of knowledge recommendation process based on knowledge graph圖5 基于知識圖譜的知識點推送流程實例
高校教育知識繁多復(fù)雜、專業(yè)性強,不同課程間存在許多關(guān)聯(lián)知識點,厘清知識點間的關(guān)聯(lián)是學(xué)好該知識點的重要保障。通過ECKG,即使用戶提出跳躍性問題,依然能尋找出知識間的關(guān)聯(lián)。首先,用戶提出問題,例如匹配分析法與樸素貝葉斯分類器間有何關(guān)聯(lián)。ECKG 提取匹配分析法與樸素貝葉斯分類器的知識關(guān)鍵詞,利用算法1 對關(guān)鍵詞進行定位。根據(jù)算法1 評分方法計算3 顆知識樹中的候選答案評分排名為a<b<c。假設(shè)系統(tǒng)返回用戶兩個答案,則用戶將會收到評分最高的兩個答案,即圖5 所示的兩個關(guān)聯(lián)。通過該知識關(guān)聯(lián)查詢方法,可解決學(xué)生在預(yù)習(xí)時遇到的問題,將所學(xué)知識與預(yù)習(xí)知識有機連接。
知識點的查詢過程本質(zhì)上是關(guān)鍵詞的快速定位問題。例如,用戶希望了解混雜因素的評價方法,首先系統(tǒng)將提取混雜因素、評價的知識關(guān)鍵詞定位知識樹,然后以該知識點為中心檢索直接相關(guān)的關(guān)系評價,得出知識點為匹配分析法和多元回歸法,最后通過該方法解決學(xué)生在課上遇到的問題,輔助學(xué)生高效、快速地理解課堂知識。
除了根據(jù)ECKG 中直接關(guān)聯(lián)的知識點進行推送外,智能化推送算法還可根據(jù)知識點間的隱性關(guān)聯(lián)進行知識推送。假設(shè)用戶先后依此檢索了多元回歸法、匹配分析法、樸素貝葉斯。首先,基于檢索記錄的知識智能推送算法2,尋找知識點間的最短路徑。然后,根據(jù)數(shù)據(jù)分析知識點間最短路徑長度均值為2,尋找所有距離樸素貝葉斯為2 的知識點。假設(shè)前驅(qū)與評價評分各為0.5,其他關(guān)系評分皆為0,去除已出現(xiàn)的知識點匹配分析法,對知識點間最短路徑進行打分排序。最后,將最高分伯努利模型推送至用戶。
如此,可使用戶更明確自身學(xué)習(xí)路徑和下一步的學(xué)習(xí)知識點。通過該方法在標準的基礎(chǔ)上增加個性功能,使每個學(xué)生可針對性地發(fā)現(xiàn)自身所需鞏固的知識點。
本文提出利用知識圖譜對高校教育知識點進行組織和整理構(gòu)建ECKG,并結(jié)合ECKG 上的知識檢索及智能化數(shù)據(jù)挖掘技術(shù)進行多角度知識應(yīng)用。通過本文的論述與假設(shè),可展望通過ECKG 及知識檢索技術(shù)對高校教育知識進行挖掘,不僅能打破高校教育中課程、專業(yè)的限制,還能直接對知識間的關(guān)聯(lián)進行宏觀梳理,使其更適應(yīng)人工智能化教育時代的技術(shù)融合,從而促進高校環(huán)境下智慧教育生態(tài)的形成。
但對高校教育學(xué)科知識圖譜的落地還存在以下難題:①對于大體量數(shù)據(jù),已有深度學(xué)習(xí)技術(shù)在教育資源抽取時仍需大量人工操作,亟需一種自動化程度更高的構(gòu)建方法;②對于高校教育知識的隱性推理仍是一個值得深入探究的問題,如何最大幅度利用隱性關(guān)系挖掘出更多有利信息是當(dāng)前知識圖譜領(lǐng)域尚未解決的問題之一。