王澤松,曾 誠,肖 奎
(湖北大學 計算機與信息工程學院,武漢 430062)
在大學的課程體系中,課程與課程之間有著相對固定的學習順序,后續(xù)課程通常必須安排在前導課程后面的學期開設.這種課程順序是由每門課程中主要概念間的依賴關系所決定的.課程概念是一個課程中的專業(yè)詞匯,對于一對課程概念(A,B),當學習者在學習概念B之前,需要首先理解概念A,那么就說明A與B之間存在依賴關系,即B依賴于A.同樣,在一本教材的各個章節(jié)之間也有著相對固定的學習順序,而章節(jié)學習順序也是由各章節(jié)中包含的概念的依賴關系所決定的.
近年來,課程概念依賴關系挖掘逐漸成為研究人員關注的焦點,這種課程概念依賴關系已經在智慧教育的多個應用領域發(fā)揮了重要作用,比如概念圖構建[1,2],文檔閱讀列表生成[3],學生知識狀態(tài)追蹤[4],學生學習情況評估[5],知識導航[6]等等.
本研究提出一種課程概念依賴關系挖掘方法,通過分析概念所屬的課程的屬性,以及概念對應的維基百科詞條的屬性,構建一對概念的課程特征和維基百科特征,并利用這些特征分析概念對之間是否存在依賴關系.同時,本文也利用課程概念依賴關系建立了概念圖,通過對比不同大學相同專業(yè)的概念圖,來分析不同大學在專業(yè)課程設置方面的差異.
本文的貢獻主要有以下兩個方面:
1)提出一種課程概念依賴關系挖掘方法,從大學的課程簡介中抽取課程相關概念并分析這些概念間是否存在依賴關系,同時在公共數據集上對本文提出的課程概念依賴關系挖掘方法進行驗證.
2)利用課程概念依賴關系建立了兩個概念圖示例,通過對比不同大學相同專業(yè)的概念圖,分析不同大學在專業(yè)課程設置方面的差異.
概念依賴關系挖掘是近年來研究人員關注的一個焦點.文獻[7]首先對維基百科概念依賴關系挖掘進行了研究,作者認為如果概念B的維基百科詞條中包含了一個鏈接指向概念A,那么A中可能包含了一些閱讀B的詞條所需要的背景知識,即B可能依賴于A.針對這些有鏈接關系的概念對,作者利用它們兩個概念間的鏈接信息、編輯信息、內容信息設計特征,然后使用MaxEnt分類器預測概念間的依賴關系.文獻[8]提出一種基于概念引用距離(RefD)的方法預測兩個維基百科概念間的依賴關系.具體而言,維基百科中每個概念都可以由它的“相關概念集合”來代替,如果概念B的“相關概念集合”中的大部分概念中都包含了一個鏈接指向概念A,反之概念A的“相關概念集合”則很少引用概念B,那么概念B有可能依賴于概念A.文獻[9,10]利用機器學習方法對維基百科概念依賴關系進行預測,文獻[9]中作者建立了4組概念對的特征,包括基于鏈接、基于分類、基于文本內容以及基于時間關系的特征,并采用6種不同的分類器進行概念依賴關系預測實驗.Sayyadiharikandeh等人[11]提出一種基于維基百科點擊流數據來推斷概念間依賴關系的方法.點擊流就是用戶在維基百科平臺上的操作日志,這是研究人員首次利用用戶交互行為預測概念對間的依賴關系.
上述方法都是根據概念對應的維基百科詞條的內容進行概念依賴關系預測,也有一些研究人員開展了基于學習資源進行課程概念依賴關系識別的研究,有的是分析MOOC視頻中課程概念間的依賴關系[12,13],有的是分析教材中課程概念間的依賴關系[14,15].文獻[16]分析了大學課程簡介中的內容,抽取出其中的主要的課程概念并推測課程概念間的依賴關系,與本文的研究內容比較接近.但是,作者只考慮了課程屬性對概念依賴關系的影響,而本文同時使用了課程屬性與維基百科屬性對課程概念間的依賴關系進行識別.
本文的研究目標是從大學公開的課程簡介信息中抽取出每門課程的主要知識概念,并利用課程學習順序、維基百科詞條內容等信息,對課程概念間的依賴關系進行預測.本文從課程簡介中抽取的課程概念必須都是維基百科中存在的概念,即每個課程概念對應一個維基詞條,這個概念就是詞條的標題.這樣做一方面是因為維基百科覆蓋的知識范圍較廣,可滿足不同學科的需要;另一方面是因為在利用維基百科進行概念依賴關系挖掘方面,當前已經有了一些較好的研究基礎可供參考.
為了更好的探究課程概念間的依賴關系,本文將分別從課程屬性和維基百科屬性兩個方面進行概念對的特征設計,實現課程概念依賴關系的預測.接下來將分別介紹“基于課程屬性”的特征和“基于維基百科屬性”的特征.
一個專業(yè)中課程學習的先后順序通常是由它們本身的內容決定,對于兩門課程Ca與Cb,如果課程Ca中包含了一些學習課程Cb所需要的背景知識,那么學習者必須先學習課程Ca再學習課程Cb.每門課程中通常介紹了一些重要的課程概念,如果學習課程Cb之前必須先學習課程Ca,那么說明在理解Cb中的一些主要課程概念之前,必須先理解Ca中的一些課程概念,而Ca中的這些課程概念就是學習Cb所需要掌握的背景知識.表1標注了課程屬性的相關術語.
表1 課程屬性的相關術語Table 1 Terms related to course attributes
在本文中,每門課程都有一段與之對應的課程簡介,一門課程Ci可以在概念空間(w1,w2,…,wm)上用向量進行表示.向量中的值是不同概念在Ci課程簡介中的tf-idf值.例如:
C1={0,0.23,0.014,0,0.56,0,…,0.13,0}
C2={0.15,0.03,0,0,0,0.11,…,0.03,0.02}
給定一對課程概念(wa,wb),本文設計了如下一些“基于課程屬性”的概念對特征,用以進行概念依賴關系的識別.
·Crf(wa,wb).
假設概念wa出現在Ci的課程簡介中,概念wb出現在Cj的課程簡介中,且在學習課程Ci前需要學習課程Cj,那么這種課程順序可能意味著概念wa依賴于wb.對于兩個概念,遍歷所有課程對組合,如果它們在多對有固定先后順序的前導課程與后續(xù)課程中出現,那么這兩個概念的關系如式(1)所示:
(1)
其中,r(Ci,wa)表示概念wa是否為課程Ci的重要概念,其中概念wa是Ci課程簡介中的一個詞匯,當概念wa的tf-idf值大于一個指定的閾值時,那么它就是課程Ci的一個重要概念,r(Ci,wa)取值為1,否則取值為0.本文將這個閾值定義為tf-idf的平均值,即對于概念wa和課程Ci,若概念wa在課程Ci中的tf-idf值大于課程Ci所包含概念的平均tf-idf值,則可認為概念wa是課程Ci的重要概念,即:
(2)
Z(Ci,Cj)表示課程Ci對課程Cj的依賴程度,取值為1或0,其中1表示學習課程Ci之前需要先學習課程Cj,0表示學習Ci之前不需要先學習Cj.在此基礎上,定義第一個“基于課程屬性”的特征如式(3)所示:
Crf(wa,wb)=Cr(wa,wb)-Cr(wb,wa)
(3)
另一方面,由于課程簡介的內容往往篇幅有限,這就導致了有些課程概念雖然與課程有著密切的聯(lián)系,但是無法出現在課程簡介中.比如,“背包問題”、“旅行商問題”,這些都是《算法設計與分析》課程中經常會講解的內容,但是在課程簡介中可能只會包含“動態(tài)規(guī)劃法”、“分支限界法”這些粒度更粗的概念.而“背包問題”通常是“動態(tài)規(guī)劃法”中的一個重要范例,“旅行商問題”通常也是“分支限界法”中的一個重要范例.因此,本文將利用“動態(tài)規(guī)劃法”這樣的中間概念,建立課程與那些不在其中的概念之間的聯(lián)系.
·Ctf(wa,wb).
對于一門課程Ci和一個概念wa,wa并未出現在課程Ci的簡介中,但是可能與課程Ci的簡介中的某些概念有著重要的聯(lián)系,那么它們的相關性如式(4)所示:
(4)
其中,exist(wa)表示簡介內容中包含有概念wa的所有課程.wj是從Ci的課程簡介中抽取的概念.概念wa和Ci中已有的概念同時出現的頻率越高,wa和Ci的相關程度越高,就像概念“背包問題”和課程《算法設計與分析》一樣.t(Ci,wa)描述了課程Ci和概念wa之間的一種文本相關性.
如果兩個概念wa和wb分別對應一些這樣相關的課程,并且它們所對應的課程之間也存在著前導課程與后續(xù)課程這樣固定的順序關系,那么這種課程順序可能是由wa和wb的依賴關系引起,因此有式(5):
(5)
在此基礎上,定義第2個“基于課程屬性”的特征如式(6)所示:
Ctf(wa,wb)=Ct(wa,wb)-Ct(wb,wa)
(6)
·Clf(wa,wb).
如果概念wa與課程Ci相關且未出現在課程Ci的簡介中,但是wa與Ci的課程簡介中包含的概念wj在維基百科中存在著鏈接關系,即wa的詞條中有一個鏈接指向wj,或者wj的詞條包含了一個鏈接指向wa.那么,就可利用這種關系探究課程Ci和概念wa之間的鏈接相關性.本文設置link(wa,wj)表示這種鏈接關系,即如果概念wa的詞條包含了一個鏈接指向概念wj,或者wj的詞條包含了一個鏈接指向wa,則link(wa,wj)取值為1,否則取值為0.進而可定義課程Ci和概念wa之間的鏈接相關性見式(7):
(7)
如果兩個概念wa和wb分別有這樣一些和它們鏈接相關的課程,并且它們的這些課程之間也存在著前導課程與后續(xù)課程這樣固定的順序關系,那么這種課程順序可能是由wa和wb的依賴關系引起,因此有式(8):
(8)
在此基礎上,定義第3個“基于課程屬性”的特征如式(9)所示:
Clf(wa,wb)=Cl(wa,wb)-Cl(wb,wa)
(9)
·Ckf(wa,wb).
維基百科官方通常會公布最近30個月中用戶的點擊流數據日志(1)https://dumps.wikimedia.org/other/clickstream/.點擊流是指用戶瀏覽了一個維基百科詞條后立即瀏覽另一個詞條的動作,用戶通常是點擊一個詞條中的鏈接跳轉到另一個詞條中繼續(xù)瀏覽,而這樣被連續(xù)瀏覽的兩個詞條往往是密切相關的[11].點擊流數據記錄了在在過去一段時間里,所有用戶從一個詞條跳轉到另一個詞條的次數.圖1顯示了在過去30個月中,維基百科用戶從concept A到concept B的跳轉次數.
圖1 維基百科點擊流數據Fig.1 Wikipedia clickstream data
如果概念wa與課程Ci相關且未出現在課程Ci中,但是概念wa與課程Ci中包含的概念wj間存在這樣一種點擊流關系,即用戶瀏覽了wa以后立即瀏覽wj,或者瀏覽了wj以后立即瀏覽wa,那么概念wa可能與wj是相關的.據此,可以定義概念wa與課程Ci間的點擊流相關性如式(10)所示:
(10)
其中,click(wa,wj)表示兩個概念wa與wj是否相關,相關取值為1,否則取值為0.
如果兩個概念wa和wb分別對應這樣一些點擊流相關的課程,并且它們的課程之間也存在著前導課程與后續(xù)課程這樣固定的順序關系,那么這種課程順序也可能是由wa和wb的依賴關系引起,因此有式(11):
(11)
在此基礎上,定義第4個“基于課程屬性”的特征如式(12)所示:
Ckf(wa,wb)=Ck(wa,wb)-Ck(wb,wa)
(12)
除了利用課程屬性識別兩個概念間的依賴關系,本文也利用兩個概念對應的維基百科詞條內容來識別它們間的依賴關系.并且,每個維基百科概念都可以由它的相關概念集合來表示.所以,對于一對概念(wa,wb),如果它們的相關概念集合間存在著依賴關系,那么說明它們兩個概念間也存在著依賴關系[8].本文定義了兩種類型的相關概念集合:基于鏈接的相關概念集合S*與基于點擊流的相關概念集合S#.
3.2.1 基于鏈接的相關概念集合S*
首先,本文將那些與概念wa同屬一個維基百科分類(Category)且與wa具有鏈接關系的概念視為wa的相關概念.如圖2所示,概念Machine learning與Knowledge integration同屬于分類Learning,且概念Machine learning的詞條中包含了一個鏈接指向概念Knowledge integration,那么后者可以作為前者的相關概念.同理,概念Machine learning control也可以作為概念Machine learning的相關概念.
圖2 相關概念集合S*Fig.2 Related concepts collection S*
3.2.2 基于點擊流的相關概念集合S#
如前所述,用戶在維基百科中連續(xù)瀏覽了兩個詞條,那么這兩個詞條可能是有關聯(lián)的.為了減輕計算量,對于一個概念wa,本文將點擊流次數大于平均出(入)度的概念作為相關概念.如圖3所示,在過去30個月的點擊流數據日志中,由概念Machine learning點擊出去到達其它概念的平均次數為82.2;從其它概念點擊進入概念Machine learning的平均次數為44.4.我們將點擊出去大于82.2次的概念Algorithms、Training data、Mathematical optimization,以及點擊進入Machine learning大于44.4次的概念Computer vision、Deep learning、Dimensionality reduction作為Machine learning的相關概念.
圖3 相關概念集合S#Fig.3 Related concepts collection S#
本小節(jié)將使用的一些術語定義如下.
A.基于維基百科分類的特征
維基百科中的分類(Category)信息可以被用于識別概念間的依賴關系.在維基百科中,每個概念會隸屬于一個或多個分類,如果一個分類的層次在另一個分類的層次之上,層次高的分類包含的概念通常更抽象,層次低的分類包含的概念通常更具體,而這些具體的概念往往依賴于抽象的概念[9,17].因此,本文設計了如下特征來識別概念間的依賴關系.
·Waf(wa,wb).
root代表維基百科體系中的根節(jié)點“Content”,len(root,wa)代表根節(jié)點到概念wa的最短路徑長度,這也是概念wa在維基百科體系中的層次.如圖4所示,len(root,wa)=2,len(root,wb)=2,len(root,wc)=3.
圖4 概念在維基百科分類中的層次Fig.4 Level of concepts in Wikipedia classification
顯然,len(root,wa)值越大,說明概念wa的層次越低,wa的內容越具體;len(root,wa)值越小,說明概念wa的層次越高,wa的內容越抽象.如果len(root,wb)的值比len(root,wa)小,說明概念wb的層次比wa高,wb的內容比wa抽象,那么概念wa可能會依賴于概念wb,因此本文設計了特征如式(13)所示:
Waf(wa,wb)=len(root,wa)-len(root,wb)
(13)
·Waf*(wa,wb)與Waf#(wa,wb).
對于兩個概念(wa,wb),本文也分析了概念wa的相關概念集合如表2中S*(wa)與概念wb的相關概念集合S*(wb)中的概念間的層次關系,利用相關概念的平均層次識別兩個概念間的依賴關系,具體特征如式(14)所示:
表2 維基百科屬性的相關術語Table 2 Terms related to Wikipedia attributes
(14)
同理,將相關集合替換成S#,又定義了下面一個特征如式(15)所示:
(15)
B.基于維基百科點擊流的特征
·Wkf(wa,wb).
由于人們在瀏覽一個概念的維基百科詞條以后往往會繼續(xù)瀏覽其它相關詞條,查看背景知識內容.如果在點擊流數據中存在從概念wa到概念wb的情況,但不存在從wb到wa的情況,則概念wa可能依賴于概念wb.因此定義了如式(16)所示的特征用于識別概念間的依賴關系:
(16)
·Wkf*(wa,wb)與Wkf#(wa,wb).
另一方面從相關概念集合的角度考慮,本文用Out*(wa,wb)表示wa的相關概念集合S*(wa)中所有概念的點擊流的指出概念集合與wb的相關概念集合S*(wb)的交集;In*(wa,wb)表示wa的相關概念集合S*(wa)中所有概念的點擊流的指入概念集合與概念wb的相關概念集合S*(wb)的交集.
(17)
(18)
如果Out*(wa,wb)值較大,而In*(wa,wb)值較小,那么說明用戶瀏覽時常常在瀏覽了wa的相關概念以后繼續(xù)瀏覽wb的相關概念,而很少從在瀏覽了wb的相關概念以后繼續(xù)瀏覽wa的相關概念,這說明概念wa有可能依賴于概念wb.因此定義了如式(19)所示的特征用于識別概念間的依賴關系:
Wkf*(wa,wb)=Out*(wa,wb)-In*(wa,wb)
(19)
同理,當使用S#作為相關集合時,則可定義出另一個特征Wkf#(wa,wb),如式(22)所示:
(20)
(21)
Wkf#(wa,wb)=Out#(wa,wb)-In#(wa,wb)
(22)
C.基于維基百科鏈接的特征
文獻[8]利用概念的維基百科詞條中的鏈接識別概念間的依賴關系,本文借鑒了相關做法定義了如下概念對的特征.
·Wlf(wa,wb).
對于一對概念(wa,wb),如果wa的維基百科詞條中包含了一個鏈接指向概念wb,說明wa引用了wb,那么wa有可能依賴于wb.因此定義了如式(23)所示的特征用于識別概念間的依賴關系:
(23)
·Wlf*(wa,wb)與Wlf#(wa,wb).
從相關概念集合的角度考慮,對于概念wa和wb,如果wa的相關概念集合中的大多數概念都包含有指向wb的鏈接,而概念wb的相關概念集合中很少有概念包含指向wa的鏈接,那么概念wa有可能依賴于概念wb.基于這樣的假設,定義了如式(24)所示的特征:
(24)
同理,將相關集合替換成S#,可定義出另一個類似的特征,如式(25)所示:
(25)
Liang等人[16]從11所美國大學的計算機科學專業(yè)的網站上爬取了654門課程的數據,其中包含了每門課程的課程簡介、以及前導課程與后續(xù)課程的順序關系等信息.在這些課程中有861對課程間存在著前導課程與后續(xù)課程的順序關系,本文將在此數據集上對提出的方法進行驗證.
我們首先從全部課程的課程簡介中抽取維基百科概念,由于都是計算機專業(yè)的課程,所以從不同大學抽取的概念存在大量重復的現象,最后實際得到不同的概念2699個.然后,通過人工篩選出其中的計算機科學領域的概念569個,并組織3位計算機專業(yè)的研究生對這些概念對的依賴關系進行投票,以確定這些概念對之間是否存在依賴關系.對于一對概念(wa,wb),通常有3個選項:1)wa依賴于wb;2)wa不依賴于wb;3)不確定.刪除包含不確定選項的概念對以后,最終得到有依賴關系的概念對共1312對,沒有依賴關系的概念對2448對.表3展示了數據集的相關信息.
表3 大學計算機專業(yè)課程數據集Table 3 University computer professional course data set
本文采用五則交叉驗證對提出的方法進行實驗評估.在本文的實驗中,使用了6種常用的機器學習分類器對課程概念依賴關系進行預測,分別是隨機森林(RF)、樸素貝葉斯(NB)、多層感知器(MLP)、支持向量機(SVM)、邏輯回歸(LR)和AdaBoost,所有分類器都是采用python程序和sklearn庫實現,參數均為默認參數.具體實驗結果如表4所示.
表4 本文提出方法的分類結果(%)Table 4 Classification results of the method we proposed(%)
從表4可以看出,不同的分類器的預測結果有著較大的差異.對比各指標值可以發(fā)現,隨機森林分類器性能最好,在Accuracy、Precision、Recall、F1等度量指標上均優(yōu)于其它分類器,分別達到83.40%、79.70%、70.63%、74.78%.這與其它相關研究[9,12]的結論類似,隨機森林相較于其它分類器在概念依賴關系預測中表現更為出色.
支持向量機表現較差,其Recall、F1等指標值分別只有15.75%和25.53%.估計是由于當前使用的特征值都是具體的數值,并且這些數值的范圍差異較大,較難在兩類樣本中形成一個較好的超平面來對樣本進行分類,所以分類效果不是很好.本文將采用隨機森林進行后續(xù)的實驗.
本文選取了3個基準方法(baselines)進行對比,第1個是文獻[8]提出的計算概念引用距離(RefD)識別概念依賴關系的方法,作者在其中運用了兩種方式定義維基百科詞條中每個相關概念的權值,分別是equal(所有相關概念權值均為1)和tf-idf(所有相關概念權值為它們的tf-idf值).第2個對比的方法是文獻[16]提出的一種基于優(yōu)化技術的概念依賴關系識別方法(CPR),這也是首次運用課程間依賴關系計算課程概念依賴關系的方法.第3個對比的方法是文獻[9]中提出的利用鏈接、分類、文本、創(chuàng)建時間等特征進行概念依賴關系預測的方法(EPR).具體實驗結果如表5所示.
表5 與基準方法對比(%)Table 5 Comparison with baseline method(%)
可以看出本文提出的方法在各度量指標上表現均優(yōu)于其它方法.需要說明的是,RefD與CPR方法均未在分類任務中采用機器學習分類器,前者是根據計算得到的RefD值直接進行分類,后者是利用優(yōu)化技術計算課程概念間的依賴關系值然后進行排序和分類.而EPR方法與本文一樣采用常規(guī)分類器進行分類,它們的性能要明顯優(yōu)于RefD和CPR方法,這說明人工建立的特征確實能夠為概念間的依賴關系識別提供有效的幫助.
為了了解各個特征在課程概念依賴關系分類任務中的效果,本文也對每個特征的貢獻度進行了分析.表6展示了依次去掉每個特征后,總體分類準確率(Accuracy)的變化情況.從整體來看,“基于維基百科屬性”的特征貢獻度大于“基于課程屬性”.當“基于維基百科屬性”的特征被去掉后整體分類準確率下降了11.13%,當“基于課程屬性”的特征被去掉后整體分類準確率下降了3.60%.當然,“基于維基百科屬性”中的特征數量也多于“基于課程屬性”中的特征.
表6 特征貢獻度分析(%)Table 6 Feature contribution analysis(%)
進一步分析“基于課程屬性”的特征可以看出,Ckf(wa,wb)特征去掉后影響最大,分類準確率下降了1.86%.Crf(wa,wb)特征影響最小,去掉后分類準確率下降了1.62%,可能是因為這個特征僅分析課程簡介中包含的概念,涉及的概念數量較少,所以影響也相對來說較小.
而“基于維基百科屬性”的特征中,“基于維基百科分類”的系列特征(Waf)影響較大,去掉此類特征后整體分類準確率下降了5.30%.就單個特征而言,Wkf#(wa,wb)特征影響最大,該特征去掉后整體分類準確率下降了2.77%.另一方面,與相關概念集合有關的特征作用也較為明顯,說明使用大量相關概念做輔助以后能夠更準確的預測兩個課程概念間的依賴關系.
為了觀察不同大學的計算機科學專業(yè)課程體系的差異,本文利用課程概念間的依賴關系構建了概念圖.圖5與圖6分別展示了麻省理工學院(MIT)和斯坦福大學(Stanford)的概念圖.其中,概念“Computer Science”,“Computer Programming”和 “Mathematics”是被依賴程度較高的幾個概念.這也印證了利用維基百科分類層次信息定義特征的合理性,概念越抽象越容易被其它概念所依賴.
圖5 麻省理工學院(MIT)課程中涉及的概念及其依賴關系Fig.5 Concepts and dependencies involved in MIT courses
圖6 斯坦福大學(Stanford)課程中涉及的概念及其依賴關系Fig.6 Concepts and dependencies involved in Stanford
圖5和圖6中深色的結點為兩所大學的課程中共有的概念,淺色的結點為兩所大學的課程中不同的概念.例如“Least squares”、“Finite difference”、“Polynomial”等概念為麻省理工學院課程中獨有的概念,“Graph coloring”、“First-order logic”、“Lazy evaluation”等概念為斯坦福大學課程中獨有的概念.
仔細分析這些不同的概念,我們發(fā)現造成這些不同概念的原因有兩方面.一方面是兩所學校開設的課程有所區(qū)別,例如“Least squares”為麻省理工學院的“Dynamic Systems and Control”這門課程簡介中包含的概念,而斯坦福大學的課程集合中并沒有這門課程.另一方面,當兩所學校的課程的名稱相近時,它們的課程簡介內容的側重點會有所不同,例如“Polynomial”為麻省理工學院中“Design and Analysis of Algorithms”這門課程簡介中涉及的概念,而斯坦福大學也有一門“Algorithms”課程,但是課程簡介中并沒有包含這一概念.所以,通過對比不同大學的概念圖,可以進一步了解這些學校在課程設置方面的相同之處和不同之處.
本文提出了一種新的課程概念依賴關系挖掘方法,分別利用概念的課程屬性與維基百科屬性設計特征,實現對課程概念依賴關系的分類預測.課程間固定的學習順序通常是由它們所包含的課程概念相互依賴引起的,所以課程屬性的這些特征有助于識別課程概念間的依賴關系.同樣,維基百科中分類層次、用戶瀏覽詞條的次序、詞條間的鏈接關系,也都從不同的方面幫助識別概念間的依賴關系.實驗結果表明,本文提出的方法相較于現有的其它方法分類準確率更高.除此之外,本文也使用課程概念依賴關系建立了概念圖,并舉例分析了不同大學在課程體系設置上的差異.
當前,本文使用的公用數據集的數據量較小,未來我們將為更多不同學科專業(yè)、不同語言的課程創(chuàng)建可用的概念對數據集,對本文提出的方法進行進一步的驗證.此外,我們也將嘗試對MOOC、教材等各種類型的學習資源進行分析,抽取其中的主要概念并分析這些概念間的依賴關系.