国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合知識(shí)圖譜和協(xié)同過(guò)濾的學(xué)生成績(jī)預(yù)測(cè)方法

2020-04-09 14:49:42張金金許維勝
計(jì)算機(jī)應(yīng)用 2020年2期
關(guān)鍵詞:三元組圖譜知識(shí)點(diǎn)

陳 曦,梅 廣,張金金,許維勝,3*

(1.同濟(jì)大學(xué)電子與信息工程學(xué)院,上海201804;2.同濟(jì)大學(xué)教育技術(shù)與計(jì)算中心,上海200092;3.同濟(jì)大學(xué)信息化辦公室,上海200092)

0 引言

學(xué)生成績(jī)預(yù)測(cè)是教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)領(lǐng)域的研究熱點(diǎn)之一。研究通過(guò)對(duì)課程設(shè)置、學(xué)生歷史成績(jī)或其他背景數(shù)據(jù)的分析,預(yù)測(cè)學(xué)生在未來(lái)學(xué)習(xí)階段的表現(xiàn)。高等教育中日益嚴(yán)重的退學(xué)問(wèn)題使采用更為創(chuàng)新有效的方法促進(jìn)學(xué)生及時(shí)畢業(yè)已成為迫切需求:文獻(xiàn)[1]分析了全美的教育數(shù)據(jù),發(fā)現(xiàn)在所有2011 年秋季入學(xué)攻讀四年制學(xué)士學(xué)位的學(xué)生中,僅有60%在6 年內(nèi)完成了學(xué)業(yè)。眾多教育家認(rèn)為早期成績(jī)預(yù)測(cè)是解決該困境的一種實(shí)用的方法:文獻(xiàn)[2-4]都曾通過(guò)一系列實(shí)驗(yàn)表明早期識(shí)別出有退學(xué)風(fēng)險(xiǎn)的學(xué)生是防止他們輟學(xué)的一個(gè)關(guān)鍵舉措。

隨著數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的興起,大量數(shù)據(jù)挖掘的方法被應(yīng)用于學(xué)生成績(jī)預(yù)測(cè)的研究中?,F(xiàn)有的研究方法可分為兩類(lèi):一類(lèi)是將預(yù)測(cè)問(wèn)題視為回歸或分類(lèi)問(wèn)題,應(yīng)用線(xiàn)性回歸[5]、決策樹(shù)[6-7]、支持向量機(jī)[8]、深度神經(jīng)網(wǎng)絡(luò)[9]、貝葉斯網(wǎng)絡(luò)[10]等數(shù)據(jù)挖掘模型。另一類(lèi)是將學(xué)生預(yù)測(cè)問(wèn)題類(lèi)比成推薦系統(tǒng)中的用戶(hù)評(píng)價(jià)問(wèn)題,借用推薦領(lǐng)域的技術(shù)解決問(wèn)題,包括協(xié)同過(guò)濾(Collaborative Filtering,CF)、矩陣分解(Matrix Factorization,MF)等方法[11-17]。與基于回歸的方法相比,基于推薦的方法因?yàn)槠漭^高的預(yù)測(cè)精度和可解釋性得到更為廣泛的應(yīng)用。

但是,基于推薦的方法往往在缺乏歷史數(shù)據(jù)的情況下性能較差。該類(lèi)方法主要依賴(lài)學(xué)生成績(jī)的歷史記錄挖掘課程的相似性,進(jìn)而對(duì)結(jié)果進(jìn)行預(yù)測(cè),因此在課程的歷史選課人數(shù)較少時(shí),必須采用額外的信息幫助準(zhǔn)確刻畫(huà)課程之間的相似度。例如學(xué)生的知識(shí)基礎(chǔ)和課程的知識(shí)領(lǐng)域,這兩者之間的重合度與課程成績(jī)息息相關(guān),如果能夠揭示出這種關(guān)聯(lián),并運(yùn)用到成績(jī)預(yù)測(cè)中,預(yù)測(cè)的精度將有機(jī)會(huì)得到改善。但在學(xué)生成績(jī)預(yù)測(cè)領(lǐng)域,大多數(shù)研究都只利用了與知識(shí)信息關(guān)聯(lián)較弱的學(xué)生背景信息或課程背景信息,包括學(xué)生年級(jí)、課程難度、課程學(xué)時(shí)等。這些背景信息通常類(lèi)別冗雜,對(duì)數(shù)據(jù)源的要求較高,且對(duì)知識(shí)信息的挖掘有限。目前為止,還未見(jiàn)依賴(lài)知識(shí)信息預(yù)測(cè)學(xué)生成績(jī)的研究。

本文研究如何利用課程知識(shí)信息對(duì)高等教育中本科生在本科學(xué)位課程上所取得的成績(jī)進(jìn)行預(yù)測(cè)。研究通過(guò)TextRank算法[18]從課程信息中提取關(guān)鍵字作為知識(shí)點(diǎn),再結(jié)合數(shù)據(jù)庫(kù)中其他課程信息,構(gòu)建了基于課程信息的知識(shí)圖譜Knowledge Graph,KG)來(lái)表示課程的知識(shí)信息。在知識(shí)圖譜的 幫 助 下,本 文 借 助 節(jié) 點(diǎn) 親 密 度 算 法(Adamic Adar[19],Preferential attachment[20],Resource Allocation[21])和知識(shí)圖譜表示學(xué)習(xí)算法(Translating Embeddings[22]和DistMult Model[23])挖掘課程之間的知識(shí)相關(guān)性,并比較了它們?cè)趥鹘y(tǒng)CF框架下的有效性。

本文的主要工作如下:

1)基于同濟(jì)大學(xué)2013—2017 年間的本科生課程信息構(gòu)建了課程知識(shí)圖譜。

2)提出了一種在CF 框架下利用課程知識(shí)信息進(jìn)行成績(jī)預(yù)測(cè)的方法,并利用同濟(jì)大學(xué)的本科生成績(jī)數(shù)據(jù)驗(yàn)證了方法的有效性。

1 研究現(xiàn)狀

現(xiàn)有研究表明了基于推薦的算法在成績(jī)預(yù)測(cè)領(lǐng)域的有效性和利用課程信息建立教育類(lèi)知識(shí)圖譜的可行性,為從知識(shí)層面發(fā)掘課程關(guān)系并應(yīng)用于預(yù)測(cè)學(xué)生成績(jī)提供了理論基礎(chǔ)。

1.1 基于推薦算法的成績(jī)預(yù)測(cè)方法

學(xué)生成績(jī)預(yù)測(cè)問(wèn)題常與推薦系統(tǒng)中的用戶(hù)評(píng)價(jià)問(wèn)題進(jìn)行類(lèi)比,現(xiàn)有的研究也將推薦領(lǐng)域中的相關(guān)技術(shù)用于預(yù)測(cè)學(xué)生的成績(jī)。文獻(xiàn)[11-12]使用CF 方法預(yù)測(cè)成績(jī)并證明了CF 在學(xué)生成績(jī)預(yù)測(cè)上的表現(xiàn)優(yōu)于傳統(tǒng)回歸方法。文獻(xiàn)[13]以CF為底層算法構(gòu)建了一個(gè)選修課推薦系統(tǒng)并應(yīng)用在中山大學(xué)。該應(yīng)用使得選修課程的退課率大幅下降,進(jìn)一步證明了CF的有效性。文獻(xiàn)[14]擴(kuò)展了傳統(tǒng)的推薦算法,利用學(xué)生的歷史成績(jī)以及喬治梅森大學(xué)的各種課程背景資料和學(xué)生資料解決成績(jī)預(yù)測(cè)問(wèn)題;研究提出了一種混合分解機(jī)和隨機(jī)森林(Factorization Machine with Random Forest,F(xiàn)M-RF)的方法用于準(zhǔn)確預(yù)測(cè)學(xué)生在課堂上的表現(xiàn)。文獻(xiàn)[15]在CF 框架下開(kāi)發(fā)了三種融合了時(shí)間信息的預(yù)測(cè)方法,并對(duì)明尼蘇達(dá)大學(xué)的學(xué)生成績(jī)數(shù)據(jù)進(jìn)行了一系列實(shí)驗(yàn),驗(yàn)證了方法的有效性。

上述成績(jī)預(yù)測(cè)方法大多忽略了學(xué)生成績(jī)隨著學(xué)生努力程度而改變的事實(shí)基礎(chǔ)。為解決上述問(wèn)題,一些研究者基于學(xué)生的學(xué)習(xí)過(guò)程對(duì)成績(jī)的影響提出了動(dòng)態(tài)預(yù)測(cè)算法:文獻(xiàn)[16]使用歷史成績(jī)信息和可用的附加信息(如期中考試成績(jī))來(lái)預(yù)測(cè)學(xué)生未來(lái)課程的成績(jī),研究采用MF 方法并得到了較好的結(jié)果;文獻(xiàn)[17]在評(píng)估學(xué)生行為的基礎(chǔ)上,提出了一種基于MF的動(dòng)態(tài)預(yù)測(cè)學(xué)生學(xué)習(xí)成績(jī)的方法。

1.2 教育知識(shí)圖譜的構(gòu)建和應(yīng)用

在教育領(lǐng)域,知識(shí)圖譜也稱(chēng)概念圖[24]或領(lǐng)域模型[25],主要關(guān)注包括課程和知識(shí)在內(nèi)的教育實(shí)體及其之間的連接關(guān)系。挖掘每門(mén)課程的關(guān)鍵知識(shí)是構(gòu)建課程知識(shí)圖譜的過(guò)程中必不可少的一步。挖掘關(guān)鍵知識(shí)的一類(lèi)方法是使用關(guān)鍵字提取 算 法,包 括TextRank[18]和TF-IDF(Term Frequency-Inverse Document Frequency)[26]。該類(lèi)方法將課程信息視為普通文獻(xiàn),提取其中的關(guān)鍵字作為關(guān)鍵知識(shí),文獻(xiàn)[27]就使用關(guān)鍵字提取方法基于MOOC課程信息構(gòu)建了課程知識(shí)圖譜。另一種方法是利用實(shí)體鏈接技術(shù)識(shí)別知識(shí)點(diǎn)。例如:文獻(xiàn)[28]利用教學(xué)數(shù)據(jù)和實(shí)體識(shí)別技術(shù),從MOOC 平臺(tái)的課程信息中提取了教學(xué)概念;文獻(xiàn)[29]提出了一種利用Web 知識(shí)從數(shù)字圖書(shū)中提取概念層次結(jié)構(gòu)的方法,并通過(guò)該方法將圖書(shū)內(nèi)部的知識(shí)與外部的知識(shí)資源連接起來(lái);文獻(xiàn)[25]提出了一種從電子教材中半自動(dòng)生成知識(shí)模塊的框架DOM-Sortze。

知識(shí)圖譜特殊的結(jié)構(gòu)為計(jì)算節(jié)點(diǎn)的相似度提供了可能性。將知識(shí)圖譜看作由節(jié)點(diǎn)和邊組成的網(wǎng)絡(luò)結(jié)構(gòu),可以使用一些鏈路預(yù)測(cè)方法來(lái)計(jì)算節(jié)點(diǎn)間的緊密度,包括Adamic Adar[19]、Preferential attachment[20]以及Resource Allocation[21]。一些知識(shí)圖譜表示學(xué)習(xí)算法也可以用于計(jì)算每個(gè)節(jié)點(diǎn)的特征向量,從而計(jì)算節(jié)點(diǎn)相似度,如TransE(Translating Embeddings)[22]、DistMult[23]和ComplEx[30]。

2 課程知識(shí)圖譜的構(gòu)建

本章設(shè)計(jì)了課程知識(shí)圖譜的結(jié)構(gòu),并使用TextRank[18]對(duì)知識(shí)圖譜進(jìn)行實(shí)體提取,以完成圖譜的構(gòu)建。

2.1 知識(shí)圖譜結(jié)構(gòu)

本文研究使用同濟(jì)大學(xué)的課程信息相關(guān)數(shù)據(jù)構(gòu)建課程知識(shí)圖譜。通過(guò)對(duì)數(shù)據(jù)的分析,本文選取了以下實(shí)體:“院系”“課程”“知識(shí)點(diǎn)”“教材”“參考書(shū)”和“教學(xué)模式”?!霸合怠睂?shí)體指開(kāi)設(shè)該課程的機(jī)構(gòu);“知識(shí)點(diǎn)”實(shí)體指學(xué)生在完成課程后應(yīng)該掌握的概念或技能;“教學(xué)模式”實(shí)體指教學(xué)過(guò)程中所采用的教學(xué)方法,如講課、討論或?qū)嵺`。圖1 描述了幾個(gè)實(shí)體之間的關(guān)系類(lèi)型:圖中節(jié)點(diǎn)代表實(shí)體,邊緣代表實(shí)體之間的關(guān)系。圖2 展示了部分知識(shí)圖譜;圖譜以“模式識(shí)別”“模式信息處理”及“模式識(shí)別及其地學(xué)應(yīng)用”這三門(mén)課程為中心發(fā)散,展現(xiàn)了三門(mén)課程之間的聯(lián)系。其中圓形節(jié)點(diǎn)表示“課程”實(shí)體;白色矩形節(jié)點(diǎn)表示“知識(shí)點(diǎn)”實(shí)體;灰色矩形節(jié)點(diǎn)表示“院系”實(shí)體;實(shí)線(xiàn)箭頭表示“院系-OFFER-課程”關(guān)系;虛線(xiàn)箭頭表示“課程-COVER-知識(shí)點(diǎn)”關(guān)系??梢钥闯?,知識(shí)圖譜可以直觀地反映課程的相關(guān)特征以及不同課程之間的聯(lián)系。

2.2 課程知識(shí)相關(guān)性挖掘

課程知識(shí)圖譜中涉及的大部分實(shí)體和關(guān)系可以從數(shù)據(jù)庫(kù)中獲取。而“知識(shí)點(diǎn)”實(shí)體需要從課程簡(jiǎn)介中提取。課程簡(jiǎn)介的文本往往結(jié)構(gòu)統(tǒng)一,大都包含相似的詞匯和句型。除去通用詞匯,課程簡(jiǎn)介主要由專(zhuān)業(yè)術(shù)語(yǔ)組成。綜上,利用簡(jiǎn)單的關(guān)鍵字提取方法即可提課程簡(jiǎn)介中所包含的關(guān)鍵知識(shí)點(diǎn)。本節(jié)使用TextRank從中提取“知識(shí)點(diǎn)”。

圖1 課程知識(shí)圖譜的結(jié)構(gòu)Fig.1 Structure of course knowledge graph

圖2 知識(shí)圖譜示例Fig.2 Sample of knowledge graph

TextRank 的主要思想是建立基于詞之間鄰接網(wǎng)絡(luò),并使用PageRank[31]計(jì)算每個(gè)節(jié)點(diǎn)的Rank。算法選擇Rank 數(shù)值較大的單詞作為關(guān)鍵詞。首先將給定的課程簡(jiǎn)介文檔D分成完整的句子[S1,S2,…,Si];對(duì)句子Si進(jìn)行分詞和詞性標(biāo)注。分割后從句子中過(guò)濾停止詞,留下帶有指定詞性的單詞。停止詞包含一些常見(jiàn)但無(wú)意義的詞,如“學(xué)時(shí)”“課堂”“理論”和“大學(xué)”。根據(jù)上述規(guī)則將Si分成一組單詞[ti,1,ti,2,…,ti,n],其中,ti,n表示句子中的第n 個(gè)候選單詞。算法根據(jù)這些單詞構(gòu)建候選關(guān)鍵字網(wǎng)絡(luò)G=(V,E),每個(gè)候選單詞ti,n對(duì)應(yīng)一個(gè)節(jié)點(diǎn),V 是所有節(jié)點(diǎn)的集合;E 則是由代表節(jié)點(diǎn)之間共現(xiàn)關(guān)系的邊組成的集合。共現(xiàn)關(guān)系是指一對(duì)節(jié)點(diǎn)對(duì)應(yīng)的兩個(gè)詞在長(zhǎng)度為K 的文本窗口內(nèi)共現(xiàn)。在本文中,K 設(shè)置為30。根據(jù)式(1)迭代計(jì)算各節(jié)點(diǎn)的Rank(Vi)直到收斂,再選擇Rank(Vi)的數(shù)值較大者作為關(guān)鍵詞。

其中:d 為用于平滑的參數(shù);In(Vi)是Vi的前繼節(jié)點(diǎn),Out(Vj)為Vj的后繼節(jié)點(diǎn)。

TextRank 雖然可以有效地從課程簡(jiǎn)介中提取關(guān)鍵字,但無(wú)法識(shí)別知識(shí)點(diǎn)間的歧義現(xiàn)象。例如,“神經(jīng)網(wǎng)絡(luò)”一詞在“模式識(shí)別”和“人體解剖學(xué)”兩門(mén)課程中就有不同的含義。由于該詞匯在這兩篇文檔中具有相同的詞性和所處語(yǔ)境的相似性,很難將其區(qū)分開(kāi)來(lái)。

一個(gè)術(shù)語(yǔ)的意義取決于它的領(lǐng)域;在本文中,這體現(xiàn)在課程所處“院系”和課程包含的“知識(shí)點(diǎn)”這兩個(gè)實(shí)體上;即“模式識(shí)別”課程由“電子與信息工程學(xué)院”開(kāi)設(shè),“人體解剖學(xué)”課程由“醫(yī)學(xué)院”開(kāi)設(shè),且這兩門(mén)課程涵蓋的“知識(shí)點(diǎn)”存在顯著差異。對(duì)含有相同關(guān)鍵詞的課程,比較其所屬院系和包含的“知識(shí)點(diǎn)”。如果這兩門(mén)課程來(lái)自不同的院系或超過(guò)一半的“知識(shí)點(diǎn)”是不同的,即認(rèn)為兩門(mén)課程不屬于同一知識(shí)領(lǐng)域,可能在同一個(gè)關(guān)鍵詞上有不同的含義??紤]到數(shù)據(jù)庫(kù)中存在大量的交叉學(xué)科課程,本文在上述歧義檢測(cè)的基礎(chǔ)上進(jìn)行人工確認(rèn),從而確保消歧過(guò)程的準(zhǔn)確性。

3 成績(jī)預(yù)測(cè)方法

基于已構(gòu)建的課程知識(shí)圖譜,分別采用基于鄰節(jié)點(diǎn)的方法和基于知識(shí)圖譜表示學(xué)習(xí)的方法從知識(shí)圖譜中挖掘課程相似度,該相似度揭露了課程在知識(shí)領(lǐng)域的關(guān)系。在缺乏歷史數(shù)據(jù)的場(chǎng)景下,課程在知識(shí)層面的關(guān)聯(lián)為CF框架提供了相似度的計(jì)算途徑;知識(shí)相似度與基于歷史紀(jì)錄的相似度之間互為補(bǔ)充,使得預(yù)測(cè)結(jié)果更接近真實(shí)數(shù)據(jù)。

3.1 算法框架

算法首先生成課程相似度矩陣,再選取k 個(gè)與目標(biāo)課程相似度最大的課程作為相似課程。學(xué)生在相似課程上分?jǐn)?shù)的加權(quán)平均值即為學(xué)生在目標(biāo)課程獲得的分?jǐn)?shù)。當(dāng)預(yù)測(cè)學(xué)生s在課程c 上所取得的成績(jī)時(shí),根據(jù)課程知識(shí)圖譜計(jì)算c 和s 上過(guò)的歷史課程[c1,c2,…,ci]的知識(shí)相似度?;谥R(shí)相似度篩選出相似度高的k個(gè)課程。s在這k門(mén)課程上所得成績(jī)的加權(quán)平均即為目標(biāo)課程c的成績(jī)估計(jì)est1,計(jì)算加權(quán)平均值時(shí)以知識(shí)相似度為權(quán)重。本文也使用基于歷史記錄的傳統(tǒng)CF 生成估計(jì)值est2。對(duì)這兩種預(yù)測(cè)模型作線(xiàn)性集成,得到最終預(yù)測(cè)ScoreEst。圖3給出了算法流程。

圖3 預(yù)測(cè)算法流程Fig.3 Flowchart of prediction algorithm

3.2 相似度計(jì)算

3.2.1 基于鄰節(jié)點(diǎn)的相似度計(jì)算

基于鄰節(jié)點(diǎn)的相似度計(jì)算方法將知識(shí)圖譜看作由節(jié)點(diǎn)和邊構(gòu)成的網(wǎng)絡(luò),用課程對(duì)應(yīng)節(jié)點(diǎn)之間的親密度衡量課程相似度。本節(jié)采用了多種基于鄰節(jié)點(diǎn)的節(jié)點(diǎn)親密度算法來(lái)計(jì)算課程間的知識(shí)相似度,并按照3.1節(jié)所述與CF框架融合。

在基于鄰節(jié)點(diǎn)的方法中,鄰節(jié)點(diǎn)的數(shù)量對(duì)于確定一對(duì)節(jié)點(diǎn)的相似性起著至關(guān)重要的作用。兩個(gè)節(jié)點(diǎn)共享的鄰節(jié)點(diǎn)越多,關(guān)系就越親密。本文使用了一些經(jīng)過(guò)鏈路預(yù)測(cè)領(lǐng)域驗(yàn)證的節(jié)點(diǎn)親密度計(jì)算方法,包括Adamic Adar[19]、共享鄰節(jié)點(diǎn)數(shù)量(Common Neighbors)、Preferential Attachment[20]、Resource Allocation[21]、同屬社區(qū)(Same Community)和鄰節(jié)點(diǎn)總數(shù)量(Total Neighbors)。具體的計(jì)算公式如(2)~(6)所示。

對(duì)于Adamic Adar:

其中:N(u)表示u的鄰節(jié)點(diǎn),| |

N(u)表示N(u)的節(jié)點(diǎn)數(shù)量。

對(duì)于Common Neighbors:

對(duì)于Preferential Attachment:

對(duì)于Resource Allocation:

Same Community是通過(guò)確定兩個(gè)節(jié)點(diǎn)是否屬于同一社區(qū)來(lái)決定兩節(jié)點(diǎn)關(guān)系的一種方法。該算法將網(wǎng)絡(luò)劃分為不同的社區(qū),值為0 表示兩個(gè)節(jié)點(diǎn)不在同一個(gè)社區(qū)中,值為1 表示同屬一個(gè)社區(qū)。本文定義課程知識(shí)圖譜中同一個(gè)連通域內(nèi)的點(diǎn)屬于同一個(gè)社區(qū)。

利用上述公式計(jì)算課程所對(duì)應(yīng)節(jié)點(diǎn)的親密度,并將其作為課程之間的相似度應(yīng)用于后續(xù)計(jì)算中。

3.2.2 基于圖譜表示學(xué)習(xí)的相似度計(jì)算

知識(shí)圖譜的表示學(xué)習(xí)是一種將知識(shí)圖譜的實(shí)體和關(guān)系轉(zhuǎn)化為低維向量的方法。為了將實(shí)體和關(guān)系嵌入到低維向量空間中,使用三元組的集合表示知識(shí)圖譜。以本文為例,課程知識(shí)圖譜G 可以看作三元組(sub,pred,obj)的集合,每個(gè)三元組包含一個(gè)主體sub ∈Entity,一個(gè)謂詞pred ∈Relation,以及一個(gè)對(duì)象obj ∈Entity。Entity 和Relation 分別是所有實(shí)體和關(guān)系類(lèi)型的集合。例如,“課程”實(shí)體C 以及“院系”實(shí)體D 連接形成一個(gè)三元組:(D,offer,C)。推斷三元組中的一對(duì)節(jié)點(diǎn)在知識(shí)圖譜的語(yǔ)義上是相似的。有效的知識(shí)圖譜表示形式應(yīng)該能夠?qū)D譜中存在的三元組(正三元組)和不存在的三元組(負(fù)三元組)區(qū)分開(kāi),即正三元組中,實(shí)體所對(duì)應(yīng)的嵌入向量相似,負(fù)三元組中,實(shí)體所對(duì)應(yīng)的嵌入向量差異大。本文采用了TransE[22]和DistMult[23]對(duì)圖譜進(jìn)行低維嵌入。得到嵌入向量之后,使用Pearson 距離來(lái)度量向量之間的相似度,從而得到課程之間的相似矩陣。

TransE 和Distmult 使用評(píng)分函數(shù)S(t)對(duì)正三元組t+和負(fù)三元組t-評(píng)分;再通過(guò)合適的損失函數(shù)盡可能地讓負(fù)三元組的得分顯著低于正三元組。

本文中,TransE的評(píng)分函數(shù)采用L2范數(shù):

對(duì)于Total Neighbors:

其中,esub、epred、eobj分別表示sub、pred、obj的嵌入向量。

DistMult模型采用三線(xiàn)性點(diǎn)積作為評(píng)分函數(shù):

本文中采用了pairwise 損失函數(shù)和negative log-likelihood損失函數(shù)訓(xùn)練TransE和DistMult,計(jì)算公式如(9)和(10)。

其中:γ為邊緣參數(shù),表示正負(fù)三元組的區(qū)分度;G是正三元組的集合,N 是負(fù)三元組的集合,由替換正三元組的sub 或obj而生成;I()是指示函數(shù),I(t ∈G)在t ∈G的時(shí)候取1,其余為0。

使用上述方法計(jì)算得到的k 維向量表示課程,并生成相似度矩陣。

相對(duì)于基于鄰節(jié)點(diǎn)的方法,基于知識(shí)圖譜表示學(xué)習(xí)的方法考慮了不同關(guān)系具有的不同意義。例如,來(lái)自同一“院系”的課程比只有一個(gè)共同“知識(shí)點(diǎn)”的課程在知識(shí)層面上更相似。但在以鄰節(jié)點(diǎn)為核心的方法中,相似度只與共同鄰節(jié)點(diǎn)的數(shù)量相關(guān)。

4 實(shí)驗(yàn)與討論

為驗(yàn)證學(xué)生知識(shí)基礎(chǔ)和課程知識(shí)信息在學(xué)生成績(jī)預(yù)測(cè)中的有效性,本文進(jìn)行了一系列對(duì)比實(shí)驗(yàn)來(lái)衡量提出的預(yù)測(cè)算法在不同場(chǎng)景下的預(yù)測(cè)精度,實(shí)驗(yàn)場(chǎng)景包括冷啟動(dòng)問(wèn)題、數(shù)據(jù)稀疏場(chǎng)景和數(shù)據(jù)密集場(chǎng)景。

4.1 實(shí)驗(yàn)設(shè)置

4.1.1 數(shù)據(jù)集

實(shí)驗(yàn)中采用的數(shù)據(jù)集是來(lái)自同濟(jì)大學(xué)的1 217 086 條課程成績(jī)記錄。數(shù)據(jù)集涉及23 903名本科生和5 378門(mén)課程,涵蓋了2013 年至2017 年所有在校本科生的課程記錄。每一項(xiàng)成績(jī)記錄描述了學(xué)生、課程以及相應(yīng)的課程成績(jī)(5 分制)。圖4描繪了課程數(shù)量關(guān)于選課人數(shù)的分布;圖5則是學(xué)生數(shù)量關(guān)于選課數(shù)量的分布情況。

如圖4 所示,大部分的課程選課人數(shù)在[10,500)區(qū)間。僅有11.64%的課程選課人數(shù)少于10人,即11.64%的課程會(huì)出現(xiàn)數(shù)據(jù)稀疏或冷啟動(dòng)問(wèn)題。使用傳統(tǒng)CF 對(duì)這部分課程進(jìn)行成績(jī)預(yù)測(cè)的效果有限。

圖4 課程數(shù)量關(guān)于選課人數(shù)的分布Fig.4 Distribution of number of courses corresponding to number of students

從圖5的數(shù)據(jù)可以得出,95.14%的學(xué)生的選課數(shù)量在10到100 之間,數(shù)據(jù)表明大部分學(xué)生擁有足夠的成績(jī)記錄來(lái)保證預(yù)測(cè)的準(zhǔn)確性。只有0.41%的學(xué)生選課門(mén)數(shù)少于10門(mén),這些學(xué)生多是交流生或聯(lián)合培養(yǎng)項(xiàng)目參與者,他們的成績(jī)計(jì)算方法及成績(jī)記錄仍保留在原學(xué)校,因此不屬于本文研究的探究范疇。

在實(shí)驗(yàn)過(guò)程中,按照3∶1 的比例將數(shù)據(jù)集劃分為已知成績(jī)數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)將記錄每一種算法在已知部分成績(jī)數(shù)據(jù)的基礎(chǔ)上預(yù)測(cè)成績(jī)的誤差。

圖5 學(xué)生人數(shù)關(guān)于選課門(mén)數(shù)的分布Fig.4 Distribution of number of students correspongding to number of taken courses

4.1.2 課程知識(shí)圖譜

本文構(gòu)建的課程知識(shí)圖譜組成如表1、2所示。

表1 實(shí)體類(lèi)型及其數(shù)量Tab.1 Types and numbers of entities

表2 關(guān)系類(lèi)型及其數(shù)量Tab.2 Types and numbers of relationships

課程知識(shí)圖譜共有69 297個(gè)三元組,選取其中的2 000個(gè)作為訓(xùn)練嵌入向量模型的測(cè)試集,并通過(guò)嵌入向量模型在測(cè)試集上的表現(xiàn)評(píng)價(jià)生成的嵌入向量。

4.1.3 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用均方根誤差(Root Mean Square Error,RMSE)和平均絕對(duì)誤差(Mean Absolute Error,MAE)兩個(gè)指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行了評(píng)估,計(jì)算公式如式(11)、(12)。

其中:Dtest表示測(cè)試集;y'和y 分別表示樣本的預(yù)測(cè)結(jié)果和該樣本的實(shí)際得分。

本文使用平均互反排名(Mean Reciprocal Rank,MRR)和Hit@10 評(píng)價(jià)嵌入向量的準(zhǔn)確性。對(duì)于測(cè)試集中的每個(gè)正三元組,實(shí)驗(yàn)通過(guò)替換它的主體或?qū)ο髞?lái)生成一系列的負(fù)三元組。模型使用得分函數(shù)計(jì)算這些正負(fù)三元組的得分并按得分降序排列三元組;其中正三元組在其生成的一系列負(fù)三元組中排名為rank(s+,p,o+)。Hit@10是指排在前10位的正三元組的比例。MRR則按照式(13)計(jì)算。

其中Gtest表示測(cè)試三元組的集合。

MRR和Hit@10的數(shù)值越大,說(shuō)明測(cè)試集中排名靠前的正三元組數(shù)量越多,即嵌入向量對(duì)知識(shí)圖譜的描述能力越強(qiáng)。

4.1.4 基準(zhǔn)

實(shí)驗(yàn)采用三種常用成績(jī)預(yù)測(cè)算法在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果作為基準(zhǔn)。一是基于正態(tài)分布的成績(jī)預(yù)測(cè)方法(Normal Prediction),該方法將所有學(xué)生在某一門(mén)課程上獲得的成績(jī)視為正態(tài)分布,通過(guò)隨機(jī)取樣獲得待預(yù)測(cè)成績(jī);二是基于奇異值分解(Singular Value Decomposition,SVD)的矩陣分解方法[32]。三是基于項(xiàng)目的協(xié)同過(guò)濾(Item-Based CF)方法,該方法采用Pearson距離來(lái)衡量課程之間的相似性,并選取學(xué)生在40個(gè)相似課程上的成績(jī)加權(quán)平均值作為預(yù)測(cè)值。實(shí)驗(yàn)通過(guò)對(duì)比每種預(yù)測(cè)方法得出的實(shí)驗(yàn)結(jié)果與三種基準(zhǔn)算法中的最優(yōu)結(jié)果,檢驗(yàn)知識(shí)圖譜對(duì)預(yù)測(cè)算法的優(yōu)化程度。

4.2 基于鄰節(jié)點(diǎn)的方法

實(shí)驗(yàn)融合了傳統(tǒng)CF和基于鄰節(jié)點(diǎn)的相似度,并從整個(gè)數(shù)據(jù)集中選取了3 段具有代表性的數(shù)據(jù)來(lái)檢驗(yàn)鄰節(jié)點(diǎn)法的有效性:1)選課人數(shù)少于10 人的課程;2)選課人數(shù)在[10,500)區(qū)間的課程;3)選課人數(shù)大于500人的課程。場(chǎng)景1的課程選課人數(shù)較少,冷啟動(dòng)問(wèn)題和數(shù)據(jù)稀疏問(wèn)題較嚴(yán)重;場(chǎng)景2 幾乎不存在冷啟動(dòng)問(wèn)題,數(shù)據(jù)稀疏問(wèn)題有所減輕;場(chǎng)景3 為數(shù)據(jù)密集場(chǎng)景。表3記錄了算法在數(shù)據(jù)稀疏性不同的場(chǎng)景下的性能。

表3 基于鄰節(jié)點(diǎn)的算法多場(chǎng)景下的性能Tab.3 Performance of neighbor-based algorithms in multiple scenarios

從實(shí)驗(yàn)結(jié)果可得,在冷啟動(dòng)和數(shù)據(jù)稀疏的場(chǎng)景下,基于鄰節(jié)點(diǎn)的方法顯著降低了預(yù)測(cè)誤差。表3中場(chǎng)景1數(shù)據(jù)顯示,在數(shù) 據(jù) 稀 疏 場(chǎng) 景 下,Resource Allocation、Adamic Adar 和Common Neighbor 與結(jié)果最優(yōu)的基準(zhǔn)算法相比都在RMSE 指標(biāo)上下降了超過(guò)10%,在MAE 指標(biāo)上下降約9%。此外,場(chǎng)景2和場(chǎng)景3的數(shù)據(jù)表明,知識(shí)圖譜在選課人數(shù)較多的情況下仍對(duì)預(yù)測(cè)結(jié)果有改善。對(duì)于選課人數(shù)在[10,500)區(qū)間的課程,與Item-based CF 方法相比,基于鄰節(jié)點(diǎn)的方法使RMSE 和MAE 分別下降了9%;對(duì)于選課人數(shù)大于500 人的課程,性能最優(yōu)的算法Adamic Adar 與Item-Based CF 方法相比,其RMSE下降了3.66%,MAE 下降了2.87%。綜合表3 的數(shù)據(jù),可以發(fā)現(xiàn)傳統(tǒng)CF的性能隨著歷史數(shù)據(jù)的豐富而逐漸變好,而知識(shí)圖譜的作用隨著數(shù)據(jù)稀疏程度的減弱而減弱。

4.3 基于圖譜表示學(xué)習(xí)的方法

本節(jié)在傳統(tǒng)CF 中融合通過(guò)TransE 和DistMult 計(jì)算的相似度。實(shí)驗(yàn)首先利用課程知識(shí)圖譜生成嵌入向量,并用MRR和Hit@10對(duì)嵌入向量進(jìn)行評(píng)價(jià)。經(jīng)過(guò)訓(xùn)練和驗(yàn)證,設(shè)置嵌入向量的維度為200;本文使用Pairwise 損失函數(shù)訓(xùn)練TransE,使用negative log-likelihood 損失函數(shù)訓(xùn)練DistMult。表4 給出了兩種嵌入向量的詳細(xì)評(píng)價(jià)。

表4 TransE和DistMult的評(píng)價(jià)Tab.4 Evaluation of TransE and DistMult

利用Pearson 距離計(jì)算嵌入向量的相似性。為了驗(yàn)證基于知識(shí)圖譜表示學(xué)習(xí)的方法的有效性,從整個(gè)數(shù)據(jù)集中選取與4.2節(jié)同樣的三段數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果如表5所示。

表5 基于圖譜表示學(xué)習(xí)的算法在多場(chǎng)景下的性能Tab.5 Performance of KG representation-based algorithms in multiple scenarios

表5 說(shuō)明了基于圖譜表示學(xué)習(xí)的方法對(duì)傳統(tǒng)CF 的預(yù)測(cè)結(jié)果有顯著的改善。場(chǎng)景1)數(shù)據(jù)顯示在數(shù)據(jù)稀疏場(chǎng)景中,性能最優(yōu)的算法與Item-Based CF 相比在RMSE 和MAE 指標(biāo)上分別下降了17.55%和11.40%。隨著數(shù)據(jù)的豐富,基于圖譜表示學(xué)習(xí)的方法相比于傳統(tǒng)CF依然有優(yōu)勢(shì),且在各個(gè)場(chǎng)景下的預(yù)測(cè)性能都優(yōu)于基于鄰節(jié)點(diǎn)的方法。比較TransE 和DistMult,盡管DistMult 在描述知識(shí)圖譜(包括MRR 和Hit@10)方面的性能優(yōu)于TransE,但TransE在上述幾種情況下的表現(xiàn)都優(yōu)于DistMult。

4.4 結(jié)果分析

本文研究結(jié)果表明,知識(shí)圖譜可以幫助傳統(tǒng)CF實(shí)現(xiàn)更準(zhǔn)確的學(xué)生成績(jī)預(yù)測(cè)。在冷啟動(dòng)和稀疏數(shù)據(jù)的情況下,基于鄰節(jié)點(diǎn)的方法和基于圖譜表示學(xué)習(xí)的方法均使RMSE 和MAE顯著下降。實(shí)驗(yàn)結(jié)果顯示,使用Adamic Adar、Common Neighbors、Resource Allocation、Same Community、Total Neighbors、TransE 和DistMult 等算法計(jì)算的知識(shí)相似性有助于預(yù)測(cè)結(jié)果的改善。這種改善可以歸因于知識(shí)圖譜提供的語(yǔ)義信息。傳統(tǒng)CF往往通過(guò)歷史數(shù)據(jù)評(píng)估相似度,不同課程之間對(duì)學(xué)生能力要求的共性和學(xué)科之間思維模式的相通性確保了傳統(tǒng)CF能夠有效地刻畫(huà)課程間的聯(lián)系,從而取得不錯(cuò)的預(yù)測(cè)效果。但在歷史記錄缺乏的場(chǎng)景下,小數(shù)據(jù)量不足以支持CF 準(zhǔn)確地刻畫(huà)課程間的關(guān)系。而利用課程知識(shí)信息構(gòu)建的知識(shí)圖譜可以作為相似度計(jì)算的另一種途徑;知識(shí)圖譜更偏重于從教學(xué)內(nèi)容挖掘課程之間的關(guān)系,它刻畫(huà)了不同課程在知識(shí)領(lǐng)域上的交集;從學(xué)生的先驗(yàn)知識(shí)和課程的教學(xué)內(nèi)容出發(fā),提供預(yù)測(cè)結(jié)果。

實(shí)驗(yàn)結(jié)果還表明,隨著數(shù)據(jù)稀疏程度的減弱,知識(shí)圖譜對(duì)預(yù)測(cè)精度的改善逐漸減弱。對(duì)此可能的解釋是信息的冗余。以往的文獻(xiàn)都證明了CF 在歷史評(píng)分?jǐn)?shù)據(jù)充足的場(chǎng)景下可以有效發(fā)掘課程之間的關(guān)聯(lián),這種關(guān)聯(lián)既包括學(xué)科之間邏輯思維層面的相通性,又涵蓋了知識(shí)層面的共同性。在歷史數(shù)據(jù)不足的情況下,知識(shí)圖譜提供的信息揭露了課程在知識(shí)層面的交叉,從而有助于表示課程關(guān)系,幫助CF 框架更好地預(yù)測(cè)成績(jī)。在密集數(shù)據(jù)情況下,知識(shí)圖譜所包含的信息和歷史數(shù)據(jù)本身發(fā)生冗余;因此,在歷史數(shù)據(jù)密集的場(chǎng)景下,知識(shí)圖譜對(duì)預(yù)測(cè)性能的提升有限。

5 結(jié)語(yǔ)

本文研究通過(guò)結(jié)合關(guān)鍵字提取算法和消歧方法構(gòu)建了一個(gè)課程知識(shí)圖譜模型;并從圖譜結(jié)構(gòu)和語(yǔ)義信息兩個(gè)角度出發(fā),分別使用基于鄰節(jié)點(diǎn)的方法和基于圖譜表示學(xué)習(xí)的方法發(fā)掘了課程在知識(shí)層面的關(guān)系;本文隨后對(duì)其在學(xué)生成績(jī)預(yù)測(cè)中的應(yīng)用進(jìn)行了探討。實(shí)驗(yàn)結(jié)果表明,知識(shí)圖譜可以從知識(shí)領(lǐng)域的層面有效計(jì)算課程相關(guān)度;對(duì)傳統(tǒng)CF在歷史記錄基礎(chǔ)上得出的課程關(guān)聯(lián)作了信息補(bǔ)充,對(duì)課程關(guān)聯(lián)作了更加完善的刻畫(huà),從而得到了比傳統(tǒng)CF更好的預(yù)測(cè)性能。

本文探索了知識(shí)圖譜在學(xué)生成績(jī)預(yù)測(cè)中的應(yīng)用,并驗(yàn)證了其可行性和有效性。與傳統(tǒng)的成績(jī)預(yù)測(cè)研究相比,本文提出的方法融合了學(xué)生的知識(shí)基礎(chǔ)和課程的教學(xué)內(nèi)容,為后續(xù)解讀預(yù)測(cè)結(jié)果提供了更多角度。

然而在本文研究中,知識(shí)圖譜的結(jié)構(gòu)不夠細(xì)化,限制了語(yǔ)義信息進(jìn)一步的挖掘。例如,本文提出的“知識(shí)點(diǎn)”實(shí)體可以分為幾個(gè)子類(lèi)型,如技能、概念、公式和理論。更詳細(xì)的知識(shí)圖譜將會(huì)暴露更多的語(yǔ)義信息。后續(xù)將對(duì)知識(shí)圖譜的結(jié)構(gòu)作進(jìn)一步的優(yōu)化。此外,本文研究只是將知識(shí)圖譜與CF框架進(jìn)行了簡(jiǎn)單的整合,未來(lái)的研究可以考慮將知識(shí)圖譜應(yīng)用于更多的推薦算法框架,進(jìn)一步優(yōu)化預(yù)測(cè)性能。

猜你喜歡
三元組圖譜知識(shí)點(diǎn)
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
一張圖知識(shí)點(diǎn)
一張圖知識(shí)點(diǎn)
第四頁(yè) 知識(shí)點(diǎn) 殲轟-7A
特征標(biāo)三元組的本原誘導(dǎo)子
繪一張成長(zhǎng)圖譜
關(guān)于余撓三元組的periodic-模
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動(dòng)對(duì)接你思維的知識(shí)圖譜
關(guān)于G20 的知識(shí)點(diǎn)
焦作市| 福建省| 宜春市| 上蔡县| 宁国市| 石景山区| 宾川县| 鞍山市| 仪陇县| 丰镇市| 云和县| 太仆寺旗| 海原县| 河北省| 鄂尔多斯市| 大英县| 丹棱县| 武冈市| 婺源县| 汝南县| 临颍县| 上饶市| 东兰县| 麻城市| 如皋市| 且末县| 精河县| 双桥区| 龙岩市| 永昌县| 康定县| 松溪县| 城固县| 长春市| 饶平县| 车险| 龙泉市| 临湘市| 淄博市| 寿光市| 松江区|