国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜的MOOC課程推薦

2023-09-13 11:48:06曹小蘭張怡文單春宇
關(guān)鍵詞:三元組鄰域圖譜

曹小蘭,張怡文,單春宇,張 力

(1.安徽建筑大學(xué) 電子信息與工程學(xué)院,安徽 合肥 230601;2.安徽新華學(xué)院 信息工程學(xué)院,安徽 合肥 230088)

0 引言

在線教育平臺隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展越來越受歡迎,用戶可以在海量的資源中學(xué)習(xí),但由于學(xué)習(xí)資源的豐富多樣,用戶在大量的課程選擇中,容易信息過載[1-2]。如何根據(jù)用戶的學(xué)習(xí)情況為用戶推薦課程成為研究的重點(diǎn)[3-4]。

在推薦領(lǐng)域中,推薦算法主要有基于項(xiàng)目的推薦[5-6]、基于內(nèi)容的推薦[7]以及混合推薦[8]。目前已有研究者對推薦系統(tǒng)進(jìn)行深入研究,在一定程度上緩解信息過載的問題,但存在一些問題。He 等[9]提出LightGCN 模型,該模型在圖卷積網(wǎng)絡(luò)的基礎(chǔ)上,將圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)的特征變換和非線性激活丟棄,簡化模型來預(yù)測用戶對項(xiàng)目的分?jǐn)?shù),充分利用用戶項(xiàng)目的高階鄰域信息,但沒有利用項(xiàng)目之間額外的輔助信息。李宇琦等[10]根據(jù)用戶項(xiàng)目的交互記錄構(gòu)建商品網(wǎng)絡(luò),利用用戶和商品的向量表示計(jì)算用戶和商品之間的相似性從而進(jìn)行推薦,結(jié)果表明該算法提升推薦效果,但沒有結(jié)合項(xiàng)目自身的屬性。李君等[11]將模型設(shè)計(jì)為推薦模塊、交叉壓縮單元、知識圖譜模塊。利用交叉壓縮單元來更新物品的表示,同時引入注意力機(jī)制為不同特征分配權(quán)重。將用戶和物品的特征表示輸入多層感知機(jī)來預(yù)測概率,結(jié)果表明該模型的推薦效果有一定提升,但只利用實(shí)體一階鄰域關(guān)系,沒有加入更高階的鄰域信息。陳晉鵬等[12]將知識圖譜作為物品的表示向量,利用濾波器對物品的表示向量進(jìn)行卷積處理,最終與用戶的表示向量進(jìn)行連接來預(yù)測,但忽略物品之間的關(guān)系存在更豐富的表示。徐碩等[13]提出基于知識圖譜與協(xié)同過濾的個性化試題推薦,首先建立知識點(diǎn)知識圖譜。利用TransE學(xué)習(xí)知識點(diǎn)實(shí)體對向量表示,再利用余弦相似度來提取知識點(diǎn)的相似性,最終為用戶推薦,但該算法忽略不同的項(xiàng)目關(guān)系對特定用戶的影響不同。綜合上述文獻(xiàn),這些方法在一定程度上提高推薦性能,但沒有充分利用項(xiàng)目之間的語義關(guān)系。因此本文考慮結(jié)合知識圖譜和圖神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練課程實(shí)體之間的關(guān)系進(jìn)行課程推薦,豐富推薦系統(tǒng)在教育領(lǐng)域的應(yīng)用。

本文提出基于知識圖譜的MOOC(Massive Online Open Courses)課程推薦算法,利用MOOCCube平臺所有課程與知識點(diǎn)、所屬領(lǐng)域、授課老師、開設(shè)大學(xué)之間的關(guān)系來構(gòu)建課程知識圖譜。將課程知識圖譜和圖神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,發(fā)掘用戶的個性化興趣。根據(jù)用戶和課程屬性選擇性聚合鄰域信息,豐富課程實(shí)體表示,為用戶推薦更合適的課程。

1 相關(guān)研究

1.1 知識圖譜

知識圖譜[14]本質(zhì)上是一個語義網(wǎng)絡(luò)的知識庫,簡單來說,知識圖譜把所有的信息連接在一起構(gòu)成關(guān)系網(wǎng)絡(luò),主要應(yīng)用于語義匹配、搜索推薦、問答對話、推理決策、區(qū)塊鏈協(xié)作等領(lǐng)域,和自然語言處理(NLP)有緊密的聯(lián)系。知識圖譜的基本單位由三元組構(gòu)成,三元組由實(shí)體、屬性、關(guān)系構(gòu)成。將知識圖譜引入到推薦系統(tǒng)中,能得到較好融合異構(gòu)信息的網(wǎng)絡(luò),并同時建立各個實(shí)體和屬性之間的關(guān)系,彌補(bǔ)傳統(tǒng)推薦算法的不足。

1.2 推薦系統(tǒng)的知識圖卷積網(wǎng)絡(luò)

推薦系統(tǒng)的知識圖卷積網(wǎng)絡(luò)(Knowledge Graph Convolutional Networks for Recommender Systems,KGCN)首先建立課程知識圖譜,對于知識圖譜中鄰居實(shí)體的關(guān)系采取不同的權(quán)重,運(yùn)用圖神經(jīng)網(wǎng)絡(luò)計(jì)算知識圖譜中給定實(shí)體的表示,聚合和合并鄰域?qū)嶓w來學(xué)習(xí)預(yù)測函數(shù)=F(u,v|Θ,Y,G),表示用戶u對課程v產(chǎn)生交互的可能性,Θ表示函數(shù)F的模型參數(shù)。Y表示用戶交互矩陣,對于給定的用戶U={u1,u2,…,um},項(xiàng)目V={v1,v2,…,vn},用戶交互矩陣Y∈RM*N,其中yUV=1表示用戶u與課程v之間存在交互,否則YUV=0,G為課程知識圖譜。對于KGCN單層的描述如下。

在KGCN一階連接中,N(v)表示與課程v相鄰的實(shí)體集合;rei,ej表示實(shí)體ei與ej之間的關(guān)系;用函數(shù)g:Rd×Rd→R 表示關(guān)系對用戶的重要性,其中d表示維度,如式(1)所示:

式(1)中u∈Rd,r∈Rd。得到用戶對關(guān)系的興趣度,則課程的領(lǐng)域線性組合表示如式(2):

式(2)中e是實(shí)體e的向量表示,是歸一化之后的結(jié)果,如式(3):

由于一個實(shí)體存在鄰居過多的情況,對整體模型效果存在干擾。為了減小影響,每個實(shí)體v鄰域大小固定,具體實(shí)體v的鄰域表示為,其中S(v)?{e|e~N(v)},|S(v)|=K是常量,表示實(shí)體v的感受野。最終將實(shí)體表示v與其鄰域表示聚合為單個向量,使用聚合器aggsum:Rd×Rd→Rd,將2個向量相加,進(jìn)行線性變換。如式(4)所示:

其中W是變換權(quán)重,b是偏差,σ是非線性函數(shù)。

2 基于知識圖譜的MOOC課程推薦

本文提出基于知識圖譜的MOOC 課程推薦算法(Knowledge Graph Convolutional Networks for MOOC Course Recommender Systems,KGCN-MC),首先結(jié)合課程的知識點(diǎn)、所屬領(lǐng)域、開設(shè)大學(xué)以及授課老師內(nèi)容建立知識圖譜,利用該模型獲取知識圖譜實(shí)體之間的鄰域信息,預(yù)測用戶對課程的興趣。KGCN-MC模型整體框架如圖1所示。

圖1 KGCN-MC模型框架

2.1 數(shù)據(jù)集

數(shù)據(jù)集采用MOOCCube數(shù)據(jù)集,該數(shù)據(jù)集是由清華大學(xué)團(tuán)隊(duì)從學(xué)堂在線中獲取課程、概念和學(xué)生的實(shí)體并根據(jù)實(shí)體間的豐富關(guān)系將數(shù)據(jù)組織成知識庫的形式。教育資源數(shù)據(jù)庫規(guī)模龐大,數(shù)據(jù)豐富且多樣。其中的學(xué)生行為記錄包括學(xué)生id、視頻總時長、學(xué)習(xí)時長、學(xué)習(xí)次數(shù)、學(xué)習(xí)視頻的區(qū)間等,視頻觀看學(xué)習(xí)將近500萬人的記錄。數(shù)據(jù)集預(yù)處理的具體步驟如下:

(1)從MOOCCube數(shù)據(jù)集中將每個學(xué)生觀看的視頻信息進(jìn)行合并,統(tǒng)計(jì)同一門課程的視頻總時長和學(xué)生觀看信息。

(2)對于缺失或重復(fù)的數(shù)據(jù),選擇丟棄。

(3)將學(xué)生實(shí)際觀看時長/課程總時長作為學(xué)生的學(xué)習(xí)成績,如把學(xué)生觀看時長記為t,課程總時長記為T,學(xué)生的學(xué)習(xí)成績記為score,則score=t/T。并將學(xué)習(xí)成績化為5個等級,其中score<0.2,得分為1;0.2≤score<0.4,得分為2;0.4≤score<0.6,得分為3;0.6≤score<0.8,得分為4;score≥0.8,得分為5。

2.2 課程知識圖譜的構(gòu)建

課程知識圖譜采用自底向上的構(gòu)建方法,從數(shù)據(jù)集中抽取課程實(shí)體、屬性以及實(shí)體之間的關(guān)系,對其進(jìn)行數(shù)據(jù)整合,形成標(biāo)準(zhǔn)的數(shù)據(jù)表示來建立三元組,構(gòu)建知識圖譜,步驟如圖2所示。

圖2 知識圖譜構(gòu)建步驟

首先根據(jù)數(shù)據(jù)的類型不同,用不同的方法對數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)知識的抽取??紤]到不同的課程實(shí)體,知識的側(cè)重點(diǎn)不同,將多個課程的知識庫進(jìn)行整合,可以實(shí)現(xiàn)課程實(shí)體對齊,最終得到一系列三元組。

(1)知識獲取。知識抽取主要包括實(shí)體抽取、關(guān)系抽取。

1)實(shí)體抽取。本文實(shí)體抽取是從MOOCCube數(shù)據(jù)集中提取所有課程的學(xué)生行為信息,對課程、名稱、專業(yè)、老師、大學(xué)進(jìn)行抽取,得到實(shí)體。

2)關(guān)系抽取。對于抽取出的實(shí)體,需要找出實(shí)體之間的關(guān)系。MOOCCube數(shù)據(jù)集進(jìn)行預(yù)處理后,采用基于規(guī)則的關(guān)系抽取來遍歷文本,將實(shí)體之間的關(guān)系抽取。例:“民法與生活屬于法學(xué)”,實(shí)體為民法與生活、法學(xué),關(guān)系為屬于。最終將關(guān)系分為授課老師、開設(shè)大學(xué)、所屬專業(yè)、包含知識點(diǎn)。

(2)數(shù)據(jù)整合。將獲取的知識進(jìn)行融合。如表1所示。

表1 課程實(shí)體部分片段

(3)三元組獲取。對于知識圖譜G,由實(shí)體—關(guān)系—實(shí)體三元組(h,r,t)組成,其中h∈ε,r∈β和t∈ε,ε和β分別是知識圖譜的課程實(shí)體集合和關(guān)系集合,利用Neo4j將獲取的實(shí)體和關(guān)系建立三元組,構(gòu)建知識圖譜。例如:“電子科技大學(xué)”開設(shè)“嵌入式系統(tǒng)設(shè)計(jì)”,則構(gòu)成三元組的頭實(shí)體為電子科技大學(xué),尾實(shí)體為嵌入式系統(tǒng)設(shè)計(jì),關(guān)系為開設(shè)。如表2所示。

表2 三元組的構(gòu)建

完成課程知識圖譜的構(gòu)建后,結(jié)合圖卷積網(wǎng)絡(luò),學(xué)習(xí)課程知識圖譜中語義及用戶的潛在興趣。

2.3 算法流程

本文算法具體流程步驟如下:

(1)建立用戶—項(xiàng)目評分矩陣Y,知識圖譜G;

(2)遍歷交互矩陣Y,計(jì)算課程v的感受野S(v);

(3)通過式(1)(2)(3)計(jì)算出課程v的鄰域表示;

(4)利用式(4)將與課程v進(jìn)行聚合;

(5)得到最終H階的課程表示,將其與用戶的表示輸入預(yù)測函數(shù);

(6)重復(fù)步驟(2)(3)(4)(5)。

為了提高計(jì)算效率,使用負(fù)采樣策略,完整的損失函數(shù)如式(5)所示:

式(5)中?為交叉熵?fù)p失,P是負(fù)采樣分布,Tu是用戶u的負(fù)采樣數(shù)。λ是平衡參數(shù),是L2 正則化器。

3 實(shí)驗(yàn)與分析

實(shí)驗(yàn)采用數(shù)據(jù)集中包括45 459名用戶,25 849個實(shí)體,683門課程,4種關(guān)系。本文將提出的KGCNMC算法與以下模型進(jìn)行對比。

(1)MKR[15]利用交叉壓縮單元、推薦模型、知識圖譜嵌入進(jìn)行結(jié)合來提升推薦效果。

(2)NeuMF[16]利用非線性和線性結(jié)合,來學(xué)習(xí)用戶對項(xiàng)目的評分。

(3)UserCF是傳統(tǒng)的基于用戶的協(xié)同過濾算法。

3.1 評價指標(biāo)

3.2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)集按比例6:2:2 劃分,分為訓(xùn)練集、測試集、驗(yàn)證集。用戶與課程之間存在交互,則為正樣本,否則為負(fù)樣本。KGCN-MC 算法中參數(shù)設(shè)置維度d=8,感受野深度H=2,其他超參數(shù)設(shè)置λ1=10-6,λ2=10-2;實(shí)驗(yàn)訓(xùn)練迭代100次,取最好的結(jié)果作為最終結(jié)果。

(1)取不同鄰居大小時,對KGCN-MC 算法的推薦效果有影響。實(shí)驗(yàn)分析在不同鄰居數(shù)量n時,KGCN-MC算法的精確率、召回率,鄰居數(shù)量取值為n∈{1,2,3,4,5}的結(jié)果如圖3和圖4所示。

圖3 不同數(shù)目n的精確率

圖4 不同數(shù)目n的召回率

結(jié)果表明,當(dāng)n取值在2或4時,推薦結(jié)果的準(zhǔn)確率和召回率最好,因此本文取n=2來進(jìn)行實(shí)驗(yàn)。

(2)將推薦不同數(shù)目k時,KGCN-MC算法、MKR、NeuMF、UserCF的精確率、召回率、f1的結(jié)果進(jìn)行對比,精確率、召回率、f1的結(jié)果如圖5、圖6、圖7所示。

圖5 推薦不同數(shù)量k的精確率

圖6 推薦不同數(shù)量k的召回率

圖7 推薦不同數(shù)量k的f1

從圖5可以看出KGCN-MC算法表現(xiàn)最優(yōu),MKR表現(xiàn)最差。圖6 recall隨著k的增大呈現(xiàn)上升趨勢,KGCN-MC算法表現(xiàn)最好,MKR模型其次,UserCF表現(xiàn)最差。圖7f1隨著k值增大呈下降趨勢,在k=10之后下降趨勢緩慢,KGCN-MC表現(xiàn)最佳。

實(shí)驗(yàn)結(jié)果表明,相對UserCF、MKR、NeuMF來說,在用戶交互較稀疏的情況下,KGCN-MC算法的推薦效果最好;NeuMF 是一種基于神經(jīng)網(wǎng)絡(luò)的推薦,由于用戶項(xiàng)目交互記錄較為稀疏,且沒有知識圖譜作為輔助信息,在性能上次于KGCN-MC、UserCF,但加入多層感知機(jī)和矩陣分解的情況下,對召回率有所提升。MKR模型將知識圖譜作為輔助信息,但沒有利用課程之間的語義關(guān)系,表現(xiàn)效果最差。所以,加入知識圖譜和圖卷積網(wǎng)絡(luò)的KGCN-MC算法,通過課程知識圖譜有效地捕獲項(xiàng)目之間的相關(guān)性,充分利用課程之間的關(guān)系;再利用圖卷積網(wǎng)絡(luò)聚合聚合鄰域信息,獲得用戶個性化潛在興趣在一定程度上能緩解數(shù)據(jù)稀疏的問題,同時提升推薦效果。

4 結(jié)語

考慮現(xiàn)有的推薦算法沒有充分利用課程之間的語義關(guān)系,無法挖掘課程之間的深層隱含關(guān)系問題。本文提出基于知識圖譜的MOOC課程推薦算法,將知識圖譜作為輔助信息與圖卷積網(wǎng)絡(luò)結(jié)合。利用課程實(shí)體之間的關(guān)系,對特定用戶取不同關(guān)系的權(quán)重,更好地發(fā)掘用戶的個性化興趣。實(shí)驗(yàn)在數(shù)據(jù)集上precision、recall、f1上表現(xiàn)出良好的效果,表明KGCN-MC算法比傳統(tǒng)的協(xié)同過濾算法更佳。但實(shí)驗(yàn)僅利用用戶的學(xué)習(xí)時長作為用戶的興趣,并且構(gòu)建課程實(shí)體知識圖譜的關(guān)系相對較少。下一步的工作是能結(jié)合用戶個人愛好等作為用戶的興趣,同時構(gòu)建更加豐富的知識圖譜為用戶做推薦。

猜你喜歡
三元組鄰域圖譜
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
特征標(biāo)三元組的本原誘導(dǎo)子
繪一張成長圖譜
稀疏圖平方圖的染色數(shù)上界
關(guān)于余撓三元組的periodic-模
基于鄰域競賽的多目標(biāo)優(yōu)化算法
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
關(guān)于-型鄰域空間
主動對接你思維的知識圖譜
三元組輻射場的建模與仿真
富裕县| 赫章县| 永寿县| 莆田市| 保定市| 汶川县| 蒙山县| 东丽区| 石门县| 涿州市| 清远市| 芒康县| 房山区| 土默特左旗| 松潘县| 鹤庆县| 新和县| 望城县| 辽阳市| 沛县| 营口市| 海伦市| 徐汇区| 永康市| 彭泽县| 孝义市| 开阳县| 马鞍山市| 徐汇区| 营山县| 南陵县| 比如县| 睢宁县| 开江县| 乌什县| 永年县| 柘荣县| 武穴市| 商城县| 章丘市| 友谊县|