劉晉澤 王伊 馬靖侖 李驍 肖楓濤
[摘? ? ? ? ? ?要]? 由于當(dāng)前MOOC平臺學(xué)習(xí)資源數(shù)量不斷增長,檢索引擎能否幫助用戶準(zhǔn)確定位其需要的課程對于用戶體驗(yàn)而言意義重大。然而,當(dāng)前國內(nèi)主流MOOC平臺的資源檢索粒度較粗,用戶難以針對想學(xué)習(xí)的某一具體知識點(diǎn)定位相關(guān)課程。鑒于此,提出了將知識圖譜應(yīng)用于MOOC平臺資源檢索的思路,并通過實(shí)體識別、關(guān)系分析、課程知識點(diǎn)發(fā)現(xiàn)等方法構(gòu)建了面向MOOC數(shù)據(jù)的知識圖譜,然后基于該圖譜搭建了資源檢索引擎。將該引擎與國防科技大學(xué)夢課平臺進(jìn)行了集成,并開展了用戶調(diào)研以驗(yàn)證該引擎的有效性。實(shí)驗(yàn)結(jié)果表明,該引擎可有效針對知識點(diǎn)粒度進(jìn)行資源檢索,提升了用戶使用體驗(yàn)。
[關(guān)? ? 鍵? ?詞]? 知識圖譜;檢索引擎;MOOC;圖數(shù)據(jù)庫
[中圖分類號]? GTP315? ? ? ? ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼]? A? ? ? ? ? ? ? ? ? ? ? [文章編號]? 2096-0603(2021)24-0060-04
從2013年以來,國內(nèi)在線教育蓬勃發(fā)展,MOOC(Massive Open Online Courses,大規(guī)模開放在線課程)這一學(xué)習(xí)模式在我國得到了越來越多用戶的認(rèn)同[1],誕生了諸如中國大學(xué)MOOC、學(xué)堂在線、智慧樹等一系列知名MOOC平臺[2],為用戶在線學(xué)習(xí)提供了良好途徑。隨著平臺規(guī)模的不斷擴(kuò)大,其學(xué)習(xí)資源數(shù)量快速增長,據(jù)統(tǒng)計(jì),截至2019年,中國大學(xué)MOOC、學(xué)堂在線、智慧樹等平臺均已上線課程2000門左右[3]。龐大的課程數(shù)量一方面極大地豐富了用戶的選擇,但另一方面也使用戶需要花費(fèi)大量時間尋找滿足自身學(xué)習(xí)需求的課程。在此情況下,平臺的資源檢索引擎變得至關(guān)重要,能否幫助用戶更準(zhǔn)確地在海量資源中找到其需要的課程,成為各個MOOC平臺面臨的挑戰(zhàn)。然而,當(dāng)前主流平臺的資源檢索機(jī)制大多是基于課程、教師、院校等基本信息的模糊查詢,檢索粒度較粗,用戶難以針對想學(xué)習(xí)的某一具體知識點(diǎn)定位相關(guān)課程。鑒于此,本文提出并實(shí)現(xiàn)了一個基于知識圖譜的MOOC平臺資源檢索引擎,該引擎首先通過實(shí)體識別、關(guān)系分析、課程知識點(diǎn)發(fā)現(xiàn)等方法,以圖數(shù)據(jù)庫為存儲媒介,構(gòu)建了面向MOOC數(shù)據(jù)的知識圖譜;然后基于該知識圖譜,輔以自然語義理解等技術(shù),實(shí)現(xiàn)了粒度更加精細(xì)的資源檢索。本文將該引擎與真實(shí)平臺進(jìn)行了集成,并開展了用戶調(diào)研實(shí)驗(yàn)。結(jié)果表明,該引擎可有效針對知識點(diǎn)粒度檢索相關(guān)課程,提升用戶使用體驗(yàn)。
一、相關(guān)現(xiàn)狀及研究分析
(一)當(dāng)前國內(nèi)主流MOOC平臺的資源檢索機(jī)制
本文對當(dāng)前國內(nèi)5個主流MOOC平臺[3]的資源檢索機(jī)制進(jìn)行了調(diào)研,結(jié)果如表1所示。
從表1可以看到,當(dāng)前國內(nèi)5個主流MOOC平臺的資源檢索,對于各自平臺上線的相關(guān)課程名稱、課程簡介、主講教師名字、開課院校名稱等基礎(chǔ)信息,只有中國大學(xué)MOOC和學(xué)堂在線全都支持模糊查詢,相比之下,智慧樹、超星泛雅只支持基于課程名稱、主講教師名字和院校名稱的模糊查詢,網(wǎng)易云課堂的資源檢索能力更弱,只支持課程名稱和教師名字的模糊查詢。
然而,當(dāng)本文選取了一些課程知識點(diǎn)作為關(guān)鍵詞進(jìn)行查詢時,發(fā)現(xiàn)這5個平臺都無法檢索到課程,或是返回的結(jié)果相關(guān)性不高。例如,在這些平臺中,有部分關(guān)于Office Excel的學(xué)習(xí)課程中介紹了“Excel函數(shù)”這一知識點(diǎn)的內(nèi)容,但當(dāng)使用“Excel函數(shù)”作為關(guān)鍵詞在智慧樹平臺進(jìn)行查詢時,平臺沒有檢索到任何課程,而如果把該關(guān)鍵詞拆分為“Excel”和“函數(shù)”分別查詢,則平臺分別返回名稱包含“Excel”和“函數(shù)”的課程。在學(xué)堂在線平臺同樣使用“Excel函數(shù)”作為查詢關(guān)鍵詞時,雖然能夠檢索到課程,但返回的結(jié)果中也都是名稱包含“Excel”或“函數(shù)”的課程,甚至還有復(fù)變函數(shù)、多元函數(shù)等數(shù)學(xué)領(lǐng)域的課程,與用戶想查詢的知識點(diǎn)關(guān)聯(lián)甚遠(yuǎn)。其余3個平臺也是類似情況。
針對上述現(xiàn)狀,究其原因,在于這些平臺在資源檢索時只是簡單地將搜索詞與課程、教師以及院校的基本信息進(jìn)行了關(guān)鍵詞模糊匹配,檢索粒度較粗,沒有考慮課程所包含的章節(jié)信息以及它所涉及的知識點(diǎn)。因此,用戶就難以針對想學(xué)習(xí)的某一具體知識點(diǎn)定位到相關(guān)課程資源。
(二)知識圖譜相關(guān)應(yīng)用研究
知識圖譜最早于2012年由Google公司提出[4],并在此后在互聯(lián)網(wǎng)信息檢索、智能語音助手等領(lǐng)域大放異彩。Google公司基于知識圖譜于2016年推出Knowledge Panel[5],提升了其在語義檢索方面的能力;Apple公司推出的Siri語音助理產(chǎn)品中,知識圖譜在對話理解方面也發(fā)揮了重要作用[6]。
知識圖譜在通用領(lǐng)域已經(jīng)有了一定的應(yīng)用,然而,構(gòu)建一個通用的知識圖譜技術(shù)復(fù)雜、成本高昂,且通常難以專精于一些專業(yè)性較強(qiáng)的特定領(lǐng)域。因此,許多研究人員也轉(zhuǎn)而在這些特定領(lǐng)域中探究知識圖譜的構(gòu)建與應(yīng)用。例如,王淵等提出將知識圖譜應(yīng)用于國家電網(wǎng)數(shù)據(jù)中心,以實(shí)現(xiàn)在電力行業(yè)領(lǐng)域的用戶智能問答[7];朱超宇等提出構(gòu)建醫(yī)學(xué)領(lǐng)域知識圖譜以輔助對醫(yī)學(xué)臨床決策提供支持[8];馮力探索了利用知識圖譜幫助公安機(jī)關(guān)進(jìn)行智能化警情處置的思路[9];黃煒等提出知識圖譜可應(yīng)用于銀行業(yè)風(fēng)險(xiǎn)控制和預(yù)測[10],等等
在教育領(lǐng)域,王家輝等基于知識圖譜實(shí)現(xiàn)了一個微信智能刷題系統(tǒng),以輔助提高學(xué)生復(fù)習(xí)效率[11];徐健等提出通過知識圖譜改進(jìn)MOOC教學(xué)模式,為用戶提供個性化學(xué)習(xí)方案的思路[12];美國知名MOOC平臺Khan Academy基于知識圖譜展示課程涉及的知識點(diǎn),為用戶提供友好的可視化界面??偟膩碚f,在該領(lǐng)域中,知識圖譜的應(yīng)用尚處于探索階段,就我們所知,尚缺乏相關(guān)工作將知識圖譜應(yīng)用于MOOC平臺的資源檢索。