国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向教育的中文知識圖譜自動構(gòu)建技術(shù)*

2021-03-12 05:26:22呂品賀云艷許嘉莫曉琨
關(guān)鍵詞:知識圖譜融合教育

呂品 賀云艷 許嘉 莫曉琨

摘 要:隨著知識圖譜在教育領(lǐng)域的廣泛應(yīng)用,對根據(jù)教學(xué)內(nèi)容自動構(gòu)建知識圖譜的需求越來越迫切。針對教育類中文知識圖譜生成技術(shù)中知識點易遺漏、知識點關(guān)系準(zhǔn)確率不高、需要人工干預(yù)等挑戰(zhàn)性問題,文章提出了教育知識圖譜的自動構(gòu)建技術(shù)。該技術(shù)首先自動提取教學(xué)課本中關(guān)鍵知識點及關(guān)鍵知識點間的先后順序,生成基于課本的知識圖譜;其次,利用教學(xué)類PowerPoint演示文稿中特有的層次關(guān)系提取知識點間先后順序,設(shè)置知識點間權(quán)重調(diào)整影響系數(shù),生成基于PPT演示文稿的知識圖譜;最后,將上述兩種途徑構(gòu)建的知識圖譜進(jìn)行融合,形成準(zhǔn)確率更高的知識圖譜。在真實數(shù)據(jù)集上的實驗結(jié)果表明,該技術(shù)能夠?qū)崿F(xiàn)教育領(lǐng)域知識圖譜的自動生成,且準(zhǔn)確率能夠達(dá)到90%以上。

關(guān)鍵詞:知識圖譜;關(guān)系提取;融合;教育

中圖分類號:TP391.1 ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ? 文章編號:1673-8454(2021)04-0086-07

一、引言

知識圖譜(Knowledge Graph,KG)能夠揭示知識之間的關(guān)系,近年來被應(yīng)用于各個領(lǐng)域[1]。在教育領(lǐng)域,知識圖譜的應(yīng)用主要分為知識庫建設(shè)[2]、自適應(yīng)學(xué)習(xí)[3]和虛擬學(xué)習(xí)助手[4][5]三個方面。隨著智能教育與在線教育的快速發(fā)展,教育知識圖譜的使用需求不斷增大。但是目前仍然需要依賴領(lǐng)域?qū)<沂止?gòu)建知識圖譜,遠(yuǎn)遠(yuǎn)不能滿足教育信息化的需求。因此,本文對中文知識圖譜的自動構(gòu)建技術(shù)進(jìn)行研究。

目前,研究人員在英文知識圖譜的自動構(gòu)建方面已經(jīng)取得了很多成果[6-8]。然而,由于中文與英文有很大差異,難以將英文知識圖譜自動構(gòu)建方案直接應(yīng)用于中文知識圖譜。其中主要原因是中文詞組間沒有可以進(jìn)行分割的依據(jù)(例如空格),使得計算機很難識別有意義的單詞或短語[9]。盡管中文知識圖譜的研究取得了一些進(jìn)展,但與其他語言相比,中文文本的處理仍然面臨著更加困難的情況[10]。所以對于中文知識圖譜的自動構(gòu)建仍然存在很大的挑戰(zhàn)。

知識圖譜的構(gòu)建技術(shù)主要包括知識點抽取和關(guān)系抽取兩個步驟。現(xiàn)有的教育知識圖譜關(guān)系抽取技術(shù)多在教材的基礎(chǔ)上結(jié)合諸如Wikipedia的在線知識庫來進(jìn)行,雖然這種結(jié)合方法比較有效,但也大大增加了人工成本。為解決上述問題,本文提出了新的知識圖譜自動構(gòu)建技術(shù)。該技術(shù)的不同之處在于提出了將基于教學(xué)課本生成的知識圖譜與基于教學(xué)演示文稿生成的知識圖譜相融合的方法生成知識圖譜。PowerPoint演示文稿(以下簡稱PPT演示文稿)是教師在教學(xué)過程中常用的工具,具有內(nèi)容精煉、層次清晰等特點,起到了連接“學(xué)生—教師—教材”的作用。PPT演示文稿通常包含教師對教學(xué)內(nèi)容的歸納總結(jié),其中的層次結(jié)構(gòu)有助于提取知識點之間的先后順序。因此,將PPT演示文稿作為構(gòu)建知識圖譜的依據(jù),能夠提高知識圖譜的準(zhǔn)確率。

教材和PPT演示文稿在構(gòu)建知識圖譜方面各有優(yōu)點:教材包含的內(nèi)容較多,提取的知識點容易存在冗余,但其包含的知識點比較全面;PPT演示文稿通常只包含重點知識,導(dǎo)致其包含知識點不全面,但PPT演示文稿內(nèi)容精煉、結(jié)構(gòu)清晰。鑒于此,本文利用兩者的優(yōu)點,針對教學(xué)PPT演示文稿的層次結(jié)構(gòu)和計算機類教材的詳細(xì)內(nèi)容進(jìn)行知識點先決關(guān)系的提取。

本文首次提出了以教材與PPT演示文稿相融合的方式自動構(gòu)建教育領(lǐng)域中文知識圖譜,主要貢獻(xiàn)如下:①提出了基于教學(xué)PPT演示文稿生成知識圖譜的技術(shù)KG-S(Knowledge Graph based on Slides),該技術(shù)充分利用了PPT演示文稿的特點,能生成靈活性較高的知識圖譜。②提出了面向教育的中文知識圖譜自動生成技術(shù)KG-T&S(Knowledge Graph based on Text and Slides),該技術(shù)能夠?qū)⒒诮滩纳傻闹R圖譜與基于教學(xué)PPT演示文稿生成的知識圖譜融合。③針對計算機領(lǐng)域教育用途的中文知識圖譜自動生成技術(shù)展開研究,基于真實的數(shù)據(jù)集生成了特定領(lǐng)域知識圖譜。

二、相關(guān)研究

目前教育領(lǐng)域知識圖譜構(gòu)建技術(shù)主要分為半自動構(gòu)建知識圖譜技術(shù)和自動構(gòu)建知識圖譜技術(shù)兩類。

1.基于半自動化的方法構(gòu)建知識圖譜

半自動化生成知識圖譜是指知識圖譜的生成過程有一部分需要人工進(jìn)行。文獻(xiàn)[11]作為典型的半自動構(gòu)建知識圖譜的工作,楊玉基等通過對領(lǐng)域知識圖譜構(gòu)建方法進(jìn)行系統(tǒng)的研究后,提出了“四步法”構(gòu)建領(lǐng)域知識圖譜:首先使用半自動的方法進(jìn)行領(lǐng)域本體構(gòu)建,然后進(jìn)行眾包半自動語義標(biāo)注,再對標(biāo)注好的語義進(jìn)行外源數(shù)據(jù)補全,最后進(jìn)行信息抽取,得到了高質(zhì)量的通用領(lǐng)域知識圖譜。半自動方法生成的知識圖譜雖然精度高,但是其過程會耗費大量人力,很難獲得大規(guī)模的知識圖譜,并且生成知識圖譜的效率無法得到有效的保證。

2.基于自動化方法構(gòu)建知識圖譜

自動化構(gòu)建知識圖譜是指構(gòu)建知識圖譜的過程中不涉及(或較少涉及)人工干預(yù),主要依賴于計算機處理實現(xiàn)。

Wang等人認(rèn)為傳統(tǒng)的概念圖提取方法包括關(guān)鍵概念提取和概念關(guān)系識別兩個子問題。先前的研究大都獨立考慮這兩個子問題,但這兩個問題實際上是緊密耦合的,獨立解決這些子問題可能會導(dǎo)致性能欠佳[12]。其提出的框架可以共同優(yōu)化這些子問題,為后續(xù)研究提供了新的思路。但框架雖然可以實現(xiàn)將候選概念分類為“關(guān)鍵概念”或“非關(guān)鍵概念”,從而獲得該領(lǐng)域的一組關(guān)鍵概念,卻沒有實現(xiàn)對關(guān)鍵概念及關(guān)系的抽取。

黃光輪等人提出了一種利用 Microsoft Office 編程技術(shù)、文本挖掘技術(shù)和社會網(wǎng)絡(luò)分析技術(shù)自動提取 PPT 文檔中的概念術(shù)語、概念術(shù)語之間的關(guān)系及構(gòu)建概念圖的算法[13],為基于教學(xué)PPT演示文稿構(gòu)建知識圖譜的后續(xù)研究提供了詳細(xì)的的思路,但由于PPT演示文稿存在包含知識點不完全的特點,所以基于PPT生成的知識圖譜準(zhǔn)確率不穩(wěn)定。

Shyi-Ming Chen等人提出了一種基于數(shù)據(jù)挖掘技術(shù)的自適應(yīng)學(xué)習(xí)系統(tǒng)自動構(gòu)建概念圖[14],他們使用Apriori 算法分析學(xué)生答題結(jié)果,從而挖掘關(guān)聯(lián)規(guī)則,進(jìn)而生成知識圖譜。但是該方法在某些情況下無法正確構(gòu)造概念圖,Shyi-Ming Chen等人在該工作的基礎(chǔ)上提出了一種改進(jìn)Apriori 算法[15],分析學(xué)生答題結(jié)果,生成知識圖譜。Huang 等人在Apriori算法的基礎(chǔ)上引入了分類算法[16],首先學(xué)生測試記錄的分類,以降低應(yīng)用數(shù)據(jù)挖掘過程之前的計算復(fù)雜性,然后每個子集進(jìn)行數(shù)據(jù)挖掘計算各個子集的概念之間的相關(guān)度。上述工作都只用到了單一形式的數(shù)據(jù),沒有考慮到數(shù)據(jù)的多源化,單一形式的數(shù)據(jù)可能造成所生成的知識圖譜包含的知識點不完全,不能生成準(zhǔn)確的知識圖譜。

文獻(xiàn)[17]提出了KnowEdu系統(tǒng)來自動構(gòu)建教育領(lǐng)域的知識圖。該系統(tǒng)對教學(xué)數(shù)據(jù)采用神經(jīng)序列標(biāo)記算法來提取關(guān)鍵概念,并對學(xué)習(xí)評估數(shù)據(jù)采用概率關(guān)聯(lián)規(guī)則挖掘來識別與教育意義的關(guān)系,取得了不錯的結(jié)果。該工作在構(gòu)建知識圖譜的過程中雖然使用了教材和學(xué)生成績數(shù)據(jù),但由于是在不同的階段分別進(jìn)行使用的,沒有實現(xiàn)兩種數(shù)據(jù)的知識融合。

本文使用教師上課常用的教學(xué)工具(即教材和PPT演示文稿),考慮了數(shù)據(jù)的多源性,并且利用了不同數(shù)據(jù)的各自特點來構(gòu)建知識圖譜。

三、技術(shù)整體框架

針對現(xiàn)有中文知識圖譜自動構(gòu)建技術(shù)的不足,本文提出了計算機領(lǐng)域的面向教育的知識自動圖譜構(gòu)建方法。該方法包含三個主要部分:①基于計算機類教材構(gòu)建知識圖譜。②基于PPT演示文稿構(gòu)建知識圖譜。③將基于教材構(gòu)建的知識圖譜和基于PPT演示文稿構(gòu)建的知識圖譜相融合。

教育知識圖譜構(gòu)建的關(guān)鍵在于利用知識抽取、知識融合等技術(shù)抽取出教育領(lǐng)域中的實體,并建立知識之間的聯(lián)系[18]。知識圖譜的基本構(gòu)建過程如圖1所示,從非結(jié)構(gòu)化的數(shù)據(jù)源(教材和PPT演示文稿)開始,經(jīng)過知識抽取、知識表示、知識融合等步驟,使得初始數(shù)據(jù)通過概念抽取和關(guān)系抽取轉(zhuǎn)換成三元組(Resource Description Framework,RDF)形式,用于知識的初步表示。RDF數(shù)據(jù)再經(jīng)過實體對齊,加入數(shù)據(jù)模型,形成標(biāo)準(zhǔn)的知識表示。知識融合的過程中如產(chǎn)生新的關(guān)系組合,則對這些新的關(guān)系組合進(jìn)行知識推理,進(jìn)而形成新的知識形態(tài),最后與原有知識共同經(jīng)過質(zhì)量評估,完成知識融合,形成完整形態(tài)的知識圖譜[19]。

1.KG-T:基于計算機類教材構(gòu)建知識圖譜技術(shù)

(1)預(yù)處理

由于計算機類教材中有許多例題和算法例子,經(jīng)調(diào)研發(fā)現(xiàn)這些例子占了很大文本篇幅,并且例子中包含的關(guān)鍵概念較少,所以在預(yù)處理過程中,本文首先去除掉文本中的例題、圖片、算法例子以及表格等內(nèi)容。這個過程大大縮小了正式工作中所要處理的文本內(nèi)容。

(2)關(guān)鍵概念及關(guān)系抽取

基于教材文本構(gòu)建知識圖譜的工作中,本文首先導(dǎo)入計算機領(lǐng)域?qū)S迷~典(https://github.com/fighting41love/funNLP),再使用層疊隱馬爾可夫模型提取關(guān)鍵概念(https://github.com/NLPIR-team/NLPIR)。該模型由三層相互連接的隱馬爾可夫模型組成,其中每層均以使用了Viterbi算法(N-Best)的隱馬爾可夫模型作為基礎(chǔ)算法模型。由低一層的隱馬爾可夫模型輸出最好的若干個關(guān)鍵概念作為下一層隱馬爾可夫模型的輸入,最終由最高層隱馬爾可夫模型在低層級隱馬爾可夫模型輸出結(jié)果的基礎(chǔ)之上進(jìn)行最終的關(guān)鍵概念的識別。

本文選擇使用了較新的Transformer模型提取關(guān)鍵概念關(guān)系(https://github.com/zjunlp/deepke),Transformer的模型架構(gòu)如圖2所示。將關(guān)鍵概念所在文本與關(guān)鍵概念進(jìn)行詞向量處理,通過Encoder對文本和關(guān)鍵概念信息進(jìn)行編碼。再使用 Multi-Head Attention 模塊抽取文本中重要的特征,并通過將殘差網(wǎng)絡(luò)疊加的方法,將注意力層得到的輸出與輸入拼接并進(jìn)行正則化。使用堆疊的多層注意力機制,能夠有效抽取句子中的關(guān)鍵信息。最后將 Transformer 的結(jié)果連接至全連接層得到最終的概念間關(guān)系的分類結(jié)果。

2.KG-S:基于教學(xué)PPT演示文稿構(gòu)建知識圖譜技術(shù)

基于教學(xué)PPT演示文稿構(gòu)建知識圖譜同樣包括關(guān)鍵概念提取和概念關(guān)系提取兩個問題。先前的研究大都獨立考慮這兩個子問題,雖然已經(jīng)獲得了一定的成果,但基于PPT演示文稿層次結(jié)構(gòu)的特點,獨立解決這兩個任務(wù)不利于對PPT演示文稿層次結(jié)構(gòu)的利用。本文提出的KG-S技術(shù)充分利用PPT演示文稿層次結(jié)構(gòu)清晰的特點,考慮上下層關(guān)系,把PPT演示文稿的概念提取和關(guān)系提取兩者結(jié)合進(jìn)行,具體過程如圖3所示。

在基于PPT演示文稿生成知識圖譜的過程中,首先提取出包含層次結(jié)構(gòu)的PPT演示文稿的純文本內(nèi)容,然后使用模型依次按行提取關(guān)鍵概念,并判斷提取的關(guān)鍵概念的層次,再將提取結(jié)果依次保存到該層次指定的位置上,對兩次保存的結(jié)果進(jìn)行對比,最后依據(jù)關(guān)系提取規(guī)則將對比結(jié)果進(jìn)行結(jié)合,并根據(jù)賦值規(guī)則賦予提取結(jié)果一定的權(quán)重值。

(1)提取PPT演示文稿文檔中的純文本數(shù)據(jù)

提取的純文本數(shù)據(jù)包括文本內(nèi)容及文本內(nèi)容間的層次關(guān)系。本文使用 Microsoft Office 軟件將PPT演示文稿文件保存為RTF文件,達(dá)到提取目的。

(2)模型介紹

本文使用RoBERTa-wwm+BiLSTM+CRF三層模型提取PPT演示文稿層次中的概念。BiLSTM+CRF是現(xiàn)在較為主流的實體識別模型(見圖4),雙向的LSTM模型可以更好地處理輸入前后的特征;CRF層使得模型可以使用句子級別的標(biāo)簽信息,從而更好地建模標(biāo)簽之間的限定關(guān)系。

在訓(xùn)練過程中,為構(gòu)建模型的訓(xùn)練語料,本文采用Inside-Outside-Beginning(IOB)標(biāo)注體系對文本進(jìn)行標(biāo)注,獲得訓(xùn)練集。將訓(xùn)練集中句子輸入到 RoBERTa 模型,其輸出的結(jié)果(詞向量)作為BiLSTM的輸入。圖4展示了BiLSTM+CRF模型的框架。

BiLSTM模型的輸出結(jié)果是各個標(biāo)簽的概率,作為CRF的輸入。不使用CRF模型的情況下,BiLSTM模型會輸出結(jié)果中概率最大的結(jié)果作為最終結(jié)果。但是,當(dāng)預(yù)測結(jié)果的得分都很高時,并不是得分最高的結(jié)果就是最好的結(jié)果。CRF彌補了BiLSTM的不足,不僅考慮了概率值的大小,還使得轉(zhuǎn)移概率相加值最大,即考慮前后標(biāo)簽的情況使選擇結(jié)果符合輸出規(guī)則。

對于每一個輸入x=(x1, x2, ..., xn),預(yù)測得到一個lable序列y=(y1, y2, ..., yn)。定義這個預(yù)測的得分:

S(x,y)=■A■+■p■公式1

其中p■為第i個位置輸出為yi的概率,A■為從yi到y(tǒng)i+1的轉(zhuǎn)移概率。

求出每個訓(xùn)練樣本x所有可能的標(biāo)注序列y的得分S(x,y),并對所有得分進(jìn)行歸一化:

p(y|x)=■公式2

對公式2左右兩邊取對數(shù),即得損失函數(shù):

log(p(x|y))=S(x,y)-log(■e■)公式3

由于我們的目標(biāo)是最小化損失函數(shù),所以對公式3取負(fù)值:

LogLossFunction=-log(p(x|y))公式4

通過完成上述過程,完成模型的訓(xùn)練。再使用訓(xùn)練好的模型進(jìn)行后續(xù)工作。

(3)關(guān)系提取規(guī)則

PPT演示文稿的特點是層次結(jié)構(gòu)較為顯著,如圖5所示,本文將PPT演示文稿的層次結(jié)構(gòu)分為三種:①上下層關(guān)系,即處于相鄰層次兩個概念的關(guān)系。如概念A(yù)處于第一層,概念C和F位于第二層,概念A(yù)和概念C(或F)之間就屬于上下層關(guān)系。對于上下層關(guān)系的兩個概念,定義它們之間有先決關(guān)系,位于上一層次的概念是下一層次概念的頭概念,并對其關(guān)系賦予一定的權(quán)重值。本文賦予具有上下層關(guān)系的概念之間的權(quán)重賦值為1。②同層次關(guān)系,即處于同一層次的概念的關(guān)系。如概念A(yù)和B都處于第一層,屬于同層次關(guān)系。同理,概念C和F、概念D和E也都屬于同層次關(guān)系。對于同一層次的兩個概念,由于它們出現(xiàn)在同一個大標(biāo)題下,定義它們之間有較弱的先決關(guān)系,賦予較小的權(quán)重值,并且定義前一個概念為后一個概念的前驅(qū)概念。本文中,賦予具有上下層關(guān)系的概念之間的權(quán)重賦值為0.2。③隔層次關(guān)系,即處于不相鄰的兩個層次的概念所具有的關(guān)系。如概念A(yù)和D分別位于第一層和第三層,屬于隔層關(guān)系。本文不對具有此關(guān)系的概念進(jìn)行判定。不同層次關(guān)系的具體賦值規(guī)則如表1所示。根據(jù)關(guān)系提取規(guī)則生成的網(wǎng)絡(luò)圖示例如圖6所示。

3.KG-T&S:基于教材構(gòu)建的知識圖譜和PPT演示文稿構(gòu)建的知識圖譜融合技術(shù)

本文把基于教材文本生成的知識圖譜和基于PPT演示文稿文本生成的知識圖譜進(jìn)行融合,融合規(guī)則如圖7所示。對規(guī)則總結(jié)為以下兩種情況:①對于兩者關(guān)系相同的部分,保留知識圖譜中的關(guān)系:若PPT演示文稿中此關(guān)系的權(quán)重為1,則將融合后的關(guān)系的權(quán)重值設(shè)置為2;若PPT演示文稿中此關(guān)系的權(quán)重為0.2,則將融合后的關(guān)系的權(quán)重值設(shè)置為1.2。②對于關(guān)系不同的部分,則參考PPT演示文稿的知識圖譜中的權(quán)重值:若權(quán)重值為1,則對教材知識圖譜中的關(guān)系進(jìn)行調(diào)整,并將調(diào)整后的關(guān)系賦予新的權(quán)重值;若權(quán)重值為0.2,則不對教材知識圖譜中的關(guān)系進(jìn)行調(diào)整,對教材知識圖譜中的此關(guān)系進(jìn)行保留,并對此關(guān)系賦予權(quán)重值。

四、實驗

1.實驗設(shè)置

為了驗證本實驗的有效性,本文使用《數(shù)據(jù)庫系統(tǒng)概論》[21]這本教材以及高校教師上課所使用的PPT演示文稿作為實驗的輸入分別構(gòu)建知識圖譜,再使用KG-T&S技術(shù)對兩者進(jìn)行融合。

本研究將實驗分為兩個階段,第一階段實驗中,采用本文所提出的KG-T、KG-S和KG-T&S技術(shù)進(jìn)行實驗,并對實驗結(jié)果進(jìn)行分析。此外,為了驗證KG-T&S技術(shù)的有效性,即證明無論針對何種現(xiàn)有技術(shù)生成的知識圖譜,KG-T&S方法都可以使得融合后的結(jié)果相對于融合前有一定提升,因此設(shè)計了第二階段的實驗。

2.實驗結(jié)果與分析

(1)第一階段實驗

實驗1-1:使用本文所提出的技術(shù)生成知識圖譜,分別計算三個部分的查準(zhǔn)率(Precision)、查全率(Recall)和F1-分?jǐn)?shù)(F1-score),得到如圖8所示的結(jié)果。可以觀察到融合后的查全率比融合前的兩個結(jié)果提高了不少。但由于回收了很多沒有用的關(guān)系,得到了極低的查準(zhǔn)率,以至于得到較低的F1-分?jǐn)?shù)。

針對實驗1-1的結(jié)果并針對實驗數(shù)據(jù)情況,本文在實驗1-2中制定了兩個調(diào)整方案:方案1,去除融合結(jié)果中關(guān)系權(quán)重值小于等于0.8的關(guān)系,對剩余的結(jié)果分別計算查準(zhǔn)率、查全率和F1-分?jǐn)?shù)。方案2,去除融合結(jié)果中關(guān)系權(quán)重值小于等于0.6的關(guān)系,對剩余的結(jié)果分別計算查準(zhǔn)率、查全率和F1-分?jǐn)?shù)。

實驗結(jié)果展示見圖9,可以看出相比于調(diào)整前,兩個調(diào)整方案都使得查準(zhǔn)率和F1-分?jǐn)?shù)有了一定幅度的提升,其中方案1得到了較為平衡的結(jié)果。

對比表2中此階段的實驗數(shù)據(jù),實驗1-1中KG-S的提取結(jié)果中查準(zhǔn)率、F1-分?jǐn)?shù)都取得了最高值,證明本文所提出的KG-S技術(shù)在基于教學(xué)PPT演示文稿生成知識圖譜的工作中,可以有效地生成具有一定精度的知識圖譜,此外知識圖譜中知識點關(guān)系間的權(quán)重為知識圖譜的調(diào)整創(chuàng)造了便利。

相比于調(diào)整前,實驗1-2中的兩個方案由于刪除了一定量的無用數(shù)據(jù),使得F1-分?jǐn)?shù)都得到了相應(yīng)的提升。其中方案1使得查準(zhǔn)率得到了最大幅度提升,相對的查全率也得到了一定幅度的下降,F(xiàn)1-分?jǐn)?shù)相對于調(diào)整前也有了大幅度提升。

圖10為實驗最終實驗結(jié)果對比圖,其中,每一個指標(biāo)都相對于前兩項有相對的提升,這個結(jié)果也證明本文提出的技術(shù)能實現(xiàn)構(gòu)建精度較高且具有更靈活調(diào)整性的知識圖譜。

(2)第二階段實驗

為了進(jìn)一步驗證KG-T&S技術(shù)的有效性,在實驗1的基礎(chǔ)上設(shè)計了兩種實驗方案,總結(jié)為表3。

實驗2:復(fù)現(xiàn)了文獻(xiàn)[12]中基于聯(lián)合優(yōu)化模型(Joint Optimization Model,JOM)生成Database這門課的知識圖譜實驗結(jié)果,并以此替換本文第一部分:基于課本生成知識圖譜,其余部分仍然用本文的方法。

實驗3:課本部分使用本文的方法;PPT演示文稿部分在使用KG-S技術(shù)的前提下,把該技術(shù)中所使用的概念提取模型更改為中科院的NLPIR,此部分在實驗中表示為KG-S。此外,為了得到與實驗1中PPT演示文稿提取結(jié)果相比相差較大的結(jié)果,對KG-S實驗結(jié)果中的查準(zhǔn)率進(jìn)行了適當(dāng)?shù)恼{(diào)整,從而提高了F1-分?jǐn)?shù)。

本文使用和第一階段同樣的步驟對三個實驗進(jìn)行對比分析。實驗2的結(jié)果數(shù)據(jù)列于表4中。實驗3的結(jié)果數(shù)據(jù)列于表5中,筆者分別對實驗結(jié)果進(jìn)行了分析。

在實驗2-1中,相比于融合前,融合后的結(jié)果中查準(zhǔn)率相比JOM下降了0.13,但是查全率和F1-分?jǐn)?shù)都有一定的提升,分析其原因,同樣是由于回收的三元組中有不少無用的。對此,我們進(jìn)行了實驗2-2調(diào)整實驗。

實驗2-2中,使用了與第一階段相同的調(diào)整方案。表4可以觀察到:相比于調(diào)整前,方案1的查準(zhǔn)率高達(dá)0.9,提高了0.34;相對的,查全率得到了相應(yīng)幅度的下降,下降了0.14。而對綜合了查準(zhǔn)率和查全率的結(jié)果的評價指標(biāo)F1-分?jǐn)?shù)進(jìn)行分析發(fā)現(xiàn),方案1的F1-分?jǐn)?shù)取得了實驗2中的最高值。此結(jié)果說明方案1的綜合效果最好,再次證明了本文提出的KG-T&S技術(shù)的有效性。

實驗3-1中,KG-T&S的結(jié)果每一項評價指標(biāo)都不突出,觀察KG-T&S階段的結(jié)果,可以發(fā)現(xiàn)權(quán)值0.6及以下的提取結(jié)果精度極低,但是權(quán)值為2-0.8的結(jié)果幾乎都正確。通過實驗3-2對實驗結(jié)果進(jìn)行調(diào)整,結(jié)果表明,方案2的每一項指標(biāo)都取得了實驗3中的最高值,其中精度高達(dá)93%。此實驗的結(jié)果再次驗證了本文提出的KG-T&S技術(shù)的有效性。

(3)實驗總結(jié)

通過兩個階段的實驗,不難發(fā)現(xiàn)知識圖譜的生成結(jié)果存在的最大問題是知識點及知識點間關(guān)系不準(zhǔn)確問題。本文所提出的KG-S技術(shù)在最大化利用PPT演示文稿層次關(guān)系且自動地生成知識圖譜的前提下,合理地為每對知識點關(guān)系分配了權(quán)重。KG-T&S技術(shù)同時解決了生成知識圖譜過程中教材知識點過于豐富和PPT演示文稿知識點包含不全面的問題,并且能更加靈活準(zhǔn)確地解決知識點及知識點間關(guān)系冗余問題。

五、結(jié)束語

教育信息化的普及,使得教育知識圖譜的應(yīng)用也隨之普遍,但目前自動化構(gòu)建方法尚不成熟,采用人工構(gòu)建的方法效率很低。本文提出了一種面向教育的中文知識圖譜構(gòu)建技術(shù),包括基于PPT演示文稿生成知識圖譜的技術(shù)以及基于教材生成的知識圖譜和PPT演示文稿生成的知識圖譜的融合技術(shù),該技術(shù)通過“三步法”生成知識圖譜,實現(xiàn)了知識圖譜的自動構(gòu)建,得到了準(zhǔn)確率較高的知識圖譜。

參考文獻(xiàn):

[1]Liu A,Du X,Wang N.Unstructured text resource access control attribute mining technology based on convolutional neural network[J].IEEE Access,2019:43031-43041.

[2]Thomas P,Gerhard W, Fabian S.YAGO 4:A reasonable knowledge base[C].Extended Semantic Web Conference (ESWC),2020:1-13.

[3] Lv P, Wang XX, Xu J, et al.Utilizing knowledge graph and student testing behavior data for personalized exercise recommendation[C].The ACM TURC 2018 conference (SIGCSE China),2018:53-59.

[4]Qiu Y, Wang Y, Jin, et al.Stepwise reasoning for multi-relation question answering over knowledge graph with weak supervision[C].ACM International Conference on Web Search and Data Mining (WSDM),2020:474-482.

[5]Ma X, Zhu Q, Zhou Y, et al.Improving question generation with sentence-level semantic matching and answer position inferring[C].AAAI Conference on Artificial Intelligence (AAAI),2020.

[6]Roy S, Madhyastha M, Lawrence S, et al.Inferring concept prerequisite relations from online educational resources[C].AAAI Conference on Artificial Intelligence (AAAI),2019:9589-9594.

[7]Wang S,Liu L.Prerequisite concept maps extraction for automatic assessment[C]. International World Wide Web Conference,2016:519-521.

[8]Atapattu T, Falkner K, Falkner N.A comprehensive text analysis of lecture slides to generate concept maps[J].Computers & Education,2017:96-113.

[9]Li S,Chen J,Xiang J.Prospecting information extraction by text mining based on convolutional neural networks - a case study of the Lala Copper Deposit, China[J]. IEEE Access,2018:52286-52297.

[10]Wang C, Gao M, He X, et al.Challenges in Chinese knowledge graph construction[C]. IEEE International Conference on Data Engineering Workshops (ICDEW), 2015:59-61.

[11]楊玉基,許斌,胡家威,等.一種準(zhǔn)確而高效的領(lǐng)域知識圖譜構(gòu)建方法[J].軟件學(xué)報,2018,29(10):2931-2947.

[12]Wang S, Ororbia A G, Wu Z, et al.Using Prerequisites to extract concept maps from textbooks[C]. Conference on Information and Knowledge Management (CIKM),2016:317-326.

[13]黃光輪,文益民,朱文宇,等.PPT文檔的概念圖自動構(gòu)建[J].計算機系統(tǒng)應(yīng)用,2015(9):87-92.

[14]Shyi-ming Chen,Shih-ming Bai.Using data mining techniques to automatically construct concept maps for adaptive learning systems[J].Expert Systems with Applications,2010,37(6):4496-4503.

[15]Shyi-ming Chen,Po-Jui Sue. Constructing concept maps for adaptive learning systems based on data mining techniques[J].Expert Systems with Applications,2013,40(7):2746-2755.

[16]Huang X, Yang K, Lawrence V. Classification-based approach to concept map generation in adaptive learning[C].IEEE International Conference on Advanced Learning Technologies,2015:19-23.

[17]Chen PH, Lu Y, Zheng VW, et al.KnowEdu: a system to construct knowledge graph for education[J]. IEEE Access,2018:31553-31563.

[18]鐘卓,唐燁偉,鐘紹春,等.人工智能支持下教育知識圖譜模型構(gòu)建研究[J].電化教育研究,2020,41(4):62-70.

[19]iResearch. 2020年中國知識圖譜行業(yè)分析報告[R/EB]. https://www.iresearch.com.cn,2020.5.23.

[20] Vaswani A, Shazeer N, Parmar N,et al.Attention is all you need[C].Conference on Neural Information Processing Systems (NIPS),2017:1-15.

[21]王珊,薩師煊.數(shù)據(jù)庫系統(tǒng)概論[M].北京:高等教育出版社,2014.9.

(編輯:魯利瑞)

猜你喜歡
知識圖譜融合教育
國外教育奇趣
華人時刊(2022年13期)2022-10-27 08:55:52
題解教育『三問』
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
教育有道——關(guān)于閩派教育的一點思考
辦好人民滿意的首都教育
近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
智富時代(2016年12期)2016-12-01 16:28:41
原阳县| 延安市| 桂东县| 特克斯县| 厦门市| 南澳县| 沅陵县| 阿荣旗| 贵溪市| 池州市| 南川市| 阳原县| 公主岭市| 华坪县| 高邮市| 宁德市| 保山市| 新河县| 喜德县| 台中县| 克山县| 石柱| 民丰县| 海南省| 沂水县| 东山县| 土默特左旗| 涟水县| 甘谷县| 古蔺县| 武陟县| 东光县| 九龙坡区| 勃利县| 潜江市| 云龙县| 长白| 喀喇| 江北区| 吴川市| 南雄市|