張水晶 陳建峽 吳歆韻
(湖北工業(yè)大學計算機學院 湖北 武漢 430068)
隨著人工智能技術(shù)在社會各個領(lǐng)域中的廣泛應(yīng)用,利用信息抽取技術(shù)對課程教學資料進行關(guān)鍵信息抽取從而構(gòu)建課程學習的知識圖譜,是當前課程信息化建設(shè)的研究熱點。其中,關(guān)系抽取是信息抽取技術(shù)的重要環(huán)節(jié),它是指對文本信息建模自動抽取出實體對之間的語義關(guān)系,提取出有效的語義知識,是知識圖譜構(gòu)建中極為關(guān)鍵的部分[1]。
近年來,深度學習的發(fā)展為實體關(guān)系抽取任務(wù)提供了有力的支持,根據(jù)數(shù)據(jù)集標注量級的差異,深度學習的實體關(guān)系抽取任務(wù)分為有監(jiān)督和遠程監(jiān)督兩類[2]。有監(jiān)督的學習方法能夠抽取有效的實體關(guān)系,其準確率和召回率都很不錯,但是這類方法對標注數(shù)據(jù)十分依賴,而標記數(shù)據(jù)耗時耗力。文獻[3]提出了遠程監(jiān)督(Distant Supervision)的思想,即如果兩個實體并含某種關(guān)系,則涉及這兩個實體的所有句子都表示該關(guān)系,可以自動生成訓練關(guān)系提取模型的數(shù)據(jù)。
基于深度學習的遠程監(jiān)督方法主要是改進的CNN、RNN、LSTM等網(wǎng)絡(luò)結(jié)構(gòu)[4-5],如PCNN與多示例學習的融合方法[6]、PCNN與注意力機制的融合方法[7]等。文獻[8]提出基于句子層的注意力機制和實體描述,降低了噪聲問題并且獲得了不同句子中的語義信息。文獻[9]提出詞語注意力機制的關(guān)系抽取模型,可以在降噪的同時提高關(guān)系抽取的準確性。Fan等[10]通過矩陣分解補全方法解決稀疏及噪聲的問題。2019年,Craven等[11]提出弱監(jiān)督機器學習思想抽取蛋白質(zhì)與基因之間的關(guān)系。但是,遠程監(jiān)督方法容易帶來多實例多標簽問題,若知識庫不完備,更會帶來知識庫缺失的噪聲問題。同時,對于特定領(lǐng)域的實體關(guān)系抽取,這些研究方法還需要解決領(lǐng)域知識庫的構(gòu)建問題。
面對課程教學領(lǐng)域的知識點關(guān)系抽取問題,本文研發(fā)了基于句袋注意力的遠程監(jiān)督關(guān)系抽取模型DSRE-SBA(Distant Supervised Relation Extraction Model based on Sentence Bags Attention),利用統(tǒng)計學、深度學習方法抽取課程知識點的關(guān)鍵詞,通過領(lǐng)域?qū)嶓w優(yōu)化得到知識點實體,用基于遠程監(jiān)督的袋內(nèi)袋間注意力機制[12],對得到的大量訓練數(shù)據(jù)降噪,然后將降噪過的數(shù)據(jù)送入基于實體注意的Bi_LSTM(Bidirectional LSTM Networks with Entity-aware Attention using Latent Entity Typing)[13]進行關(guān)系抽取。
如圖1所示,基于遠程監(jiān)督的實體關(guān)系抽取的基本步驟分為:1) 啟發(fā)式匹配;2) 特征提?。?) 訓練分類器[14]。
圖1 基于遠程監(jiān)督的實體關(guān)系抽取流程
1) 啟發(fā)式匹配。啟發(fā)式匹配的假設(shè)條件為:如果知識庫中的某兩個實體具有某一種關(guān)系,則包含這兩個實體的所有句子都可以表達這種關(guān)系[3]。通過該假設(shè)條件,知識庫與文本集之間建立聯(lián)系,并生成標注好的訓練數(shù)據(jù)。
2) 特征提取。特征提取現(xiàn)有的方法主要是基于特征方法和神經(jīng)網(wǎng)絡(luò)方法?;谔卣鞣椒ǖ姆椒ㄊ褂猛獠康腘LP工具來提取特征。神經(jīng)網(wǎng)絡(luò)方法主要分為CNN和RNN。目前較為常用的是基于CNN優(yōu)化的PCNN網(wǎng)絡(luò)。
3) 訓練分類器。通過特征提取獲取訓練數(shù)據(jù)的特征表示。特征數(shù)據(jù)作為分類器的輸入,對分類器的中的參數(shù)進行訓練。通常使用Softmax層作為分類器進行輸出。
基于遠程監(jiān)督的關(guān)系抽取結(jié)果往往含有大量的噪聲,主要包含三個方面:多實例問題、多標簽問題以及知識庫缺失問題。多實例問題是某些標簽語句并沒有表達實體之間的標簽關(guān)系。多標簽問題則是指知識庫中的多個關(guān)系標簽可能出現(xiàn)在同一個實體對里面。知識庫缺失問題是指一個句子中的實體對呈現(xiàn)了某種關(guān)系但是在知識庫中并不存在,因此被打上NA標簽。
本文研發(fā)了基于句袋注意力的遠程監(jiān)督關(guān)系抽取模型DSRE-SBA,主要思想是:用遠程監(jiān)督的思想從課程知識庫匹配外部樸素文本,形成大量帶有噪聲的訓練數(shù)據(jù),通過詞向量與位置向量構(gòu)造句子特征,利用袋內(nèi)袋間注意力機制降低錯誤標簽的權(quán)重來對數(shù)據(jù)進行降噪。降噪后的數(shù)據(jù)通過詞向量與自注意力機制構(gòu)造文本特征,捕捉到上下文語義信息,輸入到Bi_LSTM模型,訓練關(guān)系抽取器。最終用訓練好的模型進行課程知識點關(guān)系抽取。DSRE-SBA關(guān)系抽取模型包括五個部分:數(shù)據(jù)獲取、課程知識實體抽取、構(gòu)建大量訓練數(shù)據(jù)、數(shù)據(jù)降噪、關(guān)系抽取。模型原理如圖2所示。
圖2 DSRE-SBA模型框架
本文采用開源中文分詞工具Jieba進行分詞,并且利用NLPIR中文停用詞表,加入計算機主題類詞匯構(gòu)造自己的分詞詞典。然后,使用TF-IDF算法、TextRank算法和Word2vec詞聚類對已經(jīng)分詞的文本進行課程知識實體關(guān)鍵詞抽取。
2.1.1TF-IDF算法
TF-IDF作為一種統(tǒng)計方法,用于評估一個文檔或語料庫中單詞的重要性[15]。雖然文檔中每個單詞的重要性與該單詞出現(xiàn)在文檔中的次數(shù)成正比,但是與單詞在語料庫中出現(xiàn)的頻率成反比。TF(Term Frequency)即詞頻表示某個單詞在文檔中出現(xiàn)的頻率。其計算公式為:
(1)
式中:m表示該單詞在某篇文檔中出現(xiàn)的次數(shù);n表示文本包含的總次數(shù)。
IDF(Inverse Document Frequency)表示逆文檔頻率,是衡量單詞普遍性的標準。一個詞語越常見,其IDF值就越大。其計算公式為:
(2)
式中:N表示語料庫中的文件總數(shù);M表示包含該詞語的文件數(shù)目。最后,計算TF與IDF的乘積:
TF_IDF=TF×IDF
(3)
2.1.2TextRank算法
TextRank算法是一種來源于PageRank算法的圖形化文本排序算法[16]。TextRank將文本劃分為若干組成單詞或句子單元來建立圖形模型,通過投票機制對文本的重要部分進行排序。只有單個文檔自己的信息才能用于提取和抽象關(guān)鍵字。TextRank可以表示為有向加權(quán)圖G=(V,E),V是點集,E是邊集。對于給定點Vi,權(quán)值得分定義為:
(4)
式中:In(Vi)是指向Vi的一組點的集合;Out(Vj)是節(jié)點Vj指向的所有節(jié)點的集合;d是阻尼系數(shù),范圍從0到1;Wji表示節(jié)點Vj到Vi的邊權(quán)重。
2.1.3Word2vec詞聚類算法
Word2vec模型采用一個三層的神經(jīng)網(wǎng)絡(luò),分為輸入層、隱藏層和輸出層。通過訓練大規(guī)模的語料數(shù)據(jù),將訓練文本中的詞映射到一個n維空間,并使用一個低維的、稠密的詞向量來表示詞語,使用向量距離來計算詞之間相似度,該模型可以很好地提取詞語的語義信息,語義接近的詞在向量空間具有相似的向量表達[17]。其誤差平方和準則函數(shù)計算如式(5)所示。
(5)
式中:E表示樣本空間中所有數(shù)據(jù)點到聚類中的平方誤差的總和;p表示數(shù)據(jù)對象;Ci表示第i個類簇;mi表示第i個類簇的平均值。
Word2Vec詞聚類文本關(guān)鍵詞抽取方法的主要思路是對于用詞向量表示的文本詞語,通過K-Means算法對文章中的詞進行聚類,選擇聚類中心作為文章的一個主要關(guān)鍵詞,計算其他詞與聚類中心的距離即相似度,選擇topN個距離聚類中心最近的詞作為文本關(guān)鍵詞,而這個詞間相似度可用Word2Vec生成的向量計算得到。
本文采用PCNNs的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動學習文本特征,代替復(fù)雜的人工構(gòu)造特征和特征處理流程。圖3是PCNN的模型框架圖。
圖3 PCNN模型框架
2.2.1向量表示
2.2.2卷積層
通過卷積層,可以提取句中的每個局部特征,并且把所有的特征融合到一起,從而實現(xiàn)全局的預(yù)測。卷積值是權(quán)重向量w和輸入向量之間的運算,假設(shè)濾波器的窗口為l,則w∈Rm(m=l×d)。給定S為序列{q1,q2,…,qs},其中qi∈Rd。一般來說,qi:j指的是qi與qj的串聯(lián)。一個濾波器的第j個部分可表示為:
cj=wqj-w+1:j
(6)
索引j的取值范圍從1到s+w-1。
捕獲不同特征的能力通常需要在卷積中使用多個濾波器(或特征映射)。假設(shè)使用n個濾波器(W={w1,w2,…,wn}),卷積運算可以表示為:
cij=wiqj-w+1:j1≤i≤n
(7)
卷積的結(jié)果是一個矩陣C={c1,c2,…,cn}∈Rn×(s+w-1)。圖3顯示了在一次卷積中用3個不同的濾波器的例子。
2.2.3分段最大池化
由于語句的長度會隨著不同的表達方式會發(fā)生變化,PCNN神經(jīng)網(wǎng)絡(luò)利用最大池化層,使得抽取到的特征與句子長度無關(guān)。輸入句可以根據(jù)兩個選定的實體分為三個部分,它將返回每個段中的最大值,而不是單個最大值。如圖3所示,由實體1和實體2將每個卷積濾波器ci的輸出分成三段{ci1,ci2,ci3}。分段最大池化過程可表示為:
pij=max(cij) 1≤i≤n,1≤j≤3
(8)
對于每個卷積濾波器的輸出,可以得到一個三維向量pi={pi1,pi2,pi3}。然后把所有的向量p1:n連接起來,應(yīng)用雙曲切線非線性函數(shù),如式(9)所示。
g=tanh(p1:n)
(9)
式中:g∈R3n。最后,為了計算每個關(guān)系的置信度,特征向量g被輸入到Softmax分類器中。
句袋注意力模型SBA(Sentence Bags Attention)將遠程監(jiān)督提供的訓練數(shù)據(jù)分為多個袋組,每個袋組包含帶有相同關(guān)系標簽的多個袋子,每個句袋(bag)包含一個實體對共現(xiàn)的所有句子[19]。使用基于相似度的袋間注意模塊,通過對袋加權(quán)計算來表示袋組。使用一種基于關(guān)系感知的方式計算每個袋中句子的權(quán)重來表示一個袋,初期將其中嘈雜的句子設(shè)置為較小的權(quán)重。
圖4 句袋注意力模型框架
2.3.1袋內(nèi)注意力
(10)
(11)
(12)
式中:rk是關(guān)系嵌入矩陣R2的第k行。最后,袋bi的表示在圖4中組成了矩陣Bi∈Rh×3dc。
2.3.2袋間注意力
(13)
式中:gk是圖中矩陣G∈Rh×3dc的第k行,k是關(guān)系索引,βik構(gòu)成注意力權(quán)矩陣β∈Rn×h。每個βik被定義為:
(14)
式中:γik描述了袋bi與第k個關(guān)系的置信度。
在自我注意算法[20]的啟發(fā)下,利用向量本身計算一組向量的注意權(quán)重,根據(jù)袋子本身的向量表示計算袋子的權(quán)重。γik被定義為:
(15)
其中相似性函數(shù)是一個簡單的點積,被定義為:
(16)
然后,通過gk和關(guān)系嵌入向量rk來計算將袋組g被分為關(guān)系k的得分ok。
(17)
式中:dk是一個偏置項。最后,利用一個Softmax函數(shù)得到袋組g被歸類為第k類關(guān)系的概率。
(18)
式(12)和式(17)所用的關(guān)系嵌入矩陣R是相同的。另外,在袋表示Bi中使用Dropout方法以防止過度擬合。
本文采用了基于實體感知關(guān)注的EA-Bi_LSTM(Bidirectional LSTM Networks with Entity-aware Attention)模型對課程知識點進行關(guān)系分類,該模型是文獻[13]提出的端到端遞歸神經(jīng)模型,它結(jié)合了一種具有潛在實體類型(Latent Entity Typing)的實體感知注意機制?;趯嶓w感知的注意力使模型集中在最重要的語義信息上,EA-Bi_LSTM模型框架如圖5所示。
圖5 EA-Bi_LSTM框架
實體感知注意的三個特征包含:(1) Bi_LSTM的隱層狀態(tài)H={h1,h2,…,hn}。(2) 相對位置特征。(3) 具有LET的實體特征。如式(19)-式(21)所示。
(19)
(20)
(21)
1) Bi_LSTM的隱層狀態(tài)。對應(yīng)于實體對的位置,Bi_LSTM的隱層狀態(tài)是表示實體的高級特征,用hei∈R2dh表示,其中ei表示實體的索引。
2) 相對位置特征。位置感知注意被作為更有效地使用相對位置特征的一種方法[21]。它是一種注意力機制的變體,它在計算注意力時不僅使用了Bi_LSTM的輸出,而且也使用了相對位置特征。
3) 具有潛在類型的實體特征LET。由于實體對是解決關(guān)系分類任務(wù)的有力提示,所以單是實體的類型就可以推斷出近似關(guān)系。因此將實體對及其類型加入注意機制,能夠有效地訓練一個句子中實體對和其他詞語間的關(guān)系。由于沒有給出標注類型,通過潛在類型聚類(一種通過問答對排序方法得到文本主題的方法)來得到LET[22]?;谧⒁鈾C制,LET通過加權(quán)K個潛在類型向量來構(gòu)造實體類型的表示。數(shù)學公式如下:
(22)
(23)
式中:ci是第i個潛在類型向量,K是潛在實體類型的數(shù)量。
綜上,實體特征是通過Bi_LSTM隱藏狀態(tài)、相應(yīng)的實體位置和實體對的類型來構(gòu)造的。經(jīng)過實體特征的線性變換,它們與Bi_LSTM層的表示相加,如式(19)所示。并且句子z的表示由式(19)-式(21)得到。
本文選取了部分遠程監(jiān)督紐約時報(NYT)數(shù)據(jù)集,從中選取了包含13種關(guān)系的5 000條數(shù)據(jù),通過本文的句袋注意力模型進行降噪,然后將降噪后的數(shù)據(jù)集送入CNN、Attention-Bi_LSTM和Attention-Bi_LSTM+LET等3種關(guān)系抽取模型進行比較,采用k-折交叉驗證方法對模型進行調(diào)優(yōu),表1是不同模型在NYT數(shù)據(jù)集上的F1值。
表1 不同模型的F1值
由表1可知:
1) 本文將未去噪語料與去噪后語料的訓練結(jié)果進行對比,句袋注意力機制起到了一定降噪作用,去噪后的訓練關(guān)系抽取模型抽取效果更好。
2) Attention-Bi_LSTM+LET(即本文介紹的EA-Bi_LSTM)效果最好,說明融合實體特征方法確實起到了一定效果。
本節(jié)將對實體抽取和關(guān)系抽取進行相關(guān)實驗,以驗證“大數(shù)據(jù)處理技術(shù)”課程知識點關(guān)系抽取模型的有效性。實驗環(huán)境主要采用了Ubuntu 16.04.6,LTS 4.15.0- 45-generic, GNU/Linux,PyCharm3.6,開發(fā)語言是Python。
本文收集了與大數(shù)據(jù)處理課程有關(guān)的電子教案、電子書籍、課程大綱等課程資料。并將對應(yīng)的課程資料轉(zhuǎn)變成文本格式,對中文文本進行分句處理,得到11 026條數(shù)據(jù)。為了下一步自動抽取關(guān)鍵詞,需要對這一萬條數(shù)據(jù)進行分詞及去停用詞處理。本文使用NLPIR中文停用詞表,包含了1 208個停用詞。并加入計算機主題類詞匯構(gòu)造自己的分詞詞典,采用開源中分分詞工具Jieba進行分詞。原始數(shù)據(jù)如表2所示。
表2 樣本示例
本文主要采用精度-召回率(PR)曲線、精度與召回率的調(diào)和平均值F1(F1_score)、準確率(Accuracy),以及ROC曲線下的面積AUC(Area Under Curve)作為評價指標,來評估提出的方法是否有效。
知識領(lǐng)域的實體與普通的實體抽取(如抽取人名、地名、機構(gòu)名等)并不相同,在教育領(lǐng)域,一篇文章想要傳達的知識即文章的主要內(nèi)容與主題。而文本關(guān)鍵詞表達了文檔主題性和關(guān)鍵性的內(nèi)容,是文檔內(nèi)容理解的最小單位。因此本文采取關(guān)鍵詞提取方法獲取專業(yè)領(lǐng)域?qū)嶓w。
4.2.1關(guān)鍵詞抽取
本文使用TF-IDF、TextRank、Word2vec詞聚類對分好詞的文本進行關(guān)鍵詞抽取,表3是三種方法大數(shù)據(jù)課程教材關(guān)鍵詞抽取的準確率結(jié)果。
表3 TF-IDF、TextRank、Word2vec準確率對比
根據(jù)表3的實驗結(jié)果,TF-IDF與TextRank算法在關(guān)鍵詞抽取閾值改變時,準確率并沒有太大改變,而Word2vec詞聚類算法隨著抽取關(guān)鍵詞數(shù)閾值減小,準確率逐漸上升,這與詞算法的聚類特性有關(guān)。TF-IDF考慮了詞頻,TextRank考慮了詞之間的關(guān)系,Word2vec詞聚類考慮了詞的語義,三種算法各有所長,所以本文結(jié)合三種方法的結(jié)果進行知識實體抽取。關(guān)鍵詞抽取部分實驗結(jié)果如表4所示。
表4 關(guān)鍵詞抽取結(jié)果示例
4.2.2領(lǐng)域?qū)嶓w優(yōu)化
以上算法得到的關(guān)鍵詞確實有不少是“大數(shù)據(jù)處理”課程的核心概念,例如“hadoop”“分布式”“數(shù)據(jù)流”“集群”“雅虎問題”等等。但本文使用的獲取關(guān)鍵詞方法都是無監(jiān)督方法,難免會出現(xiàn)領(lǐng)域知識抽取不準確的情況。因此,需要人為刪除和修正這些提取出來的領(lǐng)域關(guān)鍵術(shù)語。人工優(yōu)化實體部分實驗結(jié)果如表5所示。
表5 人工優(yōu)化實體示例
4.2.3領(lǐng)域?qū)嶓w擴充
由于獲取到的數(shù)據(jù)集有限,因此抽取到的知識實體也有限,所以需要對實體集進行擴充來保證知識體系的完整性。本文在wiki語料中加入大數(shù)據(jù)處理技術(shù)的相關(guān)教案、書籍等文本資料,作為Word2vec的訓練集訓練,最終得到684 721個維度為400的詞向量。并將之前獲取的實體輸入模型進行相似度詞語的計算,得到6 869個中文詞匯與2 731個英文詞匯,再進行新一輪的人工優(yōu)化。中文和英文實體擴展部分的實體分別如表6和表7所示。
表6 中文實體擴展結(jié)果示例
表7 英文實體擴展結(jié)果示例
根據(jù)知識之間的特性,本文定義了實體之間的6種關(guān)系:描述關(guān)系、前導(dǎo)后繼關(guān)系、包含關(guān)系、等價關(guān)系、相關(guān)關(guān)系、NA。然后根據(jù)6種關(guān)系構(gòu)建小型知識庫,并用遠程監(jiān)督結(jié)合袋內(nèi)袋間注意力機制進行降噪,最后通過Bi_LSTM訓練關(guān)系抽取器。表8是6種關(guān)系示例。
表8 關(guān)系示例
4.3.1遠程監(jiān)督關(guān)系抽取實驗
本文運用遠程監(jiān)督的思想,首先將實體抽取得到的實體進行人工標注關(guān)系,得到718條三元組知識庫,將此知識庫與10 728條非結(jié)構(gòu)化文本自動對齊,得到25 520條標注數(shù)據(jù)。表9是遠程監(jiān)督對齊樸素文本的部分處理結(jié)果。
表9 遠程監(jiān)督處理結(jié)果示例
4.3.2句袋注意力機制降噪實驗
本文使用句袋注意力機對遠程監(jiān)督得到的數(shù)據(jù)進行降噪處理。實驗參數(shù)設(shè)置如表10所示。
表10 句袋模型參數(shù)設(shè)置
本文對比了遠程監(jiān)督降噪模型的幾個例子,表11是不同模型的AUC值。其中CNN和PCNN分別表示在句子編碼器中使用CNN或分段CNN,ATT-BL表示文獻[23]提出的袋內(nèi)注意方法,ATT-RA表示關(guān)系感知袋內(nèi)注意方法,而BAG-ATT表示袋間注意力方法。
表11 不同模型的AUC值
從表11可以看出:
1) 使用了ATTRA注意力機制模型的AUC值高于使用了ATTBL注意力機制的模型,這是因為ATTRA方法使用所有關(guān)系嵌入來計算袋內(nèi)注意權(quán)重。
2) 使用了BAG-ATT模型的AUC值高于沒有使用BAG-ATT的模型,說明計算袋與袋之間的相似度策略起到了一定的效果。
3) 其中用PCNN構(gòu)造句子特征的AUC值明顯高于CNN,這是因為PCNN能夠提取句子中兩個實體間的結(jié)構(gòu)信息。
為了呈現(xiàn)更直觀的效果,圖6對比了PR曲線,從圖6中可以看出,PCNN_ATTRA與PCNN_ATTRA_BAGATT曲線基本在其他曲線上方,說明袋內(nèi)袋間注意力方法優(yōu)于Lin等提出的袋內(nèi)注意力方法。
圖6 不同模型的PR曲線
4.3.3關(guān)系抽取實驗
將遠程監(jiān)督數(shù)據(jù)輸入句袋注意力模型,得到每個句子對應(yīng)6種關(guān)系的得分。為了避免受到知識庫缺失噪聲的影響,去除了NA關(guān)系標簽的句子;為了消除多實例、多標簽問題噪聲,去除了除NA關(guān)系以外的五種關(guān)系的對應(yīng)得分都較小的句子。篩選出約4 000條標注數(shù)據(jù),其中各個關(guān)系在數(shù)據(jù)中的占比如表12所示。
表12 數(shù)據(jù)關(guān)系比例
本文使用基于實體感知關(guān)注的Bi_LSTM模型進行關(guān)系抽取,對標注數(shù)據(jù)進行預(yù)處理,送入關(guān)系抽取模型進行訓練,采用k-折交叉驗證方法對模型進行調(diào)優(yōu),實驗參數(shù)設(shè)置如表13所示。
表13 EA-Bi-LSTM模型參數(shù)設(shè)置
不同模型的F1的實驗結(jié)果如表14所示,可以看出,在“大數(shù)據(jù)處理技術(shù)”課程數(shù)據(jù)集上,句袋注意力機制仍取得了一定效果,且Attention-Bi_LSTM+LET模型仍表現(xiàn)最佳。
表14 不同模型的F1值
將關(guān)系抽取結(jié)果整理成<實體-關(guān)系-實體>三元組,進行可視化展示。首先將三元組按照關(guān)系類別存儲于csv文件,然后導(dǎo)入neo4j中,按照關(guān)系類別和實體進行展示。
4.4.1知識點關(guān)系查詢
通過等價關(guān)系查詢,可以了解到在大數(shù)據(jù)處理技術(shù)中同一個概念的不同叫法;通過描述關(guān)系查詢,可以了解到某個知識點的特性;通過包含關(guān)系查詢,可以了解某個知識的結(jié)構(gòu);通過前導(dǎo)后繼關(guān)系查詢,可以了解在大數(shù)據(jù)處理技術(shù)中數(shù)據(jù)的流向或?qū)ο髽?gòu)建的先后;通過相關(guān)關(guān)系查詢,可以了解到某個實體的功能或和其他實體的相關(guān)聯(lián)性。查詢結(jié)果如圖7-圖11所示。
圖7 概念等價關(guān)系查詢
圖8 概念描述關(guān)系查詢
圖9 知識點包含關(guān)系查詢
圖10 知識點前導(dǎo)后繼關(guān)系查詢
圖11 知識點相關(guān)關(guān)系查詢
4.4.2課程知識實體查詢
當以實體為關(guān)鍵字查詢時,可以得到關(guān)于該實體的拓展信息,從而更加全面地了解某個知識點。如MapReduce的拓展信息,拓展查詢可視化部分結(jié)果展示如圖12所示。
圖12 課程知識點實體查詢
本文以“大數(shù)據(jù)技術(shù)”課程為例研發(fā)了知識點關(guān)系抽取的模型。對于任何課程,都免不了要做特征工程,比如關(guān)鍵詞抽取中的人工矯正部分,同時,在知識點關(guān)系抽取中要根據(jù)課程的不同特點定義其知識點之間的關(guān)系。除此以外,本文提出的方法對其他課程的知識圖譜自動化構(gòu)建具有通用性。
實驗結(jié)果證明,課程知識點的關(guān)系抽取在沒有充足訓練集的情況下,需要人工構(gòu)造大量特征,但通過遠程監(jiān)督方法,構(gòu)造“大數(shù)據(jù)處理”課程知識點關(guān)系抽取的訓練數(shù)據(jù),并通過句袋注意力機制降噪,然后通過EA-Bi_LSTM訓練關(guān)系抽取模型,在F1值上達到了88.1%的效果,此方法減少了人工的參與,能夠較好平衡人工與自動構(gòu)建的關(guān)系。
另外,本文只在一定程度上去除了多實例多標簽問題的噪聲,如何采用有效的方式來解決遠程監(jiān)督的知識庫缺失問題,是下一步關(guān)系抽取研究的重點。