国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息抽取的課程知識鏈接方法

2020-04-30 04:26文必龍
計算機技術(shù)與發(fā)展 2020年4期
關(guān)鍵詞:文檔關(guān)聯(lián)概念

文必龍,馬 強,李 菲

(東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

0 引 言

隨著教育信息化建設(shè)與教學(xué)過程的深度融合,以及云課堂、網(wǎng)絡(luò)課程、移動學(xué)習(xí)[1]等教學(xué)形式在教育領(lǐng)域中的廣泛深入應(yīng)用,產(chǎn)生并積累了大量的課程教材資源。這些資源中蘊含著豐富的領(lǐng)域性知識。然而這些課程教材資源中的知識存在分散無序、聚合性不足的問題,難以滿足使用者對教材資源有效利用的迫切需求,如教師或?qū)W生在學(xué)習(xí)某個知識點時需要查找相關(guān)的知識點,或者需要搜尋其他教材對同一知識點的講解。因此,對課程教材資源中的知識進(jìn)行描述與組織,建立知識點之間的鏈接、知識點和教材資源間的鏈接顯得越來越重要。

知識鏈接是根據(jù)知識體之間的關(guān)聯(lián)關(guān)系將它們聯(lián)系起來的過程[2]。傳統(tǒng)的教育資源管理、教材分析方法、教育統(tǒng)計學(xué)等工作對知識鏈接的研究雖有一定的成就,但研究基本局限在文獻(xiàn)單元層面或資源整理層面,并且需要投入大量人力進(jìn)行整理,難以應(yīng)對課程教材資源不斷增長的挑戰(zhàn)。教材資源多數(shù)以半結(jié)構(gòu)和非結(jié)構(gòu)的文本形式出現(xiàn),需要相應(yīng)的技術(shù)進(jìn)行處理。當(dāng)前,信息抽取技術(shù)在信息組織、文本非結(jié)構(gòu)化到結(jié)構(gòu)化轉(zhuǎn)換等文本處理任務(wù)中取得了顯著成功,它從給定的文檔集合中自動識別出預(yù)先設(shè)定的實體、關(guān)系和事件等類型的信息[3],并將這些信息進(jìn)行結(jié)構(gòu)化存儲和管理。因此可借鑒其方法用于課程知識鏈接體系的建立當(dāng)中。

文中提出基于信息抽取的課程教材資源知識鏈接方法,使其不限于數(shù)據(jù)體量,以實現(xiàn)對大量課程教材資源進(jìn)行處理。相比于傳統(tǒng)方法,對提高課程知識點間的關(guān)聯(lián)分析與教材資源的高效利用具有現(xiàn)實意義。

1 相關(guān)工作

構(gòu)建課程知識鏈接體系源于對數(shù)字化課程教材資源進(jìn)行整序、共享與利用的客觀需求。文獻(xiàn)[4]認(rèn)為知識鏈接是指通過知識關(guān)聯(lián)將具有相關(guān)關(guān)系的知識單元按照一定的需要有序地聯(lián)系在一起,形成序列化或結(jié)構(gòu)化的知識集合,繼而構(gòu)成知識網(wǎng)絡(luò)的一種行為。文獻(xiàn)[5]認(rèn)為知識鏈接提供了一個知識環(huán)境,可從一個信息點切換到相關(guān)信息點,實現(xiàn)特定領(lǐng)域多種知識資源的有機關(guān)聯(lián)。在構(gòu)建知識鏈接體系的實踐中,研究者采用不同的方法進(jìn)行鏈接的建立。文獻(xiàn)[6-7]提出基于引文的關(guān)聯(lián)檢索,整合不同學(xué)科的知識源,實現(xiàn)科學(xué)文獻(xiàn)間的知識鏈接,在語義Web環(huán)境中構(gòu)建知識網(wǎng)絡(luò)。文獻(xiàn)[8]實現(xiàn)基于用戶行為的知識鏈接向用戶提供知識服務(wù)。文獻(xiàn)[9-10]提出基于語義的鏈接,使數(shù)字圖書館資源的語義能被機器理解。其中,基于知識元的知識組織鏈接在實際應(yīng)用中取得了很大成功,它基于資源間的內(nèi)在關(guān)聯(lián),構(gòu)建概念關(guān)系、層次信息等的知識結(jié)構(gòu)網(wǎng)絡(luò),更加強調(diào)知識結(jié)構(gòu)的動態(tài)發(fā)現(xiàn)與多維聚合。典型的基于知識元的應(yīng)用有學(xué)習(xí)元平臺、基于標(biāo)簽的知識資源聚合、中國知網(wǎng)概念知識元庫等。從相關(guān)研究與實踐可以看出,知識鏈接體系有兩個基本要素:知識單元及知識單元之間的關(guān)聯(lián)關(guān)系。

在課程教材資源的知識鏈接體系構(gòu)建中,對知識單元的認(rèn)識和知識單元結(jié)構(gòu)的描述是鏈接構(gòu)建的基礎(chǔ)和信息抽取的依據(jù)。一般認(rèn)為“知識點”是教材中教學(xué)內(nèi)容的最小單元。文獻(xiàn)[11]認(rèn)為應(yīng)以知識點下轄的知識元為組成教學(xué)知識點的最小、獨立的知識單位。情報學(xué)界的研究者認(rèn)識到應(yīng)該將信息標(biāo)引深入到文獻(xiàn)中的知識元層次,并提出知識元這一概念。溫有奎教授把知識元當(dāng)作知識結(jié)構(gòu)的基本元素。在知識元結(jié)構(gòu)表示形式方面,文獻(xiàn)[12]提出了知識元的概念、關(guān)系、問題三元組表示。文獻(xiàn)[13]提出了知識元的名稱、屬性、屬性描述和信息接口四元組表示。對知識結(jié)構(gòu)的表示是建立鏈接構(gòu)建的基礎(chǔ)工作。

課程教材資源的信息抽取是以課程教材文檔集合為輸入,識別并抽取課程教材中的專有名詞、命名實體及關(guān)系、事件等指定的信息,將抽取的信息進(jìn)行結(jié)構(gòu)化存儲。文獻(xiàn)[14]利用信息抽取技術(shù),通過術(shù)語識別和標(biāo)準(zhǔn)化等工作建立了結(jié)構(gòu)化的藥物方劑知識庫。文獻(xiàn)[15]利用信息抽取技術(shù)對Web資源進(jìn)行抽取,以建立移動學(xué)習(xí)資源庫。在課程知識的鏈接工作中,領(lǐng)域概念(以下所述“概念”均指課程領(lǐng)域?qū)S忻~及專有命名實體)是構(gòu)成知識單元的最基本要素,領(lǐng)域概念和領(lǐng)域概念間的關(guān)聯(lián)關(guān)系是信息抽取的重點。

2 方 法

2.1 總體流程

針對課程教材資源中知識點分散無序、聚合性不足的問題,文中提出課程知識鏈接體系描述模型,基于該模型設(shè)計了課程知識鏈接體系建立的流程,主要包括:課程教材采集、教材信息處理、概念及概念關(guān)聯(lián)抽取、概念與文本關(guān)聯(lián)計算,如圖1所示。

圖1 課程知識鏈接建立流程

課程教材采集是針對每類數(shù)據(jù)源開發(fā)一種爬蟲器,從課程學(xué)習(xí)網(wǎng)站、課程教材數(shù)據(jù)庫、含有教材資源的網(wǎng)頁等數(shù)據(jù)源中爬取大量文檔。教材信息處理將爬取得到的各種格式文檔轉(zhuǎn)換為統(tǒng)一的文本格式,并對文檔內(nèi)容進(jìn)行切詞、詞類標(biāo)注、句法分析等自然語言處理,構(gòu)建課程語料庫,為概念及概念關(guān)聯(lián)抽取、概念與文本關(guān)聯(lián)抽取做準(zhǔn)備。概念及概念關(guān)聯(lián)抽取是對文檔中的領(lǐng)域?qū)S忻~、領(lǐng)域命名實體進(jìn)行識別并發(fā)現(xiàn)概念間的關(guān)聯(lián)的過程?;谡n程知識鏈接模型,采用規(guī)則匹配與統(tǒng)計學(xué)習(xí)相結(jié)合的方式,抽取課程概念、挖掘概念間的關(guān)聯(lián)關(guān)系并存儲。最后抽取概念和文檔間的關(guān)聯(lián)信息,包括概念與文檔鏈接信息的抽取和概念與文檔鏈接強度的計算兩部分。概念與文檔鏈接信息的抽取主要是實現(xiàn)概念與文檔的檢索排序,概念與文檔鏈接強度的計算是衡量兩者的隱含關(guān)聯(lián)程度。上述課程知識鏈接體系構(gòu)建的核心工作是概念及概念間關(guān)系的抽取、概念與教材文檔間關(guān)聯(lián)信息的抽取。

2.2 課程知識鏈接描述模型

課程知識鏈接描述模型是對課程教材中的知識點、知識點的特征及知識點間的聯(lián)系進(jìn)行抽象的工具,也是課程知識鏈接體系的基礎(chǔ)與核心,該模型定義如下:

定義1:課程知識鏈接體系是課程知識點及課程知識點間關(guān)聯(lián)關(guān)系的集合,可以描述為一個2元組:

Knowledge_Linking={K,R}

其中,K為課程知識點(knowledge)的集合;R={r1,r2,…,rn}為課程知識關(guān)聯(lián)關(guān)系(relevance)集合。

定義2:課程知識點(Knowledge)是教材資源中信息傳遞的基本單元,表示為:

Knowledge={Concept,Alias,Type,Definition}

其中,Concept為該知識點的概念,用詞表示;Alias為概念的同義詞列表;Type為概念類型;Definition為課程知識點概念的基本解釋。

定義3:知識點之間的關(guān)聯(lián)關(guān)系(Relevance)是以某一中介為紐帶建立的聯(lián)系,表示為一個4元組:

R=(K1,K2,Type,Value)

其中,K1,K2表示知識點;Type表示知識點K1和知識點K2間關(guān)系的類型,例如語義相關(guān)類型、共現(xiàn)相關(guān)度類型等;Value表示某關(guān)系類型下的具體關(guān)系取值。

定義4:課程教材中的章節(jié)(Section)表示為:

Section={Name,Book,Serial,Content}

其中,Name表示該章節(jié)在教材中的名稱;Book表示該章節(jié)所屬的教材;Serial表示該章節(jié)在教材中的編號;Content表示該章節(jié)中的具體內(nèi)容。

2.3 課程知識點抽取

2.3.1 知識點概念識別

課程教材資源中包含的課程知識點概念以專有名詞、專有命名實體的形式出現(xiàn)。利用信息抽取中的固定短語抽取、命名實體識別技術(shù)對教材領(lǐng)域概念進(jìn)行抽取。抽取方法結(jié)合了領(lǐng)域知識與半監(jiān)督學(xué)習(xí)方法。

文中從以下途徑獲取領(lǐng)域知識:(1)課程領(lǐng)域已有的知識庫,包括教育大詞典和教育主題詞表;(2)特殊語料庫,包括維基百科詞條、中國大百科數(shù)據(jù)庫。從中提取課程中概念術(shù)語及其關(guān)系,構(gòu)建課程領(lǐng)域知識庫。再利用得到的領(lǐng)域知識生成領(lǐng)域空間辭典和領(lǐng)域本體,最后使用辭典和本體對課程教材中的詞匯序列標(biāo)注為領(lǐng)域概念。這部分功能集成自前期工作[16-17]。

由于缺乏標(biāo)注的領(lǐng)域課程語料庫,因此文中采用半監(jiān)督學(xué)習(xí)方法進(jìn)行處理,使用開源工具CRF++進(jìn)行潛在的課程領(lǐng)域的實體抽取,并確定實體類型。選取的特征有上下文范圍內(nèi)的詞、詞性、詞頻和句法特征等。采用互信息與左右信息熵對未登錄到課程領(lǐng)域詞典中的專有名詞進(jìn)行識別與標(biāo)注。

2.3.2 概念同義詞抽取

同義詞抽取的目標(biāo)是尋找表示同一概念的術(shù)語。文中總結(jié)了同義詞表達(dá)的基本模式,基本模式使用的特征詞見表1。

表1 同義詞抽取所用特征詞

然后利用模版匹配法,根據(jù)預(yù)先設(shè)定的同義詞抽取模版,將教材信息處理階段得到的課程語料與同義詞模版中的規(guī)則依次進(jìn)行比較,如果匹配成功,則提取同義詞,加入到同義詞詞典中。最后再根據(jù)輸入到系統(tǒng)中的概念,從構(gòu)建好的同義詞詞典中返回與其含義相同的同義詞。

2.3.3 概念解釋抽取

概念的解釋是指對此概念描述對象的正式或非正式的定義,如“所謂學(xué)習(xí)動機是指直接推動學(xué)生進(jìn)行學(xué)習(xí)活動的一種內(nèi)在心理因素或內(nèi)在動力”就是對學(xué)習(xí)動機的定義。分析了課程教材文本中解釋文本的特點,總結(jié)了基于模式的抽取規(guī)則和基于語法的抽取規(guī)則,綜合利用兩類規(guī)則對概念的解釋進(jìn)行抽取。部分解釋抽取規(guī)則見表2。

2.3.4 知識點存儲

完成上述抽取后,對知識點進(jìn)行形式化存儲。存儲形式依據(jù)課程知識點模型,并添加唯一的知識點識別號。

2.3.5 概念消歧

消歧的目的就是明確概念的語義。由于不同課程教材資源中存在語義不明確問題,如:布魯納提出的“發(fā)現(xiàn)學(xué)習(xí)”闡述的是學(xué)生主動獲得新知識,而奧蘇貝爾的“發(fā)現(xiàn)學(xué)習(xí)”闡述的是學(xué)生發(fā)現(xiàn)新舊知識之間的關(guān)系。因此在知識點鏈接系統(tǒng)中集成消歧功能。

表2 概念解釋抽取規(guī)則

利用2.3.1中得到的領(lǐng)域概念詞典和本體進(jìn)行消歧,消歧的方法如下[18-20]:針對有歧義的課程知識概念w,首先取得其在不同語料資源中的每種可能解釋,利用本體計算得到語義子圖Graph={(node1,node2,…,noden),(relation1,relation2,…,relationm)};然后依次計算w的每個語義子圖與該概念目前所在的上下文的語義子圖Contex-G間的相似度;最后取相似度最大的圖對應(yīng)的概念作為W的確定的語義。

2.4 課程知識點關(guān)聯(lián)度抽取

課程概念間的關(guān)聯(lián)強度,通過綜合計算概念在課程知識庫中的語義信息和概念在課程資源語料集中的共現(xiàn)信息得到。

2.4.1 概念間語義關(guān)聯(lián)度計算

詞嵌入方法在計算文本語義信息上非常有效。利用課程教材語料訓(xùn)練詞向量,將詞向量用于領(lǐng)域概念語義相關(guān)性的計算上。

設(shè)知識點的概念xi與知識點的概念xj的k維向量為:xi=(xi1,xi2,…,xik)、xj=(xj1,xj2,…,xjk),則詞xi和詞xj的語義相關(guān)度為:

2.4.2 概念間共現(xiàn)關(guān)聯(lián)度計算

在知識鏈接系統(tǒng)中,以概念抽取階段得到的領(lǐng)域概念詞表為詞語基表,以課程教材語料處理后的自然段為窗口單位,統(tǒng)計基表詞語共現(xiàn)頻次,得到共現(xiàn)矩陣CoF。

概念本身的關(guān)聯(lián)度計算如下:

其中,i表示概念共現(xiàn)矩陣中行序或列序為i的詞;j表示概念共現(xiàn)矩陣中行序或列序為j的詞;CoFij表示概念i和概念j的共現(xiàn)頻次。

概念間的關(guān)聯(lián)度計算如下:

其中,MaxF為共現(xiàn)矩陣中最大的共現(xiàn)詞頻。

相關(guān)事物通常會同時出現(xiàn),同時出現(xiàn)的事物往往也具有一定相關(guān)性[21]。兩個或更多詞在同一單位中同時出現(xiàn)稱為詞共現(xiàn),共現(xiàn)的詞之間必定具有一定的關(guān)系。詞共現(xiàn)關(guān)系在揭示相關(guān)性知識,挖掘隱性關(guān)聯(lián)知識方面都有重要意義。

2.4.3 概念關(guān)聯(lián)強度計算

綜合課程概念語義關(guān)聯(lián)度和課程概念共現(xiàn)關(guān)聯(lián)度可得知識點鏈接強度:

LinkStrength(xi,xj)=α*coSimlarity(xi,xj)+β*semStrength(xi,xj)

其中,α和β為可調(diào)節(jié)權(quán)重,α+β=1。

將知識點鏈接強度的計算結(jié)果與領(lǐng)域知識庫中抽取的概念關(guān)聯(lián)組合,可以用于生成知識點鏈接。

2.5 知識點與教材文檔間關(guān)聯(lián)抽取

2.5.1 概念與文檔鏈接信息抽取

以包含課程知識點概念和概念關(guān)聯(lián)的知識庫為基礎(chǔ),依據(jù)課程知識鏈接描述模型,在教材語料中抽取描述知識點的信息,建立課程知識點概念與文檔間鏈接。

首先,從特定教材文檔中識別已有概念,依托概念集合對文檔進(jìn)行掃描和標(biāo)識,將文檔中概念詞語鏈接到其文檔。其次,建立從概念到文檔的關(guān)聯(lián),即:有哪些文檔包含該知識點。該功能利用Lucene檢索工具實現(xiàn)。

2.5.2 概念與文檔鏈接強度計算

將教材內(nèi)容以章節(jié)為單位切分然后存儲,使用LDA模型計算知識點和該節(jié)的鏈接強度。LDA是一種統(tǒng)計模型,可以計算概念和文檔間的相關(guān)性。首先將章節(jié)內(nèi)容進(jìn)行分詞,然后計算分詞后詞語在主題上的概率分布,計算方法如下:

其中,Cik表示詞i被賦予主題k的次數(shù)。

之后計算主題在文檔上的概率分布,計算方法如下:

其中,Ckm表示文檔m中詞被賦予主題k的次數(shù)。

最后,計算詞語在文檔上的主題重要性,即概念與文檔間的鏈接強度,計算方法如下:

以上公式中,α和β表示超參數(shù)。用于平滑非包含的單詞和主題。

3 原型實現(xiàn)

基于以上所述流程,對教育心理學(xué)的教材進(jìn)行實驗,構(gòu)建了教育心理學(xué)課程知識點鏈接系統(tǒng)原型。

3.1 課程知識抽取與計算

(1)教材文本采集。

教育心理學(xué)課程具有領(lǐng)域知識數(shù)量大、難理解的特點,原有課程的教學(xué)資源以文檔為粒度組織,難以被學(xué)習(xí)者充分利用。教材信息采集階段共搜集不同的課程教材25種。

(2)領(lǐng)域知識選擇。

為了使用領(lǐng)域辭典和本體識別領(lǐng)域概念,采用了中國大百科教育類、心理學(xué)類詞條及顧明遠(yuǎn)主編的《教育大辭典》為領(lǐng)域數(shù)據(jù)來源構(gòu)建領(lǐng)域本體。進(jìn)入中國大百科,篩選“教育”、“教育心理學(xué)”類;采集詞條URL內(nèi)容,以HTML代碼匹配方式提取詞條信息框內(nèi)容;提取信息框相關(guān)詞條下所列的詞語轉(zhuǎn)化為與該詞條對應(yīng)的細(xì)粒度概念關(guān)聯(lián),共得到詞條1 752個。從《教育大辭典》中抽取教育類詞條34 103個。

(3)文本預(yù)處理。

教材信息處理階段,核心工作使用哈工大語言技術(shù)平臺LTP進(jìn)行,將搜集的領(lǐng)域詞條添加到詞典中,對教材文本進(jìn)行分詞及詞類標(biāo)注、命名實體識別。

(4)課程知識抽取與計算。

抽取工作按照2.3、2.4、2.5所陳述的方法進(jìn)行。其中詞向量的訓(xùn)練使用word2vec開源工具處理,使用中先利用分詞工具對語料進(jìn)行分詞,分詞時,加入獲取到的領(lǐng)域概念詞典,提高分詞準(zhǔn)確性。去除停用詞及詞頻小于10的詞語,減小訓(xùn)練的規(guī)模。訓(xùn)練時詞語的維度設(shè)置為200維。

3.2 功能實現(xiàn)

課程知識鏈接原型系統(tǒng)采用B/S方式實現(xiàn),Java語言開發(fā)。數(shù)據(jù)庫采用Oracle11g??梢暬糠旨蒃Charts組件。系統(tǒng)主要功能展示如下:

(1)知識點檢索。

從數(shù)據(jù)庫中檢索抽取好的知識點信息,信息包括該知識點的同義詞信息,介紹該知識點的教材有哪些,在這些教材中是如何解釋該知識點的,等等,如圖2所示。

(2)知識點關(guān)聯(lián)詞。

知識點關(guān)聯(lián)詞檢索,用于檢索與查詢的知識點最相關(guān)的知識點有哪些,每個知識點與查詢的知識點的相關(guān)程度有多大??蓭椭鷮W(xué)習(xí)者全面掌握知識,也可判斷其他知識點對查詢知識點的重要性,如圖3所示。

圖2 知識點檢索模塊

(3)知識點文檔關(guān)聯(lián)。

檢索文檔中主要介紹的內(nèi)容是什么,文檔中包含的主題,文檔中涉及的主要知識點,如圖4所示。

圖4 文檔知識點關(guān)聯(lián)查詢模塊

此外,在使用過程中,可根據(jù)需要進(jìn)一步增加功能模塊,如基于知識鏈接網(wǎng)絡(luò)發(fā)現(xiàn)核心知識、邊緣知識,按重要性對知識點進(jìn)行排序等。

4 結(jié)束語

教材數(shù)量快速增長,教材資源越來越豐富,實現(xiàn)課程知識和教材的連接、連通是資源得以高效利用的關(guān)鍵。通過構(gòu)建知識點組織描述模型及采用信息抽取技術(shù),實現(xiàn)課程資源中的知識點的關(guān)聯(lián)、知識點和教材文檔的關(guān)聯(lián)。學(xué)習(xí)者可通過知識點鏈接實現(xiàn)從文檔到知識點、知識點到知識點、知識點到文檔的連通,完成對相關(guān)知識內(nèi)容的橫向了解和縱向深入學(xué)習(xí)。方法不改變課程資源中現(xiàn)有的資源組織架構(gòu),具有很強的可用性和適應(yīng)性。教材資源的鏈接構(gòu)建是一個長期的應(yīng)用實踐過程,文中提出的從教材信息采集、處理、抽取、組織的方案能夠?qū)崿F(xiàn)教學(xué)資源的基于概念的關(guān)聯(lián),減少教材資源組織過程中人力、物力的大量投入,對資源的組織具有重要的參考意義。

同時,該工作還存在以下問題有待繼續(xù)研究:(1)方法目前是在領(lǐng)域知識支撐的情況下進(jìn)行的,可以實現(xiàn)細(xì)粒度的知識點抽取,而某些領(lǐng)域中領(lǐng)域知識較少,如何對缺少領(lǐng)域知識支持的教材資源進(jìn)行處理,還需對方法進(jìn)行完善;(2)只關(guān)注了知識點間以概念為主的鏈接,而知識單元可從更大粒度的表示形式去表示,如何解決這樣的知識鏈接問題,還有待深入研究。

猜你喜歡
文檔關(guān)聯(lián)概念
淺談Matlab與Word文檔的應(yīng)用接口
Birdie Cup Coffee豐盛里概念店
有人一聲不吭向你扔了個文檔
輕松編輯PDF文檔
幾樣概念店
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
學(xué)習(xí)集合概念『四步走』
奇趣搭配
Word文檔 高效分合有高招
智趣