国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DRTE: 面向基礎(chǔ)教育的術(shù)語抽取方法

2018-05-04 06:46:26李思良楊玉基
中文信息學(xué)報(bào) 2018年3期
關(guān)鍵詞:構(gòu)詞詞頻置信度

李思良,許 斌,楊玉基

(清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)

0 引言

術(shù)語作為在特定領(lǐng)域內(nèi)表達(dá)專業(yè)概念的約定性符號(hào),在中文分詞、句法分析等自然語言領(lǐng)域發(fā)揮著重要的作用。在構(gòu)建領(lǐng)域知識(shí)庫的過程中,術(shù)語作為領(lǐng)域內(nèi)知識(shí)的主要體現(xiàn),在知識(shí)實(shí)例的擴(kuò)充工作中有著重要的地位。從非結(jié)構(gòu)化文本中手工進(jìn)行術(shù)語標(biāo)注耗費(fèi)大量人力與時(shí)間,且會(huì)存在因標(biāo)注遺漏而導(dǎo)致召回率降低的情況。因此自動(dòng)術(shù)語抽取工作受到了越來越多研究者的重視。

目前的術(shù)語抽取方法主要包含兩個(gè)步驟。第一步是通過對(duì)字符串的單元性計(jì)算來獲取候選術(shù)語;第二步則通過術(shù)語性這一衡量指標(biāo)來抽取出真正的術(shù)語。其中單元性用來刻畫特定字符串組合的穩(wěn)定性,術(shù)語性是用來描述一個(gè)語言單位在該領(lǐng)域內(nèi)的相關(guān)程度[1]。術(shù)語抽取工作已經(jīng)在多個(gè)領(lǐng)域中進(jìn)行了嘗試,例如數(shù)學(xué)[2]、生態(tài)學(xué)[3]、生物醫(yī)學(xué)[4-5]、信息科學(xué)[4,6]和自然科學(xué)[7],這些方法大都是基于統(tǒng)計(jì)的方法。但當(dāng)我們?yōu)榛A(chǔ)教育知識(shí)庫構(gòu)建進(jìn)行術(shù)語抽取時(shí),發(fā)現(xiàn)術(shù)語的統(tǒng)計(jì)特征和其他專業(yè)領(lǐng)域中的術(shù)語有較大的不同。以數(shù)學(xué)學(xué)科為例,術(shù)語“三角形”在初高中課本中共出現(xiàn)1 779次,而術(shù)語“切點(diǎn)圓”則僅僅出現(xiàn)3次。數(shù)學(xué)教材中僅有少部分重要術(shù)語被反復(fù)使用,這種長(zhǎng)尾特性會(huì)造成低頻詞的遺漏。此外,一些基礎(chǔ)性術(shù)語如“面”“線”也被廣泛地使用在其他領(lǐng)域,這種現(xiàn)象會(huì)導(dǎo)致通用性高的術(shù)語會(huì)因?yàn)槟嫦蛭募l率而被認(rèn)為是領(lǐng)域無關(guān)的詞語。

基礎(chǔ)教育的相關(guān)書籍以教授知識(shí)為主,內(nèi)容蘊(yùn)含了大量術(shù)語的定義與術(shù)語關(guān)系的描述。我們結(jié)合基礎(chǔ)教育資源的這種學(xué)科特性,提出了DRTE: 以挖掘術(shù)語定義與術(shù)語關(guān)系為主,綜合構(gòu)詞規(guī)則和邊界檢測(cè)的術(shù)語抽取方法。我們首先對(duì)書籍進(jìn)行定義抽取,從定義中生成初始的術(shù)語候選。之后會(huì)進(jìn)行數(shù)次迭代操作,每一輪迭代中,進(jìn)行如下的操作: 在全文和術(shù)語候選中尋找?guī)в行g(shù)語關(guān)系指示的內(nèi)容并挖掘出新的術(shù)語候選;從術(shù)語候選中綜合構(gòu)詞特點(diǎn)與邊界檢測(cè)的方法抽取出新的術(shù)語;最后將新發(fā)現(xiàn)的術(shù)語添加到分詞的識(shí)別中,并開始下一次迭代。當(dāng)不再有新術(shù)語發(fā)現(xiàn)時(shí),停止迭代操作。

我們的實(shí)驗(yàn)針對(duì)基礎(chǔ)教育的數(shù)學(xué)學(xué)科,選用了初高中數(shù)學(xué)課本的電子化書本作為數(shù)據(jù)源。我們的抽取方法的F1值達(dá)到達(dá)到82.7%,相比目前方法提高了40.8%。本文的創(chuàng)新點(diǎn)主要包括: (1)提出了一種利用術(shù)語定義與術(shù)語關(guān)系的非監(jiān)督術(shù)語抽取方法: DRTE;(2)通過利用術(shù)語的定義與關(guān)系的背景信息,避免了基礎(chǔ)教育中大量低頻術(shù)語帶來的術(shù)語遺漏現(xiàn)象; (3)針對(duì)因中文分詞誤差導(dǎo)致的長(zhǎng)術(shù)語抽取困難現(xiàn)象,提出了迭代式的術(shù)語抽取方法。本文內(nèi)容組織形式如下: 第一部分介紹術(shù)語抽取的相關(guān)工作;第二部分介紹我們的術(shù)語抽取方法: DRTE;第三部分介紹我們的實(shí)驗(yàn);第四部分展示實(shí)驗(yàn)結(jié)果與分析;第五部分給出結(jié)論。

1 相關(guān)工作概述

術(shù)語抽取關(guān)注于簡(jiǎn)單術(shù)語(僅由一個(gè)詞構(gòu)成的術(shù)語)和復(fù)合術(shù)語(由多個(gè)詞復(fù)合的新術(shù)語)的抽取。目前的術(shù)語抽取方法可以分為三種: 基于語法規(guī)則型、基于統(tǒng)計(jì)型以及基于機(jī)器學(xué)習(xí)型。

1.1 基于語法規(guī)則型

術(shù)語作為一個(gè)領(lǐng)域內(nèi)獨(dú)立存在的語言單位,其構(gòu)詞的結(jié)構(gòu)應(yīng)該是穩(wěn)定且有規(guī)律的?;谶@種假設(shè),我們可以通過挖掘這種語言上的規(guī)律來進(jìn)行術(shù)語抽取。例如,可以通過分析生物學(xué)詞匯的構(gòu)詞方式來構(gòu)建出一套通用的生物學(xué)術(shù)語命名規(guī)則[8]。另一方面,一些特殊的構(gòu)詞部件(如前綴和特定的縮寫)也被用來進(jìn)行術(shù)語的抽取[9]。除了構(gòu)詞規(guī)則之外,詞匯在句子中的上下文信息也可以用來生成抽取規(guī)則[10]。這些基于語法規(guī)則的術(shù)語抽取方法普遍具有較高的準(zhǔn)確率。但由于術(shù)語構(gòu)詞規(guī)則多變,該方法的召回率通常都不高。

1.2 基于統(tǒng)計(jì)型

與領(lǐng)域相關(guān)的文檔通常會(huì)針對(duì)一個(gè)或幾個(gè)術(shù)語展開描述,因而術(shù)語在這些文檔中的分布具有一定的統(tǒng)計(jì)特性。利用術(shù)語的不同統(tǒng)計(jì)特征,可以對(duì)術(shù)語的術(shù)語性進(jìn)行衡量。例如利用TF信息的方法[11]、基于TF-IDF的方法[12]。為了解決復(fù)合術(shù)語的識(shí)別問題,C-value方法[13]在原有的統(tǒng)計(jì)信息中加入了術(shù)語長(zhǎng)度和嵌套術(shù)語的考量。結(jié)合中文的特點(diǎn),一些如互信息[11]、改進(jìn)C-value[14]的方法也相繼被提出?;诮y(tǒng)計(jì)的術(shù)語抽取方法對(duì)于領(lǐng)域的背景知識(shí)要求較低,具有較高的召回率。但在面對(duì)基礎(chǔ)教育領(lǐng)域時(shí),由于相關(guān)的文檔通常以系統(tǒng)教授概念為主,術(shù)語的統(tǒng)計(jì)規(guī)律與其他領(lǐng)域有很大的區(qū)別,導(dǎo)致現(xiàn)有的統(tǒng)計(jì)量并不能很好地篩選出該領(lǐng)域下的術(shù)語。為了應(yīng)對(duì)這種情況,LiTeWi方法[15]提出了利用外部Wikipedia資源,通過實(shí)體鏈接的辦法來進(jìn)行術(shù)語篩選。但該方法受限于外部資源的術(shù)語覆蓋度與實(shí)體鏈接的準(zhǔn)確程度,F(xiàn)1值僅為36.8%。

1.3 基于機(jī)器學(xué)習(xí)型

基于機(jī)器學(xué)習(xí)的術(shù)語抽取方法通常將術(shù)語抽取與術(shù)語分類結(jié)合在一起。這些方法利用訓(xùn)練數(shù)據(jù)基于機(jī)器學(xué)習(xí)的方法來學(xué)習(xí)術(shù)語抽取的特征[16]。Conrado提出的術(shù)語抽取方法中使用了八個(gè)術(shù)語的語言學(xué)特征(如詞性、中心詞),七個(gè)術(shù)語的統(tǒng)計(jì)特征(如TF-IDF值、詞的長(zhǎng)度)以及四個(gè)混合特征(如C-value)[3]。對(duì)于這類通常為有監(jiān)督學(xué)習(xí)的方法,如何獲取優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)是關(guān)鍵。此外,如何選擇適合進(jìn)行術(shù)語抽取工作的特征也是該類方法的難點(diǎn)之一。

實(shí)際的術(shù)語抽取工作通常不是單獨(dú)使用上述三種方式的某一種,而是將它們選擇性地組合在一起。例如為了利用術(shù)語的語言學(xué)特征與統(tǒng)計(jì)上的趨勢(shì),采用了規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。但是,上述方法在直接應(yīng)用到基礎(chǔ)教育術(shù)語抽取時(shí),還存在著低頻詞難以抽取的問題。

2 方法

本節(jié)介紹面向基礎(chǔ)教育的術(shù)語抽取方法: DRTE。與基礎(chǔ)教育相關(guān)的書籍以向?qū)W生講授相關(guān)知識(shí)為主要目標(biāo),其內(nèi)容包含大量的術(shù)語定義與對(duì)術(shù)語關(guān)系的描述。為了利用好這些信息,我們提出了以術(shù)語定義與術(shù)語關(guān)系挖掘?yàn)橹鞯男g(shù)語抽取方法。該方法是一個(gè)迭代的過程,每一步根據(jù)已有的術(shù)語集從術(shù)語的定義和術(shù)語間的關(guān)系當(dāng)中,綜合構(gòu)詞規(guī)則和邊界檢測(cè)的方法發(fā)現(xiàn)新的術(shù)語,并更新術(shù)語集。DRTE方法的流程如圖1所示,包括如下四個(gè)關(guān)鍵環(huán)節(jié): (1)文本預(yù)處理;(2)基于定義與關(guān)系的術(shù)語候選獲??;(3)基于構(gòu)詞規(guī)則與邊界檢測(cè)的術(shù)語篩選;(4)術(shù)語集與分詞結(jié)果更新。下面具體描述這四個(gè)環(huán)節(jié)。

圖1 DRTE方法的流程

2.1 文本預(yù)處理

我們的數(shù)據(jù)來源是基礎(chǔ)教育課本的數(shù)字化epub資源。epub資源的內(nèi)容并非純文本,而是以類似HTML網(wǎng)頁的形式進(jìn)行組織。故在利用這些數(shù)據(jù)之前,需要對(duì)其進(jìn)行數(shù)據(jù)清洗。

我們首先篩選出書籍的正文部分(即不包括標(biāo)題、前言、習(xí)題與單元總結(jié)的內(nèi)容),因?yàn)檎牟糠质沁@些書籍的知識(shí)主要來源。圖片與表格中的內(nèi)容也會(huì)從正文中刪掉。為了避免公式對(duì)分詞效果產(chǎn)生影響,我們用正則表達(dá)式過濾掉書中的數(shù)學(xué)符號(hào)與數(shù)學(xué)公式。之后去除了所有的網(wǎng)頁標(biāo)簽,并根據(jù)句號(hào)、逗號(hào)、分號(hào)與問號(hào)對(duì)文本進(jìn)行重新分段。最后,我們利用ansj分詞工具*https: //github.com/NLPchina/ansj_seg對(duì)文本進(jìn)行中文分詞,并計(jì)算得到每個(gè)詞的詞頻。

2.2 基于定義與關(guān)系的術(shù)語候選獲取

2.2.1 通過定義獲取術(shù)語候選

我們首先從清理后的數(shù)據(jù)集中抽取定義。在我們的方法中,定義并不是獲取術(shù)語候選的唯一途徑,對(duì)于定義抽取的召回率要求不高,故采用模板來進(jìn)行定義的抽取。表1展示了我們使用的模板:

表1 用于定義抽取的模板

通過模板匹配抽取出的定義會(huì)被分解為兩個(gè)部分: 被定義部分與定義部分。被定義部分揭示了該定義的描述對(duì)象,而定義部分則表示對(duì)描述對(duì)象進(jìn)行定義的內(nèi)容。

我們利用定義來獲取術(shù)語候選基于如下兩個(gè)假設(shè): (1)課本中的定義都是用來講授該學(xué)科知識(shí)的,故一定都是用來描述該學(xué)科中的術(shù)語的;(2)基礎(chǔ)教育學(xué)科中的術(shù)語應(yīng)當(dāng)呈現(xiàn)較強(qiáng)的自包含特性,即用來定義某一個(gè)術(shù)語的詞語很可能本身也是術(shù)語。故對(duì)于一個(gè)定義,我們將其定義部分和非定義部分各作為一個(gè)術(shù)語候選。

我們以垂線的定義為例展示基于定義的術(shù)語候選獲取。垂線的定義: “取互相垂直的兩條直線中的一條直線叫做另一條直線的垂線。”根據(jù)模板匹配,能確定被定義部分為“另一條直線的垂線”,定義部分為“互相垂直的兩條直線中的一條直線”。根據(jù)上述的假設(shè),這兩個(gè)部分都能作為術(shù)語候選。

從上面的例子中可以看出定義部分和被定義部分的句子復(fù)雜程度是不同的。通常情況下,定義部分的句子更為復(fù)雜。此外,由于定義部分中經(jīng)?;煊泄?,還會(huì)造成預(yù)處理后定義部分的結(jié)構(gòu)并不完整。

針對(duì)上面的情況,盡管一條定義中能夠產(chǎn)生兩個(gè)術(shù)語候選,我們?cè)O(shè)置定義部分產(chǎn)生的術(shù)語候選為低置信度,被定義部分產(chǎn)生的術(shù)語候選為高置信度。在術(shù)語篩選的環(huán)節(jié)中,會(huì)根據(jù)不同的置信度等級(jí)采取不同的篩選策略。

此外,我們認(rèn)為在定義部分與被定義部分產(chǎn)生的術(shù)語候選中,術(shù)語都應(yīng)當(dāng)處于靠右側(cè)的部分,故它們均會(huì)被標(biāo)記為右型候選(Rc)。左型候選(Lc)與右型候選(Rc)是用來指出術(shù)語更容易出現(xiàn)在術(shù)語候選的左側(cè)部分還是右側(cè)部分。在術(shù)語篩選階段會(huì)根據(jù)術(shù)語候選方向的不同采取不同的策略分析。

2.2.2 通過關(guān)系獲取術(shù)語候選

在該步驟中,我們根據(jù)已經(jīng)獲取到的術(shù)語集,結(jié)合術(shù)語之間的邏輯關(guān)系進(jìn)行進(jìn)一步的術(shù)語候選的獲取。用于術(shù)語抽取的邏輯關(guān)系有三種: 上下位關(guān)系、整體與部分關(guān)系及并列關(guān)系。

2.2.2.1 上下位關(guān)系

上下位關(guān)系指兩個(gè)詞之間體現(xiàn)出的語義包含關(guān)系。例如“正方形是一種特殊的長(zhǎng)方形”中,“正方形”是下位詞,“長(zhǎng)方形”是上位詞。我們通過模板“<下位部分>是<上位部分>位”來抽取上下位關(guān)系。如果匹配到的下位部分或上位部分中恰有一個(gè)部分是已發(fā)現(xiàn)的術(shù)語,則將其中不是術(shù)語的部分作為術(shù)語候選。例如在上例中,若“正方形”在已發(fā)現(xiàn)術(shù)語集中出現(xiàn),則可以根據(jù)上面的規(guī)則,將“一種特殊的長(zhǎng)方形”作為術(shù)語候選。

匹配到的下位部分會(huì)被標(biāo)記為Rc,上位部分會(huì)被標(biāo)記為L(zhǎng)c。由于能夠反映上下位特征的句式并不一定都具有這種關(guān)系,例如“解三角形是一個(gè)重要的數(shù)學(xué)問題”中,匹配到的上位部分并不是一個(gè)真正的術(shù)語。故我們將上下位關(guān)系產(chǎn)生的術(shù)語候選設(shè)置為低置信度。

2.2.2.2 整體與部分關(guān)系

整體與部分關(guān)系通過“的”字短語來進(jìn)行抽取。整體與部分關(guān)系中既存在“三角形的邊”這樣僅涉及術(shù)語的關(guān)系,也存在如“函數(shù)的難點(diǎn)”這樣的有非術(shù)語參與的關(guān)系。在保證術(shù)語抽取準(zhǔn)確度的前提下,為了更好地利用整體與部分關(guān)系進(jìn)行術(shù)語抽取,我們根據(jù)抽取到關(guān)系的來源的不同,分別針對(duì)高置信度術(shù)語候選、低置信度術(shù)語候選與普通文本采取了不同的關(guān)系分析方法。

從高置信度術(shù)語候選中發(fā)現(xiàn)的整體與部分關(guān)系很有可能是在描述僅涉及術(shù)語的關(guān)系,故我們認(rèn)為是最為可靠的,所以直接將“的”字短語中“的”左右兩側(cè)的內(nèi)容均設(shè)置為高置信度的術(shù)語候選。“的”字左側(cè)的內(nèi)容標(biāo)記為Rc,“的”字右側(cè)的標(biāo)記為L(zhǎng)c。

由于低置信度的術(shù)語候選通常句式會(huì)比較復(fù)雜,我們需要選擇“的”字短語中句式較為簡(jiǎn)單、更可能存在術(shù)語的一部分作為術(shù)語候選。這里我們根據(jù)左右型候選來進(jìn)行判斷。若術(shù)語候選是Lc,則選擇“的”字短語左側(cè)部分作為術(shù)語候選并標(biāo)記其為Rc,否則選用右側(cè)部分并設(shè)置其為L(zhǎng)c。最后設(shè)置這個(gè)新發(fā)現(xiàn)的術(shù)語候選為低置信度。

從普通文本中發(fā)現(xiàn)的整體與部分關(guān)系往往處于句子的中段部分,關(guān)系的上下文較為復(fù)雜,很容易引入諸如“三角形的難點(diǎn)”這種類型的噪聲結(jié)構(gòu)。故對(duì)于這種類型的關(guān)系,我們采取了更嚴(yán)格的篩選措施。

由于從普通文本中獲得的整體與部分關(guān)系中很可能并不存在術(shù)語,我們首先取出“的”字短語的左右兩側(cè)的詞。這兩個(gè)詞中必須恰有一個(gè)是已經(jīng)發(fā)現(xiàn)的術(shù)語。由于我們每次更新已經(jīng)發(fā)現(xiàn)的術(shù)語集時(shí)都會(huì)重新更新一遍分詞的結(jié)果,所以只要是已發(fā)現(xiàn)的術(shù)語,它一定會(huì)在分詞時(shí)處理為一個(gè)詞,而不會(huì)被切分成多個(gè)詞語。故我們會(huì)將“的”字短語兩側(cè)中不是術(shù)語的詞作為初選的術(shù)語候選。

之后,為了避免發(fā)生類似從“三角形的難點(diǎn)”中抽取出噪聲術(shù)語候選“難點(diǎn)”的現(xiàn)象,我們會(huì)對(duì)上一步中得到的術(shù)語候選進(jìn)一步進(jìn)行候選可靠性檢查。如果一個(gè)詞是術(shù)語,那么與它有整體與部分關(guān)系的詞中,術(shù)語應(yīng)當(dāng)占多數(shù)?;谶@一假設(shè),我們會(huì)檢查所有有該術(shù)語候選參與的整體與部分關(guān)系,并根據(jù)已經(jīng)發(fā)現(xiàn)的術(shù)語集統(tǒng)計(jì)其中非術(shù)語與術(shù)語的比值。若該比值大于指定的閾值Tr,則判斷該術(shù)語候選是應(yīng)當(dāng)剔除的。最終從普通文本中確定的術(shù)語候選將被設(shè)置為低置信度。

2.2.2.3 并列關(guān)系

我們通過模板: “<并列部分> (<并列部分>、)*[和|或|與]<并列部分>等?”來識(shí)別并列關(guān)系。若并列部分中有一個(gè)為已發(fā)現(xiàn)的術(shù)語,則其他的并列部分也很有可能為術(shù)語。我們基于上面的假設(shè)將滿足條件的并列部分作為術(shù)語候選。例如“棱錐與棱柱都是常見的幾何體”中,若“棱柱”在已發(fā)現(xiàn)的術(shù)語集中,則將“棱錐”添加到術(shù)語候選中。由于并列關(guān)系中并列部分的句式結(jié)構(gòu)通常較為簡(jiǎn)單,且一旦有一個(gè)并列部分為術(shù)語,其他并列部分為術(shù)語的可能性很高,故我們?cè)O(shè)置抽取出的術(shù)語候選為高置信度術(shù)語候選,并標(biāo)記為Rc。

在并列關(guān)系中,經(jīng)常會(huì)出現(xiàn)術(shù)語中心詞省略的情況。例如“銳角、直角和鈍角三角形”中,中心詞“三角形”就在前兩個(gè)并列內(nèi)容中被省略了。我們采取中心詞檢驗(yàn)的方法來處理這種情況。我們?nèi)〕霾⒘嘘P(guān)系中最后一個(gè)并列部分,依次將其倒數(shù)最后一個(gè)字、倒數(shù)兩個(gè)字,直至全并列部分作為中心詞。例如上面的例子中,檢驗(yàn)的中心詞有“形”、“角形”、“三角形”、“角三角形”和“鈍角三角形”。我們依次檢查所有的中心詞,將該中心詞置于其余并列關(guān)系的尾部構(gòu)成新的詞語,并統(tǒng)計(jì)這些詞語的出現(xiàn)次數(shù)之和。若和的最大值超過了給定的閾值Ts,則認(rèn)定該并列關(guān)系中出現(xiàn)了中心詞省略現(xiàn)象。在上例中,當(dāng)中心詞為“三角形”時(shí),“銳角三角形”和“直角三角形”的出現(xiàn)次數(shù)之和最高,故最終產(chǎn)生的術(shù)語候選為“銳角三角形”、“直角三角形”和“鈍角三角形”。需要說明的是,我們不統(tǒng)計(jì)不帶中心詞的詞語的出現(xiàn)次數(shù)之和,即只要認(rèn)定了并列部分可以是“銳角三角形”,就不會(huì)考慮并列部分為“銳角”的情況。因?yàn)?,雖然“銳角”和“銳角三角形”從語法上講都可以看作是處于并列部分的術(shù)語,但在人的理解方式中,更傾向于用“銳角三角形”來進(jìn)行理解。

2.3 基于構(gòu)詞規(guī)則與邊界檢測(cè)的術(shù)語篩選

基于術(shù)語的定義與關(guān)系抽取到的術(shù)語候選是從句式特征出發(fā)獲取到的,并不能體現(xiàn)出術(shù)語作為詞語本身的特點(diǎn),因此還需要從構(gòu)詞規(guī)則與邊界檢測(cè)的角度對(duì)術(shù)語候選做進(jìn)一步的篩選,以確定最終的術(shù)語。

2.3.1 構(gòu)詞規(guī)則

在平衡詞性搭配規(guī)則的準(zhǔn)確性與普適性的問題上,之前的研究工作主要采取了兩種應(yīng)對(duì)措施。一種方法是限制抽取的術(shù)語長(zhǎng)度,如限制在2~6字之間。這種方法可以有效地減少可能的詞性搭配情況,但會(huì)造成長(zhǎng)術(shù)語的缺漏。另一種方法是適當(dāng)寬松詞性搭配規(guī)則的限制,但這種方法容易造成術(shù)語的誤判。

我們稱一個(gè)術(shù)語分詞后的組成詞語個(gè)數(shù)為該術(shù)語的元數(shù)。例如“三角形”是一元術(shù)語,而“直角三角形”則因?yàn)榉衷~結(jié)果是“直角”和“三角形”而被定為二元術(shù)語。術(shù)語的元數(shù)會(huì)隨著分詞結(jié)果的變化而變化。我們?cè)诿恳惠喌兄豢紤]元數(shù)小于4的術(shù)語。在每一輪迭代結(jié)束后,會(huì)用已發(fā)現(xiàn)的術(shù)語更新分詞結(jié)果。例如“單位正交基底”的初始分詞結(jié)果是: “單位 正 交 基 底”,該術(shù)語是一個(gè)五元術(shù)語。但在第一次迭代結(jié)束之后,其分詞結(jié)果為: “單位 正交 基底”,是一個(gè)三元術(shù)語,故在第二次迭代中該術(shù)語候選就會(huì)被確認(rèn)為術(shù)語。

我們參考的詞性表是ansj_seg提供的詞性表*https: //github.com/NLPchina/ansj_seg/wiki/詞性標(biāo)注規(guī)范。。詞性表包括22個(gè)大類,每個(gè)大類下有若干小類。后文提到的詞性均指該詞性對(duì)應(yīng)的大類以及其包含的小類,在詞性標(biāo)注的過程中,我們發(fā)現(xiàn)很多領(lǐng)域術(shù)語的詞性與分詞工具標(biāo)出的詞性有很大區(qū)別。例如“邊”通常會(huì)被標(biāo)注為副詞,但在領(lǐng)域中卻應(yīng)當(dāng)作為名詞。這種現(xiàn)象在基礎(chǔ)教育領(lǐng)域的理科中尤為嚴(yán)重。因此在詞性搭配規(guī)則的選取上,我們?nèi)コ顺S玫谋仨毢忻~成分的限制,根據(jù)置信度的不同采用了更寬松的規(guī)則,如表2所示。

表2 詞性搭配規(guī)則

續(xù)表

低置信度的術(shù)語候選本身并不可靠,寬松的詞性搭配規(guī)則容易降低術(shù)語抽取的準(zhǔn)確性。故我們對(duì)置信度低的術(shù)語候選增加了術(shù)語命名規(guī)則。復(fù)雜的術(shù)語一般通過簡(jiǎn)單術(shù)語復(fù)合而成,故復(fù)雜術(shù)語的構(gòu)詞核心應(yīng)當(dāng)是一個(gè)術(shù)語。例如術(shù)語“離散型隨機(jī)變量”的核心“變量”就是一個(gè)術(shù)語。通常情況下,術(shù)語的構(gòu)詞核心都在術(shù)語的后部,故我們會(huì)在已發(fā)現(xiàn)的術(shù)語集中尋找是否存在一個(gè)術(shù)語是該術(shù)語候選的后綴。如果不存在這樣的術(shù)語,則在該輪迭代中不再考慮該術(shù)語候選。最后,我們會(huì)對(duì)低置信度的術(shù)語候選再進(jìn)行一次詞頻的檢測(cè)。我們會(huì)統(tǒng)計(jì)它們的出現(xiàn)次數(shù),并選取出現(xiàn)次數(shù)高于給定閾值Tc的術(shù)語候選。

2.3.2 邊界檢測(cè)

學(xué)科的語言表達(dá)和詞語搭配通常較為固定,這會(huì)導(dǎo)致一些領(lǐng)域無關(guān)的詞語因?yàn)榻?jīng)常與特定術(shù)語搭配而被誤認(rèn)為是術(shù)語的一部分。例如“一條直線”就因?yàn)椤耙粭l”經(jīng)常與直線搭配而被誤認(rèn)為是術(shù)語。與其結(jié)構(gòu)完全一致的“一元方程”卻是一個(gè)術(shù)語,這導(dǎo)致統(tǒng)計(jì)詞首、詞尾中特定字出現(xiàn)概率的方法失效。

我們選擇手工建立邊界詞表來解決上述問題。邊界詞包括常見的副詞(如“時(shí)”、“都”、“于”、“各”等)以及常用的代詞和量詞搭配(如“這個(gè)”、“一組”、“一對(duì)”、“一條”等)。

我們檢查每一個(gè)術(shù)語候選。若該候選是Rc,則從其分詞結(jié)果的右側(cè)起尋找到第一個(gè)出現(xiàn)在邊界詞表的詞語,將該詞右側(cè)的部分作為新的術(shù)語候選,并刪除原先的術(shù)語候選。例如,Rc候選“一條 直線”中,從右側(cè)起找到第一個(gè)邊界詞表中的詞語是“一條”,則將其右側(cè)的部分,也就是“直線”作為新的術(shù)語候選,并將原來的“一條直線”從術(shù)語候選集中刪除。若候選是Lc,則從左側(cè)開始尋找,并挑選左側(cè)部分作為新的術(shù)語候選。

通過上述的步驟,我們達(dá)成了兩個(gè)目標(biāo): (1)對(duì)通過詞性搭配檢查的術(shù)語候選進(jìn)行進(jìn)一步分析,確定最終術(shù)語;(2)過濾掉四元及以上的術(shù)語候選中的一些邊界信息,使其元數(shù)夠降到四元以下。

2.4 術(shù)語集與分詞結(jié)果更新

前三步結(jié)束后,這一輪迭代的術(shù)語發(fā)現(xiàn)工作已經(jīng)結(jié)束。若術(shù)語集較上一輪相比沒有發(fā)生變化,則終止迭代并輸出最終的術(shù)語集。若術(shù)語集有更新,則利用這一輪中新發(fā)現(xiàn)的術(shù)語更新學(xué)科數(shù)據(jù)集和術(shù)語候選集中的分詞結(jié)果。

我們會(huì)對(duì)分詞結(jié)果中被分為幾個(gè)詞的術(shù)語進(jìn)行修正,將其合并為一個(gè)詞。新合并的詞的詞性根據(jù)合并前的最后一個(gè)詞來判斷。例如“異面直線”在合并前被分為“異面”和“直線”兩個(gè)詞。我們根據(jù)最后一個(gè)詞“直線”來判斷“異面直線”的詞性。若最后一個(gè)詞是名詞類n、形容詞類a或動(dòng)詞類v,則新詞與其詞性相同;否則新詞的詞性為名詞類n。如上例中,“直線”的詞性是名詞類n,所以“異面直線”的詞性與它相同,也是名詞類n。

更新分詞結(jié)果之后,我們會(huì)重新計(jì)算所有詞的詞頻,并進(jìn)行下一輪的迭代。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

我們選擇基礎(chǔ)教育的數(shù)學(xué)學(xué)科為研究對(duì)象,選擇了人民教育出版社的初中數(shù)學(xué)課本6本,高中數(shù)學(xué)必修與理科選修課本12本,以及初高中教輔書2本,共計(jì)20本書的電子版。數(shù)字化的資源以epub格式(類似網(wǎng)頁形式)組織。經(jīng)過文本預(yù)處理后,共得到7萬余個(gè)短句,共計(jì)45萬余個(gè)詞。

3.2 實(shí)驗(yàn)設(shè)置

對(duì)于從普通文本中發(fā)現(xiàn)的整體與部分關(guān)系,在術(shù)語候選的可靠性檢查中,我們?cè)O(shè)置的閾值Tr為0,即采取了最嚴(yán)格的術(shù)語檢查。只有當(dāng)與該術(shù)語候選之間有整體與部分關(guān)系的詞均為術(shù)語時(shí),我們才認(rèn)為該候選是可靠的。這是由于在實(shí)驗(yàn)中,我們發(fā)現(xiàn)從普通文本中發(fā)現(xiàn)的整體與部分關(guān)系遠(yuǎn)沒有從定義和術(shù)語候選中發(fā)現(xiàn)的整體與部分關(guān)系可靠。

在并列關(guān)系中,我們?yōu)樾g(shù)語中心詞省略的處理過程設(shè)定的閾值Ts為“(并列內(nèi)容數(shù)-1)×3”。例如在“銳角、直角和鈍角三角形”中,我們會(huì)檢查“銳角三角形”和“直角三角形”的出現(xiàn)次數(shù)之和是否大于6。這里設(shè)置的閾值比較低,是由于并列內(nèi)容的句式較為簡(jiǎn)單,可靠性較高。將閾值設(shè)低一些能夠有效地涵蓋低頻術(shù)語。

構(gòu)詞規(guī)則篩選中,對(duì)于低置信度術(shù)語候選的詞頻環(huán)節(jié),需要設(shè)置一個(gè)好的閾值Tc。為此,我們分別在不同的閾值下進(jìn)行實(shí)驗(yàn),得到術(shù)語抽取數(shù)量和F1值,如圖2所示??梢园l(fā)現(xiàn)Tc為60時(shí)F1值最大,故設(shè)置Tc為60,即只有當(dāng)該候選出現(xiàn)的總次數(shù)超過60時(shí),我們才接受其為術(shù)語。

圖2 術(shù)語抽取數(shù)量和F1值隨Tc的變化

3.3 評(píng)價(jià)方式

我們首先請(qǐng)基礎(chǔ)教育數(shù)學(xué)老師對(duì)全部的課本進(jìn)行一次標(biāo)注,從中共標(biāo)注出862個(gè)術(shù)語。之后請(qǐng)專家對(duì)由DRTE抽取出的術(shù)語進(jìn)行審核,從中挑選出是數(shù)學(xué)基礎(chǔ)教育領(lǐng)域需要涉及的術(shù)語。我們將人工標(biāo)注的結(jié)果與DRTE抽取出的正確結(jié)果進(jìn)行合并,作為書本中的術(shù)語全集。

由于基礎(chǔ)教育領(lǐng)域中術(shù)語呈現(xiàn)顯著的長(zhǎng)尾特性,且如“點(diǎn)”“線”“面”這樣的術(shù)語在很多領(lǐng)域中都有涉及。這導(dǎo)致目前大多數(shù)基于統(tǒng)計(jì)信息的算法都無法正常工作。我們選擇了兩個(gè)針對(duì)大量低頻術(shù)語存在情況的術(shù)語抽取方法進(jìn)行對(duì)比。LiTeWi方法[15]通過與維基百科實(shí)體鏈接來提高低頻術(shù)語的識(shí)別,基于信息熵和詞頻的方法[17]是一個(gè)針對(duì)中文術(shù)語的抽取方法。

4 實(shí)驗(yàn)結(jié)果與分析

表3展示了DRTE的實(shí)驗(yàn)效果。DRTE共抽取出1 186個(gè)正確的術(shù)語,F(xiàn)1值達(dá)到了82.7%,效果相比之前的方法有了巨大的提升。根本原因在于我們改進(jìn)了術(shù)語候選的獲取方法。之前的方法為了照顧低頻術(shù)語而引入了術(shù)語候選噪聲,為此不得不采取了如與維基百科詞條比對(duì)和信息熵的方法來提高術(shù)語的篩選能力。而我們的方法則從術(shù)語候選獲取出發(fā),通過定義來獲取術(shù)語,并利用術(shù)語關(guān)系借助已發(fā)現(xiàn)的術(shù)語來識(shí)別未發(fā)現(xiàn)的術(shù)語,大大提高了術(shù)語候選的質(zhì)量,進(jìn)而提升了整個(gè)術(shù)語抽取的效果。

表3 實(shí)驗(yàn)結(jié)果對(duì)比

為了展示出術(shù)語構(gòu)詞長(zhǎng)度的分布情況,我們對(duì)抽取出的每個(gè)術(shù)語進(jìn)行分詞,統(tǒng)計(jì)構(gòu)成該術(shù)語使用的詞語數(shù)量,結(jié)果如表4所示。

表4 術(shù)語構(gòu)詞長(zhǎng)度分布情況

可以看出,術(shù)語多數(shù)是以3個(gè)以內(nèi)的詞構(gòu)成的,最復(fù)雜的術(shù)語是由5個(gè)詞構(gòu)成的,術(shù)語的總詞頻超過了1/5。

為了更好地說明為什么基于統(tǒng)計(jì)的方法不適用于基礎(chǔ)教育中的術(shù)語抽取,我們對(duì)課本中的術(shù)語和所有詞按照詞頻排序后繪制了詞頻的分布圖,如圖3所示。盡管基于統(tǒng)計(jì)的術(shù)語抽取方法并不直接使用詞頻作為唯一的篩選,但該統(tǒng)計(jì)量在其他的復(fù)合統(tǒng)計(jì)量(如C-value、TF-IDF等)中有著重要體現(xiàn),故我們選擇詞頻進(jìn)行分析。

圖3 詞頻分布圖

可以看出術(shù)語詞頻在對(duì)數(shù)坐標(biāo)軸下呈現(xiàn)近乎直線的分布,這說明術(shù)語詞頻有著指數(shù)級(jí)的下降速度,呈現(xiàn)明顯的長(zhǎng)尾效應(yīng)。故基于統(tǒng)計(jì)的方法在提高方法的召回率時(shí)必須以低頻術(shù)語的詞頻作為篩選標(biāo)準(zhǔn),也就會(huì)導(dǎo)致大量非術(shù)語詞匯的引入。

此外,可以看出術(shù)語詞頻的分布區(qū)間的下界與所有詞詞頻分布區(qū)間一致,這說明處于尾端的術(shù)語的詞頻非常低。術(shù)語中詞頻排位在2/3的詞語,在所有詞的詞頻排位為3 500左右。而排位在3 500之后的詞語本身也非常見詞。TF-IDF統(tǒng)計(jì)量將很難區(qū)分這兩類詞,故基于統(tǒng)計(jì)的方法很難有效地篩選出術(shù)語候選。

我們從準(zhǔn)確率和召回率兩個(gè)方面來進(jìn)行DRTE方法的誤差分析。DRTE方法抽取錯(cuò)誤的術(shù)語共有123個(gè),經(jīng)過分析可歸納為如下四種情況:

(1) 課本中存在領(lǐng)域無關(guān)的定義,如學(xué)習(xí)指數(shù)函數(shù)時(shí),給出了“半衰期”的定義。這種情況僅出現(xiàn)9次,故我們“對(duì)課本中的定義絕大部分都是術(shù)語定義的假設(shè)”是比較可靠的。

(2) 固定搭配帶來的誤差。例如“函數(shù)的重點(diǎn)”中,“重點(diǎn)”一詞的詞頻很高,而且與其構(gòu)成整體部分關(guān)系的詞均為術(shù)語。

(3) 邊界檢測(cè)的誤判。我們發(fā)現(xiàn)基礎(chǔ)教育領(lǐng)域中的一些術(shù)語具有多義現(xiàn)象,即在該領(lǐng)域中有特殊含義,在通常情況下卻有不同的含義。例如“一次函數(shù)”中的“一次”指“最高項(xiàng)次數(shù)”,而“一次獨(dú)立重復(fù)試驗(yàn)”中的“一次”又有不同的含義。故邊界檢測(cè)無法判斷這種類型的邊界。

(4) 因分詞造成的錯(cuò)誤。一些句子在一開始就出現(xiàn)了無法糾正的分詞錯(cuò)誤。例如“其中大圓和小圓”就會(huì)被分詞為“其 中大圓 和 小圓”,導(dǎo)致誤認(rèn)為“中大圓”是一個(gè)術(shù)語。

在召回率方面,DRTE沒有抽取出的術(shù)語可以分為三種情況:

(1) 一些術(shù)語的詞頻太低。如術(shù)語“周期數(shù)列”在課本中僅出現(xiàn)過一次。

(2) 一些術(shù)語雖然詞頻較高,但卻未在定義與關(guān)系中多次出現(xiàn)。如“隨機(jī)數(shù)”。

(3) 一些術(shù)語命名方式獨(dú)特,與其他術(shù)語之間沒有構(gòu)詞上的聯(lián)系。這種類型的術(shù)語如果由多于3個(gè)詞組成,則無法被識(shí)別,如“更相減損術(shù)”。

從整體的實(shí)驗(yàn)結(jié)果來看,我們的方法通過術(shù)語定義與術(shù)語關(guān)系抽取術(shù)語候選,充分利用已發(fā)現(xiàn)術(shù)語挖掘新的術(shù)語,能夠解決大量低頻術(shù)語存在的問題。實(shí)驗(yàn)結(jié)果證明了DRTE方法可以有效地應(yīng)用于基礎(chǔ)教育領(lǐng)域中的術(shù)語抽取工作。

5 總結(jié)

本文針對(duì)基礎(chǔ)教育領(lǐng)域,提出了DRTE: 一種利用術(shù)語定義與術(shù)語關(guān)系,綜合構(gòu)詞規(guī)則與邊界檢測(cè)的術(shù)語抽取方法。為了解決基礎(chǔ)教育領(lǐng)域中術(shù)語顯著的長(zhǎng)尾效應(yīng)帶來的對(duì)于低頻術(shù)語召回困難的問題,我們結(jié)合基礎(chǔ)教育以知識(shí)教授為主的特點(diǎn),選擇從課本中術(shù)語的定義與關(guān)系來獲取術(shù)語。我們分別介紹了從術(shù)語定義與術(shù)語關(guān)系中獲取術(shù)語候選的方法,并闡述了基于構(gòu)詞規(guī)則和邊界檢測(cè)的篩選方法。隨后我們介紹了實(shí)驗(yàn)的數(shù)據(jù)集與具體設(shè)置,并展示了最終的實(shí)驗(yàn)結(jié)果和相關(guān)分析。

實(shí)驗(yàn)結(jié)果顯示: 我們的方法在數(shù)據(jù)集上有著良好的表現(xiàn),能夠有效地進(jìn)行面向基礎(chǔ)教育的術(shù)語抽取工作。我們的方法對(duì)術(shù)語的詞頻依賴很低,能夠有效地應(yīng)對(duì)低頻術(shù)語的情況。此外,我們的方法采取了迭代進(jìn)行術(shù)語發(fā)現(xiàn)的策略,不斷修正分詞的結(jié)果,能夠避免因分詞誤差而帶來的術(shù)語遺漏。

[1] Kageura K, Umino B. Methods of automatic term recognition[C]//Proceedings of the National Center for Science Information Systems. 1996: 1-22.

[2] Stoykova V, Petkova E. Automatic extraction of mathematical terms for precalculus[J]. Procedia Technology, 2012, 1(10): 464-468.

[3] Conrado M S, Pardo T A S, Rezende S O. Exploration of a rich feature set for automatic term extraction[C]//Proceedings of the Advances in Artificial Intelligence and Its Applications. Springer Berlin Heidelberg, 2013: 342-354.

[4] Lossio-Ventura J A, Jonquet C, Roche M, et al. Yet another ranking function for automatic multiword term extraction[J]. Lecture Notes in Computer Science, 2014, 8686(8686): 52-64.

[5] 孫水華, 黃德根, 牛萍. 中醫(yī)針灸領(lǐng)域術(shù)語自動(dòng)抽取研究[J]. 中文信息學(xué)報(bào), 2016, 30(3): 118-124.

[6] 木合亞提·尼亞孜別克,古力沙吾利·塔里甫.哈薩克語IT領(lǐng)域術(shù)語識(shí)別研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2016,30(3): 68-73.

[7] Dobrov B V, Loukachevitch N V. Multiple evidence for term extraction in broad domains[C]//Proceedings of RANLP 2011. 2011: 710-715.

[8] Gaizauskas R, Demetriou G, Humphreys K. Term recognition and classification in biological science journal articles[C]//Proceddings of the Computional Terminology for Medical & Biological Applications Workshop of the 2 Nd International Conference on Nlp. 2000: 37-44.

[9] Krauthammer M,Nenadic G. Term identification in the biomedical literature[J]. Journal of Biomedical Informatics, 2004, 37(6): 512-526.

[10] Golik W, Bossy R, Ratkovic Z, et al. Improving term extraction with linguistic analysis in the biomedical domain[J]. Reseach in Computing Science. 2013,23(4): 312-313.

[11] 張鋒, 許云, 侯艷,等. 基于互信息的中文術(shù)語抽取系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2005, 22(5): 72-73.

[12] 周浪,史樹敏,馮沖,等.基于多策略融合的中文術(shù)語抽取方法[J].情報(bào)學(xué)報(bào),2010,29(3): 460-467.

[13] Frantzi K, Ananiadou S, Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method[J]. International Journal on Digital Libraries, 2000, 3(2): 115-130.

[14] 胡阿沛, 張靜, 劉俊麗. 基于改進(jìn)C-value方法的中文術(shù)語抽取[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2013(2): 24-29.

[15] Conde A,Larra A M, Arruarte A, et al. Litewi: A combined term extraction and entity linking method for eliciting educational ontologies from textbooks[J]. Journal of the Association for Information Science & Technology, 2015, 67(2): 380-399.

[16] Zhang X, Song Y, Fang A C. Term recognition using conditional random fields[C]//Proceedings of the 2010 International Conference on. Natural Language Processing and Knowledge Engineering (NLP-KE), IEEE, 2010: 1-6.

[17] 李麗雙, 王意文, 黃德根. 基于信息熵和詞頻分布變化的術(shù)語抽取研究[J]. 中文信息學(xué)報(bào), 2015, 29(1): 82-87.

猜你喜歡
構(gòu)詞詞頻置信度
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
從構(gòu)詞詞源看英漢時(shí)空性差異
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
認(rèn)知視野下“好”、“壞”構(gòu)詞的對(duì)稱性研究
“分”的音變構(gòu)詞及其句法語義特征
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
詞頻,一部隱秘的歷史
云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
圖書館論壇(2014年8期)2014-03-11 18:47:59
漯河市| 维西| 山东| 兰西县| 潜江市| 郑州市| 泗洪县| 紫阳县| 斗六市| 康马县| 镇雄县| 巴东县| 综艺| 广东省| 海伦市| 明光市| 永州市| 南丹县| 龙里县| 静宁县| 太保市| 平泉县| 泗洪县| 唐山市| 吉木萨尔县| 阜城县| 扎兰屯市| 安陆市| 安福县| 长沙县| 济阳县| 安阳县| 定远县| 华阴市| 胶州市| 车致| 宿迁市| 常山县| 南城县| 琼海市| 万安县|