国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中醫(yī)針灸領(lǐng)域術(shù)語自動(dòng)抽取研究

2016-05-04 01:15:46孫水華黃德根牛萍
中文信息學(xué)報(bào) 2016年3期
關(guān)鍵詞:術(shù)語針灸構(gòu)件

孫水華,黃德根,牛萍

(1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.福建工程學(xué)院 信息科學(xué)與工程學(xué)院,福建 福州 350118)

中醫(yī)針灸領(lǐng)域術(shù)語自動(dòng)抽取研究

孫水華1,2,黃德根1,牛萍1

(1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.福建工程學(xué)院 信息科學(xué)與工程學(xué)院,福建 福州 350118)

針對(duì)中醫(yī)針灸領(lǐng)域術(shù)語的構(gòu)成特點(diǎn),該文建立了一種基于規(guī)則的領(lǐng)域術(shù)語抽取算法模型,該模型首先對(duì)中醫(yī)針灸領(lǐng)域術(shù)語種子集進(jìn)行有限次的迭代,生成中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件集;然后,以術(shù)語構(gòu)件集為領(lǐng)域詞典,采用最大向前匹配算法對(duì)中文針灸醫(yī)學(xué)文獻(xiàn)中的句子進(jìn)行切分,并抽取候選術(shù)語;最后,利用語言規(guī)則對(duì)候選術(shù)語進(jìn)行過濾處理,篩選出中醫(yī)針灸領(lǐng)域?qū)I(yè)術(shù)語。分別以關(guān)鍵字集和中醫(yī)詞典為種子集進(jìn)行實(shí)驗(yàn),開式測(cè)試的F值分別達(dá)到76.96%和35.59%。

中醫(yī)針灸領(lǐng)域術(shù)語;術(shù)語種子集迭代算法;術(shù)語過濾規(guī)則

1 引言

醫(yī)學(xué)術(shù)語的獲取及術(shù)語庫的構(gòu)建對(duì)生物醫(yī)學(xué)文獻(xiàn)中的隱含知識(shí)發(fā)現(xiàn)有重要的作用,在機(jī)器翻譯、自動(dòng)索引、信息檢索、信息抽取、構(gòu)建詞匯知識(shí)庫等領(lǐng)域也有重要的應(yīng)用價(jià)值。作為信息處理領(lǐng)域一項(xiàng)重要的研究任務(wù),術(shù)語抽取研究已經(jīng)取得了長(zhǎng)足的進(jìn)步。目前,術(shù)語自動(dòng)抽取方法主要有三大類: 基于語言規(guī)則的方法、基于統(tǒng)計(jì)信息的方法、規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。文獻(xiàn)[1]利用人工構(gòu)建規(guī)則模板來抽取術(shù)語,該方法簡(jiǎn)單易行,但抽取結(jié)果受限于模板的完備性和限定的領(lǐng)域;文獻(xiàn)[2-5]利用詞頻、假設(shè)檢驗(yàn)、對(duì)數(shù)似然比、互信息等統(tǒng)計(jì)量計(jì)算術(shù)語的單元性和領(lǐng)域性來抽取術(shù)語,該方法不依賴具體領(lǐng)域,適應(yīng)性好,但低頻術(shù)語抽取效果較差;文獻(xiàn)[6-7]利用條件隨機(jī)場(chǎng)(CRF)、隱馬爾可夫(HMM)等統(tǒng)計(jì)模型對(duì)術(shù)語進(jìn)行識(shí)別和抽取,該方法依賴大規(guī)模的標(biāo)注語料;文獻(xiàn)[8-11]將規(guī)則與統(tǒng)計(jì)兩種方法以某種次序組合起來,相互彌補(bǔ)不足,提高了術(shù)語抽取的準(zhǔn)確率。

與其他領(lǐng)域的術(shù)語識(shí)別相比,生物醫(yī)學(xué)領(lǐng)域術(shù)語的識(shí)別研究較少,其研究任務(wù)主要集中在對(duì)英文醫(yī)學(xué)文獻(xiàn)的命名實(shí)體識(shí)別上,如文獻(xiàn)[12-13]針對(duì)JNLPBA2004的命名實(shí)體識(shí)別任務(wù)展開了研究。但是,中文生物醫(yī)學(xué)信息急劇增長(zhǎng),僅中文生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫就收錄了1978年以來1 600種生物醫(yī)學(xué)期刊中超過300萬篇公開發(fā)表的醫(yī)學(xué)論文。海量中文生物醫(yī)學(xué)信息的產(chǎn)生,為中文生物醫(yī)學(xué)知識(shí)發(fā)現(xiàn)任務(wù)提供了前所未有的機(jī)會(huì)。作為在中文醫(yī)學(xué)文獻(xiàn)中知識(shí)挖掘的一個(gè)重要的子任務(wù),中文醫(yī)學(xué)領(lǐng)域術(shù)語識(shí)別方法的研究已經(jīng)開始引起科學(xué)研究者的關(guān)注,如文獻(xiàn)[14]提出了基于條件隨機(jī)場(chǎng)(CRF)的中文生物醫(yī)學(xué)命名實(shí)體識(shí)別方法。

本文從中文醫(yī)學(xué)期刊網(wǎng)站(http://www.cqvip.com/)爬取中文醫(yī)學(xué)文獻(xiàn)中的摘要、關(guān)鍵字信息,利用摘要信息構(gòu)建中文針灸醫(yī)學(xué)領(lǐng)域語料庫,利用關(guān)鍵字信息構(gòu)建中醫(yī)針灸領(lǐng)域術(shù)語種子集。通過對(duì)術(shù)語種子集進(jìn)行有限次的迭代,產(chǎn)生針灸醫(yī)學(xué)領(lǐng)域術(shù)語構(gòu)件集,以術(shù)語構(gòu)件集為領(lǐng)域詞典,采用最大向前匹配算法對(duì)語料庫中的句子進(jìn)行切分,抽取候選術(shù)語,再利用語言規(guī)則模板對(duì)候選術(shù)語進(jìn)行后處理,進(jìn)而抽取出中醫(yī)針灸領(lǐng)域的專業(yè)術(shù)語。

2 中醫(yī)針灸領(lǐng)域術(shù)語及其特點(diǎn)

針灸學(xué)是以中醫(yī)學(xué)理論為指導(dǎo),運(yùn)用針刺和艾灸防病治病的一門臨床學(xué)科,其主要內(nèi)容包括經(jīng)絡(luò)學(xué)、腧穴學(xué)、針法灸法學(xué)和針灸治療學(xué)等部分。中醫(yī)針灸領(lǐng)域術(shù)語富含濃厚的中國文化烙印,文獻(xiàn)[15]將中醫(yī)針灸領(lǐng)域術(shù)語的特點(diǎn)歸納如下:

(1) 專門化。一個(gè)中醫(yī)針灸領(lǐng)域術(shù)語與一個(gè)或一系列這一學(xué)科的語義體系緊密聯(lián)系在一起,起一種專門指稱的作用。

(2) 單義性。一個(gè)特定的概念與一個(gè)特定的中醫(yī)針灸領(lǐng)域術(shù)語相對(duì)應(yīng)。

(3) 精確性。中醫(yī)針灸領(lǐng)域術(shù)語必須體現(xiàn)它本身的科學(xué)性和專業(yè)性,它不能是含混不清的模糊詞,也不能與它的臨近概念相混淆。

(4) 沒有感情色彩。中醫(yī)針灸領(lǐng)域術(shù)語不分褒義詞和貶義詞,也不必借助上下文來了解它的意義。

通過對(duì)中文醫(yī)學(xué)期刊網(wǎng)站爬取的中醫(yī)針灸領(lǐng)域文本的初步統(tǒng)計(jì)和分析,我們發(fā)現(xiàn)該領(lǐng)域的術(shù)語主要涉及經(jīng)絡(luò)、腧穴、針灸療法、中醫(yī)學(xué)病癥名及其他含義抽象的針灸學(xué)術(shù)語。為了便于人工標(biāo)注語料及術(shù)語抽取、知識(shí)發(fā)現(xiàn)等任務(wù)的研究,本文將中醫(yī)針灸領(lǐng)域術(shù)語分為如下五類:

(1) 經(jīng)絡(luò)術(shù)語: 指運(yùn)行氣血、聯(lián)系臟腑和體表及全身各部的通道,包括: 十二經(jīng)脈、奇經(jīng)八脈、十五絡(luò)脈等。

(2) 腧穴術(shù)語: 指人體經(jīng)絡(luò)線上特殊的點(diǎn)區(qū)部位,多為神經(jīng)末梢和血管較少的地方,中醫(yī)可以通過針灸或者推拿、點(diǎn)按、艾炙刺激相應(yīng)的經(jīng)絡(luò)點(diǎn)來治療疾病。

(3) 針灸療法術(shù)語: 包括刺法、灸法、拔罐、推拿等治療方法以及治療用具術(shù)語。

(4) 中醫(yī)病癥名術(shù)語: 指具體的疾病名稱。

(5) 抽象術(shù)語: 指不能歸入上述四類且含義抽象的針灸術(shù)語。

中醫(yī)針灸領(lǐng)域術(shù)語類別及其實(shí)例如表1所示。

表1 中醫(yī)針灸領(lǐng)域術(shù)語類別及其實(shí)例

3 術(shù)語抽取模型

本文建立的中醫(yī)針灸領(lǐng)域術(shù)語抽取模型主要包括術(shù)語構(gòu)件集生成、候選術(shù)語抽取和術(shù)語過濾。中醫(yī)針灸領(lǐng)域術(shù)語抽取的步驟如下: 1)從爬取的醫(yī)學(xué)論文中抽取關(guān)鍵字信息構(gòu)建中醫(yī)針灸領(lǐng)域術(shù)語種子集;2)從爬取的醫(yī)學(xué)論文中抽取中文摘要信息構(gòu)建中醫(yī)針灸領(lǐng)域語料庫;3)調(diào)用術(shù)語構(gòu)件生成器將中醫(yī)針灸領(lǐng)域術(shù)語種子集經(jīng)過有限次迭代生成中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件集;4)以中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件集為領(lǐng)域詞典,調(diào)用候選術(shù)語抽取器抽取中醫(yī)針灸領(lǐng)域語料庫中的針灸領(lǐng)域術(shù)語,生成中醫(yī)針灸領(lǐng)域候選術(shù)語集;5)調(diào)用術(shù)語過濾器,利用規(guī)則集對(duì)候選術(shù)語進(jìn)行過濾,生成中醫(yī)針灸領(lǐng)域術(shù)語集。中醫(yī)針灸領(lǐng)域術(shù)語抽取的流程如圖1所示。

圖1 中醫(yī)針灸領(lǐng)域術(shù)語抽取的流程

3.1 術(shù)語構(gòu)件集生成算法

中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件是指那些更大概率地出現(xiàn)在中醫(yī)針灸領(lǐng)域術(shù)語中的字、單詞或復(fù)合詞,術(shù)語構(gòu)件可以是詞根、前綴、后綴或某些包含于中醫(yī)針灸領(lǐng)域術(shù)語中的字符串。首先,從爬取的中醫(yī)針灸領(lǐng)域文獻(xiàn)中提取關(guān)鍵字信息,經(jīng)過去重、去噪處理及人工審核后,形成中醫(yī)針灸領(lǐng)域術(shù)語種子集。接著,在中醫(yī)針灸領(lǐng)域術(shù)語種子集中采用迭代算法自動(dòng)學(xué)習(xí)術(shù)語構(gòu)件,生成中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件集。術(shù)語種子集迭代采用文獻(xiàn)[11]中的算法,其基本思想是: 用構(gòu)件集中的構(gòu)件切分種子集中的每個(gè)術(shù)語,將最佳切分中產(chǎn)生的新構(gòu)件添加到構(gòu)件集中,迭代學(xué)習(xí)新構(gòu)件直至算法收斂。最佳切分選擇方法如下: 對(duì)于種子集S中的術(shù)語s,用Tc中的構(gòu)件進(jìn)行切分,得到多個(gè)不同的切分結(jié)果,如式(1)所示,切分Ri(s)的權(quán)重計(jì)算如式(2)所示。從式(2)的含義可以看出,含有新構(gòu)件ri越少和越短的切分權(quán)重越大,極端情況就是不切分權(quán)重最大。因此,選擇權(quán)重最大但不等于1的切分為最佳切分,將其產(chǎn)生的新構(gòu)件ri1,ri2,…,rim+1添加到構(gòu)件集Tc中。參數(shù)α、β的值根據(jù)實(shí)驗(yàn)效果進(jìn)行調(diào)節(jié),本文通過實(shí)驗(yàn)結(jié)果比較,α和β均取值0.5。術(shù)語切分及新構(gòu)件生成的實(shí)例如表2所示。

(1)

(2)

表2 術(shù)語切分及新構(gòu)件生成實(shí)例

為了獲取高領(lǐng)域度的新構(gòu)件,剔除如表2中的“后/r”、“電/r”、“垂直/r”等低領(lǐng)域度的單字或字串,通過對(duì)迭代學(xué)習(xí)中產(chǎn)生的新構(gòu)件集及術(shù)語錯(cuò)誤集進(jìn)行人工分析,總結(jié)規(guī)律,得到如下的術(shù)語構(gòu)件過濾規(guī)則,并對(duì)每輪迭代學(xué)習(xí)中產(chǎn)生的新構(gòu)件都采用術(shù)語構(gòu)件過濾規(guī)則進(jìn)行過濾。

規(guī)則一 丟棄最佳切分Ri(s)首部、中部產(chǎn)生的單字長(zhǎng)構(gòu)件rij,將尾部產(chǎn)生的單字長(zhǎng)且頻率>1的構(gòu)件rij添加到Tc中。

規(guī)則二 將最佳切分Ri(s)中長(zhǎng)度>1且頻率>1的新構(gòu)件rij添加到Tc中。

rij的頻率是指在同一輪迭代中構(gòu)件rij在不同術(shù)語的最佳切分中出現(xiàn)的次數(shù)。術(shù)語構(gòu)件集生成算法描述如圖2所示。

3.2 術(shù)語抽取算法

從爬取的中醫(yī)針灸文獻(xiàn)中提取摘要信息,構(gòu)建中醫(yī)針灸領(lǐng)域語料庫。對(duì)語料做去噪處理并以標(biāo)點(diǎn)符號(hào)進(jìn)行粗切分,采用文獻(xiàn)[11]的方法進(jìn)行術(shù)語抽取處理。中醫(yī)針灸領(lǐng)域術(shù)語抽取模塊的基本處理過程是: 從未標(biāo)注無結(jié)構(gòu)的領(lǐng)域語料庫中逐句讀取字串,采用最大向前匹配算法,以術(shù)語構(gòu)件集Tc作為領(lǐng)域詞典切分字串,切分結(jié)果如式(3)所示,抽取xk和xk+1之間的串tk1tk2…tkik(1≤k≤n)作為中醫(yī)針灸領(lǐng)域候選術(shù)語,用規(guī)則模板過濾候選術(shù)語,生成中醫(yī)針灸領(lǐng)域術(shù)語,直至語料處理完畢。

e=x1t11t12…t1i1x2t21t22…t2i2…xntn1tn2…tninxn+1

(3)

3.3 術(shù)語過濾規(guī)則

為了提高術(shù)語抽取的精確率,通過分析術(shù)語錯(cuò)誤集,總結(jié)出如下候選術(shù)語過濾規(guī)則。在過濾時(shí),本文用到兩個(gè)特征詞表,分別是術(shù)語首詞列表(以下簡(jiǎn)稱PrefixWord)和術(shù)語尾詞列表(以下簡(jiǎn)稱SuffixWord),它們均通過對(duì)中醫(yī)針灸領(lǐng)域術(shù)語種子集學(xué)習(xí)獲得。為了便于敘述,以下假設(shè)過濾處理的候選術(shù)語為:

1) 限定首詞,若tk1不在PrefixWord中,則去掉tk1,將剩余部分作為候選術(shù)語繼續(xù)該操作,直到首詞在PrefixWord中,或字符串為空時(shí)結(jié)束。例如,候選術(shù)語“進(jìn)/t針灸/t”經(jīng)本條規(guī)則處理后的術(shù)語是“針灸”。

2) 限定尾詞,若tkn不在SuffixWord中,則去掉tkn,將剩余部分作為候選術(shù)語繼續(xù)該操作,直到尾詞在SuffixWord中,或字符串為空時(shí)結(jié)束。例如,候選術(shù)語“咳嗽/t變/t”經(jīng)本條規(guī)則處理后的術(shù)語是“咳嗽”。

圖2 術(shù)語構(gòu)件集生成算法

3) 若tk(n-1)tkn都在SuffixWord中,則刪除tkn,剩余部分為術(shù)語。例如,候選術(shù)語“慢性/t支氣管炎/t病/t”、“麥粒灸/t灸/t”經(jīng)本條規(guī)則處理后的術(shù)語是“慢性支氣管炎”、“麥粒灸”。

4) 若tk1tk2…tki…tk(n-1)tkn中,所有構(gòu)件t都不在種子集中,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語“刀/t周圍/t”。

5) 若tk1tk2…tki…tk(n-1)tkn為單字組成的字串,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語“刺/t刀/t灸/t”。

6) 若tk1tk2…tki…tk(n-1)tkn為含有數(shù)字或字母的字串,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語“腦缺血/t 3/t h/t”。

7) 若tk1tk2…tki…tk(n-1)tkn含有數(shù)量詞,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語“針刺/t合谷/t十二/t針/t”。

8) 若tk1tk2…tki…tk(n-1)tkn為數(shù)字+中文形式,則舍棄tk1tk2…tki…tk(n-1)tkn。例如,舍棄候選術(shù)語“3/t 穴/t”。

9) 限制中醫(yī)針灸領(lǐng)域術(shù)語的長(zhǎng)度為1~12字。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 測(cè)試語料及評(píng)測(cè)指標(biāo)

從網(wǎng)站(http://www.cqvip.com/)上爬取《針灸臨床雜志》期刊2009至2013年發(fā)表的醫(yī)學(xué)文獻(xiàn)的摘要和關(guān)鍵字信息。關(guān)鍵字信息經(jīng)過去重、去噪處理及人工審核后,作為中醫(yī)針灸領(lǐng)域術(shù)語種子集。抽取的摘要信息共4.2M,隨機(jī)選擇其中的210篇摘要,按照本文對(duì)中醫(yī)針灸領(lǐng)域術(shù)語所做出的五類界定,進(jìn)行人工標(biāo)注術(shù)語,并將經(jīng)人工標(biāo)注好術(shù)語的摘要集作為系統(tǒng)的閉式測(cè)試語料。爬取該網(wǎng)站的《上海針灸雜志》期刊文獻(xiàn)摘要2.8M,隨機(jī)選取其中的210篇摘要,經(jīng)人工標(biāo)注術(shù)語后作為系統(tǒng)的開式測(cè)試語料。從網(wǎng)站(http://www.tcm100.com/ShuJuKu/ZhongYiCiDian/ZhongYiCiDian.aspx)爬取中醫(yī)名詞20 109個(gè),剔除其中的書名、人名,將余下的19 916個(gè)中醫(yī)名詞作為對(duì)比實(shí)驗(yàn)用的中醫(yī)術(shù)語種子集。

系統(tǒng)采用準(zhǔn)確率(P)、召回率(R)和F-值三個(gè)通用的測(cè)評(píng)指標(biāo)進(jìn)行評(píng)價(jià),測(cè)評(píng)指標(biāo)的具體定義如下式(4)所示。

(4)

(5)

(6)

4.2 實(shí)驗(yàn)結(jié)果分析

基于以上設(shè)計(jì)思想,我們使用Java語言實(shí)現(xiàn)了一個(gè)中醫(yī)針灸領(lǐng)域術(shù)語抽取實(shí)驗(yàn)系統(tǒng),并在該實(shí)驗(yàn)系統(tǒng)上進(jìn)行了中醫(yī)針灸領(lǐng)域術(shù)語抽取的閉式測(cè)試和開式測(cè)試,測(cè)試結(jié)果如表3所示。

表3 開式實(shí)驗(yàn)與閉式實(shí)驗(yàn)評(píng)測(cè)指標(biāo)對(duì)比表

由于術(shù)語種子集和閉式測(cè)試語料庫同源,二者的擬合度較高,所以閉式測(cè)試的評(píng)測(cè)指標(biāo)好于開式測(cè)試。通過分析錯(cuò)誤識(shí)別的術(shù)語后發(fā)現(xiàn),誤識(shí)的原因主要有以下兩點(diǎn): ①?zèng)]有對(duì)測(cè)試語料進(jìn)行分詞,使得術(shù)語識(shí)別時(shí)前詞和后詞的部分字串區(qū)分不開,術(shù)語邊界標(biāo)識(shí)不準(zhǔn)確,從而引發(fā)術(shù)語識(shí)別錯(cuò)誤,影響術(shù)語抽取的準(zhǔn)確率; ②中醫(yī)針灸領(lǐng)域文獻(xiàn)中存在用詞不夠規(guī)范的現(xiàn)象,并且新的針灸領(lǐng)域術(shù)語不斷出現(xiàn),使得種子集以及種子集迭代后的構(gòu)件集對(duì)領(lǐng)域術(shù)語的覆蓋度有限,造成部分領(lǐng)域術(shù)語以及新出現(xiàn)的領(lǐng)域術(shù)語識(shí)別困難,影響術(shù)語抽取的召回率。術(shù)語識(shí)別錯(cuò)誤實(shí)例及其原因分析如表4所示。

表4 錯(cuò)誤識(shí)別的術(shù)語實(shí)例及其原因分析表

為了檢驗(yàn)算法的效果,將本文設(shè)計(jì)的算法、文獻(xiàn)[11]中提及的迭代引導(dǎo)算法(The Iterative Bootstrapping Algorithm,IBA)以及兩組規(guī)則在不同的種子集,相同的標(biāo)注集上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

從表5看出,本文方法比IBA算法有較大的優(yōu)勢(shì),這與中醫(yī)針灸領(lǐng)域術(shù)語的結(jié)構(gòu)特點(diǎn)有關(guān)。中醫(yī)針灸領(lǐng)域術(shù)語的組成結(jié)構(gòu)中存在常用詞字串,若不對(duì)切出的術(shù)語構(gòu)件進(jìn)行規(guī)則過濾,術(shù)語構(gòu)件中就會(huì)混雜常用詞字串。這種情況下,利用向前匹配法進(jìn)行領(lǐng)域術(shù)語獲取時(shí),會(huì)導(dǎo)致術(shù)語邊界確定不準(zhǔn)確,從而使中醫(yī)針灸領(lǐng)域術(shù)語抽取的精確率大大降低。用中醫(yī)詞典種子集替換關(guān)鍵字種子集重做四組實(shí)驗(yàn)發(fā)現(xiàn),術(shù)語抽取的P、R值下降較大,說明種子集的規(guī)模對(duì)術(shù)語抽取結(jié)果評(píng)價(jià)及評(píng)價(jià)的客觀性都有影響。因此,實(shí)際應(yīng)用中要保證種子集的規(guī)模和質(zhì)量。

表5 規(guī)則效果及種子集效果實(shí)驗(yàn)

5 結(jié)語

針對(duì)中醫(yī)針灸領(lǐng)域術(shù)語的構(gòu)成特點(diǎn),將該領(lǐng)域術(shù)語分為五類。通過分析現(xiàn)有術(shù)語抽取技術(shù)在中醫(yī)針灸領(lǐng)域術(shù)語抽取中存在的問題,建立了中醫(yī)針灸領(lǐng)域術(shù)語抽取的算法模型,實(shí)現(xiàn)了中醫(yī)針灸領(lǐng)域術(shù)語抽取的原型系統(tǒng)。通過對(duì)《上海針灸雜志》上隨機(jī)抽取的210篇摘要進(jìn)行的開式測(cè)試結(jié)果來看,該方法較好地解決了現(xiàn)有術(shù)語抽取技術(shù)存在的中醫(yī)針灸領(lǐng)域術(shù)語構(gòu)件中混雜常用詞字串的問題,提高了中醫(yī)針灸領(lǐng)域術(shù)語抽取的精確率。后續(xù)的研究中,將在現(xiàn)有術(shù)語抽取算法模型的基礎(chǔ)上,進(jìn)一步研究中醫(yī)針灸領(lǐng)域術(shù)語邊界識(shí)別問題以及新詞識(shí)別的問題。

[1] Bourigault D. Surface grammatical analysis for the extraction of terminological noun phrases[C]//Proceedings of the 14th conference on Computational linguistics-Volume 3. Association for Computational Linguistics,1992: 977-981.

[2] Li D,Wang Q,Li Y,et al. A Domain-Specific Chinese Term Extraction Method Based on Prefix and Suffix[C]//Proceedings of the Computer Science & Service System (CSSS),2012 International Conference on IEEE,2012: 1356-1359.

[3] 何婷婷,張勇. 基于質(zhì)子串分解的中文術(shù)語自動(dòng)抽取[J]. 計(jì)算機(jī)工程,2006,32(23): 188-190.

[4] 梁穎紅,張文靜,周德富. 基于混合策略的高精度長(zhǎng)術(shù)語自動(dòng)抽取[J]. 中文信息學(xué)報(bào),2009,23 (6): 26-30.

[5] 游宏梁,張巍,沈鈞毅,等. 一種基于加權(quán)投票的術(shù)語自動(dòng)識(shí)別方法[J]. 中文信息學(xué)報(bào),2011,25 (3): 9-16.

[6] 李麗雙,黨延忠,張婧,等. 基于條件隨機(jī)場(chǎng)的汽車領(lǐng)域術(shù)語抽取[J]. 大連理工大學(xué)學(xué)報(bào),2013,53(2): 267-272.

[7] 岑詠華,韓哲,季培培. 基于隱馬爾科夫模型的中文術(shù)語識(shí)別研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2008,12: 54-58.

[8] 劉豹,張桂平,蔡?hào)|風(fēng). 基于統(tǒng)計(jì)和規(guī)則相結(jié)合的科技術(shù)語自動(dòng)抽取研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2009,44(23): 147-150.

[9] Ji L,Sum M,Lu Q,et al. Chinese terminology extraction using window-based contextual information[M].Computational Linguistics and Intelligent Text Processing. Springer Berlin Heidelberg,2007: 62-74.

[10] 周浪,張亮,馮沖,等. 基于詞頻分布變化統(tǒng)計(jì)的術(shù)語抽取方法[J]. 計(jì)算機(jī)科學(xué),2009,36(5): 177-180.

[11] Zhang C,Niu Z,Jiang P,et al. Domain-specific term extraction from free texts[C]//Proceedings of the Fuzzy Systems and Knowledge Discovery (FSKD),2012 9th International Conference on. IEEE,2012: 1290-1293.

[12] Kim S,Yoon J. Experimental Study on a Two Phase Method for Biomedical Named Entity Recognition[J].IEICE Transactions on Information and Systems,2007,E90-D(7): 1103-1110.

[13] Chan S K,Lam W,Yu X F. A cascaded approach to biomedical named entity recognition using a unified model[C]//Proceedings of the 7th IEEE International Conference on Data Mining,Omaha,Nebraska,USA,2007: 93-102.

[14] Gu B,Popowich F,Dahl V. Recognizing biomedical named entities in Chinese research abstracts[M].Advances in Artificial Intelligence. Springer Berlin Heidelberg,2008: 114-125.

[15] 蔣錦文,于鵬. 淺談中醫(yī)學(xué)術(shù)語的特點(diǎn)和研究方法[J]. 天津中醫(yī)學(xué)院學(xué)報(bào),2000,3: 023.

Automatic Term Extraction in TCM Acupuncture Domain

SUN Shuihua1,2,HUANG Degen1,NIU Ping1

(1.School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China;2.College of Information Science and Engineering,Fujian University of Technology,Fuzhou,Fujian 350118,China)

A term extraction algorithm model based on language rules in TCM acupuncture domain is established. Firstly,the seed set of TCM acupuncture domain term is iterated finitely to generate the component set. Secondly, by regarding the component set as the domain dictionary,the model applies maximum forward matching algorithm to segment the sentences and extracts term candidates. Finally,the term candidates are filtrated by rules. The F-measures for open test are 76.96% and 35.59%,with keywords and traditional Chinese medicine dictionary as the seed set,respectively.

TCM acupuncture domain term; term seed set iteration algorithm; term filter rule

孫水華(1962—),博士研究生,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與機(jī)器翻譯。E?mail:sunsh@mail.dlut.edu.cn黃德根(1965—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與機(jī)器翻譯。E?mail:huangdg@dlut.edu.cn牛萍(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與機(jī)器翻譯。E?mail:425204127@qq.com

2014-02-04 定稿日期: 2015-04-29

福建省自然科學(xué)基金(2014J01218);國家自然科學(xué)基金(61173100)

1003-0077(2016)03-0118-07

TP391

A

猜你喜歡
術(shù)語針灸構(gòu)件
Las nueve agujas de Fuxi Cómo surgieron estos implementos para practicar la acupuntura
Efficacy of acupuncture on treating obesity and adipose-incurred illnesses
中醫(yī)針灸的發(fā)展與傳承
建筑構(gòu)件
建筑構(gòu)件
建筑構(gòu)件
建筑構(gòu)件
中醫(yī)針灸治療腰椎間盤突出癥44例
有感于幾個(gè)術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢(shì)
彰化县| 九江县| 洛隆县| 兴城市| 邢台县| 凤山市| 墨竹工卡县| 深泽县| 武定县| 灵璧县| 随州市| 巩留县| 石棉县| 江华| 黎城县| 仙桃市| 仁怀市| 都江堰市| 高平市| 勃利县| 泉州市| 安徽省| 浠水县| 兖州市| 来凤县| 丽水市| 巴楚县| 吉安市| 和顺县| 江孜县| 安义县| 师宗县| 安国市| 莱阳市| 安陆市| 高清| 宁国市| 西峡县| 鄂州市| 福建省| 都昌县|