国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于條件隨機場的專利術語抽取*

2014-07-12 17:10:34劉輝劉耀
數(shù)字圖書館論壇 2014年12期
關鍵詞:術語專利模板

劉輝,劉耀

(中國科學技術信息研究所,北京 100038)

基于條件隨機場的專利術語抽取*

劉輝,劉耀

(中國科學技術信息研究所,北京 100038)

專利術語抽取是專利文獻信息抽取領域的一項重要任務,有助于專利領域詞表的構建,有利于中文分詞、句法分析、語法分析等工作的進行。文章通過分析專利術語的特點并制定相應的語料標注規(guī)則進行人工標注,采用條件隨機場(conditional random fields,CRFs)對標注后的數(shù)據(jù)進行訓練和測試,實現(xiàn)了通信領域的術語抽取。標注方法采用基于字的序列標注,精確率、召回率和F值分別達到80.9%、75.6%、78.2%,優(yōu)于將詞和詞性等信息作為特征的方法,表明所提出的專利術語抽取方法是有效的。

條件隨機場;術語抽??;序列標注

引言

專利文獻是科技信息的載體,集中體現(xiàn)了科學技術的發(fā)展水平,有效利用專利可以提高國家和企業(yè)的發(fā)展速度??焖僬页鰧@墨I中相應的技術信息是有效利用專利文獻的前提。在專利文獻中專業(yè)術語是其核心內(nèi)容和重要組成部分。對術語的分析研究是深入和有效應用專利的基礎性工作。因此,研究專利文獻術語的抽取技術越來越受到研究者們的關注,專利文獻中的術語體現(xiàn)和承載了專利文獻的技術信息。同時,通過所提取的專利文獻術語,可以構建專利領域敘詞表,有利于分詞、句法分析、語法分析等工作的順利進行,也可以進一步對專利文獻進行分類,識別不同專利文獻之間的相互關系。

目前,較為常用的抽取方法主要有三種:第一種是基于規(guī)則的方法,根據(jù)語言學知識制定相應的規(guī)則模板,按照規(guī)則模板對專利文獻的術語進行匹配,匹配成功則抽取其中的術語部分。姚振軍等運用正則表達式的字符串匹配功能對特定數(shù)據(jù)庫中的漢英對照中國文化術語進行了抽取[1];劉里等提出了一種領域現(xiàn)象術語的抽取方法,采用分隔符集合上下文術語進行候選領域現(xiàn)象術語的抽取[2]。但基于規(guī)則的術語抽取方法不夠靈活,規(guī)則很難涵蓋復雜的語言現(xiàn)象,尤其是隨著現(xiàn)代科技的快速發(fā)展,新的術語層出不窮,人工來研究其語言學規(guī)律變得不可行。第二種是基于統(tǒng)計的方法,張鋒等通過采用互信息計算字串的內(nèi)部結合強度得到術語候選集,實驗F值達到74.97%[3];岑詠華等提出了一種基于雙層隱馬爾科夫模型的中文泛術語識別和提取的思路和系統(tǒng)框架[4];劉豹等學者采用條件隨機場對科技術語和軍事領域術語進行了抽取,F(xiàn)值分別達到了84.4%和76.46%[5-6]。第三種是將規(guī)則與統(tǒng)計相結合的方法,唐濤等采用統(tǒng)計方法得出術語候選集,再采用規(guī)則的方法進行過濾和選取[7];韓紅旗等采用語言學規(guī)則得出可能的術語候選列表,再計算詞語的術語度值選取候選術語[8];章成志將語言學方法與統(tǒng)計方法進行并行融合,進行基于多層術語度的一體化術語抽取[9]。本文主要就專利文獻的術語抽取任務展開討論,分析專利文獻中術語的特點及抽取難點,利用條件隨機場模型對專利文獻中的術語進行自動抽取。

1 條件隨機場

條件隨機場是一種以給定的輸入節(jié)點值為條件來預測輸出節(jié)點值概率的無向圖模型,它是由Lafferty等在2001年提出的一種用于序列數(shù)據(jù)標注的條件概率模型,是一種判定性模型[10-11]。CRFs通過定義標記序列和觀察序列的條件概率P(S|O)來預測最可能的標記序列。CRFs不僅能夠將豐富的上下文特征整合到模型中,而且還克服了其他非產(chǎn)生性模型的標注偏差問題。線鏈CRFs的圖形結構如圖1所示。

圖1 線鏈CRFs的圖形結構

設O={O1,O2,……,OT}表示被觀察的輸入數(shù)據(jù)序列,例如有待標注的字或字串序列,S={S1,S2,……,ST}表示被預測的狀態(tài)序列,每一個狀態(tài)均與一個詞位標記相關聯(lián)。這樣,在一個輸入序列給定的情況下,參數(shù)為∧={λ1,λ2,……,λK,}的線鏈CRFs,其狀態(tài)序列的條件概率為:

其中,ZO是歸一化因子。它確保所有可能的狀態(tài)序列的條件概率和為1,即它所有可能的狀態(tài)序列的“得分”的和:

fk(st-1,st,o,t)是一個任意的特征函數(shù),通常是一個二值表征函數(shù)。λk是一個需要從訓練數(shù)據(jù)中學習的參數(shù),是相應的特征函數(shù)fk(st-1,st,o,t)的權重,取值范圍可以是-∞到+∞。特征函數(shù)fk(st-1,st,o,t)能夠整合任何特征,包括狀態(tài)轉移St-1→St特征,以及觀察序列O在時刻t的所有特征。

給定一個由公式(1)定義的條件隨機場,在已知輸入數(shù)據(jù)序列O的情況下,最可能的標記序列可以由下式求出:

最可能的標記序列可以由上式通過類似于隱馬爾科夫模型中的韋特比算法動態(tài)規(guī)劃求出。

2 基于CRFs的專利術語抽取

2.1 專利術語的特點

術語是代表學科領域基本概念的語言單元,可以是詞也可以是詞組,在我國又稱為科技名詞。目前對區(qū)分術語與普通詞語并沒有統(tǒng)一的標準。本文在標注中所規(guī)定的專利術語長度由一個字到十多個字不等,可以為兩個字的詞語“轉子”,也可以為多字的“雙頻段寬帶電臺室內(nèi)聯(lián)試通信仿真系統(tǒng)”,術語必須具有較強的領域性,如“實現(xiàn)方法”、“成本”等通用詞語則不納入術語的認定范圍內(nèi)。專利術語有其自身的特點,主要有:長術語多,類似“外均衡高溫超導線性相位濾波器”的長術語數(shù)量眾多,字數(shù)的增加導致發(fā)生歧義的可能性增大;英文縮寫術語多,如“CDMA”;英文縮寫與中文詞語合用,如“ISDN調(diào)度終端”。專利的用語較規(guī)范,其文本具有一定的結構性,若可以將術語進行有效的提取,剩下的文本可以視為規(guī)范的語言模板,如“本發(fā)明涉及一種……的方法”。

2.2 語料處理

采用CRFs做術語抽取時,通常的做法是將文本先進行分詞,再進行詞性標注,將詞本身和詞性作為主要的特征[4],也可加入詞頻、互信息、左右信息熵等更多信息作為特征[5]。但由于專利文本的特點,分詞可能造成許多問題,比如:專利文本中的長術語較多,分詞一般無法將術語中的詞語進行正確的切分,并且術語中存在不少的單個字表示詞義的情況,詞性作為特征無法對術語的識別提供較大幫助,另一方面,過多的特征數(shù)量容易造成過擬合問題,影響模型的效果。所以,我們采用基于字的標注方法,即使用B(術語首字)、I(術語中字)、E(術語尾字)、O(其他字)。基于字的術語抽取問題就是把術語抽取過程看作每個字的字位標注問題,如果一個漢字字串中每個字的字位都確定了,那么該字串中的術語也就識別完成了。例如:要對字串“所述編碼單元持續(xù)將媒體流向配置的組播組地址發(fā)送”進行術語識別,只需標注出該字串的序列(1),有標注結果就很容易得到對應的術語抽取結果(2)。

(1)標注結果:所/O述/O編/B碼/I單/I元/E持/O續(xù)/O將/O媒/B體/I流/E向/O配/O置/O的/O組/B播/I地/I址/E發(fā)/O送/O。

(2)識別結果:編碼單元 媒體流 組播地址。非術語文字和符號等全標上“O”。為了減少數(shù)據(jù)不平衡的影響,將語料分成五組,進行開放的交叉測試。

3.2 實驗結果及分析

評價標準采用準確率(P)、召回率(R)以及F值作為評價指標,計算方法如下:

2.3 模板定義

按照CRFs的要求設計相對應的特征模板,模板是對上下文環(huán)境中的特定位置和特定信息的考慮,反映了所要考慮的語言現(xiàn)象的選取標準,也可以理解為它指導和限定了機器學習過程的空間范圍。特征模板文件中的每一行代表一個template。每一個template中,專門的宏%x[row,col]用于確定輸入數(shù)據(jù)中的一個token,row用于確定與當前的token的相對行數(shù),col用于確定絕對行數(shù)。有兩種類型的模板文件,類型可由第一個字符來區(qū)分,第一種是Unigram template,第一個字符是U,當給出一個模板"U01:%x[0,1]",CRFs會自動地生成一個特征函數(shù)集合(func1 . . .funcN)。另一種是Bigram template。第一個字符是B,這個模板用于描述bigram features。根據(jù)本文標注情況,編寫了相對應的特征模板文件template,模板文件片斷如下:

圖2 模板文件片斷

3 實驗

3.1 實驗數(shù)據(jù)

數(shù)據(jù)采用通信領域的專利文獻摘要1000篇,共702742字。首先對專利摘要中的術語進行人工標注,三人同時對1000篇語料進行標注,標注出的結果采用三份標注結果的交集,總共得到2216個術語。再采用計算機對標注后的語料進行序列標注,對術語的首字標上“B”,術語的尾字標上“E”,術語的內(nèi)部字標上“I”,

實際評估時,應同時考慮P和R,但同時要比較兩個數(shù)值,很難做到一目了然。所以常采用綜合兩個值進行評估的辦法,綜合指標F值就是其中的一種。計算公式如下:

其中,β決定對P側重還是對R側重,通常設定為1、2或1/2。本文β取值1,即對二者重視程度一樣。表1為五組數(shù)據(jù)的測試結果。

表1 術語抽取結果

對數(shù)據(jù)進行開放測試后,準確率可以達到80%左右,可以識別出較為復雜的專利術語,如字數(shù)較多的術語“正交頻分服用多載波無線通信系統(tǒng)”,中英文結合的專利術語,如“TTCAN網(wǎng)絡時間主節(jié)點”。但同時還有一定的錯誤情況。將采用模型進行標注的結果與人工標注的結果進行比對,發(fā)現(xiàn)錯誤主要集中在以下幾個方面:

(1)識別詞語不全,如“等離子顯示面板”識別成了“離子顯示面板”,“物理混合自動重傳請求指示符信道”識別成了“混合自動重傳請求指示符信道”。

(2)識別出的詞比正確的術語多出一部分,如“通信設備”識別成“測試通信設備”,“時鐘同步消息”識別成了“時鐘同步消息狀況”。

(3)將一些普通詞語當作術語識別出來。如“傳輸方式”、“實現(xiàn)模式”。

(4)未識別出術語、誤識別術語等其他錯誤。

3.3 與基于詞標注方法的比較

對比的方法采用基于詞的序列標注,對文本進行分詞和詞性標注等處理,實驗采用不同的特征進行訓練和測試,一種采用詞本身、詞性作為特征,另一種使用詞本身、詞性、詞長和詞頻多個特征。

實驗表明,采用以詞為單位進行序列標注實驗的結果不如基于字標注的實驗,加上詞長和詞頻等特征后,召回率提高了,但準確率卻有所下降。這說明實驗采用的特征對結果起著重要作用,特征并非越多越好,而是需要找到最適合數(shù)據(jù)要求的特征,并且過多的特征數(shù)量也容易造成數(shù)據(jù)的過擬合問題。

表2 與基于詞標注方法的比較

4 結語

本文主要針對專利文獻的術語進行了抽取,將術語抽取問題轉化為序列標注問題,使用CRFs模型對標注好的專利摘要進行訓練和測試,采用交叉驗證的方法進行開放測試,最終的準確率達到80%,并與基于詞的實驗進行了對比,實驗表明,字標注的結果要好于采用詞等特征的實驗結果。

[1]姚振軍,黃德根,紀翔宇,等.正則表達式在漢英對照中國文化術語抽取中應用[J].大連理工大學學報,2010,50(2):291-295.

[2]劉里,劉小明.基于分隔符和上下文術語的領域現(xiàn)象術語抽取[J].華南理工大學學報:自然科學版,2011,39(7):146-149,155.

[3]張鋒,許云,侯艷,等.基于互信息的中文術語抽取系統(tǒng)[J].計算機應用研究,2005,22(5):72-73,77.

[4]岑詠華,韓哲,季培培,等.基于隱馬爾科夫模型的中文術語識別研究[J].現(xiàn)代圖書情報技術,2008,(12):54-58.

[5]劉豹,張桂平,蔡東風,等.基于統(tǒng)計和規(guī)則相結合的科技術語自動抽取研究[J].計算機工程與應用,2008,44(23):147-150.

[6]ZHENG D Q, ZHAO T J,YANG J. Technical term automatic extraction research based on statistics and rule [C]// ICCPOL 2009, LNAI 5459. Berlin: Springer-Verlag, 2009: 290-296.

[7]唐濤,周俏麗,張桂平,等.統(tǒng)計與規(guī)則相結合的術語抽取[J].沈陽航空航天大學學報,2011,28(5):71-74.

[8]韓紅旗,朱東華,汪雪鋒,等.專利技術術語的抽取方法[J].情報學報, 2011,30(12):1280-1285.

[9]章成志.基于多層術語度的一體化術語抽取研究[J].情報學報, 2011,28(3):275-285.

[10]LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]// Proceedings of 18th International Conference on Machine Learning. San Francisco, USA: AAAI Press, 2001: 282-289.

[11]Peng Fuchun, McCallum A. Accurate information extraction from research papers using conditional random fields [J]. Information processing and management, 2006, 42(4): 963-979.

Patent Term Extraction Based on Conditional Random Fields

LIU Hui, LIU Yao
(Institute of Scientific and Technical Information of China, Beijing 100038, China)

Patent term extraction is an important task in patent information extraction, which benefits the construction of lexicography, the work of word segmentation, and parsing. Corpus is labeled manually with corresponding rules written by analyzing the characteristics of patent terms. CRFs (Conditional Random Fields) is adapted to train and test labeled data. Sequence labeling is based on single Chinese characters. Experimental results show that the precision, recall and F-score are 80.12%, 74.2% and 76.9% respectively, which are superior to methods based on sequence labeling of words. Results illustrates that the established model for extracting patent term is effective.

Conditional random fields; Term extraction; Sequence labeling

TP391.1

10.3772/j.issn.1673—2286.2014.12.008

2014-12-10)

* 本研究得到“十二五”國家科技支撐計劃項目“專利信息資源挖掘與發(fā)現(xiàn)關鍵技術研究”(編號:2013BAH21B02)資助。

劉輝,1990年生,男,碩士研究生,研究方向:信息抽取、圖儲存,E-mail:liuhui2013@istic.ac.cn。

劉耀,1972年生,男,博士后,研究員,研究方向:知識工程,中文信息處理,E-mail:liuy@istic.ac.cn。

猜你喜歡
術語專利模板
鋁模板在高層建筑施工中的應用
鋁模板在高層建筑施工中的應用
專利
水運工程(2022年7期)2022-07-29 08:37:38
發(fā)明與專利
傳感器世界(2019年4期)2019-06-26 09:58:44
鋁模板在高層建筑施工中的應用
城市綜改 可推廣的模板較少
專利
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發(fā)展趨勢
軸承(2010年2期)2010-04-04 09:23:11
武夷山市| 繁昌县| 嘉义市| 吴忠市| 宜昌市| 称多县| 建宁县| 珠海市| 陈巴尔虎旗| 界首市| 东乌珠穆沁旗| 同德县| 溆浦县| 巴塘县| 偏关县| 扬州市| 农安县| 公安县| 宿州市| 胶南市| 海阳市| 隆林| 桑日县| 钟山县| 高阳县| 红原县| 东光县| 吴川市| 岳普湖县| 奉节县| 富裕县| 万年县| 潮安县| 育儿| 高青县| 黔西县| 城固县| 措勤县| 巴塘县| 龙山县| 淮北市|