曾 鎮(zhèn) 呂學(xué)強 李 卓
(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室 北京 100101)
?
一種面向?qū)@念I(lǐng)域術(shù)語抽取方法
曾鎮(zhèn)呂學(xué)強李卓
(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室北京 100101)
專利領(lǐng)域中術(shù)語抽取結(jié)果的好壞決定了本體構(gòu)建的質(zhì)量。提出一種自動生成過濾詞典并結(jié)合詞匯密集度等影響因子的術(shù)語抽取方法。首先在分詞和詞性標(biāo)注的基礎(chǔ)上,對文獻匹配詞性規(guī)則算法生成的模板得到候選長術(shù)語和單詞型短術(shù)語集合,然后利用文檔一致度生成的過濾詞典過濾部分候選長術(shù)語集,最后針對長術(shù)語的構(gòu)成特點,將詞匯密集度、文檔差比、文檔一致度三個術(shù)語因子加權(quán)平均作為整個長術(shù)語的術(shù)語權(quán)重值,并按值高低排序。在8000篇專利摘要文獻的基準(zhǔn)語料上進行實驗,隨機選取五組實驗數(shù)據(jù),平均準(zhǔn)確率達到86%。結(jié)果表明該方法在領(lǐng)域術(shù)語抽取方面是行之有效的。
領(lǐng)域術(shù)語本體構(gòu)建過濾詞典詞匯密集度
專利文獻作為技術(shù)信息的有效載體,涵蓋了全球90%以上的最新技術(shù)情報[1]。由于70%~80%的發(fā)明創(chuàng)造都只能通過專利文獻的形式發(fā)表,專利文獻本身蘊含了巨大的信息價值。為了增強自身競爭力,越來越多的企業(yè)也開始把目光投向了專利文獻,一方面通過專利申請來保障自己的發(fā)明成果,另一方面通過專利檢索了解同行的最新技術(shù)進展情況,不斷學(xué)習(xí),使自己在激烈的市場競爭中保持不敗之地。因此對于專利信息部門,從專利文獻中抽取有效知識,構(gòu)建一個基于專利文獻的本體知識庫,為各企業(yè)、技術(shù)人員提供專利檢索和專利預(yù)警、專利分析的支持是一個迫切而又有意義的工作。
本體構(gòu)建的首要任務(wù)便是從專利文本中自動抽取出概念術(shù)語,且獲得的術(shù)語準(zhǔn)確率的高低直接影響后續(xù)的本體框架。目前很多學(xué)者都開展了這方面的研究,總的來說主要分為基于規(guī)則的方法、基于統(tǒng)計的方法以及兩者結(jié)合的方法。從總體效果方面來看,規(guī)則與統(tǒng)計結(jié)合的方法更占優(yōu)勢。韋小麗[2]等提出采用最大熵模型的機器學(xué)習(xí)算法來提取領(lǐng)域概念術(shù)語。施水才[3]等運用條件隨機場模型來構(gòu)建合理的特征模板達到識別領(lǐng)域術(shù)語的效果。上述方法雖不依賴規(guī)則的制定、且可移植性較強,但需耗費一定的人力來標(biāo)注訓(xùn)練語料,訓(xùn)練語料的規(guī)模也會最終影響到實驗結(jié)果。文獻[4-7]使用了互信息、對數(shù)似然比和C-value這類統(tǒng)計量在大規(guī)模語料中抽取術(shù)語。該方法很難處理單篇文檔,且互信息容易錯誤識別經(jīng)常搭配的非術(shù)語短語。劉豹[8]嘗試將統(tǒng)計機器學(xué)習(xí)方法和規(guī)則結(jié)合起來抽取術(shù)語,雖取得了不錯的效果,但缺乏對體現(xiàn)領(lǐng)域特點的長術(shù)語的識別。湯青[9]采用基于術(shù)語部件庫的方法實現(xiàn)術(shù)語抽取,該方法對于部件庫的質(zhì)量有著嚴(yán)格的要求,不存在已知部件庫的術(shù)語很難被識別。徐川[10]分析字符串之間的結(jié)合強度,提出邊界結(jié)合度、串邊結(jié)合度等概念抽取術(shù)語,該方法不易識別缺乏固定搭配的術(shù)語。文獻[11]集成統(tǒng)計和規(guī)則的方法,能夠挖掘大規(guī)模新詞術(shù)語,但同時也引入大量如“供 選擇”這類非術(shù)語固定搭配的噪音詞匯。
上述研究中所抽取出來的術(shù)語從嚴(yán)格意義上來講只能稱為短語,幾乎未能體現(xiàn)術(shù)語的領(lǐng)域特性。針對上述方法所存在的不足,該文提出一種首先利用詞性規(guī)則模板得到候選的單詞型短術(shù)語和多詞長術(shù)語集合,然后計算詞匯密集度權(quán)重參數(shù)來抽取單詞型術(shù)語,最后結(jié)合平衡語料自動生成一部過濾詞典,通過過濾詞典和組成該長術(shù)語的每個詞的術(shù)語因子篩選出最終的長術(shù)語的方法。過濾詞典由于利用領(lǐng)域一致度動態(tài)生成,且較好的篩選掉部分非術(shù)語常用搭配噪音信息,能很好地跨領(lǐng)域移植。對構(gòu)成長術(shù)語的原子詞語賦予其術(shù)語權(quán)重,加權(quán)平均其術(shù)語權(quán)重值,作為整個長術(shù)語的術(shù)語度,最后按術(shù)語度對術(shù)語進行排序。排名越靠前其成為術(shù)語的可能性越大, 剩下的非術(shù)語常用搭配由于其組成詞語術(shù)語權(quán)重值均偏低,其排名偏靠后,這種隨可信度分布的術(shù)語詞表可以提供用戶更靈活的選擇。
1.1語料預(yù)處理
專利摘要作為對整個專利的介紹說明,是整篇專利文檔核心內(nèi)容,蘊含豐富的價值信息。其內(nèi)容一般涵蓋以下幾部分:對專利的用途介紹、專利的工作原理闡述、專利的創(chuàng)新改進之處,專利的功效矩陣、以及專利的應(yīng)用領(lǐng)域。
對8 000篇新能源電動汽車領(lǐng)域的專利摘要進行分詞和詞性標(biāo)注的文檔預(yù)處理。分詞工具選用中科院自主開發(fā)的ICTCLAS,ICTCLAS運用隱馬爾科夫模型進行分詞,融合了實體識別、未登錄詞識別和詞性標(biāo)注等功能模塊,是市面上十分成熟的一個分詞軟件。
1.2詞性規(guī)則生成算法
術(shù)語按其組成長度可劃分為單詞短術(shù)語和多詞長術(shù)語[12],單詞短術(shù)語由單個詞匯構(gòu)成,下文簡稱短術(shù)語,多詞長術(shù)語一般由2到6個詞組成。作為某個領(lǐng)域反復(fù)使用、形勢較為固定又表達某特定概念的詞語,術(shù)語的組成結(jié)構(gòu)一般具有詞性特點。單詞短術(shù)語一般為名詞n或動名詞vn。多詞型長術(shù)語的詞性規(guī)則比較復(fù)雜,常見的搭配有n+n、vn+n、b+v+n等。Sui在文獻[11]總結(jié)了2詞-6詞的術(shù)語構(gòu)詞規(guī)則。該規(guī)則比較寬松,對特定的領(lǐng)域語料并不十分實用。在大量研究專利文獻的基礎(chǔ)上,發(fā)現(xiàn)標(biāo)題多為體現(xiàn)該專利創(chuàng)新的領(lǐng)域特色的長術(shù)語,且其嵌套詞組也多為術(shù)語?;谶@個現(xiàn)象,設(shè)計一個針對實驗文獻自動生成詞性規(guī)則的算法。算法流程如下所示:
輸入:標(biāo)題字符串集合T={T1,T2,…T8000},TI=W1,W2,…,Wn(i=1,…,8000)
文本字符串集合D={D1,D2,…,DM},Di=W1,W2,…,Wn(i=1,…,m)
文本字符串以標(biāo)點符號為分隔符,WI為詞性標(biāo)記
輸出:HashMap,其key為詞性規(guī)則WI,value為規(guī)則頻次
流程:for T1to T800
Begin
IF D包含TI|| D包含Ti的字串Sub(Ti)
IF Ti||Sub(Ti)不存在HashMap中
HashMap.add(Ti||Sub(Ti),1)
Else
從HashMap取得其對應(yīng)的value
HashMap.put(Ti||Sub(Ti),value++)
Repeat;
長術(shù)語由于其詞匯繁多,結(jié)構(gòu)復(fù)雜成為術(shù)語抽取的一個難點。該算法從文獻的實際特點出發(fā),其生成的長術(shù)語的構(gòu)詞規(guī)則更符合其在整個文獻的實際頻次分布。在HashMap結(jié)果集中取出長度為2到6且頻次為前三名的詞性規(guī)則,如表1所示。
表1 部分術(shù)語詞性構(gòu)詞規(guī)則
表1中,n表示名詞,vn表示動名詞,v表示動詞,m表示數(shù)詞,b表示區(qū)分詞,u表示助詞。將上述詞性規(guī)則作為模板在文獻里匹配得到候選多詞長術(shù)語集。篩選出所有詞性標(biāo)注為名詞或動名詞的詞語作為候選短術(shù)語集。本文的規(guī)則自動生成算法解決了通用規(guī)則準(zhǔn)確性差和領(lǐng)域適應(yīng)性低的問題。
術(shù)語作為在專有學(xué)科領(lǐng)域內(nèi)具有高流通量的詞匯,其本身含有極強的專業(yè)性,且與日常生活領(lǐng)域交集甚少。某些明顯不含領(lǐng)域?qū)I(yè)信息,卻在日常生活常見的詞匯,如“我們”、“簡單”、等,可以通過判斷候選術(shù)語是否包含它們篩選出非術(shù)語,從而實現(xiàn)最終的術(shù)語抽取。這里將其定義為過濾詞,好的過濾詞典能保證抽取術(shù)語質(zhì)量的好壞?,F(xiàn)有專利領(lǐng)域內(nèi)往往不存在專業(yè)的過濾詞典,一方面是詞典的構(gòu)建需要耗費大量人力,另一方面詞典限制了其他領(lǐng)域的適應(yīng)性,不易移植,對外部資源依賴性大。本文借鑒領(lǐng)域一致度[13]用在平衡語料上,實現(xiàn)過濾詞典的自動生成。
定義1領(lǐng)域文檔一致度是指某術(shù)語在不同領(lǐng)域類別的文檔分布一致情況。設(shè)有k個不同領(lǐng)域D={D1,D2,…,Dk},每個領(lǐng)域的文檔數(shù)為{T1,T2,…,TK}。則候選術(shù)語t的領(lǐng)域文檔一致度定義為:
(1)
其中概率P(t,Dj)可用頻率估計:
(2)
其中,f(t,Dj)表示候選術(shù)語在領(lǐng)域Dj內(nèi)出現(xiàn)的文檔數(shù)。當(dāng)候選術(shù)語t在平衡語料各個領(lǐng)域內(nèi)出現(xiàn)的文檔分布越均勻時,其文檔一致度H(t)也就越大,說明其很大可能上是過濾詞。專業(yè)的術(shù)語在其他領(lǐng)域內(nèi)并不流通、很少甚至不出現(xiàn),其分布極不平衡,故其領(lǐng)域文檔一致度偏小。依據(jù)式(1)和平衡語料能自動生成一部過濾詞典,借助過濾詞典能從候選術(shù)語集篩選出大部分明顯不是術(shù)語的詞組。部分過濾詞如表2所示。
表2 部分過濾詞
觀察專利文檔發(fā)現(xiàn),術(shù)語對領(lǐng)域依賴性較強,作為領(lǐng)域核心知識的載體,同一術(shù)語往往會在單篇文檔內(nèi)被反復(fù)提到?;谝陨弦?guī)律,提出詞匯密集度的概念。
定義2候選術(shù)語t在單篇文檔的平均詞頻表示t在領(lǐng)域文檔內(nèi)的密集程度。術(shù)語t的密集程度可以用公式表示為:
(3)
其中,tf(t)表示術(shù)語t在整個領(lǐng)域內(nèi)的出現(xiàn)頻次,df(t)表示術(shù)語t在領(lǐng)域內(nèi)出現(xiàn)的文檔數(shù)。術(shù)語的密集度并不能有效區(qū)分一些不屬于本領(lǐng)域的基礎(chǔ)術(shù)語和常用詞匯。如“化合物”、“微生物”等詞已延伸到各個學(xué)術(shù)、生活領(lǐng)域中。通過候選術(shù)語的在領(lǐng)域文檔和平衡文檔的文檔差比來加權(quán)平均,定義一個綜合指標(biāo)來篩選單詞集中的單詞短術(shù)語。
(4)
其中,DF、PF分別表示領(lǐng)域文檔總數(shù)和平衡文檔總數(shù),權(quán)重α和β表示詞匯密集度和文檔差比各自的貢獻度。df(t)和pf(t)指示候選術(shù)語t在領(lǐng)域文檔的文檔頻次和平衡文檔的文檔頻次。當(dāng)候選術(shù)語t的詞匯密集度較大時,t可能為領(lǐng)域術(shù)語,但也將日常用語如“感覺”、“意識”、“結(jié)果”等錯選為領(lǐng)域術(shù)語。但該類詞語在其他領(lǐng)域也應(yīng)用廣泛,即其領(lǐng)域文檔差比值教小,真正的領(lǐng)域術(shù)語存在在本領(lǐng)域密集分布,平衡領(lǐng)域鮮有出現(xiàn)的現(xiàn)象,最終使得其綜合指標(biāo)D(t)值偏大,而達到過濾單詞術(shù)語的效果。
一般而言,人們所掌握的詞匯是有限的,如果在構(gòu)建專業(yè)術(shù)語時大量引入新的詞匯,會阻礙技術(shù)之間的交流和知識的普及。這就出現(xiàn)了頻繁使用已有單詞來構(gòu)成新的術(shù)語的現(xiàn)象,正是這種背景下,隨著學(xué)科領(lǐng)域的發(fā)展,出現(xiàn)了大批的詞組型長術(shù)語,并且詞組型長術(shù)語在整個術(shù)語系統(tǒng)中也遠遠超過了單詞型術(shù)語的規(guī)模。
詞組型長術(shù)語一般含有核心詞語來表示其概念內(nèi)容,圍繞在核心詞周圍往往還有很多修飾詞。所以僅憑長術(shù)語中單個詞或一兩個詞很難判定其是否是術(shù)語。本文充分考慮組成長術(shù)語中的每個詞對整體的影響,利用上述提到的式(1)和式(2),設(shè)計一個表示單個詞對術(shù)語貢獻度大小的術(shù)語權(quán)重因子,最后將每個詞的術(shù)語權(quán)重因子加和求均值來表示該長術(shù)語成為術(shù)語的可能性大小。術(shù)語權(quán)重因子公式如下:
(5)
其中,H(t)越小,表示該候選術(shù)語t在平衡語料中分布越不均勻,其越有可能是領(lǐng)域術(shù)語,對H(t)做了取倒操作來與D(t)的變化保持一致。
本文的實驗語料為專利總局提供的8000篇關(guān)于新能源電動汽車領(lǐng)域的專利摘要文獻。專利摘要一般包含專利標(biāo)題、專利分類號和申請專利說明。平衡語料選用了搜狗實驗室開放的2012年分類語料[14],選取軍事、娛樂、女人、旅游、經(jīng)濟、房地產(chǎn)等六大類領(lǐng)域語料各1300篇。
4.1實驗步驟
先對所有文檔進行分詞和詞性標(biāo)注。在此基礎(chǔ)上,將規(guī)則自動生成算法所生成的候選規(guī)則集,保留其前40條最為最終的術(shù)語篩選構(gòu)詞規(guī)則。采用前向最大匹配算法對專利文檔處理,得到候選的詞組型長術(shù)語22 935個,并按詞頻從大到小排序。候選單詞型短術(shù)語集則按名詞或動名詞屬性過濾獲取,也按詞頻排序,數(shù)量為13 943。
結(jié)合平衡語料,對候選單詞型短術(shù)語集進行式(1)運算,自動生成一部過濾詞典,詞匯量大小為1217個。候選單詞型短術(shù)語集在去除了過濾詞典后,繼續(xù)按式(3)篩選出最終的單詞型短術(shù)語4216個,其中參數(shù)α和β分別設(shè)為0.4和0.6。過濾詞典則用來去除部分候選詞組型長術(shù)語。在術(shù)語權(quán)重排名階段,式(5)中λ值為max(H(t))。術(shù)語可能性越大的排名越靠前,閾值的選定可以按準(zhǔn)確率和召回率的要求適當(dāng)調(diào)整。
4.2評價指標(biāo)
實驗結(jié)果用準(zhǔn)確率、召回率、F值進行評價。由于語料規(guī)模較大,加上專家知識有限、很難標(biāo)注出所有術(shù)語,難以計算實際的召回率。為此隨機選取五組語料,每組由5篇專利文獻組成。對每組文獻單獨計算其準(zhǔn)確率和召回率。
定義3單組正確率,即單組文獻中,正確識別的術(shù)語數(shù)Nt與該組文獻中提取到的術(shù)語數(shù)Tt之比:
(6)
定義4單組召回率,即單組文獻中,正確識別術(shù)語數(shù)Nt與該組文獻中所有術(shù)語數(shù)At之比:
(7)
4.3結(jié)果分析
本文利用領(lǐng)域文檔一致度公式自動生成了過濾詞典。1217個過濾詞在候選詞組型長術(shù)語篩選出8215個非術(shù)語。部分結(jié)果如表3所示。
表3 部分過濾詞篩選出的長術(shù)語結(jié)果
從表3可以看出,過濾詞確實很大程度上解決了規(guī)則寬泛所帶來的大量錯誤候選長術(shù)語問題,大大提升了候選長術(shù)語的質(zhì)量。過濾詞典借助平衡語料自動生成,具有跨領(lǐng)域的優(yōu)勢。但“微生物燃料電池”、“電子散熱元件”等術(shù)語也被錯誤地篩選了,這是因為“微生物”、“電子”等基礎(chǔ)學(xué)術(shù)性詞匯早已突破了單個學(xué)科的限制,融入了人們的日常生活。提高過濾詞的篩選閾值可以部分避免這一現(xiàn)象。
對剩余候選長術(shù)語利用詞匯密集度、文檔差比、文檔一致度三個加權(quán)因素計算其最終的術(shù)語權(quán)重并對其排序。排序結(jié)果如表4所示。
表4 候選長術(shù)語排序結(jié)果
表4中結(jié)果表明該術(shù)語權(quán)重排名方法較為真實地反映了每個候選詞組型長術(shù)語代表領(lǐng)域術(shù)語的真實程度。排名靠前的長術(shù)語均是對新能源電動汽車專利領(lǐng)域內(nèi)的核心知識表述,具有很強的專業(yè)性,集中概括了能源汽車這個領(lǐng)域知識體系的重要知識點。排名靠后的可以明顯判斷出其不屬于術(shù)語范疇,大都是分詞不規(guī)范而滿足一定詞性規(guī)則所遺留下來的短語結(jié)構(gòu)。此外排名靠前的結(jié)果集中如“固體聚合物電解質(zhì)膜燃料電池”這類四詞以上的長術(shù)語也占了不小的比例,長術(shù)語的正確識別,保障了整個術(shù)語庫的質(zhì)量,體現(xiàn)出領(lǐng)域知識特點。
以權(quán)重值5為閾值,將大于閾值的長術(shù)語作為最后的術(shù)語識別結(jié)果??偣埠I(lǐng)域術(shù)語10 843個。為了驗證該方法在局部專利文獻內(nèi)的識別效果,選定了5組測試文檔,每組由5篇專利文獻組成,平均每篇文獻術(shù)語量達到12個。人工標(biāo)注出領(lǐng)域術(shù)語,對照最后的領(lǐng)域長術(shù)語集和單詞型短術(shù)語,計算出單組準(zhǔn)確率、單組召回率評價指標(biāo)??紤]到文獻[10]的研究方向也是專利文獻的術(shù)語抽取,故選取其最終的實驗結(jié)果作為BaseLine,結(jié)果如圖1所示。
圖1 術(shù)語抽取實驗結(jié)果
從圖中的統(tǒng)計結(jié)果看出,本文提出的方法取得了不錯的實驗效果,五組專利文檔平均準(zhǔn)確率達到了86%,召回率達到了82%,相對于BaseLine80.24%的準(zhǔn)確率和80.61%的召回率,結(jié)果有不小的提高。實驗過程中發(fā)現(xiàn),對BaseLine中易識別錯誤的動賓結(jié)構(gòu)短語,如“發(fā)出 信號”等詞組,本文生成的過濾詞典往往能涵蓋到那些常用動詞,從而有效地避免了這一現(xiàn)象。BaseLine中存在的常用非術(shù)語搭配詞組在本方法中一部分被過濾詞典成功過濾,一部分自動排序到術(shù)語詞表末尾處。只剩下分詞粒度過大的非術(shù)語搭配存在誤識別,如“電動汽車 結(jié)構(gòu)簡單”、“蓄電池 充電狀態(tài)”,這類詞語因符合詞性規(guī)則且反復(fù)出現(xiàn),但由于分詞軟件將“結(jié)構(gòu)簡單”、“充電狀態(tài)”分為單個詞,使其在平衡語料中也甚少出現(xiàn),從而出現(xiàn)了誤識別。如將“結(jié)構(gòu)簡單”拆分為“結(jié)構(gòu)”、“簡單”,“充電狀態(tài)”拆分為“充電”、“狀態(tài)”,則能被成功過濾。少量在專利文檔內(nèi)很少出現(xiàn),沒形成統(tǒng)計規(guī)律的低頻術(shù)語,如“電磁波 衰減 材料”等詞組,其術(shù)語權(quán)重排名靠后,在召回它們的同時會帶入大量非術(shù)語。
專利摘要中領(lǐng)域術(shù)語的識別,對后期專利知識庫的構(gòu)建和用戶對專利信息的語義檢索等方面都有著極為重要的意義。本文從專利文獻獨有的數(shù)據(jù)特點出發(fā),設(shè)計了易移植的術(shù)語詞性規(guī)則生成算法,根據(jù)過濾詞在平衡語料內(nèi)分布比較均勻的特點,利用文檔一致度熵公式自動構(gòu)造過濾詞典,達到過濾掉一部分候選長術(shù)語的目的,對剩下的數(shù)據(jù)集結(jié)合詞匯密集度、文檔差比、文檔一致度三個針對領(lǐng)域術(shù)語的分布規(guī)律公式來計算每個候選長術(shù)語的術(shù)語權(quán)重參數(shù),并按值排序,實現(xiàn)術(shù)語的自動抽取。在實際應(yīng)用階段,如何最大限度準(zhǔn)確抽取無明顯統(tǒng)計規(guī)律的低頻候選長術(shù)語,提高它們的術(shù)語權(quán)重排名,是需要進一步改進的地方。
[1] 專利分析系統(tǒng):專利生命周期評價模型[EB/OL].(2011-08-02).[2014-07-02].http://www.iprtop.com/pages/view/fn/fxxt_7/.
[2] 韋小麗,孫涌,張書奎,等.基于最大熵模型的本體概念獲取方法[J].計算機工程,2009,35(24):114-116.
[3] 施水才,王鍇,韓艷鏵,等.基于條件隨機場的領(lǐng)域術(shù)語識別研究[J].計算機工程與應(yīng)用,2013,49(10):147-149.
[4] 胡阿沛,張靜,劉俊麗.基于改進C-value方法的中文術(shù)語抽取[J].現(xiàn)代圖書情報技術(shù),2013,29(2):24-29.
[5] 陳士超,郁濱.面向術(shù)語抽取的雙閾值互信息過濾方法[J].計算機應(yīng)用,2011,31(4):1070-1073.
[6] 屈鵬,王惠臨.面向信息分析的專利術(shù)語抽取研究[J].圖書情報工作,2013,57(1):130-135.
[7] 林磊,孫承杰,張二艷,等.一種基于改進似然比的術(shù)語自動抽取方法[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版,2010(1):153-156.
[8] 劉豹,張桂平,蔡東風(fēng).基于統(tǒng)計和規(guī)則相結(jié)合的科技術(shù)語自動抽取研究[J].計算機工程與應(yīng)用,2008,44(23):147-150.
[9] 湯青,呂學(xué)強,李卓,等.領(lǐng)域本體術(shù)語抽取研究[J].現(xiàn)代圖書情報技術(shù),2014(1):43-50.
[10] 徐川,施水才,房祥,等.中文專利文獻術(shù)語抽取[J].計算機工程與設(shè)計,2013,34(6):2175-2179.
[11] Sui Zhifang,Chen Yirong.The Research on the Automatic Term Extraction in the Domain of Information Science and Technology[C]//Proceedings of the 5th East Asia Forum of the Terminology,2007.
[12] 周浪.中文術(shù)語抽取若干問題研究[D].南京:南京理工大學(xué)計算機學(xué)院,2009.
[13] 傅麗鳥,黃利強,付春雷.一種改進的面向文本的領(lǐng)域概念篩選算法[J].計算機科學(xué),2012,39(Z6):253-256.
[14] 搜狗官方實驗室文本分類語料庫.[EB/OL].(2008-06-30).[2014-07-02].http://www.sogou.com/labs/dl/c.html.
A FIELD TERMINOLOGY EXTRACTION METHOD FOR PATENT ABSTRACTS
Zeng ZhenLü XueqiangLi Zhuo
(BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)
The quality of ontology is determined by the result of terminology extraction in patent field. In this paper we propose a method of terminology extraction, which automatically generates the filtering dictionary and combines the effect of factors such as the intensity of vocabulary terms. First, on the basis of word segmentation and parts of speech tagging, it matches the template generated by the parts of speech rule algorithm on the literatures and gets the candidate long terms set and word-type short terms set. Then it uses the filtering dictionaries generated with documentation coincidence to filter part of the candidate long term set. Finally, in light of the characteristic of long terms constitution, it uses the weighted average of three term factors of word intensity, document discrepancy ratio and document consistency as the term weight of whole long terms, and sorts them from high to low. Experiments were conducted on the benchmark corpus of 8000 patent summary literatures, and we randomly selected five sets of experimental data, the average accuracy rate achieved 86%. Results showed that the method was effective in the aspect of field terminology extraction.
Field terminologyOntology creationFiltering dictionaryWords intensity
2014-07-20。國家自然科學(xué)基金項目(61271304);北京市教委科技發(fā)展計劃重點項目暨北京市自然科學(xué)基金B(yǎng)類重點項目(KZ201311232037);北京市屬高等學(xué)校創(chuàng)新團隊建設(shè)與教師職業(yè)發(fā)展計劃項目(IDHT20130519)。曾鎮(zhèn),碩士,主研領(lǐng)域:中文信息處理。呂學(xué)強,博士。李卓,研究員。
TP3
A
10.3969/j.issn.1000-386x.2016.03.010