摘 要:文章簡(jiǎn)要介紹了自動(dòng)術(shù)語(yǔ)提取任務(wù)的定義、主要方法和評(píng)價(jià)指標(biāo)。針對(duì)傳統(tǒng)的自動(dòng)術(shù)語(yǔ)提取方法,以互信息、t值、tf-idf、C/NC-value為例介紹了單元度和術(shù)語(yǔ)度的概念;針對(duì)自動(dòng)術(shù)語(yǔ)標(biāo)注方法,主要介紹了基于序列標(biāo)注的建模思想。從提取效果來(lái)看,現(xiàn)有自動(dòng)術(shù)語(yǔ)提取技術(shù)距離期望仍有差距,文章也嘗試給出了一些值得探索的方向。
關(guān)鍵詞:自動(dòng)術(shù)語(yǔ)提取;自動(dòng)術(shù)語(yǔ)標(biāo)注;單元度;術(shù)語(yǔ)度;機(jī)器學(xué)習(xí)
中圖分類號(hào):TP391;H083? 文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.001
Techniques of Automatic Term Extraction:Current Sate and Reflections//CHANG Baobao
Abstract: This paper overviews the definition, major approaches and the evaluation metrics of the ATE task. For the traditional approaches, we mainly elaborate the measurement of the Unithood and Termhood, using pointwise mutual information, t-value, ti-idf weighting and C/NC-value as examples. For Automatic Term Labelling, we mainly present the sequence labelling modelling. We think the performance of Automatic Term Extraction/Labelling is still not satisfactory from a point of view of real application, and try to offer a few directions of further improvements.
Keywords: automatic term extraction; automatic term labelling; unithood; termhood; machine learning
引言
術(shù)語(yǔ)(term)是“各門學(xué)科的專門用語(yǔ),在專業(yè)范圍內(nèi)表示單一的專門概念”[1]。術(shù)語(yǔ)處在專業(yè)知識(shí)體系構(gòu)建的基石位置,術(shù)語(yǔ)的獲取、整理和規(guī)范不僅對(duì)專業(yè)知識(shí)體系的構(gòu)建和發(fā)展有重要作用,也會(huì)對(duì)專業(yè)領(lǐng)域之外的其他許多行業(yè)產(chǎn)生影響。
傳統(tǒng)上,術(shù)語(yǔ)的收集整理主要依靠領(lǐng)域?qū)<疫M(jìn)行,這種工作方式的優(yōu)點(diǎn)是質(zhì)量高,缺點(diǎn)也很明顯,成本高,速度慢,難以適應(yīng)當(dāng)今科技高速發(fā)展中術(shù)語(yǔ)大量急速涌現(xiàn)的現(xiàn)狀。20世紀(jì)90年代前后,伴隨著語(yǔ)料庫(kù)建設(shè)的進(jìn)步,利用信息技術(shù)和自然語(yǔ)言處理技術(shù)進(jìn)行術(shù)語(yǔ)快速獲取——自動(dòng)術(shù)語(yǔ)提?。╝utomatic term extraction,ATE)的想法就應(yīng)運(yùn)而生并成為一個(gè)重要的研究議題[2]。
術(shù)語(yǔ)自動(dòng)提取有著不言而喻的重要意義。如果擁有可靠的術(shù)語(yǔ)自動(dòng)提取技術(shù),科技術(shù)語(yǔ)整理、審定與專業(yè)詞典編纂的工作效率和質(zhì)量就會(huì)得到極大提高。術(shù)語(yǔ)作為一種特殊詞匯,在語(yǔ)言實(shí)踐中,常有與普通語(yǔ)言詞匯不同的處理策略和規(guī)律,可靠的術(shù)語(yǔ)自動(dòng)提取技術(shù)也會(huì)對(duì)許多語(yǔ)言文字工作帶來(lái)積極影響,例如,在翻譯、教育等很多行業(yè),及時(shí)、規(guī)范、全面的術(shù)語(yǔ)資源都是非常寶貴的資源。術(shù)語(yǔ)提取和識(shí)別還是專業(yè)自然語(yǔ)言理解的基礎(chǔ)技術(shù),對(duì)于自然語(yǔ)言處理而言,術(shù)語(yǔ)通常都是未登錄詞(out of vocabulary,OOV),術(shù)語(yǔ)自動(dòng)提取技術(shù)的進(jìn)步有助于改善自然語(yǔ)言處理系統(tǒng)未登錄詞的處理能力,有助于推動(dòng)專業(yè)文本機(jī)器理解技術(shù)的發(fā)展。
經(jīng)過(guò)研究人員近三十年的努力,自動(dòng)術(shù)語(yǔ)提取技術(shù)取得了許多進(jìn)展,也出現(xiàn)了一些術(shù)語(yǔ)提取工具。例如,在許多機(jī)器輔助翻譯平臺(tái)中都有相應(yīng)的自動(dòng)術(shù)語(yǔ)管理和提取工具,譬如在著名的機(jī)器輔助翻譯平臺(tái)SDL-Trados中就配備了術(shù)語(yǔ)提取組件SDL MultiTerm Extract,可用于輔助翻譯工作者定位專業(yè)文檔及翻譯記憶庫(kù)中潛在的單語(yǔ)或者雙語(yǔ)術(shù)語(yǔ),從而輔助翻譯工作者改進(jìn)術(shù)語(yǔ)翻譯質(zhì)量。不過(guò),自動(dòng)術(shù)語(yǔ)提取也是一個(gè)有挑戰(zhàn)性的研究任務(wù),總的看來(lái),自動(dòng)術(shù)語(yǔ)提取技術(shù)的性能還不能令人滿意,還需要研究人員的持續(xù)攻關(guān)和努力。
1 自動(dòng)術(shù)語(yǔ)提取的任務(wù)定義
自動(dòng)術(shù)語(yǔ)提取研究從特定專業(yè)文本中提取術(shù)語(yǔ)的自動(dòng)技術(shù)和方法。自動(dòng)術(shù)語(yǔ)提取系統(tǒng)的輸入是特定領(lǐng)域的專業(yè)文本,任務(wù)是通過(guò)對(duì)這些文本的自動(dòng)分析和處理,提取其中的術(shù)語(yǔ)條目并以列表的形式輸出。例如,從給定計(jì)算語(yǔ)言學(xué)文本中,提取其中的計(jì)算語(yǔ)言學(xué)術(shù)語(yǔ)。盡管自動(dòng)術(shù)語(yǔ)提取系統(tǒng)在應(yīng)用時(shí)面向特定的目標(biāo)領(lǐng)域,但現(xiàn)有自動(dòng)提取技術(shù)基本上是通用的,并不因?yàn)樗幚淼念I(lǐng)域不同采用不同的方法。為了指稱的統(tǒng)一,在本文中,我們把自動(dòng)術(shù)語(yǔ)提取所處理的特定領(lǐng)域文本統(tǒng)稱為目標(biāo)領(lǐng)域文本,即自動(dòng)術(shù)語(yǔ)提取系統(tǒng)的輸入是目標(biāo)領(lǐng)域文本,輸出是目標(biāo)領(lǐng)域文本中所使用的目標(biāo)領(lǐng)域術(shù)語(yǔ)條目。
文獻(xiàn)中,除了術(shù)語(yǔ)自動(dòng)提取這個(gè)名稱外,還有一些其他說(shuō)法也指向術(shù)語(yǔ)提取或相關(guān)研究,例如,自動(dòng)術(shù)語(yǔ)識(shí)別(automatic term recognition或automatic term identification)、自動(dòng)術(shù)語(yǔ)檢測(cè)(automatic term detection)、自動(dòng)術(shù)語(yǔ)挖掘(automatic term mining)等。許多文獻(xiàn)不加區(qū)別地使用這些術(shù)語(yǔ),含義都是從目標(biāo)領(lǐng)域文本中提取相應(yīng)的術(shù)語(yǔ)條目。
不過(guò),這里也想特別指出,針對(duì)目標(biāo)領(lǐng)域文本中的術(shù)語(yǔ),從語(yǔ)型(type)和語(yǔ)例(token)兩個(gè)處理角度,實(shí)際上可以構(gòu)思出兩種既相互聯(lián)系又相互區(qū)別的處理任務(wù)。在語(yǔ)型處理層面,旨在提取目標(biāo)領(lǐng)域文本中的術(shù)語(yǔ)條目,而不關(guān)心精確標(biāo)記術(shù)語(yǔ)條目在目標(biāo)領(lǐng)域文本中的每個(gè)使用實(shí)例。與之不同,我們還可以界定一種語(yǔ)例層面的自動(dòng)術(shù)語(yǔ)處理任務(wù),即在目標(biāo)領(lǐng)域文本中精確標(biāo)記所有的術(shù)語(yǔ)實(shí)例。傳統(tǒng)上所說(shuō)的自動(dòng)術(shù)語(yǔ)提取主要指語(yǔ)型層面的處理,我們?cè)诒疚闹蟹Q之為自動(dòng)術(shù)語(yǔ)提取。為了與之區(qū)別,在本文中,我們把上述語(yǔ)例層面的術(shù)語(yǔ)處理任務(wù)統(tǒng)一稱作自動(dòng)術(shù)語(yǔ)標(biāo)注(automatic term labelling,ATL)任務(wù)。二者區(qū)別如下:
a) 目標(biāo)領(lǐng)域文本→自動(dòng)術(shù)語(yǔ)提取ATE→術(shù)語(yǔ)表
b) 目標(biāo)領(lǐng)域文本→自動(dòng)術(shù)語(yǔ)標(biāo)注ATL→標(biāo)注了術(shù)語(yǔ)的目標(biāo)領(lǐng)域文本
自動(dòng)術(shù)語(yǔ)標(biāo)注和提取可以獨(dú)立研究,但也可以結(jié)合進(jìn)行。事實(shí)上,可以將自動(dòng)術(shù)語(yǔ)標(biāo)注看作自動(dòng)術(shù)語(yǔ)提取的前驅(qū)任務(wù),如果可以成功識(shí)別并標(biāo)記目標(biāo)領(lǐng)域文本中的術(shù)語(yǔ),那么只要將這些標(biāo)記好的術(shù)語(yǔ)提取出來(lái)并進(jìn)行去重操作就可以得到相應(yīng)的術(shù)語(yǔ)條目列表,從而實(shí)現(xiàn)術(shù)語(yǔ)提取的目的。
這里之所以對(duì)自動(dòng)術(shù)語(yǔ)提取和自動(dòng)術(shù)語(yǔ)標(biāo)注區(qū)別對(duì)待,除了自動(dòng)術(shù)語(yǔ)標(biāo)注可以作為術(shù)語(yǔ)提取的實(shí)現(xiàn)技術(shù)之外,更為重要的是,從專業(yè)文本機(jī)器理解這個(gè)更為一般的角度出發(fā),自動(dòng)術(shù)語(yǔ)標(biāo)注更具基礎(chǔ)意義,在許多專業(yè)文本的機(jī)器理解任務(wù)中,更加需要語(yǔ)例層級(jí)的術(shù)語(yǔ)標(biāo)注處理,因此自動(dòng)術(shù)語(yǔ)標(biāo)注技術(shù)除可以用以支持術(shù)語(yǔ)提取外,也是專業(yè)文本機(jī)器理解的基礎(chǔ)技術(shù)。
2 術(shù)語(yǔ)的組成和統(tǒng)計(jì)特性
要想利用計(jì)算機(jī)自動(dòng)標(biāo)注或提取目標(biāo)領(lǐng)域文本中的術(shù)語(yǔ),就需要研究和總結(jié)術(shù)語(yǔ)在組成和分布方面的形式特征。作為一種特殊的語(yǔ)言表達(dá),術(shù)語(yǔ)有著與普通詞語(yǔ)和短語(yǔ)不同的區(qū)別性特征。
從術(shù)語(yǔ)的組成來(lái)看,術(shù)語(yǔ)通常由一個(gè)或多個(gè)單詞組成。由一個(gè)單詞組成的術(shù)語(yǔ)通常稱作簡(jiǎn)單術(shù)語(yǔ)(simple term)或單詞術(shù)語(yǔ)(single-word term),由不止一個(gè)單詞組成的術(shù)語(yǔ)通常稱作復(fù)雜術(shù)語(yǔ)(complex term)或多詞術(shù)語(yǔ)(multi-word term)。僅從組成單詞的數(shù)量上看,術(shù)語(yǔ)與普通短語(yǔ)并沒(méi)有區(qū)別。但術(shù)語(yǔ)與普通短語(yǔ)具有性質(zhì)上的差異,術(shù)語(yǔ)是指稱領(lǐng)域概念的,所指通常固定明確。即便是復(fù)雜術(shù)語(yǔ),本質(zhì)上仍是詞匯層面的語(yǔ)言單位[3]。術(shù)語(yǔ)與普通短語(yǔ)在性質(zhì)上的不同決定了術(shù)語(yǔ)必然具有不同于普通短語(yǔ)的特殊組成模式和特殊統(tǒng)計(jì)特性。
(1) 從語(yǔ)言學(xué)角度看,術(shù)語(yǔ)大多是名詞或者名詞短語(yǔ),這是由術(shù)語(yǔ)是對(duì)概念的指稱這一特點(diǎn)決定的。例如,根據(jù)文獻(xiàn)[3]對(duì)四個(gè)領(lǐng)域術(shù)語(yǔ)的抽樣調(diào)查,名詞短語(yǔ)在英語(yǔ)術(shù)語(yǔ)中所占比例很高,在所調(diào)查的四個(gè)領(lǐng)域中比例介于92.5%和99.0%之間。
(2) 術(shù)語(yǔ)意義一般不是其組成單詞意義的簡(jiǎn)單疊加,在使用中,變化有限。不具有一般短語(yǔ)所具有的(修飾詞)省略、變化、替換甚至增添等靈活變化現(xiàn)象[3]。術(shù)語(yǔ)形式變化,通常會(huì)導(dǎo)致所指的變化,也會(huì)造成歧義,所以同一術(shù)語(yǔ)在使用中形式基本不發(fā)生變化。
(3) 術(shù)語(yǔ)組成模式相對(duì)有限。例如,根據(jù)文獻(xiàn)[3]對(duì)四個(gè)領(lǐng)域中多詞術(shù)語(yǔ)的調(diào)查,僅由名詞、形容詞和介詞組成的名詞短語(yǔ)型術(shù)語(yǔ)占比在99%以上,僅由名詞和形容詞組成的名詞短語(yǔ)型術(shù)語(yǔ)占比可達(dá)97%,并認(rèn)為英語(yǔ)術(shù)語(yǔ)的組成可用正則表達(dá)式描述如下[3]:
((A|N)+(A|N)*(NP)?(A|N)*)N
這里A、N、P分別代表形容詞、名詞和介詞。AN、NN、AAN、ANN、NAN、NNN、NPN等常見(jiàn)的英語(yǔ)術(shù)語(yǔ)組成模式都可以由該表達(dá)式所生成并覆蓋。
(4) 在目標(biāo)領(lǐng)域文本中,術(shù)語(yǔ)通常具有較高的出現(xiàn)頻率。而且與普通短語(yǔ)不同,術(shù)語(yǔ)在領(lǐng)域文本和一般文本中有較大的分布差異,集中出現(xiàn)在所屬領(lǐng)域的文本中,而在其他領(lǐng)域文本中則較少出現(xiàn)。
(5) 復(fù)雜術(shù)語(yǔ)的組成單詞之間結(jié)合緊密穩(wěn)定,形成領(lǐng)域文本中的特有固定搭配。從統(tǒng)計(jì)學(xué)的角度看,復(fù)雜術(shù)語(yǔ)各組件的共現(xiàn)頻度通常會(huì)顯著超過(guò)一般預(yù)期。
(6) 在專業(yè)文本中,術(shù)語(yǔ)的上下文語(yǔ)境也有一定封閉性,尤其是與術(shù)語(yǔ)共現(xiàn)的實(shí)詞往往因領(lǐng)域不同而不同。
術(shù)語(yǔ)的組成和統(tǒng)計(jì)特性是利用計(jì)算機(jī)識(shí)別和提取術(shù)語(yǔ)的主要依據(jù),大多數(shù)術(shù)語(yǔ)自動(dòng)提取方法是根據(jù)和利用上述術(shù)語(yǔ)特點(diǎn)而設(shè)計(jì)的。例如,利用術(shù)語(yǔ)的語(yǔ)言學(xué)特點(diǎn),將目標(biāo)領(lǐng)域文本中符合特定模式的名詞短語(yǔ)視作潛在的術(shù)語(yǔ)候選,或者利用術(shù)語(yǔ)的統(tǒng)計(jì)特性設(shè)計(jì)不同的度量指標(biāo)衡量單詞和多詞組合作為術(shù)語(yǔ)的可能性。
3 單元度和術(shù)語(yǔ)度
從計(jì)算機(jī)的角度出發(fā),目標(biāo)領(lǐng)域文本中任何一個(gè)單詞或者連續(xù)幾個(gè)單詞的組合都有成為術(shù)語(yǔ)的可能。在本文中,我們把目標(biāo)領(lǐng)域文本中任意一個(gè)由n個(gè)單詞組成的連續(xù)片段稱作n元組(n≥1)。理論上,任何一個(gè)長(zhǎng)度小于術(shù)語(yǔ)最大長(zhǎng)度的n元組都有成為術(shù)語(yǔ)的可能,我們把這些n元組稱作術(shù)語(yǔ)候選(term candidate),計(jì)算機(jī)需要逐一評(píng)價(jià)這些術(shù)語(yǔ)候選,計(jì)算它們作為術(shù)語(yǔ)的可能性。
衡量一個(gè)n元組是否構(gòu)成術(shù)語(yǔ)通常被歸結(jié)為計(jì)算兩個(gè)指標(biāo)的問(wèn)題,即計(jì)算單元度和術(shù)語(yǔ)度[4]的問(wèn)題。
單元度(unithood)是針對(duì)復(fù)雜術(shù)語(yǔ)而言的,一個(gè)包含多個(gè)單詞的n元組要成為一個(gè)術(shù)語(yǔ),前提是它們需要構(gòu)成一個(gè)固定搭配,組成單詞間需要結(jié)合緊密并整體構(gòu)成一個(gè)語(yǔ)言單位。單元度就是衡量一個(gè)多詞n元組中詞與詞之間關(guān)聯(lián)強(qiáng)度的指標(biāo)。但組合緊密穩(wěn)定的多詞組合未必就是術(shù)語(yǔ),術(shù)語(yǔ)需要具有領(lǐng)域性,術(shù)語(yǔ)度(termhood)就是用來(lái)衡量一個(gè)n元組與特定領(lǐng)域關(guān)聯(lián)程度的度量指標(biāo)。
因此,對(duì)于目標(biāo)領(lǐng)域文本中的某個(gè)n元組是否構(gòu)成術(shù)語(yǔ),可以分別計(jì)算該n元組的單元度和術(shù)語(yǔ)度分值,如果單元度和術(shù)語(yǔ)度得分都高的話,那么這個(gè)n元組很可能是一個(gè)術(shù)語(yǔ)。
多年來(lái),研究人員先后設(shè)計(jì)和使用了很多計(jì)算單元度和術(shù)語(yǔ)度的具體方法,這些方法形式各不相同,但原理上都是利用術(shù)語(yǔ)的形式和分布特點(diǎn)。
3.1 單元度計(jì)算
常見(jiàn)的單元度計(jì)算方法包括t值、χ2值、對(duì)數(shù)似然比、點(diǎn)式互信息、Dice系數(shù)等多種方法。一一羅列和介紹這些方法并無(wú)必要,我們這里只介紹其中兩個(gè)計(jì)算指標(biāo),分別是點(diǎn)式互信息和t值。選擇這兩個(gè)指標(biāo),主要是因?yàn)辄c(diǎn)式互信息比較常見(jiàn),而t值可以作為一類方法的代表。
(1) 基于點(diǎn)式互信息的單元度計(jì)算
點(diǎn)式互信息(point-wise mutual information)源自信息論,用于衡量?jī)蓚€(gè)具體事件所共有的信息量。點(diǎn)式互信息值可以區(qū)分三種不同的事件依賴關(guān)系:若兩個(gè)事件高度依賴,總是相伴出現(xiàn),則其點(diǎn)式互信息通常為較大的正值;若兩個(gè)事件相互獨(dú)立,則其點(diǎn)式互信息為0;若兩個(gè)事件互相排斥,則其點(diǎn)式互信息為負(fù)值。以二元組wawb為例,wa和wb間的點(diǎn)式互信息計(jì)算如下:
Iwa,wb=log2Pwa,wbPwaPwb
這里,P(wa,wb)、P(wa)和P(wb)分別代表二元組wawb、wa和wb在目標(biāo)領(lǐng)域文本中出現(xiàn)的概率,它們均可以通過(guò)目標(biāo)領(lǐng)域文本加以估計(jì)。
若在目標(biāo)領(lǐng)域文本中,wa和wb總是結(jié)伴出現(xiàn),此時(shí)二者之間聯(lián)系緊密,其點(diǎn)式互信息為正值;若wa和wb相互獨(dú)立或者在語(yǔ)料中互相排斥,則點(diǎn)式互信息為0或者負(fù)值。所以互信息值可以作為單元度的一種度量值,互信息值越大,說(shuō)明單詞之間結(jié)合穩(wěn)定緊密。而互信息為0或者為負(fù)值,即使二者相伴共現(xiàn),也是偶然共現(xiàn),wa出現(xiàn)不會(huì)提升wb出現(xiàn)的可能性或者會(huì)降低wb出現(xiàn)的可能性。
點(diǎn)式互信息會(huì)有低頻偏執(zhí)問(wèn)題,當(dāng)wa和wb在文本中出現(xiàn)稀疏時(shí),容易得到虛高的點(diǎn)式互信息,習(xí)慣上,人們通常采用下面的方式減緩低頻偏執(zhí)問(wèn)題:
I-wa,wb=fwa,wb×Iwa,wb
其中,fwa,wb是二元組wawb在目標(biāo)領(lǐng)域文本中出現(xiàn)的頻率,Iwa,wb是未加改進(jìn)的點(diǎn)式互信息,I-wa,wb是改進(jìn)后的點(diǎn)式互信息。
(2) 基于t值的單元度計(jì)算
在單元度計(jì)算中,有一類方法脫胎于數(shù)理統(tǒng)計(jì)中的假設(shè)-檢驗(yàn)法,是對(duì)假設(shè)-檢驗(yàn)法的簡(jiǎn)化使用,用t值作為單元度計(jì)算指標(biāo)就是這樣一種方法,同樣基于假設(shè)-檢驗(yàn)原理的單元度計(jì)算方法還包括χ2值、對(duì)數(shù)似然比等計(jì)算方法。
用假設(shè)-檢驗(yàn)的方法確定n元組組成單詞之間結(jié)合是否緊密,首先需要預(yù)設(shè)兩個(gè)假設(shè):原假設(shè)(null hypothesis)和備擇假設(shè)(alternative hypothesis)。原假設(shè)假定組成單詞之間結(jié)合不緊密,這些單詞之所以共現(xiàn)完全是偶然所致。而備擇假設(shè)假定這些單詞之間結(jié)合緊密。
假設(shè)-檢驗(yàn)法采用一種類似反證法的邏輯來(lái)論證n元組組成單詞之間結(jié)合是否緊密。首先假定原假設(shè)成立,那么基于原假設(shè),可根據(jù)統(tǒng)計(jì)學(xué)知識(shí)推斷該n元組在目標(biāo)領(lǐng)域文本中應(yīng)該具有的統(tǒng)計(jì)特性,然后與目標(biāo)領(lǐng)域文本中觀察到的真實(shí)統(tǒng)計(jì)特性做比對(duì),如果推斷得到的統(tǒng)計(jì)特性和真實(shí)統(tǒng)計(jì)特性有較大差異,以至于大到在假定原假設(shè)成立的前提下不大可能發(fā)生的程度,那么我們就可以有較大的信心確定作為推斷基礎(chǔ)的原假設(shè)不成立,而轉(zhuǎn)向承認(rèn)認(rèn)為單詞間結(jié)合穩(wěn)定緊密的備擇假設(shè)成立;反過(guò)來(lái),如果根據(jù)原假設(shè)推斷得到的統(tǒng)計(jì)特性和真實(shí)統(tǒng)計(jì)特性差異較小,在原假設(shè)成立的前提下發(fā)生的概率很大,那此時(shí)就需要承認(rèn)認(rèn)為單詞之間結(jié)合不緊密的原假設(shè)。不同的假設(shè)-檢驗(yàn)方法對(duì)數(shù)據(jù)分布和差異度量有不同的規(guī)定,但道理基本一樣。在利用假設(shè)-檢驗(yàn)方法計(jì)算單元度時(shí),通常并不完整使用假設(shè)-檢驗(yàn)的完整流程,而只關(guān)心統(tǒng)計(jì)特性的差異值,差異值越大,則認(rèn)為單詞間結(jié)合越緊密,t值就是一種這樣的差異值,具體而言,t值是反映樣本均值和原假設(shè)成立前提下推斷值的差異程度的統(tǒng)計(jì)量,一般形式如下:
t=x-μSE
這里x代表樣本均值,μ代表原假設(shè)成立前提下的推斷值,SE是均值估計(jì)的標(biāo)準(zhǔn)誤差(standard error),t值以標(biāo)準(zhǔn)誤差為單位衡量樣本均值和推斷值的差異程度。
這里,我們?nèi)砸杂?jì)算二元組wawb的單元度為例,說(shuō)明t值的計(jì)算過(guò)程。原假設(shè)是wa與wb結(jié)合不緊密,也就是說(shuō)wa與wb在文本中出現(xiàn)時(shí)相互獨(dú)立,按照獨(dú)立性的判定原則,可以推斷二元組wawb在目標(biāo)領(lǐng)域文本中出現(xiàn)的概率Pwa,wb為:
P0=Pwa·Pwb
同時(shí)利用目標(biāo)領(lǐng)域文本,也可得到二元組wawb在目標(biāo)領(lǐng)域文本中出現(xiàn)概率Pwa,wb的估值P1。t值即可用來(lái)衡量二者間的差異:
t=P1-P0SE
由于估算P1采用均值估算,若用N代表目標(biāo)領(lǐng)域文本的長(zhǎng)度,依據(jù)大數(shù)定律,估值P1的標(biāo)準(zhǔn)誤差為:
SE= P11-P1N
因此,只要給定目標(biāo)領(lǐng)域文本,就能計(jì)算出給定二元組的t值。t值越大,表明P1與P0之間的差異越大,說(shuō)明wawb在目標(biāo)領(lǐng)域文本中結(jié)伴出現(xiàn)的概率遠(yuǎn)大于二者獨(dú)立出現(xiàn)的概率,也就說(shuō)明二者組合可視作結(jié)合穩(wěn)定緊密的整體。在假設(shè)檢驗(yàn)的實(shí)踐中,通常還需要計(jì)算置信區(qū)間并進(jìn)一步做出推翻原假設(shè)和接受原假設(shè)的結(jié)論,但對(duì)于單元度計(jì)算而言,通常只考慮t值的相對(duì)大小,t值越大,單元度越大;t值越小,單元度越小,無(wú)須明確做出接受原假設(shè)和推翻原假設(shè)的結(jié)論。
在上面的介紹中,我們以二元組為例進(jìn)行說(shuō)明,若對(duì)一般的n元組可以進(jìn)行計(jì)算方式的推廣或者采用迭代方式進(jìn)行[5]。
3.2 術(shù)語(yǔ)度計(jì)算
術(shù)語(yǔ)度計(jì)算術(shù)語(yǔ)候選和領(lǐng)域的關(guān)聯(lián)程度。術(shù)語(yǔ)度計(jì)算的出發(fā)點(diǎn)依然是充分利用術(shù)語(yǔ)的統(tǒng)計(jì)特性。術(shù)語(yǔ)具有領(lǐng)域分布不平衡的特點(diǎn),在計(jì)算術(shù)語(yǔ)度時(shí)要利用這一特點(diǎn),單純使用目標(biāo)領(lǐng)域文本是不夠的,需要引入目標(biāo)領(lǐng)域文本之外的其他領(lǐng)域文本或不具備領(lǐng)域色彩的普通文本作為比對(duì)參照,這樣的文本稱作參照文本(reference text)。
與單元度計(jì)算類似,現(xiàn)有術(shù)語(yǔ)度計(jì)算方法也有很多,這里介紹兩種較為常見(jiàn)的計(jì)算方法:
(1) 基于項(xiàng)頻率-逆向文檔頻率的術(shù)語(yǔ)度計(jì)算方法
項(xiàng)頻率(term frequency,tf)、文檔頻率(document frequency,df)、逆向文檔頻率(inverse document frequency,idf)等概念源自信息檢索研究。項(xiàng)頻率-逆向文檔頻率(tf-idf)計(jì)算方法是一種為文檔中項(xiàng)(term)賦以權(quán)值的方法,項(xiàng)是信息檢索中用以表征文檔內(nèi)容的詞或者短語(yǔ),項(xiàng)的tf-idf權(quán)值用來(lái)代表項(xiàng)對(duì)于文檔的重要程度。在英文中,項(xiàng)與術(shù)語(yǔ)均用term指稱,含義不完全相同,但也有共性,項(xiàng)是一個(gè)文檔中最具信息意義的詞或者短語(yǔ),而術(shù)語(yǔ)則是一個(gè)目標(biāo)領(lǐng)域中最具信息價(jià)值的詞或短語(yǔ)。鑒于這種共性,tf-idf計(jì)算方法常被術(shù)語(yǔ)提取研究作為術(shù)語(yǔ)度計(jì)算方法。
設(shè)D為一個(gè)文檔集合,D=d1,d2,…,dD,其中,d1,d2,…,dD代表集合中所包含的文檔,在術(shù)語(yǔ)度計(jì)算的語(yǔ)境下,可以將這些文檔看作領(lǐng)域文本,這里我們把其中的di看作目標(biāo)領(lǐng)域文本,其余的文本看作普通文本或者其他領(lǐng)域文本,起參照文本的作用。
對(duì)于給定的n元組tc,基于上述文檔集合D,可以得到兩個(gè)統(tǒng)計(jì)數(shù)據(jù),一是tc在目標(biāo)領(lǐng)域文本di中的頻率,稱作項(xiàng)頻率,記作tfi(tc);另一個(gè)是tc所出現(xiàn)過(guò)的所有文本的數(shù)量,稱作文檔頻率,記作df(tc)。項(xiàng)頻率高意味著tc在目標(biāo)領(lǐng)域文本中頻率高,可能是術(shù)語(yǔ),而文檔頻率底,則意味著tc只在少量文本中出現(xiàn),區(qū)別于在所有文本中都大致均勻出現(xiàn)的非術(shù)語(yǔ)詞匯,組合這兩個(gè)因素,即可形成一種集項(xiàng)頻率和文檔頻率的術(shù)語(yǔ)度度量指標(biāo):
tf-idfitc=tfitc·log2Ddftc
在上述計(jì)算公式中,文檔頻率是以倒數(shù)形式出現(xiàn)的,因文檔頻率的倒數(shù)形式被稱作逆向文檔頻率,這種計(jì)算方法被稱作基于項(xiàng)頻率和逆向文檔頻率的計(jì)算方法??梢钥闯觯瑢?duì)于一個(gè)候選術(shù)語(yǔ)tc而言,它在目標(biāo)領(lǐng)域文本中頻率越高,且出現(xiàn)在其他參照文本中的數(shù)量越少,則其tf-idf值就越大,tc是術(shù)語(yǔ)的可能性就越高,這與術(shù)語(yǔ)分布的統(tǒng)計(jì)特性是一致的。
(2) 基于C-value和NC-value的術(shù)語(yǔ)度計(jì)算方法
C-value與NC-value[7-8]也是自動(dòng)術(shù)語(yǔ)提取研究中常見(jiàn)的術(shù)語(yǔ)度計(jì)算方法。
C-value在計(jì)算時(shí)考慮了術(shù)語(yǔ)候選之間的嵌套關(guān)系。綜合而言,對(duì)于一個(gè)候選術(shù)語(yǔ)tc而言,其C-value可通過(guò)下面的公式加以計(jì)算:
C-value(tc)=
log2|tc|·f(tc),若tc不被嵌套
log2|tc|·(f(tc)-1|Ttc|∑b∈Ttcf(b)),若tc被嵌套
在上面的式子中,f(tc)代表術(shù)語(yǔ)候選tc在目標(biāo)領(lǐng)域文本中出現(xiàn)的頻率,tc代表術(shù)語(yǔ)候選tc的長(zhǎng)度,即tc中包含單詞的數(shù)量??梢钥吹?,術(shù)語(yǔ)候選tc在目標(biāo)領(lǐng)域文本中出現(xiàn)的次數(shù)越多,其C-value就會(huì)越大,tc就越可能是一個(gè)術(shù)語(yǔ)。C-value將術(shù)語(yǔ)候選的長(zhǎng)度因素也納入考慮范圍,可以看出,若頻率相同,一個(gè)較長(zhǎng)的n元組比一個(gè)較短的n元組更可能是術(shù)語(yǔ)。
C-value的一個(gè)主要?jiǎng)?chuàng)新在于將術(shù)語(yǔ)候選之間的嵌套關(guān)系考慮在內(nèi)。在計(jì)算一個(gè)術(shù)語(yǔ)候選tc的C-value時(shí),tc可能會(huì)作為一個(gè)組成部分嵌套在其他更長(zhǎng)的n元組中,而在統(tǒng)計(jì)tc的頻率時(shí),會(huì)將嵌套在其他n元組中的tc的頻率也計(jì)算在內(nèi),從而高估了tc作為術(shù)語(yǔ)的可能。因此,在評(píng)價(jià)tc作為術(shù)語(yǔ)的可能性時(shí),需要將嵌套在其他n元組的這部分tc頻率做折減處理。一般而言,當(dāng)tc被其他n元組嵌套時(shí),會(huì)有兩種可能,一種可能為tc是術(shù)語(yǔ),另一種可能為tc不是術(shù)語(yǔ)。若tc是術(shù)語(yǔ),那么完全折減嵌套在其他n元組中的頻率又會(huì)引起低估tc作為術(shù)語(yǔ)的可能,因此需要根據(jù)tc是術(shù)語(yǔ)的可能性大小做不同的折減處理。那么如何判斷一個(gè)處在嵌套中的tc作為術(shù)語(yǔ)的可能性呢?一個(gè)可行的辦法是評(píng)判tc的獨(dú)立性。通常而言,若tc可以被很多不同的n元組所嵌套,說(shuō)明tc可以出現(xiàn)在很多不同的語(yǔ)境中,具有較強(qiáng)的獨(dú)立性,此時(shí)tc更可能是一個(gè)術(shù)語(yǔ),在頻率折減時(shí),應(yīng)該折減少一些;但若tc只能被很少其他的n元組所嵌套,甚至只能被一個(gè)n元組所嵌套時(shí),這說(shuō)明tc具有較強(qiáng)的黏著性,只是包含它的n元組的組成部分,此時(shí)更應(yīng)該考慮包含它的n元組是否為術(shù)語(yǔ),這種情況下,在折減頻率時(shí),可以折減得多一些,降低tc作為術(shù)語(yǔ)的可能性。C-value在計(jì)算時(shí)通過(guò)按照包含tc的n元組個(gè)數(shù)對(duì)折減頻率總和取平均的方式體現(xiàn)了這一思想。在上面的公式中,Ttc代表由所有包含tc的n元組組成的集合,b代表其中的n元組,fb代表n元組b在目標(biāo)領(lǐng)域文本中的頻率。式中首先累加包含tc的所有n元組的頻率,然后按照包含tc的n元組個(gè)數(shù)Ttc對(duì)頻率和取平均作為最終折減頻率。
需要補(bǔ)充說(shuō)明的是,上述的C-value計(jì)算公式只能計(jì)算多詞術(shù)語(yǔ)候選的術(shù)語(yǔ)度。原因在于對(duì)于單詞術(shù)語(yǔ)候選而言,公式中的系數(shù)log2tc恒為0,使得所有單詞術(shù)語(yǔ)候選的術(shù)語(yǔ)度計(jì)算結(jié)果均為0。針對(duì)這一問(wèn)題,文獻(xiàn)[9]提出將公式中的系數(shù)部分修改為1+log2tc,從而將單詞術(shù)語(yǔ)候選術(shù)語(yǔ)度計(jì)算問(wèn)題涵蓋在內(nèi)。
C-value計(jì)算綜合考慮了n元組的頻率、n元組的長(zhǎng)度和n元組間的嵌套關(guān)系,根據(jù)這些因素計(jì)算n元組作為術(shù)語(yǔ)的可能性。但在C-value的計(jì)算中,沒(méi)有考慮到術(shù)語(yǔ)候選語(yǔ)境中的詞對(duì)術(shù)語(yǔ)度計(jì)算的影響。一般而言,術(shù)語(yǔ)對(duì)其語(yǔ)境中的詞有選擇限制作用,一些詞比另外一些詞更容易出現(xiàn)在術(shù)語(yǔ)的語(yǔ)境中,換句話說(shuō),如果某個(gè)術(shù)語(yǔ)候選的語(yǔ)境中出現(xiàn)了這樣的詞,那么這個(gè)術(shù)語(yǔ)候選就更有可能是術(shù)語(yǔ)。這也就是說(shuō),語(yǔ)境中出現(xiàn)的詞對(duì)判定術(shù)語(yǔ)候選是否為術(shù)語(yǔ)有指示作用。NC-value計(jì)算正是基于這一動(dòng)機(jī),在C-value計(jì)算的基礎(chǔ)上增加了語(yǔ)境影響因素。
并非所有出現(xiàn)在術(shù)語(yǔ)候選語(yǔ)境中的詞對(duì)術(shù)語(yǔ)判定都有指示作用,即使有指示作用,不同詞指示能力的強(qiáng)弱也不盡相同。因此,計(jì)算NC-value之前需要事先確定哪些詞對(duì)術(shù)語(yǔ)判定有指示作用,若有指示作用,還要確定表征它們指示能力強(qiáng)弱的權(quán)重。這些對(duì)術(shù)語(yǔ)判定有指示作用的詞稱作術(shù)語(yǔ)語(yǔ)境詞(term context word)。術(shù)語(yǔ)語(yǔ)境詞包含哪些詞與處理的目標(biāo)領(lǐng)域有關(guān),在一個(gè)領(lǐng)域中是目標(biāo)語(yǔ)境詞,在另一個(gè)目標(biāo)領(lǐng)域中未必是目標(biāo)語(yǔ)境詞。
為給定的目標(biāo)領(lǐng)域選擇語(yǔ)境詞,需要首先準(zhǔn)備一個(gè)包含一定條目的種子術(shù)語(yǔ)表。這個(gè)術(shù)語(yǔ)表可以從現(xiàn)有的術(shù)語(yǔ)詞表中選擇一些術(shù)語(yǔ)組成。如果沒(méi)有這樣的術(shù)語(yǔ)表,也可以基于C-value,選擇C-value靠前的若干術(shù)語(yǔ)候選組成目標(biāo)領(lǐng)域術(shù)語(yǔ)表。
確定一個(gè)詞w是否為術(shù)語(yǔ)語(yǔ)境詞,可以統(tǒng)計(jì)w曾經(jīng)在多少種子術(shù)語(yǔ)的語(yǔ)境中出現(xiàn)過(guò),w在越多的種子術(shù)語(yǔ)語(yǔ)境中出現(xiàn)過(guò),就越可能是一個(gè)術(shù)語(yǔ)語(yǔ)境詞,因而其權(quán)重可用與其共現(xiàn)過(guò)的種子術(shù)語(yǔ)的比例來(lái)衡量:
weight(w)=|T(w)||T|
其中,T代表種子術(shù)語(yǔ)集合,T(w)是語(yǔ)境中出現(xiàn)過(guò)w的所有種子術(shù)語(yǔ)的集合。
NC-value在C-value的基礎(chǔ)上增加了對(duì)術(shù)語(yǔ)語(yǔ)境詞影響的考慮,術(shù)語(yǔ)候選tc作為術(shù)語(yǔ)的可能性由其C-value和語(yǔ)境詞影響兩個(gè)部分按照不同的比例綜合計(jì)算得到:
NC-value(tc)=0.8C-value(tc)+0.2∑b∈Ctcftc(b)weight(b)
上式中,Ctc是出現(xiàn)在tc語(yǔ)境中的所有術(shù)語(yǔ)語(yǔ)境詞的集合,在計(jì)算這些語(yǔ)境詞的影響時(shí),一個(gè)語(yǔ)境詞b對(duì)tc是否為術(shù)語(yǔ)的影響由其權(quán)重weight(b)與其出現(xiàn)在tc語(yǔ)境中的次數(shù)ftc(b)共同決定。
4 術(shù)語(yǔ)提取的一般流程
術(shù)語(yǔ)提取系統(tǒng)通常采用兩階段的流水線架構(gòu),其中第一階段生成術(shù)語(yǔ)候選,第二階段對(duì)術(shù)語(yǔ)候選進(jìn)行單元度和術(shù)語(yǔ)度評(píng)分,整體流程如下:
目標(biāo)領(lǐng)域文本→提取術(shù)語(yǔ)候選①→評(píng)分和排序②→術(shù)語(yǔ)條目列表
4.1 提取術(shù)語(yǔ)候選
提取術(shù)語(yǔ)候選的目的是從目標(biāo)領(lǐng)域文本中選擇可能是術(shù)語(yǔ)的單詞或者多詞組合,這些選擇出的單詞或者多詞組合未必是術(shù)語(yǔ),它們是否為術(shù)語(yǔ)需要交給后續(xù)階段進(jìn)一步評(píng)估。從這一階段的目的和在整個(gè)提取流程中的作用來(lái)看,理想的結(jié)果應(yīng)該是既不漏掉真正的術(shù)語(yǔ)也不應(yīng)該生成太多的術(shù)語(yǔ)候選。生成太多的術(shù)語(yǔ)候選會(huì)增加第二階段的工作負(fù)擔(dān),降低效率,但漏掉真正術(shù)語(yǔ)會(huì)影響術(shù)語(yǔ)提取任務(wù)的準(zhǔn)確率,造成提取質(zhì)量下降。
術(shù)語(yǔ)的長(zhǎng)度有限,對(duì)術(shù)語(yǔ)提取系統(tǒng)而言,長(zhǎng)度在一定范圍內(nèi)的連續(xù)n元詞串都有可能是術(shù)語(yǔ),因此生成術(shù)語(yǔ)候選最簡(jiǎn)單的辦法是首先設(shè)定一個(gè)術(shù)語(yǔ)的長(zhǎng)度上限MaxLen,然后窮盡列出目標(biāo)領(lǐng)域文本中長(zhǎng)度不超過(guò)MaxLen的所有n元組(1≤n≤MaxLen),然后將所有這些n元組作為術(shù)語(yǔ)候選提供給第二階段進(jìn)行評(píng)判。
當(dāng)然這種方法會(huì)生成大量的術(shù)語(yǔ)候選,通??梢赃x擇利用下面的策略對(duì)候選做進(jìn)一步的裁剪和篩選:
(1)引入停用詞表(stop list),列出所有不可能在術(shù)語(yǔ)中出現(xiàn)的單詞;應(yīng)用停用詞表,將其中含有或特定位置含有停用詞的n元組剔除,從而減少術(shù)語(yǔ)候選的數(shù)量。
(2)引入語(yǔ)言學(xué)知識(shí),如前文所述,多詞術(shù)語(yǔ)絕大多數(shù)由名詞、形容詞按照一定的模式構(gòu)成,可以利用預(yù)定義的詞類模式對(duì)術(shù)語(yǔ)候選進(jìn)行過(guò)濾篩選,如可把能與第2節(jié)中正則表達(dá)式成功匹配的n元組作為術(shù)語(yǔ)候選。這種策略是一種常見(jiàn)的將語(yǔ)言學(xué)知識(shí)引入術(shù)語(yǔ)提取過(guò)程中的做法。不過(guò),由于模式匹配建立在詞類模式的基礎(chǔ)上,需要事先對(duì)目標(biāo)領(lǐng)域文本進(jìn)行詞類標(biāo)注處理,由于現(xiàn)有詞類標(biāo)注程序并不完美,存在錯(cuò)誤標(biāo)注的情況,也會(huì)對(duì)術(shù)語(yǔ)候選生成產(chǎn)生一定的影響。
(3)鑒于術(shù)語(yǔ)多為名詞短語(yǔ),也有研究限定只處理名詞短語(yǔ),規(guī)定術(shù)語(yǔ)候選需要是名詞短語(yǔ)。這會(huì)對(duì)目標(biāo)領(lǐng)域文本處理提出更高的要求,需要對(duì)目標(biāo)領(lǐng)域文本進(jìn)行句法或者名詞組塊分析處理。同樣自動(dòng)句法或組塊分析的效果也會(huì)對(duì)術(shù)語(yǔ)候選質(zhì)量產(chǎn)生影響。
4.2 評(píng)分和排序
評(píng)分和排序階段的任務(wù)是通過(guò)評(píng)分的方式對(duì)第一階段生成的術(shù)語(yǔ)候選逐一評(píng)價(jià),按照一定的準(zhǔn)則評(píng)判術(shù)語(yǔ)候選作為術(shù)語(yǔ)的分值,并根據(jù)分值對(duì)術(shù)語(yǔ)候選排序,截取得分較高的術(shù)語(yǔ)候選條目作為最終結(jié)果輸出給用戶。用戶通??梢灾付ㄝ敵鲂g(shù)語(yǔ)候選條目的數(shù)量,如可以設(shè)定提取條目數(shù)量,輸出得分排序靠前的r個(gè)術(shù)語(yǔ)候選條目;也可以設(shè)定得分閾值,輸出得分超過(guò)閾值的術(shù)語(yǔ)候選條目;還可以采用相對(duì)比例的方式,選取得分排在前x%的術(shù)語(yǔ)條目作為最終術(shù)語(yǔ)提取結(jié)果。
術(shù)語(yǔ)候選評(píng)分是自動(dòng)術(shù)語(yǔ)提取的核心環(huán)節(jié),評(píng)分方法主要是統(tǒng)計(jì)方法,如可以從上面介紹的單元度和術(shù)語(yǔ)度兩個(gè)角度進(jìn)行評(píng)判,再將二者得分進(jìn)行綜合排序。當(dāng)然在具體系統(tǒng)實(shí)現(xiàn)中,未必需要專門的單元度和術(shù)語(yǔ)度評(píng)分組件,但評(píng)分一般應(yīng)能體現(xiàn)出對(duì)術(shù)語(yǔ)候選在這兩個(gè)方面的考量。
有時(shí)會(huì)進(jìn)行不止一次的評(píng)分和排序處理,這樣的策略被稱作重排序(reranking)策略。之所以這樣,通常是希望在前一種評(píng)分策略的基礎(chǔ)上增加新的關(guān)注因素,在第一次排序所得到的結(jié)果中使用改進(jìn)的或新的評(píng)分策略重新評(píng)分并排序,以達(dá)到改進(jìn)術(shù)語(yǔ)提取質(zhì)量的目標(biāo)。例如,首先使用C-value對(duì)術(shù)語(yǔ)候選進(jìn)行評(píng)分并排序,選取C-value得分最高的若干提取結(jié)果選擇術(shù)語(yǔ)語(yǔ)境詞,在選定語(yǔ)境詞后,計(jì)算候選術(shù)語(yǔ)的NC-value,并再次基于NC-value的大小對(duì)術(shù)語(yǔ)候選進(jìn)行排序。由于在計(jì)算NC-value時(shí),考慮了候選術(shù)語(yǔ)的語(yǔ)境特征,新的排序結(jié)果會(huì)更加準(zhǔn)確合理。
5 自動(dòng)術(shù)語(yǔ)標(biāo)注和機(jī)器學(xué)習(xí)
在本文第1節(jié),我們對(duì)自動(dòng)術(shù)語(yǔ)提取和自動(dòng)術(shù)語(yǔ)標(biāo)注兩個(gè)任務(wù)進(jìn)行了區(qū)分,也指出自動(dòng)術(shù)語(yǔ)標(biāo)注可作為自動(dòng)術(shù)語(yǔ)提取的實(shí)現(xiàn)技術(shù)。例如,對(duì)于下面的文本片段:
進(jìn)行詞法分析的程序或者函數(shù)叫作詞法分析器
自動(dòng)術(shù)語(yǔ)標(biāo)注的結(jié)果是:
進(jìn)行[詞法分析]的[程序]或者[函數(shù)]叫作[詞法分析器]
自動(dòng)術(shù)語(yǔ)標(biāo)注程序需要把文本中的術(shù)語(yǔ)實(shí)例標(biāo)記出來(lái)(方括號(hào)括起來(lái)的部分)。
經(jīng)過(guò)自動(dòng)術(shù)語(yǔ)標(biāo)注處理目標(biāo)領(lǐng)域文本,其中出現(xiàn)的術(shù)語(yǔ)實(shí)例均已明確標(biāo)記,提取匯集這些術(shù)語(yǔ)即可實(shí)現(xiàn)術(shù)語(yǔ)提取的目的。例如,根據(jù)標(biāo)注結(jié)果,從上面的例子中,可以提取得到“程序”“詞法分析”“詞法分析器”和“函數(shù)”四個(gè)術(shù)語(yǔ)條目。
5.1 序列標(biāo)注模型
作為一種語(yǔ)例層級(jí)的標(biāo)注任務(wù),在模型構(gòu)建層面,自動(dòng)術(shù)語(yǔ)標(biāo)注展現(xiàn)出與自動(dòng)分詞、詞類標(biāo)注、命名實(shí)體識(shí)別等眾多自然語(yǔ)言處理任務(wù)類似的特性,可被視作一個(gè)典型的序列標(biāo)注型機(jī)器學(xué)習(xí)任務(wù)。序列標(biāo)注任務(wù)的輸入是一個(gè)序列X,輸出是一個(gè)長(zhǎng)度相等的標(biāo)記序列Y:
X=x1x2…xn→Y=y1y2…yn
這里xi和yi分別是輸入序列和輸出序列的組成元素,且xi和yi一一對(duì)應(yīng),yi可視作xi的類別標(biāo)記,這種任務(wù)稱作序列標(biāo)注(sequence labeling)任務(wù),是一種給序列中每個(gè)元素賦以類別標(biāo)記的機(jī)器學(xué)習(xí)任務(wù)。
利用序列標(biāo)注模型解決自動(dòng)術(shù)語(yǔ)標(biāo)注問(wèn)題,輸入X是單詞序列,序列中每個(gè)基本元素xi是單詞。漢語(yǔ)、日語(yǔ)等語(yǔ)言中詞和詞之間沒(méi)有空格,任務(wù)的輸入也可是字符序列,序列中每個(gè)基本元素xi是單個(gè)字符(漢字或字母)。在序列標(biāo)注任務(wù)中,標(biāo)記的種類、數(shù)量和含義通常會(huì)因任務(wù)不同而有所差異。對(duì)于自動(dòng)術(shù)語(yǔ)標(biāo)注而言,一個(gè)較為簡(jiǎn)單的選擇是采用BIO標(biāo)記集。BIO標(biāo)記可用于標(biāo)記序列中的目標(biāo)片段,對(duì)于自動(dòng)術(shù)語(yǔ)標(biāo)注而言,這個(gè)目標(biāo)片段就是術(shù)語(yǔ)。BIO標(biāo)記有三個(gè)基本標(biāo)記,B標(biāo)記術(shù)語(yǔ)中的首字(或詞),I標(biāo)記術(shù)語(yǔ)中除首字(或詞)之外的其他字(或詞),O標(biāo)記非術(shù)語(yǔ)組成部分的字(或詞)。所以自動(dòng)術(shù)語(yǔ)標(biāo)注任務(wù)的輸出是由BIO三個(gè)標(biāo)記組成的序列。下面是一個(gè)標(biāo)記示例:
OOBIIIOBIOOBI…
↑↑↑↑↑↑↑↑↑↑↑↑↑…
進(jìn)行詞法分析的程序或者函數(shù)…
在這個(gè)例子中,輸入是字符序列“進(jìn)行詞法分析的程序或者函數(shù)…”,輸出序列是“OOBIIIOBIII BI…”。如“進(jìn)”和“行”被標(biāo)注O標(biāo)記,表明“進(jìn)行”兩字不是術(shù)語(yǔ)或術(shù)語(yǔ)的組成部分,“詞”被標(biāo)注B標(biāo)記,表明“詞”是一個(gè)術(shù)語(yǔ)的首字,“法”“分”“析”被標(biāo)注I標(biāo)記,表明這三個(gè)字是術(shù)語(yǔ)的組成部分??梢钥吹剑绻梢猿晒o輸入字符序列加注這樣的標(biāo)記序列,根據(jù)標(biāo)記序列就可以確定其中的術(shù)語(yǔ),任何一個(gè)由B開始并接續(xù)若干I的標(biāo)記序列片段對(duì)應(yīng)的字符序列片段就是術(shù)語(yǔ),如在上例中,由標(biāo)記序列片段“BIII”可得知“詞法分析”是一個(gè)術(shù)語(yǔ)。
序列標(biāo)注模型是自然語(yǔ)言處理中使用最為頻繁的模型之一,現(xiàn)有多種不同的序列標(biāo)注模型可供使用,在經(jīng)典模型中,使用最多的是條件隨機(jī)場(chǎng)(CRF)模型。 條件隨機(jī)場(chǎng)模型是一種基于特征的模型,模型要確定某個(gè)字的正確標(biāo)記,需要根據(jù)這個(gè)字在句子中的上下文特征做出決策,因此構(gòu)建基于CRF的自動(dòng)術(shù)語(yǔ)標(biāo)注模型需要進(jìn)行人工特征工程(feature engineering),需要人工事先設(shè)定特征模板或特征。文獻(xiàn)[10]和[11]都是使用CRF模型解決自動(dòng)術(shù)語(yǔ)標(biāo)注問(wèn)題的示例。
近年來(lái),深度學(xué)習(xí)(deep learning)技術(shù)的應(yīng)用為自然語(yǔ)言處理等領(lǐng)域帶來(lái)很多進(jìn)展。深度學(xué)習(xí)在多個(gè)方面推進(jìn)了經(jīng)典機(jī)器學(xué)習(xí)技術(shù),主要體現(xiàn)在:從(對(duì)數(shù))線性模型升級(jí)為非線性模型,提升了模型容量,改善了模型的表達(dá)能力;從高維離散型特征升級(jí)為低維連續(xù)型特征表示,實(shí)現(xiàn)了處理對(duì)象間關(guān)聯(lián)關(guān)系的表示和建模;實(shí)現(xiàn)了特征的自動(dòng)學(xué)習(xí)和分層學(xué)習(xí),消除或減少了對(duì)人工特征工程的依賴,也為機(jī)器決策提供了從具體到抽象的多層特征表示;靈活的預(yù)訓(xùn)練機(jī)制,提供了利用大數(shù)據(jù)改善性能的可能。深度學(xué)習(xí)中常見(jiàn)的序列處理模型,例如長(zhǎng)短期記憶網(wǎng)絡(luò)模型(LSTM)、變換器模型(transformer)、基于編碼-解碼架構(gòu)的序列到序列(seq2seq)模型,原則上都可以用來(lái)建模自動(dòng)術(shù)語(yǔ)標(biāo)注任務(wù)。在自動(dòng)術(shù)語(yǔ)標(biāo)注任務(wù)中利用深度學(xué)習(xí)技術(shù)的研究目前并不多見(jiàn),文獻(xiàn)[12]提出一種基于自注意力機(jī)制的自動(dòng)術(shù)語(yǔ)標(biāo)注模型,可作為運(yùn)用深度學(xué)習(xí)技術(shù)處理自動(dòng)術(shù)語(yǔ)標(biāo)注問(wèn)題的一個(gè)示例。
5.2 術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)
總體而言,自動(dòng)術(shù)語(yǔ)標(biāo)注研究不夠充分,相關(guān)研究在頂級(jí)學(xué)術(shù)會(huì)議和學(xué)術(shù)期刊上鮮有展現(xiàn)。原因有可能是多方面的,但是缺乏大規(guī)模術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)應(yīng)是主要原因之一。
無(wú)論是CRF等經(jīng)典機(jī)器學(xué)習(xí)模型還是目前流行的深度學(xué)習(xí)模型,都屬有指導(dǎo)的機(jī)器學(xué)習(xí)(supervised learning)技術(shù),都需要以大規(guī)模術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)作為學(xué)習(xí)素材,對(duì)于深度學(xué)習(xí)模型而言,由于模型容量大的原因,理論上需要更大規(guī)模的術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)才能產(chǎn)生更具推廣能力的術(shù)語(yǔ)標(biāo)注效果。
針對(duì)術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)缺乏的現(xiàn)象,除人工構(gòu)建外,似乎并無(wú)省時(shí)省力的快捷辦法,但遠(yuǎn)程指導(dǎo)(distant supervision)技術(shù)或不失為一種權(quán)宜解決辦法。遠(yuǎn)程指導(dǎo)技術(shù)最早被用于關(guān)系提取研究[13],是一種通過(guò)知識(shí)庫(kù)回標(biāo)方式產(chǎn)生弱標(biāo)注數(shù)據(jù)的技術(shù)。文獻(xiàn)[12]在自動(dòng)術(shù)語(yǔ)標(biāo)注研究中使用了這一技術(shù),基本思想是利用現(xiàn)有術(shù)語(yǔ)詞表,將術(shù)語(yǔ)詞表中的術(shù)語(yǔ)回標(biāo)至目標(biāo)領(lǐng)域文本,簡(jiǎn)單地說(shuō),就是將目標(biāo)領(lǐng)域文本中出現(xiàn)的術(shù)語(yǔ)表中的術(shù)語(yǔ)標(biāo)注為術(shù)語(yǔ)實(shí)例并作為術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù)用作機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)。遠(yuǎn)程指導(dǎo)技術(shù)存在錯(cuò)誤標(biāo)注和漏標(biāo)的問(wèn)題,文本中出現(xiàn)了術(shù)語(yǔ)表中沒(méi)有的術(shù)語(yǔ)時(shí),就會(huì)出現(xiàn)漏標(biāo)現(xiàn)象。如果文本中出現(xiàn)術(shù)語(yǔ)的非術(shù)語(yǔ)用法(這種情況盡管很少出現(xiàn)),也會(huì)導(dǎo)致錯(cuò)標(biāo)的現(xiàn)象。遠(yuǎn)程指導(dǎo)技術(shù)的優(yōu)點(diǎn)是無(wú)須人工干預(yù)、速度快,可以在短時(shí)間內(nèi)產(chǎn)生大規(guī)模術(shù)語(yǔ)標(biāo)注語(yǔ)料,用以支持基于經(jīng)典機(jī)器學(xué)習(xí)技術(shù)和深度學(xué)習(xí)技術(shù)的自動(dòng)術(shù)語(yǔ)標(biāo)注研究。例如,文獻(xiàn)[12]利用一個(gè)包含7萬(wàn)多個(gè)條目的計(jì)算機(jī)領(lǐng)域中文術(shù)語(yǔ)表應(yīng)用遠(yuǎn)程指導(dǎo)技術(shù)回標(biāo)了6萬(wàn)多個(gè)論文摘要文本作為術(shù)語(yǔ)標(biāo)注語(yǔ)料,以支持術(shù)語(yǔ)標(biāo)注研究,并取得了一定的自動(dòng)術(shù)語(yǔ)標(biāo)注效果。
6 自動(dòng)術(shù)語(yǔ)提取與標(biāo)注的評(píng)價(jià)
與其他很多研究一樣,方法的好和壞、改進(jìn)方向、應(yīng)用意義都需要通過(guò)評(píng)價(jià)來(lái)體現(xiàn)和基于評(píng)價(jià)來(lái)做出判斷,自動(dòng)術(shù)語(yǔ)提取研究也不例外。與很多自然語(yǔ)言處理任務(wù)評(píng)價(jià)類似,在自動(dòng)術(shù)語(yǔ)標(biāo)注和提取任務(wù)中,最常用的評(píng)價(jià)指標(biāo)是F值。
測(cè)試術(shù)語(yǔ)提取系統(tǒng)的性能,需要引入目標(biāo)領(lǐng)域的測(cè)試文本。對(duì)于給定的目標(biāo)語(yǔ)料測(cè)試文本,其中包含的術(shù)語(yǔ)條目理論上是確定的,如果由領(lǐng)域?qū)<野堰@些術(shù)語(yǔ)條目提取出來(lái),就可以作為自動(dòng)方法評(píng)判的標(biāo)準(zhǔn)答案。通過(guò)比對(duì)術(shù)語(yǔ)提取系統(tǒng)返回的術(shù)語(yǔ)條目和標(biāo)準(zhǔn)答案,會(huì)有三種情況出現(xiàn):
(1) 正確提取,也就是在標(biāo)準(zhǔn)答案中的術(shù)語(yǔ)被術(shù)語(yǔ)提取系統(tǒng)正確提取的情況。這里用nA代表術(shù)語(yǔ)自動(dòng)提取系統(tǒng)正確提取的術(shù)語(yǔ)的數(shù)量。
(2) 漏提,也就是正確答案中有但未能被術(shù)語(yǔ)提取系統(tǒng)提取的情況。這里用nB代表被術(shù)語(yǔ)自動(dòng)提取系統(tǒng)漏提的術(shù)語(yǔ)的數(shù)量。
(3) 錯(cuò)提,也就是并非術(shù)語(yǔ)但被自動(dòng)術(shù)語(yǔ)提取系統(tǒng)誤認(rèn)作術(shù)語(yǔ)的情況。這里用nC代表自動(dòng)提取結(jié)果中這種被錯(cuò)認(rèn)的術(shù)語(yǔ)數(shù)量。
基于上述三種不同情況和對(duì)應(yīng)的統(tǒng)計(jì)數(shù)據(jù),可以分別定義精確率(precision)和召回率(recall)兩個(gè)評(píng)價(jià)指標(biāo)。其中精確率用來(lái)評(píng)判自動(dòng)提取系統(tǒng)提取結(jié)果的準(zhǔn)確程度,定義為自動(dòng)提取結(jié)果中正確結(jié)果所占的百分比,即:
precision=nAnA+nC×100%
召回率用來(lái)評(píng)判自動(dòng)提取結(jié)果對(duì)正確結(jié)果的覆蓋情況,定義為正確的提取結(jié)果占標(biāo)準(zhǔn)答案的百分比,即:
recall=nAnA+nB×100%
而F值是結(jié)合精確率和召回率的綜合評(píng)價(jià)指標(biāo),定義為精確率和召回率的調(diào)和平均值,即:
F-measure=2·precision·recallprecision+recall
對(duì)于術(shù)語(yǔ)提取而言,最終輸出的術(shù)語(yǔ)條目數(shù)量會(huì)受用戶預(yù)設(shè)的數(shù)量或得分閾值的影響,因而設(shè)定不同,評(píng)價(jià)結(jié)果也會(huì)不同。對(duì)同一個(gè)術(shù)語(yǔ)提取系統(tǒng)而言,提取的準(zhǔn)確率通常會(huì)隨著輸出條目數(shù)量的增加而降低,而召回率則會(huì)隨著輸出條目數(shù)量的增加而升高。
對(duì)于自動(dòng)術(shù)語(yǔ)標(biāo)注而言,通常也采用F值來(lái)評(píng)價(jià)效果,只不過(guò)術(shù)語(yǔ)標(biāo)注是標(biāo)注文本中所有的術(shù)語(yǔ)實(shí)例,因此是在語(yǔ)例層次進(jìn)行評(píng)價(jià)。評(píng)價(jià)時(shí)需要事先準(zhǔn)備正確標(biāo)注了所有術(shù)語(yǔ)實(shí)例的目標(biāo)領(lǐng)域測(cè)試文本作為標(biāo)準(zhǔn)答案,與自動(dòng)術(shù)語(yǔ)標(biāo)注系統(tǒng)的標(biāo)注結(jié)果做比對(duì),計(jì)算標(biāo)注的精確率、召回率及相應(yīng)的F值。
7 結(jié)語(yǔ)
自動(dòng)術(shù)語(yǔ)提取研究取得了不少進(jìn)展,但距離人們的期望還有不小的差距。這表現(xiàn)在,現(xiàn)有術(shù)語(yǔ)提取結(jié)果中存在大量的噪聲,人工核校剔除需要花費(fèi)大量成本;術(shù)語(yǔ)漏提現(xiàn)象也普遍存在,尤其是現(xiàn)有術(shù)語(yǔ)提取技術(shù)大多基于統(tǒng)計(jì)技術(shù),限于長(zhǎng)尾效應(yīng),一些低頻術(shù)語(yǔ)很難被識(shí)別和提取。如何減少噪聲和漏提現(xiàn)象仍是術(shù)語(yǔ)提取研究要解決的核心問(wèn)題。
從方法層面而言,形成了基于術(shù)語(yǔ)評(píng)分統(tǒng)計(jì)量的提取策略和基于機(jī)器學(xué)習(xí)的術(shù)語(yǔ)標(biāo)注策略兩大類方法?;谛g(shù)語(yǔ)評(píng)分統(tǒng)計(jì)量的辦法無(wú)需大規(guī)模術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù),因而得到了較多的關(guān)注和研究?;跈C(jī)器學(xué)習(xí)的術(shù)語(yǔ)標(biāo)注技術(shù)由于需要大規(guī)模術(shù)語(yǔ)標(biāo)注語(yǔ)料庫(kù),限于缺乏這樣的標(biāo)注數(shù)據(jù),效果和潛力仍未充分體現(xiàn)。尤其值得指出的是,近年來(lái)深度學(xué)習(xí)技術(shù)在自然語(yǔ)言處理的許多任務(wù)中有突出表現(xiàn),但在自動(dòng)術(shù)語(yǔ)提取和標(biāo)注任務(wù)上的深入探索仍不多見(jiàn)。在基于深度學(xué)習(xí)技術(shù)的自動(dòng)術(shù)語(yǔ)提取和標(biāo)注研究中,至少有兩個(gè)方面值得進(jìn)一步關(guān)注:一是許多神經(jīng)網(wǎng)絡(luò)架構(gòu)已被證實(shí)在自然語(yǔ)言處理的許多任務(wù)中可以帶來(lái)效果提升,諸如CNN、LSTM、Transformer等,這些模型可為術(shù)語(yǔ)提取技術(shù)帶來(lái)何種影響需要實(shí)踐驗(yàn)證,研究人員也需要在此基礎(chǔ)上探索并提出適于自動(dòng)術(shù)語(yǔ)提取問(wèn)題的新型模型架構(gòu);二是大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型發(fā)展如火如荼,BERT、GPT、XLNet、T5等眾多大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型在許多自然語(yǔ)言處理任務(wù)中的價(jià)值已得到證實(shí),但在自動(dòng)術(shù)語(yǔ)提取方面的價(jià)值仍有待探索和關(guān)注。
術(shù)語(yǔ)提取和標(biāo)注主流技術(shù)仍是數(shù)據(jù)驅(qū)動(dòng)的技術(shù),術(shù)語(yǔ)標(biāo)注資源的建設(shè)至關(guān)重要。但術(shù)語(yǔ)標(biāo)注語(yǔ)料構(gòu)建耗時(shí)費(fèi)力,在這種情況下,有效利用遠(yuǎn)程指導(dǎo)等弱指導(dǎo)技術(shù)和有效應(yīng)對(duì)遠(yuǎn)程指導(dǎo)技術(shù)的噪聲問(wèn)題值得研究和探索。術(shù)語(yǔ)標(biāo)注資源的建設(shè)還有利于形成統(tǒng)一基準(zhǔn)評(píng)測(cè)語(yǔ)料,為準(zhǔn)確有效評(píng)價(jià)不同術(shù)語(yǔ)提取或標(biāo)注方法提供基礎(chǔ)資源,有利于術(shù)語(yǔ)提取和標(biāo)注技術(shù)的持續(xù)發(fā)展。
隨著科學(xué)技術(shù)的進(jìn)步,新術(shù)語(yǔ)層出不窮,從術(shù)語(yǔ)整理和審定的角度看,新術(shù)語(yǔ)提取效果更具應(yīng)用價(jià)值,如何在方法、評(píng)價(jià)層面考慮新術(shù)語(yǔ)提取能力也是有待關(guān)注的問(wèn)題。
參考文獻(xiàn)
[1] 語(yǔ)言學(xué)名詞審定委員會(huì).語(yǔ)言學(xué)名詞[M]. 北京:商務(wù)印書館,2011.
[2] CABR CASTELLV M T , BAGOT R E , PALATRESI J V. Automatic term detection: a review of current systems[M]//BOURIGAULT D, JACQUEMIN C, L’HOMME M-C. Recent Advances in Computational Terminology. Amsterdam:John Benjamins Publishing Company, 2001:53-88.
[3] JUSTESON J,KATZ S. Technical Terminology: Some Linguistic Properties and an Algorithm for Identification in Text[J]. Natural Language Engineering, 1995,1(1):9-27.
[4] KYO K,BIN U. Methods of automatic term recognition:a review[J]. Terminology, 1996,3(2):1-23.
[5] CHANG B B, DANIELSSON P, TEUBERT W. Extraction of Translation Unit from Chinese-English Parallel Corpora[C]//Proceedings of The First SIGHAN Workshop on Chinese Language Processing, 2002.
[6] CHURCH K W,GALE W A. Inverse document frequency (idf): A measure of deviations from poisson[C]//Proceedings of the ACL 3rd Workshop on Very Large Corpora, 1995:121-130.
[7] FRANTZI K, ANANIADOU S, MIMA H. The C-value/NC-value method of automatic recognition for multi-word terms[C]//Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries (ECDL),1998:585-604.
[8] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms: the C-value/NC-value method[J]. International Journal on Digital Libraries,2000, 3(2):115-130.
[9] BARRN-CEDEO A, SIERRA G, DROUIN P, et al. An improved automatic term recognition method for Spanish[C]//International Conference on Intelligent Text Processing and Computational Linguistics, 2009:125-136.
[10] 王海雄,郭劍毅,余正濤,等. 基于CRFs的中文領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取研究[C]//第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集,北京:中國(guó)中文信息學(xué)會(huì),2010:505-512.
[11] ZHANG X, SONG Y, FANG A C. Term recognition using Conditional Random fields[C]//International Conference on Natural Language Processing and Knowledge Engineering, IEEE, 2010:1-6.
[12] 趙頌歌,張浩,常寶寶. 基于自注意力機(jī)制的科技術(shù)語(yǔ)自動(dòng)提取技術(shù)研究[J]. 中國(guó)科技術(shù)語(yǔ),2021,23 (2):20-26.
[13] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 2009:1003-1011.
[14] KIM J-D,OHTA T,TATEISI Y,et al. GENIA corpus:a semantically annotated corpus for bio-textmining[J]. Bioinformatics, 2003,19(1):i180-i182.
[15] ZADEH B Q,HANDSCHUH S. The ACL RD-TEC: A Dataset for Benchmarking Terminology Extraction and Classification in Computational Linguistics[C]//Proceedings of the 4th International Workshop on Computational Terminology (Computerm),2014:52-63.
[16] 馮志偉. 一個(gè)新興的術(shù)語(yǔ)學(xué)科:計(jì)算術(shù)語(yǔ)學(xué)[J]. 術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2008(4):4-9.
[17] ZHANG Z Q,GAO J,CIRAVEGNA F. JATE 2.0: Java Automatic Term Extraction with Apache Solr[C]//Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 2016:2262-2269.
[18] KANG B, CHANG B B, CHEN Y R, et al. Extracting Terminologically Relevant Collocations in the Translation of Chinese Monograph[C]//International Joint Conference on Natural Language Processing, 2005:1017-1028.
[19] KANG B, CHANG B B, CHEN Y R, et al. Translating multi word terms into Korean from Chinese documents[C]//International Conference on Natural Language Processing and Knowledge Engineering, 2005:449-454.
作者簡(jiǎn)介:常寶寶(1971—),博士,北京大學(xué)信息科學(xué)技術(shù)學(xué)院副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。先后主持多個(gè)國(guó)家自然科學(xué)基金和國(guó)家社會(huì)科學(xué)基金等項(xiàng)目,在包括ACL、EMNLP、COLING、IJCAI、AAAI等國(guó)際頂級(jí)會(huì)議在內(nèi)的國(guó)內(nèi)外學(xué)術(shù)會(huì)議及期刊上發(fā)表論文近百篇。作為主要成員,先后獲得教育部科技進(jìn)步一等獎(jiǎng)、中國(guó)電子學(xué)會(huì)科技進(jìn)步一等獎(jiǎng)、國(guó)家科技進(jìn)步二等獎(jiǎng)等。通信方式:chbb@pku.edu.cn。