張榕+
摘要:科學(xué)的術(shù)語定名是術(shù)語工作的一項(xiàng)重要內(nèi)容。一個(gè)科學(xué)的概念指稱的創(chuàng)立,是術(shù)語推廣、傳播與術(shù)語標(biāo)準(zhǔn)化工作的前提條件。文章從術(shù)語知識發(fā)現(xiàn)這一新的視角論述了術(shù)語科學(xué)定名對于術(shù)語知識發(fā)現(xiàn)工程的重要作用,從應(yīng)用角度進(jìn)一步論證了術(shù)語科學(xué)定名的重要性。
關(guān)鍵字:術(shù)語定名,術(shù)語知識發(fā)現(xiàn),術(shù)語定義抽取,術(shù)語定義聚類,術(shù)語識別
中圖分類號:H083;N04文獻(xiàn)標(biāo)識碼:A文章編號:1673-8578(2015)03-0014-04
Abstract:The scientific term designation is one of the most important aspects in term work. The creation of the designation of a concept is the prerequisite for the popularization, spread and standardization of terms. This paper analyzes the importance of scientific term designation from the perspective of term knowledge discovery.
Keywords: term designation,term knowledge discovery,term definition extraction, term definition clustering, term recognition
術(shù)語定名是給一個(gè)概念制定科學(xué)的術(shù)語的過程。術(shù)語定名應(yīng)遵循準(zhǔn)確性、單義性、系統(tǒng)性、語言的正確性、簡明性、理據(jù)性、穩(wěn)定性、能產(chǎn)性原則[1]。上述原則對于術(shù)語所指稱概念的推廣與傳播、術(shù)語標(biāo)準(zhǔn)化工作都具有重要的理論與現(xiàn)實(shí)意義。
近年來,術(shù)語學(xué)研究與中文信息處理技術(shù)相結(jié)合成為術(shù)語學(xué)研究的新方向。術(shù)語知識發(fā)現(xiàn)的相關(guān)研究已有了不少的成果。本文將從基于大規(guī)模語料的術(shù)語定義抽取、術(shù)語定義聚類與術(shù)語識別三大主要術(shù)語知識發(fā)現(xiàn)的應(yīng)用研究出發(fā)[2],探討術(shù)語科學(xué)定名對于術(shù)語知識工程的支撐作用,從語言工程的實(shí)現(xiàn)過程對術(shù)語科學(xué)定名的重要性進(jìn)行論述。
一術(shù)語科學(xué)定名在術(shù)語定義抽取中的作用
術(shù)語定義抽取是了解術(shù)語概念最基本、最直接的方式。基于網(wǎng)絡(luò)海量信息的術(shù)語定義抽取通常是將一個(gè)術(shù)語查詢項(xiàng)提交給抽取系統(tǒng),系統(tǒng)根據(jù)該查詢項(xiàng)關(guān)鍵詞進(jìn)行文本檢索,再通過一系列規(guī)則與統(tǒng)計(jì)的計(jì)算方法,將得分最高的句子抽取出來作為術(shù)語定義的最優(yōu)選項(xiàng) [3-4]。
馮志偉認(rèn)為名稱與概念之間具有單參照性,即一個(gè)名稱與一個(gè)且只與一個(gè)概念相對應(yīng)。他還認(rèn)為術(shù)語的同義現(xiàn)象會導(dǎo)致術(shù)語使用的混亂。在術(shù)語工作中,應(yīng)該盡量減少術(shù)語的同義現(xiàn)象,這是術(shù)語標(biāo)準(zhǔn)化的任務(wù)之一[5] 。
當(dāng)術(shù)語同義現(xiàn)象嚴(yán)重時(shí),由于提交給查詢系統(tǒng)的關(guān)鍵詞每次只有一項(xiàng),這就必然造成系統(tǒng)無法識別出包含其同義術(shù)語的文本集合,從而降低了抽取系統(tǒng)的準(zhǔn)確率。例如,路甬祥談到術(shù)語濫用的問題時(shí)舉例,“ergonomics”一詞,分別有人機(jī)學(xué)、人機(jī)工效學(xué)、人類工程學(xué)、人體工程學(xué)、生物工藝學(xué)、人類環(huán)境改造學(xué)、勞動經(jīng)濟(jì)學(xué)、工作環(huán)境改造學(xué)、工效學(xué)等22種叫法[6]。
我們將上述名稱分別作為查詢關(guān)鍵詞,提交給術(shù)語定義抽取系統(tǒng),進(jìn)行實(shí)驗(yàn)。對抽取結(jié)果分析后發(fā)現(xiàn),提交查詢項(xiàng)對抽取質(zhì)量的影響較大。系統(tǒng)的準(zhǔn)確率與查詢項(xiàng)術(shù)語的使用頻率正相關(guān)。在公眾中知曉度與使用度相對較高的術(shù)語如“人機(jī)學(xué)”“人際工效學(xué)”“人體工程學(xué)”作為查詢項(xiàng)時(shí),系統(tǒng)返回的文本數(shù)量較大,文本中的信息與術(shù)語定義相關(guān)度高,抽取準(zhǔn)確率高。反之,使用的查詢項(xiàng)權(quán)威度、知曉度、流通度與使用頻率均較低時(shí),雖然多數(shù)搜索引擎在關(guān)鍵詞處理過程中會使用同義詞擴(kuò)展功能,但抽取結(jié)果排序時(shí)通常給原始查詢項(xiàng)賦予一個(gè)較高的權(quán)重,這就造成質(zhì)量較高的同義詞定義排在后面,從而降低了抽取結(jié)果的準(zhǔn)確率。例如“人類環(huán)境改造學(xué)”“工作環(huán)境改造學(xué)”由于在公眾中的知曉度與使用度降低,搜索引擎返回的文本數(shù)量極其有限,抽取出的候選句子的數(shù)量會受到很大的制約。同時(shí),由于知曉度低,這些文本并非包含權(quán)威機(jī)構(gòu)發(fā)布的術(shù)語定義,通常是網(wǎng)絡(luò)上自媒體參與者發(fā)表的個(gè)人觀點(diǎn),客觀性、規(guī)范性與科學(xué)性都無法得到保證,在這些文本集合中進(jìn)行術(shù)語定義的自動發(fā)現(xiàn),會大大降低術(shù)語知識提取的準(zhǔn)確度。
從語義角度考察,在這22種叫法中,“生物工藝學(xué)”“勞動經(jīng)濟(jì)學(xué)”與源語語義相似度較小,與科技文獻(xiàn)翻譯的相對等值性原則背離甚遠(yuǎn),以該類詞語作為查詢項(xiàng)得到的結(jié)果顯然不能對所指稱概念進(jìn)行合理的描述。
作為查詢項(xiàng)的術(shù)語,其定名的合理度即與術(shù)語的定名原則契合度越高,對識別系統(tǒng)的貢獻(xiàn)度越大。如果將上述22個(gè)名稱通過擇優(yōu)整合成一個(gè)術(shù)語,從術(shù)語標(biāo)準(zhǔn)化的角度來說,有利于普及術(shù)語概念。另一方面,網(wǎng)絡(luò)文本撰寫者逐漸統(tǒng)一使用固定下來的權(quán)威、規(guī)范的術(shù)語,也同樣可以加速術(shù)語指稱概念的傳播。用統(tǒng)一的術(shù)語作為查詢項(xiàng),其識別效果顯然遠(yuǎn)遠(yuǎn)大于多名術(shù)語的抽取結(jié)果,術(shù)語定義的抽取系統(tǒng)又直接服務(wù)于術(shù)語概念的理解,從而實(shí)現(xiàn)了概念普及的良性循環(huán)。
在考察中我們還發(fā)現(xiàn),首字母縮合詞術(shù)語同名異義的現(xiàn)象,在所有術(shù)語類型中最為普遍。無論從術(shù)語學(xué)本體或術(shù)語知識發(fā)現(xiàn)的角度,存在的問題都較大。
術(shù)語的單義性是指在某個(gè)特定領(lǐng)域內(nèi),術(shù)語具有形式與意義的一一對應(yīng)關(guān)系,一個(gè)術(shù)語只表達(dá)一個(gè)學(xué)科概念,然而對于具有跨領(lǐng)域特性的多義術(shù)語,不具備形式與意義的一一對應(yīng)性。換言之,在術(shù)語的命名過程中,術(shù)語的單義性原則只能落實(shí)到單一領(lǐng)域的范圍。以首字母縮合詞“CPI”為例,該術(shù)語共有17個(gè)不同義項(xiàng),分別覆蓋經(jīng)濟(jì)、政治、信息、管理、醫(yī)學(xué)等領(lǐng)域,其中消費(fèi)者物價(jià)指數(shù)(consumer price index)在這17個(gè)義項(xiàng)中知曉度與使用頻次最高。其余義項(xiàng)知曉度與使用頻率較低,這類術(shù)語更多被所屬領(lǐng)域的專家或?qū)W習(xí)者使用,領(lǐng)域內(nèi)部的流通率較高,但領(lǐng)域外流通率較低。在這些跨領(lǐng)域的多義術(shù)語中,即使同一領(lǐng)域內(nèi)部依舊存在同形異義的現(xiàn)象,例如“費(fèi)用績效指數(shù)”“關(guān)鍵績效指數(shù)”“成本績效指數(shù)”。由于上述術(shù)語的英語首字母相同,造成同一詞形表達(dá)完全不同的概念,這顯然違背了術(shù)語單義性的原則。在術(shù)語定義識別過程中,造成了大量的識別噪音。在首字母縮合詞術(shù)語的命名過程中,術(shù)語學(xué)家需在術(shù)語構(gòu)成的經(jīng)濟(jì)性原則[7]與單義性、準(zhǔn)確性原則之間找到最佳平衡點(diǎn)。endprint
術(shù)語定名的單義性與準(zhǔn)確性原則對于術(shù)語定義的識別系統(tǒng)的支撐作用是顯著的。如果查詢術(shù)語符合術(shù)語的定名原則,特別是符合在單一領(lǐng)域內(nèi)單形單義的定名原則,將提高系統(tǒng)抽取的效率。
二術(shù)語科學(xué)定名在術(shù)語定義聚類中的作用
術(shù)語定義聚類是按照術(shù)語的領(lǐng)域歸屬類別將術(shù)語定義劃分到各自所屬的類別的過程,該系統(tǒng)的實(shí)現(xiàn)能解決大規(guī)模術(shù)語定義自動分類問題,對于領(lǐng)域術(shù)語數(shù)據(jù)庫的構(gòu)建以及規(guī)模化地研究領(lǐng)域術(shù)語具有重要意義。
我們知道,一個(gè)新概念的產(chǎn)生必定要使用一個(gè)指稱去描述此概念。從認(rèn)知科學(xué)的角度而言,任何一個(gè)新概念的產(chǎn)生都不是憑空而來的,絕大多數(shù)新概念都是在原有領(lǐng)域的相關(guān)概念的基礎(chǔ)上產(chǎn)生的。反映在語言學(xué)特征上,大多數(shù)新術(shù)語不是憑空而造的詞,而是與先前的相關(guān)術(shù)語在語義上構(gòu)成一定的關(guān)系。因此描述新概念的術(shù)語,所采取的語言形式多為組合型術(shù)語。概念體系是由一組相關(guān)概念構(gòu)成的集合,以屬種關(guān)系為框架,層級結(jié)構(gòu)分明,并包含了各種縱向與橫向的聯(lián)系,每個(gè)概念在概念體系中占有明確的位置。依據(jù)術(shù)語命名的系統(tǒng)性,新術(shù)語的命名需納入原有系統(tǒng)之中,概念體系間結(jié)構(gòu)層次分明便于規(guī)范指稱,使被定義概念在術(shù)語概念體系中準(zhǔn)確地找到其相應(yīng)的位置。
例如,“基金”是一個(gè)上位術(shù)語。隨著近年來基金業(yè)的迅猛發(fā)展,基金的種類不斷增加,這就需要越來越多的術(shù)語來指稱這些概念。其下位術(shù)語包括:投資基金、開放式基金、封閉式基金、公司型投資基金、契約型投資基金、成長型投資基金、收入型投資基金、平衡型投資基金、股票基金、債券基金、貨幣市場基金、期貨基金、期權(quán)基金、指數(shù)基金、認(rèn)沽權(quán)證基金、區(qū)域基金等。
經(jīng)過自動分詞系統(tǒng)的處理,這些詞組型術(shù)語的整體語義與詞組中每個(gè)詞的語義之和的關(guān)系示例如下:
成長型投資基金→成長+型+投資+基金
認(rèn)沽權(quán)證基金→認(rèn)沽+權(quán)證+基金
貨幣市場基金→貨幣+市場+基金
開放式基金→開放+式+基金
由于這些新術(shù)語尚未收錄在分詞詞表中,在分詞過程中被切碎成幾個(gè)詞組的組合序列,然而聚類系統(tǒng)的實(shí)驗(yàn)統(tǒng)計(jì)卻表明,未收錄術(shù)語對最終聚類的準(zhǔn)確率的影響可以忽略不計(jì)。聚類系統(tǒng)使用語義知識庫進(jìn)行語義間的相似度計(jì)算。從上述切分結(jié)果可以看出,被切碎詞組的義項(xiàng)之和與該術(shù)語本身的義項(xiàng)基本相同,即被切分詞語的碎片與原術(shù)語之間保持著較大的語義相關(guān)度。
反之,某些外來意譯型未收錄術(shù)語,經(jīng)過分詞系統(tǒng)切分后,每個(gè)碎片的語義之和與術(shù)語整體語義關(guān)聯(lián)度較小。例如“漂綠”(green wash)意為“公司、政府或是組織以某些行為或行動宣示自身對環(huán)境保護(hù)的付出但實(shí)際上卻是反其道而行的行為”。
分詞系統(tǒng)切分為:漂綠→漂+綠
切分后的義項(xiàng)累加與原術(shù)語之間沒有過多的語義關(guān)聯(lián),兩者之間的語義相似度極低。由于領(lǐng)域聚類的過程是基于句子之間的語義相似度計(jì)算,顯然這種術(shù)語的定名方式對整個(gè)聚類系統(tǒng)的準(zhǔn)確率造成了很大的影響。
從語言學(xué)特征來看,“漂綠”的表意特征較弱,理據(jù)性較差,使用者無法從指稱推斷其相關(guān)概念。我們進(jìn)行了一項(xiàng)實(shí)驗(yàn),受試者為20—50歲年齡段,包含各個(gè)教育等級的人群,數(shù)量為20人。實(shí)驗(yàn)結(jié)果表明,受試者均無法從該術(shù)語的字面意思推測出該術(shù)語的大致意義,甚至無法推測出其領(lǐng)域歸屬類別。確保意譯術(shù)語的簡明性,同時(shí)符合漢語的概念理解模式,在科學(xué)性、概念體系之間的關(guān)聯(lián)性,以及源語與譯語間形式與意義的忠實(shí)度之間找到一個(gè)最佳平衡點(diǎn),是術(shù)語學(xué)家在術(shù)語定名過程中須著重考慮的問題。
遵循術(shù)語定名規(guī)范的詞組型術(shù)語的語義與構(gòu)成該術(shù)語的每個(gè)詞語的語義之和相似度極高;反之造成被切分后的碎片部分語義之和與原術(shù)語語義的割裂,對聚類系統(tǒng)的準(zhǔn)確率影響較大。該現(xiàn)象從術(shù)語工程學(xué)的角度也驗(yàn)證了:科學(xué)規(guī)范的術(shù)語命名對高質(zhì)量的術(shù)語定義聚類系統(tǒng)的實(shí)現(xiàn)起到一定的支撐作用。
三術(shù)語科學(xué)定名在術(shù)語識別中的作用
大多數(shù)的新術(shù)語都是在相關(guān)舊術(shù)語的基礎(chǔ)上建立或演化而來的,與該領(lǐng)域內(nèi)部的其他術(shù)語保持某種意義上的關(guān)聯(lián)關(guān)系,如層級關(guān)系、部分—整體關(guān)系、聯(lián)想關(guān)系等。術(shù)語系統(tǒng)將新產(chǎn)生的概念囊括在原有相關(guān)概念體系之中,并與原有概念建立一定的結(jié)構(gòu)、層級與語義關(guān)系。術(shù)語的語綴體現(xiàn)了術(shù)語命名的系統(tǒng)性與能產(chǎn)性的特征。在術(shù)語系統(tǒng)中,出現(xiàn)頻率較高的詞綴包括:
前綴:亞、超、有、無、非、不、泛、類、可、反、單、雙、多、自、總、半、云、次、大、小、被、逆、子、準(zhǔn)、過等。
后綴:率、化、學(xué)、度、性、論、式、法、物、子、系、質(zhì)、素、炎、儀、計(jì)、劑、體、器等。
很多包含高頻詞綴的術(shù)語是伴隨著新的學(xué)科領(lǐng)域而產(chǎn)生的,這些詞綴具有強(qiáng)大的構(gòu)詞能力,可與其他已知概念組配在一起,產(chǎn)生一批與該概念相關(guān)的概念集合。雖然有的語綴出現(xiàn)時(shí)間較短,但影響力大,能產(chǎn)性高,數(shù)量增幅巨大,覆蓋領(lǐng)域廣泛。以術(shù)語前綴“云”為例,我們統(tǒng)計(jì)到的包含“云”的術(shù)語超過一百個(gè)。這些術(shù)語都是基于“云技術(shù)”而產(chǎn)生的,詞綴構(gòu)詞的術(shù)語定名法便于術(shù)語所指稱的概念在概念網(wǎng)絡(luò)中找到相應(yīng)的節(jié)點(diǎn),分別與“云技術(shù)”建立關(guān)聯(lián)。包含“云”的術(shù)語幾乎涵蓋了與百姓日常生活密切相關(guān)的政治、經(jīng)濟(jì)、文化、科技、娛樂、教育等各個(gè)領(lǐng)域,如:云政務(wù)、云支付、云社交、云指控、云音樂、云學(xué)習(xí)等??梢岳硇缘赝茢?,在不久的將來,以“云”為前綴的新術(shù)語的數(shù)量將會繼續(xù)增長,覆蓋領(lǐng)域?qū)⒏鼜V泛,社會影響力以及知曉度和使用頻率將越來越高。
術(shù)語的語綴從語義上準(zhǔn)確表達(dá)了術(shù)語所表達(dá)概念的重要屬性之一,對于概念的識別作用明顯。例如詞串:云+N,V+率。若前綴“云”后緊跟一個(gè)名詞,或后綴“率”前出現(xiàn)一個(gè)動詞,那么這種詞匯共現(xiàn)關(guān)系與術(shù)語成詞概率是緊密相關(guān)的,即“云+N”與“V+率”的詞串作為術(shù)語的概率較高。實(shí)際上,即使出現(xiàn)在術(shù)語定義上下文窗口中,術(shù)語的位置也是不固定的,尤其從網(wǎng)絡(luò)獲取到的術(shù)語定義,語言結(jié)構(gòu)靈活多樣,術(shù)語可能出現(xiàn)在句首、句尾或句中的任何一個(gè)位置。位置信息的缺失在一定程度上也造成了術(shù)語識別的難度。在術(shù)語粗抽取的基礎(chǔ)上,識別系統(tǒng)利用語綴信息,在發(fā)現(xiàn)術(shù)語語綴之后,通過抽取方向的選取以及相應(yīng)的抽取算法,將術(shù)語識別出來[2] 。
語綴具有術(shù)語識別的指示功能,從術(shù)語建設(shè)與管理的角度而言,語綴構(gòu)詞法便于術(shù)語在術(shù)語知識庫中找到其相應(yīng)的節(jié)點(diǎn),方便術(shù)語的整理、歸類,也能提高術(shù)語數(shù)據(jù)庫用戶的查詢、檢索的效率。從術(shù)語知識發(fā)現(xiàn)的角度而言,術(shù)語語綴尤其是能產(chǎn)性強(qiáng)的語綴,對于術(shù)語的自動識別、新術(shù)語的自動發(fā)現(xiàn)起到了強(qiáng)大的支持作用。利用語綴信息可輔助系統(tǒng)準(zhǔn)確、快速地識別出一批包含特定概念的術(shù)語,有效地提高了識別的效率。
四結(jié)語
在信息技術(shù)高速發(fā)展的今天,術(shù)語學(xué)研究離不開中文信息處理技術(shù)的支持,該技術(shù)使得大規(guī)模的術(shù)語知識發(fā)現(xiàn)、領(lǐng)域術(shù)語的系統(tǒng)化研究以及術(shù)語數(shù)據(jù)庫的構(gòu)建成為可能,對術(shù)語學(xué)本體研究具有重要的推動作用。從另一個(gè)角度而言,術(shù)語學(xué)本體研究影響著術(shù)語知識發(fā)現(xiàn)系統(tǒng)的實(shí)現(xiàn)。科學(xué)的術(shù)語定名不僅對術(shù)語概念傳播、術(shù)語標(biāo)準(zhǔn)化工作具有積極意義,同時(shí)也能有效提高術(shù)語知識發(fā)現(xiàn)系統(tǒng)的效率。
參考文獻(xiàn)
[1] 馮志偉.現(xiàn)代術(shù)語引論[M].北京:語文出版社,1997.
[2] 張榕.術(shù)語定義抽取、聚類與術(shù)語識別研究[D].北京語言大學(xué)信息科學(xué)學(xué)院,2006.
[3] 荀恩東,賈愛平,宋柔.基于互聯(lián)網(wǎng)的術(shù)語定義獲取系統(tǒng)[J].中文信息學(xué)報(bào),2004(4):37-44.
[4] 荀恩東,李晟.采用術(shù)語定義模式和多特征的新術(shù)語及定義識別方法[J].計(jì)算機(jī)研究與發(fā)展,2009(1):62-69.
[5] 馮志偉.術(shù)語中的概念系統(tǒng)與知識本體[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2006(1):9-16.
[6] 路甬祥.我國科技名詞的規(guī)范和統(tǒng)一任重而道遠(yuǎn)[J].編輯學(xué)報(bào),2006(4):241-242.
[7] 馮志偉.術(shù)語形成的經(jīng)濟(jì)率-FEL公式[J].中國科技術(shù)語,2010(2):9-16.endprint