面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的專用語(yǔ)料庫(kù)設(shè)計(jì)

2021-10-08 04:04盧華國(guó)張雅

中國(guó)科技術(shù)語(yǔ) 2021年4期

盧華國(guó) 張雅

摘要：術(shù)語(yǔ)信息的多樣化需求對(duì)術(shù)語(yǔ)數(shù)據(jù)來(lái)源提出了新要求，專用語(yǔ)料庫(kù)在術(shù)語(yǔ)知識(shí)庫(kù)編纂中發(fā)揮了愈益重要的作用。文章以氣象學(xué)科為例，通過(guò)與通用語(yǔ)料庫(kù)比較，從類型定位、語(yǔ)料規(guī)模、語(yǔ)料選擇和語(yǔ)料加工四方面明確了如何設(shè)計(jì)面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的專用語(yǔ)料庫(kù)。

關(guān)鍵詞：術(shù)語(yǔ)信息;術(shù)語(yǔ)數(shù)據(jù);術(shù)語(yǔ)知識(shí)庫(kù);專用語(yǔ)料庫(kù)

中圖分類號(hào)：H083? 文獻(xiàn)標(biāo)識(shí)碼：A? DOI：10.12339/j.issn.1673-8578.2021.04.002

Designing Specialized Corpora for Compiling Terminological Knowledge Bases//LU Huaguo， ZHANG Ya

Abstract： Due to the diversified needs of terminological information， new requirements are put forward for the sources of terminological data， and specialized corpora play an increasingly important role in the compilation of terminological knowledge bases. Using meteorology as an example and making a comparison with general corpora， this paper discusses how to design a special corpus for term knowledge base compilation from the following four aspects： corpus classification， text size， text selection， and text processing.

Keywords： terminological information; terminological data; terminological knowledge base; specialized corpora

收稿日期：2021-05-17? 修回日期：2021-06-04

基金項(xiàng)目：江蘇高校哲學(xué)社會(huì)科學(xué)研究項(xiàng)目“英漢學(xué)習(xí)詞典中多義詞認(rèn)知表征及習(xí)得效果研究”（2020SJA0193） ;國(guó)家語(yǔ)言文字工作委員會(huì)漢語(yǔ)辭書(shū)研究中心開(kāi)放課題“基于描寫(xiě)術(shù)語(yǔ)學(xué)的英漢?？茖W(xué)習(xí)詞典語(yǔ)境化設(shè)計(jì)研究”（CSZX-YB-202013）

引言

為了提高語(yǔ)言內(nèi)部或語(yǔ)言之間專業(yè)交際的效率，術(shù)語(yǔ)學(xué)家借助術(shù)語(yǔ)標(biāo)準(zhǔn)化來(lái)消除專業(yè)語(yǔ)言中的歧義，其工作原則構(gòu)成了普通術(shù)語(yǔ)學(xué)的基本理念[1]，其實(shí)踐成果主要表現(xiàn)為術(shù)語(yǔ)庫(kù)。自20世紀(jì)90年代開(kāi)始，伴隨著術(shù)語(yǔ)學(xué)研究的描寫(xiě)轉(zhuǎn)向[2-4]，術(shù)語(yǔ)庫(kù)的宏觀和微觀結(jié)構(gòu)也發(fā)生了顯著的變化，不再只是以規(guī)范為導(dǎo)向的單語(yǔ)或雙語(yǔ)術(shù)語(yǔ)集，已經(jīng)轉(zhuǎn)變?yōu)榧婢邔ｉT(mén)用途語(yǔ)言描寫(xiě)的術(shù)語(yǔ)知識(shí)庫(kù)。具體講，收錄的術(shù)語(yǔ)拓展至名詞以外的其他詞性;除了種-屬和部分-整體等層級(jí)概念關(guān)系，功能、因果、處所等聯(lián)想關(guān)系日益受到重視;術(shù)語(yǔ)的語(yǔ)言維度已然進(jìn)入編纂者的視野，對(duì)句法、搭配以及近義、派生等聚合關(guān)系的描寫(xiě)在一定程度上模糊了術(shù)語(yǔ)與詞語(yǔ)之間的界限。西班牙格拉納達(dá)大學(xué)以框架術(shù)語(yǔ)學(xué)為依托，編纂了生態(tài)詞庫(kù)（EcoLexicon）[5]，加拿大魁北克學(xué)派借鑒詞匯語(yǔ)義學(xué)相關(guān)理論，編纂了環(huán)境詞庫(kù)（DiCoEnviro）[6]，二者可以看作是描寫(xiě)范式下的術(shù)語(yǔ)知識(shí)庫(kù)的代表。

術(shù)語(yǔ)知識(shí)庫(kù)多樣化的信息類型對(duì)數(shù)據(jù)獲取提出了新要求，對(duì)內(nèi)省和文檔閱讀等傳統(tǒng)數(shù)據(jù)獲取方式提出了新挑戰(zhàn)。語(yǔ)料庫(kù)大大突破了編者能夠閱讀的文檔數(shù)量，彌補(bǔ)了編者在專業(yè)知識(shí)儲(chǔ)備和外語(yǔ)語(yǔ)感方面的不足，語(yǔ)料庫(kù)工具的使用又能顯著提高數(shù)據(jù)獲取的效率。因此，語(yǔ)料庫(kù)在術(shù)語(yǔ)知識(shí)庫(kù)編纂中發(fā)揮了不可或缺的作用。然而，筆者發(fā)現(xiàn)鮮有研究系統(tǒng)梳理面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的語(yǔ)料庫(kù)與一般用途的語(yǔ)料庫(kù)在設(shè)計(jì)上的共性和差異。一般認(rèn)為，目的性、代表性和可機(jī)讀性是語(yǔ)料庫(kù)應(yīng)該至少滿足的三個(gè)要求，也是語(yǔ)料庫(kù)設(shè)計(jì)中需要重點(diǎn)考慮的三個(gè)因素：目的性確定了語(yǔ)料庫(kù)的類型特征，代表性制約著語(yǔ)料的規(guī)模和選擇，可機(jī)讀性則對(duì)語(yǔ)料提出了具體的加工要求。本文將以氣象學(xué)科為例，從語(yǔ)料庫(kù)設(shè)計(jì)的類型定位以及語(yǔ)料的規(guī)模、選擇和處理四方面探討如何設(shè)計(jì)面向氣象術(shù)語(yǔ)知識(shí)庫(kù)編纂的氣象英語(yǔ)語(yǔ)料庫(kù)。

1 類型定位

不同類型的語(yǔ)料庫(kù)對(duì)語(yǔ)料的規(guī)模、選擇和處理有著不同的要求。因此，明確氣象英語(yǔ)語(yǔ)料庫(kù)的類型定位是語(yǔ)料庫(kù)設(shè)計(jì)的前提。語(yǔ)料庫(kù)的分類可從多個(gè)角度切入：

（1）單語(yǔ)語(yǔ)料庫(kù)和多語(yǔ)語(yǔ)料庫(kù)。多語(yǔ)語(yǔ)料庫(kù)根據(jù)研究的目的又可以進(jìn)一步分為平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。在平行語(yǔ)料庫(kù)中，兩種語(yǔ)言的語(yǔ)料相互對(duì)應(yīng)，即一種語(yǔ)言是另外一種語(yǔ)言的譯文。在可比語(yǔ)料庫(kù)中，兩種語(yǔ)言的語(yǔ)料的收集雖然參照同一個(gè)抽樣框架，但二者在內(nèi)容上并不存在翻譯對(duì)應(yīng)關(guān)系。

（2）通用語(yǔ)料庫(kù)和專用語(yǔ)料庫(kù)。通用語(yǔ)料庫(kù)廣泛采集某種語(yǔ)言的口、筆語(yǔ)形式，取樣時(shí)盡可能考慮口、筆語(yǔ)的主要社會(huì)變體、地域變體、行業(yè)變體等各種變異及語(yǔ)言使用的各種場(chǎng)合之間的平衡，力求最好地代表一種語(yǔ)言的全貌。而專用語(yǔ)料庫(kù)出于某種特定的研究目的，常常只收集某特定領(lǐng)域的語(yǔ)言使用樣本。

（3）共時(shí)語(yǔ)料庫(kù)和歷時(shí)語(yǔ)料庫(kù)。共時(shí)語(yǔ)料庫(kù)由同一時(shí)代（主要是當(dāng)代）的語(yǔ)言使用樣本構(gòu)成，歷時(shí)語(yǔ)料庫(kù)則由不同時(shí)代的語(yǔ)言使用樣本構(gòu)成。

（4）本族語(yǔ)語(yǔ)料庫(kù)和學(xué)習(xí)者語(yǔ)料庫(kù)，前者收集的語(yǔ)言使用樣本全部源自本族語(yǔ)者，后者的語(yǔ)料則由非本族語(yǔ)學(xué)習(xí)者語(yǔ)言使用樣本構(gòu)成。

（5）口語(yǔ)語(yǔ)料庫(kù)和筆語(yǔ)語(yǔ)料庫(kù)。雖然，在日常生活中，口頭交際是最主要的交流方式。但是由于口語(yǔ)語(yǔ)料需要先轉(zhuǎn)寫(xiě)成文本才能由語(yǔ)料庫(kù)分析軟件進(jìn)行識(shí)別和處理，口語(yǔ)語(yǔ)料庫(kù)的建設(shè)需要耗費(fèi)更多的人力和物力，因而純粹的口語(yǔ)語(yǔ)料庫(kù)非常少見(jiàn)[7]4[8]69-74。

綜上所述，語(yǔ)料庫(kù)的分類體系可以用圖1表示。

在上述分類體系中，從同一視角對(duì)語(yǔ)料庫(kù)的二元?jiǎng)澐种皇菫榱朔奖阌懻?，并不能排除兩種劃分之間的過(guò)渡類型。例如，時(shí)間跨度只是一個(gè)相對(duì)的概念，歷時(shí)語(yǔ)料庫(kù)和共時(shí)語(yǔ)料庫(kù)之間僅僅存在度的差異，無(wú)法截然分開(kāi)。盡管如此，該分類體系為理解氣象英語(yǔ)語(yǔ)料庫(kù)的類型特征提供了一個(gè)可參照的框架。首先，氣象英語(yǔ)語(yǔ)料庫(kù)不關(guān)心整個(gè)語(yǔ)言的使用情況，僅專注于氣象學(xué)科，顯然應(yīng)該歸于專用語(yǔ)料庫(kù)，這是氣象英語(yǔ)語(yǔ)料庫(kù)最基本的類型特點(diǎn)。此外，氣象英語(yǔ)語(yǔ)料庫(kù)不以翻譯或跨語(yǔ)對(duì)比為研究目標(biāo)。其次，氣象英語(yǔ)語(yǔ)料庫(kù)屬單語(yǔ)語(yǔ)料庫(kù)，僅涉及英語(yǔ)這一種語(yǔ)言，旨在記錄和描寫(xiě)氣象專業(yè)英語(yǔ)的語(yǔ)義/概念或句法特征，所收集的語(yǔ)料源自能夠熟練使用英語(yǔ)進(jìn)行專業(yè)交際的氣象專家，主要指以英語(yǔ)為母語(yǔ)的氣象專業(yè)人士，與服務(wù)于中介語(yǔ)研究的學(xué)習(xí)者語(yǔ)料庫(kù)有著明顯的區(qū)別。再次，氣象交際主要是一種書(shū)面語(yǔ)交際，雖然也涉及課堂教學(xué)和學(xué)術(shù)講座等口頭形式，但是本質(zhì)上屬于正式的語(yǔ)體。因此，氣象英語(yǔ)語(yǔ)料庫(kù)可歸為筆語(yǔ)語(yǔ)料庫(kù)。最后，氣象英語(yǔ)語(yǔ)料庫(kù)關(guān)注的是當(dāng)代氣象英語(yǔ)的使用情況，并不特別關(guān)心氣象英語(yǔ)的發(fā)展變化，因而本質(zhì)上屬于共時(shí)語(yǔ)料庫(kù)。通過(guò)在語(yǔ)料庫(kù)的整個(gè)分類體系中對(duì)氣象英語(yǔ)語(yǔ)料庫(kù)進(jìn)行定位，可以幫助語(yǔ)料庫(kù)的設(shè)計(jì)者從宏觀上把握其類型特征，為確定語(yǔ)料的規(guī)模大小、語(yǔ)料選擇的具體標(biāo)準(zhǔn)、語(yǔ)料的加工處理奠定基礎(chǔ)。

2 語(yǔ)料規(guī)模

語(yǔ)料的規(guī)模是指語(yǔ)料庫(kù)所包含的形符（token）總數(shù)（包含多次出現(xiàn)且被重復(fù)計(jì)入的詞），是設(shè)計(jì)者在語(yǔ)料庫(kù)建設(shè)之初就需要考慮的一個(gè)重要方面。20世紀(jì)60—70年代，語(yǔ)料的收集主要靠鍵盤(pán)輸入和光學(xué)掃描，需要耗費(fèi)大量的時(shí)間、人力和資金。受技術(shù)水平的限制，能夠存儲(chǔ)和處理的數(shù)據(jù)量也非常有限。而現(xiàn)在大部分文本都以電子形式存在，省去了人工輸入之苦。就硬件而言，普通的個(gè)人電腦已經(jīng)能夠滿足語(yǔ)料庫(kù)建設(shè)對(duì)海量數(shù)據(jù)的存儲(chǔ)和處理要求。因此，討論“語(yǔ)料規(guī)模需要有多大”比探討“語(yǔ)料規(guī)模能有多大”更有實(shí)際意義。

語(yǔ)料規(guī)模的大小首先取決于建庫(kù)的目的。語(yǔ)料庫(kù)可用于研究語(yǔ)法，也可以用于考察詞匯。與詞匯相比，語(yǔ)法結(jié)構(gòu)數(shù)量少且復(fù)現(xiàn)率高，所以用于研究語(yǔ)法特征的語(yǔ)料規(guī)模較小。例如，Biber[9]指出1000詞的語(yǔ)料就能滿足研究英語(yǔ)動(dòng)詞現(xiàn)在時(shí)和過(guò)去時(shí)的需要。用于考察詞匯特征的語(yǔ)料規(guī)模則需要大很多[10]。由齊普夫定律[11]可知，部分詞匯（如and、the）在文本中出現(xiàn)的頻率非常高，部分詞匯的出現(xiàn)頻率卻非常低。只有增加語(yǔ)料的規(guī)模，才可能增加相對(duì)生僻的詞匯在語(yǔ)料庫(kù)中出現(xiàn)的頻次。對(duì)詞典編纂而言，只有當(dāng)語(yǔ)料庫(kù)包含的類符總量足夠大時(shí)，基于語(yǔ)料庫(kù)產(chǎn)生的詞表才能滿足詞典對(duì)收詞量的需要，為詞典編者提供足夠量的索引行作為描寫(xiě)詞匯特征的數(shù)據(jù)基礎(chǔ)。Krishnamurthy[12]認(rèn)為形符量達(dá)到1億的語(yǔ)料庫(kù)能夠滿足袖珍詞典的編纂需要，但是還不足以用來(lái)描寫(xiě)詞匯的類連接特征。Atkins和Rundell[8]54指出有時(shí)候一個(gè)詞即使在語(yǔ)料庫(kù)中出現(xiàn)100次也不足以保證描寫(xiě)詞匯特征所需要的確定性（descriptive certainty）。如果被描寫(xiě)的詞是多義詞，有著復(fù)雜的語(yǔ)法結(jié)構(gòu)和豐富的搭配型式，那么語(yǔ)料規(guī)模只有成倍增加才能滿足編者描寫(xiě)多義詞的需要。

語(yǔ)料的規(guī)模還與涉及的領(lǐng)域（domain）或主題（topic）的多少和寬窄有關(guān)。就通用語(yǔ)料庫(kù)而言，為了取得平衡的效果，語(yǔ)料往往需要涵蓋多個(gè)主題，其規(guī)模也必然很大。相比之下，“專用語(yǔ)料庫(kù)往往較小，但是依然能夠代表專業(yè)語(yǔ)言變體，因?yàn)樯婕暗膶I(yè)領(lǐng)域越窄，代表該領(lǐng)域所需要的文本數(shù)量就越小”[13]408。專用語(yǔ)料庫(kù)在語(yǔ)料規(guī)模方面的這一特點(diǎn)與術(shù)語(yǔ)自身的特點(diǎn)是分不開(kāi)的。首先，與通用詞匯比，術(shù)語(yǔ)具有專業(yè)特殊性（domain-specificity），數(shù)量相對(duì)少，在專業(yè)文本中的分布密集程度高。因此，規(guī)模較小的專用語(yǔ)料庫(kù)也能夠滿足術(shù)語(yǔ)研究對(duì)覆蓋范圍和復(fù)現(xiàn)率的要求。其次，由于術(shù)語(yǔ)在搭配方面透明度高且規(guī)律性強(qiáng)，無(wú)需借助對(duì)大量語(yǔ)料的頻次統(tǒng)計(jì)以濾掉那些高度依賴語(yǔ)境的非典型搭配（例如，...went to the graveyard with weeping eyes and hairs 中的軛式搭配weeping eyes and hairs）。最后，在術(shù)語(yǔ)中，單義術(shù)語(yǔ)占據(jù)多數(shù)，即使有多義術(shù)語(yǔ)，其義項(xiàng)數(shù)量與通用語(yǔ)言中的常用詞匯（如break）也不可同日而語(yǔ)。因此，描寫(xiě)術(shù)語(yǔ)需要的索引行的數(shù)量在理論上比描寫(xiě)常用詞匯要小。

Bowker和Pearso[14]45指出“不應(yīng)該想當(dāng)然地認(rèn)為（專用語(yǔ)料庫(kù)）總是越大越好”。李德俊[15]98也提醒說(shuō)，由于“規(guī)模悖論”的存在，語(yǔ)料庫(kù)的規(guī)模并不是越大越好，在語(yǔ)料庫(kù)建設(shè)時(shí)，要特別注意“收益遞減率”（the law of diminishing returns）。作為典型的專用語(yǔ)料庫(kù)，氣象英語(yǔ)語(yǔ)料庫(kù)僅涉及氣象專業(yè)文本，其語(yǔ)料規(guī)模無(wú)需達(dá)到通用語(yǔ)料庫(kù)的級(jí)別。參考同類面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的專用語(yǔ)料庫(kù)的設(shè)計(jì)經(jīng)驗(yàn)（如[16]），筆者認(rèn)為氣象英語(yǔ)語(yǔ)料庫(kù)的語(yǔ)料規(guī)模至少達(dá)到百萬(wàn)級(jí)別，才能滿足氣象術(shù)語(yǔ)知識(shí)庫(kù)術(shù)語(yǔ)知識(shí)描寫(xiě)對(duì)語(yǔ)料規(guī)模的要求。此外，考慮到氣象英語(yǔ)中新術(shù)語(yǔ)、新用法持續(xù)出現(xiàn)的特點(diǎn)，氣象英語(yǔ)語(yǔ)料庫(kù)應(yīng)該呈現(xiàn)出一定的開(kāi)放性，允許編者根據(jù)編纂的實(shí)際需要定期補(bǔ)充新文本。換言之，氣象英語(yǔ)語(yǔ)料庫(kù)的語(yǔ)料收集不是一次就能完成的，而是一個(gè)在百萬(wàn)級(jí)別基礎(chǔ)上不斷充實(shí)的動(dòng)態(tài)過(guò)程。

3 選擇標(biāo)準(zhǔn)

語(yǔ)料有規(guī)模大小之別，但代表性是其共同特點(diǎn)。語(yǔ)料的代表性主要通過(guò)對(duì)文本的選擇來(lái)實(shí)現(xiàn)。文本選擇的標(biāo)準(zhǔn)可以分為內(nèi)部標(biāo)準(zhǔn)和外部標(biāo)準(zhǔn)兩類。就通用語(yǔ)料庫(kù)而言，語(yǔ)料選擇的內(nèi)部標(biāo)準(zhǔn)是指文本所共享的語(yǔ)言或文體特征。Atkins和Rundell[8]54介紹了基于內(nèi)部標(biāo)準(zhǔn)的文本選擇過(guò)程：（1）選擇系列來(lái)源不同的文本;（2）分析文本中反復(fù)出現(xiàn)的詞匯或語(yǔ)法特征（如語(yǔ)態(tài)、人稱、搭配）;（3）基于這些特點(diǎn)嘗試對(duì)文本進(jìn)行分類;（4）收集更多能夠包含這些語(yǔ)言特征的文本，繼續(xù)分析文本的語(yǔ)言特征，改進(jìn)其分類，收集更多文本，直至這些特征在語(yǔ)料庫(kù)中更清晰地反映出來(lái)。值得注意的是，依據(jù)內(nèi)部標(biāo)準(zhǔn)從語(yǔ)料中獲取的數(shù)據(jù)可能因循環(huán)論證而信度受損[17]171。鑒于此，Sinclair[17]提出按照文本的情景、功能等非語(yǔ)言（non-linguistic）或語(yǔ)言外（extra-linguistic）特征選擇語(yǔ)料，這樣至少可以使語(yǔ)言特征在語(yǔ)料庫(kù)建設(shè)的開(kāi)始階段不受文本選擇的影響。語(yǔ)料庫(kù)的建設(shè)者在按照外部標(biāo)準(zhǔn)選擇語(yǔ)料的同時(shí)，還可以根據(jù)從語(yǔ)料分析中獲取的語(yǔ)言特征評(píng)估和改進(jìn)語(yǔ)料的代表性[18]150，從而把外部標(biāo)準(zhǔn)和內(nèi)部標(biāo)準(zhǔn)統(tǒng)一到文本的選擇過(guò)程中。

專用語(yǔ)料庫(kù)也可以把語(yǔ)言特征作為選擇專業(yè)文本的內(nèi)部標(biāo)準(zhǔn)。Halskov[19]主張把易讀性（readability）和專業(yè)知識(shí)密度作為衡量專業(yè)文本質(zhì)量的重要指標(biāo)。他認(rèn)為易讀性是學(xué)術(shù)文本的重要特征，與句子長(zhǎng)度、詞（包括復(fù)合詞）長(zhǎng)度和被動(dòng)語(yǔ)態(tài)的使用量呈反比關(guān)系，與通用詞匯密度和人稱代詞的使用量呈正比關(guān)系。專業(yè)知識(shí)密度是學(xué)術(shù)文本的另一個(gè)特征，與未登錄詞（out of vocabulary words，指在自然語(yǔ)言處理中沒(méi)有被詞典收錄的各類專有名詞、縮略語(yǔ)、新增詞匯等）和知識(shí)型式（主要包含詞匯或語(yǔ)法標(biāo)記語(yǔ)，能夠幫助文本讀者理解概念的意義和概念之間的關(guān)系）的密度呈正比關(guān)系。換言之，易讀性越低，知識(shí)密度越高，文本質(zhì)量就越高。易讀性和知識(shí)密度雖然為專用語(yǔ)料庫(kù)的文本選擇提供了參考，但是由于偏好知識(shí)密集型文本，容易造成文本類型單一的缺點(diǎn)。

Bowker 和 Pearso[14]51指出，為了保證更全面地覆蓋專門(mén)用途語(yǔ)言的概念和語(yǔ)言特征，專用語(yǔ)料庫(kù)應(yīng)該選擇與所涉學(xué)科相關(guān)的各類文本。他們根據(jù)參與方把專業(yè)交際分為專家-專家、專家-初學(xué)者（initiate）、相對(duì)專家（relative expert）-外行（uninitiate）和老師-學(xué)生四種類型[20]35-39。他們認(rèn)為，第三種交際不僅術(shù)語(yǔ)密度低，而且對(duì)術(shù)語(yǔ)的使用也比較隨意，因而主張把該類交際中涉及的文本排除在語(yǔ)料庫(kù)之外。筆者認(rèn)為在該類交際中，鑒于信息接受者的專業(yè)知識(shí)水平低，信息發(fā)出者為了有效傳遞專業(yè)信息，往往以深入淺出的方式對(duì)核心概念進(jìn)行解釋，專業(yè)文本因而提供了較豐富的認(rèn)知語(yǔ)境信息，也值得納入專用語(yǔ)料庫(kù)的選材范圍。

就氣象英語(yǔ)語(yǔ)料庫(kù)而言，這四類交際場(chǎng)景涉及專著（如Severe Convective Storms）和學(xué)術(shù)期刊（如Atmospheric Research）、專業(yè)教材（如An Introduction to Dynamic Meteorology）、報(bào)刊科普或?qū)谖恼拢ㄈ鏢cienceDaily網(wǎng)站上有關(guān)氣象的科普文章）、入門(mén)級(jí)教材（如Essentials of Meteorology： An Invitation to the Atmosphere）等文本類型。Bergenholtz和Tarp[21]94指出專用語(yǔ)料庫(kù)在選擇文本的時(shí)候還應(yīng)該兼顧各個(gè)子學(xué)科并根據(jù)其重要性確定各類文本在語(yǔ)料中所占的比重。具體到氣象英語(yǔ)語(yǔ)料庫(kù)，對(duì)語(yǔ)料的選擇應(yīng)該至少涵蓋大氣、大氣探測(cè)、大氣物理學(xué)、大氣化學(xué)、動(dòng)力物理學(xué)、天氣學(xué)、氣候?qū)W、應(yīng)用氣象學(xué)8個(gè)學(xué)科分支。

4 加工處理

語(yǔ)料庫(kù)的一大優(yōu)勢(shì)是可以借助分析軟件對(duì)語(yǔ)料進(jìn)行多文本檢索，快速提取所需要的具體信息或統(tǒng)計(jì)某一語(yǔ)言特征的整體分布情況。語(yǔ)料的可機(jī)讀性是語(yǔ)料庫(kù)發(fā)揮這一優(yōu)勢(shì)的前提。為此，首先需要對(duì)選取的語(yǔ)料進(jìn)行清潔處理。用于氣象英語(yǔ)語(yǔ)料庫(kù)建設(shè)的語(yǔ)料資源多是PDF和HTML數(shù)字文本，在投入使用之前，需要統(tǒng)一轉(zhuǎn)換成純文本。在此過(guò)程中，還會(huì)產(chǎn)生一些不合規(guī)范的符號(hào)或格式，若不加以清理會(huì)導(dǎo)致詞匯分析、搭配統(tǒng)計(jì)不準(zhǔn)確以及詞性賦碼出錯(cuò)或無(wú)法進(jìn)行[7]32。此外，由于語(yǔ)料來(lái)源于各種類型的出版物，被選取的文本可能還包含致謝、版權(quán)頁(yè)、頁(yè)頭書(shū)名、圖表公式、索引目錄、參考文獻(xiàn)等內(nèi)容。它們對(duì)氣象術(shù)語(yǔ)知識(shí)庫(kù)編纂沒(méi)有參考價(jià)值，也需要從文本中清理出去[8]85。

在進(jìn)行必要的清理之后，還需要對(duì)語(yǔ)料做進(jìn)一步的處理，以便借助軟件從語(yǔ)料分析中得到更準(zhǔn)確的結(jié)果：（1）分詞處理（tokenization）是語(yǔ)料預(yù)處理中的一個(gè)常見(jiàn)步驟，指將一連串的字符轉(zhuǎn)換成相互分離、容易識(shí)別的形符。梁茂成、李文中和許家金[7] 45指出，如果不對(duì)語(yǔ)料進(jìn)行分詞處理，一來(lái)容易導(dǎo)致檢索困難，二來(lái)可能會(huì)使語(yǔ)料庫(kù)的頻率統(tǒng)計(jì)出現(xiàn)誤差，還可能會(huì)影響語(yǔ)料庫(kù)的標(biāo)注和后期加工。（2）詞目還原（lemmatization）是語(yǔ)料預(yù)處理中的另一項(xiàng)基本操作，是指將詞匯的各種屈折形式映射至原形，使分析軟件能夠把它們歸并為同一個(gè)類符，從而把與詞目相關(guān)的各類統(tǒng)計(jì)信息匯總在一起。氣象英語(yǔ)語(yǔ)料庫(kù)同樣有必要進(jìn)行分詞和詞目還原，但是由于某些分析軟件（如術(shù)語(yǔ)提取軟件TermoStat、搭配關(guān)系和概念關(guān)系提取軟件Sketch Engine）已經(jīng)整合了這兩項(xiàng)功能，語(yǔ)料庫(kù)的建設(shè)者無(wú)需對(duì)語(yǔ)料再做這方面的處理。

Leech[22]4指出“為了從語(yǔ)料庫(kù)中提取信息，經(jīng)常得先從輸入信息開(kāi)始”。對(duì)語(yǔ)料進(jìn)行清理、分詞和削尾處理之后，語(yǔ)料庫(kù)已經(jīng)可以投入使用，但是為了讓使用者更合理地解讀由軟件獲取的分析結(jié)果，還需要增加元數(shù)據(jù)（meta-data）標(biāo)記，盡可能恢復(fù)在語(yǔ)料采集中丟失的語(yǔ)境信息。在各類元數(shù)據(jù)中，文本分類信息和結(jié)構(gòu)信息對(duì)合理解讀從語(yǔ)料庫(kù)中獲取的數(shù)據(jù)特別重要[18]155。就英語(yǔ)氣象術(shù)語(yǔ)知識(shí)庫(kù)而言，前者旨在明確某一具體文本在氣象學(xué)學(xué)科體系中的定位，可以幫助編者確定某一術(shù)語(yǔ)或特征的學(xué)科分支來(lái)源。后者旨在說(shuō)明文本的各組件之間的界限（如學(xué)術(shù)論文的摘要、綜述、結(jié)論等組件）。這類信息可幫助編者確定某一語(yǔ)言特征在文本中的不同位置，從而結(jié)合文本結(jié)構(gòu)對(duì)數(shù)據(jù)做出更全面的解讀。

語(yǔ)料還需要進(jìn)行必要的標(biāo)注。對(duì)術(shù)語(yǔ)數(shù)據(jù)庫(kù)創(chuàng)建而言，術(shù)語(yǔ)、搭配和概念關(guān)系這三類信息至關(guān)重要，一般需要利用正則表達(dá)式設(shè)置復(fù)雜的檢索條件才能加以提取。以下是兩款軟件從語(yǔ)料中提取術(shù)語(yǔ)、搭配和概念關(guān)系等信息類型所使用的檢索語(yǔ)法：

TermoStat的名詞術(shù)語(yǔ)檢索語(yǔ)法[23]：

（A|N）？（A|N）？（A|N）？（A|N）？（A|N）？N

Sketch Engine的“動(dòng)詞+名詞”搭配檢索語(yǔ)法[24]：

1： "V" "（DET|NUM|ADJ|ADV|N）"* 2： "N"

Sketch Engine的種屬關(guān)系檢索語(yǔ)法[24]：

HYPONYM，|（|：|is|belongs （to）（a|the|...） type|category|...of HYPERNYM

從以上檢索語(yǔ)法可知，增加詞性標(biāo)注是提取以上信息類型的前提。因此，對(duì)語(yǔ)料進(jìn)行詞性賦碼是面向術(shù)語(yǔ)數(shù)據(jù)庫(kù)的語(yǔ)料加工處理的基本內(nèi)容。術(shù)語(yǔ)提取軟件TermoStat默認(rèn)對(duì)上傳的語(yǔ)料進(jìn)行賦碼處理。語(yǔ)料庫(kù)檢索軟件Sketch Engine為英語(yǔ)就提供了11種詞性賦碼集，語(yǔ)料庫(kù)建設(shè)者根據(jù)需要選擇其中一種賦碼后，軟件自動(dòng)完成對(duì)語(yǔ)料的詞性賦碼。

5 結(jié)語(yǔ)

語(yǔ)料庫(kù)設(shè)計(jì)是從語(yǔ)料庫(kù)中提取可靠數(shù)據(jù)的關(guān)鍵。為了建設(shè)面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的語(yǔ)料庫(kù)，編者需要首先在語(yǔ)料庫(kù)分類體系中為專用語(yǔ)料庫(kù)定位以明確其類型特征，然后根據(jù)語(yǔ)料庫(kù)的建設(shè)目的和涉及的主題范圍確定語(yǔ)料的大致規(guī)模，并根據(jù)數(shù)據(jù)提取中出現(xiàn)的新情況向語(yǔ)料庫(kù)中添加新語(yǔ)料。為了保證語(yǔ)料庫(kù)的代表性，編者還需要根據(jù)專業(yè)交際的特點(diǎn)和學(xué)科的內(nèi)部構(gòu)成確定語(yǔ)料選擇的標(biāo)準(zhǔn)。最后在使用語(yǔ)料之前，還應(yīng)該對(duì)收集的文本進(jìn)行必要的格式轉(zhuǎn)換、內(nèi)容清理、信息標(biāo)注等處理。

參考文獻(xiàn)

[1] WSTER E. The Machine Tool Dictionary. An Interlingual Dictionary of Basics Concepts[M]. London： Technical Press， 1968.

[2] SAGER J C. A Practical Course in Terminology Processing[M]. Amsterdam： John Benjamins Publishing Company， 1990.

[3] TEMMERMAN R. Towards New Ways of Terminological Description： The sociocognitive approach[M]. Amsterdam： John Benjamins Publishing Company， 2000.

[4] CABR M T. Theories of terminology： Their description， prescription and explanation[J]. Terminology， 2003， 9（2）： 163-200.

[5] FABER P. A Cognitive Linguistics View of Terminology and Specialized Language[M]. Berlin/New York： Mouton de Gruyter， 2012.

[6] LHOMME M-C. Lexical Semantics for Terminology： An Introduction：Vol. 20[M]. Amsterdam： John Benjamins Publishing Company， 2020.

[7] 梁茂成，李文中，許家金. 語(yǔ)料庫(kù)應(yīng)用教程[M]. 北京：外語(yǔ)教學(xué)與研究出版社， 2010.

[8] ATKINS B T， RUNDELL M. The Oxford Guide to Practical Lexicography[M]. Oxford University Press， 2008.

[9] BIBER D. Representativeness in corpus design[C]// ZAMPOLLI A， CALZOLARI N， PALMER M. Current Issues in Computational Linguistics： In Honor Of Don Walker：Vol. 9. Springer Science & Business Media， 1994：377-407.

[10] LAUDER A F. Data for lexicography： The central role of the corpus[J]. Wacana：Journal of the Humanities of Indonesia， 2010 （2）： 219-242.

[11] ZIPF G K. The Psycho-biology of Language[M]. Cambridge： Houghton Mifflin， 1935.

[12] KRISHNAMURTHY R. The corpus revolution in EFL dictionaries[J]. Kernerman Dictionary News， 2002（10）： 1-6.

[13] NESI H. ESP and corpus studies[M]//PALTRIDGE B， STARFIELD S. The Handbook of English for Specific Purposes：Vol. 120. John Wiley & Sons， 2013： 407-426.

[14] BOWKER L， PEARSON J. Working with Specialized Language： A Practical Guide to Using Corpora[M]. Routledge， 2002.

[15] 李德俊. 語(yǔ)料庫(kù)詞典學(xué)理論與方法探索[M]. 南京：譯林出版社， 2015.

[16] TERCEDOR SNCHEZ M， LPEZ-RODRGUEZ C I. Integrating corpus data in dynamic knowledge bases： The Puertoterm project[J]. Terminology， 2008，14 （2）： 159-182.

[17] SINCLAIR J. Corpus and text： Basic principles[C]// WYNNE M. Developing Linguistic Corpora： A Guide to Good Practice. Oxford， UK：AHDS， 2005：1-20.

[18] XIAO R.Corpus creation[M]//INDURKHYA N，DAMERAU F J. Handbook of Natural Language Processing （2nd Revised Edition）. CRC Press， 2010： 147-165.

[19] HALSKOV J， HANSEN D H， BRAASCH A， et al. Quality indicators of LSP texts-selection and measurements measuring the terminological usefulness of documents for an LSP corpus[C]// European language resources distribution agency. Proceedings of the Seventh International Conference on Language Resources and Evaluation， 2010.

[20] PEARSON J. Terms in Context：Vol. 1[M]. Amsterdam：John Benjamins Publishing Company， 1998.

[21] BERGENHOLTZ H， TARP S. Manual of Specialised Lexicography： The Preparation of Specialised Dictionaries：Vol. 12[M]. Amsterdam： John Benjamins Publishing， 1995.

[22] LEECH G. Introducing corpus annotation[C]// GARSIDE R， LEECH G， MCENERY V. Corpus Annotation： Linguistic Information From Computer Text Corpora. London： Longman， 1997： 1-18.

[23] DROUIN P. Term extraction using non-technical corpora as a point of leverage. Terminology， 2003（1）：99-115.

[24] LEN-ARAZ P， SAN MARTN A， FABER P. Pattern-based word sketches for the extraction of semantic relations//DROUIN P， GRABAR N， HAMON T， et al. Proceedings of the 5th International Workshop on Computational Terminology. Osaka， Japan， 2016： 73-82.

作者簡(jiǎn)介：盧華國(guó)（1979—），男，博士，副教授，加拿大蒙特利爾大學(xué)（導(dǎo)師Marie-Claude LHomme）和英國(guó)曼徹斯特大學(xué)訪問(wèn)學(xué)者，長(zhǎng)期從事術(shù)語(yǔ)翻譯和?？圃~典學(xué)研究，2017年當(dāng)選為中國(guó)辭書(shū)學(xué)會(huì)雙語(yǔ)詞典分會(huì)理事，擔(dān)任International Journal of Lexicography期刊匿名評(píng)審，發(fā)表SSCI論文5篇、CSSCI論文7篇，主持翻譯類、詞典類各級(jí)各類課題7項(xiàng)，參與翻譯類國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目、一般項(xiàng)目和教育部人文社會(huì)科學(xué)研究項(xiàng)目各1項(xiàng)，合作撰寫(xiě)專著1部，參與編纂辭書(shū)2部，合譯書(shū)籍3部。通信方式：louisluhuaguo@163.com。

中國(guó)科技術(shù)語(yǔ)2021年4期

中國(guó)科技術(shù)語(yǔ)的其它文章: 中國(guó)術(shù)語(yǔ)事業(yè)發(fā)展概況及思考; 術(shù)語(yǔ)知識(shí)庫(kù)EcoLexicon的應(yīng)用與啟示; 西班牙語(yǔ)專業(yè)本科生科技術(shù)語(yǔ)翻譯能力調(diào)查分析; 劉伯承的軍語(yǔ)翻譯理論建樹(shù)、實(shí)踐貢獻(xiàn)及啟示; 深化國(guó)防和軍隊(duì)改革背景下的新軍語(yǔ)定名特征; 《民法典》術(shù)語(yǔ)“個(gè)人信息”的名與實(shí)：“個(gè)人信息/數(shù)據(jù)/資料”辨析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的專用語(yǔ)料庫(kù)設(shè)計(jì)