劉宇紅 殷銘
摘 要:在國外學者的詞頻研究方法、語境研究方法和語料對比方法的基礎(chǔ)上,以英語語言學56萬余字的語料為基礎(chǔ),提出了四個步驟的術(shù)語表研制方法,并且歸納出了359個英語語言學術(shù)語。這種研究不僅是對英語語言學術(shù)語的第一次嘗試性歸納,而且研究方法上的創(chuàng)新可以應用于其他學科的術(shù)語研究和術(shù)語表的研制。
關(guān)鍵詞:術(shù)語表;英語語言學;詞頻;語境;語料庫
中圖分類法: N04;H083文獻標識碼:ADOI:10.3969/j.issn.1673-8578.2021.02.002
A Four-Step Building of Glossaries: Case Study of English Linguistic Glossary//LIU Yuhong, YIN Ming
Abstract: On the basis of the methodologies of Frequency, Context and Corpus Contrast originated outside China and by using a linguistic corpus of over 560 000 words, we put forward a four-step glossary building method and summarized a total of 359 English linguistic terms. This research is the first attempt in English linguistic glossary building while its innovation in research methodology benefits other disciplines in terminology research and glossary building.
Keywords:glossary; English linguistics; frequency; context; corpus
引言
術(shù)語表(glossary)是特定學科術(shù)語的集合。術(shù)語表的質(zhì)量取決于術(shù)語的質(zhì)量。梁愛林[1]把術(shù)語質(zhì)量的標準概括為六個方面,即清晰性、一致性、得體性、簡潔性、 準確性以及詞的衍生能力;Perinán-Pascual[2]認為突顯性(salience)、關(guān)聯(lián)性(relevance)和連貫性(cohesion)決定了術(shù)語的質(zhì)量。要確保術(shù)語表的質(zhì)量,最重要的是從文本中提取術(shù)語的方法和程序要合理。一般來說,作為教材附錄的術(shù)語表是將教材中出現(xiàn)過的術(shù)語按一定的順序排列出來,這不是一件難事,但是要把一個學科的常用術(shù)語盡可能全面地遴選出來,代表一個學科的全部的知識體系和研究方法,卻不是一件容易的事。本文以英語語言學為例,將提出一種四步驟的術(shù)語表研制方法,并將盡可能全面地歸納出英語語言學的術(shù)語。
1 術(shù)語表的研制方法回顧
國內(nèi)的術(shù)語表研究是多側(cè)面多角度的,比如葉其松[3]提出“術(shù)語編纂”三分說,從廣義、一般概念和狹義三個維度對術(shù)語進行論述;鄭述譜和梁愛林[4]對國外術(shù)語學研究現(xiàn)狀進行了評介;梁愛林[1]對術(shù)語資源的質(zhì)量評估進行了較全面的探討。偶爾也有學位論文(如陳觀喜[5])對文檔術(shù)語表的自動構(gòu)建方法展開研究,提出了一些較有價值的觀點。
至于國外的術(shù)語表研究,更多地關(guān)注術(shù)語的產(chǎn)生過程和實施方法,在研究思路上大致可以分為三類。第一類是基于詞頻的方法,第二類是基于上下文語境的方法,第三類是語料對比的方法。這些研究與本文的關(guān)系更加密切,所以我們來簡要介紹一下它們的主要觀點和代表性理論,然后評述一下其得失。
第一類方法的基本思路是:如果一個單詞出現(xiàn)的頻率比較大或者該單詞以固定的搭配形式出現(xiàn)在特定的文本中,那么它在這個領(lǐng)域中成為術(shù)語的可能性比較大。
詞頻方法代表性的理論是TF-IDF[6]。TF(term frequency)指詞頻,即一個詞條在文檔中出現(xiàn)的頻率。IDF(inverse document frequency)指逆向文本詞頻,如果包含某詞條的文檔越少,即IDF 越大,則說明該詞條具有很好的類別區(qū)分能力。C-Value[7]是術(shù)語抽取方法中應用較多的理論,在統(tǒng)計詞頻時它要求候選術(shù)語不得嵌套在別的術(shù)語中,先通過計算候選術(shù)語頻率和長度得到一個分值,然后根據(jù)包含該候選術(shù)語的更長的候選術(shù)語的詞頻來調(diào)整該分值。Basic[8]與 C-Value 方法剛好相反,根據(jù)Basic方法抽取的術(shù)語可以是其他候選術(shù)語的一部分。
第二類方法是基于上下文語境來區(qū)分術(shù)語和非術(shù)語。NC-Value[7]是代表性的方法之一,它主張一個特定領(lǐng)域的語料庫中通常有一個“重要”單詞的列表,在這些“重要”單詞語境中出現(xiàn)的候選術(shù)語應該被賦予更高的權(quán)重。Domain Coherence[9]方法是 NC-Value 的一個改進,它用 Basic 方法抽取最好的 200個術(shù)語候選項,然后從它們的上下文中過濾其他詞性的單詞,這個過濾過程只保留在文檔中詞頻至少占四分之一的名詞、形容詞、動詞和副詞,最后用標準化的Astrakhantsev[9]排序得到前 50個單詞。
第三類方法是語料對比的方法,基本做法是通過單詞在指定領(lǐng)域語料中的詞頻和其他語料中的詞頻進行比較,將術(shù)語與一般的單詞或者短語區(qū)別出來。這類方法主要有Domain Pertinence、Weirdness和Relevance[9]。
上述三類方法,各有其合理性,下面我們分別進行評述。
第一類方法基于詞頻來遴選術(shù)語,這是最為基礎(chǔ)的操作步驟,但是詞頻方法不能排除高頻的非術(shù)語詞組,尤其是包含2~3詞的詞組,它們在各類文體中都具有很高的出現(xiàn)頻率,比如put on和take advantage of這類詞組,總是混跡于通過詞頻遴選出來的術(shù)語庫中,而且數(shù)量很大。Biber等人[10]統(tǒng)計發(fā)現(xiàn),在英語口語和書面語中這類詞組分別占30%左右和21%左右。Erman和Warren [11]的統(tǒng)計結(jié)果比例更高,認為分別占58.6%和52.3%,所以詞頻方法只能是術(shù)語表研制中的步驟之一,而不能成為獨立的術(shù)語遴選方法。
第二類方法是基于語境來區(qū)分術(shù)語和非術(shù)語,某些“重要”單詞在詞串語境中與其他單詞的共現(xiàn)概率很高,但是詞組作為整體的出現(xiàn)概率不一定高,所以詞組可能被詞頻統(tǒng)計方法所過濾。如果能將詞頻方法和語境方法結(jié)合起來,把整體的詞頻數(shù)據(jù)和詞組內(nèi)部各成分的共現(xiàn)概率進行量化,對兩者進行綜合平衡,按一定的比例取值,這樣計算的結(jié)果會比單獨考慮詞頻或語境特征更能遴選出合理的術(shù)語表。
第三類方法是進行語料對比,通過同一單詞在不同文體或不同語域的語料中進行頻次比較,在統(tǒng)計術(shù)語時,這種方法可以排除高頻日常詞組,比如上文提到的put on和take advantage of等詞組是各種文體和各種語域中的通用詞組,它們不僅整體的詞頻很高,而且內(nèi)部各成分的共現(xiàn)概率也很高,所以第三類方法通過語域排查可以過濾非術(shù)語的詞組,但是必須與第一和第二類方法結(jié)合起來使用。
從我們的分析可以看出,三類方法各有其合理性,但是單獨使用時都有一定的缺陷,所以本文擬提出四個步驟的遴選方法,充分利用上述三種方法的優(yōu)勢,同時讓它們揚長避短,優(yōu)勢互補,找到一條適合術(shù)語遴選的方法。
2 術(shù)語表研制過程詳解
本研究以英語語言學的術(shù)語提取和術(shù)語表制作為例。此研制方法不僅可以為其他學科術(shù)語表的研制提供一種示范,其研究結(jié)果也可以為英語語言學學科提供可以利用的術(shù)語庫,指導英語語言學教材編寫時的術(shù)語選用,同時也可以用作教材的附錄,供教材讀者使用。當然,由于語料選擇的有限性和各種參數(shù)在量化精度上的局限性,術(shù)語表不可能窮盡一切術(shù)語,而且由于學科在不斷發(fā)展之中,術(shù)語表也必須隨著時間推移而不斷更新。
2.1 步驟一:運用詞頻統(tǒng)計方法進行初步篩選
步驟一運用詞頻統(tǒng)計方法,篩選出候選的術(shù)語,是對第一類方法的借鑒和發(fā)揮。
為了研制英語語言學語域的術(shù)語表,我們設(shè)計了一個自建語料庫,包括四種語言學著作,并將它命名為Linguistic Academic Corpus(LAC)。四部著作分別是:Bussmann[12]的Routledge Dictionary of Language and Linguistics;Kracht[13]的Introduction to Linguistics;Saussure [14]的Course in General Linguistics;胡壯麟[15]的《語言學教程》(第五版)。Routledge Dictionary of Language and Linguistics是到目前為止詞條最多、聲望較高的語言學詞典,是學界同行最常擁有的工具書,涉及英語語言學的各個子學科,內(nèi)容完整、全面。其他三部都是普通語言學的經(jīng)典教材,它們涉及的術(shù)語比較全面,也比較規(guī)范。其中,Introduction to Linguistics是Marcus Kracht根據(jù)自己在UCLA講授普通語言學時的講義編寫的教材,Course in General Linguistics是根據(jù)F. de Saussure在日內(nèi)瓦大學三次講授普通語言學的講義整理出版的遺著,《語言學教程》是國內(nèi)讀者熟悉的普通語言學的經(jīng)典教材,在內(nèi)容和語言的經(jīng)典性方面不遜于國外同類教材。四部著作的形符數(shù)(tokens)為568 138詞,類符數(shù)(types)為27 828詞。
在處理語料時,我們使用了語料庫檢索軟件Collocate 1.0,對語料中的N元詞組(N-gram)進行檢索,詞組長度設(shè)定為2~5詞(即N=2,3,4,5),以詞頻(Frequency,下文縮寫為Freq)為統(tǒng)計參數(shù),發(fā)現(xiàn)共有86 918個詞組類型,在下文中我們稱之為LAC-86918,其中2~5詞的詞組分別是39 339、27 694、12 986、6899個。表1是各種長度詞組的舉例,它們分別是各組中詞頻最高的10個例子。
從表1可以看出,10個頻率最高的2詞詞組只有of language與語言學相關(guān),3詞詞組只有the meaning of與語言學相關(guān),4~5詞詞組中與語言學相關(guān)的詞組稍多,共有6個與語言學有關(guān),而且,它們都不具備術(shù)語的名詞性范疇特征,或者是語義不完整,沒有明確的語義指向。對4~5詞詞組來說,詞組不具有單一的語義中心,如trends in linguistics The Hague,或者說它們具有跨句的組合性特征。所以,必須對LAC-86918進行較大規(guī)模地壓縮和精簡。
2.2 步驟二:運用停用詞列表進行二次篩選
對LAC-86918進行壓縮和精簡,是第二步的操作,即根據(jù)停用詞表(stopword list)來進行過濾和精簡,可以較大限度地區(qū)分術(shù)語與非術(shù)語。所謂的“停用詞”,指高頻率的虛詞或與檢索目標無關(guān)的高頻詞組。
使用停用詞表,符合第二類方法中的NC-Value理論(Frantzi et al 2000),它認為在某些“重要”單詞語境中出現(xiàn)的候選術(shù)語應該被賦予更高的權(quán)重,“停用詞表”的使用正是對這一原則的逆向使用,因為“停用詞表”是可以認定的“不重要”的單詞或詞組,可以把它們或與之搭配的詞組過濾掉。Domain Coherence [7]用Basic方法抽取最好的200個術(shù)語候選項,再從它們的上下文中過濾其他詞性的單詞,過濾過程只保留在文檔中詞頻至少占四分之一的名詞、形容詞、動詞和副詞,這種方法的逆向使用也與使用“停用詞表”的方法異曲同工,因為“停用詞表”包含的過濾項包括各種虛詞(還有PL和AFL),過濾的結(jié)果與Domain Coherence方法只保留高頻名詞、形容詞、動詞和副詞的方法在思路上是一致的。
從表1可以看出,LAC-86918中包含了太多的虛詞成分(如介詞、不定式的小品詞to等),另外還包含很多非學術(shù)的通用詞組和通用學術(shù)詞組,為了把這兩類詞組過濾掉,我們選擇了PL和AFL這兩個詞組庫。
PL是Martinez和Schmitt[16]基于英國國家語料庫(BNC)選取的505條非學術(shù)詞組庫(PHRASal expressions list)。在505條非學術(shù)詞組中,有119條被兩位作者標記為在書面文體中“少見或不存在”(rare or non-existent),只在口頭文本中有較大頻率,所以本研究只選取在書面文體中有較高頻率的386條短語(386=505-119),包括2~4詞組成的非學術(shù)詞匯。
AFL是由Simpson-Vlach和Ellis[17]所創(chuàng)建的通用學術(shù)語料庫(academic formula list),總共607個詞組,包括三個部分,第一部分是在口語與書面語中均為高頻的207個核心詞組(core AFL academic formulas),第二部分是在書面語中高頻的200個詞組(written AFL top 200),第三部分是在口語文體中高頻的200個詞組(spoken AFL top 200)。我們選取207個核心詞組和200個書面語詞組,共計407個。它們是由3~5詞組成的學術(shù)詞組。
選用PL和AFL的理由,是因為它們分別代表日常話語中的通用詞組和多學科的通用學術(shù)詞組,而本研究選用的語料是語言學語域的專門學科文本,其目標是提取語言學語域的專門術(shù)語,所以該術(shù)語表不會與PL和AFL交叉或共現(xiàn)。
運用停用詞對LAC-86918進行二次篩選,得到2~5詞的術(shù)語分別為6356條、573條、82條和25條,總數(shù)是7036,只有LAC-86918的不到1/12。為了方便,我們把精簡后的詞組庫稱為LAC-7036。表2列出了LAC-7036中詞頻排序最高的10個術(shù)語詞組,這些詞組中大部分都具有術(shù)語的結(jié)構(gòu)特征,也體現(xiàn)術(shù)語的語義類型。
LAC-7036的數(shù)量仍然太過龐大,而且,4~5詞的詞組具有跨句的組合特征,許多外來語(如grammatica storica della lingua italiana)也混跡其中,所以必須開啟第三步驟的篩選。
2.3 步驟三:運用互信息熵MI和詞組教學值FTW來進行第三次篩選
第三步的篩選是運用互信息熵MI(mutual information)和詞組教學值FTW(formula teaching worth)來體現(xiàn)語境的篩選功能,也是借鑒了上文的第二類方法[7,9]。我們先介紹一下互信息熵MI和詞組教學值FTW。
互信息熵MI[18]可以測量中心詞(node word)和搭配詞(collocate) 之間的關(guān)聯(lián)強度 (association strength) 或可搭配性(collocability)。MI的計算公式是:MI(x,y)=fobs(x,y)/fexp(x,y)。在公式中,x是中心詞,它的前后若干長度內(nèi)的搭配詞為y,MI(x,y)是x和y之間的互信息熵。等式右邊是兩個函數(shù)式(f: function)相除,x與y的觀測共現(xiàn)頻數(shù)(obs: observation)的函數(shù)fobs(x,y)為分子,零假設(shè)下中心詞與搭配詞的期望共現(xiàn)頻數(shù)(exp: expectation)的函數(shù)fexp(x,y)為分母[19]。
詞組教學值(FTW)是Simpson-Vlach和Ellis[17]提出的計算方法,用于評估教師在多大程度上認為某詞組應該成為教學內(nèi)容。FTW是對互信息熵和詞頻的按比例取值,即FTW =0.56 MI +0.31 Freq,當MI、Freq和FTW三個參數(shù)取值相互沖突時,Simpson-Vlach和Ellis[17]的做法是FTW優(yōu)先。
所以,不管是MI還是FTW,都或多或少地體現(xiàn)了詞組內(nèi)部各成分之間的相互期待,體現(xiàn)了“重要”的詞[7]與周邊詞之間相互吸引的強度,或者說體現(xiàn)了“重要”的詞所受的語境約束的大小,所以MI和FTW一方面排除了詞頻對于術(shù)語遴選的唯一取舍功能,另一方面也可以彌補語料庫規(guī)模對于詞頻總數(shù)的影響。任何語料庫的規(guī)模都是有限的(不管它實際有多大),一般來說,語料庫的規(guī)模越大,術(shù)語的出現(xiàn)頻次就越多,所以如果考慮MI并且將它與詞頻按一定比例折算成FTW,就可以降低語料庫規(guī)模的影響。這種做法體現(xiàn)了上文第二類方法對于第一類方法的補足與糾偏。
我們遵循這種算法,把FTW的取值設(shè)定為10.00,即只取FTW大于或等于10.00的詞組,得出681個語言學語域的術(shù)語詞組,我們稱之為LAC-681,2~5詞的詞組分別是197個、377個、82個、25個,在規(guī)模上又只有LAC-7036的不到1/10,與LAC-86918相比只有不到1/127。對LAC-681在此暫不舉例,因為它分為兩部分,其中一部分是在第四步驟(見下一節(jié))的操作中被淘汰的部分,所以在下一節(jié)將有舉例,而保留的部分就是最終產(chǎn)品,即語言學語域的術(shù)語表。
2.4 步驟四:基于人工語義判斷的第四次篩選
研究發(fā)現(xiàn),LAC-681雖然經(jīng)過三次過濾,但仍然包含了較多非術(shù)語的詞組,必須進行第四步的過濾。造成過濾不徹底的原因有兩個:一是在第二步驟中使用的停用詞表不可能剛好與術(shù)語詞組具有互補性,我們選擇停用詞表的原則是寧可過濾功能稍有欠缺,不可過濾功能太過強大;另一個原因是MI和FTW的使用客觀上產(chǎn)生了一種負效應,因為原本可能通過詞頻被過濾的非術(shù)語詞組,因為MI和FTW降低了詞頻的權(quán)重,所以一部分原本詞頻較低的詞組又進入LAC-681中,比如表3中的tickling cookie monster只出現(xiàn)了2次,但是它的內(nèi)部連貫性很強,所以MI的取值高達35.02,結(jié)果FTW的值被拉高了,但它顯然不是語言學的術(shù)語。所以,為了把此類詞組過濾掉,必須借鑒上文的第三類方法,即運用語料對比的方法,通過單詞在指定領(lǐng)域語料中的詞頻和其他語料中的詞頻進行比較來排除。由于LAC-681的規(guī)模較小,所以我們采用人工判斷的方法,把語言學語域的詞組與非語言學語域的詞組區(qū)分開來,排查的結(jié)果是剔除了322個詞組,其中有的詞組是語義不完整或者在結(jié)構(gòu)上是跨句的詞匯組合(如categorial grammar formal logic)。表3是322個被排除的詞組中各種詞長詞組FTW取值最大的10個例子,按FTW的降序排列。
排除了322個非術(shù)語的詞組后,余下的359個詞組就是最終產(chǎn)品,稱為LAC-359,即語言學語域的術(shù)語表,其中第1~97是2詞術(shù)語,共97個,約占27.02%,F(xiàn)TW的平均值為14.07;第98~320是3詞術(shù)語,共223個,約占62.12%,F(xiàn)TW的平均值為12.85;第321~356是4詞術(shù)語,共36個,約占10.03%,F(xiàn)TW的平均值為19.1;第357~359是5詞術(shù)語,共3個,約占0.83%,F(xiàn)TW的平均值為26.1。在附錄中,每一種詞長的術(shù)語都是按FTW的降序排列。
從上面的數(shù)據(jù)對比可以看出,3詞術(shù)語最多,其次是2詞術(shù)語,再次是4詞術(shù)語, 5詞術(shù)語最少。從FTW來看,4詞術(shù)語和5詞術(shù)語最高,它們的詞頻并不高,但是MI取值較高,即內(nèi)部成分之間具有較高的相互期待。2詞術(shù)語和3詞術(shù)語的FTW相對偏低,它們的詞頻雖然較高,但是MI取值偏低。
3 結(jié)語
國外學者對術(shù)語的研制方法可以分為三類:詞頻研究方法、利用語境的研究方法和語料對比的研究方法,他們各有優(yōu)勝之處,也各有其不足。本文提出的四步驟術(shù)語表研制方法吸納了三類方法的優(yōu)點,同時回避了他們的不足。在四步驟方法中,第一步驟對應詞頻研究方法,第二和第三步驟是語境研究方法的應用和拓展,第四步驟是以人工篩選的方法體現(xiàn)語料對比的原則。通過對56萬余字的英語語言學語料的多種操作,歸納出了359個英語語言學術(shù)語。本文的研究不僅是對英語語言學術(shù)語全面的嘗試性歸納,其中的研究方法可以應用于各個學科的術(shù)語研究和術(shù)語表的研制。由于語料選擇的有限性和各種參數(shù)在取值上的局限性,LAC-359不可能窮盡一切術(shù)語,而且受到學科發(fā)展階段性特征的局限,術(shù)語表還必須隨著時間推移而不斷更新。
本文的術(shù)語提煉方法,對于其他學科具有同等的適用性。但是,鑒于本文的語料是英文,如果其他學科所采用的語料是中文,而且中文是音節(jié)文字,詞句間有不同的斷句方法,所以我們建議采用多種方法對語料進行分詞(parse),在分詞結(jié)果各不相同的前提下,建議采用“投票”軟件(軟件名為vote)。英文或其他印歐語言的語料,詞與詞之間有空格分開,無須進行分詞操作。
我們建議同時使用hanlp、jieba和thulac這三種分詞軟件,以《語言學綱要》[19]第一章第一節(jié)第一段為例,三種分詞效果對比如下。
hanlp的分詞效果:
語言/的/功能/是/客觀存在/的/。/功能/既是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/從/寬泛/的/意義/上/講/,/大致/都可/歸入/語言/的/社會/功能/和/思維/功能/兩/個/方面/。/
jieba的分詞效果:
語言/的/功能/是/客觀存在/的/。/功能/既/是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/從/寬泛/的/意義/上/講/,/大致/都/可/歸入/語言/的/社會/功能/和/思維/功能/兩個/方面/。/
thulac的分詞效果:
語言/的/功能/是/客觀/存在/的/。/功能/既/是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/從/寬泛/的/意義/上/講/,/大致/都/可/歸入/語言/的/社會/功能/和/思維/功能/兩/個/方面/。/
分歧存在于每段中的劃線部分,所以必須采用“投票”程序,對三種分詞效果進行“投票”,體現(xiàn)“少數(shù)服從多數(shù)”的原則。
投票結(jié)果:
語言/的/功能/是/客觀存在/的/。/功能/既/是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/從/寬泛/的/意義/上/講/,/大致/都可/歸入/語言/的/社會/功能/和/思維/功能/兩/個/方面/。/
分詞后,還必須進行人工校對,比如將“客觀存在”分成兩個詞。國內(nèi)各學科的同行使用的語料一般是中文語料,可按上述方法處理語料。在語料處理完成之后,對于處理結(jié)果的統(tǒng)計和人工校對可以借鑒本文的方法。
參考文獻
[1]梁愛林. 術(shù)語資源的質(zhì)量評估[J]. 辭書研究, 2016, (1):32-44.
[2] PERINAN-PASCUAL C, MESTRE-MESTRE D. Automatic Extraction of Domain-Specific Glossaries for Language Teaching[J]. Procedia Social & Behavioral Sciences, 2015, 198: 377-385.
[3] 葉其松. “術(shù)語編纂”三分說[J]. 辭書研究, 2014,(6):34-41.
[4] 鄭述譜, 梁愛林. 國外術(shù)語學研究現(xiàn)狀概觀[J]. 辭書研究, 2010,(2):86-99.
[5] 陳觀喜. 文檔的術(shù)語表自動構(gòu)建方法研究[D].南京:東南大學碩士論文,2018.
[6] AUGENSTEIN I, MAYNARD D,CIRAVEGNA F. Relation Extraction from the Web Using Distant Supervision[J]. EKAW, 2014, 8876: 26-41.
[7] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms:the c-value/nc-value method[J]. International Journal on Digital Libraries,2000, 3(2): 115-130.
[8] BORDEA G, BUITELAAR P, POLAJNAR T. Domain-independent term extraction through domain modeling[C]//the10thInternationalConferenceonTerminologyandArtificialIntelligence. Paris: TIA,2013.
[9] ASTRAKHANTSEV N. ATRS: Toolkit with State-of-the-art Automatic Terms Recognition Methods in Scala[J]. Language Resources & Evaluation, 2016(4):1-20.
[10] BIBER D. JOHANSSON S, LEECH G, et al. Longman grammar of spoken and written English[M]. Harlow: Pearson Education ESL,1999.
[11] ERMAN B, WARREN B.The idiom principle and the open choice principle[J]. Text, 2000,20(1):29-62.
[12] BUSSMANN H. Routledge Dictionary of Language and Linguistics[M].Routledge Press. 1996. 外研社,2000.
[13] KRACHT M. Introduction to Linguistics[J/OL].[2020-11-12]. https://www.pdfdrive.com/introduction-to-linguistics-e5989391.html.
[14] SAUSSURE F. Course in general linguistics[M]. Translated and annotated by Roy Harris. London: Duckworth. 1916/1983.
[15] 胡壯麟. 語言學教程[M]. 5版.北京:北京大學出版社,2017.
[16] MARTINEZ R, NORBERT S.A Phrasal Expressions List[J]. Applied Linguistics, 2012(3):299-320.
[17] SIMPSON-VLACH R, ELLIS N C. An Academic Formulas List: New Methods in Phraseology Research[J]. Applied Linguistics, 2010, 31:487-512.
[18] FANO R M. Transmission of Information: a Statistical Theory of Communication[M].Massachusetts:MIT Press,1961.
[19] 馮躍進,汪臘萍.英語中詞項搭配關(guān)系的定量研究[J].國外外語教學,1999(2):5-10.
[20] 葉蜚聲,徐通鏘.語言學綱要[M].3版.北京:北京大學出版社,1997.
作者簡介:通訊作者:劉宇紅(1966—),男,博士,2003年畢業(yè)于復旦大學外文學院,獲文學博士學位,同年破格晉升為教授。現(xiàn)任南京師范大學外國語學院教授、博士生導師。2005—2006年在美國休斯敦Rice University訪學。主要研究方向涉及認知語言學、功能語言學、語言哲學、語義學、語用學、神經(jīng)語言學,發(fā)表論文90余篇,出版專著14種。通信方式:liuyuhong@njnu.edu.cn。
殷銘(1982—),男,碩士,研究方向為語料庫語言學、應用語言學。2015年畢業(yè)于南京師范大學外國語學院,獲英語語言文學碩士學位?,F(xiàn)為南京師范大學泰州學院外國語學院副教授。發(fā)表論文8篇,主編及參編教材8部。通信方式:20061004@nnutc.edu.cn。