国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語料庫數(shù)據(jù)化發(fā)展趨勢及詞典學意義

2016-01-06 23:18:58章宜華
辭書研究 2015年5期

摘要 語料庫對詞典學的價值已得到辭書界的普遍認可,但傳統(tǒng)大規(guī)模語料庫由于缺乏必要的標注,與詞典微觀結構項之間的相關性不足,這使得它對詞典學研究和詞典編纂的貢獻受到很大的制約。文章從詞匯知識庫和數(shù)據(jù)庫的建設特點入手,探討它與詞典學的相關性及其在規(guī)模、速度和信息量等方面的局限;最后以COCA為例,從語料庫的標注、語料庫的索引、語料的智能化檢索和顯示等方面探討語料庫的數(shù)據(jù)化特征及其詞典學意義。

關鍵詞 詞匯知識庫 詞匯數(shù)據(jù)庫 語料庫數(shù)據(jù)化 語料庫與詞典編纂

在語料庫發(fā)展的初期,人們對語料的評價和期望都十分高,似乎有了語料庫,詞典的一切問題都解決了:釋義和義項劃分有了依據(jù)、例證的采集可以變得輕松、詞典的編纂效率可以大大提高等等。人們的主要精力是要把語料庫做大,覺得大到一定程度就可以覆蓋和解決詞典編纂的一切語言問題了。所以,語料庫迅速從百萬級到千萬級,最后柯林斯的“Bank of English”在20世紀80年代就達到空前的近5億詞。這時,詞典編纂者突然發(fā)現(xiàn),在使用這些大規(guī)模語料庫時,隨便輸入一個詞查詢就會產(chǎn)生成千上萬的索引行,顯示界面會把這個詞的各種用法實例都一股腦呈現(xiàn)出來。面對海量語料,詞典編纂者往往無從下手,只能逐條瀏覽;這會大大增加其工作量,影響詞典編纂的進度。因此,西方語言學家和詞典學家早在20世紀七八十年代就開始了語料的數(shù)據(jù)化加工,取得了一系列的成果。下面就語料數(shù)據(jù)化及其詞典學意義做一探討。

一、詞匯知識庫的建設

詞匯知識庫(knowledge base)是為了特定目的,根據(jù)一定應用領域的要求、背景特征、屬性特征和使用特征等構建的模塊化的語言知識集合,系統(tǒng)地滿足用戶某方面的知識需求。自20世紀70年代開始,美國學者就開始設想建立能進行自動語義描述的大規(guī)模詞庫,并在20世紀80年代中期付諸實踐,我國的專家在20世紀90年代以后也進行了這方面的嘗試。現(xiàn)在,為人熟知的詞庫有詞網(wǎng)(WordNet)、 智網(wǎng)(MindNet)、框架網(wǎng)(FrameNet)、動詞網(wǎng)(VerbNet)、命題庫(PropBank),以及國內(nèi)的知網(wǎng)(HowNet)和綜合知識庫(CLKB)等,分別用于句法分析、語義分析和自然語言處理或理解等,當然也可以用于詞典學研究和詞典編纂。

這些詞庫的建設并沒有受當時主流語言學重語言能力(competence)輕語言應用(performance)學術思潮的影響,而是從語言實例(語料)入手,通過自下而上的方式對語言的屬性進行描寫,如句法模式、題元角色、概念結構等語言規(guī)則和語義關系等。譬如,詞網(wǎng)使用同義詞集合(synsets)來表征詞匯概念,在詞的形式和意義之間建立起映射關系,把名詞、動詞、形容詞和副詞歸入認知同義集合(sets of cognitive synonyms),每一集合表示一個不同的概念;同義集合之間通過概念—語義和詞匯系統(tǒng)關系相互聯(lián)系起來(Miller 1990;Lin Dekang 1998)。智網(wǎng)利用微軟的一個廣域自然語言分析器(broadcoverage parser)自動分析詞典釋義和例證文本而獲得詞匯語言知識,涉及24種關系,包括共同施事、擁有者、深層賓語、深層主語、領域、材料、來源、目標、原因、意圖、方式、方法、同義等(Richardson et al. 1998)??蚣芫W(wǎng)是基于Fillmore框架語義學、借助詞典釋義和語料建成的知識庫,它利用“框架”和框架元素來解釋詞的結構模式和語義角色,表征詞匯之間的共現(xiàn)特征和相互關系,語義結構就蘊涵在這種關系中。有了這些語言資源,研究者就可以設計機器學習算法,構建語義角色標簽的自動標注系統(tǒng),從而實現(xiàn)句子語義結構的自動識別,為各類精細的語言工程應用服務(Fillmore et al. 2001;Fillmore 2003;Ruppenhofer et al. 2010 )。這些詞庫對于認知詞典用戶的內(nèi)在知識結構、按用戶的知識特點設置微觀結構信息項及其組織方式有很好的借鑒作用,它們并不是為詞典編纂而建的,能直接用于詞典編纂的詞匯信息并不多。因此,一些語言學家和詞典學家嘗試建立能用于詞典編纂的通用詞匯數(shù)據(jù)庫。

二、詞匯數(shù)據(jù)庫的建設

詞匯數(shù)據(jù)庫(database)指的是把從語言實例(語料庫)中提取的詞匯語言屬性,如形態(tài)、句法、搭配、語義和用法等各種基本信息按一定格式以多元子集的方式儲存在一起,以滿足用戶對共享詞匯語言數(shù)據(jù)的需求。數(shù)據(jù)庫一般是由字段(field)、記錄(record)和文件(file)構成。在庫中,人們把字段定義為能反映詞目某一語言特征的簡單數(shù)據(jù)項,記錄是能反映詞目某一類語言屬性的、有特定指向或歸宿的復雜數(shù)據(jù)項,而文件則是某一類詞典微觀數(shù)據(jù)項的集合。這樣,單一詞目(lemma)的拼寫、讀音、詞類、屈折變化、句法、搭配、釋義、例證,以及與其他詞項的各種關聯(lián)或關系以及多媒體信息都可以字段和記錄等形式存儲在庫中,以便在詞典編纂時按需調(diào)取。為了詞匯數(shù)據(jù)庫的建設,西方詞典學家構建了語料庫模式分析(Corpus Pattern Analysis,以下簡稱CPA)理論(Hanks & Pustejovsky 2005;Hanks 2010)及語料索引和數(shù)據(jù)提取工具——詞匯速描引擎(Word Sketch Engine)(Kilgarriff & Tugwell 2001;Kilgarriff et al. 2014)。前者以“常態(tài)與拓展”(Norms and Exploitations)(Hanks 1994,2013)理論為基礎構建了語料模式分析的原則和方法,主要是通過語料分析提取語詞使用的橫聚合原型模式;后者是模式分析中的語料索引和有效數(shù)據(jù)的提取工具。

CPA理論認為,名詞和動詞的模式是不同的,名詞的模式隱含在語料庫中的一些反復使用的“經(jīng)典”語句的共現(xiàn)結構中,而動詞的模式不但要看其基本論元結構或配價結構,還要看其次配價特征(subvalency features),即一個語義角色有無其他修飾成分。譬如,“take place”與“take his place”的意思顯然是不一樣的。這就需要有特定的算法統(tǒng)計和分析它們的相關性,還需要人工干預來區(qū)別習語性搭配和一般搭配的語義特點。顯然,CPA不是解釋孤立的單詞意義,而是解釋語詞與原型構式或句型模式(pattern)相關的意義,而且最近的標注方式和成分凸顯與最初的方案相比有了很大的改進。譬如動詞“grind”條目(見圖1)共有13個模式和語義結構(包括短語和習語),241個用法實例,其重點是揭示動詞事件行為參與者,并以論元結構和配價結構的形式表征出來。如施動者為“Device/設備或Human/人”:Device=Mill/磨房,且由“Human”操作來磨碎“Stuff/東西”;受事“Stuff/東西”= “Grain/糧食或Coffee Beans/咖啡豆或Raw Material/原材料”;方式是“Slowly/慢慢地;Systematically/有條理地;between a stationary stone and a rotating stone,or in some other similar device在固定和轉(zhuǎn)動的石頭之間,或同類設備中”;成事為“Food/食物= Flour/面粉、Coffee/咖啡,或Stuff/東西 = Cement/水泥”。注意,數(shù)據(jù)庫把語義作為一種“隱含”(implicature)潛值來表達,即“如果某設備或某人Grinds某東西或食品,就是該人操作磨房把糧食、咖啡豆或原材料在固定與轉(zhuǎn)動的石頭之間慢而漸進地磨碎”。這樣,通過論元結構把被釋義詞的句法、語義和使用搭配成分都在一個平臺上表征出來,既有釋義的抽象性、原型性,又有語用的具體性,加上200多個各種用法實例把被釋義詞的語義潛勢系統(tǒng)地表征出來,這為語言學習或教學,以及詞典編纂者提供了很好的、可靠的建設性參考信息。

該數(shù)據(jù)庫擬對5602個動詞進行數(shù)據(jù)處理,截至2015年5月,已經(jīng)處理1275個,正在處理的有384個[1]。因此,目前的實際應用價值還很有限。

另一詞匯數(shù)據(jù)庫是由英國詞典學培訓公司(Lexicography MasterClass Ltd)創(chuàng)建的DANTE數(shù)據(jù)庫,其設計目的就是為詞典編纂和計算語言學(包括計算機詞庫)研究而服務。該數(shù)據(jù)庫收錄了9.45萬個詞和短語,對詞的義項劃分和語言屬性描寫都很細致,包含40個數(shù)據(jù)類型,以及詞目類型、拼寫變體、屈折變化、句法模式、搭配結構、翻譯對等詞、語用說明、語法說明和功能說明等內(nèi)容,并配有豐富的例證,對詞典編纂有很好的參考作用。相關的信息結構和數(shù)據(jù)結構已另文發(fā)表(章宜華 2012),這里不再贅述。

三、語料庫數(shù)據(jù)化開發(fā)

雖然數(shù)據(jù)庫目的性和實用性更強,但需要大量人力物力的投入,發(fā)展比較緩慢。針對這種情況,西方語言學者就開始直接對語料庫進行深加工處理,把語料庫的建設從追求量的擴充向語料數(shù)據(jù)化方向轉(zhuǎn)化,即利用標注、數(shù)據(jù)挖掘技術和計算機自動運算的方法對無序的語料索引行進行梳理、統(tǒng)計、分類、歸納,按用戶需求有針對性地呈現(xiàn)各種典型的詞匯數(shù)據(jù)。美國當代英語語料庫(Corpus of Contemporary American English,以下簡稱COCA)[2]就是一個典型的代表。

COCA由美國楊百翰大學(Brigham Young University)的Mark Davies教授主持開發(fā),語料規(guī)模達4.5億詞,是美國目前最新的當代英語平衡語料庫。自2008年2月20日在互聯(lián)網(wǎng)上正式推出以來,每年都要至少做兩次語料更新。語料庫的數(shù)據(jù)化主要體現(xiàn)在將雜亂無序的語料變得有條有序,能根據(jù)用戶的需要提供相對準確的詞匯語言數(shù)據(jù),其關鍵就是“智能化”索引,而索引的基礎是對語料的標注和基礎數(shù)據(jù)庫的支持。下面就從這幾個方面談談COCA數(shù)據(jù)化的功能特征。

1.語料庫的標注

詞典編纂者最想從語料庫中獲取的信息大多是語詞的各種語言屬性,包括形態(tài)、詞類、句法模式、搭配成分、語義表征和使用語境等,因此需要對庫內(nèi)的各種用詞進行標注。COCA在 SWECCL詞類賦碼的基礎上設計了150多種標簽,對全部4.5億語料進行了逐條標注。譬如,連詞類7個,如CC(并列連詞)、CS(從屬連詞)、CCB(轉(zhuǎn)折并列連詞)等;形容詞4個,如JJ(普通形容詞)、JJR(形容詞一般比較級)、JJT(形容詞一般最高級)、JK(連接形容詞);限定詞類13個,如DA(前置或后置限定詞)、DA1(后限定詞單詞形式)、DAR(后限定詞比較形式)等;名詞類22個,NN(普通名詞)、ND1(方向性單數(shù)名詞)、NN1(單數(shù)普通名詞)、NN2(復數(shù)普通名詞)、NNL1(單數(shù)方位名詞)等;NNO(數(shù)量詞)、NNT1(單數(shù)時間名詞)、NNU(度量單位詞)等;動詞31個,如VB0(動詞原形)、VDD(動詞過去式)、VBM(系動詞)、VBG(現(xiàn)在分詞)、VBN(過去分詞)等;代詞19個,如PN(不定代詞)、PNQO(賓格WH代詞)、PNQS(主格WH代詞)和PNX1(反身不定代詞)等。其他還有副詞、介詞、冠詞、程式(FO)、未分類詞(FU)和外來詞(FW)等。

除詞類外,COCA還對所有語料做了詞匯語域和時間分布的標注,因為語詞的意義和用法與語域以及時間有著密切關系。語域維度分為口語、小說、流行雜志、報紙和學術期刊五大類型,語料按這五個類型基本呈均勻平衡分布;時間維度分為:1990—1994、1995—1999、2000—2004、2005—2009、2010—2012等五個時段,用戶可以從這兩個維度查詢?nèi)魏我粋€詞的分布頻率。為了語詞的形態(tài)變體和同義詞查詢,庫內(nèi)還配置了詞的屈折變化和同義詞數(shù)據(jù)庫。

2.語料庫的索引

COCA根據(jù)標注和用戶的查詢需要設計出一套索引句法(Search Syntax)來滿足“智能”檢索的需要。主要分以下幾類:[pos](精確詞類[vvg])、[pos*](各種詞類[v*])、[lemma](原型詞形態(tài)變體[speak])、[=word](同義詞)、word|word(兩詞比較)、*xx(以某前綴開頭的詞)、x?xx(含某字母的詞)、x?xx*(含某字母+某詞綴的詞)、

word(某詞前成分,若要限定詞類則可加詞類標簽,如[nn*])等。利用上述句法成分和詞類標簽可以組合成各種復雜的索引句法結構,以便詞典編纂者準確查找所需的各種信息。

3.語料的智能化檢索和顯示

這里說的“智能”并不是說它具有抽象思維和隨機應變的能力,而是指檢索系統(tǒng)通過識別語料庫中的標注代碼,按特定的索引句法提取語料數(shù)據(jù)。這樣,用戶便可以根據(jù)自己的查詢需要,按一定句法規(guī)則來組織“檢索模式”,語料庫便可以比較準確地調(diào)出他們所需的各類信息。值得一提的是,即使是無限制的普通檢索,COCA也能做不同的結構和句法/搭配成分分類顯示,如相同結構的例句放在一起,各種句法成分用不同顏色顯示:名詞為藍色、動詞為紫色、形容詞為綠色、副詞為棕色、代詞為灰色、介詞為黃色。這樣,可以使用戶對所顯示內(nèi)容一目了然。(見圖2)

四、語料數(shù)據(jù)化的詞典學意義

語料庫能輔助詞典編纂是辭書界的一個共識,它對詞典學的理論研究和實踐都具有重要意義,具體的作用體現(xiàn)在以下幾個方面:選詞立目(詞頻)、義項劃分、詞典釋義、句法模式提取、例證配置、語法注釋、語用或用法注釋、同義詞語義與使用對比等。(參見章宜華 2013:173—176)然而,傳統(tǒng)的語料庫會把各種信息混雜在一塊,人工識別比較困難,而數(shù)據(jù)化語料庫可以按特定義項、特定詞類或形態(tài)、特定結構或分布來提供信息。

1.特定單詞或范疇詞的查詢

查詢一般單詞或連續(xù)的固定短語,可直接輸入所要查找的字符串,如輸入“child, children; give up, take measure; Actions speak louder than words.”等,就可以精確查到僅包含這些單位的句子。如果要查包含某些字母的一類詞就需用通配符“*”,如具有某種前綴、后綴、中綴或詞根的語詞:輸入“dis*, un*, anti*”等就能查找到所有以它們?yōu)榍熬Y的詞,輸入“*ness, *tion, *ly”能查到以它們?yōu)楹缶Y的詞。同理,查詞根就需要把通配符放在詞頭與詞尾之間,如輸入“dis*ly”能查到所有以“dis”開頭、以“l(fā)y”結尾的詞的詞根;要查以特定詞為基礎的復合詞或變體,則需把通配符放在該詞的前后,如輸入“*speak*”會顯示出“speak, speaks, speaking, speaker, speakeasy, speakerphone”等。

如果想用一個檢索單位查得某詞的所有屈折變化形式,就要使用特定的“索引句法”及句法代碼。譬如,輸入“[ speak ].[ v* ]”會顯示出“speak, speaks, speaking, spoke, spoken”;如果要單獨查其過去式和過去/現(xiàn)在分詞形式則需在動詞后加上相應的標簽:[speak].[vvd]/[vvn]/[vvg]。此外,英語還有很多兼類詞,如track (v/n), lower (v/adj),own (adj/v/pron), left/right (adj/n/v)等,若要查其特定詞類則需在單詞后邊加上詞類標簽,如“l(fā)eft”名詞、形容詞和動詞對應的索引句法是:left.[n*]、left.[j*]和left.[v*];同理,若想?yún)^(qū)分相同詞尾的不同詞類,則需要與詞類標簽組成特定的索引句法,如以“l(fā)y”結尾的大多是副詞,若輸入“*ly.[j*]”就可以查到全部以“l(fā)y”結尾的形容詞,如排在前面的有“only, early, likely, daily, holy, friendly, elderly, lovely”等??梢?,用索引句法的方式可以限定檢索詞的特定詞類、次語類和形態(tài),可以做到精確查詢,大大減少詞典編纂者的工作量。

2.詞匯搭配與句型模式的查詢

搭配和句型模式一直是外語學習者和學習詞典最為關注的語言現(xiàn)象之一,同時也是難點之一,因為普通語料庫(如BNC)無法提供這類信息的查詢,即使是利用“詞匯速描”等索引工具也無法按用戶的需求準確查詢。COCA的數(shù)據(jù)化處理就比較好地解決了這一問題。

搭配和句型結構都涉及多個詞的共現(xiàn),而這些共現(xiàn)關系的檢索就比單一語言單位更復雜一些,也更能體現(xiàn)語料庫的數(shù)據(jù)化特點。查兩詞的簡單搭配可直接在單詞前/后空格加“*”,若要限定搭配的詞類則要在單詞后加詞類標簽“[n*]、[j*]和[v*]”等;譬如,查“l(fā)eft”作為動詞與副詞的搭配情況,可在詞串框中輸入“*left.[v*]”,在搭配框中輸入[r*]就可以得到“clockwise, abruptly, voluntarily, hurriedly, carelessly, purposely”等;而反過來也可以通過詞類標簽鎖定被搭配詞的詞類,如用“pretty [nn*]”可查該詞作為形容詞與名詞或動詞搭配的情況,如“pretty girl/woman/face/picture”等;用“pretty [vv*]”可以查“pretty”作為副詞與動詞搭配的情況,如“pretty well, pretty much”等。

若要查找某一詞類(如動詞)+任何詞與特定詞(如argument)的搭配,可輸入“[V*] * [argument]”,就可以得到與“argument”搭配的動詞,如“make, reject, accept, hear, understand, win, support, lost, defend, strengthen, build”等,詞典編纂者可以從這些搭配中抽象出該詞的部分隱喻用法,如“argument is a war/battle (win, lost, defend, make)”,“argument is an idea (hear, understand, accept, reject, support)”,“argument is an architecture (build, strengthen)”等,這對促進學習者的識解和記憶有重要意義。

句法模式是反映特定語詞用法的最有效手段之一,但其查詢遠比搭配復雜,因為它們涉及的成分比較多,且組配結構復雜,如“permit sb/sth to do, prevent sb/sth from, provide sb with/for, put sb/sth through to sb, nod to/at sb to do sth”等,中間的插入成分是不固定的,而且往往有多種選擇,查找合乎這類句型需求的例句是詞典編寫中的棘手問題,運用傳統(tǒng)語料庫編纂者只能在海量的語料索引行中逐條尋找,耗時又費力,而COCA的索引句法可讓人輕松地找到相應結構的例句,節(jié)省很多時間,可大大提升詞典編纂的速度和質(zhì)量。如輸入“[permit] * to [v*]”便可查到“permit them/us/him/it/individuals/Anna/students/busine

ss... to be/have/take/do/make/play/happen/see...”等與所需句型一致的例句;輸入“[provide] * with|for”可查到含“provide them/us/you/students/people/teachers with”和“provide opportunity/support/incentives/security/care/food/funds/evidence/guidance/service/benefits/training for”句型的例句。

此外,若想查找特定結構的不同用詞或特定語詞的句法功能,也可以運用相應的索引句法來解決。譬如,想了解哪些詞可以用在“to be or not to be”結構中,可以輸入“to [v*] or not to [v*]”,結果得到“be, do, buy, tell, see, engage, play, sell”等幾個較常見的動詞;若想查找某一動詞接任一詞+into 后接動詞“-ing”形式構成的動結式結構,了解“into”表達致使義的句法功能,可輸入“[vv*] * into [vvgk]”便可以查得“fool you/people into thinking, brought them into being, delude ourselves into thinking, talked him into going, trick people into thinking”等。這對于說明“into”在動結式中的作用、抽象出動結式的句型特征,以及發(fā)現(xiàn)動結式動詞和用法都具有重要意義。

3.同義詞組與其搭配成分的對比查詢

同義詞之間的語義和用法差異也是外語學習和詞典編纂處理的一個難點,普通語料庫在這方面基本沒有作為。COCA數(shù)據(jù)化的一個重要特征就是同義詞組及其語域頻率分布查詢和各自搭配成分的相互比較。

對于同義詞,既可以查多義詞的所有意義,也可以查某一義項。譬如,輸入[=deliver]可查“deliver”的全部同義詞,結果為“give, bring, produce, free, provide, present, serve, send, save, produce, carry, release, supply, transfer, rescue, surrender, convey”等;如果要查該詞某一義項或分布結構中的同義詞,則需要在后邊加特定搭配詞做語義限定,如用“[=deliver] the mail”可查得該動詞作為“遞送”義時的同義動詞,結果有“send, give, carry, bring”等,這些信息豐富、可靠,遠勝過一些同義詞典,這對于同義辨析以及選擇最佳搭配詞都十分有效。

同義詞搭配比較查詢可用于一組同義詞的分布特征、搭配成分和使用頻率差異的對比研究,并以此來辨別它們細微的語義差異。對于同義詞分布特征的比較很簡單,如選擇“COMPARE/比較”后在索引框中輸入“rent/hire”就能比較兩個詞的使用頻率,如果再選擇下方的“SHOW SECTIONS/顯示項”將會獲得這兩個詞在不同語域(口語、小說、雜志、報紙和學術期刊)和不同時段的使用分布數(shù)據(jù);如果在比較模式下選擇“COLLOCATES/搭配詞”(1~n詞)和“POS LIST/詞類表”中的相關選項(名詞、形容詞、副詞等),系統(tǒng)便會自動比較兩個詞的特定搭配詞及其出現(xiàn)的詞頻。對于同一詞搭配的比較,需要特定的句法組合,如輸入“fast|quick|rapid [nn*]”就能查得這三個同義詞的不同名詞搭配成分:fast food/lane/track,rapid transit/growth/change,quick/look/break/question等,而且后邊還給出了它們的共現(xiàn)頻率。這種信息對于詞典編纂者和英語學習者都是十分有用的,因為中國的EFL學習者很容易用漢語的思維來理解英語(語言遷移),對那些對應于同一漢語概念的同義詞往往難以區(qū)分,更會混淆這類詞的習慣搭配,如“提高”的對等詞有“improve, increase, enhance”,它們在語義上的差異以及與搭配詞之間的微妙關系常常讓中國EFL學習者茫然,難得要領,甚至張冠李戴。如果在COCA中輸入“improve|increase|enhance [nn*]”進行對比檢索,用戶不但能得到各自的常用搭配詞,而且還可知道其搭配詞在這個結構中的共現(xiàn)頻率:improve health (187)/education (183)/relations (174) /quality(151);increase heat (212)/taxes (210)/production (184)/sales (104);enhance performance (86)/learning (80)/understanding (42)/communication (37)等。

此外,如果詞典編纂者想對某一詞進行同義辨析,但又不清楚該詞到底有多少同義詞以及搭配的用法差異時,也可以在COCA中得到解答。如輸入“[=cheat]. [v*] the [n*]”便可查得“cheat”做動詞時其同義詞與“the+名詞”搭配的情況,最后的結果是:deceive the public/court, defraud the government/system, trick the eye/brain/enemy, bilk the taxpayers/area, con the people/airship等;然后再結合索引行實例的語義比較就可以輕松地完成這組同義詞的立目和辨析。

五、結 語

傳統(tǒng)的大規(guī)模語料庫雖然信息量豐富,但缺乏與詞典微觀數(shù)據(jù)結構項相關的標注,大多只具備提供簡單索引行的檢索功能,詞典編纂者要想在海量語料中找到所需信息絕不是一件容易的事情,因此對詞典編纂的貢獻也是有限的。專門索引工具“詞匯速描引擎”的使用能較大地提升語料庫的使用效果,但它所提供的數(shù)據(jù)信息針對性不強,無法區(qū)分多義詞的義項,也無法進行離合式句法結構的檢索,更無法按用戶需求來提供詞匯語言數(shù)據(jù)。詞庫的建設發(fā)起比較早,對詞匯語言屬性的描述也比較詳盡,但它們都是為了某一目的或自然語言處理研究和應用而設計的,對詞典學研究有很好的學術和參考價值,但由于其規(guī)?;驍?shù)據(jù)結構的限制,對詞典編纂的支持也有局限。COCA對詞匯語言屬性的精細標注或數(shù)據(jù)化處理,建立了整套的索引句法和較為完善的智能化檢索系統(tǒng),基本能滿足語言學習、辭書研究和編纂的各種需求。同時,該語料庫的建設使我們看到了國際語料數(shù)據(jù)化處理的發(fā)展趨勢,積極研究、開發(fā)和應用數(shù)據(jù)化語料庫,可以大大提升辭書研究和詞典編纂的效率和質(zhì)量。

附 注

[1]見http:∥nlp.fi.muni.cz/projekty/cpa。

[2]見http:∥corpus.byu.edu/coca。

參考文獻

1.章宜華.2012國際辭書現(xiàn)代化技術的新理念:辭書語料數(shù)據(jù)化.辭書研究,2012(2):1—9.

2.Fillmore C J. et al. Frame Semantics for Text Understanding. ∥Proceedings of NAACL WordNet and Other Lexical Resources Workshop. Pittsburgh,2001.

3.Fillmore C J. Background to FrameNet. International Journal of Lexicography, 2003:235—250.

4.Hanks P, Pustejovsky J. A Pattern Dictionary for Natural Language Processing. Revue Franaise de linguistique appliqué,2005(10):2.

5.Hanks P. Linguistic Norms and Pragmatic Exploitations, or Why Lexicographers Need Prototype Theory and Vice Versa. ∥Kiefer F. et al. (eds.) Computational Lexicography: Complex 94. Budapest:Linguistic Institute,1994.

6.Hanks P. Corpus Pattern Analysis: How People Use Words to Make Meanings. Speech in Center for Lexicographical Studies. Guangdong University of Foreign Studies,2010.

7.Hanks P. Lexical Analysis: Norms and Exploitations. Cambridge: MIT Press,2013.

8.Kilgarriff A, Tugwell D. Word Sketch: Extraction and Display of Significant Collocations for Lexicography. ∥Proceedings of Collocations Workshop, ACL 2001.Toulouse, 2001:32—38.

9.Kilgarriff A. et al. The Sketch Engine: Ten Years on. Lexicography, 2014(1): 7—36.

10.Lin Dekang. Wordnet: An Electronic Lexical Database. Computational Linguistics, 1998(2): 292—296.

11.Miller G. Nouns in WordNet: A Lexical Inheritance System. International Journal of Lexicography ,1990(4): 245—264.

12.Richardson S D. et al. MindNet: Acquiring and Structuring Semantic Information from Text. ∥COLING 98 Proceedings of the 17th International Conference on Computational Linguistics, 1998(2):1098—1102.

13.Ruppenhofer J. et al.FrameNet II: Extended Theory and Practice. http:∥framenet2.icsi.berkeley.edu/docs/r1.5/book.pdf,2010.

(廣東外語外貿(mào)大學詞典學研究中心 廣州 510420)

(責任編輯 李瀟瀟)

五常市| 沙河市| 萨迦县| 黄山市| 新化县| 隆昌县| 保靖县| 东乡族自治县| 益阳市| 慈利县| 密云县| 册亨县| 卢湾区| 无锡市| 逊克县| 富阳市| 湖南省| 重庆市| 宣威市| 鹤峰县| 江北区| 乐陵市| 杭州市| 南部县| 清水河县| 思茅市| 孟州市| 翁源县| 辽宁省| 肇庆市| 通榆县| 奇台县| 弋阳县| 广安市| 任丘市| 时尚| 保德县| 卢湾区| 磴口县| 定结县| 富顺县|