本期專家主題論壇圍繞語料庫研究展開。
我當過中學和大學的英語教師。說起語料庫,我首先想到的是1987年出版的《柯林斯COBUILD英語詞典》(Collins COBUILD English Language Dictionary),這是一部學習詞典。第一部英語學習詞典是1948年出版的《牛津高階英語詞典》(Oxford Advanced Learner’s Dictionary),70多年過去了,如今已修訂到第十版,服務(wù)了全球超過1億的英語學習者。但是柯林斯詞典有其獨特之處:它是世界上第一部真正意義的基于語料庫素材而編寫的學習詞典。1979年,哈珀·柯林斯出版公司與英國伯明翰大學合作創(chuàng)建了柯林斯-伯明翰大學國際語言數(shù)據(jù)庫(Collins Birmingham University International Language Database),英文簡稱COBUILD,將語料庫建設(shè)與商業(yè)研發(fā)結(jié)合起來,推出了這部劃時代的詞典,對此后的詞典編寫產(chǎn)生了巨大影響??铝炙挂灿纱顺蔀榫o隨牛津、朗文、劍橋、麥克米倫四大英語工具書出版商之后的新秀。
COBUILD不是最早的語料庫。第一個機讀英語語料庫是20世紀60年代美國布朗大學創(chuàng)建的當代美國英語標準語料庫,簡稱布朗語料庫。它是一個通用語言語料庫,總計約100萬個單詞,由1961年在美國發(fā)表的英語作品匯編而成。布朗語料庫是一個分界線,將語料研究分為前計算機階段和后計算機階段,前計算機階段稱為計量語言學(Quantitative Linguistics)或統(tǒng)計語言學(Statistical Linguistics)。1983年,在荷蘭奈梅亨舉行的第四屆“現(xiàn)代和中世紀英語國際計算機檔案庫”(International Computer Archive of Modern and Medieval English,簡稱ICAME)會議,將“語料庫語言學:計算機語料庫在英語研究中的使用”作為主題,標志著這一新的語言學分支的誕生。在過去近40年的時間里,語料庫語言學產(chǎn)生了大量研究成果。1998年,朗文出版社出版了《語料庫語言學簡介》(An Introduction to Corpus Linguistics);2006年,愛丁堡大學出版社出版了《語料庫語言學術(shù)語》(A Glossary of Corpus Linguistics);2010年,《勞特利奇語料庫語言學手冊》(The Routledge Handbook of Corpus Linguistics)出版。劍橋大學出版社近年來出版了多本語料庫語言學著作,包括2015年的《劍橋?qū)W習者語料庫研究手冊》(The Cambridge Handbook of Learner Corpus Research)、2018年的《語料庫語言學中的統(tǒng)計》(Statistics in Corpus Linguistics)和2021年出版的論文集《學習者語料研究與第二語言習得》(Learner Corpus Research Meets Second Language Acquisition)。也有一些語料庫語言學期刊,如《語料庫語言學研究》(Research in Corpus Linguistics)、《國際語料庫語言學期刊》(International Journal of Corpus Linguistics)、《語料庫語言學與語言學理論》(Corpus Linguistics and Linguistic Theory)、《應(yīng)用語料庫語言學》(Applied Corpus Linguistics)等。國內(nèi)的語料庫語言學研究始于20世紀80年代,幾乎與歐美同步。2014年,《語料庫語言學》期刊由外研社出版發(fā)行。以上所列著作和期刊掛一漏萬,但足以說明語料庫研究的重要性和欣欣向榮的發(fā)展態(tài)勢。
中文教學界很早就開始了語料庫建設(shè)與研究。1979年到1985年,北京語言學院組織70多位教師,用人工與計算機統(tǒng)計相結(jié)合的方法,對180余萬字各種題材、體裁的語言材料進行詞頻統(tǒng)計與分析;同時兼顧漢字字頻和組詞能力,于1986年出版了《現(xiàn)代漢語頻率詞典》,為中文信息處理標準化以及語言學、語言教學和相關(guān)學科的研究提供了有價值的參考材料和數(shù)據(jù)。20世紀90年代,中文作為第二語言的量化研究開始出現(xiàn),而基于語料庫的研究從一開始就占據(jù)了量化研究的一席之地。
中文作為母語和二語都建設(shè)了一些語料庫,如CCL語料庫、BCC語料庫、全球漢語中介語語料庫等,幫助我們在海量數(shù)據(jù)中發(fā)現(xiàn)語言奧妙和語言學習規(guī)律,獲得具有統(tǒng)計學意義的結(jié)論,在描寫的同時做出解釋。語料庫語言學強于描寫,但基于大數(shù)據(jù)的描寫本身也是一種解釋,幫助我們窺探語言的本質(zhì)。
語料庫研究讓我想起了生成語法。生成語法提出了制約自然語言的普遍原則,描寫人類與生俱來的語言知識和語言機制,而語料庫語言學揭示了現(xiàn)實語言使用的情況。二者從兩個方向朝著揭秘語言本質(zhì)的目標前進。