田丁月
渤海大學(xué)
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,從最早的計(jì)算機(jī)語料庫BROWN(由納爾遜和庫切拉建立的美國英語語料庫)建成至今已過近六十年,語料庫語言學(xué)既可以被看作一門新興學(xué)科,又可以被看作20世紀(jì)美國結(jié)構(gòu)主義語言學(xué)研究方法的延續(xù),是現(xiàn)代語言學(xué)的一個重要分支。
語料庫語言學(xué)有著經(jīng)驗(yàn)主義的哲學(xué)基礎(chǔ),注重語言事實(shí),以大量的語料素材為研究基礎(chǔ)是該學(xué)科的突出特點(diǎn),研究者們通過計(jì)算機(jī)批量處理語料素材,形成電子語料庫,再進(jìn)一步系統(tǒng)化分析形成論述成果,因而語料庫語言學(xué)與計(jì)算機(jī)技術(shù)密不可分,但也因此令人望而生畏,使很多初學(xué)者失去了了解語料庫語言學(xué)學(xué)科的興趣。
梁茂成的《什么是語料庫語言學(xué)》(上海外語教育出版社,2016)在一定程度上彌補(bǔ)了以上的遺憾。
本書是一本工具性很強(qiáng)的問答書,采用問題解答的方式,將語料庫語言學(xué)相關(guān)知識拆解成55個具體的問題,主要內(nèi)容分為五個部分:
在第一部分,作者從“什么是語料庫”基本概念出發(fā),簡要介紹了語料庫的定義、建設(shè)、實(shí)用價值、類型、局限等基礎(chǔ)知識。作者旁征博引,為讀者構(gòu)建了一個語料庫基礎(chǔ)知識的整體框架,為后面的四個章節(jié)作鋪墊。
在第二部分,作者以第一部分的“語料庫”為引,從語料庫語言學(xué)學(xué)科的命名過程講起,介紹了該學(xué)科的哲學(xué)基礎(chǔ)、與計(jì)算機(jī)技術(shù)和計(jì)算語言學(xué)的關(guān)系、學(xué)科發(fā)展、研究范式等概念。講解時注重對比,如在論述語料庫語言學(xué)的哲學(xué)基礎(chǔ)時,除對經(jīng)驗(yàn)主義的介紹外,作者還對比了與之不同的理性主義研究方法,肯定了理性主義思辨的嚴(yán)密性、解決問題流程的清晰性,并從經(jīng)驗(yàn)主義與理性主義雙方的優(yōu)劣勢之中做出取舍,得出“理性主義和經(jīng)驗(yàn)主義的融合才是語言學(xué)研究發(fā)展的必由之路”的結(jié)論。此外,本書補(bǔ)充了“類聯(lián)接”、“語義傾向和語義韻”、“OSTI報(bào)告”等知識,使得講授內(nèi)容更加專業(yè)化。
在第三部分,語料庫的處理和加工,作者增加了專業(yè)術(shù)語的使用,問題也趨向于名詞解釋,作者開始抽象地對學(xué)科知識進(jìn)行講授。在這部分,作者介紹了文本清理、元信息、語料庫的標(biāo)注、分詞和詞形還原、詞性標(biāo)注、句法剖析、雙語對齊七個獨(dú)立的知識點(diǎn),并運(yùn)用普適度較高的示例與簡明清晰的圖表輔助讀者理解。
在第四部分,全書的難點(diǎn)知識,是關(guān)于語料庫分析方法的介紹。作者從相對簡單的“詞表”概念出發(fā),逐步介紹了“N元分析”、“型次比”、“索引分析”、“正則表達(dá)式”等十個具體概念。
在第五部分,本書的問題重新回歸具體,把講解的重點(diǎn)放在了學(xué)科應(yīng)用上。這部分作者主要介紹了常用的中英語語料庫、語料庫翻譯學(xué)、中介語及相關(guān)知識、詞匯大綱等知識。這部分內(nèi)容結(jié)構(gòu)層次清晰,比如在回答“什么是微型文本?”時,先舉出實(shí)操環(huán)節(jié)中數(shù)據(jù)驅(qū)動學(xué)習(xí)存在的困難,再基于這些困難提出微型文本的概念,使講解更加易懂。
在本書的末尾,作者列出了詳盡的參考文獻(xiàn)與推薦的閱讀書目,并在附錄中列出該書涉及到的語言學(xué)術(shù)語漢英對譯總覽表和CLAWS詞性標(biāo)注集,方便讀者查找和學(xué)習(xí)。
語料庫語言學(xué)的發(fā)展日益興盛,我國的相關(guān)研究者也日益增多,除本書外,還有賈愛武、濮建忠主編的《語料庫語言教學(xué)與研究》、楊惠中的《語料庫語言學(xué)導(dǎo)論》、余國良的《語料庫語言學(xué)的研究與應(yīng)用》等學(xué)術(shù)著作。
《語料庫語言教學(xué)與研究》(以下簡稱《教學(xué)與研究》)以論文集的形式呈現(xiàn)語料庫語言學(xué)的教學(xué)與研究方面的研究成果。全書甄選了22篇優(yōu)秀論文,內(nèi)容包含范圍廣,如政府報(bào)告、演講稿、新聞報(bào)道、英語教學(xué)、英文寫作等。
《教學(xué)與研究》與《什么是語料庫語言學(xué)》(以下簡稱《什么是》)是完全不同的兩類書籍,《教學(xué)與研究》注重應(yīng)用成果的展現(xiàn),適合有一定英語或英語教學(xué)基礎(chǔ)的讀者學(xué)習(xí),而《什么是》是一本答疑解惑的工具書,更適合初學(xué)者。
《語料庫語言學(xué)導(dǎo)論》(以下簡稱《導(dǎo)論》)是一本用于高等院校英語語言文學(xué)專業(yè)研究生教學(xué)的系列教材之一,該書中外結(jié)合,史論結(jié)合,廣泛搜集資料,有著很強(qiáng)的實(shí)用性、系統(tǒng)性。全書分為三部分,每一部分由專門的專家負(fù)責(zé)編撰,并由楊惠中先生做最后的審閱工作。該書第一部分主要是語料庫語言學(xué)的理論研究,分三章講解了基礎(chǔ)知識;第二部分是語料庫的分析方法與技術(shù),從基本統(tǒng)計(jì)手段及原理與文本索引工具及應(yīng)用兩部分,對實(shí)操的環(huán)節(jié)進(jìn)行詳細(xì)的講授;第三部分則是偏向應(yīng)用類的專題研究,包含英語詞語搭配種類、學(xué)術(shù)英語語體研究、學(xué)術(shù)英語語義韻研究等方面。該書在附錄部分列出了術(shù)語表、書面英語詞語類碼表、英漢術(shù)語對照表等實(shí)用價值極高的工具表,對學(xué)習(xí)者幫助極大。
《導(dǎo)論》相比于《什么是》,在基礎(chǔ)知識的詳細(xì)講解上增加了學(xué)科專業(yè)性、系統(tǒng)性,使理論與應(yīng)用結(jié)合得更密切,此外,分章講解的學(xué)位論文模式是該書的內(nèi)容編排特點(diǎn),這樣的編排對研究生的學(xué)位論文的寫作也具有指導(dǎo)意義。
《語料庫語言學(xué)的研究與應(yīng)用》(以下簡稱《研究與應(yīng)用》)通過七個章節(jié)運(yùn)用理論闡釋和實(shí)例分析的方法,對語料庫語言學(xué)進(jìn)行了知識梳理。該書第一章介紹了語料庫語言學(xué)的學(xué)科概貌,明確了學(xué)科定位;第二章與第三章從語料庫的建設(shè)發(fā)展、加工利用兩個方面進(jìn)行細(xì)致的講解;第四章到第七章可以看為一個整體,介紹了語料庫語言學(xué)在外語教學(xué)、翻譯、文體學(xué)等領(lǐng)域的具體應(yīng)用與價值。
《研究與應(yīng)用》與《什么是》都對語料庫的定義、分類、發(fā)展等基礎(chǔ)知識做了介紹。但《研究與應(yīng)用》并未涉及語料庫分析方法的部分,《什么是》中的語料庫研究應(yīng)用也比《研究與應(yīng)用》中涵蓋的學(xué)科范圍窄,內(nèi)容不如《研究與應(yīng)用》豐富。此外,不同于《什么是》的解答式編排,《研究與應(yīng)用》將內(nèi)容的重心放在了語料庫語言學(xué)對其他學(xué)科領(lǐng)域的影響與應(yīng)用上,該書用了將近一半的篇幅(四個章節(jié))來證明語料庫語言學(xué)的研究科學(xué)性、工具便捷性。該書還對語料庫的加工和利用展開了更細(xì)致的闡釋,關(guān)于應(yīng)用的實(shí)例也比上述提及的其他著作涉獵的多,但有利有弊,應(yīng)用實(shí)例較多,對于不了解語料庫語言學(xué)的初學(xué)者,理解起來可能會有困難,閱讀有定一定門檻。
以上例舉的幾本著作僅是我國語料庫語言學(xué)研究成果的一小部分,如今已有越來越多的學(xué)者以不同的角度在該領(lǐng)域筆耕不輟,我們相信,隨著時代的進(jìn)步,語料庫語言學(xué)會有著更美好更廣闊的的發(fā)展前景。
本書以解答為重點(diǎn),循序漸進(jìn)地為讀者傳授語料庫語言學(xué)的知識。但因此的不足就比較明顯:不能很好的將知識系統(tǒng)化,個別問題前后之間的關(guān)聯(lián)松散,一定程度上使個別知識的前因后果不夠連貫。例如開篇對“什么是語料庫?”的介紹,僅僅解釋了語料庫的概念,概述了其他學(xué)者對語料庫的兩種認(rèn)識,并未對其發(fā)展進(jìn)行大致的梳理,有種“意猶未盡”之感。
在計(jì)算機(jī)技術(shù)飛速發(fā)展的今天,如何順應(yīng)科技化潮流與時俱進(jìn)是每門學(xué)科不可回避的問題,語言學(xué)已借助語料庫這門新技術(shù)有了累累研究碩果,觀之我們中國的漢字,雖早已通過發(fā)達(dá)的信息處理技術(shù)進(jìn)入計(jì)算機(jī)之中,但漢字學(xué)的新時代創(chuàng)新仍充滿了挑戰(zhàn)。傳統(tǒng)漢字學(xué)的研究方法已不能滿足當(dāng)今學(xué)者研究的需要,我們該如何利用好計(jì)算機(jī)技術(shù)這一有利工具,將傳統(tǒng)知識與新科技的結(jié)合起來,是漢字學(xué)研究者普遍面臨的問題,因而,書中提及的語料庫語言學(xué)建設(shè)方法就為漢字學(xué)的新發(fā)展提供了很好的參考范式。
不同的語言有與之對應(yīng)的語料庫,那么觸類旁通,漢字則應(yīng)對應(yīng)有自己的漢字字料庫,字料庫漢字學(xué)正是此類新興學(xué)科,它“以真實(shí)文本中出現(xiàn)的漢字字料為界定和描述漢字現(xiàn)象的起點(diǎn),通過字料的采集、存儲、標(biāo)注、檢索和統(tǒng)計(jì)分析,用來提出全新的漢字學(xué)理論或驗(yàn)證、修正已有的漢字學(xué)理論”(柳建鈺,2017),對漢字學(xué)的新發(fā)展有著不可忽視的貢獻(xiàn),是一門富有研究價值的交叉學(xué)科。王寧在《漢字構(gòu)形學(xué)導(dǎo)論》中,將漢字學(xué)的研究分支歸為四類:漢字構(gòu)形學(xué)、漢字字體學(xué)、漢字字源學(xué)和漢字文化學(xué),這四類分支在字料庫的輔助下勢必會有新的、卓越的發(fā)展。令人欣喜的是,這樣的預(yù)設(shè)并非空想,目前漢字學(xué)的字料庫建設(shè)與發(fā)展有著欣欣向榮之勢,已有許多學(xué)者投入到對此的建設(shè)中來,他們從字料庫的基礎(chǔ)定義、理論建設(shè)、實(shí)際應(yīng)用等諸多方面辛勤研究著新時代漢字學(xué)理論,同時證明著字料庫的運(yùn)用會給漢字學(xué)的新發(fā)展提供無限可能。
本書第三章的“語料庫的處理和加工”可為字料庫漢字學(xué)的字料信息計(jì)算機(jī)化提供參考,尤其是第一問涉及到的文本清理,本書從編碼轉(zhuǎn)換、規(guī)范格式、字符替換等方面為漢字學(xué)語料庫處理提供了詳盡的參考,例如推薦了UTFCast的編碼轉(zhuǎn)換工具,PowerGREP的拼寫檢查功能,并分享了“文本清理是一項(xiàng)需要細(xì)心和耐心的操作技術(shù),需要在實(shí)踐中不斷增強(qiáng)意識提高操作效率”的經(jīng)驗(yàn)。又如“什么是語料庫的標(biāo)注?”中談到的不同層面的語料標(biāo)注分類:語音、語義、語用、語篇、詞類、句法,盡管語料標(biāo)注在語言學(xué)研究領(lǐng)域是存在爭議的,但有此分類作為參考,能極大方便研究者對掌握的語料進(jìn)行語言特征的分析,同時也為字料庫漢字學(xué)中的字料標(biāo)注提供了參考。
本書的第五十五問“大數(shù)據(jù)時代的語料庫語言學(xué)會有什么新的特征?”也同樣引人深思,這個問題的回答不僅是針對語料庫語言學(xué),更適用于當(dāng)今語言學(xué)廣泛的相關(guān)學(xué)科。在新時代條件下,各學(xué)科在大數(shù)據(jù)的影響下,會有怎樣的發(fā)展與創(chuàng)新,讀者能在此回答上窺探一二:
(1)研究規(guī)模會發(fā)生變化,資源會越來越豐富;(2)研究內(nèi)容會更龐雜,降噪會成為學(xué)科建設(shè)的重要課題之一;(3)網(wǎng)絡(luò)爬蟲智能化、工具便捷化;(4)研究材料的存儲方式會發(fā)生改變;(5)研究分析方法會有變化;數(shù)據(jù)的解讀更有挑戰(zhàn)性。
在當(dāng)今日新月異的世界,隨著社會開放程度、人們的認(rèn)識水平與認(rèn)識能力的不斷提高,新思想、新技術(shù)層出不窮,促進(jìn)了不同文化之間的交流融合、取長補(bǔ)短、互利共贏。這一點(diǎn)體現(xiàn)在學(xué)術(shù)界,便是學(xué)科與學(xué)科之間、學(xué)科與新研究方法之間的碰撞,產(chǎn)生了大量如“國際中文教育”、“字料庫漢字學(xué)”等等新興學(xué)科,交叉學(xué)科的興盛更是大勢所趨。
愿我們各學(xué)科之間能夠相互學(xué)習(xí)借鑒,愿我們漢字學(xué)的后輩研究者們能學(xué)好、借鑒好語料庫語言學(xué)學(xué)科的發(fā)展經(jīng)驗(yàn),結(jié)合前輩們辛勤耕耘出的成果,建設(shè)好我們的字料庫,做好研究,做好創(chuàng)新,為漢字學(xué)的發(fā)展盡一份綿薄之力。