国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

《網絡語料庫:理論與實踐》評介

2015-08-15 00:53:48徐李榮
關鍵詞:語言學語料庫語言

徐李榮

(浙江大學外國語言文化與國際交流學院,浙江 杭州 310058)

《網絡語料庫:理論與實踐》是意大利巴里大學現代語言系英語語言與翻譯研究員兼講師Maristella Gatto 所著,由Bloomsbury Academic 于2014年出版。該書被列入國際知名語料庫語言學專家伯明翰大學Wolfgang Teubert 教授以及諾丁漢大學Michaela Mahlberg 教授主編語料庫與話語研究系列叢書。

從傳統意義上的語料庫來講,網絡本身不能稱為語料庫。根據McEnery and Wilson(1996:21),在理論上,任何本文集只要不少于一個,都可以稱為語料庫。但在現代語言學的背景下,“語料庫”有更多的延伸義,絕非簡單的定義就能解釋清楚。一般語料庫會從以下四個方面進行考察:樣本收集及代表性,語料庫大小,機器可讀以及標準參考。一些語料庫學者提出因為網絡存在內部信息組織凌亂不規(guī)整、不穩(wěn)定性以及無法操控等問題,所以不太適用于進行語言學研究。Leech(2007:145)也認為,雖然網絡能夠提供大量文本,但因其內容量大種類冗雜,難以代表一般意義上真實語言的使用。綜上,目前大多數有關語料庫專著都把網絡作為語料庫語言學研究的一個輔助,抑或語料庫語言學未來的發(fā)展方向,鮮有著作把網絡本身作為語料庫進行研究。然而隨著時間的推進和網絡科技的進步,網絡本身因其巨大的語言數據資源受到越來越多的語言學學者的關注。該書則是在新的網絡時代背景下,對網絡作為語料庫在語言學研究中的各方面問題進行了詳盡探討。

該書作者Maristella Gatto 把網絡本身作為語料庫研究對象,采用網絡輔助分析工具進行語言學數據分析,針對目前網絡作為語料庫這一爭議話題進行理論上的探討和實踐上的操作。文章內容通俗易懂,案例解說詳細,對語料庫語言學以及計算語言學方向的學生和學者來說是一本不錯的通識入門讀物。

全書共分為七個章節(jié)。第一章簡要概括介紹了涉及語料庫語言學的基本概念、原則以及方法。開宗明義,作者首先提出語料庫語言學是語言學的一個重要研究領域,討論了語言學理論與用語料庫研究方法進行語言研究的一些關系,同時作者也指出網絡作為語料庫這一方法與傳統語料庫研究方法并不沖突,反而會成為語料庫語言學發(fā)展的一個重要輔助。繼而作者從歷史角度著重探討了電子語料庫及其主要的概念定義和標準,包括語料庫語言學中不可避免的重要概念:權威性,代表性,數據采集及平衡和語料大小,不同類型的語料庫等。之后,作者介紹了用于進行語料庫數據分析的索引工具,索引行和上下文關鍵詞,討論了搭配和類鏈接等重要概念。其中,從語料庫的創(chuàng)建(語料的收集、標記和注解),到語料庫的分析(使用Wordsmith Tools,Antcoc 以及基于互聯網的數據搜索系統提供大型語料庫在線界面的BNCweb,BYU 語料庫系列以及詞匯素描系統Sketch Engine),作者通過許多案例具體直觀展現了這些語料庫分析工具在語料分析中的各項功能與作用。

第二章節(jié)從網絡作為即時、自生的文本庫這一角度出發(fā),對網絡作為語料庫存在的爭議進行了簡要介紹,并且從理論層面對語料庫語言學和網絡本身作為文本實體集之間的關系進行了討論。作者指出(p35),近年來“網絡作為語料庫”這一概念本身發(fā)生了一些變化:最初由于網絡并非專門用于語言學研究而進行科學設計和建立,那么從傳統的語料庫語言學視角看,“網絡作為語料庫”這一看法并不被學者所認可;隨著時間的推移,世界各地的語言學家越來越多地把注意力投向網絡:它不僅可以提供大量真實的并且用于傳統語料庫設計和建設的語言文本,本身作為語料庫也越來越引起學者和專家的關注。如今,網絡因具備機器可讀性,還具有搜索真實文本庫的這一特質,其作為語料庫的地位被越來越多的語言學家所接受。為了進一步論證“網絡作為語料庫”的可接受性,作者除了從網絡這一角度重新探討語料庫語言學中的若干重要概念和議題,如真實性、代表性、語料庫大小和語料庫組成等,還加入新的版權問題。與此同時,網絡作為語料庫進行語言學研究也帶了新的問題,諸如網絡本身的動態(tài)性、可再生性、相關性和可信度。這些新問題也不可避免地對語料庫語言學本身的概念產生重大的影響。

網絡作為語料庫可以帶來新問題,第三章節(jié)就重點討論利用普通的搜索引擎,展示網絡作為現成語料庫在查詢方面展現出來的潛能以及局限。首先,介紹由于網絡作為語料庫可以提供前所未有的大量語言數據,那么連同網絡本身的普及,在自然語言處理、機器翻譯和詞義消歧方面足以發(fā)揮的巨大作用。接著,作者對搜索引擎如何運作做了簡要概述,并且通過一系列的案例研究對使用商業(yè)搜索引擎進行語言學研究進行詳細展示,比如,提供既定語言使用的證據、研究短語和測試翻譯選項等。作者通過谷歌搜索引擎,從簡單的單詞等基本搜索到短語搭配語域等高級搜索等一些案例,向讀者展示網絡作為語料庫提供給研究人員巨大的語言使用的資源庫。盡管網絡作為語料庫在呈現語言信息時不如傳統的為特定研究而建立的語料庫具有針對性,但由于網絡呈現結果的迅速以及其背后巨大的語言資源,研究人員仍然可以通過反復精確關鍵詞進行高級查詢進而達到研究目的。

在介紹普通搜索引擎進行一般常規(guī)查詢之后,第四、第五章節(jié)作者繼而介紹一些從語料庫角度對網絡資源進行高級索引的工具,展現了如何通過不同的方式利用網絡作為語料庫去克服網絡作為語言資源存在的局限性,并且提供用于特定研究目的和特定背景下及時有用的語言資源。作者首先介紹了有關索引工具的背景知識和技術特點,然后展示了如何通過使用WebCorp 和WebAsCorpus 迅速獲取最新、現成的語言資源的一系列案例研究,尤其是在外語教學領域,展現了它們在詞匯搭配和研究新詞方面的優(yōu)點。最后,作者重點介紹WebCorp Linguist’s Search Engine在不借助商業(yè)搜索引擎的情況下研究當代英語的重要作用。對于WebCorp Linguist’s Search Engine,網絡是用來建立線下語料庫的數據源,但是這個線下語料庫能夠一直持續(xù)不斷由新的網絡下載填充,因而被稱為“網絡小宇宙”。它既是語料庫,是具有確定大小和組成的文本集可供線下加工分析;同時它也是巨大的不斷更新的網絡。目前WebCorp Linguist’s Search Engine 已經建成包含三個語料庫:共時英語網絡語料庫、歷時英語網絡語料庫和伯明翰博客語料庫,它們可以通過注冊免費使用。

在第五章節(jié)中,作者介紹了如何通過網絡創(chuàng)建專門語料庫和術語列表的工具和方法。首先,作者描述了人工創(chuàng)建小型網絡語料庫的步驟并且討論了其中的理論問題,如語料的代表性和真實性。然后,介紹如何使用BootCat 自創(chuàng)特定領域的語料庫和專門用途語料庫,通過一系列反復的關鍵詞細化,BootCat 能夠以極快的速度挖掘網絡網頁,產出某個特定領域常用的詞匯以及具體使用,如旅游、化學、文學等領域。最后,介紹了比較網絡語料庫的建立和使用,以及在翻譯實踐領域的應用。作者指出不同語言語料庫之間的可比性除了關心語料庫的內容之外,還要確保各語料庫收集策略的一致性,考慮各語料庫之間的平衡性和代表性等。作者詳細展示了英語“Renewable Energy”語料庫和意大利語“Energie Rinnovabili”語料庫制作過程,指出它們在翻譯研究領域能夠為研究人員提供母語使用者所使用的真實語言材料,方便跨文化研究;在自然語言處理領域能彌補平行語料庫稀缺的現象,快速自動生成包括原語文本和翻譯文本在內的比較語料庫,為訓練統計翻譯系統或建立術語庫提供可靠數據。

在第六章節(jié)中,作者探討了在語料庫語言學領域中,利用大型一般用途網絡創(chuàng)建語料庫的可能性,并且通過一系列個案研究證明在網絡作為語料庫背景下開發(fā)的工具和數據集不但可以用來獲取語言使用的信息,而且對話語和社會研究也會有所啟發(fā)。首先,作者介紹了大型一般用途網絡語料庫Leeds Collection of Internet Corpora:它包含英語、漢語、日語、德語法語等多語種語料庫;所有語料都進行了語法標注,并且可以進行互信息值,T 檢驗和對數似然檢驗等搭配統計。還有最近發(fā)行的TenTen 包含100 億詞,開發(fā)出包括漢語、英語、德語、意大利語等多語種的語料庫,這些語料庫同樣可以通過Sketch Engine進行檢索使用。作者重點講解了Sketch Engine在詞匯素描、詞語搭配與區(qū)分等方面的功能。最后,作者通過使用大型一般網絡語料庫ukWac對“culture”一詞進行研究,并將得到的數據與其在BNC 得到的結果進行比較,進而描述和討論基于網絡語料庫得到的數據和基于傳統大型語料庫得到的數據之間的相似點和不同之處。

在第七章節(jié)中,作者簡要探討了由于科技的進步和普及,網絡作為語料庫本身經歷的一些變化,尤其是新一代網絡2.0 的出現,使網絡成為無處不在、人人參與的場合。作者首先提出了網絡2.0 的出現使網絡內容的制造者和使用者之間的界限變得模糊,用戶既是網絡內容的使用者也是制造者。進而作者以多語語料庫維基百科作為范例,指出其未來可能的發(fā)展趨勢。最后,作者提到由于云計算和集體智慧的出現,網絡合作范式將成為未來語料庫語言學研究的常規(guī)模式。

《網絡語料庫:理論與實踐》既涉及語料庫語言學的一般概念和原則,也將傳統的概念和方法與新一代網絡2.0 出現之后的語料庫研究現狀聯系起來。本書通過具體直觀的案例向語言學習者、教師和研究人員展現了如何使用網絡提供的巨大語言資源,同時也探討了目前網絡作為語料庫這一研究領域的不成熟和不完善,在對于這些問題做了比較客觀的評價同時,也指出未來網絡作為語料庫在語料庫語言學研究領域的發(fā)展趨勢。除此之外,書本每個章節(jié)后附有啟發(fā)性的研究問題以及擴展閱讀,可以為希望深入研究該論題的學者提供更多的背景和學術資源。整體來說,此書將會引發(fā)讀者對網絡在語料庫語言學中的地位進行重新審視,并且對語料庫語言學的研究產生新的認識。

[1]Leech,G.New resources or just better old ones?The Holy Grail of Representativeness[M].in M.Hundt et al.(eds),2007.

[2]McEnery,Tony and Andrew Wilson.Corpus Linguistics[M].Edinburgh University Press,1996.

[3]Maristella Gatto.Web As Corpus:Theory and Practice[M].Bloomsbury Academic,2014.

猜你喜歡
語言學語料庫語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
《語料庫翻譯文體學》評介
讓語言描寫搖曳多姿
把課文的優(yōu)美表達存進語料庫
認知語言學與對外漢語教學
累積動態(tài)分析下的同聲傳譯語言壓縮
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現
語言與翻譯(2015年4期)2015-07-18 11:07:45
我有我語言
語言學與修辭學:關聯與互動
當代修辭學(2011年2期)2011-01-23 06:39:12
語料庫語言學未來發(fā)展趨勢
韶关市| 文安县| 桂东县| 酉阳| 高要市| 滦南县| 化州市| 油尖旺区| 禹州市| 水富县| 黎城县| 景德镇市| 历史| 武安市| 杨浦区| 铅山县| 岳西县| 会昌县| 松阳县| 黎川县| 庆安县| 芷江| 河北省| 秦皇岛市| 贡觉县| 胶南市| 黄龙县| 临朐县| 密云县| 上林县| 朔州市| 汶川县| 仪征市| 长沙市| 甘洛县| 喀什市| 洛浦县| 衡水市| 彰化县| 新源县| 广州市|