国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代背景下的現(xiàn)代語料庫研制概覽?

2019-01-28 03:54:30盧植胡健廣東外語外貿(mào)大學(xué)
外語與翻譯 2018年4期
關(guān)鍵詞:分詞語料語料庫

盧植 胡健 廣東外語外貿(mào)大學(xué)

【提 要】大數(shù)據(jù)為語言研究帶來了大量新型自然語料,但這些基于網(wǎng)絡(luò)的非結(jié)構(gòu)電子數(shù)據(jù)對(duì)于語料庫研制而言既是機(jī)遇又是挑戰(zhàn)。本文通過梳理語料庫研制基本步驟,回顧現(xiàn)有研制軟件和引介新技術(shù)工具,發(fā)現(xiàn)語料庫研制當(dāng)前呈現(xiàn)出三大趨勢(shì):研制工具上,單機(jī)軟件轉(zhuǎn)向網(wǎng)絡(luò)應(yīng)用;研制目的上,語料庫研制與分析功能融合;研制應(yīng)用上,語料庫研制趨向大數(shù)據(jù)應(yīng)用。

1.引言

伴隨現(xiàn)代信息技術(shù)的更新迭代,數(shù)據(jù)數(shù)量越來越大,種類越來越多,復(fù)雜程度越來越高,“大數(shù)據(jù)”的概念應(yīng)運(yùn)而生。2001年分析師萊尼在《3-D數(shù)據(jù)管理》報(bào)告中首提“大數(shù)據(jù)”的3V特征,即數(shù)據(jù)即時(shí)處理的速度(Velocity)、數(shù)據(jù)格式的多樣化(Variety)與數(shù)據(jù)量的規(guī)模(Volume)(Laney 2001)。麥肯錫(McKinsey)在報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭和生產(chǎn)力的下一個(gè)前沿》中將大數(shù)據(jù)定義為:數(shù)據(jù)規(guī)模超出常規(guī)數(shù)據(jù)庫工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集(Manyika 2011)。

截至2011年,全球擁有互聯(lián)網(wǎng)用戶數(shù)已達(dá)到20億;RFID標(biāo)簽在2005年的保有量僅有13億,但是到2010年這個(gè)數(shù)字超過了300億;2006年資本市場(chǎng)的數(shù)據(jù)比2003年增長了17.5倍;目前新浪微博上每天上傳的微博數(shù)超過1億條;Facebook每天處理10TB的數(shù)據(jù)(趙國棟、易歡歡、糜萬軍、鄂維南2013)。大量文本、圖像、影像等數(shù)據(jù)的電子化和網(wǎng)絡(luò)化,為單、多模態(tài)語料庫的研制及相關(guān)應(yīng)用提供了大量真實(shí)語料。然而,文本、圖象、聲音等作為非結(jié)構(gòu)化數(shù)據(jù),難以像在MS Excel中統(tǒng)計(jì)分析(王華樹2016:3),人工復(fù)制粘貼無法應(yīng)對(duì)海量語料以及社交媒體、電商信息、視頻彈幕等新型網(wǎng)絡(luò)自然語料等獲取,因此語料庫研制勢(shì)必要求采用新的技術(shù)和工具應(yīng)對(duì)語料的提取、加工等方面的挑戰(zhàn)。

2.現(xiàn)代語料庫概念及研制簡述

語料一般指實(shí)際使用中真實(shí)出現(xiàn)過的語言材料。按字面意思,“語料庫”(corpus)指存放語言材料的“倉庫”。事實(shí)上,語料庫不是伴隨計(jì)算機(jī)出現(xiàn)而產(chǎn)生的現(xiàn)代概念。在計(jì)算機(jī)化以前,學(xué)者已經(jīng)開始建立語料庫,當(dāng)時(shí)的語料庫主要用于詞匯索引、編撰詞典、方言調(diào)查等,包括“為研究語法、編纂詞典而采集的卡片引證庫,為教學(xué)目的和編制詞表而采集的書面文章庫,以及為語言文化調(diào)查而采集的資料庫”(王建新2005:21)。但早在中世紀(jì),原始意義上的手工語料庫出現(xiàn)得更早,甚至可以追溯到中世紀(jì)(楊惠中2002:46),從其在OED中的詞典義變化:“身體——尸體——匯編,全集——(口語或書面語的)語料——語料庫”(見王克非2012:8),可以看出人們對(duì)這一概念認(rèn)識(shí)的變遷。其中,正是伴隨計(jì)算機(jī)的迅猛發(fā)展,以計(jì)算機(jī)應(yīng)用參與語料庫研制為標(biāo)志,語料庫邁入計(jì)算機(jī)時(shí)代,進(jìn)入現(xiàn)代語料庫時(shí)期(鄒煜2011)。

關(guān)于現(xiàn)代語料庫的定義,中外學(xué)者(Sinclair 1991;McEnery&Wilson 1996;顧曰國 1998;Leech 2014等)的觀點(diǎn)雖各有側(cè)重,但具有一定共性,即現(xiàn)代意義的語料庫是基于一定目的,以一定采集標(biāo)準(zhǔn)采集的具有一定規(guī)模和代表性的、可供機(jī)讀的真實(shí)語料集合,而且語料庫采集的是文本,而非詞匯或孤立句子。

語料采集之所以需基于一定采集標(biāo)準(zhǔn)或代表性,這是由于真實(shí)語料難以窮盡和實(shí)際獲取難度。如果分析某位作家的小說語言特色,理想狀態(tài)下是采集到其所有小說文本(而非書信、雜談等題材作品),進(jìn)而再進(jìn)行分析;但問題在于,每時(shí)每刻世界都在產(chǎn)生大量真實(shí)語料,很多類型或文體的真實(shí)語料并不是如同某位作家的小說可以窮盡,現(xiàn)實(shí)情況往往是無法窮盡,同時(shí)也涉及到語料版權(quán)和實(shí)際采集難度,所以語料的采集就需按照一定采集標(biāo)準(zhǔn),進(jìn)行取樣;最后,采集的語料一般是電子文本,如非電子文本,則要轉(zhuǎn)化為計(jì)算機(jī)可讀的電子文本,因?yàn)楝F(xiàn)代語料庫研究及應(yīng)用一般需借助計(jì)算機(jī)手段。

綜上所述,隨著計(jì)算機(jī)技術(shù)和語料庫研究的深入,語料庫建設(shè)也在不斷深化。就時(shí)間跨度而言,王克非(2012:9)將語料庫發(fā)展分為三個(gè)階段:原始語料庫(18世紀(jì)-20世紀(jì)初)、現(xiàn)代語料庫(1950s-80s)和當(dāng)代語料庫(1990s-)。就語料而言,語料庫建設(shè)其發(fā)展歷程基本經(jīng)歷從紙質(zhì)(卡片)到電子文本,從文本、音頻圖像(靜態(tài)或動(dòng)態(tài))再到視頻,換言之,存儲(chǔ)方式也從單模態(tài)發(fā)展到多模態(tài)。故Knight認(rèn)為,語料庫建設(shè)在經(jīng)歷了手工采集(語料庫1.0)——初步經(jīng)過計(jì)算機(jī)處理(語料庫2.0)——大規(guī)模數(shù)據(jù)采集與加工(語料庫3.0)后,伴隨現(xiàn)代計(jì)算機(jī)多媒體技術(shù)的發(fā)展,以及人們對(duì)語言活動(dòng)本質(zhì)認(rèn)識(shí)的提升(見黃立鶴2015:1),即語料庫建設(shè)進(jìn)入多模態(tài)采集,即“語料庫4.0”階段。

3.語料庫研制基本步驟及趨勢(shì)

語料庫研制之前需要根據(jù)研究目的考慮建庫設(shè)計(jì)。語料庫對(duì)于語言研究的意義在于,“通過語料庫,我們可觀察到之前未意識(shí)到的或僅僅隱約覺察到的語言模式”(Johansson 2007:1)。這也就意味著語料的容量一般較大,并非凡針對(duì)零星語料的研究都需要基于“語料庫”,導(dǎo)致“語料”與“語料庫”混為一談。其次,套入語料檢索軟件,空得數(shù)據(jù),無法解釋,有“語料庫”之名,無語料庫之實(shí)。語料庫是語料庫研究的起點(diǎn)和核心,正如Kennedy(1998:60)所言:“語料庫設(shè)計(jì)和編輯問題直接關(guān)系到基于某一語料庫研究的有效性和可靠性”。

3.1 語料庫研制基本步驟

在確定研究目的和語料庫研制可行性后,語料庫創(chuàng)建一般涉及語料采集、轉(zhuǎn)寫降噪、分詞標(biāo)注、對(duì)齊等步驟。以下按照這些步驟大致回顧并引介相關(guān)技術(shù)工具,但值得一提的是,這些語料加工操作如采用軟件或網(wǎng)絡(luò)應(yīng)用自動(dòng)處理,還需人工核對(duì)調(diào)整,以保持語料庫及后續(xù)研究的有效性和可靠性。

3.1.1 語料采集

語料采集傳統(tǒng)上通過人工采集。除了人工轉(zhuǎn)寫輸入外,紙質(zhì)語料可在掃描或拍照后,通過ABBYY FineReader等本地軟件、smallpdf.com等在線網(wǎng)站、或者手機(jī)和平板等移動(dòng)端上的全能掃描王之類的應(yīng)用(APP),進(jìn)行光學(xué)字符識(shí)別(ORC)轉(zhuǎn)換為電子文本。

對(duì)于網(wǎng)絡(luò)文本語料,很多語料可直接復(fù)制粘貼為純文本。對(duì)于某些無法直接復(fù)制文字的頁面,比如圖片格式頁面或者該頁面設(shè)置為不可復(fù)制,有如下幾種方法應(yīng)對(duì):使用ABBYY Screenshot Reader等識(shí)別軟件框選所需文本內(nèi)容再剪切到Word或txt文件中即可;通過將所需頁面的網(wǎng)頁保存為“網(wǎng)頁,全部”,得到一個(gè)文件夾和網(wǎng)頁,再用word打開所保存的網(wǎng)頁,此時(shí)即可編輯或保存;打開其網(wǎng)頁源代碼后復(fù)制相關(guān)內(nèi)容,但會(huì)連帶復(fù)制較多無關(guān)信息;對(duì)于某些失效網(wǎng)頁語料,可打開其網(wǎng)頁快照,通過網(wǎng)絡(luò)服務(wù)器緩存,復(fù)制相關(guān)語料。

以上人工采集優(yōu)點(diǎn)在于采集準(zhǔn)確,但缺點(diǎn)在于耗時(shí)費(fèi)力。伴隨網(wǎng)絡(luò)成為語言生活的重要組成部分,眾多語言新現(xiàn)象借助網(wǎng)絡(luò)媒體從線上傳播到線下,比如社交網(wǎng)站信息和電商平臺(tái)信息,包括食宿評(píng)價(jià)、購物反饋、書評(píng)影評(píng)等,從而成為重要的海量自然語言語料,因此大規(guī)模語料采集開始逐漸采用網(wǎng)絡(luò)爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲(Web Crawler,又稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人)是一種請(qǐng)求網(wǎng)站并提取數(shù)據(jù)的自動(dòng)化程序,其基本原理是爬蟲程序從若干初始網(wǎng)頁的統(tǒng)一資源定位符(URL)開始,獲得初始網(wǎng)頁上的URL,在獲取網(wǎng)頁文字、圖片、影像等內(nèi)容的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件,從而實(shí)現(xiàn)數(shù)據(jù)批量采集。王朝暉、余軍(2016:18)曾介紹火車頭采集器、網(wǎng)絡(luò)礦工等數(shù)據(jù)采集軟件,并以后者對(duì)阿里巴巴茶類商品和iHerb網(wǎng)站omega類商品進(jìn)行語料采集、整理,制作雙語對(duì)應(yīng)語料庫,極大提高了語料采集效率。

多模態(tài)語料的獲取可依靠影音軟件緩存,或通過流媒體嗅探軟件和視頻錄制工具下載和錄制。伴隨網(wǎng)絡(luò)娛樂化和視頻社交化趨勢(shì),一種新型的視頻分享網(wǎng)站應(yīng)運(yùn)而生——彈幕網(wǎng)站。不同于傳統(tǒng)視頻網(wǎng)站,視頻觀看者可在觀看的同時(shí)評(píng)論,即將評(píng)論即時(shí)疊加在視頻上。由于評(píng)論數(shù)量之多,密集程度有時(shí)掩蓋整個(gè)視頻畫面,猶如軍事上連續(xù)射擊掩護(hù)或齊射式進(jìn)攻,因此這種不是字幕但又類似字幕的評(píng)論被稱之為“彈幕”(見圖1)。彈幕不只是評(píng)論,更成為視頻內(nèi)容的一部分,觀眾觀看視頻,有時(shí)就是為了發(fā)表和閱讀彈幕。因此作為動(dòng)漫游戲文化(ACG)語言的重要載體和形式,彈幕自然也是一種新型的網(wǎng)絡(luò)自然語料。

圖1 視頻彈幕截圖

3.1.2 轉(zhuǎn)寫與降噪

語料轉(zhuǎn)寫主要針對(duì)多模態(tài)語料庫研制,比如口譯語料庫研制中需要將錄音或視頻中的語音轉(zhuǎn)寫文字。傳統(tǒng)上研究者采用人工聽寫,該方法雖然準(zhǔn)確,但耗時(shí)耗力。伴隨語音識(shí)別和語音合成技術(shù)的發(fā)展,相關(guān)的語音轉(zhuǎn)換軟件和應(yīng)用程序已經(jīng)能夠自動(dòng)識(shí)別和轉(zhuǎn)換,可以在一定程度上輔助人工轉(zhuǎn)寫。其中,搜狗輸入法、訊飛輸入法等不少輸入法軟件已經(jīng)兼容語音輸入功能。鑒于其以相對(duì)較高的準(zhǔn)確性和速度自動(dòng)支持普通話、廣東話和英語輸入,在此以訊飛輸入法為例簡述兩臺(tái)設(shè)備之間語料轉(zhuǎn)寫,即一臺(tái)設(shè)備播放音、視頻,另一臺(tái)設(shè)備記錄轉(zhuǎn)寫。比如在電腦上播放音、視頻文件之時(shí),保持手機(jī)“訊飛輸入法”語音輸入狀態(tài),此時(shí)該輸入法自動(dòng)識(shí)別并轉(zhuǎn)化為文字,最后通過微信或QQ社交軟件或藍(lán)牙將手機(jī)中的轉(zhuǎn)寫稿傳輸至電腦,再通過文本編輯軟件處理。然而,由于現(xiàn)場(chǎng)錄制的語音語料存在背景噪音以及停頓、猶豫、重復(fù)、修正、笑聲等副語言信息(胡開寶2011:179),故軟件轉(zhuǎn)寫后語料還需人工核實(shí)加工。

圖2 命令提示符下You-Get安裝與視頻、彈幕下載

語料降噪是指消除語料中多余的字符或影響語料對(duì)齊的字符、公式、圖表等,以提高語料庫統(tǒng)計(jì)分析的效用(管新潮、陶友蘭2017:20)。語料降噪常用軟件包括 EditPlus3、EmEditor、Microsoft Word、文本整理器等。Microsoft Word通過通配符查找替換噪音標(biāo)點(diǎn)或字符。另外,也可在Word錄制宏或在通過國產(chǎn)文字編輯軟件WPS通過自帶宏處理“文字工具”,進(jìn)行批量段落重排、刪除多余空格或換行符等格式處理。

3.1.3 分詞與標(biāo)注

語料降噪整理后一般需語料分詞和詞性標(biāo)注。所謂分詞(tokenization)是指將一連串的字符轉(zhuǎn)換成相互分離,容易識(shí)別的形符(token)的過程(梁茂成、李文中、許家金2011:45)。由于英文基本是以空格劃分的單詞為單位,其分詞較為簡便(即以空格劃分),而中文字與字和詞與詞之間并沒有明顯的區(qū)分標(biāo)記,而目前語料庫軟件基本都是針對(duì)西方拼音文字,因此首先需要分詞處理,以便后續(xù)中文檢索分析。對(duì)于英文分詞,主要是刪減單詞之間多余空格或增加必要空格,可依靠Microsoft Word和WPS軟件的拼寫檢查和替換以及錄入宏,或者通過文本整理器進(jìn)行處理。

外語研究中的分詞處理主要應(yīng)用張華平研制NLPIR漢語分詞系統(tǒng)(又名ICTCLAS),實(shí)現(xiàn)便捷分詞、詞頻統(tǒng)計(jì)、詞性標(biāo)注、關(guān)鍵詞提取等操作,但該系統(tǒng)的單機(jī)版和網(wǎng)頁演示版分別存在試用期限和單次處理字?jǐn)?shù)上限(3000字)。事實(shí)上,分詞與標(biāo)注早也是自然語言處理(Natural Language Processing)的基礎(chǔ)工作之一,因此大量NLP的工具或模塊,比如jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP中文分詞模塊,可為外語研究中語料庫研制提供便利。不過,這些基于java、python等編程語言的分詞工具模塊一般沒有用戶視窗界面,需要輸入代碼進(jìn)行操作,因此存在一定難度。不過,國內(nèi)研究人員仍在不斷開發(fā)本地單機(jī)語料處理軟件,比如Laurence Anthony開發(fā)的SegmentAnt,可進(jìn)行中文、英文、日文分詞,內(nèi)置jieba等分詞及POS賦碼引擎;北京外國語大學(xué)語料庫語言學(xué)團(tuán)隊(duì)(FLERIC)研制的BFSU Stanford POS Tagger是斯坦福大學(xué)自動(dòng)標(biāo)注軟件Stanford POS Tagger的圖形界面。通過這兩款軟件,用戶無需在命令行中輸入命令和參數(shù)就可對(duì)語料進(jìn)行標(biāo)注處理,從而降低原軟件的操作難度。在語料庫研制中,語料標(biāo)注需確定一套統(tǒng)一標(biāo)注體系。在英文詞性標(biāo)注方面,蘭卡斯特大學(xué)推出了英文詞性集CLAWS5和CLAWS7,并提供CLAWS WWW tagger在線標(biāo)注;在中文詞性標(biāo)注方面,有中科院(ICTPOS)、北大(PKU)、中傳(CUC)等各種中文詞性標(biāo)注集,各標(biāo)注集在詞性劃分略有不同,切分顆粒度上又分粗、細(xì)度,需根據(jù)研究目的進(jìn)行選擇。其中教育部語言文字應(yīng)用研究所計(jì)算語言學(xué)研究室下屬“語料庫在線”網(wǎng)站、國家語言資源監(jiān)測(cè)與研究有聲媒體中心可提供在線漢語分詞和詞性自動(dòng)標(biāo)注。

對(duì)于多模態(tài)語料庫建設(shè),由于涉及到錄音錄像轉(zhuǎn)寫,當(dāng)前主要借助Anvil、ELAN等主流多模態(tài)建庫工具。其中尤為值得一提的是多模態(tài)轉(zhuǎn)寫標(biāo)注軟件 ELAN(EUDICO Linguistic Annotator)。該軟件支持多種音視頻格式,具有轉(zhuǎn)寫模式、同步模式、標(biāo)注模式和分割模式四種不同的工作模式,支持父層與子層等級(jí)式的多層次標(biāo)注,用戶可自行設(shè)定標(biāo)注的內(nèi)容和標(biāo)簽,此外該軟件還具有強(qiáng)大的檢索功能(劉劍、胡開寶2015:80)。當(dāng)前基于ELAN的語料庫建設(shè)、應(yīng)用和語言研究大致包括三類:漢語方言多媒體語料庫研制及其應(yīng)用(李斌2012)、中國手語語料庫建設(shè)(呂會(huì)華、劉輝2014)和應(yīng)用語言學(xué)研究的多模態(tài)分析(王立非、文艷2008)。

3.1.4 對(duì)齊

語料對(duì)齊針對(duì)對(duì)應(yīng)或翻譯語料庫,需要根據(jù)研究目的或假設(shè),對(duì)語料在詞、句、段或語塊等層級(jí)進(jìn)行對(duì)齊。常用語料對(duì)齊軟件包括Paraconc等專門語料軟件以及CAT軟件中附帶的對(duì)齊工具,比如 SDL Trados的 WinAlign、ABBYY Aligner和雪人CAT的對(duì)齊工具等。然而,云技術(shù)的發(fā)展和翻譯實(shí)踐的云平臺(tái)化促使翻譯和語料處理趨向于在線進(jìn)行,比如Tmxmall公有云平臺(tái)便推出了其免費(fèi)在線對(duì)齊服務(wù)。該在線對(duì)齊可以實(shí)現(xiàn)單/雙文檔對(duì)齊,涉及中文、英語在內(nèi)的46種語言,2070種語言對(duì),自動(dòng)識(shí)別“一對(duì)多”、“多對(duì)一”、“多對(duì)多”句子對(duì)應(yīng)關(guān)系,極大地提高對(duì)齊效率和準(zhǔn)確度,并支持多種主流格式的導(dǎo)入和導(dǎo)出。

不過,在句子層面對(duì)齊中,由于譯者翻譯中可能或多或少作出一定調(diào)整,從而出現(xiàn)原文多句合譯為一句譯文或原文一句分譯為多句譯文的情況,盡管當(dāng)前對(duì)齊工具能在一定程度上自動(dòng)應(yīng)對(duì)“一對(duì)多”或“多對(duì)一”的情況,但仍需在使用軟件對(duì)齊之中或之后人工介入調(diào)整相關(guān)句段。

3.2 語料庫研制趨勢(shì)

完成建庫后,接下來就是對(duì)語料庫進(jìn)行檢索、統(tǒng)計(jì)和分析。語料庫建立和分析傳統(tǒng)上是在本地計(jì)算機(jī)進(jìn)行,故這一階段使用的主流語料庫工具屬于第三代語料庫分析工具,其中以WordSmith、AntConc、MonoConc、Xaira和 PowerConc等為代表,索引分析、詞頻表、主題詞是這些工具的幾大核心功能(許家金、賈云龍2013;許家金、吳良平2014:10)。但在大數(shù)據(jù)時(shí)代下,得益于網(wǎng)絡(luò)技術(shù)的突飛猛進(jìn),語料庫研制與分析的網(wǎng)絡(luò)化程度越發(fā)深入,因此語料庫研制當(dāng)前呈現(xiàn)三大趨勢(shì):研制工具上,單機(jī)軟件轉(zhuǎn)向網(wǎng)絡(luò)應(yīng)用;研制目的上,語料庫研制與分析功能融合;研制應(yīng)用上,語料庫研制趨向大數(shù)據(jù)應(yīng)用化。

3.2.1 單機(jī)軟件轉(zhuǎn)向網(wǎng)絡(luò)應(yīng)用

對(duì)于語料庫單機(jī)軟件的開發(fā),一種是開發(fā)全新的語料處理軟件,另一種則是為已有軟件設(shè)計(jì)圖形界面,比如上文所提到的Ant系列軟件與BFSU系列語料庫軟件及工具。然而,盡管新型單機(jī)軟件不斷降低語料庫研制的門檻,但鑒于本地電腦的硬盤空間和處理能力有限,而語料庫建庫容量越來越大,分析越發(fā)復(fù)雜,大量語料需要直接從網(wǎng)絡(luò)獲取或上傳保存到網(wǎng)絡(luò),單機(jī)軟件(本地)轉(zhuǎn)向網(wǎng)站應(yīng)用(網(wǎng)絡(luò)化)的趨勢(shì)已經(jīng)出現(xiàn),在工具上為語料庫研制提供更多選擇(簡介見表1)。

表1 語料處理單機(jī)軟件與網(wǎng)絡(luò)應(yīng)用列舉

3.2.2 語料庫研制與分析功能融合

作為單機(jī)軟件轉(zhuǎn)向網(wǎng)絡(luò)應(yīng)用的成果,Sketch Engine、Webcorp、BNCweb、CQPweb 等基于網(wǎng)絡(luò)的第四代語料庫分析工具已逐步興起,具備詞表生成、索引分析、詞語搭配計(jì)算、主題詞分析等當(dāng)前主流單機(jī)版語料庫工具的幾乎所有功能(許家金、吳良平2014:10),同時(shí)實(shí)現(xiàn)語料庫研制與分析功能融合。比如Sketch Engine,研究人員可自行上傳語料或調(diào)用搭配其已有子庫,再借助其統(tǒng)計(jì)工具自動(dòng)分析,或者通過輸入數(shù)個(gè)種子詞(Seed word),自動(dòng)在網(wǎng)絡(luò)上獲取還有數(shù)個(gè)種子詞的URL,再對(duì)所獲URL進(jìn)行文本內(nèi)容提取,從而建立語料庫。無獨(dú)有偶,NLPIR漢語分詞系統(tǒng)提供網(wǎng)頁URL頁面信息獲取,只需輸入需提取網(wǎng)頁的網(wǎng)址,該演示系統(tǒng)就自行獲取頁面文字,隨后可進(jìn)行語料處理。

3.2.3 語料庫研制趨向大數(shù)據(jù)應(yīng)用化

在語言服務(wù)行業(yè),應(yīng)用大數(shù)據(jù)技術(shù)包括但不限于以下幾個(gè)方面:基于大數(shù)據(jù)可視化分析、基于大數(shù)據(jù)的預(yù)測(cè)、基于大數(shù)據(jù)的商業(yè)交易(王華樹2016:3),其中基于大數(shù)據(jù)的可視化分析和商業(yè)交易可與語料庫建設(shè)及研究結(jié)合。

所謂大數(shù)據(jù)可視化分析指對(duì)大量抽象數(shù)據(jù)進(jìn)行視覺表現(xiàn),使讀者直觀地把握數(shù)據(jù)的空間分布模式、趨勢(shì)、相關(guān)性等描述和推斷統(tǒng)計(jì)信息,而這些統(tǒng)計(jì)信息可能會(huì)在其他呈現(xiàn)方式下難以被發(fā)現(xiàn),基于詞頻分析的詞云(word cloud)就是數(shù)據(jù)可視化的經(jīng)典代表之一。我們相信,未來的語料庫研制的關(guān)注點(diǎn)不但只在于建庫或分析,也將更多關(guān)注于分析結(jié)果的呈現(xiàn)方式,不應(yīng)滿足于索引定位(concor-dance plot)等機(jī)械式描述,而是以一種更為人性化的方式呈現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)計(jì)信息和數(shù)據(jù)之間的互動(dòng)。

大數(shù)據(jù)交易包括如語料庫或翻譯記憶庫交易以及多語種數(shù)據(jù)處理服務(wù)。作為一種狹義的語言資源(陳章太2008:10),語料庫在語言研究中不僅具有學(xué)術(shù)價(jià)值,而且在自然語言處理中具有詞典編纂、機(jī)器翻譯、軟件開發(fā)等商業(yè)價(jià)值,故其成品及研制過程中各個(gè)環(huán)節(jié)亦可為大數(shù)據(jù)交易提供商機(jī)。語料庫研制的主體將分為研究者自行研發(fā)或邀請(qǐng)專人研制,抑或把語料清洗、標(biāo)注、對(duì)齊等工作分工外包,比如Tmxmall現(xiàn)已推出人工對(duì)齊服務(wù)。

4.結(jié)論

大數(shù)據(jù)時(shí)代下,各種新型網(wǎng)絡(luò)自然語料不斷涌現(xiàn),有利于擴(kuò)展語料庫研制及研究的邊界,同時(shí),隨著網(wǎng)絡(luò)技術(shù)和自然語言處理技術(shù)的進(jìn)步,各種自然語言處理軟件的圖形界面化、網(wǎng)絡(luò)應(yīng)用普及和第四代語料庫分析工具的逐步興起,均有利于降低語料處理和語料庫建設(shè)的難度。然而,語料庫研制在取樣、標(biāo)注等基礎(chǔ)標(biāo)準(zhǔn)暫未統(tǒng)一,比如對(duì)于漢語分詞,不同的標(biāo)注結(jié)果將影響后續(xù)研究的信度和效度。同時(shí),單、多模態(tài)的語料采集、用于漢語翻譯語言分析的檢索和統(tǒng)計(jì)工具還不夠豐富,尤其是缺少特別適合漢語語言分析的工具(秦洪武、李嬋、王玉 2014:66-67)。

因此,為應(yīng)對(duì)以上挑戰(zhàn),外語專業(yè)研究人員必須提高自身語料庫研制技術(shù),而采用Python、R等編程語言進(jìn)行文本處理已是大勢(shì)所趨,或?qū)⒊蔀槲磥碚Z料庫研制、翻譯技術(shù)乃至翻譯研究的亮點(diǎn)。已有學(xué)者出版相關(guān)著作,探索如何在語料庫的教與學(xué)及其應(yīng)用、語料庫科研中習(xí)得Python能力(管新潮2018)。相信隨著語料庫研制技術(shù)的發(fā)展,研究人員會(huì)在語料采集、分詞、深度標(biāo)注、分析、可視化等方面提高語料庫研制的水平,助力語言研究分享大數(shù)據(jù)時(shí)代的數(shù)據(jù)紅利。

猜你喜歡
分詞語料語料庫
《語料庫翻譯文體學(xué)》評(píng)介
結(jié)巴分詞在詞云中的應(yīng)用
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
值得重視的分詞的特殊用法
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
高考分詞作狀語考點(diǎn)歸納與疑難解析
长春市| 苏尼特左旗| 富民县| 舟曲县| 军事| 连山| 兴义市| 明溪县| 澄城县| 宾阳县| 报价| 万年县| 宁南县| 搜索| 睢宁县| 新密市| 石泉县| 福泉市| 巴里| 石棉县| 呼伦贝尔市| 兴国县| 乌兰浩特市| 沧源| 台北县| 新兴县| 土默特左旗| 皮山县| 黑水县| 开平市| 永泰县| 九龙城区| 昭苏县| 嘉荫县| 荔浦县| 澳门| 章丘市| 富源县| 万山特区| 陇川县| 锦屏县|