董李鵬,高東懷,朱益平,張知元
(1.西北大學(xué) 現(xiàn)代教育技術(shù)中心,陜西 西安 710069;2.第四軍醫(yī)大學(xué) 網(wǎng)絡(luò)中心,陜西 西安 710032;3.西北大學(xué) 外國語學(xué)院,陜西 西安 710069)
語料庫(Corpus)通常是包含數(shù)以萬計字的機器可讀的語言材料集,它不同于檔案,通常是被挑選出來并經(jīng)過處理的文本,可用來代表特定的語言變體或流派,因此可作為一個標(biāo)準(zhǔn)的參考[1]。人們通過語料庫觀察和把握語言事實,分析和研究語言系統(tǒng)的規(guī)律[2]。公示語是在公共場合所展示的文字,具有特殊的交際功能以及提供信息和完成指令的作用。
目前,常用的語料庫可分為三大類,分別為:譯文語料庫(translation corpus)、類比語料庫(comparable corpus)、對應(yīng)語料庫(parallel corpus)[3]。譯文語料庫以收錄譯文為主,其宗旨在挖掘翻譯語言本身的特征;類比語料庫收錄同一種語言的原生文本和翻譯文本,它們之間無翻譯對應(yīng)關(guān)系,但在時代、體裁、主題等方面具有可比性,可用來研究翻譯語言的特點;對應(yīng)語料庫收錄原文與譯文雙語平行對照文本,為了能方便、精準(zhǔn)的檢索到所需要的語料,開發(fā)者通常會按事先設(shè)定好的標(biāo)準(zhǔn)對語料進行句或段的對齊[4]。陜西省旅游景區(qū)公示語英漢/漢英翻譯語料庫則屬于對應(yīng)語料庫,同樣它也屬于雙語“專用性”語料庫。本文構(gòu)建的語料庫系統(tǒng)作為旅游解說系統(tǒng)中重要的軟件組成部分,它將大量實際應(yīng)用中的高質(zhì)量的公示語漢英翻譯語料經(jīng)過處理后整合起來提供給所需的用戶進行檢索、研究,該系統(tǒng)的實現(xiàn)對國內(nèi)其他省市公示語翻譯語料庫系統(tǒng)的設(shè)計與開發(fā)具有一定的借鑒意義。
陜西省是旅游文化大省,共有人文景觀800多處,是文物古跡薈萃之地,是重要的國際文化旅游勝地之一。首先,課題組成員分頭實地調(diào)研,廣泛采集資料,然后,對所收集的資料和實地采集的譯例進行分析、歸類,并對陜西省旅游景區(qū)的文化特色和多樣性特點進行系統(tǒng)的分析,初步規(guī)劃了語料庫的主題欄目,共分為10大類和48個小類,如表1所示。語料庫資料的收集整理和欄目的劃分為系統(tǒng)開發(fā)奠定了基礎(chǔ)。
表1 陜西省旅游景區(qū)公示語翻譯語料庫主題欄目
參照國內(nèi)外的相關(guān)研究課題,確立了本系統(tǒng)的設(shè)計原則,主要是:
(1)實用性和易用性:系統(tǒng)在設(shè)計初期考慮到管理員和普通用戶需求,并吸納其他知名系統(tǒng)的設(shè)計理念,盡力達到功能完善、簡單易用的用戶體驗。
(2)易管理和可維護性:管理員可利用瀏覽器登錄到此系統(tǒng)進行管理與維護,以保障其有效的運行。
(3)可擴展性:系統(tǒng)在開發(fā)時,出于長久的考慮,預(yù)留了接口,作為未來新功能的擴展。
(4)安全性:實現(xiàn)簡單的用戶權(quán)限(超級管理員、普通管理員、普通用戶)分配,保障了系統(tǒng)可被安全的訪問。
筆者所建立的公示語翻譯語料庫系統(tǒng)主要有兩大功能。管理語料數(shù)據(jù)庫,利用該系統(tǒng)提供的插入、刪除、更新等功能來完成語料數(shù)據(jù)庫的管理,比較重要的是語料加工功能,利用特殊的方式將語料篇章分割成若干句子以記錄的形式存入數(shù)據(jù)庫中;語料檢索功能,可利用詞組或句子作為檢索關(guān)鍵詞進行分類檢索和全庫檢索。設(shè)計公示語翻譯語料庫系統(tǒng)應(yīng)緊緊圍繞這兩大功能。
從用戶角色的角度出發(fā),系統(tǒng)的功能結(jié)構(gòu)如圖1所示。
普通用戶有發(fā)表評論和查詢檢索語料的功能,他們可以通過發(fā)表評論的功能對語料庫系統(tǒng)進行評價并給出寶貴的意見和建議,以便進一步完善該系統(tǒng);也可利用查詢檢索的功能對語料庫中的資源進行查詢和研究。
管理員(超級管理員和普通管理員)具有分類管理、用戶管理、友情鏈接管理、語料管理、評論信息管理、系統(tǒng)配置、查詢搜索7大類功能。
(1)分類管理:可對語料庫資料來源的一級分類和二級分類進行管理,包括添加、刪除、編輯等功能。
(2)用戶管理:可對已注冊的合法用戶(管理員和普通用戶)進行管理,實現(xiàn)用戶的刪除、編輯、審核,查看總用戶數(shù)等功能。
(3)友情鏈接管理:管理員可根據(jù)友情鏈接的分類(單語語料、雙語語料、論壇沙龍、軟件下載、旅游資訊)添加或刪除相關(guān)友情鏈接。
(4)語料管理:管理員可對語料庫中所有的語料進行修改、增加和刪除操作。在添加語料的同時,系統(tǒng)可利用正則表達式強大的查詢匹配功能,將語料篇章分割為若干條中英文相對應(yīng)的平行語料,以記錄的形式存入語料庫之中。
(5)評論信息管理:主要實現(xiàn)評論信息的查看和刪除,評論版塊提供了用戶與管理員交流的平臺,用戶可以對語料庫系統(tǒng)提出寶貴的意見和建議。
(6)系統(tǒng)配置:主要提供查看管理員手冊、修改管理員手冊、修改用戶使用幫助、修改聯(lián)系方式等功能。
(7)查詢檢索:系統(tǒng)不僅提供全庫檢索和分類檢索功能,還加入了精確和模糊檢索功能,關(guān)鍵詞(Keywords)以中文或英文的任意字符串為主,之間以空格分隔,系統(tǒng)加入自動識別和詞組過濾機制,上述功能使用戶能更準(zhǔn)確的搜索到所期待的結(jié)果。語料檢索頁面如圖2。
陜西省旅游景區(qū)公示語翻譯語料庫系統(tǒng)是由西北大學(xué)外國語學(xué)院和現(xiàn)代教育技術(shù)中心聯(lián)合研發(fā)。主要采用目前Web開發(fā)的絕佳組合LAMP(Linux+Apache+MySQL+PHP)。后臺采用服務(wù)器端腳本語言PHP,前端采用Web標(biāo)準(zhǔn)DIV+CSS實現(xiàn)網(wǎng)頁布局,并融入了最關(guān)鍵的技術(shù)正則表達式(Regular Expression),它自身具有一套非常完整的、可以編寫模式的語法體系,提供了一種靈活且直觀的字符串處理方法[5,6],利用它使得在語料添加、模糊查詢、精確查詢等功能的實現(xiàn)中發(fā)揮了巨大的作用。
本系統(tǒng)采用B/S體系架構(gòu)(Browser/Server,瀏覽器/服務(wù)器模式)[7],從邏輯上可分為表現(xiàn)層(Presentation layer)、業(yè)務(wù)邏輯層 (Business logical layer)和數(shù)據(jù)訪問層(Data access layer)。瀏覽器、Web服務(wù)器、數(shù)據(jù)庫服務(wù)器分別和表現(xiàn)層、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問層相關(guān)聯(lián)。如圖3所示,當(dāng)用戶或管理員通過終端瀏覽器向Apache服務(wù)器發(fā)出查詢語料等請求時,服務(wù)器解析請求并與數(shù)據(jù)庫服務(wù)器進行交互完成業(yè)務(wù)邏輯處理,隨后將查詢到的信息以HTML的形式返回到客戶端瀏覽器中。
本系統(tǒng)采用MySQl5.1.41數(shù)據(jù)庫,根據(jù)系統(tǒng)的功能需求和各模塊設(shè)計,需建立7個數(shù)據(jù)表,分別為:語料文章信息表、語料句詞信息表、語料分類信息表、用戶信息表、友情鏈接信息表、評論信息表、系統(tǒng)配置信息表。
用建模工具PowerDesigner對系統(tǒng)數(shù)據(jù)庫圖進行規(guī)劃,如圖4所示。語料文章信息表(articles)包括文章編號、文章英文標(biāo)題、文章英文內(nèi)容、文章中文標(biāo)題、文章中文內(nèi)容、文章特色圖片、用戶編號、語料分類號字段,其中用戶編號與用戶信息表中的用戶編號相關(guān)聯(lián),語料分類號與語料分類信息表中的分類編號相關(guān)聯(lián);語料句詞信息表(sentences)包括句詞編號、句詞英文內(nèi)容、句詞中文內(nèi)容、文章編號,用戶編號、語料分類號字段,其中文章編號與語料文章信息表中的文章編號相關(guān)聯(lián),用戶編號與用戶信息表中的用戶編號字相關(guān)聯(lián),語料分類號與語料分類信息表中的分類編號相關(guān)聯(lián);語料分類信息表(sorts)包括分類編號、父分類編號、分類名稱和分類描述字段;用戶信息表(users)包括用戶編號、用戶名稱、用戶密碼、用戶角色等字段;友情鏈接表(links)包括鏈接編號、鏈接名稱、鏈接所屬分類、鏈接具體地址字段;評論信息表(messages)包括評論信息編號、評論信息內(nèi)容、用戶編號字段,其中用戶編號與用戶信息表中的用戶編號相關(guān)聯(lián);系統(tǒng)配置信息表(options)包括配置信息編號、配置信息名稱、配置信息分類等字段。
下面從系統(tǒng)的邏輯框架出發(fā)分別闡述數(shù)據(jù)訪問層、業(yè)務(wù)邏輯層、表現(xiàn)層的實現(xiàn)過程。
數(shù)據(jù)訪問層即持久層,它是一組封裝了對數(shù)據(jù)庫進行CURD(創(chuàng)建、更新、讀取、刪除)操作的類。系統(tǒng)中數(shù)據(jù)訪問層設(shè)計了8個類,如表2所示。
表2 系統(tǒng)中定義的類說明
(1)sentences類的設(shè)計
以sentences類為例說明類中定義的方法。sentences類定義了對語料句詞信息表的各種操作方法,此類中的方法定義如表3所示。
(2)方法的實現(xiàn)
下面以sentences類中g(shù)etSentences()方法為例,闡述方法的實現(xiàn),當(dāng)管理員想要編輯或查詢某一篇語料文章所對應(yīng)的平行語料時,點擊相應(yīng)按鈕,這時程序會調(diào)用getSentences()方法,參數(shù)為此文章的編號、起始序號、每頁顯示的條數(shù),隨后程序會組合生成select語句在sentences表中進行查詢,將查詢到的每一條記錄的每個字段分別存入sentence對象的成員中,然后將每個對象存入數(shù)組sentence_array中保存起來,即為所查詢的結(jié)果。
表3 sentences類中定義的方法說明
業(yè)務(wù)邏輯層處在三層架構(gòu)中最關(guān)鍵的位置,起到了承上啟下的作用,他主要負(fù)責(zé)從表現(xiàn)層獲得用戶輸入的數(shù)據(jù),并調(diào)用數(shù)據(jù)訪問層提供的相應(yīng)方法完成和業(yè)務(wù)需求有關(guān)的功能。在此,介紹一下用戶檢索語料的策略在該層中的實現(xiàn)。
語料庫系統(tǒng)的查詢檢索功能分為全庫檢索和聯(lián)動分類檢索,為了實現(xiàn)查詢檢索的精確度,系統(tǒng)還加入了精確和模糊兩種檢索模式,另外還加入了本系統(tǒng)的一大創(chuàng)新點“詞組過濾機制”。當(dāng)用戶在搜索框中輸入以空格分割的中英文關(guān)鍵詞,選擇相應(yīng)的搜索模式,點擊搜索時,系統(tǒng)會調(diào)用封裝在sentences類中的searchSentence()方法,參數(shù)為關(guān)鍵詞、欄目一級分類、欄目二級分類、起止序號、每頁顯示的條數(shù)、搜索模式,然后系統(tǒng)會根據(jù)傳入的參數(shù)判斷是英文還是中文關(guān)鍵詞,并經(jīng)過一系列復(fù)雜的程序組合生成SQL語句,如果為精確搜索,系統(tǒng)會利用MySQL提供的擴展正則表達式中的regexp操作符來精確匹配關(guān)鍵字,如果為模糊搜索則不使用正則表達式,隨后將查詢到的每一條結(jié)果再利用正則表達式提供的搜索替換操作符preg_replace在關(guān)鍵詞出現(xiàn)的地方加上特殊標(biāo)記,以備輸出時做高亮顯示,最后循環(huán)以對象的形式存入數(shù)組中。
“詞組過濾機制”是本系統(tǒng)不同于其他語料庫系統(tǒng)的一個地方,例如:用戶檢索temple但不想讓結(jié)果出現(xiàn)museum,可以在搜索框中輸入“temple-museum”。這一機制的實現(xiàn)過程為,當(dāng)用戶輸入關(guān)鍵詞點擊搜索時,系統(tǒng)會對關(guān)鍵詞進行分析,如果發(fā)現(xiàn)某個關(guān)鍵詞前面有“-”號標(biāo)記,程序?qū)诮M合SQL語句中加入 “and no regexp關(guān)鍵詞”,這樣在執(zhí)行SQL語句時,有此關(guān)鍵詞的語料將會被排除在外。
表現(xiàn)層是人機交互的接口,主要是處理用戶的輸入和回顯系統(tǒng)處理后的數(shù)據(jù)。當(dāng)用戶發(fā)出檢索請求時,服務(wù)器端經(jīng)過處理將所查詢到的平行語料存入對象數(shù)組中并返回,然后程序再循環(huán)從數(shù)組中取出相應(yīng)的平行語料,如果語料條數(shù)過多,則可調(diào)用分頁操作類中的分頁方法進行處理并分頁顯示,顯示結(jié)果時,關(guān)鍵字紅色高亮顯示,以便快速定位關(guān)鍵詞在語料中的位置。
本文從語料庫語言學(xué)的觀點出發(fā),規(guī)劃了陜西省旅游景區(qū)公示語翻譯語料庫的主題欄目,設(shè)計和實現(xiàn)了本語料庫系統(tǒng)。作為陜西省的首個旅游景區(qū)公示語翻譯語料庫系統(tǒng),它的成功構(gòu)建與開發(fā)為陜西省旅游景區(qū)公示語的搜集整理、理論探究、創(chuàng)新發(fā)展、綜合利用注入新的活力,而且有助于傳播旅游文化,增進中外人民的友誼,讓世界進一步了解陜西,讓陜西走向世界,為提升陜西作為文化旅游大省的國際競爭力和文化軟實力貢獻一份力量。本系統(tǒng)目前為止基本實現(xiàn)了語料庫系統(tǒng)所需的功能,但仍然有一些問題沒有考慮周全且有很多高級的功能未能實現(xiàn),例如:字詞頻統(tǒng)計、詞性還原、中文分詞等。因此,接下來的工作是加固系統(tǒng)的基本功能并盡可能地實現(xiàn)系統(tǒng)的高級功能。
[1]Taner Sezer.Corpus linguistics theory and design and application of a Turkish corpus[D].Turkey:Mersin University PhD thesis,2005.
[2]魏順平,何克抗.小學(xué)語文教學(xué)語料庫的設(shè)計與開發(fā)[J].中國電化教育,2007(245):66-69.
[3][4]李德超,王克非.新型雙語旅游語料庫的研制與應(yīng)用[J].現(xiàn)代外語,2010(1):46-54.
[5]高洛峰.細(xì)說PHP[M].北京:電子工業(yè)出版社,2009.
[6]Ben Forta(著),劉曉霞等(譯).MySQL必知必會[M].北京:人民郵電出版社,2011.
[7]百度百科.B/S架構(gòu)[EB/OL].http://baike.baidu.com/view/1477348.htm.