国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

論國際報紙新聞話語語料庫的構建

2020-01-19 06:23
哈爾濱學院學報 2020年11期
關鍵詞:傳遞信息語料語料庫

李 婧

(綏化學院,黑龍江 綏化 152000)

語料庫包括單模態(tài)語料庫(Unimodal Corpus)與多模態(tài)語料庫(Multimodal Corpus)。前者是純文本語料庫,我國學者在研制和應用單模態(tài)語料庫上做出了開拓性的貢獻;后者是在單模態(tài)語料庫基礎上做出的新的發(fā)展,是指音頻、視頻以及文字語料信息的集成,運用多模態(tài)的方式完成加工、檢索以及統(tǒng)計研究的語料庫。也就是說,通過轉寫、處理以及標注語言文本及音視頻數(shù)據(jù)庫就是多模態(tài)語料庫,其可以運用實證法研究語言符號與非語言符號之間的作用。這遠遠超出之前所定義的語料庫范疇,其通過標注不同交際渠道協(xié)同的數(shù)據(jù)集合,達到直接記錄人類行為的目的。因此,我們需要深入研究多模態(tài)語料庫的相關內容,以便加深理解。

一、國際報紙新聞話語的科學取樣

1.語料錄入

國際報紙新聞規(guī)模型文本庫的文本傳遞信息途徑可分為以下四種基本形式:紙質文本、電子文本、網(wǎng)頁、靜態(tài)圖像。這些信息傳遞途徑采用UAM image tool 2.0等多模態(tài)文本傳遞信息途徑處理軟件予以特殊的集成處理。利用UAM image tool 2.0軟件把文本傳遞信息途徑依附于類別導入到文本傳遞信息途徑庫中,為下一步標注做好準備。而針對文本傳遞信息途徑的收集,要先通過不同種渠道收集多模態(tài)語篇樣本,把紙質的語篇樣本通過掃描、拍照等方式予以數(shù)字化處理。[1]

2.語料依附原稿核準

因為國際報紙新聞文本傳遞信息途徑存在一定的特殊性,所以在文本傳遞信息途徑完成錄入時要第一時間予以“自動依附原稿核準+人工依附原稿核準”。

3.語料加工及存儲

文本傳遞信息途徑依附既有稿件予以核準的基礎上,其能夠獲取文本相關傳遞信息途徑,只有對其予以加工后才會生成規(guī)模型文本庫。而對于篇頭元信息設計,采取依附于文本傳遞信息途徑來源、發(fā)布時間以及種類等設計多層次內容標簽,涉及內容主要包括:規(guī)模型文本庫差異化模態(tài)類型、相關語種信息、傳遞信息途徑、獲取文本的發(fā)布時間、文本種類、翻譯以及既有文本標題等。文本傳遞信息途徑予以分詞(中文)以及自動詞性標注,依附于相關內容嘗試對文本傳遞信息途徑予以各門學科專用詞匯、句型自動標注。其傳遞信息途徑以及靜態(tài)圖像等多模態(tài)文本傳遞信息途徑在一定程度上要依附于研究側重點選擇己有工具予以有針對性的標注。[2]

針對存儲,為了方便在使用中可以第一時間予以有效的查詢,可以將元內容以及文本進行單獨的存儲。而且,為了使規(guī)模型文本庫能夠直接通過國際報紙新聞計算機輔助翻譯系統(tǒng)(Computer-aided Translation,簡稱CAT),要將析出文本傳遞信息途徑錄入至tmx格式,進而構建機器翻譯存儲模塊。[3]

4.語料對齊處理

本研究中,筆者首先予以可差異化語類間的對比,其中包括圖像模態(tài)的再現(xiàn)價值、互動意義、構圖意義等方面的特性,這些特性包括在文本傳遞信息途徑標注區(qū)間之中,經(jīng)對比研究找到差異化語類對圖像模態(tài)的選擇傾向。其次,還要予以具體多模態(tài)語篇和該語類的綜合特性對比。經(jīng)對具體多模態(tài)語篇實例予以研究,總結其特性,并在此基礎上以及文本傳遞信息途徑庫內經(jīng)查詢統(tǒng)計獲取的平均語類特征予以對比研究,以揭示多模態(tài)語篇意義系統(tǒng)的選擇和實現(xiàn)語篇目的之間的深層關系。[4]

5.多語種語料加工

現(xiàn)階段,世界范圍內多語種平行規(guī)模型文本庫建設發(fā)展較為緩慢。這主要是由于受規(guī)模型文本庫加工介質以及查詢軟件的影響,很多的工具以及軟件僅能夠兼容英語文本或漢語文本,又缺乏同時掌握多種語言學的研究者。因此,多語種國際報紙新聞平行規(guī)模型文本庫的建設需具備一定的專業(yè)性。在數(shù)據(jù)庫還未建設的時候,其側重點應是探究漢英雙語國際報紙新聞平行規(guī)模型文本庫的建設;在漢英規(guī)模型文本庫編制具有一定成就的基礎上,再將其作為范例拓展至多語種國際報紙新聞話語平行數(shù)據(jù)庫之中。[5]

6.多模態(tài)語料加工

多模態(tài)文本傳遞信息途徑的加工,依附于研究目的來確定采用己有的(如,UAM image tool 2.0)或自主開發(fā)新的加工工具予以處理以及標注。[6]在完成文本傳遞信息途徑庫建設后,可以通過該庫予以語篇研究及語類特性研究擇取定性、定量相結合的研究方法,前者用于從具體多模態(tài)語篇實例中概括規(guī)律性的語篇特性,后者通過文本傳遞信息途徑庫的查詢功能和統(tǒng)計功能,對查詢所獲取的數(shù)據(jù)予以統(tǒng)計對比,在量化研究的先決條件下驗證定性研究方法獲取的語篇及語類特性的正確性、適用區(qū)間等。兩種方法相結合,使語篇研究以及語類研究的結果更為精準。[7]

二、國際報紙新聞話語語料庫的查詢及維護管理

國際報紙新聞規(guī)模型文本庫的在線搜索平臺需匹配于單機平臺功能,而要達到翻譯輔助功能目標,需要結合規(guī)模型文本庫搜索軟件翻譯記憶交換文件(tmx)拓展以及UAM image tool 2.0多模態(tài)查詢軟件。此平臺不但能夠將規(guī)模型文本庫整合到CAT系統(tǒng)之內,不論載入路徑亦或翻譯拓展,規(guī)模型文本庫內所衍生出的翻譯記憶庫均可得到拓展。此平臺還能夠予以全文查詢、語境內關鍵詞查詢等。

規(guī)模型文本庫的建成,首先要對規(guī)模型文本庫予以常規(guī)運維管理。管理的側重點主要是友好的用戶交互面板以及程序的綜合利用系數(shù);確保數(shù)據(jù)的可靠及穩(wěn)定性;確保查詢速率。維護的側重點主要是變更規(guī)模型文本庫的制衡性、拓展文本傳遞信息途徑。[8]

三、國際報紙新聞話語語料庫中各門學科專用詞匯庫的生成

1.國際報紙新聞話語語料庫的各門學科專用詞匯庫的自動生成

各門學科專用詞匯是國際報紙新聞翻譯的側重點,各門學科專用詞匯一致性以及譯文有效性在國際報紙新聞規(guī)模型文本庫建設中具有深遠的意義。在國際報紙新聞規(guī)模型文本庫的設計過程中,需將各門學科專用詞匯庫的自動生成視為主要內容。首先要運用計算機翻譯軟件創(chuàng)建各門學科專用詞匯庫的生成流程,將矩陣內的平行文本滲透至數(shù)據(jù)庫之中,即自動生成各門學科專用詞匯核心詞表,利用人工進行深度處理,制成國際報紙新聞各門學科專用詞匯庫。同時,通過前沿的自然傳遞信息途徑處理以及規(guī)模型文本庫技術,對國際報紙新聞各門學科專用詞匯予以自動生成。不過任何的方法,都需要進行相應的人工干預。[9]

2.國際報紙新聞CAT模型下的各門學科專用詞匯庫的構建

本研究中,筆者在翻譯模塊中構建了兩個規(guī)模型文本庫,即雙語規(guī)模型文本庫和國際報紙新聞規(guī)模型文本庫。不過,這兩個規(guī)模型文本庫還需進一步完善,其中并未將各門學科的特殊專用詞匯列入其中,因此,需要根據(jù)實際情況對模型予以完善和升級。筆者認為,可以在CAT系統(tǒng)內加設各門學科專用詞匯庫,在此基礎上經(jīng)前沿的機器學習技術,將AI技術的優(yōu)勢拓展到國際報紙新聞話語自動翻譯之中,進而從根本上提高國際報紙新聞翻譯軟件CAT的性能??梢?,依附于翻譯過程中的人工參與,在機器介入予以匹配翻譯的基礎上,再側重于各門學科專用詞匯規(guī)范化翻譯,翻譯完成后,新詞匯會被拓展至各門學科專用詞匯庫內,同時反饋到規(guī)模型文本庫中。長此以往,新增的各門學科專用詞匯庫在整個CAT機制內會得到全面的利用。[10]

四、國際報紙新聞話語語料庫的應用展望

國際報紙新聞話語語料庫為多模態(tài)語料庫,其能夠真實反映國際報紙新聞原貌,具有較強的使用價值。該庫在使用過程中,通過多層次標注就可以完成較為精準的定向檢索,從而達到檢索國際報紙新聞話語的目的,并對非語言因素完成檢索;通過研究國際報紙新聞話語中語言轉換規(guī)律,可以探究語言符號與非語言符號間的關系,從而掌握國際報紙新聞話語深層次的信息。此外,運用“快速檢索”能夠快速地檢索到任意的語言字符;點擊任意檢索,可同步查到對應的音視頻信息,重復播放,也能更加直觀的查看口譯過程,全方位的了解更加精準的國際信息。[11]

五、小結

國際報紙新聞話語語料庫的構建,是以UAM image tool 2.0和CAT為主要應用軟件。首先,經(jīng)過語料錄入、語料依附原稿核準、語料加工及存儲、語料對齊處理、多語種語料加工、多模態(tài)語料加工等流程完成語料庫的科學取樣。然后,通過完善語料庫的檢索功能、維護管理以及學科專用詞匯庫建設等措施完成語料庫的構建。其目的在于提高國際報紙新聞翻譯的質量。本研究成果具有一定的推廣價值。

猜你喜歡
傳遞信息語料語料庫
基于歸一化點向互信息的低資源平行語料過濾方法*
平行語料庫在翻譯教學中的應用研究
《語料庫翻譯文體學》評介
瀕危語言與漢語平行語料庫動態(tài)構建技術研究
舞臺字幕與表演不同的原因及解決措施
論組織中有效溝通模式
國內外語用學實證研究比較:語料類型與收集方法
語篇元功能的語料庫支撐范式介入
英語教學中真實語料的運用