□葛曉帥 司艷輝
Sinclair在《Corpus, Concordance, Collocation》中寫到“當同時觀察大量的語料時,語言看上去會截然不同(The language looks rather different when you look at a lot of it at once.)?!盵1](P:100)為了能夠大量觀察語料,在上世紀六十年代,美國布朗大學的學者率先建成了世界上第一個大型電子語料庫,即著名的布朗語料庫(Brown Corpus)。自此,語料庫日益成為語言研究和調查的重要方法。
我國的電子語料庫建設始于1979年武漢大學建立的漢語現(xiàn)代文學作品語料庫。之后,國內涌現(xiàn)了一大批通用或專用語料庫,如清華大學建設的現(xiàn)代漢語語料庫,廣東外語外貿大學與上海交通大學合作研制的中國學習者語料庫(CLEC)等。專用語料庫中關注摘要這一語類的并不多見,現(xiàn)有的也主要關注期刊摘要[2][3]。近年雖出現(xiàn)了對碩博士論文摘要的研究,也集中在語言學領域的論文[4][5]。這些語料庫一般庫容較小,僅包含幾十上百篇摘要;語種單一,僅搜集英文摘要,通常用于中外摘要的對比研究。牛桂玲[2]創(chuàng)建的中外學術論文中英文摘要語料庫是筆者所知的唯一一個中英文平行摘要語料庫,其搜集的摘要也都來自權威期刊。對碩博士論文摘要的研究,尤其是平行語料的研究,尚且無人涉及。
碩博士論文是學生階段學術水平和寫作水平的集中體現(xiàn)。無論漢語摘要還是英語摘要,都經(jīng)過反復修改潤色,反映了一個學生對兩種語言駕馭的最高水平。碩博士論文摘要的研究對漢語和英語的教學有重要啟示,如輔助翻譯教學,學術英語教學等。
碩博士論文摘要的研究如此匱乏,思考其背后的原因,筆者認為缺乏研究對象,也就是缺乏碩博士論文摘要的語料是重要因素。期刊摘要較易獲取,通??赏ㄟ^期刊所在出版社網(wǎng)站檢索到完整的摘要;碩博士論文摘要則難以獲取,構建一個大型碩博士論文摘要語料庫更是費心費力。我們經(jīng)過兩年的搜集和整理,研制了山東農業(yè)大學碩博士論文摘要語料庫(后簡稱山農摘要語料庫)。
語料庫的建設必須首先進行總體設計和規(guī)劃。山農摘要語料庫設計包含兩個子語料庫:一是翻譯語料庫,二是平行語料庫。
翻譯語料庫包含所有可獲取的碩博士論文中英文摘要以及語料的元信息。在翻譯語料庫基礎上對各年份和學科進行抽樣,通過人工對齊雙語語料,建成具有代表性和平衡性的句級平行語料庫。
翻譯語料庫由彼此具有翻譯關系的原文與譯文構成,但原文與譯文之間沒有進行段落、句子乃至詞語層面上的對齊處理。[2](P:35)一篇碩博士論文的漢語摘要與其對應的英語摘要構成一對翻譯語料,將多篇論文摘要搜集整理可構成翻譯語料庫。山農摘要語料庫的子庫即翻譯語料庫計劃包含所有可獲取的山東農業(yè)大學碩博士論文的摘要。
1.語料的采集
語料來源為中國知網(wǎng)。采集知網(wǎng)全部學位授予單位為山東農業(yè)大學的碩博士論文中英文摘要。
具體檢索方式為:打開知網(wǎng)檢索頁,選擇“博碩士”論文庫,選擇檢索條件為“學位授予單位”,輸入“山東農業(yè)大學”檢索。
山東農業(yè)大學1978年獲批碩士點,1986年開始招收博士研究生;但早期碩博士論文未進行電子化,知網(wǎng)可獲取的最早論文為2000年的1篇碩士論文。
截至2017年9月28日,按照上述檢索條件,在知網(wǎng)可搜索到10 539篇碩博士論文,其中53篇在網(wǎng)頁上無摘要或摘要不完整(博士6篇,碩士47篇),可獲取摘要的論文共10 486篇。
綜上,摘要的時間分布范圍為2000年至2017年9月底,共采集10 486篇論文的雙語摘要。
2.采集內容
根據(jù)總體設計,除了中英文摘要本身外,應盡可能采集語料的元信息,包括中文標題、英文標題、副標題、作者姓名、指導教師姓名、學科專業(yè)、級別(碩士或博士)、寫作年份、中文關鍵詞、英文關鍵詞、下載數(shù)量等。元信息越詳盡,越能豐富今后的研究角度。
3.具體采集步驟
(1)按照上述采集條件檢索出符合條件的論文列表。
(2)點擊結果的“中文提名”打開其中文摘要頁面。
(3)將中文摘要頁面網(wǎng)址中開頭的“kns”替換為“eng.oversea”,點擊回車即可看到中英文摘要頁面。
(4)采集頁面上所需信息。
4.語料的存儲
語料的常用存儲方式為純文本文件,純文本文件便于讀寫,但難以存儲元信息,難以按照指定條件查找特定文本。例如,在純文本文件中查找2015年果樹學方向的所有博士論文英文摘要很難實現(xiàn)。雖然有在文件頭部添加元信息標簽的方案,但元信息標簽會污染原文,給后續(xù)的檢索工作帶來麻煩。
山農摘要語料庫采用數(shù)據(jù)庫存儲的方式。數(shù)據(jù)庫文件可以簡單理解為常用的MS Excel工作簿,一個數(shù)據(jù)表相當于Excel的一個工作表(sheet),一個數(shù)據(jù)表的字段類似于Excel表的一列。每篇論文的摘要占一條記錄,即一行,每條記錄都包含下面各字段(列)內容:
表1 語料庫存儲表字段設計
數(shù)據(jù)庫存儲有兩個優(yōu)勢:
(1)分字段存取
不同信息被分別存入不同字段,可按需求導出。
例如上文提到的2015年果樹學方向的所有博士論文英文摘要,只需要按照指定條件寫出SQL查詢語句:
“SELECT EnglishAbstract FROM Abstracts WHERE writtenYear=’2015’AND discipline=’果樹學’AND sourceDatabase=’博士’;”
即可從數(shù)據(jù)庫中導出語料為純文本文件,構成符合要求的語料庫。這種便利性是純文本存儲方式無法實現(xiàn)的。
(2)方便數(shù)據(jù)分析
每篇摘要均有一些常用的描述性指標,如單詞數(shù),平均詞長,平均句長等。取得這些指標數(shù)據(jù)后存入相應字段,會為之后的數(shù)據(jù)分析提供極大便利。
翻譯語料庫在語料存入數(shù)據(jù)庫后即已完成,可根據(jù)研究需要導出純文本文件,隨時構建語料庫。翻譯語料庫總庫容為漢英摘要各10 486篇,漢語摘要共計10 828 933字次,英語摘要共計6 277 006詞次。
完成翻譯語料庫的建設后,下一步是建設平行語料庫。
平行語料庫是指收錄某一源語言文本及其對應的目的語文本的語料庫,不同語言文本之間構成不同層次的平行對應關系[6](P:33)。平行語料可在語料庫級,篇章級,句子級和句珠級等層次進行對齊。[7](P:9)鑒于當前自然語言處理以句子為單位,因此大部分雙語語料是以句對形式出現(xiàn)。[8](P:221)句對即為句子級別對齊,山農平行語料庫同樣采用主流的句對齊方式。
語料之間的平行對齊處理是一項難度較高而且耗費時間和精力的工作。[6](P:34)漢英語料按照句子對齊需要大量的人工介入,將篇章級對齊的一萬多篇語料進行一一句子對齊在短期內難以完成,鑒于此,我們進行了科學分層抽樣,考慮了學科、年份、碩博士論文比例后選取了596篇論文的中英文摘要進行人工對齊。
1.句子的界定標準
對齊語料需要將漢語句與其譯文英文句子一一對齊。在對齊前首先要進行句子劃分。句子的劃分標準通常采用句號、問號及感嘆號。然而考慮到摘要本身的特點,如漢語句多用長句,有時一段話僅包含一個句子,而其對應英文翻譯卻包含多個句子。咨詢相關專家后,在不影響句義完整性的條件下,可將部分冒號和逗號也作為句子的界定標準,即如果按照冒號或逗號進行劃分能夠得到更小的句對,則按照冒號或逗號劃分句子。在實踐中,漢語句的逗號是常見的句子劃分標準。
2.對齊操作
對齊操作采用Tmxmall Aligner[9]在線對齊系統(tǒng)。Tmxmall Aligner是一款在線的免費雙語對齊工具,有自動句對齊功能,如果提前進行了段落級別的對齊,其自動句對齊效果也非常顯著,能大量減少人工對齊的負擔。
每一篇選定的論文漢英摘要各存入一份純文本文件,漢語文件以“論文編號-CN.txt”命名,英語文件以“論文編號-EN.txt”命名。如某篇論文編號為205011089,則其對應漢語文件名為“2015011089-CN.txt”,英語文件名為“2015101089-EN.txt”。
我們首先對團隊成員進行對齊操作培訓,并進行試對齊。統(tǒng)一標準后進行正式對齊操作。
分配對齊任務,團隊成員在線進行對齊操作,完成后導出對齊的tmx格式文檔,文件名為論文編號。tmx格式是通用的翻譯記憶庫交換格式,各大翻譯輔助軟件如Trados等均支持tmx文件。
匯總tmx文件,將tmx文件轉換為純文本文件即建成句子級對齊平行語料庫。
平行語料庫總庫容為漢英摘要各596篇,對齊句數(shù)15 849句對,漢字676 355字次,英文356 257詞次。
3.平行語料庫檢索軟件的開發(fā)
平行語料庫建成后,我們考察了現(xiàn)有的四款平行語料庫檢索軟件,發(fā)現(xiàn)各有優(yōu)缺點,但均無法滿足我們的需要,如ParaConc是收費軟件,其他的軟件或者無法處理大規(guī)模語料,或者對中文支持不友好。借鑒各軟件的優(yōu)點,并設計增添了新的特性后,我們自行開發(fā)了SDAU-ParaConc平行語料庫檢索軟件。該軟件除支持純文本文件外還可直接導入tmx文件檢索,自動識別對齊方式,檢索速度更快,結果界面更友好,能大幅減少語言研究者的學習使用成本。軟件現(xiàn)可在北外語料庫語言學工具頁[10]下載。
綜上所述,山農摘要語料庫構成可總結為下述圖表:
圖1 山農摘要語料庫的構成
建成的山農摘要語料庫有三個特點。第一,全面性。該語料庫是首個對一所院校的碩博士論文摘要全面收錄的語料庫。第二,首創(chuàng)性。該語料庫的平行語料庫子庫是第一個碩博士論文摘要漢英平行語料庫。第三,靈活性。語料存儲采用數(shù)據(jù)庫方式,便于按需導出語料。
以上三個特點使得語料庫可分可合,可橫向對比也可縱向對比。將語料分為單語語料庫,可進行漢語或英語單語研究;將語料合并,可進行翻譯研究;將語料按照不同學科分割,可進行學科間的橫向對比;按照年份劃分語料則可進行學科內的縱向對比研究。
語料庫建設是基礎建設,在其基礎上能夠開展多種多樣的研究??深A見的研究方向有:
語言研究:對摘要語言特征進行研究,如詞匯、句法、文體等。
翻譯研究:碩博士論文摘要是一項漢譯英翻譯活動,可進行翻譯的顯化隱化研究,翻譯錯誤研究等,這些研究能進一步促進翻譯教學的改革。平行語料庫還可作為機器翻譯記憶庫,進行計算機輔助翻譯研究。
教材編寫:EAP教材可以從相關學科語料獲取詞表等輔助教材編寫。
文獻計量學研究:文獻計量學與語料庫語言學都依賴關鍵詞分析。[11](P:36)對學校發(fā)表的碩博士論文進行文獻計量學研究能夠為學校的學科建設和發(fā)展提供參考。
山農摘要語料庫的研制填補了大型碩博士論文摘要語料庫的空白,其采用的數(shù)據(jù)庫存儲方式為語料庫增添了強大的靈活性,能夠按照研究者的需要提供相應的語料庫,供研究者進行多種角度的研究。其平行子庫,是第一個碩博士論文摘要句級對齊平行語料庫,在計算機輔助翻譯、翻譯教學研究等方面均可提供支持。我們還開發(fā)了平行語料庫檢索軟件SDAU-ParaConc,獲得了同行認可,也為未來研究提供了便利的工具。