西南交通大學希望學院 王 建 益陽廣播電視大學 方 舟
國內英語水平測試(如公共英語四、六級及英語專業(yè)八級考試)大多包括翻譯與寫作兩種題型。然而,翻譯和寫作測試最棘手的問題就是分數的評定,往往需要招募大批的人工評閱者參與評卷工作,而人工評閱往往費時費力,效率低下,成本偏高,且因其主觀性因素,人工評閱者無法嚴格地運用同一把“尺子”衡量作文或譯文的質量。(白麗芳、王建 2019)面對此類問題,自動評閱工具應運而生。隨著計算機技術的不斷發(fā)展,主觀題的自動評價在語言測試領域的運用被越來越多的測評機構及研究機構所關注,成為近年來測試領域較為熱門的話題。(江進林、文秋芳 2012;郭蕾 2019)
目前,針對寫作的評分系統(tǒng)日趨成熟且運用較廣。自動作文評分系統(tǒng)的研究可追溯到20世紀60年代,最初旨在解決大規(guī)??荚嚨淖魑脑u分問題,因此被稱為AES(Automated Essay Scoring)系統(tǒng),后來發(fā)展為AWE(Automated Writing Evaluation system)系統(tǒng),被應用到寫作課堂。這些系統(tǒng)依托自然語言處理、人工智能及潛勢語義分析(latent semantic analysis)等技術的發(fā)展,模擬人工從量(分數)和質(反饋)兩方面評閱作文,較之人工評閱者在及時性、高效性和客觀性等方面更有優(yōu)勢。(白麗芳、王建 2018)國外著名的評閱系統(tǒng)包括Criterion、My Access!及WritingRoad-map等(Dikli 2006),國內自主研發(fā)的句酷批改網、iWrite和冰果作文智能評閱系統(tǒng)等也已廣泛應用于高校英語寫作教學中。
國內針對AWE或AES系統(tǒng)的相關研究較為全面,包括對系統(tǒng)原理的介紹(如陳瀟瀟、葛詩利 2008)、AWE模型的建立(如梁茂成 2005)、機器評分的效度研究(如白麗芳、王建 2018)及使用者對系統(tǒng)的認知和自動反饋研究(如Bai & Hu 2017),這些研究對翻譯機器評分的研究具有借鑒意義。相比之下,翻譯自動評分系統(tǒng)的研究十分匱乏、滯后,不過近年來部分研究者開始關注此領域。下一節(jié)將對翻譯自動評分的相關研究進行概括和梳理。
翻譯自動評價的核心原理是比較譯文在句長、用詞和詞序等方面與參考譯文間的匹配度,具有代表性的評價方法包括基于測試點的評價方法、基于句子相似度的方法(主要依據N元組模型)、完全匹配法和編輯距離法(劉芳華等 2013;王金銓、文秋芳 2010)。目前國內外翻譯自動評分仍處于探索階段,尚無成熟的、可用于評價大規(guī)模測試中人工譯文的自動評分系統(tǒng)??v觀國內文獻,與該領域相關的研究熱點主要涉及以下3個方面:
1) 介紹:這一方面的相關研究主要回顧國外AWE系統(tǒng)所具備的特點和運用的自動評分技術(文秋芳等 2009),關注AWE系統(tǒng)對開發(fā)中國學生翻譯自動評分系統(tǒng)的啟示,介紹國內外翻譯自動評分系統(tǒng)的發(fā)展與應用(王金銓、文秋芳 2010;江進林 2013;王金銓、朱周曄 2017)。
2) 評分模型構建:一些研究探討了翻譯機評模型的構建,包括英譯漢和漢譯英評分系統(tǒng),但這些系統(tǒng)并未投入大規(guī)模使用。王金銓、文秋芳(2009)利用文本分析工具提取與譯文質量相關的文本形式及語義特征項(具體的特征未見詳盡報道),分別利用50篇、100篇和150篇譯文作為構建模型的訓練集。結果顯示,3種模型的人機評分高度相關(系數大于0.85),說明評分模型能較為準確地預測中國英語二語學習者的漢譯英成績。江進林、文秋芳(2012)以說明文、記敘文及敘譯混合文3種文體各300篇譯文為訓練集,提取學生譯文與參考譯文間的N元組匹配數量、詞對齊數量、評分點對齊數量及語義相似度等語義特征,構建出來的英譯漢機評模型與人工評分高度一致,且評分效率更高。王金銓、朱周曄(2017)提取了3種不同文體(敘事文、說明文和議論文)的學生譯文在詞匯、句子、篇章及語義層面的54個量化特征,構建了性能良好的、適合中國英語二語學習者的漢譯英自動評分系統(tǒng)。郭蕾(2019)設計了一種基于自然語言處理的英語翻譯計算機智能評分系統(tǒng),結果表明:該系統(tǒng)實用性較強,且整體性能優(yōu)于傳統(tǒng)系統(tǒng)。
3) 機器評分信度研究:專門針對該方面的研究較少。田艷(2008)對一個名為YanFa的課程測試系統(tǒng)的評分信度進行了研究,該自動測評系統(tǒng)采用關鍵詞匹配技術對英譯漢文本進行評分。該研究以人工方式構建譯文數據庫,預先標記所有評分點,同時為每個評分點搜集4個同義或近義的譯文。結果顯示,人機評分顯著相關,但機器分數略高于人工分數。
翻譯機器評價系統(tǒng)主要通過文本中的1到4元組來比較被測譯文和參考譯文之間的距離。(王金銓、文秋芳 2010)因此,從嚴格意義上來講,機器評價系統(tǒng)更偏重于意義的評測,因為N元組的匹配率主要反映意義。然而,無論是在評價翻譯還是寫作文本的質量時,意義和形式都是不可分割的,不能偏廢其一。好的譯文除了應忠實于原文,文本的語言質量也十分關鍵,尤其是將漢語轉換為英語的過程中,語言的復雜性、流利性和準確性將勢必影響譯文的質量。所以,在構建中國學生英語作文自動評分模型時,梁茂成(2005)從語言、內容和結構3個方面衡量作文質量,這對翻譯自動評價系統(tǒng)的開發(fā)有一定的啟示作用。
近年來,國內自主研發(fā)的自動評價系統(tǒng)也增加了翻譯服務。類似于作文評閱,該系統(tǒng)不僅可以對譯文進行及時評分,還提供詳細的反饋,提高了翻譯評閱效率,因此,許多高校一線教師通過該平臺發(fā)布翻譯任務,強化學生的練習。然而值得一提的是,開發(fā)者并未對系統(tǒng)評閱譯文的過程進行詳細說明,比如系統(tǒng)是否從詞匯、句法、文章結構或內容等方面考察譯文質量尚不得而知。因此,本文將利用語料庫研究工具Coh-Metrix分析英語二語學習者的譯文在詞匯、句法和篇章銜接等層面的量化特征值,推斷譯文量化特征與機器分數的關系。
本研究擬回答的問題如下:
1) 譯文在詞匯、句法及篇章銜接等層面的哪些量化特征與機評分數相關?
2) 譯文量化特征對機評分數是否具有預測能力?程度如何?
本研究的研究語料來自西南某應用型大學本科二年級3個教學班于國內某自動系統(tǒng)提交的一次漢譯英作業(yè),內容為某年英語四級真題,分值設置為15分,學生在系統(tǒng)上完成翻譯任務的時間為35分鐘,與英語四級考試時間相當。因數據分析過程需要,要求學生根據系統(tǒng)的提示檢查拼寫錯誤再進行提交,以最大程度地控制數據誤差(具體原因見下一節(jié))。最終獲得語料153篇,所有譯文的機器分數都被導入Excel表中。
Coh-Metrix是由美國孟菲斯大學McNamara等人研發(fā)的基于網絡的文本分析工具。目前,Coh-Metrix 3.0在線版本(http://www.cohmetrix.com/)借助CELEX數據庫、潛勢語義分析(Latent Semantic Analysis)、MRC(Medical Research Council)心理語言學數據庫、詞網(WordNet)、Charniak句法分析器等對106項描述性統(tǒng)計量及詞匯、句法和語篇銜接的淺層及深層語言量化特征進行自動分析。(杜慧穎、蔡金亭 2013;許家金 2016)
本研究去除Coh-Metrix計算的6項指標,包括段落數、段落長度及標準差、句子數和相鄰段落語義相似度平均數及標準差。首先,英語四級漢譯英試題篇幅通常為一個段落,故段落長度與譯文長度重合;其次,段落及句子數較為固定,對譯文的機器評分影響不大,因此,這幾項不作為研究的自變量。剩余量化特征包括詞匯、句法和語篇3個層面以及譯文長度,共11個模塊100項特征(見表1),利用Coh-Metrix 3.0自動文本分析軟件進行計算。為避免軟件將拼寫錯誤的單詞誤判為復雜詞或新詞,且本研究量化特征不涉及準確性,除要求學生控制詞匯拼寫錯誤率外,筆者還進行人工校對,將拼寫錯誤的單詞一一糾正。
表1 譯文量化指標及數量
本研究利用SPSS 20.0分析所獲取的量化數據,具體的統(tǒng)計分析過程如下:1)任何與因變量(譯文機器分數)相關性不具有統(tǒng)計學意義(r<0.1)的指標均被剔除,不做下一步分析(Kyle & Crossley 2015); 2)相互高度相關(r≥0.8)的指標被標注,每個共線對中,與分數相關性最高的指標被保留,另一個被剔除(Tabachnick & Fidell 2001);此外利用容差(tolerance)對剩余變量做多重共線性診斷分析,如果一個自變量的容差小于1-調整R2,則表明該自變量與其他變量存在多重共線性問題,需要被剔除(許宏晨 2013); 3)剩余指標作為自變量,作文機器分數作為因變量,進行逐步回歸分析(stepwise regression analysis),選擇p值小于0.05,決定系數調整R2最高、擬合優(yōu)度最高的模型。
在假設檢驗中,71項指標與作文分數的相關性未能達到統(tǒng)計學上的意義(r絕對值<0.1),因此被剔除,不做進一步分析。相關分析結果顯示,29項指標與機器分數呈弱相關或中等相關,r絕對值介于0.100~0.420(見下頁表2)。17項指標與譯文機器分數間顯著相關,其他12項與分數不顯著相關,但由于這12項與分數的相關系數達到了統(tǒng)計學意義,故保留。其中機器分數與名詞上義度平均數(r=0.420,p=0.000)、譯文長度(r=0.406,p=0.000)相關性最高,呈顯著正相關。其次,多重共線性診斷結果顯示,剩余29項變量之間不存在共線性問題,因此均被保留以做進一步分析。
表2 譯文機器分數與各指標的相關性矩陣
然后我們將29項預測變量導入SPSS 20.0做逐步回歸分析?;貧w分析獲得7個模型,比較分析發(fā)現模型7的擬合優(yōu)度最佳,因此被選入機器打分模型(見表3)。該模型包含7項預測變量,能解釋47.3%的差異(調整R2=0.473,F<1 144>=18.051,p=0.011),逐步分析發(fā)現名詞上義度平均數(Hypernymy for nouns, mean)和譯文長度兩項預測變量的預測力最大,分別能解釋17.1%和12.2%的分數差異。進入回歸方程的7項量化指標與機器分數均顯著相關(見表2),但除名詞上義度及譯文長度與譯文分數的相關性呈中度相關外,其余5項相關性都較弱。
表3 多元線性回歸結果摘要表
模型7的標準化回歸方程為:機器分數=4.639+(0.765×名詞上義度平均數)+(0.0308×譯文長度)-(3.991×所有句子實詞重疊平均比例)+(1.405×所有句子潛勢語義重合)-(0.280×第三人稱單數代詞比)+(0.029×單位句子長度)+(0.014×時序連詞率)。從摘要表和回歸方程可以看出,名詞上義度、譯文長度、所有句子潛勢語義重合、單位句子長度和時序連詞率與機器評分呈正相關,即名詞上義度值越高,譯文越長,單位句子越長,時序連詞率越高,譯文的機器分就越高,而其他兩項與分數呈負相關。
1) 量化特征值與譯文機評分數關系的解釋
本研究發(fā)現29項指標與譯文機器分數相關,但只有7項對機器分數具有預測力,其中相關性最高、解釋力最大的是名詞上義度和譯文長度。本研究名詞上義度與機器分數呈正相關,說明名詞上義度值越高,機器分數越高。上義度指的是詞匯間的語義層次關系,上義度值高的單詞具有更多的上義詞,如animal的上義詞包括organism、animate thing等。與詞匯具體度(concreteness)類似,詞匯的上義度在本質上反映的是詞匯在具體-抽象連續(xù)體(continuum)中的漸變性。(杜慧穎、蔡金亭 2013)Coh-Metrix利用詞網(WordNet)計算詞匯上義度,在詞網中,每個單詞都位于一個等級尺度上,用于測量目標單詞的下級單詞和上級單詞數量。一般而言,單詞的上義度越高,表達的概念越具體,將會產生的歧義越少,對讀者造成的認知努力就越低。本研究選取的英語四級翻譯語料屬于說明文題材,對語言的形象性和生動性較之敘述文要低,高質量的譯文自然需要在概念表達上更為具體,避免語義的模糊。
其次,研究發(fā)現系統(tǒng)評判譯文的第二大標準是譯文的長度,譯文越長得分越高。國內翻譯測試主要強調的是“信”“達”和“切”,在人工評閱中,譯者只要能做到忠實原文、通順達意、表達準確,就能得到較為理想的成績,并非寫得越多譯文質量就越高。但是,因水平不夠的緣故,譯者有可能漏譯一些細節(jié)或省譯某些不會的部分,這樣將減損原文的含義,致使其譯文得分較低。(江進林 2016)而高水平的譯者傾向于使用較長的詞組及復合句使譯文表達更為豐富,比如在翻譯“強調”一詞時,研究語料中有直接處理為動詞emphasize的,也有處理為lay emphasis on的;在翻譯“結合”時有直接譯為combine的,也有譯為is a combination of的,詞性的轉換及詞組的使用加長了譯文的長度。雖然兩種處理在翻譯中都做到了忠實于原文,但是機器較之人工評閱者更機械,機器評分主要是通過統(tǒng)計詞頻、詞數、目標詞數量等淺層特征,對比與語料庫中的文章在各方面的相似度賦予分數。(白麗芳、王建 2018)關于譯文長度,由美國國際商用機器公司IBM提出的BLUE(Bilingual Evaluation Understudy)翻譯測評方法針對過短的機器譯文引入了BP(Brevity Penalty)罰分,以降低機器譯文的得分,(王金銓、朱周曄 2017)這同樣可以部分地解釋本研究中系統(tǒng)的評分方式。
單位句子長度也與譯文分數呈正相關,句子越長,分數越高。在完成翻譯任務時,譯者要考慮譯文與原文的對等關系,(文秋芳等 2009)即要忠實于原文,但具有創(chuàng)造性的、高水平的譯者可能會利用復雜的句法關系完成任務,比如將兩個關系緊密的漢語句子合二為一,這些句法結構的使用往往會增長譯文句子的長度。
與譯文分數呈正相關的量化指標還包括所有句子潛勢語義重合及時序連詞率,這與江進林(2016)對翻譯人工評閱的研究結果一致。該研究指出,高分譯文的語義空間更為緊湊,譯文內部的語義聯系更為緊密;高分譯文使用的時序連詞顯著多于低分譯文,通過更多的時序連詞來展現文章的結構。
本研究還發(fā)現,所有句子實詞重疊與譯文機器分呈負相關,即句子間實詞重疊比例越高,譯文分數越低。實詞重疊是指稱銜接中的一項指標,實詞重疊越多,說明文本緊扣主題,語義越連貫。(Graesser & McNamara 2011)但詞匯重合越多,也可以推算出譯者積累的替換詞越少,即譯者的縱聚合聯想詞匯網構建不完善,詞匯豐富性不夠。低水平譯者限于詞匯水平較低、翻譯實踐較少,其英語譯文更容易受漢語信息的影響,譯文的呈現方式和順序更加程式化,(江進林 2016)在讀到某個漢語詞匯時會條件反射出最常用的單詞,而且往往是高頻詞。相比而言,高水平譯者會利用更多的詞匯語義資源,擺脫單一的詞匯及結構,聯想詞匯也更為豐富,因此能與低水平譯者區(qū)分開來。第三人稱單數代詞比例也與機器分數呈負相關,比例越高,分數越低。筆者發(fā)現,翻譯語料中低分譯文濫用代詞it的現象比較嚴重,有的譯文除第一句用名詞做主語外,其他所有句子的主語均為代詞it,主語過于單一,自然導致譯文分數低。梁茂成(2006)指出,過多使用人稱代詞等淺層的銜接手段會嚴重影響文本的連貫性。
總之,Coh-Metrix計算出的大部分量化指標與譯文機器分之間的相關性不存在顯著差異,且進入機器分數回歸方程的變量較少,名詞上義度與譯文長度對分數的預測力最強,其他變量的解釋力相對較弱。
2) 研究結果對教學的啟示
目前自動評閱系統(tǒng)提供的翻譯評估服務,不但增加了學生練習的機會,同時也緩解了許多教師的評閱壓力,學生可以及時獲得機評分數及修改反饋,因此也被多數教師直接運用到教學過程中,助力形成性評價的實現。但值得注意的問題是:目前系統(tǒng)究竟采取何種過程評閱譯文?機器評分是否兼顧形式和意義?本研究的量化指標僅能小部分地回答這些問題,機器評閱的面紗仍有待更多的研究來層層揭開。
為進一步解釋自動評閱系統(tǒng)對譯文的評閱過程,筆者對系統(tǒng)提供的翻譯反饋進行了仔細研究,結果發(fā)現反饋中主要涉及淺層的文本特征, 如文章的寫作規(guī)范(如大小寫、拼寫及標點等)、簡單句法的錯誤使用以及近義詞的辨析等等。盡管本研究發(fā)現語義關系及指稱銜接等深層量化值特征(如名詞上義度及所有句子語義重合)能預測譯文的質量,但系統(tǒng)的反饋中幾乎未涉及相關方面的指導。
鑒于此,必須引起重視的是,在機器評分性能尚未得到普遍認可的情況下,已有不少教師直接將譯文機器分數納入形成性考核中,這可能導致公平性問題,尤其是當翻譯任務占平時成績比重較大從而關系到學生最終的成績、評優(yōu)甚至保送研究生等高風險決策時,學生會嘗試故意寫長句子、利用低頻詞去取悅機器,而譯文質量不一定高。此外,譯文機器評分的信度研究還較為匱乏,人工評閱者與機器評分間的一致性尚未得到廣泛論證。因此,一線教師需更加謹慎地融入機評分數。當然,教師也不可完全否定機器評閱的作用,在“互聯網+”及教育信息技術發(fā)展的大背景下,教師應充分挖掘“人機合作”,順應時代的需要,充分利用教育信息技術的優(yōu)勢作為教學的補充。比如在形成性評價中,譯文的評閱工作不應過分依賴機器,而應借鑒作文自動評價的做法,使評價主體朝著“系統(tǒng)評估+教師評估+同伴評估”三位一體的方向發(fā)展,(唐錦蘭、吳一安 2012)以彌補系統(tǒng)的缺陷。
本研究利用文本處理軟件Coh-Metrix分析了153篇譯文的量化特征,初步探討了量化特征與譯文機評分數的關系。研究結果表明,少數量化特征對機評分數具有預測力。文章最后對結果進行了分析并指出了對教學的啟示。但是本研究也存在不足之處:1)僅以Coh-Metrix分析的量化特征作為自變量,未考慮其他指標如N元組的數量,也未分析詞匯、句法及篇章3個層次的準確性量化數據,而這些量化特征可能會對機評分數產生較大影響;2)本研究的語料均為說明文,研究結果能否推廣到議論文、敘述文或其他文體的譯文尚不得而知。因此,未來的研究可以充分考慮更多的量化指標,涉及更多的文體。此外,譯文機器評分的信度、效度也需要更多研究者進行充分的驗證。