姜鰻書 錢星敏
摘 要:本文基于歐盟電動汽車國際安全標準文本,采用SDL Multiterm Extract軟件提取電動汽車術語,并分析術語差異的原因。提出了解決中文術語抽取不準確的方法以期完善術語提取方法,提升術語提取數(shù)量和質(zhì)量,促進電動汽車類機輔翻譯的標準化,為中國電動汽車走出去鋪平道路。
關鍵詞:術語提取;英漢術語提取結(jié)果差異;電動汽車;中文分詞法
0 引言
互聯(lián)網(wǎng)技術飛速發(fā)展,提取術語的技術也在不斷進步,21世紀初《中文信息報》上已有對于術語抽取的比較成熟的研究,研究高質(zhì)量的雙語術語庫可以提高計算機輔助翻譯的效率。如今電動汽車行業(yè)作為全球新興發(fā)展行業(yè),發(fā)展前景廣闊,但對于相關電動汽車國際安全標準的翻譯存在諸多問題,比如,術語不統(tǒng)一,不規(guī)范,特別是研究特定科學領域時(以電動汽車術語為例)由于缺乏相關的術語庫,影響了領域內(nèi)更深層次的交流,嚴重阻礙了我國電動汽車更好地走出去。
1 英漢術語抽取結(jié)果差異
研究基于歐盟電動汽車國際安全標準小型英漢語料庫項目過程中,收集了大量權(quán)威性電動汽車安全標準相關文件,比如ECE(歐洲經(jīng)濟委員會汽車法規(guī))、SAE(國際自動機工程師學會)、GB(中國國家標準)等,并使用SDL MultiTerm Extract進行術語自動抽取,結(jié)果顯示英漢術語抽取結(jié)果差異較大。
術語是通過語音或文字來表達或限定專業(yè)概念的約定性符號。馮志偉先生在《現(xiàn)代術語學》一書中提出術語應具備以下特征:專業(yè)性,約定俗成性,單一性,簡明性,能產(chǎn)性,系統(tǒng)性。此外,術語在語言結(jié)構(gòu)上也有一定的特征,這一特征為術語自動抽取技術提供了條件。(周浪2010)
符合術語定義的中文術語長度,主要集中在2~6個字,大多是無意義詞匯,比如“的時間”之類,這些詞無法組成詞組,更不符合術語特征。英文術語長度主要集中在2~4個單詞左右。抽取結(jié)果較為準確,高頻詞匯特征與術語特征較為吻合。但出現(xiàn)重復的詞匯較多,而且SDL MultiTerm Extract(一款桌面工具,根據(jù)現(xiàn)有已翻譯文檔創(chuàng)建術語表,能與現(xiàn)有翻譯資產(chǎn)配合使用,無論翻譯資產(chǎn)在基于文件的位置,還是在基于服務器的位置,都可以在子句段層面檢查術語的出現(xiàn)頻率,不必手動搜索術語,來建立項目詞匯表。)但它不能夠?qū)τ⑽牡拇笮戇M行刪減,單詞大寫算一個術語,小寫也算一個術語,造成了術語重復;也無法刪減冠詞the,譬如電動汽車術語中的這樣一個詞組,the EVSE屬于術語,同時EVSE也屬于一個術語。
2 術語抽取結(jié)果差異分析
2.1 語言的不同形式
造成差異的原因,要從英漢語言的不同形式進行分析,抽取單語術語時,英語語言形式較漢語言形式相比,有一個明顯的優(yōu)勢是詞與詞之間用空格分隔,一個詞表達一個完整的意思。而漢語詞與詞之間,或者字與字之間沒有形式上的分隔符,這對漢語術語的單語自動抽取造成了一定的困難。
2.2 詞性不對等
中英文的詞性不對等問題也是造成術語提取不準確的一個重要原因。中文中不存在冠詞的概念, 沒有the、a之類的詞,而英文中沒有“的、了”這些無意義詞對應的英文,這也是術語提取結(jié)果不正確的原因之一。
2.3 單詞性術語的提取
中文術語提取單詞性術語的效率明顯不如英文。中文表達多重復,講究韻律,經(jīng)常性地對一些字詞進行重復,而英文則多用代詞指代,對于重復的詞利用代詞進行代替,導致抽取的中文高頻詞有不符合術語定義的詞匯,而英文的詞匯則較為正常一些。如下圖所示:
2.4 詞組性術語的抽取效率
對于中文詞組型術語的抽取效率問題,詞組性術語是指兩個或兩個以上單詞共同組合而形成的術語;單詞性術語則是一個單詞形成的術語。漢語因其語言形式的特殊形式,一個自由語素就可以被視作一個單詞性術語。相比之下,根據(jù)語言學的定義劃分,英文里最小的語素單位沒有實際意義,不能作為單詞性的術語。因此抽取中英文術語時,英文識別不出單詞性術語,而漢語大部分都是無意義的單字。
以抽取電動汽車術語的結(jié)果為例,自由語素“氣”和自由語素“壓”,共同組成的詞語“氣壓”。既可以被視作為合成詞,也可以視為詞組,合成詞與詞組之間并沒有明顯的區(qū)分。如果一個單詞性的術語由兩個自由語素構(gòu)成,該術語既可以視作單詞性術語,也可以視為詞組性術語。單詞性術語的合成詞與詞組性術語分界模糊的情況造成了漢語文本切分困難的問題,從而導致了中文術語抽取效果不理想。
3 解決雙語術語不準確的辦法
中英兩種語言之間的巨大差異是導致抽取雙語術語不準確的主要原因,反映了雙語抽取的難度之大。
3.1 抽取術語規(guī)則
解決這個問題首先要了解抽取術語是基于怎樣的規(guī)則來進行的,主流抽取方法分為三種,基于語言學規(guī)則,基于統(tǒng)計學規(guī)則,以及兩種規(guī)則混合?;谡Z言學規(guī)則的術語抽取結(jié)果更加準確,但也因過分強調(diào)語言學的定義,導致術語提取質(zhì)量頗高,但數(shù)量較少。而基于統(tǒng)計學的術語提取,提取術語數(shù)量很可觀,但術語質(zhì)量則不差強人意,會出現(xiàn)很多不是術語的高頻詞匯。
3.2 基于專業(yè)術語提取的中文分詞方法
很多專家研究過如何在統(tǒng)計學和語言學方法上取得平衡,譬如一種基于專業(yè)術語提取的中文分詞方法,這種方法通過大量特定的專業(yè)語料庫,基于互信息和統(tǒng)計的方法,對文中未登錄詞等專業(yè)術語進行提取,構(gòu)造專業(yè)術語詞典,并結(jié)合通用詞典,利用最大匹配方法進行中文分詞。結(jié)果證明,這種方法在基本完成中文分詞的基礎上,可以優(yōu)先識別出未登錄詞等專業(yè)術語,具有一定的可行性。如果在我們的項目中應用了這種方法,必定會減少許多無意義詞匯,增加抽取術語的準確性。(鄭陽,莫建文2012:20-23)
3.3 基于詞效應的中文術語提取方法
這種提取方法分析了現(xiàn)有的統(tǒng)計分詞方法之后,進一步改進了互信息計算的方法,結(jié)合t測試度接續(xù)指數(shù),提出一個綜合統(tǒng)計量詞效應,即以詞效應為基礎,提出了一種中文術語提取方法。實驗分析同時表明,這種基于這種詞效應中文術語提取方法,不僅能夠提取出帶翻譯語料中的術語,而且不需要對干預量進行預先處理。最后的結(jié)果看來,無論是提取詞語的準確度,還是覆蓋語料的范圍都是非常有效的。(刮俊杰,吳樹國,伊勝偉2009:5)
對日常的計算機輔助翻譯需求而言,這兩種處理中文語料的術語提取方法,既有效,又方便快捷,響應了速度,也滿足了用戶的需求。如果應用在電動汽車國際安全標準的術語提取過程當中,將進一步提升術語準確性,加快提取的速度,幫助譯員提升翻譯術語的嚴謹性。當然,這兩種術語提取的解決辦法也存在一定的問題,并不能夠完美提取出所有的術語,需要進一步完善。
4 結(jié)語
英漢語言差異的巨大是造成中文術語提取結(jié)果不準確的重要原因之一。而電動汽車的廣闊前景和迫切交流需求意味著要不斷完善術語提取技術。技術成熟,則提取術語的準確性提高,術語庫得到補充,機輔翻譯效率提高,進而譯員翻譯嚴謹性提高,方便電動汽車領域內(nèi)部交流,幫助國內(nèi)外電動汽車市場的交流,促進經(jīng)濟貿(mào)易的發(fā)展。
自動術語抽取技術雖已得到社會的廣泛關注,取得了不錯的成績。但抽取技術仍處于初期階段,離真正解決問題還有一段距離,需要進一步提升術語抽取的質(zhì)量,克服許多挑戰(zhàn)和問題。
參考文獻:
[1]張冠東.英漢雙語術語自動抽取工具效率對比實驗報告[D].大連外國語大學,2020.
[2]張雪,孫宏宇,辛東興,李翠平,陳紅.自動術語抽取研究綜述[J].軟件學報,2020,31(07):2062-2094.
[3]周浪.中文術語抽取若干問題研究[D].南京理工大學,2010.
[4]靳光灑.計算機輔助翻譯技術的現(xiàn)狀與發(fā)展趨勢論析[J].沈陽工程學院學報(自然科學版),2010,6(03):264-266+280.
[5]鄭陽,莫建文.基于專業(yè)術語提取的中文分詞方法[J].大眾科技,
2012,14(04):20-23.
[6]張榕,宋柔.術語定義提取研究[J].術語標準化與信息技術,2006
(01):29-32.
[7]刮俊杰,吳樹國,伊勝偉.基于詞效應的中文術語提取方法[A].中國運籌學會智能計算分會.第三屆中國智能計算大會論文集[C].中國運籌學會智能計算分會:清華大學數(shù)學科學系,2009:5.