賈曉晶
(北京四維圖新科技股份有限公司, 北京 100094)
隨著導(dǎo)航電子地圖的普及和國際化的推進(jìn),越來越多的外國人也逐步使用導(dǎo)航電子地圖出行,因此車廠客戶開始重點(diǎn)關(guān)注英文版導(dǎo)航電子地圖產(chǎn)品,隨著對英文版地圖關(guān)注度的提高,結(jié)伴而來的是數(shù)據(jù)問題不斷被發(fā)現(xiàn)。全面分析后,發(fā)現(xiàn)英文版數(shù)據(jù)問題主要由以下幾方面原因?qū)е拢孩贅?biāo)準(zhǔn)不完善,沒有統(tǒng)一的制作參考規(guī)范;②工藝煩冗,生產(chǎn)交互復(fù)雜,導(dǎo)致作業(yè)反復(fù);③翻譯程序邏輯不合理,造成預(yù)翻譯結(jié)果錯誤;④關(guān)鍵詞庫分16張表存放,并且在庫外存儲,沒有系統(tǒng)維護(hù)機(jī)制,導(dǎo)致詞庫不能隨平臺元數(shù)據(jù)庫的更新節(jié)奏進(jìn)行維護(hù);⑤生產(chǎn)人員經(jīng)驗(yàn)不足,作業(yè)不熟練,造成品質(zhì)不理想。
英文版導(dǎo)航電子地圖是為了實(shí)現(xiàn)跨語言應(yīng)用。如何制作高質(zhì)量的英文版電子地圖,已成為迫切需要攻關(guān)的技術(shù)難題。因此,本文設(shè)計了一套英文版地圖系統(tǒng)性的改進(jìn)方法,重新梳理英文地圖制作標(biāo)準(zhǔn)及工藝、優(yōu)化翻譯程序、提升作業(yè)水平,系統(tǒng)地改善了英文數(shù)據(jù)品質(zhì)。
導(dǎo)航電子地圖數(shù)據(jù)庫由點(diǎn)要素、道路、背景3個主題構(gòu)成,凡是有名稱的要素均配置了英文名。點(diǎn)要素包括興趣點(diǎn)(point of interest,POI)、點(diǎn)門牌、顯示文字、地名;道路包括復(fù)雜道路要素對象(composite road feature object,CRFO)、路口、收費(fèi)站等;背景包括行政區(qū)劃、土地覆蓋、經(jīng)濟(jì)開發(fā)區(qū)、感興趣區(qū)域(area of interest,AOI)等。需要詳細(xì)制作英文名的要素見圖1。
圖1 導(dǎo)航地圖英文要素示意圖
英文版導(dǎo)航電子地圖按照數(shù)據(jù)存儲和翻譯特點(diǎn),可分為4類。
常規(guī)英文名包括:POI名稱、顯示文字、地名、路口、收費(fèi)站、分歧、CRFO、出口編號、土地覆蓋、土地利用、經(jīng)濟(jì)開發(fā)區(qū)、AOI、建筑物、鐵路。此類數(shù)據(jù)區(qū)分專名和通名[1],遵循從左往右,“專名分詞(英文/拼音)+通名分詞(英文)”[2]的基本翻譯原則。翻譯示例見表1。
表1 常規(guī)英文名翻譯示例
POI中文地址參考導(dǎo)航電子地圖框架[3]以及數(shù)據(jù)制作標(biāo)準(zhǔn)順序拆分為14個字段存儲:鄉(xiāng)鎮(zhèn)街道辦、地名小區(qū)名、街巷名、前綴、門牌、類型、子號、后綴、附屬設(shè)施名、樓棟號、樓門號、樓層、房間號、附加信息。
POI英文地址則參考中文地址的拆分結(jié)果從小到大進(jìn)行倒序翻譯:附加信息+房間號+樓層+樓門號+樓棟號+附屬設(shè)施名+后綴+[門牌+類型+子號]+前綴+街巷名+地名小區(qū)名+鄉(xiāng)鎮(zhèn)街道辦。其中,“門牌+類型+子號”作為整體。
點(diǎn)門牌與POI地址不同,POI地址是POI的一個屬性,主要用于POI檢索。點(diǎn)門牌是獨(dú)立的要素,形式與POI地址類似,但是在導(dǎo)航電子地圖中應(yīng)用不同,主要結(jié)合道路進(jìn)行路徑導(dǎo)航。點(diǎn)門牌的中文名稱按導(dǎo)航圖制作標(biāo)準(zhǔn)拆分為11個字段存儲:鄉(xiāng)鎮(zhèn)街道辦、地名小區(qū)名、街巷名、前綴、門牌、類型、子號、后綴、附屬設(shè)施名、樓棟號、樓門號。
英文按照編譯要求將11個中文字段組合成5個字段翻譯?!班l(xiāng)鎮(zhèn)街道辦+地名小區(qū)名+街巷名”組合一起翻譯;“前綴+門牌+類型+子號+后綴”組合一起翻譯,附屬設(shè)施單獨(dú)翻譯,樓棟號單獨(dú)翻譯,樓門號單獨(dú)翻譯。
道路名稱的中文按編譯需求分5個字段存儲:前綴、基本名、中綴、類型、后綴。道路名英文則按相應(yīng)字段進(jìn)行翻譯。如表2所示。
表2 道路名英文名翻譯示例
英文版導(dǎo)航電子地圖數(shù)據(jù)非實(shí)采作業(yè),而是依據(jù)現(xiàn)場中文進(jìn)行室內(nèi)人工翻譯,需要完善的翻譯規(guī)范和成熟的生產(chǎn)工藝才能準(zhǔn)確表達(dá)現(xiàn)場情況,進(jìn)而向外國導(dǎo)航電子地圖使用者提供準(zhǔn)確的地理信息。針對引言提到的英文版導(dǎo)航電子地圖生產(chǎn)中的問題,通過全面的分析,從標(biāo)準(zhǔn)、工藝、程序、詞庫、人員進(jìn)行系統(tǒng)性的改進(jìn)。
以現(xiàn)有生產(chǎn)標(biāo)準(zhǔn)為基礎(chǔ),結(jié)合英文版導(dǎo)航電子地圖制作要素,參考漢語拼音正詞法基本規(guī)則[4]、行政區(qū)劃代碼[5]、地名庫[6],補(bǔ)充缺失要素的翻譯規(guī)范,增加了12個要素的制作標(biāo)準(zhǔn)。
英文版導(dǎo)航電子地圖是全要素地圖,各要素之間的翻譯要保持內(nèi)容及邏輯統(tǒng)一,本次標(biāo)準(zhǔn)改善中尤其強(qiáng)調(diào)這一點(diǎn)。
(1)行政區(qū)劃要素是導(dǎo)航電子地圖的基本骨架,由國家權(quán)威機(jī)構(gòu)發(fā)布,所以各要素名稱中出現(xiàn)行政區(qū)劃的內(nèi)容均應(yīng)翻譯一致。例如,哈爾濱,行政區(qū)劃代碼[5]中翻譯為Harbin,當(dāng)POI名稱、POI地址等其他要素出現(xiàn)該詞且表示行政區(qū)劃含義時都應(yīng)做Harbin翻譯。
(2)數(shù)字“一二三”以及“1,2,3”的翻譯,程思聰[7],童杉姍[8]在雙語地圖注記中建議放在名稱之后翻譯或拼音翻譯。導(dǎo)航電子地圖不同于紙質(zhì)地圖,導(dǎo)航電子地圖除查看外,更重要的作用在于檢索和導(dǎo)航。而數(shù)字的拼音翻譯不便于手機(jī)端或PC端的輸入。此次標(biāo)準(zhǔn)改善中明確了這點(diǎn),如“北京三零六醫(yī)院”翻譯為Beijing 306 Hospital。
(3)參考道路現(xiàn)場掛牌,統(tǒng)一了道路類型名的翻譯規(guī)范,凡涉及的道路類型內(nèi)容有簡寫詞,均翻譯為簡寫內(nèi)容,且不帶點(diǎn)(.),若無簡寫詞,則原樣翻譯。例如,“路”翻譯為Rd,“巷”翻譯為Ln,“胡同”翻譯為“HuTong”。POI名稱、POI地址、顯示文字或其他道路要素中如果有道路名,統(tǒng)一遵循上述翻譯原則。
(4)POI地址、點(diǎn)門牌有共性的內(nèi)容,在英文翻譯時也應(yīng)保持相同的翻譯邏輯。中文的“門牌”“類型”“子號”,這3個字段作為整體進(jìn)行翻譯,而不能機(jī)械倒序翻譯。例如,“北清路3號1號”,門牌號:3,類型:號,子號:1號,翻譯為No.3-1。這樣可以從翻譯結(jié)果清晰地區(qū)分主門牌和子號。
點(diǎn)要素數(shù)據(jù)的英文制作工藝相對簡單順暢,外業(yè)現(xiàn)場采集數(shù)據(jù)之后返回內(nèi)業(yè),內(nèi)業(yè)進(jìn)行中文名稱制作和檢查,然后數(shù)據(jù)流轉(zhuǎn)到英文作業(yè)環(huán)節(jié),作業(yè)完成之后數(shù)據(jù)流入質(zhì)檢環(huán)節(jié),對數(shù)據(jù)品質(zhì)進(jìn)行檢驗(yàn)。
道路和背景的英文制作工藝比較煩瑣,交互復(fù)雜。本文分析了13個道路背景要素,對其中8項(xiàng)提出工藝優(yōu)化。
2.2.1減少作業(yè)交互
通過明確數(shù)據(jù)制作原則,取消技術(shù)參與,減少作業(yè)交互,提高作業(yè)效率。涉及要素有CRFO、收費(fèi)站、路口,如圖2所示。
(a)改善前 (b)改善后
2.2.2采用程序翻譯
改善前,英文翻譯采用線下人工庫外執(zhí)行;改善后,采用平臺程序進(jìn)行英文翻譯,減少人工作業(yè),涉及要素:鐵路。如圖3所示。
(a)改善前 (b)改善后
2.2.3取消元數(shù)據(jù)庫記錄
改善前,英文的成果數(shù)據(jù)同步記錄在元數(shù)據(jù)庫,重復(fù)作業(yè);改善后,利用翻譯原則對數(shù)據(jù)進(jìn)行檢查,不需要重復(fù)記錄數(shù)據(jù),涉及的要素:AOI、經(jīng)濟(jì)開發(fā)區(qū)、土地利用,如圖4所示。
(a)改善前 (b)改善后
2.2.4實(shí)現(xiàn)程序自動化
改善前,人工庫外差分,差分效率低,且工作量大;改善后,采用平臺自動差分,減少了庫外人工操作,涉及的要素:分歧。如圖5所示。
(a)改善前 (b)改善后
改善前,英文翻譯程序調(diào)用的關(guān)鍵詞庫以大分類存儲在16張配置表,總詞庫7.3萬,詞庫重復(fù)度高,一個詞在多個表中反復(fù)出現(xiàn);詞庫設(shè)計不合理,例如,1號、2號這類不勝枚舉的數(shù)列詞,影響數(shù)據(jù)分詞[9]結(jié)果。另外,關(guān)鍵詞庫沒有集成在元數(shù)據(jù)庫管理系統(tǒng),不便于管理和維護(hù)。
改善后,將關(guān)鍵詞庫整合為1張表,見圖6,并對關(guān)鍵詞條做去重處理,同時刪除不合理的關(guān)鍵詞。另外,參考拼音詞庫、道路名庫、品牌詞庫,以及從POI名稱中提取的高頻詞[10],擴(kuò)充關(guān)鍵詞量,使關(guān)鍵詞條達(dá)到43萬。最后將關(guān)鍵詞庫集成到元數(shù)據(jù)庫管理系統(tǒng),按照元數(shù)據(jù)庫定義規(guī)范設(shè)計配置表結(jié)構(gòu),見表3。納入元數(shù)據(jù)庫管理系統(tǒng)后可隨著元數(shù)據(jù)庫的更新頻次進(jìn)行管理和維護(hù)。詞庫中增加了“分類”列,可參考分類對數(shù)據(jù)在不同場景進(jìn)行不同翻譯。
(a)改善前 (b)改善后
表3中,“中文關(guān)鍵詞”用來分詞;“英文翻譯”是中文對應(yīng)的結(jié)果;“優(yōu)先級”表明,同一個名稱含有多個關(guān)鍵詞時,取詞的先后順序;“分類”說明只有在該分類時,名稱才會被該關(guān)鍵詞劃分;“關(guān)鍵詞來源”和“備注”記錄補(bǔ)充說明性信息。
表3 SC_POINT_CHI2ENG_KEYWORD結(jié)構(gòu)
改善前,英文的翻譯只是按詞庫采用正向最大匹配[11]機(jī)械分詞,并沒有加入相應(yīng)原則的處理,翻譯結(jié)果的優(yōu)劣只能依賴關(guān)鍵詞庫。
改善后,不僅補(bǔ)充合理的翻譯詞庫,而且引入特定的場景判斷,可根據(jù)不同的場景設(shè)定不同的翻譯邏輯。通過讀取關(guān)鍵詞庫,對名稱進(jìn)行分詞,程序優(yōu)先從關(guān)鍵詞庫中采用正向最大匹配算法,對于劃分后的詞,若詞庫有對應(yīng)英文翻譯,則按照詞庫內(nèi)容翻譯。沒有對應(yīng)英文翻譯,則判讀是否符合設(shè)定的翻譯邏輯場景,例如,第XX號、第XX小等這種情況,若符合則按照特定邏輯翻譯,“第XX號”翻譯為“No.XX”,“第XX小”翻譯為“No.XX primary school”。如果不符合設(shè)定的翻譯邏輯,則參考中文拼音進(jìn)行直譯,若直譯的詞為3個及3個以下,則拼音連寫且首字母大寫;若直譯的詞在4個及4個以上,則每個詞分開寫,并且首字母大寫。
抽取2745條數(shù)據(jù)新舊設(shè)計程序翻譯結(jié)果,進(jìn)行人工對比分析,程序翻譯品質(zhì)提升了49%,翻譯結(jié)果對比示例見表4。
表4 程序預(yù)翻譯結(jié)果對比示例
英文版導(dǎo)航電子地圖要向外國使用者提供準(zhǔn)確信息,英文的翻譯不僅要真實(shí)科學(xué),能準(zhǔn)確反映實(shí)際地理信息,還要確保漢語的文化意義,合理恰當(dāng)?shù)姆g決定了英文版導(dǎo)航電子地圖的適用性以及市場競爭力。
英文版數(shù)據(jù)最后的關(guān)卡還是人工確認(rèn),作業(yè)員的水平對數(shù)據(jù)品質(zhì)有很大的影響,因此在制作英文版導(dǎo)航電子地圖的過程中要加強(qiáng)作業(yè)員的翻譯和理解能力,為了提升作業(yè)能力,開展了以下改進(jìn)工作。
2.5.1建立作業(yè)機(jī)制
(1)作業(yè)前:培訓(xùn)與考核,并對薄弱點(diǎn)重點(diǎn)加強(qiáng)培訓(xùn)。
(2)作業(yè)中:加強(qiáng)反饋與監(jiān)控力度,結(jié)合作業(yè)情況,進(jìn)行再考核。
(3)作業(yè)后:總結(jié)問題,構(gòu)建案例集。
2.5.2營造英文學(xué)習(xí)氛圍
創(chuàng)建微信公眾號知識分享活動,定期上傳每周的問題分析與培訓(xùn),讓大家利用碎片化時間學(xué)習(xí)英文。
從2017春版本開始監(jiān)測,連續(xù)5個版本作業(yè)員水平一直在提高,到2018春版時品質(zhì)率達(dá)到94.47%,如圖7所示。
圖7 英文數(shù)據(jù)翻譯品質(zhì)監(jiān)測圖
通過對英文版地圖的標(biāo)準(zhǔn)改善補(bǔ)充,最終形成了一套完整的生產(chǎn)作業(yè)指導(dǎo)規(guī)范;通過優(yōu)化8個道路背景要素的制作工藝,釋放了生產(chǎn)作業(yè)中的技術(shù)資源;對關(guān)鍵詞詞庫的補(bǔ)充完善,提高了程序名稱分詞的準(zhǔn)確性;對英文翻譯程序的改善,使英文預(yù)翻譯品質(zhì)提升了49%;通過構(gòu)建的作業(yè)機(jī)制和碎片化的學(xué)習(xí),提升了作業(yè)員的作業(yè)水平。目前的英文改進(jìn)方法成果被新平臺繼承,并指導(dǎo)新平臺英文版地圖數(shù)據(jù)常規(guī)生產(chǎn)。
英文名的改善不是一蹴而就的事情,而是持續(xù)性的工作,關(guān)鍵詞庫也需要持續(xù)擴(kuò)充詞庫源才能源源不斷地匹配到新增數(shù)據(jù)中。正文中提到的英文翻譯程序設(shè)定的特殊場景也需隨數(shù)據(jù)的變化以及語意場景的變化迭代維護(hù),只有這樣,英文名的數(shù)據(jù)品質(zhì)才能趨于更好。