馮志偉
(1.教育部語言文字應(yīng)用研究所,北京 100010;2.杭州師范大學(xué),杭州 311121)
國際標(biāo)準(zhǔn)ISO 7098:2015的四個特色
馮志偉1,2
(1.教育部語言文字應(yīng)用研究所,北京 100010;2.杭州師范大學(xué),杭州 311121)
2015年12月15日,國際標(biāo)準(zhǔn)ISO 7098:2015正式在日內(nèi)瓦出版。本文對該國際標(biāo)準(zhǔn)的四個特色進(jìn)行分析。
ISO 7098:2015;國際標(biāo)準(zhǔn)
1958年2月11日,全國人民代表大會一致通過《漢語拼音方案》作為拼寫漢語普通話的國家標(biāo)準(zhǔn)[1]。漢語拼音成為中國初等教育的教學(xué)內(nèi)容,每位學(xué)生都應(yīng)學(xué)習(xí)和掌握《漢語拼音方案》。通過漢語拼音給漢字注音,提高漢字學(xué)習(xí)效率,幫助學(xué)生進(jìn)一步學(xué)習(xí)文化和科學(xué)技術(shù)。漢語拼音在電報拼音化、視覺通信、文獻(xiàn)編目、排序檢索、人力資源管理中得到很好的應(yīng)用,在中國受到普遍的歡迎[2]。
1979年,中國代表周有光在華沙召開的ISO/TC 46(國際標(biāo)準(zhǔn)化組織第46技術(shù)委員會)第十八屆會議上,建議將《漢語拼音方案》作為國際標(biāo)準(zhǔn)。
1982年,在南京召開的ISO/TC 46第十九屆會議上,正式通過ISO 7098《文獻(xiàn)工作——中文羅馬字母拼寫法》(ISO 7098Information and Documentation:Chinese Romanization)國際標(biāo)準(zhǔn)。澳大利亞、加拿大、法國、日本、韓國、德國等投贊成票,英國棄權(quán),由于技術(shù)原因,美國投反對票。因大多數(shù)國家支持標(biāo)準(zhǔn)通過,從此漢語拼音從中國的國家規(guī)范成為國際標(biāo)準(zhǔn)。
1991年,在巴黎召開ISO/TC 46第二十四屆會議上,對原ISO 7098進(jìn)行技術(shù)修改后,頒布ISO 7098《信息與文獻(xiàn)——中文羅馬字母拼寫法(1991)》,簡稱“ISO 7098(1991)”。
20世紀(jì)90年代初制定ISO 7098(1991)時,正處于世界進(jìn)入信息時代的關(guān)鍵時期。為適應(yīng)信息時代需求,中國開始研制計算機(jī)漢字輸入與輸出。使用ISO 7098(1991)的漢語拼音,可通過拼音-漢字轉(zhuǎn)換的方法輸入、輸出漢字。由于漢語拼音是中國初等教育不可或缺的內(nèi)容,促使ISO 7098(1991)成為漢字輸入、輸出的一種便捷手段。在移動通信中使用漢語拼音在移動電話上輸入漢字,推動移動電話在中國的普及;漢語拼音在漢語國際教育中也發(fā)揮很好的作用,成為國外學(xué)生學(xué)習(xí)漢語和漢字的有用工具。
普通話是中國各民族的通用語言,也是聯(lián)合國工作語言之一。ISO 7098(1991)對全球信息與文獻(xiàn)工作具有重要意義,為滿足當(dāng)前國內(nèi)外對漢語拼音實(shí)際應(yīng)用的迫切需要,有必要修改ISO 7098(1991)。
為此,2011年3月教育部成立ISO 7098(1991)修訂工作組,由語言文字應(yīng)用研究所研究員馮志偉擔(dān)任組長,傅愛平、李志江、黃偉、顏偉4位專家參加,啟動ISO 7098(1991)的修訂工作。
2011年5月6日,ISO/TC 46第三十八屆會議在悉尼召開,中國代表在會議上提出修改ISO 7098(1991),以便反映中文羅馬化的新發(fā)展和實(shí)際應(yīng)用需要的建議。會后,中國國家標(biāo)準(zhǔn)化管理委員會(Standardization Administration of the People's Republic of China)正式向國際標(biāo)準(zhǔn)化組織(International Organization for Standardization,ISO)提出修訂ISO 7098(1991)的新工作項(xiàng)目(New Working Item Proposal)提案,該提案的國際編號:N 2358。
2012年5月6日—11日,ISO/TC 46第三十九屆會議在柏林舉行,此次會議接受N 2358提案,并將該提案直接作為ISO 7098的工作草案(working draft),成立ISO 7098(1991)國際修訂工作組,ISO 7098(1991)修訂正式列入ISO的工作日程。
2013年6月3日—7日,在巴黎召開ISO/TC 46第四十屆會議,中國代表在會議上正式向ISO/TC 46秘書處提交ISO 7098的委員會草案(committee draft)。
2014年5月5日—9日,ISO/TC 46第四十一屆會議在華盛頓召開。中國代表在5月7日上午舉行的第3工作組(Working Group 3,WG3)會議上,就ISO 7098(1991)修訂問題重申立場,會后向ISO/TC 46秘書處提交ISO 7098國際標(biāo)準(zhǔn)草案(Draft of International Standard,DIS)。
2015年6月1日—5日,ISO/TC46第四十二屆會議在北京召開。根據(jù)大會安排,中國代表在6月2日的專題報告會上發(fā)表《ISO 7098國際標(biāo)準(zhǔn)及其在人機(jī)交互中的應(yīng)用》,且用生動的實(shí)例說明在數(shù)字化環(huán)境下,漢語拼音在人機(jī)交互中發(fā)揮的巨大作用,并受到各國代表的熱烈歡迎;在6月3日的WG3會議上,就各國對ISO 7098DIS稿提出的意見,中國代表詳細(xì)說明了處理情況,并向參會人員出示DIS修改稿。
會后,中國代表將DIS修改稿提交至ISO/TC 46秘書處,根據(jù)ISO/TC 46第四十二屆會議的決議,ISO/TC 46秘書處于2015年7月27日將DIS修改稿分發(fā)給ISO/TC 46各成員國進(jìn)行委員會內(nèi)部投票(Committee Internel Balotting,CIB),CIB投票于2015年9月18日截止。ISO/TC 46秘書處N 2526號文件公布投票結(jié)果,ISO/TC 46中沒有棄權(quán)的19個國家(保加利亞、加拿大、中國、克羅地亞、丹麥、愛沙尼亞、法國、德國、伊朗、意大利、日本、韓國、拉脫維亞、挪威、俄羅斯、泰國、烏克蘭、英國、美國)都投了贊成票,獲得全票通過。值得注意的是,在1982年對ISO 7098投反對票的美國和投棄權(quán)票的英國,均投了贊成票[3]。這說明ISO 7098在世界范圍得到越來越多的國家支持。于是ISO 7098的修訂工作進(jìn)入出版階段,形成新的修訂稿,稱為ISO 7098:2015。 2015年11月12日,中國代表向ISO/TC 46秘書處提交ISO 7098:2015的最終版本,并轉(zhuǎn)至ISO總部準(zhǔn)備出版。2015年12月15日,ISO正式出版ISO 7098:2015,有助于大幅提高文獻(xiàn)自動化工作水平,使?jié)h語拼音在國際文獻(xiàn)工作中發(fā)揮更大的作用,并進(jìn)一步推動漢語拼音走向世界。漢語中大多數(shù)常用詞都是多音節(jié)詞,因此,在國際文獻(xiàn)和信息工作中,把單音節(jié)拼音連寫為多音節(jié)的漢語單詞是理所當(dāng)然的事情,有必要把按詞連寫的規(guī)則引入國際標(biāo)準(zhǔn)[4]。
ISO 7098:2015有四個引人注目的特點(diǎn):一是將漢語拼音按詞連寫的規(guī)則引入國際標(biāo)準(zhǔn);二是提出把漢字文本自動譯音為拼音的方法;三是進(jìn)一步完善漢語拼音的音節(jié)形式總表;四是給聲調(diào)和標(biāo)點(diǎn)符號補(bǔ)充16進(jìn)制unicode代碼,擴(kuò)充羅馬字母的字符集。以下分別進(jìn)行具體說明。
3.1 將漢語拼音按詞連寫的規(guī)則引入國際標(biāo)準(zhǔn)
在中世紀(jì)之前,希臘人和羅馬人已經(jīng)知道“單詞”的含義,盡管在文本中相鄰單詞間沒有空白,其仍可識別出對應(yīng)單詞。
7世紀(jì),愛爾蘭人開始使用“空白”來分隔文本中的單詞,并且將該方法傳到法國。9世紀(jì)開始,使用空白分隔單詞的方法在歐洲流行開來。
空白的使用意味著承認(rèn)“單詞”這個概念,在單詞與單詞間插入空白成為在書面使用字母語言的一個標(biāo)準(zhǔn),世界出版界和圖書館都遵循該標(biāo)準(zhǔn)。
在漢語拼音中,也有必要使用空白來分割單詞而非分割音節(jié)。單詞的分割是世界文明的一個優(yōu)良傳統(tǒng)。在制定《中文羅馬字母拼寫法》時,遵循這樣的優(yōu)良傳統(tǒng)是有利的。
在漢語拼音中,一個拼音音節(jié)可表示若干個漢字,因而在表示漢字方面,拼音音節(jié)存在歧義。如《通用規(guī)范漢字表》中拼音音節(jié)/bei/可以表示為31個漢字:北、杯、卑、背、椑、悲、碑、鵯、貝、孛、邶、狽、備、鋇、倍、悖、被、琲、棓、輩、憊、焙、蓓、碚、鞁、褙、糒、鞴、鐾、唄、臂;拼音音節(jié)/jing/可以表示為49個漢字:京、莖、涇、經(jīng)、猄、荊、菁、旌、驚、晶、腈、?、睛、粳、兢、精、鯨、麖、鼱、井、阱、汫、剄、肼、頸、景、儆、憬、璥、璟、警、勁、徑、凈、逕、脛、倞、痙、競、竟、竫、婧、靚、敬、靖、靜、境、獍 鏡。
在漢語拼音中,單音節(jié)歧義指數(shù)很高。若不包括聲調(diào),基本漢語音節(jié)有405個,這些漢語音節(jié)可表示全部漢字的讀音。而《通用規(guī)范漢字表》中有8 105個通用漢字,在這種情況下,一個漢語音節(jié)平均可以表示20多個漢字,因而不可避免會出現(xiàn)歧義[5]。但若將幾個單音節(jié)連接起來構(gòu)成多音節(jié)單詞,拼音音節(jié)的歧義指數(shù)就會大幅降低,因此為給拼音音節(jié)排除歧義,必須把不同單音節(jié)連接起來構(gòu)成多音節(jié)漢語單詞。
為解決漢語拼音音節(jié)存在歧義問題,使用拼音音節(jié)的歧義指數(shù)概念來描述拼音音節(jié)的歧義。歧義指數(shù)(I)是漢語拼音音節(jié)歧義程度的數(shù)學(xué)描述,與該拼音音節(jié)可以表示的語言單位數(shù)(N)的關(guān)系為I=N-1。
“語言單位”既可是單音節(jié)漢字,也可是單音節(jié)或多音節(jié)單詞。
上文案例中,拼音音節(jié)/bei/可表示31個漢字,即有31個語言單位,其歧義指數(shù)為30;拼音音節(jié)/jing/可表示49個漢字,即有49個語言單位,其歧義指數(shù)為48。但若將單音節(jié)/bei/和/jing/結(jié)合形成雙音節(jié)單詞/beijing/,其歧義指數(shù)將明顯減少,因?yàn)?beijing/可以表示3個單詞:北京、背景、背靜,即有3個雙音節(jié)語言單位,其歧義指數(shù)減少(N=2)。若將/beijing/第一個字母進(jìn)一步大寫為/Beijing/,則其歧義指數(shù)為0,說明/Beijing/是一個沒有歧義的語言單位,即中國首都北京。因此,若將不同單音節(jié)的拼音音節(jié)連接成多音節(jié)的漢語單詞,拼音音節(jié)的歧義指數(shù)將明顯降低。這是把不同的單音節(jié)連接成多音節(jié)漢語單詞的優(yōu)越之處。
GB/T 16159—2012《漢語拼音正詞法基本規(guī)則》包括音節(jié)分割或連接成單詞的規(guī)則,常用詞(名詞、動詞、形容詞、代詞等)拼寫規(guī)則,固定短語拼寫規(guī)則,人名和地名拼寫規(guī)則,聲調(diào)表示規(guī)則,在行末尾的連字符使用規(guī)則等[6]。
目前,在漢語語言學(xué)中對漢語單詞還沒有公認(rèn)的明確定義,這樣很難確定漢語普通單詞的邊界(切分界線),把單個音節(jié)連接起來構(gòu)成多音節(jié)單詞時也將很困難。不過,漢語專有名詞中單詞的界限相對清晰,由于漢語中多音節(jié)的命名實(shí)體界限根據(jù)有關(guān)規(guī)范和標(biāo)準(zhǔn)比較容易確定,因此,把不同單音節(jié)連接構(gòu)成多音節(jié)專有名詞難度不大。在國際文獻(xiàn)和信息工作中,把不同漢語拼音單音節(jié)連接起來構(gòu)成多音節(jié)專有名詞,從而避免拼音歧義,不僅是必要的也是可能的?;诖耍趪H標(biāo)準(zhǔn)ISO 7098:2015中增加命名實(shí)體按詞進(jìn)行音節(jié)連寫的規(guī)定,即在漢語拼音中對于人名、地名、語言名、民族名、宗教名這5種命名實(shí)體,均按詞進(jìn)行連寫,將“按詞連寫”這個重要方法引進(jìn)國際標(biāo)準(zhǔn),與ISO 7098(1991)相比是重大的進(jìn)展。例如,對于命名實(shí)體“地名”的書寫,按國際標(biāo)準(zhǔn)ISO 7098:2015規(guī)定“漢語地名中的專名和通名(包括行政區(qū)劃名或地理特征名)分寫,由多個漢字組成的專名、行政區(qū)劃名或地理特征名應(yīng)分別按單詞連寫,每一分寫部分的第一個字母大寫”。
根據(jù)ISO 7098:2015規(guī)定,北京市“朝陽路”路名中的專名部分“朝陽”和通名部分“路”,應(yīng)當(dāng)分寫且中間留空白。由于“朝陽”由兩個漢字組成,拼寫時應(yīng)連寫為一個單詞,且每個分寫部分的第一個字母均大寫,因此“朝陽路”的漢語拼音規(guī)范書寫形式應(yīng)是“Chaoyang Lu”。而“Chao Yang Lu”(Chao和Yang沒有連寫為一個單詞)、“ChaoYang Lu”(Yang的首字母不應(yīng)大寫)、“chaoyang Lu”(chaoyang的首字母沒有大寫)、“Chaoyang lu”(通名部分lu的第一個字母沒有大寫)、“chaoyang lu”(專名chaoyang和通名lu首字母均未大寫)、“chaoyanglu”(專名chaoyang與通名lu沒有分寫且通名和專名的首字母均未大寫)等拼寫形式均不符合ISO 7098:2015規(guī)定。嚴(yán)格執(zhí)行ISO 7098:2015標(biāo)準(zhǔn),排除不符合規(guī)定的拼寫形式,使得地名拼寫形式統(tǒng)一,改變地名拼寫的混亂局面,有助于人們無歧義地進(jìn)行溝通。
20世紀(jì)60年代,聯(lián)合國地名專家組為便于國際交往,使各國地名的專名部分只有一種拼寫形式,避免在國際交往中地名因語言文字的復(fù)雜造成混亂。1967年第二屆聯(lián)合國地名標(biāo)準(zhǔn)化會議做出決議,要求世界各國、各地區(qū)在國際交往中都使用羅馬字母拼寫地名,做到每個地名的專名部分只有一種羅馬字母拼寫形式。選擇羅馬字母是因?yàn)槭澜缟洗蠖鄶?shù)國家均習(xí)慣使用,這就是“單一羅馬化”(single Romanization)原則。如果嚴(yán)格執(zhí)行ISO 7098:2015,將“朝陽路”拼寫為“Chaoyang Lu”,便十分有利于貫徹推行“單一羅馬化”原則。
地名的單一羅馬化,對于使用羅馬字母的國家而言,國家的地名標(biāo)準(zhǔn)化即國際標(biāo)準(zhǔn)化;而對使用非羅馬字母文字的國家(如中國、日本、俄羅斯、泰國、韓國、希臘等)而言,須制定國家地名羅馬化方案,經(jīng)聯(lián)合國地名標(biāo)準(zhǔn)化會議通過后,作為地名羅馬字母拼寫的國際標(biāo)準(zhǔn)。1977年9月,在雅典召開的聯(lián)合國第三屆地名標(biāo)準(zhǔn)化會議上,中國代表提出《采用漢語拼音作為中國地名羅馬字母拼法的國際標(biāo)準(zhǔn)》提案獲得會議通過。第三屆聯(lián)合國地名標(biāo)準(zhǔn)化會議作出決定,“注意到《漢語拼音方案》在語言學(xué)上是完善的,用于中國地名的羅馬字母拼法是最合適的”“建議采用漢語拼音方案作為中國地名羅馬字母拼法的國際標(biāo)準(zhǔn)”。從此,根據(jù)《漢語拼音方案》拼寫我國地名成為中國地名單一羅馬字母拼寫的國際標(biāo)準(zhǔn),在以羅馬字母為文字(如英文、德文、法文等)的各國出版物上都應(yīng)根據(jù)《漢語拼音方案》拼寫中文地名的專名部分。
在中文羅馬字母拼寫發(fā)展過程中,曾使用過與《漢語拼音方案》不同的羅馬字母拼寫形式拼寫中文地名。其中,以英國人威妥瑪和詹里斯在1867年設(shè)計的威妥瑪式拼音(Wade Giles)、我國學(xué)者趙元任在1928年設(shè)計的國語羅馬字(Guoyeu Romatzyh,GR)、美國人肯尼迪在1943年設(shè)計的耶魯拼音(Mandarin Yale)最為有名,根據(jù)“單一羅馬化”原則,在對中文地名進(jìn)行羅馬字母拼寫時,不應(yīng)采用多種羅馬化形式拼寫法,只能選擇單一的羅馬化拼音形式(即《漢語拼音方案》規(guī)定的拼音形式)。因此,在實(shí)行“單一羅馬化”原則時,不能使用威妥瑪式拼音、國語羅馬字拼音、耶魯拼音,而應(yīng)使用《漢語拼音方案》的拼音方法。“北京”曾經(jīng)有“Peking”“Pekin”等拼寫形式,根據(jù)“單一羅馬化”原則,應(yīng)根據(jù)ISO 7098:2015拼寫為“Beijing”,不能使用“Peking”“Pekin”等拼寫形式。
在國際標(biāo)準(zhǔn)ISO 7098:2015中,還對“字符譯音”(transcription)做出說明。其指出“字符譯音是指用字母的語音系統(tǒng)或轉(zhuǎn)換語言的符號來表示某種語言中的字符,而不論該語言原本的書寫方式”“字符譯音系統(tǒng)必須以轉(zhuǎn)換語言及其字母表的正字法為依據(jù),因此字符譯音系統(tǒng)的使用者必須對轉(zhuǎn)換語言了解,并能準(zhǔn)確地讀出其字符”“字符譯音不是嚴(yán)格地可逆轉(zhuǎn)的”“字符譯音可用來轉(zhuǎn)換所有的書寫系統(tǒng)”“它是唯一能夠用來轉(zhuǎn)換如中文、日文這樣的不全使用字母的拼音文字系統(tǒng)及意音圖形文字書寫系統(tǒng)的方法”。在把“朝陽路”轉(zhuǎn)寫成漢語拼音“Chaoyang Lu”時,其中的專名部分“Chaoyang”遵循“單一羅馬化”原則,通名部分“Lu”也準(zhǔn)確地反映漢語普通話的讀音。這樣的轉(zhuǎn)寫應(yīng)屬于“譯音”的范疇。由此可見,ISO 7098:2015為把漢字地名正確譯音,為拼音路名“單一羅馬化”提供明確的規(guī)范。
3.2 提出命名實(shí)體自動譯音方法
ISO 7098:2015提出,在計算機(jī)輔助文獻(xiàn)工作中有兩種對命名實(shí)體進(jìn)行自動譯音的方法。一種是按音節(jié)全自動譯音,另一種是基于規(guī)則按單詞半自動譯音。
3.2.1 按音節(jié)全自動譯音
全自動譯音程序能自動生成彼此間由空白分開的單個音節(jié),該方法適用于任何應(yīng)用系統(tǒng)和環(huán)境,其音節(jié)切分結(jié)果效果顯著,這種全自動譯音程序特別適用于將拉丁字母譯音與原漢字混合存儲的系統(tǒng)。使用該方法“北京市”可全自動地譯音為/bei/、/jing/和/shi/3個音節(jié)。這種全自動方法很容易通過計算機(jī)程序?qū)崿F(xiàn),但譯音出來的音節(jié)歧義指數(shù)較高。
3.2.2 基于規(guī)則按單詞半自動譯音
在與語言有關(guān)的科學(xué)研究和工業(yè)生產(chǎn)中,“詞”是基本和必要的概念,因此有必要對“詞”以統(tǒng)一界說,但很難簡單地使用基于空白和標(biāo)點(diǎn)符號等規(guī)則來決定單詞間的界限。這樣的規(guī)則沒有考慮到復(fù)合詞、縮寫詞、慣用語等的切分問題,且單詞切分對于單詞與單詞間沒有用空白分開的語言(如漢語、日語)更加復(fù)雜[7]。
在自然語言處理中,單詞切分即將文本切分為有負(fù)載意義的語言單位的過程。例如,英語“the white house”,可以切分為3個有意義的單位“the”“white”“house”,譯為一間白色的房子;而“the White House”,則只與一個語言單位相對應(yīng),即美國總統(tǒng)的官邸。這種有意義的單位稱為單詞的切分單位(Word Segmentation Units,WSU)。對于單詞間有空白的語言(如英語),在將文本切分WSU時,只需使用空白作為基礎(chǔ)確定WSU切分的邊界即可,簡單易行;但對于單詞間沒有空白的語言(如漢語和日語),或?qū)τ谥辉诰植繂卧~間有空白的語言(如泰語和韓國語),在將書面文本切分為WSU時,要求使用不同的方法[8]。
很多應(yīng)用領(lǐng)域需將文本切分為單詞,在翻譯中,統(tǒng)計單詞數(shù)量是計算翻譯工作成本的主要方法。在翻譯記憶系統(tǒng)和機(jī)器輔助翻譯(Computer-Assisted Translation)的工具中,單詞切分是其主要功能;在術(shù)語抽取工具中,單詞切分也起著重要的作用;在術(shù)語管理工具中,有時也要提供單詞切分的功能;在內(nèi)容搜索時,也要對文本進(jìn)行切分,以便在內(nèi)容管理系統(tǒng)和數(shù)據(jù)庫使用搜索詞進(jìn)行匹配;此外,搜索功能要求關(guān)于單詞邊界的知識,文本-語音轉(zhuǎn)換系統(tǒng)在單詞的基礎(chǔ)上生成語音,因此要求在單詞查詢時進(jìn)行單詞切分等。各種自然語言處理系統(tǒng)必須把文本切分為單詞才能實(shí)現(xiàn)其功能。
國際標(biāo)準(zhǔn)ISO 24614-1:2010給出自然語言處理中單詞切分的基本概念和一般原則,提出以可信賴且能復(fù)用的方式進(jìn)行書面文本自動切分的導(dǎo)則,且這種導(dǎo)則是獨(dú)立于語言的[9]。
國際標(biāo)準(zhǔn)ISO 24614-2:2011提出漢語、日語和韓語中切分WSU的具體規(guī)則。其中,部分規(guī)則是這3種語言共同的,盡管每種語言都有獨(dú)自判別WSU的特殊規(guī)則[10]。
因此,在中文羅馬字母拼寫中應(yīng)將由漢字表示的命名實(shí)體譯音為拼音,以表示單詞。在漢語中單詞可由一個或多個音節(jié)組成,單詞間的界限并不清楚,在目前技術(shù)條件下,全自動單詞切分難以達(dá)到很好的質(zhì)量,可采用基于規(guī)則按單詞半自動譯音的方法。
命名實(shí)體基于規(guī)則按單詞半自動譯音可使用如下資源。
(1)一套譯音規(guī)則。在本標(biāo)準(zhǔn)中提出命名實(shí)體譯音的一般規(guī)則。這些規(guī)則可用作命名實(shí)體半自動譯音的資源。
(2)一個相關(guān)的譯音詞典。《漢語拼音詞匯(專名部分)》包含大多數(shù)命名實(shí)體的拼音譯音,是可用作命名實(shí)體半自動譯音的另一種資源。使用這樣的方法“北京市”的譯音過程:/bei jing shi/、/beijing shi/、/Beijing shi/、/Beijing Shi/。
根據(jù)規(guī)則,首先,地名“北京市”被切分為/bei/、/jing/和/shi/3個音節(jié);然后,把/bei/、/jing/結(jié)合成/beijing/,使其與行政區(qū)劃名/shi/分開;最后,把每部分首字母大寫,譯音為/Beijing Shi/。如果在按詞譯音過程中出現(xiàn)歧義或問題,編輯人員可根據(jù)譯音詞典通過人機(jī)交互找出合適的命名實(shí)體譯音。因此,這種方法是半自動的,但譯音質(zhì)量很高,音節(jié)的歧義指數(shù)較小甚至可降低至0。
3.3 對漢語普通話的語音系統(tǒng)進(jìn)行全面說明
ISO 7098:2015對漢語普通話的語音系統(tǒng)進(jìn)行全面說明,使國際人士對漢語普通話的語音獲得全面理解。
漢語普通話的聲母包括雙唇音(bilabial):b,p,m;唇齒音(labio-dental):f;舌面前音(dorso-prepalatal):d,t,n,l;舌根音(dorso-velar):g,k,h;舌尖前音(apicoalveolar):z,c,s;舌尖后音(apico-postalveolar):zh,ch,sh,r;舌面音(dorso-palatal):j,q,x;零聲母(zero initial):在韻母的左側(cè)沒有元音。漢語普通話的韻母包括4種。
(1)開口呼(Articulation A):以a、o、e為介音或主要元音的韻母。例如,a、o、e、ei、ao、ou、an、ang、en、eng、ong、er,以及zi、ci、si和zhi、chi、shi、ri中的主要元音i。
(2)合口呼(Articulation B):以u為介音或主要元音的韻母。例如,u、ua、uo、uai、uei、uan、uang、un、ueng。
(3)齊齒呼(Articulation C):以i為介音或主要元音的韻母。例如,i、ia、ie、iao、iu、ian、iang、in、ing、iong。
(4)撮口呼(Articulation D):以ü為介音或主要元音的韻母。例如,ü、üe、üan、ün。在不會產(chǎn)生歧義的情況下,漢語拼音使用u代替ü,以簡化音節(jié)拼寫。
漢語普通話的音節(jié)形式表(見表1),覆蓋漢語普通話中除音節(jié)ê和兒化音節(jié)外的所有音節(jié)。
此外,在ISO 7098:2015中,我們還對于這個音節(jié)形式表做出如下的說明。
(2)*在音節(jié)開頭的u寫為w。但是,當(dāng)w后沒有其他附加元音時,作為一個完整音節(jié)的u不能寫作w,而應(yīng)寫為wu。
(5)+在音節(jié)開頭的i寫為y。但當(dāng)這個y后面沒有其他附加元音時,不能寫作y、yn、yng,而應(yīng)寫作yi、yin、ying。
(6)※在不會產(chǎn)生歧義的條件下,漢語拼音使用u代替ü,僅是為便于拼寫,這些u仍應(yīng)讀為ü。
(7)1wei: ui實(shí)際是uei的簡寫。因此,在漢語拼音聲韻配合表中,有shui而沒有shuei,有dui而沒有duei。
(8)2wen: un實(shí)際是uen的簡寫。
(9)3you: iu實(shí)際是iou的簡寫。由于在音節(jié)開頭的i寫為y,所以應(yīng)拼寫為you而非yu(采用yu這樣的拼寫方法會導(dǎo)致混淆)。
(10)在該聲韻配合表中,略去了兒化音節(jié)和音節(jié)ê。
表1 漢語普通話音節(jié)形式表
3.4 補(bǔ)充16進(jìn)制unicode代碼
給漢語特有的聲調(diào)和標(biāo)點(diǎn)符號補(bǔ)充16進(jìn)制unicode代碼,豐富拉丁字母內(nèi)容。漢語是一種有聲調(diào)的語言,這意味著,聲調(diào)會影響意義。具有不同聲調(diào)的同一音節(jié),其意義可能有很大的不同。每個音節(jié)可具有四個聲調(diào)中的一個,也可以沒有聲調(diào)。在這個CD稿中,對普通話的四個聲調(diào)符號加圓括號進(jìn)一步說明其性質(zhì)。
(1)一聲(高平調(diào)):—
(2)二聲(升調(diào)):/
(3)三聲(降/升調(diào)):∨
(4)四聲(降調(diào)):\
ISO 7098:2015還增加漢語普通話聲調(diào)圖示(見圖1)。
對圖1的分示圖分別進(jìn)行展示,以更便于國外用戶理解漢語普通話聲調(diào)的性質(zhì)(見圖2)。
根據(jù)ISO/TC 46第四十一屆全會決議精神,要求在ISO 7098:2015中增加擴(kuò)充拉丁字符使用的材料,因此對漢語拼音的聲調(diào)符號和標(biāo)點(diǎn)符號補(bǔ)充16進(jìn)制的unicode代碼(hexadecimal code,hex)。
圖1 漢語普通話聲調(diào)圖示(綜合圖)
(1)一聲(高平調(diào)):—(hex:0304)
(2)二聲(升調(diào)):/(hex:0301)
(3)三聲(降/升調(diào)):∨(hex:030C)
(4)四聲(降調(diào)):\(hex:0300)
在實(shí)際文本中,聲調(diào)符號附在音節(jié)的主要元音上。例如,/béi/、/què/,在音節(jié)/béi/中,聲調(diào)符號附著在主要元音e上,標(biāo)注為/é/;在音節(jié)/què/中,聲調(diào)符號附著在主要元音e上,標(biāo)注為/è/。如果區(qū)分元音大小寫,則漢語普通話帶聲調(diào)符號的元音如表2和表3所示。
圖2 漢語普通話聲調(diào)圖示(分示圖)
表2 漢語帶調(diào)元音小寫字母16進(jìn)制代碼
表3 漢語帶調(diào)元音大寫字母16進(jìn)制代碼
漢語特有的標(biāo)點(diǎn)符號及其對應(yīng)的拉丁標(biāo)點(diǎn)符號16進(jìn)制的unicode代碼如表4所示。
上述工作進(jìn)一步豐富羅馬字母字符集的內(nèi)容,擴(kuò)充羅馬字母字符集,是漢語拼音對于羅馬字母的貢獻(xiàn)。
表4 標(biāo)點(diǎn)符號16進(jìn)制代碼對照表
ISO 7098(1991)將《漢語拼音方案》提高至國際標(biāo)準(zhǔn)的地位,是漢語拼音走向世界的第一步,如今ISO 7098:2015在羅馬字母拼寫時,進(jìn)一步提出對命名實(shí)體按詞連寫的規(guī)則和自動譯音方法,并對漢語普通話的語音系統(tǒng)進(jìn)行全面描述,給漢語特有的聲調(diào)符號和特有的標(biāo)點(diǎn)符號增加了16進(jìn)制代碼,擴(kuò)充羅馬字母的字符集,這些富有成效的工作,邁開漢語拼音走向世界的新步伐。
[1] 國家語委標(biāo)準(zhǔn)化工作委員會辦公室.國家語言文字規(guī)范和標(biāo)準(zhǔn)選編[M].北京:中國標(biāo)準(zhǔn)出版社,1997:441.
[2] 國務(wù)院關(guān)于推廣普通話的指示[EB/OL].(2011-01-17)[2016-12-13].http://www.seac.gov.cn/art/2011/1/17/art_58_106828.html.
[3] ALA-LC Romanization,Chinese,Rules of Application[EB/OL].[2016-12-13]. http://www.loc.gov/catdir/cpso/romanization/chinese.df.
[4] Library of Congress,Pinyin Conversion Project,New Chinese Romanization Guidelines[EB/OL].[2016-12-13].http://www.loc.gov/catdir/pinyin/romcover.html.
[5] 中國國家標(biāo)準(zhǔn)化管理委員會.漢語拼音正詞法基本規(guī)則:GB/T 16159—2012[S].北京:中國標(biāo)準(zhǔn)出版社,2012.
[6] Information and documentation:Romanization of Chinese:ISO 7098: 2015[S].2015.
[7] Documentation—Romanization of Japanese(kana script):ISO 3602:1989[S].1989.
[8] Information and documentation—Transliteration of Korean script into Latin characters:ISO/TR 11941:1996[S].1996.
[9] Language resources management—Word segmentation of written text: Part 1:Basic concepts and general principles:ISO 24614-1:2010[S].2010.
[10] Language resources management—Word segmentation of written text:Part 2:Word segmentation for Chinese,Japanese and Korean:ISO 24614-2:2011[S].2011.
Four Distinguished Features of International Standard ISO 7098:2015
FENG ZhiWei1,2
(1.Institute of Applied Linguistics, Ministry of Education, Beijing 100010, China; 2.Hangzhou Normal University, Hangzhou 311121, China)
A new International Standard ISO 7098:2015 was published at 15-December-2015 in Geneva. This paper analyzes four distinguished features of this new international standard.
ISO 7098:2015; International Standard
G250.7
10.3772/j.issn.1673-2286.2016.12.007
馮志偉,1939年生,研究員,教授,博士生導(dǎo)師,研究方向:計算語言學(xué)、自然語言處理,E-mail:zwfengde2010@hotmail.com。
2016-10-12)