尼瑪 珠杰** 拉巴頓珠
(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院;2.省部共建西藏信息化協(xié)同創(chuàng)新中心,西藏 拉薩 850000)
隨著信息處理的快速發(fā)展,藏文信息處理也取得了長(zhǎng)足的發(fā)展,本文重點(diǎn)研究字—音轉(zhuǎn)換方法。在藏語(yǔ)連續(xù)語(yǔ)音中存在語(yǔ)音音素不集中,且音素定義不夠統(tǒng)一、數(shù)據(jù)分散等問(wèn)題,出現(xiàn)了合成的語(yǔ)音不自然、不流暢等情況,例如,“”在以往的語(yǔ)音合成當(dāng)中給這9 個(gè)字的音素各不相同,導(dǎo)致合成結(jié)果一直并未達(dá)到實(shí)用效果。藏語(yǔ)語(yǔ)音合成中,目前很少有研究音素定義不統(tǒng)一對(duì)語(yǔ)音合成造成的影響,而字—音轉(zhuǎn)換是語(yǔ)音合成系統(tǒng)前端文本分析的重要模塊,因此,如何解決音素統(tǒng)一問(wèn)題成為語(yǔ)音合成系統(tǒng)不得不解決的問(wèn)題。
目前,國(guó)內(nèi)外英語(yǔ)、漢語(yǔ)等語(yǔ)言中的同音字研究相對(duì)成熟,已經(jīng)在語(yǔ)言教學(xué)、語(yǔ)音合成研究等中得到了很好的使用效果,而目前極少有針對(duì)藏語(yǔ)同音字的深度研究,只有在部分文獻(xiàn)中曾簡(jiǎn)單提到了關(guān)于藏語(yǔ)同音字的存在,如周季文編著的《藏文拼音教材》[1]中指出,若藏文字符附加在后加字和后面時(shí),該音節(jié)字的讀音不發(fā)生變化,例如藏文音節(jié)字和和它們的主要區(qū)別是音節(jié)字是否存在再后加字,但音節(jié)字和是否存在再后加字對(duì)音節(jié)字的讀音沒(méi)有變化,因此兩個(gè)音節(jié)字稱作為同音字。若虛詞加在沒(méi)有后加字的音節(jié)后面時(shí),在發(fā)音上起的作用與后加字相同,例如為同音字。后加字在發(fā)音上起的作用完全相同,例如為同音字。若下加字加在別的字母下面在發(fā)音上無(wú)作用,例如為同音字。若帶有上加字時(shí),發(fā)音無(wú)變化,例如為同音字。若帶有上加字的再帶有前加字(只有)時(shí),發(fā)音無(wú)變化,例如為同音字。另外,嘎瑪曲珍等編著的《藏文拼音與精要語(yǔ)法教材》[2]中指出:(1)加了下加字后,讀音實(shí)際上與相同,即:這四組都是同音字。(2)音高不送氣的基字加下加字后,皆變?yōu)橐舾卟凰蜌獾木砩嘁?,即為同音字,高音送氣的基字加下加字后,均變?yōu)楦咭羲蜌獾木砩嘁?,即為同音字,低音送氣的基字加下加字后,皆變?yōu)榈鸵羲蜌獾木砩嘁簦礊橥糇?。?jīng)過(guò)文獻(xiàn)查閱,目前除了以上2 篇教材中初步提出了藏文類似于其他語(yǔ)種也存在同音字,并簡(jiǎn)單分析了同音字的出現(xiàn)形式外,沒(méi)有針對(duì)藏語(yǔ)同音字的深入研究及相關(guān)統(tǒng)計(jì)結(jié)果。另外,以上2 篇教材及相關(guān)文獻(xiàn)中至今為止仍沒(méi)有界定藏語(yǔ)同音字的概念,以及未展開(kāi)同音字的結(jié)構(gòu)分析、數(shù)據(jù)統(tǒng)計(jì)等工作。
隨著藏語(yǔ)語(yǔ)音合成的深入研究及語(yǔ)言本身的不斷發(fā)展,藏語(yǔ)同音字的深入研究成為至關(guān)重要的一項(xiàng)基礎(chǔ)性工作,包括藏語(yǔ)同音字概念的界定、結(jié)構(gòu)分析、字庫(kù)的建立及統(tǒng)計(jì)等工作。故本文針對(duì)目前藏語(yǔ)語(yǔ)音合成過(guò)程同音字的處理需要,對(duì)藏語(yǔ)同音字的概念、字的結(jié)構(gòu)、統(tǒng)計(jì)等方面進(jìn)行了較為深入的研究。
在本小節(jié)主要定義本文涉及的三個(gè)概念,分別為同音字、基礎(chǔ)字、音素三個(gè)概念,并分析在同音字構(gòu)成規(guī)律和同音字判別方式中起到的作用。
表1 藏語(yǔ)基礎(chǔ)字類別及實(shí)例
18738 個(gè)藏字集合是按照以上作為基礎(chǔ)字而產(chǎn)生的,同樣同音字也是208 個(gè)基礎(chǔ)字上產(chǎn)生的[4]。基礎(chǔ)字是構(gòu)成同音字的一個(gè)基本要素,是判斷同音字和音素的基礎(chǔ)。
定義2:音素是構(gòu)成音節(jié)的最小單位或最小的語(yǔ)音判斷單元,例如這四個(gè)音節(jié)的基字、后加字相同,因此這四個(gè)音節(jié)由兩個(gè)輔音字母音素和四個(gè)元音音素組成。這四個(gè)音節(jié)的元音、后加字相同,因此這四個(gè)音節(jié)由六個(gè)音素組成。“”(西藏)這兩個(gè)音節(jié)由五個(gè)音素組成。在判斷同音字時(shí),音素是最基本的判斷要素,例如這些同音字中,這五個(gè)字的音素為,音素相同讀音相同,而前加字、上加字、下加字對(duì)讀音無(wú)影響,不作為音素處理[5]。
定義3:藏語(yǔ)同音字是指發(fā)音部位、氣流強(qiáng)弱、聲調(diào)、音素都相同的不同形狀或不同字符序列組成的字或音節(jié),例如等。藏語(yǔ)同音字以陽(yáng)性字、中性字、準(zhǔn)陰性字、極陰性字的差別來(lái)區(qū)分同音字讀音。在藏語(yǔ)語(yǔ)音中,不管同音字的字符個(gè)數(shù)多少,只要音素相同其讀音相同。由于同音字的音素相同,在語(yǔ)音合成前端文本分析中同音字的音素標(biāo)記規(guī)范一直是不可或缺的一項(xiàng)基礎(chǔ)工作,且音素標(biāo)記規(guī)范程度決定訓(xùn)練數(shù)據(jù)的稀疏問(wèn)題,也就是直接影響合成訓(xùn)練模型的結(jié)果。故對(duì)相同音素的同音字給定相同的音標(biāo)是本文的研究重點(diǎn),例如相同音素的同音字給定拉丁或國(guó)際音標(biāo)情況如表2 所示。
表2 相同音素的同音字標(biāo)記音標(biāo)實(shí)例
根據(jù)上述讀音分析結(jié)果,在藏語(yǔ)連續(xù)語(yǔ)音合成的文本標(biāo)注過(guò)程中,將把所有同音字給出同一個(gè)讀音標(biāo)記或者音素標(biāo)記,例如:藏語(yǔ)句子“”的標(biāo)注結(jié)果為“kla cha klatsi ga klo.kla ma kla med kla srog dang.Rkang pi'kla sha ra kla yin”,在句中“”“”和“”三個(gè)音節(jié)為同音字,故最終讀音定義為“kla”的相同讀音標(biāo)記。
在此按照藏語(yǔ)語(yǔ)音理論體系和語(yǔ)音合成的角度,研究藏語(yǔ)一般同音字構(gòu)成規(guī)律和特殊同音字規(guī)律,每個(gè)大類規(guī)律研究中主要包括基礎(chǔ)字音素構(gòu)成規(guī)律及類別定義、音節(jié)音素構(gòu)成規(guī)律及類別定義。
以下七類根據(jù)藏語(yǔ)傳統(tǒng)文法“字性組織法”中的陽(yáng)性字、中性字、準(zhǔn)陰性字、極陰性字的差別來(lái)區(qū)分同音字構(gòu)成規(guī)律。
以下二類同音字構(gòu)成規(guī)律與一般同音字構(gòu)成不同,在此作為特殊同音字的情況進(jìn)行處理。
2.2.2 在實(shí)際藏語(yǔ)文本中經(jīng)常出現(xiàn)藏文音節(jié)與梵音轉(zhuǎn)寫藏文構(gòu)成同音字的情況,藏文文本中使用普遍的梵音轉(zhuǎn)寫藏文有等。在此作為特殊同音字的情況進(jìn)行處理,如:。
根據(jù)(2.1)同音字構(gòu)成情況分析,將藏語(yǔ)同音字共分為七種不同的規(guī)律。在此一是完成了同音字的統(tǒng)計(jì),二是研究了同音字的分類,并定義了相應(yīng)的音標(biāo),具體分析情況如下:
表3 同屬的同音字(部分)
表3 同屬的同音字(部分)
表4 同屬的同音字(部分)
表4 同屬的同音字(部分)
表5 同屬的同音字(部分)
表5 同屬的同音字(部分)
表6 同屬的同音字(部分)
表6 同屬的同音字(部分)
表7 同屬的同音字(部分)
表8 同屬的同音字(部分)
表8 同屬的同音字(部分)
表9 同屬的同音字(部分)
表9 同屬的同音字(部分)
根據(jù)(2.2)藏語(yǔ)同音字的特殊結(jié)構(gòu)分析,將藏語(yǔ)同音字共分為2 種不同的類型,其具體分類中所收集及統(tǒng)計(jì)結(jié)果如下:
表10 “基礎(chǔ)字加后加字和黏著詞”同屬的同音字(部分)
表10 “基礎(chǔ)字加后加字和黏著詞”同屬的同音字(部分)
3.2.2 “梵音字符”結(jié)構(gòu)的同音字,構(gòu)成該類同音字的梵音字共有14 個(gè)。共收集統(tǒng)計(jì)到14 個(gè)同音字,部分同音字的統(tǒng)計(jì)情況如表11 所示。
表11 “梵音字符”同屬的同音字(部分)
根據(jù)以上藏語(yǔ)同音字的統(tǒng)計(jì)和分析結(jié)果得出:在藏語(yǔ)中除了幾個(gè)特殊的字外,藏語(yǔ)同音字以不同的字性來(lái)判斷其讀音,在此同音字分為一般同音字和特殊同音字,一般同音字可以分為7 種不同大類,特殊同音字可以分為2 種不同的大類,其中每個(gè)大類又根據(jù)不同的音素劃分為不同程度的小類,小類也就是同一個(gè)音素構(gòu)成的同音字,并最終對(duì)每個(gè)小類定義了拉丁轉(zhuǎn)寫和國(guó)際音標(biāo)的讀音標(biāo)記,一般同音字以18738 個(gè)藏字為依據(jù),將歸類為2539 類(不同音素的字)同音字和341 個(gè)無(wú)同音字,特殊同音字還需要進(jìn)一步統(tǒng)計(jì),因此特殊同音字的統(tǒng)計(jì)數(shù)據(jù)無(wú)歸類在18738 個(gè)藏字中。
本文針對(duì)目前在藏語(yǔ)語(yǔ)音合成前端語(yǔ)言模型中較為突出的音素統(tǒng)一問(wèn)題展開(kāi)了深入的研究,研究的內(nèi)容遵循了藏語(yǔ)傳統(tǒng)文法,結(jié)合藏語(yǔ)本身特有的語(yǔ)音特點(diǎn),深度分析了藏語(yǔ)語(yǔ)音結(jié)構(gòu),以及在藏語(yǔ)語(yǔ)音合成中同音字的發(fā)音規(guī)律,較為全面的統(tǒng)計(jì)及分析了藏語(yǔ)同音字的發(fā)音歸類問(wèn)題,并收集整理了較大規(guī)模的藏語(yǔ)同音字,為進(jìn)一步分析和處理藏語(yǔ)語(yǔ)音合成前端語(yǔ)言模型提供了有力素材。藏語(yǔ)雖然具有很強(qiáng)的語(yǔ)言規(guī)律,但由于藏語(yǔ)本身的復(fù)雜性及語(yǔ)音結(jié)構(gòu)的不確定性,信息處理用藏語(yǔ)語(yǔ)音結(jié)構(gòu)分析過(guò)程中仍遇到很多難以解決的困擾,總結(jié)出來(lái)規(guī)律難以覆蓋藏語(yǔ)語(yǔ)音合成中出現(xiàn)的所有情況。在今后。的科學(xué)研究工作中繼續(xù)加大對(duì)同音字發(fā)音規(guī)律的研究,完善藏語(yǔ)同音字?jǐn)?shù)據(jù)的統(tǒng)計(jì),并測(cè)試總結(jié)出來(lái)的同音字規(guī)律在實(shí)際語(yǔ)音合成中的具體表現(xiàn)。