王順利 付嘉銘 夏長春
摘 要 近年來,語音合成技術中的波形拼接算法被廣泛地運用在各個國家的技術前沿。大多數(shù)的實驗研究結果表明波形拼接算法具有可靠的實用性,所以在市場中已經具有許多語音合成產品,這些產品對人們的日常生活和工作的各個方面有很大的影響。
關鍵詞 語音合成 發(fā)音 自然度 時域波形 語音庫
中圖分類號:TN912 文獻標識碼:A
1語音合成技術的發(fā)展歷程
隨著語音合成的要求越來越高,語音學家對語音合成的研究技術不斷更新。早期研究利用合成語音的參數(shù)方法,以提高它的LSP,LPC和其他言語參數(shù)。這些都反映在越來越多和越來越嚴格的語音合成系統(tǒng)應用,現(xiàn)在不僅對語音合成有連貫性的要求,而且還有更高的需求。
上世紀60年代TTS英文版系統(tǒng)被成功研制。在80年代,我國也開始研究中文TTS。中國科技大學,社會科學院,中國科學院,清華大學等所有單位都在TTS的研究領域中不懈努力奮斗。不僅如此,在中國臺灣的著名大學,如臺灣大學和臺灣交通大學也開始在語音系統(tǒng)領域中研究。甚至一些研究成果已成為產品在現(xiàn)實中使用。同時,在世界主要國家也已經開發(fā)相應的產品。
上世紀80年代后期和,科學家就開始對修改語音合成技術的時域波形進行研究,即PSOLA(基音同步疊加)技術。其主要特點是:在銜接語音波形段,首先按照上下文,根據(jù)拼接單元與PSOLA算法調整的韻律特征,合成波形不僅保持主音發(fā)音段的功能,并能與環(huán)境做出韻律特征的拼接單元,從而獲得可懂度和自然度很高的合成語音。PSOLA技術有了很大的發(fā)展和廣泛的應用。為了提高合成語音的質量,人們開發(fā)了語音波形拼接技術,該技術主要用于一些語音信號的參數(shù)如音高,而不是語音參數(shù)波形。這項技術能合成出更加自然的語音。
在上世紀90年代,比LPC語音合成技術和共振峰技術更優(yōu)越的技術已經誕生,利用該項技術合成的中文與英文顯得更加自然,并已經被廣泛應用于商業(yè)領域。近年來,人們在研究通過數(shù)據(jù)庫建立的語音合成算法。只要應用數(shù)據(jù)庫就可以進行基本的語音單元合成,可以更方便的進行語音信號的拼接合成。對于確定合成語音質量,語音庫中起著非常重要的作用。多種感情的語音單元是各種情況下語音數(shù)據(jù)庫的唯一入口,從而合成了一種任意語句。因此,語音數(shù)據(jù)庫的容量必須足夠大。這種合成語音的自然度將有較大的升級。
現(xiàn)在,隨著語言學的不斷發(fā)展,語音合成技術已經從最初對語音內容清晰度和連貫性的要求,逐漸演變成對語音的自然特性的高度追求。如何將合成后的語音顯得自然是科學家們越來越關注的話題,但現(xiàn)在的語音技術仍不能滿足人們的需求,因此,目前眾多產品制造商正在對語音合成自然度不斷創(chuàng)新。所以。語音合成在未來具有更大的商業(yè)市場和機會。世界各個主要國家都對語音合成技術做了集中的大量研究,技術已經達到了一個較高的水平,雖然我國現(xiàn)在語音合成技術較為弱后,但在不久的將來,隨著國家對語音技術的重視程度將會不斷提高,人們對語音的自然度要求就會有更高的重視程度,中國將有越來越多的企業(yè)和部門從事語音合成技術的研究。我國將在語音合成方面將會和國外長期競爭,并會在這樣一個良性的競爭中獲得更加先進的技術。
2語音合成技術的理論
語音合成技術已越來越多地在現(xiàn)代社會中得以應用,大大提高了人民的生活質量。如電話號碼查詢,計算機應用,旅行的火車與飛機班次語音查詢等。
語音合成是利用語音處理技術來建立數(shù)字語音模型,模型首先通過激勵信號,在人體器官中傳遞聲音,隨后發(fā)出聲音。語音合成技術可以根據(jù)不同的規(guī)則分為不同的類型,如信道模型參數(shù)法,語音參數(shù)法和波形拼接法。波形拼接法是銜接語音信號和易懂的語音信號,從而合成信號強度和自然度高的語音信號。
LPC技術是將時域中的信號在保證傳輸率的基礎上,來完善時域波形的技術處理方法。LPC技術的優(yōu)點和缺點非常清晰,它具備簡潔和易于處理的算法,然而它僅僅是一個簡單的解碼語音信號,只能實現(xiàn)一定程度上的語音連接。同時,波形拼接技術的最大特征是利用一些語音波形的數(shù)據(jù)來存儲所有相關的語音信息,所以對語音自然度的提升將起到很大的作用。但要合成單音節(jié)或充滿感情的語句有在有些情況時是很難妥善處理的,如果單獨的音節(jié)或詞在充滿感情的語句中進行處理,顯然其綜合素質將受到一定的影響。
上個世紀末,科學家們提出了一個語音波形拼接的有效方法,即基音同步疊加技術(PSOLA),可以解決上述問題,給語音處理技術帶來了一股新鮮血液。該技術主要是對語音信號的持續(xù)時間,強度,頻率,時間等參數(shù)進行控制。而這些語音信號參數(shù)的改善對語音信號處理非常重要。所以LPC技術與PSOLA技術在控制韻律詞的修飾方面有更多的優(yōu)點,通過該項技術合成的語音在自然度等各方面比其他合成方法都更要出色。
參考文獻
[1] 陳靜,李薇,崔忠偉,劉霞.?語音合成技術的研究及其發(fā)展[J].中國科技信息.2007(14).
[2] 黨建成,周晶.?語音合成技術及其應用[J].計算機與信息技術.2007(06).