文/卓嘎
隨著計算機的發(fā)展和人工智能技術的普及,語音信號處理技術作為人工智能接口和交互模塊的交叉學科研究領域得到了越來越多的關注。各種語音處理工具和軟件也應運而生,其中Praat作為一個比較簡單有效的語音處理和分析軟件,在嗓音分析、語音波合成、語言輔助教學和語音數(shù)據(jù)統(tǒng)計分析等相關研究領域得到了廣泛的應用。
Praat最早是荷蘭阿姆斯特丹大學的Paul Boersma教授和David Weenink教授合作開發(fā)的語音分析軟件,Praat在荷蘭語里是交談和說話的意思。研究資料顯示,目前國內(nèi)外有很多語言教學工作者、語音信號處理和人工智能研究者都在使用Praat軟件進行世界各國語言的語音研究分析,如英語、荷蘭語、日語、西班牙語、法語、俄語等。
近年來,Praat在國內(nèi)語音處理研究中得到了廣泛的應用,這些研究主要內(nèi)容集中在對漢語普通話、漢語方言進行語音參數(shù)提取特征分析、語音頻譜和聲紋分析、語音標注以及語料庫統(tǒng)計分析等方面。Praat也是語音教學過程中的有效工具之一,在輔助教學、發(fā)音糾正、口語測評等方面獲得了很好的教學效果。
Praat在少數(shù)民族語言的語音處理研究中也有一些應用,如維吾爾語、藏語等,但是相關的資料和文獻比較少,本文利用Praat強大的語音分析和聲學參數(shù)提取功能對藏語語音進行錄音、標注、參數(shù)提取、頻譜分析和藏語連續(xù)語音聲學分析。
1993年Paul Boersma教授和David Weenink教授合作發(fā)布了Praat語音分析軟件的第一個版本,后來他們?nèi)∠耸跈?,作為開源軟件為用戶免費提供。目前最新的版本是Praat6.1,在語音處理研究領域得到了廣泛的應用。軟件可以在不同的操作系統(tǒng)上跨平臺使用,是一款具有語音波形繪制、語譜顯示、特征參數(shù)標注、語音分解和合成等多種功能的語音信號分析研究工具。Praat強大的可視化交互界面,可以直觀動態(tài)觀察語音信號的細節(jié)參數(shù)。圖1是把一個真人錄音的語音文件導入到Praat軟件后的語音分析界面。
在Praat軟件環(huán)境下,一段語音完成錄音后,可以進行語音的各種時域參數(shù)提取和分析。圖2是一個語音文件的時域語音強度波形圖。從強度曲線變化上可以直觀的觀察這段語音強度的特性,是語音發(fā)音過程中節(jié)奏變化的體現(xiàn)。在Praat里可以通過設置音強參數(shù)生成語音的分析文件進行數(shù)據(jù)分析。繪制的強度曲線單位為分貝,可以通過轉(zhuǎn)換功能變成振幅強度曲線。
Praat軟件還可以提取語音的各種評語參數(shù),包括語譜圖、共振峰、基音軌跡等。語譜圖是一種三維圖形,橫坐標和縱坐標分別表示語音持續(xù)的時間和對應的頻率,而第三維坐標一般為灰度圖或者是彩色圖,代表對應時刻語音的強度。圖3是上面例句語音的語譜圖,陰影的濃度表示語音的強度,通過選擇不同的帶寬可以繪制寬帶語譜圖和窄帶語譜圖。語譜圖上有各種不同的“圖紋”,如亂紋、橫杠和沖直條等,分別代表不同的語音發(fā)音特征,沖直條代表發(fā)音的爆破音,亂紋是摩擦音,而橫杠紋路代表語音的濁音。語譜圖包含了語音的豐富的頻率信息,包括語音音調(diào)的變化和語音基音頻率變化軌跡以及語音的共振峰等參數(shù)特征,可以比較精確地分析語音的頻域聲學特征。
Praat還可以編寫腳本語言,praat script語法簡單、數(shù)據(jù)類型豐富,占用空間少,對于具備一定的編程能力的人可以進行快速有效的程序編寫,實現(xiàn)語音數(shù)據(jù)參數(shù)的快速提取。在軟件主窗口的Control菜單下面點擊“New praat script”按鈕,就可以建立新的腳本語言編輯窗口。
圖1:Praat語音分析界面
圖2:時域語音強度波形圖
圖3:語音頻域語譜圖
圖4:Praat腳本代碼
圖4是一個提取語音二維譜中各頻率成分的能量值的腳本界面。在對象列表窗口中選定一個二維頻譜對象(Spectrum),然后點擊“Run”按鈕,運行腳本編輯器,完成執(zhí)行后會以txt文件形式默認保存在“C:/temp.txt”下面。
表1:藏文輔音元音拉丁字母轉(zhuǎn)換表
圖5:藏語連續(xù)語音時域、頻譜和音節(jié)標注
圖6:藏語連續(xù)句子標注
圖7:語音強度曲線
Praat軟件可以在前期的錄音、標注和各種語音參數(shù)提取基礎上,進行數(shù)據(jù)的統(tǒng)計分析,如語音聲學參數(shù)數(shù)據(jù)的相關性分析、相似度分析、方差分析、回歸分析各種統(tǒng)計分析,為語音合成、語音濾波和建立語音聲學模型提供重要的數(shù)據(jù)分析依據(jù)。
本實驗是在安靜環(huán)境下的真人錄音,被錄音者是藏語母語話者,用cool edit錄音軟件錄制了一段藏語連續(xù)語音,句子內(nèi)容為“”,漢語翻譯為“好的,那到時候咱兩一起去看節(jié)目吧!”,語音文件保存為tbs.wav。采集的語音數(shù)據(jù)采樣頻率為44100Hz,量化精度為16bit。錄制后導入到Pratt語音分析軟件并進行標注,該段語音的時域波形、頻譜分布和對應的語料標注如圖5所示。第1層是語音的使用波形,第2層是頻譜分布、語音強度,共振峰峰分布和基音軌跡的混合圖。第3層和4層是標注層,第3層是該連續(xù)句子中每一個音節(jié)段的切分和藏語標注,標注為“sl”的是靜音段。最后一層是每一個音節(jié)對應的序號標注。從圖上可以看出語音信號延續(xù)的時間是2.91秒。
藏語是拼音文字,發(fā)音規(guī)則類似于英語,以音節(jié)為單位,由30個輔音字母作為音節(jié)的基字,基字與“前加字”、“上加字”、“下加字”、“后加字”和“再后加字”和四個元音符號拼讀出一個音節(jié)。音節(jié)是由一個或一個以上的音素構成,藏語音素的發(fā)音可以轉(zhuǎn)寫成對應的國際音標拉丁字母。表1是藏語輔音(30個)和元音的拉丁字母轉(zhuǎn)寫表,表中最后4個音素對應的是藏語4個元音的拉丁轉(zhuǎn)寫,分別為i,u,e,o。
在Praat軟件里,通過各種分層標注可以對原始語音進行各種語音聲學參數(shù)提取,這些分層標注類型包括:音節(jié)層、音素層、重音標注層、聲韻母層、清音濁音層等等。Praat軟件可以較精確的標注連續(xù)語音波形對應的音素和音節(jié),為了正常顯示各個音標的拉丁符號需要提前將國際音標字體IPA下載到本地機器上。標注層按所需聲學參數(shù)分層后,就可以把對應音素的國際音標用拉丁字母標注在Praat的聲波層(Tier)里,圖6是上述藏語連續(xù)語音例句的錄音文件tbs.wav的時域波形和對應的藏語拉丁字母轉(zhuǎn)寫的音節(jié)標注,圖中包含三層標注層,第一層是例句的藏文句子,第二層是對應拉丁字母轉(zhuǎn)換的音節(jié)層標注,標注為“sl”的單元代表靜段,最后一層是句子中各個音節(jié)的序號標注,便于后面的數(shù)據(jù)描述。
圖7是上述連續(xù)語音句子的語音強度曲線波形圖.橫坐標是時間,以秒為單位,縱坐標是語音強度的分貝值,單位是dB,整體句子的強度分布比較均勻,在提取時間線上的全部強度值,發(fā)現(xiàn)平均強度為63.7dB,最大強度11.8dB,最小強度為84.1dB。圖7是根據(jù)前面連續(xù)語音句子的標注信息,將每個藏語音節(jié)對應的幅度曲線分割繪制出來。從圖上可以直觀的看到每個音節(jié)的強度曲線波形,在句子中一共有14個音節(jié),語音的強度值越大,能量就越強,發(fā)清音時聲帶不振動,能量小,因此其強度值也小;發(fā)濁音時聲帶振動,能量強其強度值也較大,在語音特征分析研究中,通常也會用輕音和濁音的能量值的高低作為語音端點檢測的依據(jù)之一。對照圖6中第三層標注的音節(jié)序列,在這句藏語連續(xù)語音中,第2,4,9,11音節(jié)的能量較強對應的幅值也較高。
共振峰是語音信號的重要頻域參數(shù)之一,反映了語音的聲道諧振的情況也是體現(xiàn)語音音質(zhì)的重要參數(shù)。圖8是實驗例句共振峰頻率峰值點的曲線圖,圖中橫坐標是時間,縱坐標為共振峰頻率值。圖9是例句語音的語譜圖,語音信號中元音的發(fā)音較長其能量比較強對應的頻率值也較高。元音是一種周期信號,因此共振峰的頻率也是按周期倍數(shù)增長,在語譜圖上是橫杠,如第1、4和9音節(jié),例句中摩擦音類似于噪聲的隨機信號,共振峰頻率值相對較低,語譜圖上是亂紋,如圖中的第2、11音節(jié);爆破音類似猝發(fā)波,發(fā)音前端的頻譜波紋是沖直線,如圖中的第3、13、14音節(jié)的前端的共振峰頻率。在語音信號中,共振峰的前三個頻率是非常重要,一般會用F0,F1和F2來表示,其中F0是基音頻率,對應圖8中最下面的曲線,F(xiàn)1是1次諧波頻率對應基頻F0上面的的頻率,F2為2次諧波頻率,對應F1上面的頻率,以此類推,圖8中實驗例句的第1個音節(jié)的前三個共振峰頻率分別為327.80Hz,1932.16Hz,2733.38Hz。
語音的基音參數(shù)提取方法很多,包括波形估計、自相關算法、語音倒譜算法等。在語音信號分析中,對于有調(diào)的語音來說,通常用提取基音的頻率軌跡波形來觀察語音的語調(diào)和韻律。圖10是例句語音的基音頻率包絡曲線和對應的音節(jié)序號圖,橫坐標為時間,縱坐標為各個時刻的基音頻率值,平均基音頻率為115.28Hz;從曲線上可以看出藏語的發(fā)音語調(diào)有起伏變化,有明顯的聲調(diào)、降調(diào)、平調(diào)等四聲的變化,也有韻律短語,如第4、5、6、7音節(jié)的連讀音的韻律。另外,在語音合成處理過程中可以通過修改基音頻率周期進行語調(diào)合成。
Praat是可視化語音綜合分析的有效平臺之一。Praat軟件對語音錄音數(shù)據(jù)繪圖比較直觀,語音特征參數(shù)提取方法簡單,數(shù)據(jù)也比較準確,誤差較小,特別是繪制的語音參數(shù)圖像分辨率較高,語譜圖的紋理比較清晰,基音軌跡輪廓清楚,因此在利用圖像處理技術進行語音參數(shù)方面具有很大優(yōu)勢。本文中,對錄制的藏語連續(xù)語音的音頻文件,利用Praat軟件進行了詳細的語音標注并提取了基本的語音參數(shù),分析了藏語連續(xù)語音中音節(jié)語音強度、共振峰曲線、基音軌跡等特征參數(shù),研究內(nèi)容為藏語連續(xù)語音的參數(shù)提取、語音識別、語音合成以及藏語言發(fā)音教學提供一些基礎研究數(shù)據(jù)。
圖8:共振峰頻率曲線圖
圖9:連續(xù)語音的語譜圖
圖10:語音基音軌跡