黃巧斌
摘 要:本文主要分析了Vocaloid3歌聲合成的原理,并探討了這款軟件操作和效果方面的不足,最后重點(diǎn)提出了與算法和文本處理等有關(guān)的四點(diǎn)建議。
關(guān)鍵詞:Vocaloid3;歌聲合成;算法;文本處理
歌聲合成技術(shù)是指通過語(yǔ)音合成技術(shù)相關(guān)技術(shù)讓計(jì)算機(jī)合成出模擬人聲的歌聲。優(yōu)點(diǎn)在于便于創(chuàng)作和修改,能獲得較為完美的歌聲。這是一個(gè)非常有前景的方向。比如,相應(yīng)的虛擬歌手可以創(chuàng)造巨大收益,它們與真實(shí)歌手無異,也可以出唱片、開演唱會(huì)。目前最有名的是初音未來,她是基于Vocaloid軟件作為音源的虛擬歌手,每天都有成千上萬的粉絲為其創(chuàng)作。此外,歌聲合成也突破了人類生理限制,音域廣、歌唱速度的可調(diào)節(jié)性也是它獨(dú)特的優(yōu)勢(shì)之一。因此,這方面的研究非常有價(jià)值。
1 研究現(xiàn)狀
目前,學(xué)界關(guān)于研究歌聲合成的研究處于起步階段,主要集中在原理研究階段。比如Vocaloid的開發(fā)者劍持秀紀(jì)先生在《Vocaloid-Commercial singing synthesizer based on sample concatenation》一文中劍持秀紀(jì)談及了Vocaloid的開發(fā),生存現(xiàn)狀,插件的兼容性以及和其他合成技術(shù)的對(duì)比。楊心祎的《歌聲合成技術(shù)與應(yīng)用研究》(2015)結(jié)合Vocaloid3分別對(duì)歌聲合成技術(shù)在音樂創(chuàng)作中的應(yīng)用及其技術(shù)原理的研究。周樹森的《基于語(yǔ)料庫(kù)的歌聲合成方法》(2008)、李錦瓏在《基于參數(shù)修改的中文歌聲合成算法的研究》(2011)等討論了歌聲合成技術(shù)的算法,主要包括波形拼接和統(tǒng)計(jì)模型方法等。李錦瓏,楊鴻武,梁青青,裴東,劉慧娟先生的《歌詞到歌曲轉(zhuǎn)換系統(tǒng)的實(shí)現(xiàn)》(2010),此文重點(diǎn)研究了如何以旋律控制模型結(jié)合語(yǔ)音合成技術(shù),實(shí)現(xiàn)從中文歌詞到歌曲的合成。
綜上,目前歌聲合成技術(shù)的研究一定程度上都局限于理論探討,很少有從實(shí)際操作中對(duì)操作者的體驗(yàn)進(jìn)行總結(jié)的研究。因此,本文基于VOCALOID3原理與實(shí)際操作中的問題提出相應(yīng)建議。
2 Vocaloid3歌聲合成原理
本文選取的研究對(duì)象為Yamaha開發(fā)的電子音樂制作語(yǔ)音合成軟件VOCALOID3。VOCALOID的原型由劍持秀紀(jì)(Kenmochi Hideki)率領(lǐng)西班牙大學(xué)的研究小組開發(fā)。主要通過音調(diào)和歌詞的輸入,目的是將兩者整合輸出為合成為原為人類聲音的歌聲。2004年1月15日發(fā)布第一版,目前最新版本是VOCALOID4,但是由于漢化版難以獲取,而且這幾個(gè)新功能與本研究關(guān)系不是很大,所以,本文選擇了VOCALOID3作為研究對(duì)象。
2.1 歌聲合成器
Vocaloid3主要基于西班牙龐培法布拉大學(xué)的Music Technology Group(MTG)在歌聲合成方面的研究成果,他們提出了基于表演采樣的歌聲合成方法。這一方法并不直接對(duì)歌聲波形進(jìn)行拼接,而是基于源一濾波器模型提出了EpR(Excitation plus Resoiiances)聲音模型,使用該模型對(duì)歌聲進(jìn)行參數(shù)化。
合成歌聲時(shí),分為兩步,第一步為根據(jù)輸入樂譜生成表演軌跡,表演軌跡包含了聲音空間中所有的值,第二步為根據(jù)表演軌跡進(jìn)行搜索匹配和修改轉(zhuǎn)換。
2.2 音源庫(kù)原理
音源庫(kù)(Singer Library)作為系統(tǒng)架構(gòu)的重要組成部分,任何通過Vocaloid許可的音源庫(kù)或數(shù)據(jù)庫(kù)中的聲音片段都采樣自真實(shí)的人聲素材。該音源數(shù)據(jù)庫(kù)必須包含相對(duì)應(yīng)目標(biāo)語(yǔ)言中所有音素以及所有可能的因素組合,包括雙連音(又稱雙音素,為相連的兩個(gè)不同的音素的組合)和長(zhǎng)元音(sustained vowels,即持續(xù)時(shí)間相對(duì)較長(zhǎng)的元音);必要時(shí),還需要包括成分超過兩個(gè)音素的多音組合(polyphones,大于或等于三個(gè)音素的組合)。
Vocaloid系統(tǒng)的原理是通過改變這些采樣素材片段的音高,從而使它們能符合旋律的走向。為了獲得更自然的聲音,即縮短原始素材與目標(biāo)的音高差,每個(gè)片段需要在音源庫(kù)中儲(chǔ)存三個(gè)到四個(gè)不同的音高范圍的素材。而且準(zhǔn)確度不一定高。例如,由于日文本身的特點(diǎn)就是音素的含量較少,這就造成把雙音素記錄到英語(yǔ)音源庫(kù)的難度比日語(yǔ)音源庫(kù)要大得多。雖然早前日本版本的Vocaloid發(fā)行商聲稱可以唱出英文,但從理論性和技術(shù)性的角度來說這是較難實(shí)現(xiàn)的,因此,日版音源庫(kù)調(diào)試英語(yǔ)歌曲時(shí),使用的都是和式英語(yǔ)發(fā)音,還原度并不高。
波形拼接這一原理產(chǎn)生的歌聲質(zhì)量較高,但這一方法建立聲音空間的過程非常復(fù)雜,需要完全人工介入,工作量龐大,每種語(yǔ)言也需要重新建立大量規(guī)則。導(dǎo)致Vocaloid軟件的實(shí)際操作也非常繁瑣,要想得到理想的音頻,后期需要大量的人工的參數(shù)調(diào)節(jié)。另一方面由于需要存儲(chǔ)的參數(shù)非常多,占存儲(chǔ)空間也比較大。
3 操作過程的不足
3.1 處理過程繁瑣
Vocaloid3雖然是目前市場(chǎng)普及最廣的歌聲合成軟件,能夠合成較為理想的音頻文件,但是實(shí)際操作過程非常繁瑣。而且自身的功能也不是特別完善,比如不能直接進(jìn)行歌詞的一次性輸入。
歌曲的部分剪輯也存在問題,如果midi文件中存在很多空白段,并不能進(jìn)行快速的刪減,如果要在Vocaloid3中進(jìn)行編輯,只能選擇將后面的音段前移,選擇過程也只能進(jìn)行部分選擇,操作過于繁瑣,所以,在歌曲編輯完以后用別的音頻軟件進(jìn)行空白音段的剪輯反而更方便。
3.2 漢語(yǔ)拼音與國(guó)際音標(biāo)之間的轉(zhuǎn)換存在缺陷
實(shí)際調(diào)試的過程中,雖然可以進(jìn)行拼音的拆分,但是由于很多漢語(yǔ)音節(jié)并不能直接用合適的國(guó)際音標(biāo)表示,國(guó)際音標(biāo)的匹配過程也較為復(fù)雜。
3.3 調(diào)試功能不夠完善
此外,它自身功能不能滿足歌曲的調(diào)試,網(wǎng)絡(luò)上有很多調(diào)試愛好者制作了很多插件,以滿足調(diào)試需求。將所選區(qū)域音符延長(zhǎng)至相連的Connect Notes連接音符、起到低聲說話效果的Whisper、EG DYN動(dòng)態(tài)控制、ZigZagDYN動(dòng)態(tài)控制、Insert Rest縮距插入、Timing Randomize隨機(jī)、Adjust Gain DYN增益、Vibrato Type Conversion顫音類型轉(zhuǎn)換等。但是,安裝和處理這些插件也是一件比較繁瑣的事情。最好的方法是在進(jìn)行軟件升級(jí)的過程中擇優(yōu)整合一些比較好的插件,完善軟件自身功能。
3.4 字過于正
語(yǔ)音合成的音樂中,所有的字都唱得非常清晰,缺少字句之間的自然銜接,導(dǎo)致整首歌有一種咬字過重的感覺。這一點(diǎn)也導(dǎo)致給字句之間自然過渡的聽覺時(shí)間減少了,導(dǎo)致歌曲的流暢度大打折扣,這一點(diǎn)單靠調(diào)試很難解決。
4 建議
4.1 加入漢語(yǔ)聲調(diào)調(diào)節(jié)的操作
該軟件并沒有將漢語(yǔ)的聲調(diào)納入處理過程。漢語(yǔ)聲調(diào)作為區(qū)別意義的重要部分,并沒有在歌曲處理中得到體現(xiàn)。雖然對(duì)于歌詞意義的表達(dá)無太大影響,但是影響了歌曲意境、情感,以及流暢度的表達(dá)。
楊仕芳在《歌唱語(yǔ)音形態(tài)研究——以漢語(yǔ)歌唱中的“聲調(diào)”為例》中提出由于聲調(diào)它是屬于相對(duì)音高,而音樂旋律它是屬于絕對(duì)音高,在歌唱中即要注重旋律的絕對(duì)音高,又要把握好聲調(diào)的相對(duì)音高,還要關(guān)注音節(jié)之間聲調(diào)音高的對(duì)比特性,只有三者配合融洽才能根據(jù)音樂的旋律形態(tài)準(zhǔn)確地具有不同調(diào)值音高的音節(jié),使音節(jié)之間達(dá)到自然地連接。中國(guó)傳統(tǒng)聲樂演唱中的“以字行腔”的手法,在一定程度上就是要根據(jù)語(yǔ)音的聲調(diào)來進(jìn)行即興的旋律裝飾和潤(rùn)腔,從而形成風(fēng)格獨(dú)特的歌唱語(yǔ)音形態(tài)。
漢語(yǔ)屬于單音節(jié)語(yǔ),即一字一音,因而聲調(diào)的音高存在使具有很強(qiáng)的表意功能,也容易產(chǎn)生抑揚(yáng)頓挫的美感效果。如果將這一因素考慮至歌聲合成當(dāng)中,便可以讓歌聲的過渡得更加自然。這里的聲調(diào)并不局限于傳統(tǒng)的調(diào)值,而是一個(gè)相對(duì)值。針對(duì)前面所說的“字過于正”,我們可以將聲調(diào)考慮其中,讓聲調(diào)隨著音高變化,有利于緩和歌曲的生硬感。
比如維吾爾族民歌《掀起你的蓋頭來》中,語(yǔ)音重音應(yīng)著重強(qiáng)調(diào)“掀”的動(dòng)作、掀的對(duì)象“蓋頭”,還有掀后所看到的形象一“眉毛”、“眼睛”、“臉兒”。這些詞語(yǔ)和音節(jié)在演唱時(shí)聲調(diào)音高應(yīng)向高頻靠近外,更重要的是聲調(diào)的“音長(zhǎng)”要拉長(zhǎng),聲音要飽滿,同時(shí)音量也要加大。其中“掀”這個(gè)音節(jié)主要是拉長(zhǎng)聲調(diào)的“音長(zhǎng)”;“蓋頭”這個(gè)詞語(yǔ)主要是強(qiáng)調(diào)“蓋”這個(gè)音節(jié)聲調(diào)的“去聲”發(fā)聲特征,同時(shí)延長(zhǎng)聲調(diào)的“音長(zhǎng)”并加大“音量”,音節(jié)“頭”則在聲調(diào)的發(fā)聲上作“輕聲”處理;“眉毛”、“眼睛”、“臉兒”這幾個(gè)詞語(yǔ)的的聲調(diào)重音化主要體現(xiàn)在對(duì)詞語(yǔ)第一個(gè)音節(jié)聲調(diào)“陽(yáng)平”的“上陽(yáng)性”作著重強(qiáng)調(diào),主要是延長(zhǎng)聲調(diào)的“音長(zhǎng)”,第一個(gè)音節(jié)作“輕聲”處理。不過,每一首歌聲調(diào)變化的位置都不一樣,為了簡(jiǎn)化軟件操作,可以增加一個(gè)標(biāo)記插件,在文本處理前進(jìn)行簡(jiǎn)單的標(biāo)記,就可以讓后期的操作更加簡(jiǎn)單。
4.2 結(jié)合隱馬爾可夫模型的歌聲合成模型
軟件原有的處理方法Music Technology Group(MTG)建立聲音空間的過程非常復(fù)雜,而Vocaloid的語(yǔ)種涵蓋較為廣泛,為了更好更快的處理語(yǔ)言文本,合成出自然的歌聲,我們可以結(jié)合隱馬爾可夫模型,簡(jiǎn)化繁瑣的語(yǔ)言模型。通過基于EpR(Excitation plus Resoiiances)聲音模型統(tǒng)計(jì)文字的發(fā)音概率,建立隱性表現(xiàn)概率矩陣B,再統(tǒng)計(jì)字詞之間的轉(zhuǎn)換概率。就可以得到較為精確的歌聲基頻。比如:將樂譜中包含的基頻信息引入到歌聲基頻的生成算法中,避免了因數(shù)據(jù)稀疏而造成的合成音高在時(shí)間和頻譜結(jié)構(gòu)上出現(xiàn)偏差的問題,可以合成出與樂譜相一致的具有精準(zhǔn)音高的基頻。
4.3 文本分析過程中增加歌詞與音符匹配處理環(huán)節(jié)
Vocaloid的文本分析過程中最大的問題就是文本與曲譜沒有建立有效的聯(lián)系,導(dǎo)入歌詞的過程也無音樂邏輯,現(xiàn)有的歌詞錄入法只是機(jī)械的將拼音一次性放入曲譜中,這種方法對(duì)于復(fù)雜的歌曲而言不具備可行性。因此,系統(tǒng)需要提前對(duì)歌詞進(jìn)行分析。在歌詞錄入的前期對(duì)文本進(jìn)行語(yǔ)音的頻譜、音節(jié)時(shí)長(zhǎng)、語(yǔ)音特征等方面的分析,為歌詞與曲譜的結(jié)合提供那個(gè)數(shù)據(jù)基礎(chǔ),再在最后面的合成過程中加入歌詞與樂譜的匹配度分析,提高歌詞與樂譜的粘合度。
4.4 基于二次創(chuàng)作的改進(jìn)
Vocaloid的用戶群主要以二次創(chuàng)作人群為主,即對(duì)已生成的歌曲進(jìn)行再加工再創(chuàng)造?!罢嬲孷ocaloid以及基于其制作的音樂廣為傳播的不是音樂本身,而是來自于基于這些音樂的二次擴(kuò)展創(chuàng)作?!敝挥性谔幚砗迷懈枨鷶?shù)據(jù)的前提下,才能為二次創(chuàng)作提供更好的基礎(chǔ)。
從以上分析可知,用Vocaloid創(chuàng)作歌曲的主要問題集中在歌詞輸入和參數(shù)調(diào)節(jié),其主要原因是音源庫(kù)缺乏對(duì)歌詞與音樂的匹配處理,以及擬人化參數(shù)處理。解決這兩方面的問題可以從原有歌曲的分析處理方面入手。即增加原歌曲預(yù)處理步驟。在歌曲制作之前增加一個(gè)導(dǎo)入原有歌聲的步驟,讓系統(tǒng)對(duì)歌曲進(jìn)行預(yù)處理,并獲得相關(guān)參數(shù)以后,增加音頻文件轉(zhuǎn)midi和VSQ文件的處理,可以增大歌曲成曲的質(zhì)量,二次創(chuàng)作也會(huì)更加容易。如果預(yù)處理后只留取相關(guān)參數(shù),對(duì)原有運(yùn)行空間的影響并不大。
參考文獻(xiàn):
[1] 剣持秀紀(jì),大下隼人.VOCALOID-Commercial singing synthesizer based on sample concatenation[J].IPSJ SIG Technical Report,2008(2):P10-23.
[2] 李錦瓏,楊鴻武,梁青青.歌詞到歌曲轉(zhuǎn)換系統(tǒng)的實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2010(16):124-126.
[3] 周樹森.基于語(yǔ)料庫(kù)的歌聲合成方法[D].碩士.哈爾濱工業(yè)大學(xué),2008.
[4] 李錦瓏.基于參數(shù)修改的中文歌聲合成算法的研究[D].碩士.西北師范大學(xué),2011.
[5] 楊心祎.歌聲合成技術(shù)與應(yīng)用探究[D].碩士.南京:南京藝術(shù)學(xué)院,2015.
[6] 楊仕芳.歌唱語(yǔ)音形態(tài)研究——以漢語(yǔ)歌唱中的“聲調(diào)”為例[D].碩士.重慶:西南大學(xué),2013.