段偉博, 朱夢(mèng)堯, 朱曉強(qiáng), 王 濤
(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
本文研究通過(guò)轉(zhuǎn)變說(shuō)話語(yǔ)音的聲學(xué)特征來(lái)生成歌聲.大部分的研究方法[1-3]集中在文本-歌唱合成的領(lǐng)域,這種做法類似于文本-語(yǔ)音合成技術(shù).基于機(jī)器學(xué)習(xí)的語(yǔ)音轉(zhuǎn)歌聲方法也很普遍,這種方法[3-4]利用隱馬爾科夫模型(Hidden Markov Model, HMM)或者長(zhǎng)短記憶序列模型(Long Short Term Memory, LSTM),讀取歌聲參數(shù),學(xué)習(xí)其中的音調(diào)規(guī)律.此外,還有方法通過(guò)修改說(shuō)話語(yǔ)音的聲學(xué)參數(shù)生成歌聲.這種使用參數(shù)合成歌聲的方法需要關(guān)注歌聲特有的聲學(xué)參數(shù).目前,許多工作已經(jīng)研究了歌聲所特有的聲學(xué)特征[5-6]及其聽覺效果[7-10],其中最重要的兩個(gè)聲學(xué)特征是基頻[8,10]和頻譜包絡(luò)[11].通過(guò)研究說(shuō)話和歌聲之間的聲學(xué)差異, 文獻(xiàn)[12]提出了基于聲學(xué)參數(shù)修改的語(yǔ)音到歌聲的轉(zhuǎn)換算法.這種轉(zhuǎn)換算法簡(jiǎn)單,且保持說(shuō)話人的音色,所以將這種方法應(yīng)用到實(shí)際生活中,對(duì)用戶來(lái)說(shuō)是有趣的體驗(yàn).例如個(gè)別用戶不擅長(zhǎng)唱歌,文中的歌聲合成器可以在不改變?cè)姓f(shuō)話者音質(zhì)的前提下,將用戶自己的聲音轉(zhuǎn)換為更好的歌聲;或者用戶只要知道樂(lè)譜的信息,可以任意改寫歌詞生成歌聲.
基于聲學(xué)參數(shù)修改的語(yǔ)音轉(zhuǎn)歌聲的算法主要修改語(yǔ)音中的3個(gè)聲學(xué)參數(shù): 基頻、語(yǔ)音時(shí)長(zhǎng)和頻譜包絡(luò),將說(shuō)話聲音轉(zhuǎn)換成歌唱聲音.轉(zhuǎn)換聲學(xué)參數(shù)需要構(gòu)造各類傳遞函數(shù),傳遞函數(shù)中的參數(shù)影響轉(zhuǎn)換歌聲的優(yōu)劣.目前傳遞函數(shù)的參數(shù)是根據(jù)研究者試驗(yàn)或者經(jīng)驗(yàn)給出的,并不適用于所有歌聲.本文同樣使用基于聲學(xué)參數(shù)修改的語(yǔ)音轉(zhuǎn)歌聲的算法,但會(huì)利用機(jī)器學(xué)習(xí)的方法來(lái)獲取傳遞函數(shù)的參數(shù).音樂(lè)的多樣性造成參數(shù)的多樣性,本文會(huì)在實(shí)驗(yàn)中尋找參數(shù)的取值規(guī)律,這有助于深入了解普通說(shuō)話的語(yǔ)音與歌聲的聲學(xué)差異,對(duì)于研究說(shuō)話語(yǔ)音和歌聲的聲學(xué)差異具有重要意義,有助于開發(fā)計(jì)算機(jī)音樂(lè)作品.
語(yǔ)音轉(zhuǎn)歌聲算法可以同時(shí)記錄指定樂(lè)譜和說(shuō)話人的語(yǔ)音文件,其中樂(lè)譜提供音樂(lè)的節(jié)拍、旋律等主要信息.系統(tǒng)從語(yǔ)音中提取所需的聲學(xué)參數(shù)——基頻輪廓、時(shí)長(zhǎng)、頻譜包絡(luò)和非周期性指數(shù),參數(shù)按照設(shè)計(jì)的傳遞函數(shù)分別進(jìn)行調(diào)整.新獲得的參數(shù)重新合成,得到需要的歌聲.算法的流程如圖1(第344頁(yè)),系統(tǒng)對(duì)語(yǔ)音參數(shù)的調(diào)整分為3部分: 語(yǔ)音時(shí)長(zhǎng)調(diào)整、基頻調(diào)整和頻譜包絡(luò)調(diào)整.
圖1 語(yǔ)音-歌聲轉(zhuǎn)換系統(tǒng)算法的流程圖Fig.1 Flow chart of algorithm for speech-to-singing voice conversion system
語(yǔ)音時(shí)長(zhǎng)調(diào)整較為簡(jiǎn)單,系統(tǒng)按照相應(yīng)的音符的持續(xù)時(shí)間來(lái)拉伸或壓縮字的持續(xù)時(shí)間.一般情況下,說(shuō)話語(yǔ)速較快,通常使用線性插值對(duì)波形進(jìn)行拉伸處理.均勻拉伸的語(yǔ)音幀是以字為單位,同時(shí)需要對(duì)語(yǔ)音幀進(jìn)行預(yù)處理,即對(duì)每個(gè)字的時(shí)域波形的首末位置補(bǔ)零.預(yù)處理的目的主要是消除波形的跳變,形成過(guò)渡,減少噪聲.
下面重點(diǎn)對(duì)基于最小二乘法(Least square method)的基頻調(diào)整和基于GMM的頻譜包絡(luò)調(diào)整進(jìn)行介紹.
普通說(shuō)話語(yǔ)音和歌唱聲音主要差異在于基頻的不同,文獻(xiàn)[12]證明了基頻特征在音樂(lè)轉(zhuǎn)換中的作用大于頻譜特征.基頻代表說(shuō)話人聲帶每次開啟和關(guān)閉的時(shí)間間隔,反映了聲調(diào)的變化.基頻的大小取決于聲帶的大小、厚薄、松緊程度以及聲門上下之間的氣壓差的效應(yīng)等.我們利用World分析法獲取基頻,過(guò)程分為3步:
1) 使用不同截止頻率的低通濾波器進(jìn)行濾波,如果濾波后的信號(hào)只包含一個(gè)周期的信號(hào),即為基音周期,由于基音周期未知,算法會(huì)使用多個(gè)不同截止頻率的濾波器去濾波;
圖2 《瀟灑走一回》的樂(lè)譜基頻Fig.2 Music fundamental frequency in “Walk Gracefully Once”
2) 計(jì)算基頻候選以及置信度,取4個(gè)周期,計(jì)算每個(gè)周期的過(guò)零率、峰值、各個(gè)斜率對(duì)應(yīng)的區(qū)間,理論上4個(gè)周期波形所對(duì)應(yīng)的3個(gè)參量一致,所以以此為標(biāo)準(zhǔn)計(jì)算置信度;
3) 選取置信度最高的頻率作為最后的基頻.
當(dāng)將說(shuō)話聲音轉(zhuǎn)換為歌唱聲音時(shí),丟棄說(shuō)話聲音的基頻輪廓,使用歌曲的音頻來(lái)替代生成歌唱聲音的基頻輪廓,圖2為《瀟灑走一回》的樂(lè)譜基頻.因此說(shuō)話人語(yǔ)音的基頻按照如圖2所示的基頻進(jìn)行修正.
如果使語(yǔ)音基頻等于對(duì)應(yīng)音符的頻率,合成的歌聲不會(huì)存在顫音,導(dǎo)致歌聲自然度降低.為了提高合成歌聲的自然度,文獻(xiàn)[12]提出合成基頻輪廓應(yīng)具有局部基頻波動(dòng)變化(圖3),這類波動(dòng)包含在各種歌唱聲音中,并影響歌唱聲音的聽感.根據(jù)基頻的變化,本文可以將基頻分為兩部分處理,基頻的跳變區(qū)[13-14]、基頻的平穩(wěn)區(qū)[15].在傳統(tǒng)方法中,這兩個(gè)部分的波動(dòng)都是通過(guò)一個(gè)2階系統(tǒng)的傳遞函數(shù)[12]來(lái)實(shí)現(xiàn):
(1)
其中:ω是自然頻率;λ是阻尼系數(shù);k是系統(tǒng)的比例增益.式(1)所表達(dá)基頻圖譜的修正如圖3(a)所示,(b)中藍(lán)線為某歌手歌唱時(shí)的實(shí)際基頻,顫音的存在造成(b)與圖2之間的差異,(c)為實(shí)際歌聲某一區(qū)間上的頻譜圖.
圖3 《瀟灑走一回》帶有顫音的歌聲基頻Fig.3 Singing voice fundamental frequency with vibrato in “Walk Gracefully Once”
式(1)的參數(shù)ω,λ,k影響顫音的振蕩衰減區(qū)間和振蕩幅度,其中ω影響波動(dòng)衰減的快慢,k為波動(dòng)的幅度,傳統(tǒng)的基于聲學(xué)參數(shù)修改的語(yǔ)音轉(zhuǎn)歌唱的算法[12]的ω過(guò)小,顫音的振蕩衰減區(qū)間過(guò)小,頻譜和聽感上很難體現(xiàn)顫音的效果.本文嘗試用機(jī)器學(xué)習(xí)的方法尋找合適的參數(shù).
式(1)作用在頻域上: 在平穩(wěn)區(qū)構(gòu)造三角函數(shù)擬合顫音;在跳變區(qū)構(gòu)造帶有衰減的三角函數(shù)擬合顫音.基于此構(gòu)造時(shí)域上的公式:
(2)
其中:f0為樂(lè)譜的基頻;f0_system為合成音樂(lè)基頻;k1,k2對(duì)應(yīng)式(1)中的k;ω2對(duì)應(yīng)式(1)中的ω;ω1決定基頻跳變區(qū)所產(chǎn)生帶有衰減正弦信號(hào)的衰減速度.當(dāng)f0_music是目標(biāo)音樂(lè)的基頻時(shí),目標(biāo)函數(shù)為
(3)
式(2)的函數(shù)形式為曲線,式(3)非常適合用非線性最小二乘法去尋找最佳參數(shù).擬合曲線的損失函數(shù)如下:
(4)
其中:N代表切分的基頻跳動(dòng)區(qū)和基頻平穩(wěn)區(qū)數(shù)量;T代表切分區(qū)域內(nèi)基頻采樣點(diǎn)數(shù)量;τ為切分區(qū)域內(nèi)的基頻采樣點(diǎn)距離所在區(qū)域起始位置的時(shí)間.通過(guò)機(jī)器學(xué)習(xí)中最小二乘法來(lái)最小化損失函數(shù),最終獲得最優(yōu)的參數(shù)的組合,用于擬合歌聲基頻的實(shí)際顫音.式(4)非線性最小二乘法不能像線性最小二乘法那樣用求多元函數(shù)極值的辦法來(lái)得到參數(shù)估計(jì)值.考慮到波動(dòng)的周期性以及衰減函數(shù)存在唯一最大值,系統(tǒng)使用搜索算法計(jì)算未知參量,先利用最大值估計(jì)出k1和k2,再利用周期估計(jì)出ω2的取值,然后固定這3個(gè)參量,去搜索計(jì)算ω1.最后通過(guò)ω1去搜索上面3個(gè)參數(shù),依次迭代,直到收斂.
系統(tǒng)通過(guò)修改語(yǔ)音的頻譜參數(shù)生成歌音中帶有特定峰值的頻譜包絡(luò).文獻(xiàn)[9]表明,歌唱聲音的頻譜包絡(luò)在3kHz附近有一個(gè)叫做“歌唱共振峰”的顯著峰值,文獻(xiàn)[8,16-18]的研究證實(shí)了這種類型的聲學(xué)特征包含在各種不同的歌聲中,影響著人們的聽感.
World分析法通過(guò)CheapTrick方法獲得頻譜包絡(luò)信息.語(yǔ)音按照基頻的周期為單位進(jìn)行分段,以此保證波形和頻譜的平滑連續(xù).對(duì)于加窗以后的時(shí)域信號(hào)進(jìn)行傅里葉變換獲得對(duì)應(yīng)的頻譜,然后在三角窗內(nèi)對(duì)信號(hào)進(jìn)行平滑,再利用倒譜方法,求取頻譜的包絡(luò)信息:
F(f)=exp(F[ls(τ)lq(τ)ps(τ)]),
(5)
其中:ls(τ)為低通濾波器;lq(τ)為消除平滑造成的畸變;ps(τ)為倒譜.在倒譜中,頻譜的包絡(luò)對(duì)應(yīng)著倒譜的低頻信息.根據(jù)文獻(xiàn)[9,12]增加譜包絡(luò)在3kHz的能量,
Fmusic(f)=W(f)F(f),
(6)
(7)
其中:F(f)是說(shuō)話人的頻譜包絡(luò);W(f)是設(shè)置的權(quán)重函數(shù);Fs是本文關(guān)注的3kHz;k為系統(tǒng)設(shè)置的增加權(quán)重;Fb為人為設(shè)置的帶寬,根據(jù)共振峰衰減情況,這個(gè)值較大,區(qū)間為1kHz~2kHz.
式(6),(7)是一種簡(jiǎn)單的加權(quán)函數(shù),作用的頻域范圍單一.頻譜包絡(luò)只在3kHz位置處生成音樂(lè)共振峰,但實(shí)際中,共振峰只是出現(xiàn)在3kHz附近的區(qū)間.式(6),(7)無(wú)法動(dòng)態(tài)地調(diào)整共振峰位置.本文利用高斯混合模型(GMM)建模,去學(xué)習(xí)頻譜包絡(luò)的變化規(guī)律.我們?cè)诘趖幀獲取說(shuō)話人語(yǔ)音的頻譜包絡(luò)信息xt=[xt(1),xt(2),…,xt(Dx)]和歌聲的頻譜包絡(luò)信息yt=[yt(1),yt(2),…,yt(Dy)],用GMM建模,得
(8)
其中:z是表達(dá)為zt=[xt;yt]的聯(lián)合向量;α是GMM中各個(gè)高斯分布所占有的權(quán)重;均值向量和協(xié)方差矩陣
(9)
使用期望最大化(Expectation Maximization, EM)算法去訓(xùn)練GMM.利用訓(xùn)練后的GMM,在已知說(shuō)話人頻譜包絡(luò)的情況下可以用最大似然估計(jì)求取我們需要的音樂(lè)頻譜包絡(luò):
(10)
構(gòu)造輔助函數(shù)[19]
(11)
這部分內(nèi)容研究語(yǔ)音轉(zhuǎn)歌聲系統(tǒng),包括系統(tǒng)參數(shù)的計(jì)算和合成歌聲的評(píng)估.
實(shí)驗(yàn)選擇阿卡貝拉的歌聲庫(kù)Dataset_Chitralekha_ISMIR2018和發(fā)布的中文清唱用于分析歌聲系數(shù).根據(jù)計(jì)算和分析,因?yàn)橐魳?lè)本身具有多樣性,個(gè)人的唱法也對(duì)歌聲參數(shù)有極大的影響,因此用單一的參數(shù)描述歌聲聲學(xué)特征是不夠的,表1為式(2)中基頻跳變區(qū)中部分參數(shù)的取值規(guī)律.
表1 基頻跳變區(qū)的參數(shù)
歌聲參數(shù)復(fù)雜多樣,本文嘗試從音樂(lè)種類和音頻變化趨勢(shì)來(lái)尋找規(guī)律.從表1可以看到,k取值范圍較大,但是取值范圍和基頻跳變的幅度有一定的關(guān)系,整體上成正相關(guān);對(duì)于ω2,參數(shù)的取值主要和歌曲類型有關(guān),歌聲越輕緩,ω2越小.因此基頻跳變幅度和歌曲類型對(duì)我們?cè)O(shè)置參數(shù)有一定的指導(dǎo)作用.
圖4給出了式(2)擬合2.5ms基頻平穩(wěn)間內(nèi)的顫音的情況,縱軸為基頻頻率f(Hz),橫軸為時(shí)間軸,黑點(diǎn)w為歌聲的采樣點(diǎn),藍(lán)線為擬合的函數(shù)曲線,其中圖4(a)只使用了一個(gè)函數(shù),圖4(b)中使用了2個(gè)函數(shù)擬合區(qū)間上的2個(gè)片段.
圖4 式(2)擬合2.5ms基頻平穩(wěn)間內(nèi)的顫音Fig.4 Formula (2) fitting tremolo in 2.5ms fundamental frequency stationary interval
如圖4(a)所示,很多采樣點(diǎn)并沒有坐落在擬合函數(shù)的曲線上,造成較大的誤差.當(dāng)對(duì)語(yǔ)音幀分段,每段語(yǔ)音分別進(jìn)行函數(shù)擬合,擬合誤差將得到改良,如圖4(b),(c),大部分點(diǎn)都坐落在擬合曲線上.函數(shù)擬合歌聲的顫音可以視為多個(gè)不同的正弦波拼接而成,顫音的參數(shù)在不同的時(shí)間段內(nèi)是不同的.這說(shuō)明傳統(tǒng)方法用單一的顫音參數(shù)進(jìn)行歌聲合成是不夠的.本文使用分段函數(shù)來(lái)擬合,可以增加歌聲的多樣性,以求更真實(shí)的表現(xiàn)歌聲的形式.
實(shí)驗(yàn)中,聽眾分別去聽真實(shí)歌聲與合成歌聲并進(jìn)行評(píng)價(jià).合成版的歌聲包括2種: 一種為傳統(tǒng)濾波器方法合成;另外一種為我們方法合成的.例如對(duì)《瀟灑走一回》,式(2)設(shè)置參數(shù)如下:
k1=|f0t-f0t+1|×2e-0.01|f0t-f0t+1|(Hz),
(12)
k2=7.5±2.5(Hz),
(13)
ω1=5±3(rad·ms-1),
(14)
ω2=8±1(rad·ms-1),
(15)
其中:f0t為樂(lè)譜當(dāng)前節(jié)拍的基音頻率;|f0t-f0t+1|代表當(dāng)前節(jié)拍與后一節(jié)拍的跳變值.與真實(shí)歌聲相比,2種方法合成的歌聲的自然度相同,但仍然到不了真實(shí)水平,這是基于修改普通人說(shuō)話語(yǔ)音的頻譜系統(tǒng)的局限性.說(shuō)話語(yǔ)音和歌聲的激勵(lì)方式不同,說(shuō)話語(yǔ)音的音質(zhì)較差,生成的歌聲聽感也差;在對(duì)頻譜進(jìn)行修改時(shí),譜顫音變化在高頻諧波部分集中體現(xiàn),通過(guò)機(jī)器學(xué)習(xí)獲得的實(shí)驗(yàn)參數(shù)和實(shí)際歌聲聲學(xué)特征必然存在誤差,但即使只有較小的偏差,在高頻諧波部分就會(huì)放大,歌聲不自然度就會(huì)提高;同時(shí)利用GMM轉(zhuǎn)換存在過(guò)平滑的問(wèn)題,這影響頻譜輪廓的生成.所以基于修改頻譜的語(yǔ)音轉(zhuǎn)歌聲系統(tǒng)仍然需要改進(jìn).
雖然2種合成歌聲自然度相同,但本文方法合成的歌聲在個(gè)別時(shí)間段(圖5的黑色框圖標(biāo)示區(qū)域)可以很好地仿真歌手帶有顫音的歌聲,同時(shí)在其他區(qū)間又和傳統(tǒng)方法相對(duì)緩和,這說(shuō)明我們的方法可以實(shí)現(xiàn)合成歌聲的多樣性.從頻譜圖(圖5)可以觀察到本實(shí)驗(yàn)合成歌聲與傳統(tǒng)方法合成歌聲的差異,兩者能量分布在大部分區(qū)間上基本一致,橙色越深,能量越高.其中藍(lán)色區(qū)域?qū)儆陬l譜能量極低的區(qū)域,這是按照節(jié)拍調(diào)整說(shuō)話語(yǔ)音所產(chǎn)生的靜音幀.但本系統(tǒng)考慮了前后音節(jié)差值,圖5的黑色框圖標(biāo)示區(qū)間能量的分布出現(xiàn)差異.在黑色框圖標(biāo)示區(qū)間內(nèi),圖5(a)中能量波動(dòng)劇烈,反應(yīng)出顫音衰減幅度大;而圖5(b)中顫音幅度和其他區(qū)間相近,生成的顫音很少.與圖3(c)的實(shí)際頻譜圖相比,我們方法的頻譜圖更為接近,既有譜線振蕩劇烈的區(qū)間,也有譜線相對(duì)平穩(wěn)的區(qū)間.
除了表現(xiàn)歌聲多樣性,本文還重點(diǎn)關(guān)注歌聲的聲學(xué)參數(shù).本實(shí)驗(yàn)通過(guò)機(jī)器學(xué)習(xí)的方式得到多組參數(shù),利用多組參數(shù)組合去合成更真實(shí)的頻譜,用來(lái)提高歌聲的聽感.由于音樂(lè)的多樣性,需要根據(jù)不同情況進(jìn)行分析,例如音樂(lè)種類和音樂(lè)基頻變化幅度,甚至還有聽眾自身的喜好.雖然參數(shù)具有多樣性,但通過(guò)尋找規(guī)律,仍然可以確定歌聲參數(shù)所在的區(qū)間.實(shí)驗(yàn)發(fā)現(xiàn),歌聲的種類與顫音震蕩周期有關(guān),在構(gòu)造濾波器時(shí),音樂(lè)越舒緩,式(1)中的ω2越小,這樣系統(tǒng)可以表現(xiàn)更真實(shí)的音樂(lè)基調(diào);顫音的衰減幅度與前后音節(jié)有關(guān),設(shè)置的參數(shù)k需要和前后的音節(jié)差值成正相關(guān),這樣頻譜中的音節(jié)過(guò)渡更真實(shí).
圖5 2種方法合成歌聲的頻譜圖Fig.5 The spectrogram of composite songs by two methods
實(shí)驗(yàn)并沒有使用主觀評(píng)分的方式判斷合成歌聲的優(yōu)劣,而是利用聽眾評(píng)價(jià)的方法,這樣可以根據(jù)聽眾的評(píng)價(jià)來(lái)尋找更多歌聲參數(shù)的規(guī)律.例如聽眾反映以e、o元音結(jié)尾的歌詞在沒有顫音的情況下,聽覺效果更佳;也有聽眾反映長(zhǎng)節(jié)拍的音素使用振幅更大的顫音會(huì)有更好的效果.這說(shuō)明除了旋律、音色等因素,音素也對(duì)合成歌聲也有極大的影響.
本文通過(guò)尋找歌聲參數(shù)規(guī)律可實(shí)現(xiàn)歌聲一定的多樣性,但在實(shí)際中還有更多需要關(guān)注的部分,這是今后的研究方向.
綜上所述,本文設(shè)計(jì)了一種基于機(jī)器學(xué)習(xí)的語(yǔ)音轉(zhuǎn)歌聲的合成系統(tǒng).該系統(tǒng)通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練出傳遞函數(shù)的參數(shù),然后利用學(xué)習(xí)后的轉(zhuǎn)換函數(shù)修改語(yǔ)音的聲學(xué)特征,包括基頻和頻譜包絡(luò),并延長(zhǎng)語(yǔ)音時(shí)長(zhǎng),將語(yǔ)音轉(zhuǎn)換為歌聲.實(shí)驗(yàn)結(jié)果表明: 系統(tǒng)能夠合成出較好的歌唱聲音.系統(tǒng)的算法簡(jiǎn)單有效,可實(shí)現(xiàn)音樂(lè)一定的多樣性,這大大提高了系統(tǒng)的實(shí)用性.
未來(lái)的工作還將繼續(xù)改善語(yǔ)音轉(zhuǎn)歌聲算法:
1) 理想情況下,我們希望輸入一段完整的語(yǔ)音進(jìn)行處理,這樣可以簡(jiǎn)化用戶的操作.但目前我們使用的仍然是切分的語(yǔ)音.主要是因?yàn)槟壳皼]有簡(jiǎn)單的方法進(jìn)行語(yǔ)音切分,僅靠語(yǔ)音端點(diǎn)檢測(cè)效果完全不可行,這反而要涉及更復(fù)雜的語(yǔ)音檢測(cè)或語(yǔ)音識(shí)別.所以目前合成器應(yīng)用只局限在可切分的語(yǔ)音.
2) 記錄每個(gè)節(jié)拍的長(zhǎng)度也大大降低了合成器的實(shí)用性,因?yàn)橐魳?lè)的節(jié)拍不固定,難以找到規(guī)律,所以目前系統(tǒng)只能人為固定歌詞的節(jié)拍.后續(xù)工作中,我們會(huì)通過(guò)機(jī)器學(xué)習(xí)的方式學(xué)習(xí)到歌詞對(duì)應(yīng)樂(lè)譜的位置, 考慮到這是時(shí)間序列的計(jì)算,理想的模型有HMM和LSTM.
3) 基頻的調(diào)整使用非線性最小二乘法的搜索算法,效率較低.我們需要尋找更好的算法或者構(gòu)造更簡(jiǎn)單的數(shù)學(xué)公式去擬合.
4) 系統(tǒng)整體設(shè)計(jì)思路的改進(jìn).從程序的算法上來(lái)看,這類似一個(gè)數(shù)組的拼接過(guò)程.如果一個(gè)節(jié)拍計(jì)算出現(xiàn)錯(cuò)誤,后面所有的節(jié)拍會(huì)全部出錯(cuò).將來(lái)會(huì)引用類似標(biāo)簽的方式,將歌詞固定在它所在的節(jié)拍上,從而提高系統(tǒng)的容錯(cuò)率.
5) 系統(tǒng)并沒有改變一個(gè)人的音色,但考慮到普通人在音質(zhì)上仍然低于歌手,我們希望將來(lái)的工作修改這一問(wèn)題,對(duì)用戶的音色進(jìn)行修正.
復(fù)旦學(xué)報(bào)(自然科學(xué)版)2019年3期