楊 楠
(華中科技大學(xué)電子信息與通信學(xué)院 武漢 430074)
?
基于頻譜建模合成技術(shù)的自動(dòng)音調(diào)修正系統(tǒng)*
楊 楠
(華中科技大學(xué)電子信息與通信學(xué)院 武漢 430074)
保留音色的音調(diào)修正問(wèn)題一直是困擾音樂(lè)類應(yīng)用發(fā)展的技術(shù)難題。論文結(jié)合自動(dòng)修音的應(yīng)用需求,實(shí)現(xiàn)了一套基于頻譜建模合成(Spectral Modeling Synthesis,SMS)技術(shù)的自動(dòng)音調(diào)修正系統(tǒng)。它通過(guò)清濁音判決和音調(diào)檢測(cè)來(lái)實(shí)時(shí)提取歌聲的音調(diào)(音高),并與正確的參考音調(diào)(樂(lè)譜)進(jìn)行對(duì)比,確定需要修正的跑調(diào)部分,最后采用論文提出的一種基于SMS技術(shù)的合成方法對(duì)歌聲進(jìn)行音調(diào)修正,通過(guò)保留其原有的頻譜包絡(luò)來(lái)確保修正后音色不變。論文對(duì)系統(tǒng)的清濁音判決算法和音調(diào)檢測(cè)算法進(jìn)行了客觀評(píng)價(jià),對(duì)歌聲音調(diào)修正效果進(jìn)行了主觀聽(tīng)音評(píng)價(jià),均達(dá)到了良好的效果。
音調(diào)修正; 頻譜建模合成; 清濁音判決; 音調(diào)檢測(cè)
Class Number TN912.33
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2015年報(bào)告顯示,網(wǎng)絡(luò)音樂(lè)目前是中國(guó)網(wǎng)民的第四大網(wǎng)絡(luò)應(yīng)用。在各種音樂(lè)類應(yīng)用中,以“唱吧”、“全民K歌”等為代表的K歌類移動(dòng)應(yīng)用異軍突起,并在短期內(nèi)發(fā)展到上億用戶規(guī)模。但是,與國(guó)外同類應(yīng)用(如:“Sing for Singapore”、“Vocal Transformer Karaoke”)相比,國(guó)內(nèi)的應(yīng)用僅提供去噪、混響等簡(jiǎn)單的聲音修飾功能,普遍缺少音調(diào)修正這樣的高級(jí)功能。由于保留音色的音調(diào)修正問(wèn)題一直是該領(lǐng)域的技術(shù)難題,本文結(jié)合自動(dòng)修音的應(yīng)用需求,提出了一種基于SMS技術(shù)的合成方法,并實(shí)現(xiàn)了一套融合清濁音判決、音調(diào)檢測(cè)、音調(diào)修正與合成等環(huán)節(jié)的自動(dòng)音調(diào)修正系統(tǒng)。
早期的音調(diào)修正主要有時(shí)域和頻域兩類方法[1]。時(shí)域方法以時(shí)域基音同步疊加(Time Domain Pitch Synchronous Overlap and Add,TD-PSOLA)為代表,它是由Charpentier和Stella在1986年提出[2],主要用于語(yǔ)音合成,但也可以用于修改音調(diào)。它是通過(guò)調(diào)整時(shí)域中幀與幀的重疊范圍來(lái)改變聲音的基音周期長(zhǎng)度,從而起到調(diào)整音調(diào)的效果。由于時(shí)域中原始信號(hào)的大部分形狀得以保留,所以音色特征在音調(diào)修正后基本保持不變。但是,由于幀與幀重疊范圍的變化會(huì)引起時(shí)延的改變,連續(xù)幀間各頻率分量的相位連續(xù)性會(huì)被破壞,音調(diào)變化較大時(shí)會(huì)出現(xiàn)比較明顯的回聲效應(yīng)。此外,降調(diào)幅度足夠大時(shí),各幀信號(hào)不再重疊,會(huì)破壞信號(hào)的連貫性。
音調(diào)修正的頻域方法主要是改進(jìn)相位聲碼器(Modified Phase Vocoder)方法,它是由Laroche和Dolson在1999年提出[3],主要通過(guò)頻譜搬移對(duì)聲音進(jìn)行修改,同時(shí)調(diào)整各頻率段的相位以保持相位連續(xù)性。與時(shí)域方法相比,它允許較大幅度的音調(diào)修正。但是,改進(jìn)相位聲碼器方法的一個(gè)顯著的缺點(diǎn)是它改變了音色,被修正后的聲音與演唱者的聲音會(huì)有一定的差異。
語(yǔ)音學(xué)中,共振峰表示聲道聲學(xué)共振產(chǎn)生的頻譜最大值的頻率范圍,共振峰頻率和帶寬的細(xì)微變化反映了歌手聲道的物理特征和歌手的個(gè)人音色[4]。因此,在保留音色的前提下對(duì)音調(diào)進(jìn)行修正的問(wèn)題可以轉(zhuǎn)化為這樣一個(gè)抽象問(wèn)題:保持聲音信號(hào)共振峰不變的前提下,修正各諧波分量的頻率并保證相位的連續(xù)性。
頻譜建模技術(shù)可以有效解決上述問(wèn)題,它將聲音建模為頻率分量的和,且用振幅和頻率函數(shù)來(lái)實(shí)現(xiàn)聲音信號(hào)的參數(shù)化描述,從而可以更直觀、靈活地操縱各頻率分量的頻率、相位以及振幅。加法合成技術(shù)和SMS技術(shù)是此類方法的代表。加法合成技術(shù)是將信號(hào)建模為一系列正弦的和,但是不適用于表示類噪聲信號(hào)。Serra和Smith 1989年提出的SMS技術(shù)加入了表示噪聲的隨機(jī)分量[5],更符合人聲建模。Di Federico和Drioli 1998年首次提出將SMS技術(shù)應(yīng)用于音調(diào)修正的設(shè)想,但是未見(jiàn)其實(shí)現(xiàn)細(xì)節(jié)[6]。此外,Azarov等在2013年還提出了能進(jìn)一步描述子諧波分量的GUSLY模型[7],該模型對(duì)頻譜的建模更加細(xì)致,實(shí)現(xiàn)起來(lái)也比SMS復(fù)雜得多。
綜合可行性和復(fù)雜度等因素的考量,本文采用SMS技術(shù)來(lái)實(shí)現(xiàn)自動(dòng)音調(diào)修正功能,并設(shè)計(jì)了一套完備的系統(tǒng)實(shí)現(xiàn)框架。該框架主要包括音調(diào)分析和音調(diào)修正兩部分,系統(tǒng)框架圖如圖1所示。
圖1 自動(dòng)音調(diào)修正系統(tǒng)框架圖
SMS技術(shù)是音調(diào)修正功能的核心,它是一種基于確定加隨機(jī)模型的聲音分析/合成技術(shù),它具體包含確定加隨機(jī)模型、分析以及合成等三個(gè)組成部分。
2.1 確定加隨機(jī)模型
SMS技術(shù)假定輸入的聲音由確定分量加隨機(jī)分量組成。其中,確定分量限定為一系列準(zhǔn)正弦信號(hào)的和,每個(gè)正弦建模聲音信號(hào)的一個(gè)窄帶分量,隨機(jī)分量即噪聲信號(hào)。因此,聲音信號(hào)被表示為
(1)
其中,Ar(t)和θr(t)分別為第r個(gè)正弦分量的瞬時(shí)振幅和瞬時(shí)相位;e(t)為t時(shí)刻的噪聲分量。瞬時(shí)相位是瞬時(shí)頻率ωr(t)的積分:
(2)
2.2 分析部分
SMS技術(shù)的分析部分是將聲音信號(hào)用一系列模型參數(shù)描述,其中確定分量的參數(shù)是在頻域估計(jì)得到的。確定分量的分析流程如圖2所示: 1) 對(duì)輸入的聲音信號(hào)分幀、加窗、進(jìn)行傅里葉變換,得到各幀信號(hào)的頻譜; 2) 峰值檢測(cè),即提取信號(hào)幅值頻譜中的顯著局部最大值; 3) 峰值延續(xù),即將檢測(cè)到的峰值的子集組成一系列峰值軌跡,每個(gè)軌跡表示輸入的聲音信號(hào)中一個(gè)穩(wěn)定的正弦分量。
圖2 確定分量分析流程圖
?峰值檢測(cè)
根據(jù)信號(hào)頻譜分析的原理,幅值頻譜中的各顯著峰值近似對(duì)應(yīng)信號(hào)中的各正弦分量。由于DFT的柵欄效應(yīng),各顯著峰值對(duì)應(yīng)的頻率是信號(hào)中實(shí)際正弦分量頻率的近似值。一種標(biāo)準(zhǔn)的解決方案是對(duì)峰值附近幅值最大的三個(gè)點(diǎn)(一般取峰值及其左右相鄰點(diǎn))進(jìn)行拋物線擬合,并用拋物線頂點(diǎn)(最大值)對(duì)應(yīng)的頻率作為正弦分量頻率的估計(jì)值。已知信號(hào)為一個(gè)純正弦波、分析窗為高斯窗、幅值頻譜用dB表示時(shí),該方案能得到精確的正弦分量頻率。
?峰值延續(xù)
峰值延續(xù)可以理解為線檢測(cè)問(wèn)題。對(duì)于諧波結(jié)構(gòu)的聲音,如果檢測(cè)到當(dāng)前幀的基頻,尋找距離基頻對(duì)應(yīng)的各次諧波頻率最近的顯著峰值,從而確定每一幀中各峰值軌跡上的峰值。
隨機(jī)分量的分析流程如圖3所示: 1)根據(jù)確定分量分析得到的峰值軌跡,利用加法合成技術(shù),合成確定分量; 2) 計(jì)算確定分量的頻譜,計(jì)算方法與原始聲音的相同; 3) 采用頻域減法,從原始聲音的幅值頻譜中減去相應(yīng)的確定分量的幅值頻譜,得到殘余部分的幅值頻譜; 4) 采用線段逼近方法,獲取殘余部分幅值頻譜的包絡(luò)。隨機(jī)分量即用這些頻譜包絡(luò)表示。
圖3 隨機(jī)分量分析流程圖
2.3 合成部分
SMS技術(shù)的合成部分與分析部分的功能相反,它通過(guò)確定加隨機(jī)模型的參數(shù)合成出新的聲音信號(hào)。具體流程如圖4所示: 1) 根據(jù)各峰值軌跡的振幅、頻率參數(shù),采用加法合成技術(shù)生成各幀信號(hào)的確定分量的時(shí)域表示; 2) 根據(jù)隨機(jī)分量的頻譜包絡(luò)合成其幅值頻譜,并用隨機(jī)數(shù)生成器產(chǎn)生其相位譜,合成復(fù)頻譜,并采用逆傅里葉變換生成各幀信號(hào)的隨機(jī)分量的時(shí)域表示; 3) 利用重疊相加技術(shù)合成完整的信號(hào)。
圖4 SMS技術(shù)合成部分流程圖
一個(gè)完整的音調(diào)修正系統(tǒng)框架如圖5所示。一個(gè)完整的音調(diào)修正系統(tǒng)除了音調(diào)修正部分以外,音調(diào)分析部分也同樣重要。它先通過(guò)清濁音判決算法從音頻信號(hào)中提取出有效的濁音信號(hào)(濁音信號(hào)才有音調(diào),清音信號(hào)沒(méi)有音調(diào)),然后對(duì)濁音信號(hào)進(jìn)行音調(diào)檢測(cè),并將分析結(jié)果與歌曲的標(biāo)準(zhǔn)音調(diào)(樂(lè)譜)進(jìn)行對(duì)比,從而驅(qū)動(dòng)后續(xù)的音調(diào)修正功能。
圖5 自動(dòng)音調(diào)修正系統(tǒng)流程圖
3.1 標(biāo)準(zhǔn)音調(diào)
標(biāo)準(zhǔn)音調(diào)是自動(dòng)判別歌聲跑調(diào)的參考依據(jù)。由于一首歌的旋律是固定的,所以可以根據(jù)歌曲的樂(lè)譜人工制作標(biāo)準(zhǔn)音調(diào)數(shù)據(jù),記錄各音符的信息。它們可以以規(guī)定的文件形式存儲(chǔ),并由音調(diào)修正系統(tǒng)在初始化時(shí)載入。標(biāo)準(zhǔn)音調(diào)的文件格式一般是一行對(duì)應(yīng)一句歌詞,行內(nèi)格式為
[TSi,DSi]〈TWi1,DWi1,Pi1〉字i1…〈TWij,DWij,Pij〉字ij…
(3)
其中,TSi、DSi分別為第i句歌詞的開(kāi)始時(shí)刻和持續(xù)時(shí)間,TWij、DWij、Pij、字ij分別為第i句歌詞中第j個(gè)音符的開(kāi)始時(shí)刻、持續(xù)時(shí)間、標(biāo)準(zhǔn)音調(diào)MIDI值和對(duì)應(yīng)的歌詞,時(shí)間的單位均為ms。如張震岳的《愛(ài)我別走》中第一句歌詞可以記錄為
[24333,2334]〈24333,334,67〉我〈24667,333,67〉到〈25000,333,67〉了〈25333,334,67〉這〈25667,333,67〉個(gè)〈26000,333,67〉時(shí)〈26333,334,67〉候
雖然人工制作標(biāo)準(zhǔn)音調(diào)文件比較費(fèi)時(shí),但是操作起來(lái)簡(jiǎn)單有效。當(dāng)然還有其它提供標(biāo)準(zhǔn)音調(diào)的方法,如從MIDI文件讀取或用MIDI音序器寫(xiě)入、從專業(yè)歌手演唱的相同歌曲的音頻中提取等,這又屬于另外的研究領(lǐng)域,這里不做贅述。
3.2 清濁音判決
清濁音判決又被稱為濁音/清音/無(wú)聲分類,它是后續(xù)音調(diào)分析及修正的前提。清濁音判決方法有很多,常見(jiàn)的清濁音判決方法大多將語(yǔ)音信號(hào)的特征參數(shù)作為判決的標(biāo)準(zhǔn)。常用的特征參數(shù)包括短時(shí)過(guò)零率、短時(shí)能量以及線性預(yù)測(cè)編碼得到的參數(shù)。
本文采用結(jié)合信號(hào)的短時(shí)平均過(guò)零率和短時(shí)平均能量進(jìn)行清濁音判決。濁音信號(hào)的能量主要集中于3kHz以下,平均過(guò)零率相對(duì)較低;清音信號(hào)的能量主要集中于較高頻率,平均過(guò)零率相對(duì)較高。因此,過(guò)零率可用于清濁音判決。另外,濁音段的短時(shí)平均能量一般比清音段的或背景噪聲的大得多。
將短時(shí)平均過(guò)零率Zn和短時(shí)平均能量En分別單獨(dú)作為特征參數(shù)進(jìn)行清濁音判決時(shí),兩種方法各有優(yōu)缺點(diǎn)。將兩個(gè)參數(shù)結(jié)合起來(lái),可以提高清濁音判決的準(zhǔn)確性[8]:對(duì)于一幀語(yǔ)音信號(hào),如果Zn和En值都為零或者都很小,判定該幀為無(wú)聲信號(hào);如果Zn值較小,但是En值較大,判定該幀為濁音信號(hào);如果Zn值較大,但是En值較小,判定該幀為清音信號(hào)。
此外,需要先設(shè)置清濁音判決時(shí)短時(shí)平均過(guò)零率和短時(shí)平均能量的閾值。對(duì)于濁音語(yǔ)音,短時(shí)平均過(guò)零率的均值約為14過(guò)零/ms;對(duì)于清音語(yǔ)音,約為49過(guò)零/ms。對(duì)于短時(shí)平均能量,一種閾值設(shè)置方法是以整段音頻的短時(shí)平均能量均值作為參考。
3.3 音調(diào)檢測(cè)
音調(diào)檢測(cè)的相關(guān)研究也有許多,為了控制系統(tǒng)整體的計(jì)算量,本文采用了雙向錯(cuò)位(Two-WayMismatch,TWM)基頻估計(jì)方法[9]。TWM基頻估計(jì)方法是基于信號(hào)的短時(shí)頻譜分析實(shí)現(xiàn)的。它的原理為:基于輸入的歌聲信號(hào)的準(zhǔn)諧波假設(shè),對(duì)于每個(gè)基頻候選,在一個(gè)固定的泛音的子集上,計(jì)算對(duì)應(yīng)的各次諧波理想頻率和實(shí)際測(cè)量得到的各泛音頻率的差異,即錯(cuò)位誤差。選取使錯(cuò)位誤差最小的基頻候選作為基頻的估計(jì)值。此外,為了避免基頻估計(jì)值為實(shí)際基頻的約數(shù)或整數(shù)倍,進(jìn)行雙向錯(cuò)位誤差計(jì)算。
雙向錯(cuò)位誤差的計(jì)算公式為
(4)
其中,Errm-p為檢測(cè)-預(yù)測(cè)錯(cuò)位誤差,Errp-m為預(yù)測(cè)-檢測(cè)錯(cuò)位誤差。
檢測(cè)-預(yù)測(cè)錯(cuò)位誤差的計(jì)算公式為
×[q×Δfk×(fk)-p-r]
(5)
其中,K為測(cè)量得到的泛音(包括基頻)的數(shù)目,Δfk為第k次泛音與理想諧波頻率序列中頻率最近值的差值,fk和ak分別為第k次泛音的頻率和振幅,Amax為測(cè)量得到的各泛音振幅的最大值,p、q、r分別為0.5、1.4、0.5。
預(yù)測(cè)-檢測(cè)錯(cuò)位誤差的計(jì)算公式為
×[q×Δfn×(fn)-p-r]
(6)
其中,N為最大理想諧波次數(shù),Δfn為第n次諧波的理想頻率與測(cè)量的泛音頻率序列中頻率最近值的差值,fn為第n次諧波的理想頻率,an為與第n次諧波的理想頻率最近的測(cè)量的泛音頻率對(duì)應(yīng)的振幅。
對(duì)于各幀信號(hào),將給定的歌聲最小基頻值和最大基頻值間的各頻譜峰值的頻率作為基頻候選。如果連續(xù)幀的基頻相對(duì)穩(wěn)定,可以進(jìn)一步縮小基頻候選的頻率范圍以減少計(jì)算量。此外,為了減少非濁音幀對(duì)鄰近濁音幀音調(diào)檢測(cè)結(jié)果的影響,將歌聲信號(hào)劃分為多個(gè)濁音段,對(duì)每個(gè)濁音段分別進(jìn)行音調(diào)檢測(cè)。
3.4 音調(diào)修正
將SMS技術(shù)應(yīng)用于音調(diào)修正,主要是修改SMS技術(shù)分析得到的歌聲信號(hào)的振幅、頻率和相位參數(shù),然后合成音調(diào)修正了的歌聲信號(hào)。為了盡可能地保留音色,音調(diào)修正過(guò)程中要保持共振峰及頻譜包絡(luò)不變。具體步驟如下:
1) 修改頻率參數(shù),使各峰值軌跡上峰值的頻率為目標(biāo)音調(diào)的理想諧波頻率。
2) 為盡量保留原始歌聲的音色不變(各幀的頻譜包絡(luò)不變),各峰值頻率變換后,需要對(duì)其振幅進(jìn)行修正。用幅值頻譜中各峰值軌跡上的峰值線性連接表示頻譜包絡(luò)。對(duì)于變換后得到的各峰值,在原始信號(hào)的頻譜包絡(luò)上線性插值得到對(duì)應(yīng)的振幅。
3) 為了保持音調(diào)修正后各次諧波的相位在幀間的連續(xù)性,修改各峰值的相位。對(duì)于信號(hào)中的第一幀,各峰值的初相位取0~2π間均勻分布的隨機(jī)數(shù)即可。對(duì)于后續(xù)各幀信號(hào),使連續(xù)幀間各峰值的初相位滿足相位連續(xù)。
算法實(shí)現(xiàn)過(guò)程中發(fā)現(xiàn),如果對(duì)每一段需要音調(diào)修正的連續(xù)幀分別進(jìn)行音調(diào)修正,由于修音段與未修音段銜接處的不連續(xù)性,會(huì)產(chǎn)生較為明顯的人為噪聲。而如果對(duì)整段音頻進(jìn)行音調(diào)修正,因?yàn)镾MS技術(shù)需要較為復(fù)雜的分析、合成計(jì)算,系統(tǒng)整體的計(jì)算量會(huì)比較大,處理時(shí)延會(huì)顯著增加。為減小上述不連續(xù)性的影響,選擇對(duì)每一個(gè)包含需要音調(diào)修正的幀的濁音段進(jìn)行音調(diào)修正。
本文采用了業(yè)內(nèi)普遍使用的方法對(duì)自動(dòng)音調(diào)修正系統(tǒng)進(jìn)行了全面評(píng)測(cè):在音調(diào)分析的部分,采用標(biāo)準(zhǔn)的誤差指標(biāo)客觀評(píng)價(jià)清濁音判決算法和音調(diào)檢測(cè)算法的準(zhǔn)確性;在音調(diào)修正的部分,采用主觀評(píng)價(jià)方法[7]評(píng)價(jià)修正后的音色效果。
4.1 客觀評(píng)價(jià)
選用MIR-1K for MIREX數(shù)據(jù)集,從中隨機(jī)選取10個(gè)音頻,并采用四個(gè)標(biāo)準(zhǔn)的誤差指標(biāo)清濁音判決誤差(Voicing Decision Error,VDE)、嚴(yán)重音調(diào)誤差(Gross Pitch Error,GPE)、正確音調(diào)平均誤差(Mean Fine Pitch Error,MFPE)和基頻幀誤差(F0 Frame Error,F(xiàn)FE)[10]進(jìn)行客觀評(píng)價(jià),結(jié)果如表1所示。
表1 客觀評(píng)價(jià)結(jié)果
表中最后一行是所有測(cè)試音頻的綜合評(píng)價(jià)結(jié)果??傮w來(lái)看,所有測(cè)試的GPE為0且MFPE較小,僅為3.22%,說(shuō)明本文實(shí)現(xiàn)的音調(diào)檢測(cè)算法的準(zhǔn)確性較好。由于GPE為0,所以評(píng)價(jià)音調(diào)分析的整體誤差的FFE與清濁音判決誤差VDE相等,說(shuō)明本文音調(diào)分析的整體性能主要由清濁音判決的算法決定。而本文選用的清濁音判決算法VDE值比較大,并且對(duì)于不同的音頻文件VDE值波動(dòng)較大,說(shuō)明該算法還不是很理想,后續(xù)還有很大的改善空間。
4.2 主觀評(píng)價(jià)
對(duì)于音調(diào)修正效果的評(píng)價(jià)一般采用主觀評(píng)價(jià)方法,本文采用的是主觀對(duì)比平均意見(jiàn)得分(Comparison Mean Opinion Score,CMOS)方法。選用兩首中文流行歌曲,分別由一位男性非專業(yè)歌手和一位女性非專業(yè)歌手多次錄制,得到純?nèi)寺曇纛l。從中挑選測(cè)試片段,以評(píng)價(jià)不同音調(diào)修正幅度下該系統(tǒng)的性能。對(duì)于男聲演唱的歌曲,由于其音調(diào)一般相對(duì)較低,為達(dá)到較為明顯的觀察效果,分別選取包含偏離標(biāo)準(zhǔn)音調(diào)2個(gè)半音或3個(gè)半音的音符的片段。對(duì)于女聲演唱的歌曲,由于其音調(diào)一般相對(duì)較高,分別選取包含偏離標(biāo)準(zhǔn)音調(diào)1個(gè)半音或2個(gè)半音的音符的片段。因此,一共有8個(gè)測(cè)試片段。各個(gè)測(cè)試片段中包含的需要音調(diào)修正的音符與標(biāo)準(zhǔn)音調(diào)的偏差如表2所示。
表2 測(cè)試片段信息
分別邀請(qǐng)四個(gè)受過(guò)專業(yè)音樂(lè)培訓(xùn)的同學(xué)和四個(gè)非專業(yè)的同學(xué)參與主觀評(píng)價(jià)。對(duì)于各測(cè)試片段,將基于SMS技術(shù)的自動(dòng)音調(diào)修正系統(tǒng)的輸出音頻分別與源音頻和改進(jìn)相位聲碼器算法的輸出音頻進(jìn)行對(duì)比。對(duì)于兩音頻A和B,要求各同學(xué)對(duì)比A和B后決定“A比B好很多/好/好一點(diǎn)/幾乎相同/差一點(diǎn)/差/差很多”,其對(duì)應(yīng)的得分分別為3、2、1、0、-1、-2和-3。實(shí)驗(yàn)結(jié)果如表3所示。
表3 主觀評(píng)價(jià)結(jié)果
表3結(jié)果表明:基于SMS技術(shù)進(jìn)行音調(diào)修正后,得到的歌曲音頻一般比源音頻要好聽(tīng)一些(由于音調(diào)修正的緣故),但是變調(diào)幅度較大時(shí),音調(diào)修正效果的評(píng)價(jià)也在降低,但評(píng)分仍然維持在正數(shù)區(qū)間。此外,在大部分情況下,基于SMS技術(shù)的音調(diào)修正算法要比改進(jìn)相位聲碼器算法的修正效果好,與前面的理論分析結(jié)果一致。
本文實(shí)現(xiàn)了一套基于SMS技術(shù)的自動(dòng)音調(diào)修正系統(tǒng)。它通過(guò)清濁音判決和音調(diào)檢測(cè)來(lái)實(shí)時(shí)提取歌聲的音調(diào),并與人工制作的標(biāo)準(zhǔn)音調(diào)文件提供的音調(diào)信息進(jìn)行對(duì)比,最后采用本文提出的一種基于SMS技術(shù)的合成方法對(duì)跑調(diào)部分進(jìn)行音調(diào)修正并保持其原有音色不變。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)能提供較好的音調(diào)修正效果。
[1] Peimani M A. Pitch Correction for the Human Voice[D]. Santa Cruz: Thesis of California University, 2009.
[2] Charpentier F J, Stella M G. Diphone synthesis using an overlap-add technique for speech waveforms concatenation[C]//Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP’86. IEEE,1986,11:2015-2018.
[3] Laroche J, Dolson M. Improved phase vocoder time-scale modification of audio[J]. Speech and Audio Processing, IEEE Transactions on,1999,7(3):323-332.
[4] Kim Y E. Singing voice analysis, synthesis, and modeling[M]. New York: Handbook of Signal Processing in Acoustics, Springer,2008:359-374.
[5] Serra X, Smith J. Spectral modeling synthesis: A sound analysis/synthesis system based on a deterministic plus stochastic decomposition[J]. Computer Music Journal,1990,14(4):12-24.
[6] Di Federico R, Drioli C. An integrated system for analysis-modification-resynthesis of singing[C]//Systems, Man, and Cybernetics, 1998. 1998 IEEE International Conference on. IEEE,1998(2):1254-1259.
[7] Azarov E, Vashkevich M, Petrovsky A. Instantaneous harmonic representation of speech using multicomponent sinusoidal excitation[J]. Analysis,2013,2(3):3.
[8] 劉波,聶明新,向俊濤.基于短時(shí)能量和過(guò)零率分析的語(yǔ)音端點(diǎn)檢測(cè)方法研究[J].2007. LIU Bo, NIE Mingxin, XIANG Juntao. Research on endpoints detection of speech signal based on short-time energy and zero-crossing counts [J]. 2007.
[9] Maher R C, Beauchamp J W. Fundamental frequency estimation of musical signals using a two-way mismatch procedure[J]. The Journal of the Acoustical Society of America,1994,95(4):2254-2263.
[10] Babacan O, Drugman T, d’Alessandro N, et al. A comparative study of pitch extraction algorithms on a large variety of singing sounds[C]//Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE,2013:7815-7819.
An Automatic Pitch Correction System Based on Spectral Modeling Synthesis Technique
YANG Nan
(School of Electronic Information and Communication, Huazhong University of Science and Technology, Wuhan 430074)
Pitch correction with preservation of timbre has been a difficult technical issue that hinders the development of music applications. To address this problem, a spectral modeling synthesis (SMS) based automatic pitch correction system is proposed. It extracts the pitch contour in real time with voiced/unvoiced decision and pitch detection. The extracted pitch contour is then compared with the reference pitches such that the detuned parts can be determined. Finally, the proposed SMS based method is applied to the voice to correct the pitches, preserving the timbre by preserving the spectral envelop. Experimental results suggest that the proposed system can provide good pitch correction effect.
pitch correction, spectral modeling synthesis, voiced/unvoiced decision, pitch detection
2016年5月3日,
2016年6月27日
“十二五”科技支撐計(jì)劃項(xiàng)目(編號(hào):2014BAK15B04)資助。
楊楠,女,碩士研究生,研究方向:音頻信號(hào)處理。
TN912.33
10.3969/j.issn.1672-9722.2016.11.016