王志雄
摘要:人類能夠在多人交談的復(fù)雜環(huán)境中專注并識(shí)別目標(biāo)說(shuō)話人的語(yǔ)音,而現(xiàn)有機(jī)器技術(shù)尚未完全達(dá)到這一水平。針對(duì)這一實(shí)際應(yīng)用場(chǎng)景,本文提出了一種時(shí)域目標(biāo)說(shuō)話人語(yǔ)音提取網(wǎng)絡(luò)架構(gòu),該架構(gòu)無(wú)需將混合語(yǔ)音分解為幅度譜和相位譜,而是直接將其轉(zhuǎn)換為嵌入系數(shù),從而規(guī)避了復(fù)雜的相位估計(jì)。該網(wǎng)絡(luò)由四個(gè)關(guān)鍵部分構(gòu)成,即說(shuō)話人輔助網(wǎng)絡(luò)、語(yǔ)音編碼器、目標(biāo)說(shuō)話人語(yǔ)音提取器以及語(yǔ)音解碼器。具體而言,語(yǔ)音編碼器負(fù)責(zé)將混合語(yǔ)音轉(zhuǎn)化為嵌入系數(shù);說(shuō)話人輔助網(wǎng)絡(luò)則通過學(xué)習(xí)以說(shuō)話人嵌入形式表示目標(biāo)說(shuō)話人特征;目標(biāo)說(shuō)話人語(yǔ)音提取器以嵌入系數(shù)與目標(biāo)說(shuō)話人嵌入作為輸入,進(jìn)而估計(jì)出一個(gè)接收掩模;最后,語(yǔ)音解碼器根據(jù)處理過的嵌入系數(shù)重新構(gòu)造出目標(biāo)說(shuō)話人的語(yǔ)音。實(shí)驗(yàn)結(jié)果顯示,在開放評(píng)測(cè)環(huán)境下,相較于基準(zhǔn)模型,所提方法在SDR(Signal-to-Distortion Ratio) 和SI-SDR(Source-to-Interference Signal-to-Distortion Ratio) 指標(biāo)上分別取得了相對(duì)提升2.62dB和2.52dB的成績(jī)。實(shí)驗(yàn)結(jié)果有力證明了該方法具有更好的抗干擾性和泛化性能。
關(guān)鍵詞:?jiǎn)瓮ǖ?;目?biāo)說(shuō)話人語(yǔ)音提??;時(shí)域語(yǔ)音信號(hào);泛化性;語(yǔ)音編碼器;語(yǔ)音解碼器
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)10-0037-04