基于深度學(xué)習(xí)的目標(biāo)說(shuō)話人語(yǔ)音提取

2024-06-01 02:48:13王志雄

電腦知識(shí)與技術(shù) 2024年10期

關(guān)鍵詞：單通道

王志雄

摘要：人類能夠在多人交談的復(fù)雜環(huán)境中專注并識(shí)別目標(biāo)說(shuō)話人的語(yǔ)音，而現(xiàn)有機(jī)器技術(shù)尚未完全達(dá)到這一水平。針對(duì)這一實(shí)際應(yīng)用場(chǎng)景，本文提出了一種時(shí)域目標(biāo)說(shuō)話人語(yǔ)音提取網(wǎng)絡(luò)架構(gòu)，該架構(gòu)無(wú)需將混合語(yǔ)音分解為幅度譜和相位譜，而是直接將其轉(zhuǎn)換為嵌入系數(shù)，從而規(guī)避了復(fù)雜的相位估計(jì)。該網(wǎng)絡(luò)由四個(gè)關(guān)鍵部分構(gòu)成，即說(shuō)話人輔助網(wǎng)絡(luò)、語(yǔ)音編碼器、目標(biāo)說(shuō)話人語(yǔ)音提取器以及語(yǔ)音解碼器。具體而言，語(yǔ)音編碼器負(fù)責(zé)將混合語(yǔ)音轉(zhuǎn)化為嵌入系數(shù)；說(shuō)話人輔助網(wǎng)絡(luò)則通過學(xué)習(xí)以說(shuō)話人嵌入形式表示目標(biāo)說(shuō)話人特征；目標(biāo)說(shuō)話人語(yǔ)音提取器以嵌入系數(shù)與目標(biāo)說(shuō)話人嵌入作為輸入，進(jìn)而估計(jì)出一個(gè)接收掩模；最后，語(yǔ)音解碼器根據(jù)處理過的嵌入系數(shù)重新構(gòu)造出目標(biāo)說(shuō)話人的語(yǔ)音。實(shí)驗(yàn)結(jié)果顯示，在開放評(píng)測(cè)環(huán)境下，相較于基準(zhǔn)模型，所提方法在SDR（Signal-to-Distortion Ratio）和SI-SDR（Source-to-Interference Signal-to-Distortion Ratio）指標(biāo)上分別取得了相對(duì)提升2.62dB和2.52dB的成績(jī)。實(shí)驗(yàn)結(jié)果有力證明了該方法具有更好的抗干擾性和泛化性能。

關(guān)鍵詞：?jiǎn)瓮ǖ?；目?biāo)說(shuō)話人語(yǔ)音提??；時(shí)域語(yǔ)音信號(hào)；泛化性；語(yǔ)音編碼器；語(yǔ)音解碼器

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2024）10-0037-04

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的目標(biāo)說(shuō)話人語(yǔ)音提取