国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合光流算法與注意力機(jī)制的U-Net網(wǎng)絡(luò)跨模態(tài)視聽語音分離

2023-11-18 08:48蘭朝鳳蔣朋威郭小霞
電子與信息學(xué)報(bào) 2023年10期
關(guān)鍵詞:光流唇部音頻

蘭朝鳳 蔣朋威 陳 歡 韓 闖* 郭小霞

①(哈爾濱理工大學(xué)測(cè)控技術(shù)與通信工程學(xué)院 哈爾濱 150080)

②(中國(guó)艦船研究設(shè)計(jì)中心 武漢 430064)

1 引言

在人機(jī)交互中,干凈且高質(zhì)量的聲音輸入,能有效提高語音識(shí)別(Automatic Speech Recognition,ASR)和自然語言理解(Natu ral Language P rocessing,NLP)的準(zhǔn)確度。然而現(xiàn)實(shí)生活中,由于環(huán)境的復(fù)雜性,存在噪聲和其他說話者的干擾,很難直接得到干凈的語音信號(hào)。因此,需要采用語音分離技術(shù)對(duì)復(fù)雜場(chǎng)景下的語音信號(hào)進(jìn)行前端處理,語音分離的最終目的是將目標(biāo)聲音與背景噪聲(環(huán)境噪聲、人聲等)進(jìn)行分離。

近年來,國(guó)內(nèi)外學(xué)者針對(duì)語音分離提出了多種模型方法?;趥鹘y(tǒng)信號(hào)處理的角度,人們利用統(tǒng)計(jì)學(xué)方法解決語音分離。例如W ang等人[1]提出的計(jì)算機(jī)場(chǎng)景分析(Com putational Auditory Scene Analysis,CASA)、文獻(xiàn)[2,3]提出的非負(fù)矩陣分解(Non-negative M atrix Factorization,NM F),但CASA,NM F學(xué)習(xí)能力不足,限制了整體性能進(jìn)一步提高。隨著深度學(xué)習(xí)的快速發(fā)展,以深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)為代表的深度模型[4]在語音分離方面取得了顯著的進(jìn)展,如深度聚類(deep clustering)[5]和置換不變訓(xùn)練(Perm utation Invariant T raining,PIT)[6]。然而,這些基于音頻流的方法都存在標(biāo)簽置換問題,很難將分離的音頻與混合信號(hào)中相對(duì)應(yīng)的說話者對(duì)應(yīng)。

在擁擠的餐廳和嘈雜的酒吧,人類的感知系統(tǒng)能有效處理復(fù)雜環(huán)境。例如人類能只關(guān)注自己感興趣的聲音,而忽略外部的干擾聲音。這種復(fù)雜場(chǎng)景下的語音感知能力不僅依賴人類聽覺系統(tǒng),還得益于視覺系統(tǒng),共同促進(jìn)多感官的感知[7,8]。受此啟發(fā),基于視聽融合的多模態(tài)主動(dòng)說話者檢測(cè)[9]、視聽語音分離[10]、視聽同步[11]等研究被相繼提出。

Gabbay等人[12]提出基于視頻幀的語音分離網(wǎng)絡(luò),利用視頻幀中面部信息輔助進(jìn)行語音分離,雖然有效地減少了混合噪聲對(duì)分離的影響,但是該方法具有局限性,只能在有限的環(huán)境下取得較好分離效果,不具有泛化性。A fouras等人[13]在Gabbay等人的基礎(chǔ)上,提出用光譜信號(hào)代替圖像信號(hào)作為時(shí)間信號(hào)的分離方案,并用softmask進(jìn)行預(yù)測(cè)。谷歌最早提出基于視頻和聲音聯(lián)合表征的多流體卷積神經(jīng)網(wǎng)絡(luò)[14],該方法從輸入的視頻流提取人臉圖像,然后從音頻流提取音頻特征,通過在卷積層進(jìn)行特征拼接,得到融合后視聽特征,將視聽特征輸入雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(B i-d irectiona l Long Short-Term M em ory,BiLSTM),輸出二值掩蔽(Ideal Binary M ask,IBM),最后將IBM與混合語譜圖相乘得到分離語音。為了提高不同場(chǎng)景下視聽語音分離的魯棒性,Gao等人[15]提出了多任務(wù)建模策略。該策略通過學(xué)習(xí)跨模態(tài)的嵌入來建立人臉和聲音的匹配,通過人臉和聲音的相互關(guān)聯(lián),有效解決了視聽不一致問題。X iong等人[16]在多任務(wù)建模基礎(chǔ)上,提出了基于跨模態(tài)注意的聯(lián)合特征表示的視聽語音分離,將多任務(wù)建模策略應(yīng)用于視聽融合,提高了視覺信息利用率。

上述利用視覺信息輔助進(jìn)行語音分離方法,可以從混合聲音中自動(dòng)分離出對(duì)應(yīng)視覺部分的音頻信號(hào),有效地解決標(biāo)簽置換問題。但這些方法提取視覺特征僅包括唇部特征,在小規(guī)模數(shù)據(jù)集上,面對(duì)更復(fù)雜的場(chǎng)景時(shí)容易受到干擾。視聽融合采用簡(jiǎn)單的特征拼接或疊加方法,融合方法單一,未能充分融合視聽特征。

為提高視覺特征的魯棒性和解決視聽融合單一性,本文在基于跨模態(tài)注意聯(lián)合特征表示的基礎(chǔ)上,分析面部特征外,通過Farneback算法從光流中獲得唇部運(yùn)動(dòng)特征。為了充分考慮光流運(yùn)動(dòng)特征、視覺特征、音頻特征之間相互聯(lián)系,采用了多頭注意力機(jī)制,結(jié)合Farneback算法和U-Net網(wǎng)絡(luò),提出了一種新的跨模態(tài)融合策略??缒B(tài)融合策略的創(chuàng)新主要在于:利用縮放點(diǎn)積注意力計(jì)算音頻特征與視覺特征相關(guān)性,同時(shí)在縮放點(diǎn)積注意力中加入可學(xué)習(xí)參數(shù),可以自適應(yīng)調(diào)整注意力權(quán)重,加快模型的收斂速度;在縮放點(diǎn)積注意力的基礎(chǔ)上,采用多頭注意力機(jī)制,利用不同的子空間計(jì)算音頻特征與視覺特征相關(guān)性,通過對(duì)不同子空間的計(jì)算結(jié)果進(jìn)行累加,從而獲得音頻和視覺信息的聯(lián)合特征表示,以提高語音分離效果。

2 分離模型

2.1 光流算法

光流表征的是圖像像素在運(yùn)動(dòng)時(shí)的瞬時(shí)速度矢量,光流法主要是利用圖像序列中像素之間的相關(guān)性來找到前后幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系、計(jì)算出相鄰幀之間像素的運(yùn)動(dòng)信息[17]。光流可以被認(rèn)為是在一幅圖像中亮度模式的表面運(yùn)動(dòng)分布,是圖像中所有像素點(diǎn)的2維速度場(chǎng),其中每個(gè)像素的2維運(yùn)動(dòng)向量可以理解為一個(gè)光流,所有的光流構(gòu)成光流場(chǎng),如圖1所示[18]。

圖1 2 維光流矢量表示觀測(cè)場(chǎng)景中3維速度在成像表面投影

通過光流場(chǎng)中2維光流矢量的疏密程度,將光流法分為稀疏光流與稠密光流[19]。稀疏光流是對(duì)指定的某一組像素點(diǎn)進(jìn)行跟蹤,稠密光流是針對(duì)圖像或指定的某一片區(qū)域進(jìn)行逐點(diǎn)匹配的圖像配準(zhǔn)方法。相比較稀疏光流,稠密光流可以計(jì)算圖像所有運(yùn)動(dòng)的像素點(diǎn),進(jìn)行像素級(jí)別的圖像配準(zhǔn)。所以,本文利用稠密Farneback光流算法分析唇部的運(yùn)動(dòng)信息。

Farneback光流算法假設(shè)亮度恒定不變、時(shí)間連續(xù)運(yùn)動(dòng)或是“小運(yùn)動(dòng)”、光流的變化幾乎是光滑的。像素在唇部圖像第1幀的光強(qiáng)度為I(x,y,t)(其中x,y代 表像素點(diǎn)當(dāng)前位置、t代表所在的時(shí)間維度),像素點(diǎn)移動(dòng)了(dx,dy)的距離到下一幀,用了dt時(shí)間,根據(jù)亮度恒定不變,可得

其中,Ix,I y,I t可由唇部圖像數(shù)據(jù)求得,(u,v)為所求的光流矢量。

2.2 注意力機(jī)制

注意力機(jī)制可以直接獲取到局部和全局的關(guān)系,相比較循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Netw ork,RNN)不會(huì)受到序列長(zhǎng)度限制,同時(shí)參數(shù)少、模型復(fù)雜度低。

注意力機(jī)制是在機(jī)器學(xué)習(xí)模型中嵌入的一種特殊結(jié)構(gòu),用來自動(dòng)學(xué)習(xí)和計(jì)算輸入數(shù)據(jù)對(duì)輸出數(shù)據(jù)的貢獻(xiàn)大小。注意力機(jī)制的核心公式為

其中,Q,K,V分別表示查詢、鍵、值,dk表 示K的維度大小。Q,K,V計(jì)算過程為

其中,X為輸入矩陣,A表示權(quán)重矩陣,A Q,A K和AV是3個(gè)可訓(xùn)練的參數(shù)矩陣。輸入矩陣X分別與A Q,AK和AV相乘,生成Q,K,V,相當(dāng)于進(jìn)行了線性變換。A ttention使用經(jīng)過矩陣乘法生成的3個(gè)可訓(xùn)練參數(shù)矩陣,增強(qiáng)了模型的擬合能力。Q,K,V的計(jì)算過程如圖2所示。

圖2 Q,K,V計(jì)算過程

為了進(jìn)一步增強(qiáng)模型擬合性能,T ransformer對(duì)A ttention繼續(xù)擴(kuò)展,提出了多頭注意力。在單頭注意力機(jī)制中,Q,K,V是輸入X與A Q,AK和A V分別相乘得到的,A Q,AK和AV是可訓(xùn)練的參數(shù)矩陣。對(duì)于同樣的輸入X,本文定義多組不同的A Q,AK和AV,如AQ0,A0K,AV0和AQ1,AK1,A V1,每組分別計(jì)算生成不同的Q,K,V,最后學(xué)習(xí)到不同的參數(shù),如圖3所示。

圖3 定義多組A,生成多組Q,K,V

2.3 跨模態(tài)融合的光流-視聽分離框架

2.3.1網(wǎng)絡(luò)體系結(jié)構(gòu)

基于Farneback光流算法能較好地提取唇部運(yùn)動(dòng)特征,以及注意力機(jī)制能充分利用視聽特征相關(guān)性的優(yōu)勢(shì),本文提出了跨模態(tài)融合的光流-視聽分離(Flow-AudioV isual Speech Separation,Flow-AVSS)網(wǎng)絡(luò)。Flow-AVSS采用了常用的混合-分離訓(xùn)練方法,通過稠密光流(Farneback)算法和輕量級(jí)網(wǎng)絡(luò)Shu ffleNet v2分別提取運(yùn)動(dòng)特征和唇部特征,然后將運(yùn)動(dòng)特征與唇部特征進(jìn)行仿射變換,經(jīng)過時(shí)間卷積模塊得到視覺特征,為充分利用到視覺信息,在進(jìn)行特征融合時(shí)采用多頭注意力機(jī)制,將視覺特征與音頻特征進(jìn)行跨模態(tài)融合,得到融合視聽特征,最后融合視聽特征經(jīng)過U-Net分離網(wǎng)絡(luò)得到分離語音。Flow-AVSS網(wǎng)絡(luò)如圖4所示。

圖4 跨模態(tài)融合的光流-視聽分離框架

圖4主要由4部分組成,分別是唇部網(wǎng)絡(luò)、運(yùn)動(dòng)網(wǎng)絡(luò)、跨模態(tài)融合模塊和語音分離網(wǎng)絡(luò)。唇部網(wǎng)絡(luò)對(duì)輸入視頻幀進(jìn)行特征提取,該網(wǎng)絡(luò)由1個(gè)3維卷積層和1個(gè)ShuffleNet v2網(wǎng)絡(luò)[20]組成,唇部網(wǎng)絡(luò)采用N個(gè)連續(xù)堆疊的灰度圖像,生成維度為Kv的唇部特征向量fv,v 表示唇部圖像。

為了能穩(wěn)定地捕捉視覺特征的空間和時(shí)間信息,引入了運(yùn)動(dòng)網(wǎng)絡(luò)。受動(dòng)作識(shí)別研究的最新進(jìn)展的啟發(fā),將預(yù)訓(xùn)練的膨脹卷積網(wǎng)絡(luò)(In flated 3D convnet,I3D)模型[21]加入到視聽分離框架作為運(yùn)動(dòng)網(wǎng)絡(luò)。前文光流算法講到,在計(jì)算機(jī)視覺空間中,光流場(chǎng)是將3維空間的物體運(yùn)動(dòng)表現(xiàn)到了2維圖像中,缺少了時(shí)間維度。運(yùn)動(dòng)網(wǎng)絡(luò)通過將2維卷積網(wǎng)絡(luò)膨脹到3維,從而獲得缺少的時(shí)間維度,將先前灰度圖像估計(jì)的光流,生成維度為Km的運(yùn)動(dòng)特征向量fm,m表示運(yùn)動(dòng)。然后,將運(yùn)動(dòng)特征的時(shí)間維度與通道維度相乘,獲得與唇部特征相同維度的運(yùn)動(dòng)特征。最后,將同維度的運(yùn)動(dòng)特征和唇部特征輸入到跨模態(tài)融合模塊。

語音分離網(wǎng)絡(luò)的結(jié)構(gòu)類似于U-Net網(wǎng)絡(luò)[22],輸出掩碼與輸入掩碼大小相同。該網(wǎng)絡(luò)由編碼器和解碼器組成,編碼器的輸入是混合信號(hào)的2維音頻特征。輸入經(jīng)過一系列的卷積層和池化層處理后,對(duì)復(fù)譜圖進(jìn)行壓縮降維。將音頻特征fa、唇部特征fv和運(yùn)動(dòng)特征fm進(jìn)行跨模態(tài)融合得到視聽特征favm。其中,a表示音頻,avm表示音頻、唇部、運(yùn)動(dòng)融合。解碼器的輸入是視聽特征favm,輸出是預(yù)測(cè)的復(fù)合掩碼M,復(fù)合掩碼M的維度與輸入頻譜圖維度相同。最后,將復(fù)合掩碼M與混合音頻相乘,得到分離后的語譜圖,并進(jìn)行短時(shí)傅里葉逆變換(Inverse Short Time Fourier T ransform,ISTFT)得到最終分離的語音信號(hào)。

2.3.2跨模態(tài)融合模塊

為了充分考慮各個(gè)模態(tài)之間相關(guān)性,實(shí)現(xiàn)不同模態(tài)之間的聯(lián)合表示,本文提出基于注意力機(jī)制的跨模態(tài)融合策略,跨模態(tài)融合模塊的整體結(jié)構(gòu)如圖5所示。

圖5 跨模態(tài)融合模塊整體結(jié)構(gòu)

本文利用了運(yùn)動(dòng)特征、唇部特征、音頻特征去進(jìn)行多模態(tài)融合。其中,由于運(yùn)動(dòng)特征是利用光流算法對(duì)圖像進(jìn)行特征提取,運(yùn)動(dòng)特征和唇部特征都屬于視覺特征,是同一種模態(tài),因此在進(jìn)行特征融合的時(shí)候,先利用文獻(xiàn)[23]中提出的特征線性調(diào)制(Feature-w ise Linear M odulation,FiLM)對(duì)唇部特征和運(yùn)動(dòng)特征進(jìn)行特征仿射變換處理,表示為

其中,γ(·)和β(·)是單層的全連接層,輸出是縮放向量和偏移向量。

運(yùn)動(dòng)特征fm經(jīng)過線性變換與fv相乘進(jìn)行仿射變換,并送入時(shí)間卷積網(wǎng)絡(luò)(Tem poral Convolutional Network,TCN)[24]。TCN由1維卷積、批量歸一化(Batch Norm alization,BN)和整流線性單元(Rectified Linear Unit,ReLU)組成,通過TCN模塊可以捕獲唇部特征中的時(shí)間關(guān)系。最后TCN模塊輸出視覺特征fvm,如圖6所示。

圖6 仿射變換和TCN模塊

受T ransform er多頭注意力[25]啟發(fā),跨模態(tài)融合模塊采用了跨模態(tài)注意力融合(C ross-M odal A ttention,CMA)策略。在表示注意力機(jī)制的式(6)中,加入可學(xué)習(xí)參數(shù)λ,不僅能自適應(yīng)地調(diào)整注意力權(quán)重,還能作為殘差連接I(fm),加快模型收斂速度。由式(6)可得縮放點(diǎn)積注意力跨模態(tài)融合(Scaled dot-p roduct Cross-M odal A tten tion,SCMA),可表示為

其中,視覺特征fvm經(jīng)過2維卷積得到Qvm和Kvm,音頻特征fa經(jīng)過2維卷積得到Va,d是Qvm,Kvm和Va的維度,輸出為視聽融合特征。具體融合過程如圖7(a)所示。

為了進(jìn)一步增強(qiáng)模型擬合性能,充分利用不同模態(tài)的相互關(guān)系。在SCMA基礎(chǔ)上,采用多頭注意力跨模態(tài)融合(multip le Head Cross-M odal A ttention,HCMA),利用多個(gè)子空間讓模型去關(guān)注不同方面的信息,如圖7(b)所示。HCMA是將SCMA過程重復(fù)進(jìn)行3次后,再把輸出合并起來,輸出視聽融合特征。由式(7)、式(8)、式(9)、式(11)可得HCMA計(jì)算過程

其中,i表 示多頭注意力頭數(shù),Wi Q,Wi K和Wi V表示權(quán)重訓(xùn)練矩陣,Qvmi,Kvmi,Vai分別表示不同子空間下Qvm,Kvm,Va,h eadi表示縮放點(diǎn)積注意力的融合結(jié)果。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

AVSpeech數(shù)據(jù)集中語音長(zhǎng)度在3~10 s,在每個(gè)片段中,視頻中唯一可見的面孔和原聲帶中唯一可以聽到的聲音屬于一個(gè)說話人。該數(shù)據(jù)集包含了約4 700 h的視頻片段,大約有150 000個(gè)不同的說話者,跨越了各種各樣不同性別的人、語音和面部姿態(tài)。

干凈的語音剪輯來自AVSpeech數(shù)據(jù)集,從數(shù)據(jù)集中不同長(zhǎng)度的片段中截取3 s不重疊的語音片段,對(duì)于視頻剪輯也是來自AVSpeech數(shù)據(jù)集,同樣截取與音頻時(shí)間相對(duì)應(yīng)的時(shí)長(zhǎng)為3 s的視頻段,本次實(shí)驗(yàn)隨機(jī)選取1 000個(gè)干凈語音,然后按照每3個(gè)語音混合的方法,生成混合的語音數(shù)據(jù)庫,再?gòu)拇嘶旌险Z音中選取20 000個(gè)可懂度相當(dāng)?shù)幕旌险Z音作為本次實(shí)驗(yàn)的數(shù)據(jù)集,其中90%作為訓(xùn)練集,剩余的10%作為測(cè)試集。本文利用的混合語音按如式(19)的方式生成,公式為

其中,A VSi,A VSj和A VSk是來自AVSpeech數(shù)據(jù)集的不同源視頻的干凈語音;M ix為生成的混合音頻。

3.2 實(shí)驗(yàn)配置及分離性能評(píng)價(jià)

(1)實(shí)驗(yàn)配置。本文提出的跨模態(tài)融合F low-AVSS網(wǎng)絡(luò),是用Pytorch工具包實(shí)現(xiàn)。通過Farneback算法計(jì)算唇部區(qū)域內(nèi)的光流,唇部數(shù)據(jù)和音頻數(shù)據(jù)的處理基于文獻(xiàn)[15],并對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理。使用權(quán)重衰減為10-2的AdamW作為網(wǎng)絡(luò)優(yōu)化器,初始學(xué)習(xí)速率為10-4,并且每次迭代以8×104將學(xué)習(xí)速率減半。實(shí)驗(yàn)設(shè)備采用處理器In tel(R)Core(TM)i7-9700 CPU@3.00 GHz,安裝內(nèi)存32GB,操作系統(tǒng)64位W indows10,GPU型號(hào)GEFORCE RTX2080 Ti,實(shí)驗(yàn)在GPU模式下運(yùn)行,1次訓(xùn)練所抓取的數(shù)據(jù)樣本量為8。

(2)分離性能評(píng)價(jià)。常用于評(píng)估語音分離效果的指標(biāo)有3種:客觀語音質(zhì)量評(píng)估(Percep tua l Evaluation of Speech Quality,PESQ)[26]指標(biāo),衡量語音的感知能力;短時(shí)客觀可懂度(Short-T im e Objective Intelligibility,STOI)[27]指標(biāo),衡量分離語音的可懂度;源失真比(Signal-to-Distortion Ratio,SDR)[28]指標(biāo),衡量語音的分離能力。本文利用上述3種評(píng)價(jià)指標(biāo),對(duì)提出的跨模態(tài)融合光流-視聽語音分離模型進(jìn)行性能評(píng)估。

3.3 結(jié)果分析

(1)為了分析跨模態(tài)融合的Flow-AVSS網(wǎng)絡(luò)性能,利用SDR,PESQ及STOI評(píng)價(jià)語音分離效果,結(jié)果如表1所示。表1中,為了簡(jiǎn)化表達(dá),唇部網(wǎng)絡(luò)、運(yùn)動(dòng)網(wǎng)絡(luò)分別縮寫為L(zhǎng)ip,Flow。Lip+Flow+特征拼接表示加入運(yùn)動(dòng)特征后,采用特征拼接方法的網(wǎng)絡(luò)結(jié)構(gòu),Lip+Flow+SCMA表示加入運(yùn)動(dòng)特征后,采用縮放點(diǎn)積注意力跨模態(tài)融合的網(wǎng)絡(luò)結(jié)構(gòu),Lip+Flow+HCMA表示加入運(yùn)動(dòng)特征后,采用多頭注意力跨模態(tài)融合的網(wǎng)絡(luò)結(jié)構(gòu)。

表1 語音分離的性能評(píng)估(dB)

由表1可知,Lip+Flow+特征拼接的SDR值為8.73,相比于AV基線未加光流的SDR提升了0.8 dB,說明加入光流后,提高了視覺特征魯棒性,有效提高視聽語音分離性能。Lip+Flow+SCMA,Lip+Flow+HCMA的SDR值分別為9.25 dB,9.96 dB,相比L ip+F low+特征拼接,SDR分別提高了0.52 dB,1.23 dB,說明采用跨模態(tài)注意力,相比特征拼接,能更好地利用不同模態(tài)之間相互關(guān)系,得到更理想的視聽特征。Lip+Flow+HCMA的SDR值為9.96 dB,相比Lip+Flow+SCMA,SDR提高了0.71 dB,多頭注意力中利用了多個(gè)學(xué)習(xí)Q,K,V的權(quán)重矩陣,該權(quán)重矩陣是獨(dú)立地隨機(jī)初始化,然后將輸入的視覺特征映射到不同的子空間,從而獲得更多與音頻特征關(guān)聯(lián)性強(qiáng)的視覺信息,通過對(duì)SCMA單次結(jié)果的累加降維,最終獲得視覺信息利用率更高的視聽特征,獲得了更好的分離性能。

(2)由于測(cè)試集、服務(wù)器配置等不同,評(píng)價(jià)結(jié)果也不同,為了提高對(duì)比的準(zhǔn)確性。利用本實(shí)驗(yàn)室服務(wù)器的配置環(huán)境,在本文測(cè)試集下對(duì)文獻(xiàn)[29]、文獻(xiàn)[14]、文獻(xiàn)[15]和文獻(xiàn)[16]進(jìn)行復(fù)現(xiàn),并于Lip+F low+SCM A和Lip+F low+HCMA進(jìn)行對(duì)比,結(jié)果如表2所示。

表2 同一數(shù)據(jù)集、服務(wù)器下不同模型分離結(jié)果(dB)

由表2可知,采用多頭注意力跨模態(tài)融合Flow-AVSS,相比較文獻(xiàn)[29]純語音分離、文獻(xiàn)[14]視聽語音分離、文獻(xiàn)[15]和文獻(xiàn)[16]跨模態(tài)融合視聽語音分離,SDR分別提升了2.23 dB,1.68 dB,1.31 dB和0.82 dB。

4 結(jié)論

本文針對(duì)單通道語音分離,提出一種基于Farneback算法和跨模態(tài)注意力融合的視聽語音分離模型。采用Farneback稠密光流算法,提取唇部的運(yùn)動(dòng)特征,可以有效提高視覺特征的魯棒性。采用跨模態(tài)注意力進(jìn)行視聽特征融合,可以充分利用音頻流和視頻流之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,本文提出的跨模態(tài)注意力融合的光流-視聽語音分離網(wǎng)絡(luò)在SDR,PESQ和STOI 3個(gè)指標(biāo)上,都優(yōu)于純語音分離和采用特征拼接的視聽語音分離網(wǎng)絡(luò)。

猜你喜歡
光流唇部音頻
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
唇部美人計(jì)
冬季護(hù)唇小竅門
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
基于物理學(xué)的改善粒子圖像測(cè)速穩(wěn)健光流方法研究
嬰幼兒唇部血管瘤的臨床分型和治療探討
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
Pro Tools音頻剪輯及修正
融合光流速度場(chǎng)與背景差分的自適應(yīng)背景更新方法