柳 欣 王 銳 鐘必能 王楠楠
1(華僑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 福建廈門 361021)
2(綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室(西安電子科技大學(xué)) 西安 710071)
3(廈門市計(jì)算機(jī)視覺與模式識別重點(diǎn)實(shí)驗(yàn)室(華僑大學(xué)) 福建廈門 361021)
4(廣西師范大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院 廣西桂林 541004)
語音和視覺信息是人們相互交流的重要載體,也是人機(jī)交互過程中最為直接和靈活的方式.心理學(xué)中著名的“麥格克效應(yīng)”(McGurk effect)[1]表明,大腦在感知語音的過程中,人臉信息和語音信息會相互作用.同時(shí),大量神經(jīng)認(rèn)知科學(xué)的研究表明,人臉信息和語音信息有著相同的神經(jīng)認(rèn)知通路[2].在日常生活中,當(dāng)人們在給好友打語音電話時(shí),雖然只接收到了對方的語音信息,但腦海中會不自覺地浮現(xiàn)出對方的人臉信息,即我們的大腦可以自動(dòng)地將接收到的語音信息與之前已經(jīng)存儲好的人臉信息進(jìn)行語義關(guān)聯(lián).
上述現(xiàn)象和研究表明,個(gè)體人臉信息和語音信息之間是存在明顯關(guān)聯(lián)特性的.受此啟發(fā),人們已逐漸認(rèn)識到語音特征與視覺特征之間關(guān)聯(lián)的重要性,并進(jìn)行了多方面的跨模態(tài)匹配研究,如跨人臉-語音生物特征匹配、說話人標(biāo)注以及跨人臉-語音檢索等[3-5].因此,有效的人臉-語音相關(guān)性挖掘和跨模態(tài)匹配研究能夠促進(jìn)認(rèn)知科學(xué)和人工智能技術(shù)創(chuàng)新實(shí)踐的發(fā)展,具有重要的現(xiàn)實(shí)意義,有著廣闊的應(yīng)用前景.近年來,基于文本和圖像的跨媒體檢索,受到了國內(nèi)外研究學(xué)者的廣泛關(guān)注,但基于面部信息與語音信息的跨模態(tài)匹配和語義關(guān)聯(lián)挖掘研究較為匱乏.
據(jù)文獻(xiàn)研究,現(xiàn)有的挖掘人臉信息和語音信息之間關(guān)聯(lián)的方法大致可以概括為2類:1)基于淺層特征相關(guān)性學(xué)習(xí)的方法;2)基于深度兼容性特征學(xué)習(xí)的方法.具體地,淺層匹配學(xué)習(xí)方法一般使用子空間相關(guān)性學(xué)習(xí)的方法進(jìn)行人臉和語音的語義相似性映射挖掘,從而達(dá)到縮小面部特征與語音特征間的語義鴻溝的目的.深度特征學(xué)習(xí)方法旨在通過多層非線性網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)復(fù)雜特征表達(dá)能力的逼近,進(jìn)而實(shí)現(xiàn)人臉和語音特征的跨模態(tài)語義關(guān)聯(lián).然而,人臉和語音信息的復(fù)雜多樣性和非靜態(tài)性加大了不同模態(tài)間潛層語義關(guān)聯(lián)的抽取難度.為滿足實(shí)際應(yīng)用需求,現(xiàn)有人臉-語音語義關(guān)聯(lián)方法在相關(guān)跨模態(tài)匹配方面的效果還需進(jìn)一步提升.
基于人臉-語音的相關(guān)性挖掘和跨模態(tài)匹配問題的研究尚為一項(xiàng)新穎的課題,其智能語義關(guān)聯(lián)研究仍處于早期發(fā)展階段[6],并且現(xiàn)有方法或多或少存在一些挑戰(zhàn),包括3方面:1)面部和語音底層特征因維數(shù)不同、性質(zhì)和屬性不同,使得彼此之間無法直接參與計(jì)算,進(jìn)而帶來了語義表征的差異性和不可比性;2)針對人臉和語音特征的異構(gòu)性,目前仍缺乏有效方法解決低層特征和高層語義之間存在的語義鴻溝問題;3)現(xiàn)有的異構(gòu)特征學(xué)習(xí)和關(guān)聯(lián)性學(xué)習(xí)結(jié)合的不夠緊密,從而導(dǎo)致高層一致性語義挖掘的表征學(xué)習(xí)不夠充分.此外,本文通過文獻(xiàn)調(diào)研發(fā)現(xiàn),大多數(shù)跨人臉-語音匹配方法工作只呈現(xiàn)了部分匹配任務(wù)評測結(jié)果,而其他多樣性匹配評測任務(wù)還有待挖掘.
針對上述挑戰(zhàn),本文提出了一種基于雙向五元組損失的跨人臉-語音特征學(xué)習(xí)框架,生成的跨模態(tài)表示在所有跨模態(tài)匹配任務(wù)上進(jìn)行全面了評估測試.首先,本文采用雙流架構(gòu)的網(wǎng)絡(luò)學(xué)習(xí)跨人臉-語音特征表示.傳統(tǒng)的雙流網(wǎng)絡(luò)采用2條并行且獨(dú)立的分支處理多模態(tài)數(shù)據(jù),不同模態(tài)之間缺少交互,因而很難學(xué)習(xí)出高質(zhì)量的語義特征.為解決特征異構(gòu)問題,本文在雙流網(wǎng)絡(luò)的頂端引入了一種新的多模態(tài)加權(quán)殘差網(wǎng)絡(luò),并采用權(quán)重共享策略,以挖掘模態(tài)間關(guān)聯(lián),生成模態(tài)不變的跨模態(tài)表示;其次,現(xiàn)有的基于距離度量損失的方法中采用的樣本對構(gòu)造策略往往沒有挑選出合適樣本對,也沒有充分利用batch中的數(shù)據(jù),使得很多有益于訓(xùn)練的樣本未能參與訓(xùn)練,極大地限制了模型的泛化性能.為解決訓(xùn)練樣本不足問題,本文提出了多種有效的樣本對構(gòu)造策略,并基于這些策略提出了多種表現(xiàn)形式的三元組損失,這些三元組損失一起構(gòu)成一種新的雙向五元組損失(bi-quintuple loss, Bi-Q loss).通過優(yōu)化該損失,可以促使更多有益于訓(xùn)練的人臉樣本及語音樣本參與訓(xùn)練,進(jìn)而學(xué)到更好的跨模態(tài)表示;最后,為了保證人臉特征和語音特征在共享語義空間的可分性,本文在特征層后面引入了一個(gè)全連接層進(jìn)行身份(identity, ID)分類學(xué)習(xí),實(shí)驗(yàn)表明結(jié)合ID損失與雙向五元組損失可以促進(jìn)模型的有效收斂,魯棒性較好.本文工作的貢獻(xiàn)主要包括3個(gè)方面:
1) 提出了一個(gè)端到端的跨人臉-語音特征學(xué)習(xí)框架,該框架在雙流網(wǎng)絡(luò)的頂端引入了一種新的權(quán)重共享多模態(tài)加權(quán)殘差網(wǎng)絡(luò),可以有效挖掘模態(tài)間關(guān)聯(lián);
2) 設(shè)計(jì)多種樣本對構(gòu)造策略并提出雙向五元組損失,極大地提高了數(shù)據(jù)利用率和模型泛化性能;
3)本文方法具有較強(qiáng)的擴(kuò)展性和一般性.相比現(xiàn)有方法,本文學(xué)習(xí)框架在4個(gè)不同的跨人臉-語音關(guān)聯(lián)任務(wù)上,其跨模態(tài)匹配各項(xiàng)指標(biāo)上幾乎取得了全面提升,某些指標(biāo)上的提升近5%.
人類面部視覺信息和語音信息是人機(jī)交互過程中最為直接和靈活的方式,從而基于人臉和語音的關(guān)聯(lián)性挖掘及其跨模態(tài)協(xié)同感知吸引了國內(nèi)外研究學(xué)者的廣泛關(guān)注.早期針對人臉和語音的相關(guān)性挖掘主要是基于淺層特征相關(guān)性學(xué)習(xí)的方法.例如,Hasan等人[7]通過認(rèn)知學(xué)的角度利用功能性磁共振成像分析了人臉和語音在身份鑒別上的潛在關(guān)聯(lián)特性;類似地,針對人臉和語音2種不同模態(tài)特征之間存在的“語義鴻溝”問題,Li等人[8]通過跨模態(tài)因子分析(cross-modal factor analysis)來縮小人臉與語音特征間的語義鴻溝,接著利用典型相關(guān)分析法(canonical correlation analysis, CCA)進(jìn)一步關(guān)聯(lián)2種模態(tài)特征集,從而實(shí)現(xiàn)說話人的跨視聽媒體數(shù)據(jù)互標(biāo)注;Chetty等人[9]通過潛在語義分析和CCA方法對人臉和語音生物特征進(jìn)行跨模態(tài)關(guān)聯(lián),從而使得身份驗(yàn)證系統(tǒng)達(dá)到了較好的預(yù)防反欺騙性(anti-spoofing)攻擊的目的;Chakravarty等人[10]利用跨模態(tài)監(jiān)督學(xué)習(xí)方法(cross-modal supervision)對語音信息進(jìn)行當(dāng)前說話人檢測,取得了魯棒性的結(jié)果.研究發(fā)現(xiàn),這些淺層特征相關(guān)性學(xué)習(xí)方法缺乏從非線性異構(gòu)特征中提取有意義跨模態(tài)關(guān)聯(lián)的本質(zhì)特征能力,從而導(dǎo)致其相應(yīng)跨模態(tài)關(guān)聯(lián)匹配效果有所欠缺.
近年來,多模深度學(xué)習(xí)可以有效對多模態(tài)數(shù)據(jù)逐級提取從低層到高層的語義特征,展現(xiàn)出了強(qiáng)大本質(zhì)特征學(xué)習(xí)的能力.據(jù)文獻(xiàn)研究,現(xiàn)有挖掘人臉信息和語音信息之間關(guān)聯(lián)的深度學(xué)習(xí)方法大致可以分為2類:1)基于分類損失的學(xué)習(xí)方法;2)基于距離度量損失學(xué)習(xí)的方法.基于分類損失的學(xué)習(xí)方法通常把跨人臉-語音跨模態(tài)匹配問題定義為分類問題.典型代表為Nagrani等人[3]提出的多分支卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)結(jié)構(gòu)方法,該方法首先采用多分支CNN分別提取人臉圖片和語音數(shù)據(jù)的特征,接著將提取好的人臉特征和語音特征拼接起來,輸入到softmax層以獲得分類概率.該模型然在1∶2 匹配任務(wù)上的表現(xiàn)可以媲美人類,但由于是針對特定匹配任務(wù)設(shè)計(jì)的,需要調(diào)整子網(wǎng)絡(luò)數(shù)目才能應(yīng)用于其他任務(wù),模型靈活性欠佳;近期,Wen等人[5]采用不相交映射網(wǎng)絡(luò)(disjoint mapping network, DIMNet)來監(jiān)督跨模態(tài)表示的學(xué)習(xí),在1∶2的跨模態(tài)匹配任務(wù)上獲得了較好的準(zhǔn)確率,超過了人類主觀水平,但在一些挑戰(zhàn)性較高的匹配任務(wù)上,如1∶N匹配及跨模態(tài)檢索,該模型的表現(xiàn)有待提高.
基于距離度量損失的學(xué)習(xí)方法通常利用多模態(tài)神經(jīng)網(wǎng)絡(luò)將人臉樣本和語音樣本映射到歐氏空間,并通過優(yōu)化網(wǎng)絡(luò)距離度量損失,使得同一個(gè)體的人臉樣本和語音樣本對應(yīng)的特征表達(dá)在歐氏空間中的距離足夠近,不同人的人臉樣本和語音樣本對應(yīng)的特征表達(dá)在歐氏空間中的距離足夠遠(yuǎn)[11].Nagrani等人[12]通過刻畫個(gè)人身份節(jié)點(diǎn)方式(person identity nodes, PINs)來描述身份,并采用對比損失來約束正負(fù)樣本對之間的距離,該方法提出了一種基于Curriculum的策略構(gòu)造樣本對,但這種策略構(gòu)造的負(fù)樣本對中可能存在噪聲數(shù)據(jù);Xiong等人[13]采用了三元組損失來引導(dǎo)人臉-語音跨模態(tài)表示的學(xué)習(xí),然而該方法只構(gòu)造了跨模態(tài)三元組樣本,忽略了許多其他類型有益于訓(xùn)練的三元組樣本,其跨模態(tài)關(guān)聯(lián)效果還有所欠缺.
如圖1所示,本文提出的結(jié)合雙流深度網(wǎng)絡(luò)和雙向五元組損失的跨人臉-語音特征學(xué)習(xí)框架采用了常見的雙流網(wǎng)絡(luò)架構(gòu),包含人臉和語音2個(gè)分支網(wǎng)絡(luò).其中,人臉子網(wǎng)絡(luò)和語音子網(wǎng)絡(luò)的權(quán)重是各自獨(dú)立的,用來提取模態(tài)特有的特征;雙流網(wǎng)絡(luò)頂端的多模態(tài)加權(quán)殘差網(wǎng)絡(luò)的權(quán)重由2個(gè)模態(tài)共享,用來挖掘模態(tài)間語義關(guān)聯(lián),生成模態(tài)不變的跨模態(tài)表示;雙向五元組損失用于進(jìn)一步挖掘模態(tài)間關(guān)聯(lián),提高數(shù)據(jù)利用率和模型泛化性能;ID損失用于保證跨模態(tài)表示的可分性,促進(jìn)模型收斂.
針對2種模態(tài)的關(guān)聯(lián)性挖掘,雙流深度網(wǎng)絡(luò)能夠有效地進(jìn)行異構(gòu)特征的兼容性學(xué)習(xí).在跨模態(tài)特征表示學(xué)習(xí)中,文獻(xiàn)[14]為了挖掘文本模態(tài)和圖像模態(tài)之間的關(guān)聯(lián)并生成模態(tài)不變的跨模態(tài)表示,選擇在雙流網(wǎng)絡(luò)的頂端引入了權(quán)重共享的單層全連接.然而,一方面,單層全連接擬合能力有限,同時(shí)沒辦法解決非線性映射問題,因而挖掘到的模態(tài)間關(guān)聯(lián)可能極為有限.另一方面,單純地增加全連接層數(shù)有時(shí)會使得網(wǎng)絡(luò)訓(xùn)練和優(yōu)化起來越來越復(fù)雜和困難.
為解決上述問題,受殘差網(wǎng)絡(luò)[15]思想的啟發(fā),本文在雙層全連接網(wǎng)絡(luò)的輸入層與輸出層之間引入了一種新的加權(quán)殘差連接,并采用權(quán)重共享策略保證生成的跨模態(tài)表示形式在同一個(gè)特征表示子空間中.本文提出的這種網(wǎng)絡(luò)結(jié)構(gòu)簡稱為多模態(tài)加權(quán)殘差網(wǎng)絡(luò)(multi-modal weighted residual network, MWRN).實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)可以有效地加強(qiáng)模態(tài)共享信息、挖掘模態(tài)間關(guān)聯(lián),促使模型生成更好的跨模態(tài)表示.
(1)
(2)
其中,η為縮放因子,在網(wǎng)絡(luò)中是一個(gè)可學(xué)習(xí)的參數(shù).根據(jù)文獻(xiàn)[16]中的設(shè)計(jì),在網(wǎng)絡(luò)訓(xùn)練中縮放因子初始值設(shè)為0,用來避免訓(xùn)練初始階段出現(xiàn)過分的梯度波動(dòng)造成的不穩(wěn)定,從而使得模型在訓(xùn)練初期更加的穩(wěn)定,促進(jìn)整個(gè)網(wǎng)絡(luò)的訓(xùn)練平穩(wěn)性和魯棒性.
Fig. 2 Multi-modal weighted residual network圖2 多模態(tài)加權(quán)殘差網(wǎng)絡(luò)
本文提出了一種雙向五元組損失函數(shù)進(jìn)行人臉-語音的語義關(guān)聯(lián)性學(xué)習(xí)約束,該損失由多個(gè)改進(jìn)的三元組損失構(gòu)成.具體地,三元組損失是一種常見的距離度量損失,其形式化定義為
(3)
其中,a表示固定(anchor)樣本,p表示與a屬于同一類別的正(positive)樣本,n表示與a屬于不同類別的負(fù)(negative)樣本,da,p表示固定樣本a與正樣本p對應(yīng)的特征表達(dá)之間的距離,da,n表示固定樣本a與負(fù)樣本n對應(yīng)的特征表達(dá)之間的距離,m表示最小間隔(margin).針對每個(gè)三元組a,p,n,三元組損失的優(yōu)化目標(biāo)是讓da,p盡可能小,da,n盡可能大,并且要讓da,p與da,n之間有一個(gè)最小的間隔m,T表示三元組樣本集合,形式化描述為
da,p+m (4) 然而,若要在整個(gè)訓(xùn)練集上構(gòu)造三元組,隨著訓(xùn)練集樣本數(shù)目增多,可能的三元組數(shù)量將呈立方級增長.因此,當(dāng)訓(xùn)練集非常大時(shí),訓(xùn)練將會非常耗時(shí).同時(shí),隨著訓(xùn)練的深入,大量的簡單的三元組不具有判別性,并對模型表現(xiàn)的提升毫無貢獻(xiàn).為解決此問題,文獻(xiàn)[17]提出了TriHard損失,它是一種采用基于批量(batch)的在線難樣本采樣策略的三元組損失.對于每個(gè)訓(xùn)練batch,隨機(jī)挑選B個(gè)ID,每個(gè)ID隨機(jī)挑選K個(gè)樣本,則每個(gè)batch中有B×K個(gè)樣本,其樣本集合記為Xbatch.對于每個(gè)樣本a,挑選一個(gè)最難正樣本p和最難負(fù)樣本n,最難正樣本p是Xbatch中與樣本a屬于同一ID的樣本中距離樣本a最遠(yuǎn)(語義最不相關(guān))的樣本,最難的負(fù)樣本n是Xbatch中與樣本a屬于不同ID的樣本中距離樣本a最近(語義最相關(guān))的樣本.TriHard損失的形式化定義為 (5) 其中,P表示Xbatch中與a的ID相同的樣本集合,Q表示Xbatch中與a的ID不同的樣本集合,m表示最小間隔.可以看到,由于TriHard損失是在每個(gè)batch上構(gòu)造三元組,而不是在整個(gè)訓(xùn)練集上,因而大大提高了模型的采樣效率與訓(xùn)練效率,同時(shí),借助難樣本的重點(diǎn)性采樣策略,簡單的樣本將被過濾掉,因而提高了模型的魯棒性.為了提高模型訓(xùn)練效率,同時(shí)促使足夠多的有益于訓(xùn)練的三元組樣本參與訓(xùn)練,本文提出了多種樣本對構(gòu)造策略,進(jìn)而提出了跨模態(tài)TriHard損失以及混合模態(tài)TriHard損失.采用雙向訓(xùn)練策略的跨模態(tài)TriHard損失和混合模態(tài)TriHard損失一起構(gòu)成一種新的雙向五元組損失. (6) 2.3.1 跨模態(tài)TriHard損失 (7) (8) (9) 跨模態(tài)TriHard損失定義為 (10) 跨模態(tài)TriHard損失可以有效縮減人臉模態(tài)和語音模態(tài)數(shù)據(jù)之間的“異構(gòu)鴻溝”,從而使得同一個(gè)ID的人臉樣本和語音樣本對應(yīng)的特征表達(dá)之間的距離足夠近,不同ID的人臉樣本和語音樣本對應(yīng)的特征表達(dá)之間的距離足夠遠(yuǎn). 2.3.2 混合模態(tài)TriHard損失 (11) (12) 值得注意的是,由于正負(fù)樣本是在2個(gè)模態(tài)數(shù)據(jù)集上采樣得到的,因而xpos和xneg可能來自人臉模態(tài),也可能來自語音模態(tài),因而稱之為混合模態(tài)三元組.以這種方式構(gòu)建的三元組稱之為有效的混合模態(tài)TriHard三元組,滿足條件: (13) 有效的混合模態(tài)TriHard三元組有4種表現(xiàn)形式,如圖3所示.其中,方形表示人臉樣本,圓形表示語音樣本,不同的顏色深淺代表不同的ID.從圖3中可以看出:第1種三元組是2.3.1節(jié)提到的跨模態(tài)TriHard三元組,固定樣本來自人臉模態(tài),正負(fù)樣本均來自語音模態(tài);第2種三元組中固定樣本與負(fù)樣本來自同一模態(tài),與正樣本來自不同模態(tài);第3種三元組中固定樣本與正樣本模態(tài)相同,與負(fù)樣本模態(tài)不同;第4種三元組中固定樣本及正負(fù)樣本均來自同一模態(tài),是一種模態(tài)內(nèi)TriHard三元組.綜合這些不同形式的三元組,混合模態(tài)TriHard損失的形式化定義為 MTH(,xpos,xneg)= (14) 混合模態(tài)TriHard損失綜合考慮了模態(tài)間和模態(tài)內(nèi)的多種距離約束,極大地提高了模型的泛化能力. Fig. 3 Mixed-modal triplets with different forms圖3 不同表現(xiàn)形式的混合模態(tài)三元組 2.3.3 雙向訓(xùn)練策略 前面2.3.1節(jié)和2.3.2節(jié)在構(gòu)建TriHard三元組的過程中,默認(rèn)采用人臉樣本作為固定樣本,但實(shí)際上人臉樣本和語音樣本并沒有角色上的區(qū)別,同時(shí),很多跨模態(tài)任務(wù)都是雙向的,為了學(xué)習(xí)更適合于最終任務(wù)的跨模態(tài)表示,同時(shí)為了更多的有效的三元組樣本得以參與訓(xùn)練,本文基于雙向訓(xùn)練策略提出了雙向五元組損失. (15) (16) 整個(gè)batch的雙向五元組損失定義為 (17) 雙向五元組損失可以同時(shí)優(yōu)化2個(gè)方向的五元組距離度量損失,從而可以極大地提高人臉-語音跨模態(tài)表示的魯棒性和模型的泛化能力. 為確保人臉樣本和語音樣本在嵌入到公共表示空間之后的模態(tài)內(nèi)判別性得以保留,即保持良好的可分性,本文提出了基于ID損失的約束.每一個(gè)個(gè)體的身份ID可以看作一個(gè)類別,通過在特征層后面附上一個(gè)全連接層φC(·)來實(shí)現(xiàn)對語義特征所屬的身份類別的預(yù)測.具體地,ID損失的定義為 (18) 本文提出方法的整體損失函數(shù)形式為 (19) 本文采用mini-batch的訓(xùn)練方式,mini-batch可以在訓(xùn)練過程中引入隨機(jī)性,同時(shí)可以提升模型訓(xùn)練速度,每個(gè)batch會隨機(jī)挑選16個(gè)ID,接著每個(gè)ID隨機(jī)挑選4張人臉圖片和4條語音數(shù)據(jù).同時(shí),本文采用結(jié)合權(quán)重衰減和動(dòng)量技術(shù)的隨機(jī)梯度下降(stochastic gradient descent, SGD)方法來優(yōu)化模型,其中,一方面,權(quán)重衰減(weight_decay=0.000 5)用來調(diào)節(jié)模型復(fù)雜度對損失函數(shù)的影響,以防止過擬合;另一方面,動(dòng)量(momentum=0.9)用來加速模型收斂過程.本文采用了一種動(dòng)態(tài)的學(xué)習(xí)率調(diào)整策略,學(xué)習(xí)率會隨著訓(xùn)練輪數(shù)的增加而衰減,訓(xùn)練共需50輪,訓(xùn)練過程中學(xué)習(xí)率將從初始學(xué)習(xí)率10-3衰減到10-8. 為了充分評估本文所提出方法的有效性和魯棒性,本文在公開的Voxceleb1音視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測試,下面具體介紹實(shí)驗(yàn)詳情. Voxceleb1[18]是公開的大規(guī)模音視頻數(shù)據(jù)集,由上傳到Y(jié)ouTube的采訪視頻中提取的1 251個(gè)名人的音視頻短片組成.該數(shù)據(jù)集總計(jì)包含10萬多條音頻、2萬多條視頻.文獻(xiàn)[12]采用SyncNet[19]方法從該數(shù)據(jù)集中提取出超過10萬條說話人人臉軌跡片段.在本文實(shí)驗(yàn)中,實(shí)驗(yàn)所選取的數(shù)據(jù)集是由該文獻(xiàn)作者處理好并在其官網(wǎng)公開發(fā)布的Voxceleb1數(shù)據(jù)集,其數(shù)據(jù)集劃分方式也與作者在文獻(xiàn)[12]中的描述相同. 本文方法依據(jù)Pytorch深度學(xué)習(xí)框架進(jìn)行配置和實(shí)現(xiàn),其中雙向五元組損失中的間隔設(shè)置為m=0.6,人臉子網(wǎng)絡(luò)采用Inception-ResNet-v1模型,并用標(biāo)準(zhǔn)的VGGFace2[20]數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重進(jìn)行初始化,輸入的人臉圖片采用了與PINs[12]方法和SSNet[21]相同的預(yù)處理技術(shù);語音子網(wǎng)絡(luò)采用與DIMNet-Voice[5]方法相同的結(jié)構(gòu),并使用在Voxceleb1上的預(yù)訓(xùn)練權(quán)重進(jìn)行初始化.人臉特征和語音特征輸出維度為256. 為了全面驗(yàn)證本文方法的有效性,本文設(shè)計(jì)了4種不同的跨人臉-語音匹配任務(wù),分別為跨模態(tài)驗(yàn)證、1∶2 匹配、1∶N匹配以及跨模態(tài)檢索任務(wù). 1) 跨模態(tài)驗(yàn)證 跨模態(tài)驗(yàn)證是指給出1張人臉圖片和1條語音數(shù)據(jù),判斷該數(shù)據(jù)對是否屬于同一個(gè)人,其評價(jià)標(biāo)準(zhǔn)采用AUC值作為量化指標(biāo). 2) 1∶2 匹配 跨模態(tài)1∶2 匹配是指給出1張人臉圖片和2條語音數(shù)據(jù),2條語音數(shù)據(jù)中只有1條與給定的人臉圖片屬于同一個(gè)人,模型的任務(wù)是預(yù)測與給定的人臉圖片匹配的那條語音數(shù)據(jù)的位置編號,本文稱之為人臉到語音(face to voice, F-V)下1∶2 匹配;類似地,可以定義語音到人臉(voice to face, V-F)下1∶2 匹配.F-V下1∶2 跨模態(tài)匹配和V-F下1∶2 跨模態(tài)匹配均采用百分制匹配準(zhǔn)確率作為評價(jià)指標(biāo),匹配準(zhǔn)確率計(jì)算方式與文獻(xiàn)[2]相同. 3) 1∶N匹配 跨模態(tài)1∶N匹配是1∶2 匹配任務(wù)的擴(kuò)展版本,它將不匹配的樣本數(shù)量擴(kuò)增至N個(gè).隨著N的增大,任務(wù)的難度也將不斷增大.同樣地,1∶N匹配也有2個(gè)實(shí)驗(yàn)場景,均采用匹配準(zhǔn)確率作為評價(jià)指標(biāo). 4) 跨模態(tài)檢索 跨模態(tài)檢索任務(wù)中可以有一個(gè)或多個(gè)樣本與給定的查詢樣本匹配,因而匹配任務(wù)難度更大.本文采用隨機(jī)結(jié)果(Chance)作為參照依據(jù),并利用標(biāo)準(zhǔn)的百分制平均準(zhǔn)確度(mAP)作為該任務(wù)的評價(jià)指標(biāo). 為了驗(yàn)證本文方法生成的跨模態(tài)表示的有效性,本文將其應(yīng)用于3.3節(jié)中提到的4種任務(wù). 1) 跨模態(tài)驗(yàn)證 在跨模態(tài)驗(yàn)證任務(wù)上,本文方法與現(xiàn)有方法的實(shí)驗(yàn)結(jié)果對比如表1所示.其中,“U”分組中是沒有分層的測試數(shù)據(jù),“G”分組中每個(gè)測試對中的人臉圖片和語音數(shù)據(jù)來自性別相同的2個(gè)人,“N”分組中每個(gè)測試樣本對中的人臉圖片和語音數(shù)據(jù)來自國籍相同的2個(gè)人,“A”分組中每個(gè)測試對中的人臉圖片和語音數(shù)據(jù)來自年齡相同的2個(gè)人,“GNA”分組中每個(gè)測試對中的人臉圖片和語音數(shù)據(jù)來自性別、國籍、年齡均相同的2個(gè)人. Table 1 Comparison with Other Methods on Verification Task 從實(shí)驗(yàn)結(jié)果可以得到,本文方法在各個(gè)分組上的各項(xiàng)指標(biāo)幾乎全面超越了現(xiàn)有方法,取得了較好的跨模態(tài)驗(yàn)證結(jié)果.例如,本文提出方法在“U”“N”“A”上取得了優(yōu)于現(xiàn)有方法的跨模態(tài)驗(yàn)證結(jié)果.同時(shí)也注意到,相比其他分組,本文方法和其他方法在“G”分組中的表現(xiàn)都稍弱,這說明性別信息對模型執(zhí)行跨模態(tài)驗(yàn)證任務(wù)有較大影響. 2) 1∶2 匹配任務(wù) 在1∶2 匹配任務(wù)上,本文方法與現(xiàn)有方法的實(shí)驗(yàn)結(jié)果對比如表2所示.實(shí)驗(yàn)結(jié)果中1∶2 匹配任務(wù)包含“F-V”和“V-F”2個(gè)跨模態(tài)匹配場景,并且“U”“G”“N”和“GN”代表的含義與本節(jié)跨模態(tài)驗(yàn)證部分描述一致.本文方法在這2個(gè)場景中的表現(xiàn)均優(yōu)于現(xiàn)有方法,表明本文方法具有較好的魯棒性. Table 2 Comparisons on 1∶2 Cross-Modal Matching Task表2 跨模態(tài)1∶2 匹配任務(wù)上的實(shí)驗(yàn)對比結(jié)果 % 3) 1∶N匹配 圖 4 展示了本文方法與現(xiàn)有方法在1∶N匹配任務(wù)上的實(shí)驗(yàn)結(jié)果對比.從實(shí)驗(yàn)結(jié)果可以看到,本文方法無論是在“F-V”匹配任務(wù)上還是在“V-F”匹配任務(wù)上均輕松超越現(xiàn)有方法.當(dāng)N取較大值時(shí),本文方法表現(xiàn)仍然比其他方法好,表明本文方法相比其他方法可以更好地解決一些比較困難的任務(wù). Fig. 4 Comparisons with other methods on 1∶N matching task圖4 不同方法在1∶N匹配任務(wù)上的實(shí)驗(yàn)結(jié)果對比 4) 跨模態(tài)檢索 表3展示了本文方法與現(xiàn)有方法在跨模態(tài)檢索任務(wù)上的實(shí)驗(yàn)結(jié)果對比.從實(shí)驗(yàn)結(jié)果中可以看出本文方法在模態(tài)檢索任務(wù)上的表現(xiàn)遠(yuǎn)遠(yuǎn)超過隨機(jī)水平,并優(yōu)于現(xiàn)有的對比方法.因此,實(shí)驗(yàn)結(jié)果充分表明本文提出模型能夠有效學(xué)習(xí)人臉-語音間的語義關(guān)聯(lián).同時(shí),本文方法在“F-V”和“V-F”檢索場景中的表現(xiàn)均優(yōu)于現(xiàn)有方法,表明了本文方法的優(yōu)越性. Table 3 Comparison with Other Methods on Cross-modal Retrieval Task 跨模態(tài)檢索任務(wù)是1∶N匹配任務(wù)的拓展,旨在將候選樣本規(guī)模從N個(gè)(本文實(shí)驗(yàn)中N≤5)擴(kuò)展到整個(gè)測試集,同時(shí)候選樣本中匹配樣本數(shù)量Nm也從一個(gè)增加到若干個(gè)(1 在測試集上執(zhí)行的4個(gè)基于人臉-語音的跨模態(tài)匹配任務(wù)中,本文方法幾乎全面超越現(xiàn)有方法,表明本文方法擁有很好的泛化性能.為了進(jìn)一步驗(yàn)證采用本文方法得到的跨模態(tài)表示的有效性,首先,本文從測試集中隨機(jī)挑選了8個(gè)人,每人挑選40條語音數(shù)據(jù);接著,使用訓(xùn)練好的模型提取它們的特征;最后,采用t-SNE[24]技術(shù)對提取的特征進(jìn)行可視化,可視化結(jié)果如圖5所示.可以看到,同一個(gè)人的語音樣本對應(yīng)的語音特征聚到了一起,不同人的語音樣本對應(yīng)的語音特征相距較遠(yuǎn),表明采用本文方法提取到的跨模態(tài)表示具有較好的判別性和可分性. Fig. 5 Visualization of the deep voice embeddings圖5 語音深度特征可視化結(jié)果圖 為了探究本文提出的多模態(tài)加權(quán)殘差網(wǎng)絡(luò)、雙向五元組損失以及其中的超參數(shù)對模型最終表現(xiàn)的影響,本文針對跨模態(tài)驗(yàn)證、1∶2 匹配、1∶3匹配以及跨模態(tài)檢索任務(wù)設(shè)計(jì)了一系列消融分析實(shí)驗(yàn). 為探究多模態(tài)加權(quán)殘差網(wǎng)絡(luò)(MWRN)對模型表現(xiàn)的影響,本文分別用單層全連接(SFC)、雙層全連接(DFC)以及引入殘差連接的雙層全連接網(wǎng)絡(luò)(DFC-R)替換MWRN進(jìn)行實(shí)驗(yàn),在4個(gè)不同任務(wù)上的實(shí)驗(yàn)結(jié)果如表4所示.可以發(fā)現(xiàn),當(dāng)把全連接層數(shù)由1層增加到2層時(shí),模型表現(xiàn)有所下降,表明更深的網(wǎng)絡(luò)可能更難訓(xùn)練和優(yōu)化;引入殘差連接后模型的表現(xiàn)有大幅提升,表明殘差連接可以很好地解決上述問題;接著在殘差連接中引入可學(xué)習(xí)的縮放因子后,模型表現(xiàn)又有一定幅度的提升,表明可學(xué)習(xí)的縮放因子可以進(jìn)一步地減輕網(wǎng)絡(luò)訓(xùn)練的難度,建立更有效的跨模態(tài)關(guān)聯(lián),進(jìn)而促使網(wǎng)絡(luò)收斂到更優(yōu)的值. 表4 Cross-modal Matching Performance Performance Under Different Network Settings 本節(jié)將探討本文提出的雙向五元組損失(Bi-Q損失)和ID損失對模型表現(xiàn)的影響.圖6展示了本文模型采用不同損失函數(shù)訓(xùn)練時(shí)在驗(yàn)證集上的1∶2 匹配任務(wù)準(zhǔn)確率在前15輪的變化曲線. Fig. 6 Performance of our method with different loss圖6 采用不同損失函數(shù)時(shí)本文模型的表現(xiàn) 可以看到,單獨(dú)采用ID損失時(shí),隨著訓(xùn)練輪數(shù)的增加,模型表現(xiàn)雖然總體呈穩(wěn)定上升趨勢,但最終表現(xiàn)并不是特別好;單獨(dú)采用雙向五元組損失時(shí)模型并不收斂;當(dāng)把ID損失與雙向五元組損失結(jié)合起來使用時(shí),模型很快就收斂了,并取得了不錯(cuò)表現(xiàn),表明在模型訓(xùn)練過程中嵌入身份ID信息可以保證模型訓(xùn)練過程的穩(wěn)定性,促進(jìn)模型收斂. 本節(jié)探討五元組損失中間隔m的取值對模型表現(xiàn)的影響.圖7展示了當(dāng)m取不同值時(shí)模型在4個(gè)不同跨模態(tài)匹配任務(wù)上的表現(xiàn). Fig. 7 Performance of our method with different m圖7 間隔m取不同值時(shí)模型表現(xiàn) 從實(shí)驗(yàn)中可以看到,當(dāng)m=0.6時(shí)本文提出的模型的表現(xiàn)最佳,同時(shí),對于每個(gè)跨模態(tài)匹配任務(wù),當(dāng)m取不同的值時(shí)模型表現(xiàn)的波動(dòng)范圍很小,表明本文方法受m取值的影響并不大,具有較好的穩(wěn)定性. 針對跨人臉-語音匹配挑戰(zhàn)性問題,本文提出了一種結(jié)合雙流網(wǎng)絡(luò)和雙向五元組損失的跨人臉-語音特征學(xué)習(xí)框架,使用該框架學(xué)到的跨模態(tài)特征可直接應(yīng)用于多種人臉-語音的跨模態(tài)匹配任務(wù).在公開名人多模態(tài)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:本文提出的網(wǎng)絡(luò)模型能夠?qū)Σ煌瑘鼍跋旅擞跋駭?shù)據(jù)進(jìn)行跨模態(tài)標(biāo)注,效果顯著,取得了對面部姿態(tài)變化和樣本多樣性的魯棒性,并在這些任務(wù)上的表現(xiàn)幾乎全面超越了現(xiàn)有方法,實(shí)驗(yàn)驗(yàn)證了本文提出方法的有效性.另外,除了人臉和語音2種模態(tài)外,本文方法預(yù)期也同樣適用于其他類型的視聽媒體樣本進(jìn)行跨模態(tài)匹配. 作者貢獻(xiàn)聲明:柳欣負(fù)責(zé)算法設(shè)計(jì)與實(shí)驗(yàn);王銳負(fù)責(zé)模型優(yōu)化和編碼;鐘必能負(fù)責(zé)模型可行性分析;王楠楠負(fù)責(zé)實(shí)驗(yàn)的多樣性分析.
[d(,xpos)-d(,xneg)+m]+.2.4 ID損失
2.5 模型訓(xùn)練
3 實(shí)驗(yàn)與結(jié)果
3.1 數(shù)據(jù)集介紹
3.2 實(shí)現(xiàn)細(xì)節(jié)
3.3 實(shí)驗(yàn)場景及評價(jià)指標(biāo)
3.4 實(shí)驗(yàn)對比結(jié)果
4 消融分析
4.1 多模態(tài)加權(quán)殘差網(wǎng)絡(luò)的影響
4.2 各項(xiàng)損失函數(shù)的影響
4.3 間隔m取值的影響
5 結(jié) 論