国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用于語(yǔ)音檢索的三聯(lián)體深度哈希方法

2023-09-27 06:31:52張秋余溫永旺
計(jì)算機(jī)應(yīng)用 2023年9期
關(guān)鍵詞:語(yǔ)譜哈希檢索

張秋余,溫永旺

(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050)

0 引言

隨著互聯(lián)網(wǎng)多媒體數(shù)據(jù)檢索等實(shí)際應(yīng)用的爆炸式增長(zhǎng),迫切需要海量大數(shù)據(jù)的快速檢索方法[1]。在現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)技術(shù)中,哈希方法因快速的查詢速度和較低的內(nèi)存成本,已成為最流行和有效的技術(shù)之一[2]。

目前,深度哈希方法被廣泛應(yīng)用于圖像檢索[3-4]、語(yǔ)音檢索[5-6]、語(yǔ)音識(shí)別[7-8]等領(lǐng)域。圖像領(lǐng)域采用三聯(lián)體標(biāo)簽(錨圖像、正圖像、負(fù)圖像)[4]的深度哈希方法能生成兼具語(yǔ)義信息和類別信息的哈希碼,三聯(lián)體標(biāo)簽提供了數(shù)據(jù)之間相對(duì)相似的概念,確保在學(xué)習(xí)的哈希碼空間中,最大化錨圖像和負(fù)圖像之間的距離,同時(shí)最小化錨圖像和正圖像之間的距離,使生成的哈希碼具有最大鑒別力。因此,要想更準(zhǔn)確、快速地從海量語(yǔ)音數(shù)據(jù)中檢索到所需的語(yǔ)音數(shù)據(jù),如何生成更高效緊湊的哈希碼是亟須解決的問(wèn)題。

傳統(tǒng)語(yǔ)音檢索采用的語(yǔ)音特征有梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)[9]、功率歸一化倒譜系數(shù)(Power-Normalized Cepstral Coefficient,PNCC)[10]、線性預(yù)測(cè)倒譜系數(shù)(Linear Predictive Cepstral Coefficient,LPCC)[11]等。與一維特征參數(shù)不同,語(yǔ)譜圖[12]以二維模式攜帶時(shí)域頻域信息,是語(yǔ)音特征很好的表現(xiàn)形式。將語(yǔ)音轉(zhuǎn)換成語(yǔ)譜圖圖像的形式,從語(yǔ)譜圖圖像的角度研究基于深度學(xué)習(xí)的語(yǔ)音檢索方法,可將圖像領(lǐng)域中的三聯(lián)體深度哈希方法的優(yōu)勢(shì)在語(yǔ)音檢索領(lǐng)域發(fā)揮出來(lái),對(duì)于海量語(yǔ)音數(shù)據(jù)檢索具有重要的研究意義和應(yīng)用價(jià)值。

綜上所述,為提高語(yǔ)音檢索效率和精度,確保生成的二值哈希碼更加高效緊湊,且具有最大鑒別力,本文引入注意力機(jī)制-殘差網(wǎng)絡(luò)(Attentional mechanism-Residual Network,ARN)模型,給出了一種用于語(yǔ)音檢索的三聯(lián)體深度哈希方法。本文的主要工作如下:

1)提出空間注意力力機(jī)制和三聯(lián)體交叉熵?fù)p失對(duì)深度網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練,同時(shí)利用三聯(lián)體標(biāo)簽進(jìn)行語(yǔ)音特征和深度哈希碼的學(xué)習(xí),使模型在提取高級(jí)語(yǔ)義特征時(shí)充分利用數(shù)據(jù)集內(nèi)的相似關(guān)系,學(xué)習(xí)具有最大鑒別力的深度哈希碼。

2)為了利用數(shù)據(jù)之間的相對(duì)相似性關(guān)系,采用二次特征提取方法,提取語(yǔ)音數(shù)據(jù)的低級(jí)語(yǔ)譜圖圖像特征,并從同一類中隨機(jī)選取相同語(yǔ)義的兩幅語(yǔ)譜圖圖像特征作為錨語(yǔ)譜圖圖像特征和一幅正語(yǔ)譜圖圖像特征,從不同類中隨機(jī)選取一幅負(fù)語(yǔ)譜圖圖像特征生成一組三聯(lián)體作為網(wǎng)絡(luò)的輸入。

3)為了充分提取高級(jí)語(yǔ)義特征,利用ARN 模型,自主聚集整個(gè)語(yǔ)譜圖能量顯著區(qū)域信息,提高顯著區(qū)域表示。引入一種新的三聯(lián)體交叉熵?fù)p失函數(shù),通過(guò)同時(shí)懲罰語(yǔ)義相似性和分類損失來(lái)保留深度哈希碼中的分類信息。

1 相關(guān)工作

近年來(lái),監(jiān)督信息以三聯(lián)體標(biāo)簽標(biāo)記數(shù)據(jù)的深度哈希方法已廣泛應(yīng)用于圖像檢索、人臉識(shí)別等領(lǐng)域。Cao 等[3]通過(guò)構(gòu)建具有度量學(xué)習(xí)目標(biāo)函數(shù)的三重網(wǎng)絡(luò)來(lái)充分提取圖像的代表性特征并構(gòu)建哈希碼,可有效地檢索同一類圖像;Li等[4]提出了結(jié)合三態(tài)似然損失和線性分類損失的三重深度哈希方法,可使生成的哈希碼具有更高的查詢精度;Li 等[13]提出利用三重排序信息和鉸鏈損失函數(shù)來(lái)度量框架下的相似度信息和分類信息;Long 等[14]提出了一種結(jié)合注意力模型的深度哈希檢索算法,可充分提取有用信息,減少無(wú)用信息,并引入一種新的三聯(lián)體交叉熵?fù)p失提高模型的表達(dá)能力,生成高質(zhì)量的哈希碼。Liao 等[15]提出基于三重深度相似度學(xué)習(xí)的人臉識(shí)別卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),使學(xué)習(xí)到的哈希碼同一類之間的距離盡可能小,而不同類之間的距離盡可能增大。

現(xiàn)有基于內(nèi)容的語(yǔ)音檢索方法有基于感知哈希、基于生物哈希、基于深度哈希等方法。如Zhao 等[16]提出一種利用語(yǔ)音信號(hào)的分形特征和分段聚合逼近技術(shù)生成感知哈希序列的檢索算法;He 等[17]提出一種基于音節(jié)感知哈希的語(yǔ)音檢索方法;Huang 等[18]提出一種基于譜圖的多格式語(yǔ)音生物哈希算法;Zhang 等[6]提出一種基于CNN 和深度哈希的語(yǔ)音檢索方法?,F(xiàn)有基于內(nèi)容的語(yǔ)音檢索算法采用的深度哈希方法存在一定的局限性,都是通過(guò)單標(biāo)簽標(biāo)記數(shù)據(jù)來(lái)學(xué)習(xí)哈希碼,并只考慮一種監(jiān)督損失,導(dǎo)致監(jiān)督信息利用不足,不能生成緊湊和區(qū)別化的哈希碼,影響語(yǔ)音檢索的效率及精度。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,用語(yǔ)譜圖圖像特征來(lái)表示語(yǔ)音信號(hào)的方法被廣泛應(yīng)用于語(yǔ)音識(shí)別。語(yǔ)譜圖生成原理采用快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)[8]、離散傅里葉變換(Discrete Fourier Transform,DFT)[12]、短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)[19]等方法。Fan 等[8]提出以語(yǔ)譜圖作為網(wǎng)絡(luò)輸入,充分利用CNN 對(duì)圖像識(shí)別的優(yōu)勢(shì)提取語(yǔ)譜圖特征,提高說(shuō)話人識(shí)別性能?;诜律鷮W(xué)的思想,Jia 等[12]提出一種基于語(yǔ)譜圖圖像特征和自適應(yīng)聚類自組織特征映射(Self-Organizing feature Map,SOM)的快速說(shuō)話人識(shí)別方法。Wang 等[19]提出兩種新穎的深度CNN——稀疏編碼卷積神經(jīng)網(wǎng)絡(luò)和多卷積通道網(wǎng)絡(luò),以語(yǔ)譜圖作為輸入,分層進(jìn)行特征學(xué)習(xí)。

2 本文方法

2.1 三聯(lián)體深度哈希系統(tǒng)模型

圖1 為利用ARN 模型設(shè)計(jì)的三聯(lián)體深度哈希的系統(tǒng)模型。主要由三個(gè)部分組成:1)語(yǔ)譜圖圖像特征深度語(yǔ)義學(xué)習(xí);2)哈希碼學(xué)習(xí);3)交叉熵?fù)p失函數(shù)。該模型旨在從具有給定的三聯(lián)體標(biāo)簽的原始語(yǔ)譜圖圖像特征中學(xué)習(xí)緊湊的哈希碼。哈希碼應(yīng)該滿足以下要求:1)錨語(yǔ)譜圖圖像特征應(yīng)該在哈希空間中靠近正語(yǔ)譜圖圖像特征,遠(yuǎn)離負(fù)語(yǔ)譜圖圖像特征;2)基于空間注意力力機(jī)制和交叉熵?fù)p失函數(shù),對(duì)ARN模型進(jìn)行端到端訓(xùn)練,可同時(shí)利用三聯(lián)體標(biāo)簽進(jìn)行語(yǔ)譜圖圖像特征學(xué)習(xí)和哈希碼學(xué)習(xí)。

圖1 三聯(lián)體深度哈希系統(tǒng)模型Fig.1 Model of triplet deep hashing system

本文提出的三聯(lián)體深度哈希方法,實(shí)質(zhì)上是將語(yǔ)音數(shù)據(jù)處理成語(yǔ)譜圖圖像特征,以語(yǔ)譜圖圖像特征作為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù);然后利用圖像領(lǐng)域發(fā)展成熟的三聯(lián)體深度哈希方法訓(xùn)練網(wǎng)絡(luò),提取語(yǔ)譜圖圖像特征的深度語(yǔ)義特征;并通過(guò)哈希構(gòu)造將高維向量轉(zhuǎn)換成低維的二進(jìn)制哈希碼,減少檢索的計(jì)算時(shí)間,提升檢索效率,并在殘差網(wǎng)絡(luò)(Residual Network,ResNet)的基礎(chǔ)上嵌入空間注意力模塊,充分提取語(yǔ)譜圖圖像特征的能量顯著區(qū)域。因此,本文提出的三聯(lián)體深度哈希方法完全適用于訓(xùn)練語(yǔ)音數(shù)據(jù)。

本文的網(wǎng)絡(luò)體系結(jié)構(gòu)主要分為三個(gè)模塊和三個(gè)全連接(Fully Connected,F(xiàn)C)層,包括:1 個(gè)net1 模塊、1 個(gè)空間注意力模塊、1 個(gè)net2 模塊和3 個(gè)FC 層。net1 模塊包含1 個(gè)殘差塊和1 個(gè)最大池化層,后面是1 個(gè)空間注意力(Spatial Attention,SA)模塊(SA 模塊用于生成1 個(gè)與輸入特征圖相乘的注意力圖)。net2 模塊包含1 個(gè)殘差塊和1 個(gè)平均池化層,之后連接1 個(gè)FC 層,用于將提取的特征扁平;FC 層之后是哈希層,哈希層的節(jié)點(diǎn)數(shù)即目標(biāo)哈希碼的長(zhǎng)度,目的是生成語(yǔ)音數(shù)據(jù)的哈希碼;在哈希層之后設(shè)置一個(gè)節(jié)點(diǎn)數(shù)為語(yǔ)音數(shù)據(jù)片段類別數(shù)的輸出層,可在模型訓(xùn)練時(shí)調(diào)節(jié)哈希層的神經(jīng)元活動(dòng),幫助哈希層生成包含類別語(yǔ)義信息和語(yǔ)義內(nèi)容信息的哈希碼。模型參數(shù)的具體設(shè)置如表1 所示。

表1 深度哈希編碼模型的參數(shù)設(shè)置Tab.1 Parameter setting of deep hash encoding model

所有的卷積和池化層使用3×3 的過(guò)濾器,卷積層、池化層步幅分別設(shè)置為2 和1。除輸出層與空間注意力模塊分別采用softmax 與Sigmoid 激化函數(shù)外,所有卷積層和FC 層都配備了修正線性函數(shù)(Rectified Linear Unit,ReLU)激活功能。

2.2 網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì)

ResNet 是He 等[20]提出的殘差模塊結(jié)構(gòu),如圖2 所示。即增加一個(gè)恒等映射,將原始的函數(shù)H(X)轉(zhuǎn)換為F(X)+X,兩種表達(dá)的效果相同,但是F(X)的優(yōu)化要比H(X)簡(jiǎn)單得多,可以加快模型的訓(xùn)練、提高訓(xùn)練效率,并且當(dāng)模型層數(shù)增加時(shí),可非常有效地解決網(wǎng)絡(luò)退化問(wèn)題。

圖2 殘差模塊結(jié)構(gòu)Fig.2 Residual module structure

另外,本文方法使用的空間注意力模塊是對(duì)卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[21]改進(jìn)后的變體,即在沒(méi)有通道注意力模塊的情況下,生成一個(gè)有效的特征描述符,以增強(qiáng)語(yǔ)譜圖圖像特征能量顯著區(qū)域的特征,如圖3 所示。

圖3 空間注意力模塊Fig.3 Spatial attention module

設(shè)X∈RC×H×W是從卷積層提取的特征映射,其中H、W、C分別表示每個(gè)特征映射的高度、寬度以及該層中特征映射(或通道)的數(shù)量??臻g注意力模塊利用最大池化Max(X)和平均池化Avg(X)操作沿通道軸線聯(lián)合聚合特征映射X的空間信息。兩種操作分別取特征映射X的局部最大值和平均值,然后使用Max(X)和Avg(X)按元素相乘,進(jìn)一步加權(quán)局部突出區(qū)域,最后通過(guò)一個(gè)卷積層減少特征映射的數(shù)量。加權(quán)運(yùn)算的輸出是Sigmoid 函數(shù),然后乘以特征映射X。改進(jìn)后的空間注意力模塊定義為式(1):

其中:Max(X)和Avg(X)為H×W×1 維;?表示Sigmoid 函數(shù)。

2.3 深度哈希碼構(gòu)造

深度哈希碼構(gòu)造的實(shí)質(zhì)是通過(guò)訓(xùn)練圖1 的ARN 學(xué)習(xí)一個(gè)哈希函數(shù)H(?),將模型提取的高維向量βi壓縮映射成一段二進(jìn)制哈希碼,hi,k=H(βi),hi,k∈{0,1}k,k代表哈希序列的長(zhǎng)度。哈希函數(shù)H(?)必須滿足原相似或不相似的高維特征在哈希映射之后的相似性不變。深度二進(jìn)制哈希碼構(gòu)造的實(shí)現(xiàn)原理如下:

步驟1 提取初級(jí)語(yǔ)譜圖圖像特征。提取訓(xùn)練集中原始語(yǔ)音文件S={s1,s2,…,sn}的語(yǔ)譜圖圖像特征I,即I={I1,I2,…,In}。設(shè)置FFT 點(diǎn)數(shù)為512,采用頻率為44 100,幀疊點(diǎn)數(shù)為384,窗函數(shù)采用漢明窗,具體提取流程如下:

1)分幀加窗。對(duì)重采樣格式轉(zhuǎn)換后的語(yǔ)音數(shù)據(jù)進(jìn)行分幀加窗,并根據(jù)式(2)進(jìn)行加窗處理:

其中:w(n)表示窗函數(shù);si(n)表示加窗處理后的第i幀語(yǔ)音信號(hào)為幅值歸一化處理后的語(yǔ)音信號(hào);T表示移動(dòng)幀長(zhǎng);N是時(shí)間長(zhǎng)度。

2)FFT。對(duì)分幀加窗后的語(yǔ)音信號(hào)進(jìn)行FFT,根據(jù)式(3)實(shí)現(xiàn)時(shí)-頻域的轉(zhuǎn)換:

其中:X(g)表示FFT 后得到的頻域信號(hào);g表示點(diǎn)序號(hào)。

3)取功率譜。根據(jù)式(4)可將語(yǔ)音信號(hào)的頻譜取模的平方,得到語(yǔ)音信號(hào)的功率譜。

其中:X(g)是輸入的頻域信號(hào);S(g)是得到的功率譜。

4)取對(duì)數(shù)。對(duì)功率譜進(jìn)行對(duì)數(shù)運(yùn)算,得到語(yǔ)譜圖圖像特征。

步驟2 生成三聯(lián)體語(yǔ)譜圖圖像對(duì)。隨機(jī)將訓(xùn)練數(shù)據(jù)I分成一些組,然后為每一對(duì)錨-正語(yǔ)譜圖圖像特征隨機(jī)選擇一個(gè)負(fù)語(yǔ)譜圖圖像特征,根據(jù)式(5)選取三聯(lián)體。

其中:W,b分別表示哈希層的權(quán)重矩陣與偏置向量;μARN表示殘差網(wǎng)絡(luò)模型中的卷積層、池化層、空間注意力機(jī)制的參數(shù)向量,f(Ii,μARN)表示輸入數(shù)據(jù)Ii在經(jīng)過(guò)卷積、池化、空間注意力機(jī)制后所提取的特征向量;βi表示所提取到的深度語(yǔ)義特征向量。Wa、Wp、Wn分別表示從哈希層中提取的三聯(lián)體深度語(yǔ)義特征向量Wi=(w1,k,w2,k,…,wm,k) (i∈{a,p,n})。其中,k代表哈希層的節(jié)點(diǎn)數(shù)。

步驟4 構(gòu)造深度哈希序列。將提取的深度語(yǔ)義特征Wa、Wp、Wn進(jìn)行哈希構(gòu)造,生成哈希序列Hi=h1,k,h2,k,…,hm,k(i∈{ a,p,n})。

深度二進(jìn)制哈希碼具體構(gòu)造過(guò)程如下:

為了創(chuàng)建二進(jìn)制哈希碼,首先通過(guò)式(7)線性縮放的方法將三聯(lián)體深度語(yǔ)義特向量βi映射到[0,1]區(qū)間,即:

其中,umin和umax代表每個(gè)語(yǔ)譜圖圖像特征的深度語(yǔ)義特征向量值(u)中的最小值和最大值。然后利用哈希函數(shù)H(?)進(jìn)行哈希映射,并根據(jù)式(8)將[0,1]區(qū)間的深度語(yǔ)義特征向量T映射成為k比特的二進(jìn)制哈希碼。

再通過(guò)式(9)進(jìn)行深度哈希序列構(gòu)造:

其中,Smeadian表示[0,1]區(qū)間每個(gè)語(yǔ)譜圖圖像特征深度語(yǔ)義特征向量值中的中值。

2.4 交叉熵?fù)p失函數(shù)

ARN 模型學(xué)習(xí)從輸入三聯(lián)體語(yǔ)譜圖圖像特征到三元哈希碼的映射Hi=h1,k,h2,k,…,hm,k(i∈{a,p,n}),Ha到HP的距離應(yīng)小于Ha到Hn的距離。為了使生成的哈希碼具有最大類的可分性和最大哈希碼可鑒別性,在模型訓(xùn)練過(guò)程中采用三聯(lián)體交叉熵?fù)p失來(lái)訓(xùn)練網(wǎng)絡(luò),目的是在模型訓(xùn)練過(guò)程中,同時(shí)保留相似度和分類信息。

在模型的訓(xùn)練過(guò)程中,ARN 模型使用三聯(lián)體標(biāo)簽和標(biāo)注標(biāo)簽進(jìn)行訓(xùn)練,以同時(shí)執(zhí)行哈希碼學(xué)習(xí)和分類似然學(xué)習(xí)。三聯(lián)體標(biāo)簽T對(duì)應(yīng)的標(biāo)注標(biāo)簽可以表示為Y=并且表示訓(xùn)練標(biāo)簽)。為了懲罰三聯(lián)體標(biāo)簽的相似性損失,將輸入映射到目標(biāo)空間,使用歐氏距離比較目標(biāo)空間中的相似性,并確保錨語(yǔ)譜圖圖像特征與正語(yǔ)譜圖圖像特征的哈希碼盡量接近,錨語(yǔ)譜圖圖像特征與負(fù)語(yǔ)譜圖圖像特征的哈希碼應(yīng)盡量遠(yuǎn)離?;谶@一目標(biāo)設(shè)計(jì)了鉸鏈排序損失形式,使相似語(yǔ)譜圖圖像特征對(duì)之間的距離最小,不相似語(yǔ)譜圖圖像特征對(duì)之間的距離最大。三元組標(biāo)簽的損失定義如下:

其中:Dis(t,)為度量哈希碼輸出之間距離的L2 范數(shù);k為哈希碼的長(zhǎng)度;r∈[0,1]為控制不同語(yǔ)譜圖圖像特征區(qū)分度懲罰強(qiáng)度的權(quán)重參數(shù),r=0.5。為了懲罰標(biāo)注標(biāo)簽下的分類損失,通過(guò)聯(lián)合考慮輸入的三聯(lián)體語(yǔ)譜圖圖像特征來(lái)定義交叉熵?fù)p失,如式(11)所示:

其中:CE(,)為常見(jiàn)的交叉熵?fù)p失形式為預(yù)測(cè)類。對(duì)于相似損失ξ(T)和分類損失ξ(T,Y),通過(guò)反向傳播兩者的和來(lái)更新模型的權(quán)值。理論上,交叉熵?fù)p失有利于保留哈希碼中的分類信息,三重態(tài)損失函數(shù)也可以通過(guò)鼓勵(lì)哈希碼最小化類內(nèi)相似度、最大化類間相似度來(lái)提高分類性能。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境及主要參數(shù)設(shè)置

為評(píng)估三聯(lián)體深度哈希方法的性能,本文從理論和實(shí)驗(yàn)兩方面進(jìn)行分析。采用CSLT 發(fā)布的漢語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)THCHS-30[22]作為數(shù)據(jù)集,總時(shí)長(zhǎng)約30 h,采樣頻率為16 kHz,采樣精度為16 B 單通道wav 格式語(yǔ)音段,每個(gè)語(yǔ)音片段的時(shí)長(zhǎng)大約為10 s。實(shí)驗(yàn)中隨機(jī)選取了內(nèi)容不同的10類語(yǔ)音,并進(jìn)行MP3 壓縮、重采樣(8-16 Kb/s)、重量化1(16-8-16 Kb/s)、重量化2(16-32-16 Kb/s)等4 種內(nèi)容保持操作(Content Preserving Operation,CPO)后,得到共計(jì)3 060 條語(yǔ)音片段。在實(shí)驗(yàn)分析階段,隨機(jī)選取1 000 條THCHS-30 語(yǔ)音庫(kù)中的語(yǔ)音片段進(jìn)行評(píng)估。

在硬件平臺(tái)為Intel Core i5-2450M CPU 2.50 GHz,內(nèi)存16 GB;軟件環(huán)境為Windows 10,PyCharm 2021.1.1、PyTorch-CPU 2.1.x+Python3.6 的環(huán)境下進(jìn)行實(shí)驗(yàn)對(duì)比。

3.2 深度哈希編碼模型性能分析

在語(yǔ)音檢索系統(tǒng)中,語(yǔ)音數(shù)據(jù)的深度語(yǔ)義特征提取和高質(zhì)量哈希碼的生成對(duì)語(yǔ)音檢索的精度至關(guān)重要,其中哈希層的維度實(shí)際上為哈希碼的長(zhǎng)度。當(dāng)哈希層的維度不同時(shí),模型的準(zhǔn)確率會(huì)呈現(xiàn)一定的變化。因此,本文采用語(yǔ)譜圖圖像特征[8,12,19]與Log-Mel 譜圖圖像特征[23]作為網(wǎng)絡(luò)模型的輸入,來(lái)評(píng)估不同哈希碼長(zhǎng)度下模型的準(zhǔn)確率。圖4 為使用本文方法的語(yǔ)譜圖圖像特征和Log-Mel 譜圖圖像特征模型在不同哈希編碼長(zhǎng)度下的測(cè)試準(zhǔn)確率曲線。

圖4 不同哈希碼長(zhǎng)度k的測(cè)試準(zhǔn)確率曲線Fig.4 Test accuracy curves of different hash code lengths k

從圖4 可以看出,在不同哈希碼長(zhǎng)度k下,本文模型在輸入語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征時(shí),模型的測(cè)試準(zhǔn)確率曲線幾乎都快逼近1,性能表現(xiàn)卓越。哈希碼長(zhǎng)度為64時(shí),兩種特征下的模型測(cè)試準(zhǔn)確率曲線都已達(dá)到最高,這是因?yàn)楸疚姆椒ń梃b了圖像領(lǐng)域發(fā)展成熟的三聯(lián)體深度哈希方法,在生成哈希碼的過(guò)程中,提供了數(shù)據(jù)相對(duì)相似的關(guān)系,以及網(wǎng)絡(luò)模型中嵌入的注意力機(jī)制能夠自主聚集整個(gè)語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征的能量顯著區(qū)域,提高了顯著區(qū)域表示,充分提取了深度語(yǔ)義信息。另外,當(dāng)本文模型輸入語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征時(shí),在不同哈希層節(jié)點(diǎn)下,在訓(xùn)練批次15 或10 時(shí),測(cè)試準(zhǔn)確率曲線已基本趨于穩(wěn)定,并取得了很好的效果,不再有任何變化,這說(shuō)明模型沒(méi)有過(guò)擬合和欠擬合現(xiàn)象,對(duì)輸入數(shù)據(jù)的擬合程度表現(xiàn)良好。兩種特征下,模型的收斂程度不同是由于語(yǔ)譜圖圖像特征頻率范圍跨度大,語(yǔ)義信息量更豐富,計(jì)算量更大。當(dāng)哈希碼長(zhǎng)度為64 時(shí),模型的測(cè)試準(zhǔn)確率最高,這說(shuō)明哈希碼節(jié)點(diǎn)數(shù)為64 時(shí)可以滿足檢索系統(tǒng)的基本要求,而過(guò)長(zhǎng)的哈希碼會(huì)導(dǎo)致語(yǔ)音檢索系統(tǒng)的檢索效率下降,過(guò)短的哈希碼會(huì)對(duì)語(yǔ)音數(shù)據(jù)的語(yǔ)義信息表達(dá)不全面,造成哈希碼之間區(qū)分性的降低。因此,本文三聯(lián)體深度哈希方法的哈希碼長(zhǎng)度為64時(shí)的模型架構(gòu)表現(xiàn)最好,可用來(lái)生成更緊湊的哈希碼。

3.3 精度分析

為了評(píng)價(jià)本文方法的性能,使用平均精度均值(mean Average Precision,mAP)進(jìn)一步衡量在不同哈希碼長(zhǎng)度下網(wǎng)絡(luò)模型的性能表現(xiàn)。同時(shí),為了測(cè)試語(yǔ)譜圖圖像特征和Log-Mel 譜圖圖像特征在作為模型的輸入時(shí),模型所生成的哈希碼的魯棒性,在實(shí)驗(yàn)之前,先對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行MP3 壓縮、重采樣(8-16 Kb/s)、重量化1(16-8-16 Kb/s)、重量化2(16-32-16 Kb/s)等4 種CPO,共得到4 000 條語(yǔ)音數(shù)據(jù)。

本拓?fù)渲芯W(wǎng)端提供單相交流高壓電,輸入級(jí)采用多個(gè)不控整流模塊串聯(lián)級(jí)聯(lián)的方式,同時(shí)為保證網(wǎng)端能接近單位功率因數(shù)運(yùn)行,需要在整流環(huán)節(jié)加裝有源功率因數(shù)校正單元。

采用CPO 后的語(yǔ)音數(shù)據(jù)生成的哈希碼進(jìn)行測(cè)試,先采用三聯(lián)體標(biāo)簽/單標(biāo)簽的方法,利用ARN 模型對(duì)各種CPO 后的語(yǔ)音數(shù)據(jù)所生成的語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征計(jì)算它們的平均精度(Average Precision,AP),然后再根據(jù)AP 值計(jì)算mAP。同理,利用深度平衡離散哈希(Deep Balanced Discrete Hashing,DBDH)[24]、改進(jìn)的深度哈希(Improved Deep Hashing Method,IDHM)[25]對(duì)CPO 后的語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征計(jì)算mAP,并與文獻(xiàn)[6,26]中的方法進(jìn)行對(duì)比。給定一個(gè)錨語(yǔ)譜圖圖像特征xq,使用式(12)計(jì)算它的平均精度:

其中:Rk為相關(guān)語(yǔ)音片段數(shù)目;p(k)為返回列表中截止點(diǎn)k處的精度;Δr(k)為指示函數(shù),如果第k個(gè)位置上的返回語(yǔ)音片段與xq相關(guān),則該指示函數(shù)等于1;否則Δr(k)為0。給定Q次查詢,mAP 為已排序的所有查詢結(jié)果的AP。mAP 計(jì)算如式(13)所示:

表2 為不同哈希碼長(zhǎng)度下,利用本文三聯(lián)體標(biāo)簽/單標(biāo)簽的方式將語(yǔ)譜圖圖像特征和Log-Mel 譜圖圖像特征分別送入ARN 模型的mAP 對(duì)比結(jié)果。

表2 不同哈希碼長(zhǎng)度下同一編碼模型的mAPTab.2 mAP values of same encoding model under different hash code lengths

由表2 可知,同在ARN 編碼模型下,將語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征以三聯(lián)體標(biāo)簽的方式送入編碼模型,它的編碼模型的mAP 值與哈希碼長(zhǎng)度成反比,這是因?yàn)槿?lián)體標(biāo)簽信息會(huì)編碼數(shù)據(jù)集內(nèi)的相似關(guān)系,以及ARN 編碼模型利用三聯(lián)體交叉熵?fù)p失函數(shù)并實(shí)現(xiàn)了最大的類可分性和最大的哈希碼可分性,當(dāng)哈希碼長(zhǎng)度為64 時(shí),mAP 就已達(dá)到最高。而利用單標(biāo)簽方法將語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征送入編碼模型,它的編碼模型的mAP 值與哈希碼長(zhǎng)度成正比,這是因?yàn)閱螛?biāo)簽對(duì)監(jiān)督信息利用不足以及ARN 編碼模型只考慮了一種損失,所以越長(zhǎng)的哈希碼對(duì)語(yǔ)音數(shù)據(jù)的語(yǔ)義信息表達(dá)越全面。由表2 可知,同在ARN 編碼模型下,采用三聯(lián)體標(biāo)簽的方法和單標(biāo)簽方法,設(shè)置哈希層不同的節(jié)點(diǎn)數(shù),編碼模型的mAP 基本都保持在90%以上,說(shuō)明ARN 編碼模型具有很好的魯棒性。

表3 為不同哈希碼長(zhǎng)度下不同編碼模型的mAP 的對(duì)比結(jié)果。其中,文獻(xiàn)[24-25]中的實(shí)驗(yàn)數(shù)據(jù)是對(duì)語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征的運(yùn)行結(jié)果。本文利用語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征,采用三聯(lián)體標(biāo)簽的方法,將數(shù)據(jù)送入ARN 編碼模型進(jìn)行訓(xùn)練,生成哈希碼。由表3 可知,相較于文獻(xiàn)[6,24-26],當(dāng)哈希碼長(zhǎng)度k為64、128、256、384 時(shí),ARN 模型的mAP 最高,這說(shuō)明ARN 模型的魯棒性最優(yōu)。當(dāng)哈希碼長(zhǎng)度k為512 且模型輸入特征為語(yǔ)譜圖圖像特征時(shí),文獻(xiàn)[6,26]方法的mAP 值略高于本文方法。主要有兩個(gè)原因:1)本文方法采用的三聯(lián)體標(biāo)簽本身比成對(duì)標(biāo)簽、單標(biāo)簽包含更豐富的語(yǔ)義信息,因?yàn)槊總€(gè)三聯(lián)體標(biāo)簽可以自然地分解為兩個(gè)成對(duì)的標(biāo)簽,明顯地提供了數(shù)據(jù)之間相對(duì)相似的概念;2)本文方法同時(shí)利用注意力機(jī)制和三元交叉熵?fù)p失函數(shù)訓(xùn)練網(wǎng)絡(luò),充分提取語(yǔ)義信息并將類別信息嵌入到所學(xué)習(xí)的哈希碼中,所以ARN 模型在哈希碼長(zhǎng)度為64 時(shí),mAP值已最高,過(guò)長(zhǎng)的哈希碼太過(guò)冗余,反而影響mAP 值。文獻(xiàn)[24-25]方法是成對(duì)標(biāo)簽,包含的語(yǔ)義信息和類別信息欠缺,且所采用的深度卷積神經(jīng)網(wǎng)絡(luò)模型需要150 次以上的迭代mAP 才能達(dá)到高精度,當(dāng)?shù)螖?shù)與本文方法一樣,同為50 次的時(shí)候,模型的mAP 值精度不高,這是因?yàn)槲墨I(xiàn)[24]方法采用的是平衡離散哈希方法,通過(guò)離散梯度傳播和直通估計(jì)器優(yōu)化哈希碼,雖避免了傳統(tǒng)連續(xù)松弛法帶來(lái)的量化誤差,但是增加了復(fù)雜度;文獻(xiàn)[25]中引入了基于標(biāo)準(zhǔn)化語(yǔ)義標(biāo)簽的兩兩量化相似度計(jì)算方法以及采用量化損失來(lái)控制哈希碼的質(zhì)量,增加了算法復(fù)雜度;文獻(xiàn)[6,26]中采用單標(biāo)簽方法且只考慮一種損失,造成監(jiān)督信息利用不足,所以只有當(dāng)哈希碼長(zhǎng)度為512 時(shí),編碼模型的mAP 值才能達(dá)到高精度。因此,本文方法采用的哈希編碼模型具有良好的性能。

表3 不同哈希碼長(zhǎng)度下不同編碼模型的mAP值Tab.3 mAP values of different encoding models under different hash code lengths

由表3 可知,通過(guò)對(duì)兩種特征的mAP 值的權(quán)衡考慮,后續(xù)實(shí)驗(yàn)評(píng)估采用哈希碼長(zhǎng)度為64 的ARN 編碼模型。

3.4 檢索性能評(píng)估

查全率R又稱作召回率,表示檢索返回的列表中,查詢出來(lái)的語(yǔ)音片段與查詢相關(guān)的語(yǔ)音片段所占的比例。計(jì)算公式如(14)所示:

其中:TP、FN分別表示檢索到的與查詢相關(guān)的語(yǔ)音片段的數(shù)目,以及未檢索到與查詢相關(guān)的語(yǔ)音片段數(shù)目;TP和FN的和為語(yǔ)音數(shù)據(jù)庫(kù)中與查詢相關(guān)的語(yǔ)音片段的總數(shù)。

查準(zhǔn)率P為檢索精度,表示返回的列表中,查詢?yōu)檎娴恼Z(yǔ)音片段所占的比例,計(jì)算公式如(15)所示:

其中:FP表示檢索到與查詢無(wú)關(guān)的語(yǔ)音片段的總量,TP和FP的和為返回的語(yǔ)音片段的總量。

因?yàn)椴槿屎筒闇?zhǔn)率是反依賴的關(guān)系,所以用F1 分?jǐn)?shù)作為測(cè)試指標(biāo)。F1 分?jǐn)?shù)越大,說(shuō)明檢索性能越好。計(jì)算公式如(16)所示:

圖5 為不同標(biāo)簽方法下不同特征的P-R曲線。實(shí)驗(yàn)分別利用三聯(lián)體標(biāo)簽/單標(biāo)簽方式將語(yǔ)譜圖圖像特征和Log-Mel譜圖圖像特征送入ARN 模型中,來(lái)測(cè)試兩種標(biāo)簽方式下兩種特征的查全率和查準(zhǔn)率。

圖5 不同標(biāo)簽方法下不同特征的P-R曲線Fig.5 P-R curves of different features under different labeling manners

從圖5 可知,在哈希碼長(zhǎng)度均為64 的時(shí)候,本文方法三聯(lián)體標(biāo)簽比單標(biāo)簽方式下的查全率、查準(zhǔn)率更高,說(shuō)明在同等哈希碼長(zhǎng)度下,三聯(lián)體標(biāo)簽方式能生成更高效緊湊的哈希碼,這是因?yàn)槿?lián)體深度哈希編碼模型在生成哈希碼的過(guò)程中,會(huì)充分利用三聯(lián)體之間的相似關(guān)系、三聯(lián)體交叉熵?fù)p失函數(shù),而單標(biāo)簽方式相比三聯(lián)體標(biāo)簽方式,監(jiān)督信息不足。

為評(píng)估本文方法的檢索性能,采用哈希編碼長(zhǎng)度為64的ARN 模型來(lái)測(cè)試查全率、查準(zhǔn)率和F1 分?jǐn)?shù),與現(xiàn)有方法[19,26-28]的檢索性能進(jìn)行了對(duì)比,對(duì)比結(jié)果如表4 所示。

表4 不同方法的檢索性能對(duì)比 單位:%Tab.4 Retrieval performance comparison of different methods unit:%

從表4 可知,相較于文獻(xiàn)[19,27-28]中的方法,本文方法基本取得了最優(yōu)結(jié)果,唯獨(dú)查準(zhǔn)率P略低于文獻(xiàn)[19]中的MSCconv5-CNN(Multichannel Sparse Coding Convolutional Neural Network)模型,說(shuō)明本文方法的檢索性能較好。文獻(xiàn)[26]中的方法的檢索性能略高于本文方法,是因?yàn)槲墨I(xiàn)[26]中的方法在檢索過(guò)程中,采用了兩級(jí)分類檢索策略,先根據(jù)類別哈希碼篩選出與查詢語(yǔ)音同一類的候選集合,再在候選集合中檢索匹配,且檢索過(guò)程中采用了384 長(zhǎng)度的哈希碼。

為了評(píng)估ARN 模型的分類性能,對(duì)語(yǔ)譜圖圖像特征和Log-Mel 譜圖圖像特征的受試者工作特征(Receiver Operating Characteristic,ROC)曲線和曲線下面積的(Area Under Curve,AUC)進(jìn)行了對(duì)比。ROC 曲線與x-y軸圍成的區(qū)域面積被定義為AUC 值。y=x這條直線為判斷模型分類性能好壞的一個(gè)閾值,它的值為0.5,若0.5

圖6 不同特征的ROC曲線和AUC值Fig.6 ROC curves and AUC values for different features

從圖6 可以看出,本文方法在兩種不同特征的ROC 曲線中取得的AUC 值分別為0.85 和0.96。AUC 值的區(qū)間范圍均在0.5

另外,為了測(cè)試本文方法生成的哈希碼的魯棒性,將CPO 后的語(yǔ)音數(shù)據(jù)生成的語(yǔ)譜圖圖像特征/Log-Mel 譜圖圖像特征作為ARN 模型的輸入,并利用模型生成的哈希碼進(jìn)行評(píng)估分析,查全率和查準(zhǔn)率如表5 所示。其中,文獻(xiàn)[26]方法1 和文獻(xiàn)[26]方法2 分別代表骨干網(wǎng)絡(luò)為CNN 和CRNN 的方法。

表5 不同內(nèi)容保持操作下的查全率和查準(zhǔn)率對(duì)比結(jié)果 單位:%Tab.5 Comparison results of recall and precision under different content preserving operations unit:%

從表5 可看出,本文方法以四種CPO 后的語(yǔ)音數(shù)據(jù)所生成的語(yǔ)譜圖圖像特征和Log-Mel 譜圖圖像特征作為模型的輸入時(shí),本文方法所生成的哈希碼仍然具有較高的查全率和查準(zhǔn)率。相較于文獻(xiàn)[26,29]方法,語(yǔ)音數(shù)據(jù)在MP3 壓縮和重量化2(Requantization 2,R2)操作后,本文方法在兩種特征下查全率和查準(zhǔn)率均達(dá)到了100%。這是因?yàn)镸P3 壓縮的特點(diǎn)是使低頻信號(hào)不失真,高頻信號(hào)減弱;R2 操作的特點(diǎn)是使音頻波形精度增高,而不影響音頻的質(zhì)量。相比之下,語(yǔ)音數(shù)據(jù)在重采樣(Resampling,R)操作后,本文方法在采用語(yǔ)譜圖圖像特征下的查全率和查準(zhǔn)率略低于文獻(xiàn)[26,29]方法。R操作是將采樣頻率先降低到8 kHz,然后增加到16 kHz,雖提高了音頻質(zhì)量,但也無(wú)形中增加了音頻體積,增大了計(jì)算量,致使語(yǔ)譜圖圖像特征損耗更大,部分信息丟失。相比其他語(yǔ)音內(nèi)容保持操作,語(yǔ)音數(shù)據(jù)在重量化1(Requantization 1,R1)操作后,本文方法在兩種特征下的查全率和查準(zhǔn)率都低于文獻(xiàn)[29]方法,這是因?yàn)檎Z(yǔ)音信號(hào)在16-8 Kb/s 量化操作時(shí),語(yǔ)音波形幅度精度降低,所以R1 操作影響了音頻質(zhì)量;而R1 操作下文獻(xiàn)[29]方法的查全率和查準(zhǔn)率更高,因?yàn)楣4a長(zhǎng)度498 大于本文方法的哈希碼長(zhǎng)度64,所以在音頻質(zhì)量破壞的情況下,哈希碼長(zhǎng)度越長(zhǎng),所包含的語(yǔ)義信息更全面。

為了驗(yàn)證本文方法對(duì)語(yǔ)音檢索的準(zhǔn)確度,實(shí)驗(yàn)隨機(jī)選取了1 000 條測(cè)試語(yǔ)音中的第756 條查詢語(yǔ)音進(jìn)行了匹配檢索,分別利用語(yǔ)譜圖圖像特征和Log-Mel 譜圖圖像特征作為模型的輸入所生成的深度哈希碼與深度哈希索引表中的哈希碼(數(shù)據(jù)庫(kù)中每個(gè)語(yǔ)音數(shù)據(jù)所對(duì)應(yīng)的哈希碼)進(jìn)行匹配檢索,匹配檢索結(jié)果如圖7 所示。

圖7 不同語(yǔ)音特征的匹配檢索結(jié)果Fig.7 Matching retrieval results for different speech features

從圖7 可知,只有查詢語(yǔ)音的比特誤碼率(Bit Error Ratio,BER)小于設(shè)置的閾值0.20,其余999 條語(yǔ)音的BER 均大于0.20,匹配失敗。因此,本文方法具有較好的檢索效果。

3.5 檢索效率分析

檢索效率是驗(yàn)證算法好壞的一種重要方法。實(shí)驗(yàn)隨機(jī)選取THCHS-30 語(yǔ)音庫(kù)中的10 000 條語(yǔ)音片段,并對(duì)它們經(jīng)過(guò)MP3 壓縮內(nèi)容保持操作后作為查詢語(yǔ)音進(jìn)行評(píng)估。計(jì)算本文方法的平均檢索時(shí)間,并與文獻(xiàn)[26,29]方法進(jìn)行對(duì)比分析,結(jié)果如表6 所示。

表6 本文方法與現(xiàn)有方法的檢索效率對(duì)比結(jié)果Tab.6 Comparison results of retrieval efficiency of proposed method and existing methods

從表6 可知,使用Log-Mel 譜圖作為特征的本文方法的平均運(yùn)行時(shí)間相較于文獻(xiàn)[26,29]方法縮短了19.0%~55.5%,說(shuō)明本文方法檢索效率良好。本文方法采用的三聯(lián)體標(biāo)簽可以明顯地提供數(shù)據(jù)之間相對(duì)相似的概念,同時(shí)利用注意力機(jī)制和三元交叉熵?fù)p失函數(shù)訓(xùn)練網(wǎng)絡(luò),生成更高效緊湊的哈希碼,縮短了匹配長(zhǎng)度,節(jié)省了檢索時(shí)間。文獻(xiàn)[26,29]中分別采用了384、498 長(zhǎng)度的哈希碼進(jìn)行了匹配檢索,相比本文方法采用的64 長(zhǎng)度的哈希碼,增加了匹配長(zhǎng)度,影響了檢索效率;文獻(xiàn)[29]方法的檢索平均運(yùn)行時(shí)間低于文獻(xiàn)[26]方法,是因?yàn)樵谏晒4a的過(guò)程中,文獻(xiàn)[29]中采用了降維速度更快的主成分分析算法。因此,本文方法非常適合語(yǔ)音檢索任務(wù)。

4 結(jié)語(yǔ)

本文利用注意力機(jī)制-殘差網(wǎng)絡(luò)(ARN)模型,提出了一種用于語(yǔ)音檢索的三聯(lián)體深度哈希方法。與現(xiàn)有的語(yǔ)音檢索方法中采用的基于單標(biāo)簽的深度哈希方法相比,可利用三聯(lián)體標(biāo)簽信息編碼數(shù)據(jù)集內(nèi)的相似關(guān)系生成高效緊湊的哈希碼。另外,結(jié)合殘差網(wǎng)絡(luò)和注意力機(jī)制來(lái)提取語(yǔ)譜圖圖像特征的深度語(yǔ)義特征,并引入三聯(lián)體交叉熵?fù)p失,不僅可以使模型充分提取語(yǔ)譜圖圖像特征的語(yǔ)義信息,而且還可將語(yǔ)譜圖圖像特征的所屬類別信息嵌入到所學(xué)習(xí)的哈希碼中,從而提高語(yǔ)音檢索的檢索精度和效率。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有語(yǔ)音檢索方案相比,本文方法能夠生成高效緊湊的哈希碼,確保了語(yǔ)音檢索系統(tǒng)具有良好的識(shí)別率、魯棒性、查全率和查準(zhǔn)率,對(duì)較長(zhǎng)的語(yǔ)音具有良好的檢索效率和準(zhǔn)確性。

不足之處是本文方法不能構(gòu)造更緊湊的深度哈希二值碼來(lái)完成語(yǔ)音高效的檢索。

猜你喜歡
語(yǔ)譜哈希檢索
HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
2019年第4-6期便捷檢索目錄
基于時(shí)頻域特征的場(chǎng)景音頻研究
語(yǔ)譜圖二次傅里葉變換特定人二字漢語(yǔ)詞匯識(shí)別
專利檢索中“語(yǔ)義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
基于維度分解的哈希多維快速流分類算法
面向語(yǔ)音情感識(shí)別的語(yǔ)譜圖特征提取算法
基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
温州市| 阿坝| 沅江市| 九寨沟县| 龙井市| 唐河县| 绍兴市| 盐亭县| 镶黄旗| 许昌市| 岫岩| 延吉市| 平乐县| 盐亭县| 东阿县| 鄂州市| 鹿邑县| 娄底市| 台江县| 周口市| 宜丰县| 土默特左旗| 滨海县| 平谷区| 越西县| 南康市| 富川| 北安市| 剑河县| 吴江市| 河源市| 满洲里市| 青神县| 夏河县| 五莲县| 临湘市| 重庆市| 通海县| 邹城市| 五大连池市| 泰安市|