鄭婉蓉,謝凌云
(中國傳媒大學(xué) 傳播聲學(xué)研究所,北京100024)
傳統(tǒng)的聲音信號(無論是樂音還是語音)處理中,一般都是獲取一維的波形數(shù)據(jù),進(jìn)行與聲音有關(guān)的特征分析或數(shù)字信號處理。同樣地,在圖像信號處理中,所采用的特征和方法也是直接和二維圖像相關(guān)的。這兩種視聽覺模態(tài)的輸入信息,一直以來都是在各自的領(lǐng)域進(jìn)行獨立的研究。近年來,視聽交互和融合的心理感知現(xiàn)象在視聽覺的信號分析領(lǐng)域得到越來越多的重視,研究人員的分析視角也逐漸地從一維聲音信號和二維圖像信號的獨立分開處理轉(zhuǎn)向創(chuàng)造性的跨模態(tài)處理。聲音(圖像)的信號處理方法,被運(yùn)用到另一模態(tài)的圖像(聲音),從而試圖從一個模態(tài)上挖掘有用的信息后再應(yīng)用到另一個模態(tài)上。其中最重要的中介就是語譜圖。
語譜圖將聲音的頻譜隨時間變化的信息展現(xiàn)在一個二維平面圖上,其中橫軸是時間,縱軸是頻率,某一點處顏色的深淺代表了對應(yīng)時刻和頻率的信號能量大小,也被稱為聲譜圖(spectrogram)。它雖然反映了聲音信號的特征,但是卻和二維圖像具有相同的屬性。以它為中介,可以完成圖像到聲音和聲音到圖像的雙向轉(zhuǎn)換,達(dá)到跨模態(tài)處理的目的。
本文接下來一方面介紹了從語譜圖的角度進(jìn)行聲音分類的研究內(nèi)容及進(jìn)展情況,包括用于音樂流派分類圖像特征類型及其分類的精確度,對普通聲音事件分類的方法及其結(jié)果。另一方面對圖像到聲音的相互轉(zhuǎn)換及關(guān)系等相關(guān)工作進(jìn)行了介紹,包括通過修改聲音來改變圖像或者通過圖像處理來改變聲音等。同時提出了基于語譜圖的圖像處理重建語音,以達(dá)到語音增強(qiáng)目的的處理方法。
信息時代早期以來,數(shù)字音樂已成為消費類型最多的媒體之一,對于音樂數(shù)據(jù)的自動分析相應(yīng)的越來越重要。音樂流派是人類為確定音樂風(fēng)格而創(chuàng)建的分類標(biāo)簽,是提高音樂檢索的一個重要描述信息。傳統(tǒng)音樂流派分類的方法大多都以音樂信號為基礎(chǔ),近幾年來,相當(dāng)一部分關(guān)于音樂的自動流派分類工作大部是基于內(nèi)容的,即從數(shù)字音頻信號中提取有代表性的短時音頻特征,較為頻繁使用的特征中有音色、節(jié)拍、音高等,再利用模式識別以及分類算法處理特征達(dá)到音樂流派分類的目的。例如Tzanetakis[1]根據(jù)聲音的音色、節(jié)奏、韻律、MFCC系數(shù)等特征對10個音樂流派進(jìn)行分類,達(dá)到了61%的分類識別率。國內(nèi)外有相當(dāng)一部分研究如Kosina、Grimaldi都做了類似的工作。2011年Costa[2]提出了一種新的音樂流派分類方法。
Costa提出的音樂流派分類方法是將聲音信號的時頻表示轉(zhuǎn)換為紋理圖像,提取圖像特征來構(gòu)建新的音樂流派分類系統(tǒng)。具體是將音頻信號轉(zhuǎn)換為語譜圖,然后從視覺表示中提取特征,對圖像特征向量進(jìn)行訓(xùn)練分類,從而達(dá)到音樂流派分類的目的。音樂信號可能包括類似的樂器和類似的節(jié)奏模式,使得語譜圖圖像中有相似區(qū)域。通過對圖像進(jìn)行分區(qū),提取出局部特征信息,獲得每種音樂流派的突出特點再進(jìn)行分類。
接著,Costa又利用灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)來對音樂信號進(jìn)行分類訓(xùn)練,GLCM是特定空間(包括距離和角度)中兩個灰度出現(xiàn)的聯(lián)合概率分布,得到的結(jié)果與Lopes[3]的結(jié)果相比,分類正確率提高了7個百分點。
2012年,Costa[4]從語譜圖提取了圖像特征:灰度共生矩陣和局部二值模式(Local Binary Patterns,LBP)。LBP是用來描述圖像局部紋理特征的算子,它反映的內(nèi)容是每個像素點與其周圍像素點的對比信息,或者說差異。結(jié)果表明用LBP訓(xùn)練的SVM分類器能夠?qū)崿F(xiàn)80%的識別率,優(yōu)于用GLCM訓(xùn)練。具體見表1。
表1 流派分類的結(jié)果對比
2013年Costa[5]進(jìn)一步利用Gabor濾波器和LPQ(Local Phase Quantization,局部相位量化)描述符來表示圖像紋理特征,得到新的音樂流派分類識別率。Gabor函數(shù)是一個用于邊緣提取的線性濾波器。Gabor濾波器的頻率和方向表達(dá)同人類視覺系統(tǒng)類似。用LPQ訓(xùn)練的SVM分類器達(dá)到高于80%的識別率。結(jié)果參見表2和表3。
實驗的過程方法都是類似的,數(shù)據(jù)集使用的是LATIN MUSIC DATABASE(LMD),圖像取自歌曲前中后三個片段的語譜圖,分別采用全局和局部兩種特征進(jìn)行訓(xùn)練分類,訓(xùn)練分類使用了三重交叉驗證。
表2 不同圖像特征的結(jié)果對比
表3 不同圖像特征的結(jié)果與傳統(tǒng)方法及比賽結(jié)果對比
由結(jié)果可以看出,提出的基于語譜圖圖像特征的方法表現(xiàn)出了良好的分類效果,特別是LBP和LPQ,存在的不足是使用的特征向量維數(shù)過多,造成計算時的冗雜,例如LBP的特征向量唯獨為59。因此在優(yōu)化識別率的基礎(chǔ)上,算法效率也需要加強(qiáng)。
聲音事件通常具有更獨特的時間頻率表示,能量集中在少量的頻譜分量上。這使得它們更適合于基于它們的視覺特征進(jìn)行分類,因此可以從圖像處理的相關(guān)領(lǐng)域中得到啟發(fā)。2014年,Dennis[6]介紹了最近6種根據(jù)語譜圖進(jìn)行聲音事件分類的方法,包括一個基于幀的直方圖特征(Histogram of Oriented Gradients,HOG),三個全局特征語譜圖圖像特征(Spectrogram Image Feature,SIF)、子帶功率分布圖像特征(Subband Power Distribution Image Feature,SPD-IF)、聲譜縫模式(Spectrographic Seam Patterns,SSP),兩個局部特征包括時頻有序BOVW(Ordered Spectro-Temporal Bag-of-Visual-Words)和尺度不變特征變換BOVW(SIFT BOVW)。Dennis分析了這6種方法在對50種不同環(huán)境聲音中的表現(xiàn)的性能,聲音數(shù)據(jù)來自RWCP(Real Word Computing Partnershi),所選擇的聲音事件涵蓋了廣泛,包括木制,金屬和瓷器撞擊,摩擦聲以及其他聲音如鈴聲,電話和哨聲等。使用了NOISEX’92中的語噪、工廠噪聲、飛機(jī)駕駛艙噪聲作為環(huán)境噪聲。表4給出在不同方法在聲音事件分類任務(wù)中的效果比較。
表4 不同聲音分類方法結(jié)果對比
其中ETSI Advanced Front End(AFE)和Multi-Conditional Training(MCT)是基于幀的MFCC-HMM系統(tǒng),兩個分類系統(tǒng)都使用基于39維的基于幀的MFCC特征,后六個方法是基于語譜圖圖像處理方法的。使用有序BOVW方法的性能明顯優(yōu)于無序SIFT BOVW技術(shù)。整體性能表現(xiàn)最好的方法是SPD-IF,SPD-IF方法是通過頻譜圖的子帶分布捕獲時間信息,與SIF相比,信號和噪聲信息在SPD表現(xiàn)中更容易分離。SPD方法沒有精確捕獲聲音中時間信息的排序,但它可以為特征提取提供一個魯棒和區(qū)分性的基礎(chǔ),優(yōu)于現(xiàn)有MCT技術(shù)??偟膩砜磳⒄Z譜圖信息結(jié)合到特征中對于聲音事件分類是有益的。
Kawamura[7]在2016年發(fā)表在《applied acoustics》上的文章里討論了關(guān)于“圖像-聲音-圖像”的變換方法。他把一般圖像視為某個聲音的語譜圖進(jìn)行處理,將任意的圖像進(jìn)行IFFT變換得到一個一維的聲音數(shù)據(jù),對該聲音數(shù)據(jù)進(jìn)行相應(yīng)的音頻信號處理,如延時、濾波、改變相位等技術(shù)來修改聲音,再將一維的聲音數(shù)據(jù)進(jìn)行FFT,得到產(chǎn)生相應(yīng)改變的語譜圖圖像,具體過程如圖1。
圖1 圖像-聲音-圖像的轉(zhuǎn)換
圖像經(jīng)過IFFT后得到聲音,對聲音進(jìn)行的基本運(yùn)算,包括乘、延遲、疊加等。結(jié)果發(fā)現(xiàn)乘法算子可以改變信號幅度,由此改變圖像的明亮度。信號乘的系數(shù)越大,重建圖像亮度越高。時域延遲會使圖像右移,特定情況圖像會減損。聲音疊加時,相位對結(jié)果影響很大,當(dāng)且僅當(dāng)兩信號相位相同時,信號相加得到的頻譜(圖像)也是相加的,否則圖像會產(chǎn)生失真。作者還對聲音進(jìn)行了常見的音頻信號處理,經(jīng)過不同類型的濾波器(高通、低通、帶寬)后恢復(fù)的圖像有相應(yīng)不同的遮擋效果,經(jīng)過FIR或IIR濾波器后恢復(fù)的圖像有延遲重疊效果,陷波濾波器可以產(chǎn)生寬度和位置可變的黑線條。脈沖聲經(jīng)過圖像重建產(chǎn)生豎直線;正弦信號則顯示水平線,這與傅里葉變換結(jié)果一致。
以上的研究把圖像與聲音信號處理之間關(guān)聯(lián)起來,采用聲音信號處理的方法來改變圖像。實際應(yīng)用上也可以借此利用通感,讓盲人經(jīng)過訓(xùn)練后,通過聲音來感受圖像的變化。這種思維角度值得進(jìn)一步研究。
基于以上研究,我們提出了一種新的基于譜圖的語音增強(qiáng)方法。其主要思想是將帶噪語音聲音經(jīng)過STFT之后得到語譜圖數(shù)據(jù),將語譜圖轉(zhuǎn)換成灰度圖像后,對其進(jìn)行圖像處理后再進(jìn)行逆短時傅里葉變換得到重建的聲音。實驗中采用的方法均基于灰度變換(Gray-Scale Transform,GST)。GST是對圖像像素直接進(jìn)行處理,可以根據(jù)實際需要來擴(kuò)展或者壓縮灰度,起到圖像增強(qiáng)的作用。實驗主要采用了兩種灰度變換方法,一種是gamma變換,一種是對比度拉伸。
實驗語料采用IEEE語料庫中的10個句子,每個句子7~12個單詞。噪聲類型選擇了3種,分別為白噪聲、speech-shaped noise和babble噪聲。所有信號設(shè)置采樣率16kHz,16位深度。噪聲和語音設(shè)置了3種信噪比:-5dB,0dB,5dB。圖像處理方法使用了gamma變換和對比圖拉伸兩種,并使用維納濾波、譜減以及最小均方誤差估計三種傳統(tǒng)增強(qiáng)方法作為對照。
經(jīng)過圖像處理方法重建的語音以及經(jīng)過傳統(tǒng)方法增強(qiáng)語音不同方法處理后得到的語音后,分別對處理后的語音進(jìn)行信噪比(SNR)、分段信噪比(SEG-SNR)以及主觀語音質(zhì)量評估(PESQ)的計算,并對結(jié)果進(jìn)行分析,其中PESQ的結(jié)果見圖2。
圖2 不同語音增強(qiáng)方法下的PESQ
PESQ是 ITU-T P.862建議書提供的客觀MOS值評價方法。如圖2所示,在PESQ的表現(xiàn)上,圖像處理方法的去噪效果明顯好于傳統(tǒng)方法。傳統(tǒng)去噪方法信噪比越低,對PESQ提升的效果越差,而圖像處理方法對PESQ的提升則相對穩(wěn)定。
SNR是語音信號的整體信噪比,從長時信噪比的提高的結(jié)果上來看,通過圖像處理方法重建的聲音雖然相對于原始加噪語音有所提升,但相比于傳統(tǒng)方法沒有表現(xiàn)出明顯的優(yōu)勢,在SNR為5dB的情況下表現(xiàn)稍差,其他情況與傳統(tǒng)方法的效果近似。SEG-SNR是對信號的每一幀進(jìn)行計算得出的平均信噪比值。圖像處理方法在這個參數(shù)的表現(xiàn)上相對傳統(tǒng)方法沒有優(yōu)勢。
由于不同的窗口大小得到的語譜圖具有不同的時間分辨率和頻率分辨率,考慮的到這種特性可能會影響GST方法的結(jié)果,在實驗中用分別使用了6種大小的窗長64/128/256/512/1024/2048進(jìn)行了測試,發(fā)現(xiàn)窗口大小對增強(qiáng)語音質(zhì)量沒有顯著影響。
這種聲音到圖像的映射方法,連接了圖像信號處理方法和聲音數(shù)據(jù)。在這種情況下,時間的維度在聲音處理中消失,被引入到圖像處理中,形成了圖像二維矩陣的一個維度。從一個新的角度去處理問題,得到了意想不到的效果,這對聲音的處理有了新的啟發(fā)。
利用語譜圖的圖像特征對音樂流派或聲音事件進(jìn)行分類具有良好的效果;通過修改聲音可以達(dá)到改變圖像特征的目的;實驗證明了從圖像角度來處理數(shù)據(jù)可以達(dá)到語音去噪效果。這種聲音-圖像跨模態(tài)的處理思想,連接了圖像處理技術(shù)和聲音處理技術(shù)。從聲音被識別為圖像或圖像被識別為聲音的全新視角來看待視聽覺信號處理,這種新的方法會為數(shù)字信號處理中的跨模態(tài)研究提供新的思路,也能夠幫助視聽交互心理感知研究的量化建模。