王 惠
(中國(guó)電影科學(xué)技術(shù)研究所,北京 100086)
近年來(lái),隨著國(guó)家文化產(chǎn)業(yè)政策的推動(dòng),全國(guó)電影市場(chǎng)蓬勃發(fā)展,電影的創(chuàng)作生產(chǎn)、影院建設(shè)和電影票房都迎來(lái)了難得的機(jī)遇期。電影是藝術(shù)與技術(shù)相結(jié)合的效果呈現(xiàn),除去前期的藝術(shù)創(chuàng)作,一個(gè)完整的產(chǎn)業(yè)鏈和成功的影院市場(chǎng)才是決定了電影產(chǎn)業(yè)下游的關(guān)鍵生命力,因此,保持影院放映規(guī)范也是保證其持續(xù)健康發(fā)展的動(dòng)力。但目前市場(chǎng)上存在一定的違法違規(guī)行為,包括影廳盜錄盜放、偷漏瞞報(bào)票房等,嚴(yán)重干擾了影院市場(chǎng)秩序,也損害了電影聲譽(yù),造成惡劣影響。因此影院影廳的規(guī)范化管理已經(jīng)成為亟待解決的問(wèn)題。
目前針對(duì)規(guī)范電影放映的最有效方式便是加強(qiáng)放映內(nèi)容的監(jiān)管,在影片播放過(guò)程中采集聲音、畫面數(shù)據(jù),分析并進(jìn)行識(shí)別比對(duì),以達(dá)到動(dòng)態(tài)監(jiān)測(cè)、控制放映內(nèi)容的目的,從而形成放映監(jiān)測(cè)機(jī)制。其中,聲紋識(shí)別技術(shù)是近年發(fā)展起來(lái)的有效識(shí)別技術(shù)之一,通過(guò)收集影片的聲音樣本建庫(kù),并將采集的源頭數(shù)據(jù)進(jìn)行聲紋匹配,可實(shí)現(xiàn)影片自動(dòng)化識(shí)別。本文主要綜述性介紹聲紋識(shí)別的基本原理及關(guān)鍵技術(shù),在電影放映領(lǐng)域的應(yīng)用探索實(shí)驗(yàn),以及后期的改進(jìn)與優(yōu)化,為電影放映市場(chǎng)的規(guī)范發(fā)展提供技術(shù)參考。
每個(gè)聲音都具有獨(dú)特性,聲紋識(shí)別技術(shù)正是基于這一基礎(chǔ)特征,通過(guò)不同的方法對(duì)一種或多種聲音信號(hào)的特征進(jìn)行對(duì)比分析,得到識(shí)別結(jié)果。聲紋識(shí)別的樣本信息一般是提取說(shuō)話人的語(yǔ)音特征,并將其轉(zhuǎn)化為聲音信號(hào)的語(yǔ)譜圖,以圖像化的形式表示。一般用橫軸代表時(shí)間,縱軸代表頻率,同時(shí)用顏色來(lái)劃分語(yǔ)音在各個(gè)頻率點(diǎn)的幅值大小。說(shuō)話人聲音的基頻與諧頻用多條亮線來(lái)顯示,然后通過(guò)采取不同的方法來(lái)對(duì)多個(gè)語(yǔ)譜圖進(jìn)行相似度對(duì)比分析,最終識(shí)別不同的語(yǔ)音特征。
圖1 聲音波形圖及聲音語(yǔ)譜圖
聲紋識(shí)別的最終目標(biāo)是為了讓機(jī)器能夠準(zhǔn)確地識(shí)別某一段語(yǔ)音,整個(gè)過(guò)程是一個(gè)典型的模式識(shí)別的框架,可以分為兩大部分,特征提取和模式識(shí)別。
首先在進(jìn)行操作之前需要目標(biāo)用戶提供一段訓(xùn)練語(yǔ)音,并將該語(yǔ)音經(jīng)過(guò)質(zhì)量檢測(cè)、噪聲消除等一系列的預(yù)處理操作之后,獲得有效語(yǔ)音,開(kāi)始進(jìn)行特征參數(shù)的提取。特征提取的目的是從語(yǔ)音信號(hào)中除去冗余信息,將能唯一有效地表現(xiàn)說(shuō)話人身份的基本特征提取出來(lái),該特征需能夠區(qū)分出不同的說(shuō)話人,且在同一說(shuō)話人在時(shí)間或者環(huán)境有所不同時(shí),該特征仍具有相對(duì)穩(wěn)定性,特征提取的過(guò)程本質(zhì)上是一個(gè)篩選無(wú)效數(shù)據(jù)的過(guò)程。
接下來(lái)就是進(jìn)行模型識(shí)別。將上一階段獲得的基本特征映射為用戶的聲紋模型,存入聲紋模型數(shù)據(jù)庫(kù)中。與此同時(shí),另一部分為驗(yàn)證階段,一段未知語(yǔ)音也會(huì)經(jīng)過(guò)一系列操作后被定義為測(cè)試特征,然后用該測(cè)試特征與模型庫(kù)中目標(biāo)模型采用相關(guān)算法進(jìn)行相似性匹配,得到匹配度,如果高于預(yù)期,則可認(rèn)為該測(cè)試語(yǔ)音與目標(biāo)語(yǔ)音身份匹配成功,通過(guò)驗(yàn)證,反之則失敗。因此根據(jù)聲紋識(shí)別的整個(gè)技術(shù)流程來(lái)看,語(yǔ)音選定、預(yù)處理操作、特征提取、建模、對(duì)比算法、結(jié)果分析等方面需要綜合考慮,而其中最關(guān)鍵的技術(shù)則是特征提取和模式匹配,直接影響到系統(tǒng)的識(shí)別性能與辨識(shí)度。
圖2 聲紋識(shí)別流程示意圖
聲紋特征的生成算法目前主要有Echoprint、Chromaprint和Landmark,這三大類的本質(zhì)都是語(yǔ)音特征參數(shù)提取,其涉及的主要技術(shù)有:短時(shí)過(guò)零、率基因周期、線性預(yù)測(cè)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC),以及經(jīng)過(guò)噪聲譜減或者信道譜減的去噪倒譜系數(shù)等。在提取過(guò)程中,不同的特征參數(shù)都有對(duì)應(yīng)的算法,需根據(jù)不同的語(yǔ)音信號(hào)特征選擇合適的方法提取特征參數(shù)。在提取到合適的特征參數(shù)后進(jìn)行識(shí)別,目前常用方法主要有以下幾類:
(1)模板匹配方法:通常適用于與文本相關(guān)的任務(wù),主要用于固定詞組的應(yīng)用,依靠動(dòng)態(tài)時(shí)間彎折(DTW)以對(duì)準(zhǔn)訓(xùn)練和測(cè)試特征序列。
(2)最近鄰方法:在訓(xùn)練時(shí)保留所有的特征矢量、識(shí)別時(shí)在每個(gè)矢量附近找到若干個(gè)訓(xùn)練矢量,進(jìn)行識(shí)別,但該方法通常模型存儲(chǔ)和相似計(jì)算的量往往都很大。
(3)神經(jīng)網(wǎng)絡(luò)方法:有多層感知、徑向基函數(shù)(RBF)等多種形式,雖可以顯式訓(xùn)練來(lái)區(qū)分說(shuō)話人和背景說(shuō)話人,但訓(xùn)練量較大,模型的可推廣性不好。
(4)隱式馬爾科夫模型(HMM)方法:是目前比較流行的方法之一,通常采用單狀態(tài)的HMM,或高斯混合模型(GMM),效果較好。
(5)VQ聚類方法(如LBG):該方法算法復(fù)雜度低,效果好,可與HMM方法配合以達(dá)到更好效果。
(6)多項(xiàng)式分類器方法:模型存儲(chǔ)和計(jì)算量較大,但能得到較高的精度。
目前最常用的聲紋提取算法就是shazam公司提出的Landmark指紋構(gòu)造算法。Landmark是指突出的點(diǎn)或者區(qū)域,并承載著信號(hào)的關(guān)鍵信息,基于它是音頻能量的極值,所以本身就有很強(qiáng)的抗噪能力,比較適合用來(lái)做音頻檢索,這也是很多特征提取和識(shí)別算法的思路。因此在探索實(shí)驗(yàn)中,我們也選擇用該算法來(lái)構(gòu)造聲音指紋特征。
當(dāng)獲得聲紋特征后,我們根據(jù)信息檢索的原理進(jìn)行檢索,但在實(shí)際中,這樣的檢索方式性能較低,每一次遍歷都將耗費(fèi)大量時(shí)間。因此我們?cè)谠囼?yàn)過(guò)程中,采用了聲音指紋特征點(diǎn)作為散列點(diǎn)儲(chǔ)存的方法,該指紋特征除指紋信息外,包含標(biāo)準(zhǔn)樣片ID、幀偏移量等,然后進(jìn)行順序識(shí)別。本文之后在算法探索中統(tǒng)一使用指紋來(lái)指代聲紋特征點(diǎn)。該算法最終經(jīng)過(guò)試驗(yàn)后,能夠達(dá)到運(yùn)行效率和準(zhǔn)確程度的最優(yōu)。
圖3 Landmark算法的基本流程
按照Landmark算法的中心思想,首先對(duì)原始波形信號(hào)進(jìn)行FFT快速傅里葉變換,將時(shí)域上的信息轉(zhuǎn)變成一個(gè)個(gè)頻域信息,在此我們需要在權(quán)衡精度和效率之后,選擇合適幀位移為間隔,通常選在10ms~40ms之間,對(duì)原始信號(hào)進(jìn)行預(yù)處理后,轉(zhuǎn)換為三維頻譜圖,其中橫坐標(biāo)為時(shí)間,縱坐標(biāo)為頻率,高度坐標(biāo)為能量。其次是從頻譜圖中提取一系列的能量極大值點(diǎn)(峰值點(diǎn)),選取Landmark的規(guī)則并不是固定的,通過(guò)調(diào)節(jié)條件參數(shù),控制好合適的數(shù)量和單位密度,在給定的區(qū)域內(nèi)進(jìn)行篩選,選取最優(yōu)點(diǎn)數(shù)。之后就是去掉原始的能量信息,保留提取極值點(diǎn)的X坐標(biāo)和Y坐標(biāo),將一系列極大值坐標(biāo)作為特征。但單單使用一個(gè)個(gè)單獨(dú)的坐標(biāo)作為指紋信息則過(guò)于簡(jiǎn)單,容易碰撞,使得后期匹配準(zhǔn)確率低。Landmark指紋構(gòu)造算法提供一種思路,通常可以將極值點(diǎn)兩兩組合,形成一個(gè)指紋特征點(diǎn),減少檢索的碰撞,提升性能。然后根據(jù)得到的指紋組合特征點(diǎn)的信息,生成哈希值。算法的基本流程如圖3所示。
快速傅里葉變換是算法的預(yù)處理環(huán)節(jié),傅里葉變換實(shí)質(zhì)上是對(duì)多項(xiàng)式的系數(shù)表示和點(diǎn)值表示之間的轉(zhuǎn)換,因此可將聲音的模擬信號(hào)采集處理經(jīng)過(guò)模數(shù)轉(zhuǎn)換為數(shù)字信號(hào)。由于電影的音頻時(shí)間通常在100分鐘左右,按照普通參數(shù)標(biāo)準(zhǔn)則會(huì)耗費(fèi)大量的運(yùn)算量和運(yùn)算時(shí)間,因此在原始波形進(jìn)行分隔時(shí),我們將幀位移選定約為100ms,控制單位時(shí)間內(nèi)選取的點(diǎn)數(shù)。
對(duì)選定音頻進(jìn)行變換,離散傅里葉變換(DFT)的運(yùn)算公式如下:
根據(jù)DFT的運(yùn)算,對(duì)于X(k)的每個(gè)k值都需要進(jìn)行4N次的實(shí)數(shù)相乘和(4N-2)次的相加,然后對(duì)于N個(gè)k值,一共需要4N*N次實(shí)數(shù)相乘和(4N-2)*N次實(shí)數(shù)相加。其算法時(shí)間復(fù)雜度是O(N*N)。利用DFT中W的周期性和對(duì)稱性進(jìn)行改進(jìn),將整個(gè)運(yùn)算過(guò)程變成一系列迭代運(yùn)算即FFT,減少乘法運(yùn)算次數(shù)和計(jì)算量,時(shí)間復(fù)雜度為O(N),大幅度提高了運(yùn)算效率。實(shí)驗(yàn)中傅里葉變換過(guò)程代碼如圖4所示。
圖4 傅里葉變換過(guò)程代碼
在完成變換后,得到轉(zhuǎn)換后的三維頻譜圖,其中橫坐標(biāo)為時(shí)間,縱坐標(biāo)為頻率,高度坐標(biāo)為能量;至此我們可以進(jìn)行下一步操作,在頻譜圖中提取合適的能量極值點(diǎn)。
圖5 FFT變換后的結(jié)果圖
在得到FFT變換后的數(shù)據(jù)之后進(jìn)行解析,可得到采樣頻率fs(Hz)、總采樣數(shù)N,同時(shí)也輸出N個(gè)double值D(N),即每個(gè)值為當(dāng)前頻點(diǎn)的幅值。通過(guò)計(jì)算可得到:
數(shù)組下標(biāo)頻率密度(每格的頻率增量)= fs/N(Hz);
數(shù)組下標(biāo)為i的頻率值f(i)=i*(fs/N);
輸入信號(hào)模的平均值為D[0]/N。
在探索中發(fā)現(xiàn),要滿足指紋的健壯性,則能量極值點(diǎn)的選取非常關(guān)鍵。經(jīng)過(guò)多次試驗(yàn)分析,采用分段求峰值的方法,即從關(guān)鍵頻率段中選擇峰值點(diǎn),既能提高運(yùn)算速度,減小算法運(yùn)算量,同時(shí)也能剔除不適用于構(gòu)造指紋的特征點(diǎn)。
因此在實(shí)踐應(yīng)用中,依據(jù)人耳對(duì)聲音的敏感性分布,將頻率劃分為以下區(qū)間:110~220Hz、220~440Hz、440~880Hz、880~1760Hz、1760~3520Hz,可采用公式f(i)=i*(fs/N),分別計(jì)算下標(biāo)值區(qū)間,從而得出每個(gè)區(qū)間內(nèi)采樣點(diǎn)數(shù)進(jìn)行統(tǒng)計(jì),例如:N = 4096, fs = 44K(Hz)時(shí),計(jì)算結(jié)果近似為:區(qū)間[10,19]共10個(gè)數(shù)值、區(qū)間[20,39]共20個(gè)數(shù)值、區(qū)間[40,79]共40個(gè)數(shù)值、區(qū)間[80,159]共80個(gè)數(shù)值、區(qū)間[160,319]共160個(gè)數(shù)值;最后在每個(gè)區(qū)間內(nèi)求輸出的最大值Max(D[i]);將每個(gè)區(qū)間的最大值作為能量峰值,提取峰值過(guò)程核心代碼如圖6所示。
圖6 提取峰值過(guò)程核心代碼
在頻譜圖中的能量極值點(diǎn)作為一個(gè)個(gè)分散的坐標(biāo),直接用于構(gòu)造指紋會(huì)使得指紋信息量過(guò)大,檢索碰撞較多,性能并不是很高,再加之單個(gè)指紋容易受到噪音影響,則會(huì)大大降低匹配成功率。采用Landmark組合的方式,比單個(gè)時(shí)頻點(diǎn)的匹配性更高,檢索碰撞也相應(yīng)減少,大大提升性能和匹配準(zhǔn)確率。因此根據(jù)Landmark指紋的構(gòu)造算法中提供的思路,依據(jù)時(shí)間順序,依次選擇時(shí)頻點(diǎn)(極大值坐標(biāo))作為基準(zhǔn)點(diǎn),對(duì)于每一個(gè)基準(zhǔn)點(diǎn),劃定一個(gè)配對(duì)區(qū)域,然后分別和區(qū)域內(nèi)的每個(gè)時(shí)頻點(diǎn)兩兩組合,最終形成一個(gè)指紋特征點(diǎn)。
每個(gè)指紋點(diǎn)包括兩個(gè)基準(zhǔn)點(diǎn)與目標(biāo)時(shí)頻點(diǎn)的兩個(gè)頻率值和一個(gè)時(shí)間差,即當(dāng)選取的基準(zhǔn)點(diǎn)坐標(biāo)為(t1,f1),區(qū)域內(nèi)配對(duì)目標(biāo)點(diǎn)坐標(biāo)為(t2,f2),則該指紋屬性包括(f1,f2,(t2-t1));此外還要加上基準(zhǔn)點(diǎn)的時(shí)間t1,即指紋距離文件開(kāi)頭的絕對(duì)時(shí)間,作為附帶屬性,在本文中我們稱之為幀偏移量。該屬性在進(jìn)行指紋匹配過(guò)程中將會(huì)用到。因此一個(gè)完整的指紋在采用哈希表建立時(shí)應(yīng)包含如下所有特征點(diǎn):
Hash:time = [f1:f2:(t2-t1)]:t1
生成HASH指紋的過(guò)程代碼如圖7所示。
圖7 生成HASH指紋的過(guò)程代碼
至此,提取指紋特征點(diǎn)成功,結(jié)果保存到fingerprintList結(jié)構(gòu)中。但在實(shí)際入庫(kù)過(guò)程中,由于電影音頻文件巨大,包含信息過(guò)多,所以在實(shí)際構(gòu)造過(guò)程中,只節(jié)選其中部分特征點(diǎn),以減少數(shù)據(jù)量,提高運(yùn)算效率。在后期的匹配算法中采取的順序識(shí)別,所以指紋庫(kù)的不完整性并不影響影片的識(shí)別成功率。
將獲得的指紋特征點(diǎn)作為散列點(diǎn)進(jìn)行儲(chǔ)存,該指紋特征包含基礎(chǔ)指紋信息、標(biāo)準(zhǔn)樣片ID、幀偏移量等信息,然后進(jìn)行影片庫(kù)的入庫(kù)建設(shè),在本文的試驗(yàn)中,結(jié)合運(yùn)算量、數(shù)據(jù)量綜合考慮后只選用一部分特征點(diǎn)作為影片的指紋庫(kù),通過(guò)順序?qū)ΥR(shí)別的樣片片段進(jìn)行識(shí)別。雖然缺失部分片段,但最終的實(shí)驗(yàn)結(jié)果表示,所使用的匹配算法跨越了其缺失片段,且結(jié)果并不影響識(shí)別的成功率。
在匹配階段,由于很短的樣片片段就能提取出大量的指紋,可能會(huì)出現(xiàn)一個(gè)指紋在多部影片中出現(xiàn)的情況,當(dāng)我們正常進(jìn)行檢索后,可以檢索出來(lái)的匹配影片數(shù)量也會(huì)非常多。因此在指紋數(shù)據(jù)量很大的情況下,將所有指紋逐一匹配求取交集,試驗(yàn)結(jié)果幾乎都是零。因此我們?yōu)槊總€(gè)指紋添加幀偏移量作為其附屬的伴隨信息,記錄該指紋的出現(xiàn)時(shí)間,來(lái)擴(kuò)充指紋特征點(diǎn)的內(nèi)容,從而達(dá)到精確匹配的實(shí)驗(yàn)結(jié)果。
由于采集到的樣片片段并不能確定是在什么位置,但假定待識(shí)別的樣片是某影片的一部分,那當(dāng)兩者按時(shí)間順序排列的指紋集也按時(shí)間對(duì)齊時(shí),就會(huì)出現(xiàn)大量的指紋重合,其中每一組重合的指紋,其幀偏移量之差則會(huì)大量相等。這可以表明,該樣片片段中的指紋在該影片中多次出現(xiàn),且這些指紋之間的時(shí)間差或者相對(duì)位置特征一致,從而也證實(shí)了我們的假定。
該算法的具體過(guò)程如下:
(1)將待識(shí)別的樣片分段生成指紋特征點(diǎn),附帶其每一幀的幀偏移量為伴隨屬性;
(2)對(duì)獲得的指紋特征點(diǎn)作為散列點(diǎn)進(jìn)行存儲(chǔ),建立其對(duì)應(yīng)的散列表;
(3)將指紋特征中的指紋信息作為匹配關(guān)鍵字,在指紋庫(kù)中逐一檢索,得到所有匹配的特征點(diǎn)。
(4)記錄所有匹配的特征點(diǎn)的幀偏移量,并計(jì)算其與待匹配指紋的幀偏移量之差;
圖8 聲紋匹配算法原理示意圖
(5)最后將所有標(biāo)準(zhǔn)樣片ID相同,幀偏移量之差相同,已匹配成功的特征點(diǎn)個(gè)數(shù)進(jìn)行累加求和,累加值最大的標(biāo)準(zhǔn)樣片ID即認(rèn)為是匹配結(jié)果。過(guò)程示意圖如圖8所示。
相比較原始的關(guān)鍵信息直接匹配,加入幀偏移量作為伴隨屬性,利用相對(duì)時(shí)間來(lái)進(jìn)行匹配,拋開(kāi)了對(duì)樣片片段起點(diǎn)的限制,使得匹配率大大提升。但在實(shí)驗(yàn)中受周圍環(huán)境因素的影響,導(dǎo)致采集的樣片片段中混有部分噪音信息,混雜著提取出無(wú)用指紋,影響影片的識(shí)別率,這將在后期的實(shí)驗(yàn)改進(jìn)中繼續(xù)探索有效的解決辦法。
在聲紋特征進(jìn)行識(shí)別的過(guò)程中,還需要考慮很多問(wèn)題,例如讀取的語(yǔ)音過(guò)短,周圍環(huán)境噪音的干擾,不同的麥克風(fēng)和信道等,都影響著識(shí)別性能。因此結(jié)合之前結(jié)果,我們?cè)谥罂紤]的主要方面是如何消除背景環(huán)境噪音對(duì)識(shí)別的干擾。
在多次實(shí)驗(yàn)后發(fā)現(xiàn)在環(huán)境非理想的情況下,可能會(huì)出現(xiàn)匹配度不夠高的現(xiàn)象。對(duì)實(shí)驗(yàn)數(shù)據(jù)分析后發(fā)現(xiàn),可能是由于不同的麥克風(fēng)信道不同而導(dǎo)致錄音失真,又或者是因?yàn)榄h(huán)境噪音增量過(guò)高導(dǎo)致。因此,在后期我們通過(guò)采用一定的噪聲抑制技術(shù)來(lái)消除噪聲對(duì)實(shí)驗(yàn)的干擾,同時(shí)對(duì)算法進(jìn)行改進(jìn)升級(jí)。
降噪主要是優(yōu)化聲學(xué)特征,讓原本受噪干擾的音素落回到正確的音素類別,即降低原聲音的CE量。但降噪和保證語(yǔ)音分量是個(gè)相互矛盾的問(wèn)題,在弱噪環(huán)境下對(duì)純凈語(yǔ)音進(jìn)行降噪處理,不可避免會(huì)對(duì)語(yǔ)音有所損傷。因此既要保證降噪做到很好的跟蹤,又要保證語(yǔ)音分量不會(huì)被損傷,找到合適的度來(lái)跟蹤降噪過(guò)程,平衡降噪與語(yǔ)音分量之間的平衡則是關(guān)鍵問(wèn)題。經(jīng)過(guò)思考我們嘗試了維納濾波降噪法。
維納濾波器降噪即設(shè)計(jì)一個(gè)數(shù)字濾波器h(n),使得輸入的帶噪語(yǔ)音信號(hào)與純凈語(yǔ)音信號(hào)的誤差滿足LMS準(zhǔn)則,當(dāng)輸入為y(n)時(shí),濾波器輸出得到結(jié)果,根據(jù)最小均方誤差準(zhǔn)則對(duì)結(jié)果進(jìn)行計(jì)算得出極小值,經(jīng)過(guò)一系列推導(dǎo),得到維納濾波器譜估計(jì)器:
根據(jù)維納濾波器譜估計(jì)器進(jìn)一步導(dǎo)出本幀的維納濾波器傳遞函數(shù)Hi(k)。
得到關(guān)系函數(shù)后使用MATLAB數(shù)學(xué)軟件進(jìn)行仿真分析,得到頻譜圖。
通過(guò)仿真結(jié)果可以對(duì)比出該算法確實(shí)可以對(duì)原始音頻進(jìn)行有效的降噪。得到平滑的音頻數(shù)據(jù),但是這種降噪處理對(duì)波形本身就比較平滑的聲音來(lái)說(shuō)卻是一場(chǎng)災(zāi)難,它會(huì)消滅原始音頻的聲紋特征并將其變成噪音。但是在實(shí)際過(guò)程中,電影的音頻文件可能并不都是適合該算法的理想狀況,某些電影的片段聲紋就是平滑的波形,所以就可能出現(xiàn)語(yǔ)音文字丟失或者波形失真的情況,使得處理效果也隨之變差,所以可以發(fā)現(xiàn)維納濾波器降噪算法的降噪處理并不適用于電影識(shí)別中。因此在消除背景噪音的方法中,我們還在尋找更合適降噪的替代算法,以便在進(jìn)行聲紋識(shí)別前得到最優(yōu)化的聲學(xué)特征信息。
圖9 仿真實(shí)驗(yàn)結(jié)果圖
根據(jù)實(shí)驗(yàn)探索結(jié)果,采用基于Landmark構(gòu)造指紋的聲紋識(shí)別算法基本實(shí)現(xiàn)了電影樣本聲音識(shí)別的功能,并具有較高的識(shí)別率,能夠?yàn)橛霸悍庞硟?nèi)容的監(jiān)測(cè)提供有效思路。但整個(gè)識(shí)別過(guò)程還有提升空間,因此在實(shí)驗(yàn)后期,我們?yōu)樘岣咦R(shí)別率也進(jìn)行了優(yōu)化,嘗試使用維納濾波降噪原理來(lái)設(shè)計(jì)算法對(duì)采集的聲音片段進(jìn)行降噪處理,剔除無(wú)用指紋信息,以最大限度地減少采集環(huán)境中背景噪音的影響。該優(yōu)化方向取得了一定效果,但在電影音頻信息中不具有通用性,我們也會(huì)嘗試其他的優(yōu)化方向。此外在監(jiān)測(cè)電影放映內(nèi)容的整體思考中,我們還需更多考慮,或可采集畫面數(shù)據(jù),分析其放映質(zhì)量與內(nèi)容,選取有效識(shí)別算法,為單一的聲紋識(shí)別做補(bǔ)充,從而形成更加嚴(yán)密的放映監(jiān)測(cè)機(jī)制。