国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字音頻來(lái)源被動(dòng)取證研究綜述

2020-03-11 13:53:00王志鋒曾春艷葉俊民閔秋莎左明章
關(guān)鍵詞:數(shù)字音頻被動(dòng)來(lái)源

王志鋒,湛 健,曾春艷,葉俊民,田 元,閔秋莎,左明章

1.華中師范大學(xué) 數(shù)字媒體技術(shù)系, 武漢430079

2.湖北工業(yè)大學(xué) 太陽(yáng)能高效利用及儲(chǔ)能運(yùn)行控制湖北省重點(diǎn)實(shí)驗(yàn)室, 武漢430068

3.華中師范大學(xué) 計(jì)算機(jī)學(xué)院, 武漢430079

1 引言

隨著數(shù)字媒體技術(shù)的飛速發(fā)展,各類(lèi)電子產(chǎn)品如計(jì)算機(jī)、數(shù)碼相機(jī)、手機(jī)、打印機(jī)、掃描儀等也逐漸成為人們?nèi)粘I钪胁豢苫蛉钡臄?shù)字媒體生成設(shè)備。與此同時(shí),各種專(zhuān)業(yè)的數(shù)字媒體編輯軟件在人們的訴求下也逐步走向便捷化,由此也產(chǎn)生了大量被編輯過(guò)的媒體文件。這些編輯軟件在給人們的生活帶來(lái)便捷與歡樂(lè)的同時(shí),也引入了諸多嚴(yán)峻的安全問(wèn)題[1]。例如,一些不法分子借助各類(lèi)編輯軟件制作出形式多樣、種類(lèi)各異的偽造數(shù)字媒體文件。這類(lèi)數(shù)字媒體文件很難直觀地被辨別出真?zhèn)涡裕瑖?yán)重地?cái)_亂了社會(huì)秩序、妨礙了司法公正、誤導(dǎo)了新聞?shì)浾?,造成了非常惡劣的影響。因此?duì)數(shù)字媒體文件的真實(shí)性、完整性、來(lái)源性做出判斷顯得尤為重要。數(shù)字媒體取證包含數(shù)字音頻取證[2-3]、數(shù)字圖像取證[4-6]和數(shù)字視頻取證[7-9]。

在過(guò)去的幾十年里,數(shù)字音頻取證是數(shù)字媒體取證中一個(gè)備受關(guān)注的熱點(diǎn)研究領(lǐng)域。在新聞、司法、軍事等領(lǐng)域,數(shù)字音頻取證方法可以有效地規(guī)避風(fēng)險(xiǎn)[10]。例如:數(shù)字音頻取證領(lǐng)域的研究在一定程度上有效地避免了不法分子將偽造、偷錄、篡改的音頻上傳到網(wǎng)絡(luò),混淆視聽(tīng)而給人們生活所帶來(lái)的負(fù)面影響;同時(shí)也避免了因偽證而妨礙司法的公正的情況。數(shù)字音頻取證的研究可以有效地辨別出音頻的真實(shí)性、完整性和來(lái)源性,對(duì)司法系統(tǒng)的判決和社會(huì)秩序的穩(wěn)固有著很重要的實(shí)際意義。因此數(shù)字音頻取證是迫切且具有挑戰(zhàn)性的研究課題。

數(shù)字音頻取證可分為主動(dòng)取證和被動(dòng)取證,主動(dòng)取證是通過(guò)在數(shù)字音頻中嵌入冗余信息來(lái)判斷數(shù)字音頻的完整性、真實(shí)性[11],例如數(shù)字音頻簽名技術(shù)[12-13]、數(shù)字音頻水印技術(shù)[14-15]。與數(shù)字音頻主動(dòng)取證相比,數(shù)字音頻被動(dòng)取證不依賴于水印、簽名和散列等其他輔助信息,而僅依賴于音頻本身的特征來(lái)識(shí)別和獲取音頻的來(lái)源[16]。數(shù)字音頻來(lái)源識(shí)別是數(shù)字音頻被動(dòng)取證領(lǐng)域的一個(gè)重要的分支,數(shù)字音頻來(lái)源被動(dòng)取證旨在通過(guò)分析研究數(shù)字音頻信號(hào)本身,從中尋找到隱含的錄音設(shè)備信息。數(shù)字音頻來(lái)源被動(dòng)取證的研究最早由Kraetzer C等[2]在2007年提出,在近十年的研究中已經(jīng)取得了一些研究成果。但目前針對(duì)數(shù)字音頻來(lái)源識(shí)別的研究綜述相對(duì)較少,其中文獻(xiàn)[17]是針對(duì)移動(dòng)設(shè)備的射頻前端、相機(jī)、微電子機(jī)械系統(tǒng)、麥克風(fēng)等組件的不同特性對(duì)移動(dòng)設(shè)備的相關(guān)研究展開(kāi)綜述,而較少敘述數(shù)字音頻對(duì)移動(dòng)設(shè)備源識(shí)別的作用?;诖?,本文將聚焦于數(shù)字音頻來(lái)源識(shí)別的特征數(shù)據(jù)和決策模型兩個(gè)層面,涵蓋了近十年來(lái)數(shù)字音頻來(lái)源識(shí)別領(lǐng)域大部分的研究報(bào)道,更加廣泛、詳細(xì)地從特征和模型兩個(gè)方面詳細(xì)總結(jié)敘述了近十年數(shù)字音頻來(lái)源識(shí)別領(lǐng)域研究的進(jìn)展,并分析指出了當(dāng)前研究所面臨的一些問(wèn)題,以期推動(dòng)數(shù)字音頻來(lái)源識(shí)別領(lǐng)域研究工作的進(jìn)一步發(fā)展。

2 數(shù)字音頻來(lái)源被動(dòng)取證基本框架

數(shù)字音頻來(lái)源識(shí)別被動(dòng)取證所要解決的問(wèn)題是明確數(shù)字音頻數(shù)據(jù)的來(lái)源,根據(jù)現(xiàn)有的研究進(jìn)行分析,目前領(lǐng)域內(nèi)的研究思路如圖1所示,任何設(shè)備在生成數(shù)字音頻時(shí)都會(huì)附帶產(chǎn)生噪聲信號(hào),由于設(shè)備軟硬件的不同在數(shù)字音頻中留下了獨(dú)有的噪聲信號(hào),因此該類(lèi)噪聲也被稱(chēng)作為機(jī)器指紋。由于設(shè)備噪聲和數(shù)字音頻信號(hào)、外部噪聲信號(hào)混合到了一起,因此通過(guò)一系列信號(hào)處理的方法提取出能夠表征機(jī)器指紋的特征,并使用該特征建立能夠表征設(shè)備機(jī)器指紋的模型。最后,通過(guò)該模型對(duì)未知的數(shù)字音頻信號(hào)做出鑒別。

針對(duì)數(shù)字音頻來(lái)源被動(dòng)取證現(xiàn)有的研究分析,現(xiàn)有的研究大致分為三個(gè)方向,數(shù)字音頻來(lái)源識(shí)別、數(shù)字音頻來(lái)源驗(yàn)證和數(shù)字音頻來(lái)源聚類(lèi)。如圖2(a)所示為數(shù)字音頻來(lái)源識(shí)別模型,指從目標(biāo)設(shè)備集里找出錄制帶驗(yàn)證數(shù)字音頻的設(shè)備。數(shù)字音頻來(lái)源驗(yàn)證模型則分為兩種:(1)驗(yàn)證待測(cè)數(shù)字音頻是否產(chǎn)生于嫌疑設(shè)備;(2)驗(yàn)證待測(cè)數(shù)字音頻信號(hào)和嫌疑音頻信號(hào)是否來(lái)源于同一設(shè)備,如圖2(b)所示為設(shè)備源驗(yàn)證模型。兩種驗(yàn)證模型在實(shí)際操作過(guò)程中雖然都是對(duì)數(shù)字音頻進(jìn)行處理,但是在后面一種驗(yàn)證模型中,可用于對(duì)比的信息少,操作難度大。數(shù)字音頻來(lái)源聚類(lèi)如圖2(c)所示,指從一堆的數(shù)字音頻信號(hào)中分離出來(lái)自同一設(shè)備的音頻信號(hào)。為了達(dá)到實(shí)際的效果,在判決過(guò)程可以采用單步判決和多步判決。單步判決采用一種算法進(jìn)行研究,最終的判決結(jié)果只會(huì)有一個(gè)。而多步判決則會(huì)采用多種算法模型分別進(jìn)行研究,最后將各種算法模型的判決結(jié)果進(jìn)行融合決策,得到最終的判決結(jié)果。

圖2 數(shù)字音頻來(lái)源被動(dòng)取證三種模型

雖然數(shù)字音頻來(lái)源被動(dòng)取證三個(gè)研究方向中的取證對(duì)象有所不同,但是所用的基本算法和特征提取的方法基本相同,且數(shù)字音頻來(lái)源識(shí)別的研究最為基礎(chǔ),所研究的熱度最大。數(shù)字音頻來(lái)源識(shí)別的研究可分為兩個(gè)方面,針對(duì)特征表達(dá)的研究和針對(duì)表征模型的研究。針對(duì)特征表達(dá)的研究旨從理論分析的角度提取出最具有代表性的特征數(shù)據(jù),特征數(shù)據(jù)的好壞將直接影響到后續(xù)模型的構(gòu)建,進(jìn)而影響到算法的識(shí)別效果。在特征提取過(guò)程,為了達(dá)到更好的效果,同時(shí)會(huì)涉及到對(duì)不同種類(lèi)的特征進(jìn)行融合或者使用不同的數(shù)學(xué)手段對(duì)特征數(shù)據(jù)進(jìn)行處理,比如歸一化、特征降維等。針對(duì)表征模型建立的研究旨配合所提取到的特征數(shù)據(jù),尋找出最適合的數(shù)學(xué)模型,提高模型的判決效果。因此,本文將從基于特征表達(dá)的研究和基于表征模型的研究?jī)蓚€(gè)層面對(duì)數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域的研究進(jìn)行歸納分析。

3 數(shù)字音頻來(lái)源被動(dòng)取證數(shù)據(jù)庫(kù)

在數(shù)字音頻來(lái)源被動(dòng)取證研究領(lǐng)域中,數(shù)據(jù)集的發(fā)展占據(jù)著很重要的地位。首先,良好的數(shù)據(jù)集將有助于該領(lǐng)域算法模型的構(gòu)建,一方面數(shù)據(jù)集的多樣性能夠?yàn)閿?shù)字音頻來(lái)源被動(dòng)取證模型的泛化性和魯棒性研究提供支撐,另一方面數(shù)據(jù)集規(guī)模將有助于提高數(shù)字音頻來(lái)源被動(dòng)取證模型的表征能力。其次,數(shù)據(jù)集也充當(dāng)著驗(yàn)證評(píng)估模型的角色,良好的數(shù)據(jù)集可以更加準(zhǔn)確地評(píng)估出數(shù)字音頻來(lái)源被動(dòng)取證模型的性能,進(jìn)而對(duì)所研究的算法做出更加準(zhǔn)確的評(píng)估,同時(shí)也為算法進(jìn)一步的優(yōu)化提供了更加可靠的數(shù)據(jù)。目前,領(lǐng)域內(nèi)所用數(shù)據(jù)集的錄制時(shí)間可以分為兩個(gè)時(shí)期,固話時(shí)期和智能移動(dòng)設(shè)備時(shí)期。在固話時(shí)期,受社會(huì)條件限制,數(shù)據(jù)集構(gòu)建所使用的設(shè)備以固定電話和麥克風(fēng)為主。在智能移動(dòng)設(shè)備時(shí)期,移動(dòng)設(shè)備相對(duì)普及,因?qū)嶋H的需求,數(shù)據(jù)集構(gòu)建所使用的設(shè)備以移動(dòng)電話、智能手機(jī)和移動(dòng)終端為主。表1列舉了數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域中幾種常用的數(shù)據(jù)集,并對(duì)其做了簡(jiǎn)要的分析。

通常,評(píng)估數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域的數(shù)據(jù)集主要有以下三個(gè)標(biāo)準(zhǔn):(1)數(shù)據(jù)集的規(guī)模。大規(guī)模的數(shù)據(jù)集意味著涉及更多類(lèi)型的設(shè)備,單個(gè)設(shè)備產(chǎn)生的音頻數(shù)據(jù)時(shí)間也更長(zhǎng)。由此可以降低數(shù)據(jù)的偶然性,實(shí)驗(yàn)所得出的結(jié)論也更具說(shuō)服力。(2)數(shù)據(jù)集的多樣性。數(shù)據(jù)集的多樣性越高,意味著數(shù)據(jù)集包含更多諸如設(shè)備規(guī)模、錄音環(huán)境、錄音時(shí)長(zhǎng)的變化因子,由此能夠進(jìn)行更加細(xì)致的研究,挖掘出更深層次的結(jié)論。(3)更加接近實(shí)用需求。數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域算法的研究要滿足數(shù)字音頻來(lái)源被動(dòng)取證實(shí)際應(yīng)用的需求,由于實(shí)驗(yàn)條件的限制,實(shí)驗(yàn)場(chǎng)景下所構(gòu)建的數(shù)據(jù)集無(wú)法涵蓋真實(shí)應(yīng)用場(chǎng)景下的各種情況,進(jìn)而無(wú)法對(duì)算法的實(shí)際性能做出全面的評(píng)估,因此越接近實(shí)際應(yīng)用場(chǎng)景的數(shù)據(jù)集就越有可能正向推動(dòng)數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域研究工作的進(jìn)展,對(duì)該領(lǐng)域算法的優(yōu)化和評(píng)估也會(huì)更有意義。

在現(xiàn)有數(shù)據(jù)集基礎(chǔ)之上,鑒于以上標(biāo)準(zhǔn),數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域的數(shù)據(jù)集的構(gòu)建仍需優(yōu)化。首先,數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域現(xiàn)有數(shù)據(jù)集所涉及的設(shè)備類(lèi)別有待進(jìn)一步擴(kuò)充;而且,數(shù)據(jù)集中單個(gè)設(shè)備所錄制的音頻時(shí)長(zhǎng)相對(duì)較短,所分割的樣本數(shù)量不夠多,用于訓(xùn)練大規(guī)模的神經(jīng)網(wǎng)絡(luò)不足以達(dá)到最優(yōu)的效果;其次,現(xiàn)有的數(shù)據(jù)集大多是基于設(shè)備規(guī)模、錄制環(huán)境和單個(gè)設(shè)備錄制時(shí)長(zhǎng)這三個(gè)變化因子考慮,后期可以將不同語(yǔ)種、不同音量大小等更多的變化因子引入到數(shù)據(jù)集的構(gòu)建中;最后,數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域現(xiàn)有的數(shù)據(jù)集對(duì)于環(huán)境噪聲這個(gè)重要因素的重視度還不夠,在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域環(huán)境噪聲極大地增加了研究的難度,因此后期可以對(duì)環(huán)境噪聲的類(lèi)型和大小做出更加細(xì)致的比較。

表1 數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域常用數(shù)據(jù)集

4 基于特征表達(dá)的數(shù)字音頻來(lái)源被動(dòng)取證方法

在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域研究,根據(jù)研究所用的特征,大致可分為基于短時(shí)傅里葉變換的頻域特征、基于倒譜特征的數(shù)字音頻來(lái)源信息表征、基于高斯超矢量的數(shù)字音頻來(lái)源信息表征、基于融合特征的數(shù)字音頻來(lái)源信息表征、基于深度特征的數(shù)字音頻來(lái)源信息表征五類(lèi)。其中大多數(shù)的研究是基于倒譜特征的,表2列舉了各文獻(xiàn)所使用的特征,同時(shí)對(duì)五種特征做了簡(jiǎn)要的對(duì)比。下文將針對(duì)五種類(lèi)型特征的研究報(bào)告做詳細(xì)的敘述。

表2 數(shù)字音頻來(lái)源被動(dòng)取證特征性能比較

4.1 基于頻域信息的數(shù)字音頻來(lái)源信息表征方法

數(shù)字音頻信號(hào)具有時(shí)域和頻域兩種特性,雖然時(shí)域特征具有簡(jiǎn)單、計(jì)算量小,物理意義明確等優(yōu)點(diǎn),但數(shù)字音頻最重要的感知特性反應(yīng)在功率譜中,因此相對(duì)于時(shí)域特征,頻域特征包含了更多的感知性能和聲學(xué)特征,而且具有抗干擾能力和適用能力強(qiáng)等優(yōu)點(diǎn)[45]。基于此Buchholz R 等[19]首次提出了使用經(jīng)短時(shí)傅里葉變換后的頻域特征作為數(shù)字音頻來(lái)源取證的特征,文中使用傅里葉系數(shù)直方圖作為特征參數(shù)對(duì)7 個(gè)麥克風(fēng)進(jìn)行識(shí)別;為了優(yōu)化Buchholz 的特征提取方法,提高頻域特征的表征性和泛化性,眾多研究者提出了將簡(jiǎn)單的頻域特征進(jìn)行特征映射的研究思路,由此Panagakis Y 等提出了無(wú)監(jiān)督的RSF(Random Spectral Features)特征[23]和有監(jiān)督的LSF(Labeled Spectral Features)特征[24],Kotropoulos C等提出了SSF[25-26](Sketches of Spectral Features)特征;雖然經(jīng)過(guò)特征映射后的頻域特征表征性更強(qiáng),也取得了更高的識(shí)別效果,但是特征提取過(guò)程的復(fù)雜度也隨著映射函數(shù)的復(fù)雜度而極大地增加了計(jì)算量,為了簡(jiǎn)化過(guò)程、降低時(shí)間消耗,Luo D 等[3]提出了更為簡(jiǎn)單方便的特征提取方式,他將信號(hào)分幀后進(jìn)行傅里葉變換,通過(guò)計(jì)算相鄰兩幀之間的基帶能量差來(lái)表示信道特征,雖然方法相對(duì)比較直觀但在對(duì)一百多個(gè)設(shè)備類(lèi)型上進(jìn)行識(shí)別依然取得了很好的效果;受模式識(shí)別領(lǐng)域研究的影響,部分研究者提出了使用二維圖像的形式表征信道特征的研究思路,由此李璨等[29]將數(shù)字音頻信號(hào)預(yù)處理,經(jīng)過(guò)傅里葉變換后提取出語(yǔ)譜圖,將完整的語(yǔ)譜圖作為特征數(shù)據(jù)輸入到模型中進(jìn)行判決。該方法借用了模式識(shí)別和機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域的技術(shù),為后續(xù)的研究提供了一種新的思路。

基于短時(shí)傅里葉變換的頻域特性是數(shù)字音頻信號(hào)最為本質(zhì)的特征。在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域中,研究對(duì)象是尋找不同設(shè)備源的機(jī)器指紋信息即信道特征。在錄音信號(hào)中,信道特征伴隨著設(shè)備噪聲以卷積信號(hào)的形式混合到了被錄數(shù)字音頻信號(hào)中。因此通過(guò)傅里葉變換可以分離出部分設(shè)備噪聲進(jìn)而提取出信道特征?;趩我桓道锶~變換的頻域特征是最為簡(jiǎn)單的處理方式,減小了計(jì)算量,適用于大數(shù)據(jù)的處理。但是,該類(lèi)特征也因?yàn)樘幚矸绞胶?jiǎn)單,所以會(huì)存在過(guò)多的冗余信息增加了特征的維數(shù),進(jìn)而影響識(shí)別的效果。因此如何有效地避免過(guò)多冗余信息的出現(xiàn),將是一個(gè)值得思考的問(wèn)題。

4.2 基于倒譜特征的數(shù)字音頻來(lái)源信息表征方法

倒譜特征在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域已經(jīng)得到了廣泛的應(yīng)用,同時(shí)大量的研究者也證實(shí)了倒譜特征對(duì)信道特征識(shí)別的有效性,因此在現(xiàn)有的文獻(xiàn)報(bào)道中,大多數(shù)研究者延續(xù)了使用倒譜特征對(duì)數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域做進(jìn)一步的研究。Kraetzer C等[2]提出使用梅爾倒譜特征作為機(jī)器指紋對(duì)數(shù)字音頻來(lái)源進(jìn)行識(shí)別的方法打開(kāi)了數(shù)字音頻來(lái)源識(shí)別的研究領(lǐng)域;在此基礎(chǔ)上Hanilci C等[20]提出使用MFCC(Mel Frequency Cepstral Coefficient)作為設(shè)備源識(shí)別的信道特征。此后Qin Tianyun 等[28]、Eskidere ? 等[30]、王志鋒等[31]、鄒領(lǐng)等[27]、Garcia-Romero D等[32]、Zou Ling等[33]、Hanil?i C等[34]分別在實(shí)驗(yàn)中驗(yàn)證了MFCC特征的有效性。

通常一段數(shù)字音頻信號(hào)包含語(yǔ)音段和非語(yǔ)音段(即靜音段)。在非語(yǔ)言段中,信號(hào)只保留了設(shè)備噪聲信息,因此在非語(yǔ)音段中提取特征信息最具代表性。而在語(yǔ)音段中包含大量的語(yǔ)言信息和環(huán)境背景噪聲信息,淹沒(méi)了設(shè)備噪聲,影響了設(shè)備特征的提取。Hanil?i C等[35]使用SAD 提取信號(hào)的非語(yǔ)音段,然后在非語(yǔ)音段中提取MFCC 特征,實(shí)驗(yàn)結(jié)果表明,使用非語(yǔ)音段提取特征可以得到更好的識(shí)別效果。但是,在實(shí)際應(yīng)用過(guò)程中,待測(cè)數(shù)字音頻可能沒(méi)有足夠時(shí)長(zhǎng)的非語(yǔ)音段信號(hào),甚至完全沒(méi)有非語(yǔ)音段信號(hào)。因此,Aggarwal R等[22]首先從整段數(shù)字音頻信號(hào)中計(jì)算出噪聲譜,然后從噪聲譜信號(hào)提取出MFCC 特征,從實(shí)驗(yàn)結(jié)果上分析,該方法比從整段數(shù)字音頻信號(hào)提取MFCC特征的效果更好。

MFCC 特征雖然在各個(gè)研究者的實(shí)驗(yàn)中表現(xiàn)得很出色,但是MFCC 特征在提取過(guò)程中也有一些不足之處。普通的MFCC提取過(guò)程使用窗函數(shù)來(lái)減少偏差,但當(dāng)很多個(gè)窗加起來(lái)時(shí),方差依然很大,因此Eskidere ?等[36]采用多維度的光譜估計(jì)法來(lái)提取MFCC特征,在特征提取過(guò)程,使用多種窗函數(shù)分別進(jìn)行,彌補(bǔ)了單一窗函數(shù)所產(chǎn)生的累積誤差。

MFCC 特征的使用使得其他相關(guān)的倒譜特征也被研究者們應(yīng)用在實(shí)驗(yàn)上。Garcia-Romero D[32]在實(shí)驗(yàn)中將MFCC 特征與LFCC(Linear Frequency Cepstral Coefficient)特征進(jìn)行對(duì)比分析。Hanil?i C 等[34-35]在實(shí)驗(yàn)中將MFCC、LFCC、BFCC(Bark Frequency Cepstral Coefficients)、LPCC(Linear Prediction Cepstral Coefficients)四種特征不同的后處理和融合方式進(jìn)行對(duì)比分析。Zou Ling 等[33]提出使用PNCC(Power-Normalized Cepstral Coefficients)特征對(duì)設(shè)備源識(shí)別進(jìn)行分析,隨后賀前華等[37]提出將PNCC特征進(jìn)行改進(jìn)。

倒譜特征是數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域應(yīng)用最為廣泛的一類(lèi)特征,雖然倒譜特征也是通過(guò)基于短時(shí)傅里葉變換后的頻域特征計(jì)算得到的,但是,倒譜特征在計(jì)算提取過(guò)程會(huì)使用不同類(lèi)型的濾波器將頻域特征轉(zhuǎn)換為倒譜特征。在這一系列的變換過(guò)程中,對(duì)特征數(shù)據(jù)又進(jìn)行了一次更深層次的計(jì)算,優(yōu)化了原始的頻域特征。為了優(yōu)化特征的性能,大量的研究者對(duì)倒譜特征也進(jìn)行了深入的研究。從數(shù)字音頻信號(hào)的來(lái)源問(wèn)題、特征的提取過(guò)程和特征歸一化三個(gè)層面進(jìn)行了深入研究。實(shí)驗(yàn)結(jié)果顯示,非語(yǔ)音段的使用很大程度提高了識(shí)別的精度;改善特征提取過(guò)程窗函數(shù)的使用,可以在一定程度上提高識(shí)別精度;在特定情況下,歸一化會(huì)改善特征數(shù)據(jù)的表征性。但是,從部分所報(bào)道的文獻(xiàn)分析可以看出,該類(lèi)倒譜特征出現(xiàn)了較強(qiáng)的針對(duì)性,對(duì)于不同的場(chǎng)合和不同的數(shù)據(jù)集,所表現(xiàn)出來(lái)的識(shí)別效果不盡相同。比如,在某篇文獻(xiàn)中報(bào)道出MFCC特征具有最佳識(shí)別效果,但另外一篇文獻(xiàn)中,MFCC 不是最優(yōu)的選擇的情況。因此對(duì)于該類(lèi)倒譜特征所出現(xiàn)的較強(qiáng)的針對(duì)性問(wèn)題有待在后續(xù)的研究過(guò)程中做進(jìn)一步的分析。

4.3 基于高斯超矢量的數(shù)字音頻來(lái)源信息表征方法

高斯超矢量(Gaussian Super Vector,GSV)[46]是從高斯混合模型(Gaussian Mixture Model,GMM)均值矢量中提取到的特征數(shù)據(jù)。GMM 模型可以通過(guò)概率密度模型對(duì)事物的屬性特征進(jìn)行精確的表示。在不同的事物中,屬性特征的概率密度模型必然不同,因此所構(gòu)建的GMM 模型也必然不同。在GMM 模型中,均值矢量是最為核心的數(shù)據(jù),進(jìn)而GMM模型的均值矢量也必然具有不同的表現(xiàn)形式。因此對(duì)GSV的識(shí)別即可達(dá)到對(duì)用于構(gòu)建GMM 模型的數(shù)據(jù)進(jìn)行識(shí)別。在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域通常將MFCC 特征用于構(gòu)建GMM模型,將MFCC特征識(shí)別問(wèn)題轉(zhuǎn)換為GSV特征識(shí)別問(wèn)題。

Kotropoulos C 等[21]和Zou Ling 等[38-40]使用MFCC特性訓(xùn)練GMM 模型作為通用背景模型(Universal Background Model,UBM)[47],然后使用MAP 算法對(duì)UBM模型進(jìn)行微調(diào)得到相對(duì)獨(dú)立的GMM模型,最后將GMM 模型中具有表征性的GSV 提取出來(lái)作為設(shè)備源的機(jī)器指紋特征。為了使GSV 的特征表征性更好,Li Yanxiong等[41-42]提出了深度GSV特征的提取方式,在訓(xùn)練模型時(shí)不再是直接使用MFCC特征,而是將MFCC訓(xùn)練好的DNN(Deep Neural Networks,DNN)[48]模型的中間層輸出作為訓(xùn)練GMM模型的數(shù)據(jù)。

GSV 特征的使用實(shí)際上是將原始的倒譜特征問(wèn)題進(jìn)行了轉(zhuǎn)換,這種通過(guò)概率密度分布函數(shù)構(gòu)建模型轉(zhuǎn)換問(wèn)題的方式可以增加樣本的容錯(cuò)率。但根據(jù)現(xiàn)有的算法而言,雖然通過(guò)使用UBM 模型在一定程度上可以減少模型構(gòu)建的計(jì)算量,但是UBM 模型的性能也將嚴(yán)重影響到后續(xù)單一模型的性能。目前所報(bào)道的文獻(xiàn)中,大多研究是基于閉集識(shí)別的,因此UBM 可以很直觀地獲取,但是,如何增強(qiáng)UBM 的魯棒性,在開(kāi)集識(shí)別中如何構(gòu)建更具有代表性的UBM 模型,也是后續(xù)研究中將面臨的具有挑戰(zhàn)性的問(wèn)題。

4.4 基于融合特征的數(shù)字音頻來(lái)源信息表征方法

由于特征數(shù)據(jù)表征性有限,因此單個(gè)特征的使用不一定可以帶來(lái)最佳的識(shí)別效果,為了獲得更好的性能,通常將多種特征進(jìn)行融合,起到互補(bǔ)的效果。在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域,MFCC特征是使用最廣泛的倒譜特征,但研究者發(fā)現(xiàn)將MFCC特征與其他特征進(jìn)行融合可以得到更好的識(shí)別效果。

通常,MFCC特征在提取過(guò)程伴隨著三種附帶的參數(shù),即一階動(dòng)態(tài)信號(hào)、二階動(dòng)態(tài)信號(hào)和能量譜信號(hào)。為了研究三者對(duì)MFCC 特征的影響,Garcia-Romero D等[32]對(duì)比分析MFCC特征和LFCC特征將一階動(dòng)態(tài)信號(hào)融合后對(duì)識(shí)別效果的影響;Zou Ling 等[33]對(duì)比分析了PNCC 特征和MFCC 特征將能量譜融合后的影響;而Hanil?i C等[34]全面而詳細(xì)地研究了多種特征、特征融合方式和多處歸一化處理的方式對(duì)最終效果的影響,文中將MFCC、LFCC、BFCC、LPCC 四種特征分別和一階動(dòng)態(tài)特征、二階動(dòng)態(tài)特征進(jìn)行融合,然后使用三種歸一化方式CMN(Cepstral Mean Normalization)、CVN(Cepstral Variance Normalization)、CMVN(Cepstral Mean and Variance Normalization)對(duì)最后的特征進(jìn)行處理,比較驗(yàn)證哪一種組合方式是最優(yōu)的。結(jié)果顯示,針對(duì)不同的數(shù)據(jù)集所表現(xiàn)出來(lái)的差異性較大,沒(méi)有明確的好壞之分,但融合后的特征會(huì)比原始特征更優(yōu)。

MFCC 特征的廣泛應(yīng)用證實(shí)了其在數(shù)字音頻來(lái)源被動(dòng)取證方面的重要性,MFCC特征是從低頻信號(hào)中提取到的特征數(shù)據(jù),因此說(shuō)明了從數(shù)字音頻的低頻信號(hào)中可以提取到設(shè)備的指紋信息。為了研究高頻信號(hào)中是否包含機(jī)器指紋信息,Verma V 等[43]提出了IMFCC(Inverted Mel Frequency Cepstral Coefficient)[49]特征,文中將MFCC 特征和IMFCC 特征進(jìn)行融合作為設(shè)備的機(jī)器指紋特征,實(shí)驗(yàn)顯示,融合后的特征比單獨(dú)實(shí)驗(yàn)MFCC特征要好。

不僅是對(duì)MFCC 特征進(jìn)行融合,Eskidere ?[44]根據(jù)小波變換和小波包變換,提出使用DWBC(Discrete Wavelet-Based Coefficients)和WPBC(Wavelet Packet-Based Coefficients)特征,但是根據(jù)文中對(duì)兩種特征提取的方式,DWBC 特征是由LPCC 特征和DWT(Discrete Wavelet Transform)特征融合而產(chǎn)生的,而WPBC是通過(guò)LPCC 特征和WPT(Wavelet Packet Transform)特征融合而得到的,其中DWT 和WPT 都經(jīng)過(guò)了SM(Statistical Measures)處理。實(shí)驗(yàn)結(jié)果也表明融合后的特征效果更好。

融合特征有多種表現(xiàn)形式,可以將兩種互不相關(guān)的兩種或多種特征進(jìn)行融合操作,也可以將原始特征和原始特征的相關(guān)特性融合一起組成新的特征數(shù)據(jù)。不論是哪一種融合手段,只有保證每種單一的特征數(shù)據(jù)具有較強(qiáng)的表征性才有可能使得最終的融合特征取得更好的效果。但是,即便如此也難以保證新的特征數(shù)據(jù)比原始的特征具有更強(qiáng)的表征性。因此,研究分析特征融合的實(shí)際理論意義,提供一套行之有效的理論依據(jù)將有利于融合特征的進(jìn)一步研究。

4.5 基于深度特征的數(shù)字音頻來(lái)源信息表征方法

深度神經(jīng)網(wǎng)絡(luò)在模式識(shí)別領(lǐng)域得到了廣泛的應(yīng)用,而且已經(jīng)取得了很可觀的研究成果。深度神經(jīng)網(wǎng)絡(luò)的本質(zhì)是通過(guò)網(wǎng)絡(luò)的隱藏層提取數(shù)據(jù)內(nèi)在的深度特征,然后使用分類(lèi)器進(jìn)行判決輸出。深度特征源于對(duì)數(shù)據(jù)內(nèi)在數(shù)據(jù)的分析與提取,深度特征可通過(guò)有監(jiān)督訓(xùn)練方式獲得也可以使用無(wú)監(jiān)督訓(xùn)練的方式。在有監(jiān)督訓(xùn)練的特征提取中,通過(guò)對(duì)相同類(lèi)別數(shù)據(jù)的聚合訓(xùn)練出合適的模型,然后提取出有價(jià)值的特征數(shù)據(jù)。無(wú)監(jiān)督訓(xùn)練提取特征是通過(guò)對(duì)數(shù)據(jù)自身的變化,提取出可以反映原始特征數(shù)據(jù)。相對(duì)于有監(jiān)督的訓(xùn)練,無(wú)監(jiān)督訓(xùn)練的方式可能會(huì)損失部分重要信息,導(dǎo)致比原始的特征更差。受此啟發(fā),Li Yanxiong 等[41-42]提出了兩種深度特征:第一種使用MFCC 特征構(gòu)建深度神經(jīng)網(wǎng)絡(luò)DNN,然后提取DNN網(wǎng)絡(luò)中間層的輸出作為特征;第二種特征,使用MFCC特征訓(xùn)練深度自編碼網(wǎng)絡(luò),然后將中間層的輸出作為最終的輸出特征。實(shí)驗(yàn)顯示,作者使用的深度特征效果要優(yōu)于一般的特征。

深度特征的使用,不僅給數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域的研究提供了一種新的研究思路,而且使算法的識(shí)別效果得到提升,正向推動(dòng)了整個(gè)領(lǐng)域的研究進(jìn)展。雖然,深度學(xué)習(xí)的方法在其他很多領(lǐng)域也已經(jīng)取得了很大的成效,但由于該類(lèi)算法本身的不成熟、參數(shù)設(shè)計(jì)的局限性等諸多因素,導(dǎo)致很多實(shí)驗(yàn)存在一定的偶然性,無(wú)法對(duì)實(shí)驗(yàn)的方法和結(jié)果進(jìn)行系統(tǒng)而全面的理論分析,因此,在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域所使用的深度特征也缺乏較強(qiáng)的可解釋性。另外,數(shù)字音頻數(shù)據(jù)存在很強(qiáng)的時(shí)序性,從目前所使用的方法來(lái)看,嚴(yán)重打亂了原始數(shù)據(jù)的時(shí)序,從而在一定程度上降低了數(shù)據(jù)的表征能力。為此,在后續(xù)的研究過(guò)程中,可以考慮將傳統(tǒng)的特征提取方法和深度學(xué)習(xí)方法進(jìn)行融合,使用深度學(xué)習(xí)模型訓(xùn)練出傳統(tǒng)預(yù)處理過(guò)程和特征提取過(guò)程中難以確定的超參數(shù),以提高特征提取算法的穩(wěn)定性和可解釋性。其次,可以考慮引入類(lèi)似RNN(Recurrent Neural Networks)[50-51]這樣帶有較強(qiáng)時(shí)序性的深度學(xué)習(xí)模型用于提取語(yǔ)言信號(hào)中的時(shí)序特征,并與頻域特征進(jìn)行深度融合得到更加符合數(shù)字音頻信號(hào)本質(zhì)的特征,以提高特征的表征能力。

5 基于模型表征的數(shù)字音頻來(lái)源被動(dòng)取證方法

在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域研究,根據(jù)研究所用的模型,大致可分為基于高斯混合模型的數(shù)字音頻來(lái)源被動(dòng)取證模型、基于支持向量機(jī)的數(shù)字音頻來(lái)源決策模型、基于稀疏表達(dá)分類(lèi)器的數(shù)字音頻來(lái)源決策模型、基于其他機(jī)器學(xué)習(xí)方法的數(shù)字音頻來(lái)源決策模型、基于深度模型的數(shù)字音頻來(lái)源決策模型五類(lèi)。目前大多數(shù)研究者在對(duì)數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域進(jìn)行研究時(shí),將支持向量機(jī)作為研究的基準(zhǔn)模型。表3 列舉了各文獻(xiàn)所使用的模型,同時(shí)對(duì)五類(lèi)模型做了簡(jiǎn)要的對(duì)比分析。下文將從這五種類(lèi)別對(duì)數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域的研究報(bào)告做詳細(xì)的敘述。

表3 數(shù)字音頻來(lái)源被動(dòng)取證模型性能對(duì)比

5.1 基于高斯混合模型的數(shù)字音頻來(lái)源被動(dòng)取證方法

當(dāng)數(shù)據(jù)具有較高的復(fù)雜程度時(shí),使用單個(gè)高斯模型無(wú)法表現(xiàn)出數(shù)據(jù)的分布情況,因此將多個(gè)高斯模型按照一定的權(quán)值混合到一起便組成了GMM模型。GMM模型可以通過(guò)概率密度模型對(duì)事物的屬性特征進(jìn)行精確的表示。在設(shè)備源識(shí)別領(lǐng)域,鑒于分類(lèi)的目的,通常會(huì)對(duì)每個(gè)類(lèi)型的數(shù)據(jù)建立一個(gè)GMM模型,然后將待測(cè)數(shù)據(jù)依次輸入到各個(gè)GMM中計(jì)算,取概率最大的為判決結(jié)果。普通的高斯混合模型在訓(xùn)練過(guò)程使用最大似然函數(shù)描述模型的訓(xùn)練程度,如Hanil?i C等[35]、Eskidere ?等[36]、Zou Ling等[33]、Garcia-Romero D等[32]、王志鋒等[31]在文獻(xiàn)中訓(xùn)練GMM 模型時(shí)使用最大似然函數(shù)來(lái)表示。由于訓(xùn)練一個(gè)包含很多個(gè)高斯模型的高斯混合模型需要的數(shù)據(jù)量大、覆蓋面廣泛、耗時(shí)久。因此王志鋒等[31]提出單獨(dú)訓(xùn)練兩個(gè)小型高斯混合模型,然后將高斯模型的三個(gè)重要參數(shù)按照一定方式疊加在一起形成一個(gè)大型的高斯混合模型,不僅降低了計(jì)算量,減少了時(shí)間,同時(shí)使模型的表征性更好,克服了數(shù)據(jù)的偏倚性。雖然使用最大似然函數(shù)表示GMM 模型訓(xùn)練程度取得了很好的實(shí)驗(yàn)效果,但是避免不了該方法對(duì)訓(xùn)練數(shù)據(jù)長(zhǎng)度的要求,為了使混合高斯模型在短數(shù)據(jù)情況下也能表現(xiàn)出較好的決策能力,Hanil?i C等[35]提出使用最大互信息量的方式來(lái)衡量高斯混合模型,對(duì)比實(shí)驗(yàn)結(jié)果顯示,在數(shù)據(jù)較短的情況下,使用最大互信息量訓(xùn)練混合高斯模型的效果比傳統(tǒng)的訓(xùn)練方式更好。

GMM模型在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域是最為傳統(tǒng)的一種分類(lèi)算法。由于GMM 模型本身具有概率屬性,所以通過(guò)GMM 模型可以很直觀地反映出判決結(jié)果,從而引得很多的研究者使用GMM模型對(duì)設(shè)備源的屬性建模。但是GMM 模型在取得優(yōu)良的識(shí)別效果的同時(shí),也帶來(lái)了一系列棘手的問(wèn)題。GMM 模型是由多個(gè)高斯模型組合而成的,從理論上而言,在一定范圍內(nèi)高斯數(shù)量越多,GMM模型的精確度越高,但也會(huì)引得計(jì)算量成倍增長(zhǎng)。因此如何選擇合適的GMM模型,如何降低模型的計(jì)算量是研究者所面對(duì)的嚴(yán)峻的挑戰(zhàn)。

5.2 基于支持向量機(jī)的數(shù)字音頻來(lái)源決策方法

SVM 是機(jī)器學(xué)習(xí)中應(yīng)用最廣泛的模型,SVM 分類(lèi)器中使用不同核函數(shù)將特征映射到高維的空間中,常用的核函數(shù)有RBF(Radial Basis Function kernel)和GLDS(Generalized Linear Discriminant Sequence kernel)[54],然后在高維的空間找到合適的超平面將設(shè)備源進(jìn)行分類(lèi)?,F(xiàn)有的研究報(bào)道中,大多是基于LIBSVM[55]工具包進(jìn)行SVM實(shí)驗(yàn),相對(duì)簡(jiǎn)便實(shí)用。

SVM 分類(lèi)器在數(shù)學(xué)上有完美的理論推導(dǎo),有完美的解釋性,因此被廣泛地應(yīng)用在各個(gè)領(lǐng)域。SVM 本身是一個(gè)二分類(lèi)器,最初的設(shè)計(jì)是為了解決二值分類(lèi)的問(wèn)題,所以在用于處理多分類(lèi)問(wèn)題時(shí),通常需要構(gòu)建多個(gè)分類(lèi)器。目前常用的有兩種做法,“一對(duì)多”構(gòu)建分類(lèi)器和“一對(duì)一”構(gòu)建分類(lèi)器?!耙粚?duì)多”構(gòu)建分類(lèi)器時(shí),在訓(xùn)練過(guò)程依次把某個(gè)類(lèi)別的樣本歸為一類(lèi),其他剩余的樣本歸為另一類(lèi),這樣k 個(gè)類(lèi)別的樣本就構(gòu)造出了k 個(gè)SVM,判決時(shí)將未知樣本類(lèi)別識(shí)別為具有最大分類(lèi)函數(shù)值的那一類(lèi)?!耙粚?duì)一”構(gòu)建分類(lèi)器,在訓(xùn)練過(guò)程在任意兩類(lèi)樣本之間設(shè)計(jì)一個(gè)SVM,因此k 個(gè)類(lèi)別的樣本就需要設(shè)計(jì)k(k-1)/2 個(gè)SVM,判決時(shí)將未知樣本類(lèi)別識(shí)別為具有最多票數(shù)的那一類(lèi)。目前大多數(shù)研究者在做SVM 實(shí)驗(yàn)時(shí)使用的是LIBSVM 工具包,在該工具包中,使用的是“一對(duì)多”構(gòu)建分類(lèi)器。該方法雖然可以提高識(shí)別的準(zhǔn)確率,但是,在k 分類(lèi)問(wèn)題上,需要設(shè)計(jì)k(k-1)/2 個(gè)SVM。因此隨著類(lèi)別數(shù)量的增加,SVM 分類(lèi)器的個(gè)數(shù)也會(huì)呈指數(shù)倍增長(zhǎng),極大地增加了計(jì)算成本。在目前大多數(shù)研究中,由于設(shè)備類(lèi)別的數(shù)量相對(duì)較少,所以SVM可以表現(xiàn)出很好的性能,但隨著設(shè)備類(lèi)型的增長(zhǎng),SVM也將表現(xiàn)出明顯的弊端。

5.3 基于稀疏表達(dá)分類(lèi)器的數(shù)字音頻來(lái)源決策方法

稀疏表達(dá)的分類(lèi)器(Sparse Representation-based Classifier,SRC)[56]通過(guò)構(gòu)建一個(gè)完備的函數(shù)字典,將字典內(nèi)部元素作為基函數(shù),把原始特征數(shù)據(jù)變換為0、1稀疏化的特征數(shù)據(jù)。這種線性表達(dá)的方式在一定程度上降低了冗余信息的出現(xiàn),精簡(jiǎn)了特征數(shù)據(jù)。Zou Ling等[39-40]使用GSV構(gòu)建數(shù)據(jù)庫(kù)字典,然后使用K-SVD[57]算法計(jì)算待測(cè)數(shù)字音頻信號(hào)和目標(biāo)設(shè)備之間的得分,通過(guò)與預(yù)先設(shè)定的閾值比較得到最終的識(shí)別結(jié)果。K-SVD的字典是通過(guò)無(wú)監(jiān)督學(xué)習(xí)方式所獲得的,該算法旨為訓(xùn)練數(shù)據(jù)集的稀疏表達(dá)構(gòu)建最好的學(xué)習(xí)字典,并沒(méi)有考慮到通用性。有監(jiān)督的學(xué)習(xí)字典,既考慮了字典的通用代表性又考慮到了字典的判別力,因此Zou Ling等[38]又提出了使用D-KSVD(Discriminative K-SVD)[58]算法構(gòu)建有監(jiān)督的學(xué)習(xí)字典來(lái)提高數(shù)字音頻來(lái)源驗(yàn)證的性能。盡管Zou Ling等在文獻(xiàn)[38]中提出的改進(jìn)算法D-KSVD已經(jīng)取得了較高的驗(yàn)證結(jié)果,但是實(shí)驗(yàn)中使用的數(shù)據(jù)都來(lái)源于同一種設(shè)備類(lèi)型——手機(jī)。并且,沒(méi)有研究該算法對(duì)來(lái)自于同一品牌的數(shù)字音頻信號(hào)的效果。在面對(duì)數(shù)字音頻來(lái)源驗(yàn)證問(wèn)題時(shí),需要考慮的是特征之間的空間距離?;谙∈璞磉_(dá)的分類(lèi)器[23,25-26]通過(guò)碼本將原有的樣本特征進(jìn)行稀疏化表達(dá),得到稀疏矩陣,而后對(duì)比計(jì)算稀疏矩陣之間的距離差,找到合適的樣本屬性分類(lèi)。

在訓(xùn)練數(shù)據(jù)集足夠充足完備的情況下,基于稀疏表達(dá)的分類(lèi)器降低了特征數(shù)據(jù)的冗余度,減小了計(jì)算復(fù)雜度,在一定程度上可以提高特征數(shù)據(jù)的識(shí)別效率。但是對(duì)于小樣本分類(lèi)問(wèn)題而言,系數(shù)的稀疏性對(duì)分類(lèi)準(zhǔn)確率并沒(méi)有實(shí)質(zhì)性幫助?;谙∈璞磉_(dá)的分類(lèi)器的核心思想是通過(guò)構(gòu)建完備的字典庫(kù),然后使用字典庫(kù)中的元素對(duì)樣本趨近于非線性的表達(dá)。因此,特征數(shù)據(jù)的表征性極大程度地依賴于字典元素的好壞和字典的完備程度。所以在小樣本的問(wèn)題上,無(wú)法提供足夠的數(shù)據(jù)訓(xùn)練完備的字典函數(shù)。另外,在開(kāi)集識(shí)別的問(wèn)題上,要對(duì)未知的設(shè)備進(jìn)行稀疏表達(dá)也是一個(gè)具有挑戰(zhàn)性的問(wèn)題。

5.4 基于其他機(jī)器學(xué)習(xí)方法的數(shù)字音頻來(lái)源決策方法

除了SVM這樣經(jīng)典的機(jī)器學(xué)習(xí)算法被廣泛地應(yīng)用于源識(shí)別的決策層,也有另外一些相對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)算法被研究者用于對(duì)數(shù)字音頻來(lái)源被動(dòng)取證問(wèn)題進(jìn)行研究。其中,部分研究者還提出了融合決策的方式。Kraetzer C等[2]提出使用基于先驗(yàn)信息最小風(fēng)險(xiǎn)概率的貝葉斯分類(lèi)器作為分類(lèi)決策模型。隨后鄒領(lǐng)等[27]不僅驗(yàn)證了貝葉斯分類(lèi)器的優(yōu)越性同時(shí)提出基于概率決策的隨機(jī)森林模型。上述的兩種機(jī)器學(xué)習(xí)模型對(duì)于分類(lèi)決策問(wèn)題可以取得很好的效果,但在數(shù)字音頻來(lái)源被動(dòng)取證問(wèn)題上,除了數(shù)字音頻來(lái)源識(shí)別的任務(wù)目標(biāo)還包含數(shù)字音頻來(lái)源聚類(lèi)的問(wèn)題。因此Li Yanxiong 等[41-42]提出使用Agglomerative Hierarchical Clustering 算法和K-Means算法[59-60]對(duì)輸入樣本的屬性進(jìn)行聚類(lèi)判斷。

由于單個(gè)模型對(duì)特征的表征效果有限,而且也比較容易因?yàn)橛?xùn)練數(shù)據(jù)微小誤差引起表征模型的誤差,因此部分研究者提出了采用多個(gè)模型進(jìn)行聯(lián)合判決的研究思路?;诖?,Kraetze C 等[53]使用linear logistic regression[61-62]和C4.5 decision tree[63]兩種分類(lèi)器對(duì)特征進(jìn)行融合判決,文中使用了三種融合算法對(duì)單個(gè)判決結(jié)果進(jìn)行融合。從Kraetze C 的實(shí)驗(yàn)結(jié)果可以看出,多個(gè)模型聯(lián)合判決的思路確實(shí)極大地提高了判決效果,但也隨之帶來(lái)了一個(gè)問(wèn)題。聯(lián)合判決意味著需要訓(xùn)練多個(gè)、多種模型,因此整個(gè)模型的計(jì)算量也是成倍的增長(zhǎng)。

在上述文獻(xiàn)中所使用的機(jī)器學(xué)習(xí)算法相對(duì)于SVM分類(lèi)器而言,從報(bào)道的結(jié)果上分析,并沒(méi)有比SVM表現(xiàn)得更加優(yōu)良。但數(shù)字音頻來(lái)源被動(dòng)取證問(wèn)題包含三個(gè)任務(wù)目標(biāo),對(duì)于數(shù)字音頻來(lái)源聚類(lèi)問(wèn)題,SVM便不再適用,所以針對(duì)不同的任務(wù)目標(biāo),上述的決策模型有其可取之處。另外,決策融合的問(wèn)題是利用各分類(lèi)器優(yōu)缺點(diǎn)互補(bǔ)的原理以達(dá)到最佳識(shí)別效果。雖然融合后可以提高識(shí)別精度,而且可以增大置信區(qū)間。但并非所有的融合方式都能起到促進(jìn)的作用,融合判決實(shí)質(zhì)是將單個(gè)分類(lèi)器進(jìn)行聚合,然后將單個(gè)分類(lèi)器的得分加權(quán)融合判決。目前對(duì)于得分判決的研究相對(duì)較少,缺乏有力的實(shí)驗(yàn)數(shù)據(jù)。其次,Kraetze C等[53]在研究得分判決時(shí),采用的是非加權(quán)的融合,即每個(gè)分類(lèi)器的重要性相當(dāng),缺乏加權(quán)融合的實(shí)驗(yàn)結(jié)果。

5.5 基于深度神經(jīng)網(wǎng)絡(luò)模型的數(shù)字音頻來(lái)源決策方法

隨著一系列的算法被提出,深度學(xué)習(xí)模型也逐漸走向成熟,在各個(gè)領(lǐng)域深度模型所展現(xiàn)出來(lái)的性能受人矚目,其不僅可以訓(xùn)練大數(shù)據(jù)集,而且具有很強(qiáng)的泛化性和遷移性。因此部分研究者著手構(gòu)建深度模型來(lái)表示數(shù)字音頻來(lái)源決策模型。Qin Tianyun 等[28]將數(shù)字音頻信號(hào)的語(yǔ)譜圖作為特征構(gòu)建CNN(Convolutional Neural Networks)[64-65]模型;李璨等[29]使用不同的特征來(lái)構(gòu)建CNN 和RNN 網(wǎng)絡(luò)模型。從目前所取得的研究成果來(lái)看,使用深度學(xué)習(xí)決策模型在一定程度上可以提高算法的識(shí)別效果;其次,在使用包含多種設(shè)備類(lèi)型的數(shù)據(jù)集驗(yàn)證時(shí),依舊能夠表現(xiàn)出較高的魯棒性。從技術(shù)的發(fā)展和未來(lái)實(shí)際需求角度分析,深度學(xué)習(xí)的決策模型存在著更強(qiáng)的發(fā)展?jié)摿ΑkS著數(shù)字音頻來(lái)源被動(dòng)取證的進(jìn)一步研究,數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域所使用的樣本數(shù)量和特征維數(shù)將進(jìn)一步增加,所涉及的設(shè)備類(lèi)別也會(huì)逐漸增多。而傳統(tǒng)的機(jī)器學(xué)習(xí)算法模型計(jì)算量大,訓(xùn)練模型需要消耗大量的時(shí)間,實(shí)驗(yàn)效率低,所以很難解決大規(guī)模數(shù)據(jù)集的問(wèn)題。另外,傳統(tǒng)機(jī)器學(xué)習(xí)模型的靈活性較差,當(dāng)表征對(duì)象有所變化時(shí),先前所訓(xùn)練好的表征模型不再具有良好的判決性能,因此無(wú)法解決增量表達(dá)的問(wèn)題。而深度學(xué)習(xí)模型可以通過(guò)遷移學(xué)習(xí)的方法去克服該問(wèn)題。

雖然深度學(xué)習(xí)模型在決策上存在諸多優(yōu)勢(shì),但現(xiàn)有的研究報(bào)道中,對(duì)深度學(xué)習(xí)模型在決策上的使用暫未考慮深度學(xué)習(xí)模型的遷移能力,而只使用了深度學(xué)習(xí)模型分析、決策的能力。這不僅需要數(shù)據(jù)集中單個(gè)類(lèi)別的樣本量足夠多,也需要數(shù)據(jù)集具有足夠強(qiáng)的多樣性,由此才能訓(xùn)練出泛化性和魯棒性較強(qiáng)的模型。另外,深度學(xué)習(xí)模型之所以可以克服增量表達(dá)的問(wèn)題是因?yàn)榇笠?guī)模、多樣性強(qiáng)的數(shù)據(jù)集可以訓(xùn)練出具有較強(qiáng)泛化性的模型。因此在后續(xù)的研究過(guò)程中,可以考慮引入VGGNet(Visual Geometry Group Network)[66]、ResNet(Residual Network)[67]等大規(guī)模網(wǎng)絡(luò)模型,擬訓(xùn)練出適合數(shù)字音頻信號(hào)的遷移模型。另外,在引入深度網(wǎng)絡(luò)模型時(shí),要注意DNN、SAE(Stacked Auto-Encoding Network)[68]、DBN(Depth Belief Networks)[69]等全連接神經(jīng)網(wǎng)絡(luò)具有一定的時(shí)序性,因此,該類(lèi)網(wǎng)絡(luò)模型在做判決模型時(shí)適合于具有時(shí)序性的特征。

6 存在的問(wèn)題與展望

6.1 存在的問(wèn)題

在眾多研究者的努力下,數(shù)字音頻來(lái)源被動(dòng)取證的領(lǐng)域的研究在近些年也已經(jīng)取得了一些成就,上文針對(duì)近年國(guó)內(nèi)外對(duì)數(shù)字音頻來(lái)源被動(dòng)取證的研究進(jìn)行了歸納總結(jié),但從研究現(xiàn)狀可看出,針對(duì)該領(lǐng)域的研究,目前尚存在一些不足之處。

(1)數(shù)字音頻來(lái)源被動(dòng)取證研究領(lǐng)域的理論體系不夠完善。在現(xiàn)有的研究報(bào)道中,對(duì)數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域的研究沒(méi)有形成完善統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)和理論體系,導(dǎo)致對(duì)于不同的算法理論和特征較難形成明顯的好壞對(duì)比。

(2)公用數(shù)據(jù)集的多樣性欠缺。從目前的文獻(xiàn)中可以看出,每個(gè)研究者所使用的數(shù)據(jù)集不同,雖然大多數(shù)研究者的實(shí)驗(yàn)結(jié)果在個(gè)人的數(shù)據(jù)集上表現(xiàn)出了很好的效果,但是由于缺乏公共的數(shù)據(jù)集和開(kāi)放的比較平臺(tái),導(dǎo)致實(shí)驗(yàn)結(jié)果的可比性降低,進(jìn)而降低了特征和算法模型的比較性,無(wú)法衡量出特征、算法模型的好壞。而且,隨著設(shè)備數(shù)量和多樣性的增加,實(shí)驗(yàn)的難度也會(huì)改變,所以實(shí)驗(yàn)算法的直觀表現(xiàn)也變得模糊。

(3)算法模型和特征數(shù)據(jù)的針對(duì)性較強(qiáng),泛化性和可移植性較差。大多的研究算法框架是基于特定的特征數(shù)據(jù)和特定的情況。比如,很多研究試圖從數(shù)字音頻信號(hào)中分離出靜音段進(jìn)而提取特征數(shù)據(jù),但在實(shí)際情況中,靜音段數(shù)據(jù)很少,甚至沒(méi)有包含靜音段,在這類(lèi)情況中,原有的算法模型將無(wú)法使用。而且,目前很多研究過(guò)程中所使用的數(shù)字音頻樣本數(shù)據(jù)是在特定的環(huán)境下錄制的,而在現(xiàn)實(shí)中,數(shù)字音頻中還包含其他各種噪聲信號(hào),會(huì)嚴(yán)重干擾對(duì)信道特征的提取。因此,現(xiàn)有的研究算法框架的魯棒性和普適性有待提高。

(4)對(duì)開(kāi)集識(shí)別的研究報(bào)道相對(duì)較少。目前所報(bào)道的眾多研究中,對(duì)開(kāi)集識(shí)別的研究相對(duì)較少,大多是基于閉集設(shè)備源匹配問(wèn)題的研究。在開(kāi)集識(shí)別領(lǐng)域,所面臨的數(shù)據(jù)集將會(huì)更大,而且對(duì)算法的魯棒性要求也會(huì)更高,算法的復(fù)雜度也會(huì)相對(duì)加大。

6.2 研究展望

數(shù)字音頻來(lái)源取證結(jié)合了多個(gè)領(lǐng)域的知識(shí),也涉及很多的研究領(lǐng)域,是一個(gè)多學(xué)科交叉型的研究課題,應(yīng)用范圍廣泛,所以在未來(lái)的發(fā)展上,依然是一個(gè)值得深入研究的課題。結(jié)合現(xiàn)有的技術(shù)水平和研究現(xiàn)狀,提出了以下幾個(gè)展望。

(1)完善現(xiàn)有的研究技術(shù)和研究方法,形成一套行之有效的理論。數(shù)字音頻來(lái)源被動(dòng)取證目前尚處于起步階段,很多的概念尚未得到統(tǒng)一的認(rèn)可,很多的研究技術(shù)和研究理論沒(méi)有得到有效的驗(yàn)證和實(shí)施。今后有待進(jìn)行整合分析,形成一套完整的理論體系。

(2)建立一個(gè)持續(xù)完善的公用數(shù)據(jù)庫(kù),以供大多數(shù)的研究者使用。目前的研究中,研究者所使用的數(shù)據(jù)集不統(tǒng)一造成研究算法不確定、無(wú)法比較等一系列問(wèn)題。一個(gè)健全的公用數(shù)據(jù)集可以使得各個(gè)研究者對(duì)自己所提出的研究理論和模型進(jìn)行更加全面的評(píng)估,從而有針對(duì)地對(duì)算法模型進(jìn)行優(yōu)化。另外,一個(gè)健全的公用數(shù)據(jù)集,可以提高算法的比較性,從而篩選出更加完美的算法模型,提高該領(lǐng)域的研究水平,激發(fā)研究者的研究興趣。

(3)將深度學(xué)習(xí)模型引入數(shù)字音頻來(lái)源取證領(lǐng)域的研究中。深度學(xué)習(xí)的應(yīng)用使得各個(gè)領(lǐng)域的研究得到了快速的發(fā)展。但在數(shù)字音頻來(lái)源取證領(lǐng)域的研究中深度學(xué)習(xí)模型只用于深度特征提取和判決模型建立兩個(gè)方向,缺乏基于深度學(xué)習(xí)的端到端的研究。端到端的深度模型可以自動(dòng)學(xué)習(xí)到預(yù)處理階段和特征提取階段某些重要參數(shù)的最優(yōu)值,有效地避免由于人為選取參數(shù)而造成的泛化性和魯棒性降低等問(wèn)題。因此,在后續(xù)的研究中,將繼續(xù)研究設(shè)計(jì)出適用于數(shù)字音頻時(shí)序性的特征提取網(wǎng)絡(luò)、適用于數(shù)字音頻表征建模的深度遷移模型和適用于端到端的深度學(xué)習(xí)模型。

(4)特征表達(dá)能力的強(qiáng)弱和算法模型的好壞在數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域中起決定性因素。因此,需要對(duì)數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域展開(kāi)更加深入和全面的研究,尋找更具有泛化性的特征數(shù)據(jù)和算法模型,以推動(dòng)該領(lǐng)域的發(fā)展。

7 結(jié)束語(yǔ)

數(shù)字音頻來(lái)源被動(dòng)取證技術(shù)的研究通過(guò)對(duì)設(shè)備噪聲的識(shí)別,并提取出表征機(jī)器指紋的信道特征(機(jī)器指紋是由各設(shè)備電子元器件的差異和電子線路的不同所造成)。本文首先對(duì)數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域的兩大方向、三個(gè)研究目標(biāo)做了簡(jiǎn)要的概述,然后根據(jù)數(shù)字音頻來(lái)源被動(dòng)取證的研究對(duì)象,將領(lǐng)域內(nèi)的研究分為特征表達(dá)和表征建模兩大模塊。從現(xiàn)有的研究報(bào)告中可以看出,雖然經(jīng)過(guò)廣大研究者的不懈努力,在該領(lǐng)域已經(jīng)取得了可觀的成果。但仍存在一些不足之處。一方面,由于公用數(shù)據(jù)集多樣性的欠缺,約束了廣大研究者的研究進(jìn)程。另一方面,由于算法的針對(duì)性較強(qiáng),導(dǎo)致目前的研究成果尚且不能應(yīng)用在各個(gè)領(lǐng)域,和實(shí)際要求有一定的距離。數(shù)字音頻來(lái)源被動(dòng)取證領(lǐng)域在實(shí)際的研究過(guò)程仍然存在大量的問(wèn)題和挑戰(zhàn),需要廣大研究者繼續(xù)深入的研究分析。

猜你喜歡
數(shù)字音頻被動(dòng)來(lái)源
將來(lái)吃魚(yú)不用調(diào)刺啦
新聞?wù)Z篇中被動(dòng)化的認(rèn)知話語(yǔ)分析
主動(dòng)句都能轉(zhuǎn)換成被動(dòng)句嗎
第五課 拒絕被動(dòng)
試論《說(shuō)文》“丵”字的來(lái)源
“赤”的來(lái)源與“紅”在服裝中的應(yīng)用
流行色(2018年11期)2018-03-23 02:21:22
基于FPGA的多協(xié)議數(shù)字音頻信號(hào)發(fā)生方法
電子制作(2017年10期)2017-04-18 07:22:40
數(shù)字音頻及其嵌入技術(shù)在廣播電視工程的應(yīng)用
數(shù)字音頻廣播信號(hào)接收系統(tǒng)及其軟件架構(gòu)
數(shù)字音頻廣播的特點(diǎn)
睢宁县| 新竹县| 上饶市| 霍邱县| 清徐县| 织金县| 谷城县| 临颍县| 乌拉特中旗| 孟州市| 河间市| 新建县| 儋州市| 杂多县| 盐山县| 西盟| 民勤县| 伊宁县| 廊坊市| 深州市| 邮箱| 油尖旺区| 富平县| 武威市| 金溪县| 沁源县| 海丰县| 阜南县| 镶黄旗| 东莞市| 桃园县| 牡丹江市| 类乌齐县| 惠州市| 玉溪市| 临夏市| 古交市| 嵊州市| 张家港市| 长汀县| 通河县|