熊世富 郭 武
(中國(guó)科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系,合肥,230027)
語(yǔ)音檢索是在大量的語(yǔ)音數(shù)據(jù)中發(fā)現(xiàn)感興趣的關(guān)鍵詞以及主題,其中關(guān)鍵詞的檢索技術(shù)(Spoken term detection,STD)是目前研究的熱點(diǎn)。由于NIST的推動(dòng)[1],采用兩步驟的關(guān)鍵詞檢索是主流算法。第一步通過(guò)大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng)(Large vocabulary continuous speech recognition,LVCSR)將語(yǔ)音文件轉(zhuǎn)化為文本,第二步在識(shí)別的文本上查找所關(guān)注的關(guān)鍵詞。這種算法的優(yōu)越性在于可以充分利用LVCSR的成果,另外關(guān)鍵詞還可以動(dòng)態(tài)設(shè)置。但是由于LVCSR無(wú)法識(shí)別集外詞(Out of vocabulary,OOV),相比于集內(nèi)詞檢索,導(dǎo)致集外詞檢索性能急劇下降,因而如何提高集外詞的檢索性能是STD系統(tǒng)面臨的一個(gè)主要挑戰(zhàn)。
為了解決集外詞檢索問(wèn)題,學(xué)者們將識(shí)別單元投向?qū)庠~具有更強(qiáng)建模能力的子詞單元[2],通常為音素:通過(guò)音素識(shí)別器生成音素網(wǎng)格(Lattices),并將查詢(xún)?cè)~轉(zhuǎn)化為音素序列,最后從音素網(wǎng)格中檢索[3]。除音素之外,其他子詞單元也被用在語(yǔ)音檢索中,如:詞片[4](Fragment),音節(jié)[5](Syllable)等。這些基于非音素子詞單元語(yǔ)音檢索的基本思想是創(chuàng)建一個(gè)合適的子詞列表,該子詞列表既能很好地對(duì)集外詞進(jìn)行表示,又對(duì)語(yǔ)言的上下文約束信息具有較強(qiáng)的捕捉能力。其中詞片是基于數(shù)據(jù)驅(qū)動(dòng),使用統(tǒng)計(jì)方法自動(dòng)選擇的可變長(zhǎng)度音素序列,而音節(jié)則具有很強(qiáng)的語(yǔ)言學(xué)特征。在檢索方面,為了滿(mǎn)足速度和性能上的要求,完全匹配的n元語(yǔ)言模型-加權(quán)有限狀態(tài)機(jī)[6](ngram-weighted finite state transducer,ngram-WFST)檢索和模糊匹配檢索[7]分別被提出。
相對(duì)而言,基于音素的STD系統(tǒng)受語(yǔ)法約束較小,更容易發(fā)現(xiàn)集外詞,但也更容易在識(shí)別中引入虛警;而詞片和音節(jié)的STD系統(tǒng)受語(yǔ)法約束較強(qiáng),在相同的條件下,對(duì)于OOV更容易形成漏警??紤]到音素、音節(jié)、詞片的不同性質(zhì)和它們之間潛在的互補(bǔ)性,本文分別生成了基于音素、音節(jié)、詞片的STD系統(tǒng),并將三者進(jìn)行結(jié)果融合。針對(duì)音素、音節(jié)和詞片的不同特點(diǎn),對(duì)基于音素的STD系統(tǒng)采用完全匹配的ngram-WFST檢索以降低虛警,對(duì)基于音節(jié)、詞片的STD系統(tǒng)則采用模糊匹配檢索以減少漏警。最后采用線性邏輯回歸[8](Linear logistic regression,LLR)的算法將三個(gè)子系統(tǒng)的結(jié)果進(jìn)行融合,提高檢索性能。
多流信息融合的關(guān)鍵詞檢索系統(tǒng)如圖1所示。在系統(tǒng)中,包括詞片、音節(jié)和音素三種不同的識(shí)別單元。一般而言,針對(duì)OOV詞的子詞STD系統(tǒng)基本框架包括語(yǔ)音轉(zhuǎn)寫(xiě)和關(guān)鍵詞檢索兩個(gè)模塊。對(duì)于待檢索的任意語(yǔ)音文件,首先通過(guò)子詞解碼器將語(yǔ)音文件轉(zhuǎn)寫(xiě)為子詞Lattices,同時(shí)為了方便檢索,需要將非音素Lattices轉(zhuǎn)化為音素Lattices,并建立相應(yīng)的音素倒排索引以加快后端的檢索速度。對(duì)于待查詢(xún)的關(guān)鍵詞,也需要通過(guò)字形到音(Grapheme to phoneme,G2P)的轉(zhuǎn)換得到需查詢(xún)的音素序列,然后在倒排索引上進(jìn)行音素匹配,其中置信度的選擇是非常重要的。下面將逐一介紹音素、音節(jié)、詞片子詞列表的挑選方法。
為了增加詞邊界信息,加上特殊符號(hào)以標(biāo)明單詞邊界,如alabama:#ae l ax b ae m ax#,這樣相對(duì)于平常英語(yǔ)識(shí)別中常用到的40~50個(gè)左右的音素,本文使用的音素個(gè)數(shù)相對(duì)會(huì)多很多,有171個(gè)帶位置信息的音素。在此基礎(chǔ)上重新構(gòu)建字典對(duì)應(yīng)的音素信息,用大量的文本數(shù)據(jù)訓(xùn)練生成3gram音素語(yǔ)言模型(Language model,LM)用于解碼。
圖1 多流信息融合STD系統(tǒng)Fig.1 Multi-streamed based STD system
為了獲得用于解碼的音節(jié)列表,首先進(jìn)行了英語(yǔ)音節(jié)化工作。采用基于支持向量機(jī)-隱馬爾科夫模[9-10](Support vector machine-h(huán)idden markov model,SVM-HMM)的方法對(duì)LVCSR詞典進(jìn)行音節(jié)化,并提取所有不同的音節(jié)單元,獲得了21 000個(gè)帶位置信息的音節(jié),并用于生成3gram音節(jié)語(yǔ)言模型。
與音節(jié)不同,詞片為基于數(shù)據(jù)驅(qū)動(dòng)的。本文通過(guò)減值的5gram音素語(yǔ)言模型[4]獲得了21 000個(gè)帶位置信息的詞片,并用這個(gè)詞片列表生成3gram詞片語(yǔ)言模型用于解碼。
在進(jìn)行語(yǔ)音識(shí)別后,需要建立音素倒排索引。本文在實(shí)驗(yàn)中采用Lattice-tool[11]工具將音素Lattices轉(zhuǎn)化為ngram倒排索引,其中每條gram索引g包含信息為gram音素串Ig、所屬語(yǔ)音文件IDg、發(fā)生位置(開(kāi)始時(shí)間-結(jié)束時(shí)間)Og和后驗(yàn)概率得分Wg,以g(Ig,Og,Wg,IDg)表示。待檢索的關(guān)鍵詞在轉(zhuǎn)換成音素序列之后,就在ngram倒排索引中進(jìn)行檢索。
為了提高性能,根據(jù)不同子詞系統(tǒng)的特點(diǎn),對(duì)基于音素的子系統(tǒng)采用完全匹配的ngram-WFST檢索方法,對(duì)基于音節(jié)和詞片的子系統(tǒng)采用模糊匹配的檢索方法。為便于描述,針對(duì)固定的語(yǔ)音文件,將ngram 索引g(Ig,Og,Wg,IDg)簡(jiǎn)寫(xiě)為g(Ig,Og,Wg),定義|g|為索引g中Ig包含的音素個(gè)數(shù)。
基于ngram-WFST的檢索系統(tǒng)由三部分組成:首先將ngram倒排索引編譯生成索引FST,其次將查詢(xún)?cè)~發(fā)音分段并編譯成用于檢索的詞典FST,最后將索引FST和詞典FST進(jìn)行FST合成,以達(dá)到檢索的目的。具體過(guò)程如下:
2.1.1 索引FST
(1)為每條ngram索引g(Ig,Og,Wg)分配輸入狀態(tài)Sg和輸出狀態(tài)Eg,將索引g(Ig,Og,Wg)轉(zhuǎn)化為FST弧r(Sg,Eg,Ig,Og,Wg),并且新建初始狀態(tài)和結(jié)束狀態(tài)S,E。
(2)添加轉(zhuǎn)移弧r(S,Sg,ε,ε,1.0)和r(Eg,E,ε,IDg,1.0),使所有的r(Sg,Eg,Ig,Og,Wg)與初始狀態(tài)和結(jié)束狀態(tài)S,E連通,其中ε為FST中的空符號(hào)表達(dá)。
(3)添加轉(zhuǎn)移弧r(Eg,Sg′,ε,ε,1.0),將滿(mǎn)足條件①索引重疊時(shí)間dist(g,g′)<T和②|g|=N|,g′|<=N的弧r(Sg,Eg,Ig,Og,Wg)和r(Sg′,Eg′,Ig′,Og′,Wg′)相連,生成初始的 FST 索引。
(4)對(duì)初始FST索引使用FST確定化、狀態(tài)數(shù)最小化、ε-移除操作進(jìn)行優(yōu)化,生成最終的索引FST。
2.1.2 詞典FST
(1)將查詢(xún)?cè)~發(fā)音進(jìn)行ngram分段。以n=3為例,對(duì)于alabama這個(gè)詞,其ngram分段發(fā)音為alabama:#ae-l-ax-b-ae-m-ax#,3gram 分段發(fā)音數(shù)為3。
(2)將3gram分段發(fā)音編譯為詞典FST,如圖2所示。
圖2 詞典3gram-WFSTFig.2 3gram-WFST of dictionary
2.1.3 檢索
由于索引FST 中ngram 弧r(Sg,Eg,Ig,Og,Wg)均與初始狀態(tài)和結(jié)束狀態(tài)相連,所以最終的檢索過(guò)程只需將詞典FST和索引FST進(jìn)行FST合并操作即可。為了降低虛警,對(duì)檢索返回得分進(jìn)行長(zhǎng)度歸一化
式中:qtste為查詢(xún)?cè)~項(xiàng)q的一個(gè)檢索結(jié)果,N(q)為q對(duì)應(yīng)發(fā)音中的音素個(gè)數(shù),M(q)為q的ngram分段發(fā)音數(shù),Wgi為q的ngram分段發(fā)音對(duì)應(yīng)的第i條索引gi(Igi,Ogi,Wgi,IDgi)中的后驗(yàn)概率Wgi。
對(duì)于音節(jié)和詞片子詞系統(tǒng),為了減少漏警,在不過(guò)多引入虛警的前提下,使用模糊匹配進(jìn)行檢索。模糊匹配檢索系統(tǒng)構(gòu)建的大致過(guò)程為:獲得3gram倒排索引,其中所有索引g滿(mǎn)足條件|g|=3;檢索查詢(xún)?cè)~項(xiàng)q的triphone發(fā)音序列,如alabama:#ae-l-ax-l-ax-b-ax-b-ae-b-ae-m-ae-m-ax#,在相鄰triphone 3gram索引時(shí)間間隔dist(g,g′)小于一定閾值T的條件下,檢索到的不同tirphone數(shù)M大于單詞總triphone發(fā)音數(shù)N(q)的一半時(shí)召回并返回如下得分
發(fā)音個(gè)數(shù),Wgi為q的triphone發(fā)音對(duì)應(yīng)的第i條索引gi(Igi,Ogi,Wgi,IDgi)中的后驗(yàn)概率Wgi。
由于本文中有三個(gè)子系統(tǒng),對(duì)于同一個(gè)關(guān)鍵詞,這三個(gè)子系統(tǒng)可能給出不同的置信度得分和不同的檢索結(jié)果。本文在線性回歸的基礎(chǔ)上,分三種情況對(duì)結(jié)果進(jìn)行得分融合。當(dāng)一個(gè)關(guān)鍵詞檢索結(jié)果在三個(gè)子系統(tǒng)中都被檢出時(shí),對(duì)各個(gè)系統(tǒng)的得分進(jìn)行線性加權(quán)
當(dāng)一個(gè)關(guān)鍵詞檢索結(jié)果只由兩個(gè)系統(tǒng)檢出時(shí),融合得分為這兩個(gè)系統(tǒng)得分的線性加權(quán)
最后,當(dāng)一個(gè)關(guān)鍵詞檢索結(jié)果僅由單系統(tǒng)檢出時(shí),認(rèn)為它不夠可信,對(duì)該系統(tǒng)的得分進(jìn)行懲罰
式中:p為懲罰因子。
融合中的關(guān)鍵問(wèn)題是線性回歸參數(shù)的選取,本文使用線性邏輯回歸融合策略,具體過(guò)程為:首先提取開(kāi)發(fā)集中所有三個(gè)子系統(tǒng)檢索結(jié)果中的正例(正確的檢索結(jié)果)得分和反例(錯(cuò)誤的檢索結(jié)果)得分作為L(zhǎng)LR的訓(xùn)練數(shù)據(jù),訓(xùn)練并獲得各系統(tǒng)相應(yīng)的權(quán)重系數(shù)w1,w2,w3,然后將這些權(quán)重歸一化作為式(3)的加權(quán)系數(shù)和式(5)中對(duì)應(yīng)系統(tǒng)的懲罰因子,最后對(duì)w1,w2,w3兩兩歸一化作為式(4)相應(yīng)系統(tǒng)的加權(quán)系數(shù),例如:當(dāng)某個(gè)檢索結(jié)果只由系統(tǒng)i和系統(tǒng)j檢出時(shí),加權(quán)系數(shù)分別為
本文實(shí)驗(yàn)是在NIST STD 2006英語(yǔ)電話(huà)語(yǔ)音數(shù)據(jù)庫(kù)上進(jìn)行的,該數(shù)據(jù)庫(kù)包含開(kāi)發(fā)集和測(cè)試集兩部分,每部分都有大約3h語(yǔ)音。
聲學(xué)模型訓(xùn)練數(shù)據(jù)為總計(jì)360h語(yǔ)音的Switchboard和CallHome語(yǔ)料庫(kù)。語(yǔ)言模型訓(xùn)練采用Switchboard、CallHome語(yǔ)料庫(kù)的標(biāo)注文件和英語(yǔ)廣播新聞數(shù)據(jù)。
采用39維感知線性預(yù)測(cè)(Perceptual linear prediction,PLP)參數(shù)作為聲學(xué)特征。通過(guò)最大似然估計(jì)(Maximum likelihood estimation,MLE)訓(xùn)練算法得到60高斯的HMM模型,然后使用最小音素錯(cuò)誤(Minimum phone error,MPE)區(qū)分性訓(xùn)練準(zhǔn)則對(duì)獲得的MLE參數(shù)進(jìn)行優(yōu)化。
由于NIST任務(wù)集中集外詞相對(duì)較少,只有2%左右的比例,不適合研究工作的開(kāi)展,因此需要在NIST的任務(wù)集上重新挑選一些詞匯作為集外詞。挑選集外詞的原則是:首先保留NIST測(cè)試任務(wù)中已有的集外詞,也就是語(yǔ)音識(shí)別詞典中不包含的詞匯;其次挑選具有一定意義的地名、人名,這些詞匯的選擇是因?yàn)樗鼈兘?jīng)常是關(guān)鍵詞檢索所關(guān)注的內(nèi)容。為了保證關(guān)鍵詞檢索的穩(wěn)健性,要求被選擇的OOV詞均最少在開(kāi)發(fā)集和測(cè)試集出現(xiàn)過(guò)5次以上。為保證實(shí)驗(yàn)的真實(shí)性,對(duì)于這些集外詞,必須把其對(duì)應(yīng)的原始語(yǔ)音文件從聲學(xué)模型訓(xùn)練中去除,文本標(biāo)注從語(yǔ)言模型訓(xùn)練數(shù)據(jù)中剔除,語(yǔ)音識(shí)別詞典也要剔除這些OOV詞。基于以上原則,在開(kāi)發(fā)集上挑選了313個(gè)集外詞,在測(cè)試集上挑選了320個(gè)集外詞。
對(duì)于STD任務(wù),使用NIST STD 2006評(píng)測(cè)計(jì)劃定義的實(shí)際詞項(xiàng)權(quán)重值[1](Actual term weighted value,ATWV)作為主要的性能評(píng)估尺度。
表1給出了STD 2006開(kāi)發(fā)集上不同解碼單元在集內(nèi)詞區(qū)域和集外詞區(qū)域的音素識(shí)別率(Phone recognition accuracy,PACC)。對(duì)于集內(nèi)詞識(shí)別而言,音素識(shí)別系統(tǒng)的PACC明顯低于音節(jié)、詞片和詞識(shí)別系統(tǒng)的PACC。由于詞識(shí)別系統(tǒng)對(duì)集外詞的建模能力較弱,導(dǎo)致詞識(shí)別系統(tǒng)在集外詞和集內(nèi)詞區(qū)域的PACC反差很大,其在集外詞區(qū)域上的PACC明顯低于音節(jié)、詞片識(shí)別系統(tǒng)。
表1 不同解碼單元在NIST STD 2006開(kāi)發(fā)集上的音素識(shí)別率Table 1 Phone recognition accuracy using different types of decoding units on NIST STD06development set%
(1)單系統(tǒng)檢索結(jié)果
表2分別給出了ngram-WFST和模糊匹配檢索系統(tǒng)在STD 2006開(kāi)發(fā)集上的檢索結(jié)果。由于音節(jié)和詞片識(shí)別系統(tǒng)PACC較高,識(shí)別混淆低,使用模糊匹配能在引入較少虛警的情況下,降低了漏警,因而模糊匹配檢索結(jié)果好于ngram-WFST檢索結(jié)果。音素識(shí)別系統(tǒng)本身混淆就很高,使用模糊匹配,在虛警已很高的情況下又進(jìn)一步提高了虛警,其模糊匹配性能是不可接受的。
基于表2實(shí)驗(yàn)結(jié)果,對(duì)于音素檢索系統(tǒng),使用ngram-WFST檢索,對(duì)于音節(jié)和詞片檢索系統(tǒng),使用模糊匹配檢索。同時(shí),為了平衡虛警和漏警,所有系統(tǒng)均使用詞項(xiàng)相關(guān)置信度歸一方法提高系統(tǒng)性能[12]。
表2 NIST STD 2006開(kāi)發(fā)集上ngram-WFST和模糊匹配檢索結(jié)果Table 2 ATWV results based on ngram-WFST and fuzzy search on NIST STD06development set
(2)多系統(tǒng)融合結(jié)果
為了研究不同子詞系統(tǒng)之間的互補(bǔ)性,分別做了音素、音節(jié)、詞片系統(tǒng)之間的兩兩融合和三者間的融合,表3為對(duì)應(yīng)的ATWV值。相對(duì)于性能最好的以詞片作為識(shí)別單元的單系統(tǒng),多系統(tǒng)融合的性能在開(kāi)發(fā)集和測(cè)試集上,分獲得了11%和12%的ATWV相對(duì)提升。
表3 開(kāi)發(fā)集和測(cè)試集上的集外詞檢索ATWVTable 3 ATWV results of OOV on development and eval set
(3)融合系統(tǒng)檢索時(shí)間復(fù)雜度分析
多流信息融合系統(tǒng)采用三個(gè)STD子系統(tǒng)進(jìn)行獨(dú)立的集外詞檢索,最后進(jìn)行三系統(tǒng)的檢索結(jié)果融合。其中STD子系統(tǒng)由兩部分構(gòu)成:子詞解碼部分和檢索部分,子詞解碼時(shí)間依賴(lài)于解碼器的速度,因此三系統(tǒng)的總解碼時(shí)間基本上等于單系統(tǒng)的三倍。
而對(duì)于本文中使用的檢索算法,ngram-WFST檢索和模糊匹配檢索系統(tǒng)時(shí)間復(fù)雜度各有不同,模糊匹配由于檢索到查詢(xún)?cè)~部分triphone發(fā)音既可召回,相對(duì)于ngram-WFST完全匹配算法,搜索空間變大,搜索時(shí)間更長(zhǎng);具體檢索耗費(fèi)時(shí)間如表4所示。本文實(shí)驗(yàn)中,主機(jī)配置為:
Pentium(R)Dual-Core CPU 3.00GHz,2GB內(nèi)存。
表4 開(kāi)發(fā)集上的各子詞STD系統(tǒng)的檢索耗時(shí)Table 4 Search time of different sub-word units STD system on development set
從表4可知,在已經(jīng)建立好索引的情況下,當(dāng)采用串行方式時(shí),三系統(tǒng)總計(jì)檢索時(shí)間為三者之和,檢索開(kāi)發(fā)集上313個(gè)詞需要耗費(fèi)21.52s。但是值得注意的是,多流融合STD系統(tǒng)由三個(gè)完全獨(dú)立的子系統(tǒng)構(gòu)成,完全可以并行處理,這時(shí)融合系統(tǒng)檢索速度等同于最慢系統(tǒng)的檢索速度,檢索開(kāi)發(fā)集上313個(gè)詞只需耗費(fèi)7.65s。
雖然詞片和音節(jié)分別以數(shù)據(jù)驅(qū)動(dòng)和語(yǔ)言學(xué)規(guī)則兩種不同方式選擇,由于兩者均為可變長(zhǎng)度的音素序列,在一定程度上具有相似性,導(dǎo)致兩者的互補(bǔ)性較弱,因而融合之后性能提升不大。由于音素語(yǔ)言模型約束性較弱,無(wú)法充分利用上下文信息,因此音素識(shí)別器的識(shí)別混淆度很大,識(shí)別生成的lattices中包含很多音節(jié)和詞片不包含的信息,從而使得音素和音節(jié)、詞片間互補(bǔ)性較強(qiáng),融合之后能夠顯著提高檢索性能。
本文首先分別利用音素、音節(jié)和詞片構(gòu)建STD系統(tǒng)用于集外詞檢索,接著研究了各子詞對(duì)集外詞的建模能力,并針對(duì)各子詞STD系統(tǒng)的特性,對(duì)音素系統(tǒng)使用完全匹配的ngram-WFST檢索、對(duì)詞片和音節(jié)進(jìn)行模糊匹配檢索,提高單系統(tǒng)性能,最后利用線性回歸得分融合策略,較大程度提高了系統(tǒng)性能。
[1]NIST.The spoken term detection(STD)2006evaluation plan[EB/OL].http://www.itl.nist.gov/iad/mig/tests/std/2006/ docs/std06-evalplan-v10.pdf,2006-9-13.
[2]Szoke I,Burget L,Cernocky J,et al.Sub-word modeling of out of vocabulary words in spoken term detection[C]//Proceedings of IEEE Workshop on Spoken Language Technology.Goa,India:IEEE,2008:273-276.
[3]Wallace R,Vogt R,Sridharan S.A phonetic search approach to the 2006NIST spoken term detection evaluation[C]//Proceedings of Interspeech.Antwerp.Belgium:IEEE,2007:2393-2396.
[4]Rastrow A,Sethy A,Ramabhadran B,et al.Towards using hybrid word and fragment units for vocabulary independent LVCSR systems[C]//Proc of Interspeech.Brighton,UK:IEEE,2009:1931-1934.
[5]Larson M,EickEler S.Using syllable-based indexing features and language models to improve German spoken document retrieval[C]//Proceedings of Eurospeech.Geneva,Switzerland:IEEE,2003:1217-1220.
[6]Liu C,Wang D,Tejedor J.N-gram FST indexing for spoken term detection[C]//Proceedings of Interspeech.Portland,Oregon,USA:IEEE,2012.
[7]Xu Y,Guo W,Shansu,et al.Spoken term detection for OOV terms based on phone fragment[C]//Pro-ceedings of International Conference on Audio,Language and Image Processing.Shanghai, China:IEEE,2012:1031-1034.
[8]Brummer N,Burget L,Cernocky J,et al.Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006[J].IEEE Trans on Audio,Speech and Language Processing,2007,15(7):2072-2084.
[9]Bartlett S,Kondrak G,Cherry C.On the syllabification of phonemes[C]//Proceedings of the North A-merican Chapter of the Association for Computational Linguistics -Human Language Technologies.Boulder,Colorado,USA:Association for Computational Linguistics,2009:308-316.
[10]劉輝,楊俊安,許學(xué)忠.基于HMM和SVM串聯(lián)模型的低空飛行目標(biāo)聲識(shí)別方法[J].數(shù)據(jù)采集與處理,2010,25(6):751-755.Liu Hui,Yang Junan,Xu Xuezhong.Low altitude passive acoustic target recognition based on HMM and SVM[J].Journal of Data Acquisition and Processing,2010,25(6):751-755.
[11]Stolcke A.SRILM -An extensible language modeling toolkit[C]//Proceedings of the International Conference of Spoken Language Processing.Denver,Colorado,USA:IEEE,2002:901-904.
[12]Wang D,Tejedor J,King S,et al.Term-dependent confidence normalization for out-of-vocabulary spoken term detection[J].Journal of Computer Science and Technology,2012,27(2):358-375.