張 巍,王永遠(yuǎn),賈曉茹,李傳越
(中國海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100)
近年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上各種多媒體資源越來越多,可以直接在網(wǎng)絡(luò)上獲得大量的語音及其對應(yīng)文本的資源。但是,這些資源中的文本和語音往往不是一一對應(yīng)的,語音中有時(shí)會(huì)摻雜一些噪音,如背景音樂、掌聲等;而文本中也會(huì)存在一些單詞冗余或者缺失的現(xiàn)象,將這樣的數(shù)據(jù)稱為含有噪音的語音和文本。如何利用網(wǎng)絡(luò)上大量的含噪文本與語音數(shù)據(jù),盡可能多的找出其中能夠一一對齊的部分,即文語對齊技術(shù)是有效利用這類資源的關(guān)鍵問題。隨著網(wǎng)絡(luò)上可用多媒體資源的爆炸性增長,這一思路引起了越來越多研究人員的興趣。
文語對齊是語音識(shí)別中的一項(xiàng)重要技術(shù),它主要是指將語音與其對應(yīng)的含噪文本在時(shí)間上進(jìn)行對齊的過程。對齊后的文本語音可用于聲學(xué)模型的訓(xùn)練,語料庫的自動(dòng)構(gòu)建和多媒體檢索等領(lǐng)域[1-2]。
文語對齊的傳統(tǒng)方法是利用一個(gè)已經(jīng)訓(xùn)練好的聲學(xué)模型,對要對齊的語音進(jìn)行識(shí)別,產(chǎn)生包含識(shí)別結(jié)果的文本文件,然后利用該文本文件和原始文本進(jìn)行比對,找出他們的共同部分。這樣,文語對齊問題就轉(zhuǎn)換成了文本與文本的對齊問題[3],語音識(shí)別模塊是該技術(shù)的核心部分,識(shí)別器性能的好壞將直接影響到文語對齊的正確率。目前,大多數(shù)的文語對齊技術(shù)多依賴于一個(gè)經(jīng)過大量數(shù)據(jù)訓(xùn)練的識(shí)別器,如在Braunschweiler[4]中用于執(zhí)行語音識(shí)別的聲學(xué)模型是利用了150h的語音進(jìn)行訓(xùn)練得到的,Hazen T J[5]中同樣使用了一個(gè)經(jīng)過充分訓(xùn)練的聲學(xué)模型來執(zhí)行文語對齊的算法。而為了得到一個(gè)識(shí)別效果好的聲學(xué)模型需要至少幾十個(gè)小時(shí)甚至上百個(gè)小時(shí)正確語料進(jìn)行訓(xùn)練,為了獲該部分的數(shù)據(jù),不管是通過人工錄音還是直接從別處購買其成本都是昂貴的。而且人工錄音產(chǎn)生的語音數(shù)據(jù)因?yàn)殇浺舡h(huán)境和麥克風(fēng)本身的限制,不能很好的兼顧到各種實(shí)際中存在的語音環(huán)境和麥克風(fēng)采集聲音的不同角度,在實(shí)際的識(shí)別中也就沒有了很好的魯棒性。因此有必要找到一種方法能盡可能的擺脫對預(yù)先訓(xùn)練的,只適應(yīng)特定環(huán)境的聲學(xué)模型的依賴。
本文提出一種基于網(wǎng)上開放語音識(shí)別引擎來自動(dòng)的獲得語音和文本一一對應(yīng)的數(shù)據(jù)的算法,以開放的識(shí)別器來替代需要大量有標(biāo)注數(shù)據(jù)預(yù)先訓(xùn)練的識(shí)別器,從而擺脫了對需要大量有標(biāo)注數(shù)據(jù)訓(xùn)練的聲學(xué)模型的依賴。并接著利用得到的數(shù)據(jù)來訓(xùn)練一個(gè)面向識(shí)別領(lǐng)域的聲學(xué)模型,接著以此聲學(xué)模型為核心改進(jìn)了傳統(tǒng)的文語對齊SailAlign算法,對語音和文本重新進(jìn)行迭代的、自適應(yīng)的文語對齊。
在傳統(tǒng)的文語對齊算法中,原始的語音經(jīng)過預(yù)先訓(xùn)練的識(shí)別器識(shí)別后會(huì)產(chǎn)生帶有時(shí)間信息的文本,該時(shí)間即為文本在音頻文件中的位置信息。將該部分文本與原始的文本進(jìn)行文本對齊后,將會(huì)得到二者的公共部分,也即語音中一定含有的部分,然后根據(jù)文本的時(shí)間信息,即可找到與之對應(yīng)的的語音。
為了擺脫對預(yù)先訓(xùn)練的聲學(xué)模型的依賴,考慮利用谷歌的開放語音識(shí)別引擎(Google voice recogni-tion,簡記為GVR)來代替?zhèn)鹘y(tǒng)文語對齊技術(shù)中的語音識(shí)別器,對含噪的語音和文本進(jìn)行識(shí)別。但是在利用GVR對語音進(jìn)行識(shí)別產(chǎn)生的文本文件中并不包含時(shí)間信息,沒有了時(shí)間信息也就無法正確找出文本所對應(yīng)的語音。為此,提出了一種基于有限狀態(tài)機(jī)(Finite State Automaton,簡記為FSA)的語言模型識(shí)別算法來得到需要的時(shí)間信息,進(jìn)而得到文本所對應(yīng)的語音,稱該算法為GVR-FSA算法。
該算法首先利用GVR對原始的語音進(jìn)行識(shí)別得到識(shí)別結(jié)果,接下里將該部分結(jié)果與原始的文本進(jìn)行文本對齊,在對齊的結(jié)果文件中包含2個(gè)部分,即兩者共同含有的部分和不一致的部分。共同的部分為語音中一定包含的部分,而另一部分是否包含并不確定,本文利用基于有限狀態(tài)機(jī)的語言模型來描述文本的這一特性。然后再經(jīng)過利用原始的含噪語音和文本進(jìn)行訓(xùn)練的語音識(shí)別器(下文中將稱該識(shí)別器為含噪識(shí)別器)對語音進(jìn)行第二次識(shí)別,在本次識(shí)別過程中結(jié)合由上面得到基于有限狀態(tài)機(jī)的語言模型來得到文本所對應(yīng)的準(zhǔn)確的時(shí)間信息。由于有限狀態(tài)機(jī)對文本的結(jié)構(gòu)做了進(jìn)一步的規(guī)定,使得它比普通的、單純統(tǒng)計(jì)概率的語言模型對文本的限制更加的嚴(yán)格[10],所以即使是利用含噪識(shí)別器對語音進(jìn)行重識(shí)別的情況下仍能找出文本所對應(yīng)的正確時(shí)間信息。實(shí)驗(yàn)數(shù)據(jù)表明由該算法得到的文本和語音不對應(yīng)的時(shí)間誤差在0.1%左右,大大低于在人工錄音過程中對該誤差的要求。
該算法的主要模塊,流程圖見圖1。
圖1 GVR-FSA文語對齊算法的流程圖Fig.1 The flow chart for the algorithm of the GVR speech-text alignment
下面分別介紹上述算法流程圖中各個(gè)模塊的功能。
1.2.1 文本的正則化 在由網(wǎng)絡(luò)得到的文本中常會(huì)含有一些亂碼如“&nbsp”和“strong”等,還有一些和讀音不一致的常用的符號(hào)如“%”,以及數(shù)字符號(hào)如“1984年”、“200多公里”等,這些都需要根據(jù)語音中的讀音時(shí)進(jìn)行轉(zhuǎn)換,即將“&nbsp”和“strong”部分刪除、將“%”轉(zhuǎn)換成“百分之”、將“1984年”轉(zhuǎn)換為“一九八四年”、將“200多公里”轉(zhuǎn)換為“二百多公里”等。即將文本進(jìn)行正則化處理,以得到較為規(guī)整的文本來提高文本與文本對齊的正確率。
1.2.2 含噪識(shí)別器的訓(xùn)練 將經(jīng)過文本正則化處理的文本和原始的語音作為訓(xùn)練數(shù)據(jù),來訓(xùn)練一個(gè)語音識(shí)別器,以執(zhí)行GVR算法中的第二次語音識(shí)別。
由于語音和文本中含有噪聲,不能保證語音和文本的一一對應(yīng),會(huì)有大量文本和語音對應(yīng)不上的數(shù)據(jù),由此訓(xùn)練的隱馬爾科夫模型與準(zhǔn)確的模型間會(huì)存在較大的誤差。而如果我們識(shí)別器中的隱馬爾可夫模型的數(shù)目越少,其受該部分錯(cuò)誤數(shù)據(jù)的影響也就會(huì)越少。因此在這里我們訓(xùn)練了一個(gè)基于聲韻母的單音素語音識(shí)別器。
1.2.3 原始語音文件切分 在網(wǎng)絡(luò)上直接獲得的語音一般都比較長,直接將其用GVR進(jìn)行識(shí)別的識(shí)別正確率低;同時(shí)由于語音在通過網(wǎng)絡(luò)提交給GVR時(shí)會(huì)受限于網(wǎng)絡(luò)帶寬,在網(wǎng)速不佳時(shí)識(shí)別速度也比較慢;經(jīng)常會(huì)導(dǎo)致在返回的識(shí)別結(jié)果的文本文件中有大量的空文件,識(shí)別效果很不理想。
經(jīng)過分析各種時(shí)長下語音的識(shí)別效果,我們發(fā)現(xiàn)GVR對時(shí)長為10~20s的語音識(shí)別效果最好。故我們對長語音首先進(jìn)行了切分,以得到適合GVR識(shí)別的音頻文件。然后將該部分短的音頻文件提交至GVR進(jìn)行識(shí)別。
1.2.4 GVR識(shí)別得到文本 谷歌語音識(shí)別引擎是開放的識(shí)別工具,在用戶把音頻文件按照要求的格式提交后,它會(huì)返回一個(gè)個(gè)包含識(shí)別結(jié)果的文本文件。為了在下面執(zhí)行文本與文本對齊的方便,我們該部分得到的小的文本文件按照原始的語音數(shù)據(jù)匯總成一個(gè)較大的文本文件。
1.2.5 文本過濾 由GVR識(shí)別返回的文本結(jié)果中會(huì)含有一些噪音,如一般會(huì)有英文單詞、數(shù)字和單個(gè)的字母等垃圾信息,為了提高在接下來文本與文本對齊的準(zhǔn)確性,這里對該部分垃圾信息進(jìn)行過濾。只保留返回結(jié)果中的漢字部分。
1.2.6 基于FSA的重識(shí)別 在得到文本過濾后的文本(下文中用識(shí)別文本來代表該部分文本)后,下一步的工作就是找出文本中正確識(shí)別的部分。為此將原始文本和識(shí)別文本進(jìn)行文本對齊,對齊后兩者同時(shí)含有的共同部分即為正確識(shí)別的文本。
在GVR返回的文本中,只有識(shí)別結(jié)果而無時(shí)間信息,無法得到該部分文本所對應(yīng)的語音部分。為了得到所需要的時(shí)間信息,我們利用上面訓(xùn)練的含噪識(shí)別器,并結(jié)合基于有限狀態(tài)機(jī)的語言模型[4]對語音進(jìn)行第二次識(shí)別,以將該正確部分文本對應(yīng)的語音找出,形成文本與語音一一對應(yīng)的數(shù)據(jù)。
基于有限狀態(tài)機(jī)的語言模型由兩部分組成,一部分為正確文本,指的是在文本對齊中產(chǎn)生的正確識(shí)別部分的文本,即為識(shí)別文本與原始文本都含有的部分;另一部分為剩余文本,指的是原始文本中除去已正確識(shí)別出的文本外剩下的未對齊的部分。對于該部分文本不能確定它在原始的語音是否存在。因此,在構(gòu)造該語言模型時(shí)將正確文本在語言模型中視為必會(huì)出現(xiàn)的狀態(tài),而將剩余文本作為可選的狀態(tài)來完成有限狀態(tài)自動(dòng)機(jī)的構(gòu)建。原理見圖2。
圖2 有限狀態(tài)機(jī)圖示,W1和W3為正確部分,W2和W4為可選部分Fig.2 The diagram of the finite state automata,W1and W3are the right part,W1and W3are the optional part
通過分析GVR-FSA算法的識(shí)別過程,發(fā)現(xiàn)在網(wǎng)絡(luò)不穩(wěn)定時(shí),經(jīng)常會(huì)得到許多空的返回文件,使得整個(gè)識(shí)別過程對網(wǎng)絡(luò)的依賴性很大,算法的穩(wěn)定性不好。在返回的非空文本中能夠正確識(shí)別的文本約為50%(見實(shí)驗(yàn)部分),識(shí)別的正確率也比較低;而接下來還需要重新訓(xùn)練含噪識(shí)別器對語音進(jìn)行二次識(shí)別,以獲得時(shí)間信息,這又進(jìn)一步增加了整個(gè)算法的時(shí)間復(fù)雜。
為了克服上述缺點(diǎn),我們在利用GVR-FSA算法得到了語音文本一一對應(yīng)的部分?jǐn)?shù)據(jù)后,接著利用該部分?jǐn)?shù)據(jù)訓(xùn)練了一個(gè)基于三音素的漢語連續(xù)語音的聲學(xué)模型,以該模型作為語音識(shí)別器,并參考了傳統(tǒng)的文語對齊算法SailAlign的架構(gòu)來重新執(zhí)行文語對齊。由于該識(shí)別器返回的識(shí)別結(jié)果中就包含了時(shí)間信息,因此也就不需要在GVR-FSA算法中所需要的重識(shí)別過程,整個(gè)算法的時(shí)間復(fù)雜度得到了降低,同時(shí)該語音識(shí)別器是通過要識(shí)別領(lǐng)域的文本和語音訓(xùn)練得到的,也能保證其較高的識(shí)別率。同時(shí)SailAlign算法在執(zhí)行文語對齊得到了語音和文本一一對齊的數(shù)據(jù)后,接著利用該部分?jǐn)?shù)據(jù)對聲學(xué)模型進(jìn)行了加強(qiáng)訓(xùn)練,然后利用新的聲學(xué)模型對接下來的數(shù)據(jù)進(jìn)行識(shí)別。整個(gè)過程是一個(gè)迭代的過程,與GVR-FSA算法相比,其識(shí)別器的識(shí)別率是在不斷的提高的。SailAlign算法已在Black M P和Lee C C[7]中提到的關(guān)于對齊含有噪音的交互語音數(shù)據(jù)領(lǐng)域得到了成功的應(yīng)用。
該算法的流程見圖3。
圖3 SailAlign算法的流程Fig.3 The process of the algorithm of the SailAlign
同時(shí)為了進(jìn)一步提高該算法中語音識(shí)別器的識(shí)別率,對SailAlign算法中的語言模型部分進(jìn)行了改進(jìn)。SailAlign算法中的語言模型是基于要識(shí)別文本所建立的語言模型,在識(shí)別文本中的錯(cuò)誤率不是很高的情況下,該算法能獲得很好的效果。但隨著文本錯(cuò)誤率的升高,錯(cuò)誤部分對整個(gè)語言模型的影響也越來越大,使得識(shí)別的準(zhǔn)確率降低。為此我們使用了融合的語言模型來避免文本錯(cuò)誤率升高對語音識(shí)別正確率的影響。具體是首先我們基于大量文本訓(xùn)練了一個(gè)通用的語言模型,將待識(shí)別的文本訓(xùn)練了一個(gè)特定的語言模型;在實(shí)際的語音識(shí)別中使用的語言模型是將上述兩個(gè)語言模型進(jìn)行融合得到的(融合的比例為通用的模型為0.2,特定的模型為0.8),以此來削弱文本錯(cuò)誤率對識(shí)別結(jié)果的影響,同時(shí)又保證了識(shí)別結(jié)果向原文本的偏置。實(shí)驗(yàn)結(jié)果表明,融合的語言模型在文本噪音較大時(shí)仍能取得較高的識(shí)別正確率。但在識(shí)別過程中,由于使用了通用的語言模型與特定的語言模型融合的技術(shù),使得每次的識(shí)別過程中的語言模型都比較大,識(shí)別的時(shí)間相對于原算法來說延長了很多。
首先對音頻文件進(jìn)行切分,將長語音文件切分成較小的語音片段。(本文中約為10~15s)。與GVR部分不同的是,這里我們是在聲學(xué)特征領(lǐng)域?qū)σ纛l文件進(jìn)行切分,即首先對音頻文件進(jìn)行聲學(xué)特征的抽取,然后直接在聲學(xué)特征域內(nèi)對音頻進(jìn)行切分,這樣在以后的迭代識(shí)別中就不需要再進(jìn)行聲學(xué)特征的抽取了,使得整個(gè)算法過程更加高效[6]。
與GVR文語對齊算法過程類似,接下來對切分成小音頻段的語音進(jìn)行識(shí)別,并將識(shí)別后的結(jié)果匯總成1個(gè)文本文件,并將該文本文件與原始文本進(jìn)行對齊,找出正確識(shí)別的部分,并將剩下的文本和語音視為未對齊的部分,利用SailAlign進(jìn)行重新對齊,即迭代的進(jìn)行識(shí)別與對齊。
為了提高對噪音的魯棒性,對每次迭代的識(shí)別和對齊后,我們都要用已經(jīng)對齊的好的語音和文本來更新聲學(xué)模型,而對于語言模型則是是在每次迭代后都再基于未對齊語音部分來重新建立。該過程將迭代進(jìn)行3次,在最后的2次迭代過程中,聲學(xué)模型將不在更新,只是對語言模型進(jìn)行自適應(yīng)。
使用開源的工具sox來對在GVR-FSA算法中的長語音進(jìn)行切分;而在SailAlign算法中對音頻進(jìn)行切割的工具,使用的是Ghosh P K[9]描述的工具;語言模型的訓(xùn)練是使用的SRILM工具[8];文本與文本的對齊使用的動(dòng)態(tài)規(guī)劃的算法,利用的開源工具Sclite來實(shí)現(xiàn)的。
原始的語音和文本數(shù)據(jù)使用的是網(wǎng)上免費(fèi)的新聞聯(lián)播數(shù)據(jù),約為20h,利用該部分?jǐn)?shù)據(jù),首先分別對GVR-FSA和SailAlign兩種文語對齊算法的性能進(jìn)行測試和比較;接著對改進(jìn)前后的SailAlign算法中文本錯(cuò)誤率對它的影響做了比對和分析;最后測試了2種文語對齊算法得到的對齊后數(shù)據(jù)的錯(cuò)誤距離(error margin),以此來衡量兩種文語對齊算法產(chǎn)生的數(shù)據(jù)的準(zhǔn)確性,并對此進(jìn)行了分析。錯(cuò)誤距離即為算法得到的語音及其時(shí)間和實(shí)際語音所對應(yīng)時(shí)間之間的誤差所允許的時(shí)間間隔,本文將該間隔設(shè)為50ms,error margin大于50ms的數(shù)據(jù)被認(rèn)為是對齊錯(cuò)誤的數(shù)據(jù)。需要說明的是在實(shí)際測試算法對齊后數(shù)據(jù)的準(zhǔn)確性時(shí),我們統(tǒng)計(jì)的是error margin大于50ms的字的個(gè)數(shù)占原始文本中正確字的個(gè)數(shù)的百分比,即字錯(cuò)誤率(Word error rate)。
初始的20h左右的含噪新聞聯(lián)播數(shù)據(jù)經(jīng)過GVRFSA算法對齊后,得到了文本和語音一一對齊的數(shù)據(jù)約為10h。然后利用該部分?jǐn)?shù)據(jù)訓(xùn)練出一個(gè)基于三音素的連續(xù)語音聲學(xué)模型,以用于實(shí)現(xiàn)SailAlign算法。SailAlign算法中的通用語言模型是用了搜狗實(shí)驗(yàn)室的新聞文本進(jìn)行訓(xùn)練的。測試數(shù)據(jù)我們用的是1h的含噪語音和文本。
測試的結(jié)果見圖4、5和6。
圖4給出基于測試數(shù)據(jù)的GVR-FSA和SailAlign 2個(gè)算法中的正確率比較。在這里的正確率是指2種算法得到的準(zhǔn)確文本中漢字的個(gè)數(shù)占原文本中漢字的總個(gè)數(shù)的百分比。
圖4 SailAlign和GVR的性能比較Fig.4 The comparison of performance between the SailAlign and the GVR
從圖中可以看出,由于SailAlign算法中使用了面向原始的語音和文本的數(shù)據(jù)來訓(xùn)練聲學(xué)模型和語言模型,識(shí)別的性能有了顯著的提高,同時(shí)該算法的魯棒性也很高,在噪聲達(dá)到10%時(shí)仍然有著較高的正確率。而GVR-FSA的魯棒性雖然也較高,在各種噪音情況下基本保持了同樣的識(shí)別正確率,但是其識(shí)別率較低,同時(shí)由于其對網(wǎng)絡(luò)的依賴性,使得它穩(wěn)定性和時(shí)間效率較低。
接下來對改進(jìn)前后的SailAlign算法的識(shí)別性能進(jìn)行了測試(見圖5)。
圖5 改進(jìn)前后的SailAlign性能比較Fig.5 The performance comparison of the SailAlign
從圖5中可以看出,文本中的噪音對只通過單文本訓(xùn)練的語言模型的識(shí)別性能影響比較明顯,而通過加入通用的語言模型后,在噪聲達(dá)到10%時(shí)仍能達(dá)到94.5%的識(shí)別率,這里94.5%指的是正確識(shí)別出的文本占原文本中正確文本的概率。SailAlign的魯棒性得到了提高,在利用兩種算法得到的語音和文本對應(yīng)的數(shù)據(jù)中會(huì)存在有的語音和文本對應(yīng)錯(cuò)誤的情況,一般來說是指在文本開頭或結(jié)尾的部分會(huì)存在多字或少字的現(xiàn)象,即該部分語音的時(shí)間與實(shí)際正確時(shí)間的前后時(shí)間誤差超過了本文對error margin 50ms的要求,這里用WER來表示不匹配的概率。
圖6給出的是在2種算法的WER比較。
圖6 SailAlign和GVR的字錯(cuò)誤率能比較Fig.6 The comparison of WER between the SailAlign and the GVR
從圖中發(fā)現(xiàn)2種算法的WER都比較低,低于人工標(biāo)注語音文本數(shù)據(jù)中所允許的0.1%的錯(cuò)誤率。由算法得到的數(shù)據(jù)可直接應(yīng)用于語料庫的構(gòu)建和多媒體的檢索等領(lǐng)域。
本文介紹了一種不依賴于預(yù)先訓(xùn)練好的聲學(xué)模型的文語對齊的算法,實(shí)驗(yàn)表明,該算法在噪音比較高的情況下,仍然可以達(dá)到比較高的性能。SailAlign算法中用的聲學(xué)模型是用了10h的語音文本數(shù)據(jù)訓(xùn)練得到的,增多訓(xùn)練的數(shù)據(jù)量將會(huì)進(jìn)一步的減小WER。
接下來的研究工作主要是進(jìn)一步擺脫對開放識(shí)別器的依賴,研究如何在沒有開放語音識(shí)別器的情況下,也沒有可用于訓(xùn)練聲學(xué)模型的語音與文本數(shù)據(jù)情況下來進(jìn)行文語對齊算法的技術(shù)。具體來說就是繼續(xù)加強(qiáng)對語言模型的限制,利用本文中提到的基于有限狀態(tài)機(jī)的語言模型方法對原始的文本進(jìn)行處理,考慮到各種可能文本字符間的狀態(tài)轉(zhuǎn)移路徑,然后將語音對各種路徑進(jìn)行一個(gè)打分,找到其中概率最大的路徑,即為語音所對應(yīng)的文本。而如何對轉(zhuǎn)移路徑進(jìn)行打分將是該算法的關(guān)鍵。
[1]Moreno P J,Alberti C.A factor automaton approach for the forced alignment of long speech recordings[C].Proc of the IEEE International Conference on Acoustics,Speech,and Signal Processing,Taipei:ICASSP,2009:4869-4872.
[2]Caseiro D,Meinedo H,Serralheiro A,et al.Spoken book alignment using WFSTs[C].Proc of the second international conference on Human Language Technology Research.San Francisco:ACM,2002:194-196.
[3]Moreno P,Joerg C,van Thong J M,et al.A recursive algorithm for the forced alignment of very long audio segments[C].Proc of the Int’l Conf on Spoken Language Processing,Sydney:IEEE press,1998:2711-2714.
[4]Braunschweiler N,Gales M J F,Buchholz S.Lightly supervised recognition for automatic alignment of large coherent speech recordings[C].Proc of the Interspeech,Chiba:INTERSPEECH,2010:2222-2225.
[5]Hazen T J.Automatic alignment and error correction of human generated transcripts for long speech recordings[C].Proc of Interspeech,Pittsburgh:INTERSPEECH,2006:1606-1609.
[6]Katsamanis A,Black M P,Georgiou P G,et al.SailAlign:Robust long speech-text alignment[J].Proc of Workshop on New Tools and Methods for Very Large Scale Research in Phonetic Sciences,2011,1:28-31.
[7]Black M P,Katsamanis A,Lee C C,et al.Auto-matic classification of married couples’behavior using audio features[C].Proc of the Interspeech,Chiba:INTERSPEECH-2010,2010:2230-2033.
[8]Stolcke A.SRILM-an extensible language modeling toolkit[C].Proc Int’l Conf on Spoken Language Processing,Colorado:ICSLP,2002:269-273.
[9]Ghosh P K,Tsiartas A,Narayanan S S.Robust voice activity detection using long-term signal variability[J].IEEE Trans Audio Speech and Language Processing,2010:19:600-613.
[10]Stan A,Bell P,King S.A grapheme-based method for automatic alignment of speech and text data[J].IEEE Workshop on Spoken Language Technology,2012,1:286-290.