李玉萍
(商丘師范學(xué)院,河南 商丘476000)
上下文無關(guān)文法在孤立詞識別中的應(yīng)用
李玉萍
(商丘師范學(xué)院,河南 商丘476000)
在孤立詞識別的過程中引入了非遞歸上下文無關(guān)文法。針對語音識別中的多個變量問題需要進(jìn)行多次訓(xùn)練,根據(jù)樣本中表達(dá)特征的字符串集在訓(xùn)練模式中為每個孤立詞構(gòu)造一個上下無關(guān)文法。在識別的過程中,對輸入的字符串進(jìn)行分析,符合該文法輸出該字符串,并說明該字符串符合該文法。
上下文無關(guān)文法;孤立詞;識別
語音識別是一門結(jié)合了計算機(jī)技術(shù)和計算機(jī)語言學(xué)等多種學(xué)科的交叉學(xué)科。孤立詞識別是語音識別的一種,語音識別模型如圖1所示。孤立詞識別系統(tǒng)對人的發(fā)聲間隔中的詞進(jìn)行單獨(dú)識別的一個系統(tǒng),同時語音識別也是一種模式識別的實(shí)例。孤立詞識別系統(tǒng)通常由特征抽取和識別器兩部分組成。特征抽取把語音信號轉(zhuǎn)換成字符串符號;識別器考察該字符串是否在詞匯表,如果在則輸出,不在輸出錯誤信號。傳統(tǒng)的識別方法大都是建立在模式識別的基礎(chǔ)上,本文引入上下文無關(guān)文法對識別器進(jìn)行構(gòu)造,并對輸入串進(jìn)行識別。
定義1:設(shè)G=(VN,VT,P,S)為一文法,其中VN為非終結(jié)符號,VT為終結(jié)符,P為文法的產(chǎn)生式集合,若P中的每個產(chǎn)生式α→β均滿足:α是一非終結(jié)符,β∈(VN UVT)*,則此文法稱為2型的或上下文無關(guān)文法。
定義2:任何非空,并且不含ε的上下文無關(guān)文法G,如果G中所有的產(chǎn)生式的形式為下列兩個形式之一:
(1)A-->BC
(2)A-->a
其中,A,B,C∈VN,a∈VT,
那么,我們稱這種形式的文法G為喬姆斯基范式文法或者喬姆斯基范式 (Chomsky Normal Form),簡記為:CNF。
上下文無關(guān)文法(CFG)是這樣的一種文法:它所定義的語法范疇(或語法單位)完全獨(dú)立于這種范疇可能出現(xiàn)的環(huán)境。其特點(diǎn)是在對非終結(jié)符進(jìn)行替換時不需要聯(lián)系上下文,并且可以替換成空串。上下文無關(guān)文法的識別問題,就是對給定的一個上下文無關(guān)文法G,和一個串α(α∈VT*),確定是否存在推導(dǎo):S=>*α的問題。在上下文無關(guān)文法中,喬姆斯基范式是經(jīng)常使用的特殊文法。并且所有的上下文無關(guān)文法都可以轉(zhuǎn)換成喬姆斯基范式。
在孤立詞識別系統(tǒng)中,假設(shè)特征抽取出的符號是有限數(shù)量的,每個孤立詞產(chǎn)生的字符串長度也是有限的。在設(shè)計識別器時可以分成兩部分工作,如圖2所示,首先構(gòu)造能夠生成樣本符號串的上下文無關(guān)文法,這個過程可以看成一個編碼過程;然后利用該文法模型對任意輸入的字符串進(jìn)行分析識別,看是否符合該文法,該過程可以看成一個解碼過程。
在文法構(gòu)造的過程中,詞匯中的每個單詞聲音由特征抽取轉(zhuǎn)換成符號串,該符號串由識別器自動生成上下文無關(guān)文法,通常該文法在構(gòu)造的過程中采用喬姆斯基范式的形式,存儲到計算機(jī)中供以后使用。經(jīng)過多次訓(xùn)練,反復(fù)重寫,為樣本字符串集構(gòu)造相應(yīng)的上下文無關(guān)文法,每個模型可以描述相似的字符串。具體的構(gòu)造算法:首先為第一個字符串構(gòu)造文法G1,該文法目前只能生成該字符串,然后對其他的字符串進(jìn)行考察,如果能夠被識別,則考察其他字符串,不能識別則生成G2,依次對樣本中的所有字符串進(jìn)行考察,直到文法規(guī)則不再擴(kuò)大為止。構(gòu)造好的上下文無關(guān)文法模型對以后的輸入串進(jìn)行識別分析,從而判斷該輸入串是否符合該文法,符合則輸出,不符合則拒絕。
在識別過程中,被輸入的字符串采用上下文無關(guān)文法識別字符串的算法進(jìn)行識別,常用的分析方法有自上而下分析法、自下而上分析法、CYK算法等。由于語音信息具有噪音信息,轉(zhuǎn)換成的字符串符號針對該文法具有二義性,因此我們采用三層分析方式。第一層對輸入的字符串進(jìn)行分析,如果只能采用一個文法,則輸出該字符串,如果不能采用第二層分析,第二層采用近似匹配的原則對可以由兩個以上的文法所能識別的字符串進(jìn)行分析,采用最優(yōu)的文法。第三層對采用近似匹配策略仍有多個文法可以生成該字符串,采用隨機(jī)算法進(jìn)行分析,從而選取最合適的文法進(jìn)行輸入串識別,然后輸出。
上下文無關(guān)文法為孤立詞識別提供了一個非常好的分類和描述方法。用上下文無關(guān)文法規(guī)則來表達(dá)樣本字符串代替直接存儲樣本字符串,從而節(jié)省了大量的存儲空間,提高了訪問效率,對語音識別技術(shù)的發(fā)展提供一個很好的模型,上下文無關(guān)文法在孤立詞識別中的應(yīng)用具有重要的理論和實(shí)踐意義。
[1]吳哲輝,吳振寰.形式語言與自動機(jī)[M].北京:北京機(jī)械工業(yè)出版社,2007:40-42.
[2]陳火旺,劉春林,譚慶平等.程序設(shè)計編譯原理[M].北京:國防工業(yè)出版社,2003:51-53.
H02
A
1673-0046(2011)05-0174-01