面向維吾爾語電話交談式語音識(shí)別的詞典設(shè)計(jì)方法研究

2013-12-14 01:36:48潘接林顏永紅

重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版) 2013年3期

李鑫，侯煒，計(jì) 哲，潘接林，顏永紅

(1.中國科學(xué)院大學(xué)，北京100049;2.中國科學(xué)院聲學(xué)研究所，北京100190;3.中國科學(xué)院語言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室，北京100190;4.國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心，北京100029)

0 引言

語音識(shí)別技術(shù)的目標(biāo)是將人的語音自動(dòng)轉(zhuǎn)換為文字。近年來，該技術(shù)不斷進(jìn)步，開始從實(shí)驗(yàn)室走向?qū)嵱茫霈F(xiàn)了語音搜索服務(wù)、語音輸入法、家電的語音控制及音頻文件的關(guān)鍵詞檢測(cè)等應(yīng)用。典型的基于統(tǒng)計(jì)的語音識(shí)別系統(tǒng)一般由特征提取模塊、聲學(xué)模型、語言模型、發(fā)音詞典和解碼器5個(gè)部分構(gòu)成。其中，發(fā)音詞典用于提供語言模型建模單元以及該單元對(duì)應(yīng)的音素序列。在漢語或英語語音識(shí)別中，通常從文本語料中選擇高頻詞語作為詞典單元。

維吾爾語是一種黏著語，具有復(fù)雜的形態(tài)結(jié)構(gòu)。在維吾爾語中，可以通過在詞干后不斷結(jié)合附加成分構(gòu)成新的詞語。如果從文本語料中選擇高頻詞語構(gòu)成詞典，識(shí)別系統(tǒng)的集外詞比例將遠(yuǎn)大于相同詞典規(guī)模的英語系統(tǒng)。為了緩解黏著語語音識(shí)別中集外詞過多的問題，通常選擇分解詞語得到的子詞作為語言模型建模單元。近十年來，在黏著語一遍識(shí)別系統(tǒng)的開發(fā)中，圍繞詞語分解方法和子詞單元選擇出現(xiàn)了大量的研究。對(duì)于匈牙利語，Szarvas［1］等使用該語言的形態(tài)分析器將詞語分解為語素，并采用這種語法語素作為識(shí)別單元。對(duì)于芬蘭語，Hirsim?ki［2］等采用最小描述長(zhǎng)度準(zhǔn)則對(duì)詞語進(jìn)行無監(jiān)督切分，并使用切分得到的統(tǒng)計(jì)子詞作為識(shí)別單元。對(duì)于韓語，Kwon［3］等實(shí)現(xiàn)了基于語素的識(shí)別系統(tǒng)，并通過基于規(guī)則或統(tǒng)計(jì)的語素合并來進(jìn)一步提高系統(tǒng)性能。在土耳其語語音識(shí)別研究中，Hacioglu［4］等實(shí)現(xiàn)了基于語素和基于統(tǒng)計(jì)子詞的識(shí)別系統(tǒng)，并根據(jù)互信息對(duì)相鄰子詞進(jìn)行有選擇的合并，從而增加子詞語言模型的上下文長(zhǎng)度;ArIsoy［5］等構(gòu)造了同時(shí)包含詞語、詞干－詞尾和語素的解碼詞典來發(fā)揮不同識(shí)別單元各自的優(yōu)點(diǎn);Sak［6］等通過將土耳其語形態(tài)分析器與識(shí)別系統(tǒng)的加權(quán)有限狀態(tài)轉(zhuǎn)錄機(jī)進(jìn)行復(fù)合來提高詞典對(duì)文本的覆蓋率。這些基于子詞的識(shí)別系統(tǒng)緩解了詞語系統(tǒng)集外詞過多的問題，使識(shí)別器的性能得到了改善。

在維吾爾語形態(tài)分析研究方面，早克熱·卡德爾［7］等實(shí)現(xiàn)了基于有限狀態(tài)自動(dòng)機(jī)的名詞形態(tài)分析工具，可以將形態(tài)變化之后的名詞分解為詞干和附加成分;阿孜古麗·夏力甫［8］等采用同樣的思路實(shí)現(xiàn)了處理動(dòng)詞體范疇形態(tài)變化的有限狀態(tài)自動(dòng)機(jī)。目前尚未出現(xiàn)可自由獲得的完整的維吾爾語形態(tài)分析器，這給實(shí)現(xiàn)基于語素的語音識(shí)別系統(tǒng)帶來了困難。在維吾爾語語音識(shí)別方面，Tursun［9］等建立了維吾爾語朗讀語音數(shù)據(jù)庫和文本語料庫，并使用HTK實(shí)現(xiàn)了基于詞語的語音識(shí)別系統(tǒng)，該工作還未涉及詞典單元的選擇問題。

Xerox Finite State Tools(XFST)［10］是一套有限狀態(tài)工具包，提供創(chuàng)建和操作有限狀態(tài)轉(zhuǎn)錄機(jī)的高級(jí)語言及編譯環(huán)境。在本文中，我們使用該工具包開發(fā)了基于有限狀態(tài)轉(zhuǎn)錄機(jī)的維吾爾語形態(tài)分析器，可用于將詞語分解為詞干和附加成分。赫爾辛基大學(xué)開發(fā)的基于最小描述長(zhǎng)度準(zhǔn)則的詞語切分工具M(jìn)orfessor 1.0［11］可用于將維吾爾語詞語分解為統(tǒng)計(jì)子詞。我們分別選擇詞語、語素和統(tǒng)計(jì)子詞作為詞典單元構(gòu)建語音識(shí)別系統(tǒng)，并在電話交談式語音轉(zhuǎn)寫任務(wù)上比較各個(gè)系統(tǒng)的性能。在此基礎(chǔ)上，我們提出了一種根據(jù)詞形在聲學(xué)模型訓(xùn)練數(shù)據(jù)識(shí)別結(jié)果上的錯(cuò)誤音素總數(shù)確定該詞形最佳分解結(jié)果的方法。該方法可用于開發(fā)語素－統(tǒng)計(jì)子詞聯(lián)合詞典，進(jìn)一步提高識(shí)別器的性能。

1 維吾爾語的特點(diǎn)

維吾爾語是一種黏著語，可以通過不斷在詞干后結(jié)合附加成分構(gòu)成新的詞語。詞干和附加成分統(tǒng)稱為語素。附加成分按其作用可以分為構(gòu)詞附加成分和構(gòu)形附加成分2類。構(gòu)詞附加成分表示詞匯意義，結(jié)合在詞干后能構(gòu)成新詞;構(gòu)形附加成分只表示純粹的語法意義，結(jié)合在詞干后構(gòu)成一個(gè)詞的不同形態(tài)。構(gòu)形附加成分結(jié)合在名詞詞干后可以表示數(shù)、領(lǐng)屬人稱和格的語法意義，結(jié)合在形容詞詞干后可以表示級(jí)的語法意義，結(jié)合在動(dòng)詞詞干后可以表示式、體、時(shí)和人稱的語法意義。表1給出了這2種附加成分與詞干結(jié)合的例子。在本文中，我們使用拉丁維吾爾文字母拼寫維吾爾語詞語。

表1 詞干結(jié)合不同種類附加成分構(gòu)成詞語的例子Tab.1 Examples of adding different kinds of suffixes to the stem

從表1中的例子可以看出，詞干結(jié)合構(gòu)詞附加成分形成的詞語類似于漢語或英語中的詞語，而結(jié)合構(gòu)形附加成分形成的詞語則對(duì)應(yīng)于漢語或英語中的詞組。構(gòu)形附加成分的存在是維吾爾語中出現(xiàn)大量不同詞形的原因。我們統(tǒng)計(jì)不同規(guī)模的維吾爾語和英語電話談話文本中出現(xiàn)的詞形總數(shù)，得到的曲線如圖1所示。從圖1中可以看出，隨著語料規(guī)模的擴(kuò)大，維吾爾語文本中不同詞形數(shù)目的增長(zhǎng)速度明顯超過英語。當(dāng)文本規(guī)模達(dá)到2.13 M詞語時(shí)，維吾爾語文本中包含的不同詞形有212.3 K，遠(yuǎn)大于英語的22.4 K。

圖1 維語和英語電話談話文本中不同詞形總數(shù)的比較Fig.1 Comparison of the word type number in Uyghur and English text corpus

在維吾爾語中，表示同一語法意義的構(gòu)形附加成分一般具有多種變體。在詞干結(jié)合附加成分的過程中，變體使用要遵循的規(guī)則包括元音和諧、輔音和諧和元音弱化。根據(jù)元音和諧規(guī)則，最后一個(gè)音節(jié)中帶有前/后元音的詞干要結(jié)合同一語法意義附加成分中帶有前/后元音的變體，帶有圓/展唇元音的詞干要結(jié)合同一語法意義附加成分中帶有圓/展唇元音的變體。根據(jù)輔音和諧規(guī)則，結(jié)尾是清/濁輔音的詞干要結(jié)合同一語法意義附加成分中清/濁輔音開頭的變體。根據(jù)元音弱化規(guī)則，詞干結(jié)合附加成分后保持開音節(jié)或變?yōu)殚_音節(jié)時(shí)，最后一個(gè)音節(jié)中的a或e弱化為i。這些拼寫規(guī)則使得詞干結(jié)合附加成分時(shí)需要考慮連接邊界的發(fā)音特點(diǎn)，增加了形態(tài)分析的難度。

2 維吾爾語詞語分解

2.1 基于形態(tài)分析的詞語分解

我們使用工具包XFST開發(fā)基于有限狀態(tài)轉(zhuǎn)錄機(jī)的維吾爾語形態(tài)分析器，它的功能是將輸入的詞語分解為對(duì)應(yīng)的詞干和構(gòu)形附加成分。為了構(gòu)造該形態(tài)分析器，我們需要準(zhǔn)備的知識(shí)包括:①詞干和附加成分列表;②附加成分結(jié)合順序;③詞干結(jié)合附加成分時(shí)詞語的拼寫規(guī)則。我們的詞干列表來自新疆師范大學(xué)的“現(xiàn)代維語語法語義詞匯詞性標(biāo)記集”，共有詞干97 934條，附加成分列表來自文獻(xiàn)［12］，共有附加成分225條。根據(jù)文獻(xiàn)［12］的敘述，當(dāng)名詞發(fā)生形態(tài)變化時(shí)，附加成分的結(jié)合順序是詞干［數(shù)］［領(lǐng)屬人稱］［格］;當(dāng)形容詞發(fā)生形態(tài)變化時(shí)，附加成分的結(jié)合順序是詞干［級(jí)］;當(dāng)動(dòng)詞發(fā)生形態(tài)變化時(shí)，附加成分的結(jié)合順序是詞干［能動(dòng)－非能動(dòng)］［肯定－否定］［體］［時(shí)］［人稱］。我們用 XFST提供的高級(jí)語言lexc描述附加成分的結(jié)合順序，并用工具包中的“read lexc”命令將源文件編譯為有限狀態(tài)轉(zhuǎn)錄機(jī)。詞干結(jié)合附加成分時(shí)需要滿足的拼寫規(guī)則包括元音和諧、輔音和諧和元音弱化。我們用XFST提供的“替換規(guī)則”描述這些拼寫規(guī)則，然后用工具包中的“define”和“read regex”命令將文件編譯為有限狀態(tài)轉(zhuǎn)錄機(jī)。在得到描述結(jié)合順序和描述拼寫規(guī)則的有限狀態(tài)轉(zhuǎn)錄機(jī)之后，我們使用工具包提供的命令對(duì)它們進(jìn)行復(fù)合操作，得到維吾爾語形態(tài)分析器。

圖2給出了詞語kitablirim(我的那些書)在形態(tài)分析器中對(duì)應(yīng)的有限狀態(tài)網(wǎng)絡(luò)。在進(jìn)行詞語分解時(shí)，首先使用工具包中的“apply up”命令將kitablirim映射為詞匯層上的語素序列kitab+Noun+Pl+P1sg，然后用命令“apply down”將該序列映射為表層上的語素序列 kitab +lir+im?！発itab”、“+lir”和“+im”可用作語素詞典的詞典單元。

圖2 形態(tài)分析器中kitablirim對(duì)應(yīng)的有限狀態(tài)轉(zhuǎn)錄機(jī)Fig.2 Finite state transducer for kitablirim in the morphological analyzer

2.2 基于統(tǒng)計(jì)的詞語分解

Morfessor 是赫爾辛基大學(xué)開發(fā)的基于數(shù)據(jù)驅(qū)動(dòng)的詞語分解工具，最初用于芬蘭語的統(tǒng)計(jì)形態(tài)分析。該工具使用最小描述長(zhǎng)度準(zhǔn)則對(duì)詞語進(jìn)行無監(jiān)督切分，得到類似于詞干和附加成分的統(tǒng)計(jì)子詞。這一分解方法不需要語言學(xué)知識(shí)，只需要詞形和它們?cè)谟?xùn)練文本中出現(xiàn)的次數(shù)。我們使用該工具對(duì)維吾爾語詞語進(jìn)行基于統(tǒng)計(jì)的分解。例如，對(duì)于詞語kitablirim(我的那些書)，統(tǒng)計(jì)分解的結(jié)果是kitab+lirim?！発itab”、“+lirim”可用作統(tǒng)計(jì)子詞詞典的詞典單元。

2.3 分解方法聯(lián)合

基于形態(tài)分析的詞語分解生成具有實(shí)際意義的詞干和附加成分。附加成分一般長(zhǎng)度較短，用作詞典單元會(huì)增大解碼時(shí)的混淆?；诮y(tǒng)計(jì)的方法在詞語分解過程中考慮了訓(xùn)練文本的1元語言模型概率，可以避免生成長(zhǎng)度過短的子詞?；诮y(tǒng)計(jì)的詞語分解不需要語言學(xué)知識(shí)，而基于形態(tài)分析的方法在分解過程中考慮了附加成分的結(jié)合順序，生成的語素序列滿足語法規(guī)則。為了利用不同識(shí)別單元各自的優(yōu)勢(shì)，我們?cè)O(shè)計(jì)同時(shí)包含語素和統(tǒng)計(jì)子詞的聯(lián)合詞典。由于電話談話領(lǐng)域的文本是通過人工標(biāo)注電話交談式語音得到，所以，文本中每個(gè)句子都有對(duì)應(yīng)的語音文件。我們考慮根據(jù)聲學(xué)模型訓(xùn)練數(shù)據(jù)的識(shí)別結(jié)果對(duì)每個(gè)詞形選擇最有助于提高系統(tǒng)性能的分解方法。我們分別選擇語素和統(tǒng)計(jì)子詞作為語言模型建模單元構(gòu)建識(shí)別器，并對(duì)聲學(xué)模型訓(xùn)練數(shù)據(jù)進(jìn)行解碼。對(duì)于訓(xùn)練數(shù)據(jù)中的每個(gè)句子，我們?cè)谝羲丶?jí)別將識(shí)別結(jié)果與標(biāo)注對(duì)齊，使得二者間的編輯距離最小。由于維吾爾語中音素與字母存在一一對(duì)應(yīng)的關(guān)系，所以詞語對(duì)應(yīng)的字母序列即為音素序列。我們使用(1)式統(tǒng)計(jì)詞形W在整個(gè)訓(xùn)練數(shù)據(jù)上對(duì)應(yīng)的錯(cuò)誤音素總數(shù)L(W)。

(1)式中:R表示聲學(xué)模型訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的標(biāo)注文本;s表示R中一條句子;W'是s中的詞語;l(W')是W'對(duì)應(yīng)的錯(cuò)誤音素?cái)?shù)目。當(dāng)W與W'相同時(shí)，δ(W，W')的值為1;當(dāng)W與W'不同時(shí)，δ(W，W')的值為0。對(duì)于詞形W，在得到語素系統(tǒng)結(jié)果中的錯(cuò)誤音素總數(shù)Lmorpheme(W)和統(tǒng)計(jì)子詞系統(tǒng)結(jié)果中的錯(cuò)誤音素總數(shù)Lstatistical(W)后，我們將L(W)較小的系統(tǒng)對(duì)應(yīng)的方法用于W的分解，從而實(shí)現(xiàn)2種分解方法的聯(lián)合。

3 聲學(xué)模型和語言模型

我們使用200 h電話交談式語音訓(xùn)練聲學(xué)模型。聲學(xué)特征選擇39維感知線性預(yù)測(cè)系數(shù)(perceptual linear prediction，PLP)，它是通過對(duì)52維系數(shù)(13維基本系數(shù)以及1階、2階、3階差分)進(jìn)行異方差線性判別分析后得到。聲學(xué)模型采用基于決策樹進(jìn)行狀態(tài)聚類的三音子模型，共包含6 964個(gè)隱馬爾可夫模型狀態(tài)，每個(gè)狀態(tài)對(duì)應(yīng)的高斯混合模型包含32個(gè)分量。聲學(xué)模型參數(shù)通過最大似然估計(jì)得到。在比較不同詞典單元對(duì)應(yīng)的識(shí)別器性能時(shí)，我們使用相同的聲學(xué)模型。用于訓(xùn)練語言模型的語料包括電話談話語料和通用語料。其中，電話談話語料是聲學(xué)模型訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的標(biāo)注文本，共包含35萬條句子;通用語料來自小說、散文、報(bào)紙和網(wǎng)頁，共包含139萬條句子。對(duì)于不同的詞典單元，我們使用SRILM工具包訓(xùn)練相應(yīng)的3元語言模型。在構(gòu)建語言模型時(shí)，首先，我們分別用標(biāo)注文本和通用語料訓(xùn)練電話談話領(lǐng)域的語言模型和通用語言模型，然后，通過線性插值的方法把它們合并為最終的語言模型。插值系數(shù)通過最小化電話談話領(lǐng)域文本的困惑度得到。

4 實(shí)驗(yàn)結(jié)果和分析

4.1 不同詞典單元對(duì)應(yīng)的識(shí)別性能

在文獻(xiàn)［13］中，Hain從文本中選擇最頻繁的55K詞語作為英語電話交談式語音識(shí)別系統(tǒng)的詞表大小。我們將55K視為語音識(shí)別任務(wù)的典型詞表大小。在第3節(jié)描述的電話談話語料和通用語料中共有不同詞形736K。我們使用第2節(jié)提到的方法對(duì)詞語進(jìn)行基于形態(tài)分析和基于統(tǒng)計(jì)的分解，得到語料的語素表示形式和統(tǒng)計(jì)子詞表示形式。語素語料中共有不同單元491K，統(tǒng)計(jì)子詞語料中共有不同單元279K。我們從詞語文本中選擇最高頻的55K，150K和200K個(gè)單元構(gòu)成詞典，實(shí)現(xiàn)3套基于詞語的識(shí)別系統(tǒng);我們分別從語素文本和統(tǒng)計(jì)子詞文本中選擇55K個(gè)單元構(gòu)成詞典，實(shí)現(xiàn)基于語素和統(tǒng)計(jì)子詞的識(shí)別系統(tǒng)各一套。表2給出了這些識(shí)別系統(tǒng)在1 h電話交談式語音測(cè)試集上的集外詞(out of vocabulary，OOV)比例和音素錯(cuò)誤率。根據(jù)文獻(xiàn)［14］，對(duì)于詞語系統(tǒng)，OOV指詞典中未包含的詞語在測(cè)試集里所占的比例;對(duì)于語素或統(tǒng)計(jì)子詞系統(tǒng)，OOV指無法由詞典中的單元連接而成的詞語在測(cè)試集里所占的比例。根據(jù)文獻(xiàn)［2］，我們使用音素錯(cuò)誤率作為評(píng)價(jià)識(shí)別器性能的指標(biāo)。

表2 不同詞典單元對(duì)應(yīng)的識(shí)別結(jié)果Tab.2 Experiment results of different lexicon units

對(duì)于詞語系統(tǒng)，當(dāng)詞典大小從55K增加到150K時(shí)，測(cè)試集上的OOV從18.6%下降到13.0%，音素錯(cuò)誤率從45.9%下降到45.5%。詞典大小為200K的詞語系統(tǒng)在測(cè)試集上的音素錯(cuò)誤率為45.4%，與150K詞語系統(tǒng)的結(jié)果沒有顯著差別。這些結(jié)果說明，在構(gòu)建基于詞語的維吾爾語語音識(shí)別系統(tǒng)時(shí)，適用于英語或漢語系統(tǒng)的典型詞典大小不能充分覆蓋測(cè)試語音。擴(kuò)大詞典規(guī)?？梢越档驮~語系統(tǒng)的OOV，從而使音素錯(cuò)誤率得到一定的降低。

當(dāng)詞典大小選擇55K時(shí)，與詞語系統(tǒng)相比，語素系統(tǒng)在測(cè)試集上獲得了1.1%的音素錯(cuò)誤率下降，統(tǒng)計(jì)子詞系統(tǒng)獲得了1.2%的音素錯(cuò)誤率下降，這些結(jié)果均超過200K詞語系統(tǒng)0.5%的音素錯(cuò)誤率下降。語素系統(tǒng)和統(tǒng)計(jì)子詞系統(tǒng)的識(shí)別結(jié)果之間沒有顯著差別。實(shí)驗(yàn)結(jié)果表明，與擴(kuò)大詞典規(guī)模相比，將詞語分解為語素或統(tǒng)計(jì)子詞能更有效地降低測(cè)試集上的OOV，提高系統(tǒng)的識(shí)別性能。

4.2 語素-統(tǒng)計(jì)子詞聯(lián)合系統(tǒng)的識(shí)別性能

我們用4.1中實(shí)現(xiàn)的語素系統(tǒng)和統(tǒng)計(jì)子詞系統(tǒng)對(duì)聲學(xué)模型訓(xùn)練數(shù)據(jù)進(jìn)行解碼，然后將識(shí)別結(jié)果與標(biāo)注在音素級(jí)別對(duì)齊，使二者之間的編輯距離最小。我們使用(1)式計(jì)算聲學(xué)模型訓(xùn)練數(shù)據(jù)中每種詞形W在2套識(shí)別結(jié)果中的錯(cuò)誤音素總數(shù)Lmorpheme(W)和Lstatistical(W)。聲學(xué)模型訓(xùn)練數(shù)據(jù)中共包含不同詞形212.3K，其中Lmorpheme(W)＜Lstatistical(W)的詞形有64.4K，Lstatistical(W)＜Lmorpheme(W)的詞形有63.3K，Lmorpheme(W)=Lstatistical(W)的詞形有71.5K。對(duì)于識(shí)別結(jié)果中錯(cuò)誤音素總數(shù)不同的詞形我們選擇L(W)較小的系統(tǒng)對(duì)應(yīng)的分解結(jié)果;對(duì)于L(W)相同或聲學(xué)模型訓(xùn)練數(shù)據(jù)中未出現(xiàn)的詞形，我們既可以選擇基于形態(tài)分析的分解結(jié)果，也可以選擇基于統(tǒng)計(jì)的分解結(jié)果。我們對(duì)無法確定分解方法的詞形分別使用基于形態(tài)分析的分解和基于統(tǒng)計(jì)的分解，實(shí)現(xiàn)2套詞典大小為55K的語素－統(tǒng)計(jì)子詞聯(lián)合系統(tǒng)。我們?cè)?.1中提到的測(cè)試集上進(jìn)行實(shí)驗(yàn)，2套識(shí)別系統(tǒng)對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果如表3所示。

表3 語素－統(tǒng)計(jì)子詞聯(lián)合系統(tǒng)對(duì)應(yīng)的識(shí)別結(jié)果Tab.3 Experiment results of the hybrid systems

從表3的結(jié)果可以看出，對(duì)沒有分解根據(jù)的詞形采用不同處理方式的系統(tǒng)之間識(shí)別結(jié)果無顯著差別。與4.1中性能最好的統(tǒng)計(jì)子詞系統(tǒng)相比，性能最好的語素－統(tǒng)計(jì)子詞聯(lián)合系統(tǒng)使測(cè)試集上的音素錯(cuò)誤率從44.7%下降到43.8%。該結(jié)果表明，2.3節(jié)中的詞典聯(lián)合方法不但保持了語素詞典和統(tǒng)計(jì)子詞詞典對(duì)測(cè)試集覆蓋充分的優(yōu)點(diǎn)，還挑選出了2部詞典中最有利于識(shí)別性能提升的單元。

5 結(jié)束語

在本文中，首先介紹了維吾爾語的黏著性以及由此引發(fā)的詞表大小無限擴(kuò)張的問題。接著我們給出了基于形態(tài)分析和基于統(tǒng)計(jì)的詞語分解方法，可以將詞語分解為語素或統(tǒng)計(jì)子詞。我們分別使用詞語、語素和統(tǒng)計(jì)子詞作為識(shí)別單元構(gòu)建語音識(shí)別系統(tǒng)，在電話交談式語音轉(zhuǎn)寫任務(wù)上對(duì)各系統(tǒng)的性能進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明，語素或統(tǒng)計(jì)子詞的運(yùn)用緩解了詞語系統(tǒng)集外詞過多的問題。在詞典大小為55K時(shí)，與詞語系統(tǒng)相比，語素系統(tǒng)和統(tǒng)計(jì)子詞系統(tǒng)分別獲得了1.1%和1.2%的音素錯(cuò)誤率降低。

語素系統(tǒng)與統(tǒng)計(jì)子詞系統(tǒng)之間存在互補(bǔ)性。為了利用這2種系統(tǒng)各自的優(yōu)勢(shì)，我們提出了根據(jù)2種系統(tǒng)在聲學(xué)模型訓(xùn)練數(shù)據(jù)上的音素錯(cuò)誤率差別進(jìn)行系統(tǒng)聯(lián)合的方法。實(shí)驗(yàn)結(jié)果表明，聯(lián)合詞典不但保持了語素詞典或統(tǒng)計(jì)子詞詞典對(duì)語料覆蓋充分的特點(diǎn)，還降低了詞典單元之間的混淆，從而使系統(tǒng)性能得到進(jìn)一步的提高。在接下來的工作中，我們將進(jìn)一步研究無法從解碼結(jié)果中獲得分解根據(jù)的詞語的處理方法。

［1］SZARVAS M，F(xiàn)URUI S.Finite State Transducer based Modeling of Morphosyntax with Application to Hungarian LVCSR［C］//ICASSP 2003.［s.l.］:Conference Publications，2003:368－371.

［2］HIRSIM?KI T，CREUTZ M，SIIVOLA V，et al.Unlimited Vocabulary Speech Recognition with Morph Language Models Applied to Finnish ［J］.Computer Speech and Language，2006，20(4):515－541.

［3］KWON O，PARK J.Korean Large Vocabulary Continuous Speech Recognition with Morpheme－based Recognition Units［J］.Speech Communication，2003，39(3－4):287－300.

［4］HACIOGLU K，PELLOM B.On Lexicon Creation for Turkish LVCSR ［C］//Eurospeech 2003.［s.l.］:Conference Publications，2003:1165－1168.

［5］ARISOY E，DUTˇAGACI H，ARSLAN L M.A Unified Language Model for Large Vocabulary Continuous Speech Recognition of Turkish ［J］.Signal Process，2006，86(10):2844－2862.

［6］SAK H，SARA?LAR M，GüNG?R T.Morphology－based and Sub－word Language Modeling for Turkish Speech Recognition ［C］.//ICASSP 2010. ［s.l.］:Conference Publications，2010:5402－5405.

［7］早克熱·卡德爾，艾山·吾買爾，吐爾根·依布拉音，等.維吾爾語名詞構(gòu)形詞綴有限狀態(tài)自動(dòng)機(jī)的構(gòu)造［J］. 中文信息學(xué)報(bào)，2009，23(6):116－121.ZAOKERE K，AISHAN W，TUERGEN Y，et al.Uyghur Noun Inflectional Suffix DFA Generation［J］.Journal of Chinese Information Processing，2009，23(6):116－121.

［8］阿孜古麗·夏力甫，早克熱·卡德爾，吐爾根·依布拉音.維吾爾語動(dòng)詞體范疇的有限狀態(tài)自動(dòng)機(jī)的構(gòu)建［J］. 中文信息學(xué)報(bào)，2012，26(4):61－65.ARZUGUL X，ZOKRE K，TURGHUN Y.Generating the Finite State Machines of Uyghur Verb Aspect Categories［J］.Journal of Chinese Information Processing，2012，26(4):61－65.

［9］TURSUN N，SILAMU W.Large Vocabulary Continuous Speech Recognition in Uyghur:Data Preparation and Experimental Results［C］//ISCSLP 2008.［s.l.］:Conference Publications，2008:1－4.

［10］BEESLEY K R，KARTTUNEN L.Finite State Morphology［M］.Stanford，CA，USA:CSLI Publications，2003.

［11］CREUTZ M，LAGUS K.Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora U－sing Morfessor 1.0［M］.Helsinki University of Technology:Publications in Computer and Information Science，2005.

［12］易坤琇，高士杰.維吾爾語語法［M］.北京:中央民族大學(xué)出版社，1998.

［13］HAIN T，WOODLAND P C，EVERMANN G，et al.Automatic Transcription of Conversational Telephone Speech［J］.IEEE Trans on Acoustics，Speech，and Signal Processing，2005，13(6):1173－1185.

［14］ARISOY E，CAN D，PARLAK S，et al.Turkish Broadcast News Transcription and Retrieval［J］.IEEE Trans on Acoustics，Speech，and Signal Processing，2009，17(5):874－883.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡