基于端到端深度學(xué)習(xí)的藏語(yǔ)語(yǔ)音識(shí)別研究

2023-11-14 08:05高耀榮邊巴旺堆

現(xiàn)代計(jì)算機(jī) 2023年17期

高耀榮，邊巴旺堆

（西藏大學(xué)信息科學(xué)技術(shù)學(xué)院，拉薩 850000）

0 引言

全球現(xiàn)有語(yǔ)言數(shù)量約為7000 種，大多數(shù)自動(dòng)語(yǔ)音識(shí)別工作處理的是擁有大型語(yǔ)料庫(kù)的語(yǔ)言，如普通話(huà)、英語(yǔ)和日語(yǔ)等。而對(duì)于小語(yǔ)種，如藏語(yǔ)，使用人數(shù)相比大語(yǔ)種要少，若使用基于傳統(tǒng)語(yǔ)音識(shí)別方法如DNN-HMM［1］，則需準(zhǔn)備發(fā)音詞典且對(duì)藏語(yǔ)有深入了解，因此也導(dǎo)致了藏語(yǔ)語(yǔ)音識(shí)別的處理工作所需門(mén)檻更高［2］。在藏語(yǔ)語(yǔ)系中分衛(wèi)藏方言、安多方言、康巴方言，三者有共性也有區(qū)別，其中衛(wèi)藏方言主要在西藏中部人口最密集的地方使用，因此本文選用衛(wèi)藏方言作為研究對(duì)象。

傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)要求聲學(xué)模型、語(yǔ)言模型和發(fā)音字典。而如今藏語(yǔ)信息處理在進(jìn)行現(xiàn)代化變遷［3-4］。近年來(lái)，端到端網(wǎng)絡(luò)［5］的出現(xiàn)降低了實(shí)現(xiàn)語(yǔ)音識(shí)別的前期準(zhǔn)備門(mén)檻，其由編碼器和解碼器構(gòu)成，編碼器相當(dāng)于特征提取器，解碼器基于編碼器搜索最優(yōu)解，只需準(zhǔn)備語(yǔ)音和文本，即可實(shí)現(xiàn)語(yǔ)音到文本的直接轉(zhuǎn)換。此外，端到端網(wǎng)絡(luò)提供了更廣泛的建模單元選擇，也據(jù)此提出了很多端到端模型，如鏈接時(shí)序分類(lèi)技術(shù)［6］、基于注意力的LAS［7］（Listen, Attend and Spell）模型。

不同的端到端網(wǎng)絡(luò)各有優(yōu)缺點(diǎn)，本文通過(guò)聯(lián)合基于鏈接時(shí)序分類(lèi)（connectionist temporal classification，CTC）和注意力機(jī)制（Attention）模型，以此融合了CTC 自動(dòng)對(duì)齊和Attention［8］建立上下文聯(lián)系的優(yōu)點(diǎn)，引入聯(lián)合參數(shù)λ對(duì)CTC 和Attention 分配不同的權(quán)重。并且以Transformer作為編碼器提取全局特征。因此，本文建立Transformer-CTC/Attention 模型應(yīng)用于藏語(yǔ)語(yǔ)音識(shí)別。

1 基于藏文特點(diǎn)的語(yǔ)音建模

藏文作為拼音文字，由30 個(gè)輔音字母和4個(gè)元音字母組合而成。類(lèi)似中文，一個(gè)藏文字通常為一個(gè)音節(jié)，而每個(gè)音節(jié)之間由音節(jié)符“?”來(lái)分割。藏文一個(gè)音節(jié)的結(jié)構(gòu)分七部分，分別包括前加字、上加字、輔音、下加字、元音、后加字和再后加字，最基礎(chǔ)的結(jié)構(gòu)只有輔音，而最復(fù)雜的結(jié)構(gòu)如圖1所示。

圖1 藏文結(jié)構(gòu)

語(yǔ)音識(shí)別的建模單位的選取需要與發(fā)音結(jié)構(gòu)相聯(lián)系，傳統(tǒng)藏語(yǔ)語(yǔ)音識(shí)別以音素為建模單元，并需準(zhǔn)備音素與文字轉(zhuǎn)換關(guān)系的發(fā)音字典。如今隨著算力和深度網(wǎng)絡(luò)學(xué)習(xí)能力的提升，已無(wú)需選擇較小建模單位如音素，Zhou 等［9］探究了五種不同建模單位（音素、音節(jié)、詞、子詞和漢字）對(duì)普通話(huà)語(yǔ)音識(shí)別的效果，實(shí)驗(yàn)結(jié)果表明基于漢字的模型效果最好，由于藏文字通常為一個(gè)音節(jié)的特點(diǎn)，即一個(gè)藏文字可看成是一個(gè)發(fā)音單元，所以本文選取以字為識(shí)別單位。如這一句???????????????????????（扎西德勒）識(shí)別順序則為“???”“?????”“?????”“??????”，此種方式對(duì)應(yīng)著以字為識(shí)別單位的中文語(yǔ)音識(shí)別［9］或以單詞為識(shí)別單位的英語(yǔ)語(yǔ)音識(shí)別，并都得到優(yōu)秀的識(shí)別率。

2 Transformer模型

Transformer［10］由Decoder 和Encoder 組成，即編碼器-解碼器。其中在每個(gè)Decoder 和Encoder 中采用Attention 機(jī)制，加強(qiáng)了信息的關(guān)聯(lián)性，給更重要的信息更多關(guān)注度。其中，多頭注意力機(jī)制可以無(wú)需考慮距離關(guān)注輸入序列不同位置之間的關(guān)系，可以更容易獲取全局信息，在語(yǔ)義特征提取能力和長(zhǎng)距離特征捕捉能力方面優(yōu)于傳統(tǒng)的LSTM模型［11］。

Transformer 也被廣泛應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域，2018 年，Dong 等［12］就首次把Transformer 模型應(yīng)用于ASR 中，而Huang 等［13］通過(guò)限制自注意力的學(xué)習(xí)范圍研究流式的Transformer 語(yǔ)音識(shí)別網(wǎng)絡(luò)，流式語(yǔ)音識(shí)別是語(yǔ)音數(shù)據(jù)實(shí)時(shí)傳入而識(shí)別文本結(jié)果實(shí)時(shí)輸出，對(duì)比非流式語(yǔ)音識(shí)別需要更快的解碼速度。Transformer 結(jié)構(gòu)如圖2 所示，Transformer 包含多組的Encoder 和Decoder，每個(gè)Encoder 包含三層，分別是self-Attention、Layer Norm 和Feed Forward；而Decoder 的Attention 則為兩級(jí)，第一級(jí)self-Attention 的輸入信息來(lái)自前一層Decoder 的輸出結(jié)果，第二級(jí)Encoder-Decoder Attention 的輸入信息來(lái)自前一層Decoder 和Encoder 的輸出結(jié)果，從而結(jié)合輸入和輸出的信息。其輸入信息來(lái)自整個(gè)結(jié)構(gòu)，可以建立輸入語(yǔ)音特征和識(shí)別結(jié)果之間的序列對(duì)應(yīng)關(guān)系，所以本質(zhì)上還是端到端的結(jié)構(gòu)。

圖2 Transformer結(jié)構(gòu)

圖3 CTC結(jié)構(gòu)

2.1 Positiioonnaall Encooddiinngg

圖2 中Positional Encoding 即位置編碼，由于Transformer 引入了self-Attention 機(jī)制，self-Attention 對(duì)輸入的token 無(wú)法分辨信息的相對(duì)位置信息，則需給輸入的位置作標(biāo)記。在本文輸入語(yǔ)音之前，學(xué)習(xí)語(yǔ)音特征的位置信息，并疊加到輸入Embedding中，該位置信息的獲取是獨(dú)立的，不需要依賴(lài)前后遞歸或卷積操作。位置編碼的公式為

其中：PE是語(yǔ)音的位置向量，pos為每個(gè)輸入語(yǔ)音的實(shí)際位置，i表示是第幾個(gè)元素，dmodel是語(yǔ)音向量的維度，sin 和cos 交替編碼位置，既保存語(yǔ)音實(shí)際位置信息也可得到語(yǔ)音的相對(duì)位置信息。

2.2 self-Attennttiioonn

Transformer 的核心是self-Attention，注意力函數(shù)相當(dāng)于通過(guò)一組鍵值對(duì)將查詢(xún)的向量映射到輸出，并通過(guò)加權(quán)和得到輸出。我們將查詢(xún)、鍵和值分別表示為Q,K和V，self-Attention 具體公式如下：

其中：dk是矩陣K的列數(shù)，在原始實(shí)現(xiàn)的基礎(chǔ)上，通過(guò)Scale 操作對(duì)QKT除以dk開(kāi)平方，以避免值過(guò)大導(dǎo)致softmax函數(shù)梯度很小、很難優(yōu)化。經(jīng)過(guò)注意力函數(shù)的輸出結(jié)果Z的每一行Zi表示一個(gè)位置的結(jié)果，這個(gè)位置對(duì)應(yīng)輸入語(yǔ)音特征序列X的某一幀Xi，且這個(gè)位置輸出結(jié)果還包含了其他幀Xj的信息，公式如下：

由上述公式可知，輸出結(jié)果包含了句子上下信息，即不僅關(guān)注當(dāng)前語(yǔ)音的幀，也能獲取語(yǔ)音前后其他幀的信息，這些信息的重要性通過(guò)Attention 機(jī)制調(diào)節(jié)。在此基礎(chǔ)上引入多頭注意力（Multihead Attention）機(jī)制，即可取多組的Q、K和V進(jìn)行計(jì)算。

3 CTC/Attention模型

3.1 鏈接時(shí)序分類(lèi)

輸入的語(yǔ)音序列存在靜音、重復(fù)的情況，因此一般語(yǔ)音序列是比實(shí)際文本序列要長(zhǎng)的。而鏈接時(shí)序分類(lèi)（CTC）可以實(shí)現(xiàn)自動(dòng)對(duì)齊輸出標(biāo)簽和輸入序列，不需要像DNN-HMM［1］那樣需要對(duì)齊標(biāo)注。CTC 假定輸入符號(hào)是相互獨(dú)立的，輸出序列X和輸出序列Y是按時(shí)間順序單調(diào)對(duì)齊，在輸入序列X={x1,x2,…,xT}和輸出序列Y={y1,y2,…,yT}之間建立了多對(duì)一的鏈接，然后通過(guò)動(dòng)態(tài)規(guī)劃來(lái)解決序列對(duì)齊問(wèn)題，從而實(shí)現(xiàn)語(yǔ)音和文本的匹配。

CTC 引入空白標(biāo)簽“blank”表示靜音的情況，即輸出序列Y′=Y∪{“blank”}，把出現(xiàn)此情況的標(biāo)簽替換為“blank”，而在識(shí)別的最后則需要?jiǎng)h去空白標(biāo)簽。假設(shè)建模單元序列為Q，CTC 的識(shí)別目標(biāo)是讓輸入序列X和輸出序列Y吻合，即式（4）的概率P(Y|X)盡可能大，CTC 損失公式（5）盡可能小，其中的P(Q|X)相當(dāng)于聲學(xué)模型，描述了語(yǔ)音與建模單元的關(guān)系。

3.2 注意力機(jī)制

基于Attention 的Encoder-Decoder，可以看成是端到端架構(gòu)的改進(jìn)版，在Encoder和Decoder之間通過(guò)Attention 機(jī)制銜接，使得Decoder 的輸出與Encoder有了注意力權(quán)重，結(jié)構(gòu)如圖4所示。

圖4 Attention結(jié)構(gòu)

本文Attention 的Encoder 為T(mén)ransformer，Transformer 的輸出作為Attention 的輸入，即Transformer 相當(dāng)于是聲學(xué)模型提取語(yǔ)音特征。而Attention 的Decoder 結(jié)構(gòu)設(shè)定為L(zhǎng)STM，最后的輸出為將LSTM 隱藏層的當(dāng)前狀態(tài)hu通過(guò)Softmax 函數(shù)得到。因此，最終輸出是計(jì)算預(yù)測(cè)標(biāo)簽和輸入序列的概率分布，相當(dāng)于是語(yǔ)言模型。

網(wǎng)絡(luò)中Attention 機(jī)制的輸入是Encoder 的輸出序列，通過(guò)公式計(jì)算注意力權(quán)重建立輸出序列和輸入序列的對(duì)齊關(guān)系。

其中，αu-1,t是注意力權(quán)重，公式如下：

其中，eu-1,t表示解碼器輸出與編碼器輸出的原始注意力分?jǐn)?shù)。

3.3 聯(lián)合CTC/Attennttiioonn

CTC 可以實(shí)現(xiàn)對(duì)齊輸入序列和輸出標(biāo)簽，但是若建模單元為互相獨(dú)立，沒(méi)有考慮到標(biāo)簽之間的組合關(guān)系，即沒(méi)有語(yǔ)言模型，則會(huì)導(dǎo)致識(shí)別準(zhǔn)確率不高。而Attention 機(jī)制通過(guò)注意力權(quán)重建立標(biāo)簽各種組合的可能性，但輸出序列和輸入序列不一定按順序嚴(yán)格對(duì)齊。因此，將CTC 和Attention 結(jié)合起來(lái)構(gòu)建聯(lián)合CTC/Attention模型，Attention 融入CTC 自動(dòng)對(duì)齊的優(yōu)點(diǎn)，可以避免解碼時(shí)對(duì)齊過(guò)于隨機(jī)，提高識(shí)別率。

根據(jù)端到端結(jié)構(gòu)，先提取語(yǔ)音Fbank 特征向量作為編碼器Transformer 的輸入，CTC 和Attention 共為解碼器，編碼器的輸出被二者共享，最后通過(guò)聯(lián)合解碼輸出，具體結(jié)構(gòu)如圖5所示。CTC/Attention 模型的訓(xùn)練是多任務(wù)學(xué)習(xí)，模型的損失其實(shí)就是CTC loss 和Attention loss 的加權(quán)求和，引入λ為聯(lián)合參數(shù)取值范圍為[0,1]，損失計(jì)算公式如下：

圖5 Transformer-CTC/Attention 模型

4 實(shí)驗(yàn)結(jié)果且分析

4.1 實(shí)驗(yàn)參數(shù)

對(duì)語(yǔ)音使用kaldi 工具提取80 維的Fbank 特征作為模型輸入，窗長(zhǎng)為25 ms，窗移為10 ms。其中每幀添加0.1的隨機(jī)噪聲系數(shù)。

本文Transformer 的多頭注意力頭數(shù)為4 個(gè)，encoder 塊有12 個(gè)，decoder 塊有6 個(gè)，每個(gè)塊的參數(shù)獨(dú)立，采用ReLU作為激活函數(shù)，dropout系數(shù)為0.1。使用自適應(yīng)矩估計(jì)Adam 優(yōu)化器，既能適應(yīng)稀疏梯度，又能緩解梯度震蕩。采用warmup steps 為5000 的warmup lr 學(xué)習(xí)策略訓(xùn)練，設(shè)定學(xué)習(xí)率為0.002，訓(xùn)練160輪。

4.2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

為驗(yàn)證模型的有效性，實(shí)驗(yàn)選取Zhao 等［14］公開(kāi)的包含30 小時(shí)的衛(wèi)藏藏語(yǔ)語(yǔ)音數(shù)據(jù)集TIBMD@MUC。語(yǔ)音為16 KHz 的WAV 格式，訓(xùn)練集和測(cè)試集分別為27 小時(shí)和3 小時(shí)。基于前文所訴的建模單元選取方法，對(duì)此數(shù)據(jù)集藏語(yǔ)文本進(jìn)行處理，得到2857 個(gè)建模單元，其中表示靜音，表示未識(shí)別相應(yīng)內(nèi)容，表示語(yǔ)音的開(kāi)頭和結(jié)尾。

本次藏語(yǔ)語(yǔ)音識(shí)別任務(wù)以詞識(shí)錯(cuò)率（word error rate，WER）［15］作為評(píng)價(jià)標(biāo)準(zhǔn)，其中S代表替換的字?jǐn)?shù)量，D代表刪除的字?jǐn)?shù)量，I代表插入的字?jǐn)?shù)量，N代表總的字?jǐn)?shù)量。WER值越小越好。具體公式如下:

4.3 實(shí)驗(yàn)結(jié)果及分析

為驗(yàn)證聯(lián)合CTC/Attention 的有效性，先研究CTC 和Attention 分別在藏語(yǔ)語(yǔ)音識(shí)別的效果，設(shè)置λ= 1 和λ= 0 分別表示Transformer-CTC 和Transformer-Attention 模型。為探究不同聯(lián)合參數(shù)λ的效果，預(yù)先設(shè)置CTC/Attention 模型的聯(lián)合訓(xùn)練參數(shù)λ為0.3、0.5 和0.7，三個(gè)值作對(duì)比分析，經(jīng)過(guò)實(shí)驗(yàn)結(jié)果分析決定再增添訓(xùn)練參數(shù)λ= 0.8作對(duì)比，最終實(shí)驗(yàn)結(jié)果見(jiàn)表1。

表1 語(yǔ)音識(shí)別結(jié)果

實(shí)驗(yàn)結(jié)果表明，相對(duì)于單獨(dú)以CTC 或Attention作為解碼器，聯(lián)合CTC/Attention 模型應(yīng)用在藏語(yǔ)語(yǔ)音識(shí)別中的識(shí)錯(cuò)率都有不同程度的降低，且都優(yōu)于Zhao等［14］的WaveNet-CTC實(shí)驗(yàn)結(jié)果。這是因?yàn)門(mén)ransformer 是基于Attention，而WaveNet 是基于CNN，因此以Transformer 作為聲學(xué)模型可以更好地提取長(zhǎng)序列輸入的全局特征和上下文依賴(lài)。

圖6 和圖7 分別表示CTC、Attention 和聯(lián)合模型CTC/Attention 的損失曲線(xiàn)圖。由圖6 可知，在藏語(yǔ)語(yǔ)音識(shí)別中，Attention 損失相對(duì)CTC 更小，且下降得更快。圖7 結(jié)果表明，聯(lián)合參數(shù)λ越大，即CTC 占比越大，則損失越大且收斂速度更慢。然而結(jié)合表1 實(shí)驗(yàn)結(jié)果，當(dāng)λ= 0.7 的時(shí)候，相對(duì)其他聯(lián)合參數(shù)識(shí)別結(jié)果更好，這是因?yàn)楫?dāng)給予CTC 更大的權(quán)重時(shí)，有助于CTC 階段對(duì)齊更準(zhǔn)確，而即使因此減少了Attention 的權(quán)重，由于Attention 收斂得很快，在足夠的訓(xùn)練次數(shù)上對(duì)Attention本身性能影響不大。

圖6 CTC、Attention訓(xùn)練損失

圖7 CTC/Attention訓(xùn)練損失

5 結(jié)語(yǔ)

藏語(yǔ)語(yǔ)音識(shí)別是尊重民族文化，促進(jìn)民族團(tuán)結(jié)的重要任務(wù)。本文構(gòu)建Transformer-CTC/Attention 端到端模型對(duì)藏語(yǔ)語(yǔ)音識(shí)別進(jìn)行研究。使用藏字作為識(shí)別單位，在Zhao等［14］的藏語(yǔ)語(yǔ)音數(shù)據(jù)集上取得更低的識(shí)錯(cuò)率。證明以藏字為識(shí)別單位和端到端網(wǎng)絡(luò)對(duì)藏語(yǔ)語(yǔ)音識(shí)別的可行性，驗(yàn)證了Transformer-CTC/Attention優(yōu)于WaveNet-CTC網(wǎng)絡(luò)，探究了不同的聯(lián)合參數(shù)λ對(duì)藏語(yǔ)語(yǔ)音識(shí)別的效果。藏語(yǔ)語(yǔ)音識(shí)別目前遇到最大的困難還是未有更大型專(zhuān)業(yè)的藏語(yǔ)語(yǔ)音公開(kāi)數(shù)據(jù)集，基于此問(wèn)題，未來(lái)的研究方向可以引入遷移學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)，從而拓寬學(xué)習(xí)范圍。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡