国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模態(tài)特征的越南語語音識別文本標(biāo)點恢復(fù)

2024-03-21 02:25:08王文君余正濤高盛祥
計算機(jī)應(yīng)用 2024年2期
關(guān)鍵詞:越南語標(biāo)點標(biāo)點符號

賴 華,孫 童,王文君,余正濤,高盛祥*,董 凌

(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500;2.云南省人工智能重點實驗室(昆明理工大學(xué)),昆明 650500)

0 引言

自動語音識別系統(tǒng)將輸入的語音轉(zhuǎn)錄為一段連續(xù)的文本序列,但輸出文本不包含標(biāo)點符號?,F(xiàn)有語音識別數(shù)據(jù)集的轉(zhuǎn)錄文本鮮有包含標(biāo)點符號,因此很難在語音識別模型中直接輸出帶有標(biāo)點符號的文本。然而,標(biāo)點符號是語言中一個重要組成部分,具有表示停頓、語氣和詞語性質(zhì)的作用。標(biāo)點符號有助于分句和分詞處理,提高機(jī)器翻譯(Machine Translate,MT)和命名實體識別(Named Entity Recognition,NER)等任務(wù)的準(zhǔn)確率[1],對語音翻譯、自動問答等語音識別的后續(xù)任務(wù)有較大影響,因此,通用的語音識別系統(tǒng)都需要級聯(lián)標(biāo)點恢復(fù)模型恢復(fù)語音識別模型輸出的文本標(biāo)點。

對于中、英等富資源語言,語音識別系統(tǒng)已取得較好識別效果,SOTA(State-of-the-art)模型[2-3]的詞錯率低至2.85%,識別文本質(zhì)量較高。在此基礎(chǔ)上,研究者們利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5-6]等方式作為后處理模型用于恢復(fù)語音識別文本標(biāo)點,取得了較好的效果。

目前面向越南語的語音識別系統(tǒng)由于訓(xùn)練數(shù)據(jù)相對較少,識別效果仍不理想,越南語SOTA 模型(https://github.com/vietai/ASR)的詞錯率高達(dá)10.77%,識別模型輸出的文本中常包含對文本語義造成災(zāi)難性破壞的錯誤音節(jié)、字詞等。有研究者利用條件隨機(jī)場(Conditional Random Field,CRF)[7]、Transformer[1]等方式作為后處理模型恢復(fù)越南語語音識別文本標(biāo)點,然而這些模型僅使用了文本作為特征輸入,單純利用文本特征對目標(biāo)標(biāo)點符號做預(yù)測,對上述語義混亂的情況不能很好地處理。在語音識別系統(tǒng)輸出帶噪聲數(shù)據(jù)的情況下,模型對目標(biāo)標(biāo)點的預(yù)測能力不強(qiáng)。如表1 所示,越南語語音中的多個單詞被錯誤識別,由于聲調(diào)相近,名詞“(頭暈)”被錯誤識別為動詞“(面向)”“tình(愛)”被錯誤識別為“rtình(錯誤單詞)”,導(dǎo)致語義被破壞,面臨著帶噪文本的上下文信息難以被模型有效學(xué)習(xí)的問題,基于文本單一模態(tài)的標(biāo)點恢復(fù)模型無法對“”作出正確標(biāo)點預(yù)測。

表1 錯誤文本對標(biāo)點恢復(fù)模型的影響實例Tab.1 Example for effect of incorrect text on punctuation recovery model

語音中包含較豐富的停頓、語調(diào)信息,能幫助降低標(biāo)點恢復(fù)模型在輸入文本質(zhì)量不高情況下的混淆程度,增強(qiáng)模型對目標(biāo)標(biāo)點的預(yù)測能力。預(yù)訓(xùn)練語言模型預(yù)先訓(xùn)練大量無標(biāo)簽語料,語言理解能力和魯棒性較強(qiáng)。因此,本文基于預(yù)訓(xùn)練語言模型融合音頻特征提出多模態(tài)特征越南語語音識別文本標(biāo)點恢復(fù)方法:使用預(yù)訓(xùn)練語言模型作為文本編碼器,以提取文本特征,并在標(biāo)點標(biāo)簽特征的引導(dǎo)下將文本特征與相應(yīng)的轉(zhuǎn)錄語音特征融合,利用多模態(tài)融合特征預(yù)測含噪聲的文本序列標(biāo)點符號。根據(jù)Sun 等[8]的研究,逗號(COMMA)、句號(PERIOD)在日常用語中的占比遠(yuǎn)大于其他標(biāo)點符號,并且在將其他標(biāo)點符號轉(zhuǎn)換為逗號或句號后同樣能有效消歧,不會產(chǎn)生新的歧義;而問號(QUESTION MARK)代表疑問句,具有明顯不同的語義傾向。本文結(jié)合越南語的語言特點及越南語標(biāo)點恢復(fù)的實際應(yīng)用場景,旨在進(jìn)一步優(yōu)化越南語識別文本,消除歧義、提高可讀性,因此本文僅研究逗號、句號和問號的標(biāo)點恢復(fù),模型對輸入序列中每個空格處預(yù)測一個標(biāo)點符號標(biāo)簽,其中沒有標(biāo)點符號的位置預(yù)設(shè)為“空格(SPACE)”。

本文的主要工作如下:

1)使用預(yù)訓(xùn)練語言模型對輸入文本特征建模,提高標(biāo)點恢復(fù)模型的語言理解能力。

2)利用原始轉(zhuǎn)錄音頻的特征分布挖掘音頻中影響標(biāo)點符號的隱式信息,融合多模態(tài)聯(lián)合特征預(yù)測標(biāo)點符號,提升含噪聲數(shù)據(jù)的標(biāo)點預(yù)測精確率。

3)以目標(biāo)標(biāo)點標(biāo)簽特征為指導(dǎo),充分利用標(biāo)簽特征分布知識,引導(dǎo)模型更有效地融合文本-音頻模態(tài),從而對目標(biāo)標(biāo)點符號作出正確預(yù)測。

1 相關(guān)工作

語音識別文本標(biāo)點恢復(fù)工作被研究者廣泛探索。早期的標(biāo)點恢復(fù)工作被定義為“不可見詞事件檢測”,通過使用n-gram 模型[9]、隱馬爾可夫模型[10]等方法對單一標(biāo)點符號做出預(yù)測;隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的發(fā)展,標(biāo)點恢復(fù)任務(wù)被定義為序列生成式任務(wù),模型根據(jù)輸入序列生成一段帶有標(biāo)點符號的文本或一段完整的標(biāo)點符號序列[11-12]。近些年,多數(shù)研究工作將標(biāo)點恢復(fù)定義為序列標(biāo)注任務(wù),利用DNN[13-14]預(yù)測輸入序列的每個詞標(biāo)簽,輸出一個與輸入序列等長的標(biāo)簽序列。研究者使用CRF[15-18]結(jié)合DNN 編碼器預(yù)測輸入序列的目標(biāo)標(biāo)點符號,Tilk 等[4]提出將循環(huán)神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的標(biāo)點恢復(fù)方法,實現(xiàn)了對序列邊界的準(zhǔn)確檢測和對逗號、句號及問號三種標(biāo)點符號的準(zhǔn)確預(yù)測。?elasko 等[5]針對對話場景下的文本標(biāo)點恢復(fù)進(jìn)行優(yōu)化,實驗驗證了CNN 相較于雙向長短期記憶(Bidirectional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)有更高的預(yù)測準(zhǔn)確率、召回率和F1 值。Tündik 等[6]在詞級別CNN上構(gòu)造標(biāo)點恢復(fù)系統(tǒng)。Shi 等[19]引入英語詞性標(biāo)注的輔助模塊,引導(dǎo)模型獲取更豐富的語法知識,在英語標(biāo)點恢復(fù)上實現(xiàn)較好效果。

然而,針對低資源語種,特別是越南語語音識別文本標(biāo)點恢復(fù)的研究工作相對較少。Pham 等[7]使用CRF 對專家設(shè)計的一系列文本特征直接分類標(biāo)注,實現(xiàn)模型對文本標(biāo)點符號的預(yù)測。Pham 等[20]在小說、新聞數(shù)據(jù)集上探索了Bi-LSTM 網(wǎng)絡(luò)在標(biāo)點恢復(fù)任務(wù)上的有效性,實驗結(jié)果表明CRF 在文本標(biāo)點恢復(fù)上具有局限性。Nguyen 等[1]使用Transformer 解碼器結(jié)合CRF 分類層,通過“大寫恢復(fù)、標(biāo)點恢復(fù)”多任務(wù)聯(lián)合訓(xùn)練的方式,在越南語文本標(biāo)點恢復(fù)上各項指標(biāo)達(dá)到SOTA(State-Of-The-Art)值;但多任務(wù)聯(lián)合訓(xùn)練存在一定的空間不匹配、錯誤傳遞問題,模型預(yù)測準(zhǔn)確率存在提升空間。Tran 等[21]探索了基于Transformer 結(jié)構(gòu)的預(yù)訓(xùn)練模型在越南語標(biāo)點恢復(fù)上的有效性。綜上所述,目前標(biāo)點恢復(fù)工作更多關(guān)注如何有效提取文本語義特征,忽略了文本對應(yīng)的音頻中隱式包含的標(biāo)點符號信息。當(dāng)輸入文本包含一定噪聲的情況下,模型單純依賴于文本表征對目標(biāo)位置的標(biāo)點符號作預(yù)測通常偏差較大。

針對上述問題,本文提出融合多模態(tài)特征的越南語語音識別文本標(biāo)點恢復(fù)方法。使用預(yù)訓(xùn)練語言模型提取文本語義特征,融合轉(zhuǎn)錄語音的特征分布,在標(biāo)簽分布知識指導(dǎo)下融合文本-音頻特征,使用多模態(tài)聯(lián)合特征對標(biāo)點符號作預(yù)測,增強(qiáng)模型對含噪聲數(shù)據(jù)的語義理解能力和標(biāo)點預(yù)測能力。

2 本文方法

本文融合文本語義特征和對應(yīng)轉(zhuǎn)錄語音的特征,借助分類標(biāo)簽特征分布預(yù)測恢復(fù)越南語語音識別文本序列的標(biāo)點符號。本文模型結(jié)構(gòu)如圖1 所示。

圖1 本文模型結(jié)構(gòu)Fig.1 Architecture of proposed model

模型包含文本-音頻特征建模、多模態(tài)聯(lián)合特征構(gòu)造和基于特征分布知識指導(dǎo)的標(biāo)點符號預(yù)測解碼器這3 個模塊。模型輸入為以空格作為分隔符的越南語語音轉(zhuǎn)錄文本序列和轉(zhuǎn)錄文本對應(yīng)的原始音頻,文本中不包含任何標(biāo)點符號,輸出為對應(yīng)每個音節(jié)后應(yīng)該添加的標(biāo)點標(biāo)簽序列,以空格作為分隔符。模型輸入和輸出序列表示如下:

1)輸入序列{X|x1,x2,…,xm},其中:xi表示第i個文本,m為文本長度。

2)音頻序列{A|audio1,audio2,…,audion},其中:audioi為xi對應(yīng)的音頻幀片段,長度取決于xi的持續(xù)時間,n為音頻幀數(shù)(n>m)。

3)輸出序列{L|al1,al2,…,alm},其中:ali表示第xi個文本后應(yīng)該添加的標(biāo)點標(biāo)簽,m為預(yù)測標(biāo)簽序列長度。

2.1 文本-音頻特征分布建模

音頻與文本屬于不同模態(tài)。音頻幀數(shù)遠(yuǎn)大于文本長度,且與文本不同,音頻幀連續(xù)性更強(qiáng),邊界特征不明顯。根據(jù)序列標(biāo)注任務(wù)輸入輸出序列等長的特點,本文以文本長度作為模型的輸入長度,將音頻幀序列與文本序列粗粒度對齊,得到每個單詞對應(yīng)的音頻幀序列片段。將連續(xù)音頻離散化處理,得到對應(yīng)文本序列的特征長度。經(jīng)過對齊處理,文本序列{X|x1,x2,…,xi}可以得到{A|audio1,audio2,…,audioi}個 音頻幀序列。例如:文本序列在音頻對齊后的結(jié)果如表2 所示。

表2 對文本序列進(jìn)行音頻對齊后的結(jié)果示例Tab.2 Result examples after audio alignment of text sequence

人工設(shè)計的音頻特征如梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)能將語音中包含的能量、音高和停頓等對標(biāo)點符號有較大影響的信息轉(zhuǎn)換為數(shù)學(xué)化描述,是目前較為通用的音頻特征提取手段。本文采用MFCC 提取文本對應(yīng)的音頻片段特征。對于音頻A,對A中的i個音頻片段分別提取特征,得到特征分布{fa|fa1,fa2,…,fai}。由于音頻對齊片段時長不同,此時序列fa中每個特征矩陣的長度不同。日??谡Z中,說話人單個音節(jié)的語氣聲調(diào)通常一致,傳達(dá)的情感含義基本不變,fa中的每個特征矩陣對應(yīng)輸入序列中的一個音節(jié),對fa的每個特征片段在長度上取方差值,近似代表該音節(jié)的語氣傾向等音頻信息,得到長度為文本序列長度、嵌入空間維度為80的音頻特征矩陣

越南語BERT(Bidirectional Encoder Representations from Transformers)中的自注意力機(jī)制能有效處理全局信息,詞語間距離縮小為1,更容易獲取遠(yuǎn)距離文本內(nèi)部的依賴關(guān)系,尋找定位序列中的核心詞匯,相較于RNN 表現(xiàn)出更強(qiáng)的編碼能力。對于模型輸入的文本序列{X|x1,x2,…,xi},首先將大寫字母經(jīng)過處理全部替換為小寫,然后使用越南語BERT分詞器(Tokenizer)將文本轉(zhuǎn)為詞表id,對于詞表中未登錄詞使用代替。對輸入序列提取文本特征后得到一個特征矩陣{ft|fx1,fx2,…,fxi}。

2.2 多模態(tài)特征構(gòu)造

文本特征ft由越南語BERT 提取得到,音頻在經(jīng)過對齊、壓縮等操作后得到聲學(xué)特征分布,同時與相應(yīng)的轉(zhuǎn)錄文本在長度上對齊。文本特征ft與音頻特征fa' 只在詞嵌入維度上不同,其余維度保持相同,在詞嵌入維度上拼接得到混合特征{fcon|fc1,fc2,…,fci}:

其中⊕代表特征矩陣在詞嵌入維度上的拼接。

2.3 基于標(biāo)簽特征分布指導(dǎo)的標(biāo)點符號預(yù)測解碼器

本文基于Bi-LSTM 結(jié)合Label Attention 構(gòu)建改進(jìn)的基于特征分布知識指導(dǎo)的標(biāo)點符號預(yù)測網(wǎng)絡(luò),相較于傳統(tǒng)模型的“序列編碼層+標(biāo)簽推理層”結(jié)構(gòu),本文使用多個“Bi-LSTM+Label Attention”塊結(jié)構(gòu)堆疊的方式同時作為序列特征編碼器和目標(biāo)標(biāo)簽預(yù)測器。本文基于上述改進(jìn)的Label Attention 機(jī)制顯式地利用標(biāo)簽嵌入捕獲潛在的輸入特征分布與目標(biāo)特征分布之間的依賴關(guān)系,通過賦予每個輸入特征分布更細(xì)致化的標(biāo)簽特征分布和層級化的注意力機(jī)制,能充分利用預(yù)訓(xùn)練語言模型編碼得到的上下文語義特征,以及MFCC 編碼原始音頻得到的隱式音頻特征信息,從而對音節(jié)對應(yīng)的目標(biāo)標(biāo)點符號作出更準(zhǔn)確的預(yù)測。

2.3.1 標(biāo)簽詞嵌入

越南語的標(biāo)點符號使用規(guī)則與英語相同,根據(jù)Sun 等[8]的研究工作,逗號和句號在日常使用中占比更大,同時問號代表整句的疑問語氣,對句義的作用較重要,因此,本文模型對逗號、句號、問號和空格(代表無標(biāo)點符號)作出預(yù)測。對于目標(biāo)標(biāo)簽{L|l1,l2,l3,l4},本文使用詞嵌入層(Embedding Layer)提取目標(biāo)標(biāo)點符號序列特征,得到標(biāo)簽特征{Eli|El1,El2,…,El4},標(biāo)簽詞嵌入層在訓(xùn)練階段隨機(jī)初始化并隨模型訓(xùn)練一起更新參數(shù)。

其中el代表標(biāo)簽詞嵌入層。

2.3.2 標(biāo)簽注意力

每個“Bi-LSTM+Label Attention”塊結(jié)構(gòu)包含1 個Bi-LSTM子層和1 個Label Attention 子層。其中,最上層的Bi-LSTM 為標(biāo)準(zhǔn)結(jié)構(gòu),以2.2 節(jié)中描述的多模態(tài)分類特征作為輸入;其他塊結(jié)構(gòu)中的Bi-LSTM 子層使用上層Label Attention 的注意力得分與2.2 節(jié)中描述的多模態(tài)分類特征的殘差連接作為輸入:

Label Attention 使用多頭交叉注意力(Multi-head Cross Attention)機(jī)制,在多模態(tài)分類特征子空間與標(biāo)簽特征分布子空間內(nèi)進(jìn)行信息編碼。其中,多模態(tài)分類特征分布經(jīng)過Bi-LSTM 子層后的隱狀態(tài)hl作為注意力機(jī)制中的Q矩陣,標(biāo)簽特征分布作為K,V矩陣,計算得到注意力得分ALAN:

其中dh=dmodel/heads。

最終前層隱狀態(tài)Hl-1與注意力得分ALAN組成的殘差連接作為LAN(Label Attention Network)的輸出:

在最下層塊結(jié)構(gòu)中,Label Attention 子層作為目標(biāo)標(biāo)簽預(yù)測器,它的注意力得分輸出長度與輸入文本序列長度一致,搜索空間維度與標(biāo)簽特征分布空間一致,使用貪心算法解碼得到輸入序列對應(yīng)的標(biāo)點符號序列{L|al1,al2,…,alm}。

3 實驗與結(jié)果分析

3.1 實驗設(shè)置

3.1.1 數(shù)據(jù)集設(shè)置

本文使用互聯(lián)網(wǎng)獲取的音頻-文本平行越南語數(shù)據(jù)集,總計10 000 平行句對,數(shù)據(jù)集文本中包含了真實場景下的標(biāo)點符號。按9∶1 拆分為訓(xùn)練集和測試集。語音識別文本標(biāo)點恢復(fù)主要目的是對轉(zhuǎn)錄文本進(jìn)行分句,實現(xiàn)有效消歧,以提高文本可讀性和后續(xù)任務(wù)的準(zhǔn)確度。根據(jù)Sun等[8]的研究,在數(shù)據(jù)預(yù)處理階段,將數(shù)據(jù)集中的引號、冒號、分號映射為逗號,嘆號映射為句號,保留問號不變,刪除其他類別的標(biāo)點符號,并還原縮寫單詞為原單詞。數(shù)據(jù)集的具體設(shè)置如表3所示。

表3 越南語數(shù)據(jù)集設(shè)置Tab.3 Vietnamese datasets setting

3.1.2 參數(shù)設(shè)置

本文使用Hugging Face 中基于Pytorch的預(yù)訓(xùn)練語言模型BERT-base-vietnamese-uncased 作為越南語的編碼器。訓(xùn)練過程中,使用Adam 作為模型參數(shù)優(yōu)化器,學(xué)習(xí)率設(shè)置為5 × 10-5。所有的模型均使用一張Tesla T4 完成訓(xùn)練,訓(xùn)練批次大?。╞atch size)均設(shè)置為最大化利用顯存。測試階段,為保證與以往文本標(biāo)點恢復(fù)工作的可比性,本文使用精確率(Precision,P)、召回率(Recall,R)和F1值(F1)作為評價指標(biāo)。采用Tilk等[4]使用的評價算法,并在所有模型中保持一致。

3.2 融合音頻特征的越南語標(biāo)點恢復(fù)實驗

為驗證所提方法在越南語標(biāo)點恢復(fù)任務(wù)上的有效性,本文在越南語數(shù)據(jù)集上做實驗,分別對比使用傳統(tǒng)RNN、使用預(yù)訓(xùn)練語言模型進(jìn)行語義建模以及融合原始音頻特征的標(biāo)點恢復(fù)結(jié)果,各模型介紹如下:

1)Punctuator2[4]。使用RNN提取文本特征,對特征計算注意力得分,使用線性層推測與輸入序列等長的標(biāo)點符號序列。

2)Transformer CRF[1]。使用Transformer 解碼器結(jié)合CRF分類層直接預(yù)測越南語文本序列的標(biāo)點符號。

3)VietPunc[21]。使用基于預(yù)訓(xùn)練語言模型建模文本,Bi-LSTM+CRF 作為解碼器預(yù)測目標(biāo)標(biāo)點符號。

4)Transformer Linear。本文工作,使用帶有自注意力機(jī)制的Transformer 作為編碼器,將編碼后的隱狀態(tài)經(jīng)由線性層直接預(yù)測標(biāo)點符號序列。

5)BERT Linear。本文工作,使用預(yù)訓(xùn)練語言模型BERT提取文本特征,經(jīng)由線性層直接預(yù)測標(biāo)點符號序列。

6)BERT MFCC LAN。本文工作,在BERT MFCC 的基礎(chǔ)上,引入標(biāo)簽特征分布知識,將線性分類層替換為Bi-LSTM+Label Attention 塊結(jié)構(gòu)堆疊,在分類目標(biāo)特征分布指導(dǎo)下利用多模態(tài)融合特征對目標(biāo)標(biāo)點符號作出預(yù)測。

表4 展示了各模型在越南語文本標(biāo)點恢復(fù)上的實驗結(jié)果。從表4 可以看出,傳統(tǒng)基于RNN 并單純依賴于文本特征的標(biāo)點恢復(fù)模型對逗號、問號出現(xiàn)無法擬合現(xiàn)象,在句號的預(yù)測上性能也不佳,顯示傳統(tǒng)方法在有限的越南語文本數(shù)據(jù)上模型難以收斂?;陬A(yù)訓(xùn)練語言模型并使用Bi-LSTM 結(jié)合CRF 作為解碼器的VietPunc 模型,由于受到訓(xùn)練資源不足、訓(xùn)練數(shù)據(jù)分布不平衡等因素的影響,模型整體性能不佳,對問號等不常見標(biāo)點符號的預(yù)測效果較差。在Transformer的兩組實驗中,使用基于自注意力機(jī)制的Transformer 作為編碼器的模型在特定指標(biāo)上得到2~3 個百分點的提升,但受制于較為簡單的解碼器結(jié)構(gòu),特別是以全連接線性層(Linear)作為解碼層的實驗中,模型無法擬合問號,出現(xiàn)無法預(yù)測的nan 現(xiàn)象,并且對逗號、句號的召回率較低。在使用BERT 作為編碼器的實驗中,單純依賴文本特征作出預(yù)測的模型相較于Transformer 模型表現(xiàn)出5~10 個百分點的性能提升,表明預(yù)訓(xùn)練語言模型對理解句義起到了一定的作用。BERT Linear 組實驗中,由于疑問句的語法結(jié)構(gòu)與陳述句差異較大,在文本上具有較明顯的特點,模型能通過文本特征學(xué)習(xí)更多關(guān)于問號的特征分布,所以實驗中使用文本特征對問號的預(yù)測取得更高的召回率。在融合音頻特征的實驗中,本文方法對逗號、句號預(yù)測的精確率、召回率和F1 值均得到至少10 個百分點的提升,對問號的預(yù)測精確率也達(dá)到最優(yōu)。分析是由于在語音層面上,逗號、句號通常表現(xiàn)為明顯的、不同時長的語音靜默,在融合轉(zhuǎn)錄音頻特征后,模型能夠有效對音頻中隱式包含的標(biāo)點符號信息加以利用,從而更有效地區(qū)分逗號、句號等標(biāo)點符號,對目標(biāo)位置的標(biāo)點符號作出正確的預(yù)測。對問號的預(yù)測召回率出現(xiàn)降低現(xiàn)象,本文觀察結(jié)果后發(fā)現(xiàn),模型將更多問號位置預(yù)測為句號,原因在于音頻中問號與句號的靜默時間相近,而訓(xùn)練數(shù)據(jù)中問號的占比相對較低,模型更容易輸出靜默時間相近但更常見的句號。但本文方法在語音特征的融合下有效學(xué)習(xí)到了噪聲文本中問號的上下文信息,對問號的精確率仍高于BERT Linear 方法,證明了本文方法的有效性,融合語音與文本特征能有效指導(dǎo)模型對帶噪聲文本作出正確標(biāo)點預(yù)測。

表4 越南語融合音頻特征的標(biāo)點恢復(fù)結(jié)果 單位:%Tab.4 Vietnamese punctuation restoration results fused with audio features unit:%

3.3 消融實驗

為了進(jìn)一步明確語音特征、預(yù)訓(xùn)練語言模型和標(biāo)簽特征分布知識對文本標(biāo)點恢復(fù)的影響,本文設(shè)計了消融實驗。所有超參數(shù)的調(diào)節(jié)均在測試集上完成,所有模型使用多次采樣后的最高值作對比。

3.3.1 預(yù)訓(xùn)練語言模型對文本標(biāo)點恢復(fù)的有效性

為驗證越南語BERT 在文本語義建模上的有效性,本文在不考慮音頻特征的前提下,將模型文本特征提取器更換為標(biāo)準(zhǔn)的Transformer 結(jié)構(gòu),使用線性層作為模型預(yù)測層。實驗結(jié)果如表4 所示。實驗結(jié)果顯示,在使用預(yù)訓(xùn)練語言模型對文本特征提取后,模型F1 值提升至60%,召回率提升至58%,表明預(yù)訓(xùn)練語言模型具有較強(qiáng)的語義理解能力,在低資源條件下能對輸入文本序列進(jìn)行更有效的語義建模,提升對標(biāo)點符號位置檢測的召回率和精確率。

3.3.2 融合語音特征對文本標(biāo)點恢復(fù)的有效性

為驗證文本對應(yīng)轉(zhuǎn)錄音頻中隱含信息對語音識別文本標(biāo)點恢復(fù)的作用,修改上述“BERT MFCC LAN”模型,去除模型中音頻特征編碼器、多模態(tài)特征融合部分,最終標(biāo)簽注意力層僅使用文本特征預(yù)測標(biāo)點符號。實驗結(jié)果如表5所示。

表5 音頻特征消融實驗結(jié)果 單位:%Tab.5 Ablation experiment results of audio features unit:%

實驗結(jié)果顯示,融合音頻特征后,模型在預(yù)測精確率、召回率以及F1 值上得到了近18 個百分點的性能提升。音頻中隱式包含的標(biāo)點符號停頓信息被模型有效學(xué)習(xí),一定程度上提升模型的標(biāo)點預(yù)測能力。

3.3.3 標(biāo)簽特征分布知識對文本標(biāo)點恢復(fù)的有效性

為明確標(biāo)簽特征分布知識對多模態(tài)特征融合的指導(dǎo)作用,以及在語音識別文本標(biāo)點恢復(fù)上的有效性,修改“BERT MFCC LAN”模型,替換LAN 結(jié)構(gòu)為全連接線性分類層,基于多模態(tài)融合特征直接對目標(biāo)標(biāo)點符號作出預(yù)測。實驗結(jié)果如表6 所示。

表6 標(biāo)簽特征分布消融實驗結(jié)果 單位:%Tab.6 Ablation experiment results of label feature distribution unit:%

表6 實驗結(jié)果顯示,引入標(biāo)簽注意力作為模型解碼模塊后,模型性能達(dá)到最優(yōu),實現(xiàn)至少15 個百分點的性能提升。外部標(biāo)簽特征分布知識能有效指導(dǎo)文本-音頻多模態(tài)特征的融合,從不同方向縮短輸入文本序列嵌入空間與目標(biāo)標(biāo)點符號嵌入空間之間的距離。基于外部標(biāo)簽特征分布知識指導(dǎo)的標(biāo)點預(yù)測網(wǎng)絡(luò)能夠有效捕捉到多模態(tài)特征分布中的標(biāo)點符號信息,提升模型的標(biāo)點預(yù)測能力。

3.4 標(biāo)點符號預(yù)測樣例分析

為展示引入外部標(biāo)簽知識指導(dǎo)對標(biāo)點恢復(fù)模型性能提升的有效性,本文對模型推理過程中的標(biāo)簽注意力矩陣進(jìn)行可視化,圖2、3 展示了實驗結(jié)果與模型最終層的解碼注意力矩陣。

實驗結(jié)果顯示,使用LAN 作為解碼器的模型在對逗號、句號的預(yù)測精確率和召回率上均達(dá)到最優(yōu)值。對于圖3 的輸入文本中“trên thaothu hú(t在迷人的體育場上)”是越南語典型的“形容詞后置”現(xiàn)象,注意力機(jī)制使模型能有效關(guān)注“hút”后的逗號;同樣的情況出現(xiàn)在“này”后,模型出現(xiàn)一定的混淆現(xiàn)象,在結(jié)合音頻信號中明顯的靜默停頓信息后,模型對句號給出更高的權(quán)重值,作了正確的預(yù)測。整體上看,模型解碼層的注意力機(jī)制學(xué)習(xí)到句子結(jié)構(gòu)對于標(biāo)點符號的影響,對句號、問號這類代表句子終止的標(biāo)點符號給予了更少的關(guān)注權(quán)重,從而有效避免了對逗號、句號的混淆預(yù)測。

圖3 標(biāo)簽注意力得分可視化矩陣Fig.3 Visualisation matrix of label attention score

4 結(jié)語

本文針對依賴文本表征的標(biāo)點恢復(fù)模型不適應(yīng)含噪聲輸入、標(biāo)點預(yù)測能力不強(qiáng)的問題,提出了融合預(yù)訓(xùn)練文本特征和音頻特征的越南語語音識別文本標(biāo)點恢復(fù)方法。實驗結(jié)果表明,本文方法在越南語數(shù)據(jù)集上相較于基線模型有至少10 個百分點的性能提升。基于越南語BERT 預(yù)訓(xùn)練模型的文本編碼器有助于標(biāo)點恢復(fù)模型更好地對文本進(jìn)行表征,對含噪聲的輸入具有更強(qiáng)的魯棒性;通過融合音頻與文本特征分布能夠使模型有效獲取語音中影響著標(biāo)點符號預(yù)測的隱含信息,避免噪聲對輸入文本語義的災(zāi)難性破壞,提升了預(yù)測精確率;引入目標(biāo)標(biāo)簽詞嵌入并利用交叉注意力機(jī)制在目標(biāo)標(biāo)簽特征分布空間內(nèi)捕獲輸入序列與輸出序列之間的遠(yuǎn)距離依賴關(guān)系,進(jìn)一步提升模型的語義理解能力和標(biāo)點預(yù)測能力。未來將更深入探索音頻與文本特征的有效融合方法,提升低資源語言語音識別文本標(biāo)點恢復(fù)的性能。

猜你喜歡
越南語標(biāo)點標(biāo)點符號
標(biāo)點可有可無嗎
納蘇彝語越南語親屬稱謂特征及其文化內(nèi)涵異同研究
《遼史》標(biāo)點辨誤四則
小小標(biāo)點真厲害
我們班的“標(biāo)點符號”
小讀者(2020年4期)2020-06-16 03:34:06
標(biāo)點符號爭吵記
快樂語文(2017年12期)2017-05-09 22:07:56
標(biāo)點符號的爭論
漢語經(jīng)歷體標(biāo)記“過”及其在越南語中的對應(yīng)形式
現(xiàn)代漢語與越南語存在句否定形式與情態(tài)特征的比較研究
有趣的標(biāo)點
岐山县| 含山县| 华阴市| 吉林省| 微博| 潞西市| 筠连县| 南召县| 枞阳县| 加查县| 永春县| 闻喜县| 秦安县| 高密市| 子洲县| 板桥市| 丹东市| 焦作市| 江达县| 礼泉县| 黑龙江省| 陆丰市| 富川| 阜新市| 晋中市| 定远县| 阿拉善盟| 凤城市| 武安市| 吉木乃县| 于田县| 理塘县| 莱西市| 肃北| 嵊泗县| 榆林市| 长岭县| 惠来县| 行唐县| 诸城市| 滁州市|