国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于條件隨機(jī)場的穩(wěn)健口語理解研究?

2016-10-30 02:26程露紅黃浩馬平
關(guān)鍵詞:穩(wěn)健性語義口語

程露紅,黃浩,馬平

(新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046)

0 引言

一個(gè)典型的人機(jī)對話系統(tǒng)由自動語音識別(Automatic Speech Recognition,ASR)、口語理解(Spoken Language Understanding,SLU)、對話管理(Dialogue Management,DM)以及語音合成(text-to-speech,TTS)四個(gè)部分[1]組成.語音識別將語音信號轉(zhuǎn)換為文字序列,而口語理解則是分析用戶意圖的過程.因此,人機(jī)對話系統(tǒng)的性能不僅依賴于語音識別系統(tǒng),還要取決于口語理解研究的發(fā)展.

國內(nèi)外學(xué)者經(jīng)過幾十年的研究,提出了各種不同的口語理解方法.大體可以分為以下三種:基于規(guī)則的方法、基于數(shù)據(jù)驅(qū)動的方法以及兩者結(jié)合的方法[2].常用的基于規(guī)則的方法有語法分析以及語義分析,也就是確定輸入語句的語法成分和結(jié)構(gòu)以及確定各個(gè)語法成分的意義;而基于統(tǒng)計(jì)的方法有:用隱馬爾可夫模型[3,4](Hidden Markov model,HMM)進(jìn)行語義解析,如AT&T的CHRONUS系統(tǒng);使用概率上下文無關(guān)文法(Probabilistic Context-Free Grammar,PCFG)構(gòu)建模型,如BBN的層級理解模型(Hierarchical Understanding Model HUM);另外還有隱向量狀態(tài)(Hidden Vector State,HVS)模型等等.而兩者結(jié)合的方法能利用規(guī)則方法和數(shù)據(jù)驅(qū)動方法的優(yōu)點(diǎn),通常性能上要優(yōu)于單一的基于規(guī)則或數(shù)據(jù)驅(qū)動的方法.

盡管研究人員在口語理解任務(wù)中進(jìn)行了各種嘗試,但口語理解研究仍然面臨著巨大的挑戰(zhàn),其中之一即為口語理解的穩(wěn)健性.因?yàn)榧词棺詣诱Z音識別技術(shù)在近年來深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的帶動下識別率獲得了極大的改進(jìn),但是自動語音識別過程仍可能出現(xiàn)識別錯誤.因?yàn)榭谡Z也經(jīng)常不符合語法規(guī)則,所以如何改善口語理解的穩(wěn)健性,從而提高口語理解的性能成為解決人機(jī)交互系統(tǒng)問題的熱點(diǎn)問題之一.本文提出了改進(jìn)基于條件隨機(jī)場模型的穩(wěn)健性口語理解的方法,在訓(xùn)練數(shù)據(jù)中人工加入識別錯誤(噪聲)作為輸入并對其標(biāo)注,送入條件隨機(jī)場訓(xùn)練來保證條件隨機(jī)場口語理解模型對噪聲的穩(wěn)健性.用訓(xùn)練后得到的模型文件對帶噪測試集進(jìn)行測試,以提高口語理解的穩(wěn)健性.在漢語的交通信息查詢領(lǐng)域分別進(jìn)行了口語理解實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提出的方法顯著提高了口語理解的穩(wěn)健性.

1 口語理解任務(wù)

1.1 口語理解

口語理解的任務(wù)主要是對語音識別的結(jié)果進(jìn)行處理.分析用戶的意圖,并將其轉(zhuǎn)換成語義表示以方便機(jī)器理解.口語對話系統(tǒng)不同理解任務(wù)中所用的語義表示方式也有所不同.漢語信息查詢領(lǐng)域中,可以用語義框架來表示該領(lǐng)域的語義結(jié)構(gòu).每個(gè)框架中包含幾個(gè)語義槽(slot),每個(gè)語義槽表示當(dāng)前詞所處的狀態(tài).圖1所示就是句子“請問坐公交車從火車站到新疆大學(xué)怎么走”對應(yīng)的語義框架[2].

圖1 例句“請問坐公交車從火車站到新疆大學(xué)怎么走”所對應(yīng)的語義框架

上圖語義框架中[ShowRoute]表示整個(gè)交通路線查詢的框架,[Route]框架表示路線,其中包含了3個(gè)語義槽,[Origin]代表出發(fā)地,[Dest]表示目的地,[Transtype]表示所使用的交通工具.通過框架和語義槽,可以清楚的將用戶的意圖表示出來并交由機(jī)器進(jìn)行下一步的處理.在簡單口語對話系統(tǒng)中,用框架和語義槽可以直觀表現(xiàn)出語音識別的結(jié)果,但在一些比較復(fù)雜的系統(tǒng)中,用框架和語義槽是不適合的.如[Dest],當(dāng)目的地是一個(gè)很長的短語句子“勝利路新疆大學(xué)本部”的時(shí)候,就需要在[Dest]內(nèi)部再進(jìn)行詳細(xì)劃分,整個(gè)過程會比較麻煩.本文引入IBO策略,B表示整個(gè)模塊的開始,I是該模塊的延續(xù),O是該模塊外詞.用 floc表示出發(fā)地,tloc表示目的地.則短語句子“勝利路新疆大學(xué)本部”可以表示為“B-tloc,I-tloc,I-tloc”.

1.2 基于條件隨機(jī)場的口語理解

本文采用條件隨機(jī)場作為口語理解模型.2001年Lafferty[5]等人在最大熵模型與隱馬爾可夫模型的基礎(chǔ)上,結(jié)合二者特點(diǎn)提出了一個(gè)用來解決序列標(biāo)注等問題的概率模型–條件隨機(jī)場(CRF,Conditional Random Fields).條件隨機(jī)場是一種無向圖模型,其最簡單的形式是線性的條件隨機(jī)場,也就是模型中每個(gè)節(jié)點(diǎn)之間都形成線性結(jié)構(gòu),如圖2所示.一個(gè)鏈性的條件隨機(jī)場等效為一個(gè)有限狀態(tài)機(jī),對線性序列標(biāo)注有很好的效果.目前條件隨機(jī)場在中文分詞[6]、實(shí)體命名識別[7]、詞性標(biāo)注[8]等方面都表現(xiàn)出了良好的性能.對于口語理解而言,如果將一句話當(dāng)作序列來處理,那么,口語理解的問題可以用條件隨機(jī)場的預(yù)測序列來解決.例如,在問路系統(tǒng)中,可以記一個(gè)中文問路句子X=(請問,坐,公交車,從,火車站,到,新疆大學(xué),怎么走),Y可以表示成句子中每個(gè)詞的狀態(tài)序列即Y=(O,O,B-bus,B-From,B- floc,B-To,B-tloc,O).條件隨機(jī)場模型不僅克服了隱馬爾科夫模型的強(qiáng)獨(dú)立性假設(shè),而且不具有最大熵馬爾科夫模型的標(biāo)注偏置(Label Bias)問題.

圖2中,我們將觀察序列作為條件隨機(jī)場的輸入條件,過程中沒有對X做任何的獨(dú)立性假設(shè),因此輸入序列的元素間并不存在圖的結(jié)構(gòu).于是在給定輸入序列X的情況下對應(yīng)的輸出序列為:

圖2 線性鏈狀結(jié)構(gòu)的條件隨機(jī)場圖模型

其中,fk是特征函數(shù),λk是對應(yīng)fk的權(quán)重,t是當(dāng)前標(biāo)記,Z(X)是歸一化函數(shù).給定訓(xùn)練數(shù)據(jù)X和人工標(biāo)記Y,條件隨機(jī)場的訓(xùn)練過程通過調(diào)整參數(shù)λk來最大化條件概率P(Y|X).在建立了統(tǒng)計(jì)模型之后,當(dāng)給定口語輸入X時(shí),口語理解任務(wù)就是求最適合的Y?使得概率P(Y|X)最大,由于Z(X)與Y是不相關(guān)的,因此所要求的Y?可以用以下式子表示:

求解最優(yōu)解Y?可以用維特比動態(tài)優(yōu)化算法[9],就可以得到所需要的最優(yōu)口語理解輸出序列,具體方法可參見文獻(xiàn)[9].

1.3 模型參數(shù)的優(yōu)化

給定一組訓(xùn)練數(shù)據(jù)集D={(o,l)1,...(o,l)i...(o,l)N}其中oi表示第i個(gè)詞被條件隨機(jī)場所預(yù)測的狀態(tài),li表示該詞的實(shí)際狀態(tài).條件隨機(jī)場的訓(xùn)練目標(biāo)是最大化該訓(xùn)練集D的似然對數(shù):

式中的第二項(xiàng)是高斯先驗(yàn)值,用于特征參數(shù)的平滑處理.本文采用L-BFGS[10]算法對目標(biāo)函數(shù)進(jìn)行優(yōu)化求解.假定第i個(gè)訓(xùn)練目標(biāo)的標(biāo)注使它的狀態(tài)序列不產(chǎn)生二義性,用mi表示產(chǎn)生該狀態(tài)的路徑,那么似然對數(shù)LΛ的一階導(dǎo)數(shù)為:

式中Ck(m|o)表示特征fk在路徑m不同位置的和,式中前兩項(xiàng)相當(dāng)于特征fk的經(jīng)驗(yàn)期望值E(fk)與模型期望值EΛ(fk)的差,可以用動態(tài)規(guī)劃算法計(jì)算得出.

2 穩(wěn)健性口語理解

2.1 口語理解模塊的建立

使用條件隨機(jī)場的口語理解系統(tǒng)框架構(gòu)建過程如圖3所示.

2.2 純凈文本條件下的口語理解

無噪聲標(biāo)注的語義文本對條件隨機(jī)場進(jìn)行訓(xùn)練之后,在測試時(shí)同時(shí)使用無噪聲文本進(jìn)行測試,這時(shí)模型對未知數(shù)據(jù)有很好的口語理解結(jié)果.表1是對句子“你好,請問,從火車站到新疆大學(xué)怎么走?”進(jìn)行語義解碼得到的結(jié)果.訓(xùn)練與測試過程都用的是純凈文本,句子中沒有對理解無關(guān)的字或詞.通過訓(xùn)練后的模型文件對測試集的測試性能較好.

圖3 基于條件隨機(jī)場口語理解研究的模型框架

2.3 噪聲文本條件下的口語理解

2.3.1 純凈數(shù)據(jù)訓(xùn)練模型對噪聲數(shù)據(jù)的口語理解結(jié)果

如前所述,口語往往是是病態(tài)、不合語法的,我們通過對口語對話中的語句進(jìn)行分析,總結(jié)了口語中存在許多對理解無關(guān)的字或詞,語氣詞、否定詞如“呃,嗯,不對……”等等,這些字或詞在句中對口語理解往往會造成一定的干擾從而造成口語理解錯誤.

表2是通過訓(xùn)練后的模型文件對句子“你好,請問,從火車站,呃,到新疆大學(xué)怎么走?”進(jìn)行口語理解得到的結(jié)果.可以看出,口語中的不合語法的成分往往會對口語理解造成一定的干擾.

表1 無噪聲訓(xùn)練模型對無噪聲測試數(shù)據(jù)的口語理解結(jié)果

表2 無噪聲訓(xùn)練模型對噪聲數(shù)據(jù)的口語理解結(jié)果

2.3.2 加入噪聲數(shù)據(jù)訓(xùn)練的穩(wěn)健口語理解方法

基于以上分析,本文在條件隨機(jī)場的訓(xùn)練過程中人工加入錯誤文本噪聲,直接將一些不常出現(xiàn)的字或詞作為噪聲處理,在訓(xùn)練過程中強(qiáng)制標(biāo)記為“O”,如:

純凈文本訓(xùn)練數(shù)據(jù):

請問坐公交車從人民廣場到水上樂園怎么走

O O B-bus B-From B- floc B-To B-tloc O

人工加入噪聲文本的訓(xùn)練數(shù)據(jù):

請問坐公交車從人民廣場呃 到 水上樂園 怎么走

O O B-bus B-From B- floc O B-To B-tloc O

同樣如表1中的問題,人工加入錯誤文本噪聲訓(xùn)練后,“呃”作為無關(guān)因素處理被強(qiáng)制標(biāo)記為“O”,在CRFs參數(shù)優(yōu)化之后會在未知數(shù)據(jù)上測試時(shí)對該類噪聲數(shù)據(jù)進(jìn)行口語理解時(shí)會自動將其標(biāo)注為“O”,如表3所示.經(jīng)過處理,在測試過程中句子中的無關(guān)因素如“呃”等,會被自動識別為“O”,不參與口語理解問題的下一步處理,改善了口語理解的穩(wěn)健性.句子“你好,請問,從火車站,呃,到新疆大學(xué)怎么走?”經(jīng)過測試得到結(jié)果如表3所示.表2中“呃”在測試過程中被識別成“I- floc”,而表3中“呃”被識別成無關(guān)因素,符合了本實(shí)驗(yàn)的設(shè)計(jì)思想.

表3 噪聲訓(xùn)練模型對噪聲數(shù)據(jù)的口語理解結(jié)果

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)配置

實(shí)驗(yàn)數(shù)據(jù)收集了問路網(wǎng)上的城市交通問路語句7 714句以及在校園內(nèi)學(xué)生中收集的校園問路語句1 050句.在所收集的語料庫中隨機(jī)取7 014句作為訓(xùn)練集,1 750句作為測試集.實(shí)驗(yàn)開始前,首先對語料進(jìn)行預(yù)處理:分詞并去除標(biāo)點(diǎn)符號,然后對處理后的文本以詞為特征項(xiàng)用序列的方式進(jìn)行標(biāo)注.用條件隨機(jī)場訓(xùn)練得到的模型文件對測試集的標(biāo)注進(jìn)行預(yù)測.為了評測實(shí)驗(yàn)最終的效果,本文使用準(zhǔn)確率(Precision)、召回率(Recall)及F1值這三個(gè)指標(biāo)來表示,公式如下:

為了比較不同特征時(shí)的效果,本實(shí)驗(yàn)分別選取了3組不同的特征模板(表4)作對比.其中U01,U02...表示特征種類的標(biāo)號.以下每個(gè)模板都是由%x[列偏移,行位置]來表示輸入詞的一個(gè)特征.如%x[-1,0]表示當(dāng)前所預(yù)測詞特征的前一個(gè)特征,%x[0,0]表示當(dāng)前所預(yù)測詞的特征標(biāo)注,%x[-1,0]/%x[0,0]表示前一個(gè)特征標(biāo)注與當(dāng)前特征標(biāo)注所形成的二元組,%x[-1,1]/%x[0,1]/%x[1,1]表示的是前一個(gè)特征的標(biāo)注、當(dāng)前特征的標(biāo)注與下一個(gè)特征的標(biāo)注所形成的三元組.

表4 特征模板

3.2 實(shí)驗(yàn)結(jié)果

圖4 無噪聲訓(xùn)練模型對噪聲數(shù)據(jù)的準(zhǔn)確率結(jié)果

圖5 噪聲訓(xùn)練模型對噪聲數(shù)據(jù)的準(zhǔn)確率結(jié)果

圖4,5中,橫軸表示的是訓(xùn)練數(shù)據(jù),縱軸表示的是實(shí)驗(yàn)準(zhǔn)確率.其中,圖4是未加入人工文本噪聲時(shí)不同大小的訓(xùn)練數(shù)據(jù)所得到的實(shí)驗(yàn)結(jié)果,圖5是加入了文本噪聲之后所得到的實(shí)驗(yàn)結(jié)果.以上兩圖很明顯可以看出,加入文本噪聲后,實(shí)驗(yàn)的總體準(zhǔn)確率較之沒有加入噪聲的準(zhǔn)確率要高出不少,驗(yàn)證了該方法的有效性.在4組不同的數(shù)據(jù)大小對比中,模板2的總體準(zhǔn)確率較其余兩個(gè)模板要高,這與表5所得到的結(jié)果一致.同時(shí),從準(zhǔn)確率對比中也可以看出,訓(xùn)練數(shù)據(jù)越大,實(shí)驗(yàn)的準(zhǔn)確率越高.

表5 加入人工噪聲數(shù)據(jù)與未登錄詞的實(shí)驗(yàn)結(jié)果對比

在之前4組實(shí)驗(yàn)的基礎(chǔ)上,本文通過加入未登錄詞另做了一組對比實(shí)驗(yàn).首先選取7 014句的訓(xùn)練樣本、模板2送入條件隨機(jī)場進(jìn)行訓(xùn)練及測試,得到表5所示的實(shí)驗(yàn)結(jié)果.其中,實(shí)驗(yàn)1是直接按照條件隨機(jī)場規(guī)則對語料進(jìn)行標(biāo)注最后測試的結(jié)果,而實(shí)驗(yàn)2在訓(xùn)練過程中人為加入了噪聲數(shù)據(jù)后用實(shí)驗(yàn)1的測試集測試所得到的結(jié)果.可以看出,在訓(xùn)練過程中人工加入噪聲數(shù)據(jù)之后,測試集中的噪聲詞對識別結(jié)果的影響有所降低,也就增加了口語理解的穩(wěn)健性,使得實(shí)驗(yàn)準(zhǔn)確率有所提升.實(shí)驗(yàn)3是在實(shí)驗(yàn)2的基礎(chǔ)上在測試集中增加了未登錄詞,實(shí)驗(yàn)結(jié)果可以看出實(shí)驗(yàn)準(zhǔn)確率并沒有明顯下降,進(jìn)一步表明了本文提出方法的有效性.

4 結(jié)束語

本文提出一種提高口語理解穩(wěn)健性的方法,在條件隨機(jī)場的口語理解模的參數(shù)訓(xùn)練過程中人工加入噪聲數(shù)據(jù)來提高口語理解模型對噪聲詞的穩(wěn)健性.實(shí)驗(yàn)在交通信息查詢領(lǐng)域的口語理解任務(wù)上進(jìn)行,實(shí)驗(yàn)結(jié)果表明訓(xùn)練過程中噪聲數(shù)據(jù)的引入的模型能夠明顯提高口語理解的穩(wěn)健性,且準(zhǔn)確率提高了4.6%.而在測試集中加入未登錄詞時(shí),而準(zhǔn)確率并沒有明顯下降,進(jìn)一步表明了所提出方法的有效性.

猜你喜歡
穩(wěn)健性語義口語
語言與語義
會計(jì)穩(wěn)健性的定義和計(jì)量
酒中的口語詩
會計(jì)穩(wěn)健性的文獻(xiàn)綜述
提高口語Level 讓你語出驚人
批評話語分析中態(tài)度意向的鄰近化語義構(gòu)建
“社會”一詞的語義流動與新陳代謝
口語對對碰
貨幣政策、會計(jì)穩(wěn)健性與銀行信貸關(guān)系探析
“吃+NP”的語義生成機(jī)制研究