国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DTW算法的電力調(diào)度語音識別研究和應(yīng)用

2021-03-25 04:18:46王素寧朱俊杰李志勇黃宇星田朝陽陳凱鋒
電力與能源 2021年1期
關(guān)鍵詞:語譜聲學(xué)指令

王素寧,朱俊杰,李志勇,黃宇星,李 琪,田朝陽,陳凱鋒

(1.國網(wǎng)上海市電力公司崇明供電公司,上海 202150;2.東方電子股份有限公司,山東 煙臺 370602)

調(diào)度自動化作為智能電網(wǎng)系統(tǒng)重要的一部分,在人工智能方向的應(yīng)用有大數(shù)據(jù)、云計(jì)算、調(diào)控云等[1-5]。但是在調(diào)度控制系統(tǒng)方面還是采用鍵盤加鼠標(biāo)的傳統(tǒng)交互方式,因此研究新形式的人機(jī)語音交互方式很有必要[6]。人機(jī)語音交互技術(shù)在其他領(lǐng)域應(yīng)用已經(jīng)比較成熟,因此把其應(yīng)用到電網(wǎng)調(diào)度運(yùn)行中具有可行性[7-8]。人機(jī)語音交互首要需要解決的問題就是語音識別技術(shù),電力調(diào)度具有很強(qiáng)的專業(yè)術(shù)語和特殊符號等,同時每個調(diào)度員有自己的說話口音、語序和方式,在相對嘈雜的環(huán)境中如何有效地識別出調(diào)度人員的聲音并準(zhǔn)確完成相對應(yīng)的指令操作尤為重要[9-10]。

語音識別可分為孤立詞識別、連接詞識別和連續(xù)語音識別等[11]。針對語音識別最主要的方法有動態(tài)時間規(guī)整 (Dynamic Time Warping,簡稱DTW)算法、隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)、神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)等[12-15]。本文將采用改進(jìn)的DTW與GMM-HMM算法相結(jié)合完成語音地精準(zhǔn)識別。

1 語音識別系統(tǒng)原理和步驟

1.1 語音識別基本框架

一個語音識別系統(tǒng)框架主要包括:聲學(xué)分析(Signal Analysis)、聲學(xué)模型(Acoustic Model)、詞典(Lexicon)、語言模型(Language Model)、搜索/解碼(Search/Decoding),具體如圖1所示。

圖1 語音識別系統(tǒng)框架

(1)聲學(xué)分析,也稱特征提取,用于提取有用信息,將一段語音幀解析為一個固定維數(shù)的特征向量。常用方法有梅爾頻率倒譜系數(shù)(Mel-frequency cepstral Coefficient,簡稱MFCC)和感知線性預(yù)測系數(shù)(Perceptual Linear Prediction,簡稱PLP)。

(2)聲學(xué)模型:解析聲學(xué)信號,比如將特征向量解析到一個特征的建模單元上,并獲得相應(yīng)的得分,常用算法有動態(tài)時間規(guī)整 (Dynamic Time Warping,簡稱DTW)、人工神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(Artificial Neural Network-Hidden Markov Model,簡稱ANN-HMM)、深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(Deep Neural Network-Hidden Markov Model,簡稱DNN-HMM)等。

(3)詞典:給單詞和發(fā)音提供HMM模型(亞詞)和語言模型間關(guān)聯(lián)。通?;谝羲?,由專家手工完成。

(4)語言模型:提供這部分的先驗(yàn)概率,可以區(qū)分相同發(fā)音時的識別結(jié)果。

(5)搜索/解碼:根據(jù)狀態(tài)系列,在時間狀態(tài)序列(Time-state Trellis)中找到一個最優(yōu)路徑,或者說根據(jù)聲學(xué)模型輸出的結(jié)果,結(jié)合辭典、語言模型信息,找出最有可能的識別結(jié)果。

1.2 語音識別流程

語音識別原理:①首先對聲音進(jìn)行預(yù)處理(預(yù)加重、分幀、加窗和端點(diǎn)檢測);② 再根據(jù)人的語音特點(diǎn)建立語音模型,對輸入的語音信號進(jìn)行分析,并抽取所需的MFCC 特征參數(shù)和基音周期,在此基礎(chǔ)上建立語音識別所需的模板[16-17]。計(jì)算機(jī)在識別過程中要根據(jù)語音識別的模型,將計(jì)算機(jī)中存放的語音模板與輸入語音信號的特征進(jìn)行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入語音匹配的模板。然后根據(jù)此模板的定義,通過查表就可以給出計(jì)算機(jī)的識別結(jié)果。具體流程如圖2所示。

圖2 語音識別流程圖

圖2的左半部分可作為前端,用于處理音頻流,從而分隔可能發(fā)聲的聲音片段,并將它們轉(zhuǎn)換成一系列數(shù)值。聲學(xué)模型就是識別這些數(shù)值,給出識別結(jié)果。圖2的右半邊作為后端,是一個專用的搜索引擎,它獲取前端產(chǎn)生的輸出,在一個發(fā)音模型、一個語言模型、一個詞典這三個數(shù)據(jù)庫進(jìn)行搜索[18-20]。顯然,計(jì)算機(jī)查表取得最優(yōu)的結(jié)果與特征的選擇、語音模型的好壞、模板是否準(zhǔn)確都有直接的關(guān)系。

2 改進(jìn)的DTW算法

2.1 DTW算法原理

同一個人在不同時間段對相同組詞發(fā)音都可能存在差異。這種差異導(dǎo)致音強(qiáng)的大小、頻譜的偏移和音節(jié)長短每次都不完全相同[21]。DTW算法用于比較兩個序列的相似程度,或者說兩個序列的距離。基于動態(tài)規(guī)劃構(gòu)建序列和序列的距離矩陣,具體公式如下:

dp(i)[j]=

(1)

DTW算法最后的輸出結(jié)果就是要找到一條累積距離最小的扭曲曲線,也就是損失矩陣的最后一行最后一列的值,即給定了距離矩陣,如何找到一條從左上角到右下角的路徑,使得路徑經(jīng)過的元素值之和最小。最優(yōu)路徑示意圖見圖3。

圖3 最優(yōu)路徑示意圖

2.2 GMM-HMM算法原理

GMM-Model算法是基于高斯分布,主要通過加權(quán)的方式組合得到。隱馬爾可夫模型(HMM)由Markov(狀態(tài)轉(zhuǎn)移序列) 鏈和每次狀態(tài)轉(zhuǎn)移時轉(zhuǎn)移狀態(tài)和記錄的時間之間組成的信號和狀態(tài)序列兩個隨機(jī)過程組成[21]。HMM 模型在數(shù)學(xué)模型上的符號描述為λ=(π,A,B),如圖4所示。

圖4 HMM示意圖

在語音識別系統(tǒng)中,根據(jù)采集到的語音信號通過相應(yīng)的算法去建立相對應(yīng)的高斯混合模型,結(jié)合GMM算法擬合說話者的語音產(chǎn)生。

(2)

式中xi——D維語音特征矢量;pi(xi)——GMM模型片段概率;ai——相應(yīng)片段概率pi(xi)的權(quán)重;M——GMM算法中的片段數(shù)目。

2.3 DTW算法的優(yōu)化

在語音識別中使用DTW算法進(jìn)行語音相似度比較,將實(shí)時語音指令與指令語音樣本序列號成向量進(jìn)行相似度比較,選取相似度最大的指令語音樣本所對應(yīng)的指令來判斷是否是實(shí)時語音所輸入的指令。通過相似度比較,簡單判斷可以取最近距離的結(jié)果來進(jìn)行判斷,但為了提高準(zhǔn)確率,需要進(jìn)一步對算法進(jìn)行優(yōu)化。

2.3.1 對語音分片和分組

本次研究的輸入指令格式是固定的,每個指令有多少“3U0圖”、“電網(wǎng)精靈”、“通道監(jiān)視圖”等。每個指令的元音輔音個數(shù)是確定的,即語音包絡(luò)的峰谷個數(shù)也是確定的,因此在進(jìn)行語音DTW計(jì)算時不是與所有樣本匹配,同時由于發(fā)音會有長短變化,所以也不能只用時長、峰谷個數(shù)來限定匹配范圍,對于“圖”、“站”是指令中經(jīng)常出現(xiàn)的語音單元,通過對包絡(luò)切片,識別最后一個包絡(luò)如圖5和圖6所示。

圖5 “圖”波形

圖6 “站”波形

2.3.2 路徑權(quán)重優(yōu)化

根據(jù)式(1)計(jì)算出“測試指令”與“指令1”和“指令2”的距離,如圖7和圖8所示。

圖7 測試指令和指令1的距離

圖8 測試指令和指令2的距離

從圖7和圖8可以看出,“測試指令”與“指令1”相似。“測試指令”與“指令1”和“指令2”的距離分別是dq1和dq2。其中,dq1=1.802 776;dq2=1.723 369。dq2更小,這個結(jié)果與實(shí)際不符合。因此,對路徑計(jì)算引入權(quán)重,設(shè)權(quán)重系數(shù)為α。這個α和原算法的距離dp相乘,得到更新后的dp*。基于原算法距離,可以求出dp[i][j],改進(jìn)后dp[i][j]*,的公式如下:

(3)

式中mseqLen——圖中最優(yōu)路徑節(jié)點(diǎn)個數(shù);mcomLen——每段直線路徑對角線個數(shù)。

改進(jìn)后:dq1=0.725 113;dq2=0.861 68。改進(jìn)后“測試指令”和“指令1”距離更小,更符合匹配結(jié)果。

2.3.3 路徑搜索范圍優(yōu)化

同樣的語音指令在穩(wěn)定狀態(tài)有時間長短、振幅差異,總體包絡(luò)形態(tài)相似。因此,在進(jìn)行DTW計(jì)算之前先將峰谷單元進(jìn)行歸一化。即每個峰谷都?xì)w一化成時間長短0.5 s,振幅正負(fù)1的歸一化單元波形。DTW計(jì)算搜索的范圍不對所有點(diǎn)進(jìn)行搜索,集中偏移和對角線鄰居范圍搜索。

2.4 頻譜優(yōu)化及應(yīng)用

頻譜反應(yīng)了說話人聲音器官發(fā)音的頻率范圍,高頻率會在波形中產(chǎn)生更緊密的周期性能量疊加。同時固定的背景噪聲也有固定的頻譜,因此在以下方面進(jìn)行優(yōu)化。

通過語音波形計(jì)算出語譜,然后進(jìn)行二階高斯模糊函數(shù)處理,降低高頻譜分量的權(quán)重,調(diào)整高斯函數(shù)的μ(x的均值),σ(x的方差)來適應(yīng)不同語音速度的模糊處理。例如語音指令,其波形、語譜,高斯模糊處理后的語譜經(jīng)過圖像壓縮后得到語譜hash,如圖9和圖10所示。通過處理后可減少DTW向量匹配個數(shù),“地理圖”可加快匹配速度。

圖9 “地理圖”波形

圖10 語音波形、語譜和hash圖

3 結(jié)語

本文提出了一種基于改進(jìn)的DTW在電力調(diào)度中應(yīng)用的語音識別方法,通過試驗(yàn)表明該方法在電力調(diào)度語音識別中更具有優(yōu)良性。通過在上海崇明電網(wǎng)主配網(wǎng)站一體化的DF8003系統(tǒng)上應(yīng)用,減少了調(diào)控人員的操作,提高了崇明地調(diào)人員的工作效率,可以在上海甚至全國電網(wǎng)調(diào)度推廣。由于本次制作的電力調(diào)度語音庫詞匯有限,針對更復(fù)雜的語音庫需要進(jìn)一步進(jìn)行研究。

猜你喜歡
語譜聲學(xué)指令
聽我指令:大催眠術(shù)
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識別研究
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
ARINC661顯控指令快速驗(yàn)證方法
LED照明產(chǎn)品歐盟ErP指令要求解讀
電子測試(2018年18期)2018-11-14 02:30:34
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
基于時頻域特征的場景音頻研究
語譜圖二次傅里葉變換特定人二字漢語詞匯識別
尼勒克县| 健康| 江口县| 景洪市| 来凤县| 闸北区| 边坝县| 平潭县| 安塞县| 通河县| 古丈县| 永寿县| 安阳市| 高台县| 绥滨县| 佛山市| 岐山县| 朝阳区| 淮安市| 秦皇岛市| 萍乡市| 华容县| 凤山县| 汨罗市| 福建省| 页游| 淅川县| 彰化县| 郸城县| 土默特左旗| 福建省| 毕节市| 柳林县| 宁乡县| 永善县| 肥乡县| 仙游县| 金溪县| 西乌珠穆沁旗| 津市市| 德清县|