国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于單目標(biāo)跟蹤算法的發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)設(shè)計(jì)

2018-07-10 07:20李玉華
現(xiàn)代電子技術(shù) 2018年13期
關(guān)鍵詞:語(yǔ)音識(shí)別發(fā)音

李玉華

摘 要: 傳統(tǒng)發(fā)音校準(zhǔn)系統(tǒng)存在英語(yǔ)發(fā)音校準(zhǔn)準(zhǔn)確率低的問(wèn)題,采用單目標(biāo)跟蹤算法設(shè)計(jì)發(fā)音自動(dòng)校準(zhǔn)系統(tǒng),利用UNIX風(fēng)格子程序?qū)ψ詣?dòng)校準(zhǔn)系統(tǒng)硬件框架進(jìn)行構(gòu)建,遵循內(nèi)高聚合原則分析數(shù)據(jù)資源提取模塊流程。針對(duì)英語(yǔ)發(fā)音信息采集需利用模擬數(shù)字信號(hào)轉(zhuǎn)換來(lái)提高數(shù)據(jù)采樣效率,對(duì)發(fā)音校準(zhǔn)引擎A/D電路進(jìn)行設(shè)計(jì)。采用單目標(biāo)跟蹤算法提取相關(guān)特征,并形成邏輯層。開(kāi)發(fā)嵌入式內(nèi)核結(jié)構(gòu),研究語(yǔ)音識(shí)別代碼。通過(guò)實(shí)驗(yàn)驗(yàn)證可知,該系統(tǒng)英語(yǔ)發(fā)音校準(zhǔn)準(zhǔn)確率高,對(duì)發(fā)音糾正能力較強(qiáng)。

關(guān)鍵詞: 單目標(biāo)跟蹤算法; 發(fā)音; 自動(dòng)校準(zhǔn); A/D電路; 邏輯層; 語(yǔ)音識(shí)別

中圖分類號(hào): TN02?34; TP273 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)13?0151?04

Abstract: The traditional pronunciation calibration system has low accuracy for English pronunciation calibration. Therefore, the single target tracking algorithm is adopted to design the pronunciation automatic calibration system. The UNIX?style subroutine is used to build the hardware framework of the automatic calibration system, which follows the high?polymeric principle to analyze the extraction process of the data resource extraction module. The A/D signal conversion is used for English pronunciation information acquisition to improve the data sampling efficiency, and its circuit is designed. The single target tracking algorithm is adopted to extract the related features to form a logical layer. The embedded kernel structure is developed, and the speech recognition code is studied. The experimental results show that the system has high accuracy for English pronunciation calibration, and strong pronunciation correction ability.

Keywords: single target tracking algorithm; pronunciation; automatic calibration; A/D circuit; logical layer; speech recognition

0 引 言

由于近幾年英語(yǔ)考試模式不斷更新,口試部分進(jìn)行了調(diào)整,只有筆試成績(jī)優(yōu)異的同學(xué)才能進(jìn)行口語(yǔ)考試。傳統(tǒng)考核機(jī)制存在校準(zhǔn)準(zhǔn)確率低的問(wèn)題,對(duì)語(yǔ)言水平能力測(cè)試的公正性產(chǎn)生了很大影響。對(duì)于國(guó)際公司的業(yè)務(wù)往來(lái)需要具有優(yōu)秀口語(yǔ)能力的員工進(jìn)行無(wú)障礙交流,這就要求招聘時(shí)對(duì)員工進(jìn)行口語(yǔ)測(cè)試。公司基本應(yīng)聘要求就是個(gè)人的語(yǔ)言表達(dá)能力要強(qiáng),可通過(guò)群體進(jìn)行直接面試,而口語(yǔ)卻只能一一進(jìn)行,需要較多的人力與物力,無(wú)疑給企業(yè)招聘增加了難度。隨著口語(yǔ)交流障礙問(wèn)題的出現(xiàn),信息技術(shù)的快速發(fā)展可有效解決該問(wèn)題,由此計(jì)算機(jī)輔助學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。利用計(jì)算機(jī)技術(shù)解決口語(yǔ)中出現(xiàn)的問(wèn)題,替代重復(fù)性工作行為[1]。

發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)的設(shè)計(jì)綜合了單目標(biāo)跟蹤算法,使該過(guò)程不用人為參與即可完成校準(zhǔn),并提高英語(yǔ)發(fā)音校準(zhǔn)的準(zhǔn)確率。針對(duì)學(xué)習(xí)者,可通過(guò)該系統(tǒng)進(jìn)行反復(fù)練習(xí),并根據(jù)評(píng)分結(jié)果及時(shí)調(diào)整自己的發(fā)音;針對(duì)大規(guī)??谡Z(yǔ)考試,使用該系統(tǒng)既提高了校準(zhǔn)效果,又提高了考試公正性。因此,發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)對(duì)發(fā)音學(xué)習(xí)和考試都有重要意義。

1 單目標(biāo)跟蹤算法系統(tǒng)設(shè)計(jì)

1.1 數(shù)據(jù)資源提取模塊設(shè)計(jì)

英語(yǔ)發(fā)音具有獨(dú)特技巧,需先了解發(fā)音器官:舌、唇、牙齒、聲帶、鼻腔和口腔。比如:“我喜歡這本書”,漢語(yǔ)主要看口型大小和前后開(kāi)合情況,但是看不到身體形狀變化情況;而英文“I like this book”,除了可以看到嘴巴的張合情況,還能看到胸部有節(jié)奏的呼吸,英語(yǔ)發(fā)音主要靠氣流發(fā)出來(lái),以胸腔進(jìn)行發(fā)音[2]。

針對(duì)這種情況,設(shè)計(jì)音頻文件提取流程,如圖1所示。測(cè)試者可在固定位置進(jìn)行錄音,完成錄音后將數(shù)據(jù)提交給系統(tǒng),系統(tǒng)通過(guò)校準(zhǔn)引擎A/D電路進(jìn)行判定。

1.2 發(fā)音校準(zhǔn)引擎A/D電路設(shè)計(jì)

針對(duì)英語(yǔ)發(fā)音信息采集需要利用模擬數(shù)字信號(hào)轉(zhuǎn)換來(lái)提高數(shù)據(jù)采樣效率,通常情況下采樣效率不小于150 kHz,在語(yǔ)音識(shí)別中,設(shè)計(jì)多頻振蕩器對(duì)發(fā)音準(zhǔn)確性進(jìn)行自動(dòng)校準(zhǔn),而A/D電路轉(zhuǎn)換的校準(zhǔn)是實(shí)現(xiàn)對(duì)英語(yǔ)打印信息模式轉(zhuǎn)換的關(guān)鍵所在,通過(guò)對(duì)該電路原始語(yǔ)音信息進(jìn)行采集與控制,可提高系統(tǒng)自動(dòng)校正數(shù)據(jù)的準(zhǔn)確性[3?4]。利用STM32F10內(nèi)核多頻振蕩器集成智能信息控制A/D采樣,并將數(shù)字信號(hào)處理(DSP)板上的15 V電壓通過(guò)[I2C]總線進(jìn)行電壓加載[5]。通常情況下,在低功耗4通道15位A/D電路轉(zhuǎn)換器上進(jìn)行并行和串行控制,獲取的輸入電壓為:

在發(fā)音準(zhǔn)確性數(shù)據(jù)采集電源設(shè)計(jì)中,將數(shù)字信號(hào)處理(DSP)板上的±15 V電壓兩端分別對(duì)電容進(jìn)行濾波處理。通過(guò)模擬信號(hào)發(fā)射范圍進(jìn)行同步采樣,由此完成系統(tǒng)硬件部分的設(shè)計(jì)。

2 系統(tǒng)軟件設(shè)計(jì)

設(shè)計(jì)系統(tǒng)軟件部分,采用單目標(biāo)跟蹤算法對(duì)各個(gè)候選目標(biāo)區(qū)域?qū)嵤┢ヅ洌ㄎ荒繕?biāo)在校準(zhǔn)序列中的位置。利用跟蹤原理提取相關(guān)特征,獲得目標(biāo)表達(dá)效果,該算法構(gòu)建邏輯層主要包括三個(gè)層次,分別是輸入層、多隱層和輸出層[7]。輸入層主要負(fù)責(zé)將收集的數(shù)據(jù)輸入到系統(tǒng)中,有利于可視化分類;多隱層利用人工神經(jīng)網(wǎng)絡(luò)對(duì)跟蹤數(shù)據(jù)進(jìn)行本質(zhì)刻畫;輸出層主要負(fù)責(zé)對(duì)整合后數(shù)據(jù)輸出,實(shí)現(xiàn)無(wú)監(jiān)督數(shù)據(jù)傳輸[8]。

單目標(biāo)跟蹤算法可遵循人工神經(jīng)網(wǎng)絡(luò)模式,利用目標(biāo)跟蹤來(lái)模仿人腦,通過(guò)對(duì)發(fā)音數(shù)據(jù)特征進(jìn)行組合形成抽象邏輯層。單目標(biāo)跟蹤算法與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)之間的相同點(diǎn)在于都采用分層結(jié)構(gòu)對(duì)邏輯層進(jìn)行構(gòu)建,而不同點(diǎn)在于本文算法采用了三層構(gòu)建模式,是最接近人類大腦的分層結(jié)構(gòu),每一層都可看作一個(gè)邏輯回歸(Logistic Regression)模型,根據(jù)該模型可對(duì)不同層次數(shù)據(jù)進(jìn)行跟蹤,方便系統(tǒng)對(duì)發(fā)音數(shù)據(jù)自動(dòng)收集。單目標(biāo)跟蹤算法邏輯層構(gòu)建如圖3所示。

根據(jù)圖3建立的邏輯層,對(duì)發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)軟件的嵌入式內(nèi)核結(jié)構(gòu)進(jìn)行開(kāi)發(fā),引導(dǎo)程序需調(diào)用說(shuō)話者語(yǔ)音識(shí)別代碼,如下所示:

Generates Settings--->

PPI CAT24WC256 andCMOS EEPROMr--->

[*]downloaded I2C hus transmission protocol

//引導(dǎo)程序負(fù)責(zé)上電時(shí)初始化

DSP input clock CLKIN(PPI_ Philips memnry)--->

( /home/Documents/f automatically increase) XFR_TYPE load-ing I2C E2PROM

*Lash(DMAx_ 256 kb serial E2PROM CMOS)

//lib目錄下提供內(nèi)核

在該代碼基礎(chǔ)上,調(diào)用request_ irq單目標(biāo)跟蹤函數(shù)申請(qǐng)英語(yǔ)發(fā)音自動(dòng)校準(zhǔn),利用freet_ irq單目標(biāo)跟蹤函數(shù)增加內(nèi)部地址[9]。而[I2C]總線校準(zhǔn)控制命令語(yǔ)句為:

#define data transmission rate_pwm"pwm"

int I2C hus standard_MAP()

ret =CAT24WC256_pwm_open(misc)

通過(guò)硬件部分設(shè)計(jì)的A/D轉(zhuǎn)換器進(jìn)行軟件程序的打開(kāi)和關(guān)閉,保證總線數(shù)據(jù)傳輸效率,由此實(shí)現(xiàn)對(duì)發(fā)音準(zhǔn)確性自動(dòng)校準(zhǔn)的設(shè)計(jì)與分析[10]。

3 實(shí) 驗(yàn)

為了驗(yàn)證基于單目標(biāo)跟蹤算法的發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)設(shè)計(jì)的合理性進(jìn)行了如下實(shí)驗(yàn)。

3.1 實(shí)驗(yàn)環(huán)境設(shè)置

采用語(yǔ)音識(shí)別技術(shù)對(duì)多生源音頻進(jìn)行匹配,實(shí)驗(yàn)環(huán)境設(shè)置為:

1) 配置PXI?6713語(yǔ)音播放通道,系統(tǒng)對(duì)發(fā)音進(jìn)行自動(dòng)采集,且頻率不低于15 MHz;

2) 利用標(biāo)準(zhǔn)VPP儀器對(duì)英語(yǔ)發(fā)音進(jìn)行控制,控制整個(gè)校準(zhǔn)過(guò)程對(duì)發(fā)音識(shí)別分辨率不低于5位;

3) 發(fā)音信號(hào)輸入頻率范圍較大,盡量使英語(yǔ)發(fā)音采集到的信息通道和輸出通道都使用5通道進(jìn)行同步和異步輸入;

4) 控制功率處于低消耗模式,A/D轉(zhuǎn)換速率大于150 kHz,總線傳輸分辨率至少為10位。

3.2 實(shí)驗(yàn)結(jié)果與分析

將發(fā)音數(shù)據(jù)庫(kù)里的數(shù)據(jù)內(nèi)容設(shè)置為自動(dòng)校準(zhǔn)系統(tǒng)的輸入內(nèi)容,標(biāo)準(zhǔn)語(yǔ)音存儲(chǔ)庫(kù)存儲(chǔ)的是句子語(yǔ)音文件和標(biāo)記的語(yǔ)音信息。利用TIMIT語(yǔ)音庫(kù)對(duì)系統(tǒng)進(jìn)行訓(xùn)練,由500個(gè)說(shuō)話者錄制而成,每人可朗誦10句因素較全的英文句子。而發(fā)音庫(kù)是具有開(kāi)放式屬性的數(shù)據(jù)庫(kù),可為任何人提交內(nèi)容,單詞總量可達(dá)到357 000。待自動(dòng)校準(zhǔn)語(yǔ)音數(shù)據(jù)庫(kù)為實(shí)驗(yàn)待測(cè)語(yǔ)音數(shù)據(jù)庫(kù),將10名說(shuō)話者的發(fā)音水平按照高低進(jìn)行排序,使每人按照順序依次讀10句英文,記錄者需將這些發(fā)音內(nèi)容記錄下來(lái)作為實(shí)驗(yàn)數(shù)據(jù)。同時(shí),請(qǐng)5位導(dǎo)師對(duì)這100句英文的發(fā)音情況進(jìn)行評(píng)分,評(píng)分結(jié)果需記錄。

利用單目標(biāo)跟蹤算法不斷進(jìn)行反復(fù)迭代運(yùn)算,在該過(guò)程中,雖然數(shù)據(jù)量大,運(yùn)算起來(lái)較為復(fù)雜,但每個(gè)句子的運(yùn)算流程卻是一致的。以標(biāo)準(zhǔn)語(yǔ)音庫(kù)中的例句為例,分析該句子組成的基本發(fā)音信息,如表1所示。

如表1所示,獲取基本信息后,需要將音頻數(shù)據(jù)進(jìn)行參數(shù)化,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)加重、分針和加窗。然后對(duì)每幀數(shù)據(jù)進(jìn)行提取,獲取結(jié)果在系統(tǒng)頁(yè)面上顯示如圖4所示。

發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)獲取信息之后,可在頁(yè)面展示每幀音頻頻率波動(dòng)情況,由圖4可知,窗口上方為音頻數(shù)據(jù)的波形圖,下方為不同時(shí)刻的音素信息。每幀采樣點(diǎn)數(shù)量是采樣頻率乘以幀長(zhǎng)度,根據(jù)表1中音頻基本信息以及發(fā)音庫(kù)數(shù)據(jù)組織格式,設(shè)置語(yǔ)音幀長(zhǎng)度為15 ms,采樣點(diǎn)數(shù)量為240點(diǎn)。

根據(jù)上述實(shí)驗(yàn)過(guò)程,對(duì)待測(cè)發(fā)音數(shù)據(jù)進(jìn)行校準(zhǔn)。為了驗(yàn)證本文系統(tǒng)發(fā)音校準(zhǔn)的準(zhǔn)確率,將傳統(tǒng)發(fā)音校準(zhǔn)系統(tǒng)與基于單目標(biāo)跟蹤算法的發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)的校準(zhǔn)結(jié)果進(jìn)行對(duì)比,如表2所示。

為了使實(shí)驗(yàn)結(jié)果更加明確,利用折線圖對(duì)結(jié)果進(jìn)行展示,如圖5所示。

由圖5可知,傳統(tǒng)系統(tǒng)對(duì)發(fā)音校準(zhǔn)的準(zhǔn)確率小于本文設(shè)計(jì)的系統(tǒng)。

3.3 實(shí)驗(yàn)結(jié)論

針對(duì)基于單目標(biāo)跟蹤算法發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)所進(jìn)行的實(shí)驗(yàn)可充分驗(yàn)證該系統(tǒng)設(shè)計(jì)的合理性,通過(guò)發(fā)音自動(dòng)校準(zhǔn)界面,獲取待測(cè)語(yǔ)音基本信息,根據(jù)例句描述語(yǔ)音特征提取結(jié)果,并將傳統(tǒng)系統(tǒng)與本文系統(tǒng)校準(zhǔn)準(zhǔn)確情況進(jìn)行對(duì)比,可充分體現(xiàn)本文設(shè)計(jì)的系統(tǒng)具有較好的自動(dòng)校準(zhǔn)效果。

4 結(jié) 語(yǔ)

發(fā)音自動(dòng)校準(zhǔn)是一個(gè)極為復(fù)雜的過(guò)程,其中涉及聲學(xué)和語(yǔ)言學(xué)的知識(shí)以及對(duì)音頻信號(hào)的處理,由于說(shuō)話者發(fā)音特點(diǎn)存在差異性,因此發(fā)音規(guī)則非常復(fù)雜,對(duì)發(fā)音進(jìn)行自動(dòng)校準(zhǔn)也十分困難。為此,本文提出基于單目標(biāo)跟蹤算法發(fā)音自動(dòng)校準(zhǔn)系統(tǒng)的設(shè)計(jì)。通過(guò)實(shí)驗(yàn)驗(yàn)證系統(tǒng)設(shè)計(jì)的合理性,該系統(tǒng)具有較好的自動(dòng)校準(zhǔn)準(zhǔn)確率,利用該系統(tǒng)可使學(xué)習(xí)者易于發(fā)現(xiàn)自己發(fā)音的不足,有針對(duì)性地改正發(fā)音效果。

參考文獻(xiàn)

[1] 盛琥,趙溫波,王立明,等.基于量測(cè)轉(zhuǎn)換與輸入估計(jì)的機(jī)動(dòng)目標(biāo)跟蹤算法[J].系統(tǒng)工程與電子技術(shù),2015,37(1):31?36.

SHENG Hu, ZHAO Wenbo, WANG Liming, et al. Maneuvering target tracking algorithm based on converted measurement and input estimation [J]. Systems engineering and electronics, 2015, 37(1): 31?36.

[2] 任航.基于擬蒙特卡洛濾波的改進(jìn)式粒子濾波目標(biāo)跟蹤算法[J].電子測(cè)量與儀器學(xué)報(bào),2015,29(2):289?295.

REN Hang. Improved particle filter target tracking algorithm based on quasi Monte Carlo filtering [J]. Journal of electronic measurement and instrumentation, 2015, 29(2): 289?295.

[3] 李康,何發(fā)智,潘一騰,等.基于簇相似的多分類器目標(biāo)跟蹤算法[J].電子學(xué)報(bào),2016,44(4):821?825.

LI Kang, HE Fazhi, PAN Yiteng, et al. Multi?classifier object tracking based on cluster similarity [J]. Acta electronica sinica, 2016, 44(4): 821?825.

[4] 孫銳,黃靜茹,丁文秀.一種基于子空間學(xué)習(xí)的實(shí)時(shí)目標(biāo)跟蹤算法[J].光電工程,2015,42(2):52?58.

SUN Rui, HUANG Jingru, DING Wenxiu. A real?time object tracking algorithm based on subspace learning [J]. Opto?electronic engineering, 2015, 42(2): 52?58.

[5] 劉哲,陳懇,鄭紫微.基于HOG與多實(shí)例在線學(xué)習(xí)的目標(biāo)跟蹤算法[J].計(jì)算機(jī)工程,2015,41(1):158?163.

LIU Zhe, CHEN Ken, ZHENG Ziwei. Object tracking algorithm based on HOG and multiple?instance online learning [J]. Computer engineering, 2015, 41(1): 158?163.

[6] 陳杏源,鄭烈心,裴海龍.基于Camshift和SURF的目標(biāo)跟蹤系統(tǒng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(4):902?906.

CHEN Xingyuan, ZHENG Liexin, PEI Hailong. Object tracking system based on Camshift and SURF [J]. Computer engineering and design, 2016, 37(4): 902?906.

[7] HU Yumei, HU Zhentao, ZHENG Shanshan, et al. Novel target tracking algorithm based on joint estimation of system error and state [J]. Computer science, 2015, 42(11): 310?313.

[8] ZHU Hanhua, ZHAO Songying, LI Jingshu, et al. Monocular vision?based moving object tracking [J]. Navigation of China, 2017, 40(2): 1?5.

[9] TIAN Anhong, YANG Siyuan, TANG Jinwen, et al. Target tracking algorithm research of integrated positioning system based on particle filter [J]. Journal of projectiles, rockets, missiles and guidance, 2015(2): 134?136.

[10] 王衛(wèi)民,金力.基于Android的手語(yǔ)動(dòng)畫自動(dòng)生成軟件設(shè)計(jì)[J].電子設(shè)計(jì)工程,2017,25(18):42?45.

WANG Weimin, JIN Li. Sign language animation generation of software design based on Android [J]. Electronic design engineering, 2017, 25(18): 42?45.

[11] 侯向丹,董永峰,坎啟嬌,等.基于運(yùn)動(dòng)軌跡的視頻目標(biāo)跟蹤算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(4):995?998.

HOU Xiangdan, DONG Yongfeng, KAN Qijiao, et al. Video target tracking based on movement trace [J]. Computer engineering and design, 2015, 36(4): 995?998.

[12] 李志國(guó),顧鑫,祝樹(shù)生,等.基于特征確定性的目標(biāo)跟蹤算法[J].激光與紅外,2015,45(5):576?579.

LI Zhiguo, GU Xin, ZHU Shusheng, et al. Target tracking algorithm based on certainty measurement of the feature [J]. Laser & infrared, 2015, 45(5): 576?579.

猜你喜歡
語(yǔ)音識(shí)別發(fā)音
I’m a Little Teapot
通話中的語(yǔ)音識(shí)別技術(shù)
面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
Playing with h
農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
基于語(yǔ)音識(shí)別的萬(wàn)能遙控器的設(shè)計(jì)
基于Android手機(jī)語(yǔ)音和Arduino控制板的機(jī)器人控制系統(tǒng)
Playing with /eI/
Playing with “ar”
Playing with u_e
伊吾县| 永昌县| 鸡西市| 鞍山市| 佛教| 仁怀市| 秭归县| 永安市| 乌兰察布市| 伊春市| 新宁县| 米泉市| 玉林市| 大港区| 临清市| 恩平市| 汉源县| 泽库县| 准格尔旗| 新干县| 县级市| 美姑县| 博乐市| 六盘水市| 盐边县| 三原县| 旺苍县| 安阳市| 广西| 邹平县| 义乌市| 涿鹿县| 雅安市| 丰城市| 普安县| 萍乡市| 酒泉市| 枣庄市| 荣昌县| 云阳县| 巴中市|