国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于元音檢測的俄語語音音節(jié)端點檢測

2017-11-23 01:02:04易綿竹
關(guān)鍵詞:響度輔音元音

王 彤, 易綿竹

(信息工程大學(xué) 洛陽校區(qū) 工程系 河南 洛陽 471000)

DOI: 10.13705/j.issn.1671-6841.2017186

基于元音檢測的俄語語音音節(jié)端點檢測

王 彤, 易綿竹

(信息工程大學(xué) 洛陽校區(qū) 工程系 河南 洛陽 471000)

針對傳統(tǒng)端點檢測算法因忽視語言特點導(dǎo)致的檢測精度不足問題,結(jié)合元音中心論、響度說、合張運動說等俄語音節(jié)理論,提出一種面向俄語語音的音節(jié)端點檢測算法.算法利用共振峰能量檢測元音,并根據(jù)元音動態(tài)調(diào)整門限,基于短時過零率和能熵比提取和切分音節(jié).算法在元音檢測中查準(zhǔn)率為84.9%,查全率為87%,音節(jié)切分的正確率為78.6%,端點檢測精度為91.6%,較傳統(tǒng)算法剔除了音節(jié)間的無話幀,提高了端點檢測的精度.

元音檢測; 俄語語音音節(jié)切分; 端點檢測

DOI: 10.13705/j.issn.1671-6841.2017186

0 引言

語音端點檢測是語音信號處理的基礎(chǔ)技術(shù)之一.狹義層面上,端點檢測是指確定有話段的起止位置,以達到區(qū)分信號中有話段和無話段的目的.廣義層面上,按照檢測的細(xì)化程度,端點檢測還包括對語音句、語段、語音詞、音節(jié)、音素等多種粒度有話段起止位置的判定.語音的音素在組成音節(jié)時存在連讀現(xiàn)象,音素之間因為相互融合造成界限模糊.音節(jié)是語流中相對獨立的單元,音節(jié)之間的界限相對分明.通過音節(jié)的切分和端點檢測,能夠準(zhǔn)確提取有效的語音幀序列,排除無聲段或噪聲段的干擾,為語音識別、語音檢索等研究奠定基礎(chǔ).目前,學(xué)者采用時間長度高斯擬合算法[1]、時頻二維能量特征算法[2]、元音主導(dǎo)的檢測法[3-4]、多重分型消除波動分析法[5]等方法切分音節(jié).結(jié)合俄語語音的特點,采用模態(tài)分解法[6]、基于梅爾頻率統(tǒng)計的決策分類法[7]等方法切分俄語音節(jié).國內(nèi)對于俄語語音的研究多為面向漢俄語音比較及俄語語音教學(xué),面向語言工程的研究還處于起步階段.徐來娣[8]等研究俄語的音節(jié)理論并提出俄語音節(jié)切分方案,趙芳麗[9]等基于praat軟件分析俄語讀音,目前尚未發(fā)現(xiàn)介紹俄語語音音節(jié)切分算法的相關(guān)文獻.

本文結(jié)合俄語音節(jié)理論,設(shè)計了基于元音檢測的俄語語音音節(jié)端點檢測算法,以期為俄語語音處理的相關(guān)工作提供支持.

1 俄語音節(jié)切分理論

俄語共含有33個字母,所有字母共表示42種音位,其中6個是元音,36個是輔音.俄語音節(jié)的構(gòu)成遵循元音中心說,即每個音節(jié)中有且只有一個元音,沒有復(fù)合元音;每個音節(jié)可以包含0~8個輔音,普遍存在輔音連綴現(xiàn)象,容易形成輔音群.俄語音節(jié)切分是一種純粹的語音行為,音節(jié)的切分不會造成詞義的變化,音節(jié)切分方式一般沒有語義要素可以作為參考[8].

根據(jù)元音中心學(xué)說,輔音和輔音群不能單獨構(gòu)成音節(jié),俄語詞的首尾位置若為輔音或輔音群,則其應(yīng)該屬于與之最鄰近元音所在的音節(jié).關(guān)于俄語元音之間的輔音或輔音群的音節(jié)歸屬問題,不同學(xué)說各執(zhí)一詞,難成定論,代表學(xué)說包括呼氣說、響度說、肌肉緊張說、合張運動說等.其中,具有工程實踐指導(dǎo)意義的是合張運動說和響度說.

合張運動說從發(fā)音角度出發(fā),將發(fā)音時發(fā)音器官活動的相互作用程度作為判定元音、輔音的結(jié)合緊密程度的依據(jù).其主要觀點為:俄語發(fā)輔音時發(fā)音器官閉合,發(fā)元音時發(fā)音器官張開,音節(jié)為先輔音后元音的一次合張運動,認(rèn)為俄語可以看作開音節(jié)組成的序列.此外,運用實驗語音學(xué)方法,得出元音發(fā)音主要受前方輔音影響,輔音及輔音群的發(fā)音變化主要受后方元音影響,將元音間的輔音劃歸為后方元音所在的音節(jié).

響度說從聽覺角度出發(fā),以語音流各音節(jié)之間和音節(jié)內(nèi)部的響度變化為切入點,歸納出非首音節(jié)內(nèi)部具有響度由弱至強的遞增規(guī)律.其主要觀點為:俄語的音素可以按照響度漸強分為3級,清輔音(噪輔音)為第1級,濁輔音(響輔音)為第2級,元音為第3級,不同響度的音素組成音節(jié).音節(jié)作為單詞中相對獨立的單元,其產(chǎn)生是一個響度漸強的過程,據(jù)此,將單詞中響度遞增前的最低點作為音節(jié)間的界限.

合張運動說和響度說分別從產(chǎn)生端和接收端研究俄語音節(jié)的本質(zhì),并制定具有可供語音學(xué)實踐的音節(jié)切分方案.文獻[8]發(fā)現(xiàn)二者均具有一定局限性.合張運動說忽視了俄語中存在閉音節(jié),即存在元音間的輔音與前方元音結(jié)合更緊密的客觀現(xiàn)象,如антитерроризм中元音a和元音и之間的輔音н同前方元音a結(jié)合形成鼻音.響度說無法實現(xiàn)詞中兩個連續(xù)元音的切分,如аудитория中的相連的元音a和元音y會被錯誤劃歸為同一音節(jié).有時會因響輔音造成某些詞的切分錯誤,如всегда,僅有兩個音節(jié),但受噪輔音в影響,出現(xiàn)兩個響度最低點с和е,被切分為3個音節(jié).

2 算法的描述

2.1 算法的設(shè)計思想

根據(jù)元音中心說,輔音和輔音群不能單獨構(gòu)成音節(jié),語音段中的元音個數(shù)即為音節(jié)個數(shù).因此,算法通過檢測元音段確定音節(jié)個數(shù),并以元音為中心確定各音節(jié)的位置邊界.根據(jù)響度說,同一音節(jié)中的元音和輔音結(jié)合緊密,響度的變化表現(xiàn)為平緩的過程,不會出現(xiàn)局部突變.因此,以元音段為中心確定其所在音節(jié)中輔音段的參數(shù)變化范圍,并動態(tài)設(shè)定閾值.根據(jù)合張運動說,輔音與后方的元音結(jié)合更緊密,因此采用優(yōu)先以元音段為中心的前向搜索算法,以提取開音節(jié)所包含的輔音段;根據(jù)響度說,采用以元音段為中心的向后搜索算法,以提取閉音節(jié)所包含的輔音段.

2.2 算法的工作流程

首先對俄語語音進行預(yù)處理,包括加窗、分幀、中值平滑;然后采用基于共振峰能量的單參數(shù)雙門限檢測法提取元音段;之后以元音段為中心動態(tài)設(shè)定閾值,采用基于能熵比和短時過零率的雙參數(shù)雙門限檢測法切分并提取音節(jié)段;最后將音節(jié)段組合成完整的有效語音段,實現(xiàn)較為精確的俄語語音端點檢測.上述算法的工作流程如圖1所示.

圖1 基于元音檢測的俄語語音音節(jié)端點檢測流程圖Fig.1 The flow chart of Russian syllable endpoint detection based on vowel segmentation

2.3 面向端點檢測的雙門限法分析

雙門限法[10-11]根據(jù)所設(shè)置的參數(shù)和閾值逐級判決,由粗至精,循序完成端點檢測.單參數(shù)檢測法設(shè)有一個參數(shù)parm1,兩個閾值thre1和thre2,其中thre1lt;thre2.首先,根據(jù)thre2進行粗判,若信號幀的pram1值高于thre2,則該幀肯定為語音幀;然后,取thre2與parm1的兩個交匯點向兩端擴展搜索,取thre1與parm1的交匯點作為最終判別結(jié)果.雙參數(shù)檢測法將單參數(shù)檢測的起止位置作為第一級判決結(jié)果,并根據(jù)pram2進一步做第二級判決.檢測過程如圖2所示.

圖2 雙參數(shù)雙門限檢測法示意圖Fig.2 Schematic diagram of double parameter and double threshold detection method

3 算法的實現(xiàn)

3.1 基于共振峰能量的元音檢測

聲音在通過共振腔時,不同頻率的能量受腔體濾波作用,或強化或衰減,得以重新分配,共振峰是聲音頻率中能量相對集中的區(qū)域.濁音具有明顯的共振峰,清音不具有明顯的共振峰.俄語的元音都是濁音,輔音多為清音,且濁輔音與元音的共振峰具有明顯差異.根據(jù)文獻[12],選取學(xué)者Матусевич在1976年的專著《Современный русский язык.Фонетика》中的數(shù)據(jù),如表1所示.

表1 俄語元音的共振峰頻率表

俄語元音的第一、第二共振峰頻率集中在250~2 000 Hz,據(jù)此,俄語元音共振峰能量FE(formant energy)的計算過程為:首先,令語音信號通過頻率范圍為250~2 000 Hz的FIR帶通濾波器;然后,對濾波后的信號加窗分幀,求得各幀的短時能量即為共振峰能量.設(shè)窗長為N,x為濾波后的信號,w為窗函數(shù),則在n時刻語音的FE值為

元音段提取的過程為:首先根據(jù)較低的閾值T1以及有話段最小連續(xù)幀長粗略提取有話段,對每個有話段,采取基于共振峰能量的單參數(shù)雙門限法提取元音段.閾值分別為該語音段的FE中值,以及FE最大值與比例系數(shù)R的乘積.數(shù)字0~9的俄語語音的元音檢測結(jié)果如圖3所示.

圖3 元音檢測效果示意圖Fig.3 Figure of vowel detection results

3.2 基于元音檢測的音節(jié)段提取

短時平均過零率可以在一定程度上反映信號的頻率信息[13],清音的短時平均過零率高于濁音,且清音和濁音的短時平均過零率遠(yuǎn)高于背景噪聲.輔音(尤其是清輔音)與背景噪音的短時平均過零率差別顯著,因此,選擇短時過零率作為檢測參數(shù).n時刻的短時平均過零率為

頻率譜線能量密度表達各頻率譜線的能量在信號中所占的比例.設(shè)M為信號幀頻域變換后的譜線條數(shù),P為各譜線的能量,則第k條譜線的概率密度為

譜熵(spectral entropy)用于反映各頻率譜線的能量分布均勻程度,能熵比定義為能量E與譜熵H的比值[14],譜熵與能熵比的計算公式分別為:

噪聲的能量較小,且分散在各頻率譜線中,譜熵值較大.語音信號能量較大,且相對集中在幾個共振峰頻率上,譜熵值較小.能熵比加大了語音和噪聲參數(shù)的數(shù)值差距,對不同信噪比的環(huán)境適應(yīng)性更強.音節(jié)切分的流程如圖4所示.

圖4 音節(jié)切分的流程圖Fig.4 Flow chart of syllable segmentation

本文算法與基于能量和過零率的雙門限法對俄語數(shù)字0~9的音節(jié)切分結(jié)果如圖5所示.

圖5 音節(jié)切分效果對比圖Fig.5 Comparison of two syllable segmentation results

4 實驗及結(jié)果分析

實驗數(shù)據(jù)為俄語母語者的廣播語音,包括單元音詞10個、雙元音詞20個、多元音詞20個.將手工標(biāo)注結(jié)果作為檢測標(biāo)準(zhǔn),基于查準(zhǔn)率和查全率評價元音檢測的結(jié)果,基于正確率評價音節(jié)切分的結(jié)果,基于調(diào)和參數(shù)為1的F值(F-measure)評價端點檢測結(jié)果,并對比本文算法與基于能量和過零率的雙門限算法的檢測精度.元音檢測中,端點誤差不大于3幀視為正確,檢測誤差過大或錯誤檢出輔音視為誤檢,元音未被檢出視為漏檢;音節(jié)檢測中,端點誤差不大于5幀視為正確.

參數(shù)設(shè)置如下:信號采樣頻率為8 kHz,加漢明窗,窗長為256,移動窗長為80,加窗后做幅值歸一化以及五點中值平滑處理.元音檢測實驗中,選取切比雪夫二型帶通濾波器,通帶頻率為250 Hz和2 000 Hz,阻帶頻率為200 Hz和2 100 Hz,通帶波紋和阻帶衰減為1和10.T1為0.25,有話段的最小連續(xù)幀長為15,共振峰閾值的比例系數(shù)R為0.65,元音的最短幀長為10.音節(jié)切分實驗中,能熵比的門限比例系數(shù)r1為0.7,r2為0.85,短時過零率的閾值thre3為元音段的平均值,thre4缺省.

元音檢測、音節(jié)切分及端點檢測的實驗結(jié)果如表2所示.

表2 元音檢測及音節(jié)切分的結(jié)果統(tǒng)計表

實驗數(shù)據(jù)顯示:算法在俄語語音數(shù)據(jù)的元音段檢測中,查準(zhǔn)率達到84.9%,查全率達到87%,基于元音段檢測的音節(jié)切分準(zhǔn)確率達到78.6%.算法端點檢測的精確度達到91.6%,高于雙門限算法的87.6%.分析實驗結(jié)果發(fā)現(xiàn),算法主要通過降低音節(jié)間無聲幀的誤檢,提高端點檢測的精度.此外,連續(xù)語音中的非重讀元音弱化,以及重度音節(jié)中的濁輔音與元音界限模糊導(dǎo)致的錯誤占全部錯誤的比例超過90%.后續(xù)工作將加入對重音變化等超音位音段的研究,以進一步優(yōu)化算法.

5 結(jié)論

本文以元音中心說、合張運動說、響度說等俄語音節(jié)學(xué)說為理論基礎(chǔ),提出了一種基于元音的俄語語音音節(jié)端點檢測算法.算法細(xì)分為元音提取和音節(jié)切分兩個部分,元音提取部分緊扣單元音是形成俄語音節(jié)的充要條件這一命題,通過分析聲學(xué)特征,找出元音區(qū)別于輔音的共振峰特性,進而計算共振峰能量,提取信號中的元音段.音節(jié)切分部分引入端點檢測中的雙門限算法,綜合元音、輔音與無話段的區(qū)別,選取能熵比和短時過零率作為門限法的參數(shù);根據(jù)元音與其前后輔音群結(jié)合的緊密程度確定檢測范圍和檢測順序;此外,考慮到語流中的音強、語速、環(huán)境等變化對檢測的影響,根據(jù)提取的元音段動態(tài)設(shè)定門限閾值,提高了算法的自適應(yīng)能力.最后,在俄語母語者的語音數(shù)據(jù)上驗證了算法的有效性.本文算法面向俄語語音,實現(xiàn)了較為準(zhǔn)確的元音檢測和音節(jié)切分,較傳統(tǒng)算法剔除了音節(jié)間短暫停頓所在的無用幀,提高了俄語語音端點檢測的精度.

[1] 張揚,趙曉群,王締罡. 基于音節(jié)時間長度高斯擬合的漢語音節(jié)切分方法[J]. 計算機應(yīng)用,2016,36(5):1410-1414.

[2] 張揚,趙曉群,王締罡. 基于時頻二維能量特征的漢語音節(jié)切分方法[J]. 計算機應(yīng)用,2016,36(11):3222-3228.

[3] 張利平,馮宏偉,王艷. 基于元音檢測的漢語連續(xù)語音端點檢測方法[J]. 計算機工程與應(yīng)用,2010,46(27):114-116.

[4] YOO I C,YOOK D. Robust voice activity detection using the spectral peaks of vowel sounds[J]. ETRI Journal,2009,31(4):451-453.

[5] HE S F, ZHAO H. Automatic syllable segmentation algorithm of Chinese speech based on MF-DFA[J]. Speech communication, 2017,92:42-51.

[6] АЛИМУРАДОВ А К, КВИТКА Ю С, ЗАРЕЦКИЙ А П, et al. Помехоустойчивая обработка речевых сигналов на основе комплементарной множественной декомпозиции на эмпирические моды[J]. ТРУДЫ, 2016, 8(3): 43-53.

[7] SALISHEV S, BARABANOV A, KOCHAROV D, et al. Voice activity detector (VAD) based on long-term mel frequency band features[C]//19th International Conference on Text, Speech, and Dialogue. Czechoslovakia:Brno, 2016: 352-358.

[8] 徐來娣. 俄語音節(jié)理論研究與俄語音節(jié)切分優(yōu)化方案[J]. 中國俄語教學(xué),2009,28(4):69-72.

[9] 趙芳麗. 基于praat軟件的俄語讀音分析[J]. 計算機工程與應(yīng)用,2012,48(11):133-136.

[10] 王炳錫,屈丹,彭煊,等.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005.

[11] ORTIZ P D,VILLA L F, SALAZAR C, et al. A simple but efficient voice activity detection algorithm through Hilbert transform and dynamic threshold for speech pathologies[J].Journal of physics:conference series, 2016, 705(1): 012037.

[12] 陳君華. 俄漢元音對比的新嘗試[J]. 中國俄語教學(xué),1997,16(1):55-57.

[13] 張雪英. 數(shù)字語音處理及matlab仿真[M]. 北京:電子工業(yè)出版社,2010.

[14] 宋知用. matlab在語音信號分析與合成中的應(yīng)用[M]. 北京:北京航空航天大學(xué)出版社,2013.

(責(zé)任編輯:王海科)

SyllableEndpointDetectioninRussianSpeechBasedonVowelSegmentation

WANG Tong, YI Mianzhu

(DepartmentofEngineering,LuoyangBranchofInformationEngineeringUniversity,Luoyang471000,China)

Aiming to solve the problem that the traditional endpoint detection algorithm lacked accuracy due to ignoring the language features, an algorithm of syllable endpoint detection was presented based on Russian syllable theories, such as the vowel center theory, the loudness theory, the motion theory and so on. The formant energy was used to detect vowels, then the thresholds were adjusted according to vowel. Extracts and segments syllables were carried out based on short-time zero crossing rate and energy entropy ratio. The results showed that, the precision was 87%, and the recall rate was 84.9% in vowel detection of Russian speech, and the precision was 78.6% in syllable segmentation. In addition, the algorithm could improve the accuracy of endpoint detection by eliminating the invalid frames between the syllables.

vowel detection; Russian syllable segmentation; endpoint detection

2017-06-22

國家自然科學(xué)基金項目(11590771)

王彤(1993—),女,黑龍江齊齊哈爾人,主要從事計算機與應(yīng)用語言研究,E-mail:463906155@qq.com;通信作者:易綿竹(1963—),男,四川營山人,教授,主要從事計算語言學(xué)研究,E-mail:1197751829@qq.com.

TP391

A

1671-6841(2017)04-0034-06

猜你喜歡
響度輔音元音
失去爆破和不完全爆破
元音字母和元音字母組合的拼讀規(guī)則
BR Sounds
英語的輔音連綴
元音字母和元音字母組合的拼讀規(guī)則
輔音連綴全接觸
響度在節(jié)目制作和播出中的應(yīng)用
數(shù)字時代中節(jié)目響度平衡淺析
新聞傳播(2016年3期)2016-07-12 12:55:36
臺內(nèi)音頻響度控制方式
Playing with “ar”
来宾市| 阜新| 绍兴县| 咸阳市| 通许县| 大安市| 搜索| 桂平市| 含山县| 新津县| 大连市| 绥江县| 桦甸市| 双峰县| 静宁县| 上虞市| 株洲市| 观塘区| 兰溪市| 靖江市| 连城县| 涡阳县| 明光市| 武城县| 商河县| 庐江县| 河津市| 牡丹江市| 曲周县| 措美县| 霍山县| 雷山县| 新野县| 宁河县| 马山县| 兴山县| 峨边| 南京市| 绥芬河市| 泰宁县| 泌阳县|