国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種簡單快速的人聲語音自動提取方法

2021-03-26 03:29屈宏峰于津羅一平
電子元器件與信息技術 2021年11期
關鍵詞:人聲傅里葉音頻

屈宏峰,于津,羅一平

(同方電子科技有限公司,江西 九江 332000)

0 引言

在數(shù)字化靜噪控制應用領域,由于數(shù)字化增益控制影響下,在有用信號消失后,噪聲信號被放大,從而極大地影響收聽者的聽感。所以目前的接收機電臺多采用電平靜噪的方式來清除噪聲對聽感的影響[1-2]。在電平靜噪系統(tǒng)的控制下,可由操作者主動下發(fā)靜噪?yún)?shù),并根據(jù)靜噪?yún)?shù)計算出一定的識別門限,來區(qū)分有用信號和無用的噪聲信號,從而將噪聲信號剔除,只對外播放有用信號,達到過濾噪聲的效果[3]。本文針對數(shù)字化電臺接收機中的人聲語音信號,給出一種無需操作員設置參數(shù)即可達到自動濾除噪聲信號的自動靜噪算法。有計算量小,無需額外的硬件支持,較好的環(huán)境適應度,無人員技術要求,操作簡單等優(yōu)點。

1 人聲語音信號的識別

1.1 人聲語音的特征

人聲語音:人聲語音是指由人通過口腔聲帶震動所發(fā)出的聲音,本質上是一種機械波。在一定的期間內,波長短則音調高,反之波長長則音調低。一般男性聲音低,波長長,女性聲音高,波長短。被稱為語音音頻,其體現(xiàn)在頻率體系上有其獨特的音頻特征,和固定的頻率范圍。人聲語音中話音中的大部分能量集在固定的音頻區(qū)間,這和普通的噪聲以及其他物理聲音有明顯的區(qū)別。

如圖1所示:橫坐標為時間軸,縱坐標為頻率軸。仔細觀察該頻譜瀑布圖可以看到在沒有人聲說話的時間段內。0-8K的頻率范圍內噪聲的能量分布是基本平滑的,基本是從低頻段向高頻段緩慢下滑的過程,而有人聲語音的時間段內,我們可以看到在2000Hz以內有大量的突出的黃色色塊,這表示較高的能量凸起,表示在這個頻段內有能量較高的機械波出現(xiàn),也就是有人聲話音的出現(xiàn)。

圖1 一段人聲的頻譜瀑布能量顯示圖

從這個瀑布圖中我們可以發(fā)現(xiàn),人聲語音在頻譜的分布上絕大部分能量集中在300Hz~2000Hz的頻譜范圍內。這是一個非常明顯的數(shù)據(jù)特征,在經(jīng)過大量數(shù)據(jù)的對比之后我們確定。此數(shù)據(jù)圖特征并非為孤例數(shù)據(jù),而是真實反映出人聲語音特點的統(tǒng)計結論。

1.2 利用能量分布規(guī)律判別語音

具有其獨特的音頻特征,其話音中的大部分能量集在固定的音頻區(qū)間,這和普通的噪聲有明顯的區(qū)別,有這個特性,我們在區(qū)分噪聲和人聲語音的時候可以不采用復雜的識別算法,轉而采用簡單的特征識別方法,對輸入的聲音文件進行實時快速傅里葉變化,根據(jù)在固定區(qū)域內聲音能量的占比,通過多次判定,就可以快速的得出信號是否為語音信號的判斷[4-5]。

因此我們可以設計一個算法,通過對聲音信號的數(shù)字化頻譜的能量分布統(tǒng)計,來識別人聲語音信號和其他噪聲。具體的算法流程如圖2所示。

如圖2流程圖所示:算法的起始為數(shù)字化的音頻信號的輸入,在實際程序中采用的輸入音頻的頻率為16KHz。在獲得了數(shù)字化的音頻信號后,我們需要對輸入的音頻信號進行實時的快速傅里葉變化,這就用上了快速傅里葉變化函數(shù)。實際程序中采用64點的一幀的快速傅里葉變化,針對16KHz的音頻進行頻譜分析,即每次快速傅里葉變化的時間為:64/1600=4ms。整個識別程序建立在每4ms一次的傅里葉變化的頻譜數(shù)據(jù)上。

圖2 算法流程圖

在獲得了傅里葉變化的頻譜數(shù)據(jù)后,就需要用上分布能量統(tǒng)計函數(shù)對傅里葉變化后的頻譜數(shù)據(jù)進行分布能量統(tǒng)計計算,將其結果送入信號判定函數(shù)進行判定和分辨。由于每幀傅里葉變化的頻譜數(shù)據(jù)占時較短,誤判的可能性較高,所以在這個函數(shù)中計算完成譜數(shù)據(jù)能量統(tǒng)計后,需要進行多次結果的緩沖平滑工作,用以減少誤判,增加成功率[6]。

判定的結果送入輸出控制函數(shù),輸出控制函數(shù)需要持續(xù)從信號判定函數(shù)獲取判定數(shù)值,當持續(xù)一段時間判定值均為某個信號時,輸出控制函數(shù)將通過最終判定函數(shù)控制語音信號的輸出和關斷。

由于判定結果需要多次判定才能最終得出結果,所以輸入的人聲語音持續(xù)的時間有一定的要求,不能低于200ms,即0.2秒時長。時間過短會被程序認定為突發(fā)噪聲而略過。

1.3 算法的實際使用效果

此方式的算法可以兼顧識別的效率和速度,在快速傅里葉變化和緩沖平滑判斷等算法都有成熟的計算庫的情況下,編程極為簡單,實際的調試的過程需要花費一定的時間,在針對地設置好各項參數(shù)后,通過輸出控制函數(shù)的累積判定方式也可以最大限度地降低誤判。

實際軟件完成后,設置了各種長度的人聲語音各100段的數(shù)據(jù)下進行測試,測試的數(shù)據(jù)包括在各種長度的人聲語音情況下的提取成功率,以及提取的語音數(shù)據(jù)前后是否完整,提取的語音數(shù)據(jù)前后預留的緩沖噪聲的時長是否穩(wěn)定等等,測試結果的簡表見表1所示。

表1 語音識別效果表

此算法由于采用的是能量占比的特征識別,其并不需要人聲語音信號有太高的信噪比,也不需要較高人聲信號的清晰度,實際實驗證明,在較低的信噪比和語音清晰度下,此算法仍然能準確地提取出語音部分的數(shù)據(jù)。圖3上方為得低信噪比和低語音清晰度的語音在噪聲環(huán)境的頻譜瀑布圖,圖3下方為經(jīng)過算法后中被提取出來的頻譜瀑布圖:

圖3 低信噪比和低清晰度下的人聲語音提取效果

通過各種長度的人聲語音各100段的識別效果,和低信噪比和低語音清晰度情況下的識別效果,可以看出是此算法對人聲語音的識別成功率極高,識別出的人聲語音的前置緩沖保持時間和后置緩沖保持時間比較穩(wěn)定,適合作為提取音頻素材。

2 結論

本文通過對人聲語音信號的識別實現(xiàn)了數(shù)字化人聲語音的提取算法,能有效的提高監(jiān)聽人員的聽感,降低長時間噪聲對監(jiān)聽人員的聽力損壞,能有效的提高監(jiān)聽的語音識別度,對于各種需要在長時間的監(jiān)控數(shù)據(jù)中提取人聲語音的場合來說具有相當?shù)谋憬?,從實驗測試結果來看,所設計的提取算法,靈敏度高,成功率高,表明用該方法提取數(shù)字人聲語音是可行的。算法具有簡單、計算量小的優(yōu)點 ,便于程序的實現(xiàn) 。所使用的算法不需要額外的特征庫和支持庫,可以簡單便捷地嵌入到各種應用程序中。

猜你喜歡
人聲傅里葉音頻
阿卡貝拉人聲合唱團的基本訓練研究
雙線性傅里葉乘子算子的量化加權估計
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于小波降噪的稀疏傅里葉變換時延估計
基于Daubechies(dbN)的飛行器音頻特征提取
愛樂之城
音頻分析儀中低失真音頻信號的發(fā)生方法
基于傅里葉變換的快速TAMVDR算法
Pro Tools音頻剪輯及修正
快速離散傅里葉變換算法研究與FPGA實現(xiàn)