語(yǔ)譜
- 彝語(yǔ)北部方言輔音塞擦音聲學(xué)特征分析研究
彝語(yǔ)輔音z(a)語(yǔ)譜圖Fig.3 Yi Consonants z(a)spectrogram表2 彝語(yǔ)輔音z(a)聲學(xué)參數(shù)表Table 2 Yi Consonants z(a)Acoustic parameter table輔音za發(fā)音時(shí)雙唇微微張開(kāi),上下牙齒自然合攏(不完全閉合,有一定縫隙),舌尖靠近牙齦,氣流從舌端和牙齦中的窄縫隙泄出,VOT為正值(0.001 7),但時(shí)長(zhǎng)較短送氣較弱.從圖3輔音za語(yǔ)圖可以看出開(kāi)始有能量較弱的充值條,后面是高頻段有些
- 基于掩蔽自監(jiān)督語(yǔ)音特征提取的帕金森病檢測(cè)方法
理信息的M el語(yǔ)譜圖特征,對(duì)患者語(yǔ)音進(jìn)行全局時(shí)序化表示;然后,利用掩蔽自監(jiān)督模型來(lái)掩蔽部分Mel語(yǔ)譜圖特征并對(duì)其進(jìn)行重構(gòu),從而學(xué)習(xí)到帕金森病患者語(yǔ)音的更高級(jí)特征表示,并利用后續(xù)的帕金森病檢測(cè)結(jié)果來(lái)評(píng)估所提的掩蔽自監(jiān)督模型的性能。其中,為解決帕金森病語(yǔ)音數(shù)據(jù)稀缺的問(wèn)題,先在LibriSpeech公開(kāi)數(shù)據(jù)集上對(duì)掩蔽自監(jiān)督模型進(jìn)行預(yù)訓(xùn)練,然后基于遷移學(xué)習(xí)的思想,利用帕金森病語(yǔ)音數(shù)據(jù)對(duì)預(yù)訓(xùn)練好的掩蔽自監(jiān)督模型進(jìn)行微調(diào)和加權(quán)求和,以提升該模型特征表示學(xué)習(xí)的性能。結(jié)
電子與信息學(xué)報(bào) 2023年10期2023-11-18
- 用于語(yǔ)音檢索的三聯(lián)體深度哈希方法
維特征參數(shù)不同,語(yǔ)譜圖[12]以二維模式攜帶時(shí)域頻域信息,是語(yǔ)音特征很好的表現(xiàn)形式。將語(yǔ)音轉(zhuǎn)換成語(yǔ)譜圖圖像的形式,從語(yǔ)譜圖圖像的角度研究基于深度學(xué)習(xí)的語(yǔ)音檢索方法,可將圖像領(lǐng)域中的三聯(lián)體深度哈希方法的優(yōu)勢(shì)在語(yǔ)音檢索領(lǐng)域發(fā)揮出來(lái),對(duì)于海量語(yǔ)音數(shù)據(jù)檢索具有重要的研究意義和應(yīng)用價(jià)值。綜上所述,為提高語(yǔ)音檢索效率和精度,確保生成的二值哈希碼更加高效緊湊,且具有最大鑒別力,本文引入注意力機(jī)制-殘差網(wǎng)絡(luò)(Attentional mechanism-Residual N
計(jì)算機(jī)應(yīng)用 2023年9期2023-09-27
- 基于語(yǔ)音特征融合的帕金森疾病診斷
此,筆者提出基于語(yǔ)譜圖和聲學(xué)特征的語(yǔ)音識(shí)別模型,旨在從語(yǔ)音中獲取更豐富的信息,通過(guò)傅里葉變換轉(zhuǎn)換成語(yǔ)譜圖,結(jié)合手工提取的聲學(xué)特征,更好地捕捉語(yǔ)音的動(dòng)態(tài)病理特征,利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)行PD檢測(cè),為了評(píng)估所提方法的性能,使用來(lái)自PC-GITA數(shù)據(jù)集的帕金森病語(yǔ)音記錄,與UCI數(shù)據(jù)庫(kù)中提取好的特征信息數(shù)據(jù)不同,該數(shù)據(jù)集提供完整的原始語(yǔ)音信號(hào),結(jié)果表明,得到了84.1%的分類準(zhǔn)確率。1 語(yǔ)音特征融合算法1.1 模型提出模型總體結(jié)構(gòu)如圖1所示。所提
數(shù)字制造科學(xué) 2023年3期2023-09-20
- 面向戰(zhàn)場(chǎng)環(huán)境下的語(yǔ)種識(shí)別
2]提取線性灰度語(yǔ)譜圖特征(LGSS),將語(yǔ)種識(shí)別轉(zhuǎn)為圖像識(shí)別,取得了很大進(jìn)展。Lopez等[13]將特征提取、特征變換和分類器融于一個(gè)神經(jīng)網(wǎng)絡(luò)模型,后續(xù)在此基礎(chǔ)上又研發(fā)出不同的神經(jīng)網(wǎng)絡(luò),包括延時(shí)神經(jīng)網(wǎng)絡(luò)[14]、殘差神經(jīng)網(wǎng)絡(luò)[15](ResNet)等。Wang等[16]將注意力機(jī)制模型結(jié)合長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)搭建的端到端系統(tǒng)也取得了不錯(cuò)的效果。Jin等[17]從網(wǎng)絡(luò)中間層中提取LID-senone特征。同年Cai等[18]提出了一種基于可學(xué)習(xí)的字典編碼
兵工學(xué)報(bào) 2023年7期2023-08-08
- 連續(xù)漢語(yǔ)語(yǔ)音的自動(dòng)切分研究*
合利用端點(diǎn)檢測(cè)、語(yǔ)譜圖分析、基音周期軌跡檢測(cè)等技術(shù)研究了漢語(yǔ)連續(xù)語(yǔ)音的自動(dòng)切分。研究了一種連續(xù)語(yǔ)音多級(jí)切分方法,計(jì)算流程如圖1。圖1 連續(xù)語(yǔ)音多級(jí)切分計(jì)算過(guò)程2 語(yǔ)音特征參數(shù)提取語(yǔ)音信號(hào)是一種短時(shí)信號(hào),在短時(shí)間內(nèi)可看作平穩(wěn)信號(hào)[6]。語(yǔ)音信號(hào)攜帶有語(yǔ)義和大量的說(shuō)話人特征。語(yǔ)音特征參數(shù)可分為時(shí)域特征參數(shù)和頻域特征參數(shù)。2.1 預(yù)處理計(jì)算語(yǔ)音特征參數(shù)之前,要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,一般包括預(yù)加重、分幀和加窗[7]。預(yù)加重可以增強(qiáng)語(yǔ)音高頻部分能量,使語(yǔ)音特征更明顯
計(jì)算機(jī)與數(shù)字工程 2023年4期2023-08-02
- 基于中心對(duì)稱局部二值模式的合成偽裝語(yǔ)音檢測(cè)方法
換得到語(yǔ)音信號(hào)的語(yǔ)譜圖,再利用中心對(duì)稱局部二值模式提取語(yǔ)譜圖的紋理特征,并用該紋理特征訓(xùn)練隨機(jī)森林分類器,從而實(shí)現(xiàn)真?zhèn)握Z(yǔ)音的判別。該方法綜合考慮語(yǔ)譜圖中像素點(diǎn)的數(shù)值大小和位置關(guān)系,包含了更加全面的紋理信息,并將特征維度降低至16維,有利于減少計(jì)算量。實(shí)驗(yàn)結(jié)果表明,在ASVspoof 2019數(shù)據(jù)集上,與傳統(tǒng)的基于局部二值模式的偽裝語(yǔ)音檢測(cè)方法相比,所提方法將合成偽裝語(yǔ)音的串聯(lián)檢測(cè)代價(jià)函數(shù)(t-DCF)降低了16.98%,檢測(cè)速度提高了89.73%。說(shuō)話人驗(yàn)
電信科學(xué) 2023年1期2023-02-09
- 面向戰(zhàn)場(chǎng)環(huán)境下的語(yǔ)音傳輸與重構(gòu)
輸,提出一種基于語(yǔ)譜圖壓縮傳輸和重構(gòu)的方法。首先將語(yǔ)音信號(hào)壓縮為語(yǔ)譜圖進(jìn)行傳輸;再在接收端對(duì)圖像進(jìn)行去噪;最后根據(jù)圖像重構(gòu)出語(yǔ)音信號(hào)。實(shí)驗(yàn)結(jié)果表明,本文方法在一定程度上解決了高壓縮比和低信噪比下重構(gòu)語(yǔ)音質(zhì)量不佳問(wèn)題,達(dá)到了提高重構(gòu)語(yǔ)音質(zhì)量的目的。1 構(gòu)建語(yǔ)音傳輸和接收模型聲音和圖像是聽(tīng)覺(jué)和視覺(jué)上兩種模態(tài)接收的輸入信息,在數(shù)字處理領(lǐng)域各自有不同的處理方法[17]。考慮到可以進(jìn)行視聽(tīng)覺(jué)交互融合的方式進(jìn)行信息交流,本文將語(yǔ)音信號(hào)壓縮為語(yǔ)譜圖信號(hào)傳輸。對(duì)語(yǔ)譜圖的研
兵工學(xué)報(bào) 2022年11期2022-12-01
- 一種水電廠水輪機(jī)碰撞故障聲音識(shí)別的研究與應(yīng)用
聲音,并預(yù)處理成語(yǔ)譜圖樣本集,利用樣本集對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到能夠識(shí)別故障碰撞聲音的故障識(shí)別模型,通過(guò)故障識(shí)別模型對(duì)水輪機(jī)的實(shí)時(shí)轉(zhuǎn)動(dòng)聲音進(jìn)行實(shí)時(shí)監(jiān)測(cè),實(shí)現(xiàn)通過(guò)故障碰撞聲音識(shí)別水輪機(jī)是否發(fā)生故障碰撞。系統(tǒng)設(shè)置有人工糾偏單元,通過(guò)人工介入提高系統(tǒng)的魯棒性,能夠根據(jù)糾偏結(jié)果進(jìn)一步對(duì)故障識(shí)別模型進(jìn)行優(yōu)化,提高識(shí)別的準(zhǔn)確性。3 基于語(yǔ)譜圖的聲音數(shù)據(jù)預(yù)處理3.1 語(yǔ)譜圖在水輪機(jī)故障碰撞故障音頻識(shí)別過(guò)程中,不僅包含需要提取的故障信息,還存在干擾信息及環(huán)境噪聲。為了
電力設(shè)備管理 2022年20期2022-11-28
- 基于CEEMDAN-小波閾值和3D-CNN的變壓器鐵心松動(dòng)故障診斷模型*
構(gòu)。2 Mel-語(yǔ)譜圖語(yǔ)譜圖是聲音信號(hào)分析處理的重要特征頻率譜圖,能夠反映信號(hào)在不同時(shí)間下的頻率能量分布。完整地建立聲音信號(hào)在時(shí)域與頻域之間的聯(lián)系,實(shí)現(xiàn)聲音特征信息的最大化,有助于后期聲紋特征的提取與學(xué)習(xí)。將采集到的變壓器各種工況下的聲紋信號(hào),用上述CEEMDAN-小波閾值濾波法得到純凈的變壓器運(yùn)行的聲音信號(hào)。利用濾波后的信號(hào)繪制聲紋語(yǔ)譜圖,語(yǔ)譜圖的繪制包括分幀、加窗和離散傅里葉變換過(guò)程。由于變壓器噪聲較人聲更加平穩(wěn),可以適當(dāng)增加幀長(zhǎng)以保證語(yǔ)音信號(hào)特征的完
電機(jī)與控制應(yīng)用 2022年10期2022-11-03
- 抽油機(jī)音頻故障分析研究與應(yīng)用
轉(zhuǎn)換為特征圖像(語(yǔ)譜圖),利用深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像分類識(shí)別,從音頻信號(hào)中提取梅爾頻率倒譜系數(shù)(MFCC),將音頻信號(hào)轉(zhuǎn)換為語(yǔ)譜圖,通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,應(yīng)用遷移學(xué)習(xí)和知識(shí)蒸餾等多種學(xué)習(xí)方法,結(jié)合深度殘差網(wǎng)絡(luò)進(jìn)行抽油機(jī)音頻故障分類。2 抽油機(jī)音頻采集技術(shù)通過(guò)研究音頻智能采集器在不同安裝位置所獲取的音頻數(shù)據(jù),排除來(lái)自其他方向的干擾音頻信號(hào),選擇監(jiān)測(cè)能表征抽油機(jī)工作狀態(tài)的聲音信號(hào)。2.1 聲源定位系統(tǒng)聲源定位系統(tǒng)主要包括: 麥克風(fēng)陣列、多通道
石油化工自動(dòng)化 2022年5期2022-10-17
- 基于變壓器聲紋Mel語(yǔ)譜圖-ResNet的鐵心松動(dòng)故障診斷*
對(duì)其降維后生成的語(yǔ)譜圖,比較這兩種模型的識(shí)別效果,確定最適合變壓器鐵心松動(dòng)故障的聲紋識(shí)別模型。1 噪聲信號(hào)預(yù)處理1.1 語(yǔ)譜圖繪制語(yǔ)譜圖能直觀地表示語(yǔ)音信號(hào)隨時(shí)間變化的頻譜特性,任一給定頻率成分在給定時(shí)刻的強(qiáng)弱用相應(yīng)點(diǎn)的灰度或色調(diào)的濃淡來(lái)表示[6]。正確建立噪聲信號(hào)時(shí)頻域的關(guān)系,能從中提取到重要的特征量,有助于后期聲紋特征的學(xué)習(xí)。聲紋語(yǔ)譜圖的繪制過(guò)程包括分幀、加窗和離散傅里葉變換,再計(jì)算出每一幀的功率譜,用顏色的深淺表示能量的大小,從而繪制出語(yǔ)譜圖[7]。
電機(jī)與控制應(yīng)用 2022年9期2022-09-29
- 基于C語(yǔ)言的語(yǔ)譜圖生成
上世紀(jì)40年代初語(yǔ)譜圖儀問(wèn)世。語(yǔ)譜圖是語(yǔ)音的時(shí)域和頻域結(jié)合的視圖,其橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語(yǔ)音采樣數(shù)據(jù)的能量。語(yǔ)音信號(hào)的語(yǔ)譜圖又稱為聲紋,在語(yǔ)音信號(hào)處理、編碼、識(shí)別等方面有著重要的應(yīng)用??紤]到橫坐標(biāo)一個(gè)時(shí)間點(diǎn)采樣數(shù)據(jù)很難分析出各個(gè)頻率成分,橫坐標(biāo)一般采用一幀語(yǔ)音采樣數(shù)據(jù),這樣可以通過(guò)傅里葉變換得到該幀數(shù)據(jù)的頻譜,即縱坐標(biāo)。而縱坐標(biāo)各個(gè)頻率點(diǎn)的能量不同,如何在一個(gè)像素點(diǎn)反映這些不同能量?首先,能量的表示方法有很多種,有的采用幅頻的幅度絕對(duì)值作
現(xiàn)代計(jì)算機(jī) 2022年14期2022-09-20
- 基于改進(jìn)Inception-ResNet_v2的低資源少數(shù)民族語(yǔ)音識(shí)別
語(yǔ)音信號(hào)[5]和語(yǔ)譜圖[6]兩個(gè)角度切入。針對(duì)基于語(yǔ)音信號(hào)的語(yǔ)音識(shí)別研究,李余芳等[7]分別利用特定發(fā)音人和非特定發(fā)音人所錄的語(yǔ)音進(jìn)行隱馬爾可夫模型(Hidden Markov Model,HMM)訓(xùn)練,對(duì)普米語(yǔ)孤立詞進(jìn)行識(shí)別;趙爾平等[8]利用藏語(yǔ)語(yǔ)音學(xué)特征提出改進(jìn)的藏語(yǔ)孤立詞語(yǔ)音識(shí)別方法,識(shí)別精度可達(dá)92.83%;胡文君等[9]利用kaldi 分別訓(xùn)練5種不同的聲學(xué)模型,發(fā)現(xiàn)G-DNN 模型的普米語(yǔ)語(yǔ)音識(shí)別率明顯高于Monophone、Triphone
軟件導(dǎo)刊 2022年8期2022-08-25
- 基于卷積神經(jīng)網(wǎng)絡(luò)的鳥(niǎo)聲識(shí)別實(shí)驗(yàn)設(shè)計(jì)
果繪制STFT 語(yǔ)譜圖,同時(shí)提取梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)特征參數(shù),將MFCC特征和STFT語(yǔ)譜圖特征放入CNN 進(jìn)行訓(xùn)練,獲取最優(yōu)的訓(xùn)練參數(shù),利用訓(xùn)練好的CNN完成對(duì)鳥(niǎo)聲的識(shí)別分類,整個(gè)實(shí)驗(yàn)過(guò)程如圖1 所示。圖1 鳥(niǎo)聲識(shí)別實(shí)驗(yàn)流程圖實(shí)驗(yàn)時(shí)既可使用已訓(xùn)練好的CNN 對(duì)MFCC 特征和STFT語(yǔ)譜圖特征進(jìn)行鳥(niǎo)聲識(shí)別實(shí)驗(yàn),分析比較兩者的結(jié)果,也可由學(xué)生自行編程設(shè)計(jì)CNN模型進(jìn)行鳥(niǎo)聲識(shí)別實(shí)驗(yàn),通
實(shí)驗(yàn)室研究與探索 2022年4期2022-08-06
- 基于注意力機(jī)制和殘差卷積網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)?
構(gòu),將含噪語(yǔ)音的語(yǔ)譜圖作為輸入特征,輸出為增強(qiáng)后語(yǔ)音的語(yǔ)譜圖,最后重構(gòu)語(yǔ)音信號(hào)。2 基本原理2.1 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層、池化層,上采樣層和全連接層組成,通過(guò)這些網(wǎng)絡(luò)層就可以構(gòu)建一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。卷積層是通過(guò)卷積核和前一網(wǎng)絡(luò)層輸出進(jìn)行卷積運(yùn)算來(lái)提取特征的,然后偏置項(xiàng)相加,得出當(dāng)前層的特征。卷積核具有權(quán)值共享特性,相對(duì)于DNN和RNN可以大大減少參數(shù)。卷積層的更新公式如下[17]:式(1)中:xmj代表當(dāng)前層m的第j個(gè)特征圖輸入;f表示激活函
艦船電子工程 2022年5期2022-06-21
- 漢語(yǔ)方言語(yǔ)音信號(hào)的語(yǔ)譜圖分析
察不同語(yǔ)音信號(hào)的語(yǔ)譜圖,可獲取語(yǔ)音的一些參數(shù)和特征,經(jīng)分析比對(duì),可識(shí)別出不同地方的語(yǔ)言,為語(yǔ)音合成奠定了基礎(chǔ)。語(yǔ)音識(shí)別技術(shù)的發(fā)展依賴計(jì)算機(jī)技術(shù)、數(shù)字信號(hào)處理器(Digital Signal Process,DSP)技術(shù)以及人工智能(Artificial Intelligence,AI)技術(shù)的進(jìn)步。要實(shí)現(xiàn)人機(jī)對(duì)話,需要設(shè)計(jì)制造出一種能將人類語(yǔ)音信號(hào)進(jìn)行自動(dòng)轉(zhuǎn)換和處理的機(jī)器來(lái)模擬現(xiàn)實(shí)生活中的人,實(shí)現(xiàn)人與機(jī)器的“無(wú)障礙”溝通交流。要設(shè)計(jì)出能聽(tīng)懂人類語(yǔ)言的機(jī)器,關(guān)
電聲技術(shù) 2022年4期2022-06-15
- 基于ResNet模型的兒童口吃類型識(shí)別研究
征,將語(yǔ)音轉(zhuǎn)換成語(yǔ)譜圖,使用ResNet模型對(duì)語(yǔ)譜特征提取并識(shí)別.2 兒童口吃語(yǔ)料庫(kù)構(gòu)建本文首先對(duì)兒童語(yǔ)音進(jìn)行實(shí)地采集,然后采用語(yǔ)音合成技術(shù)生成口吃類型語(yǔ)音,再將其隨機(jī)填充到采集的兒童語(yǔ)音中,模擬真實(shí)口吃語(yǔ)音,最后對(duì)構(gòu)建口吃語(yǔ)音及真實(shí)口吃語(yǔ)音的語(yǔ)譜圖進(jìn)行相似度分析.2.1 語(yǔ)音采集本文研究所用語(yǔ)料是與書(shū)丸子教育有限公司合作,對(duì)21名幼兒園兒童進(jìn)行語(yǔ)音采集所得.每名兒童被要求朗讀一段幼兒園教材的文章,語(yǔ)音以 16 kHz 采樣率、16 bit 量化的wav格
- 資源匱乏多語(yǔ)言的語(yǔ)種辨識(shí)技術(shù)研究
轉(zhuǎn)化為相應(yīng)的灰度語(yǔ)譜圖,其次利用CNN提取語(yǔ)譜圖的空間特征,之后運(yùn)用BiGRU提取語(yǔ)譜圖的時(shí)間序列信息,最終輸出語(yǔ)種的分類結(jié)果。本文結(jié)構(gòu)安排如下:第三部分介紹采用的的方法,第四部分介紹實(shí)驗(yàn)設(shè)置,第五部分描述實(shí)驗(yàn)并分析結(jié)果,第六部分進(jìn)行總結(jié)。3 本文方法3.1 語(yǔ)譜圖生成語(yǔ)譜圖是語(yǔ)音信號(hào)在圖像域的一種表示方法,它能夠表示語(yǔ)音信號(hào)不同頻段的強(qiáng)度,可以通過(guò)傅里葉變換從語(yǔ)音信號(hào)中產(chǎn)生。語(yǔ)譜圖的橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示頻率,同時(shí)語(yǔ)譜圖中顯示了大量與語(yǔ)音特性有關(guān)的重
計(jì)算機(jī)仿真 2022年12期2022-02-09
- DenseNet在聲紋識(shí)別中的應(yīng)用研究*
展。近年來(lái),隨著語(yǔ)譜圖的出現(xiàn),研究者提出采用語(yǔ)譜圖與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式進(jìn)行說(shuō)話人身份識(shí)別[6 - 8],其優(yōu)勢(shì)在于語(yǔ)譜圖具有很強(qiáng)的綜合表征能力,能夠充分表示說(shuō)話人身份的完整信息,且卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)擅于提取特征的能力,使聲紋識(shí)別系統(tǒng)的識(shí)別性能得到大幅度提升。針對(duì)基于語(yǔ)譜圖的聲紋識(shí)別算法的研究目前仍處于初級(jí)階段,文獻(xiàn)[6-8]將卷積神經(jīng)網(wǎng)絡(luò)視為一種特征提取器,所用卷積層數(shù)較少,網(wǎng)絡(luò)的表達(dá)能力有
計(jì)算機(jī)工程與科學(xué) 2022年1期2022-01-24
- 基于時(shí)空特征的語(yǔ)音情感識(shí)別模型TSTNet
到3個(gè)不同尺度的語(yǔ)譜圖,分別提取它們的空間特征、時(shí)間特征以及前后語(yǔ)義關(guān)系,在特征融合模塊中將提取得到的3個(gè)特征向量融合到一起。1 相關(guān)工作1.1 情感描述方式目前主要有2種描述情感的方法:基于離散的方法和基于維度的方法。情感的離散描述方法是將情感離散化,并進(jìn)一步類別化。陳煒亮等[5]提出一種新的情感識(shí)別模型MFCCG-PCA,實(shí)現(xiàn)生氣、高興、害怕、悲傷、驚訝和中性6種情感的分類。離散的描述方式簡(jiǎn)單并且應(yīng)用廣泛,但是情感描述單一。情感的維度描述方法是將情感狀
鄭州大學(xué)學(xué)報(bào)(工學(xué)版) 2021年6期2021-12-14
- 基于二次引導(dǎo)圖像濾波的跨模態(tài)語(yǔ)音增強(qiáng)方法*
像處理技術(shù)來(lái)處理語(yǔ)譜圖,這種技術(shù)已應(yīng)用于音樂(lè)轉(zhuǎn)錄、樂(lè)器聲音分離、降噪等[3-5]. 相反,我們可以從視為語(yǔ)譜圖的圖像中產(chǎn)生聲音信號(hào),這種技術(shù)稱為圖像到聲音的映射或模式回放[6-9].Han等[10]將監(jiān)督學(xué)習(xí)的方法擴(kuò)展到去噪中,在沒(méi)有受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)預(yù)訓(xùn)練的情況下對(duì)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)進(jìn)行訓(xùn)練,DNN被訓(xùn)練直接學(xué)習(xí)從損壞語(yǔ)音的語(yǔ)譜圖到干凈語(yǔ)音的語(yǔ)譜
測(cè)試技術(shù)學(xué)報(bào) 2021年5期2021-11-02
- 基于計(jì)算聽(tīng)覺(jué)場(chǎng)分析的單聲道的雙人語(yǔ)音濁音分離*
文嘗試?yán)L制語(yǔ)音的語(yǔ)譜圖與基音周期譜圖,考慮到幀移越大,繪制效果越好,但計(jì)算量也越大,故進(jìn)行繪制時(shí),對(duì)采樣率16000Hz的語(yǔ)音,統(tǒng)一以幀長(zhǎng)512個(gè)采樣點(diǎn),幀移487個(gè)采樣點(diǎn)的標(biāo)準(zhǔn)進(jìn)行語(yǔ)譜圖與基音周期譜圖的繪制,確保一句完整的語(yǔ)音能顯示在一幅屏幕范圍內(nèi)的同時(shí),擁有最佳的繪制效果。語(yǔ)譜圖的繪制取語(yǔ)音信號(hào)進(jìn)行單幀傅里葉變換后,將所得的振幅譜數(shù)據(jù)映射到灰度值0~255之間。對(duì)第m幀語(yǔ)音信號(hào)x(n)進(jìn)行短時(shí)傅里葉變換,得到短時(shí)頻譜,其中N為幀長(zhǎng),如式(1)所示:?jiǎn)螏?/div>
計(jì)算機(jī)與數(shù)字工程 2021年4期2021-10-09
- 基于MD-CGAN的情感語(yǔ)音去噪算法
Iz表示有噪聲的語(yǔ)譜圖,Ix表示干凈語(yǔ)譜圖,Ig表示去噪后的語(yǔ)譜圖,Iy表示語(yǔ)音情感類別標(biāo)簽。生成器網(wǎng)絡(luò)G的輸入是Iz和標(biāo)簽Iy,輸出是Ig,判決器網(wǎng)絡(luò)D的輸入是Ix和Ig,輸出為1或0。D需要將Ix判定為真,將Ig判定為假,從而使得G為了通過(guò)D的判定,將改變它的參數(shù)讓Ig更加接近Ix,而D通過(guò)反向傳播,在判定Ig和Ix方面變得更加優(yōu)秀。Iy作為整個(gè)網(wǎng)絡(luò)的約束來(lái)指導(dǎo)語(yǔ)譜圖去噪過(guò)程。最后,訓(xùn)練出適合去除語(yǔ)譜圖噪聲的生成器模型。圖1 基于CGAN的語(yǔ)音去噪模型- 基于主輔網(wǎng)絡(luò)特征融合的語(yǔ)音情感識(shí)別
得了較好的效果。語(yǔ)譜圖是一維語(yǔ)音信號(hào)在二維時(shí)頻域的展開(kāi),能夠充分反映語(yǔ)音信號(hào)在時(shí)頻域大部分信息。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)由于其自動(dòng)學(xué)習(xí)特征的能力和適用于二維圖像數(shù)據(jù)的特點(diǎn),目前被廣泛用在語(yǔ)譜圖中提取特征,進(jìn)一步提高語(yǔ)音情感識(shí)別性能[5-8]。如文獻(xiàn)[8]先將語(yǔ)譜圖輸入全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),并在最后一層卷積層使用注意力機(jī)制,最后進(jìn)行情感識(shí)別,在太原理工大學(xué)學(xué)報(bào) 2021年5期2021-09-22
- 簡(jiǎn)析聲紋串并在非接觸性網(wǎng)絡(luò)詐騙案件偵破中的應(yīng)用
手段 案件串并 語(yǔ)譜圖分析1 引言近年來(lái),非接觸性網(wǎng)絡(luò)詐騙案件呈現(xiàn)多發(fā)、高發(fā)態(tài)勢(shì),犯罪手段多樣,犯罪團(tuán)伙人員組成復(fù)雜,涉案地域廣,這些案件特點(diǎn)給案件偵破工作帶來(lái)前所未有的考驗(yàn)。習(xí)近平總書(shū)記在對(duì)打擊治理電信網(wǎng)絡(luò)詐騙犯罪工作中作出重要指示,強(qiáng)調(diào)“堅(jiān)持以人民為中心,統(tǒng)籌發(fā)展和安全,強(qiáng)化系統(tǒng)觀念、法治思維,注重源頭治理、綜合治理,堅(jiān)持齊抓共管、群防群治,全面落實(shí)打防管控各項(xiàng)措施和金融、通信、互聯(lián)網(wǎng)等行業(yè)監(jiān)管主體責(zé)任,加強(qiáng)法律制度建設(shè),加強(qiáng)社會(huì)宣傳教育防范,推進(jìn)國(guó)際中國(guó)安全防范技術(shù)與應(yīng)用 2021年2期2021-06-11
- 基于自適應(yīng)濾波法與譜減法的語(yǔ)音增強(qiáng)的研究
音信號(hào)的信噪比和語(yǔ)譜圖來(lái)說(shuō)明語(yǔ)音增強(qiáng)效果的優(yōu)劣[15-16].圖4和圖5分別是原始語(yǔ)音信號(hào)和噪聲語(yǔ)音信號(hào)的語(yǔ)譜圖.通過(guò)觀察可以發(fā)現(xiàn),純語(yǔ)音信號(hào)的語(yǔ)譜圖的頻率分布是非常規(guī)則的,由于沒(méi)有背景噪聲干擾,所以純語(yǔ)音信號(hào)的語(yǔ)譜圖只有有聲段有頻率的分布,在無(wú)聲段沒(méi)有頻率的分布;含有背景噪聲的語(yǔ)音信號(hào)的語(yǔ)譜圖,在整個(gè)時(shí)域上都會(huì)出現(xiàn)頻率分布并且有原始語(yǔ)音信號(hào)丟失的現(xiàn)象.因此,根據(jù)語(yǔ)譜圖中頻率在有聲段和無(wú)聲段的分布情況可以判斷使用新型譜減算法進(jìn)行語(yǔ)音增強(qiáng)之后是否能夠去除殘留- 基于C-LSTM 的鳥(niǎo)鳴聲識(shí)別方法*
FCT)獲得3種語(yǔ)譜數(shù)據(jù)集,用VGG16 模型對(duì)18 種鳥(niǎo)類語(yǔ)譜圖進(jìn)行分類達(dá)到了較高的識(shí)別準(zhǔn)確率。鳥(niǎo)鳴聲中不僅包含個(gè)性聲音的空間特征[8],而且包含了鳴聲段之間的時(shí)序特征,上述鳥(niǎo)鳴聲識(shí)別方面的研究均沒(méi)有充分利用鳥(niǎo)類聲紋時(shí)序特征。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)適合于處理具有時(shí)間關(guān)聯(lián)度的聲紋信號(hào)。本文在深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Me科技創(chuàng)新與應(yīng)用 2021年15期2021-06-03
- 基于語(yǔ)譜圖的江西境內(nèi)贛方言自動(dòng)分區(qū)研究
FCC)特征以及語(yǔ)譜圖兩種不同的語(yǔ)音特征。針對(duì)語(yǔ)音特征提取的維度過(guò)大問(wèn)題,在MFCC特征上采取了PCA(principle component analysis)降維處理,在語(yǔ)譜圖特征上采用基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)系統(tǒng)的自編碼降維處理。對(duì)降維后的語(yǔ)音特征分別采用k-均值算法聚類、高斯混合聚類和層次聚類對(duì)方言自動(dòng)分區(qū),并采用聚類性能度量指標(biāo)評(píng)價(jià)聚類效果。實(shí)驗(yàn)結(jié)果表明,新型語(yǔ)譜圖特征的聚類性能度量?jī)?nèi)中文信息學(xué)報(bào) 2021年4期2021-05-27
- 基于放電聲音識(shí)別的高壓電器絕緣監(jiān)測(cè)研究
本文使用聲音信號(hào)語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式來(lái)提取聲音信號(hào)的特征參數(shù)[6-7]。生成的網(wǎng)絡(luò)模型具備處理數(shù)據(jù)能力強(qiáng)、識(shí)別率高以及便于優(yōu)化等優(yōu)點(diǎn)。對(duì)比文獻(xiàn)[8]20、文獻(xiàn)[9]56,本文方法能夠識(shí)別的聲音信號(hào)更加多樣化,同時(shí)在準(zhǔn)確率上也有所提升[10-11]。1 聲音信號(hào)特征提取信號(hào)特征能反映聲音的重要本質(zhì)參數(shù),而信號(hào)又處于非穩(wěn)態(tài)且時(shí)變的狀態(tài),因而聲音信號(hào)需要進(jìn)行預(yù)處理,便于提取特征。預(yù)處理主要是對(duì)聲音信號(hào)進(jìn)行預(yù)加重、分幀以及加窗處理。預(yù)加重一般通過(guò)數(shù)字濾電氣自動(dòng)化 2021年2期2021-05-13
- 基于CNN的普米語(yǔ)孤立詞語(yǔ)譜圖分類
于語(yǔ)音信號(hào)和基于語(yǔ)譜圖的2種語(yǔ)音識(shí)別方法.語(yǔ)音識(shí)別中,同一個(gè)詞不同說(shuō)話者的語(yǔ)速不同,同一個(gè)人發(fā)同一個(gè)音,在不同時(shí)刻,所用的時(shí)間也不相同[2-3].因此,通過(guò)語(yǔ)音信號(hào)來(lái)統(tǒng)計(jì)人類語(yǔ)音的發(fā)音特征非常困難.基于語(yǔ)音信號(hào)的語(yǔ)音識(shí)別中提取的特征參數(shù)主要有梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)等,其中MF- 生成對(duì)抗網(wǎng)絡(luò)下小樣本語(yǔ)音情感識(shí)別方法
時(shí)域和頻域特征的語(yǔ)譜圖信號(hào)[11]。首先,對(duì)一段長(zhǎng)的語(yǔ)音數(shù)據(jù)執(zhí)行分幀操作,把語(yǔ)音信號(hào)切割成大小相等的片段,其中的每一段為一幀,分別對(duì)每一個(gè)語(yǔ)音幀進(jìn)行加窗處理,以減小信號(hào)中不連續(xù)部分的幅值,通過(guò)傅里葉變換計(jì)算出每幀語(yǔ)音數(shù)據(jù)的頻率譜,對(duì)其平方轉(zhuǎn)化得到對(duì)應(yīng)頻譜的能量譜,最后把所得到的結(jié)果按照時(shí)間維度拼接形成語(yǔ)譜圖,如圖2所示。圖2 語(yǔ)譜圖人們的情感變化可以清晰表現(xiàn)在語(yǔ)譜圖上。例如,人們傷心時(shí),語(yǔ)速較慢,平均音調(diào)較低,語(yǔ)氣強(qiáng)度比較低,在語(yǔ)譜圖中深顏色部分的面積較小計(jì)算機(jī)工程與設(shè)計(jì) 2020年12期2020-12-28
- 基于CNN-BGRU的音素識(shí)別研究
數(shù)據(jù)集上進(jìn)行音素語(yǔ)譜圖分類任務(wù),基于CNN-BGRU的混合模型在識(shí)別效果的準(zhǔn)確率明顯高于其它4個(gè)模型,基于CNN-BGRU的混合模型的正確率可以達(dá)98.6%.1 相關(guān)工作1.1 VGGNet模型2014年GoogleNet和VGGNet分別獲得了ILSVRC圖像分類大賽的冠亞軍,兩個(gè)模型都注重從加深網(wǎng)絡(luò)深度的角度去提升卷積神經(jīng)網(wǎng)絡(luò)的性能.GoogleNet對(duì)傳統(tǒng)卷積層的結(jié)構(gòu)進(jìn)行了改進(jìn),而VGGNet則采用了較小的卷積核,卷積核小能一定程度上減少參數(shù)量且方便- 融合淺層學(xué)習(xí)和深度學(xué)習(xí)模型的語(yǔ)音情感識(shí)別
進(jìn)行結(jié)合,提出了語(yǔ)譜圖特征提取方法,并應(yīng)用于語(yǔ)音識(shí)別[4]和語(yǔ)音情感識(shí)別相關(guān)領(lǐng)域[5]。在識(shí)別模型研究方面,從淺層學(xué)習(xí)的支持向量機(jī)(SVM)[6]、隱馬爾可夫模型(HMM)[7]、高斯混合模型(GMM)[8],到深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]、深度置信網(wǎng)絡(luò)(DBN)[11]和遞歸神經(jīng)網(wǎng)絡(luò)等(RNN)[10]。與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比,深度學(xué)習(xí)能夠提取高層的特征,近年來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域具有出色的表現(xiàn),其中卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、圖像識(shí)別等領(lǐng)域取得了前計(jì)算機(jī)應(yīng)用與軟件 2020年12期2020-12-14
- 漢語(yǔ)連續(xù)語(yǔ)音切分技術(shù)研究?
5]。本文通過(guò)對(duì)語(yǔ)譜圖以及基音周期軌跡的分析,研究了一種音節(jié)切分的算法,能夠有效提高漢語(yǔ)語(yǔ)音切分的準(zhǔn)確率。2 端點(diǎn)檢測(cè)技術(shù)語(yǔ)音的端點(diǎn)檢測(cè)是指從一段原始信號(hào)中準(zhǔn)確地找出語(yǔ)音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)[6]。它的目的是為了使有用的語(yǔ)音信號(hào)和無(wú)用的無(wú)聲段與噪聲信號(hào)相分離,增加后續(xù)語(yǔ)音處理的有效性[7]。目前廣泛采用的端點(diǎn)檢測(cè)方法是雙門限端點(diǎn)檢測(cè)技術(shù)[8]。本文基于對(duì)傳統(tǒng)雙門限檢測(cè)法理論的研究,研究了一種多閾值檢測(cè)方法,有效提高了端點(diǎn)檢測(cè)的準(zhǔn)確率。2.1 雙門限端點(diǎn)檢測(cè)計(jì)算機(jī)與數(shù)字工程 2020年8期2020-10-14
- 基于ResNet-BLSTM的端到端語(yǔ)音識(shí)別
直接將整段語(yǔ)音的語(yǔ)譜圖作為輸入,相比其他以傳統(tǒng)語(yǔ)音特征作為輸入的語(yǔ)音識(shí)別模型速度更快。其次,從模型結(jié)構(gòu)來(lái)看,本文的ResNet與傳統(tǒng)端到端系統(tǒng)中的CNN 做法不同,它借鑒了圖像識(shí)別中做法,通過(guò)將語(yǔ)音轉(zhuǎn)化成一張圖像作為輸入,再將時(shí)間和頻率作為圖像的兩個(gè)維度,然后通過(guò)一些卷積層和池化(pooling)層的組合,這樣大大增強(qiáng)了CNN的表達(dá)能力。其次在ResNet 后接BLSTM,通過(guò)該網(wǎng)絡(luò)能夠?qū)W習(xí)到語(yǔ)音信號(hào)的上下文信息,從而提升端到端模型的識(shí)別率。2 DCNN模計(jì)算機(jī)工程與應(yīng)用 2020年18期2020-09-15
- 基于語(yǔ)譜圖和神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別研究
李蜜基于語(yǔ)譜圖和神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別研究李蜜(華中師范大學(xué) 物理科學(xué)與技術(shù)學(xué)院,湖北 武漢 430079)隨著科技的不斷發(fā)展,人們對(duì)信息安全的要求越來(lái)越高,如何更簡(jiǎn)單、更方便、更加安全地進(jìn)行身份驗(yàn)證變得異常重要.在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)上,結(jié)合語(yǔ)譜圖和直方均衡增強(qiáng)算法對(duì)聲紋識(shí)別特征進(jìn)行學(xué)習(xí)和訓(xùn)練.模型使用非固定長(zhǎng)度語(yǔ)音段,首先將語(yǔ)音段進(jìn)行濾波、分幀、加窗和離散余弦變換得到語(yǔ)譜圖,再使用直方均衡算法將像素點(diǎn)不均勻分布語(yǔ)譜圖轉(zhuǎn)化成像素點(diǎn)能在整個(gè)灰度區(qū)間均勻高師理科學(xué)刊 2020年4期2020-06-23
- 基于CNN_LSTM的語(yǔ)音情感識(shí)別系統(tǒng)設(shè)計(jì)
。我院設(shè)計(jì)采用的語(yǔ)譜圖作為輸入,克服了傳統(tǒng)算法在提取情感特征向量時(shí)造成的誤差,并提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)改進(jìn)的深度學(xué)習(xí)框架,采用中科院漢語(yǔ)情感數(shù)據(jù)集CASIA語(yǔ)料庫(kù)和柏林情感語(yǔ)音庫(kù),將語(yǔ)譜圖輸入到三通道CNN中,每通道設(shè)置不同的卷積核,進(jìn)行多維特征提取,初步訓(xùn)練后,將得到的三組特征組合成新的情感特征向量,通過(guò)LSTM再次進(jìn)行訓(xùn)練,最終得到情感分類。實(shí)驗(yàn)結(jié)果表明,本文結(jié)構(gòu)在識(shí)別多分類情感時(shí),表現(xiàn)良好,在六分類問(wèn)題上可達(dá)到平均92%的識(shí)別率。1 基于語(yǔ)電聲技術(shù) 2020年3期2020-06-18
- 基于雙重?cái)?shù)據(jù)增強(qiáng)策略的音頻分類方法
強(qiáng)后的數(shù)據(jù)轉(zhuǎn)化為語(yǔ)譜圖;三是對(duì)得到的語(yǔ)譜圖使用隨機(jī)均值替換方法進(jìn)行譜圖增強(qiáng),即第二次數(shù)據(jù)增強(qiáng)。雙重?cái)?shù)據(jù)增強(qiáng)后還需進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林分類器[12-13]兩個(gè)訓(xùn)練過(guò)程,以完成整個(gè)音頻分類流程。1 方法介紹本文方法大體可分為4個(gè)步驟,分別為數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強(qiáng)、獲取高層特征和分類器訓(xùn)練,框架結(jié)構(gòu)如圖1所示,其核心內(nèi)容為雙重?cái)?shù)據(jù)增強(qiáng)(Double Data Augmentation,DDA)、神經(jīng)網(wǎng)絡(luò)模型(Inception_Resnet_V2)訓(xùn)練、隨機(jī)武漢科技大學(xué)學(xué)報(bào) 2020年2期2020-05-12
- 基于語(yǔ)譜圖與改進(jìn)DenseNet的野外車輛識(shí)別
寶清,袁曉兵基于語(yǔ)譜圖與改進(jìn)DenseNet的野外車輛識(shí)別周鵬1,2,3,李成娟1,3,趙沁1,3,王艷1,唐洪瑩1,李寶清1,袁曉兵1(1. 中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所微系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 201800;2. 上??萍即髮W(xué)信息學(xué)院,上海 201210;3. 中國(guó)科學(xué)院大學(xué),北京 100049針對(duì)在野外運(yùn)動(dòng)車輛分類過(guò)程中,傳統(tǒng)梅爾倒譜系數(shù)與高斯混合模型分類方法對(duì)干擾噪聲較為敏感的情況,提出了改進(jìn)的密集卷積網(wǎng)絡(luò)結(jié)構(gòu)(DenseNet)方法。首聲學(xué)技術(shù) 2020年2期2020-05-09
- 基于語(yǔ)譜圖和深度置信網(wǎng)絡(luò)的方言自動(dòng)辨識(shí)與說(shuō)話人識(shí)別
出了一種基于特征語(yǔ)譜圖和自適應(yīng)聚類SOM 的快速說(shuō)話人識(shí)別算法。2 語(yǔ)音信號(hào)預(yù)處理語(yǔ)音信號(hào)中低頻部分能量占主體,為了讓頻譜中高頻部分的幅度得到提升,對(duì)語(yǔ)音信號(hào)做后續(xù)處理之前,通常需要用一個(gè)一階高通濾波器對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重[6][12][13]。本文研究基于孤立詞的方言自動(dòng)辨識(shí)和說(shuō)話人識(shí)別,為了將整段語(yǔ)音信號(hào)分割成一個(gè)個(gè)孤立詞,需要利用端點(diǎn)檢測(cè)技術(shù)確定每個(gè)孤立詞語(yǔ)音的起始位置和終止位置[6][7]。雙門限判決法是一種常用的語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法[6][7],電子技術(shù)與軟件工程 2020年14期2020-02-03
- 基于Praat的藏語(yǔ)連續(xù)語(yǔ)音參數(shù)提取仿真和分析
有語(yǔ)音波形繪制、語(yǔ)譜顯示、特征參數(shù)標(biāo)注、語(yǔ)音分解和合成等多種功能的語(yǔ)音信號(hào)分析研究工具。Praat強(qiáng)大的可視化交互界面,可以直觀動(dòng)態(tài)觀察語(yǔ)音信號(hào)的細(xì)節(jié)參數(shù)。圖1是把一個(gè)真人錄音的語(yǔ)音文件導(dǎo)入到Praat軟件后的語(yǔ)音分析界面。2.1 語(yǔ)音時(shí)域波形和參數(shù)提取在Praat軟件環(huán)境下,一段語(yǔ)音完成錄音后,可以進(jìn)行語(yǔ)音的各種時(shí)域參數(shù)提取和分析。圖2是一個(gè)語(yǔ)音文件的時(shí)域語(yǔ)音強(qiáng)度波形圖。從強(qiáng)度曲線變化上可以直觀的觀察這段語(yǔ)音強(qiáng)度的特性,是語(yǔ)音發(fā)音過(guò)程中節(jié)奏變化的體現(xiàn)。在電子技術(shù)與軟件工程 2019年20期2019-11-16
- 基于組合DNN的語(yǔ)音分離方法
域波形圖和對(duì)應(yīng)的語(yǔ)譜圖,圖5表示DNN2語(yǔ)音分離系統(tǒng)的純凈語(yǔ)音、混合信號(hào)和分離語(yǔ)音的時(shí)域波形圖和對(duì)應(yīng)的語(yǔ)譜圖,圖6表示CE_DNN語(yǔ)音分離系統(tǒng)的純凈語(yǔ)音、混合信號(hào)和分離語(yǔ)音的時(shí)域波形圖和對(duì)應(yīng)的語(yǔ)譜圖。(a)純凈語(yǔ)音時(shí)域波形圖(b)混合語(yǔ)音時(shí)域波形圖(c)分離語(yǔ)音時(shí)域波形圖(d)純凈語(yǔ)音的語(yǔ)譜圖(e)混合語(yǔ)音的語(yǔ)譜圖(f)分離語(yǔ)音的語(yǔ)譜圖Fig.4 DNN1 speech separation system of pure speech, mixed sig數(shù)碼設(shè)計(jì) 2019年2期2019-09-19
- HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
Alexnet對(duì)語(yǔ)譜圖分類,在數(shù)據(jù)集[8]上達(dá)到86.67%的精確度.將語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖,可以利用神經(jīng)網(wǎng)絡(luò)識(shí)別并提取與研究目標(biāo)相關(guān)的重要聲紋特征以自動(dòng)對(duì)圖像進(jìn)行分類.目前,最受歡迎的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)VGGNets中的VGG16模型是用于圖像識(shí)別和分類的主要工具.VGG16具有拓展性很強(qiáng)、泛化性好等優(yōu)點(diǎn),在其他領(lǐng)域的圖像數(shù)據(jù)集上達(dá)到很好的效果,作為一種數(shù)據(jù)驅(qū)動(dòng)模型,依賴大量樣本.但現(xiàn)階段用于小型微型計(jì)算機(jī)系統(tǒng) 2019年9期2019-09-09
- 連續(xù)漢語(yǔ)語(yǔ)音切分技術(shù)研究?
分析2.2.1 語(yǔ)譜圖語(yǔ)譜圖[9]反映語(yǔ)音的時(shí)頻特性,語(yǔ)譜圖的橫軸表示時(shí)間(幀序號(hào)),縱軸表示語(yǔ)音信號(hào)的頻率。語(yǔ)譜圖中像素點(diǎn)顏色深表示該點(diǎn)的語(yǔ)音能量較強(qiáng)。語(yǔ)譜圖的繪制步驟如下:1)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,再根據(jù)式(3)求快速傅里葉變換。2)根據(jù)式(4)將Xn(ω)轉(zhuǎn)換為振幅譜,R 表示Xn(ω)的實(shí)部,I表示Xn(ω)的虛部。3)將振幅轉(zhuǎn)換為灰度圖像數(shù)據(jù)。振幅越大,像素點(diǎn)的灰度越深;反之越淺。4)繪制語(yǔ)譜圖,因?yàn)閷?shí)數(shù)的振幅譜為偶函數(shù),關(guān)于中心對(duì)稱,所以繪制語(yǔ)計(jì)算機(jī)與數(shù)字工程 2019年7期2019-07-31
- 基于AlexNet模型的佤語(yǔ)語(yǔ)譜圖識(shí)別
主要從語(yǔ)音信號(hào)和語(yǔ)譜圖兩個(gè)角度切入.語(yǔ)音信號(hào),主要的研究方法有隱馬爾科夫模型、深度置信網(wǎng)絡(luò)等.蔡琴[12]建立了維吾爾語(yǔ)的連續(xù)數(shù)字語(yǔ)音聲學(xué)模型,對(duì)維吾爾語(yǔ)連續(xù)數(shù)字短語(yǔ)識(shí)別率達(dá)到80%,詞識(shí)別率達(dá)到91.19%.胡文君[13]分別訓(xùn)練了5種不同的聲學(xué)模型: Monophone、Triphone1、Triphone2、O-SGMM、G-DNN,實(shí)驗(yàn)結(jié)果表明,隨著語(yǔ)料量的增加,系統(tǒng)魯棒性提高.語(yǔ)譜圖,宋洋[14]針對(duì)維吾爾語(yǔ)音素的語(yǔ)譜圖像提取二值和邊緣特征,建立- 基于免疫遺傳優(yōu)化支持向量機(jī)的普米語(yǔ)孤立詞語(yǔ)譜圖分類
為研究對(duì)象,借助語(yǔ)譜圖研究其特征,最終實(shí)現(xiàn)普米語(yǔ)孤立詞分類.1 語(yǔ)音識(shí)別相關(guān)研究工作目前,語(yǔ)音識(shí)別的方法可以歸結(jié)基于語(yǔ)音信號(hào)和基于語(yǔ)譜圖2種.1) 基于語(yǔ)音信號(hào)的方法.語(yǔ)音信號(hào)是一種非線性隨機(jī)并存在混沌的機(jī)制,就目前而言處理這種機(jī)制的模型主要語(yǔ)音信號(hào)的線性模型和非線性模型兩種.線性模型的理論基礎(chǔ)是確定性線性系統(tǒng)理,而非線性模型則視語(yǔ)音信號(hào)為一些調(diào)幅—調(diào)頻信號(hào)的疊加,其核心是瞬時(shí)頻率.在此之前本團(tuán)隊(duì)基于語(yǔ)音信號(hào)的普米語(yǔ)語(yǔ)音識(shí)別,已取得了一些成果[2-4].2- 聲音-圖像的跨模態(tài)處理方法綜述
最重要的中介就是語(yǔ)譜圖。語(yǔ)譜圖將聲音的頻譜隨時(shí)間變化的信息展現(xiàn)在一個(gè)二維平面圖上,其中橫軸是時(shí)間,縱軸是頻率,某一點(diǎn)處顏色的深淺代表了對(duì)應(yīng)時(shí)刻和頻率的信號(hào)能量大小,也被稱為聲譜圖(spectrogram)。它雖然反映了聲音信號(hào)的特征,但是卻和二維圖像具有相同的屬性。以它為中介,可以完成圖像到聲音和聲音到圖像的雙向轉(zhuǎn)換,達(dá)到跨模態(tài)處理的目的。本文接下來(lái)一方面介紹了從語(yǔ)譜圖的角度進(jìn)行聲音分類的研究?jī)?nèi)容及進(jìn)展情況,包括用于音樂(lè)流派分類圖像特征類型及其分類的精確度- 基于時(shí)頻域特征的場(chǎng)景音頻研究
得到待分析信號(hào)的語(yǔ)譜圖, 對(duì)于其中涉及到的重要參數(shù)進(jìn)行調(diào)整, 使其中的聲學(xué)特征得到完整保留, 使語(yǔ)譜圖的表現(xiàn)效果達(dá)到最佳狀態(tài), 進(jìn)而可應(yīng)用于場(chǎng)景音頻的分類處理及模式識(shí)別等研究方向[6]。1 語(yǔ)譜圖語(yǔ)譜圖是一種可視化語(yǔ)言, 能描述聲音時(shí)間-頻率-頻譜能量密度的變化, 被廣泛應(yīng)用于音頻識(shí)別及去噪領(lǐng)域[7,8]。語(yǔ)譜圖的顯示簡(jiǎn)潔明了, 灰度語(yǔ)譜圖上會(huì)用深淺不同的黑灰色條紋呈現(xiàn)出有規(guī)律的形狀, 即聲紋, 它反映音頻信號(hào)的變化規(guī)律。語(yǔ)譜圖的橫坐標(biāo)為時(shí)間, 縱坐標(biāo)為頻- 語(yǔ)音情感識(shí)別算法中新型參數(shù)研究*
,提出一種新型的語(yǔ)譜圖顯著性特征來(lái)改善語(yǔ)音情感識(shí)別效果。識(shí)別算法利用選擇性注意模型獲取語(yǔ)音信號(hào)語(yǔ)譜圖像的顯著圖,并從中提取顯著性特征,結(jié)合語(yǔ)音信號(hào)傳統(tǒng)的時(shí)頻特征構(gòu)成語(yǔ)音情感識(shí)別特征向量。最后,利用KNN分類方法進(jìn)行語(yǔ)音情感識(shí)別。實(shí)驗(yàn)結(jié)果表明,加入顯著性特征后識(shí)別率有明顯提升。語(yǔ)音情感識(shí)別;顯著性特征;KNN分類當(dāng)今世界科技水平高速發(fā)展,人們也對(duì)計(jì)算機(jī)提出了更多要求。在智能人機(jī)交互系統(tǒng)構(gòu)建中,語(yǔ)音情感識(shí)別已成為關(guān)鍵技術(shù)之一。對(duì)語(yǔ)音信號(hào)的情感分析,使得人機(jī)交互電子器件 2017年5期2017-11-03
- 語(yǔ)譜圖二次傅里葉變換特定人二字漢語(yǔ)詞匯識(shí)別
100081)語(yǔ)譜圖二次傅里葉變換特定人二字漢語(yǔ)詞匯識(shí)別潘 迪1,梁士利1,魏 瑩1,李廣巖1,許廷發(fā)2,王雙維1(1.東北師范大學(xué)物理學(xué)院,吉林 長(zhǎng)春 130024;2.北京理工大學(xué)光電成像與信息工程研究所,北京 100081)以語(yǔ)音信號(hào)的語(yǔ)譜圖作為處理對(duì)象,提出了基于語(yǔ)譜圖二次傅里葉變換對(duì)特定人二字詞匯識(shí)別的方法.首先對(duì)語(yǔ)譜圖二次傅里葉變換頻域圖的圖像意義以及相應(yīng)的語(yǔ)音特性表征進(jìn)行了詳細(xì)剖析;然后對(duì)語(yǔ)譜圖頻域圖像進(jìn)行二進(jìn)寬度行投影,將投影值作為語(yǔ)音識(shí)東北師大學(xué)報(bào)(自然科學(xué)版) 2017年2期2017-06-13
- 基于語(yǔ)譜圖提取瓶頸特征的情感識(shí)別算法研究
10003)基于語(yǔ)譜圖提取瓶頸特征的情感識(shí)別算法研究李 姍,徐瓏婷(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)傳統(tǒng)的譜特征(諸如MFCC)來(lái)源于對(duì)語(yǔ)譜圖特征的再加工提取,但存在著因分幀處理引起相鄰幀譜特征之間相關(guān)性被忽略的問(wèn)題和所提取的譜特征與目標(biāo)標(biāo)簽不相關(guān)的問(wèn)題。這導(dǎo)致了從語(yǔ)譜圖中提取的特征丟失了很多有用信息。為此,提出了獲取深度譜特征(Deep Spectral Feature,DSF)的算法。DSF的特征是把直接從語(yǔ)譜圖中提取的譜特計(jì)算機(jī)技術(shù)與發(fā)展 2017年5期2017-06-05
- 基于語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別
君鵬,杜留鋒基于語(yǔ)譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別田熙燕1,徐君鵬1,杜留鋒2(1.河南科技學(xué)院信息工程學(xué)院,河南新鄉(xiāng)453002;2.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇南京210003)針對(duì)語(yǔ)音情感識(shí)別的特征提取和分類模型構(gòu)建問(wèn)題,首先提出了一種基于語(yǔ)譜圖的特征提取方法,將語(yǔ)譜圖進(jìn)行歸一灰度化后,利用Gabor濾波器進(jìn)行紋理特征提取,并采用主成分分析(principal componentanalysis, PCA)對(duì)特征矩陣進(jìn)行降維;然后分析了卷積神- 基于設(shè)備本底噪聲頻譜特征的手機(jī)來(lái)源識(shí)別
機(jī)品牌的本底噪聲語(yǔ)譜本底噪聲的定義表明,本底噪聲的特性與手機(jī)的電路設(shè)計(jì)和電子元器件的使用密切相關(guān)。由于不同型號(hào)的手機(jī)在電路設(shè)計(jì)和電子元器件的使用上存在部分差異。所以,本底噪聲可以作為手機(jī)的“指紋”進(jìn)行手機(jī)的來(lái)源識(shí)別。2.2 本底噪聲的性質(zhì)為了研究本底噪聲的特性,對(duì)現(xiàn)下流行的7個(gè)品牌24個(gè)型號(hào)的25臺(tái)設(shè)備 (其中有兩臺(tái)iPhone 5)進(jìn)行了研究,具體手機(jī)型號(hào)見(jiàn)表1。實(shí)際本底噪聲樣本是在無(wú)回聲的錄音棚的靜音環(huán)境下錄制的。為了避免其他電氣設(shè)備噪聲對(duì)實(shí)驗(yàn)的干擾,電信科學(xué) 2017年1期2017-05-03
- 基于語(yǔ)譜圖特征信息分割提取的聲景觀中鳥(niǎo)類生物多樣性分析
48823基于語(yǔ)譜圖特征信息分割提取的聲景觀中鳥(niǎo)類生物多樣性分析蔣錦剛1,邵小云1,萬(wàn)海波1,*,齊家國(guó)1,2,荊長(zhǎng)偉1,程天佑11 浙江大學(xué), 海洋學(xué)院, 杭州 310058 2 密歇根州立大學(xué), 全球變化與對(duì)地觀測(cè)研究中心, 東蘭辛市 48823聲學(xué)手段是監(jiān)測(cè)和研究生態(tài)系統(tǒng)生物活動(dòng)規(guī)律、評(píng)價(jià)生態(tài)系統(tǒng)健康狀況的一種新方法,聲景觀生態(tài)學(xué)也是景觀生態(tài)學(xué)的一個(gè)新興研究領(lǐng)域。聲景指數(shù)是描述復(fù)雜的音頻數(shù)據(jù)生態(tài)學(xué)特征的有效方法,但是,單一的聲景指數(shù)并不能有效的指示生態(tài)學(xué)報(bào) 2016年23期2016-04-14
- 語(yǔ)音信號(hào)的多小波脊提取算法研究
語(yǔ)音信號(hào)時(shí)頻圖的語(yǔ)譜圖方法,把小波脊提取方法運(yùn)用到語(yǔ)音信號(hào)的頻譜提取中,并對(duì)兩種方法進(jìn)行了對(duì)比。1 方法原理現(xiàn)代語(yǔ)音信號(hào)處理中,我們常用語(yǔ)譜圖方法得到語(yǔ)音信號(hào)的時(shí)頻譜,小波在語(yǔ)音信號(hào)的處理中運(yùn)用的比較多,但是在語(yǔ)音信號(hào)的時(shí)頻圖取得方面運(yùn)用比較少。待分析的信號(hào)形式如下:以上各個(gè)變量的物理意義是:b表示平移因子,如果變換過(guò)程中消除了偏移,b和時(shí)間t是意義對(duì)應(yīng)的,因此A(b)表示時(shí)間點(diǎn)b上的振幅大小,Φ′(b)表示時(shí)間點(diǎn)b上的瞬時(shí)頻率,Φ(b)表示時(shí)間點(diǎn)b上的瞬科技視界 2013年6期2013-11-13
- Java和Matlab混合編程及其應(yīng)用
COM技術(shù)實(shí)現(xiàn)語(yǔ)譜圖讀取情感語(yǔ)音分析中常用的特征值分為兩類:一是韻律特征;另一是音質(zhì)特征。而各分類中又包含著多個(gè)特征值的選取,如短時(shí)能量、基音、強(qiáng)度、共振峰、語(yǔ)譜圖分析等。2.1 語(yǔ)譜圖語(yǔ)譜圖主要用于反映語(yǔ)音信號(hào)動(dòng)態(tài)頻率特征,在語(yǔ)音分析中具有極其重要的實(shí)用價(jià)值。有時(shí)也可以把語(yǔ)譜圖看作是可視語(yǔ)言。語(yǔ)譜圖的水平方向表示時(shí)間軸,垂直方向表示頻率軸,圖上的灰度條紋則可表示各個(gè)時(shí)間點(diǎn)的語(yǔ)音短時(shí)譜。語(yǔ)譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異長(zhǎng)春大學(xué)學(xué)報(bào) 2012年10期2012-09-21
- 中國(guó)大學(xué)生英語(yǔ)/ i/-/ / 感知模式研究
8)。音質(zhì)體現(xiàn)在語(yǔ)譜特征(spectral properties)的變化上,主要是前兩個(gè)共振峰(F1、F2)的變化;音長(zhǎng)則體現(xiàn)在時(shí)長(zhǎng)變化上。在大多數(shù)英語(yǔ)方言中,/i/與/1/相比,其F1較低,F2較高,且時(shí)長(zhǎng)也較長(zhǎng)(Morrison 2008)。一般情況下,人們?cè)谡Z(yǔ)音感知中對(duì)不同聲學(xué)信息的關(guān)注有所區(qū)別。例如,在大部分英語(yǔ)方言中,人們主要靠語(yǔ)譜特征對(duì)/i/-/1/進(jìn)行區(qū)分,而時(shí)長(zhǎng)因素則只是發(fā)揮次要作用(Hillenbrandetal.2000)。然而,對(duì)英語(yǔ)當(dāng)代外語(yǔ)研究 2011年2期2011-12-05
- 基于時(shí)頻分布的漢語(yǔ)語(yǔ)音關(guān)鍵頻率分布研究
的特性。2.3 語(yǔ)譜圖語(yǔ)譜圖是語(yǔ)音信號(hào)短時(shí)頻譜的時(shí)間-強(qiáng)度表示[4]。語(yǔ)譜圖是語(yǔ)音信號(hào)時(shí)頻分布的一個(gè)比較好的應(yīng)用。其橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示頻率,每個(gè)像素的灰度值大小及顏色的濃淡反映相應(yīng)時(shí)刻和相應(yīng)頻率的能量。能量功率譜具體表示為其中,ω[n]是一個(gè)長(zhǎng)度為2N+1的窗函數(shù),X(n,ω)表示在時(shí)域以n點(diǎn)為中心的一幀信號(hào)的傅里葉變換在ω處的大小。下面圖1給出了語(yǔ)音“開(kāi)始”的語(yǔ)譜圖。圖中橫軸表示時(shí)間,縱軸表示頻率,顏色的深淺表示(n,ω)處的能量大小,一般用能量電子設(shè)計(jì)工程 2011年10期2011-03-14
- 網(wǎng)絡(luò)語(yǔ)音聊天與真人語(yǔ)音的比較
進(jìn)行辨析,從寬帶語(yǔ)譜圖和共振峰頻率兩方面,通過(guò)各組數(shù)據(jù)具體分析了其與真人語(yǔ)音的差別。此文只討論使用Skype和QQ兩種軟件進(jìn)行語(yǔ)音聊天的音頻。2 網(wǎng)絡(luò)語(yǔ)音聊天原理實(shí)現(xiàn)原理網(wǎng)絡(luò)語(yǔ)音聊天,又稱VoIP (voice over internet protocol),指的是在使用了互聯(lián)網(wǎng)協(xié)議的網(wǎng)絡(luò)上進(jìn)行語(yǔ)音傳輸,其中的IP是代表互聯(lián)網(wǎng)協(xié)議,它是互聯(lián)網(wǎng)的中樞,互聯(lián)網(wǎng)協(xié)議可以將電子郵件,即時(shí)訊息以及網(wǎng)頁(yè)傳輸?shù)匠汕先f(wàn)的PC或者手機(jī)上[1]。其最大的優(yōu)勢(shì)是能廣泛地采用I電信科學(xué) 2010年2期2010-03-11
- 基于MD-CGAN的情感語(yǔ)音去噪算法