国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語方言語音信號的語譜圖分析

2022-06-15 02:32:58柏文展程汪鑫
電聲技術(shù) 2022年4期
關(guān)鍵詞:語譜基音傅里葉

柏文展,程汪鑫

(武警廣西總隊,廣西 南寧 530031)

0 引言

語音信號是一種模擬信號,經(jīng)過數(shù)字化處理后可獲取采樣率、比特率以及頻域內(nèi)的各種參數(shù)信息,便于信號傳輸和存儲。通過觀察不同語音信號的語譜圖,可獲取語音的一些參數(shù)和特征,經(jīng)分析比對,可識別出不同地方的語言,為語音合成奠定了基礎(chǔ)。語音識別技術(shù)的發(fā)展依賴計算機技術(shù)、數(shù)字信號處理器(Digital Signal Process,DSP)技術(shù)以及人工智能(Artificial Intelligence,AI)技術(shù)的進步。要實現(xiàn)人機對話,需要設(shè)計制造出一種能將人類語音信號進行自動轉(zhuǎn)換和處理的機器來模擬現(xiàn)實生活中的人,實現(xiàn)人與機器的“無障礙”溝通交流。要設(shè)計出能聽懂人類語言的機器,關(guān)鍵是讓機器正確辨別出所說語言的語種,便于選用合適的語音參數(shù)庫,提高識別的效率。從1970 年開始,人們就開始研究如何通過詞匯來進行語種識別,因為每一種語言都有著自己獨特的、成熟的、延續(xù)性的詞匯體系。在實際中,運用詞匯法來進行識別存在一定的困難,主要是因為收集、組織、整理各個語種的語言專業(yè)知識工作量過于龐大,通過計算機分析語言學(xué)專業(yè)知識來識別語言的效率不高,正確率低,難以得到推廣應(yīng)用[1]。因此,人們把目光轉(zhuǎn)到通過語音的特征來進行語言識別。

隨著5G 網(wǎng)絡(luò)、大數(shù)據(jù)及人工智能等高新技術(shù)的發(fā)展,社會生產(chǎn)生活日益數(shù)字化、網(wǎng)絡(luò)化和智能化,方言識別技術(shù)被廣泛應(yīng)用于通信、金融、教育、翻譯、刑偵以及信息服務(wù)等領(lǐng)域,越來越展現(xiàn)出其應(yīng)用價值。在語音通信方面,特別是在緊急情況撥打緊急電話,可使用語音識別系統(tǒng)快速進行方言識別,自動將電話轉(zhuǎn)接到與呼叫者說同種方言的接線員那里,提高交流效率,爭取寶貴時間。在刑事偵查方面,可通過方言識別系統(tǒng)辨別出說話者的籍貫,從方言特征中獲取關(guān)鍵信息。目前,方言識別的能力和準(zhǔn)確度得到了質(zhì)的提升,國內(nèi)的一些智能語音公司如科大訊飛已經(jīng)開發(fā)出可以識別粵語、四川話、閩南語等20 多種方言的語音識別系統(tǒng),提高了人們溝通交流的效率。本文通過對方言語音的語譜圖進行分析,來辨別和判斷講話者所屬的方言區(qū)域,對語譜圖進行比較并找出其差異,為方言語音的識別與推廣提供基本理論和方法。

1 語音信號

1.1 語音信號的產(chǎn)生和聲學(xué)基礎(chǔ)

1.1.1 語音信號的產(chǎn)生過程

語音信號的產(chǎn)生過程為:說話人在大腦中將語言信息轉(zhuǎn)換為語言編碼,并用語音特征如音素序列、韻律和響度等來表示;說話人通過語言編碼控制聲帶振動,塑造聲道形狀來發(fā)出聲音序列;聽者通過耳朵的基底膜接收語音信號并進行動態(tài)頻譜分析,將頻譜信號轉(zhuǎn)換為觸動信號作用在聽覺神經(jīng)上,通過大腦分析處理將其轉(zhuǎn)化為語言編碼,實現(xiàn)對語音語義的理解[2]。

1.1.2 聲波的物理描述

聲波屬于縱波。聲源產(chǎn)生聲波,聲波以聲源為中心沿著各類介質(zhì)將能量向周圍傳遞,可用頻率、周期、相位、波長及振幅等物理參數(shù)來描述。波長與波速和頻率之間的關(guān)系為λ=v/f,其中λ為波長,v為聲波速,f為頻率。聲波的頻率越高,波長越短;頻率越低,波長越長。另外,聲波還具有響度、音調(diào)及音色等屬性。

1.1.3 語音信號的時域和頻域波形

語音信號波形能直觀地反映語音信號的特征。語音信號處理主要是把模擬的語音信號轉(zhuǎn)換為離散的數(shù)字采樣信號,通過Matlab、Python 等軟件進行時域和頻域分析,便于分析總結(jié)語音信號的特征規(guī)律。時域波形物理意義明確,能直觀表現(xiàn)出語音信號時間與幅度的關(guān)系,但無法體現(xiàn)語音信號的某些特性。對于復(fù)雜語音信號的分析,需要用頻域分析法提取一些特性,例如共振峰,通過共振峰能看出信號頻譜的總體輪廓和譜包絡(luò)[3]。

1.2 語音信號的特征分析

語音信號可采取時域、頻域和倒頻域三種分析方法,各種分析法具有不同的特點。語音信號是時域信號,進行時域分析時運算簡便,波形直觀。但由于語音信號時域波形受外界環(huán)境的影響較大,不利于提取語音信號聲學(xué)特性。因此,語音信號的分析處理多采用頻域分析法。

頻域分析法是采用傅里葉變換將時域信號變換為頻域信號,從頻域的角度來分析信號的特征,能夠直觀地看到信號的組成,便于設(shè)計出更加完善的信號處理系統(tǒng)。語音信號頻譜受外界環(huán)境的影響比較小,具有一定的頑健性,因此,語音信號分析多采用頻域分析法,通過分析頻譜,可以直觀地發(fā)現(xiàn)語音的聲學(xué)特性,可獲取共振峰參數(shù)、基音周期等信息[4]。

倒頻譜分析法可以有效地分開聲道信號和激勵特性,能更好地揭示語音信號的本質(zhì)特征,可通過將對數(shù)功率譜進行傅里葉逆變換后得到。

2 語音信號處理的發(fā)展和應(yīng)用

1876 年,世界上首部電話采用聲電轉(zhuǎn)換技術(shù)進行語音傳輸,開啟了語音信號處理的先河。1939年,聲碼器的誕生奠定了分析和合成人類語音信號的基礎(chǔ),對語音信號處理產(chǎn)生了重大影響。1947 年,語譜圖儀被發(fā)明出來,該設(shè)備能用圖形來表示語音信號的時變頻譜,為分析語音信號提供了強力的工具支撐。1948 年,“語圖回放器”成功研制,它可將語譜圖自動轉(zhuǎn)換并合成為人類語音信號。

20 世紀50 年代,人們開始研究能夠接受人類的語音、理解人類的意圖、具有聽覺功能的機器,開啟了語音識別研究的序幕。到了20 世紀60 年代,東京無線電研究所實驗室研究員研制出通過專用硬件來進行元音識別的系統(tǒng),美國斯坦福大學(xué)研究員實現(xiàn)了用動態(tài)跟蹤音素的方法來對連續(xù)語音進行識別。20 世紀70 年代后,人工智能技術(shù)開始與語音識別技術(shù)相結(jié)合,語音識別的發(fā)展進程進一步加快。20 世紀80 年代開始,語音識別算法由模式匹配向統(tǒng)計模型轉(zhuǎn)變,基于統(tǒng)計數(shù)據(jù)建立語音識別系統(tǒng),比較有代表性的就是隱馬爾可夫模型。20 世紀90 年代以來,隨著人工智能和神經(jīng)網(wǎng)絡(luò)研究的迅速興起,其技術(shù)成果被廣泛應(yīng)用到語音識別研究中,語音識別技術(shù)進一步成熟[5]。目前,語音識別技術(shù)的產(chǎn)品越來越豐富,且設(shè)計更加完善、功能更加強大、用戶體驗感更加人性化,比如國外的Nuance,Google,Apple,MSRA,國內(nèi)的科大訊飛和云知聲等公司,在語音識別領(lǐng)域就是典型的代表。

雖然對語音識別的研究取得了重大的進展,但其在市場推廣應(yīng)用方面還遠遠不足,很多因素影響著語音識別的準(zhǔn)確性,例如實際環(huán)境中的背景噪聲、傳輸通道的頻率特性、說話人生理或心理情況的變化以及應(yīng)用領(lǐng)域的變化等,都會導(dǎo)致語音識別系統(tǒng)性能的下降,甚至使系統(tǒng)不能工作。語音識別系統(tǒng)頑健性問題研究受到了研究者的廣泛重視,國內(nèi)外很多單位都開展了相應(yīng)的研究。這些研究主要是研究一到兩種因素影響下的綜合補償技術(shù),對各種因素共同影響下補償方法的研究還比較少。

信息技術(shù)和人工智能技術(shù)的快速發(fā)展使語音信號識別應(yīng)用領(lǐng)域逐步擴大,在軍事領(lǐng)域和日常生活領(lǐng)域都能看到其應(yīng)用的身影。在軍事方面,可用語音識別技術(shù)來進行飛機的自動飛行控制、機載設(shè)備語音自動操控以及緊急情況下與地面指揮調(diào)度中心的自動對話,有利于集中飛行員注意力,快速獲取戰(zhàn)場態(tài)勢,更好地發(fā)揮信息戰(zhàn)的優(yōu)勢。在日常生活方面,可用語言識別技術(shù)來進行信息檢索、自動文摘、自動眷寫、自動口語翻譯以及智能家電、智能查詢等,極大地提高了人們工作、生活的質(zhì)量。因此,語言識別具有非常廣闊的市場空間和巨大的商業(yè)價值。

3 語譜圖

人們在說話時,聲道處于運動狀態(tài),語音信號的共振峰變化相對振動的變化來說要平穩(wěn)許多,因此,可以對語音信號進行連續(xù)頻譜分析,得到語音信號的語譜圖[6]。語譜圖的橫軸為時間,縱軸為頻率,某時刻頻率的能量密度由像素的灰度值決定。語音分析主要是對語譜圖進行分析,通過分析可發(fā)現(xiàn)共振峰、基音頻率、語音能量密度等特征,為語音識別、合成及編碼提供參考。

3.1 語譜圖的產(chǎn)生原理

語音信號為非平穩(wěn)信號。對語音信號的分析處理可采用短時傅里葉分析法。傅里葉分析法主要用于分析線性系統(tǒng)和平穩(wěn)信號的穩(wěn)態(tài)特性,短時傅里葉分析法主要用于處理短時平穩(wěn)假定下的非平穩(wěn)信號。

設(shè)語音信號為s(t),t=0,1,2,…,T-1,其中t為時域采樣點序號,T為信號長度。分幀后s(t)表示為st(k),t=0,1,2,…,T-1,其中t為幀序號,k為幀同步時間序號,T為幀長。對{s(t)}進行短時傅里葉變換:

式中:{W(t)}為窗序列。信號s(t)的離散時間傅里葉變換為:

進行離散傅里葉變換得:

式中:0<q<T-1,則|S(t,q)|就是s(t)的短時幅度譜估計。而時間k處頻譜能量密度函數(shù)P(t,q)為:

P(t,q)為二維非負實值函數(shù),它是信號s(t)短時自相關(guān)函數(shù)的傅里葉變換。以時間t表示橫坐標(biāo),q表示縱坐標(biāo),則由P(t,q)的值表示的灰度級形成的二維圖像就是該語音信號的語譜圖,可用10 logP(t,q)將其轉(zhuǎn)換為dB 來表示,顯示起來比較直觀。

3.2 語譜圖的偽彩色映射

為了獲得較好的視覺效果,提高分辨率,需要對P(t,q)進行偽彩色映射,得到偽彩色語譜圖。先把Pmax(t,q)的最大值映射為歸一化1 電平,把最小值Pmin(t,q)映射為歸一化0 電平,再將P(t,q)線性映射為0~1 的電平Ml,最后根據(jù)Ml 的值將語譜圖以偽彩色模式顯示出來。為了得到更好的顯示效果,可以選擇適當(dāng)?shù)幕鶞?zhǔn)值Base,把小于Base的值設(shè)置在基準(zhǔn)電平上,把大于Base的值按照一定的模式線性映射為0~1 的歸一化彩色值??蓪⒉噬稻仃嘙={m(t,q)}表示如下:

3.3 Python 及相關(guān)庫簡介

Python 誕生于20 世紀90 年代初,其特點是語法簡單、免費開源、可移植性強,具有豐富且功能強大的庫。近年來,Python 被廣泛應(yīng)用于大數(shù)據(jù)和人工智能領(lǐng)域。Librosa 庫主要用于音頻分析和處理,可進行時頻分析處理、特征參數(shù)提取以及聲音圖形繪制等。Numpy 庫主要用于科學(xué)計算,能實現(xiàn)復(fù)雜的矩陣和數(shù)組運算,可進行離散傅里葉變換、短時傅里葉變換和隨機模擬等。openCV 庫主要用于計算機視覺分析處理,可進行計算機視覺計算、圖像處理和機器學(xué)習(xí)等。Matplotlib 庫主要用于繪圖,可繪制柱狀圖、氣泡圖及頻譜圖等。下面的程序首先結(jié)合Numpy 庫定義了計算每幀對應(yīng)的時間、分幀、加窗、短時傅里葉變換的函數(shù),然后利用Librosa 庫分別讀取永州、常德及益陽三個地方的wav 格式的方言,最后調(diào)用Matplotlib 庫中的pyplot 進行語譜圖顯示,調(diào)用openCV 庫以COLORMAP_JET 模式對語譜圖進行偽彩色映射和顯示[7-9]。

3.4 流程圖及實現(xiàn)程序

3.4.1 流程示意圖

語音信號語譜圖分析共6 個步驟。

(1)語音信號錄制。語音信號的質(zhì)量直接決定語音頻譜分析的效果。在錄制語音前,應(yīng)確定好語音的采樣頻率、量化位數(shù)及聲道數(shù)等參數(shù)。錄制語音時,應(yīng)當(dāng)保持環(huán)境安靜,減少外部噪聲干擾,語音采用wav 格式進行存儲。

(2)數(shù)據(jù)讀入程序。通過調(diào)用Librosa 音頻處理庫load 函數(shù),可實現(xiàn)對語音信號的讀入,主要讀取語音信號的采樣頻率、量化位數(shù)及聲道數(shù)等參數(shù)。

(3)信號分幀加窗。短時傅里葉分析需要將語音信號進行分幀,目的是保持某一較短時間內(nèi)語音信號特性的穩(wěn)定。分幀長度一般為10~40 ms。加窗的目的是防止頻譜泄漏,設(shè)計好合適的窗函數(shù)可以使頻譜的能量集中在主瓣上,同時加窗會使每一幀兩端的信號變?nèi)酰枰脦七M行處理。

(4)能量譜密度計算。語音信號是能量有限信號,經(jīng)過傅里葉變換后可按巴塞伐爾定理求出能量譜密度。

(5)功率譜偽彩色分析。偽彩色分析能增強視覺效果,幫助人們更好地觀察和分析圖像細節(jié)。實現(xiàn)程序中采用COLORMAP_JET 顏色映射算法。

(6)語譜圖顯示。根據(jù)語譜圖中的橫杠、亂紋及豎直條,可分析出語音信號的共振峰、基音及濁音等分布情況。

語譜圖的產(chǎn)生流程如圖1 所示。

圖1 語譜圖產(chǎn)生流程圖

3.4.2 Python 實現(xiàn)程序

Python 實現(xiàn)程序部分代碼如下所示。

首先用import 語句導(dǎo)入分析處理語音信號的相關(guān)庫如librosa,numpy,cv2 以及matplotlib。其次分別定義計算每幀對應(yīng)的時間f_time、分幀framing、加窗hanning_win 以及短時傅里葉變換sft四個函數(shù)。進行分幀時,如果語音信號的長度小于1 幀,則幀數(shù)為1.加窗時應(yīng)選用漢明窗,因為漢明窗能更好地保留語音信號主瓣幅頻特性。

再次,用librosa 庫分別讀取湖南永州、常德和益陽wav 格式的方言語音信號,設(shè)置好窗函數(shù),對其進行短時傅里葉變換。為了能夠觀察到語音信號頻譜的細節(jié),通常用取對數(shù)后的數(shù)據(jù)進行語譜圖顯示。

data,fs=librosa.load(path,sr=None,mono=False)#path 為方言存儲路徑

wlen=256;win=hanning_win(wlen);nft=wlen;inc=128

y=sft(data,win,nft,inc)#對語音信號進行短時傅里葉變換

fscale=[i * fs/wlen for i in range(wlen//2)]#頻率刻度

frametime=f_time(y.shape[1],wlen,inc,fs)#每幀對應(yīng)的時間

logarithmic_data=10*np.log10((np.abs(y)*np.abs(y)))#取對數(shù)后的數(shù)據(jù)

最后調(diào)用能夠直觀表現(xiàn)出分類邊界的plt.pcolormesh 來繪制語譜圖,設(shè)置好顏色條和坐標(biāo)軸后保存,調(diào)用cv2 庫以灰度圖的方式分別讀取永州、常德和益陽方言的語譜圖,按照COLORMAP_JET模式進行偽彩色映射后可得到最終結(jié)果。

plt.pcolormesh(frametime,fscale,logarithmic_data)

im_gray=cv.imread(‘spectrogram.png’,cv.IMREAD_GRAYSCALE)

im_color=cv.applyColorMap(im_gray,cv.COLORMAP_JET)

cv.imshow(‘pseudo-color’,im_color)

3.4.3 語譜圖顯示與分析

語譜圖含有橫杠、亂紋及豎直條等樣式,其中與時間軸平行的深黑色帶紋橫杠表示共振峰,根據(jù)其頻率和寬度可確定共振峰的頻率和帶寬。豎直條垂直于時間軸,條紋開始處為聲門脈沖初始點,間距為基音周期。在語譜圖中,橫杠出現(xiàn)表示有濁音,豎直條出現(xiàn)表示基音?;纛l率越高則條紋越密[10]。對湖南永州、常德及益陽三地的方言進行頻譜分析,結(jié)果如圖2、圖3、圖4 所示。

圖2 永州方言“你好”的偽彩色語譜圖

圖3 常德方言“你好”的偽彩色語譜圖

圖4 益陽方言“你好”的偽彩色語譜圖

圖2 為永州方言“你好”的偽彩色映射圖。從此偽彩色語譜圖上橫杠對應(yīng)的頻率和寬度可以看出,其共振峰頻率在6 kHz 左右,帶寬相對來說比較寬。從“你好”的兩個基音之間的距離可以看出基音周期較小,基音頻率比較大。

圖3 為常德方言“你好”的偽彩色映射圖。從此偽彩色語譜圖上橫杠對應(yīng)的頻率和寬度可以看出,其共振峰頻率在6 kHz 左右,帶寬相對來說也比較寬。從“你好”的兩個基音之間的距離可以看出基音周期也比較小,基音頻率很大。

圖4 為益陽方言“你好”的偽彩色映射圖。從此偽彩色語譜圖上橫杠對應(yīng)的頻率和寬度可以看出,其共振峰頻率在6 kHz 左右,帶寬相對來說也比較窄。從“你好”的兩個基音之間的距離可以看出基音周期比較大,基音頻率比較小。

4 結(jié)語

本文研究了語音識別領(lǐng)域中一個非常重要且非常有意義的課題——方言識別技術(shù)。通過對湖南永州、常德及益陽三個地方方言語音信號的語譜圖進行分析,發(fā)現(xiàn)了其共振峰和基音周期等特征參數(shù)的差異。從上述分析看出,方言種類的繁多以及語音的復(fù)雜性決定了方言識別是一項艱難的任務(wù),雖然現(xiàn)階段人們在方言識別方面取得了一定的成績,但許多理論和方法還處在探索和發(fā)展階段,仍需要用大量的實驗加以驗證。要想準(zhǔn)確地識別出各地的方言,研究者們需要克服輸入無法標(biāo)準(zhǔn)統(tǒng)一、噪聲干擾以及模型的有效性等難題,建立完整的方言語音數(shù)據(jù)庫,尋找一種最佳的特征參數(shù)作為方言語音的特征矢量,充分運用人工智能和機器學(xué)習(xí)來創(chuàng)新語音識別算法,結(jié)合高級的語言學(xué)知識進行方言辨識。

猜你喜歡
語譜基音傅里葉
HR-DCGAN方法的帕金森聲紋樣本擴充及識別研究
基于基音跟蹤的語音增強研究
雙線性傅里葉乘子算子的量化加權(quán)估計
基于小波降噪的稀疏傅里葉變換時延估計
基于時頻域特征的場景音頻研究
語譜圖二次傅里葉變換特定人二字漢語詞匯識別
基于傅里葉變換的快速TAMVDR算法
快速離散傅里葉變換算法研究與FPGA實現(xiàn)
電測與儀表(2015年5期)2015-04-09 11:30:44
面向語音情感識別的語譜圖特征提取算法
樂理小知識
小演奏家(2014年11期)2014-12-17 01:18:52
宜良县| 平阴县| 禄劝| 凌海市| 宜兴市| 西藏| 凤山县| 闸北区| 潼关县| 寿光市| 天镇县| 岚皋县| 抚顺县| 蓬莱市| 平果县| 平遥县| 都匀市| 长治县| 新乐市| 台中市| 罗甸县| 嘉祥县| 鱼台县| 华容县| 舟山市| 哈尔滨市| 池州市| 秦皇岛市| 通渭县| 荥经县| 白城市| 师宗县| 台前县| 绥中县| 盐津县| 寿阳县| 巨野县| 犍为县| 绵竹市| 儋州市| 仪陇县|