江蘇 孫海林 尹巧萍
基于語音基音頻率特征對人性別識別的研究
江蘇孫海林尹巧萍
本文利用基音頻率作為語音特征,研究了文本無關(guān)說話人性別判別的方法。根據(jù)所計算出的不同性別說話人的語音基音頻率累積密度函數(shù)之間的差異,識別出文本無關(guān)說話人的性別,實驗結(jié)果顯示該方法能夠有效地識別不同說話人的性別。
語音基音頻率說話人性別識別
隨著科學(xué)技術(shù)的飛速發(fā)展,通過對語音信號進(jìn)行分析處理,進(jìn)而提取語音特征參數(shù)來識別說話人身份已經(jīng)成為可能。根據(jù)語音特征來識別說話人的身份,具有不會被遺失和忘記、無需記憶、不需接觸、使用方便、系統(tǒng)設(shè)備成本低、能實現(xiàn)遠(yuǎn)距離識別等很多獨特的優(yōu)點,因此越來越受到人們的歡迎。
基音頻率作為表征語音信號本質(zhì)特征的參數(shù),屬于語音分析的范疇。語音識別率的高低依賴于對語音信號分析的準(zhǔn)確性和精確性,因此研究基音頻率在語音信號的處理應(yīng)用中具有十分重要的作用。例如,在說話人性別識別領(lǐng)域,基音頻率是性別識別極其重要的鑒別依據(jù),它體現(xiàn)了說話人發(fā)濁音時聲帶的振動頻率。一般而言,男性說話者的基音頻率較低,大部分在50~200Hz之間;女性說話者和小孩的基音頻率相對較高,主要分布在200~450Hz之間。因此,在說話人性別識別中,對基音頻率進(jìn)行準(zhǔn)確而可靠地估計顯得非常重要。
本文利用基音頻率作為語音特征,研究了文本無關(guān)說話人性別判別的方法。說話人性別識別按照說話內(nèi)容的類別,可以分為“文本相關(guān)”和“文本無關(guān)”兩種?!拔谋鞠嚓P(guān)”指說話人按照規(guī)定的文本內(nèi)容發(fā)音或按提示內(nèi)容發(fā)音;“文本無關(guān)”指無論說什么內(nèi)容都可以對說話人性別進(jìn)行識別。在某些領(lǐng)域,人們是不可能知道說話人的文本內(nèi)容,如公安司法鑒別、說話人語音跟蹤等,因此文本無關(guān)的說話人識別應(yīng)用更為廣泛、靈活,也更加受到人們的重視。
我們利用不同性別語音基音頻率統(tǒng)計模型的差異對性別進(jìn)行判別。為此,首先需要估算基音信號的概率密度函數(shù)。估算概率密度函數(shù)的基本公式為:
將(6)帶入(1)式,可以得到:
(5)式就是利用正態(tài)窗進(jìn)行對基音頻率的概率密度函數(shù)進(jìn)行Parzen窗法估算的公式。利用(5)式對于語音信號基音頻率的概率密度進(jìn)行估算,然后再對概率密度函數(shù)積分,得到不同性別的基音頻率累積密度函數(shù)如圖1所示。
圖1 不同性別的基音累積密度函數(shù)
實驗語音數(shù)據(jù)取自在實驗室環(huán)境下,錄取40個人(20男、20女)的語音,其中每人說15個不同的字詞,每詞說2遍共1200個語音。每個人的第一遍15個字詞語音進(jìn)行訓(xùn)練,獲取每個人的模型參數(shù)。然后用另一遍15個字詞進(jìn)行測試。實驗結(jié)果顯示,輸入的語音信號持續(xù)時間越長,識別的準(zhǔn)確率越高。對于持續(xù)時間在20秒以上的長句子,識別的準(zhǔn)確率高達(dá)98%;對于持續(xù)時間較短的短句子或者單個詞語,準(zhǔn)確率可以達(dá)到89%以上。
本文利用基音頻率作為語音特征,研究了與文本無關(guān)說話人性別判別的方法。判別的基本流程一般分為三步:首先,對輸入的語音信號進(jìn)行處理;其次,提取所需基音頻率特征參數(shù);最后,將所提取的特征參數(shù)與已有的說話人識別模型進(jìn)行比對,從而判別出說話人的性別。通過對40名實驗者的性別判別實驗,結(jié)果顯示該方法能夠有效地識別不同說話人的性別。
[1]趙力,語音信號處理.北京:機械工業(yè)出版社[M],2003:236-253.
[2]王冶平,情感語音信號特征分析與識別.東南大學(xué)博士論文[D],2005∶61-73.
[3]尹巧萍,趙力,利用語音基音統(tǒng)計特征的說話人性別判識的研究,聲學(xué)技術(shù)[J],2007,26(4):206-208.
[4]R. W. Picard, Affective Computing . Cambridge∶ MIT Press, 1997.
(作者單位:泰州機電高等職業(yè)技術(shù)學(xué)校)