范珍艷,莊曉東,孫桂琪
(青島大學(xué)電子信息學(xué)院,山東 青島 266071)
近年來,語音識別技術(shù)已經(jīng)得到突破性進展和廣泛應(yīng)用[1],語音識別可分為小詞匯量語音識別和大詞匯量語音識別。小詞匯量語音識別基本都是以漢語詞為基本識別單位,而大詞匯量語音識別則多以音素為基本識別單位,在此基礎(chǔ)上再根據(jù)發(fā)音規(guī)則及語法規(guī)則對識別出來的音素串進行匹配而得到所識別的詞[2]。因此音素作為基本的語音單位,正確的識別出音素是實現(xiàn)連續(xù)語流語音識別的重要基礎(chǔ)。因此本文介紹了一種對單音素語音信號的不同特征進行分析的方法—遞歸圖和遞歸定量分析方法。遞歸圖(recurrence plot,RP)由Eckmann、Kamphorst和Ruelle首先提出,是分析時問級數(shù)實驗數(shù)據(jù)的工具,它可以揭示非線性時間序列的內(nèi)部結(jié)構(gòu),并得出很多預(yù)測性的先驗特性.可以檢驗時間序列的平穩(wěn)性、內(nèi)在相似性。對遞歸圖進行定量的分析方法稱為遞歸定量分析(recurrence quantification analysis,RQA)。該方法通過遞歸圖的遞歸點和對角線結(jié)構(gòu)定義了遞歸率等遞歸定量參數(shù)[3]。本文通過對單音素語音信號做遞歸圖和遞歸定量分析得到單音素語音的不同特征。
遞歸圖采用圖形方式來描述信號中所存在的結(jié)構(gòu)例如確定性。它體現(xiàn)待研究動力系統(tǒng)中產(chǎn)生的時間序列的所有可能時間尺度上的自相關(guān),因此,遞歸圖可以被認(rèn)為是一個系統(tǒng)全局相關(guān)結(jié)構(gòu)的展現(xiàn)[4]。遞歸圖采用了相空間重構(gòu)的思想[5],設(shè)原始時間序列為選擇合適的嵌入維數(shù)和延遲時間τ進行相空間重構(gòu)得到向量式中定義k個相空間點中任意兩點的距離為[6]
則遞歸圖中的元素為
采用遞歸圖分析方法只能在圖像中定性的分析系統(tǒng)的動力學(xué)特性,因此Webber和Zbilut提出了遞歸定量分析方法[8]。遞歸定量分析就是在遞歸圖的基礎(chǔ)上通過統(tǒng)計或者測定遞歸圖中基本圖形點和線段的分布等特征,將遞歸圖中直接觀測的各種模式進行量化分析[9]。Webber和Zbilut提出的特征量包括:
(1)遞歸率(RR)表示遞歸圖中的遞歸點在圖上占據(jù)的相對數(shù)量[10]。
遞歸率較高表示一個較強的周期性嵌入過程。
(2)確定率(DET)表示遞歸圖中平行于對角線段的遞歸點點數(shù)和總的遞歸點點數(shù)的比值。
(3)遞歸熵(ENTR)表示動力學(xué)信息量或隨機型的程度。
(4)分層率(LAM)表示垂直線段包含遞歸點的點數(shù)與所有垂直結(jié)構(gòu)包含遞歸點的點數(shù)比值[13]。
本文采用采樣頻率為16KHz的單音素信號,分別為清音/a/,/e/,/h/,/s/,/sh/和濁音/a/,/e/,/i/,/o/,/u/,分別取了每個單音素信號的前3000個數(shù)據(jù)進行遞歸圖分析。首先采用C_C方法[14]對每個單音素語音信號進行相空間重構(gòu),得到嵌入維數(shù)和時間延遲τ,選取一個合適的閾值,對每個單音素語音信號做出遞歸圖,如圖1-10。
由圖1-10可以看出,清音/a/,/e/,/h/,/s/,/sh/和濁音/a/,/e/,/i/,/o/,/u/的遞歸圖在結(jié)構(gòu)上存在不同的特征。每個單音素語音信號的遞歸圖均存在一條主對角線,且整個圖形關(guān)于這條主對角線對稱。由于遞歸圖反映的是重構(gòu)后的吸引子所具有的某種屬性,不同性質(zhì)的信號,由于其吸引子的表現(xiàn)不一樣,遞歸圖的結(jié)構(gòu)也不同。平穩(wěn)信號的遞歸圖是均勻布滿的,不存在與主對角線平行的直線。若存在,則表示該信號中存在確定性成分。濁音信號的遞歸圖中存在很多與主對角線平行的直線段,說明濁音信號中存在確定性成分。而清音信號的遞歸圖中不規(guī)則和無序部分占了很大比例,沒有與主對角線平行的直線,說明清音信號的隨機成分是主要的。
圖1 濁音a的遞歸圖Fig.1 The recurrence plot of voiced-a
圖2 濁音e的遞歸圖Fig.2 The recurrence plot of voiced-e
圖3 濁音i的遞歸圖Fig.3 The recurrence plot of voiced-i
圖4 濁音o遞歸圖Fig.4 The recurrence plot of voiced-o
圖5 濁音u的遞歸圖Fig.5 The recurrence plot of voiced-u
圖6 清音a的遞歸圖Fig.6 The recurrence plot of devoiced-a
圖7 清音e的遞歸圖Fig.7 The recurrence plot of devoiced-e
圖8 清音s的遞歸圖Fig.8 The recurrence plot of devoiced-s
圖9 清音h的遞歸圖Fig.9 The recurrence plot of devoiced-h
圖10 清音sh的遞歸圖Fig.10 The recurrence plot of devoiced-sh
從以上單音素語音信號的遞歸圖可以看出,只能從圖像上定性的看出單音素語音的不同特征,因此引入遞歸定量分析(RQA)方法對單音素語音信號進行定量分析。本文采用CRP TOOL工具箱[15]對單音素語音信號進行遞歸定量分析,選擇了遞歸率,確定率,遞歸熵,分層度等4個遞歸分析的特征量作為主要的特征參數(shù),表1給出了4種特征量的定量分析結(jié)果。
表1 單因素語音信號的RQA分析Table 1 The RQA of single phoneme speech signals
由表1可以看出,總體上,清音的遞歸率相對濁音較大,較高的遞歸率代表一個較強的周期性嵌入過程,因此清音信號的周期性嵌入過程較濁音強。確定率為100%代表信號的規(guī)律性強,而清音/a/,/e/的確定率較濁音/a/, /e/大,說明清音信號/a/, /e/的規(guī)律性更強。分層度描述系統(tǒng)相對變化快慢的動力學(xué)特征,分層度為0,說明信號相對變化較快,清音/a/, /e/的分層度較濁音/a/, /e/大,說明清音信號/a/, /e/相對變化更快。遞歸熵的大小說明遞歸圖確定性結(jié)構(gòu)的復(fù)雜程度,熵值越大,復(fù)雜程度越大,清音/a/, /e/的遞歸熵較濁音/a/, /e/大,說明清音信號/a/, /e/復(fù)雜程度更大,更具有混沌性。
本文采用遞歸圖和遞歸定量方法對不同的單音素語音信號的遞歸特性進行研究分析。在相空間重構(gòu)的基礎(chǔ)上,將一維時間序列中不易識別的特征轉(zhuǎn)化到高維相空間中,通過計算遞歸率,確定率,分層度,遞歸熵等非線性特征量,可以發(fā)現(xiàn)遞歸定量分析方法可以定量的分析單音素濁音/a/, /e/和清音/a/,/e/,但是對其他幾個單音素信號的效果不是很明顯,還有待改進。