王書海 石俊峰
摘 要:近年來隨著傳感器技術(shù)不斷發(fā)展和語音信號(hào)定向處理技術(shù)的不斷研究,應(yīng)用在這種領(lǐng)域的技術(shù)以及應(yīng)用也在逐漸進(jìn)入人們的視野,比如語音定位、語音跟蹤系統(tǒng)等,更是被廣泛的應(yīng)用于軍用和民用領(lǐng)域,比如會(huì)議說話人的定位以及在戰(zhàn)地勘探方面等,這都為語音信號(hào)處理等領(lǐng)域的技術(shù)發(fā)展提供了極大的推動(dòng)。所以,研究探索技術(shù)的工程實(shí)踐應(yīng)用這方面的技術(shù),對推動(dòng)語音信號(hào)等處理理論發(fā)展和相關(guān)技術(shù)的成果,有著非常重大的意義。文章著重介紹了語音定向的相關(guān)算法與研究,主要探究了延時(shí)估計(jì)。延時(shí)估計(jì)是利用麥克風(fēng)陣列解決寬帶語音的信號(hào)的技術(shù)之關(guān)鍵,更是通過麥克風(fēng)陣列進(jìn)行聲音源定向方法中最常用的一種。
關(guān)鍵詞:麥克風(fēng)陣列;TDOA;聲源定向
中圖分類號(hào):TN912.3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)23-0013-02
Abstract: In recent years, with the continuous development of sensor technology and the continuous research of directional processing technology of speech signal, the technology and application applied in this field are gradually entering people's field of vision, such as speech localization, speech tracking system and so on. It is widely used in military and civilian fields, such as conference speaker positioning and field exploration, which provide a great impetus to the development of speech signal processing and other fields. Therefore, it is of great significance to study and explore the technology of engineering practice and application of this technology to promote the development of speech signal processing theory and related technology. This paper focuses on the related algorithms and research of speech orientation, and mainly explores the delay estimation. Delay estimation is the key technology to solve the broadband speech signal using microphone array, and it is also one of the most commonly used methods of sound source orientation through microphone array.
Keywords: microphone array; TDOA; sound source orientation
目標(biāo)定向技術(shù)擁有廣泛的應(yīng)用領(lǐng)域,主要是利用雷達(dá)技術(shù)或者聲吶完成目標(biāo)的定向,但是由于雷達(dá)和聲吶的工作原理是主動(dòng)發(fā)出電磁波或者聲波,這就極大可能的會(huì)暴露自身,這本身就會(huì)對系統(tǒng)的隱蔽性和安全性造成很大的威脅。因此,目標(biāo)定向系統(tǒng)需要不斷的去研究,目標(biāo)定向技術(shù)逐漸成為研究目標(biāo)。然而對于聲源定向,這一在目標(biāo)定向中的重要的分支,它的原理和聲吶和雷達(dá)等有明顯的差別:聲源定向技術(shù)是通過聲源主動(dòng)地發(fā)信號(hào),麥克風(fēng)陣列去接受目標(biāo)發(fā)來的信號(hào)去做處理,這也就為定向本身的隱蔽性和安全性有了極大的提升,由于它自身并不產(chǎn)生電磁波或者聲波,這成了研究相關(guān)領(lǐng)域的重要技術(shù)目標(biāo)。語音信號(hào),不但是非平穩(wěn)的信號(hào),而且是寬帶信號(hào)。因此,語音信號(hào)這種寬帶信號(hào)的處理要比處理傳統(tǒng)的窄帶信號(hào)困難了很多倍。那么為了更好地處理語音信號(hào),必須得先把語音信號(hào)分解成傳統(tǒng)的信號(hào),即平穩(wěn)的窄帶信號(hào)。對前期語音信號(hào)的處理主要包括以下幾個(gè)步驟:欲加重、加窗、分幀、欲濾波、分頻處理等。而對聲音處理的前期和十分重要的一部分就是要對聲音源信號(hào)確立好它的基本模型,確定好的模型攜帶了省心信號(hào)距離麥克風(fēng)陣列的距離信息以及角度信息,因此,最重要的一步就是能夠用非常合理的空間模型,對聲音信號(hào)處理,這樣才能更好、更準(zhǔn)確的對聲音信號(hào)進(jìn)行分析。
麥克風(fēng)陣列的性能主要是和所采用的陣元數(shù)量、幾何的形狀、陣元之間距離以及所用麥克風(fēng)的類型。其中影響最重要的就是陣列的形狀,這個(gè)因素對定向的性能相當(dāng)重要。窄帶信號(hào)的幾何模型一般可以分為一維均勻線性陣列和二維均勻圓形陣列。應(yīng)用最為廣泛是線性陣列的結(jié)構(gòu)簡單,主要是適用于分扇區(qū)域的測向系統(tǒng),是因?yàn)樗毕萦谟卸ㄏ虻拿^(qū),而圓形的陣列就恰好避免了前者的這一缺點(diǎn),它處理也較前者更加容易。
由于聲音源位置和麥克風(fēng)陣列的距離不同,可以將空間接收模型分為近場和遠(yuǎn)場模型兩種不同的模型。一般情況下,根據(jù)下式來區(qū)分遠(yuǎn)場、近場的:
其中,用L來表示麥克風(fēng)陣列的整個(gè)長度,用?姿來表示聲源信號(hào)的最小波長。用r來表示聲源目標(biāo)和麥克風(fēng)陣列之間的距離。
一般情況下,聲源信號(hào)一般的波長一般是在17mm~17m之間,頻率則是在20Hz~20KHz之間的自然信號(hào),但是在實(shí)際工作中,一般通過取聲源信號(hào)的波長一般分布是在20cm左右,頻率一般是分布在1700Hz左右。根據(jù)式(1)可以知道,假如用8個(gè)麥克風(fēng)組成陣列的均勻陣列,當(dāng)陣元的間距是10cm,就可以計(jì)算出,如果r>6.4m時(shí),就可以當(dāng)作是遠(yuǎn)場模型,不過這單單是一維均勻線陣,假如是取半徑為0.5m的均勻圓型矩形陣,矩陣元之間的距離是10cm的時(shí)候,根據(jù)上式1就可以計(jì)算出,如果r?叟100m時(shí),那么空間模型才會(huì)是遠(yuǎn)場模型,這樣麥克風(fēng)數(shù)量也就增多了,將會(huì)需要至少32個(gè)麥克風(fēng)陣列組成的均勻圓陣結(jié)構(gòu)。因此,對于麥克風(fēng)考慮不同的拓?fù)浣Y(jié)構(gòu)來分析,近場和遠(yuǎn)場的區(qū)分由于不同的拓?fù)浣Y(jié)構(gòu)之間導(dǎo)致的差別是很大的。
遠(yuǎn)場的模型最為典型的例子就是傳統(tǒng)的天線陣列,就假如是雙麥克風(fēng)的模型時(shí),當(dāng)聲源的距離到達(dá)麥克風(fēng)的距離大于2L2/?姿min時(shí),我們先假定認(rèn)為此時(shí)的麥克風(fēng)陣列模型是遠(yuǎn)場模型。其中,L的陣元間距,?姿min是聲波的最小波長。在理想的情況下考慮,聲波發(fā)出的聲音信號(hào)為平面波前。麥克風(fēng)陣元也可以理想縮小為點(diǎn)。
如圖 1 中所示,聲波前的法線與陣列連線之間成θ 角,而且每個(gè)麥克風(fēng)所接受到的信號(hào)會(huì)比參考的麥克風(fēng)相比有一個(gè)延遲或者超前。兩麥克風(fēng)間距為d,第二個(gè)麥克風(fēng)所接受的信號(hào)由于平面波前的傳播路徑,相對于參考麥克風(fēng)多出一個(gè)d·cos?茲的距離,從而造成的延時(shí)。因此,兩麥克風(fēng)間的時(shí)間差為?子12=d·cos?茲/c,此處的c代表空氣中的聲速。如果θ范圍在0°和180°之間而且?子12已知,就可以求出θ的值。因此,估計(jì)角度θ即等價(jià)于估計(jì)時(shí)間差?子12。
當(dāng)然對于近場模型而言,遠(yuǎn)場的模型的平面波前將會(huì)被球面波前所取代。如圖2所示,將第一個(gè)麥克風(fēng)作為參考。用θn表示聲源到麥克風(fēng)n的傾角,用rn表示聲源到麥克風(fēng)n的距離,n=1,2,3。
在真實(shí)的環(huán)境中,一個(gè)可用的系統(tǒng),間距d是可以很簡單的測量出來的,那么再將?子12和?子13已知,那么也可以很輕易的將未知參數(shù)θ1,r1,r2和r3等計(jì)算出來,再根據(jù)正弦定理,就可以計(jì)算出θ2和θ3的估計(jì)值。所以,獲取了時(shí)延的信息,所有與聲源位置相關(guān)的信息都可以通過三角函數(shù)的知識(shí)計(jì)算出來。
但是不論麥克風(fēng)陣列是處于近場還是遠(yuǎn)場模型,最先做的工作就是要獲取陣元之間的TDOA的估計(jì)。在理想情況下是非常容易解決的,一旦在實(shí)際應(yīng)用中獲取陣元之間的TDOA的估計(jì),信號(hào)源通常會(huì)受到環(huán)境噪聲中以及混響的影響,獲取TDOA估計(jì)是一個(gè)很困難的問題。
在理想情況下,由于有噪聲的影響,兩個(gè)麥克風(fēng)組成的陣列接收信號(hào)的模型如下:
x1(t)=s(t)+n1(t)x2(t)=?琢s(t+D)+n2(t)
上式中,x1(t)和x2(t)分別代表兩個(gè)麥克風(fēng)收到的信號(hào), s(t)為聲源信號(hào),D為延時(shí),?琢是幅度衰減因子,n1(t)和n2(t)用來表示環(huán)境中的加行噪聲,并且他們本身互不相關(guān)且與s(t)不相關(guān)。
在實(shí)際情況中,兩個(gè)麥克風(fēng)m1和m2的間距為D,分別接收到的信號(hào)xi(t)(i=1,2)可以表示為:
其中符號(hào)“*”為卷積算子,ni(t)為干擾部分,niI(t)表示第i個(gè)傳聲器的環(huán)境噪聲,niR(t)表示第i個(gè)傳聲器的多徑反射噪聲,hi(t)=R12()cij(j)是由IMAGE模型定義的房間脈沖響應(yīng)函數(shù),cij(i=1,2,j=0,1,…∞)為多徑反射的衰減因子,由于聲源信號(hào)直接傳播到傳聲器所經(jīng)過的路徑最短,并且多徑反射的衰減因子與聲源信號(hào)傳播的距離平方成反比,因此對于所有的j>0,有τij>τ,cij<=α(1,2)。
時(shí)延估計(jì)完成后就可以得到兩個(gè)麥克風(fēng)之間的時(shí)延τ,就可以進(jìn)行聲源定向過程了。
參考文獻(xiàn):
[1]M_ Brandstein and D.editors. Microphone Arrays: Signal Processing Techniques and Applications. Digital Signal Processing. Springer-Verlag, Berlin, 2001.
[2]Loftus J, Smart N P. Secure outsourced computation. Lecture Notes in Computer Science, vol 6737,2010, Berlin: Springer, 2010:1-20.