国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分布式麥克風(fēng)陣列的室內(nèi)拾音系統(tǒng)設(shè)計(jì)

2024-12-31 00:00:00花嶸劉元龍黃澤源
軟件工程 2024年7期

關(guān)鍵詞:分布式麥克風(fēng)陣列;聲源定位;TDOA;GCC

0 引言(Introduction

麥克風(fēng)是一種拾取聲音信號的傳感器。通過對麥克風(fēng)聲音信號的拾取調(diào)查可知,環(huán)境噪聲和混響對單個(gè)麥克風(fēng)的收音效果影響頗大[1]。目前,對語音識(shí)別、聲源定位及語音增強(qiáng)的研究,主要聚焦于麥克風(fēng)陣列技術(shù)。分布式麥克風(fēng)陣列相比于傳統(tǒng)的單麥克風(fēng)陣列,在聲源定位時(shí)具有更高的探測精度和更大的覆蓋面積,并且系統(tǒng)的穩(wěn)定性更強(qiáng)。隨著人工智能技術(shù)和互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,越來越多的語音交互場景出現(xiàn)在人們的日常生活中,在理想環(huán)境下,智能語音系統(tǒng)能夠識(shí)別用戶的語音指令并與其進(jìn)行交互。因此,設(shè)計(jì)一種對室內(nèi)環(huán)境具有較強(qiáng)適應(yīng)性的分布式麥克風(fēng)陣列拾音系統(tǒng),對后續(xù)進(jìn)行語音增強(qiáng)等操作具有重要的意義。

1 背景知識(shí)(Background knowledge)

1.1 分布式麥克風(fēng)陣列

麥克風(fēng)陣列技術(shù)的實(shí)現(xiàn)原理是利用聲波抵達(dá)陣列中每個(gè)拾音點(diǎn)之間的微小時(shí)差,通過某些算法,實(shí)現(xiàn)聲源定位、聲音降噪,使得麥克風(fēng)陣列能獲得比單個(gè)麥克風(fēng)更高的指向性,也就能夠區(qū)分聲源的方向,并對感興趣方向上的聲音進(jìn)行特別的增強(qiáng)或抑制。

分布式麥克風(fēng)陣列是由多個(gè)麥克風(fēng)陣列有序地組合在一起的,與傳統(tǒng)麥克風(fēng)陣列相比,分布式麥克風(fēng)陣列沒有規(guī)則的拓?fù)浣Y(jié)構(gòu),在空間中的擺放位置也更加隨意且靈活,因此分布式麥克風(fēng)陣列表現(xiàn)形式正朝著多樣化的方向發(fā)展,分布式麥克風(fēng)陣列的信號處理方法比傳統(tǒng)麥克風(fēng)陣列的信號處理方法更加通用和靈活。

1.2 無線聲學(xué)傳感器

無線聲學(xué)傳感器是一個(gè)低功耗器件,它由一個(gè)或多個(gè)聲傳感器、處理器、存儲(chǔ)器、電源、無線發(fā)射接收裝置及執(zhí)行器組成[2]。聲傳感器主要用于感知和測量環(huán)境信息;處理器和存儲(chǔ)器用于對數(shù)據(jù)進(jìn)行有限的處理與存儲(chǔ);電源一般由電池構(gòu)成,是分布式麥克風(fēng)陣列的主要能量來源,并且能量有限;無線發(fā)射接收裝置用于信息傳輸;執(zhí)行器主要用于進(jìn)行某種局部判別。無線聲學(xué)傳感器結(jié)構(gòu)如圖1所示。

2 傳統(tǒng)聲源定位算法的介紹(Introduction to traditional sound source localization algorithms)

隨著麥克風(fēng)技術(shù)與陣列信號處理技術(shù)的不斷發(fā)展和完善,研究者逐漸將這兩種技術(shù)運(yùn)用于聲源定位,從而得到多種聲源定位方法。傳統(tǒng)的聲源定位算法可以分為3種,分別為基于可控波束形成的聲源定位算法[3]、基于高分辨率空間譜估計(jì)的聲源定位算法[4]及基于到達(dá)時(shí)間差估計(jì)的聲源定位算法[5]。

2.1 基于聲源到達(dá)方向的算法

基于聲音信號到達(dá)入射角(Direction Of Arriva, DOA)的聲源定位方法,是最早取得廣泛應(yīng)用的一種定位技術(shù),其中比較常見的是波束形成(Beam Forming)算法。波束形成技術(shù)的核心是波束形成器,其本質(zhì)是一個(gè)空間濾波器,通過對特定的波束模式進(jìn)行構(gòu)造,可以對空間中不同方向的信號進(jìn)行不同程度的增益,從而增大目標(biāo)方位信號,抑制其他方位信號。時(shí)延-求和(Delayand-Sum, DS)波束形成器是一種傳統(tǒng)的波束形成器,每個(gè)麥克風(fēng)的傳播延遲和聲音到達(dá)的時(shí)間差決定了每個(gè)權(quán)重。

為了讓波束形成器方向定位更準(zhǔn)確,需要將麥克風(fēng)間距變大,使主瓣盡可能地窄。但是,麥克風(fēng)間距不能無限變大。

其中:d 為麥克風(fēng)間距,c 為聲速,f 為聲源信號的頻率。d 不應(yīng)大于輸入信號波長的一半,否則會(huì)出現(xiàn)多個(gè)功率最大的主瓣,對波束形成器的搜索造成干擾,導(dǎo)致聲源定位失敗。受麥克風(fēng)陣列結(jié)構(gòu)的限制,不易通過增加麥克風(fēng)數(shù)量和增大麥克風(fēng)陣列間距的方法提高算法的分辨率,而且在室內(nèi)環(huán)境中該算法容易受到多徑效應(yīng)的影響,造成聲音波形的失真,從而影響定位結(jié)果。但是,該算法具有較快的計(jì)算速度,并且對麥克風(fēng)陣列的數(shù)量和布局要求也相對較低。

2.2 基于高分辨率空間譜估計(jì)的算法

高分辨率空間譜估計(jì)算法也是一種計(jì)算DOA的估計(jì)方法,其中代表性的算法是R.O.Schmidt等人提出的多重信號分類(Multiple Signal Classification, MUSIC)算法,該算法基于信號的空間譜分析,通過計(jì)算信號在不同方向上的功率譜密度,找到信號源的角度信息,從而實(shí)現(xiàn)對信號源的準(zhǔn)確定位。MUSIC算法的關(guān)鍵步驟包括構(gòu)建協(xié)方差矩陣、計(jì)算空間譜估計(jì)、尋找峰值和估計(jì)信號源的角度。

MUSIC算法具有較高的分辨率、較高的穩(wěn)健性,并且對陣列結(jié)構(gòu)適用面比較廣。但是,與基于波束形成的定位方法類似,當(dāng)陣元間距大于輸入信號波長的一半時(shí),空間譜同樣會(huì)在信號源方向外的其他方向出現(xiàn)虛假譜峰,從而對定位造成干擾,降低準(zhǔn)確率。MUSIC算法需要對整個(gè)空間進(jìn)行搜索,同時(shí)搜索設(shè)計(jì)協(xié)方差運(yùn)算,雖然此算法定位精度高,但是也帶來了較高的計(jì)算復(fù)雜度,影響了算法的靈活性。

2.3 基于到達(dá)時(shí)間差的算法

基于到達(dá)時(shí)間差(Time Difference of Arrival, TDOA)的聲源定位算法是目前研究最為廣泛的一種兩步定位法。為了便于分析,將麥克風(fēng)陣列模型簡化為均勻線性陣列,聲場模型按照遠(yuǎn)場波進(jìn)行傳輸,即每個(gè)麥克風(fēng)接收到的聲音信號為平行線。如圖2所示,τij 為兩個(gè)麥克風(fēng)陣列mi 和mj 接收到的聲音信號時(shí)間差。

時(shí)間差估計(jì)常見的算法是廣義互相關(guān)算法(GeneralizedCross-Correlation, GCC),算法主要分為兩個(gè)步驟:首先對每個(gè)接收器接收到的聲音信號進(jìn)行時(shí)延估計(jì),其次根據(jù)得到的時(shí)延結(jié)合陣列空間排布推算出聲源位置。

在現(xiàn)實(shí)環(huán)境中,由于麥克風(fēng)陣列會(huì)受到混響的影響,陣列的互相關(guān)函數(shù)波形會(huì)出現(xiàn)多個(gè)峰值,對時(shí)延的判斷產(chǎn)生影響。因此,需要在頻域引入加權(quán)函數(shù)φ,應(yīng)用相位變換加權(quán)函數(shù)PHAT[6],其表達(dá)式為

加權(quán)函數(shù)φ 的作用是舍棄幅度信息,保留相位信息,使互相關(guān)函數(shù)的真實(shí)峰更加突出,最終求出經(jīng)過加權(quán)的互相關(guān)函數(shù)取最大值對應(yīng)的τ,即兩個(gè)麥克風(fēng)陣列之間的時(shí)延。需要特別注意的是,GCC-PHAT(權(quán)值為PHAT的廣義互相關(guān))算法是應(yīng)用在近場模型的,因此聲源定位模型只關(guān)注聲源信號到達(dá)麥克風(fēng)陣列的角度。

TDOA算法可以實(shí)現(xiàn)較高的聲源定位精度,尤其在室內(nèi)環(huán)境中表現(xiàn)出色,并且該算法對環(huán)境噪聲和雜音的抑制能力較強(qiáng),通過對多個(gè)麥克風(fēng)陣列接收到聲音信號的時(shí)間差進(jìn)行分析,以有效區(qū)分聲源信號和噪聲信號,提高定位的準(zhǔn)確性。但是,TDOA算法需要3個(gè)或更多麥克風(fēng)陣列測量聲波到達(dá)的時(shí)間差,這在一定程度上增加了硬件成本和系統(tǒng)復(fù)雜性,并且各個(gè)陣列的擺放位置需要進(jìn)行精確的測量與布局,增大了實(shí)際應(yīng)用的難度。

3 系統(tǒng)設(shè)計(jì)(System design)

室內(nèi)分布式麥克風(fēng)陣列拾音系統(tǒng)主要的應(yīng)用場景為客廳、臥室及廚房等室內(nèi)環(huán)境,該系統(tǒng)由感知層、傳輸層和應(yīng)用層組成,分布式麥克風(fēng)陣列拾音系統(tǒng)結(jié)構(gòu)圖如圖3所示。

3.1 系統(tǒng)各部分的組成及功能

感知層:主要由多個(gè)無線聲學(xué)傳感器陣列及中繼節(jié)點(diǎn)組成,每個(gè)陣列包含多個(gè)無線聲學(xué)傳感器,這些無線聲學(xué)傳感器負(fù)責(zé)采集環(huán)境中的聲音信息,并且都配備有無線接口,用于陣列內(nèi)彼此間的通信。每個(gè)傳感器都只能有限地處理信息或數(shù)據(jù),并將處理之后的信息傳輸至中繼節(jié)點(diǎn),由中繼節(jié)點(diǎn)將信息通過無線網(wǎng)絡(luò)上傳至應(yīng)用層數(shù)據(jù)庫,以便進(jìn)行后續(xù)處理。

傳輸層:主要由無線傳輸模塊和數(shù)據(jù)融合中心接收器組成,無線傳輸模塊負(fù)責(zé)上傳感知層采集的環(huán)境中的語音數(shù)據(jù)和數(shù)據(jù)融合中心接收器下發(fā)的控制命令,而數(shù)據(jù)融合中心接收器則負(fù)責(zé)接收無線傳輸模塊上傳的環(huán)境中的語音數(shù)據(jù)和下發(fā)應(yīng)用層的控制命令。

應(yīng)用層:主要由數(shù)據(jù)庫和數(shù)據(jù)融合中心組成,數(shù)據(jù)庫主要用于存放各個(gè)無線聲音傳感器陣列上傳的語音數(shù)據(jù)及陣列的狀態(tài),數(shù)據(jù)融合中心負(fù)責(zé)將各個(gè)陣列上傳的語音數(shù)據(jù)進(jìn)行融合,便于后續(xù)進(jìn)行聲源定位、語音增強(qiáng)等操作。

3.2 近場模型和遠(yuǎn)場模型

根據(jù)聲源與麥克風(fēng)距離之間的關(guān)系,聲源產(chǎn)生的聲場模型可分為近場模型和遠(yuǎn)場模型[7],不同聲場模型的聲音傳播特性有很大的不同。當(dāng)聲源與陣列距離較近或麥克風(fēng)陣列尺寸較大時(shí),麥克風(fēng)之間的距離對接收聲源有較為明顯的影響。聲源以球面波的形式向外輻射傳播,聲源到達(dá)各個(gè)麥克風(fēng)的相對位置有明顯差異。當(dāng)聲源與陣列距離較遠(yuǎn)或麥克風(fēng)陣列尺寸較小時(shí),麥克風(fēng)直徑可以忽略不計(jì),此時(shí)麥克風(fēng)陣列被稱為小型陣列,并且可以認(rèn)為聲波信號被各個(gè)麥克風(fēng)以相同入射角接收,即平行入射。此時(shí),對聲源入射角的確定是聲源定位的主要問題。結(jié)合房間與麥克風(fēng)陣列的普遍設(shè)置,室內(nèi)環(huán)境以近場小型陣列模型作為研究對象。近場模型和遠(yuǎn)場模型示意圖如圖4所示。

分布式麥克風(fēng)陣列中陣元間距必須滿足空間采樣定理,因此需要對陣元間距加以控制,保證陣元間距不超過采樣信號波長的長度,避免采樣信號出現(xiàn)空間混疊的情況。

3.3 麥克風(fēng)指向性選擇

麥克風(fēng)的指向性也是麥克風(fēng)的重要屬性之一[8]。常見的麥克風(fēng)可分為4種指向性,分別為全指向、心形指向、超心形指向及雙指向。其中,全指向麥克風(fēng)對于不同角度聲音的靈敏度基本相同,但容易接收到環(huán)境噪聲。心形指向麥克風(fēng)對于來自特定方向的聲音有最佳的收音效果,而對于其他方向的信號有衰減效果。超心形指向麥克風(fēng)作為心形指向麥克風(fēng)的一種變形,對于側(cè)面方向聲音的衰減更多,從而降低了回音嘯叫的風(fēng)險(xiǎn)。雙指向麥克風(fēng)可以接收麥克風(fēng)前方和后方的聲音,其在側(cè)面的靈敏度最低。因此,在系統(tǒng)麥克風(fēng)陣列的選擇上,房間中央位置選擇全指向麥克風(fēng),這種選擇可以最大限度地覆蓋整個(gè)房間,并且能夠均勻地接收到來自各個(gè)方向的聲音,確保聲音的均衡與一致,避免聲音在房間中的某個(gè)特定區(qū)域過于強(qiáng)烈或弱化;房間角落選擇超心形指向麥克風(fēng),以有效捕捉來自前方聲源的聲音,并且減少來自房間其他方向的背景噪聲和回聲干擾;房間邊緣則選擇雙指向麥克風(fēng),以有效捕捉來自房間中央或前方的聲音,并減少來自房間其他方向的背景噪聲和回聲干擾。

3.4 麥克風(fēng)陣列之間的連接方式

在分布式麥克風(fēng)陣列中,各個(gè)陣列之間的信息交換一般是通過直接相連的節(jié)點(diǎn)完成的,而各個(gè)節(jié)點(diǎn)之間的連接方式分為全向連接和部分連接。本系統(tǒng)則采用全向連接方式,每個(gè)麥克風(fēng)陣列都可以和相同房間下的其他麥克風(fēng)陣列直接通信,即同一房間中的所有麥克風(fēng)陣列是相互連接的。

由于無線聲學(xué)傳感器的能量有限,所以各個(gè)麥克風(fēng)陣列可選擇使用預(yù)測喚醒模式。在此模式下,無線傳感器網(wǎng)絡(luò)中的陣列選擇性地喚醒與本陣列數(shù)據(jù)處理最相關(guān)的陣列,通過陣列的連接信息和算法需求,選擇下一時(shí)刻需要喚醒的某個(gè)或某些陣列,此種方式能得到較低的陣列能量損耗和較快的信息處理速度。

3.5 動(dòng)態(tài)簇聲源跟蹤

分布式麥克風(fēng)陣列中陣列數(shù)目眾多,若所有陣列都對目標(biāo)聲源進(jìn)行定位和跟蹤,勢必會(huì)帶來龐大的計(jì)算量負(fù)擔(dān)。分布式麥克風(fēng)陣列是一種特殊的無線傳感網(wǎng)絡(luò),根據(jù)動(dòng)態(tài)成簇理論,在分布式麥克風(fēng)陣列初期的聲源跟蹤方法應(yīng)用中,一旦聲源靠近分布式麥克風(fēng)陣列,該目標(biāo)附近遇到陣列檢測信號后,就開始組建動(dòng)態(tài)簇,以提升分布式麥克風(fēng)陣列系統(tǒng)的運(yùn)行速度和聲源定位的效率及促進(jìn)數(shù)據(jù)融合。動(dòng)態(tài)簇聲源跟蹤過程如圖5所示。

分布式麥克風(fēng)陣列在聲源跟蹤的整個(gè)過程中,每一個(gè)陣列都會(huì)有一個(gè)跟蹤結(jié)果,所以分布式麥克風(fēng)陣列的數(shù)據(jù)在融合過程中,需要將簇內(nèi)各陣列的數(shù)據(jù)按照一定的邏輯算法進(jìn)行融合處理,以求得最精確的結(jié)果。本系統(tǒng)會(huì)根據(jù)聲源所在房間,激活當(dāng)前房間的所有麥克風(fēng)陣列組建動(dòng)態(tài)簇以進(jìn)行聲源跟蹤。

4 測試與測試結(jié)果(Testing and the results)

在室內(nèi)將麥克風(fēng)陣列按照矩形排布,具體的分布式麥克風(fēng)陣列拾音系統(tǒng)室內(nèi)分布圖如圖6所示。

測試在長為15 m、寬8 m、高3 m的房間進(jìn)行,聲源定位抽象示意圖如圖7所示。

具體的測試方案如下。

以圖7左下角為坐標(biāo)原點(diǎn)O 建立坐標(biāo)軸,聲源參考點(diǎn)記作點(diǎn)A,OA 與x 軸的夾角為θ,測量聲源點(diǎn)實(shí)際坐標(biāo)和3種算法計(jì)算得到的聲源點(diǎn)坐標(biāo)。

將DOA-BF算法、DOA-MUSIC算法、GCC-PHAT 算法分別應(yīng)用在該系統(tǒng)中進(jìn)行測試,每個(gè)算法測試5組,并統(tǒng)計(jì)系統(tǒng)給出的定位結(jié)果及反應(yīng)時(shí)間,系統(tǒng)測試數(shù)據(jù)如表1和表2所示。

反應(yīng)時(shí)間為系統(tǒng)接收到聲源的聲波信號到給出定位結(jié)果的時(shí)間,反應(yīng)時(shí)間越短,表明系統(tǒng)的反應(yīng)速度越快。由表1和表2的測試結(jié)果可知,各個(gè)算法的測試最大誤差不超過0.4 m,最大反應(yīng)時(shí)間不超過1 s。DOA-BF算法的系統(tǒng)反應(yīng)時(shí)間快,但是定位精度較低,DOA-MUSIC算法定位精度高,但是系統(tǒng)反應(yīng)時(shí)間較長,而GCC-PHAT算法定位精度較高且系統(tǒng)反應(yīng)時(shí)間較短。綜合各方面因素考慮,GCC-PHAT算法性能表現(xiàn)更均衡,因此選擇該算法作為系統(tǒng)所應(yīng)用的算法。

5 結(jié)論(Conclusion)

本文主要實(shí)現(xiàn)了室內(nèi)環(huán)境的分布式麥克風(fēng)陣列拾音系統(tǒng)的設(shè)計(jì),從系統(tǒng)的分層設(shè)計(jì)到無線聲學(xué)傳感器的選擇,再到聲源定位算法的選擇,均與室內(nèi)環(huán)境有較高的適配性,但系統(tǒng)未給信號做降噪的預(yù)處理,因此在嘈雜的環(huán)境下,系統(tǒng)的整體精度稍有下降。在當(dāng)今設(shè)備的使用環(huán)境中,聲源定位只是其中的一個(gè)方面,環(huán)境中的人員與攜帶麥克風(fēng)陣列設(shè)備的交互、不同位置的人員通過語音控制不同的功能,這背后除了聲源定位,還需要應(yīng)用語音增強(qiáng)技術(shù),并對系統(tǒng)的功能模塊做進(jìn)一步的完善,以滿足更多的需求。

晋中市| 邵武市| 石首市| 景洪市| 洪雅县| 南木林县| 武定县| 金乡县| 修水县| 平陆县| 长沙市| 峨山| 开江县| 莱西市| 库车县| 广昌县| 拉萨市| 辛集市| 忻州市| 平邑县| 常德市| 沅江市| 南安市| 石门县| 山东省| 双辽市| 三亚市| 深圳市| 江都市| 多伦县| 奉节县| 青浦区| 叙永县| 万载县| 万全县| 晋江市| 什邡市| 大洼县| 亳州市| 信丰县| 永兴县|