国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于模擬域特征提取的語(yǔ)音活動(dòng)檢測(cè)電路

2025-03-04 00:00:00何建平楊兵張靜喬飛賈凱歌
物聯(lián)網(wǎng)技術(shù) 2025年5期
關(guān)鍵詞:人工智能

摘 要:隨著人工智能的發(fā)展,智能終端設(shè)備中集成的常開型傳感器的數(shù)量逐漸增加。然而,這些傳感器無(wú)法對(duì)無(wú)用信息進(jìn)行有效的處理,浪費(fèi)了大量資源且會(huì)嚴(yán)重影響后續(xù)數(shù)據(jù)處理的精度。為了應(yīng)對(duì)邊緣終端聲學(xué)傳感設(shè)備在追求高精度和低功耗方面所面臨的挑戰(zhàn),提出了一種基于語(yǔ)音時(shí)域特征的混合信號(hào)域語(yǔ)音活動(dòng)檢測(cè)架構(gòu)。該架構(gòu)能夠集成于高精度聲學(xué)處理系統(tǒng),如關(guān)鍵詞識(shí)別系統(tǒng)等,并與其組成逐級(jí)喚醒的邊緣聲學(xué)傳感系統(tǒng),從而降低邊緣設(shè)備的部署成本。在具體實(shí)現(xiàn)上,該架構(gòu)采用了基于短時(shí)能量和短時(shí)過零率的雙門限語(yǔ)音活動(dòng)檢測(cè)算法,并通過將模擬域的特征提取與數(shù)字域的特征分類相結(jié)合,巧妙地規(guī)避了在邊緣設(shè)備中使用功耗占比較高的ADC模塊,顯著降低了系統(tǒng)功耗。該設(shè)計(jì)采用TSMC 180 nm CMOS工藝實(shí)現(xiàn),芯片面積僅為0.029 mm2。仿真結(jié)果表明,該電路的功耗低至14.4 μW,語(yǔ)音檢測(cè)準(zhǔn)確率高達(dá)97%,實(shí)現(xiàn)了低功耗與高性能的完美平衡,為邊緣終端聲學(xué)傳感設(shè)備提供了高效、可靠的語(yǔ)音活動(dòng)檢測(cè)方案。

關(guān)鍵詞:人工智能;邊緣終端聲學(xué)傳感設(shè)備;語(yǔ)音活動(dòng)檢測(cè);短時(shí)能量;短時(shí)過零率;混合信號(hào)域

中圖分類號(hào):TP39;TN453 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)05-00-05

0 引 言

隨著AI技術(shù)的蓬勃發(fā)展,人機(jī)交互的方式正在發(fā)生顛覆性的變革,從早期效率低下的CLI(命令行界面)、GUI(圖形用戶界面),逐漸向NUI(自然用戶界面)轉(zhuǎn)變。NUI是指一類無(wú)形的用戶界面,例如語(yǔ)音、腦機(jī)接口等。而語(yǔ)音交互作為最自然、直觀的NUI交互方式,是人機(jī)交互領(lǐng)域的首選方案。

為了實(shí)現(xiàn)高效的人機(jī)交互,智能終端感知設(shè)備中需要集成大量常開型(always on)傳感器,如麥克風(fēng)、攝像頭等。這些傳感器需要采集并處理海量的信息,其中也包括了無(wú)用信息,如噪聲。這些無(wú)用信息不僅增加了設(shè)備的功耗,還會(huì)影響后續(xù)數(shù)據(jù)處理的精度。因此,如何降低邊緣終端聲學(xué)設(shè)備的功耗,逐漸成為當(dāng)前研究的熱點(diǎn)。

針對(duì)常開型傳感器的功耗問題,學(xué)術(shù)界提出了兩種解決方案:一種是采用周期供電的方式;另一種是采用分層傳感的方式。周期供電方案僅具備開啟和關(guān)閉兩種狀態(tài),無(wú)法滿足常開型傳感器的需求。而分層傳感技術(shù)則通過逐級(jí)喚醒模式,使傳感器僅在探測(cè)到有效信息時(shí)才進(jìn)行處理,從而顯著降低了能耗并提高了處理精度。例如在KWS關(guān)鍵詞識(shí)別系統(tǒng)中,所需處理的有用信息為人聲,而不是所有的聲音信號(hào)。通過采用分層傳感的方式,能夠極大地降低系統(tǒng)功耗,實(shí)現(xiàn)近乎無(wú)限的待機(jī)時(shí)長(zhǎng)。

谷歌在2016年I/O開發(fā)者大會(huì)[1]中提出了一種VAD+ KWS的聲學(xué)系統(tǒng)架構(gòu),如圖1所示,該架構(gòu)是一種云端和邊緣端協(xié)同的語(yǔ)音處理方案。在該架構(gòu)中,VAD(Voice Activity Detection)和KWS(Keyword Spotting)被分為兩個(gè)不同的層次進(jìn)行處理。首先,VAD層在邊緣終端設(shè)備上執(zhí)行,用于檢測(cè)輸入音頻流中的語(yǔ)音活動(dòng),只有在檢測(cè)到語(yǔ)音時(shí)才會(huì)將數(shù)據(jù)發(fā)送到云端進(jìn)行進(jìn)一步處理。隨后,KWS層在云端對(duì)接收到的語(yǔ)音數(shù)據(jù)進(jìn)行處理,并進(jìn)行語(yǔ)音識(shí)別和關(guān)鍵詞檢測(cè),以確定用戶是否說出了預(yù)定義的關(guān)鍵詞或短語(yǔ)。在識(shí)別到關(guān)鍵詞或短語(yǔ)后,云端將指令發(fā)送回邊緣終端設(shè)備,并執(zhí)行相應(yīng)的操作。這種分層傳感架構(gòu)結(jié)合了邊緣計(jì)算和云計(jì)算的優(yōu)勢(shì),既可以實(shí)現(xiàn)高性能的語(yǔ)音處理,又可以減少網(wǎng)絡(luò)帶寬的占用和云端計(jì)算的負(fù)擔(dān)。谷歌在其智能音箱Google Home中采用了這種架構(gòu),取得了良好的效果,同時(shí)也在邊緣計(jì)算和語(yǔ)音處理領(lǐng)域推動(dòng)了該技術(shù)的應(yīng)用。

然而,該架構(gòu)也存在一些缺點(diǎn):首先,由于需要將數(shù)據(jù)發(fā)送到云端,導(dǎo)致延遲較大,難以滿足語(yǔ)音交互的實(shí)時(shí)性需求;其次,該架構(gòu)中的所有數(shù)據(jù)都是在數(shù)字域中進(jìn)行處理的,需要引入ADC模塊對(duì)數(shù)據(jù)進(jìn)行模數(shù)轉(zhuǎn)換,而ADC模塊在常規(guī)KWS系統(tǒng)中的功耗占比高達(dá)65%,難以在要求低功耗的智能終端設(shè)備中集成[2]。若能在模擬域中實(shí)現(xiàn)對(duì)特征的提取,則有望大幅降低系統(tǒng)功耗。

針對(duì)上述問題,本文提出了一種基于模擬計(jì)算的低功耗語(yǔ)音活動(dòng)檢測(cè)架構(gòu),如圖2所示。該架構(gòu)能夠在模擬域中完成對(duì)特征的提取,相較于傳統(tǒng)數(shù)字域?qū)崿F(xiàn)的VAD[3],由于沒有引入ADC模塊,不存在ADC模塊所帶來的額外能量開銷,為硬件部署提供了極大的便利。此外,該架構(gòu)與后續(xù)KWS均通過電路實(shí)現(xiàn),不存在延遲較大的問題。

1 系統(tǒng)設(shè)計(jì)

本文提出的基于模擬計(jì)算的VAD整體架構(gòu)[4]基于短時(shí)能量和短時(shí)過零率的雙門限檢測(cè)算法[5-9]。如圖3所示,該系統(tǒng)的完整鏈路包括平方器、積分器、能量閾值存儲(chǔ)器、比較器、邊沿檢測(cè)和脈沖計(jì)數(shù)器。其中Switch_Integrator以及Switch_Energy_TH、Switch_Energy分別為積分器和能量閾值存儲(chǔ)器的開關(guān)控制信號(hào)。Vin為輸入的語(yǔ)音信號(hào),Vout為檢測(cè)結(jié)果輸出信號(hào)。

分別設(shè)定較高的能量閾值和較低的過零率閾值,再通過雙門限檢測(cè)算法進(jìn)行語(yǔ)音片段或非語(yǔ)音片段的判斷。圖4所示的A1~C1、A2~C2區(qū)間即為語(yǔ)音在時(shí)間線上的分布。

然而該算法存在的問題在于,能量閾值是一個(gè)依據(jù)經(jīng)驗(yàn)設(shè)定的值,魯棒性較差。特別是在噪聲較大時(shí),噪聲與語(yǔ)音的能量相差較小,容易引起誤判。因此,在本文提出的電路架構(gòu)中做出了針對(duì)性改進(jìn),即將原來算法中由經(jīng)驗(yàn)得到的閾值更改為前導(dǎo)無(wú)話幀的能量值。實(shí)驗(yàn)結(jié)果表明,該方法極大地提高了電路的魯棒性。MATLAB算法[10]仿真結(jié)果如圖5所示。

2 電路子模塊的設(shè)計(jì)

2.1 平方器

平方器的設(shè)計(jì)參考文獻(xiàn)[11],具體結(jié)構(gòu)如圖6所示。該電路由電壓輸入信號(hào)電路、電壓反向放大器、差分放大器、電流鏡和分壓器組成。

2.2 積分器

圖7、圖8分別為積分器和能量閾值存儲(chǔ)器的電路原理圖。為了解決傳統(tǒng)算法中因根據(jù)經(jīng)驗(yàn)設(shè)定閾值所帶來的魯棒性較差的問題,本文創(chuàng)新性地采用前導(dǎo)無(wú)話幀的能量值作為閾值。具體實(shí)現(xiàn)方式如下:當(dāng)Switch_Energy_TH被拉高時(shí),前導(dǎo)無(wú)話幀的能量值即被存儲(chǔ)在電容C2中并作為閾值。隨后,當(dāng)Switch_Energy被拉高時(shí),開始計(jì)算每一幀的能量值,并將這些能量值存儲(chǔ)在電容C3中。

積分器的設(shè)計(jì)原理主要是借助電容器的積分特性,實(shí)現(xiàn)對(duì)輸入信號(hào)的積分運(yùn)算。該電路由一個(gè)NMOS開關(guān)、一個(gè)有源負(fù)載差動(dòng)對(duì)[12]和電容C1組成。當(dāng)開關(guān)M6打開時(shí),電容器開始充電,并且輸入信號(hào)被傳遞到電容器上。當(dāng)開關(guān)關(guān)閉時(shí),電容器被隔離,并且充電電壓保持不變。在下一個(gè)時(shí)鐘周期內(nèi),再次打開開關(guān),電容器會(huì)繼續(xù)接收輸入信號(hào)并繼續(xù)充電,這樣就可以將多個(gè)時(shí)鐘周期內(nèi)的輸入信號(hào)進(jìn)行積分運(yùn)算。開關(guān)電容積分器的積分計(jì)算公式如下:

能量閾值存儲(chǔ)器的實(shí)現(xiàn)是基于電容能夠存儲(chǔ)電荷并在電路中釋放或吸收電荷的原理。通過控制對(duì)應(yīng)的開關(guān),將閾值和能量分別存儲(chǔ)在電容C2和C3中,并以電容C2存儲(chǔ)的值作為比較器的參考電壓Vref、電容C3的值作為比較器的輸入電壓。

2.3 比較器

比較器的電路原理如圖9所示。待比較的兩個(gè)電容C2、C3上的Vout、Vout_TH被分別連接到模擬比較器的M1和M2的柵極。當(dāng)比較器開始工作時(shí),開關(guān)管M3、M4首先被拉低,開關(guān)管M7和M10被拉高。此時(shí),電路輸出電壓被拉高至VDD。隨后,開關(guān)管M3、M4被拉高,開關(guān)管M7、M10被拉低。此時(shí),整個(gè)電路導(dǎo)通,由于兩個(gè)待比較的輸入電壓是不同的,因此M1和M2兩條支路中的電流I1、I2不同,而電流的不同則會(huì)導(dǎo)致上半部分首尾相接的兩個(gè)反相器M5-M8、M6-M10結(jié)構(gòu)失衡。最終在正反饋的作用下,電流較大支路中的反相器的輸出端電壓會(huì)被拉低,電流較小支路中的反相器的輸出端的電壓則會(huì)被抬高到VDD。由于在整個(gè)比較器工作的過程中,兩條比較支路只在SWcom信號(hào)跳變的一瞬間產(chǎn)生電流I1和I2,比較完成后這兩條支路將不再導(dǎo)通,因此整個(gè)比較器結(jié)構(gòu)可以實(shí)現(xiàn)很低的功耗。

2.4 數(shù)字邏輯及開關(guān)時(shí)序

2.4.1 數(shù)字邏輯

短時(shí)過零率模塊中的數(shù)字邏輯如圖10所示。該電路由雙邊沿檢測(cè)和計(jì)數(shù)器[13-14]組成。雙邊沿檢測(cè)主要是為了檢測(cè)前級(jí)比較器輸出的高低電平穿越時(shí)間軸的情況,并以此來計(jì)算短時(shí)過零率的值。為了解決亞穩(wěn)態(tài)的潛在風(fēng)險(xiǎn),本文采用了異步信號(hào)同步化的設(shè)計(jì)方法來降低亞穩(wěn)態(tài)出現(xiàn)的概率,避免了電路出現(xiàn)崩潰的局面。雙邊沿檢測(cè)的時(shí)序圖如圖11所示。

計(jì)數(shù)器通過對(duì)時(shí)間T內(nèi)異或門輸出為“1”的次數(shù)進(jìn)行計(jì)數(shù),來判斷短時(shí)過零率的值是否超過了語(yǔ)音的閾值。若在T內(nèi),異或門輸出為“1”的次數(shù)超過設(shè)定的計(jì)數(shù)閾值,則識(shí)別該語(yǔ)音信號(hào)為“清音段”;否則,識(shí)別為“濁音段”。語(yǔ)音是由清音和濁音組成,而短時(shí)能量可以實(shí)現(xiàn)對(duì)濁音的檢測(cè),因此,結(jié)合短時(shí)能量模塊和短時(shí)過零率模塊,便可對(duì)一段語(yǔ)音信號(hào)中的語(yǔ)音片段和非語(yǔ)音片段進(jìn)行辨別。

2.4.2 開關(guān)時(shí)序

積分器和能量閾值存儲(chǔ)器的開關(guān)時(shí)序如圖12所示。其中Switch_Integrator是積分器模塊中的必要組成部分,通過該開關(guān)不斷地對(duì)電容C1進(jìn)行充放電來實(shí)現(xiàn)對(duì)輸入信號(hào)的積分運(yùn)算。Switch_Energy_TH控制著閾值電容C2的充放電,負(fù)責(zé)存儲(chǔ)前導(dǎo)無(wú)話幀的能量值并以此作為閾值。Switch_Energy控制著能量電容C3的充放電,將閾值確定后的每一幀的能量值存儲(chǔ)在電容C3上。

3 仿真結(jié)果

本文設(shè)計(jì)了一種低功耗VAD電路,可以將輸入的一段語(yǔ)音信號(hào)輸出為語(yǔ)音片段或非語(yǔ)音片段的高或低電平。將本文方法與其他方法進(jìn)行對(duì)比,具體性能指標(biāo)見表1。本文方法采用了模擬域特征提取的方法,有效降低了VAD電路的功耗。仿真結(jié)果表明,該電路功耗為14.4 μW,準(zhǔn)確率為97%,延時(shí)為20 ms,可滿足KWS應(yīng)用的需求。仿真結(jié)果如圖13所示,其中Vin為輸入的語(yǔ)音信號(hào),為了便于分析計(jì)算結(jié)果的準(zhǔn)確性,仿真時(shí)設(shè)置的語(yǔ)音信號(hào)為方波信號(hào),Energy_out為短時(shí)能量模塊的仿真結(jié)果,ZCR_out為短時(shí)過零率的仿真結(jié)果,VADout為VAD電路模塊的檢測(cè)結(jié)果。

4 結(jié) 語(yǔ)

相較于其他傳統(tǒng)方法,本文所設(shè)計(jì)的基于語(yǔ)音時(shí)域特征的混合信號(hào)域語(yǔ)音活動(dòng)檢測(cè)架構(gòu)在功耗方面還有進(jìn)一步降低的空間。同時(shí),為了初步驗(yàn)證本文架構(gòu)的可行性,當(dāng)前工作階段采用了外部提供的開關(guān)時(shí)序,暫未設(shè)計(jì)相應(yīng)的時(shí)鐘生成器。待后續(xù)的回片測(cè)試驗(yàn)證成功后,將在下一個(gè)版本中開展時(shí)鐘生成器和VAD功能模塊的集成工作。

參考文獻(xiàn)

[1]佚名. 黑科技滿滿的盛會(huì) Google I/O 2016開發(fā)者大會(huì)[J].電腦愛好者,2016(12):74-76.

[2] LI Q, LIU C L, DONG P Y, et al. NS-FDN: near-sensor processing architecture of feature-configurable distributed network for beyond-real-time always-on keyword spotting [J]. IEEE transactions on circuits and systems I: regular papers, 2021, 68(5): 1892-1905.

[3] RAYCHOWDHURY A, TOKUNAGA C, BELTMAN W, et al. A 2.3 nJ/ frame voice activity detector-based audio front-end for context-aware system-on-chip applications in 32 nm CMOS [J]. IEEE journal of solid-state circuits, 2013, 48(8): 1963-1969.

[4] CROCE M, FRIEND B, NESTA F, et al. A 760 nW, 180 nm CMOS analog voice activity detection system for domestic environment [J]. IEEE journal of solid-state circuits, 2021, 56(3): 778-787.

[5]趙力. 語(yǔ)音信號(hào)處理[M]. 北京:機(jī)械工業(yè)出版社,2003.

[6]劉華平,李昕,徐柏齡,等. 語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法綜述及展望[J]. 計(jì)算機(jī)應(yīng)用研究,2008,25(8):2278-2283.

[7]李樂.語(yǔ)音端點(diǎn)檢測(cè)算法的研究及應(yīng)用[D]. 西安:西安建筑科技大學(xué),2016.

[8]呂海玉,嚴(yán)路昊,張郡夫,等.基于單片機(jī)的老年健康管家[J].物聯(lián)網(wǎng)技術(shù),2021,11(5):104-105.

[9]張超.語(yǔ)音端點(diǎn)檢測(cè)方法研究[D]. 大連:大連理工大學(xué),2016.

[10]宋知用. MATLAB在語(yǔ)音信號(hào)分析與合成中的應(yīng)用[M]. 北京:北京航空航天大學(xué)出版社,2013.

[11] CHAISAYUN I, PIANGPRANTONG S, DEJHAN K. Versatile analog squarer and multiplier free from body effect [J]. Analog integrated circuits and signal processing, 2012, 71(3): 539-547.

[12]畢查德·拉扎維. 模擬CMOS集成電路設(shè)計(jì)[M]. 西安:西安交通大學(xué)出版社,2002.

[13]簡(jiǎn)· M.拉貝艾,周潤(rùn)德. 數(shù)字集成電路—電路、系統(tǒng)與設(shè)計(jì)[M].北京:電子工業(yè)出版社,2004.

[14]夏宇聞. Verilog數(shù)字系統(tǒng)設(shè)計(jì)教程[M]. 北京:北京航空航天大學(xué)出版社,2008.

猜你喜歡
人工智能
我校新增“人工智能”本科專業(yè)
用“小AI”解決人工智能的“大”煩惱
汽車零部件(2020年3期)2020-03-27 05:30:20
當(dāng)人工智能遇見再制造
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
AI人工智能解疑答問
人工智能與就業(yè)
基于人工智能的電力系統(tǒng)自動(dòng)化控制
人工智能,來了
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
人工智能來了
清丰县| 长春市| 锦屏县| 新营市| 通江县| 申扎县| 蕲春县| 孙吴县| 临漳县| 隆子县| 鸡泽县| 都昌县| 金堂县| 遵化市| 东山县| 康定县| 德格县| 和硕县| 教育| 井陉县| 青岛市| 石渠县| 南靖县| 泰宁县| 灌云县| 长子县| 齐河县| 长乐市| 金秀| 乐昌市| 诸暨市| 都匀市| 垣曲县| 麻城市| 芷江| 松溪县| 册亨县| 东乌| 克什克腾旗| 南丹县| 东方市|