摘 要:利用常規(guī)算法進行感知互動系統(tǒng)設(shè)計時會出現(xiàn)易受噪聲與環(huán)境影響、性能依賴參數(shù)設(shè)定、無法完成音頻識別且識別時間過長等問題,本文設(shè)計了一種基于深度學(xué)習(xí)的景區(qū)景觀感知互動系統(tǒng)。該系統(tǒng)主要由音頻識別、圖像收集和處理控制等模塊構(gòu)成,并采用深度學(xué)習(xí)算法進行增添子函數(shù)、自適應(yīng)控制和設(shè)定識別方向等相關(guān)軟件設(shè)計,完成了音頻識別過程。測試表明,深度學(xué)習(xí)算法能夠有效處理不同強度的帶噪聲頻,縮短識別距離,提升計算效率與識別準確度,并能對不同游客的互動音頻進行播放與可視化展示,改進了景區(qū)景觀的互動效果,該算法在景區(qū)景觀感知互動系統(tǒng)中具有良好的實用性與優(yōu)越性。
關(guān)鍵詞:深度學(xué)習(xí)算法;景區(qū)景觀;感知互動;音頻識別;音頻分離
中圖分類號:TP 391" " " " " " 文獻標志碼:A
隨著音控技術(shù)的發(fā)展,感知互動出現(xiàn)在大眾視野中,在該背景下,景區(qū)景觀也開發(fā)了感知互動系統(tǒng),以降低人工成本。音頻識別根據(jù)準則識別最優(yōu)路徑,是感知互動系統(tǒng)研究的重心。音頻識別算法可分為常規(guī)算法與優(yōu)化算法,常規(guī)算法須進行信息載入,計算量較大。常規(guī)算法的研究成果多樣,姚鑫(2023年)等通過引入音頻識別距離信息,并使用梯度下降得到最優(yōu)識別距離,提升了音頻分離效果[1];楊鵬(2023年)等提出混合音頻分離方法,將自適應(yīng)動態(tài)權(quán)重因子引入粒子群算法,以提高其識別能力[2]。雖然該研究提升了感知互動系統(tǒng)性能,但是仍有改進空間,例如存在易受噪聲與環(huán)境影響、無法完成音頻識別等問題,從而降低了互動效果。深度學(xué)習(xí)算法是一種優(yōu)化算法,具有參數(shù)少、識別速度快等優(yōu)勢[3]。因此本文選取深度學(xué)習(xí)算法進行景區(qū)景觀感知互動系統(tǒng)設(shè)計,通過智能互動平臺進行感知交互,并對收集的音頻進行分離處理,以可視化形式完成互動,從而更好地解決游客互動問題。
1 整體設(shè)計
為實現(xiàn)景區(qū)景觀的智能感知互動,本文采用深度學(xué)習(xí)算法挖掘景區(qū)景觀中感知設(shè)備的音頻序列,然后利用AR技術(shù)進行景觀模擬仿真,從而構(gòu)建景區(qū)景觀感知互動系統(tǒng)。系統(tǒng)結(jié)構(gòu)主要由智能互動平臺與服務(wù)器構(gòu)成。智能互動平臺包括音頻識別、音頻播放以及波譜可視化展示等部分。服務(wù)器的作用是對音頻進行分離與解碼等操作。智能互動平臺通過收集設(shè)備識別與收集游客語音,將收集的互動音頻通過無線傳輸?shù)男问缴蟼髦练?wù)器。服務(wù)器通過編碼設(shè)備進行音頻分離與解碼,將處理過的音頻傳輸至智能互動平臺,再次進行音頻播放與波譜可視化操作。
2 硬件設(shè)計
2.1 功能模塊
系統(tǒng)以Core I9-13600K處理器為核心,集成嵌入式HyperTransport控制器,非常適用于音頻處理。系統(tǒng)硬件由音頻識別、圖像收集和處理控制等模塊構(gòu)成,其中音頻識別包括本地識別與云端識別,因為云端識別需要連接網(wǎng)絡(luò),所以使用本地識別[4];圖像收集采用支持感光的OV7670攝像頭,有656×488個像素;處理控制模塊選用ASR-200H引擎,具有強大的雙精度浮點運算能力,可滿足多數(shù)識別場景。系統(tǒng)功能模塊如圖1所示,其工作原理如下:音頻識別模塊收集語音指令,引導(dǎo)圖像收集模塊進行圖像收集工作,處理控制模塊通過深度學(xué)習(xí)算法對圖像信息進行計算,完成邏輯分割與智能識別,識別結(jié)果通過設(shè)備傳輸給游客。
2.2 電路設(shè)計
系統(tǒng)硬件通過電阻處理音頻形變,音頻通過震動使電阻與極板相接觸,將音頻轉(zhuǎn)換為電壓,從而實現(xiàn)音頻信號到電信號的轉(zhuǎn)變。具體的電路設(shè)計如圖2所示,其工作原理如下所示。ASR-200H上的極化膜自帶永久電荷,在音頻作用下極化膜開始震動,當(dāng)極板在音頻作用后退時,電容減少,電容電壓升高。反之,當(dāng)電容增加時,電容電壓就會下降。因為ASR-200H內(nèi)部電容較小,輸出電信號較微弱,所以無法直接與放大電路相連,此時應(yīng)與阻抗變換器相連。因此,在ASR-200H內(nèi)使用阻抗較高的場效應(yīng)管進行阻抗,然后通過場效應(yīng)管將電容電壓取出并放大,由此得到與音頻對應(yīng)的電壓。
3 軟件設(shè)計
針對常規(guī)算法在復(fù)雜環(huán)境內(nèi)無法識別音頻的問題,本文進行優(yōu)化后得到深度學(xué)習(xí)算法。采用深度學(xué)習(xí)算法進行靜態(tài)識別,提取關(guān)鍵點,并將其作為局部目標點。出現(xiàn)新音頻時,進行局部識別,以保證路徑最佳。算法流程如圖3所示,包括以下6個流程。1)在Fastone創(chuàng)建模擬環(huán)境,設(shè)置起點與終點。2)初始化算法參數(shù)。學(xué)習(xí)因子c、最大迭代次數(shù)Tmax、最大線速度vmax和最大加速度ωmax等。3)觀察迭代次數(shù)是否為最大,如果滿足,就可得出最優(yōu)路徑。4)提取不同局部子目標點,初始化當(dāng)前節(jié)點,通過算法進行采樣,使用速度組合(v,ω)進行軌跡預(yù)測,根據(jù)評價函數(shù)選出最優(yōu)速度組合識別路徑[5]。5)觀察到達的局部子目標點是否為全局目標點,如果是,表明已到終點。6)輸出最優(yōu)路徑,算法完結(jié)。
3.1 增添子函數(shù)
深度學(xué)習(xí)算法的原理是在已知信息的基礎(chǔ)上,通過算法計算音頻識別最短路徑,記為path。此時,識別出的路徑可能存在遠離最短路徑的情況,為了使識別路徑最短,特增添子函數(shù)dropna(),其權(quán)重為w4。dropna()的作用是使算法選擇最優(yōu)路徑,優(yōu)化后的深度學(xué)習(xí)算法評估函數(shù)E如公式(1)所示。
E=r[w1·query(v,ω)+w2·sample(v,ω)+w3·fillna(v,ω)+w4·dropna(v,ω)] (1)
預(yù)測軌跡起點到坐標(x0,y0)的最短距離分別如公式(2)、公式(3)所示。
(2)
(3)
式中:md1、md2、md3分別為預(yù)測軌跡均分的不同點到坐標(x0,y0)的最短距離;(x0,y0)為預(yù)測軌跡上首個坐標;(x1,y1)為預(yù)測軌跡上首個點對應(yīng)path最短距離上的坐標;μ為3個點到path最短距離的加權(quán)距離均值。
μ值越小,表明預(yù)測軌跡最接近path,相應(yīng)評分就越高。算法會優(yōu)先選擇高評分的路徑,這樣可使深度學(xué)習(xí)算法識別的路徑最接近path。
3.2 自適應(yīng)控制
音頻識別需要有良好的局部識別能力,但是常規(guī)算法的權(quán)重系數(shù)基本固化。研究可知,如果音頻速率較快,就會導(dǎo)致算法識別遲滯。因此進行深度學(xué)習(xí)時引入自適應(yīng)控制,當(dāng)識別到部分音頻時,自適應(yīng)控制w1提升,使深度學(xué)習(xí)算法的識別能力更強。此時音頻識別的最優(yōu)路徑如公式(4)所示。
(4)
式中:vt為某段音頻在t時識別的線速度;ωt為某段音頻在t時識別的加速度。
w1數(shù)值與加速度成正比,越臨近音頻時,w1數(shù)值越大,其識別能力越良好。
3.3 設(shè)定識別方向
深度學(xué)習(xí)算法設(shè)定初始識別方向是隨機的,當(dāng)與目標音頻存在較遠距離時,可能會出現(xiàn)無法有效識別的問題。為防止子目標點選擇錯誤導(dǎo)致的誤差問題,應(yīng)進一步篩選起點附近節(jié)點,根據(jù)節(jié)點與目標點間的距離設(shè)置距離評估函數(shù)。g為下處可行節(jié)點,分別計算可行節(jié)點距離估值函數(shù)F(d)的數(shù)值,如公式(5)所示。
(5)
式中:dmin為可行節(jié)點到目標節(jié)點與當(dāng)前節(jié)點之和的最短距離;dmax為可行節(jié)點到目標節(jié)點與當(dāng)前節(jié)點之和的最長距離。
當(dāng)g越臨近目標點F(d)值越大時,離終點距離越近;F(d)值越小,離終點距離越遠。對可行節(jié)點排序后,將F(d)值最大的節(jié)點作為首個子目標點。設(shè)(x2,y2)為起點坐標,(x0,y0)為首個子目標點坐標,那么初始航向值I(c)如公式(6)所示。
(6)
深度學(xué)習(xí)算法會直接向下處目標音頻點運動,未出現(xiàn)停滯情況,由此可避免無法有效識別與后續(xù)分離的問題。
4 系統(tǒng)測試
4.1 測試預(yù)設(shè)
測試數(shù)據(jù)來源Vision Transformer音頻庫,選取某段游客音頻進行識別與分離。其中,純凈音頻受白噪聲與多路重合噪聲干擾,獲得4段噪聲音頻,白噪聲與多路重合噪聲分別為平穩(wěn)噪聲與不平穩(wěn)噪聲。為準確評估識別與分離效果,選取音頻質(zhì)量評估作為核心評價指標。該指標屬于音頻質(zhì)量評估方法,是識別與分離的常用評價方法。在測試中,指標數(shù)值控制在-0.1~0.4,數(shù)值越高,表明音頻質(zhì)量處理效果越佳。
4.2 識別效果
根據(jù)上述設(shè)置,為驗證算法是否有效,將最高音頻強度設(shè)置為15dB,最高識別時間設(shè)置為4s,獲得不同音頻強度下深度學(xué)習(xí)算法對音頻的識別情況,如圖4所示。由測試可知,深度學(xué)習(xí)算法能夠有效處理不同音頻強度的噪聲,隨著音頻強度提高,識別效果越好。
4.3 處理效果比較
為觀察算法處理效果,選擇Vision Transformer音頻庫的部分游客音頻作為試驗對象,并在其中分別添加白噪聲與多路重合噪聲,噪聲干擾強度為0dB~15dB。測試將對帶噪聲頻進行強化,同時采用音頻質(zhì)量評估指標進行效果評估,并得到最終結(jié)果(見表1)。由測試可知,深度學(xué)習(xí)算法能夠有效處理不同信噪比帶噪聲頻,隨著音頻強度提高,不同帶噪聲頻的音頻質(zhì)量評估指標也逐步變化。
為進一步觀察算法在不同帶噪聲頻中音頻質(zhì)量評估指標的增減趨勢,根據(jù)表1結(jié)果繪制發(fā)展趨勢圖,如圖5所示。由測試可知,當(dāng)音頻強度為15dB時,白噪聲的音頻質(zhì)量評估指標開始顯著下降,多路重合噪聲隨著音頻強度提高而不斷上升。但從整體角度來看,在低音頻強度狀態(tài)下,白噪聲音頻質(zhì)量評估指標處于較高水平;在高音頻強度狀態(tài)下,多路重合噪聲音頻質(zhì)量評估指標則處于較高水平。
4.4 分離與可視化
音頻分離的目的是對接收的互動音頻進行分離處理,可在服務(wù)器上執(zhí)行,具體測試流程如圖6所示?;跍y試流程,可在智能互動平臺點擊音頻分類按鍵,通過平臺向服務(wù)器發(fā)送請求,將互動音頻上傳至服務(wù)器,由此實現(xiàn)音頻分離,游客可實時查看分離進度。服務(wù)器處理完音頻信號后,系統(tǒng)會提示完成分離。
為更清楚地觀察音頻分離效果,本文在測試過程中增加了音頻播放與可視化環(huán)節(jié)。完成音頻分離后,系統(tǒng)會播放分離后的音頻,并據(jù)其繪制相應(yīng)的波譜圖。由測試可知,系統(tǒng)能夠?qū)Σ煌慰偷幕右纛l進行播放與可視化展示,游客可通過界面進行音頻識別,由此強化了景區(qū)景觀的互動效果。
5 結(jié)語
綜上所述,本文設(shè)計了一種基于深度學(xué)習(xí)的景區(qū)景觀感知互動系統(tǒng),可進行目標音頻的收集、音頻識別、分離、播放以及可視化。測試結(jié)果表明,該算法具有可行性與實用性,能夠有效處理不同強度的帶噪聲頻,可顯著縮短識別距離,提升計算效率與識別準確度,并能對不同游客的互動音頻進行播放與可視化展示,提高了景區(qū)景觀的互動效果。本文還進行了仿真試驗,后續(xù)可進一步提升音頻識別的準確率,繼續(xù)縮短識別時間,并將其應(yīng)用于更多智能系統(tǒng)中,擴大算法的應(yīng)用范圍。
參考文獻
[1]姚鑫.基于語音識別的多模態(tài)人機交互系統(tǒng)關(guān)鍵技術(shù)研究[J].自動化與儀器儀表,2023(11):222-225.
[2]楊鵬,楊會,潘杰,等.基于語音交互系統(tǒng)導(dǎo)游機器人設(shè)計[J].電子制作,2023,31(17):100-102.
[3]李晗,郭宇,湯鵬洲,等.基于深度學(xué)習(xí)的增強裝配智能人機交互方法[J].計算機應(yīng)用與軟件,2024,41(1):36-41.
[4]熊其冰.基于Multi-Agent的多媒體交互系統(tǒng)的設(shè)計與實現(xiàn)[J].信息與電腦(理論版),2019,31(24):61-63.
[5]黨焱.多模式虛擬音樂交互儀器感知技術(shù)研究[J].自動化與儀器儀表,2024(1):30-34.