劉薇
摘要:本系統(tǒng)設計主要應用在室內(nèi)報警聲監(jiān)控與識別系統(tǒng)中,包含室內(nèi)報警聲監(jiān)控與識別系統(tǒng)的功能需求分析、報警語音的選擇、軟硬件識別系統(tǒng)的方案設計。
關鍵詞:報警聲監(jiān)控;識別;報警語音
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)33-7976-03
Abstract: The system design is mainly used in indoor alarm monitoring and identification system, including indoor alarm monitoring and identification system functional requirements analysis, program design voice alarm selection, hardware and software recognition system.
Key words: alarm monitoring; identification; alarm voice
1 設計背景
隨著現(xiàn)代科學和計算機技術(shù)的發(fā)展,人機互動形式多種多樣,語音識別技術(shù)取代傳統(tǒng)的通過鼠標、鍵盤實現(xiàn)人機信息交流的模式,這是目前計算機、信號處理和人工智能等領域的重要課題。
自動語音識別的任務是研究如何利用計算機模擬人類的聽覺功能,從人的語音信號中提取出有用的聲學特征和語言信息,進而確定語音信號的語言含義,實現(xiàn)人和機器之間的自然語言通信。
近五十年來,語音識別技術(shù)開始漸漸走出實驗室,在國防監(jiān)聽、遠程會議、音頻設備、移動通訊、身份鑒別、智能玩具、機器人等領域展現(xiàn)了廣闊的應用前景,一些應用已非常貼近人們的生活。眾人熟知的2010上海世博會吉祥物“海寶”作為“能說會道”智能玩具就是音頻識別技術(shù)的一個成功應用。
然而,由于語音信號的不確定性,以及周圍環(huán)境的不可控性,目前還鮮有十分可靠的語音識別系統(tǒng)大面積商用或民用的實例。從目前的語音識別理論的發(fā)展來看,非特定人的大詞匯量和連續(xù)語音識別仍然是語音識別領域的技術(shù)難點。相對而言,非特定人中小詞匯量的孤立詞語音識別的理論和實踐發(fā)展相對較成熟和完善,完全有可能應用于一些聲環(huán)境相對穩(wěn)定,噪聲相對較小的場合,如室內(nèi)的語音報警、聲控家電及智能玩具等。因此,研制出具有實用價值的有限詞匯(有限指令集)的孤立詞語音識別系統(tǒng),有助于擴大語音識別技術(shù)的應用范圍。
本系統(tǒng)設計側(cè)重于對環(huán)境聲識別在監(jiān)控領域的應用。該領域在近年來發(fā)展非常迅速,尤其是經(jīng)過2008年北京奧運會、2010年上海世博會等大型活動的安防建設,在安防監(jiān)控方面取得了前所未有的發(fā)展,使其成為保障人民生命財產(chǎn)安全、維護社會和諧穩(wěn)定的重要行業(yè)。
2 設計目的與意義
這里的環(huán)境聲(Environmental Sound)是指在人居環(huán)境中所接收到的各種聲音。特別地,監(jiān)控系統(tǒng)所感興趣的多是人在緊急狀況下發(fā)出的呼叫聲,咳嗽聲,巨大的撞擊聲等能起到警告作用的異音,其識別本質(zhì)上屬于孤立詞識別的范疇。
環(huán)境聲監(jiān)控和識別是語音識別中的分支方向,目前處于發(fā)展初期,還沒有可應用于非特定人的監(jiān)控和識別系統(tǒng)得到實際應用,而隨著智能樓宇、大型社交活動場所的安防及重要場所的監(jiān)控等方面的需求與日俱增,急需發(fā)展這方面的技術(shù)。在“十二五”安防產(chǎn)業(yè)發(fā)展的大趨勢下,基于中小詞匯量孤立詞識別的報警聲監(jiān)控和識別系統(tǒng)將會在未來的幾年內(nèi)取得較快發(fā)展。
本系統(tǒng)設計以銀行、博物館、居室、室內(nèi)停車場等室內(nèi)應用場景的監(jiān)控為設計背景,針對室內(nèi)典型的聲音(如“著火啦”、“搶劫”及玻璃破碎聲等),利用語音信號處理和聲目標分類識別等領域的研究成果(包括特征提取和分類識別等),以音頻和視頻監(jiān)控的結(jié)合為應用目標,側(cè)重于報警詞識別系統(tǒng)的軟件設計,最終將應用于報警聲監(jiān)控和自動識別硬件系統(tǒng),為公安、消防等相關部門的決策提供關鍵信息。
概括而言,本系統(tǒng)設計可在以下安防相關領域得到直接或推廣應用:
1) 銀行、博物館等重要場所的防盜報警監(jiān)控系統(tǒng);
2) 智能樓宇安全防衛(wèi)監(jiān)控及訪客自動識別系統(tǒng);
3) 醫(yī)院重癥病人監(jiān)控或遠程室內(nèi)老人、兒童活動監(jiān)護;
4) 背街小巷內(nèi)的盜搶事件監(jiān)控。
除了安防領域,該文涉及的核心技術(shù)在語音識別、說話人識別、智能家電、機器人等相關領域也具有一定的參考價值。
3 系統(tǒng)關鍵問題分析
通過對特定應用場景的研究,本系統(tǒng)設計旨在將環(huán)境聲識別的關鍵技術(shù)運用到這些場景中聲音監(jiān)控中。實際場景中,干擾噪聲和混響往往是比較突出的問題,不同的場所這兩個因素的影響程度不一,如何才能使環(huán)境聲監(jiān)控識別適應不同的聲環(huán)境是系統(tǒng)研究的重點也是難點。具體的關鍵問題:
1) 干擾噪聲下,系統(tǒng)自動檢出有效語音段的問題,即端點檢測問題。
2) 提取魯棒的聲音特征的問題,要求是能夠最大程度地保留話者或者聲音內(nèi)容本身的特征而去除干擾聲和通道噪聲(如混響)帶來的影響。
3) 環(huán)境聲的匹配識別問題,在保證正確率的前提下,提高識別的效率。
4) 特定聲環(huán)境下(混響,多個聲源等)聲線索性能精度下降問題,如混響下雙耳定位性能下降,導致引導攝像頭監(jiān)控效率降低。
以上這些是典型的環(huán)境聲識別與監(jiān)控所面臨的問題,每一個問題的解決都是極其復雜的,本系統(tǒng)設計只能在特定條件下做局部的改進。
1) 針對監(jiān)控設備(錄音設備)帶來的噪聲干擾,該文提出了一種基于臨界帶功率譜方差的端點檢測方法,能夠有效地在含噪語音中找到語音,用于系統(tǒng)對環(huán)境聲的識別。
2) 提出一種智能音視頻聯(lián)合的監(jiān)控思想,對聲源先進行定位,利用定位信息引導攝像,提高了視頻監(jiān)控的視域范圍,同時進行聲音的識別。
3) 針對混響和干擾噪聲的影響,提出一種基于分類的定位方法,用于上述系統(tǒng)中,提高了系統(tǒng)的魯棒性。
4 環(huán)境聲監(jiān)控和識別系統(tǒng)設計
本系統(tǒng)設計以典型環(huán)境聲為識別對象,利用當前主要的孤立詞識別方法,并對其中的主要環(huán)節(jié)加以改進,基于Matlab平臺設計一套完整的報警詞識別軟件系統(tǒng),將其轉(zhuǎn)化為C語音,以便于未來向嵌入式系統(tǒng)移植。
4.1 應用場景設計
目前語音識別技術(shù)的研究主要集中在語音識別的特征提取、模型建立、識別算法和語音信號處理(語音降噪、增強等)方面。對語音識別應用技術(shù)的研發(fā)主要集中在通信領域[5],如利用語音實現(xiàn)文本輸入。在其他領域如樓宇智能監(jiān)控、語音報警等方面的應用技術(shù)開發(fā)相對較少,國內(nèi)現(xiàn)在還沒有真正意義上將語音識別技術(shù)應用于這些方面的產(chǎn)品。該文將依托視頻監(jiān)控平臺,設計一套室內(nèi)報警聲監(jiān)控和識別系統(tǒng),為其實際應用打下基礎。
隨著國家經(jīng)濟發(fā)展水平的不斷提高,科技水平特別是以計算機技術(shù)為代表的高科技的迅猛發(fā)展,人們對經(jīng)濟舒適、高效安全的生活環(huán)境的期望值越來越高,安全意識也與日俱增。同時由于人們生活節(jié)奏的加快,工作壓力的增大,很多時候常常需要加班,家里的一些突發(fā)狀況而得不到有效的通報,容易造成安全隱患。
現(xiàn)實生活中,尤其是在治安較差的區(qū)域常有此類報道:不法分子入室實施盜竊、搶劫、殺人等犯罪行為,即使被害人大聲疾呼,奮力反抗,也往往難以得到及時救助;或是晚上家里突然著火,濃煙彌漫,而當事人已經(jīng)迷失方向,無法通過電話報警;或是獨居的孤寡老人,突然身體不適,自己無力打電話求救,等到監(jiān)護人員趕到時狀況往往已經(jīng)相當糟糕。這些不利的后果主要是因為無法報警或報警不及時而造成的。因此,能夠及時地發(fā)出和接收報警信息并及時達到現(xiàn)場,想辦法解除險情,這是目前生活小區(qū)安防領域急需解決的一個關鍵問題。
在其他一些重要場所如博物館、銀行等,如果發(fā)生緊急事件(盜竊、搶劫)而沒有及時報警,也非??赡茉斐芍卮笕松砘蜇敭a(chǎn)的損失。
當然,除了報警功能外,孤立詞語音識別的核心技術(shù)還可以應用到其他許多領域。如智能家電就是一種大有前途的領域,一旦技術(shù)發(fā)展成熟,人們即可實現(xiàn)在黑暗中通過語音來操控電視、電燈、空調(diào)等家用電器。
上述應用場景大多屬于室內(nèi)環(huán)境,具有一些的相似特點:
1) 往往背景噪聲較低、平穩(wěn)或種類單一;
2) 聲源至傳聲器(安裝于監(jiān)控設備)的距離通常較近;
3) 可能出現(xiàn)的報警語音種類有限。
這些共同特性為本文后面的關鍵詞選取、算法設計提供了主要依據(jù)。
4.2 功能需求設計
在前述室內(nèi)應用環(huán)境中,語音識別要想發(fā)揮準確及時的自動識別和報警作用,對識別系統(tǒng)有一系列要求。
1) 保證在實際應用環(huán)境下具有較高的正確識別率。語音識別在噪聲環(huán)境下的識別效果的下降一直是該項技術(shù)不能大面積商用、民用的直接原因?,F(xiàn)階段,該問題暫時還沒有較完善和統(tǒng)一的解決。但是,在室內(nèi)環(huán)境中,對于小詞匯量的孤立詞語音識別,通過算法優(yōu)選和改良,識別率完全可能達到實際應用的要求。
2) 室內(nèi)環(huán)境聲監(jiān)控與識別系統(tǒng)需要做到實時監(jiān)控,及時報警。滿足實時要求的最簡單原則便是語音識別的時間要不大于語音本身的時長,而語音識別的時間長短主要由端點檢測和模板匹配算法決定。關于端點檢測和匹配算法本文將在下面的章節(jié)做詳細的論述,并且提出相應的改進算法,以提高識別正確率和識別速度。
3) 報警與監(jiān)控系統(tǒng)不僅要及時分析處理和報警,還有必要將采集的聲音信號存儲備查。這對于數(shù)據(jù)接口設計和硬件存儲空間選擇具有明確的要求。
4) 報警與監(jiān)控系統(tǒng)的網(wǎng)絡化。網(wǎng)絡化是監(jiān)控系統(tǒng)的基本要求,只有網(wǎng)絡化才能使不在事發(fā)現(xiàn)場的監(jiān)控人員了解現(xiàn)場的情況。這還與報警聲識別系統(tǒng)的應用平臺相關。
5) 能夠方便地對語音模板庫進行編輯和更新。如實現(xiàn)語音特征模板庫的添加和刪除,這對于系統(tǒng)的推廣應用具有重要的價值。
4.3 系統(tǒng)基本結(jié)構(gòu)
基于孤立詞語音識別的報警聲監(jiān)控和識別系統(tǒng)按功能分為訓練和識別兩大階段。訓練包含預處理、特征提取兩個模塊;識別是在訓練的基礎上加一個匹配識別模塊。對不同的語音識別任務來說,盡管設計和實現(xiàn)的細節(jié)不同,但所采用的基本技術(shù)是相似的。
其中,訓練語音樣本的采集過程包含了對模擬信號的采樣、濾波、量化、編碼的過程;預處理包含預加重、加窗分幀、端點檢測。預處理模塊的功能是通過高頻預加重來平滑信號頻譜,并利用窗函數(shù)把語音數(shù)據(jù)序列分成連續(xù)的信號幀。端點檢測單元主要完成確定單詞的起始幀與結(jié)束幀的檢測。特征提取單元的功能是完成基于頻譜分析的特征矢量計算。當端點檢測單元檢測到當前語音信號幀為起始幀時,特征提取單元開始特征提取計算,并完成對特征矢量的存儲。
一個完整的孤立詞語音識別系統(tǒng),除了包括核心的模式識別程序,還應包括語音采集、參數(shù)分析、標準聲學模型等。根據(jù)識別結(jié)果在實際環(huán)境下實現(xiàn)一定的應用,還必須考慮耐環(huán)境技術(shù)、用戶輸入、輸出接口技術(shù)等。因此,語音識別技術(shù)加上各種外圍技術(shù)的組合,才能構(gòu)成一個完整的可實際應用的語音識別系統(tǒng)。
5 結(jié)束語
“十二五”期間,數(shù)字化、網(wǎng)絡化、集成化、智能化將成為安防監(jiān)控發(fā)展的大趨勢。這對于傳統(tǒng)的以網(wǎng)絡化視頻監(jiān)控為主的監(jiān)控系統(tǒng)提出新的要求。由于圖像采集本身的特性以及場景障礙物的存在,傳統(tǒng)監(jiān)控系統(tǒng)常常存在盲區(qū),而如果能將音頻識別和視頻監(jiān)控相結(jié)合,將可望建立起真正具有智能監(jiān)控功能的系統(tǒng)。
參考文獻:
[1] 萬兆陽.語音識別技術(shù)在呼叫中心自動外呼應用的研究與實現(xiàn)[D].北京郵電大學,2012.
[2] 沈崇德,童思木.醫(yī)院智能語音客戶服務系統(tǒng)的創(chuàng)新研究與應用示范[J].中國醫(yī)學裝備,2013(1).
[3] 劉東輝.語音識別技術(shù)探析[J].信息與電腦(理論版),2012(6).
[4] 楊順遼.基于說話人確認系統(tǒng)的語音處理綜合實驗[J].高校實驗室工作研究,2012(3).
[5] 劉文強.語音識別技術(shù)在智能家居中的研究與應用[D].大連海事大學,2013.