宋明杰 楊闖 王瑞祥 劉朝暉 閻少宏
摘 要:以廣告信息監(jiān)測為主要目的,完成了信息監(jiān)測系統(tǒng)的結(jié)構(gòu)和功能的設(shè)計,基于音頻匹配算法(DTW)的語音識別技術(shù),開發(fā)了一套針對廣告信息識別的信息管理系統(tǒng)。該系統(tǒng)包括一套完整的軟硬件設(shè)施,為廣告監(jiān)播部門和人員提供實用、功能豐富的管理工具,實現(xiàn)廣告信息的識別、監(jiān)測、預(yù)警、報告等的智能化處理,經(jīng)過隨機抽取樣本的檢測,準(zhǔn)確率基本穩(wěn)定在86%,經(jīng)驗證效果顯著。
關(guān)鍵詞:廣告;監(jiān)播系統(tǒng);語音識別;信息監(jiān)測
21世紀(jì)是信息的時代,信息成為各個領(lǐng)域乃至各個國家的重要戰(zhàn)略資源,信息的安全傳播是信息安全的重要組成部分,關(guān)系到國家安全和社會穩(wěn)定。隨著經(jīng)濟的發(fā)展,廣告成為社會生活的重要組成部分,而其帶來的社會問題也更加突出,特別是虛假廣告信息和非法小電臺播報的非法信息,嚴(yán)重影響人們的日常生活,并為社會帶來很多不穩(wěn)定因素,廣告檢測、監(jiān)測成為監(jiān)管部門亟待解決的問題。由于廣播信息具有傳播范圍廣、制作成本低、部分非法電臺較隱蔽等特點,電波信號不易察覺,且大量儲存將消耗很大的儲存資源。目前,廣播監(jiān)管僅局限于對異常電臺頻率的監(jiān)管。
基于上述分析,設(shè)計了電臺廣播信息識別(監(jiān)播)系統(tǒng),考慮到數(shù)據(jù)量大和電臺數(shù)眾多,分別開發(fā)和使用了數(shù)據(jù)預(yù)處理系統(tǒng)、多路分頻器和實時信息分析系統(tǒng)平臺,并進行了性能分析,為實現(xiàn)人工智能廣告信息監(jiān)播提供解決方案。
1 工作原理及算法
1.1 語音識別原理
語音識別技術(shù)經(jīng)過近40年的發(fā)展,已經(jīng)成為聲學(xué)、數(shù)字信號處理、概率統(tǒng)計、語言學(xué)、人工智能等多學(xué)科交叉的一項綜合性技術(shù),基于語音識別技術(shù)研發(fā)的系統(tǒng)成功應(yīng)用于很多場景,為語音識別技術(shù)在廣告信息監(jiān)播領(lǐng)域的應(yīng)用作重要鋪墊。
語音識別系統(tǒng)整體上由兩大部分組成:訓(xùn)練和識別。訓(xùn)練時對預(yù)先收集的海量語音、語音數(shù)據(jù)庫進行信號處理和建模,提取語音識別系統(tǒng)所需的“語言模型”和“聲學(xué)模型”。識別過程是對用戶輸入的音頻資料提取特征向量,利用訓(xùn)練好的“語言模型”和“聲學(xué)模型”進行統(tǒng)計模式識別,得到其包含的文字信息。線性預(yù)測(LPC)、梅爾倒譜系數(shù)(MFCC)等作為特征向量的組成部分。
1.2 改進的DTW算法
本次試驗采用了一種整體路徑約束DTW算法(ADTW),利用平行四邊形限制動態(tài)規(guī)整范圍,如下圖1所示:
平行四邊形之外的路徑點對應(yīng)的幀匹配距離不需要計算,也無需保存所有的距離和積累距離矩陣,充分利用這兩個特性,可以減少計算量和儲存空間,可提高識別速率、節(jié)約存儲空間。把實際的動態(tài)彎折分為三段:和,其中:
和都取最相近的整數(shù)。由此也得出對M和N長度的限制條件:
當(dāng)不能滿足以上條件時,則認(rèn)為兩者差別過大,無法進行動態(tài)彎折匹配。此時,在x軸上的每一幀不需要與y軸上的每一幀進行匹配比較,而只需與y軸上間的數(shù)據(jù)幀進行比較,兩者的計算公式如下:
當(dāng)出現(xiàn)的情況時彎折匹配三段分別是和。對于x軸上每前進一幀,盡管與之比較的y軸上的幀數(shù)不同,但彎折特性是一樣的,積累距離矩陣更新可用以下公式實現(xiàn):
模版匹配ADTW算法提高了原有的DTW算法,限制了識別區(qū)域,在保證正確的前提下大大減少了計算量,節(jié)約了存儲空間,提高了運行速度。
2 系統(tǒng)組成和軟件設(shè)計
廣告信息識別系統(tǒng)主要包括信號采集模塊、存儲磁盤列陣、廣告樣本數(shù)據(jù)庫、音頻匹配服務(wù)器、監(jiān)管數(shù)據(jù)庫、操作員終端和自動警報系統(tǒng)??紤]到信息采集時數(shù)據(jù)占用空間巨大,而硬盤對于大數(shù)據(jù)的存儲速度隨數(shù)據(jù)量和時間的增加而減小,因此采用循環(huán)分散式存儲技術(shù),將采集到的信息分成信息塊,一次存放在不同的磁盤中。下圖2給出了系統(tǒng)結(jié)構(gòu)圖:
2.1 多路分頻器(VGA分頻器)
VGA分頻器又稱VGA信號寬帶矩陣切換器,將多路電視、電臺信號從輸入通道切換到相應(yīng)的信道上,使各路信號之間彼此獨立地進入到信號調(diào)節(jié)器中,保證信號的獨立性,并減少長距離信號傳輸造成的信號衰減現(xiàn)象。
2.2 信號解調(diào)器
經(jīng)分頻器分發(fā)出來的載波信號在計算機識別之前,需經(jīng)過解調(diào)器將載波信號還原為計算機可以識別的“0”和“1”信號,或模擬信號,這個過程稱為“解調(diào)”,也稱A/D轉(zhuǎn)換。
2.3 信號采集服務(wù)列陣
信號采集服務(wù)器主要進行語音識別的準(zhǔn)備設(shè)備,完成原始數(shù)據(jù)的采集、備份,音頻特征的建模,為后續(xù)的語音識別做準(zhǔn)備工作,主要有以下功能特點:
語音信號采用G.722的高壓縮格式,占用磁盤空間小,失真率低;
采用磁盤列陣存儲方式,存儲速度快;
支持分段節(jié)目錄制;
具有很好的擴展性,方便存儲識別擴容。
2.4 廣告監(jiān)管服務(wù)器
廣告識別服務(wù)器是整個廣告信息識別的核心組件,完成語音文件匹配、識別結(jié)果保存和語音識別數(shù)據(jù)庫的更新。功能特點如下:
語音識別廣告準(zhǔn)確率穩(wěn)定在85%左右(主要受方言和普通話標(biāo)準(zhǔn)程度的影響);
高性能運算平臺,具有高穩(wěn)定性和可靠性,免維護,可7×24h不間斷運行;
并行優(yōu)化運算,可對數(shù)據(jù)進行快速、穩(wěn)定處理。
2.5 操作員終端
系統(tǒng)中,相關(guān)廣告人員的日常工作都在操作員終端上進行,由隨系統(tǒng)開發(fā)的操作員終端軟件提供簡潔、明了的人機交互界面(圖3為操作員終端界面),功能如下:
以波形和文字相結(jié)合的方式顯示選擇監(jiān)管頻道的聲音文件,使聲音看得見;
支持拖拽定位功能,可快速尋找定位廣告位置;
對新的廣告樣本進行特征提取并建立新的廣告樣本,更新語音識別數(shù)據(jù)庫;
監(jiān)管數(shù)據(jù)的查看,生成報表。
3 結(jié)論
本文針對廣告信息識別的特點和要求,利用梅爾倒譜系數(shù)等10個參數(shù)作為特征參數(shù),構(gòu)建語音識別算法,針對廣告監(jiān)播的特點和要求,設(shè)計出一套改進監(jiān)播體系,然后簡單介紹了各部分的組成及功能,從整體的性能分析來看,監(jiān)播系統(tǒng)的優(yōu)點突出:如識別率高、數(shù)據(jù)處理速度快、原始數(shù)據(jù)保存妥善;系統(tǒng)的高穩(wěn)定性和升級的擴展性,支持關(guān)鍵詞搜索等等。隨著市場的快速發(fā)展和技術(shù)的不斷提升,越來越多的新技術(shù)可應(yīng)用到本系統(tǒng)中,使系統(tǒng)更加適應(yīng)市場需求,并有較好的市場前景預(yù)期。
參考文獻
[1]沈昌祥,張煥國.信息安全總述[J].中國科學(xué) E輯:信息科學(xué),2007,37(2):129-150.
[2]李志華,張憲平.我國電視廣告的當(dāng)代特征和發(fā)展策略[D].山西大學(xué),2012.
[3]劉瀟,和應(yīng)民.語音識別關(guān)鍵技術(shù)研究[D].哈爾濱工程大學(xué),2006.
[4]徐剛,周志芳.語音信號近似度模型匹配研究[D].華北電力大學(xué),2013.
[5]雷靜.語音識別技術(shù)的研究和基本實現(xiàn)[D].武漢理工大學(xué),2002.
(作者單位:華北理工大學(xué) 數(shù)學(xué)建模創(chuàng)新實驗室)