張華斌
摘 要:隨著我國廣播事業(yè)的不斷發(fā)展,對廣播監(jiān)測的要求也在不斷提高,工作量也越來越大,依靠原有人工識別為主的工作模式已經(jīng)無法滿足現(xiàn)在的業(yè)務需求。廣播監(jiān)測網(wǎng)語音綜合處理系統(tǒng)的建設很好地解決了這一問題,將監(jiān)測工作從人工識別向計算機識別發(fā)展,提高了語言和節(jié)目的識別率,從而提高了廣播監(jiān)測的工作效率。
關鍵詞:廣播語音綜合處理;語音評估;語種識別;呼號識別
1 需求概述
隨著我國廣播事業(yè)的不斷發(fā)展,目前廣播監(jiān)測工作量越來越大,如何自動監(jiān)測和評估這些節(jié)目的播出信號質(zhì)量,以及及時地判斷這些節(jié)目是否存在空播、錯播、停播等異態(tài)事件,已經(jīng)成為我們必須解決的一個現(xiàn)實問題。
目前,廣播監(jiān)測的手段正在由傳統(tǒng)依靠人工操作向計算機輔助監(jiān)測過渡,初步達到了設備控制的自動化和廣播信號采集的數(shù)字化、信息化和網(wǎng)絡化,并實現(xiàn)了部分簡單異態(tài)事件監(jiān)測的自動化。在廣播監(jiān)測中,其中一種方式是依靠無人值守的遙控站點采集當?shù)貙崟r收聽到的節(jié)目,并以錄音文件的形式回傳到中心機房進行評估,這種主要依靠人工識別的監(jiān)測方法,在站點數(shù)量眾多時,需要處理的工作量非常大,人工很難在較短時間內(nèi)發(fā)現(xiàn)并確認匯總異態(tài)。近年來廣播監(jiān)測業(yè)務規(guī)模不斷擴大,對監(jiān)測質(zhì)量的要求也不斷提高,建設一套智能化的廣播語音綜合處理系統(tǒng),提高對異態(tài)處理的實效性和準確性,對于提高廣播監(jiān)測服務質(zhì)量和維護空中電波秩序具有非常重要的意義。
2 建設內(nèi)容
廣播監(jiān)測網(wǎng)語音綜合處理系統(tǒng)的核心功能是監(jiān)測服務區(qū)內(nèi)聽眾聽到的節(jié)目是否與播出時節(jié)目源的節(jié)目和語言一致,如果不一致,確認信號的可聽度、干擾強度、及語言等,為此需要完成基于錄音文件的自動評估、實時語音語種識別、臺名與呼號輔助識別三個主要功能,具體建設內(nèi)容包括:
2.1 基于錄音文件的自動評估
對站點采集的各頻次語音數(shù)據(jù)進行自動評估,輸出判斷結果及其置信度。其中:
(1)質(zhì)量評估結果:停播、錯播和空播;(2)效果評估結果:評分結果為5分制,其中3分以上直接打分3/4/5,3分以下給出s1/s2形式評分(s1:廣播臺可聽度0~5漸強,s2:干擾情況0~5漸弱),并判斷噪聲種類(背景噪聲或同鄰頻語音干擾)和干擾強度;(3)語種評估結果:在錯播異態(tài)條件下,且s2在3分以下時,自動給出錯播語種的候選結果及其置信度。
2.2 實時語音語種識別
針對實時采集的數(shù)據(jù)文件,應能夠判斷是否按照預定的語言進行播出。如果沒有按照預定語言播出,則進行報警,并顯示應當播出的語種、實際播出的語種等信息。
2.3 臺名與呼號輔助識別
可以對站點采集到的含有外臺臺名及呼號的錄音文件進行臺名與呼號識別。
3 設計原則
考慮到綜合處理系統(tǒng)具有監(jiān)測數(shù)據(jù)處理量大,實時性強,對數(shù)據(jù)安全性、可靠性、準確性要求高的特點,并結合現(xiàn)有網(wǎng)絡傳輸條件,確定以下設計原則:
(1)可靠性:系統(tǒng)能夠長時間穩(wěn)定運行,設備監(jiān)測指標準確,信息上報處理迅速,達到系統(tǒng)的最大平均無故障時間;(2)先進性:采用先進的音頻智能處理技術,提高處理的準確性和實時性,而且充分考慮到未來技術發(fā)展的需要,力爭超前設計;(3)安全性:建立在一個專用網(wǎng)絡中,注重信息和數(shù)據(jù)的保護與隔離,可保證廣播監(jiān)測網(wǎng)系統(tǒng)的安全,具有完善、可靠的系統(tǒng)訪問權限機制;(4)模塊化:系統(tǒng)采用模塊化設計和面向服務的構架,當監(jiān)測任務增加、監(jiān)測站點增加和網(wǎng)絡規(guī)模擴大時,通過增加相應的功能模塊,就能方便地擴大監(jiān)測規(guī)模;(5)開放性:采用開放式操作系統(tǒng)、開放式網(wǎng)絡結構及其協(xié)議、和開放式的客戶/服務器模式,從而實現(xiàn)充分的資源共享,使平臺具有良好的可移植性。
4 系統(tǒng)軟硬件設計
4.1 物理結構設計
(1)錄音任務下發(fā)與回傳服務器:該服務器已到位,負責遙控站錄音文件的采集和回收;(2)衛(wèi)星參考源采集服務器:負責衛(wèi)星參考源信號的實時采集存儲;(3)數(shù)據(jù)庫服務器:負責存儲數(shù)據(jù)和結果信息,是業(yè)務層交互信息的核心存儲區(qū);(4)Web服務器:負責系統(tǒng)頁面的展示;(5)調(diào)度服務器:負責數(shù)據(jù)處理任務的調(diào)度,并負責處理結果的回收入庫,負責負載均衡控制,以充分利用計算機集群的計算能力;(6)引擎計算服務器:負責實時對調(diào)度器下發(fā)的任務進行音頻比對計算,并把計算結果通知調(diào)度器;(7)同步服務器:負責運行圖的實時同步,和數(shù)據(jù)庫信息的同步;(8)磁盤陣列:負責存儲錄音文件和參考源數(shù)據(jù)。
各個服務器均可為主流機架式計算機物理部署,服務器之間通過千兆局域網(wǎng)互連。用戶業(yè)務系統(tǒng)在基于J2EE的Web服務器管理下,實現(xiàn)多用戶并發(fā)數(shù)據(jù)訪問。
4.2 軟件架構設計
廣播監(jiān)測網(wǎng)語音綜合處理系統(tǒng)的軟件架構采用模塊化設計原則,每個模塊保持一定的功能獨立性,在協(xié)同工作時,通過相互之間的接口完成實際的任務,模塊化設計將功能模塊有機地結合起來,在保證正確性和健壯性的基礎上,提高了軟件的可擴展性和可復用性。
系統(tǒng)的軟件架構采用分層邏輯結構,整個系統(tǒng)自下到上分為3層:數(shù)據(jù)采集存儲層、數(shù)據(jù)分析處理層、表示層。
4.2.1 數(shù)據(jù)采集存儲層
數(shù)據(jù)采集存儲層主要實現(xiàn)三部分數(shù)據(jù)采集與存儲工作:
各電臺參考源信號的采集與存儲:基于組播技術,給定IP和端口,實時采集幾十套電臺的多語種廣播節(jié)目,每套節(jié)目每天存儲量約2GB。
中短波調(diào)幅廣播的采集與存儲:對接收機輸入一路中短波調(diào)幅廣播信號,基于V8指令,在1分鐘內(nèi)切換頻率進行采集,并把數(shù)據(jù)存儲到磁盤陣列中。
錄音回傳數(shù)據(jù)的數(shù)據(jù)庫存儲:對監(jiān)測網(wǎng)數(shù)據(jù)采集系統(tǒng)所回傳的錄音文件進行同步,把文件相關信息,比如文件名、路徑、語言、時長等同步到數(shù)據(jù)庫中進行存儲,數(shù)據(jù)庫采用oracle11g,可存儲百萬條數(shù)據(jù)記錄。
4.2.2 數(shù)據(jù)分析處理層
數(shù)據(jù)分析處理層綜合利用固定模板檢索、語音比對、語種識別與確認、音頻分類、音頻質(zhì)量評估等先進的智能處理技術,通過ESB企業(yè)級服務總線,為上層“表示層”的系統(tǒng)業(yè)務應用提供中間層的服務支撐。
在本系統(tǒng)中,ESB企業(yè)級服務總線封裝了各服務的差異性,使得所有在總線上通信的服務能夠適應于不同的服務使用者,消除了提供中間服務支撐的軟件間的差異性,在很大程度上也為系統(tǒng)將來的功能擴展奠定很好的一個基礎服務平臺,能夠很方便地加入新的音視頻智能處理服務。
另外,“表示層”可通過服務總線調(diào)度分布式集群并行計算環(huán)境,在分布式集群并行計算環(huán)境中進行音視頻內(nèi)容的智能分析,并將結果輸出給“表示層”進行顯示,用戶可對置信度較低的智能識別結果進行人工編輯審核。
4.2.3 功能模塊表示層
功能模塊表示層負責向數(shù)據(jù)分析處理層提交任務,通過動態(tài)網(wǎng)頁與數(shù)據(jù)分析處理層進行交互以及數(shù)據(jù)通信,其中包括提交增加,刪除,查詢,修改,管理等操作,并提供時間軸控件顯示音頻波形數(shù)據(jù),以達到輔助人工快速審核計算機智能處理結果的目的。
功能模塊表示層包含的功能子系統(tǒng)主要有:廣播效果智能評估、頻譜收測實時評估。
功能模塊表示層采用C/S架構,以頁面形式將各個功能進行展示,用戶可打開客戶端界面對系統(tǒng)進行登錄和訪問。
5 系統(tǒng)功能流程設計
步驟1:打開并讀取mp3格式的音頻文件,如果文件小于3秒,則報文件錯誤異常,否則進行下一步。
步驟2:把音頻文件以1秒為測試單位,分成語音、音樂和噪聲,并計算其中的音樂比(音樂時長占總時長的比例)、噪聲比(噪聲時長占總時長的比例)和語音時長,同時把語音片段提取出來保存為語音片段文件。
步驟3:根據(jù)靜音比例,如果靜音比例很高,則判斷信號為空播,并給出置信度,否則進行下一步。
步驟4:根據(jù)噪聲比例,如果噪聲比例很高,則判斷信號為停播,并給出置信度,否則進行下一步。
步驟5:根據(jù)信噪比,對音頻文件進行質(zhì)量評估,得到初始信號質(zhì)量分數(shù),然后根據(jù)音樂比和噪聲比,對分數(shù)進行調(diào)整,從而得到最終質(zhì)量分數(shù)。
步驟6:對音頻文件進行臺名呼號模板檢索,如果檢索到,則根據(jù)該臺名呼號所屬的語種節(jié)目得到識別語種和置信度,此時把在步驟2中保存的語音片段文件刪除,清理內(nèi)存并輸出結果。
步驟7:判斷音頻文件是否是錄音回傳模式,如果是,對錄音回傳模式的音頻文件,判斷音頻文件中的語音長度是否大于10秒,如果是,則查找參考源進行語音比對。
步驟8:如果與各電臺節(jié)目比對結果一致,則給出本節(jié)目語言及其置信度,否則進行下一步。
步驟9:對非錄音回傳模式的音頻文件,或者未找到參考源的音頻文件,或者比對不一致的音頻文件,判斷音頻文件中的語音長度是否小于10秒,或者語音質(zhì)量低于3分,如果是則給出話少結果,否則進行下一步。
步驟10:進行語種確認,如果確認結果的第一名與指定語言相對應,則給出語種確認結果及置信度,否則進行下一步。
步驟11:進行語種識別,給出前5名識別語言的候選及其置信度。
6 結束語
目前廣播監(jiān)測網(wǎng)語音綜合處理系統(tǒng)已基本建設完成,處于試運行階段,系統(tǒng)運行穩(wěn)定。該系統(tǒng)應用了多項音頻智能處理技術,監(jiān)測結果可靠,自動化程度很高,值班人員僅需要對低置信度結果進行審核即可,大大減輕了人工工作量。未來隨著監(jiān)測站點規(guī)模不斷增加、語言種類不斷擴大,相信該系統(tǒng)的投入使用,可以大大提高監(jiān)測工作效率,為安全播出提供有力的技術保障。
參考文獻
[1]L.Lu,H.-J. Zhang,and H.Jiang. Content analysis for audio classification and segmentation. IEEE Transaction on Speech and Auido Processing. 10(7):504-516,October 2002.
[2]Kashino K,Kurozumi T,Murase H. A quick search method for audio and video signals based on histogram pruning [J]. IEEE Transaction on Multimedia,2003,5(3): 348-357.
[3]Haitsma J,Kalker T. A highly robust audio fingerprinting system [C]// Proceedings of International Symposium on Music Information Retrieval . Paris,F(xiàn)rance,2002: 107-115.
[4]姜洪臣,任曉磊,趙耀宏,等.基于音頻語譜圖像識別的廣告檢索,清華大學學報(自然科學版),Vol.51,No.9,pp 1249-1252,2011.
[5]姜洪臣,鄭榕,張樹武,等.基于SDC特征和GMM-UBM模型的自動語種識別,中文信息學報.Vol.21 No.1,pp 49-53,2006.
[6]R van Zwol,S Rüger,M Sanderson and Y Mass: Multimedia information retrieval: new challenges in audio visual search. SIGIR Forum,41(2),pp 77-82,2007.