摘 要 對播出前后的音頻信號進行比對,及時發(fā)現(xiàn)播出過程中的異常,是安全播出中的重要工作內容。基于AES67-2013的網絡音頻傳輸標準和聲音特征抽樣算法,使音頻比對技術進入智能化時代。通過對算法的不斷改進,音頻比對技術已進入高效實用階段。
關鍵詞 音頻比對聲音特征;AoIP;特征提取
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2016)21-0041-02
播出后的信號是否正常,如果不正常,是在哪個環(huán)節(jié)開始出現(xiàn)問題,如何縮短發(fā)現(xiàn)問題的時間,在第一時間發(fā)現(xiàn)播出過程中出現(xiàn)的異常,是播出安全工作中的重要課題。下面就音頻比對技術在廣播安全播出工作中的發(fā)展與應用情況做簡單介紹。
1 音頻比對技術的發(fā)展情況
在模擬信號時代,播出前后的音頻是否一致完全靠人耳判斷,這也是目前為止準確率最高的方式,但缺點也顯而易見。隨著需要監(jiān)聽的信號源和點不斷增多,會出現(xiàn)因監(jiān)聽主體疲勞或責任心不強,造成誤判、發(fā)現(xiàn)不及時等現(xiàn)象,從而引發(fā)播出安全
事故。
進入數(shù)字音頻時代后,音頻比對技術發(fā)展經歷了三個階段。
第一階段,自動判斷信號有無。主要是對音頻信號進行數(shù)字化處理,然后進行抽樣,當信號電平值低于設定值一定時長后,系統(tǒng)判斷為信號缺失。顯而易見,這種方式的局限性很大,不具備真正意義上的比對功能。
第二階段,自動比對兩個音頻信號的電平值。隨著數(shù)字技術的發(fā)展,利用DSP強大的處理能力,可以做到同時對兩路或多路信號進行處理。與第一階段的原理一樣,主要是通過對采樣信號的電平值進行比對,做到信號一致性判斷。這一階段雖然可以做到對多點信號間進行比對,但準確率低,缺少準確的評判機制。
第三階段,基于聲音特性算法的智能比對。前兩個階段的音頻比對技術是基于信號純凈,沒有任何其他干擾成分為基礎的。實際上,音頻信號通過傳輸通路過程中會引入各種干擾成分,同時系統(tǒng)中還存在人為的和非可控的因素,造成音頻信號的相位、幅度和頻譜等特性指標發(fā)生改變。因此,想要準確的對比出兩個音頻是否一致,就要對聲音的物理特征進行比對。新一代的音頻比對技術正是以此建立算法模型,從而使音頻比對技術上升到自動化、智能化層面。
2 廣播音頻比對技術的特點
要想有效地實現(xiàn)廣播音頻信號的對比,首先要了解廣播音頻信號的特點。廣播音頻信號具有動態(tài)范圍大、頻譜范圍廣、存在時延等特點,并且在不同的通路上存在形態(tài)不一的隨機串擾。那么信源、各傳輸節(jié)點和接收端的信號會存在內容和時延上的差異性,這些差異性部分是合理的,這就對音頻的比對提出了更高的要求。
在日常播出中,最常見的信號異?,F(xiàn)象有:
1)信號中斷,主要由設備和線路故障造成。
2)內容不一致,主要由非法插播和節(jié)目路由失誤造成。
3)雜音,一般由傳輸設備故障和外來干擾
造成。
4)反相,節(jié)目在制作時,音頻的左右聲道相位不一致或傳輸通路信號線極性錯誤,都會造成聲音的反相。
針對廣播音頻信號在傳輸過程上的獨特性,廣播領域的音頻比對技術應具有如下特點。
1)具有即時性,能對實時播出中的信號進行比對。
2)能解決時延的影響,做到延時后的信號能和源信號進行比對。
3)能準確判斷出內容的不一致,包括噪音、串播、插播等原因造成的內容不一致。
4)能判斷出聲音失真,包括聲調、峰值等失真現(xiàn)象。
5)能同時進行多路多組信號間的對比。
由以上介紹可知廣播播出上的音頻比對技術難題在于兩點。一是建立一套符合聲音特征的數(shù)據(jù)分析算法,即從音頻信號中提取聲音特征參數(shù),通過對這些參數(shù)進行分析,比對出兩個音頻內容的一致程度。二是將延時后信號恢復到原始的時間點,只有確定兩個音頻信號在時序上一致,為同一信號,才有比對的價值。
3 基于AoIP的音頻比對技術
在采用AES/EUB規(guī)范的數(shù)字音頻時代和模擬音頻時代,由于音頻數(shù)據(jù)缺少時鐘同步系統(tǒng),不同時延后的同一信號缺少時間標識,致使音頻傳輸通路上的不同點信號沒有時序上的參考,音頻的比對在這種情況下就顯得毫無意義,而基于TCP/IP協(xié)議的AoIP數(shù)字音頻格式的出現(xiàn)徹底改變了這一困局。
2013年9月,可互通性質的高保真AoIP音頻流應用標準(AES67-2013)頒布,其主要包括10個組成部分,涉及到的內容有媒體時鐘同步規(guī)范、編碼、連接管理、數(shù)據(jù)傳輸以及數(shù)據(jù)發(fā)現(xiàn)等。標準采用了IEEE1588作為媒體時鐘的同步源,使用現(xiàn)有的IP協(xié)議,如傳輸層使用UDP/RTP,QoS使用DiffServ等。AoIP數(shù)據(jù)流完全繼承了IP數(shù)據(jù)流的特性,使得音頻內容的時間管理成為可能。當音頻通路全都采用符合AoIP規(guī)范的設備(尤其是延時器),那么我們就可以對源信號在不同傳輸位置的新的時間碼得以掌握,使得我們可以對任意時延長度的音頻信號進行精確的配對,從而廣播信號的音頻比對具有現(xiàn)實意義。那么,要想實現(xiàn)廣播音頻信號的比對,音頻信號的傳輸必須建立在AES67-2013標準框架之上。
轉換成AoIP格式的源信號進入傳輸通路后,要想提取通路中某一環(huán)節(jié)的信號與源信號進行比對,首先要確認兩者在時序一致,或者說為延時后的信號找到“前世”。當確認兩者為同一信號后再進行聲音特征參數(shù)抽取采集。因所采集到的音頻在具體數(shù)據(jù)信息量上相對較大,直接獲取音頻特征的相關參數(shù)往往會造成參數(shù)量較大,最終影響其實時性。所以,在實際工作中,可以采用專業(yè)化的Haar小波變換非重構算法對音頻信息進行有效壓縮。
音頻數(shù)據(jù)經壓縮后,需要分析的數(shù)據(jù)量大大減少,這時再進行音頻特征參數(shù)提取。提取音頻特征參數(shù),通常采用“音頻幀”法。針對音頻幀,需提取其12個Mel倒譜系數(shù)、質心以及均方根,總共14個參數(shù)。針對音頻序列,以20 ms采集到的音頻數(shù)據(jù)量歸納為一個音頻幀,而且還必須要在音頻幀當中等分32子帶,以此準確計算幀質心以及均方根。12個Mel倒譜系數(shù)、1個質心以及1個均方根,能夠共同構成1個音頻幀的14維特征參數(shù),之后再由特征參數(shù)構成了參數(shù)矩陣。
在音頻幀維特征參數(shù)當中,需要分別對質心、均方根以及Mel倒譜系數(shù)實施科學化歐氏距離計算,這個距離越小,則通常情況下表示其相似度就越高,如果距離越大,則相似度會越低。
通過大量對比對實驗可以發(fā)現(xiàn),當兩個音頻信號相似度達到90%以上時,基本可以斷定為內容一致;相似度低于80%時,兩個音頻內容就會存在明顯的差異性,這時需要引起足夠的重視。
4 結束語
AoIP技術的出現(xiàn),使得音頻比對技術取得長足的發(fā)展,對噪聲、串擾、信號中斷、反相、失真、插播等常見劣播現(xiàn)象的發(fā)現(xiàn)成功率能達到95%以上,從此廣播音頻比對實現(xiàn)了全自動化和智能化,對提高安全播出具有重大意義。
參考文獻
[1]郭興吉.基于特征的音頻比對技術[J].河南師范大學學報,2006,34(2):35-38.
[2]張萬里,劉橋.Mel頻率倒譜系數(shù)提取及其在聲紋識別中的作用[J].貴州大學學報,2005,22(2):207-210.
[3]姚天認.數(shù)字語音處理[M].武漢:華中科技大學出版社,2002.
[4]R.Venkatesha Prasad. Comparison of Voice Activity Detection Algorithms for VoIP[M].Proceedings of the Seventh International Symposium on Computers and Communications (ISCC02)1530-1346/02,2002.
作者簡介:李曉輝,工程師,研究方向為廣播安全播出。