嚴(yán) 琦 安 崗 葉 陽 楊治武
1 中國聯(lián)通研究院 北京 100032
2 中國電子科技集團(tuán)公司第十研究所 成都 610000
人們在撥打電話的時候,會感覺到電話里的聲音和面對面講話時的差異性很大。這是因?yàn)槲覀兊脑捯魹榱吮阌谕ㄟ^數(shù)字化的移動通信網(wǎng)絡(luò)進(jìn)行傳輸,進(jìn)行了一系列的處理,如模數(shù)轉(zhuǎn)換、語音編解碼等(如圖1所示)。
圖1 語音通話端到端處理流程
在2G和3G時代,由于帶寬較窄,且移動通信網(wǎng)通話效果受網(wǎng)絡(luò)環(huán)境影響較大,移動終端中都采用了一種稱之為自適應(yīng)多速率編碼(Adaptive Multi-Rate,AMR)的語音編碼技術(shù)[1],雖然該技術(shù)壓縮比較大,頻譜利用率低,并且壓縮后質(zhì)量較差,但用于人的聲音通話,效果還較為理想,這個時候的語音技術(shù)我們可以稱之為窄帶語音。
顧名思義,現(xiàn)在的高清語音就是一種寬帶語音技術(shù)。隨著LTE時代的到來,帶寬呈幾何級的增長,使得現(xiàn)在的語音通話可采用自適應(yīng)多速率寬帶語音編碼技術(shù)(Adaptive Multi-Rate WideBand,AMR-WB),其采用了更高速率的語音編碼方式,頻譜利用率高,與傳統(tǒng)的窄帶電話相比,高清語音很大程度上提高了語音質(zhì)量。
傳統(tǒng)的2G和3G語音通話,因?yàn)閹捿^窄,聲音的頻率范圍被限定在300Hz~3400Hz,采樣率也僅為8KHz,極大地影響了通話質(zhì)量。但早期人們的通話主要以獲取信息為主,人們只要能通過移動通信網(wǎng)了解到有用的信息即可,對通話的質(zhì)量等并沒有迫切的需求。但是隨著4G網(wǎng)絡(luò)建設(shè)的不斷加大和建設(shè)速度的加快,人們已經(jīng)遠(yuǎn)不滿足于信息的獲取,而更希望能通過對話得到面對面的真實(shí)體驗(yàn),能提升用戶體驗(yàn)的高清語音通話就應(yīng)運(yùn)而生。
AMR-WB高清語音的頻率范圍為50Hz~7000Hz,音頻范圍更為廣闊,抽樣頻率為16KHz。相對窄帶語音而言,其增加的50Hz~300Hz的低頻率更好地提高了自然度、表現(xiàn)力和舒適度,而擴(kuò)展的3400Hz~7000Hz的高頻頻率則可以更好地區(qū)分摩擦音、更易于理解,語音更自然、舒適。同樣的語音通話,在高清語音模式下,由于音域更廣、高低音分明,用戶能享受到高清晰、立體聲的效果(如圖2所示)。
聲學(xué)專家研究發(fā)現(xiàn),人耳能接收到的聲音頻率范圍實(shí)際為20Hz~20KHz。也就是說人們需要更寬的聲音頻率才能更好地理解對方的講話,才能更好地表達(dá)情感,這也是為何高清語音比窄帶語音更能帶來現(xiàn)場感的原因。
圖2 語音頻率范圍
實(shí)際上,高清語音在移動通信網(wǎng)絡(luò)中的應(yīng)用從3G時代就已經(jīng)基本具備商用條件。目前,中國聯(lián)通是國內(nèi)唯一一家在其3G全網(wǎng)開通高清語音的運(yùn)營商。而到了4G的LTE時代,中國移動、中國聯(lián)通、中國電信三大運(yùn)營商更是積極部署,并一致以VoLTE(Voice over LTE,基于LTE的語音通話)高清語音為解決方案[2]。
中國移動早在2014年就在杭州、廣州、南京、福州、長沙五個城市開展了VoLTE試點(diǎn)驗(yàn)證,隨后2015年2月完成了杭州的VoLTE商用布局,杭州成為了中國移動第一個具備VoLTE商用的城市,隨后中國移動的VoLTE開始推廣到其它一線大城市,并開始在全國布局。2016年,中國移動將實(shí)現(xiàn)超過260個城市的VoLTE商用,預(yù)計(jì)實(shí)現(xiàn)3000萬客戶的發(fā)展目標(biāo)。
中國電信在2015年7月份正式發(fā)布了VoLTE發(fā)展路線圖:2015年,進(jìn)行技術(shù)試驗(yàn)及驗(yàn)證、技術(shù)規(guī)范和方案制定;2016年,開展大規(guī)模網(wǎng)絡(luò)建設(shè),在芯片、終端、網(wǎng)絡(luò)、業(yè)務(wù)、互聯(lián)互通和IT等方面測試聯(lián)調(diào);2017年底,使4G網(wǎng)絡(luò)達(dá)到天翼3G網(wǎng)絡(luò)同等覆蓋水平,實(shí)現(xiàn)VoLTE商用。
中國聯(lián)通的VoLTE起步比較慢,首批中國聯(lián)通的七個外場試點(diǎn)包括北京、上海、廣東、天津、湖南、湖北、河南,2015年12月30日才完成了第一個具備VoLTE商用的城市布局;2016年,北上廣三地聯(lián)通也陸續(xù)宣布具備VoLTE的商用條件,商用網(wǎng)絡(luò)的建設(shè)將成為聯(lián)通2016年的重點(diǎn),預(yù)計(jì)2016年底聯(lián)通將完成國內(nèi)一線大城市的VoLTE的試商用。
LTE網(wǎng)絡(luò)的主要特點(diǎn)是全I(xiàn)P化,所有的應(yīng)用都以分組數(shù)據(jù)的形式進(jìn)行傳播,語音業(yè)務(wù)也不例外,因此,在LTE時代,高清語音的測試會引入分組網(wǎng)絡(luò),與傳統(tǒng)3G語音測試不一樣[3]。高清語音質(zhì)量測試主要包括聲學(xué)測試和電學(xué)測試兩部分。
聲學(xué)測試[4]偏重于各種聲學(xué)參數(shù),主要性能指標(biāo)包括發(fā)送/接收靈敏度、發(fā)送/接收響應(yīng)度、空閑信道噪聲、回聲控制、失真等,對LTE終端的整機(jī)聲學(xué)指標(biāo)進(jìn)行全方位的測試。
現(xiàn)在聲學(xué)測試已經(jīng)非常成熟,并且在國際標(biāo)準(zhǔn)組織3GPP和行業(yè)標(biāo)準(zhǔn)組織CCSA中均對測試方法和測試內(nèi)容進(jìn)行了規(guī)定。在實(shí)際的聲學(xué)質(zhì)量測試中,對測試環(huán)境的要求也非常嚴(yán)格[5],需要特定的消聲室以及專業(yè)的人工頭和人工耳,而且耳廓、電聲學(xué)特性必須符合ITU-T P.58建議中的相關(guān)要求。每款終端在設(shè)計(jì)時可采用Type3.3或Type3.4人工耳,測試過程中采用設(shè)計(jì)時選用的人工耳進(jìn)行驗(yàn)證。并且期間人工頭人工耳以及待測終端的擺放位置必須經(jīng)過嚴(yán)格的校準(zhǔn)才可以進(jìn)行,這就要求聲學(xué)測試必須由專門的測試機(jī)構(gòu)來完成。
我國現(xiàn)在的終端做入網(wǎng)檢測時部分聲學(xué)指標(biāo)由工信部進(jìn)行強(qiáng)制測試,如頻響等,但是對于運(yùn)營商而言,一方面聲學(xué)測試成本太大,另一方面運(yùn)營商更加重點(diǎn)關(guān)注貼近用戶實(shí)際使用場景、基于用戶體驗(yàn)方面的測試,也就是電學(xué)測試。
音頻電學(xué)測試現(xiàn)在業(yè)內(nèi)比較公認(rèn)的是平均意見分MOS(Mean Opinion Score)測試[6],這是一種主觀評價方法。在實(shí)際語音質(zhì)量評價中,會選取數(shù)量較多的人根據(jù)預(yù)先約定的評估準(zhǔn)則(參見表1)對語音質(zhì)量進(jìn)行打分,共分為5個等級,最終的平均分就是所測通話語音質(zhì)量的MOS值,它反映了測評人員對語音質(zhì)量好壞的一種主觀判斷。
表1 MOS分級別
但是在實(shí)際測試中這種方法既費(fèi)時又費(fèi)力,基于此,ITU標(biāo)準(zhǔn)組織制定了相關(guān)算法,以此來模擬眾多人的主觀評定,從而通過機(jī)器儀表的方式來完成MOS分的測算?,F(xiàn)在主流的標(biāo)準(zhǔn)算法為POLQA(Perceptual Objective Listening Quality Analysis,客觀聽力質(zhì)量分析)算法,該算法可以將人類話音的頻率、響度等物理特性與人類心理上的感知特性的對應(yīng)關(guān)系用數(shù)學(xué)模型來表示,即用客觀數(shù)學(xué)模型的評價來模擬主觀的評價,并且ITU組織在2011年正式發(fā)布為ITU-T P.863標(biāo)準(zhǔn),其可覆蓋現(xiàn)階段所有的語音編解碼和網(wǎng)絡(luò)傳輸技術(shù),能夠比較真實(shí)地衡量語音質(zhì)量。
具體測試時是對LTE終端3.5mm接口處的音頻電信號進(jìn)行分析和測試。
如圖3所示,待測終端通過射頻線與LTE終端綜合測試儀進(jìn)行連接來接入LTE網(wǎng)絡(luò),同時,待測終端通過特殊的音頻線與音頻分析儀相連,將3.5mm接口處的聲音電信號傳遞給音頻分析儀進(jìn)行分析,依據(jù)選定的POLQA算法來計(jì)算出聲音的MOS值和時延,從而確定音頻質(zhì)量。
圖3 音頻電學(xué)測試方案
在測試過程中,主要用到以下相關(guān)單元模塊。
1)LTE終端綜合測試儀。用于模擬多制式基站,通過射頻線給被測終端運(yùn)行測試用例提供無線測試條件和環(huán)境,包括射頻環(huán)境和協(xié)議基礎(chǔ)和流程,并且可添加3GPP規(guī)定的典型信道衰落模型。
2)音頻分析儀。通過音頻接口獲取被測終端記錄和播放的音頻文件,并且依據(jù)選定的POLQA算法計(jì)算MOS值和時延。
3)IP網(wǎng)絡(luò)仿真模擬器。模擬實(shí)際IP網(wǎng)絡(luò)中可能存在的抖動和時延,測試添加特定的抖動和時延后被測終端的音頻質(zhì)量。
4)控制電腦。負(fù)責(zé)測試流程控制和測試?yán)芾硪约皽y試結(jié)果分析。
5)待測終端。支持LTE/WCDMA/GSM等典型網(wǎng)絡(luò)制式,并具備CSFB(Circuit Switched Fallback,電路域回落)和VoLTE功能。
由于LTE網(wǎng)絡(luò)高帶寬以及VoLTE語音全I(xiàn)P化的特點(diǎn),測試時不但要考慮到基本的聲碼器驗(yàn)證,還需考慮到IP網(wǎng)絡(luò)帶來的抖動和時延給高清語音通話帶來的各種影響,基于VoLTE的高清語音電學(xué)測試主要從以下幾方面進(jìn)行。
1)聲碼器驗(yàn)證測試。選取AMR-WB下典型速率的聲碼器驗(yàn)證測試,即23.85Kbit/s和12.65Kbit/s。
2)IP傳輸損傷下的語音質(zhì)量測試[7]。VoLTE解決方案下,語音和數(shù)據(jù)一樣均IP化,IP網(wǎng)絡(luò)固有的抖動和時延特點(diǎn)下的語音質(zhì)量測試,這個時候通過IP網(wǎng)絡(luò)仿真模擬器引入抖動和時延,從而完成此時的MOS分測試。
3)數(shù)據(jù)業(yè)務(wù)并發(fā)下的語音質(zhì)量測試。根據(jù)現(xiàn)有分組網(wǎng)絡(luò)的特點(diǎn),需區(qū)分輕數(shù)據(jù)業(yè)務(wù)和重數(shù)據(jù)業(yè)務(wù)下的語音質(zhì)量測試。輕數(shù)據(jù)業(yè)務(wù)測試可以通過ping包方式進(jìn)行,而重數(shù)據(jù)業(yè)務(wù)下的測試可以通過UDP方式進(jìn)行。
4)切換發(fā)生下的語音質(zhì)量測試。需測試在VoLTE和WCDMA網(wǎng)絡(luò)之間發(fā)生SRVCC(Single Radio Voice Call Continuity,語音業(yè)務(wù)連續(xù)性)時的語音質(zhì)量。
5)編碼速率轉(zhuǎn)換測試。AMR-WB為自適應(yīng)編碼,在實(shí)際現(xiàn)網(wǎng)中,語音編碼速率會采用一個特定的編碼速率集合來進(jìn)行轉(zhuǎn)換。如23.85 Kbit/s -12.65 Kbit/s -8.8 Kbit/s,因此需要測試在編碼速率轉(zhuǎn)換過程中,終端是否具備較好的語音質(zhì)量。
通過以上分析可以看出,語音MOS分的測試存在各種特定的場景,不同終端在不同的場景下測試所取得的MOS,表現(xiàn)能力是不一樣的,為能更好地對終端語音質(zhì)量進(jìn)行管控,需要按照MOS分對終端的測試情況進(jìn)行分類。通過圖4我們可以看出在不同MOS分下語音質(zhì)量的分析情況。
圖4 POLQA下不同MOS分?jǐn)?shù)語音質(zhì)量分析
可以看出,當(dāng)MOS分大于4.0時,語音頻率較為完整;在3.5~4.0之間時,個別語句的某些頻率成分會有缺失,有較不明顯的背景噪聲;2.5~3.5之間時,會產(chǎn)生部分聲音的缺失,頻譜與原信號有較大區(qū)別;當(dāng)MOS分小于2.5時,背景噪聲非常明顯,聲音頻率的缺失更加嚴(yán)重[8];因此,為保障終端的語音質(zhì)量,我們在進(jìn)行終端定制時需盡量選取MOS分值較高、得分較為理想的終端。
今后基于用戶體驗(yàn)的高清語音質(zhì)量測評研究主要包括以下兩方面。
1)基于EVS(Enhanced Voice Services,增強(qiáng)語音服務(wù))聲碼器的全高清語音質(zhì)量測試。EVS是專門為VoLTE語音解決方案而設(shè)計(jì)打造的下一代高清語音通話編解碼方案,它能夠使得手機(jī)的通話達(dá)到全高清效果。從圖2中我們也可以看出,EVS編解碼器的頻寬范圍是從50Hz到接近20KHz的聲音都能夠納入其中,基本上已經(jīng)涵蓋了人類的聽覺范圍,這種全高清的語音通話效果遠(yuǎn)遠(yuǎn)超過現(xiàn)在采用的手機(jī)語音通話和各種OTT服務(wù)。
2)基于高鐵環(huán)境下的語音質(zhì)量測試[9]。截止2015年底,中國的高鐵1.9萬公里,占全國鐵路16%,占全球高鐵60%,并且時速高達(dá)250~380km/h,復(fù)雜的無線環(huán)境使得現(xiàn)有的高鐵網(wǎng)絡(luò)雖然網(wǎng)絡(luò)覆蓋較好,但是掉話率較高,通話效果不理想。而目前的高鐵乘客主要是高收入人群,終端客戶需要一個穩(wěn)定、可靠、高清的語音環(huán)境,實(shí)驗(yàn)室中我們可以通過射頻信道仿真器來模擬高鐵環(huán)境下復(fù)雜的無線場景,配置相關(guān)網(wǎng)絡(luò)參數(shù),并輔以音頻分析儀來實(shí)現(xiàn)高鐵環(huán)境下的語音質(zhì)量測試。
參考文獻(xiàn)
[1] 溫秋燕.VoLTE高清語音解決方案研究[J].數(shù)字技術(shù)與應(yīng)用,2015(4):27-28
[2] 周晶,葉丹.運(yùn)營商LTE語音解決方案研究[J].集成技術(shù),2013(3):79-81
[3] 狄德海.WCDMA手機(jī)音頻測試[J].中國測試,2009(1).125-128
[4] YD/T 1538 數(shù)字移動終端音頻性能技術(shù)要求及測試方法[S].CCSA,2013:10-19
[5] 向羅勇,朱斌.TD-SCDMA、WCDMA、GSM終端音頻一致性測試介紹及分析[J].現(xiàn)代電信科技,2011(8):34-37
[6] 姜先貴,李勇輝,朱斌等.VoLTE語音質(zhì)量研究[J].郵電設(shè)計(jì)技術(shù),2015(10):51-55
[7] 陳志偉,胡志國.IP網(wǎng)絡(luò)語音質(zhì)量評價方法研究[J].計(jì)算機(jī)與現(xiàn)代化,2013(2):185-188
[8] 許可.VoLTE語音質(zhì)量評價方法及測試方案[J].電信網(wǎng)技術(shù),2014(5):81-84
[9] 王曉東,王惠生,謝保鋒.高速鐵路GSM-R語音質(zhì)量評估研究[J].鐵路技術(shù)創(chuàng)新,2012(1):82-84