基于用戶體驗(yàn)的高清語音質(zhì)量測評研究

2016-05-14 06:34:51楊治武

信息通信技術(shù) 2016年2期

關(guān)鍵詞：通話聲學(xué)高清

嚴(yán) 琦安崗葉陽楊治武

1 中國聯(lián)通研究院北京 100032

2 中國電子科技集團(tuán)公司第十研究所成都 610000

1 什么是高清語音

1.1 高清語音的定義

人們在撥打電話的時候，會感覺到電話里的聲音和面對面講話時的差異性很大。這是因?yàn)槲覀兊脑捯魹榱吮阌谕ㄟ^數(shù)字化的移動通信網(wǎng)絡(luò)進(jìn)行傳輸，進(jìn)行了一系列的處理，如模數(shù)轉(zhuǎn)換、語音編解碼等(如圖1所示)。

圖1 語音通話端到端處理流程

在2G和3G時代，由于帶寬較窄，且移動通信網(wǎng)通話效果受網(wǎng)絡(luò)環(huán)境影響較大，移動終端中都采用了一種稱之為自適應(yīng)多速率編碼(Adaptive Multi-Rate，AMR)的語音編碼技術(shù)[1]，雖然該技術(shù)壓縮比較大，頻譜利用率低，并且壓縮后質(zhì)量較差，但用于人的聲音通話，效果還較為理想，這個時候的語音技術(shù)我們可以稱之為窄帶語音。

顧名思義，現(xiàn)在的高清語音就是一種寬帶語音技術(shù)。隨著LTE時代的到來，帶寬呈幾何級的增長，使得現(xiàn)在的語音通話可采用自適應(yīng)多速率寬帶語音編碼技術(shù)(Adaptive Multi-Rate WideBand，AMR-WB)，其采用了更高速率的語音編碼方式，頻譜利用率高，與傳統(tǒng)的窄帶電話相比，高清語音很大程度上提高了語音質(zhì)量。

1.2 為何要采用高清語音

傳統(tǒng)的2G和3G語音通話，因?yàn)閹捿^窄，聲音的頻率范圍被限定在300Hz～3400Hz，采樣率也僅為8KHz，極大地影響了通話質(zhì)量。但早期人們的通話主要以獲取信息為主，人們只要能通過移動通信網(wǎng)了解到有用的信息即可，對通話的質(zhì)量等并沒有迫切的需求。但是隨著4G網(wǎng)絡(luò)建設(shè)的不斷加大和建設(shè)速度的加快，人們已經(jīng)遠(yuǎn)不滿足于信息的獲取，而更希望能通過對話得到面對面的真實(shí)體驗(yàn)，能提升用戶體驗(yàn)的高清語音通話就應(yīng)運(yùn)而生。

AMR-WB高清語音的頻率范圍為50Hz～7000Hz，音頻范圍更為廣闊，抽樣頻率為16KHz。相對窄帶語音而言，其增加的50Hz～300Hz的低頻率更好地提高了自然度、表現(xiàn)力和舒適度，而擴(kuò)展的3400Hz～7000Hz的高頻頻率則可以更好地區(qū)分摩擦音、更易于理解，語音更自然、舒適。同樣的語音通話，在高清語音模式下，由于音域更廣、高低音分明，用戶能享受到高清晰、立體聲的效果(如圖2所示)。

聲學(xué)專家研究發(fā)現(xiàn)，人耳能接收到的聲音頻率范圍實(shí)際為20Hz～20KHz。也就是說人們需要更寬的聲音頻率才能更好地理解對方的講話，才能更好地表達(dá)情感，這也是為何高清語音比窄帶語音更能帶來現(xiàn)場感的原因。

圖2 語音頻率范圍

2 高清語音的應(yīng)用情況

實(shí)際上，高清語音在移動通信網(wǎng)絡(luò)中的應(yīng)用從3G時代就已經(jīng)基本具備商用條件。目前，中國聯(lián)通是國內(nèi)唯一一家在其3G全網(wǎng)開通高清語音的運(yùn)營商。而到了4G的LTE時代，中國移動、中國聯(lián)通、中國電信三大運(yùn)營商更是積極部署，并一致以VoLTE(Voice over LTE，基于LTE的語音通話)高清語音為解決方案[2]。

中國移動早在2014年就在杭州、廣州、南京、福州、長沙五個城市開展了VoLTE試點(diǎn)驗(yàn)證，隨后2015年2月完成了杭州的VoLTE商用布局，杭州成為了中國移動第一個具備VoLTE商用的城市，隨后中國移動的VoLTE開始推廣到其它一線大城市，并開始在全國布局。2016年，中國移動將實(shí)現(xiàn)超過260個城市的VoLTE商用，預(yù)計(jì)實(shí)現(xiàn)3000萬客戶的發(fā)展目標(biāo)。

中國電信在2015年7月份正式發(fā)布了VoLTE發(fā)展路線圖：2015年，進(jìn)行技術(shù)試驗(yàn)及驗(yàn)證、技術(shù)規(guī)范和方案制定；2016年，開展大規(guī)模網(wǎng)絡(luò)建設(shè)，在芯片、終端、網(wǎng)絡(luò)、業(yè)務(wù)、互聯(lián)互通和IT等方面測試聯(lián)調(diào)；2017年底，使4G網(wǎng)絡(luò)達(dá)到天翼3G網(wǎng)絡(luò)同等覆蓋水平，實(shí)現(xiàn)VoLTE商用。

中國聯(lián)通的VoLTE起步比較慢，首批中國聯(lián)通的七個外場試點(diǎn)包括北京、上海、廣東、天津、湖南、湖北、河南，2015年12月30日才完成了第一個具備VoLTE商用的城市布局；2016年，北上廣三地聯(lián)通也陸續(xù)宣布具備VoLTE的商用條件，商用網(wǎng)絡(luò)的建設(shè)將成為聯(lián)通2016年的重點(diǎn)，預(yù)計(jì)2016年底聯(lián)通將完成國內(nèi)一線大城市的VoLTE的試商用。

3 高清語音質(zhì)量測評研究

LTE網(wǎng)絡(luò)的主要特點(diǎn)是全I(xiàn)P化，所有的應(yīng)用都以分組數(shù)據(jù)的形式進(jìn)行傳播，語音業(yè)務(wù)也不例外，因此，在LTE時代，高清語音的測試會引入分組網(wǎng)絡(luò)，與傳統(tǒng)3G語音測試不一樣[3]。高清語音質(zhì)量測試主要包括聲學(xué)測試和電學(xué)測試兩部分。

3.1 聲學(xué)測試方案簡介

聲學(xué)測試[4]偏重于各種聲學(xué)參數(shù)，主要性能指標(biāo)包括發(fā)送/接收靈敏度、發(fā)送/接收響應(yīng)度、空閑信道噪聲、回聲控制、失真等，對LTE終端的整機(jī)聲學(xué)指標(biāo)進(jìn)行全方位的測試。

現(xiàn)在聲學(xué)測試已經(jīng)非常成熟，并且在國際標(biāo)準(zhǔn)組織3GPP和行業(yè)標(biāo)準(zhǔn)組織CCSA中均對測試方法和測試內(nèi)容進(jìn)行了規(guī)定。在實(shí)際的聲學(xué)質(zhì)量測試中，對測試環(huán)境的要求也非常嚴(yán)格[5]，需要特定的消聲室以及專業(yè)的人工頭和人工耳，而且耳廓、電聲學(xué)特性必須符合ITU-T P.58建議中的相關(guān)要求。每款終端在設(shè)計(jì)時可采用Type3.3或Type3.4人工耳，測試過程中采用設(shè)計(jì)時選用的人工耳進(jìn)行驗(yàn)證。并且期間人工頭人工耳以及待測終端的擺放位置必須經(jīng)過嚴(yán)格的校準(zhǔn)才可以進(jìn)行，這就要求聲學(xué)測試必須由專門的測試機(jī)構(gòu)來完成。

我國現(xiàn)在的終端做入網(wǎng)檢測時部分聲學(xué)指標(biāo)由工信部進(jìn)行強(qiáng)制測試，如頻響等，但是對于運(yùn)營商而言，一方面聲學(xué)測試成本太大，另一方面運(yùn)營商更加重點(diǎn)關(guān)注貼近用戶實(shí)際使用場景、基于用戶體驗(yàn)方面的測試，也就是電學(xué)測試。

3.2 電學(xué)測試方案簡介

音頻電學(xué)測試現(xiàn)在業(yè)內(nèi)比較公認(rèn)的是平均意見分MOS(Mean Opinion Score)測試[6]，這是一種主觀評價方法。在實(shí)際語音質(zhì)量評價中，會選取數(shù)量較多的人根據(jù)預(yù)先約定的評估準(zhǔn)則(參見表1)對語音質(zhì)量進(jìn)行打分，共分為5個等級，最終的平均分就是所測通話語音質(zhì)量的MOS值，它反映了測評人員對語音質(zhì)量好壞的一種主觀判斷。

表1 MOS分級別

但是在實(shí)際測試中這種方法既費(fèi)時又費(fèi)力，基于此，ITU標(biāo)準(zhǔn)組織制定了相關(guān)算法，以此來模擬眾多人的主觀評定，從而通過機(jī)器儀表的方式來完成MOS分的測算?，F(xiàn)在主流的標(biāo)準(zhǔn)算法為POLQA(Perceptual Objective Listening Quality Analysis，客觀聽力質(zhì)量分析)算法，該算法可以將人類話音的頻率、響度等物理特性與人類心理上的感知特性的對應(yīng)關(guān)系用數(shù)學(xué)模型來表示，即用客觀數(shù)學(xué)模型的評價來模擬主觀的評價，并且ITU組織在2011年正式發(fā)布為ITU-T P.863標(biāo)準(zhǔn)，其可覆蓋現(xiàn)階段所有的語音編解碼和網(wǎng)絡(luò)傳輸技術(shù)，能夠比較真實(shí)地衡量語音質(zhì)量。

具體測試時是對LTE終端3.5mm接口處的音頻電信號進(jìn)行分析和測試。

如圖3所示，待測終端通過射頻線與LTE終端綜合測試儀進(jìn)行連接來接入LTE網(wǎng)絡(luò)，同時，待測終端通過特殊的音頻線與音頻分析儀相連，將3.5mm接口處的聲音電信號傳遞給音頻分析儀進(jìn)行分析，依據(jù)選定的POLQA算法來計(jì)算出聲音的MOS值和時延，從而確定音頻質(zhì)量。

圖3 音頻電學(xué)測試方案

在測試過程中，主要用到以下相關(guān)單元模塊。

1)LTE終端綜合測試儀。用于模擬多制式基站，通過射頻線給被測終端運(yùn)行測試用例提供無線測試條件和環(huán)境，包括射頻環(huán)境和協(xié)議基礎(chǔ)和流程，并且可添加3GPP規(guī)定的典型信道衰落模型。

2)音頻分析儀。通過音頻接口獲取被測終端記錄和播放的音頻文件，并且依據(jù)選定的POLQA算法計(jì)算MOS值和時延。

3)IP網(wǎng)絡(luò)仿真模擬器。模擬實(shí)際IP網(wǎng)絡(luò)中可能存在的抖動和時延，測試添加特定的抖動和時延后被測終端的音頻質(zhì)量。

4)控制電腦。負(fù)責(zé)測試流程控制和測試?yán)芾硪约皽y試結(jié)果分析。

5)待測終端。支持LTE/WCDMA/GSM等典型網(wǎng)絡(luò)制式，并具備CSFB(Circuit Switched Fallback，電路域回落)和VoLTE功能。

3.2 測試內(nèi)容分析

由于LTE網(wǎng)絡(luò)高帶寬以及VoLTE語音全I(xiàn)P化的特點(diǎn)，測試時不但要考慮到基本的聲碼器驗(yàn)證，還需考慮到IP網(wǎng)絡(luò)帶來的抖動和時延給高清語音通話帶來的各種影響，基于VoLTE的高清語音電學(xué)測試主要從以下幾方面進(jìn)行。

1)聲碼器驗(yàn)證測試。選取AMR-WB下典型速率的聲碼器驗(yàn)證測試，即23.85Kbit/s和12.65Kbit/s。

2)IP傳輸損傷下的語音質(zhì)量測試[7]。VoLTE解決方案下，語音和數(shù)據(jù)一樣均IP化，IP網(wǎng)絡(luò)固有的抖動和時延特點(diǎn)下的語音質(zhì)量測試，這個時候通過IP網(wǎng)絡(luò)仿真模擬器引入抖動和時延，從而完成此時的MOS分測試。

3)數(shù)據(jù)業(yè)務(wù)并發(fā)下的語音質(zhì)量測試。根據(jù)現(xiàn)有分組網(wǎng)絡(luò)的特點(diǎn)，需區(qū)分輕數(shù)據(jù)業(yè)務(wù)和重數(shù)據(jù)業(yè)務(wù)下的語音質(zhì)量測試。輕數(shù)據(jù)業(yè)務(wù)測試可以通過ping包方式進(jìn)行，而重數(shù)據(jù)業(yè)務(wù)下的測試可以通過UDP方式進(jìn)行。

4)切換發(fā)生下的語音質(zhì)量測試。需測試在VoLTE和WCDMA網(wǎng)絡(luò)之間發(fā)生SRVCC(Single Radio Voice Call Continuity，語音業(yè)務(wù)連續(xù)性)時的語音質(zhì)量。

5)編碼速率轉(zhuǎn)換測試。AMR-WB為自適應(yīng)編碼，在實(shí)際現(xiàn)網(wǎng)中，語音編碼速率會采用一個特定的編碼速率集合來進(jìn)行轉(zhuǎn)換。如23.85 Kbit/s -12.65 Kbit/s -8.8 Kbit/s，因此需要測試在編碼速率轉(zhuǎn)換過程中，終端是否具備較好的語音質(zhì)量。

通過以上分析可以看出，語音MOS分的測試存在各種特定的場景，不同終端在不同的場景下測試所取得的MOS，表現(xiàn)能力是不一樣的，為能更好地對終端語音質(zhì)量進(jìn)行管控，需要按照MOS分對終端的測試情況進(jìn)行分類。通過圖4我們可以看出在不同MOS分下語音質(zhì)量的分析情況。

圖4 POLQA下不同MOS分?jǐn)?shù)語音質(zhì)量分析

可以看出，當(dāng)MOS分大于4.0時，語音頻率較為完整；在3.5～4.0之間時，個別語句的某些頻率成分會有缺失，有較不明顯的背景噪聲；2.5～3.5之間時，會產(chǎn)生部分聲音的缺失，頻譜與原信號有較大區(qū)別；當(dāng)MOS分小于2.5時，背景噪聲非常明顯，聲音頻率的缺失更加嚴(yán)重[8]；因此，為保障終端的語音質(zhì)量，我們在進(jìn)行終端定制時需盡量選取MOS分值較高、得分較為理想的終端。

4 高清語音質(zhì)量測評展望

今后基于用戶體驗(yàn)的高清語音質(zhì)量測評研究主要包括以下兩方面。

1)基于EVS(Enhanced Voice Services，增強(qiáng)語音服務(wù))聲碼器的全高清語音質(zhì)量測試。EVS是專門為VoLTE語音解決方案而設(shè)計(jì)打造的下一代高清語音通話編解碼方案，它能夠使得手機(jī)的通話達(dá)到全高清效果。從圖2中我們也可以看出，EVS編解碼器的頻寬范圍是從50Hz到接近20KHz的聲音都能夠納入其中，基本上已經(jīng)涵蓋了人類的聽覺范圍，這種全高清的語音通話效果遠(yuǎn)遠(yuǎn)超過現(xiàn)在采用的手機(jī)語音通話和各種OTT服務(wù)。

2)基于高鐵環(huán)境下的語音質(zhì)量測試[9]。截止2015年底，中國的高鐵1.9萬公里，占全國鐵路16%，占全球高鐵60%，并且時速高達(dá)250～380km/h，復(fù)雜的無線環(huán)境使得現(xiàn)有的高鐵網(wǎng)絡(luò)雖然網(wǎng)絡(luò)覆蓋較好，但是掉話率較高，通話效果不理想。而目前的高鐵乘客主要是高收入人群，終端客戶需要一個穩(wěn)定、可靠、高清的語音環(huán)境，實(shí)驗(yàn)室中我們可以通過射頻信道仿真器來模擬高鐵環(huán)境下復(fù)雜的無線場景，配置相關(guān)網(wǎng)絡(luò)參數(shù)，并輔以音頻分析儀來實(shí)現(xiàn)高鐵環(huán)境下的語音質(zhì)量測試。

參考文獻(xiàn)

[1] 溫秋燕.VoLTE高清語音解決方案研究[J].數(shù)字技術(shù)與應(yīng)用,2015(4):27-28

[2] 周晶,葉丹.運(yùn)營商LTE語音解決方案研究[J].集成技術(shù),2013(3):79-81

[3] 狄德海.WCDMA手機(jī)音頻測試[J].中國測試,2009(1).125-128

[4] YD/T 1538 數(shù)字移動終端音頻性能技術(shù)要求及測試方法[S].CCSA,2013:10-19

[5] 向羅勇,朱斌.TD-SCDMA、WCDMA、GSM終端音頻一致性測試介紹及分析[J].現(xiàn)代電信科技,2011(8):34-37

[6] 姜先貴,李勇輝,朱斌等.VoLTE語音質(zhì)量研究[J].郵電設(shè)計(jì)技術(shù),2015(10):51-55

[7] 陳志偉,胡志國.IP網(wǎng)絡(luò)語音質(zhì)量評價方法研究[J].計(jì)算機(jī)與現(xiàn)代化,2013(2):185-188

[8] 許可.VoLTE語音質(zhì)量評價方法及測試方案[J].電信網(wǎng)技術(shù),2014(5):81-84

[9] 王曉東,王惠生,謝保鋒.高速鐵路GSM-R語音質(zhì)量評估研究[J].鐵路技術(shù)創(chuàng)新,2012(1):82-84

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡