智能通信終端（三）

2001-04-29 14:10:13王仁華

中興通訊技術(shù) 2001年6期

3.2.2語音合成發(fā)展方向

目前語音合成有高自然度語音合成、芯片級語音合成、多語種合成、分布式語音合成、口語化的語音合成等發(fā)展方向。

(1)高自然度語音合成

為了使基于智能通信終端的服務(wù)更加人性化，讓交互更加自然，高自然度的語音合成仍然是主要追求的目標(biāo)。近年來基于語音庫的合成方法被證明可以獲得高自然度的合成語音。在這個方法中，合成語音的單元選自一個很大的自然語流語音庫，只要精心設(shè)計語音庫，使它能有效地包含各種可能出現(xiàn)的語言現(xiàn)象，并找到正確地選取所需語音單元的手段，無疑將能得到高自然度的合成語音。但是語音庫究竟應(yīng)該包含哪些語音現(xiàn)象，語音單元應(yīng)該怎么選取，都還有許多問題需要解決。

(2)芯片級語音合成

為了在越來越多的微型終端中集成語音合成技術(shù)，必須確保在芯片級硬件平臺支持水平上能夠?qū)崿F(xiàn)語音合成的完整應(yīng)用，因此無論是在語音庫尺寸、算法復(fù)雜度還是在文本分析規(guī)模和資源消耗上，都必須具有小型化、輕量級的特征。如果基于語音庫的合成被稱為重量級語音合成，需要很大的存儲空間，那么，如何提高輕量級語音合成的高自然度，則更加任重而道遠(yuǎn)。

(3)多語種合成

在現(xiàn)實社會信息條件下，很多的內(nèi)容都是以不同語種詞匯、甚至短句互嵌的形式出現(xiàn)的，例如，在電子郵件和網(wǎng)上消息里中文中經(jīng)常會夾帶著英語單詞，而傳統(tǒng)的多系統(tǒng)分流技術(shù)又存在發(fā)音人發(fā)音不一致、銜接差等問題，因此同一系統(tǒng)內(nèi)混合處理、多語種合成是一個實際的需要，特別是在中、英文混讀方面有很多工作要做。

(4)分布式語音合成

在基于網(wǎng)絡(luò)應(yīng)用特別是在客戶機(jī)/服務(wù)器的典型模式下，終端的輕量級實現(xiàn)與服務(wù)端的高質(zhì)量、重量級實現(xiàn)必然存在矛盾，加上信道、處理資源與用戶體驗多方面的綜合影響，語音合成的分布式實現(xiàn)呼之欲出。分布式語音合成技術(shù)將傳統(tǒng)的語音合成處理環(huán)節(jié)分解為標(biāo)準(zhǔn)化的實現(xiàn)模塊，并將其間數(shù)據(jù)傳輸格式形成標(biāo)準(zhǔn)，從而為網(wǎng)絡(luò)條件下非對稱應(yīng)用提出一個高性價比的解決方案。

(5)口語化的語音合成

語音合成中與自然度相對應(yīng)的就是表現(xiàn)力，為了在對話模式中體現(xiàn)出更多的人性化，一般的疑問、感嘆、強(qiáng)調(diào)等特征需要得到體現(xiàn)。一方面，需要合成算法能夠表現(xiàn)出這些語言的聲學(xué)特性；另一方面，必須具有一套在文本上描述所需表現(xiàn)力的標(biāo)注體系。

3.3自然語言理解

語音識別與語音合成都離不開自然語言理解。語音識別中的音/字轉(zhuǎn)換和語音合成中的字/音轉(zhuǎn)換的正確率都取決于對語言理解的深度。從智能通信終端的應(yīng)用看，有時系統(tǒng)不僅要正確識別用戶的發(fā)音，而且要理解它，然后執(zhí)行相應(yīng)的命令。例如用戶通過語音訂機(jī)票，要求“訂1張5月1日去深圳的頭等艙機(jī)票”，當(dāng)語音識別出這句話后，系統(tǒng)還要明白用戶要求的旅行時間是“5月1日”，目的地是“深圳”，艙位等級是“頭等艙”等等，實際上系統(tǒng)還會希望明確是哪一次航班，才能完成預(yù)訂。這里都要用到自然語言理解。此外系統(tǒng)還需要產(chǎn)生合適的回答，比如反問、反饋信息(例如是否有票，有沒有折扣價等)給用戶。這就會涉及自然語言生成，這是語音合成的更高一級階段，和自然語言理解更是密不可分。

隨著Internet迅速擴(kuò)張，大量的信息猶如潮水般涌來，現(xiàn)階段信息的主要載體仍然是自然語言，人們渴望發(fā)展自然語言信息處理技術(shù)以實現(xiàn)文本自動分類、文獻(xiàn)檢索、信息提取、語言翻譯、自動文摘、自動勘校等。自然語言理解的任務(wù)是建立一種計算模型，這種計算模型能夠像人那樣理解自然語言，并建立模擬人腦語言感知過程的理論模式。為了使智能通信終端能夠做到口語理解和文字理解并及時作出響應(yīng)，必須做到語法與語義相結(jié)合，深入研究并解決有關(guān)知識(特別是模糊知識)的表達(dá)與利用的問題。人機(jī)對話、機(jī)器翻譯、電話翻譯、智能檢索、自動摘要等都與自然語言理解的突破密切相關(guān)。自然語言理解在智能通信終端中的應(yīng)用還包括：自然語言查詢處理提供各種類型的相似性匹配、或然性匹配，并返回按等級排列的檢索結(jié)果；矯正利用語音識別自動生成的腳本中的錯誤；影像標(biāo)題生成和摘要創(chuàng)建(如略覽版的生成)等等。

幾十年來自然語言理解的發(fā)展主要圍繞著自然語言的表達(dá)和處理模式，以及自然語言知識的表示、獲取和學(xué)習(xí)，但是一直沒有取得重大的突破。傳統(tǒng)的基于文法規(guī)則的句法和語義分析方法在領(lǐng)域和詞匯量受限的自然語言理解上取得了相當(dāng)?shù)某晒?，但很難實用于對不受限制的語句的理解。這是因為自然語言的各種語言現(xiàn)象無法用有限的規(guī)則來表述。而采用統(tǒng)計的方法，即通過對大量的語料統(tǒng)計來實現(xiàn)自然語言理解的方法，如二元語言模型、三元語言模型等非常實用，是目前語音識別和語音合成中的主流方法(雖然它不是建立在自然語言理解的基礎(chǔ)上)。自然語言理解是當(dāng)今最富有挑戰(zhàn)性的技術(shù)之一。

4 智能終端與語音門戶

4.1 簡介

在當(dāng)今飛速發(fā)展的信息社會，移動與互聯(lián)已經(jīng)成為不可阻擋的潮流，越來越多的人們要通過網(wǎng)絡(luò)來優(yōu)化自己的生活。

然而，人們在通過計算機(jī)上網(wǎng)的同時，也越來越感到這種方式受到時間、地點等諸多因素限制，很難做到信息的及時獲取。人們希望通過隨處可見的通信終端得到自己所需要的信息。目前，像160等傳統(tǒng)的聲訊服務(wù)臺，采用話務(wù)員人工提供信息服務(wù)的方式，不僅成本昂貴，而且由于工作繁重容易導(dǎo)致接聽人員服務(wù)水平下降。而通過如168等自動聲訊服務(wù)方式，雖然也可以獲取一些信息，但是由于很多信息無法用按鍵輸入表示，因而許多具體的應(yīng)用不是難以實現(xiàn)，就是在實現(xiàn)時由于多級菜單過于繁瑣使用戶感到不便。而繁多的聲訊臺號碼也讓使用者在急需服務(wù)時，往往一時找不到所需的號碼。

由于以上原因，人們越來越希望可以通過移動電話等通信終端設(shè)備來實現(xiàn)快速便捷的交流，即通過移動電話等通信終端設(shè)備接入網(wǎng)絡(luò)并操縱遠(yuǎn)程的信息源以得到信息或進(jìn)行電子化交易。交談式語言是人類最自然的交流方式，通過語音進(jìn)行瀏覽和接入互聯(lián)網(wǎng)一直是人類的追求目標(biāo)。目前，采用撥號接入網(wǎng)絡(luò)的過程通常需耗時數(shù)十秒，而通過語音接入所需的時間只有短短幾秒，因而通過語音界面，無疑將大大提高接入速度。另外，這種語音技術(shù)將令使用者無論在何時、何地，都可以利用手中的通信終端設(shè)備輕松接入網(wǎng)絡(luò)，得到所需信息或購買商品及服務(wù)。更重要的是，這種方式將大大提高商業(yè)自動化程度，降低企業(yè)的運(yùn)營成本，改善服務(wù)質(zhì)量，使商務(wù)活動更加便捷。

語音門戶(voice portal)的出現(xiàn)，滿足了人們這些需要，為互聯(lián)網(wǎng)詮釋出全新的涵義。語音門戶是指基于互聯(lián)網(wǎng)平臺，應(yīng)用語音識別、合成和轉(zhuǎn)換技術(shù)，為固定電話和移動電話用戶提供用語音訪問互聯(lián)網(wǎng)并獲取網(wǎng)上信息的門戶，這也是全球互聯(lián)網(wǎng)發(fā)展的一個最新趨勢。語音門戶融合了語音、CTI、Web、電信、計算機(jī)及網(wǎng)絡(luò)等技術(shù)，構(gòu)筑出了新一代的語音上網(wǎng)平臺，將使更多的用戶能夠通過各類通信終端快速接入互聯(lián)網(wǎng)，為企業(yè)帶來新的業(yè)務(wù)增長點。從技術(shù)的角度看，近幾年來，隨著自動語音識別(ASR)、文本轉(zhuǎn)語音(TTS)、口語對話等人機(jī)交互技術(shù)、信息處理技術(shù)的發(fā)展，以及像語音瀏覽器、嵌入式語音瀏覽器等Voice Web技術(shù)的成熟，再加上移動用戶終端種類與功能的快速增加，使基于語音的互聯(lián)網(wǎng)門戶——“語音門戶”在通信終端中的應(yīng)用有了可靠保證。

4.2分布式語音處理

4.2.1 分布式語音識別

在智能通信終端中，語音識別的首要目標(biāo)是使我們所有人不用敲擊或遠(yuǎn)離鍵盤即可輕松訪問大部分計算機(jī)服務(wù)和通信系統(tǒng)。分布語音識別(DSR)技術(shù)采用客戶機(jī)/服務(wù)器方法，整個處理過程分布于終端(如手機(jī))和網(wǎng)絡(luò)的兩端。終端執(zhí)行語音特征參數(shù)提取任務(wù)，是語音識別系統(tǒng)的前端。提取的特征參數(shù)通過數(shù)據(jù)信道傳輸至遠(yuǎn)程的后端識別器。這樣，傳輸信道不影響識別系統(tǒng)性能，信道不變性的目的得以實現(xiàn)。

因特網(wǎng)上的分布式語音識別是由呼叫中心發(fā)展而來，現(xiàn)在正走向提供基于因特網(wǎng)的服務(wù)，分布式語音識別技術(shù)已經(jīng)在基于包交換的 VoIP 網(wǎng)絡(luò)進(jìn)行了測試。

4.2.2分布式語音合成

在基于網(wǎng)絡(luò)應(yīng)用特別是客戶機(jī)/服務(wù)器典型模式下，終端的輕量級實現(xiàn)與服務(wù)端的高質(zhì)量、重量級實現(xiàn)之間必然存在矛盾，加上信道、處理資源與用戶體驗等多方面的綜合影響，語音合成的分布式實現(xiàn)把傳統(tǒng)TTS的處理環(huán)節(jié)分解成為了標(biāo)準(zhǔn)化的實現(xiàn)模塊：文本分析模塊、語音合成模塊。文本分析模塊涉及詞典、分詞、各種語言學(xué)處理，都要占用較大的資源，因此可以放在服務(wù)器端實現(xiàn)，即經(jīng)過處理后形成音韻序列再傳送到終端上去；語音合成模塊則可以放在終端上實現(xiàn)。由于音韻序列基本上由符號數(shù)據(jù)組成，與直接傳送文本數(shù)據(jù)占用的信道帶寬差不多，不影響傳輸性能，但卻使終端擺脫了文本分析的壓力，降低了成本。當(dāng)然標(biāo)記語言和數(shù)據(jù)傳送的格式必須標(biāo)準(zhǔn)化，才能得到推廣。

4.3 語音瀏覽器

語音瀏覽器(Voice Browser)相當(dāng)于IE或是Netscape Navigator，不同的是它是通過語音的方式瀏覽VXML內(nèi)容(VXML即Voice XML是基于XML國際標(biāo)準(zhǔn)的語音可擴(kuò)展標(biāo)識語言，它像HTML定義圖形化網(wǎng)頁界面一樣定義了語音界面)，并且通過Transcoder服務(wù)器還可以直接瀏覽網(wǎng)上HTML格式的內(nèi)容。它主要包括Voice XML服務(wù)器、電話語音接入服務(wù)器、TTS/ASR資源服務(wù)器、Transcoder服務(wù)器。Voice XML服務(wù)器運(yùn)行Voice XML解釋器與對話管理器，按照VXML頁面提供的內(nèi)容控制語音及電話資源，和用戶完成交互。這些資源包括語音識別、語音合成、音頻錄音、按鍵音以及電話網(wǎng)絡(luò)接口。呼叫者一般通過公眾交換電話網(wǎng)(PSTN)與Voice XML服務(wù)器交互，也可以通過其他網(wǎng)如PBX或VoIP信息包與Voice XML服務(wù)器交互。Transcoder服務(wù)器主要負(fù)責(zé)將Internet上其他標(biāo)記語言內(nèi)容轉(zhuǎn)換為VXML頁面內(nèi)容，使得用戶通過電話訪問普通Web站點得以實現(xiàn)。語音瀏覽器(Voice Browser)的概念即是希望使普通電話作為瀏覽器終端，通過自然語言交互的方式取得相關(guān)的定制信息服務(wù)或Internet上發(fā)布的Web信息內(nèi)容。通過電話終端與服務(wù)器端的語音接入、ASR/TTS、VXML 服務(wù)器以及各種Transcoder，構(gòu)成了相當(dāng)于IE的瀏覽器，是實現(xiàn)語音上網(wǎng)工程的核心組成部分。

因為人們從小到大都是用語言進(jìn)行交流，所以語音接口是一個非常自然的人機(jī)交互接口。現(xiàn)在人們使用固定電話和蜂窩電話時并沒有用上Voice Browser技術(shù)。一些Voice Browser設(shè)備可能有小屏幕，像移動電話和掌上電腦那樣。但是在那樣小的屏幕上用鍵盤輸入不是一件令人愉快的事情。同樣在那樣小的屏幕上閱讀信息也不是一件輕松的事情。這時Voice Browser就體現(xiàn)出了它的優(yōu)越性。

現(xiàn)在人們上網(wǎng)主要通過臺式計算機(jī)和手提電腦來上網(wǎng)，雖然有了WAP協(xié)議，手機(jī)也可以上網(wǎng)瀏覽，但是很不方便。另外現(xiàn)在上網(wǎng)還需要計算機(jī)知識，對于發(fā)展中國家的大多數(shù)人來說，門檻過高。而應(yīng)用Voice Browser可以使我們輕松地用各種設(shè)備如電話、電視等一切電子或電氣設(shè)備走進(jìn)互聯(lián)網(wǎng)。在將來，Voice Browser還可以支持其他的模式和媒體，例如用筆、圖像和傳感器作為輸入，用活動圖像和激勵控制作為輸出。語音和筆輸入可能適合我們亞洲用戶，因為我們所說的語言并不是與QWERTY鍵盤一致的。一些Voice Browser也是便攜的，這樣他們可以在家、辦公室、路上等任何地方使用，所以網(wǎng)上信息對許多聽眾來說是隨時可得的，特別是對那些有電話或移動電話的用戶更是如此。語音瀏覽器(Voice Browser)同時可為盲人或需要訪問Web但是手和眼睛卻要干其他事情的用戶提供方便的實用接口，可使盲人用戶獲得和正常人一樣的工作空間。

同時語音瀏覽器可以跨越各種平臺，像電腦、電視、電話(包括移動電話)等，使人們可以隨時隨地獲取所要的網(wǎng)上信息，并用語音表達(dá)出來。隨著其中各項技術(shù)的發(fā)展、成熟和完善，這個市場將會迅速發(fā)展起來。

4.4嵌入式語音瀏覽器

除了傳統(tǒng)固定電話用戶，迅速增長的移動電話用戶是系統(tǒng)的另一大用戶資源，因為，隨著終端處理能力的加強(qiáng)，完全在終端的嵌入式語音瀏覽器和終端/服務(wù)端協(xié)同的分布式語音瀏覽器也將成為智能通信終端的一個重要組成部分。

嵌入式語音瀏覽器支持HTTP或者WAP等其他傳輸協(xié)議，支持HTML、JavaScript、擴(kuò)展XML、Voice XML等標(biāo)記語言，可以完成網(wǎng)頁的瀏覽功能；語音嵌入式瀏覽器適合在非PC的嵌入式信息設(shè)備中存在，運(yùn)行并完整實現(xiàn)通信傳輸協(xié)議、標(biāo)記語言所規(guī)定的功能，能夠根據(jù)嵌入式設(shè)備的多樣性需要而方便地進(jìn)行裁減和修改，并滿足信息設(shè)備使用者對獲取文字、圖像、聲音、視頻等信息的需求。語音嵌入式瀏覽器可以廣泛應(yīng)用到各種非PC設(shè)備或通信終端，如電視上的機(jī)頂盒、互聯(lián)網(wǎng)電視(iDVD、iSVCD、iVCD)、交互式數(shù)字電視、手持上網(wǎng)設(shè)備(移動電話、掌上電腦、個人數(shù)字助理等)、互聯(lián)網(wǎng)電話、網(wǎng)絡(luò)終端、網(wǎng)絡(luò)游戲終端、電子圖書閱讀器、公共信息查詢系統(tǒng)、汽車電子信息查詢系統(tǒng)、飛機(jī)電子信息服務(wù)系統(tǒng)等，賦予了這些終端設(shè)備上網(wǎng)和豐富的信息交互功能。(續(xù)完)

作者簡介

王仁華，中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系教授、博士生導(dǎo)師，中國通信學(xué)會會士、理事，中國科大訊飛信息科技有限公司董事長。主要從事數(shù)字信號處理、語音通信、多媒體通信等方面的研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

智能通信終端（三）