国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能通信終端(三)

2001-04-29 14:10:13王仁華
中興通訊技術(shù) 2001年6期
關(guān)鍵詞:瀏覽器分布式語音

3.2.2語音合成發(fā)展方向

目前語音合成有高自然度語音合成、芯片級語音合成、多語種合成、分布式語音合成、口語化的語音合成等發(fā)展方向。

(1)高自然度語音合成

為了使基于智能通信終端的服務(wù)更加人性化,讓交互更加自然,高自然度的語音合成仍然是主要追求的目標(biāo)。近年來基于語音庫的合成方法被證明可以獲得高自然度的合成語音。在這個方法中,合成語音的單元選自一個很大的自然語流語音庫,只要精心設(shè)計語音庫,使它能有效地包含各種可能出現(xiàn)的語言現(xiàn)象,并找到正確地選取所需語音單元的手段,無疑將能得到高自然度的合成語音。但是語音庫究竟應(yīng)該包含哪些語音現(xiàn)象,語音單元應(yīng)該怎么選取,都還有許多問題需要解決。

(2)芯片級語音合成

為了在越來越多的微型終端中集成語音合成技術(shù),必須確保在芯片級硬件平臺支持水平上能夠?qū)崿F(xiàn)語音合成的完整應(yīng)用,因此無論是在語音庫尺寸、算法復(fù)雜度還是在文本分析規(guī)模和資源消耗上,都必須具有小型化、輕量級的特征。如果基于語音庫的合成被稱為重量級語音合成,需要很大的存儲空間,那么,如何提高輕量級語音合成的高自然度,則更加任重而道遠(yuǎn)。

(3)多語種合成

在現(xiàn)實社會信息條件下,很多的內(nèi)容都是以不同語種詞匯、甚至短句互嵌的形式出現(xiàn)的,例如,在電子郵件和網(wǎng)上消息里中文中經(jīng)常會夾帶著英語單詞,而傳統(tǒng)的多系統(tǒng)分流技術(shù)又存在發(fā)音人發(fā)音不一致、銜接差等問題,因此同一系統(tǒng)內(nèi)混合處理、多語種合成是一個實際的需要,特別是在中、英文混讀方面有很多工作要做。

(4)分布式語音合成

在基于網(wǎng)絡(luò)應(yīng)用特別是在客戶機(jī)/服務(wù)器的典型模式下,終端的輕量級實現(xiàn)與服務(wù)端的高質(zhì)量、重量級實現(xiàn)必然存在矛盾,加上信道、處理資源與用戶體驗多方面的綜合影響,語音合成的分布式實現(xiàn)呼之欲出。分布式語音合成技術(shù)將傳統(tǒng)的語音合成處理環(huán)節(jié)分解為標(biāo)準(zhǔn)化的實現(xiàn)模塊,并將其間數(shù)據(jù)傳輸格式形成標(biāo)準(zhǔn),從而為網(wǎng)絡(luò)條件下非對稱應(yīng)用提出一個高性價比的解決方案。

(5)口語化的語音合成

語音合成中與自然度相對應(yīng)的就是表現(xiàn)力,為了在對話模式中體現(xiàn)出更多的人性化,一般的疑問、感嘆、強(qiáng)調(diào)等特征需要得到體現(xiàn)。一方面,需要合成算法能夠表現(xiàn)出這些語言的聲學(xué)特性;另一方面,必須具有一套在文本上描述所需表現(xiàn)力的標(biāo)注體系。

3.3自然語言理解

語音識別與語音合成都離不開自然語言理解。語音識別中的音/字轉(zhuǎn)換和語音合成中的字/音轉(zhuǎn)換的正確率都取決于對語言理解的深度。從智能通信終端的應(yīng)用看,有時系統(tǒng)不僅要正確識別用戶的發(fā)音,而且要理解它,然后執(zhí)行相應(yīng)的命令。例如用戶通過語音訂機(jī)票,要求“訂1張5月1日去深圳的頭等艙機(jī)票”,當(dāng)語音識別出這句話后,系統(tǒng)還要明白用戶要求的旅行時間是“5月1日”,目的地是“深圳”,艙位等級是“頭等艙”等等,實際上系統(tǒng)還會希望明確是哪一次航班,才能完成預(yù)訂。這里都要用到自然語言理解。此外系統(tǒng)還需要產(chǎn)生合適的回答,比如反問、反饋信息(例如是否有票,有沒有折扣價等)給用戶。這就會涉及自然語言生成,這是語音合成的更高一級階段,和自然語言理解更是密不可分。

隨著Internet迅速擴(kuò)張,大量的信息猶如潮水般涌來,現(xiàn)階段信息的主要載體仍然是自然語言,人們渴望發(fā)展自然語言信息處理技術(shù)以實現(xiàn)文本自動分類、文獻(xiàn)檢索、信息提取、語言翻譯、自動文摘、自動勘校等。自然語言理解的任務(wù)是建立一種計算模型,這種計算模型能夠像人那樣理解自然語言,并建立模擬人腦語言感知過程的理論模式。為了使智能通信終端能夠做到口語理解和文字理解并及時作出響應(yīng),必須做到語法與語義相結(jié)合,深入研究并解決有關(guān)知識(特別是模糊知識)的表達(dá)與利用的問題。人機(jī)對話、機(jī)器翻譯、電話翻譯、智能檢索、自動摘要等都與自然語言理解的突破密切相關(guān)。自然語言理解在智能通信終端中的應(yīng)用還包括:自然語言查詢處理提供各種類型的相似性匹配、或然性匹配,并返回按等級排列的檢索結(jié)果;矯正利用語音識別自動生成的腳本中的錯誤;影像標(biāo)題生成和摘要創(chuàng)建(如略覽版的生成)等等。

幾十年來自然語言理解的發(fā)展主要圍繞著自然語言的表達(dá)和處理模式,以及自然語言知識的表示、獲取和學(xué)習(xí),但是一直沒有取得重大的突破。傳統(tǒng)的基于文法規(guī)則的句法和語義分析方法在領(lǐng)域和詞匯量受限的自然語言理解上取得了相當(dāng)?shù)某晒?,但很難實用于對不受限制的語句的理解。這是因為自然語言的各種語言現(xiàn)象無法用有限的規(guī)則來表述。而采用統(tǒng)計的方法,即通過對大量的語料統(tǒng)計來實現(xiàn)自然語言理解的方法,如二元語言模型、三元語言模型等非常實用,是目前語音識別和語音合成中的主流方法(雖然它不是建立在自然語言理解的基礎(chǔ)上)。自然語言理解是當(dāng)今最富有挑戰(zhàn)性的技術(shù)之一。

4 智能終端與語音門戶

4.1 簡介

在當(dāng)今飛速發(fā)展的信息社會,移動與互聯(lián)已經(jīng)成為不可阻擋的潮流,越來越多的人們要通過網(wǎng)絡(luò)來優(yōu)化自己的生活。

然而,人們在通過計算機(jī)上網(wǎng)的同時,也越來越感到這種方式受到時間、地點等諸多因素限制,很難做到信息的及時獲取。人們希望通過隨處可見的通信終端得到自己所需要的信息。目前,像160等傳統(tǒng)的聲訊服務(wù)臺,采用話務(wù)員人工提供信息服務(wù)的方式,不僅成本昂貴,而且由于工作繁重容易導(dǎo)致接聽人員服務(wù)水平下降。而通過如168等自動聲訊服務(wù)方式,雖然也可以獲取一些信息,但是由于很多信息無法用按鍵輸入表示,因而許多具體的應(yīng)用不是難以實現(xiàn),就是在實現(xiàn)時由于多級菜單過于繁瑣使用戶感到不便。而繁多的聲訊臺號碼也讓使用者在急需服務(wù)時,往往一時找不到所需的號碼。

由于以上原因,人們越來越希望可以通過移動電話等通信終端設(shè)備來實現(xiàn)快速便捷的交流,即通過移動電話等通信終端設(shè)備接入網(wǎng)絡(luò)并操縱遠(yuǎn)程的信息源以得到信息或進(jìn)行電子化交易。交談式語言是人類最自然的交流方式,通過語音進(jìn)行瀏覽和接入互聯(lián)網(wǎng)一直是人類的追求目標(biāo)。目前,采用撥號接入網(wǎng)絡(luò)的過程通常需耗時數(shù)十秒,而通過語音接入所需的時間只有短短幾秒,因而通過語音界面,無疑將大大提高接入速度。另外,這種語音技術(shù)將令使用者無論在何時、何地,都可以利用手中的通信終端設(shè)備輕松接入網(wǎng)絡(luò),得到所需信息或購買商品及服務(wù)。更重要的是,這種方式將大大提高商業(yè)自動化程度,降低企業(yè)的運(yùn)營成本,改善服務(wù)質(zhì)量,使商務(wù)活動更加便捷。

語音門戶(voice portal)的出現(xiàn),滿足了人們這些需要,為互聯(lián)網(wǎng)詮釋出全新的涵義。語音門戶是指基于互聯(lián)網(wǎng)平臺,應(yīng)用語音識別、合成和轉(zhuǎn)換技術(shù),為固定電話和移動電話用戶提供用語音訪問互聯(lián)網(wǎng)并獲取網(wǎng)上信息的門戶,這也是全球互聯(lián)網(wǎng)發(fā)展的一個最新趨勢。語音門戶融合了語音、CTI、Web、電信、計算機(jī)及網(wǎng)絡(luò)等技術(shù),構(gòu)筑出了新一代的語音上網(wǎng)平臺,將使更多的用戶能夠通過各類通信終端快速接入互聯(lián)網(wǎng),為企業(yè)帶來新的業(yè)務(wù)增長點。從技術(shù)的角度看,近幾年來,隨著自動語音識別(ASR)、文本轉(zhuǎn)語音(TTS)、口語對話等人機(jī)交互技術(shù)、信息處理技術(shù)的發(fā)展,以及像語音瀏覽器、嵌入式語音瀏覽器等Voice Web技術(shù)的成熟,再加上移動用戶終端種類與功能的快速增加,使基于語音的互聯(lián)網(wǎng)門戶——“語音門戶”在通信終端中的應(yīng)用有了可靠保證。

4.2分布式語音處理

4.2.1 分布式語音識別

在智能通信終端中,語音識別的首要目標(biāo)是使我們所有人不用敲擊或遠(yuǎn)離鍵盤即可輕松訪問大部分計算機(jī)服務(wù)和通信系統(tǒng)。分布語音識別(DSR)技術(shù)采用客戶機(jī)/服務(wù)器方法,整個處理過程分布于終端(如手機(jī))和網(wǎng)絡(luò)的兩端。終端執(zhí)行語音特征參數(shù)提取任務(wù),是語音識別系統(tǒng)的前端。提取的特征參數(shù)通過數(shù)據(jù)信道傳輸至遠(yuǎn)程的后端識別器。這樣,傳輸信道不影響識別系統(tǒng)性能,信道不變性的目的得以實現(xiàn)。

因特網(wǎng)上的分布式語音識別是由呼叫中心發(fā)展而來,現(xiàn)在正走向提供基于因特網(wǎng)的服務(wù),分布式語音識別技術(shù)已經(jīng)在基于包交換的 VoIP 網(wǎng)絡(luò)進(jìn)行了測試。

4.2.2分布式語音合成

在基于網(wǎng)絡(luò)應(yīng)用特別是客戶機(jī)/服務(wù)器典型模式下,終端的輕量級實現(xiàn)與服務(wù)端的高質(zhì)量、重量級實現(xiàn)之間必然存在矛盾,加上信道、處理資源與用戶體驗等多方面的綜合影響,語音合成的分布式實現(xiàn)把傳統(tǒng)TTS的處理環(huán)節(jié)分解成為了標(biāo)準(zhǔn)化的實現(xiàn)模塊:文本分析模塊、語音合成模塊。文本分析模塊涉及詞典、分詞、各種語言學(xué)處理,都要占用較大的資源,因此可以放在服務(wù)器端實現(xiàn),即經(jīng)過處理后形成音韻序列再傳送到終端上去;語音合成模塊則可以放在終端上實現(xiàn)。由于音韻序列基本上由符號數(shù)據(jù)組成,與直接傳送文本數(shù)據(jù)占用的信道帶寬差不多,不影響傳輸性能,但卻使終端擺脫了文本分析的壓力,降低了成本。當(dāng)然標(biāo)記語言和數(shù)據(jù)傳送的格式必須標(biāo)準(zhǔn)化,才能得到推廣。

4.3 語音瀏覽器

語音瀏覽器(Voice Browser)相當(dāng)于IE或是Netscape Navigator,不同的是它是通過語音的方式瀏覽VXML內(nèi)容(VXML即Voice XML是基于XML國際標(biāo)準(zhǔn)的語音可擴(kuò)展標(biāo)識語言,它像HTML定義圖形化網(wǎng)頁界面一樣定義了語音界面),并且通過Transcoder服務(wù)器還可以直接瀏覽網(wǎng)上HTML格式的內(nèi)容。它主要包括Voice XML服務(wù)器、電話語音接入服務(wù)器、TTS/ASR資源服務(wù)器、Transcoder服務(wù)器。Voice XML服務(wù)器運(yùn)行Voice XML解釋器與對話管理器,按照VXML頁面提供的內(nèi)容控制語音及電話資源,和用戶完成交互。這些資源包括語音識別、語音合成、音頻錄音、按鍵音以及電話網(wǎng)絡(luò)接口。呼叫者一般通過公眾交換電話網(wǎng)(PSTN)與Voice XML服務(wù)器交互,也可以通過其他網(wǎng)如PBX或VoIP信息包與Voice XML服務(wù)器交互。Transcoder服務(wù)器主要負(fù)責(zé)將Internet上其他標(biāo)記語言內(nèi)容轉(zhuǎn)換為VXML頁面內(nèi)容,使得用戶通過電話訪問普通Web站點得以實現(xiàn)。語音瀏覽器(Voice Browser)的概念即是希望使普通電話作為瀏覽器終端,通過自然語言交互的方式取得相關(guān)的定制信息服務(wù)或Internet上發(fā)布的Web信息內(nèi)容。通過電話終端與服務(wù)器端的語音接入、ASR/TTS、VXML 服務(wù)器以及各種Transcoder,構(gòu)成了相當(dāng)于IE的瀏覽器,是實現(xiàn)語音上網(wǎng)工程的核心組成部分。

因為人們從小到大都是用語言進(jìn)行交流,所以語音接口是一個非常自然的人機(jī)交互接口。現(xiàn)在人們使用固定電話和蜂窩電話時并沒有用上Voice Browser技術(shù)。一些Voice Browser設(shè)備可能有小屏幕,像移動電話和掌上電腦那樣。但是在那樣小的屏幕上用鍵盤輸入不是一件令人愉快的事情。同樣在那樣小的屏幕上閱讀信息也不是一件輕松的事情。這時Voice Browser就體現(xiàn)出了它的優(yōu)越性。

現(xiàn)在人們上網(wǎng)主要通過臺式計算機(jī)和手提電腦來上網(wǎng),雖然有了WAP協(xié)議,手機(jī)也可以上網(wǎng)瀏覽,但是很不方便。另外現(xiàn)在上網(wǎng)還需要計算機(jī)知識,對于發(fā)展中國家的大多數(shù)人來說,門檻過高。而應(yīng)用Voice Browser可以使我們輕松地用各種設(shè)備如電話、電視等一切電子或電氣設(shè)備走進(jìn)互聯(lián)網(wǎng)。在將來,Voice Browser還可以支持其他的模式和媒體,例如用筆、圖像和傳感器作為輸入,用活動圖像和激勵控制作為輸出。語音和筆輸入可能適合我們亞洲用戶,因為我們所說的語言并不是與QWERTY鍵盤一致的。一些Voice Browser也是便攜的,這樣他們可以在家、辦公室、路上等任何地方使用,所以網(wǎng)上信息對許多聽眾來說是隨時可得的,特別是對那些有電話或移動電話的用戶更是如此。語音瀏覽器(Voice Browser)同時可為盲人或需要訪問Web但是手和眼睛卻要干其他事情的用戶提供方便的實用接口,可使盲人用戶獲得和正常人一樣的工作空間。

同時語音瀏覽器可以跨越各種平臺,像電腦、電視、電話(包括移動電話)等,使人們可以隨時隨地獲取所要的網(wǎng)上信息,并用語音表達(dá)出來。隨著其中各項技術(shù)的發(fā)展、成熟和完善,這個市場將會迅速發(fā)展起來。

4.4嵌入式語音瀏覽器

除了傳統(tǒng)固定電話用戶,迅速增長的移動電話用戶是系統(tǒng)的另一大用戶資源,因為,隨著終端處理能力的加強(qiáng),完全在終端的嵌入式語音瀏覽器和終端/服務(wù)端協(xié)同的分布式語音瀏覽器也將成為智能通信終端的一個重要組成部分。

嵌入式語音瀏覽器支持HTTP或者WAP等其他傳輸協(xié)議,支持HTML、JavaScript、擴(kuò)展XML、Voice XML等標(biāo)記語言,可以完成網(wǎng)頁的瀏覽功能;語音嵌入式瀏覽器適合在非PC的嵌入式信息設(shè)備中存在,運(yùn)行并完整實現(xiàn)通信傳輸協(xié)議、標(biāo)記語言所規(guī)定的功能,能夠根據(jù)嵌入式設(shè)備的多樣性需要而方便地進(jìn)行裁減和修改,并滿足信息設(shè)備使用者對獲取文字、圖像、聲音、視頻等信息的需求。語音嵌入式瀏覽器可以廣泛應(yīng)用到各種非PC設(shè)備或通信終端,如電視上的機(jī)頂盒、互聯(lián)網(wǎng)電視(iDVD、iSVCD、iVCD)、交互式數(shù)字電視、手持上網(wǎng)設(shè)備(移動電話、掌上電腦、個人數(shù)字助理等)、互聯(lián)網(wǎng)電話、網(wǎng)絡(luò)終端、網(wǎng)絡(luò)游戲終端、電子圖書閱讀器、公共信息查詢系統(tǒng)、汽車電子信息查詢系統(tǒng)、飛機(jī)電子信息服務(wù)系統(tǒng)等,賦予了這些終端設(shè)備上網(wǎng)和豐富的信息交互功能。(續(xù)完)

作者簡介

王仁華,中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系教授、博士生導(dǎo)師,中國通信學(xué)會會士、理事,中國科大訊飛信息科技有限公司董事長。主要從事數(shù)字信號處理、語音通信、多媒體通信等方面的研究。

猜你喜歡
瀏覽器分布式語音
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
反瀏覽器指紋追蹤
電子制作(2019年10期)2019-06-17 11:45:14
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
環(huán)球瀏覽器
再見,那些年我們嘲笑過的IE瀏覽器
基于DDS的分布式三維協(xié)同仿真研究
天津市| 吴堡县| 岢岚县| 喀喇沁旗| 连山| 铜梁县| 西丰县| 雅安市| 射阳县| 凤庆县| 吉林省| 微博| 新干县| 开阳县| 湟中县| 南开区| 方山县| 大同市| 新乐市| 永寿县| 万州区| 甘肃省| 拉孜县| 深圳市| 志丹县| 万宁市| 荣成市| 乌拉特前旗| 大丰市| 哈巴河县| 安图县| 泽普县| 资源县| 称多县| 金山区| 梁河县| 汾阳市| 开化县| 婺源县| 淮南市| 泌阳县|