雷輝志
一艘由日本制造的新型自動(dòng)化遠(yuǎn)洋貨輪,正行駛在前往澳大利亞的航線上。這艘貨輪的外形并不特別,但它卻有著過人之處——貨輪的船長隨身攜帶著一只無線話筒,無論在船上的哪個(gè)區(qū)域,只要他對(duì)著話筒發(fā)出操縱貨輪航行的口令,船上的主控電腦就能接收信號(hào)并予以識(shí)別,然后由它發(fā)出相應(yīng)的操作信號(hào),自動(dòng)操縱貨輪航行。
以上情景就是靠近年來最新聲控自動(dòng)化技術(shù)實(shí)現(xiàn)的,這項(xiàng)技術(shù)隨著近年來電腦技術(shù)、微電子技術(shù)的不斷變革,正在突飛猛進(jìn)。在國際電子產(chǎn)品市場(chǎng)上,不斷涌現(xiàn)出能“聽”會(huì)“說”的新產(chǎn)品,使用者只需動(dòng)口就能輕松操控它們,它們甚至還能和使用者溝通交流。那么究竟這些新產(chǎn)品是怎么長出“耳朵”和“嘴巴”的呢?
機(jī)器的“耳朵”
——語言識(shí)別器
聲控技術(shù)的關(guān)鍵是要讓機(jī)器能夠聽懂人的口令,這是一個(gè)非常復(fù)雜的過程,要想了解其中的奧秘,首先得談?wù)勅祟惖恼Z言。
語言是一種波形復(fù)雜、變化多端的聲波??茖W(xué)家利用一種叫做語圖儀的專門儀器分析過人類語言的動(dòng)態(tài)頻譜,結(jié)果發(fā)現(xiàn),每個(gè)語音的語圖都是由幾條“帶子”組成的。當(dāng)然,語音不同,“帶子”的形狀也不同。但只要說的是同一個(gè)字音,那么不管是誰發(fā)聲,這幾條“帶子”的形狀都會(huì)基本一致。也就是說,每個(gè)語音中都含有某種不變的特質(zhì),而這個(gè)特質(zhì)就是人的聽覺將會(huì)感受到的核心因素,語言學(xué)家把它稱為口腔共鳴的特征頻率。
這些特征頻率為科學(xué)家研發(fā)聲控技術(shù)提供了便利——如果能夠制造一種機(jī)器“耳朵”,并在其中嵌入每個(gè)語音的特征頻率的“樣板”,那么當(dāng)這只“耳朵”聽到人類的口令后,不就能將其分解成不同的語音,再同存儲(chǔ)的“樣板”進(jìn)行比較核對(duì),隨后借助自動(dòng)控制電路,最終實(shí)現(xiàn)按照口令完成各種動(dòng)作了嗎?
道理雖然簡(jiǎn)單,實(shí)際開發(fā)卻并不容易,科研人員需要解決復(fù)雜的數(shù)學(xué)運(yùn)算過程,同時(shí)克服一系列技術(shù)上的難題。
隨著科學(xué)技術(shù)的進(jìn)步,電腦的問世讓人類制造這樣的機(jī)器“耳朵”成為可能。20世紀(jì)60年代,科學(xué)家開始在實(shí)驗(yàn)室里研究聲控技術(shù)的核心——語言識(shí)別技術(shù)。20世紀(jì)70年代末,微電腦的出現(xiàn)更是讓聲控技術(shù)實(shí)現(xiàn)了飛躍式發(fā)展——微電腦處理與存貯信息的神奇功能,以及它低廉的價(jià)格、小巧的體積,為聲控技術(shù)走出實(shí)驗(yàn)室創(chuàng)造了必要條件,人們由此開啟了實(shí)際應(yīng)用聲控技術(shù)的新時(shí)期。
產(chǎn)品的更新?lián)Q代
20世紀(jì)70年代中期,美國出現(xiàn)了一種叫做“小先生”的電子玩具,它能向兒童提出簡(jiǎn)單的算術(shù)題和拼讀英文單詞題,而兒童則可以用說話來回答。如果回答正確,屏幕上就會(huì)出現(xiàn)“Yes”的字樣,同時(shí)發(fā)出贊許聲;如果回答錯(cuò)誤,屏幕上則會(huì)出現(xiàn)“No”,同時(shí)繼續(xù)提問。這種有趣的幼兒學(xué)習(xí)工具一經(jīng)推出,便大受歡迎。
隨后,豐富多彩的具有聲控功能的電子產(chǎn)品開始不斷問世:聲控電視機(jī)能根據(jù)使用者發(fā)出的口令,自動(dòng)開關(guān)、選擇電視頻道、調(diào)節(jié)亮度與色度;聲控打字機(jī)會(huì)按照人的口授,自動(dòng)打字、斷句、起行,還能自動(dòng)閱讀,讓使用者方便校核;聲控翻譯器能把口述的簡(jiǎn)單語句,進(jìn)行自動(dòng)翻譯,并將最終結(jié)果顯示在屏幕上;聲控電梯則可以讓殘障人士盡享便利,輕松操控電梯上下、開關(guān)……
如今,聲控技術(shù)已經(jīng)更加廣泛地應(yīng)用于各類電子產(chǎn)品上。
比如蘋果手機(jī)用戶非常熟悉的Siri,就是一種智能語音控制系統(tǒng),它不僅可以支持自然語言輸入,還可以調(diào)用系統(tǒng)自帶的天氣預(yù)報(bào)、日程安排、搜索資料等應(yīng)用,更能夠不斷學(xué)習(xí)新的聲音和語調(diào),提供對(duì)話式的應(yīng)答。
最近,在英國還出現(xiàn)了專門為喪失生活自理能力人士設(shè)計(jì)的聲控房間,室內(nèi)的一切器具都可以通過主人發(fā)令而自動(dòng)運(yùn)行。房間內(nèi)的聲控裝置只有一本筆記本大小,而且只能識(shí)別主人的指令,殘障人士可以通過它輕松地開關(guān)門窗、啟動(dòng)家電。
在國外某些重要的通訊、交通或情報(bào)部門,聲控技術(shù)還得到了更為實(shí)際的應(yīng)用——自動(dòng)預(yù)定車輛、分揀行李、查閱文獻(xiàn)資料等等,不一而足。
目前,這些聲控裝置按照其識(shí)別語言的狀況大致分為兩類:一類是限定單詞的語音識(shí)別聲控裝置,另一類則是非限定單詞的語音識(shí)別聲控裝置。第一類裝置只能“聽”懂規(guī)定范圍內(nèi)的單詞口令,一般只有幾百個(gè),識(shí)別率在90%以上。第二類裝置能夠“聽”懂的單詞數(shù)量在幾千個(gè)左右,還可以識(shí)別復(fù)雜的語句,其中的技術(shù)自然也比第一類裝置更先進(jìn)。
讓機(jī)器說話
——語言合成器
時(shí)至今日,能夠“聽”懂人類語言的機(jī)器已經(jīng)不是什么新玩意兒了,現(xiàn)在機(jī)器裝置的發(fā)展新趨勢(shì)是借助“電子嘴巴”為機(jī)器增加“說”的功能,而“電子嘴巴”就是語言合成器。微電子技術(shù)的迅猛發(fā)展,已經(jīng)可以把這種復(fù)雜的裝置制造成微小的大規(guī)模集成電路,推廣普及應(yīng)用到各種聲控裝置中。
機(jī)器能夠模仿人聲發(fā)出合成語言的道理,恰恰是語言識(shí)別過程的逆轉(zhuǎn)。把合成語言頻帶的一系列不同頻率的振蕩電壓,按照語圖的形狀組合起來,再經(jīng)過揚(yáng)聲器放音,就是語言合成器的工作過程。
其實(shí),這種人造語言技術(shù)遠(yuǎn)比機(jī)器識(shí)別語言技術(shù)要成熟得多。早在1939年,在美國紐約世界博覽會(huì)上就曾展出過一臺(tái)形似鋼琴的大型儀器,它就能模擬人聲發(fā)音講話。這臺(tái)最早的人工語言合成裝置曾經(jīng)轟動(dòng)一時(shí),但由于體積過于龐大,一直未能走向市場(chǎng)。如今,語言合成器日臻成熟完善,體積也不斷縮小,終于有機(jī)會(huì)來到你我身邊。
機(jī)器合成語言的方法通常有三種,其中效果最好、效率最高的就是波形譯碼法。這種方法是用極高的頻率連續(xù)測(cè)定每個(gè)音節(jié)的聲波波形,將測(cè)定結(jié)果變?yōu)槎M(jìn)位數(shù)碼輸入到電腦中,使用時(shí)只需將數(shù)碼取出并經(jīng)過適當(dāng)組合,就能轉(zhuǎn)換為電信號(hào)發(fā)出聲音。不過,這種方法每秒大約要處理5萬個(gè)碼,在單位時(shí)間內(nèi)需要處理的信息量太大,因此只有超級(jí)計(jì)算機(jī)才能勝任。第二種方法是音素合成法,它能把語音信息壓縮到每秒100個(gè)數(shù)碼,同時(shí)將聲母音進(jìn)行提取,按照順序排列,配以音調(diào)發(fā)生器與濾波器,發(fā)出緩慢的、勉強(qiáng)可懂的人工合成語言。但這種方法的準(zhǔn)確度較低,只能在要求不高的場(chǎng)合使用。第三種方法是當(dāng)前比較流行的線性預(yù)測(cè)編碼法,它是在音素合成法的基礎(chǔ)上進(jìn)一步完善而成的。
語言合成器除了作為聲控裝置的一部分得到應(yīng)用外,還被制成了文字語言轉(zhuǎn)換裝置,比如為盲人量身打造的、能夠“讀書看報(bào)”的閱讀機(jī)。
聲控技術(shù)已經(jīng)在汽車上得到應(yīng)用。
神奇的未來
最近,在美國新奧爾良市舉行的一次電腦展覽會(huì)上,出現(xiàn)了一款使用者能夠通過日??谡Z直接向電腦提問,或是操控電腦的新程序,人們不必再像以往那樣借助鍵盤或鼠標(biāo)輸入各類指令——傳統(tǒng)使用電腦的方式發(fā)生了改變。
電腦固然可以代替人的部分腦力勞動(dòng),但是它要求人們必須為其編制好程序。所以,編制程序才是人們掌握電腦的最大障礙,這也是正版軟件價(jià)格可能超出電腦硬件價(jià)格的一個(gè)重要原因。假如聲控技術(shù)逐步完善,將來就有可能免除人工編制程序的繁瑣過程——電腦將會(huì)按照口令自行編制工作程序。事實(shí)上,這個(gè)美好的愿望很快就將實(shí)現(xiàn),美國、日本和歐盟正在大力研發(fā)的第五代人工智能電腦,都將具有這類神奇功能。
目前來看,聲控自動(dòng)化技術(shù)還算不上盡善盡美,但相信大家都有更美好的期待。如果要用一句詩詞來形容這項(xiàng)技術(shù),那便是“此時(shí)無聲勝有聲”,不對(duì),應(yīng)該是“此時(shí)有聲勝無聲”!