徐鑫宇
摘要:今年以來,各大公司都推出了智能音箱產(chǎn)品,這種以語音進(jìn)行操作的電子設(shè)備交互模式,一時(shí)間被大家廣泛知道和使用。那么,智能語音到底對(duì)電子設(shè)備的交互起到什么樣的作用呢?本文今天就從智能語音助手角度淺析計(jì)算機(jī)智能科學(xué)與技術(shù)對(duì)電子設(shè)備交互的作用。本文首先概述了智能語音及其原理,然后分析智能語音在電子設(shè)備交互中的應(yīng)用,包括汽車智能交互、智能焦距、兒童終端、服務(wù)行業(yè)機(jī)器人四個(gè)方面。最后,還探討了電子設(shè)備交互的未來發(fā)展趨勢(shì)。
關(guān)鍵詞:智能語音助手;電子設(shè)備交互;計(jì)算機(jī)智能科學(xué)與技術(shù)
中圖分類號(hào):TP30 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)12-0225-02
0 引言
2011年10月,蘋果公司在美國加利福尼亞州舉行的Let's talk iPhone的新品發(fā)布會(huì)上發(fā)布了iPhone 4s手機(jī),一同發(fā)布的還有一個(gè)引發(fā)大眾熱議的功能——Siri語音服務(wù)。新購機(jī)的用戶可以利用Siri通過手機(jī)讀短信、介紹餐廳、詢問天氣、語音設(shè)置鬧鐘等,一時(shí)間關(guān)于使用Siri的視頻開始風(fēng)靡網(wǎng)絡(luò),有了Siri的加持,手機(jī)也從一個(gè)通訊工具華麗變身為一個(gè)智能機(jī)器人?,F(xiàn)如今,Siri的功能越來越完善,除了能幫助用戶做一些輔助工作,儼然成為了很多果粉聊天解悶的忠實(shí)朋友。
Siri問世后,越來越多的語音助手軟件開始進(jìn)入我們的視野,比如百度地圖中的小度、安卓手機(jī)中的各類語音助手、Windows 10 PC端的小娜、亞馬遜的Alexa、小米的小愛同學(xué)等等,形形色色色的語音助手能為我們講笑話、找電影、找餐廳,跟我們對(duì)話聊天等等。通過計(jì)算機(jī)智能科學(xué)與技術(shù)實(shí)現(xiàn)的智能語音助手已經(jīng)成為信息時(shí)代下電子設(shè)備與用戶之間新的交互方式。這種新方式解放了我們的雙手、雙眼,讓我們能夠在享受更多樂趣的同時(shí),更加自如、安心地執(zhí)行其他操作。接下來,我們將從智能語音助手角度簡(jiǎn)單地分析一下計(jì)算機(jī)智能科學(xué)與技術(shù)對(duì)電子設(shè)備交互的作用。
1 認(rèn)識(shí)智能語音
1.1 智能語音發(fā)展史
最早實(shí)現(xiàn)語音識(shí)別功能的時(shí)間,我們要追溯到1952年。那一年,貝爾實(shí)驗(yàn)室制造了一臺(tái)6英尺高的自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”,這個(gè)像人一樣高的機(jī)器能夠識(shí)別數(shù)字0~9的發(fā)音。接著,美國、日本的相關(guān)機(jī)構(gòu)紛紛投入研究,雖然進(jìn)展緩慢,但漸漸地機(jī)器開始能夠識(shí)別簡(jiǎn)單的單音節(jié)詞或者特定的元音。直到二十世紀(jì)七十年代,語音識(shí)別取得了突破性的進(jìn)展,在美國國防部的支持及參與項(xiàng)目的相關(guān)機(jī)構(gòu)努力下,研發(fā)出新一代智能語音識(shí)別系統(tǒng)Harpy,了不起的Harpy能夠識(shí)別整句話。
二十世紀(jì)八十年代中期,IBM創(chuàng)造了第一臺(tái)通過語音控制的打字機(jī),當(dāng)時(shí)這臺(tái)打字機(jī)能夠處理約20000個(gè)單詞。1984年IBM又發(fā)布了一套智能語音識(shí)別系統(tǒng),這套系統(tǒng)能夠識(shí)別5000個(gè)詞匯以上,并且準(zhǔn)確率達(dá)到95%。
1987年12月,李開復(fù)開發(fā)出世界上第一個(gè)“非特定人聯(lián)系語音識(shí)別系統(tǒng)”。
1988年,卡耐基梅隆大學(xué)開發(fā)出世界上第一個(gè)非特定人大詞匯量連續(xù)語音識(shí)別系統(tǒng)。這個(gè)語音識(shí)別系統(tǒng)能夠識(shí)別包括997個(gè)詞匯在內(nèi)的4200個(gè)連續(xù)語句。同年,清華大學(xué)和中科院聲學(xué)所在大詞庫漢語聽寫機(jī)的研制上取得突破性進(jìn)展。
電子信息時(shí)代的發(fā)展推動(dòng)了智能語音識(shí)別技術(shù)的進(jìn)步,進(jìn)入二十一世紀(jì)后,大家對(duì)智能語音的思考方向更加開放,智能語音識(shí)別技術(shù)開始向更多的方向發(fā)展。
2001年,比爾蓋茨通過MiPad原型機(jī)向世人展示了語音多模態(tài)移動(dòng)設(shè)備的愿景。
2002年,由中科院自動(dòng)化所及其所屬科技公司推出的“天語”中文語音系列產(chǎn)品打破了語音識(shí)別領(lǐng)域被外國壟斷的局面。
2006年,深度置信網(wǎng)絡(luò)的提出掀起機(jī)器深度學(xué)習(xí)的熱潮,2009年深度神經(jīng)網(wǎng)絡(luò)在小詞匯量連續(xù)識(shí)別的應(yīng)用上獲得成功。
2011年,微軟的DNN模型在語音搜索任務(wù)中獲得成功,同年,科大訊飛成功將DNN應(yīng)用到中文識(shí)別領(lǐng)域,并開放給開發(fā)者使用。
2011年10月,iPhone 4S發(fā)布,Siri同時(shí)面世,掀開了人機(jī)交互新篇章。自此各種各樣的語音助手開始進(jìn)入我們的生活,涉及領(lǐng)域越來越廣?,F(xiàn)如今我們隨時(shí)可以見到智能語音的影子,應(yīng)用場(chǎng)景非常廣泛,諸如智能車載、智能家居、智能穿戴等等不一而足。
1.2 智能語音的基本原理
我們?nèi)粘J褂玫墓ぞ叽蟛糠侄夹枰醚劬θタ?、用手進(jìn)行操作,執(zhí)行單一動(dòng)作的時(shí)候我們的雙手雙眼還能夠應(yīng)付,但在現(xiàn)代生活中,很多時(shí)候都需要同時(shí)執(zhí)行好幾個(gè)動(dòng)作。比如,開車的時(shí)候,如果需要按照導(dǎo)航走路,我們需要眼睛看路的同時(shí)看導(dǎo)航,手操作方向盤、離合器的同時(shí)還要操作手機(jī)。多個(gè)動(dòng)作同時(shí)操作不但效率很低更重要的是非常的不安全,智能語音的出現(xiàn)幫我們解決了這個(gè)大問題。
智能語音主要通過自然語言識(shí)別來執(zhí)行不同的操作,在不同場(chǎng)景的應(yīng)用下能夠?yàn)槲覀兘鉀Q不同問題、滿足不同需求。這種技術(shù)主要涉及到自然語言的識(shí)別與自然語言的生成兩個(gè)方面。其識(shí)別機(jī)制其實(shí)不復(fù)雜,在我們與智能語音助手交流流時(shí),后臺(tái)系統(tǒng)首先會(huì)通過聲學(xué)理論處理其它噪音減少干擾,同時(shí)以聲波的形式攝取到人類的自然語言。攝取到聲波被進(jìn)行分幀處理,然后針對(duì)每一幀進(jìn)行聲學(xué)特征提取,將提取的部分按照不同波形特征轉(zhuǎn)換成計(jì)算機(jī)能夠讀懂的語言。接著計(jì)算機(jī)對(duì)語音進(jìn)行識(shí)別轉(zhuǎn)化成文本,再通過語義理解技術(shù)對(duì)轉(zhuǎn)化來的文字進(jìn)行理解以確定用戶所說的內(nèi)容,再然后將數(shù)據(jù)發(fā)送到?jīng)Q策引擎,去執(zhí)行用戶的指令或通過語音合成技術(shù)把需要反饋的信息用語音的形式反饋給用戶。
2 智能語音在電子設(shè)備交互中的應(yīng)用
通過智能語音的發(fā)展史來看,自上個(gè)世紀(jì)80年代開始我國就已經(jīng)開始了智能語音的研究工作,并長(zhǎng)期得到國家的支持。隨著相關(guān)技術(shù)的不斷優(yōu)化以及市場(chǎng)的不斷推廣,智能語音技術(shù)已經(jīng)滲入到我們生活中的方方面面,涉及領(lǐng)域十分廣泛,諸如汽車行業(yè)、家居行業(yè)、服務(wù)行業(yè)、娛樂行業(yè)等等,涉及的產(chǎn)品更是各式各樣,人與各類電子設(shè)備的語音交互場(chǎng)景每天都在上演。
2.1 汽車智能交互
前文曾說到開車的場(chǎng)景,加入智能語音系統(tǒng)可以解放駕駛員的雙手和雙眼,提高駕駛的安全性,其實(shí)現(xiàn)在的智能語音系統(tǒng)早就不止這一個(gè)功能了,越來越多的互聯(lián)網(wǎng)版車型的問世,給駕駛員的駕駛過程提供了很多幫助的同時(shí)也增加了很多樂趣。就拿東風(fēng)日產(chǎn)的某款車來說,車載系統(tǒng)提供了智控導(dǎo)航、娛樂天氣、通訊等200多種功能,能識(shí)別1000中日常語句。車主可以通過設(shè)置喚醒指令喚醒智能語音功能,而且常用的功能還能夠免喚醒指令,直接說操作指令就可以。比如,車主想要出去吃飯,可以直接給出智能語音助手“吃飯”的具體指令,智能語音助手就能夠?yàn)橹魅苏页龊芏鄠溥x方案,待車主確定地點(diǎn)后直接導(dǎo)航到目的地即可。想要聽音樂,可語音告訴智能語音助手打開播放器,切歌這種操作對(duì)它來說更是易如反掌的。
2.2 智能家居
物聯(lián)網(wǎng)時(shí)代下的萬物帶給用戶的直接體驗(yàn)就是便捷,作為方便我們生活解放我們雙手的智能語音系統(tǒng)同樣給我們創(chuàng)造的是便捷的生活方式。那么,作為我們最重要的生活場(chǎng)景,家居環(huán)境自然少不了智能語音的身影。隨著市場(chǎng)推廣、技術(shù)發(fā)展,融入智能語音技術(shù)的家居用品越來越多,前幾年還需要通過手機(jī)連接才能實(shí)現(xiàn)控制的家電,現(xiàn)在直接用語音就能控制,甚至家居用品還能主動(dòng)詢問是否提供幫助??匆豢醇依锏募矣秒娖鳎畛R姷呐鋫淞酥悄苷Z音功能的應(yīng)該就是電視了。比如小米的電視機(jī),拿起遙控器按住Home鍵,對(duì)著遙控器說出你要看的電視劇或者電影名稱,系統(tǒng)就會(huì)自動(dòng)為你找到。還有小米出品的攝像頭也加入了語音識(shí)別功能,只要你對(duì)著攝像頭說一句“小白看過來”它就會(huì)聽話地轉(zhuǎn)過頭來。
2.3 兒童終端
要說到智能語音應(yīng)用領(lǐng)域中最重要的一部分就不得不提兒童終端市場(chǎng)了。無論從智能故事機(jī)、早教娛樂機(jī)還是兒童智能音箱,幾乎每年都會(huì)出現(xiàn)爆款。之所以配備了智能語音系統(tǒng)的兒童終端這么受歡迎,源于智能語音系統(tǒng)的內(nèi)置數(shù)據(jù)庫及語音對(duì)話功能為父母創(chuàng)造了短暫的“閑暇時(shí)間”,哄得孩子不哭不鬧的同時(shí)還能教會(huì)孩子知識(shí),著實(shí)是父母的哄娃助手。就拿百度出品的小度智能音箱兒童模式來說,它內(nèi)置百萬級(jí)數(shù)據(jù)的兒童語言庫,設(shè)置了兒童專用的語音喚醒模式以及語音識(shí)別交互引擎,確保孩子在于小度智能音箱對(duì)話的時(shí)候能夠流暢自然,更重要的是它還擁有80萬以上的精品兒童有聲節(jié)目以及來自寶寶知道的10萬以上的權(quán)威認(rèn)證母嬰問答內(nèi)容。
2.4 服務(wù)行業(yè)機(jī)器人
前幾天在網(wǎng)上的一個(gè)視頻火遍了網(wǎng)絡(luò),視頻中一位去銀行辦理業(yè)務(wù)的女士問正在崗位上工作的機(jī)器人:“你在這干嘛呀?”機(jī)器人回復(fù):“上班呀?!迸坑謫枺骸肮べY多少錢呀?”機(jī)器人回答:“工資都用來付電費(fèi)了。”這組對(duì)話著實(shí)可愛,更有不少網(wǎng)友留言說:“我就快下崗了?!贝_實(shí),智能語音機(jī)器人已經(jīng)可以成熟地服務(wù)于金融貸款、理財(cái)、房地產(chǎn)、電商行業(yè),更能成熟地進(jìn)行電話銷售、客戶服務(wù)、售后管理等基礎(chǔ)崗位。尤其是線上的客服人員,已經(jīng)被越來越多的智能語音系統(tǒng)代替,智能語音系統(tǒng)不但能夠回答客戶是問題,還能24小時(shí)不間斷在崗,于企業(yè)而言確實(shí)更好管理。
3 電子設(shè)備交互的發(fā)展趨勢(shì)
智能語音技術(shù)作為人工智能應(yīng)用最成熟的技術(shù)之一,已經(jīng)實(shí)現(xiàn)商業(yè)化落地,在智能家居、智能車載、兒童終端、服務(wù)等領(lǐng)域有了迅猛發(fā)展,從行業(yè)分析數(shù)據(jù)可以看出,在中國的人工智能市場(chǎng)規(guī)模的增長(zhǎng)來看,智能語音居于重要位置。從技術(shù)水平來看,在語音識(shí)別率方面,百度、谷歌、科大訊飛等主流平臺(tái)識(shí)別率均在96%以上,識(shí)別能力屈于穩(wěn)定。同時(shí)語音對(duì)話時(shí)可隨時(shí)打斷,加入了語境分析功能。在自然語言生成技術(shù)上也達(dá)到了國際領(lǐng)先水平。智能語音發(fā)展的越來越好,但智能語音功能遠(yuǎn)遠(yuǎn)沒有達(dá)到人類的理想水平,未來智能語音的價(jià)值點(diǎn)依然是以服務(wù)用戶為主,深入挖掘用戶數(shù)據(jù),以語音作為物聯(lián)網(wǎng)的入口,形成全新的商業(yè)模式。在智能家居、智能車載、智能穿戴等行業(yè)中發(fā)揮巨大的價(jià)值。
4 結(jié)語
智能語音系統(tǒng)經(jīng)過60多么的發(fā)展,已經(jīng)達(dá)到了能夠讓人與電子設(shè)備順暢對(duì)話水平,實(shí)現(xiàn)了落實(shí)商業(yè)化用途的的目的,目前已經(jīng)被廣泛應(yīng)用于我們的生活中。作為最早落地的人工智能技術(shù),無論是產(chǎn)業(yè)模式、創(chuàng)新能力、應(yīng)用能力還是企業(yè)能力,在人工智能領(lǐng)域都是發(fā)展最好的,都呈現(xiàn)出蓬勃發(fā)展的趨勢(shì)。相信在國家的大力支持下,行業(yè)者的不懈努力下,以智能語音為首的計(jì)算機(jī)智能科學(xué)與技術(shù)在與其它產(chǎn)業(yè)融合、發(fā)展環(huán)境優(yōu)化、技術(shù)公關(guān)等方面都會(huì)有更多利好消息,為物聯(lián)網(wǎng)時(shí)代發(fā)展做出重大貢獻(xiàn)。
參考文獻(xiàn)
[1]宋偉,金暢.盛四輩.我國智能語音行業(yè)專利戰(zhàn)略研究——以科大訊飛為例[J].科技進(jìn)步與對(duì)策,2011,28(21):107-111.
[2]顧險(xiǎn)峰.人工智能的歷史回顧和發(fā)展現(xiàn)狀[J].自然雜志,2016,38(3):157-166.
[3]朱斌.淺析智能語音技術(shù)及其應(yīng)用[J].智富時(shí)代,2015(9):186.
[4]施超群,陳堅(jiān)剛.淺析語音識(shí)別原理[J].浙江工商職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011(3):94-96.
[5]賈佩山.自然語言生成技術(shù)及其應(yīng)用實(shí)例[J].電腦與信息技術(shù),1997(2):7-9.
[6]白水.什么是自然語言處理(NLP)[J].語文建設(shè),1992(2):37-37.
[7]劉劍.2017年中國人工智能行業(yè)分析——智能語音應(yīng)用篇[J].湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2017,17(3):1-4.
Analysis of the Interaction Between Computer Intelligence Science and Technology on Electronic Devices from the Perspective of Intelligent voice Assistant
XU Xin-yu
(Xi'an Middle School, Shaanxi Province, Xi'an Shaanxi? 710018)
Abstract:Since the beginning of this year, major companies have introduced smart speaker products. This interactive mode of electronic devices operated by voice has been widely known and used by people. So, what role does intelligent speech play in the interaction of electronic devices? This paper analyzes the role of computer intelligence science and technology in electronic device interaction from the perspective of intelligent voice assistant. This paper first summarizes the intelligent voice and its principles, and then analyzes the application of intelligent voice in electronic device interaction, including automotive intelligent interaction, intelligent focal length, children's terminal, and service industry robot. Finally, the future development trend of electronic device interaction is also discussed.
Key words:intelligent voice assistant;electronic device interaction;computer intelligence science and technology