英 釗, 買永鋒, 王艷敏
(哈爾濱工業(yè)大學(xué),哈爾濱150001)
自21世紀(jì)以來,隨著物聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)技術(shù)、信息技術(shù)等的高速發(fā)展,智能化設(shè)備也逐漸飛入尋常百姓家。更加智能化的、人性化的設(shè)備給予了每個人更加舒適、便捷的生活體驗。智能設(shè)備成本的降低,使智能化設(shè)備逐漸走入人們?nèi)粘Ia(chǎn)生活的方方面面。
傳統(tǒng)的智能化控制方式往往是基于PC端的操作界面進行的合理控制,且需要較復(fù)雜的布線與連接。這不僅對智能化設(shè)備的安裝和使用有較高要求,且不利于智能化家居設(shè)備的廣泛應(yīng)用。相較于傳統(tǒng)的控制方式,由語音控制的智能系統(tǒng)也對家居設(shè)備的生產(chǎn)及使用產(chǎn)生了巨大變革。一方面對比于長時間的了解控制面板,語音控制不僅更加方便快捷,能夠適應(yīng)更多人群得到更加廣泛的應(yīng)用;另一方面,語音作為一種最自然的人機接口,有比觸控或手勢更加便捷的免持操作特性。因此,語音控制讓物聯(lián)網(wǎng)逐漸成為智能家居不可或缺的一部分,基于物聯(lián)網(wǎng)的智能家居漸漸成為家居市場的主流。
以Apple智能手機為代表的siri率先提出了語音控制的概念,而隨后智能語音控制技術(shù)蓬勃快速發(fā)展,Amazon Echo智能音箱設(shè)備成為除手機之外,讓語音助理作用于控制智能家居設(shè)備的第一批裝置。而以Google、Microsoft等為代表的互聯(lián)網(wǎng)巨頭也相繼跟進,探索語音控制技術(shù)在智能化家居設(shè)備的應(yīng)用。2018年家電展中可見,一般的智能家居產(chǎn)品(例如電燈、電視、音樂播放器等設(shè)備)基本都能通過語音控制實現(xiàn)其功能。通過聯(lián)網(wǎng)工作,其自身甚至還可以通過Alexa、Google或Siri被控制。當(dāng)然,語音控制技術(shù)發(fā)展過程中,難以避免會遇到瓶頸。當(dāng)前的技術(shù)進展多處于應(yīng)用階層,很多產(chǎn)品達不到高智能水平,且在強噪聲干擾和遠場識別方面存在不小的挑戰(zhàn)。
智能語音控制系統(tǒng)主要包含四個部分,即用戶終端、消息處理服務(wù)端、中控主機、智能家居設(shè)備。用戶終端首先收入用戶語音信息,再由互聯(lián)網(wǎng)渠道將收集到的語音信息傳遞至消息處理服務(wù)端,服務(wù)端對于收集到的語音信息進行識別,通過語義分析得到相應(yīng)的控制指令傳回至中控主機,中控主機將識別的命令發(fā)送至目標(biāo)設(shè)備,從而實現(xiàn)智能家居設(shè)備的控制。智能家居語音控制系統(tǒng)基本組成見圖1。
圖1 智能家居語音控制系統(tǒng)基本組成
其功能主要為接收用戶語音消息,并將語音消息進行初步處理通過網(wǎng)絡(luò)轉(zhuǎn)發(fā)給消息處理服務(wù)端。用戶終端可以是智能手機、筆記本電腦、智能可穿戴設(shè)備(如智能手表、智能手環(huán))等各類用戶終端。用戶終端對網(wǎng)絡(luò)環(huán)境的限制較少,只要能夠連接到互聯(lián)網(wǎng)即可。
其功能主要為接收用戶終端的語音消息,并且對語音消息進行解析處理,通過智能算法將其轉(zhuǎn)化為智能家居設(shè)備控制的具體指令,再通過網(wǎng)絡(luò)將智能家居設(shè)備控制指令發(fā)送給中控主機,例如Linux系統(tǒng)云服務(wù)器等。消息處理服務(wù)端主要組成為均衡模塊、安全模塊、語音識別模塊、語義分析模塊、家居服務(wù)模塊5個模塊。
(1)負載均衡模塊:將接收到的語音消息分配給相應(yīng)的服務(wù)器。
(2)安全模塊:對接收到的消息進行身份驗證與解密,確保信息的安全性。
(3)語音識別模塊:將語音消息進行語音識別后轉(zhuǎn)換為文字消息。
(4)語義分析模塊:對語音識別模塊得到的文字消息進行語義分析,從而生成智能家居控制指令。
(5)家居服務(wù)模塊:主要用來接收來自中控主機系統(tǒng)的注冊,并將智能家居控制指令轉(zhuǎn)發(fā)給中控主機。
其中,語音識別模塊是整個控制系統(tǒng)的核心部分,語音識別的一般步驟為:語音輸入——獲取設(shè)備所得到的音頻信息;音頻信號特征提取——在得到音頻信號之后,對音頻信號進行基本的預(yù)處理,然后對預(yù)處理之后的音頻信號進行特征提取,例如MFCC是最常用的聲學(xué)特征;聲學(xué)模型處理——把語音的聲學(xué)特征分類對應(yīng)到音素或字詞的小單元;語言模型處理——利用語言模型將字詞解碼成一個完整的句子,從而得到了最終的語音識別結(jié)果。
其功能為向消息處理服務(wù)端發(fā)送中控主機信息,并保持與消息處理服務(wù)端的網(wǎng)絡(luò)連接,接收消息處理服務(wù)端發(fā)送的智能家居設(shè)備控制指令。且依據(jù)目標(biāo)智能家居設(shè)備支持的控制協(xié)議,將識別的語音指令轉(zhuǎn)化為目標(biāo)智能家居設(shè)備具體的控制指令,并通過網(wǎng)絡(luò)發(fā)送目標(biāo)智能家居設(shè)備控制指令給目標(biāo)智能家居設(shè)備。中控主機一般處在家庭局域網(wǎng)內(nèi),可以通過路由器等設(shè)備接入互聯(lián)網(wǎng)。
其自身按照接收的目標(biāo)智能家居設(shè)備控制指令,執(zhí)行相對應(yīng)的指令操作。如空調(diào)、洗衣機、冰箱、熱水器、電飯煲、燈、窗簾以及門;甚至也可以是各種傳感器用來獲取相應(yīng)的狀態(tài)信息,比如利用溫度傳感器獲取室內(nèi)溫度。智能家居設(shè)備要求能夠與中控主機進行通信,對通信協(xié)議的選取沒有嚴(yán)格限制,它可以是 RF射頻技術(shù)、ZigBee,Z-Wave等。但是控制目標(biāo)智能家居設(shè)備的控制指令需要與中控主機相互兼容。
通信方式是指智能家居與用戶終端之間進行消息命令傳輸?shù)姆绞?,不同的方式適用于不同的工作場景。通信方式主要分為以下4種。
(1)直接聯(lián)機
智能家居與用戶終端的相關(guān)模塊直接進行匹配連接。優(yōu)點在于無外部依賴,不需其他設(shè)備及安裝成本;缺點是受限于物理媒介,無法進行遠距離直聯(lián),通常情況下只可一對一聯(lián)接,難以實現(xiàn)多臺設(shè)備互通。
(2)局域網(wǎng)內(nèi)部連接
智能家居與用戶終端雙雙接入局域網(wǎng),在其內(nèi)部進行交流通信。缺點是同樣受限于物理媒介,但相比直接連機方式能夠?qū)崿F(xiàn)多臺智能家居互通控制。
(3)互聯(lián)網(wǎng)連接
互聯(lián)網(wǎng)連接的優(yōu)點是突破了上述通信方式對空間的束縛;缺點在于難以為所有連入互聯(lián)網(wǎng)的家居設(shè)備分配能夠訪問的網(wǎng)址。
(4)互聯(lián)網(wǎng)注冊轉(zhuǎn)發(fā)
該方式要求建立一個帶有可訪問固定網(wǎng)址的注冊轉(zhuǎn)發(fā)服務(wù)器,智能家居與用戶終端分別通過互聯(lián)網(wǎng)與該服務(wù)器進行通信,服務(wù)器再將信息傳遞給另一邊。優(yōu)點顯然是解決了無法相互尋址的難題,并不再受限于物理媒介。缺點在于網(wǎng)絡(luò)抖動影響傳輸效率。
智能家居通信協(xié)議并沒有統(tǒng)一標(biāo)準(zhǔn)。總體看來可分為兩大類:一是有線通信,二是無線通信。國外的智能家居企業(yè)巨頭大都選擇有線通信技術(shù),而中國作為后起之秀更偏向于無線通信技術(shù)。有線通信可靠性好、傳輸速率高,功能穩(wěn)定是它最大的優(yōu)點;無線通信靈活度高、擴展性強,符合當(dāng)代的綠色環(huán)保理念。同一行業(yè),同一需求,選擇的差異無非是側(cè)重點不同。
(1)有線通信協(xié)議
1)C-BUS作為基于7層OSI模型的有線通信協(xié)議,通過總線與控制單位進行連接,使用靈活。廣泛用于照明、安防、監(jiān)測等智能化控制系統(tǒng)。
2)KNX是被正式批準(zhǔn)的住宅和樓宇控制領(lǐng)域的開放式國際標(biāo)準(zhǔn),由EIB協(xié)議為基礎(chǔ)進一步發(fā)展而來??赏ㄟ^電力線、雙絞線等材質(zhì)通信,廣泛用于家具控制以及商用樓宇,支持安防、空調(diào)等系統(tǒng)。
3)X10是在國際上一種通用的智能家居電力載波協(xié)議,也是世界上第一個用電力線作為控制信號的通信協(xié)議。其優(yōu)點在于價格低廉、設(shè)置方式簡易,但由于共用一條線路導(dǎo)致穩(wěn)定性問題。
4)CRES-Net是快思聰?shù)耐ㄐ艆f(xié)議。得益于該廠商的技術(shù)積累,其產(chǎn)品應(yīng)用廣泛,允許設(shè)備進行雙向通信且配線結(jié)構(gòu)多樣。
(2)無線控制協(xié)議
1)Bluetooth(藍牙)是在10~100m空間內(nèi)搭建網(wǎng)絡(luò)連接使電子設(shè)備進行短距離數(shù)據(jù)傳輸?shù)臒o線通信技術(shù)。優(yōu)點是功耗低、傳輸速度快、安全性高等;但數(shù)據(jù)傳輸大小受限、可以一次連接的藍牙設(shè)備少且連接有單一性。適用于功耗敏感的設(shè)備。
2)RF射頻技術(shù)用于點對點通信,穿墻效果強,可靠性差,其電磁波的通信頻率在3kHz~30GHz,可用于一些簡單的控制設(shè)備上。
3)Z-Wave是一種新興的基于射頻的、低功耗、低成本、高可靠、適于短距離的無線傳輸協(xié)議??蓮V泛用于安檢系統(tǒng)、照明系統(tǒng)、家庭影院等領(lǐng)域。
4)WiFi是一個創(chuàng)建于IEEE 802.11標(biāo)準(zhǔn)的無線局域網(wǎng)協(xié)議。其優(yōu)勢為傳輸速度快、傳輸范圍廣、普及應(yīng)用度高。幾乎所有手機、筆記本電腦、平板電腦等電子設(shè)備均將WiFi列入主流標(biāo)準(zhǔn)配置。
5)ZigBee是基于IEEE802.15.4標(biāo)準(zhǔn)的高可靠度、低功耗的無線傳輸協(xié)議。主要特點是功耗低,兩節(jié)五號電池的可供其使用六個月至兩年。另外ZigBee還有低成本、安全性高、工作頻段靈活等優(yōu)點。
(1)語音識別控制技術(shù)
語音識別技術(shù)(ASR)通過對輸入語音信號的音頻信號特征值提取,再進行聲學(xué)模型及語言模型等處理,使得機器設(shè)備識別出語音的內(nèi)容、語種等信息。當(dāng)前語音控制功能的實現(xiàn)分兩種:一種是近場語音識別,另一種是遠場語音識別。
(2)播放狀態(tài)打斷技術(shù)
當(dāng)對處在工作中的智能音箱等設(shè)備實現(xiàn)語音控制時,麥克風(fēng)與揚聲器間的距離要遠小于麥克風(fēng)與用戶間的距離,此時應(yīng)采取內(nèi)外兼顧的措施。采用特殊回聲消除算法在設(shè)備內(nèi)部減少噪聲帶來的影響;采用麥克風(fēng)陣列結(jié)構(gòu)在設(shè)備外部以降低設(shè)備本體的震動對聲音失去的干擾。
(3)近場和遠場語音拾取技術(shù)
近場語音拾取可借助手機等終端設(shè)備直接進行語音控制;遠場語音拾取將麥克風(fēng)陣列拾取的語音數(shù)據(jù)信號通過識別算法轉(zhuǎn)化成可識別的文字,相比原理相同的近場語音拾取技術(shù),語音信號會在傳播過程中發(fā)生衰減或受到干擾。因此對于不同場景的遠場語音拾取技術(shù),需要配置優(yōu)化語音識別引擎。
(4)喚醒目標(biāo)檢測技術(shù)
為了實現(xiàn)遠距離語音控制,采用麥克風(fēng)陣列波速成算法確定是否有指令發(fā)出。原理是將空間劃分為若干區(qū)域,當(dāng)檢測到某一區(qū)域有喚醒詞出現(xiàn),就增強該區(qū)域的麥克風(fēng)拾音能力,另外抑制其他區(qū)域麥克風(fēng)的拾音能力,以針對特定角度、方向的聲音進行拾取,從而進一步實現(xiàn)語音控制。
目前智能家居備受關(guān)注,其產(chǎn)品呈現(xiàn)“噴井式”發(fā)展。根據(jù)《中國智能家居設(shè)備行業(yè)市場前瞻與投資報告》數(shù)據(jù)闡述,起步較晚的智能家居行業(yè)的市場規(guī)模在2020年預(yù)計達到3 576億元新高,到2025年全世界將有10%的智能家居用戶。智能家居的核心是人性化,語音交互作為人類溝通最自然的方式,更能滿足人們對家居人性化的需求。據(jù)預(yù)測,2019年超過30%的智能家居會通過機器對話的方式進行控制。
智能家居與智能語音的結(jié)合是未來市場的大趨勢。市場行業(yè)普遍確信,作為最便捷、自然的人類交互方式,語音交互正在不斷向智能家居領(lǐng)域滲透,必將在未來智能家居市場中占據(jù)重要地位。
北美市場被認為在2016年已達到成熟化,因為那時Alexa已經(jīng)賣了1 000萬臺,北美家庭已經(jīng)養(yǎng)成了使用習(xí)慣。反觀國內(nèi)的智能家居語音控制市場剛剛起步,主要原因是前些年我國發(fā)展語音控制市場的萌芽較晚,但目前各個企業(yè)廠家都開始嘗試向這個方向去探索。語音交互場景的實現(xiàn)需要滿足三個條件:即硬件成本要低(如WIFI模塊或聲音處理芯片)、內(nèi)容資源和服務(wù)豐富、語音識別和語義理解成熟。我國市場面臨的問題是硬件成本不夠低,需要加強對未來芯片和板卡的改進;對于語音語義的容錯率還不夠完備,語義理解要比語音識別更有挑戰(zhàn)性,相信把人工智能(AI技術(shù))帶入到語音控制技術(shù)中可以有效解決;還有一點,國內(nèi)的內(nèi)容生態(tài)鏈不夠完善,近幾年企業(yè)的資源版權(quán)意識都在加強,但資源過于集中在幾家巨頭手中,如何讓他們加強對智能家居產(chǎn)業(yè)的支持力度,降低內(nèi)容成本,是一個巨大的挑戰(zhàn)。
近年來,各大廠商開始致力于發(fā)展智能家居,大批優(yōu)秀智能家居品牌崛起,推動市場進入爆發(fā)期,促進人工智能、物聯(lián)網(wǎng)等技術(shù)的迭代更替,從而使得智能家居的控制形式升級。智能家居語音控制系統(tǒng)因為各項研究技術(shù)的發(fā)展變得越發(fā)成熟有效,例如語音識別技術(shù)(ASR)引擎可以理解多種語言口音,語音生物辨識技術(shù)可用于辨識登陸的用戶以提供智能家居環(huán)境的不同權(quán)限,極大改變了我們未來的家居生活品質(zhì)。目前市場關(guān)于語音控制的智能家居設(shè)備種類繁多,如可語音換臺上網(wǎng)的智能電視、語音調(diào)節(jié)溫濕度的智能空調(diào),以及智能微波爐、掃地機器人等。
回顧展望智能家居控制方式。初期,業(yè)界普遍認為由手動控制向終端控制是家居智能化的基礎(chǔ)條件,智能手機則被看作最合適的智能終端,但對于某些設(shè)備反而會使用戶受手機智能控制所累,用戶開始渴求更簡捷、更智能的控制手段;當(dāng)前正在逐漸成熟的語音交互控制方式,滿足了用戶解放雙手的需求,隨著智能音箱Echo的問世,各個科技巨頭開始投身智能家居市場布局,從終端到語音控制是人類向人工智能邁進的重要一步;感應(yīng)式控制是理想化智能家居的下一階段,產(chǎn)品可以通過感應(yīng)用戶狀態(tài)從而對自己進行調(diào)整,免去人工操作,從語音到感應(yīng)式控制是未來智能的進化之路;自動化控制將代表極高的智能化程度,產(chǎn)品可以對用戶身體活動以及環(huán)境等記錄,自主學(xué)習(xí)用戶使用習(xí)慣,自我調(diào)整和進化,這種變被動為主動的控制方式將是智能家居進化的里程碑。
從終端控制到自動化控制、從被動控制到主動控制,智能家居行業(yè)正在飛速發(fā)展。在技術(shù)尚未突破的現(xiàn)在,以語音控制為主的智能家居可謂是當(dāng)前市場所能提供的最自然的人類交流家居設(shè)備,但其模式還不夠成熟,語音識別、設(shè)備兼容等方面有待提高,另外智能家居市場的標(biāo)準(zhǔn)應(yīng)更加完備。相信智能家居語音控制未來可期。
隨著智能化設(shè)備成本的降低和更大范圍的普及,智能家居系統(tǒng)發(fā)展具有良好的發(fā)展前景與較為廣闊的市場。而智能語音控制得益于自身難以取代的自然性、快捷性,已經(jīng)獲得了世界范圍內(nèi)的重視和快速發(fā)展。盡管智能語音控制技術(shù)發(fā)展要得到普遍的應(yīng)用還有諸多瓶頸,但隨著計算機等相關(guān)技術(shù)的快速發(fā)展,這些問題必將得到解決。而以我國為代表的智能家居市場還有待深層次的挖掘,智能家居的語音控制系統(tǒng)必將迎來較大發(fā)展。