智能家居語音控制系統(tǒng)發(fā)展展望

2019-05-23 02:42買永鋒王艷敏

智能建筑電氣技術(shù) 2019年1期

英釗，買永鋒，王艷敏

(哈爾濱工業(yè)大學(xué)，哈爾濱150001)

0 引言

自21世紀(jì)以來，隨著物聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)技術(shù)、信息技術(shù)等的高速發(fā)展，智能化設(shè)備也逐漸飛入尋常百姓家。更加智能化的、人性化的設(shè)備給予了每個人更加舒適、便捷的生活體驗。智能設(shè)備成本的降低，使智能化設(shè)備逐漸走入人們?nèi)粘Ｉa(chǎn)生活的方方面面。

傳統(tǒng)的智能化控制方式往往是基于PC端的操作界面進行的合理控制，且需要較復(fù)雜的布線與連接。這不僅對智能化設(shè)備的安裝和使用有較高要求，且不利于智能化家居設(shè)備的廣泛應(yīng)用。相較于傳統(tǒng)的控制方式，由語音控制的智能系統(tǒng)也對家居設(shè)備的生產(chǎn)及使用產(chǎn)生了巨大變革。一方面對比于長時間的了解控制面板，語音控制不僅更加方便快捷，能夠適應(yīng)更多人群得到更加廣泛的應(yīng)用；另一方面，語音作為一種最自然的人機接口，有比觸控或手勢更加便捷的免持操作特性。因此，語音控制讓物聯(lián)網(wǎng)逐漸成為智能家居不可或缺的一部分，基于物聯(lián)網(wǎng)的智能家居漸漸成為家居市場的主流。

以Apple智能手機為代表的siri率先提出了語音控制的概念，而隨后智能語音控制技術(shù)蓬勃快速發(fā)展，Amazon Echo智能音箱設(shè)備成為除手機之外，讓語音助理作用于控制智能家居設(shè)備的第一批裝置。而以Google、Microsoft等為代表的互聯(lián)網(wǎng)巨頭也相繼跟進，探索語音控制技術(shù)在智能化家居設(shè)備的應(yīng)用。2018年家電展中可見，一般的智能家居產(chǎn)品(例如電燈、電視、音樂播放器等設(shè)備)基本都能通過語音控制實現(xiàn)其功能。通過聯(lián)網(wǎng)工作，其自身甚至還可以通過Alexa、Google或Siri被控制。當(dāng)然，語音控制技術(shù)發(fā)展過程中，難以避免會遇到瓶頸。當(dāng)前的技術(shù)進展多處于應(yīng)用階層，很多產(chǎn)品達不到高智能水平，且在強噪聲干擾和遠場識別方面存在不小的挑戰(zhàn)。

1 智能家居語音控制系統(tǒng)

智能語音控制系統(tǒng)主要包含四個部分，即用戶終端、消息處理服務(wù)端、中控主機、智能家居設(shè)備。用戶終端首先收入用戶語音信息，再由互聯(lián)網(wǎng)渠道將收集到的語音信息傳遞至消息處理服務(wù)端，服務(wù)端對于收集到的語音信息進行識別，通過語義分析得到相應(yīng)的控制指令傳回至中控主機，中控主機將識別的命令發(fā)送至目標(biāo)設(shè)備，從而實現(xiàn)智能家居設(shè)備的控制。智能家居語音控制系統(tǒng)基本組成見圖1。

圖1 智能家居語音控制系統(tǒng)基本組成

1.1 用戶終端

其功能主要為接收用戶語音消息，并將語音消息進行初步處理通過網(wǎng)絡(luò)轉(zhuǎn)發(fā)給消息處理服務(wù)端。用戶終端可以是智能手機、筆記本電腦、智能可穿戴設(shè)備(如智能手表、智能手環(huán))等各類用戶終端。用戶終端對網(wǎng)絡(luò)環(huán)境的限制較少，只要能夠連接到互聯(lián)網(wǎng)即可。

1.2 消息處理服務(wù)端

其功能主要為接收用戶終端的語音消息，并且對語音消息進行解析處理，通過智能算法將其轉(zhuǎn)化為智能家居設(shè)備控制的具體指令，再通過網(wǎng)絡(luò)將智能家居設(shè)備控制指令發(fā)送給中控主機，例如Linux系統(tǒng)云服務(wù)器等。消息處理服務(wù)端主要組成為均衡模塊、安全模塊、語音識別模塊、語義分析模塊、家居服務(wù)模塊5個模塊。

(1)負載均衡模塊:將接收到的語音消息分配給相應(yīng)的服務(wù)器。

(2)安全模塊:對接收到的消息進行身份驗證與解密，確保信息的安全性。

(3)語音識別模塊:將語音消息進行語音識別后轉(zhuǎn)換為文字消息。

(4)語義分析模塊:對語音識別模塊得到的文字消息進行語義分析，從而生成智能家居控制指令。

(5)家居服務(wù)模塊:主要用來接收來自中控主機系統(tǒng)的注冊，并將智能家居控制指令轉(zhuǎn)發(fā)給中控主機。

其中，語音識別模塊是整個控制系統(tǒng)的核心部分，語音識別的一般步驟為:語音輸入——獲取設(shè)備所得到的音頻信息；音頻信號特征提取——在得到音頻信號之后，對音頻信號進行基本的預(yù)處理，然后對預(yù)處理之后的音頻信號進行特征提取，例如MFCC是最常用的聲學(xué)特征；聲學(xué)模型處理——把語音的聲學(xué)特征分類對應(yīng)到音素或字詞的小單元；語言模型處理——利用語言模型將字詞解碼成一個完整的句子，從而得到了最終的語音識別結(jié)果。

1.3 中控主機

其功能為向消息處理服務(wù)端發(fā)送中控主機信息，并保持與消息處理服務(wù)端的網(wǎng)絡(luò)連接，接收消息處理服務(wù)端發(fā)送的智能家居設(shè)備控制指令。且依據(jù)目標(biāo)智能家居設(shè)備支持的控制協(xié)議，將識別的語音指令轉(zhuǎn)化為目標(biāo)智能家居設(shè)備具體的控制指令，并通過網(wǎng)絡(luò)發(fā)送目標(biāo)智能家居設(shè)備控制指令給目標(biāo)智能家居設(shè)備。中控主機一般處在家庭局域網(wǎng)內(nèi)，可以通過路由器等設(shè)備接入互聯(lián)網(wǎng)。

1.4 智能家居設(shè)備

其自身按照接收的目標(biāo)智能家居設(shè)備控制指令，執(zhí)行相對應(yīng)的指令操作。如空調(diào)、洗衣機、冰箱、熱水器、電飯煲、燈、窗簾以及門；甚至也可以是各種傳感器用來獲取相應(yīng)的狀態(tài)信息，比如利用溫度傳感器獲取室內(nèi)溫度。智能家居設(shè)備要求能夠與中控主機進行通信，對通信協(xié)議的選取沒有嚴(yán)格限制，它可以是 RF射頻技術(shù)、ZigBee，Z-Wave等。但是控制目標(biāo)智能家居設(shè)備的控制指令需要與中控主機相互兼容。

2 智能家居控制系統(tǒng)關(guān)鍵技術(shù)

2.1 通信方式

通信方式是指智能家居與用戶終端之間進行消息命令傳輸?shù)姆绞?，不同的方式適用于不同的工作場景。通信方式主要分為以下4種。

(1)直接聯(lián)機

智能家居與用戶終端的相關(guān)模塊直接進行匹配連接。優(yōu)點在于無外部依賴，不需其他設(shè)備及安裝成本；缺點是受限于物理媒介，無法進行遠距離直聯(lián)，通常情況下只可一對一聯(lián)接，難以實現(xiàn)多臺設(shè)備互通。

(2)局域網(wǎng)內(nèi)部連接

智能家居與用戶終端雙雙接入局域網(wǎng)，在其內(nèi)部進行交流通信。缺點是同樣受限于物理媒介，但相比直接連機方式能夠?qū)崿F(xiàn)多臺智能家居互通控制。

(3)互聯(lián)網(wǎng)連接

互聯(lián)網(wǎng)連接的優(yōu)點是突破了上述通信方式對空間的束縛；缺點在于難以為所有連入互聯(lián)網(wǎng)的家居設(shè)備分配能夠訪問的網(wǎng)址。

(4)互聯(lián)網(wǎng)注冊轉(zhuǎn)發(fā)

該方式要求建立一個帶有可訪問固定網(wǎng)址的注冊轉(zhuǎn)發(fā)服務(wù)器，智能家居與用戶終端分別通過互聯(lián)網(wǎng)與該服務(wù)器進行通信，服務(wù)器再將信息傳遞給另一邊。優(yōu)點顯然是解決了無法相互尋址的難題，并不再受限于物理媒介。缺點在于網(wǎng)絡(luò)抖動影響傳輸效率。

2.2 通信協(xié)議

智能家居通信協(xié)議并沒有統(tǒng)一標(biāo)準(zhǔn)。總體看來可分為兩大類:一是有線通信，二是無線通信。國外的智能家居企業(yè)巨頭大都選擇有線通信技術(shù)，而中國作為后起之秀更偏向于無線通信技術(shù)。有線通信可靠性好、傳輸速率高，功能穩(wěn)定是它最大的優(yōu)點；無線通信靈活度高、擴展性強，符合當(dāng)代的綠色環(huán)保理念。同一行業(yè)，同一需求，選擇的差異無非是側(cè)重點不同。

(1)有線通信協(xié)議

1)C-BUS作為基于7層OSI模型的有線通信協(xié)議，通過總線與控制單位進行連接，使用靈活。廣泛用于照明、安防、監(jiān)測等智能化控制系統(tǒng)。

2)KNX是被正式批準(zhǔn)的住宅和樓宇控制領(lǐng)域的開放式國際標(biāo)準(zhǔn)，由EIB協(xié)議為基礎(chǔ)進一步發(fā)展而來?？赏ㄟ^電力線、雙絞線等材質(zhì)通信，廣泛用于家具控制以及商用樓宇，支持安防、空調(diào)等系統(tǒng)。

3)X10是在國際上一種通用的智能家居電力載波協(xié)議，也是世界上第一個用電力線作為控制信號的通信協(xié)議。其優(yōu)點在于價格低廉、設(shè)置方式簡易，但由于共用一條線路導(dǎo)致穩(wěn)定性問題。

4)CRES-Net是快思聰?shù)耐ㄐ艆f(xié)議。得益于該廠商的技術(shù)積累，其產(chǎn)品應(yīng)用廣泛，允許設(shè)備進行雙向通信且配線結(jié)構(gòu)多樣。

(2)無線控制協(xié)議

1)Bluetooth(藍牙)是在10～100m空間內(nèi)搭建網(wǎng)絡(luò)連接使電子設(shè)備進行短距離數(shù)據(jù)傳輸?shù)臒o線通信技術(shù)。優(yōu)點是功耗低、傳輸速度快、安全性高等；但數(shù)據(jù)傳輸大小受限、可以一次連接的藍牙設(shè)備少且連接有單一性。適用于功耗敏感的設(shè)備。

2)RF射頻技術(shù)用于點對點通信，穿墻效果強，可靠性差，其電磁波的通信頻率在3kHz～30GHz，可用于一些簡單的控制設(shè)備上。

3)Z-Wave是一種新興的基于射頻的、低功耗、低成本、高可靠、適于短距離的無線傳輸協(xié)議?？蓮V泛用于安檢系統(tǒng)、照明系統(tǒng)、家庭影院等領(lǐng)域。

4)WiFi是一個創(chuàng)建于IEEE 802.11標(biāo)準(zhǔn)的無線局域網(wǎng)協(xié)議。其優(yōu)勢為傳輸速度快、傳輸范圍廣、普及應(yīng)用度高。幾乎所有手機、筆記本電腦、平板電腦等電子設(shè)備均將WiFi列入主流標(biāo)準(zhǔn)配置。

5)ZigBee是基于IEEE802.15.4標(biāo)準(zhǔn)的高可靠度、低功耗的無線傳輸協(xié)議。主要特點是功耗低，兩節(jié)五號電池的可供其使用六個月至兩年。另外ZigBee還有低成本、安全性高、工作頻段靈活等優(yōu)點。

2.3 相關(guān)技術(shù)

(1)語音識別控制技術(shù)

語音識別技術(shù)(ASR)通過對輸入語音信號的音頻信號特征值提取，再進行聲學(xué)模型及語言模型等處理，使得機器設(shè)備識別出語音的內(nèi)容、語種等信息。當(dāng)前語音控制功能的實現(xiàn)分兩種:一種是近場語音識別，另一種是遠場語音識別。

(2)播放狀態(tài)打斷技術(shù)

當(dāng)對處在工作中的智能音箱等設(shè)備實現(xiàn)語音控制時，麥克風(fēng)與揚聲器間的距離要遠小于麥克風(fēng)與用戶間的距離，此時應(yīng)采取內(nèi)外兼顧的措施。采用特殊回聲消除算法在設(shè)備內(nèi)部減少噪聲帶來的影響；采用麥克風(fēng)陣列結(jié)構(gòu)在設(shè)備外部以降低設(shè)備本體的震動對聲音失去的干擾。

(3)近場和遠場語音拾取技術(shù)

近場語音拾取可借助手機等終端設(shè)備直接進行語音控制；遠場語音拾取將麥克風(fēng)陣列拾取的語音數(shù)據(jù)信號通過識別算法轉(zhuǎn)化成可識別的文字，相比原理相同的近場語音拾取技術(shù)，語音信號會在傳播過程中發(fā)生衰減或受到干擾。因此對于不同場景的遠場語音拾取技術(shù)，需要配置優(yōu)化語音識別引擎。

(4)喚醒目標(biāo)檢測技術(shù)

為了實現(xiàn)遠距離語音控制，采用麥克風(fēng)陣列波速成算法確定是否有指令發(fā)出。原理是將空間劃分為若干區(qū)域，當(dāng)檢測到某一區(qū)域有喚醒詞出現(xiàn)，就增強該區(qū)域的麥克風(fēng)拾音能力，另外抑制其他區(qū)域麥克風(fēng)的拾音能力，以針對特定角度、方向的聲音進行拾取，從而進一步實現(xiàn)語音控制。

3 智能家居語音控制的發(fā)展應(yīng)用

目前智能家居備受關(guān)注，其產(chǎn)品呈現(xiàn)“噴井式”發(fā)展。根據(jù)《中國智能家居設(shè)備行業(yè)市場前瞻與投資報告》數(shù)據(jù)闡述，起步較晚的智能家居行業(yè)的市場規(guī)模在2020年預(yù)計達到3 576億元新高，到2025年全世界將有10%的智能家居用戶。智能家居的核心是人性化，語音交互作為人類溝通最自然的方式，更能滿足人們對家居人性化的需求。據(jù)預(yù)測，2019年超過30%的智能家居會通過機器對話的方式進行控制。

智能家居與智能語音的結(jié)合是未來市場的大趨勢。市場行業(yè)普遍確信，作為最便捷、自然的人類交互方式，語音交互正在不斷向智能家居領(lǐng)域滲透，必將在未來智能家居市場中占據(jù)重要地位。

北美市場被認為在2016年已達到成熟化，因為那時Alexa已經(jīng)賣了1 000萬臺，北美家庭已經(jīng)養(yǎng)成了使用習(xí)慣。反觀國內(nèi)的智能家居語音控制市場剛剛起步，主要原因是前些年我國發(fā)展語音控制市場的萌芽較晚，但目前各個企業(yè)廠家都開始嘗試向這個方向去探索。語音交互場景的實現(xiàn)需要滿足三個條件:即硬件成本要低(如WIFI模塊或聲音處理芯片)、內(nèi)容資源和服務(wù)豐富、語音識別和語義理解成熟。我國市場面臨的問題是硬件成本不夠低，需要加強對未來芯片和板卡的改進；對于語音語義的容錯率還不夠完備，語義理解要比語音識別更有挑戰(zhàn)性，相信把人工智能(AI技術(shù))帶入到語音控制技術(shù)中可以有效解決；還有一點，國內(nèi)的內(nèi)容生態(tài)鏈不夠完善，近幾年企業(yè)的資源版權(quán)意識都在加強，但資源過于集中在幾家巨頭手中，如何讓他們加強對智能家居產(chǎn)業(yè)的支持力度，降低內(nèi)容成本，是一個巨大的挑戰(zhàn)。

近年來，各大廠商開始致力于發(fā)展智能家居，大批優(yōu)秀智能家居品牌崛起，推動市場進入爆發(fā)期，促進人工智能、物聯(lián)網(wǎng)等技術(shù)的迭代更替，從而使得智能家居的控制形式升級。智能家居語音控制系統(tǒng)因為各項研究技術(shù)的發(fā)展變得越發(fā)成熟有效，例如語音識別技術(shù)(ASR)引擎可以理解多種語言口音，語音生物辨識技術(shù)可用于辨識登陸的用戶以提供智能家居環(huán)境的不同權(quán)限，極大改變了我們未來的家居生活品質(zhì)。目前市場關(guān)于語音控制的智能家居設(shè)備種類繁多，如可語音換臺上網(wǎng)的智能電視、語音調(diào)節(jié)溫濕度的智能空調(diào)，以及智能微波爐、掃地機器人等。

回顧展望智能家居控制方式。初期，業(yè)界普遍認為由手動控制向終端控制是家居智能化的基礎(chǔ)條件，智能手機則被看作最合適的智能終端，但對于某些設(shè)備反而會使用戶受手機智能控制所累，用戶開始渴求更簡捷、更智能的控制手段；當(dāng)前正在逐漸成熟的語音交互控制方式，滿足了用戶解放雙手的需求，隨著智能音箱Echo的問世，各個科技巨頭開始投身智能家居市場布局，從終端到語音控制是人類向人工智能邁進的重要一步；感應(yīng)式控制是理想化智能家居的下一階段，產(chǎn)品可以通過感應(yīng)用戶狀態(tài)從而對自己進行調(diào)整，免去人工操作，從語音到感應(yīng)式控制是未來智能的進化之路；自動化控制將代表極高的智能化程度，產(chǎn)品可以對用戶身體活動以及環(huán)境等記錄，自主學(xué)習(xí)用戶使用習(xí)慣，自我調(diào)整和進化，這種變被動為主動的控制方式將是智能家居進化的里程碑。

從終端控制到自動化控制、從被動控制到主動控制，智能家居行業(yè)正在飛速發(fā)展。在技術(shù)尚未突破的現(xiàn)在，以語音控制為主的智能家居可謂是當(dāng)前市場所能提供的最自然的人類交流家居設(shè)備，但其模式還不夠成熟，語音識別、設(shè)備兼容等方面有待提高，另外智能家居市場的標(biāo)準(zhǔn)應(yīng)更加完備。相信智能家居語音控制未來可期。

4 結(jié)束語

隨著智能化設(shè)備成本的降低和更大范圍的普及，智能家居系統(tǒng)發(fā)展具有良好的發(fā)展前景與較為廣闊的市場。而智能語音控制得益于自身難以取代的自然性、快捷性，已經(jīng)獲得了世界范圍內(nèi)的重視和快速發(fā)展。盡管智能語音控制技術(shù)發(fā)展要得到普遍的應(yīng)用還有諸多瓶頸，但隨著計算機等相關(guān)技術(shù)的快速發(fā)展，這些問題必將得到解決。而以我國為代表的智能家居市場還有待深層次的挖掘，智能家居的語音控制系統(tǒng)必將迎來較大發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡