電池升級(jí),場(chǎng)景拓展
這次系統(tǒng)率先升級(jí)的主要是三款產(chǎn)品:天貓精靈CC10電池版、天貓精靈CC MINI和IN糖2智能像素屏音箱,我們首先入手的還是把玩過(guò)很多次的天貓精靈CC10電池版。比起之前的天貓精靈CC10,天貓精靈CC10電池版家庭智慧屏最大的提升便是植入了一塊5000mAh超大電芯,可貴的是,整個(gè)體積沒(méi)有絲毫變化,后仰式L形造型靈動(dòng)穩(wěn)重,也非常節(jié)省占地空間。電池的植入,讓這款智能家居的交互入口不再懼怕停電的困擾,在全屋移動(dòng)使用的特性也大大擴(kuò)展了它的應(yīng)用場(chǎng)景。作為家庭助手,它能夠在從書(shū)房到臥室的過(guò)程中依舊實(shí)現(xiàn)全程控制,也可以在廚房或餐桌上成為主婦的最?lèi)?ài),不論何處都能滿(mǎn)足全家人的交互所需,而且還具備一定的戶(hù)外屬性。比如在郊外遠(yuǎn)足或駕車(chē)旅行時(shí),借助手機(jī)熱點(diǎn),天貓精靈依舊可以全天候地收看豐富的內(nèi)容資源。而且其大電池的設(shè)計(jì)完全可以輕松滿(mǎn)足數(shù)小時(shí)的影片觀(guān)看。
解讀多模態(tài)交互
在之前的CC10版本上,我們便能通過(guò)語(yǔ)音、觸控等方式實(shí)現(xiàn)交互,如今搭載全新系統(tǒng)的CC10支持“唇動(dòng)喚醒”、“揮手喚醒”等喚醒方式,而用戶(hù)則不需再喊出“天貓精靈”的喚醒詞便能與其進(jìn)行直接交互,加上全領(lǐng)域應(yīng)用的全雙工自然對(duì)話(huà)技術(shù),讓人和機(jī)器的交流過(guò)程全面“擬人化”。
縱觀(guān)近兩年的智能音箱產(chǎn)品,交互方式依舊有限,基本停留在語(yǔ)音、觸控之上,而且業(yè)界的研究步伐基本上停留在解決視覺(jué)、語(yǔ)音等單一模態(tài)的交互精準(zhǔn)度問(wèn)題上。形成這樣的局面其實(shí)很好理解,在一個(gè)上升市場(chǎng)上,采用成熟方案便能掙到錢(qián),似乎開(kāi)發(fā)提升用戶(hù)體驗(yàn)的新功能便不那么必要。但是,在用戶(hù)體驗(yàn)上能夠大膽突破的無(wú)一不是行業(yè)中的佼佼者——比如拿出iPhone的喬布斯。用過(guò)這么多的智能音箱之后,我經(jīng)常會(huì)感受到智能音箱不夠聰明。答案其實(shí)很簡(jiǎn)單:在當(dāng)前的人工智能水準(zhǔn)下,單方面提升單一模態(tài)的識(shí)別準(zhǔn)確度并不那么有效,特別是機(jī)器學(xué)習(xí)需要過(guò)程,用戶(hù)使用習(xí)慣千差萬(wàn)別的情況下。以語(yǔ)音交互為例,并不是機(jī)器的計(jì)算力不夠,而是機(jī)器不知道何時(shí)該“聽(tīng)”,何時(shí)該“看”,導(dǎo)致無(wú)法接收到有效的信息,才會(huì)給出“笨拙”的決策和反饋。以往我們總是通過(guò)喚醒詞來(lái)提示機(jī)器,這樣的交互不僅機(jī)械化,而且經(jīng)常出現(xiàn)我上述提及的尷尬狀況。
在天貓精靈之上開(kāi)啟多模態(tài)“自然喚醒”的功能后,只需要盯著機(jī)器張嘴說(shuō)話(huà),天貓精靈會(huì)自動(dòng)識(shí)別出用戶(hù)的唇動(dòng)、眼神朝向、表情動(dòng)作等視覺(jué)信息,對(duì)照用戶(hù)語(yǔ)音便能做出準(zhǔn)確的反饋,而不需要喚醒詞的幫助。雖然真實(shí)生活場(chǎng)景中,還會(huì)受到人臉距離、光線(xiàn)等因素的影響,但是它開(kāi)創(chuàng)了人機(jī)交互“自然喚醒”的一個(gè)新的里程碑。升級(jí)到5.0的AliGenie系統(tǒng),正是智慧家庭領(lǐng)域的破冰者。這是智能音箱(智慧屏)上首次將唇動(dòng)、手勢(shì)、語(yǔ)音語(yǔ)義等多種形態(tài)的交互信息融合在一起,通過(guò)機(jī)器的深度學(xué)習(xí)和多模態(tài)感知的方式來(lái)理解用戶(hù)的交互意圖,并及時(shí)給出反饋的創(chuàng)舉。而這樣的創(chuàng)新誕生于阿里旗下其實(shí)并不奇怪,“巨大投入+突破性思維”正是阿里巴巴一直以來(lái)在各個(gè)領(lǐng)域占據(jù)高點(diǎn)的基礎(chǔ)。應(yīng)用在天貓精靈CC10電池版上的AliGenie5.0系統(tǒng),正是業(yè)內(nèi)第一次把“多模態(tài)喚醒”從概念落地到了使用場(chǎng)景,也是業(yè)內(nèi)首次應(yīng)用在消費(fèi)電子產(chǎn)品上。
唇動(dòng)喚醒是什么黑科技
在理解了多模態(tài)喚醒概念后,我們?cè)賮?lái)看看天貓精靈CC10電池版所擅長(zhǎng)的唇動(dòng)喚醒功能。其實(shí)這個(gè)功能已經(jīng)充分考慮到用戶(hù)的使用場(chǎng)景,將識(shí)別范圍分成了“近場(chǎng)、中場(chǎng)、遠(yuǎn)場(chǎng)”。在1米左右的距離下,適用于唇動(dòng)識(shí)別;在1~1.5米的距離下,適于揮手喚醒,其實(shí)也就是模擬人們見(jiàn)面打招呼的形式,揮手即可說(shuō)話(huà);而在遠(yuǎn)距離下,還是采用傳統(tǒng)的語(yǔ)音喚醒詞“天貓精靈”。
還有一點(diǎn)非常有意思的是,用戶(hù)還要可以通過(guò)手勢(shì)隔空操控CC10,比如上一個(gè)、下一個(gè)、暫停、播放、點(diǎn)贊、退出、靜音等操作,比如對(duì)著機(jī)器比劃“噓”的手勢(shì),就可以馬上讓天貓精靈靜音,是不是非常人性化!
天貓精靈的團(tuán)隊(duì)反饋中提及,融合嘴唇、語(yǔ)音的動(dòng)態(tài)信息識(shí)別,在免喚醒的對(duì)話(huà)情景下,能夠幫助機(jī)器過(guò)濾掉90%以上的環(huán)境背景干擾信息,多模態(tài)唇動(dòng)喚醒的整體準(zhǔn)確率可在實(shí)驗(yàn)場(chǎng)景下達(dá)到99%。在實(shí)際使用中,只要在光線(xiàn)充分的情況、周?chē)肼暡惶蟮那闆r下(測(cè)試環(huán)境50~60dB的噪聲),CC10幾乎毫無(wú)誤差的識(shí)別我的每一個(gè)語(yǔ)音命令,而以前使用過(guò)的智能音箱或多或少會(huì)有識(shí)別不準(zhǔn)的情況。
令人意外的用戶(hù)反饋
在收到植入了AliGenie5.0的CC10之后,我將其推薦給數(shù)位發(fā)燒用戶(hù)。除了一位全職媽媽對(duì)其贊不絕口之外,她做設(shè)計(jì)師的先生也對(duì)天貓精靈給予了好評(píng)。他的意見(jiàn)是這種有親和力、高度擬人化的交互產(chǎn)品非常適合手上經(jīng)常不得空閑的他使用;而另一位理科直男更是詢(xún)問(wèn)我能否為公司的會(huì)議系統(tǒng)開(kāi)發(fā)這樣高效的交互產(chǎn)品,目前使用的會(huì)議系統(tǒng)價(jià)格不菲,而且交互識(shí)別率遠(yuǎn)遠(yuǎn)不如天貓精靈。
其實(shí)我的感受也與這幾位朋友相同,天貓精靈的多模態(tài)交互其實(shí)遠(yuǎn)遠(yuǎn)不止于應(yīng)用在家庭之中,在商用領(lǐng)域上也有著巨大的應(yīng)用前景。