陳憲濤,王任振,鄒黎明,徐濛
(百度AI用戶體驗部,北京 100193)
人工智能技術的發(fā)展催生了很多自然的交互方式,語音交互作為比較成熟的交互方式目前正在被廣泛的使用。語音交互依托于語音識別、語義理解、語音合成等語音處理技術,實現(xiàn)了人與設備間通過自然語言進行信息的傳遞,極大提升了人機交互的效率和自然度[1]。近幾年,針對智能家居[2-4]、智能車載[5-6]、可穿戴設備、智能機器人[7-8]等場景或相關產(chǎn)品的語音交互體驗,已經(jīng)得到企業(yè)界和學術界的廣泛關注,并開展了很多研究實踐。按照研究的關注點,可以將這些研究大致分為兩類:基礎的交互體驗和進階的交互體驗,前者主要關注語音交互的可用性和效率等體驗,后者側重解決語音交互中較復雜的問題,如情感和對話等體驗。然而,目前語音交互的基礎體驗并不完善[9-10],國際知名用戶體驗咨詢公司NNGroup對智能語音助理的體驗進行研究,發(fā)現(xiàn)語音交互過程中仍存在較多的可用性問題[11]。
按照用戶的交互行為,可以將語音交互分為語音喚醒和語音對話兩個交互環(huán)節(jié)。喚醒是啟動語音交互的第一步操作,用戶需要首先對設備進行喚醒,然后才能開啟語音對話的交互功能[12]。語音喚醒是目前用戶與智能設備交互常見的喚醒方式,主要指用戶通過特定的喚醒詞,將激活信號傳遞給設備以便實現(xiàn)語音識別系統(tǒng)的智能開啟[13],例如喚醒詞“小度小度”可以喚醒內(nèi)置百度DuerOS對話式系統(tǒng)的智能設備。目前,關于語音喚醒的研究多從技術的角度,致力于提升語音喚醒技術的性能和適應性[14-15],很少有研究從體驗的角度,探討語音喚醒的交互體驗對用戶態(tài)度、行為和心理的影響。百度AI用戶體驗部門在國內(nèi)比較早的系統(tǒng)梳理了語音交互的研究地圖[2],并圍繞智能音箱產(chǎn)品的語音喚醒和語音對話的響應時間進行了研究,研究發(fā)現(xiàn)語音喚醒的響應時間與反饋方式存在交互作用,當智能音箱的喚醒反饋方式為光效加“在呢”人聲時,最佳的喚醒響應時間范圍是300 ms-600 ms[3]。本研究是圍繞語音喚醒體驗的持續(xù)性研究,在喚醒響應時間研究的基礎上,重點探索語音喚醒率對用戶態(tài)度的影響。
基于對大量智能語音產(chǎn)品使用行為的研究,我們發(fā)現(xiàn)很多因素會影響語音喚醒的交互體驗。按照語音喚醒輸入輸出方式區(qū)分,如表1所示,語音輸入環(huán)節(jié)影響用戶體驗的因素主要包括喚醒詞、語音喚醒方式,輸出環(huán)節(jié)的體驗影響因素較多,主要包括喚醒響應時間、喚醒反饋方式、喚醒率、誤喚醒率,其中喚醒率是指智能語音產(chǎn)品成功且正確響應用戶喚醒的比例,反映了產(chǎn)品能否準確響應用戶喚醒指令的能力。由于在日常生活中與智能語音產(chǎn)品互動時,喚醒率易受喚醒識別系統(tǒng)性能、與產(chǎn)品交互距離、環(huán)境音量條件、用戶自身屬性特征等多種因素的影響,因此,很多智能語音產(chǎn)品在成功響應用戶喚醒的表現(xiàn)上并不理想。
表1 語音喚醒體驗的影響因素
在喚醒響應時間研究的基礎上[3],本研究聚焦語音喚醒率對體驗的影響,重點探索不同環(huán)境音量、不同交互距離條件下理想的和可接受的喚醒率范圍,嘗試從體驗視角定義智能語音產(chǎn)品的喚醒率,為語音交互喚醒率體驗的優(yōu)化提供參考,同時也探討上述各語音喚醒體驗影響因素的用戶感知重要性。
以智能音箱產(chǎn)品為例,了解不同環(huán)境音量、不同交互距離條件下用戶感知滿意的和可接受的喚醒率范圍,同時探討不同語音喚醒體驗影響因素的感知重要性。
40名被試,年齡在20-39歲之間,男女各半。所有被試的視力或矯正視力正常,聽力正常,實驗后給予適量報酬。
實驗采用9(喚醒率:60%、65%、70%、75%、80%、85%、90%、95%、100%,組內(nèi))×3(交互距離:1 m、3 m、5 m,組內(nèi))×2(環(huán)境音量:40 dB、60 dB,組間)混合實驗設計,實驗分2組,每組20人,每組被試僅在一種環(huán)境音量條件下進行實驗,其中交互距離涵蓋了用戶與智能音箱交互常見的近場、中場、遠場三種情況。環(huán)境音量覆蓋了日常家居環(huán)境下常見聲源的低聲壓級和中聲壓級范圍,低聲壓級40 dB是日常安靜情況下的聲音響度,中聲壓級60 dB是日常生活中聊天和播放電視劇或音樂時人們感受到的聲音響度[16-17]。喚醒率的操作定義是智能設備成功且正確響應用戶語音喚醒的比例,即喚醒率=成功喚醒次數(shù)/總用戶喚醒次數(shù)。實驗中,在每一種環(huán)境音量和交互距離條件下,被試需要完成語音喚醒智能音箱的總次數(shù)為20次,如60%喚醒率意味著20次用戶喚醒中有12次成功喚醒了設備。
實驗的因變量定義為被試對喚醒率的滿意度評價,考慮到7點量表相比5點量表具有更高的鑒別力,并能夠節(jié)省實驗樣本成本[18],采用了7點滿意度量表(1-非常不滿意、2-不滿意、3-有點不滿意、4-一般、5-有點滿意、6滿意、7-非常滿意)。
為了在實驗中模擬各種喚醒率水平,我們?yōu)閷嶒瀸iT開發(fā)了實驗程序,主試可以通過設備后臺手動控制智能音箱是否能夠被成功喚醒。實驗開始前,被試會分別在低聲壓級40 dB和中聲壓級60 dB環(huán)境下,以及三種距離條件下喚醒智能音箱,主要是為了熟悉喚醒詞“小度小度”,并體驗真實環(huán)境下喚醒智能音箱的難易程度。實驗場地為普通的家居環(huán)境,安靜時通過HCJYET(HT-8352)分貝儀測得環(huán)境聲壓級為40 dB左右,中聲壓級環(huán)境的模擬主要是通過Genelec真力8010A有源監(jiān)聽音箱隨機播放音樂,并通過分貝儀將響度盡量控制在60 dB左右的范圍。正式實驗環(huán)節(jié),每組用戶在特定的環(huán)境音量條件下,完成三組實驗任務,即分別在1 m、3 m、5 m距離喚醒智能音箱20次,我們?yōu)楸辉嚋蕚淞擞涗洸牧?,以便輔助被試記錄每組任務中智能音箱的被喚醒情況,被試完成每組實驗任務后,需要對當前環(huán)境音量和距離條件下的喚醒率體驗進行主觀打分。為了平衡順序效應,實驗中先對被試體驗的環(huán)境音量進行隨機處理,然后對三種交互距離和各種喚醒率也進行了完全隨機處理。實驗結束后,要求被試填寫一份簡單的調(diào)研量表,主要是對語音喚醒體驗的6個影響因素進行重要性打分(1到10分,分數(shù)越高表示重要性越高),最后主試對喚醒率的評分原因以及主觀感知影響因素的重要性進行訪談。
以交互距離、喚醒率(組內(nèi)變量),環(huán)境音量(組間變量)為自變量,喚醒滿意度為因變量進行重復測量方差分析,結果發(fā)現(xiàn)交互距離主效應顯著,F(xiàn)(2,35)=15.50,P<0.01,η2= 0.47,喚醒率主效應顯著,F(xiàn)(8,29)=95.26,P<0.01,η2=0.96,環(huán)境音量主效應邊緣顯著,F(xiàn)(1,36)=4.02,P=0.05,η2= 0.10。喚醒率和環(huán)境音量的交互作用顯著,如圖1所示,F(xiàn)(8,29)=2.76,P=0.02,η2=0.43,其他變量間交互作用均不顯著,P>0.05。事后檢驗表明交互距離為1 m時的喚醒滿意度顯著低于5 m,P<0.05,其他差異均不顯著,P>0.05。
圖1 喚醒率和環(huán)境音量在喚醒滿意度上的交互作用
簡單效應分析發(fā)現(xiàn),40 dB環(huán)境音量下,除60%和65%、70%和80%、75%和80%差異不顯著(P>0.05)外,其他差異均顯著(P<0.05);60 dB環(huán)境音量下,除60%和65%、70%和80%、75%和80%、75%和85%差異不顯著(P>0.05)外,其他差異均顯著(P<0.05)。
根據(jù)用戶滿意度得分和喚醒率的散點圖分布,可看出兩者呈現(xiàn)線性相關關系,我們進一步以被試的滿意度為因變量,以喚醒率為自變量進行一元線性回歸,得到不同環(huán)境音量、不同距離條件的一元線性回歸方程,如圖2所示。
圖2 40 dB和60 dB環(huán)境音量下不同距離的喚醒率與滿意度關系
對實驗數(shù)據(jù)進行分析,我們將滿意度”4-一般”看做被試可接受喚醒率的得分,將滿意度”6-滿意”看做被試滿意喚醒率的得分。通過線性回歸分析,我們可以計算得到不同條件下,被試可接受(4-一般)和滿意(6-滿意)的喚醒率下限值,即被試可接受和感到滿意的喚醒率最低要求。如表2所示,從表中可以看出,當距離為1 m時,40 dB和60 dB環(huán)境音量條件下喚醒率要分別高于93.6%和91.3%,被試才會感覺滿意;當距離為3 時,40 dB和60 dB環(huán)境音量條件下讓用戶滿意的喚醒率應分別高于92.9%和89.2%;當距離為5 m時,40 dB和60 dB環(huán)境音量條件下讓用戶滿意的喚醒率應分別高于90.4%和85.8%。在可接受度方面,被試對“5 m&60 dB”環(huán)境下的容忍度最高,喚醒率高于55.4%被試感覺可以接受。
表2 不同環(huán)境音量和距離條件下被試可接受和滿意的喚醒率下限
我們對實驗后的調(diào)研量表數(shù)據(jù)進行分析,在影響語音喚醒體驗的6個因素中,被試認為喚醒率、喚醒響應時間的感知重要性較高,如圖3所示,它們對輸出環(huán)節(jié)的體驗具有較大影響。與之相比,輸入環(huán)節(jié)的影響因素重要性略低,但仍有少部分被試認為喚醒詞的設計會影響喚醒時的使用體驗,如喚醒詞是否容易發(fā)音、說起來是否順口等。
圖3 語音喚醒體驗影響因素重要性
本研究聚焦智能音箱產(chǎn)品的語音喚醒體驗,梳理和討論了智能音箱語音喚醒體驗的主要影響因素,并重點對語音喚醒率的體驗進行了實驗研究,研究發(fā)現(xiàn)不同環(huán)境音量、不同交互距離條件下的被試滿意和可接受喚醒率存在差異。在低聲壓級40 dB環(huán)境音量條件下,1 m、3 m、5 m距離時被試滿意的喚醒率下限分別是93.6%、92.9%、90.4%,可接受的喚醒率下限分別是74.6%、72.0%、69.0%;在中聲壓級60 dB環(huán)境音量條件下,1 m、3 m、5 m距離時被試滿意的喚醒率下限分別是91.3%、89.2%、85.8%,可接受的喚醒率下限分別是69.5%、67.1%、55.4%。結合實驗后對被試喚醒率評分原因的訪談發(fā)現(xiàn),被試認為不同的交互距離和環(huán)境聲音條件會影響他們的預期,這種預期會受到日常生活經(jīng)驗的影響,例如部分用戶提及生活中當環(huán)境嘈雜和距離較遠時,與人交流也容易出現(xiàn)信息沒有被注意到的情況。此外,訪談中有少數(shù)被試反饋,會盡量避免在較遠距離且環(huán)境聲音嘈雜的情況下與智能設備交互,真實情況下被試更希望走近智能音箱,從而避免自己過高的喚醒音量產(chǎn)生的不適感,同時也提高語音交互的效率預期。除了交互距離和環(huán)境音量以外,我們還發(fā)現(xiàn)是否連續(xù)喚醒失敗也會影響被試的語音喚醒體驗,當連續(xù)出現(xiàn)兩次以上的喚醒失敗時,會嚴重影響被試的交互意愿,智能語音產(chǎn)品應該盡量避免連續(xù)喚醒失敗的情況出現(xiàn)。
智能音箱類產(chǎn)品與智能車載或可穿戴類智能語音產(chǎn)品相比,由于交互距離和環(huán)境音量的不確定性,導致被試在不同條件下對喚醒率體驗產(chǎn)生了不同的預期和要求。然而,用戶滿意度是用戶預期的函數(shù)[19],后續(xù)需要持續(xù)關注用戶預期的變化,以及不同的用戶交互意圖差異的影響。此外,需要說明的是完全依賴語音技術解決喚醒率體驗問題并不容易,綜合對用戶的交互意圖進行判斷,可能需要結合其他技術手段,例如視覺技術和大數(shù)據(jù)技術等。
在影響語音喚醒體驗的諸多因素中,被試對喚醒率體驗的感知重要性最高,其次為喚醒響應時間體驗。關于喚醒率的體驗,在低聲壓級40dB環(huán)境音量條件下,1 m、3 m、5 m距離時被試滿意的喚醒率下限分別是93.6%、92.9%、90.4%,可接受的喚醒率下限分別是74.6%、72.0%、69.0%;在中聲壓級60dB環(huán)境音量條件下,1 m、3 m、5 m距離時被試滿意的喚醒率下限分別是91.3%、89.2%、85.8%,可接受的喚醒率下限分別是69.5%、67.1%、55.4%。