王秀旭,李川鵬,王耀福
(中國(guó)汽車(chē)技術(shù)研究中心有限公司,天津 300300)
隨著居民生活水平的逐漸提高,以及科學(xué)技術(shù)的飛速發(fā)展,終端商品銷(xiāo)售渠道向無(wú)人化趨勢(shì)發(fā)展;其中無(wú)人售貨機(jī)器將成為推動(dòng)終端“新零售”的主力軍,用戶(hù)作為無(wú)人零售機(jī)器的終端用戶(hù),用戶(hù)體驗(yàn)的便捷性、高效性直接關(guān)系到零售機(jī)器產(chǎn)品本身的銷(xiāo)量和零售機(jī)器貨物的銷(xiāo)售額,傳統(tǒng)零售機(jī)器的控制主要采用手動(dòng)觸摸顯示屏,在觸摸屏上選擇購(gòu)買(mǎi)的商品,電機(jī)結(jié)算,然后選擇支付方式(刷臉支付或二維碼支付),最后支付完成。對(duì)于智能化高度發(fā)展的今天,普通的點(diǎn)觸方式已不能滿(mǎn)足消費(fèi)者的需求,在零售過(guò)程中如何更智能、更便捷地操作,成為亟需解決的問(wèn)題,同時(shí)也影響著消費(fèi)者的用戶(hù)體驗(yàn)。
隨著智能語(yǔ)音識(shí)別技術(shù)的發(fā)展,語(yǔ)音識(shí)別率的逐漸增加,智能語(yǔ)音技術(shù)在智能家居場(chǎng)景開(kāi)始不斷應(yīng)用,在智能語(yǔ)音零售機(jī)器的產(chǎn)品已成為未來(lái)的發(fā)展趨勢(shì),也將在未來(lái)市場(chǎng)中占有更高的市場(chǎng)保有率。本文將以智能零售控制技術(shù)為基礎(chǔ),結(jié)合智能語(yǔ)音識(shí)別技術(shù),進(jìn)行數(shù)據(jù)的嵌入融合,對(duì)智能語(yǔ)音控制系統(tǒng)進(jìn)行設(shè)計(jì),實(shí)現(xiàn)零售機(jī)器可通過(guò)語(yǔ)音完成商品的無(wú)接觸購(gòu)買(mǎi),使得消費(fèi)者擁有更便捷、高效的交互體驗(yàn)。
系統(tǒng)包括軟件和硬件系統(tǒng),系統(tǒng)操作軟件將在Linux平臺(tái)下,運(yùn)用語(yǔ)音識(shí)別技術(shù)和零售控制技術(shù),實(shí)現(xiàn)零售的智能語(yǔ)音控制。包括嵌入式(Linux)軟件平臺(tái)、語(yǔ)音識(shí)別處理平臺(tái)、通訊技術(shù)、硬件平臺(tái)(Cortex-A7),實(shí)現(xiàn)零售機(jī)器的智能控制。總體設(shè)計(jì)如圖1所示。
圖1 總體設(shè)計(jì)
嵌入式(Linux)軟件平臺(tái)包括語(yǔ)音識(shí)別處理APP、零售控制平臺(tái)和無(wú)線(xiàn)通信處理模塊,實(shí)現(xiàn)語(yǔ)音識(shí)別算法處理、語(yǔ)義分析處理、零售控制邏輯處理以及遠(yuǎn)程控制等功能。語(yǔ)音識(shí)別處理平臺(tái)通過(guò)云知聲識(shí)別模塊,實(shí)現(xiàn)系統(tǒng)的語(yǔ)音喚醒、語(yǔ)音識(shí)別和語(yǔ)音合成。硬件平臺(tái)(Cortex-A7)包括處理器模塊、MIC語(yǔ)音輸入、Speaker語(yǔ)音輸入、顯示模塊、通信模塊組成,實(shí)現(xiàn)語(yǔ)音采集、輸出及通信控制[1]。系統(tǒng)主要實(shí)現(xiàn)以下功能:
(1)實(shí)現(xiàn)語(yǔ)音控制零售機(jī)器開(kāi)機(jī)和關(guān)機(jī);
(2)實(shí)現(xiàn)語(yǔ)音選擇商品的種類(lèi)、數(shù)量;
(3)實(shí)現(xiàn)語(yǔ)音選擇商品支付方式,并可刷臉支付;
(4)實(shí)現(xiàn)智能語(yǔ)音對(duì)話(huà),天氣查詢(xún)、地理信息查詢(xún)等技能。
在上述功能需求下,以及軟件的要求,對(duì)市場(chǎng)中各硬件模塊組件進(jìn)行調(diào)研,篩查包括語(yǔ)音交互模塊、處理器模塊、顯示模塊、通訊模塊等并對(duì)其進(jìn)行分析:
(1)語(yǔ)音交互模塊:對(duì)市場(chǎng)中語(yǔ)音設(shè)備進(jìn)行分析,語(yǔ)音硬件設(shè)備將選用同心雙環(huán)陣列布局,根據(jù)同心雙環(huán)特點(diǎn)車(chē)身外殼進(jìn)行了對(duì)應(yīng)的出音孔設(shè)計(jì),最遠(yuǎn)可實(shí)現(xiàn)4米語(yǔ)音識(shí)別,識(shí)別率在95%以上;并配備有一個(gè)智能擴(kuò)音器,同時(shí)受自身和外界雜音干擾小。
(2)處理器模塊:對(duì)比分析后選用 Cortex-A7內(nèi)核的RK3308處理器,四核、主芯片內(nèi)置音頻CODEC和ADC,為滿(mǎn)足支持多喚醒詞和命令詞,選用64M內(nèi)存和256M滿(mǎn)足計(jì)算和存儲(chǔ)要求,整體硬件系統(tǒng)支持多種喚醒詞,可滿(mǎn)足用戶(hù)正常的零售商品購(gòu)買(mǎi)需求[2][3]。
(3)顯示模塊:選用高精度一體式工業(yè)顯示屏,通過(guò)觸屏可實(shí)現(xiàn)控制零售機(jī)器開(kāi)啟、關(guān)閉、購(gòu)買(mǎi)、宣傳等信息;語(yǔ)音購(gòu)買(mǎi)流程的顯示,以及下一步的提示都會(huì)在顯示屏中呈現(xiàn)。
(4)通訊模塊:本系統(tǒng)通過(guò)總線(xiàn)與零售機(jī)器進(jìn)行通訊,依據(jù)兩芯雙絞線(xiàn)實(shí)現(xiàn)無(wú)極性通信及供電,不用另外布置線(xiàn)束供電。
語(yǔ)音識(shí)別與零售機(jī)器控制軟件:可以實(shí)現(xiàn)語(yǔ)音接收、語(yǔ)音的智能識(shí)別和智能語(yǔ)音播報(bào),語(yǔ)音識(shí)別和零售機(jī)器控制之間建立通訊連接,并在一個(gè)服務(wù)器下運(yùn)行,根據(jù)特定的串口信號(hào)通信。語(yǔ)音識(shí)別模塊可通過(guò)串口將控制命令發(fā)送給零售機(jī)器控制板上,售賣(mài)機(jī)器控制板根據(jù)語(yǔ)音識(shí)別模塊發(fā)送的控制命令,對(duì)語(yǔ)音進(jìn)行識(shí)別解析處理,將需要播放顯示的提示內(nèi)容發(fā)送到工業(yè)顯示模塊中,同時(shí)發(fā)送給語(yǔ)音識(shí)別模塊,語(yǔ)音識(shí)別模塊對(duì)需要播報(bào)的內(nèi)容進(jìn)行在智能擴(kuò)音器上播報(bào)。
語(yǔ)音模塊和顯示屏中購(gòu)買(mǎi)APP都是由無(wú)線(xiàn)通訊組成,實(shí)現(xiàn)在線(xiàn)語(yǔ)音識(shí)別時(shí),與人的交互以及與服務(wù)器的交互,語(yǔ)音識(shí)別 APP將識(shí)別的語(yǔ)音字段發(fā)送到服務(wù)器進(jìn)行語(yǔ)義分析和識(shí)別,語(yǔ)義服務(wù)器將識(shí)別結(jié)果反饋到語(yǔ)音開(kāi)發(fā)板中,通過(guò)與零售機(jī)器的通訊連接,將實(shí)現(xiàn)對(duì)售賣(mài)APP的智能控制,從而可實(shí)現(xiàn)通過(guò)語(yǔ)音選擇商品種類(lèi)和數(shù)量,并可完成移動(dòng)支付(刷臉支付),從而實(shí)現(xiàn)無(wú)接觸式商品購(gòu)買(mǎi)。
整體采用云端語(yǔ)音識(shí)別技術(shù),加入內(nèi)置算法組件,可實(shí)現(xiàn)在無(wú)網(wǎng)離線(xiàn)狀態(tài)下進(jìn)行語(yǔ)音識(shí)別,通過(guò)無(wú)線(xiàn)連接可同云端語(yǔ)義服務(wù)器實(shí)現(xiàn)在線(xiàn)語(yǔ)音識(shí)別服務(wù)。語(yǔ)音接收模塊可通過(guò)語(yǔ)音引擎中的回聲消除、抑制混響、空域?yàn)V波等處理技術(shù),將雜亂聲音過(guò)濾掉,實(shí)現(xiàn)對(duì)清晰語(yǔ)音的獲??;在通過(guò)語(yǔ)音識(shí)別和語(yǔ)義理解,實(shí)現(xiàn)自然語(yǔ)言命令的解析,并通過(guò)語(yǔ)音合成技術(shù),實(shí)現(xiàn)對(duì)操作軟件中的命令指令的控制處理。
實(shí)現(xiàn)語(yǔ)音購(gòu)買(mǎi)商品的目標(biāo),為提高不同環(huán)境、不同人員、不同發(fā)音、非特定距離等情況下的識(shí)別效果要求,對(duì)語(yǔ)音模塊進(jìn)行了多喚醒詞設(shè)計(jì)、隱含命令詞設(shè)計(jì)、多領(lǐng)域設(shè)計(jì)。多喚醒詞設(shè)計(jì)主要針對(duì)不同的使用對(duì)象,可突出不同的主體,本系統(tǒng)喚醒詞分別為:小智小智、小美小美、小虎小虎等;隱含命令詞設(shè)計(jì)最主要方便用戶(hù)交互溝通,無(wú)需對(duì)固定話(huà)語(yǔ)進(jìn)行死記硬背,通過(guò)識(shí)別特定命令詞的固定組合并可支持?jǐn)U展隱含命令詞的使用,通過(guò)不同組合、不同順序、相近含義的命令詞設(shè)計(jì),可很大程度減輕用戶(hù)的記憶壓力,同時(shí)提高用戶(hù)體驗(yàn);多級(jí)喚醒設(shè)計(jì);多知識(shí)領(lǐng)域設(shè)計(jì)針對(duì)零售機(jī)器涉筆的使用性能,識(shí)別中增加了天氣預(yù)報(bào)、在線(xiàn)/離線(xiàn)音樂(lè)、熱點(diǎn)新聞、交通限行咨詢(xún)等,滿(mǎn)足用戶(hù)日常生活咨詢(xún)需求,增加語(yǔ)音交互服務(wù)體驗(yàn)感。
根據(jù)語(yǔ)音識(shí)別功能的使用環(huán)境和性能要求,選擇在安靜和有雜音環(huán)境兩種不同環(huán)境下進(jìn)行測(cè)試。選取男聲和女聲不同音色,對(duì)喚醒率和識(shí)別率兩個(gè)指標(biāo)進(jìn)行了實(shí)測(cè),在1米距離內(nèi)分別選擇了100個(gè)男聲和100個(gè)女聲,男聲和女聲主要選擇了16至55歲區(qū)間的年輕主力消費(fèi)群體,通過(guò)實(shí)測(cè)男聲和女聲對(duì)喚醒率和識(shí)別率基本一致,受影響程度可忽略不計(jì),最終平均喚醒率為 99.5%,平均識(shí)別率為 99.3%,整體性能較為穩(wěn)定。另外又對(duì)這100人(50男聲和50女聲)在安靜和有雜音兩種環(huán)境下同系統(tǒng)設(shè)備的相對(duì)識(shí)別距離進(jìn)行測(cè)試,最終在4米以?xún)?nèi)識(shí)別率可達(dá)95%以上,4-5米之間識(shí)別率在80%左右,5-6米之間識(shí)別率在50%左右,6米以上識(shí)別率在20%以下。上述測(cè)試都是在同一分貝音量下進(jìn)行的,當(dāng)聲音分貝增大時(shí),喚醒率和識(shí)別率整體略有增加;當(dāng)聲音分貝減輕時(shí),喚醒率和識(shí)別率整體略有減少。
本系統(tǒng)通過(guò)語(yǔ)音識(shí)別技術(shù)、嵌入式、通訊技術(shù),將終端零售機(jī)器的控制與語(yǔ)音應(yīng)用相結(jié)合,實(shí)現(xiàn)了零售機(jī)器產(chǎn)品語(yǔ)音智能控制。本方法將商品終端售賣(mài)方式做到了全程語(yǔ)音交互、無(wú)接觸式使用體驗(yàn),實(shí)現(xiàn)正常距離內(nèi)自然語(yǔ)音下95%以上識(shí)別率的效果,目前該系統(tǒng)以搭載到智能售賣(mài)車(chē)中性能穩(wěn)定、體驗(yàn)良好。相信隨著智能家居和物聯(lián)網(wǎng)應(yīng)用場(chǎng)景下的不斷成熟,語(yǔ)音識(shí)別技術(shù)、AI技術(shù)和通信技術(shù)的不斷進(jìn)步,智能終端售貨機(jī)器的語(yǔ)音控制系統(tǒng)將會(huì)不斷更新優(yōu)化,用戶(hù)體驗(yàn)更加人性化,實(shí)現(xiàn)更高效、便捷、友好的交互體驗(yàn)[4]。