權(quán)朝臣, 鄧長明,袁凌云
(云南師范大學(xué) 信息學(xué)院,云南 昆明 650500)
隨著移動(dòng)智能終端設(shè)備的普及,智能手機(jī)和Ipad等正潛移默化地改變著我們的學(xué)習(xí)生活方式,移動(dòng)學(xué)習(xí)已成為學(xué)術(shù)研究的熱點(diǎn)[1].雖然基于WAP、C/S、3G、J2ME和Android等技術(shù)開發(fā)的移動(dòng)學(xué)習(xí)平臺(tái)占據(jù)了絕大部分,但基本都存在安裝煩瑣且占內(nèi)存的缺點(diǎn)[2],而平臺(tái)交互的簡(jiǎn)捷性是衡量平臺(tái)優(yōu)劣的首要標(biāo)準(zhǔn)[3].基于此,本文結(jié)合目前微信推出的輕量化應(yīng)用——微信小程序[4]進(jìn)行軟件設(shè)計(jì),借助智能設(shè)備上已安裝的微信APP進(jìn)行運(yùn)行,無需單獨(dú)安裝,既可免去煩瑣的安裝過程,還能解決程序內(nèi)存占用以及不同設(shè)備和操作系統(tǒng)的適配等問題,為移動(dòng)學(xué)習(xí)提供了新的平臺(tái)與應(yīng)用方式[5-6].
無論是出國旅游、學(xué)習(xí)還是在日常生活中,我們都會(huì)用到一些移動(dòng)翻譯軟件.研究表明,在翻譯實(shí)踐中運(yùn)用翻譯軟件,將使翻譯質(zhì)量提高20%[7].現(xiàn)有翻譯軟件主要有有道翻譯、谷歌翻譯及訊飛翻譯等,但普遍存在語種少、輸入方式單一、翻譯等待時(shí)間長及準(zhǔn)確率較低等問題,如網(wǎng)易有道詞典只支持10種語言的互譯,訊飛翻譯只支持語音和文字輸入,不能滿足用戶的實(shí)際應(yīng)用需求.隨著人工智能技術(shù)的發(fā)展,在與機(jī)器的信息交流中,催生了一種更加方便和自然的交互方式——多模態(tài)交互.多模態(tài)指多種感官的融合,是機(jī)器人與人之間通過文字、語音、動(dòng)作等進(jìn)行的一種交互方式[8],其中圖像和語音是最重要和最精細(xì)的兩種信息源.通過多模態(tài)交互方式,計(jì)算機(jī)能處理部分物理信息,從而幫助我們更高效地進(jìn)行信息處理[9-10].
本文設(shè)計(jì)并開發(fā)了一種基于微信小程序的支持多模態(tài)輸入及多語種實(shí)時(shí)翻譯的移動(dòng)學(xué)習(xí)軟件,為用戶提供文本、圖片和語音在內(nèi)的不同格式文件的輸入,實(shí)現(xiàn)28種中外語言的實(shí)時(shí)翻譯;同時(shí)提供百度地圖、天氣及周邊等服務(wù),是一款集多種輸入方式、多語種互譯為一體的移動(dòng)翻譯軟件.
本實(shí)時(shí)翻譯軟件基于微信小程序,借助微信web開發(fā)者工具進(jìn)行開發(fā),支持文本輸入、圖片輸入和語音輸入等多種輸入方式,以及28種語言的實(shí)時(shí)翻譯等功能.前臺(tái)語言采用微信小程序語言,服務(wù)器采用阿里云輕量服務(wù)器,后臺(tái)語言使用PHP,數(shù)據(jù)庫使用Mysql數(shù)據(jù)庫.軟件架構(gòu)如圖1所示.
圖1 基于多模態(tài)輸入的多語種實(shí)時(shí)翻譯軟件架構(gòu)圖
不同于以往的翻譯詞典,所有的輸入都需要手動(dòng)輸入,本微信小程序支持多種輸入方式,包括文本輸入、圖片輸入以及語音輸入.結(jié)合百度AI人工智能平臺(tái)的圖片以及語音識(shí)別PHP版本SDK和小程序的POST方法進(jìn)行編程,實(shí)現(xiàn)文件的上傳以及識(shí)別.圖2為多模態(tài)輸入及其處理流程.
圖2 多模態(tài)輸入方式的實(shí)現(xiàn)
3.1.1 圖片輸入
圖片輸入使用微信小程序的wx.chooseImage()方法上傳手機(jī)中的本地圖片,將文件上傳至阿里云后臺(tái)服務(wù)器,用戶也可以通過拍照的方式上傳圖片,獲得圖片中的文本內(nèi)容,將文本內(nèi)容存入微信小程序的全局變量globalData中,傳遞到語言翻譯功能頁面.
3.1.2 語音輸入
語音輸入使用微信小程序的wx.getRecord-erManager()方法,支持60 s語音錄制,錄制完成后將語音保存為WAV格式的音頻文件,再將此文件上傳到后臺(tái)服務(wù)器的PHP程序,獲取WAV音頻文件中的文本內(nèi)容.
3.1.3 文本輸入
文本輸入較為簡(jiǎn)便,直接使用微信小程序的textview標(biāo)簽輸入文本,在js中通過方法獲取文本內(nèi)容.
多模態(tài)的輸入方式在微信小程序中雖采用不同的方法,但都能準(zhǔn)確獲取用戶所輸入的內(nèi)容,為后續(xù)的翻譯操作提供支持.
微信小程序獲取用戶輸入的需要翻譯的文本字段,之后選擇要轉(zhuǎn)換的語言類型.將翻譯語言布置于下拉框供用戶選擇,一種語言對(duì)應(yīng)一個(gè)數(shù)字,便于數(shù)據(jù)的傳遞以及后續(xù)的處理.微信小程序?qū)⒋宋谋咀侄我约耙D(zhuǎn)換的語言類型發(fā)送至阿里云輕量服務(wù)器,由布置在阿里云服務(wù)器上的PHP程序接收從微信小程序發(fā)送來的數(shù)據(jù),將此數(shù)據(jù)封裝,在PHP程序中編寫相應(yīng)代碼發(fā)送到百度AI人工智能平臺(tái)的通用翻譯API接口,再返回到微信小程序輸出.
通過微信小程序、阿里云服務(wù)器以及百度通用翻譯API對(duì)用戶信息的傳遞,實(shí)現(xiàn)28種語言的實(shí)時(shí)翻譯,且百度AI人工智能平臺(tái)機(jī)器翻譯非常成熟、處理速度較快,確保了本翻譯軟件的準(zhǔn)確性及時(shí)效性,優(yōu)化了軟件的性能.28種語言實(shí)時(shí)翻譯的實(shí)現(xiàn)如圖3所示.
圖3 28種語言實(shí)時(shí)翻譯的實(shí)現(xiàn)
翻譯軟件最重要的是翻譯速度與準(zhǔn)確性,因此,為對(duì)基于多模態(tài)輸入的多語種實(shí)時(shí)翻譯軟件進(jìn)行有效評(píng)價(jià),以下將從準(zhǔn)確性與時(shí)效性兩方面測(cè)評(píng)本軟件的性能.
4.1.1 多模態(tài)輸入準(zhǔn)確率
首先測(cè)評(píng)多模態(tài)輸入的準(zhǔn)確性.采用50張圖片和50條語音進(jìn)行測(cè)試;將圖片文本內(nèi)容與語音錄制內(nèi)容存入Excel文檔中,再將圖片以及語音識(shí)別后的內(nèi)容存入Excel文檔中.采用Excel中的基于Visual Basic的腳本語言VBS編寫判斷兩個(gè)字符串的相似度算法,計(jì)算識(shí)別前后的文本內(nèi)容相似度,以語音識(shí)別為例,結(jié)果如表1所示.得到每一張圖片和每一條語音的識(shí)別相似度后計(jì)算平均值,得到圖片和語音的輸入準(zhǔn)確率分別為84.12%和97.35%.
表1 語音識(shí)別相似度
本文以清晰的、模糊的以及包含繁體字的圖片和中文文本為測(cè)試數(shù)據(jù),圖片識(shí)別準(zhǔn)確率為84.12%,語音識(shí)別準(zhǔn)確率為97.35%.因本文使用的相似度算法考慮了斷句與標(biāo)點(diǎn)符號(hào)等因素,相似度有所降低,如采用清晰的圖片與標(biāo)準(zhǔn)普通話進(jìn)行輸入,識(shí)別率會(huì)更高.
4.1.2 多語種翻譯準(zhǔn)確率
基于多語種翻譯的準(zhǔn)確性,將中文文本及中文文本對(duì)應(yīng)翻譯的目標(biāo)語種標(biāo)準(zhǔn)翻譯存入Excel文件中,再將中文文本翻譯為目標(biāo)語種的文本存入Excel,同樣采用Excel中的基于Visual Basic的腳本語言VBS編寫判斷兩個(gè)字符串的相似度算法,計(jì)算翻譯前后的文本內(nèi)容相似度,以俄語為例,結(jié)果如表2所示.計(jì)算出每種語種翻譯前后的相似度計(jì)算平均值,繪制柱狀圖分析多語種翻譯準(zhǔn)確率,如圖4所示.
表2 俄語語種翻譯相似度
圖4 多語種翻譯準(zhǔn)確率
通過分析柱狀圖可知,多語種翻譯各語種的準(zhǔn)確率平均值為96.92%,各語種翻譯的準(zhǔn)確率最低為91.37%.相較于楊飛揚(yáng)[11]采用基于平行語料和翻譯概率的多語種詞對(duì)齊方法翻譯94%的準(zhǔn)確率,本文采用流式端到端語音語言一體化建模方法,融合百度自然語言處理技術(shù),將多語種翻譯準(zhǔn)確率提升到96.92%,準(zhǔn)確性更高.同時(shí),針對(duì)部分語種翻譯準(zhǔn)確性偏低問題,將在后期工作中繼續(xù)完善.
此翻譯軟件的圖片輸入以及語音輸入,首先是將圖片以及語音里的內(nèi)容轉(zhuǎn)化為文字,而后進(jìn)行文字的多語種翻譯.不同輸入方式的所用時(shí)間如圖5、圖6、圖7所示.其中圖片輸入和語音輸入的總時(shí)間為識(shí)別時(shí)間加文本翻譯的總時(shí)間,即圖片輸入用時(shí)1 s 40 ms,語音輸入用時(shí)2 s,文本輸入與翻譯總用時(shí)60 ms.即使用戶采用不同的輸入方式,等待時(shí)間也較短,能提供較為實(shí)時(shí)的翻譯效果,為便捷的移動(dòng)學(xué)習(xí)奠定了基礎(chǔ).
圖5 圖片識(shí)別 圖6 語音識(shí)別 圖7 文本翻譯
介紹了基于多模態(tài)輸入的多語種實(shí)時(shí)翻譯軟件的設(shè)計(jì)與開發(fā),對(duì)其中的關(guān)鍵技術(shù)進(jìn)行了詳述.該小程序多模態(tài)的輸入方式以及28種語言的實(shí)時(shí)互譯,較好地彌補(bǔ)了常見的翻譯軟件只支持英漢互譯、輸入方式單一、需單獨(dú)安裝等缺點(diǎn),能有效提升用戶的使用體驗(yàn).通過分析此軟件的準(zhǔn)確性與時(shí)效性,發(fā)現(xiàn)多模態(tài)輸入的識(shí)別率較高,用戶等待時(shí)間較短.下一步將在識(shí)別與翻譯準(zhǔn)確性方面繼續(xù)展開研究,并進(jìn)一步擴(kuò)展翻譯軟件的相關(guān)功能.