殷獻(xiàn)寧
摘要:本文綜述了國內(nèi)外聾啞人語音交互技術(shù)發(fā)展的現(xiàn)狀,針對現(xiàn)有的聾啞人輔助發(fā)音系統(tǒng)普遍存在實(shí)現(xiàn)成本高、使用不方便的特點(diǎn),并考慮到手機(jī)在大眾生活中的普遍性,提出設(shè)計(jì)一款基于圖像識別的手勢轉(zhuǎn)換語音APP。
關(guān)鍵詞:聾啞人;人機(jī)交互;圖像識別;信息轉(zhuǎn)換;視覺設(shè)計(jì)
據(jù)最新資料顯示,我國目前約有2057萬聾啞人,占總?cè)丝诘?.67%。語言交流是聾啞人與外界交流的最大障礙,而手語是消除這種障礙的直接橋梁。手語作為聾啞人與正常人群之間較為有效地傳統(tǒng)交流手段,長期以來受 到許多聾啞人和相關(guān)人士的青睞。然而,手語存在難理解、難記憶、難掌握、 難學(xué)習(xí)的特點(diǎn),因此,搭建一個(gè)正常人與聾啞人交流的平臺就顯得很必要了。
一、國內(nèi)外研究現(xiàn)狀與APP設(shè)想
目前,國內(nèi)外在解決聾啞人與正常人溝通障礙問題的研究中比較多的是基于手語交互技術(shù)實(shí)現(xiàn)的。中科院計(jì)算機(jī)研究所研發(fā)了一套手語識別與合成系統(tǒng)。該系統(tǒng)由一副具有手勢感應(yīng)識別功能的手套和一臺計(jì)算機(jī)組成。使用者的手勢可以通過手套里的傳感器和位置跟蹤器進(jìn)行識別,并把識別的信號經(jīng)過計(jì)算機(jī)處理轉(zhuǎn)換成相應(yīng)的語音輸出。由此可見人機(jī)交互技術(shù)在實(shí)現(xiàn)聾啞人無障礙交流中起著很重要的作用,但上述兩種發(fā)明也存在著明顯的弊端:使用不方便,無法大面積普及。我們想設(shè)計(jì)一種簡便的,可以大面積普及的,結(jié)合當(dāng)下手機(jī)在人們生活中的不可或缺性,我們想到了APP設(shè)計(jì)。我和我的小組成員們經(jīng)過多次討論,并深度分析了APP設(shè)計(jì)的可行性。我們認(rèn)為APP的主要功能在于通過圖像識別將手勢轉(zhuǎn)換成語音以及將語音轉(zhuǎn)換成文字顯示出來,由此涉及到的系統(tǒng)有成像系統(tǒng)(拍攝系統(tǒng))、圖像識別系統(tǒng)、搜索系統(tǒng)、存儲系統(tǒng)、轉(zhuǎn)換系統(tǒng)和語音系統(tǒng),其中識別系統(tǒng)又分為手勢識別和語音識別。
二、APP視覺語言
一個(gè)APP的成功,視覺設(shè)計(jì)功不可沒。上面說過了,我們APP的兩大功能,這兩大功能一定要放在最顯眼,最容易被受眾找到的地方。在威廉斯的《寫給大家看的設(shè)計(jì)書》一書中凝練了設(shè)計(jì)的四個(gè)基本原則:親密、對齊、重復(fù)、對比。以我們熟悉的“支付寶”為例,其首頁排版設(shè)計(jì)就運(yùn)用了這四大原則。上半部分的十二宮格運(yùn)用的是親密和對齊以及重復(fù)的設(shè)計(jì)原則,和中間位置又形成了對比。上半部分的十二宮格的重復(fù)很大的增強(qiáng)了視覺效果,但又不會讓人感覺不舒服。在界面的中部位置的兩大版塊尤為吸人眼球,我認(rèn)為我們的APP的兩大功能中的識別手勢轉(zhuǎn)換語音功能應(yīng)該放在這里,并適當(dāng)?shù)募哟髨D標(biāo)。當(dāng)用戶打開APP的時(shí)候,一眼就能看到這個(gè)功能。還可以像“十二宮格”那樣,在界面的上半部分排列一些諸如學(xué)習(xí)功能、觀看功能等等??傊缑娴脑O(shè)計(jì)一定要讓用戶看著舒服,并且用著方便。
三、APP設(shè)計(jì)的可行性分析
再說一下APP的功能,基于圖像識別的手勢轉(zhuǎn)換語音功能,說的通俗一點(diǎn)就是通過APP拍攝聾啞人做出的手勢,然后轉(zhuǎn)換成語音說給你聽;基于語音識別轉(zhuǎn)換文字功能,就是APP會識別你說的語音,然后轉(zhuǎn)換成文字給聾啞人看。在點(diǎn)開手勢轉(zhuǎn)換語音系統(tǒng)入口時(shí),APP會自動啟動手機(jī)的“照相機(jī)”,然后開始拍攝聾啞人做出的手勢,并實(shí)時(shí)轉(zhuǎn)換為語音通過手機(jī)聲音系統(tǒng)播放出來。其中最難的在于手勢識別環(huán)節(jié),即“利用應(yīng)用識別的相關(guān)技術(shù)自動辨識聾啞人做出的手勢并將其轉(zhuǎn)存為數(shù)字信息”,然后將數(shù)字信息處理為語音信息。數(shù)字圖像處理與識別技術(shù)是一直是學(xué)者們熱衷的研究方向,從而使得圖像識別技術(shù)取得了迅速的發(fā)展。目前國內(nèi)外在圖像識別領(lǐng)域普遍使用的是卷積神經(jīng)網(wǎng)絡(luò),對于各種場景下的圖像識別有非常好的效果。采用此圖像識別系統(tǒng)作為手勢圖像處理的“中轉(zhuǎn)站”是非??尚械摹?/p>
如果說圖像識別系統(tǒng)是APP的核心,那么存儲系統(tǒng)則是基礎(chǔ),語音系統(tǒng)是它的外聯(lián),而搜索系統(tǒng)則是連接圖像識別系統(tǒng)和存儲系統(tǒng)的樞紐,轉(zhuǎn)換系統(tǒng)又是連接搜索系統(tǒng)和語音系統(tǒng)的樞紐。拍攝系統(tǒng)將圖像傳達(dá)給圖像識別系統(tǒng),接下來就是搜索系統(tǒng)和存儲系統(tǒng)的運(yùn)行了。要說計(jì)算速度最快、存儲容量最大的當(dāng)屬“云”技術(shù)。現(xiàn)如今,“云”技術(shù)在手機(jī)上的應(yīng)用也是蓬勃發(fā)展,大部分手機(jī)都會帶有“云”存儲。我們將會盡可能的,錄制更多的聾啞人在日常生活中所用到的手勢,形成一個(gè)文件包,在用戶下載APP的時(shí)候,和APP一起被下載到用戶的手機(jī)中,設(shè)置它的默認(rèn)存儲路徑為“云”存儲。當(dāng)圖像識別系統(tǒng)做出反應(yīng)后會連接搜索系統(tǒng),搜索系統(tǒng)會在存儲空間進(jìn)行搜索配對相對應(yīng)的手勢。在這里,我們必須要保證搜索系統(tǒng)的搜索速度和準(zhǔn)確性。全文搜索引擎是目前廣泛應(yīng)用的主流搜索引擎,國外代表搜索是Google,國內(nèi)有最大中文搜索百度。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息,建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,我們要采用的這類是擁有自己的檢索程序,俗稱“蜘蛛”程序或“機(jī)器人”程序,能自建數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用。我們將采用此搜索方法,從“云盤”里直接檢索數(shù)據(jù),然后再將數(shù)據(jù)信息發(fā)給轉(zhuǎn)換系統(tǒng)。轉(zhuǎn)換系統(tǒng)就比較簡單了,就像微信里把語音轉(zhuǎn)換為文字一樣,這里是將搜索到的數(shù)據(jù)信息轉(zhuǎn)換為語音信息,利用手機(jī)自帶的系統(tǒng)就可以實(shí)現(xiàn)。轉(zhuǎn)換為語音信息以后發(fā)送給語音系統(tǒng),然后再播放給用戶聽,就實(shí)現(xiàn)了手勢轉(zhuǎn)換語音?;谡Z音識別轉(zhuǎn)換文字功能就更簡單了,通過識別用戶的語音,轉(zhuǎn)換成數(shù)據(jù)信息,從存儲數(shù)據(jù)庫檢索到對應(yīng)的文字信息 ,然后在APP上顯示出來,就實(shí)現(xiàn)了語音轉(zhuǎn)換文字。
四、結(jié)語
在整個(gè)APP設(shè)計(jì)過程中,人機(jī)交互一直貫穿始終。我們希望,我們的人機(jī)交互技術(shù)為保障的基于圖像識別手勢轉(zhuǎn)換語音APP能夠真正的幫助到聾啞人,讓他們能更好的融入這個(gè)社會!
參考文獻(xiàn):
[1]陳文全.便攜式聾啞人語音表達(dá)系統(tǒng)的設(shè)計(jì)[D]中國計(jì)量學(xué)院,2014:17-20.
[2]威廉斯(美)蘇金國、劉亮譯.寫給大家看的設(shè)計(jì)書[M],北京:人民郵電出版社,2009:12-35.
[3]蔣樹強(qiáng),閔巍慶,王樹微.面向智能交互的圖像識別技術(shù)綜述與展望[J],計(jì)算機(jī)研究與發(fā)展,2016(01):113-122.
基金項(xiàng)目:
本文為國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目:“基于圖像識別的手勢轉(zhuǎn)換語音APP設(shè)計(jì)”(編號201911688014)的研究成果。