曹望成,徐洪國(guó),于 波,于立洋
(1.牡丹江師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院,牡丹江 157011;2.哈爾濱理工大學(xué)軟件學(xué)院?jiǎn)?,哈爾濱 150040)
隨著社會(huì)的信息化程度越來(lái)越高,人類對(duì)計(jì)算機(jī)的智能水平有了越來(lái)越高的需求。人機(jī)交互的方式也也不僅局限于原本的基于硬件進(jìn)行交互,一些相對(duì)更智能的交互方式逐漸出現(xiàn)在人們的生活中,譬如通過(guò)人臉識(shí)別、手勢(shì)識(shí)別以及語(yǔ)音識(shí)別等一系列更加智能的方式建立人類與計(jì)算機(jī)之間溝通。這些更為方便的交互方式的出現(xiàn)已經(jīng)成為當(dāng)前人機(jī)交互領(lǐng)域的一大發(fā)展趨勢(shì),人機(jī)交互方式發(fā)展的目標(biāo)自然是讓計(jì)算機(jī)服務(wù)并適應(yīng)人類的需求,以人為中心,而非強(qiáng)迫人去適應(yīng)計(jì)算機(jī)。
人機(jī)交互(HCI:Human-Computer Interaction)是一門(mén)研究人、計(jì)算機(jī)以及兩者之間相互交互方式的學(xué)科。隨著社會(huì)的信息化程度越來(lái)越高,人機(jī)交互方式的發(fā)展也會(huì)促進(jìn)我們的日常生活的便捷,越來(lái)越多方便新穎的交互方式推出。
語(yǔ)音交互是人機(jī)交互中的一個(gè)主要的交互技術(shù),也是最為常用的交互技術(shù)。語(yǔ)音識(shí)別技術(shù)本質(zhì)上來(lái)說(shuō)是一種分類問(wèn)題,而SVM(Support Vector Machine)是一種機(jī)器學(xué)習(xí)里最為經(jīng)典的分類模型,很容易可以將這種模型應(yīng)用到語(yǔ)音識(shí)別這一領(lǐng)域。通過(guò)提取輸入的語(yǔ)音流中的某些特征,對(duì)這些特征進(jìn)行分類,根據(jù)參考模型的匹配結(jié)果判定輸入的語(yǔ)音是由哪一位說(shuō)話人所發(fā)出。
人臉作為區(qū)分人與人之間的主要特征,現(xiàn)在也被廣泛應(yīng)用到人機(jī)交互中。越來(lái)越多的解鎖模式采用人臉解鎖,方便快捷,節(jié)省時(shí)間,錯(cuò)誤率低。隨著SVM在語(yǔ)音識(shí)別中的應(yīng)用,SVM也漸漸被運(yùn)用到了人臉識(shí)別中,并在基礎(chǔ)的SVM的基礎(chǔ)上,融合無(wú)監(jiān)督聚類來(lái)進(jìn)行多分類。
表情識(shí)別現(xiàn)在也已經(jīng)在日常生活中比較常見(jiàn),譬如笑臉相機(jī),通過(guò)檢測(cè)笑臉自動(dòng)拍照。這些功能都可以通過(guò)SVM模型來(lái)實(shí)現(xiàn)。
基于手勢(shì)和動(dòng)作識(shí)別的人機(jī)交互方式十分自然且易用,也成為了當(dāng)前人機(jī)交互中研究的一個(gè)熱點(diǎn)。根據(jù)手勢(shì)和動(dòng)作輸入的方式不同,我們將這類識(shí)別方式分為兩種:一種是基于數(shù)據(jù)手套等傳感器捕捉設(shè)備的方法,另一種是基于視覺(jué)的方法?;跀?shù)據(jù)手套等傳感器捕捉設(shè)備的方式,設(shè)備通常比較昂貴,布置穿戴也比較麻煩,通常在日常生活中不太常用,多被用于影視制作和科學(xué)研究?;谝曈X(jué)的手勢(shì)和動(dòng)作識(shí)別是對(duì)視頻采集設(shè)備拍攝到的包含手勢(shì)或動(dòng)作的圖像序列采用各種技術(shù)進(jìn)行處理。
近些年來(lái),腦-機(jī)接口技術(shù)的研究在國(guó)際上引起了廣泛的興趣并獲得了快速的發(fā)展。這種模式需要一些硬件設(shè)備來(lái)獲得腦電信號(hào)來(lái)實(shí)現(xiàn)無(wú)動(dòng)作的人機(jī)交互,也就是利用腦電信號(hào)來(lái)表達(dá)自己的意思,并讓相應(yīng)的外界設(shè)備做出一定的動(dòng)作反應(yīng)。這種新的模式可以為神經(jīng)肌肉損傷患者提供一種新的溝通方式,也可以為正常人提供輔助控制通道或在特殊環(huán)境下的控制通道,這一人機(jī)交互的新方式具有巨大的社會(huì)價(jià)值和應(yīng)用前景。
預(yù)處理截?cái)嗍菍?duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的過(guò)濾操作,降低噪聲干擾。這一步主要進(jìn)行信號(hào)的放大、防混疊濾波、自動(dòng)增益控制、模數(shù)轉(zhuǎn)換、消除噪聲、端點(diǎn)檢測(cè)等操作。
模式識(shí)別技術(shù)中,特征提取是最為關(guān)鍵的一步,選擇適合的特征來(lái)表達(dá)數(shù)據(jù)才能有效地通過(guò)分類技術(shù)準(zhǔn)確識(shí)別。語(yǔ)音數(shù)據(jù)大致包含一下幾個(gè)常用特征:時(shí)平均能量、線性預(yù)測(cè)系數(shù)、頻譜、短時(shí)過(guò)零率、三個(gè)共振峰頻率(F1、F2、F3的頻率值、帶寬、幅值)、LPC倒譜和Mel倒譜、HMM的概率函數(shù)、矢量量化的矢量等。人臉數(shù)據(jù)的以下幾個(gè)特征經(jīng)常被使用作為模式識(shí)別的依據(jù):全局特征和局部特征。在進(jìn)行手勢(shì)和動(dòng)作識(shí)別之前,需要先進(jìn)行定位操作。而定位又根據(jù)使用的線索不同分為:基于顏色的定位、基于運(yùn)動(dòng)的定位和多種模式定位。
從輸入數(shù)據(jù)提取多維特征或單維特征作為SVM模型的輸入,進(jìn)行后續(xù)的匹配操作。
后處理是模式識(shí)別的最后一步,也是系統(tǒng)識(shí)別效果的最終表現(xiàn)。根據(jù)參數(shù)模式庫(kù)判決選擇出可能的結(jié)果中最好的作為識(shí)別系統(tǒng)的輸出。
現(xiàn)階段的研究中,SVM方法在人機(jī)交互的研究中展現(xiàn)出了良好的性能,也被越來(lái)越多的學(xué)者采用。研究者應(yīng)該立足實(shí)際,本著科學(xué)實(shí)用的目標(biāo),不斷推進(jìn)人機(jī)交互這一學(xué)科的發(fā)展。