高倩 李世友 馬曉輝 葛星
摘 要:該文系統(tǒng)旨在獲取人眼在觀看電腦屏幕時的視覺定位點。利用個人計算機攝像頭拍攝人臉在屏幕前的圖像,對圖像進行預處理,通過Haar特征與級聯(lián)分類器結(jié)合的方式提取圖像中的人臉特征信息,包括人眼,鼻子及嘴巴的位置,最后由特征信息作為神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù)經(jīng)BP神經(jīng)網(wǎng)絡(luò)模型得到視覺定位點。該系統(tǒng)用簡單的設(shè)備完成了視覺定位的功能,定位出人眼的視覺點。
關(guān)鍵詞:Haar特征 級聯(lián)分類器 圖像預處理 BP神經(jīng)網(wǎng)絡(luò) 視覺點定位
中圖分類號:TP399 文獻標識碼:A 文章編號:1674-098X(2015)11(a)-0150-02
在科技日益發(fā)展的今天,人們對于計算機的要求隨著發(fā)展而增長,計算機視覺定位是當今研究的熱點問題。之前對于視覺定位的研究都是基于雙目或者單目相機,對于設(shè)備有著較高的要求。
1 圖像獲取及圖像預處理
該系統(tǒng)根據(jù)對人臉在計算機屏幕前的姿態(tài)的分析,得到視覺定位點的結(jié)果。需要計算機攝像頭實時地拍攝計算機屏幕前的人臉圖像,得到所需的圖像信息。
計算機獲取圖像的時候不能保證在一個光線均勻的環(huán)境中,得到的圖片會明暗不清,為保證在后面環(huán)節(jié)中能夠得到好的結(jié)果,我們需要對圖片進行預處理,使圖片信息更加清晰。進行預處理之后的圖片會更加有利于計算機對于圖片的處理應(yīng)用。
圖像增強:
設(shè)分別為原圖像和處理后圖像,則圖像增強方法的具體步驟如下:
(1)求原圖的灰度直方圖,設(shè)用256維的向量表示。
2 人臉特征提取
在各種人臉特征提取方法中haar特征用于人臉特征提取效果明顯,該文系統(tǒng)所用到的提取方式為用Haar特征對人臉進行描述,再用級聯(lián)分類器對其進行篩選分類,層層選擇之后得到人臉上的特征坐標。
3 BP神經(jīng)網(wǎng)絡(luò)應(yīng)用
3.1 輸入數(shù)據(jù)的調(diào)整
由文中提到的特征提取得到臉部特征信息,即人臉上左右眼,鼻子,嘴巴這四個特征在人臉上的位置,得到特征在影像上的絕對坐標點。然而輸入數(shù)據(jù)是左右眼、鼻子、嘴巴這四個特征在人臉坐標系中的絕對坐標的話,由于影像的大小不一,人臉的大小也不一樣,特征點在影像中的絕對坐標并不能反映特征在人臉上的真實位置。因此需要將特征點在影像上的絕對坐標轉(zhuǎn)換成相對于人臉的相對坐標。
由于影像中的人臉大小不一樣,還需要將坐標轉(zhuǎn)化為以人臉長寬為參照的相對坐標
為比例轉(zhuǎn)換之后的特征點的相對坐標;
為影像寬;為影像長;為臉寬;為臉長。
3.2 確定BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
(1)隱含層的確定。
實際上,三層的神經(jīng)網(wǎng)絡(luò)就足以完成任意的M為到N維的映射。所以該文采取一個隱含層進行神經(jīng)網(wǎng)絡(luò)的建立。
(2)激勵函數(shù)。
BP神經(jīng)網(wǎng)絡(luò)中隱含層最常用的是Sigmoid轉(zhuǎn)換函數(shù),其可以滿足輸入層和輸出層采用線性的轉(zhuǎn)換函數(shù),Sigmoid轉(zhuǎn)換函數(shù)使三層BP神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近任何有理函數(shù)。該文采取Sigmoid函數(shù)作為激勵函數(shù)。
S型激發(fā)函數(shù)公式:
≤≤1 (5)
(3)每層節(jié)點設(shè)置。
輸入的是四個特征點的坐標點信息,將輸入層節(jié)點設(shè)置為4。輸出信息為在屏幕上的視覺落腳點,根據(jù)屏幕的分割格網(wǎng)確定輸出節(jié)點數(shù),如屏幕分為2×2的格網(wǎng)則為四個輸出節(jié)點。隱含節(jié)點數(shù)會影響計算的快慢以及計算最后的結(jié)果的正確率。選擇隱含層節(jié)點一般原則是:在能正確反映輸入輸出關(guān)系的基礎(chǔ)上,應(yīng)選用較少的隱層節(jié)點數(shù),以使網(wǎng)絡(luò)結(jié)構(gòu)盡量簡單。所以將隱含層節(jié)點數(shù)設(shè)為4個。輸出信息為網(wǎng)格坐標位置,即眼睛對于屏幕的觀測點,將初始權(quán)和閥值為0.1,學習率為0.1。進行BP神經(jīng)網(wǎng)絡(luò)的訓練。
3.3 神經(jīng)網(wǎng)絡(luò)實驗
實驗中利用人眼看向屏幕上的不同點位提取的人臉特征坐標數(shù)據(jù),進行BP神經(jīng)網(wǎng)絡(luò)的訓練訓練以及實驗。實驗結(jié)果如圖表1所示。
其中GW為格網(wǎng)方式,N為訓練樣本數(shù),Q為正確率。可以看出,正確率隨著網(wǎng)格的加密而下降,需要密于3×3正確率就小于了90%
4 結(jié)語
在對于設(shè)備的輕便性和實用性的要求越來越高的今天,該文的視覺定位系統(tǒng)很好地滿足了現(xiàn)今對于輕便這一點的要求。該系統(tǒng)僅僅是基于PC電腦,沒有大型設(shè)備的硬性要求,采用的攝像設(shè)備為計算機自己配備的攝像頭,處理過程也在計算機內(nèi)部自行進行得出結(jié)果,整個過程簡單方便。系統(tǒng)中用到的人臉特征提取以及訓練的BP神經(jīng)網(wǎng)絡(luò)都能很好地到達最后的結(jié)果。但是這些結(jié)果都是在背景簡單以及人臉很好的運動較慢的呈現(xiàn)在計算機面前得到的結(jié)果,在環(huán)境的改變以及人運動對于結(jié)果造成的不好影響還需要進行改進。
參考文獻
[1] 吳昌友.神經(jīng)網(wǎng)絡(luò)的研究及應(yīng)用[D].東北大學,2007.
[2] 谷曉平,王長耀,王汶,等.應(yīng)用于水文預報的優(yōu)化BP神經(jīng)網(wǎng)絡(luò)研究[J].生態(tài)環(huán)境,2004,13(4):524-527.
[3] 宋萬.基于OpenCV視覺庫的人臉檢測[D].吉林大學,2014.