賈潤亮
(山西省財政稅務(wù)專科學(xué)校信息學(xué)院,太原 030024)
一種新的計算機(jī)視覺算法
賈潤亮
(山西省財政稅務(wù)??茖W(xué)校信息學(xué)院,太原 030024)
受螞蟻金服計算機(jī)視覺項(xiàng)目組委托,為了提高計算機(jī)視覺的識別效率和準(zhǔn)確率,利用機(jī)器學(xué)習(xí)的思想開發(fā)自動進(jìn)化圖像學(xué)習(xí)機(jī),將MATHEMATICA Cloud作為改學(xué)習(xí)機(jī)的計算云、搜索云,將學(xué)習(xí)函數(shù)和決策函數(shù)嵌入到學(xué)習(xí)機(jī)中,從而實(shí)現(xiàn)由學(xué)習(xí)機(jī)錄入圖像并導(dǎo)入MATHEMATICA Cloud進(jìn)行計算和搜索的功能,利用搜索結(jié)果來鍛煉學(xué)習(xí)機(jī)的學(xué)習(xí)函數(shù),利用計算結(jié)果來鍛煉學(xué)習(xí)機(jī)的決策函數(shù),從而實(shí)現(xiàn)高效率的識別速度與高準(zhǔn)確率的識別效果?;谖浵伣鸱峁┑尿?yàn)算實(shí)例進(jìn)行仿真實(shí)驗(yàn),并從計算速度、收斂情況、識別精度等方面同現(xiàn)在常用的識別算法進(jìn)行對比,結(jié)果顯示:新算法的圖像識別能力頗佳,與傳統(tǒng)算法相比,新算法具有更快的計算速度、絕對收斂性和遠(yuǎn)高于傳統(tǒng)算法的識別精度。
MATHEMATICA Cloud;機(jī)器學(xué)習(xí);決策函數(shù);識別精度
計算機(jī)視覺是實(shí)現(xiàn)計算機(jī)智能化的瓶頸所在,當(dāng)下流行的計算機(jī)視覺算法難以在不同情況下正確識別對象,且計算速度較慢,識別精度較差[1-2]。
鑒于此,國內(nèi)外學(xué)者對計算機(jī)視覺算法進(jìn)行了大量的研究。Giovanni Maria Farinella[3]通過ASM算法,對圖形的灰度進(jìn)行處理,可以實(shí)現(xiàn)不同灰度情況下對圖形對象的高識別率,但是文獻(xiàn)[3]對飽和度的處理能力較差,如果涉及到色彩豐富的彩色圖片,文獻(xiàn)[3]的識別出錯率極高;BentkowskaKafel[4]、Morrison C[5]等人提出的基于KD-Tree算法,將特征點(diǎn)匹配問題轉(zhuǎn)化為在高維空間中距離矢量的檢測搜索問題,使得圖像識別問題在數(shù)學(xué)層面上得到了很好的描述,但是文獻(xiàn)[4-5]的計算速度較慢,在高飽和度和高光照的情況下識別精度較差;Ungaisalánki R等[6]通過LMeds算法實(shí)現(xiàn)在復(fù)雜情況下的算法收斂,而且函數(shù)不需經(jīng)過復(fù)雜的矢量計算,對于位圖的識別效果較好,但是文獻(xiàn)[6]所建立的識別模型對于特征點(diǎn)的提取效果欠佳,同一對象在不同情形下無法做到有效識別;Bastidas-Rodriguez M X等[7]基于M-estimators算法實(shí)現(xiàn)了同一對象在不同情形下的高度收斂,同時很好地兼容了灰度處理和飽和度處理,但是文獻(xiàn)[7]無法就矢量圖進(jìn)行處理,極大地限制了M-estimators算法的適用性;Ferraz A,Brito J H等[8]提出的基于RANSAC算法實(shí)現(xiàn)了同一對象的在不同情形下的高度收斂,同時很好地兼容了灰度處理和飽和度處理,實(shí)現(xiàn)了不亞于M-estimators算法的位圖處理能力,同樣文獻(xiàn)[8]無法就矢量圖進(jìn)行處理,極大地限制了M-estimators算法的適用性。
Bhanja S[9]和Giovanni Maria Farinella[10]發(fā)現(xiàn)基于云的圖像處理算法具有很高的識別精度,而且計算速度極快,是未來計算機(jī)視覺算法發(fā)展的主流方向,但是文獻(xiàn)[9]和文獻(xiàn)[10]并沒有針對這一思路進(jìn)行相關(guān)工作,僅僅是根據(jù)實(shí)驗(yàn)結(jié)果提出了可能性構(gòu)想。李闖[11]發(fā)現(xiàn)基于解析法、半解析法可以極大提高計算速度,但文獻(xiàn)[11]研究的是邊坡問題,而非計算機(jī)視覺問題。鑒于此,本文受螞蟻金服計算機(jī)視覺項(xiàng)目組的委托,以付費(fèi)但穩(wěn)定的云MATHEMATICA Cloud為計算云和搜索云,使用半解析法函數(shù)提高學(xué)習(xí)函數(shù)的學(xué)習(xí)能力和決策函數(shù)的決策能力,并從計算速度、收斂情況、識別精度等方面與現(xiàn)在常用的識別算法進(jìn)行對比,以驗(yàn)證本文算法對于計算機(jī)視覺問題的適用性和優(yōu)越性。
對于機(jī)器學(xué)習(xí),將感興趣的數(shù)據(jù)集合命名為D,集合D也被稱為訓(xùn)練數(shù)據(jù),機(jī)器學(xué)習(xí)的目標(biāo)便是確定假設(shè)空間(命名為H)中的最佳假設(shè)。令P(h)表示為未訓(xùn)練數(shù)據(jù)集合D之間的假設(shè)h所擁有的初始概率,將其命名為prior probability。prior probability表示在當(dāng)前知識背景之下,假設(shè)h為正確假設(shè)的概率。同理,令P(D)表示欲觀察訓(xùn)練數(shù)據(jù)集合D的prior probability。P(D)反映了在訓(xùn)練數(shù)據(jù)D之后假設(shè)h成立的置信度。
根據(jù)Bayes Rule:
(1)
在機(jī)器學(xué)習(xí)的過程中,機(jī)器學(xué)習(xí)考慮候選假設(shè)集合H,并在候選假設(shè)集合H中尋找上述給定的數(shù)據(jù)集合D。在此,可能性最大的假設(shè)被命名為h(h∈H),這樣的具有最大可能性的假設(shè)被稱為極大后檢假設(shè)。
(2)
式中hMAP被稱為極大后檢假設(shè)。聯(lián)立式(1)和式(2),得到
(3)
因?yàn)镻(D)并不是依賴于h的變量,而是一個常量,故而,式(3)可以寫作
(4)
式(4)可以做進(jìn)一步的簡化,如果假定H中每個假設(shè)有相同的prior probability,就可以使用極大似然假設(shè):
(5)
式中hML被稱為極大后檢假設(shè)。對于H中的任意h,有
(6)
通過不斷學(xué)習(xí)和訓(xùn)練,機(jī)器便擁有了對某一特定問題的處理能力。如此便搭建了學(xué)習(xí)機(jī)的學(xué)習(xí)函數(shù)和決策函數(shù)。
3.1 圖像信息提取
Step1:對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化采集,該集合x的維度為P。
x=(X1,X2,X3,…,XP)T,
(7)
式中n(n>P)個樣品Xi,
Xi=(X1i,X2i,X3i,…,XPi)T,i=1,2,3,…,n。
(8)
針對樣本陣元進(jìn)行標(biāo)準(zhǔn)化變換
(9)
(10)
(11)
稱Z為標(biāo)準(zhǔn)化陣。
Step2:為標(biāo)準(zhǔn)化陣Z的矩陣系數(shù)
(12)
其中,
(13)
Step3:求解R的特征方程
|R-λIP|P=0,
(14)
按照
(15)
Step4:將指標(biāo)變量轉(zhuǎn)化為主成分
(16)
式中:U1為第1主成分;U2為第2主成分;U3為第3主成分;UP為第P主成分。
Step5:對載入的人臉圖像進(jìn)行幾何歸一化處理。假設(shè)載入的人臉圖像的像素點(diǎn)為m×n,則將像素儲存在列向量(X1,X2,X3,…)T中。
Step6:求的平均人臉:
(17)
訓(xùn)練樣本的協(xié)方差矩陣為
(18)
取差值向量
wi=xi-μx,
(19)
令
w=(w1,w2,w3,…,wn)。
(20)
Step7:投射到待檢測空間,則每幅圖像在特征空間的坐標(biāo)函數(shù)為
yi=UT(xi-μx)=UTwi,
(21)
式中
(22)
同樣可以將待測圖像xtest投射到特征子空間之中,
ytest=UT(xtest-μx)。
(23)
Step8:利用距離分離器進(jìn)行辨識,目標(biāo)函數(shù)為
minDist=min‖yi-ytest‖。
(24)
3.2 云計算平臺搭建
MATHEMATICACloud是針對正版MATHEMATICA軟件開發(fā)的云計算服務(wù)平臺,之所有沒有選擇常用的云計算平臺Hadoop,主要有4點(diǎn)原因:
1)MATHEMATICACloud面對付費(fèi)用戶,進(jìn)行了初步的信息篩選[12];
2)MATHEMATICACloud中涉及到大量的人文數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)、地理數(shù)據(jù),數(shù)據(jù)庫實(shí)施維護(hù),其真實(shí)性得到了保障[12];
3)面向互聯(lián)網(wǎng)具有自己的搜索引擎,其搜索引擎基于機(jī)器學(xué)習(xí)算法,對于信息具有很強(qiáng)的識別與篩選能力[13];
4)該軟件為付費(fèi)用戶提供了快捷便利的接口,只需要在客戶端上進(jìn)行程序編寫便可以自動導(dǎo)入云中進(jìn)行計算[14]。
表1 程序主要函數(shù)
表1展現(xiàn)了計算機(jī)人像識別程序的主要函數(shù)。利用這些函數(shù)可以對圖像進(jìn)行復(fù)雜的操作,并最終實(shí)現(xiàn)識別人像的目的。
依照上述算法(Alg1),開發(fā)計算機(jī)視覺軟件——COMPUTER_VISION,并利用COMPUTER_VISION進(jìn)行仿真驗(yàn)算,檢驗(yàn)本文算法(Alg1)的圖像識別能力,并同現(xiàn)在常用的計算機(jī)視覺算法——ASM(ActiveShapeModel)算法(Alg2)、KD-Tree算法(Alg3)、LMeds算法(Alg4)、M-estimators算法(Alg5)、RANSAC算法(Alg6)進(jìn)行對比。
4.1 對象識別能力
如圖1所示,給定COMPUTER_VISION一幅圖像,要求COMPUTER_VISION搜索出圖中最大的汽車并確定該對象對應(yīng)的英文名稱,且該名稱必須為美國俚語(真實(shí)結(jié)果為automobile)。
圖1 求圖中對象對應(yīng)的美國俚語
COMPUTER_VISION在錄入圖像之后,對圖像信息進(jìn)行提取,抽取其中對象(圖2(a)),并將無用背景進(jìn)行剔除,以減少計算量(圖2(b))。而后,將摳圖之后的對象上傳到MATHEMATICACloud并進(jìn)行搜索操作,尋找出對應(yīng)的結(jié)果,并將搜索結(jié)果傳遞回COMPUTER_VISION以訓(xùn)練學(xué)習(xí)函數(shù)。在對學(xué)習(xí)函數(shù)進(jìn)行訓(xùn)練之后,COMPUTER_VISION矯正圖像信息和關(guān)鍵字,上傳到MATHEMATICACloud進(jìn)行搜索,如此往復(fù)直至達(dá)到COMPUTER_VISION決策函數(shù)的要求。
根據(jù)圖2(b)的摳圖效果,COMPUTER_VISION給出了6組可能俚語,具體情形如圖3。在得到每一次俚語以及其對應(yīng)的概率之后,會對決策函數(shù)進(jìn)行一次訓(xùn)練,而后決策函數(shù)會對學(xué)習(xí)函數(shù)進(jìn)行決策以獲得下一次的搜索。
根據(jù)圖3可以看出,automobile為圖形中最大汽車的美國俚語名稱,與真實(shí)結(jié)果相同,說明COMPUTER_VISION的識別能力極佳。
(a)信息提取
(b)摳圖圖2 COMPUTER_VISION對輸入圖像進(jìn)行初步處理
圖3 6種可能俚語以及其對應(yīng)的概率
4.2 計算速度
圖4為hobbit1中的視頻截圖,圖中有些許半獸人和些許矮人,需要從中識別ThorinOakenshield(矮人領(lǐng)袖),故而在計算之時需要排除半獸人,從矮人之中再次尋找ThorinOakenshield。
圖4 尋找圖中的Thorin Oakenshield
用本文算法(Alg1)、ASM(ActiveShapeModel)算法(Alg2)、KD-Tree算法(Alg3)、LMeds算法(Alg4)、M-estimators算法(Alg5)、RANSAC算法(Alg6)分別進(jìn)行計算,統(tǒng)計計算時長,具體結(jié)果如圖5(6種算法皆尋找出ThorinOakenshield)。
圖5 6種算法的計算耗時
根據(jù)圖5可以看出,本文提出的算法(Alg1)的計算速度最快,耗時為0.73h;M-estimators算法(Alg5)的計算速度次之,耗時為5.69h;RANSAC算法(Alg6)計算速度最慢,耗時為11.02h??傮w而言,本文提出的算法(Alg1)的計算耗時是ASM算法(Alg2)的9.75%,是KD-Tree算法(Alg3)的11.35%,是LMeds算法(Alg4)的8.32%,是M-estimators算法(Alg5)的12.83%,是RANSAC算法(Alg6)的6.62%,說明本文提出的算法(Alg1)的計算速度遠(yuǎn)高于其他5種算法,這是因?yàn)镸ATHEMATICACloud中含有ThorinOakenshield的全部信息,在搜素與計算之時,本文提出的算法(Alg1)因?yàn)槭艿搅瞬粩嗟挠?xùn)練,導(dǎo)致其計算速度成指數(shù)型增長。
4.3 收斂情況
如果某種圖像識別算法可以識別出某種對象并且識別正確,說明該算法在該情況下收斂,否則稱該算法在該情況下不收斂,收斂情況代表了算法的健壯性。圖6為“十月圍城”的海報,需要從中識別所有演員的姓名(9人),因?yàn)楹蠡叶葐我弧⒐庹諒?fù)雜,某些算法在識別之時會出現(xiàn)識別不出或者識別錯誤的現(xiàn)象(算法在該情況下不收斂)。
圖6 識別圖中的演員姓名
根據(jù)圖7可以看出,本文算法(Alg1)識別出了所有演員,說明本文算法(Alg1)在9種情形下皆收斂??傮w而言,本文提出的算法(Alg1)的識別人數(shù)是ASM算法(Alg2)的900.00%,是KD-Tree算法(Alg3)的300.00%,是LMeds算法(Alg4)的150.00%,是M-estimators算法(Alg5)的112.50%,是RANSAC算法(Alg6)的112.50%,說明本文提出的算法(Alg1)的函數(shù)收斂數(shù)目遠(yuǎn)高于其他5種算法,這是因?yàn)楸疚乃惴?Alg1)提取了圖像的關(guān)鍵信息,對灰度、光照的規(guī)避效果較好。
圖7 6種算法的收斂情況/人
4.4 識別精度
對于同一對象不同狀態(tài)下的圖像,利用圖像識別算法判斷對象任意兩種狀態(tài)下的相似程度。圖8共有5幅圖像,皆為DaenerysTargaryen的形象。對于任何一種算法,計算任意兩幅圖之間的相似程度,共10組數(shù)據(jù),取其平均值,該平均值便代表了識別效果的精確度。
根據(jù)圖9可以看出,本文算法(Alg1)識別精度最高,精度為0.992 524 055 242 956。其次為RANSAC算法(Alg6),精度為0.599 258 852 233 269。LMeds算法(Alg4)的識別精度最差,精度為0.053 063 821 090 275 2??傮w而言,本文提出的算法(Alg1)的識別精度是ASM算法(Alg2)的194.79%,是KD-Tree算法(Alg3)的175.87%,是LMeds算法(Alg4)的1 870.43%,是M-estimators算法(Alg5)的303.70%,是RANSAC算法(Alg6)的165.63%,說明本文提出的算法(Alg1)的識別精度遠(yuǎn)高于其他5種算法。
圖8 判斷5幅圖之間的相似程度
本文基于機(jī)器學(xué)習(xí)的思想,將MATHEMATICACloud作為該學(xué)習(xí)機(jī)的計算云,開發(fā)計算機(jī)視覺軟件COMPUTER_VISION,驗(yàn)證利用COMPUTER_VISION的對象識別能力,并從計算速度、收斂情況、識別精度等方面與現(xiàn)在常用的識別算法進(jìn)行對比,結(jié)果顯示:
圖9 6種算法的識別精度
1)本文算法(Alg1)可以根據(jù)設(shè)定條件對圖形對象進(jìn)行摳圖、搜索、計算,能夠獲得圖形對象特定條件下的名稱。
2)本文算法(Alg1)計算速度最快,其計算耗時是ASM算法(Alg2)的9.75%,是KD-Tree算法(Alg3)的11.35%,是LMeds算法(Alg4)的8.32%,是M-estimators算法(Alg5)的12.83%,是RANSAC算法(Alg6)的6.62%。
3)本文算法(Alg1)可以做到絕對收斂,識別人數(shù)是ASM算法(Alg2)的900.00%,是KD-Tree算法(Alg3)的300.00%,是LMeds算法(Alg4)的150.00%,是M-estimators算法(Alg5)的112.50%,是RANSAC算法(Alg6)的112.50%。
4)本文算法(Alg1)識別精度最高,是ASM算法(Alg2)的194.79%,是KD-Tree算法(Alg3)的175.87%,是LMeds算法(Alg4)的1 870.43%,是M-estimators算法(Alg5)的303.70%,是RANSAC算法(Alg6)的165.63%。
[1] 王海燕,張瑜慧.基于機(jī)器視覺的顆粒識別計數(shù)[J].長春工程學(xué)院學(xué)報:自然科學(xué)版,2013,14(4):101-104.
[2]MalikJ,ArbeláezP,CarreiraJ,etal.ThethreeR’sofcomputervision:recognition,reconstructionandreorganization[J].PatternRecognitionLetters,2016,72:214-217.
[3]GiovanniMariaFarinella.Specialissueonassistivecomputervisionandrobotics-partI[J].ComputerVisionandImageUnderstanding,2016(148):1-2.
[4]DavidGStork,CoddingtonJim,Bentkowska-kafelAnna.ComputerVisionandImageAnalysisofArtⅡ[C].//ProceedingsIS&T/SPIEElectronicImagingScierceandTechnology.SanFrancisco,California,UnitedStates:IS&T-TheSocietyforImagingScienceandTechnology,2011.
[5]MorrisonC,HuckvaleK,CorishB,etal.Assessingmultiplesclerosiswithkinect:designingcomputervisionsystemsforreal-worlduse[J].Human-ComputerInteraction,2016,31(314):1-36.
[6]UngaisalánkiR,GerecseiT,FürjesP,etal.Automatedsinglecellisolationfromsuspensionwithcomputervision[J].ScientificReports,2016(6):20375.
[7]Bastidas-RodriguezMX,Prieto-OrtizFA,EspejoE.Fractographicclassificationinmetallicmaterialsbyusingcomputervision[J].EngineeringFailureAnalysis,2016,59:237-252.
[8]FerrazA,BritoJH,CarvalhoV,etal.Bloodtypeclassificationusingcomputervisionandmachinelearning[J].NeuralComputing&Applications,2016,27:1-12.
[9]BhanjaS,KarunaratneDK,PanchumarthyR,etal.Non-Booleancomputingwithnanomagnetsforcomputervisionapplications[J].NatureNanotechnology,2016(11):177-183.
[10]GiovanniMariaFarinella,TakeoKanade,MarcoLeo,etal.Specialissueonassistivecomputervisionandrobotics-“assistivesolutionsformobility,communicationandHMI”[J].ComputerVisionandImageUnderstanding,2016(149):1-2.
[11] 王俊奇,李闖,董曄.Bishop法的半解析解及其廣義數(shù)學(xué)模型[J].水利與建筑工程學(xué)報,2015(6):123-128.
[12]JanuszRosiek.MassToMI—AmathematicapackageforanautomaticmassInsertionexpansion[J].ComputerPhysicsCommunications,2016,201:144-158.
[13]VladimirV,Bytev,BerndA.Hyperdire-hypergeometricfunctionsdifferentialreduction:mathematica-basedpackagesforthedifferentialreductionofgeneralizedhypergeometricfunctions:lauricellafunctionFCFCmathcontainerloadingmathjax,ofthreevariables[J].ComputerPhysicsCommunications,2016,206:78-83.
[14]FinardiEC,TakigawaFYK,BritoBH.Assessingsolutionqualityandcomputationalperformanceinthehydrounitcommitmentproblemconsideringdifferentmathematicalprogrammingapproaches[J].ElectricPowerSystemsResearch,2016(136):212-222.
A New Computer Vision Algorithm
JIA Run-liang
(InformationInstitute,ShanxiFianceandTaxationCollege,Taiyuan030024,China)
By the commission of the computer vision project of ant gold service,in order to improve the recognition efficiency of the computer vision and accuracy,using the idea of machine learning to develop automatic evolution image learning machine,this article uses Mathematica cloud as the computing cloud,search cloud of this modified learning machine,makes learning function and decision function embed into the learning machine in order to achieve the calculation and search by inputting image and importing Mathematica Cloud to learning machine.By using the search results to exercise the learning function of the learning machine,by using the calculated results to exercise decision-making function of learning machine,in order to achieve high efficiency recognition speed and high accuracy rate of recognition effect.Based on the calculating example provided by ant gold service,the simulation experiment has been carried on and compared with the common recognition algorithm from calculation speed,convergence and identification precision.The results show that image recognition ability is quite good in the new algorithm proposed in this paper.Compared with the traditional algorithm,this algorithm has faster computing speed,absolute convergence,and much higher than traditional algorithm in recognition accuracy.
Cloud MATHEMATICA;machine learning;decision function;recognition accuracy
10.3969/j.issn.1009-8984.2016.04.029
2016-10-12
賈潤亮(1973-),男(漢),山西陽曲,講師 主要研究人工智能,計算機(jī)應(yīng)用。
TP391
A
1009-8984(2016)04-0112-06