于洋 楊枝茂++孫宗鑫 干書偉
摘要:由于國家城市智能化的大趨勢,計算機視覺作為一門新興的學科獲得了越來越多的關注,隨著理論算法和技術問題的不斷突破,計算機視覺也逐漸邁向了商業(yè)化的方向,本文對其關鍵的技術進行了闡述,并且對其商業(yè)化的方向進行了研究,并得到了一些有益的結論。
關鍵詞:計算機視覺;圖像處理;商業(yè)化
中圖分類號:TP39 文獻識別碼:A 文章編號:1001-828X(2016)024-000-01
計算機視覺是一門綜合性的學科,綜合了圖像信號處理、模式識別、人工智能等領域的專業(yè)知識。要實現(xiàn)計算機視覺的目的,首先要完成圖像的處理工作,然后要完成對于圖像的理解的工作。對于圖像處理來說,它屬于信號處理領域的范疇,對圖像簡單的處理包括濾波,分割和融合等。其次,要完成對于圖像的理解的工作。
計算機視覺是由計算機和圖像處理兩個方向的知識的交叉和融合的產物,對于圖像處理,主要就是兩個層次:1. 像素層次,就是針對圖像本身像素的灰度和顏色特征進行處理,包括壓縮、分割、增強、復原,都是這一類。這幾個方向已經研究的非常成熟了。2. 內容層次,從圖像的像素特征找出其代表的內容,包括特征提取,感興趣范圍提取,圖像理解等等,這個方面要和應用結合很強,又涉及到模式識別,人工智能,專家知識,機器學習、數(shù)據(jù)挖掘等方面。
對于圖像的理解工作主要是由智能算法來實現(xiàn)的,智能算法比較流行的主要是機器學習算法,機器學習包括淺層機器學習和深層機器學習,常見的支持向量機、Boosting、最近臨等分類器都屬于淺層學習算法[1-3],而在最近幾年,深度學習算法諸如深度卷積網絡的算法獲得了巨大的成功。其中,包括著卷積和池化兩個步奏。對于池化來說,顧名思義,就是將數(shù)據(jù)分組放在一起。值得一提的是,小米研發(fā)人員取得了FDDB全球第一成績[4]。這項以萬韶華博士為首的小米團隊研發(fā)的新算法就是基于深度卷積檢測網絡。FDDB是由馬薩諸塞大學計算機系維護的全世界最具權威的人臉檢測評測平臺。它為來自全世界的研究者提供一個標準的人臉檢測評測平臺,其中涵蓋在自然環(huán)境下的各種姿態(tài)的人臉。該校還維護了LFW等知名人臉數(shù)據(jù)庫供研究者做人臉識別的研究。
近些年,對于只能算法的研究不僅集中在理論上的突破,同時,也有著工程應用方面的前進。在工程應用領域,很多公司也取得了長足的進展,并實現(xiàn)著很多工程實際難題的克服上,其應用的領域包括:1.機器視覺,主要應用在工業(yè)自動化的領域,其代表公司有瑞典的ABB公司。2.無人駕駛,主要引用在汽車工業(yè)領域,完成汽車的智能化,讓汽車看懂并理解一切,其典型的代表包括特斯拉,谷歌和百度等。3.醫(yī)療器械,主要通過機器的圖像理解來為計算機提供診斷的能力,實現(xiàn)醫(yī)療器械的智能化。其典型的代表公司有邁瑞醫(yī)療。4.智能視頻監(jiān)控,主要通過攝像頭來完成對行人的人臉識別、犯罪跟蹤、異常行為分析、甚至是情感檢測。這個可以用于智能交通和公安事業(yè)用來做人流分析、犯罪預防等。5、農業(yè),主要用于智能農業(yè),可以將患病的飼養(yǎng)動物及時挑出,避免疾病的傳染等。同時,也可以裝備在無人機上,用來預警和監(jiān)測病蟲害的發(fā)生。
跟計算機視覺相關領域的國內公司有以下幾個:
格靈深瞳,其公司的目標是打造自然世界的搜索引擎。格靈深瞳是一家計算機視覺與人工智能公司,致力于讓計算機看懂世界,用廣泛的視覺傳感器網絡,構建真實世界的搜索引擎。目前公司已將其應用到了安防監(jiān)控和智能交通領域。格靈深瞳將三維計算機視覺和深度學習技術應用于商業(yè)領域,自主研發(fā)的深瞳技術在人和車的檢測、跟蹤與識別方面居于世界領先水平。該公司主推的兩種產品行為分析儀和車輛特征分析系統(tǒng)也在很多領域得到了廣泛的應用。
彩云天氣,其公司的目標是通過人工智能打造分鐘級天氣預報。彩云天氣是用人工智能做天氣預報的團隊。通過手機定位到用戶所處的位置,利用人工智能算法,對覆蓋全國的雷達圖進行數(shù)據(jù)分析并預測。用戶能隨時得知自己所在街道的分鐘級天氣走勢。這也將很大程度上的改變用戶的體驗,同時對數(shù)據(jù)分析的精準程度提出了更大的挑戰(zhàn)。
Linkface,其公司的目標是打造全球領先的人臉檢測。Linkface提供全球領先的人臉檢測、識別技術服務,曾獲得FDDB(Face Detection Data Set and Benchmark)人臉檢測公開測試世界第一,300-W Benchmark 準確率世界第一,LFW人臉識別準確率已達99.5%以上。這個程度的人臉識別準確率已經可以與肉眼的人臉識別率不相上下。人臉識別應用在諸多領域,如身份識別和智能交通等領域。人臉識別技術也是消除用戶名和密碼的一個重要途徑。Linkface 憑借在人臉識別領域數(shù)年的技術累積,在大數(shù)據(jù)和深度學習的驅動下,成功搭建了一套高效穩(wěn)定的人臉分析系統(tǒng),囊括了人臉檢測、人臉關鍵點檢出、人臉識別、人臉屬性分析、活體檢測等全套身份認證所需技術。
飛搜科技,其公司的目標是打造最好的在線人臉識別引擎。飛搜科技公司是一個以科技創(chuàng)新,自主研發(fā),把機器學習,尤其是深度學習的研究成果應用到人臉識別、圖像識別、視頻內容識別等領域的高科技公司。
這些如雨后春筍般崛起的高科技公司,正代表了計算機視覺發(fā)展的方向,也將理論研究的結果付諸以實踐,通過實踐來驗證理論研究的結果,并且開辟了許多新的方向。從這些公司研究的方向可以看出,人臉識別技術是非常重要的基礎,也是很多人機交互型設備的入口,搶占這個入口,才有可能在此的基礎上對技術進行延伸和擴展。
參考文獻:
[1]曹瑩,苗啟廣,劉家辰,高琳.具有Fisher一致性的代價敏感Boosting算法[J].軟件學報.2013,24(11):2584-2596.
[2]李岳云,許悅雷,馬時平,史鶴歡.深度卷積神經網絡的顯著性檢測[J].中國圖形圖像學報.2016,21(1):53-59.
[3]芮挺,費建超,周游,方虎生,朱經緯.基于深度卷積神經網絡的行人檢測[J].計算機工程與應用.2016,52(13):162-166.
[4]白彥壯,郭磊,殷春紅.企業(yè)家精神驅動下自主知識產權品牌成長機制研究[J].2015,32(12):79-85.
基金項目:國家青年自然科學基金(批準號:61501134)和國家青年自然科學基金(批準號:11304056)資助的課題。