李嘉文
與臺灣供應鏈關系密切的蘋果分析師Brain White在給投資者的一份說明中表示,因OLED顯示屏和3D傳感前置攝像頭所需復雜工藝帶來的挑戰(zhàn),下一代iPhone將會延遲幾周上市。
今年3月,美國多家媒體報道,新一代iPhone將采用“革命性”的3D深度攝像頭。普通的攝像頭只能獲取顏色信息并對其數(shù)據(jù)化,而3D深度攝像頭則不僅能感知顏色,對空間—即三維的位置和尺寸信息也有“感覺”。也就是說,如果電子設備或機器人裝上了這種攝像頭,它就可以擁有近乎于人類的視覺,能夠更好地和外界做各類交互。
截至目前,計算機視覺技術的發(fā)展并不十分完善。2015年7月,Google的照片管理應用Google Photos就曾犯下一個嚴重的錯誤,它把兩名黑人標注為“大猩猩”。當時Google的首席社交架構(gòu)師Yonatan Zunger對此事專門道歉,并且表示他們正在努力改善膚色識別技術。而很多自動駕駛汽車在路測中遇到事物,也是對迎面而來的物件識別錯誤,甚至會導致事故。
其實,很多公司已開始投入到視覺領域里,特別是深度攝像領域。比如以色列技術公司PrimeSense,它在2006年研發(fā)出3D傳感器,隨后與微軟合作共同開發(fā)出體感設備Kinect,最終于2013年又以3.45億美元的價格被蘋果收購。此外,英特爾的RealSense以及Google的Project Tango項目也在做相關技術研究。
深度攝像頭可以捕捉人的動作,比如你可以用手勢和動作來控制電腦或者電視。目前,這個領域最成熟的技術,使用的是一個單目攝像頭加上結(jié)構(gòu)光的方案,Kinect用的就是這個技術結(jié)構(gòu)。結(jié)構(gòu)光是向檢測空間內(nèi)投射經(jīng)過編碼的激光光斑陣列,標定空間并輔助計算三維空間位置,隨后經(jīng)過一系列算法處理形成機器視 覺。
不過,類似結(jié)構(gòu)也有不足。由于它完全依賴結(jié)構(gòu)光定位,如果在戶外拍攝就容易受到干擾?!坝绕涫怯嘘柟獾牡胤交蛘呤嵌嘣O備之間的干擾,這無法避免?!眻D漾信息科技有限公司的創(chuàng)始人費浙平對《第一財經(jīng)周刊》說。圖漾是一家專業(yè)從事計算視覺的中國公司。
為了解決這個不足,以及規(guī)避專利侵權(quán)—這個領域的幾家大公司的技術大多都是封閉的,并沒有開放給其他公司使用—圖漾正在嘗試用“結(jié)構(gòu)光+雙目攝像頭”的技術實現(xiàn)景深計算,這也被稱為主動雙目技術。
該技術本質(zhì)上是一個在結(jié)構(gòu)光系統(tǒng)上疊加雙攝像頭的系統(tǒng),因此對三維空間的測算可以不依賴于光,而是依靠左右兩個攝像頭形成圖像后的比較。其實這和人眼感知環(huán)境的方式相同—左右兩眼捕捉圖像,然后通過比較兩幅有細微差別的圖尋找相對應的點,隨后算出被攝物體在深度的距離差別,從而獲取景深信息。這樣做的精度要超過單攝像加結(jié)構(gòu)光的產(chǎn)品,可以達到毫米級別。
圖漾或許是受了硅谷公司Leap Motion的啟發(fā),這家技術公司曾受資本熱捧,其研發(fā)的手勢識別產(chǎn)品使用的就是雙目攝像頭。圖漾的區(qū)別是,它還保留了結(jié)構(gòu)光,這使設備在黑暗環(huán)境下依舊能夠保證測算的精度。
“結(jié)構(gòu)光+雙目攝像頭”需要的是一套全新的算法。單攝像頭技術基本上就是與存儲好的光編碼匹配,只需要不斷優(yōu)化結(jié)構(gòu)光的編碼,成像的質(zhì)量也就能優(yōu)化,而這個算法已經(jīng)有了一套相對固定的內(nèi)容。但如果采用雙攝像頭,則無法提前知道所要計算的環(huán)境如何。
除了體感游戲,深度攝像頭還有很多應用領域。比如在安防領域,深度攝像頭可對所拍攝人作行為分析,通過這些動作軌跡識別出人背后的意圖,從而提前預警。在物流倉儲領域,它可以用來實時檢測包裹的大小,計算倉庫的空間,提供最佳的擺放建議等。
而機器人領域則更加容易想象,可以實現(xiàn)視覺導航、規(guī)劃路徑、避障等功能。例如送餐機器人,它想要自由行走,就需要實時感知存在空間的環(huán)境,避免撞到人或者是其他物體,這就需要有機器視覺來幫助。而在無人駕駛領域,目前在這個行業(yè)大多使用超聲波雷達技術收集周圍環(huán)境,如果采用3D傳感器,也能為車輛提供更為精確的環(huán)境感知能力。
但不同的使用場景對深度攝像頭的要求并不一樣,有時甚至需要“定制”。其關鍵技術指標主要有鏡頭視角、最大檢測距離、檢測精度和檢測速度四項。
有分析認為,最為成熟的單目攝像頭結(jié)構(gòu)光方案,更適合工業(yè)化的產(chǎn)品;雙目立體成像是一種比較新的技術,更適合室外強光條件和高分辨率應用,目前主要應用在機器人視覺、自動駕駛等方面。將兩種技術做了一定結(jié)合的圖漾,則會在基礎平臺上根據(jù)客戶的應用場景給產(chǎn)品搭載不同的光學系統(tǒng),光學系統(tǒng)決定了產(chǎn)品使用的距離、角度等。當然,由于既保證了一定的精確度,又可在較暗的環(huán)境下拍攝,它也較適合應用在移動端的產(chǎn)品上,不過目前研究這種技術方案的公司并不多。
除了“結(jié)構(gòu)光+雙目攝像頭”,還有一種更成熟的技術方案也較適合移動端,名為TOF系統(tǒng),即一種光雷達系統(tǒng),它可從發(fā)射極向?qū)ο蟀l(fā)射光脈沖,接收器則可通過計算這個過程中的光脈沖,再以像素格式返回到接收器的運行時間來確定被測量對象的距離。TOF系統(tǒng)可確定3D范圍影像,再利用測量得到的對象坐標創(chuàng)建3D影像。它同樣具有深度信息精度高、不容易受環(huán)境光線干擾的優(yōu)點。事實上,這也是微軟第二代Kinect以及Google的Project Tango遵循的技術原理。
如果下一代iPhone使用3D攝像頭,它就可以實現(xiàn)諸如3D拍攝、面部識別,甚至是虹膜識別等功能。而現(xiàn)在新一代iPhone推遲上市的消息,也反映了這種技術目前在產(chǎn)品量產(chǎn)上的一些困難,比如工藝的復雜度會增加一些制造流程,同時,對于移動端來說,搭載3D深度攝像頭后,其功耗較大,對電池也提出了新的考驗。
當然,如果上述功能真的能夠在智能手機上實現(xiàn),這當然是值得等待的—畢竟,iPhone在硬件上已經(jīng)很久沒有“革命性”的創(chuàng)新了。