蘋果iPhone 12 Pro系列的相機模組一共有5個“窟窿”,除了主攝、超廣角和長焦鏡頭各占其一以外,另外兩個“窟窿”內(nèi)則嵌入了閃光燈和L i DA R(圖2)。通過iPhone 12 Pro的拆機圖可見,LiDAR單元的體積不小,基本等同于一顆普通的攝像頭(圖3),而我們本文的目的,就是全面分析一下這個單元的用途和意義。
自NPU和AI概念進(jìn)入智能手機領(lǐng)域,后者便獲得了更強的“感知”能力。比如,拍照時系統(tǒng)會感知當(dāng)前拍攝場景自動完成參數(shù)優(yōu)化;當(dāng)我們點亮屏幕的瞬間,前置攝像頭(包括結(jié)構(gòu)光模塊)會感知面前的用戶是不是主人,如果是就可以自動解鎖。而感知的提升,還離不開手機的“3D取景”能力。
在過去的很長一段時間,手機只能感知2D畫面,隨著AI算法的成熟,可以在一定程度上識別相對立體的畫面。比如很多手機只用一顆前置攝像頭就能進(jìn)行人臉識別,而且還具備一定的安全等級,像只有睜眼時才能解鎖、防止使用人臉照片解鎖等等(圖4)。但是,想利用人臉識別進(jìn)行金融級別的支付能力,還必須搭配其他識別模塊,真正讓手機可以感知3 D立體畫面。
在LiDAR上臺之前,咱們先來了解一下手機如何才能感知立體空間。
雙目相機即同時搭配兩顆(或更多)攝像頭(圖5),兩個攝像頭拍攝同一物體,因為攝像頭之間存在空隙(也包括焦距上的差異),理論上就可以構(gòu)建出一個物體的三維模型,還能在一定程度上偵測物體的遠(yuǎn)近,也是實現(xiàn)“硬件級”背景虛化能力的基礎(chǔ)。但是,雙目相機只能識別層次,無法測算具體的距離,而且CMOS傳感器需要有足夠多的光線才能清晰成像,在暗光下就基本“殘廢”了,因此該方案的成就上限也就是簡單的A R合影和AR萌拍。
從iPhone X開始,蘋果之所以堅持劉海屏設(shè)計,就是為了同時嵌入包括紅外鏡頭、泛光感應(yīng)元件和點陣投影器在內(nèi)的“結(jié)構(gòu)光模組”(圖6),通過點陣投影器發(fā)射出來的數(shù)萬個光點投影進(jìn)行高精度的面部三維建模(分辨率可達(dá)1280×800像素,夜間也能正常工作),從而實現(xiàn)更安全的人臉識別能力。但是,結(jié)構(gòu)光投射的是一簇簇的光線,如果距離過遠(yuǎn)光線就會發(fā)散從而失去識別能力,因此這種3D感知方案存在嚴(yán)格的距離限制(1米以內(nèi)),目前比較成熟的方案就是將結(jié)構(gòu)光模塊前置,用于面部解鎖、面部支付、3D美顏以及類似Animojis的3D表情制作等。
我們可以將ToF方案(Time of flight,飛行時間測距法)理解為結(jié)構(gòu)光的進(jìn)階版,它的基本原理是通過專用傳感器,給目標(biāo)連續(xù)發(fā)送光脈沖,然后用傳感器接收從物體返回的光,最終通過探測光脈沖的飛行(往返)時間來得到目標(biāo)物距離。只要發(fā)射的光脈沖能完全覆蓋測量物,通過算法就能得到物體的3D成像。
和結(jié)構(gòu)光投射的一簇簇點陣光線不同的是,ToF投射的是一整個面的光,根據(jù)紅外線的反射時間來計算深度信息,發(fā)射器與攝像頭越近精度就越高(圖7),有效工作距離達(dá)5米,可以進(jìn)一步擴展3D視覺成像應(yīng)用的范圍和潛力。當(dāng)然,ToF方案也存在不少缺陷,比如環(huán)境光過強會影響反射信號的探測,分辨率隨距離的增加會越來越較低(240×180像素左右)。
理論上,ToF方案最適合后置,也就是和后置攝像頭做鄰居,從而實現(xiàn)3D美顏、AR裝潢、AR游戲、體感游戲、全息影像交互等功能。當(dāng)然,現(xiàn)實中也有部分產(chǎn)品會將ToF前置用于人面識別,但想達(dá)到金融級別的刷臉支付能力還需要搭配額外的紅外傳感器來解決分辨率過低的問題。
蘋果的LiDAR方案在iPad Pro 2020的宣傳中曾被稱為“Light Detection and Ranging”(光探測和測距),只是在推廣iPhone 12 Pro系列時才改為更具科技感的“激光雷達(dá)”。它的基本原理是,通過測量光觸及物體并反射回來所需的時間來確定距離。
看起來很熟悉?沒錯,LiDAR其實就是ToF。
不一樣的ToF
前文我們說過,ToF是飛行時間測距法。但是,ToF往下還能進(jìn)一步細(xì)分為“直接飛行時間”(directToF,簡稱dToF)和“間接飛行時間”(indirectToF,簡稱iToF)。在蘋果之前,Android一眾手機采用的ToF方案都是“iToF”,而蘋果采用的方案則是“dToF”,由于兩種方案在成像精度上的差異較大,所以蘋果才有底氣為其取了一個更酷的LiDAR激光雷達(dá)稱號。
簡單來說,無論蘋果LiDAR(dToF)還是Android手機常用的ToF(iToF),都是由發(fā)射端(垂直腔面發(fā)射激光器)和接收端(定制的CMOS傳感器)組成,前者發(fā)出的光經(jīng)反射被后者接收,光速經(jīng)歷的這段時間即飛行時間(圖8)。
問題來了,iToF方案中的發(fā)射端發(fā)射的并非直來直去的激光束,而是一種經(jīng)過了正弦波調(diào)制,明暗強度呈現(xiàn)規(guī)律變換的光信號,光線的飛行時間會因正弦波的特性而被延長,還會影響成像的精度(分辨率低),而且這種影響會隨距離的增加而變得更大。反觀dToF,其發(fā)射端發(fā)射的則是筆直的脈沖激光,比雷達(dá)利用的無線電波波長更短、頻率更高,可以反射出分辨率更高且更精準(zhǔn)的圖像(圖9),成像更快延遲更低。
iToF方案能在Android手機圈普及的最大原因就是成本低,它的發(fā)射端不需要特殊的高速傳感器(圖10),接收端使用最普通的小尺寸CMOS也能搞定,但代價就是距離不超過5 米,而且測量精度和分辨率低等問題。
dTo F方案的發(fā)射端和接收端使用的傳感器都需要重新定制,才能滿足更遠(yuǎn)距離(理論最高200米,但蘋果LiDAR方案的有效距離依舊是5米左右)和更好的抗干擾能力,成本自然也會更高一些。在蘋果將dToF引入到平板電腦和智能手機領(lǐng)域之前,dToF早已被廣泛應(yīng)用在汽車領(lǐng)域,特斯拉的自動駕駛、索尼Vision-S概念車的無人導(dǎo)航測距、科沃斯地寶T8AIVI掃地機器人主打的TrueMapping全局規(guī)劃技術(shù)都離不開dToF模塊的輔助。
了解了dToF的技術(shù)原理,下面我們要討論的重點就是,基于該方案的LiDAR到底能干啥。
LiDAR的主要工作場景包括優(yōu)化拍照、3D掃描和AR應(yīng)用。理論上,LiDAR能干的事情,傳統(tǒng)iToF方案也能實現(xiàn)。但是,由于二者在5米范圍采集成像精度和延遲方面存在較大差距,在實際體驗層面的差異將被進(jìn)一步放大。
以優(yōu)化拍照為例,無論多攝方案還是iToF都能帶來硬件級的背景虛化效果,但前者在夜間(光線不足時)可能連對焦都無法完成,后者雖然可以解決夜間拍人像的問題,但受制于分辨率和精度,人物(或其他拍攝主體)在背景虛化邊緣可能存在明顯的“摳圖”痕跡。而在LiDAR的幫助下,無論環(huán)境光線怎樣變化(白天夜晚)都能帶來更好的景深控制,比如人物的發(fā)絲和考驗細(xì)節(jié)的畫面過渡會更加自然(圖11),最大限度減小摳圖痕跡的情況。
蘋果早在2017年就推出了針對AR(AugmentedRealit,增強現(xiàn)實)的ARkit開發(fā)套件,并在后置多攝和結(jié)構(gòu)光模塊的幫助下實現(xiàn)了很多AR應(yīng)用。現(xiàn)在有了LiDAR,可以讓設(shè)備更快進(jìn)入AR應(yīng)用環(huán)境,減少等待時間,更精準(zhǔn)的測距表現(xiàn)還能讓AR應(yīng)用虛實結(jié)合得更逼真,提供更好的遮擋表現(xiàn)等等(圖12)。在過去,我們想對房屋內(nèi)的家具或其他物品進(jìn)行3D掃描,需要不斷調(diào)整位置、方向和距離。在LiDAR的幫助下,可以大大簡化上述操作的流程,并讓3D掃描成像的精度更高,細(xì)節(jié)表現(xiàn)更完美。
總的來說,LiDAR和iToF相比體現(xiàn)了“人無我有,人有我優(yōu)”的思路,封閉的iOS生態(tài)也有利于與LiDAR相關(guān)的軟硬件生態(tài)建設(shè),比如在iPhone12Pro剛發(fā)布不久Snap就宣布旗下內(nèi)容創(chuàng)作平臺SnapLenses3.2版本正式兼容LiDAR模組,創(chuàng)作者可創(chuàng)作出更身臨其境的AR體驗(圖13)。反觀Android手機圈,可以完美調(diào)度ToF(如果有)的應(yīng)用多見于手機廠商自己開發(fā)的小程序。
根據(jù)歷史的經(jīng)驗,每當(dāng)蘋果設(shè)備引入一項新功能或技術(shù)后,它大概率會被Android同行借鑒參考。LiDAR自然也不例外,雖然現(xiàn)在dToF定制的傳感器成本較高,但只要有市場需求其成本很快就會降下來。希望隨著5G網(wǎng)絡(luò)的普及,可以讓擁有更強3D感知能力的LiDAR(dToF)技術(shù)和AR相關(guān)應(yīng)用走向成熟。