馬 薈
這是一個(gè)關(guān)于“在中國為美國人打工的日本人”的故事,他用計(jì)算機(jī)重現(xiàn)了光和影,反射和消解、運(yùn)動(dòng)和穩(wěn)定的數(shù)字世界,而這些,也正是微軟亞洲研究院基礎(chǔ)研究的魔力。
物體為什么會(huì)呈現(xiàn)出人們所看到的視覺效果?經(jīng)過多重反射后,光線將怎樣變化?如何讓計(jì)算機(jī)把真實(shí)世界里的物理原理數(shù)字化表現(xiàn)出來?這些都是松下康之在微軟亞洲研究院工作時(shí)要思考的問題,攝像機(jī)拍攝出的畫面抖動(dòng)看不清怎么辦?松下康之也遇到過生活提出的小挑戰(zhàn)。
松下康之用研究員的“專屬語言”解釋道,“低層視覺研究”和“滿幀視頻穩(wěn)定技術(shù)”可以很好地回答和解決上面問題?!斑@也正是我所從事的兩個(gè)研究方向:一個(gè)是光度學(xué),另一個(gè)是視頻分析,”微軟亞洲研究院視覺計(jì)算組主管研究員松下康之說,“兩者之間并沒有十分緊密的聯(lián)系,但這也正是有趣的地方?!?/p>
從東京大學(xué)的博士到微軟亞洲研究院實(shí)習(xí)生、從日本東京到北京的希格瑪大廈、從電氣工程學(xué)專業(yè)到以物理學(xué)為基礎(chǔ)的計(jì)算機(jī)視覺和視頻分析與合成。事實(shí)上,這種“毫無關(guān)系”所帶來的驚喜與巧合也貫穿于松下康之的經(jīng)歷之中。于是,松下康之給記者講述了一個(gè)充滿偶然與必然、選擇與堅(jiān)持的故事。言語間,流露出日本文化的嚴(yán)謹(jǐn)、美國式的活潑和與在微軟亞洲研究院的中國研究員一樣的親切與隨和。
邂逅未來
微軟亞洲研究院院長洪小文曾說過:“創(chuàng)新更多的是意外”。而松下康之與微軟亞洲研究院的緣分,正是充滿著這種“必然的意外”。
在東京大學(xué)讀書的時(shí)候,松下康之本科、碩士、博士的專業(yè)方向都是電氣工程。那時(shí),松下康之已經(jīng)研究了智能交通系統(tǒng)?!暗牵乙庾R(shí)到自己想做一些更加基礎(chǔ)的研究,并且希望可以把這些研究應(yīng)用到不同的事情上。”在博士畢業(yè)前兩年,松下康之就發(fā)現(xiàn)了自己對(duì)計(jì)算機(jī)視覺領(lǐng)域的濃厚興趣。而電氣工程與計(jì)算機(jī)科學(xué)聯(lián)系緊密,計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)和軟件都有學(xué)習(xí),所以對(duì)于松下康之來說,從電氣工程轉(zhuǎn)到計(jì)算機(jī)視覺并不是一個(gè)很大的跨越。
2002年,當(dāng)時(shí)松下康之還在讀博,在一次國際性的計(jì)算機(jī)視覺大會(huì)上,他見到了時(shí)任微軟亞洲研究院副院長的沈向洋,“我之前就認(rèn)識(shí)他,還知道他在計(jì)算機(jī)視覺領(lǐng)域非常有名。我希望能有機(jī)會(huì)與他一起工作,學(xué)到更多東西?!庇谑?,松下康之向沈向洋毛遂自薦,“意外地”成了一名微軟亞洲研究院的實(shí)習(xí)生,經(jīng)過4個(gè)月的實(shí)習(xí)生活之后,松下康之發(fā)現(xiàn)自己已經(jīng)喜歡上了這里的研究環(huán)境和生活,就這樣,在微軟亞洲研究院的工作開始了。
如何用科技來解決實(shí)際問題,從而改變更多人的生活,一直是微軟亞洲研究院的初衷。生活也不斷地給松下康之帶來靈感和意外的收獲。
其中,“滿幀視頻穩(wěn)定技術(shù)”的“誕生”就源于松下康之的婚禮——用手持的攝像機(jī)拍攝的婚禮畫面是搖晃的,看起來很不舒服,新婚妻子對(duì)婚禮錄像效果很不滿意,松下康之就想通過研究解決視頻顫抖的問題?!艾F(xiàn)有的數(shù)字影像鑲嵌技術(shù)可以對(duì)畫面進(jìn)行穩(wěn)定性處理,但如果物體移動(dòng),這種在場景固定的情況下才能實(shí)現(xiàn)的方法就不可行了。而通過‘滿幀視頻穩(wěn)定技術(shù),丟失掉的像素被自然的補(bǔ)充上了。”同理,還可以去除覆蓋在視頻上的文字、鏡頭上的污點(diǎn),來補(bǔ)上丟失的像素。
科技的光影魔術(shù)
“視頻分析在不久的將來將變得更加重要,因?yàn)閳D像和視頻的界限已經(jīng)越來越模糊,我相信最后一切都將變成視頻?!彼上驴抵畬?duì)記者說。
微軟亞洲研究院的計(jì)算機(jī)視覺包括:高層視覺(如人臉識(shí)別技術(shù))和低層視覺(如光度學(xué),即研究光線與物體的相互作用),松下康之的研究方向?qū)儆诤笳摺?/p>
“光度學(xué)也非常重要,因?yàn)槿绻覀儾幻靼住蛯由习l(fā)生了什么,就無法在‘高層視覺研究上取得突破,所以‘低層視覺研究是非常基礎(chǔ)的。如果“低層視覺”發(fā)展了,那么“高層視覺”也會(huì)隨之發(fā)展。”
雖然是“肉眼”難以察覺的變化,但是松下康之卻給記者描述了光度學(xué)形象的應(yīng)用——3D復(fù)原和現(xiàn)實(shí)物體數(shù)字化。而要實(shí)現(xiàn)上面的兩項(xiàng)應(yīng)用,很明顯需要比普通人更特別的“視力”。
“計(jì)算機(jī)視覺里有一個(gè)傳統(tǒng)的方法,叫多視角立體視覺法(multi-view stereo),通過不同視角拍攝的圖片我們可以重現(xiàn)3D,但不能做細(xì)節(jié)的重現(xiàn);還有另一種方法,叫立體光學(xué)法(photometric stereo),攝像機(jī)和物體都是固定的,但是光線是變化的,如果移動(dòng)光源就可以得到物體的不同觀察值,通過觀察值可以得到表面方向(surface orientation)?!?/p>
前者可以得到整體的形狀,但卻無法得到細(xì)節(jié),而后者不能給你整體的形狀,因?yàn)樗荒芙o你表面方向。如何把兩個(gè)技術(shù)的優(yōu)點(diǎn)結(jié)合起來得到最真實(shí)的3D圖像呢?
“我們考慮如果把一個(gè)持續(xù)光源固定在攝像機(jī)上,這樣我們就可以同時(shí)移動(dòng)光源和攝像機(jī)?!庇谑?,松下康之和他來自東京大學(xué)的實(shí)習(xí)生一起做出了看起來與普通家用數(shù)碼產(chǎn)品沒有太大差別的“3D攝像機(jī)”。“這個(gè)3D攝像機(jī)的相關(guān)的配件在市場上很容易就能買到,手持永遠(yuǎn)是簡單的,人們不會(huì)想要拿著一個(gè)龐然大物?!彼上驴抵蛴浾呓榻B研發(fā)背后的原因。
文化熔爐
作為美國電氣電子工程師協(xié)會(huì)2009年計(jì)算機(jī)視覺與模式識(shí)別國際會(huì)議(CVPR)和2009年計(jì)算機(jī)視覺國際會(huì)議(ICCV)的區(qū)域主席、著名期刊International Journal of Computer Vision(IJCV)和Computer Vision Applications(CVA)的編委,松下康之坦言,微軟亞洲研究院對(duì)研究員在專業(yè)領(lǐng)域的自由交流的支持,使得研究員對(duì)自己的研究領(lǐng)域“看得更遠(yuǎn)、更透徹”。
“通過這些職務(wù),我對(duì)研究方向有了更高的認(rèn)識(shí),這種視野能夠幫助我決定今后什么樣的研究更有價(jià)值。此外,我能夠認(rèn)識(shí)計(jì)算機(jī)視覺界的很多人,這是另一個(gè)收獲?!彼上驴抵χf。
“我的朋友大部分都是微軟的同事。我們有來自不同文化背景的人,這種混合的文化很有趣。我的妻子來過北京,她也非常喜歡這里的氣氛和食物?!迸c在微軟亞洲研究院的其他研究員一樣,松下康之也接受著來自不同文化的“洗禮”。工作之余,松下康之熱愛攝影、滑雪,除了經(jīng)常和同事“搜尋”北京的美食,還常玩羽毛球和打麻將。
“事實(shí)上,希格瑪大樓里的文化,和大樓外的文化就有很大的不同,外部的北京傳統(tǒng)文化和內(nèi)部的研究院文化有著鮮明的對(duì)比。我的朋友有時(shí)會(huì)開玩笑說,你是一個(gè)在中國為美國人打工的日本人?!彼上驴抵χf道,