張澤玲
在開始討論這項(xiàng)技術(shù)本身之前,我們先來了解一下大家天天看的視頻跟圖片有什么異同。可能有聰明的同學(xué)已經(jīng)知道,視頻就是很多幅有著細(xì)微變化的圖片連續(xù)變換。由于人眼的視覺殘留①效應(yīng),很多幅圖片快速變換時(shí),我們?nèi)祟惒⒉荒苡X察到當(dāng)前圖片如何換到下一張,于是就看到了連續(xù)的動態(tài)圖像。知道這一點(diǎn)以后,大家大概可以猜到:視頻換臉就是把視頻里每一幀圖像里的人臉改動成新的臉。這其實(shí)也是原來拍電影和電視連續(xù)劇后期制作時(shí)采用的方法,但都需要專業(yè)人員花費(fèi)大量時(shí)間、人工去修改潤色。
大家可以計(jì)算一下,大部分電影的幀率是24幀/秒,也就是說一秒鐘長的電影要有24幅畫面變換。如果需要換臉的視頻長度為一分鐘,那就需要改動24×60=1440幅畫面。改動后結(jié)果要達(dá)到渾然天成,就需要對每一幅進(jìn)行細(xì)致的處理,還要考慮每一幅和上一張下一張的過渡是否平滑自然??上攵@項(xiàng)工作需要多少時(shí)間和耐心。由于成本過高,影視制作行業(yè)并沒有廣泛使用這種“換臉技術(shù)”,更不要提我們普通人自己給視頻“換臉”當(dāng)作娛樂了。
而讓我們普通人也能玩換臉游戲的,就是機(jī)器學(xué)習(xí)技術(shù),也正是這次Al革命的基礎(chǔ)。機(jī)器學(xué)習(xí)技術(shù)里有不少有趣的模型和方法,在視頻換臉技術(shù)里大展身手的是自動編碼器(Autoencoder)。雖然名字里有個(gè)“器”,但自動編碼器其實(shí)是用程序代碼實(shí)現(xiàn)的數(shù)學(xué)模型。在電腦程序的眼里,所有的圖片視頻其實(shí)都是一組記錄了顏色、光線等參數(shù)的數(shù)據(jù),只是在人類需要觀看的時(shí)候解碼成顯示器上的圖像。自動編碼器,就是一種會自己學(xué)習(xí)如何把已有圖像轉(zhuǎn)化成數(shù)據(jù),又把數(shù)據(jù)解碼成圖像的數(shù)學(xué)模型。
那么自動編碼器是如何學(xué)習(xí)編碼和解碼的呢?其實(shí)我們可以將自動編碼器的學(xué)習(xí)過程理解為一個(gè)畫家學(xué)習(xí)畫老虎的過程。首先我們給這位畫家很多老虎的照片,讓他觀察提取老虎的特征,然后畫家按照自己的觀察畫出老虎,再跟原始的老虎照片比較是否畫得好,根據(jù)結(jié)果再練習(xí)提高。經(jīng)過一番訓(xùn)練,這位畫家即便被要求畫自己從未見過的老虎動作姿態(tài),也能畫得惟妙惟肖。這種給了輸入數(shù)據(jù)讓AI模型“自己摸索”解決方案的機(jī)器學(xué)習(xí)方法,就叫作非監(jiān)督學(xué)習(xí)。給訓(xùn)練好的畫師提作畫要求就是自動編碼器的輸入,畫出來的老虎就是輸出。
所以視頻換臉是一個(gè)學(xué)會了畫“變臉圖”的自動編碼器嗎?并不是。事實(shí)上,換臉是由兩個(gè)自動編碼器“畫家”協(xié)作完成的。除了前面的畫老虎畫家,我們再來訓(xùn)練一個(gè)只會畫狼的畫家?,F(xiàn)在畫狼的畫家覺得老虎很威風(fēng),但他喜歡狼群的瀟灑自由,所以想畫一群瀟灑自由的老虎。于是他找來畫老虎的畫家商量:咱們一起畫一幅猛虎群圖吧,你來執(zhí)筆畫老虎,我來告訴你畫一群動物如何構(gòu)圖組織。就這樣,他們得到了具有狼群特征的猛虎群圖。對應(yīng)到換臉技術(shù)上,就是我們訓(xùn)練了一個(gè)基于原始人臉的自動編碼器A,和一個(gè)目標(biāo)人臉的自動編碼器B,然后用A編碼輸入圖片,用B解碼生成圖片,這樣就得到了合成更換為目標(biāo)人臉的圖片。這樣對視頻中的每一幀圖片都進(jìn)行操作,最后我們就得到了換臉后的視頻。
①視覺殘留
是光對視網(wǎng)膜所產(chǎn)生的視覺,在光停止作用后,仍然保留一段時(shí)間的現(xiàn)象,其原因是由視神經(jīng)的反應(yīng)速度造成的,時(shí)值約是1/16秒,對于不同頻率的光有不同的暫留時(shí)間。視覺殘留具體應(yīng)用就是電影的拍攝和放映。
大銀幕上最接近AI換臉術(shù)的嘗試或許就是《速度與激情7》中的這個(gè)Ending畫面了,而保羅的這次“重生”,花費(fèi)了5000萬美金。
換臉過程中,最耗費(fèi)時(shí)間和技巧的是訓(xùn)練兩位“畫家”的過程,訓(xùn)練好了以后轉(zhuǎn)換過程會比較快速。與傳統(tǒng)影視行業(yè)的方法相比,訓(xùn)練自動編碼器和編碼器生成圖片大部分都靠程序代碼完成。雖然還是需要一定計(jì)算時(shí)間和訓(xùn)練技巧,但比起舊的人工方法已經(jīng)有了巨大的提高。當(dāng)然,自動編碼器雖然換臉?biāo)揭涣?,但并不是所有的視頻隨便用程序跑跑就能達(dá)到完全天衣無縫的效果。訓(xùn)練時(shí)模型參數(shù)設(shè)置得不好(好比畫家自己水平太次怎么也學(xué)不會),或者訓(xùn)練數(shù)據(jù)質(zhì)量不高(好比訓(xùn)練畫家時(shí)給的照片質(zhì)量太差),最后換臉的效果也只能是差強(qiáng)人意。
當(dāng)這項(xiàng)技術(shù)出現(xiàn)時(shí),由于以假亂真的效果太好,引發(fā)了不少擔(dān)憂。有人立馬提出:這個(gè)技術(shù)能騙過人臉識別解鎖嗎?答案是有可能。所以我們平時(shí)不能只依賴于刷臉解鎖,重要的操作步驟還是需要驗(yàn)證密碼。另外,大家之前都說眼見為實(shí)截圖為證,在修圖軟件大規(guī)模應(yīng)用后,因?yàn)閳D片很容易被篡改,所以不少人說拍視頻為證?,F(xiàn)在能替換視頻中人臉的軟件也來了,我們還應(yīng)當(dāng)開始質(zhì)疑視頻造假的可能。最后,由于自動編碼器這個(gè)畫家如此厲害,為了自己不被“換臉”,一定不要把帶有自己臉部的照片大量放在所有人都可以看見的網(wǎng)站上,也不要隨隨便便換個(gè)臉去和喜歡的明星“飆戲”,以免成為自動編碼器的訓(xùn)練素材。