王 崢
(中國(guó)電影資料館(中國(guó)電影藝術(shù)研究中心),北京 100082)
隨著經(jīng)濟(jì)的發(fā)展,科技的進(jìn)步,電影制作也在逐漸發(fā)生各種新變化。黑白膠片電影早已成為過(guò)去,但經(jīng)典影片在經(jīng)過(guò)歷史的沉淀后,擁有自己獨(dú)特的歷史價(jià)值。因此對(duì)黑白影像上色,使其更好地發(fā)揮歷史價(jià)值和商業(yè)價(jià)值是極其必要的。傳統(tǒng)的上色處理方式是使用后期視頻處理軟件對(duì)電影幀進(jìn)行處理和上色。這一過(guò)程對(duì)操作人員有很強(qiáng)的依賴性,也對(duì)上色人員提出很高的專業(yè)要求。除此之外,完成一整部黑白電影的上色需要操作人員逐幀進(jìn)行手動(dòng)上色,工作量巨大,成片速度慢,無(wú)法滿足當(dāng)前電影工業(yè)對(duì)于黑白老影片上色的巨大需求。
近年來(lái),隨著機(jī)器學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)的深入研究和廣泛使用,圖像處理技術(shù)不斷發(fā)展以及硬件設(shè)備的不斷進(jìn)步,機(jī)器學(xué)習(xí)在圖像處理方面有了很大的進(jìn)步,當(dāng)前已經(jīng)廣泛使用在圖像修復(fù)、圖像生成、語(yǔ)義分割等方面。應(yīng)用機(jī)器學(xué)習(xí)為黑白影像自動(dòng)化上色成為可能。當(dāng)前的機(jī)器學(xué)習(xí)算法本身具有強(qiáng)大的特征提取能力,但是要想完成自動(dòng)化上色的任務(wù),還需要建立大規(guī)模的相對(duì)應(yīng)訓(xùn)練的數(shù)據(jù)集。當(dāng)前的深度學(xué)習(xí)算法在進(jìn)行數(shù)據(jù)處理的時(shí)候往往會(huì)對(duì)圖片進(jìn)行隨機(jī)裁剪,加入噪聲,或者旋轉(zhuǎn)等操作以達(dá)到數(shù)據(jù)增廣的目的。但是這種數(shù)據(jù)增強(qiáng)的方式并不能改善在黑白影像上色中的某些問題。例如,不同年代的戰(zhàn)爭(zhēng)題材電影,軍裝會(huì)有不同的顏色,而機(jī)器學(xué)習(xí)并沒有年代的概念,只會(huì)根據(jù)數(shù)據(jù)集中數(shù)量較多的軍裝顏色進(jìn)行權(quán)重上色,可能會(huì)上色為與訓(xùn)練集相同的藍(lán)色,但是實(shí)際情況應(yīng)該為綠色。因此,單純通過(guò)機(jī)器學(xué)習(xí)的算法無(wú)法取得較好的上色效果。除此之外,由于電影場(chǎng)景較為復(fù)雜,傳統(tǒng)的機(jī)器學(xué)習(xí)方法在上色過(guò)程中還會(huì)出現(xiàn)顏色不均勻、有異常色塊、顏色閃動(dòng)等問題。
針對(duì)以上情況,本文提出一種人工指導(dǎo)與機(jī)器學(xué)習(xí)相結(jié)合的方式完成為黑白影像上色的任務(wù)。在完成任務(wù)中,以“人”的專業(yè)知識(shí)為指導(dǎo),感性認(rèn)知為評(píng)判標(biāo)準(zhǔn),在“人”與“機(jī)器”之間尋求協(xié)調(diào)與平衡。在本文提出的方法中,人工將原始黑白電影進(jìn)行分鏡頭、分場(chǎng)景的劃分,并根據(jù)劃分好的片段準(zhǔn)備素材、建立訓(xùn)練集、進(jìn)行專項(xiàng)訓(xùn)練。同時(shí)優(yōu)化了機(jī)器學(xué)習(xí)上色模型,選擇生成式對(duì)抗網(wǎng)絡(luò)(GAN,Generative Adversarial Networks)作為上色的算法,設(shè)計(jì)了更符合電影上色任務(wù)的損失函數(shù),確保單幀上色顏色的均衡以及多幀連成視頻后顏色的穩(wěn)定。
針對(duì)黑白影像的機(jī)器上色方法已經(jīng)成為當(dāng)前的一個(gè)研究熱點(diǎn)。崔永成將生成對(duì)抗網(wǎng)絡(luò)(GANs)原理應(yīng)用到黑白電影幀的渲染中,把黑白電影幀轉(zhuǎn)換到彩色電影幀。成梓銳針對(duì)上色問題,反對(duì)人為的干預(yù),提出一種基于殘差網(wǎng)絡(luò)的批量化上色方案。然而缺乏人為的干預(yù)的自動(dòng)化上色方法泛化性較差,難以滿足復(fù)雜多變的上色任務(wù)。馬騁等人提出一種觀點(diǎn),現(xiàn)有的彩色化算法存在對(duì)曝光偏差的圖像彩色化效果不佳,并針對(duì)該問題,提出一種在彩色化存在曝光偏差的灰度圖像時(shí),使用直方圖均衡化預(yù)處理輸入圖像方法,以達(dá)到更好的彩色化效果。呂維帥提出了在上色模型中加入了自注意力機(jī)制,以提升上色過(guò)程中某些細(xì)節(jié)的上色效果。劉建民等人采用了端到端的編碼與解碼架構(gòu),能夠從大規(guī)模數(shù)據(jù)學(xué)習(xí)顏色的分布,實(shí)現(xiàn)顏色傳播與預(yù)測(cè),從而把灰度圖像映射為彩色圖像。鄭鑫毅使用輕量級(jí)具有聯(lián)合特征的圖像識(shí)別網(wǎng)絡(luò)作為近紅外圖像的識(shí)別網(wǎng)絡(luò)。該方法降低了訓(xùn)練的時(shí)間和對(duì)硬件設(shè)備的需求,同時(shí)還能夠保證一定的上色效果。李智敏等人提出了一種全自動(dòng)的兩階段式灰度圖像著色算法。結(jié)合分類網(wǎng)絡(luò)和采樣上色網(wǎng)絡(luò),并使它們共享部分相同的網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值,將平均平方誤差和交叉熵函數(shù)的加權(quán)作為損失函數(shù)。劉昌通等人提出了聯(lián)合一致循環(huán)生成對(duì)抗網(wǎng)絡(luò)的人像著色方法。杜康寧等人提出了一種結(jié)合循環(huán)生成對(duì)抗網(wǎng)絡(luò)與聯(lián)合一致性損失函數(shù)進(jìn)行人臉著色模型訓(xùn)練的方法,改善了著色圖像的真實(shí)感與細(xì)節(jié)。張娜基于密集神經(jīng)網(wǎng)絡(luò)構(gòu)建并訓(xùn)練了一個(gè)端到端的深度學(xué)習(xí)模型,改善了著色過(guò)程中的漏色、細(xì)節(jié)信息損失、對(duì)比度低等問題。劉揚(yáng)東等人針對(duì)CT 檢疫設(shè)備在識(shí)別檢疫物時(shí)出現(xiàn)誤報(bào)、漏報(bào)等問題,提出一種基于深度學(xué)習(xí)的CT 圖像著色和自動(dòng)識(shí)別方法,使用多輸入的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行三維物體識(shí)別。田影等人提出了一種以用戶引導(dǎo)方式為黑白人物圖片著色的深度學(xué)習(xí)方法。針對(duì)端到端的方式學(xué)習(xí)整個(gè)框架。徐中輝等人結(jié)合深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)全自動(dòng)的著色網(wǎng)絡(luò)模型,使用卷積神經(jīng)網(wǎng)絡(luò)SE-Inception-ResNet-v2作為高水平的特征提取器,提取圖像的全局信息。張政等人在上色模型中融入了圖像語(yǔ)義分割算法。以圖像的語(yǔ)義信息作為上色的指定,提升上色效果的準(zhǔn)確性。Safa Messaoud等人提出了一種基于條件隨機(jī)場(chǎng)的變分自動(dòng)編碼器,實(shí)現(xiàn)在考慮結(jié)構(gòu)一致性的同時(shí)實(shí)現(xiàn)多樣性。Jianbo Chen 等人針對(duì)基于語(yǔ)言的圖像編輯問題的基于語(yǔ)言的圖像分割和圖像彩色化這兩個(gè)子任務(wù),提出了一個(gè)采用循環(huán)注意模型融合圖像和語(yǔ)言特征的框架。
該章節(jié)將詳細(xì)描述本文提出的人工指導(dǎo)與機(jī)器學(xué)習(xí)相結(jié)合的針對(duì)黑白影像上色的方法。主要分為兩個(gè)部分:一是上色模型的構(gòu)建和優(yōu)化,二是如何針對(duì)機(jī)器學(xué)習(xí)的上色模型進(jìn)行人工指導(dǎo)。在下面的章節(jié)中,將針對(duì)這兩個(gè)方面進(jìn)行詳細(xì)描述。
本文采用生成式對(duì)抗網(wǎng)絡(luò) (GAN)作為黑白影像自動(dòng)上色的基礎(chǔ)模型。該模型由生成器模型(Generative Model)和判別器模型 (Discriminative Model)兩部分組成。通過(guò)生成器和判別器相互競(jìng)爭(zhēng)對(duì)抗完成上色任務(wù)的訓(xùn)練。生成器的目標(biāo)是生成樣本去擬合真實(shí)的樣本。判別器的輸入由真實(shí)樣本和生成器網(wǎng)絡(luò)生成的樣本組成。經(jīng)過(guò)判別器網(wǎng)絡(luò)判斷樣本是來(lái)自真實(shí)樣本,還是來(lái)自于生成器生成的樣本。在多次訓(xùn)練循環(huán)后,生成器和判別器之間的對(duì)抗訓(xùn)練可以達(dá)到一個(gè)納什均衡狀態(tài)。這樣生成器就可以生成與真實(shí)樣本相近且判別器判斷不出真假的樣本。
本文所使用的黑白電影上色任務(wù)的GAN 網(wǎng)絡(luò)的模型架構(gòu)如圖1所示。將黑白圖片輸入到色彩生成網(wǎng)絡(luò)中。色彩生成網(wǎng)絡(luò)主要由卷積神經(jīng)網(wǎng)絡(luò)(convolutional Neural network)構(gòu)成。通過(guò)共享參數(shù)的卷積核在訓(xùn)練網(wǎng)絡(luò)中不斷地移動(dòng),提取特征信息,得到輸入數(shù)據(jù)的高級(jí)特征。同時(shí),為了提高網(wǎng)絡(luò)的特征提取能力,使用殘差網(wǎng)絡(luò) (Residual Network)加深神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)。最終通過(guò)模型中的色彩生成網(wǎng)絡(luò)可以生成針對(duì)黑白輸入圖片的彩色圖片。判別網(wǎng)絡(luò)則同時(shí)接受生成的彩色圖片和真實(shí)圖片彩色部分作為輸入,經(jīng)過(guò)判別處理產(chǎn)生真或者假的結(jié)果。判別網(wǎng)絡(luò)主要由反卷積層和全連接層組成。整個(gè)模型通過(guò)色彩生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)不斷地進(jìn)行博弈,最終使得生成器網(wǎng)絡(luò)可以得到與真實(shí)圖片相近的結(jié)果,判別器網(wǎng)絡(luò)的判別能力也更加強(qiáng)大。
圖1 對(duì)抗式生成網(wǎng)絡(luò)模型架構(gòu)
傳統(tǒng)的GAN 網(wǎng)絡(luò)的損失函數(shù)無(wú)法適應(yīng)黑白電影上色的任務(wù)。傳統(tǒng)損失函數(shù)針對(duì)每個(gè)像素向量的類預(yù)測(cè)進(jìn)行評(píng)估。這種損失函數(shù)的設(shè)定在圖像的語(yǔ)義分割等任務(wù)中有較好的表現(xiàn),但是不適用于黑白影片上色的任務(wù)。將目標(biāo)聚焦于單一的像素點(diǎn),有可能會(huì)損失圖片原本的結(jié)構(gòu)信息、語(yǔ)義信息等內(nèi)容。最終反映在上色結(jié)果中,可能會(huì)出現(xiàn)邊界不清、異常色塊等問題。除此之外,僅僅考慮像素點(diǎn)的上色,將上好顏色的彩色圖片連成影片之后,可能會(huì)出現(xiàn)相鄰幀顏色跳變的情況。
本文使用感知損失函數(shù) (Perceptual Loss)進(jìn)行網(wǎng)絡(luò)的訓(xùn)練。該函數(shù)用于比較看起來(lái)相似的兩個(gè)不同的圖像,但是圖像結(jié)構(gòu)相似。例如,一部影片中相鄰的兩幀,看起來(lái)十分相似,但實(shí)際上像素發(fā)生了偏移。在這種情況下,雖然圖像非常相似,使用MSE 損失函數(shù)可能會(huì)輸出一個(gè)較大的誤差值。而Perceptual損失函數(shù)比較圖像之間的高級(jí)感知和語(yǔ)義差異,能夠獲得更好的上色效果。
通過(guò)機(jī)器學(xué)習(xí)的算法進(jìn)行自動(dòng)上色有其局限性。上色模型只能夠根據(jù)訓(xùn)練數(shù)據(jù)中的顏色進(jìn)行上色。而真實(shí)的影片中,場(chǎng)景多且復(fù)雜,機(jī)器難以學(xué)習(xí)到全部細(xì)節(jié)。另一方面,機(jī)器上色具有盲目性,在缺乏人工干預(yù)、指導(dǎo)的情況下,機(jī)器無(wú)法判定所上顏色的正確性。例如,軍裝的顏色是否符合史實(shí)、風(fēng)景色彩是否符合季節(jié)等。這類機(jī)器無(wú)法判定的情況需要進(jìn)行人工指導(dǎo),為機(jī)器學(xué)習(xí)模型指明訓(xùn)練方向,同時(shí)判定其上色結(jié)果的正確與否。
由于黑白電影分布在各個(gè)年代,其服裝樣式、建筑風(fēng)格、歷史環(huán)境都有巨大的變化。而且,影片中往往會(huì)包含多種截然不同的場(chǎng)景。為了應(yīng)對(duì)這種情況,本研究收集大量的描寫不同場(chǎng)景的圖片,例如自然風(fēng)景、建筑、街道、市內(nèi)場(chǎng)景等。同時(shí),對(duì)于某些特殊的歷史場(chǎng)景圖片,本研究采取拍攝的方式,對(duì)某些特殊物件如燃?xì)鉄?、特殊軍裝進(jìn)行拍攝取樣。為了避免取樣影本過(guò)于相似,拍攝時(shí)還要采取不同的拍攝位置、角度、明暗環(huán)境進(jìn)行拍攝取樣。圖2-圖7展示了部分訓(xùn)練數(shù)據(jù)劃分的樣例,根據(jù)場(chǎng)景不同,大致分為了自然風(fēng)景、建筑、室內(nèi)場(chǎng)景等。根據(jù)人物服飾的不同,分為了軍裝和西服。在實(shí)際的上色過(guò)程中,訓(xùn)練數(shù)據(jù)集還會(huì)進(jìn)行更為細(xì)致的劃分。例如,針對(duì)軍裝的數(shù)據(jù)集,還會(huì)進(jìn)行根據(jù)年代、國(guó)家等因素進(jìn)行劃分。大規(guī)模的,多樣化的影片數(shù)據(jù)集可以有效增強(qiáng)深度學(xué)習(xí)的泛化能力,提升上色的效果。
圖2 模型訓(xùn)練數(shù)據(jù)集劃分樣例:自然風(fēng)景
圖3 模型訓(xùn)練數(shù)據(jù)集劃分樣例:建筑
圖4 模型訓(xùn)練數(shù)據(jù)集劃分樣例:室內(nèi)場(chǎng)景
圖5 模型訓(xùn)練數(shù)據(jù)集劃分樣例:軍裝
圖6 模型訓(xùn)練數(shù)據(jù)集劃分樣例:西服
圖7 模型訓(xùn)練數(shù)據(jù)集劃分樣例:特殊道具
在本文的實(shí)驗(yàn)訓(xùn)練過(guò)程中,選取100648張分類在歷史不同時(shí)期的圖片分別進(jìn)行上色訓(xùn)練。輸入圖像通道為L(zhǎng)ab顏色空間的黑白通道(L通道),輸出為具有顏色的圖片通道 (ab通道),初始學(xué)習(xí)速率為0.0001,最大學(xué)習(xí)速率為0.00015。選用批次規(guī)模為40的隨機(jī)梯度下降(SGD)模型優(yōu)化器。經(jīng)過(guò)大規(guī)模的數(shù)據(jù)集訓(xùn)練,能夠訓(xùn)練出分別對(duì)應(yīng)不同服裝、不同風(fēng)格的圖像上色模型。在經(jīng)過(guò)修改損失函數(shù)后,本研究的上色圖像在數(shù)據(jù)集上的上色質(zhì)量更高,人物邊界會(huì)更加清晰,顏色更加豐富、飽滿。上色圖像中的色塊更少,上色結(jié)果更加合理。
本文所提出的人工指導(dǎo)和機(jī)器學(xué)習(xí)相結(jié)合的黑白影像上色方法主要有兩個(gè)優(yōu)點(diǎn):一是能夠?qū)诎子捌M(jìn)行正確上色,符合史實(shí)的要求;二是顏色更加均衡、穩(wěn)定。
圖8對(duì)比了本文所使用的方法與傳統(tǒng)未加人工指導(dǎo)的機(jī)器學(xué)習(xí)方法的上色結(jié)果對(duì)比。第一排為黑白原始影片截圖,第二排為未加入人工指導(dǎo)的上色結(jié)果,第三排為本文提出的方法的上色結(jié)果??梢钥闯?在未加人工指導(dǎo)的情況下,軍裝的顏色為藍(lán)色。而實(shí)際軍裝的顏色應(yīng)該為綠色。本文提出的方法,根據(jù)史實(shí),在人工指導(dǎo)的情況下,專門建立相應(yīng)的訓(xùn)練數(shù)據(jù)集,針對(duì)軍裝的顏色進(jìn)行專項(xiàng)訓(xùn)練,從而能夠完成更符合史實(shí)的上色效果。
圖8 上色正確性對(duì)比
圖9展示了本文提出的上色方法與之前的方法在穩(wěn)定性上的對(duì)比。上色結(jié)果顏色對(duì)比后,與其他上色方案相比,在高分辨率圖像上色時(shí),本方案更為穩(wěn)定,上色較為穩(wěn)定、均勻,沒有顏色跳動(dòng)和異常色塊的問題。
圖9 上色穩(wěn)定性對(duì)比
本文提出一種結(jié)合人工指導(dǎo)和機(jī)器學(xué)習(xí)的針對(duì)黑白影像自動(dòng)上色的方法。在人工的指導(dǎo)下進(jìn)行數(shù)據(jù)集的分類,引導(dǎo)機(jī)器進(jìn)行學(xué)習(xí)和訓(xùn)練,能夠極大地提升上色效果的準(zhǔn)確性?;诤诎子跋竦拿靼捣植?使用對(duì)抗生成網(wǎng)絡(luò)可以對(duì)生成的顏色進(jìn)行最大可能的預(yù)測(cè)。在具有分類合理的大量數(shù)據(jù)的訓(xùn)練下,基本可以實(shí)現(xiàn)對(duì)不同影片的顏色預(yù)測(cè),能達(dá)到利用深度網(wǎng)絡(luò)提高黑白影像上色制作的工作效率的目的。在今后的研究中,將考慮如何優(yōu)化圖像質(zhì)量,改善影像質(zhì)量不好的問題,同時(shí)也能處理融合語(yǔ)義信息進(jìn)行指導(dǎo)上色,更加合理快捷地微調(diào)修改圖片上色效果。
注釋
①本文中所提到的方法,中國(guó)電影資料館 (中國(guó)電影藝術(shù)研究中心)已完成應(yīng)用開發(fā)并已申請(qǐng)“計(jì)算機(jī)軟件著作權(quán)登記證書”,登記號(hào):2021SR0031841。