陳緣,趙洋,張效娟,劉曉平*
1.安徽大學(xué)互聯(lián)網(wǎng)學(xué)院,合肥 230039;2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601;3.青海師范大學(xué)計(jì)算機(jī)學(xué)院,西寧 810008
在藝術(shù)繪畫領(lǐng)域,一幅精美的畫作從早期的線稿草圖繪制到選取合適的顏色進(jìn)行涂色再到細(xì)節(jié)潤(rùn)色完善,整個(gè)過程需要耗費(fèi)創(chuàng)作者大量的時(shí)間和精力。隨著卡通、繪畫、圖形設(shè)計(jì)及其他相關(guān)產(chǎn)業(yè)的發(fā)展,高效的內(nèi)容生成和創(chuàng)作成為一個(gè)重要的需求。除去前期構(gòu)圖、風(fēng)格設(shè)計(jì)等這些需要發(fā)揮人的創(chuàng)造性和藝術(shù)性的工作,線稿上色成為最煩瑣、重復(fù)性工作量最大的過程之一。盡管近些年出現(xiàn)了一些計(jì)算機(jī)輔助繪圖工具,可以大大提高效率,但這些仍需要熟練的上色人員手工操作。對(duì)于普通用戶來說,想要進(jìn)行精美的畫作上色仍較為煩瑣。從簡(jiǎn)單稀疏的線稿草圖自動(dòng)生成彩色圖像本身也是具有一定難度的任務(wù),因此,便捷高效的線稿上色方法研究無論是對(duì)學(xué)術(shù)界還是對(duì)工業(yè)界都有較高的價(jià)值。
線稿上色,一般是指對(duì)線條構(gòu)成的草圖進(jìn)行著色的過程。隨著深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)的蓬勃發(fā)展,近些年一些基于DNN 的上色方法取得了一定成果。然而,大多數(shù)研究是針對(duì)自然灰度圖像的彩色化(曹麗琴 等,2019;Zhao 等,2021;Weng等,2022;Huang等,2022;Yun等,2023),這與線稿上色有一定差異。如圖1 所示,灰度圖像包含像素的灰度值以及紋理信息,而線稿圖像僅由稀疏抽象的線條構(gòu)成,局部細(xì)節(jié)的語義理解更加困難。其次,灰度圖像彩色化可以看做圖像到圖像的翻譯任務(wù)或圖像復(fù)原任務(wù),從而可以使用像素級(jí)的嚴(yán)格約束進(jìn)行學(xué)習(xí)。然而線稿圖像僅提供邊緣信息,這更類似于困難的生成任務(wù)。目前,僅有少部分研究針對(duì)線稿自動(dòng)上色,且大多數(shù)針對(duì)特定的線稿類型,如人臉上色(Li等,2019;Chen 等,2020),動(dòng)漫人物上色(Liu等,2019;Zhang和Zhou,2022,Cao等,2023),動(dòng)漫場(chǎng)景上色(朱松 等,2020)。Hicsonmez等人(2021)通過引入對(duì)抗分割損失提出一種線稿自動(dòng)上色方法。然而,目前自動(dòng)地理解稀疏線條語義信息以及選取合適的顏色仍然是一個(gè)困難的問題,例如線稿中的一個(gè)圓圈,可以代表太陽、水珠、眼睛等多種含義,因此時(shí)常出現(xiàn)不合理的上色結(jié)果,如紅色的草地、黑色的太陽等,即使確定了語義是眼睛,給眼睛上何種顏色也難以保證符合創(chuàng)作預(yù)期。
圖1 灰度圖和線稿對(duì)比Fig.1 Comparison of gray image and sketch draft((a)gray image;(b)sketch draft)
由于用戶交互可以顯著降低語義分析和最優(yōu)顏色決策的難度,目前半自動(dòng)上色方法比全自動(dòng)方法數(shù)量多。這些半自動(dòng)上色方法依據(jù)交互策略可以進(jìn)一步分為3種類型,即基于參考圖像引導(dǎo)的方法、基于顏色提示的方法和基于文本描述的方法。基于參考圖像引導(dǎo)的上色方法(Huang 等,2021;Liu 等,2022;Cui等,2022)通常使用一幅語義相似的彩色圖像作為參考,設(shè)計(jì)模型學(xué)習(xí)從參考圖像到目標(biāo)圖像的映射建立對(duì)應(yīng)關(guān)系,再向目標(biāo)圖像注入相應(yīng)顏色。這種方法可以降低線稿的語義理解難度,但難以靈活控制局部上色結(jié)果。為了方便用戶指定不同位置的顏色偏好,基于顏色提示的方法(Hati 等,2019;Yuan 和Simo-Serra,2021;竇智 等,2022;Cho 等,2023)可以更好地滿足用戶需求。一般是指用戶事先在線稿圖像上用彩色點(diǎn)或線條的方式提供上色指導(dǎo)。而基于文本描述的上色方法(Zou 等,2019;Kim等,2019;Gao 等,2020)對(duì)非專業(yè)用戶更加友好,用戶僅需要提供簡(jiǎn)單的文字描述即可獲得彩色上色結(jié)果,如藍(lán)色的車、粉色的衣服等。但其中輸入的文本描述和線稿之間未知的間接映射是一個(gè)難點(diǎn)。整體來看,這些半自動(dòng)的上色方法雖然可以獲得更合理的上色結(jié)果,但需要額外的用戶交互,不夠便捷高效。
在很多實(shí)際應(yīng)用中,觀察到上色任務(wù)的目標(biāo)顏色空間通常是固定且有限的,而不是在完整的顏色空間下自由上色。如,給一部特定動(dòng)畫的幀上色,必須符合該動(dòng)畫的整體用色風(fēng)格。類似地,特定的繪畫風(fēng)格也會(huì)有相對(duì)固定且有限的色彩風(fēng)格,特定的畫師會(huì)有其相對(duì)固定的用色習(xí)慣。以藏式繪畫(唐卡、彩繪)為例,它們的用色通常是固定的,因?yàn)槠漕伭鲜怯僧?dāng)?shù)氐慕稹y、珍珠、瑪瑙、珊瑚、松石、孔雀石、朱砂等珍貴的天然礦物寶石和藏紅花、大黃、藍(lán)靛等植物制成。在西藏、青海和尼泊爾等不同地區(qū)也逐漸形成了不同的用色風(fēng)格?;谶@些觀察,本文聚焦于有限色彩空間下的線稿自動(dòng)上色方法研究。與一般的線稿自動(dòng)上色方法相比,利用色彩空間的有限性可以有效降低顏色選擇和空間色彩推理的難度。同時(shí),固定的顏色先驗(yàn)可以有效地避免不合理的上色以及保持特定的繪畫風(fēng)格。此外,顏色先驗(yàn)也可以作為一種可選的交互手段,用戶可以自由調(diào)整顏色或嘗試新的顏色風(fēng)格。
本文提出了一種針對(duì)特定有限色彩空間下的線稿自動(dòng)上色網(wǎng)絡(luò),其輸入為待上色線稿圖像及顏色先驗(yàn)。為了降低學(xué)習(xí)難度,該模型分為兩個(gè)階段。第1 階段采用U-Net 結(jié)構(gòu)對(duì)線稿圖像補(bǔ)充線條和細(xì)節(jié),形成灰度圖像;在第2 階段,提出了一種多尺度生成對(duì)抗模型來對(duì)灰度圖像進(jìn)行著色。首先對(duì)顏色先驗(yàn)特征進(jìn)行編碼,獲取適合該線稿的色彩子空間,之后在感受野最大的最小尺度上,與圖像內(nèi)容特征相結(jié)合,推理得到相應(yīng)空間位置的初步著色。再使用另外兩個(gè)尺度來融合顏色信息并逐漸產(chǎn)生高分辨率的結(jié)果。
本文的主要貢獻(xiàn)如下:1)觀察到在許多實(shí)際線稿著色場(chǎng)景中,顏色空間通常是有限的。通過引入有限色彩空間先驗(yàn)可以有效降低自動(dòng)上色中理解和選擇合理色彩的難度。2)提出一種兩階段的多尺度線稿自動(dòng)上色網(wǎng)絡(luò),并取得了良好的性能。通過解耦顏色推理和著色模塊,該模型可以從輸入的顏色先驗(yàn)中學(xué)習(xí)建立特定的顏色子空間并進(jìn)行顏色推理。因此,經(jīng)過訓(xùn)練的模型可以使用不同的顏色先驗(yàn)為線稿草圖著色,而無需再使用每類顏色先驗(yàn)進(jìn)行微調(diào)。用戶可以簡(jiǎn)單地通過修改顏色先驗(yàn)來獲得多樣的繪制風(fēng)格。3)建立了3 個(gè)具有特定顏色先驗(yàn)的線稿上色數(shù)據(jù)集,包括熱貢藏式彩繪數(shù)據(jù)集、熱貢唐卡元素?cái)?shù)據(jù)集和特定卡通數(shù)據(jù)集。這些數(shù)據(jù)集將被公開供相關(guān)研究使用。
如前文所述,對(duì)僅包含稀疏線條的輸入線稿的語義信息理解是一個(gè)困難的問題,直接學(xué)習(xí)線稿自動(dòng)上色難度較大。因此,為了減輕一次性上色難度,本文采用了分階段、多尺度策略。整體網(wǎng)絡(luò)框架如圖2所示,第1階段通過灰度圖生成器對(duì)稀疏線條進(jìn)行細(xì)節(jié)和灰度值的補(bǔ)充,為第2 階段的上色提供更多語義信息;第2 階段首先從顏色先驗(yàn)中構(gòu)建有限色彩子空間,再根據(jù)圖像內(nèi)容從色彩子空間中推理選擇相應(yīng)位置的顏色并完成上色。下面將分階段介紹具體細(xì)節(jié)。
圖2 所提方法框架圖Fig.2 Framework of the proposed method
在第1階段,提出一個(gè)將輸入稀疏線稿轉(zhuǎn)化為稠密灰度圖像的子網(wǎng)絡(luò),采用常用的U-Net 結(jié)構(gòu)。因U-Net結(jié)構(gòu)可以獲得較大的感受野,有利于高層語義信息的理解。之后在第2階段,提出一個(gè)多尺度生成對(duì)抗網(wǎng)絡(luò),通過對(duì)顏色先驗(yàn)的推理融合為第1階段生成的灰度圖像著色。如圖2所示,本文方法共使用了3個(gè)尺度,第1階段生成的灰度圖記為Ygray,對(duì)它分別進(jìn)行2倍和4倍下采樣得到Y(jié)1/2和Y1/4。
在最小尺度上,包含若干主色彩向量的顏色先驗(yàn)pin被用來指導(dǎo)色彩推理。首先使用兩個(gè)全連接層(fully connected,F(xiàn)C)將主色彩向量擴(kuò)展至連續(xù)顏色子空間,使用編碼塊(encoder block,EB)從輸入的灰度圖像Y1/4中提取內(nèi)容特征。每個(gè)編碼塊包含一個(gè)3×3的卷積層(convolutional layer,Conv)、一個(gè)實(shí)例正則化層(instance normalization layer,IN)以及一個(gè)滲漏整流線性單元函數(shù)(leaky rectified linear unit,LReLU)。由于顏色特征和內(nèi)容特征具有不同的語義和分布,直接拼接這些特征可能會(huì)產(chǎn)生不自然效應(yīng)。因此,受注意機(jī)制的啟發(fā),本文利用一個(gè)卷積層和一個(gè)sigmoid 激活函數(shù)將內(nèi)容特征轉(zhuǎn)換為一種空間注意力。然后將空間注意力與顏色特征相乘,感知初步的顏色推理。
隨后,使用兩個(gè)獨(dú)立的解碼器分別處理原始灰度內(nèi)容特征和顏色特征。如圖2 所示,處理顏色特征的解碼器中的每個(gè)解碼塊(decoder block,DB)由雙線性插值上采樣層、卷積層、實(shí)例正則化層以及LReLU 激活函數(shù)構(gòu)成。處理灰度內(nèi)容特征的解碼器中包含3 個(gè)與處理顏色特征的解碼器中結(jié)構(gòu)一樣的解碼塊,以及1 個(gè)不同的輸出塊(out block,OutB)。輸出塊包含雙線性插值上采樣層、卷積層和Tanh 激活函數(shù),以保證輸出圖像取值范圍在(-1,1)。需要注意的是,本文方法使用了實(shí)例正則化層,而非批正則化層,因?yàn)樾枰谏扇蝿?wù)中保證每個(gè)圖像實(shí)例之間的獨(dú)立性。最后顏色特征解碼器中每個(gè)解碼塊的輸出與灰度特征解碼器中相應(yīng)解碼塊的輸出相拼接,以實(shí)現(xiàn)顏色信息與內(nèi)容信息的融合。此外,在每一次拼接操作后,都會(huì)增加一個(gè)殘差塊(residual block,RB)(He 等,2016)以處理特征信息融合。
將最小尺度輸出的彩色圖像C1上采樣后與Y1/2一起作為第2 個(gè)尺度的輸入。第2 尺度的子網(wǎng)絡(luò)采用與最小尺度相同的編碼器和解碼器結(jié)構(gòu)。本文使用第2 尺度來細(xì)化初步著色結(jié)果,以獲得更高分辨率的圖像C2。與超分辨率方法中常用的殘差學(xué)習(xí)結(jié)構(gòu)類似,該子網(wǎng)絡(luò)僅學(xué)習(xí)殘差部分以降低學(xué)習(xí)難度。類似地,第3 尺度用于進(jìn)一步獲得視覺質(zhì)量和分辨率更高的最終輸出C3。
因整體網(wǎng)絡(luò)采用生成對(duì)抗學(xué)習(xí),所提方法的每個(gè)階段及每個(gè)尺度均有其相應(yīng)的判別器,因此,總共有3 個(gè)尺度的判別器和一個(gè)用于灰度圖像生成的判別器。如圖2 所示,判別器具體結(jié)構(gòu)是由N個(gè)卷積層和LReLU激活函數(shù)簡(jiǎn)單組合而成。
所提兩階段網(wǎng)絡(luò)采用端到端的學(xué)習(xí)方式。首先使用一個(gè)中間損失函數(shù)來指導(dǎo)第1 階段的灰度圖像生成,具體為
式中,Ygray表示生成的灰度圖像,Ygt是對(duì)應(yīng)真值彩色圖像的Y通道圖像。
與大多數(shù)圖像回歸任務(wù)一樣,本文也使用基本的像素級(jí)損失來約束輸出彩色圖像和真值圖像的一致性,即
式中,Ci(i=1,2,3)表示第i個(gè)尺度的輸出彩色圖像,Gi表示其相對(duì)應(yīng)的真值圖像。
為了提高生成圖像的保真度和多樣性,本文的對(duì)抗訓(xùn)練采用的是Least-squares GAN(Mao 等,2017)中的對(duì)抗損失,具體為
式中,Di(·) 表示第i個(gè)尺度的判別器,Dgray(·)表示用于灰度圖像生成的判別器。
此外,常用的TV(total variation)損失LTV也被用來進(jìn)一步平滑生成結(jié)果。本文中總損失函數(shù)為
式中,權(quán)重λ1,λ2,λ3,λ4通過實(shí)驗(yàn)分別設(shè)置為100、100、1、0.000 1。
在對(duì)抗訓(xùn)練過程中,判別器損失的計(jì)算式為
如前文所述,在許多實(shí)際場(chǎng)景中,特定的顏色集合可以視為顏色先驗(yàn),這有利于降低線稿自動(dòng)著色難度。在本文中,訓(xùn)練階段使用5 個(gè)主色彩向量構(gòu)成的顏色先驗(yàn),這些主色彩向量是通過K-means方法從圖像集中聚類獲得的。當(dāng)然,實(shí)際生產(chǎn)中,主色彩向量可以是人工直接給定,也可以是對(duì)給定的樣稿、前幾集已完成的動(dòng)畫視頻等,使用色彩直方圖統(tǒng)計(jì)、聚類方法等來獲得主色彩向量。在前向推理階段,創(chuàng)作者可以指定顏色或給出設(shè)計(jì)圖,也可以不做任何輸入,從而使用默認(rèn)的主色調(diào)進(jìn)行自動(dòng)上色。
考慮到實(shí)際應(yīng)用場(chǎng)景,本文建立了3 個(gè)數(shù)據(jù)集,包括熱貢藏式彩繪數(shù)據(jù)集、熱貢唐卡(一種藏族地區(qū)傳統(tǒng)繪畫藝術(shù))元素?cái)?shù)據(jù)集和特定卡通數(shù)據(jù)集。這3 個(gè)數(shù)據(jù)集分別包含9 900 幅、4 478 幅和9 416 幅圖像。前兩個(gè)數(shù)據(jù)集是在青海的藏族寺廟及畫院拍攝采集,然后使用梯形校正、直方圖均衡化、去噪以及銳化等傳統(tǒng)圖像處理方法對(duì)原始照片進(jìn)行處理后獲得。第3 個(gè)卡通數(shù)據(jù)集中的圖像是從名為《請(qǐng)吃紅小豆吧》的特定動(dòng)畫中提取的圖像幀。如圖3 所示,每個(gè)數(shù)據(jù)集包含圖像和其對(duì)應(yīng)的線稿圖像、主色彩向量。在訓(xùn)練階段,線稿圖像是使用SketchKeras(Zhang,2017)方法提取獲得,該方法可以提取類似手繪效果的線稿圖像。
圖3 數(shù)據(jù)集示例Fig.3 Examples of three datasets((a)Regong Tibetan painting dataset;(b)Regong Thangka(Tibetan scroll painting)elements dataset;(c)specific cartoon dataset)
與傳統(tǒng)的收集大量圖像混合構(gòu)成上色訓(xùn)練集不同,這3 個(gè)訓(xùn)練集即代表典型的有限色彩空間上色任務(wù)。以熱貢藏式彩繪及唐卡為例,由于采用當(dāng)?shù)氐牡V、植物天然顏料并經(jīng)歷多代傳承,對(duì)色彩的使用已形成鮮明的地方風(fēng)格。在卡通動(dòng)畫制作中,同一部動(dòng)畫也須保持上色風(fēng)格的一致性。如圖3 所示,為了更符合此類上色任務(wù)的應(yīng)用場(chǎng)景,這些數(shù)據(jù)集整體保持了較為一致的色調(diào)風(fēng)格,而具體圖像又包含多種多樣的不同細(xì)節(jié)顏色。
3 個(gè)數(shù)據(jù)集中圖像尺寸均為256×256 像素,訓(xùn)練和測(cè)試圖像數(shù)量按照 9∶1隨機(jī)劃分。所提方法與基線方法Pix2Pix 以及一些線稿自動(dòng)上色方法進(jìn)行對(duì)比,包括AdvSegLoss(Hicsonmez 等,2021),PaintsChainer(Yonetsuji,2017)和 Style2Paints V4.5(Zhang 等,2022)。為公平比較,本文使用原作者提供的官方代碼在本文建立的數(shù)據(jù)集上重新訓(xùn)練了Pix2Pix 及AdvSegLoss 模型。而PaintsChainer 和Style2Paints 是直接使用的上色工具,因此沒有重新訓(xùn)練。在訓(xùn)練階段,使用Adam 優(yōu)化器,初始學(xué)習(xí)率為 2×10-4,使用等間隔調(diào)整方式衰減學(xué)習(xí)率。代碼使用Tensorflow 框架,在一塊NVIDIA RTX 3060Ti GPU上訓(xùn)練。
在定量對(duì)比實(shí)驗(yàn)中,使用峰值信噪比(peak signal to noise ratio,PSNR)、結(jié)構(gòu)相似性(structural similarity index measure,SSIM)和均方誤差(mean squared error,MSE)指標(biāo)來衡量輸出的彩色圖像的客觀質(zhì)量;使用色彩豐富度分?jǐn)?shù)(colorfulness score,ColorS)(Hasler 和Suesstrunk,2003)來衡量輸出圖像的顏色生動(dòng)性。
表1 列出了不同方法的PSNR、SSIM 和MSE 值,這里使用的是歸一化后的MSE 值??梢钥闯?,所提方法在3 個(gè)數(shù)據(jù)集基本都取得最高的PSNR 和SSIM值以及最低的MSE 值。在熱貢藏式彩繪數(shù)據(jù)集,PSNR 值比Pix2Pix 和AdvSegLoss 分別高1.702 4 dB和0.187 7 dB,SSIM 值高0.108 7 和0.081 5。在熱貢唐卡元素?cái)?shù)據(jù)集,PSNR值比Pix2Pix和AdvSegLoss分別高1.574 3 dB 和2.573 9 dB,SSIM 值高0.049 0和0.132 8。在特定卡通數(shù)據(jù)集,本文方法的PSNR值略低于Pix2Pix,比AdvSegLoss高0.088 1 dB,SSIM值比Pix2Pix和AdvSegLoss分別高0.016 2和0.004 6??梢酝茰y(cè)因?yàn)镻ix2Pix 使用像素級(jí)約束,在數(shù)據(jù)量小的情況下,容易出現(xiàn)過擬合現(xiàn)象,從而PSNR 值接近真實(shí)圖像。此外,PaintsChainer 和Style2Paints V4.5在3 個(gè)數(shù)據(jù)集上的失真度指標(biāo)均不太理想,表明這兩種方法的上色結(jié)果失真較大,難以獲得與真實(shí)彩色圖像一致的結(jié)果。
表1 不同上色方法在各數(shù)據(jù)集上的平均PSNR、SSIM值和MSE值Table 1 Average PSNR,SSIM and MSE values of different methods on different datasets
表2 列出了不同方法生成結(jié)果的色彩豐富度分?jǐn)?shù)??梢钥闯觯岱椒ㄔ? 個(gè)數(shù)據(jù)集上均取得了最高分?jǐn)?shù)。在熱貢藏式彩繪數(shù)據(jù)集上,比Pix2Pix和AdvSegLoss 分別高19.462 0 和23.000 3。在熱貢唐卡元素?cái)?shù)據(jù)集上,比Pix2Pix 和AdvSegLoss 分別高7.973 8 和19.203 8。在特定卡通數(shù)據(jù)集上,分別高5.302 0 和3.552 1。而PaintsChainer 和Style2Paints V4.5 取得了較低的分?jǐn)?shù),表明這兩種方法難以自動(dòng)選擇合適、豐富的顏色為線稿上色。這些定量實(shí)驗(yàn)結(jié)果表明,本文方法可以獲得與真實(shí)圖像接近、失真程度低的結(jié)果,可以為線稿繪制更豐富的顏色。
表2 不同方法的色彩豐富度指標(biāo)ColorS值Table 2 Colorfulness score of different methods
盡管定量分析已經(jīng)表明本文方法的有效性,但對(duì)于線稿上色任務(wù)而言,人的主觀感受評(píng)價(jià)更為重要。因此,本文進(jìn)行了主觀實(shí)驗(yàn)對(duì)比以及用戶調(diào)查。
圖4 展示了一些不同方法的上色結(jié)果,每個(gè)數(shù)據(jù)集展示了兩個(gè)示例??梢悦黠@地看出,PaintsChainer 和 Style2Paints(S2PV4.5)在全自動(dòng)的情況下無法給這些線稿合理著色。相比之下,Pix2Pix和AdvSegLoss 可以獲得相對(duì)較好的結(jié)果,然而也存在一些不和諧的顏色,如線稿不閉合導(dǎo)致的色彩泄露及色彩不均等其他不自然效應(yīng)。圖4 中紅色框標(biāo)出了部分不合理細(xì)節(jié),如花朵顏色的混合、卡通角色舌頭的顏色等??傮w來看,本文方法可以繪制出色彩和諧、視覺質(zhì)量更好的結(jié)果。
圖4 不同上色方法的結(jié)果對(duì)比Fig.4 Qualitative comparison of different methods((a)input sketchs;(b)Pix2Pix;(c)AdvSegLoss;(d)PaintsChainer;(e)Style2Paints V4.5;(f)ours;(g)ground truths)
如前文所述,訓(xùn)練階段的顏色先驗(yàn)是通過K-means 算法獲得的,這只是為了方便訓(xùn)練。在實(shí)際推理階段,顏色先驗(yàn)可以通過多種方式給出,如預(yù)先聚類的主色調(diào)或用戶指定的顏色。圖5 展示了一些使用不同顏色先驗(yàn)的著色結(jié)果?!拜敵觥绷斜硎据敵鰣D像是用其對(duì)應(yīng)的真值彩色圖像聚類獲得的顏色作為顏色先驗(yàn)著色的?!爸魃{(diào)”列表示輸出圖像是用根據(jù)其圖像類型聚類獲得的顏色先驗(yàn)著色的。由于在實(shí)際應(yīng)用中,根據(jù)每一幅圖像給定顏色先驗(yàn)仍是非常煩瑣的,因此,本文提供了“主色調(diào)”上色方式,即對(duì)整個(gè)繪畫類型或整部動(dòng)畫賦以相同的色彩空間先驗(yàn),從而在推理階段不用給每幅圖像單獨(dú)提供色彩向量。同時(shí),由于本文模型中采用了解耦的顏色推理和融合模塊,輸出圖像的顏色可以隨輸入顏色先驗(yàn)的不同而靈活調(diào)整,如“不同顏色先驗(yàn)”列所示。
圖5 所提方法使用不同顏色先驗(yàn)的結(jié)果示例Fig.5 Examples of our method using different color priors as input
此外,本文進(jìn)行了用戶調(diào)查的感知實(shí)驗(yàn)。具體來說,從每個(gè)數(shù)據(jù)集中隨機(jī)選擇8 幅圖像,并向15個(gè)不同的用戶展示輸入草圖及Pix2Pix、AdvSegLoss、PaintsChainer、Style2Paints V4.5 和本文方法的相應(yīng)上色結(jié)果。這些結(jié)果圖像均打亂順序并且不包含算法名稱。每個(gè)用戶都可以憑借自身主觀感受從5 幅結(jié)果中選擇1 幅上色結(jié)果最好的圖像,其統(tǒng)計(jì)結(jié)果如圖6 所示,橫坐標(biāo)表示選擇某種方法的人數(shù)所占百分比。需要注意的是,評(píng)價(jià)時(shí)讓用戶從兩個(gè)方面衡量,一種是關(guān)注顏色的選取及其對(duì)于該線稿的合理性,另一種是關(guān)注上色后圖像的整體質(zhì)量。從圖6 中可以看出,沒有用戶選擇PaintsChainer 和Style2Paints V4.5 的上色結(jié)果,這與圖4中展示的情況吻合,表明這些為特定類型(如動(dòng)漫人物)設(shè)計(jì)的上色工具無法對(duì)其他類型差異較大的線稿完成上色。大多數(shù)用戶無論在顏色選擇和整體質(zhì)量上都更加偏愛本文所提方法的結(jié)果,表明本文方法可以獲得與人的主觀審美感受較一致的結(jié)果。
圖6 用戶調(diào)查結(jié)果Fig.6 User survey results
為了進(jìn)一步驗(yàn)證所提各模塊的有效性,進(jìn)行了消融實(shí)驗(yàn),包括訓(xùn)練單階段模型、單尺度模型以及無色彩空間限制模型。單階段模型即不使用先生成灰度圖像再生成彩色圖像的兩階段方法,而是直接從線稿生成彩色圖像。單尺度是指在第2 階段僅使用單一尺度,即直接生成最終分辨率的彩色圖像。無色彩空間限制模型表示僅輸入線稿,而沒有顏色向量信息。圖7展示了一些定性結(jié)果,表3中列出了定量結(jié)果??梢钥闯鰺o論是客觀指標(biāo)還是主觀感受上,單階段模型的性能最差,上色結(jié)果有很多不自然效應(yīng),這也證實(shí)了分階段上色可以有效降低自動(dòng)上色難度。此外,單尺度的模型性能低于多尺度模型,這表明了使用多尺度策略的有效性,可以逐步生成高質(zhì)量圖像。而無色彩空間限制時(shí),本文方法即一般意義上的全自動(dòng)上色,其難度較大。如圖7 所示,通過分階段多尺度策略也可以改善全自動(dòng)上色結(jié)果,但其色彩預(yù)測(cè)仍存在不可控性,且易受訓(xùn)練集中色彩分布影響。例如第3 行白色角色會(huì)被誤上色,雖然上色結(jié)果已較一些對(duì)比算法更優(yōu),但仍不符合創(chuàng)作預(yù)期。通過引入色彩子空間,可以有效降低合理色彩選取的難度,且色彩可控性增強(qiáng)。
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiment
圖7 消融實(shí)驗(yàn)結(jié)果的主觀對(duì)比Fig.7 Subjective results of ablation experiment
線稿自動(dòng)上色是一項(xiàng)非常困難的任務(wù),因?yàn)榫€稿草圖只包含稀疏的線條,其能提供的語義信息較少。現(xiàn)有的線稿自動(dòng)上色方法大多需要額外的用戶指導(dǎo)如參考圖像、文字提示等,或聚焦于特定類型的線稿上色。觀察到在許多實(shí)際情景下,對(duì)線稿上色所使用的顏色通常是固定且有限的,因此,本文使用特定的顏色集作為色彩先驗(yàn),以降低線稿全自動(dòng)上色的難度。具體地,本文提出了一種兩階段多尺度的上色網(wǎng)絡(luò),首先根據(jù)輸入線稿生成中間灰度圖像,然后根據(jù)輸入的顏色先驗(yàn)推理得到適用于該線稿的顏色子空間,再利用多尺度生成對(duì)抗網(wǎng)絡(luò)逐步融合灰度圖像內(nèi)容信息和顏色信息以完成線稿的著色。在熱貢藏式彩繪數(shù)據(jù)集、熱貢唐卡元素?cái)?shù)據(jù)集和特定卡通數(shù)據(jù)集3 個(gè)數(shù)據(jù)集上的定量和定性評(píng)價(jià)結(jié)果表明,本文方法能夠有效地為線稿自動(dòng)上色,且上色后圖像的視覺質(zhì)量?jī)?yōu)于其他對(duì)比方法。此外,所提方法實(shí)現(xiàn)了顏色推理和著色過程的解耦。因此,用戶可以簡(jiǎn)單地通過修改顏色先驗(yàn)來獲得多樣的繪制風(fēng)格。
然而本文方法也存在一定的不足,對(duì)于包含復(fù)雜、凌亂的線條的線稿,本文方法會(huì)出現(xiàn)上色不佳的情況。因此,未來的研究需要進(jìn)一步設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)以理解卡通線稿中的細(xì)微結(jié)構(gòu),并在語義理解的前提下進(jìn)行合理著色。此外,自動(dòng)上色難以保證完全符合創(chuàng)作者的設(shè)計(jì)預(yù)期,因此上色后修色的用戶交互方案也是未來的研究?jī)?nèi)容之一。