倪辰怡,黃東晉,丁友東
(上海大學 影視藝術與技術學院,上海 200072)
隨著計算機技術的日益發(fā)展,新興的數(shù)字媒體產業(yè)開始逐漸引起人們的關注。包括計算機動畫、影視廣告、網(wǎng)絡游戲、虛擬現(xiàn)實、網(wǎng)絡藝術、多媒體、數(shù)字攝影、數(shù)字音樂、錄像及互動裝置以及DV(數(shù)字視頻)等數(shù)字藝術[1],已經悄悄地改變了每一個人的生活。
人們漸漸地開始不再依賴于使用紙和筆留下文字和涂鴉的方式來記錄生活,而是學會利用數(shù)字媒體技術帶來的便利,拍攝下身邊的照片,輸入自己的感悟,通過網(wǎng)絡即時地分享給朋友們。在獲取信息時,也開始不局限于單一的文字或是廣播,而會更多地被如今絢爛的可視化新媒體展示所吸引。
另外數(shù)字媒體技術的不斷發(fā)展,也越來越多地希望給用戶提供更大的人性化交互空間。像是如今廣泛應用的計算機繪畫、修圖等技術,比起手工的繪畫具有更大的實用價值和商業(yè)利益。
那么在影視動畫創(chuàng)作的過程中,是不是也能利用網(wǎng)絡資源的優(yōu)勢,發(fā)揮數(shù)字媒體科技的魅力呢?
傳統(tǒng)的影視動畫創(chuàng)作流程大致可分為前期、中期和后期,圖1列出了各個階段的主要工作內容。
圖1 影視動畫創(chuàng)作流程
其中前期工作(Pre-Production)中第一步也是最重要的一步是:腳本及故事板的制作。文字腳本經畫師的手工繪制,形成一幅幅的手繪圖,然后拼接成整體的故事板,如圖2所示,主要起到預覽故事情節(jié)的作用,所以制作往往比較簡單、粗糙,也不上色,能理解大意即可,并不在最終成片中使用。
圖2 傳統(tǒng)手工故事板
但是即便是制作這種如此簡易的手繪圖也是件十分費時費力的工作。畫師憑借文字腳本和導演口述的修改意見來制作,普通一集半個小時左右的動畫片,其故事板圖片可能需要上千幅,往往可能需要花費3周時間來制作。另外,在主創(chuàng)人員討論會中,腳本的修改也是動畫前期制作中十分常見的情況,在具體實施過程中,亦會遇到實際問題而修改腳本的細節(jié)。此時一旦修改腳本,又需重新修改繪制新的故事板??梢?,在動畫創(chuàng)作前期過程中,僅使用傳統(tǒng)的手繪方式來繪制故事板,存在許多操作不利的地方。
這種傳統(tǒng)的動畫制作方式:由導演和編劇寫好文字腳本,接著分鏡圖畫師制作完故事板(草圖),然后直接交給后續(xù)三維動畫的創(chuàng)作部門。模型師、動畫師、渲染師、攝影師、燈光師、剪輯師等各個工序的工作人員,就都按照這些手繪分鏡圖來理解人物、故事,從而創(chuàng)作出一部完整的動畫片。
故事板作為整個動畫片的標準參考圖,其表達能力的優(yōu)劣會直接影響到后面所有的環(huán)節(jié)。一旦出現(xiàn)誤解、歧義的情況,可能造成后面動畫制作工作的成本增加和勞動力浪費。所以在沒有其他替代方式的情況下,動畫制作公司還是會選擇花費一定的人力和物力,特別是請專業(yè)的畫師來制作合適的腳本分鏡圖,希望不僅能保證呈現(xiàn)效果,而且能保證制作效率。
本系統(tǒng)就是為了提高導演與動畫創(chuàng)作人員間的溝通效率,希望將動畫片的構思和想法通過簡單的交互,直觀地呈現(xiàn)為二維圖像,甚至是三維動畫,這樣便能統(tǒng)一導演與動畫工作人員們的思想,有效提高動畫制作的效率。輸出的圖像和視頻都可達到照片級的精度,使得故事板中的人物和場景都能被細致和精確地表達,如圖3所示。
圖3 傳統(tǒng)手工分鏡圖與照片級分鏡圖對比
該創(chuàng)新系統(tǒng)希望構建人類創(chuàng)意與計算機科學技術之間的橋梁,運用良好的交互性操作,利用網(wǎng)絡上海量的可視化媒體素材,以更簡單直觀的方法,讓每個人成為自己原創(chuàng)腳本的導演。
同時考慮到了分鏡圖的重要性,以及傳統(tǒng)手繪方式的不便利性,設計制作了一套從文字轉到圖像再可轉到三維展示的三維動畫快速創(chuàng)作系統(tǒng),流程如圖4所示。
整個系統(tǒng)主要共由2個子系統(tǒng)組成,包括:
1)導演腳本生成子系統(tǒng):主要完成文字劇本到可視分鏡圖像的轉換;
2)三維動畫生成子系統(tǒng):主要完成分鏡圖像到三維動畫視頻的轉換。
兩個系統(tǒng)可連通使用,亦可單獨使用。
如此一來,這套完整的三維動畫快速創(chuàng)作系統(tǒng),不僅能完成傳統(tǒng)分鏡故事板的生成,還可以直接制成簡單的三維動畫片。在動畫制作之前的策劃階段亦可發(fā)揮其作用。代替?zhèn)鹘y(tǒng)的文字敘述式策劃書,把可視化的圖像、視頻展示給老板和贊助商。制作公司便不必浪費經費來制作預告片,而且能很好地呈現(xiàn)創(chuàng)作想法。更重要的是,利用該系統(tǒng)能夠大大地節(jié)省制作時間,幾分鐘便可以完成一幅可視化的分鏡圖,過程中也便于修改,提高了前期動畫制作的工作效率。
圖4 系統(tǒng)流程圖
2.2.1 基于Internet的多源可視媒體素材庫
兩個子系統(tǒng)所使用的素材庫都是基于Internet的多源可視媒體素材庫。在服務器上存儲了數(shù)十萬個二維和三維的動畫素材資源。
每個素材利用基于特征袋模型和監(jiān)督學習的方法進行語義標注,其語義信息和特征信息都保存在語義數(shù)據(jù)庫中,以供在客戶端利用基于高層語義的圖像/模型檢索算法來檢索所需的二維圖像或三維模型。
2.2.2 導演腳本生成子系統(tǒng)
1)草圖繪制模塊:本系統(tǒng)所使用的網(wǎng)絡可視媒體素材庫,存儲了海量圖像和三維素材。每個素材都定義了語義概念。有了對應的語義信息,本模塊繪制的草圖就可以和素材庫中的資源建立關聯(lián),進行匹配檢索。
在畫板上,用戶可選擇右邊工具欄中的鉛筆和橡皮工具,利用一些簡單的線條,大致畫出所需對象的輪廓特點,如圖5所示,再設置草圖圖形的語義分類信息。繪制完所有的草圖對象后,草圖及其語義保存在指定的目錄中。
圖5 草圖繪制模塊(截圖)
2)素材檢索模塊:采用了基于高層語義的圖像檢索算法[2]。圖像語義具有模糊性、復雜性、抽象性。一般包括3個語義層次[3]:特征語義、目標和空間關系語義、高層語義。其中高層語義主要涉及圖像的場景語義(如海濱、街道、室內等),行為語義(如表演、超越、進攻等)和情感語義(如平靜、和諧、振奮等)。
本系統(tǒng)構建的語義本體概念,提取了4層語義技術框架:對象語義、場景語義、運動語義和事件語義,將多源可視媒體素材庫中素材的底層特征向高層語義進行轉化,計算機會自動對圖像的特征進行提取和存儲,檢索結果如圖6所示。
圖6 素材檢索模塊(截圖)
3)圖像融合模塊:首先采用基于GPU的共享采樣摳圖算法進行圖像分割,采集一定數(shù)量的樣本,并通過多種度量標準確定出最佳的前景和背景樣本對,然后結合鄰近像素的前景背景樣本對,生成新的能夠更加準確表示當前點的樣本對。這樣就能從上一步選取的項目中高精度地摳取出所需對象。
接著導入一幅背景圖,利用基于均值坐標克隆的無縫融合算法,實現(xiàn)沿邊界的平滑插值。這種方法近似于一個針對邊界插值問題的調和方案,利用均值插值避免求解大型線性系統(tǒng)。能夠實時自動地將對象與場景進行無縫融合,并根據(jù)邊界周圍的顏色進行自適應調整,最終輸出照片級圖像融合結果,如圖7所示。
圖7 圖像融合模塊(截圖)
重復以上3個模塊,便能將用戶文字想法呈現(xiàn)為一幅幅高精度的二維分鏡圖了。
2.2.3 三維動畫生成子系統(tǒng)
三維動畫生成系統(tǒng)主要就是把二維分鏡圖像中的對象轉到三維虛擬空間中。整個系統(tǒng)由標準C++程序和OpenGL編寫,利用了OSG(Open Scene Graph)這個開源、跨平臺的圖形開發(fā)包,完成三維渲染。在OSG基礎上,自行開發(fā)研制場景管理模塊,擁有良好的用戶接口、便利的操作性和豐富的場景管理功能,所用功能操作在一個界面中完成,如圖8所示。
圖8 三維動畫生成子系統(tǒng)界面(截圖)
本子系統(tǒng)的素材導入方式可以有2種:
1)本地模式:與二維系統(tǒng)相同,利用基于高層語義的三維模型的檢索算法,結合用戶輸入的關鍵字語義信息,直接從Internet的多源可視媒體數(shù)據(jù)庫中檢索,然后把所需模型拖放導入場景中。
2)網(wǎng)絡模式:此模式下,二維的導演腳本生成子系統(tǒng)和三維動畫渲染子系統(tǒng)便能連通使用。
最大創(chuàng)新點也正是設計了這種基于腳本的場景渲染子系統(tǒng)。因為二維場景設計相對三維更簡單、直觀,將二維草圖設計時得到的參數(shù),通過XML腳本導入三維渲染引擎中,直接讀取一個場景,其中包含各個對象的位置、尺寸等信息。然后自動加載所需的模型,渲染構成一個對應的三維場景。為了呈現(xiàn)出更好的視覺效果,系統(tǒng)設置了視點、對象、光照、相機漫游、天氣等參數(shù)供用戶自行調整。其中視點的高低可設置為平視、鳥瞰、俯視,或是左側視、正視、右側視。模型對象,可對其進行旋轉、移動、縮放、克隆、刪除等操作,通過這些操作來使模型與場景中的環(huán)境進行匹配。光照參數(shù)可設置清晨、黃昏、中午等不同模式,自動加入對應的光照和陰影。由粒子系統(tǒng)實現(xiàn)的天氣模型,可以選擇晴天、下雨、下雪、霧天這4種天氣。而漫游參數(shù)用來設置相機的漫游路徑,通過實時漫游就可以生成每個分鏡的漫游視頻片段。最后將視頻片段進行剪接,再加入音樂等后期處理,那么一部繪聲繪色的三維動畫就完成了。
本系統(tǒng)中使用了多項計算機圖形、圖像處理技術,其中場景與對象的無縫融合算法關系到整個系統(tǒng)的性能和速度,其算法的優(yōu)劣會影響系統(tǒng)輸出效果的優(yōu)劣。本系統(tǒng)中的融合模塊,是將檢索到的圖像,先通過交互分割出所需對象,然后導入所需的場景,與之融合,最終輸出結果,主要工作步驟如圖9所示。
圖9 圖像融合模塊流程圖
其中采用了基于均值坐標的無縫融合算法,這種方法不僅輸出效果好,而且計算速度快。
對象與場景的融合技術是數(shù)字圖像處理中一項重要的技術[4]。選擇源圖像中感興趣的區(qū)域作為對象,然后無縫拼接到新的背景場景中,目標是讓融合的結果圖像看上去盡可能的和諧與自然[5]。
傳統(tǒng)的泊松融合算法中,運用邊界條件來解泊松方程,以實現(xiàn)在對象邊界和場景目標的差異之間進行平滑的插值[6-7]。這種梯度域融合方法必須要求融合的圖像在梯度域上盡可能平滑[8]。
而選擇更快速的均值坐標的方法[9],來逼近求解泊松方程。這種基于坐標的方法在實際運用中,不像上述方法那樣需要解一個復雜的泊松方程[10],而是沿著邊界對內部的每個像素加權后進行插值。其速度快,易實現(xiàn),內存占用小,同時結果顯示其融合效果也很好,能夠達到實時性的要求。
在原始素材圖S和場景目標圖T中,其中g和f*分別是兩幅圖在各自域上的強度,假設點x是融合區(qū)域Pt內的一點,邊界條件?Pt(P0,P1,…,Pm=P0),αi是點Pi,x,Pi+1之間的夾角,如圖10所示。
圖10 角度定義
那么均值坐標ωi定義為
內插權值為
于是,就可以對定義在邊界上的方程f進行平滑插值
最終均值融合法結果即為
由以上過程可以看到,均值坐標融合法計算公式簡單,運算量小,僅由融合區(qū)域像素數(shù)和邊界像素數(shù)來決定。
在追求效率的同時,也不能忽略融合質量的要求。分別選取最常使用的復制粘貼法、泊松融合法與均值坐標法進行比較。圖11分別是素材圖、目標圖,以及3種方法融合的結果圖。
圖11 各種融合方法結果圖
將素材圖中的斑馬經過分割后,融合進綠色草地的場景目標圖中。由圖可見人眼視覺上的效果,圖11c明顯沒有構建素材圖與目標圖之間平滑的插值過度,導致邊界生硬,整幅圖色調完全不協(xié)調。而圖11d、圖11e僅僅從人眼視覺角度觀察,都有不錯的融合效果,不能完全分辨優(yōu)劣。
為了更精確地分析各個融合結果的好壞,采用幾種經典常見的圖像質量評價指標,來分析、比較不同融合算法的區(qū)別,3種方法得到的評價數(shù)值見表1。
表1 幾種常用的評價指標
以上數(shù)據(jù)的參考圖均采用了原始的目標圖像。從數(shù)值上看,均值坐標法在邊緣強度、互信息、交叉熵、相對標準差、峰值信噪比、均方根誤差、結構相似度方面,都比泊松方法更優(yōu)。再加上更快的計算速度,均值坐標法無疑更勝一籌。
本系統(tǒng)由導演腳本生成子系統(tǒng)和三維動畫生成子系統(tǒng)聯(lián)合組成,通過語義標注、圖像檢索、分割、融合、三維渲染等一系列計算機圖形、圖像處理技術,提出了一個可視化的交互式三維動畫快速創(chuàng)作系統(tǒng)。圖12是使用該系統(tǒng)生成的三維漫游動畫例子。
圖12 系統(tǒng)實例
憑借其高效的特點,本系統(tǒng)完全可以替代傳統(tǒng)的手繪式動畫創(chuàng)作方式,并且具有更多優(yōu)勢:1)可進行實時修改;2)可靈活應用網(wǎng)絡數(shù)據(jù)庫中的內容;3)不需要專業(yè)的繪畫功底;4)擁有更多樣的呈現(xiàn)方式。
利用本系統(tǒng),用戶可以通過簡單的交互操作,實現(xiàn)從文字劇本到分鏡圖像再到三維動畫視頻的轉換,給普通大眾提供了快速動畫創(chuàng)作的平臺。
:
[1]李四達.數(shù)字媒體藝術史[M].北京:清華大學出版社,2008:51-55.[2]李向陽,莊越挺,潘云鶴.基于內容的圖像檢索技術與系統(tǒng)[J].計算機研究與發(fā)展,2001,38(3):344-354.
[3]向友君,謝勝利.圖像檢索技術綜述[J].重慶郵電學院學報:自然科學版,2006,18(3):348-354.
[4]GONZALEZ R C,WOODS R E.Digital image processing[M].2nd ed.Boston,MA,USA:Addison-Wesley Longman Publishing,2001.
[5]AGARWALA A,DONTCHEVA M,AGRAWALA M,et al.Interactive digital photomontage[J].ACM Trans.Graphics(TOG),2004,23(3):294-302.
[6]PEREZ P,GANGNET M,BLAKE A.Poisson image editing[J].ACM Trans.Graphics(TOG),2003,22(3):313-318.
[7]SUN J,JIA J,TANG C K,et al.Poisson matting[J].ACM Trans.Graphics(ToG),2004,23(3):315-321.
[8]JIA J,SUN J,TANG C K,et al.Drag-and-drop pasting[J].ACM Trans.Graphics(TOG),2006,25(3):631-637.
[9]JU T,SCHAEFER S,WARREN J.Mean value coordinates for closed triangular meshes[J].ACM Trans.Graphics(TOG),2005,24(3):561-566.
[10]FARBMAN Z,HOFFER G,LIPMAN Y,et al.Coordinates for instant image cloning[J].ACM Trans.Graphics(TOG),2009,28(3):67.