基于音視頻的自動(dòng)化低成本VR視頻生成方法研究

2019-10-09 00:00李鵬付則宇邱柯妮張梁

軟件 2019年7期

李鵬　付則宇　邱柯妮　張梁

摘? 要：虛擬現(xiàn)實(shí)（VR）技術(shù)的發(fā)展和相應(yīng)硬件設(shè)備的普及，使得VR視頻內(nèi)容具有非常大的發(fā)展?jié)摿?。但VR視頻的制作存在兩個(gè)方面的挑戰(zhàn)：一是新內(nèi)容的VR視頻生成成本很高;二是過去的影音資料難以重新錄制成VR視頻。本文提出一種新穎、低成本的利用已有影音資料生成VR視頻的方法，該方法結(jié)合自然語言處理技術(shù)（NLP）、3D建模、虛擬現(xiàn)實(shí)等技術(shù)，可以快速、低成本生成VR視頻。實(shí)驗(yàn)表明，本文方法可以大幅度節(jié)省制作成本，過去的音視頻也可以生成沉浸感強(qiáng)的VR視頻。

關(guān)鍵詞： VR視頻;NLP;自動(dòng)化;低成本;沉浸感

中圖分類號(hào)： TP391.9; N39? ? 文獻(xiàn)標(biāo)識(shí)碼： A? ? DOI：10.3969/j.issn.1003-6970.2019.07.004

本文著錄格式：李鵬，付則宇，邱柯妮，等. 基于音視頻的自動(dòng)化低成本VR視頻生成方法研究[J]. 軟件，2019，40（7）：2230

【Abstract】： With the development of virtual reality （VR） technology and the popularity of corresponding hardware devices， VR videos present a very bright developing prospect among the emerging technologies. However， there are two major challenges in the production of VR videos. First， the cost of producing new VR video is very high. Second， it is difficult to transform past audio or video data to VR formats using the normal VR generation approaches. Addressing these problems， this paper proposes an automatic and low-cost method to generate VR videos using the existing low-cost audio and video materials. The proposed method integrates the technologies of Natural Language Processing （NLP）， 3D modeling， virtual reality to produce high quality VR videos in a fast， low cost and automatic way. Experimental results show that cost can be greatly saved by the proposed method. Furthermore， it is a novel way to provide VR videos for the old precious audios or videos.

【Key words】： VR video; NLP; Automatic video generation; Low-cost; Immersive experience

0? 引言

2016年1月國際CES（International Consumer Electronics Show）展會(huì)上，虛擬現(xiàn)實(shí)（Virtual Reality， VR）相關(guān)展品搶盡風(fēng)頭。隨后國內(nèi)外VR廠商陸續(xù)推出一大批消費(fèi)級(jí)虛擬現(xiàn)實(shí)設(shè)備。硬件設(shè)備的爆發(fā)以及用戶對(duì)VR體驗(yàn)的渴望，推動(dòng)VR產(chǎn)業(yè)進(jìn)入高速發(fā)展時(shí)期。如今虛擬現(xiàn)實(shí)（VR）技術(shù)在我們的生活[1]、科技[2]、醫(yī)療[3]、教育[4]中有廣泛的應(yīng)用。豐富的內(nèi)容是VR生態(tài)鏈中重要的一環(huán)[5]，然而VR內(nèi)容的創(chuàng)作是一件非常耗費(fèi)時(shí)間、精力和財(cái)力的工作。再者，過去的音視頻資料限于當(dāng)時(shí)的軟硬件水平和錄制手法，導(dǎo)致這些資料的畫面質(zhì)感和錄音質(zhì)量普遍不高。對(duì)于這些珍貴的影音材料，一方面修復(fù)會(huì)面臨諸多挑戰(zhàn)，另一方面也無法重新錄制成VR版本的視頻。

為此，本文提出一種新穎、低成本的利用已有影音材料生成VR視頻的方法。該方法結(jié)合NLP（自然語言處理技術(shù)）、3D建模、虛擬現(xiàn)實(shí)等技術(shù)，可以快速、低成本自動(dòng)生成高質(zhì)量VR視頻。

本文貢獻(xiàn)體現(xiàn)在以下三個(gè)方面：

（1）一套標(biāo)準(zhǔn)完整的自動(dòng)化轉(zhuǎn)化步驟，無需計(jì)算機(jī)專業(yè)相關(guān)背景知識(shí)都可以用我們的設(shè)計(jì)架構(gòu)很簡(jiǎn)便地制作VR視頻內(nèi)容。

（2）和用攝像機(jī)拍攝VR全景視頻、動(dòng)態(tài)捕捉設(shè)備錄制VR視頻相比，本文方法可以節(jié)約技術(shù)成本、時(shí)間成本、金錢成本，短期內(nèi)可以大量產(chǎn)生成熟作品。

（3）對(duì)一些由于年代久遠(yuǎn)，視頻質(zhì)量差或者只有音頻的情況，我們的方法也可以很容易的轉(zhuǎn)制成VR視頻。

1? ?背景

1.1? VR視頻

虛擬現(xiàn)實(shí)（VR）視頻，又稱全景視頻或360°視頻[6]，是要借助于虛擬現(xiàn)實(shí)硬件設(shè)備進(jìn)行播放的視頻作品，其目的是為觀看視頻的用戶帶來可交互的、沉浸式的臨場(chǎng)感體驗(yàn)。

VR視頻是虛擬現(xiàn)實(shí)技術(shù)（Virtual Reality Technology，又稱靈境或臨境技術(shù)）的一個(gè)重要應(yīng)用方向[7]，虛擬現(xiàn)實(shí)技術(shù)來源于計(jì)算機(jī)仿真技術(shù)。計(jì)算機(jī)仿真是通過構(gòu)建虛擬環(huán)境來模擬真實(shí)世界的運(yùn)動(dòng)規(guī)律。通過計(jì)算機(jī)仿真技術(shù)構(gòu)造的虛擬環(huán)境，既可以是一個(gè)符合現(xiàn)實(shí)世界規(guī)律的虛擬環(huán)境，也可以是一個(gè)完全假想的環(huán)境。虛擬現(xiàn)實(shí)從不同的角度定義有很多不同的描述方式，但是所有描述方式中最重要的一個(gè)共性是，虛擬現(xiàn)實(shí)可以通過虛擬環(huán)境給用戶營造一種不受時(shí)空控制的可交互的、沉浸式的臨場(chǎng)感體驗(yàn)，這個(gè)共性也是VR視頻的最大特點(diǎn)。

1.2? VR視頻的生成方式

VR視頻制作流程涉及多種近現(xiàn)代尖端影像技術(shù)，如計(jì)算機(jī)仿真技術(shù)、圖形拼接技術(shù)、動(dòng)態(tài)環(huán)境建模技術(shù)、實(shí)時(shí)三維圖形生成和顯示技術(shù)、適人化、智能化人機(jī)交互技術(shù)等。VR視頻內(nèi)容的生產(chǎn)可以分為兩種方式，一種是借助全景攝像機(jī)拍攝并生成全景視頻;另一種是采用CG（computer graphic，計(jì)算機(jī)圖形）技術(shù)3D建模生成視頻[8]。接下來簡(jiǎn)要的介紹下每種VR視頻生成方式的特點(diǎn)。

1.2.1? 用全景攝像機(jī)拍攝全景視頻

攝像機(jī)拍攝VR視頻，需要用全景攝像機(jī)即多鏡頭攝像機(jī)拍攝各個(gè)方向的圖像內(nèi)容并進(jìn)行圖像拼接[9]。中介紹了一種用于全景視頻采集的多鏡頭系統(tǒng)。全景視頻的生成可以分為攝像機(jī)標(biāo)定、圖像融合與同步、視頻流生成三個(gè)階段。用攝像機(jī)拍攝的VR全景視頻分為五種，分別是全景3D交互視頻、局部全景3D視頻、全景3D視頻、非全景3D視頻、VR全景視頻。這五種VR視頻拍攝難度依次降低，最終體驗(yàn)效果也有很大差異，其中全景3D交互視頻的沉浸性效果最好。在全景3D交互視頻中用戶可以參與到視頻的故事情節(jié)中去，通過與故事場(chǎng)景中的物體進(jìn)行互動(dòng)，作品根據(jù)用戶的選擇做出回應(yīng)，從而影響故事情節(jié)的發(fā)展。全景3D交互視頻真正實(shí)現(xiàn)了用戶對(duì)虛擬現(xiàn)實(shí)環(huán)境的“真實(shí)”體驗(yàn)，但是VR視頻中的交互問題一直是制作者的痛點(diǎn)[10]。用不用交互，哪里使用交互，如何用交互都是這類VR內(nèi)容制作者不得不面臨的問題，而且全景3D交互視頻制作周期長、成本高，短時(shí)期內(nèi)難以產(chǎn)生大量成熟的作品。

1.2.2? 計(jì)算機(jī)圖形技術(shù)3D建模生成VR視頻

采用CG（計(jì)算機(jī)圖形技術(shù)）3D建模生成的VR視頻類似于3D動(dòng)畫的VR版本，在綜合運(yùn)用各種貼圖、光效和渲染后，其視覺效果可以和全景相機(jī)拍攝的視頻相媲美。與使用全景攝像機(jī)拍攝VR視頻相比，CG技術(shù)生成VR視頻方便節(jié)奏控制和工作調(diào)度，同時(shí)不用購買昂貴的拍攝裝備，不需要專業(yè)的影視拍攝人員，但是同樣面臨創(chuàng)作難的問題。一是虛擬場(chǎng)景的搭建設(shè)計(jì)，內(nèi)容劇本的設(shè)計(jì)，講演思路的設(shè)計(jì)等，都需要付出一些有創(chuàng)造性的智力勞動(dòng)才能完成。二是虛擬場(chǎng)景中角色模型的肢體動(dòng)畫多是通過動(dòng)態(tài)捕捉設(shè)備實(shí)時(shí)錄制。全套動(dòng)態(tài)捕捉設(shè)備不僅價(jià)格昂貴，而且操作繁雜，需要相關(guān)技術(shù)人員和軟硬件設(shè)備的協(xié)同工作。而這就在無形中抬高了制作生成VR視頻的門檻。

1.2.3? 生成VR視頻面臨的挑戰(zhàn)

綜上所述，基于現(xiàn)有的通用VR視頻生成方法想要低成本高質(zhì)量的生產(chǎn)VR視頻面臨著一些挑戰(zhàn)。首先，不管采用以上兩種方法中的哪一種，繁雜的制作流程會(huì)大大降低視頻內(nèi)容的生產(chǎn)效率[11]。中以全景微課視頻的設(shè)計(jì)與制作為例，完整的制作流程要包含教學(xué)設(shè)計(jì)、腳本構(gòu)思、實(shí)景拍攝、后期制作等幾個(gè)步驟。其次，不管是采用全景攝像機(jī)拍攝全景視頻，還是使用動(dòng)態(tài)捕捉裝備錄制肢體動(dòng)畫，都需要購買昂貴的硬件設(shè)備。這就增加了生產(chǎn)VR內(nèi)容的制作成本，而且對(duì)制作人員的技術(shù)要求很高。最重要是，以上兩種方法針對(duì)過去的一些珍貴音視頻材料都無法重新拍攝或錄制。

2? 研究目的

近年來，隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的高速發(fā)展，網(wǎng)上積累了大量、優(yōu)秀、高質(zhì)量內(nèi)容的視頻資源。這些視頻無論從內(nèi)容、講授形式、講授思路等都是很好的資源，借助這些已有的資源進(jìn)行VR內(nèi)容的轉(zhuǎn)制，可以有效的降低VR視頻制作的創(chuàng)作門檻。同時(shí)，虛擬現(xiàn)實(shí)技術(shù)、人工智能相關(guān)技術(shù)的快速發(fā)展，相應(yīng)軟硬件設(shè)備的迅速普及也為傳統(tǒng)視頻向VR視頻轉(zhuǎn)化提供了技術(shù)支持和設(shè)備支撐。另一方面，運(yùn)用現(xiàn)有的VR視頻的生產(chǎn)方法又面臨著上文所介紹的諸多挑戰(zhàn)。因此在考慮技術(shù)成本、時(shí)間成本、金錢成本的情況下，運(yùn)用新的技術(shù)和研究方法同時(shí)依托已有的視頻資源進(jìn)行創(chuàng)造性的三維視頻轉(zhuǎn)制變得很有必要。這將會(huì)有效降低VR視頻的創(chuàng)作難度，縮短VR視頻的制作周期，同時(shí)保證視頻內(nèi)容質(zhì)量的優(yōu)質(zhì)性。而這方面的研究工作還很少有人涉及。

因此，本文提出了一種新穎、低成本的創(chuàng)作VR視頻的方法，利用人工智能相關(guān)研究和虛擬現(xiàn)實(shí)相關(guān)技術(shù)并結(jié)合網(wǎng)絡(luò)上已有的一些優(yōu)秀的、高質(zhì)量的影音材料進(jìn)行VR視頻轉(zhuǎn)制。該設(shè)計(jì)方法尤其針對(duì)課堂、演講等場(chǎng)合具有很高的應(yīng)用價(jià)值。[12]中針對(duì)課程錄像制作引入虛擬現(xiàn)實(shí)技術(shù)，通過構(gòu)建虛擬場(chǎng)景，提供逼真的學(xué)習(xí)環(huán)境，但是該研究沒有探討虛擬形象取代真實(shí)講師形象的可能性。我們提出的VR視頻轉(zhuǎn)制方法通過沉浸的虛擬環(huán)境、生動(dòng)的虛擬形象，以另一種更加生動(dòng)活潑的方式真實(shí)的再現(xiàn)課堂或演講場(chǎng)景。因此本研究提出的設(shè)計(jì)架構(gòu)不僅具有很強(qiáng)的學(xué)術(shù)價(jià)值更具有很廣泛的實(shí)際應(yīng)用需求。

3? ?研究方案

3.1? 工作流程概述

本文提出的多媒體視頻或音頻轉(zhuǎn)為VR視頻的方法概括起來可以分為三個(gè)步驟。

① 用語音識(shí)別工具提取視頻或音頻的文本信息。

② 對(duì)語音轉(zhuǎn)化的文本進(jìn)行自然語言處理獲取每一句文本的情感標(biāo)簽。

③ 文本，音頻，演講者角色模型，肢體情感動(dòng)畫在三維虛擬現(xiàn)實(shí)場(chǎng)景中匹配生成VR視頻。

圖1為總體流程圖，圖中的①，②，③，代表上述三個(gè)步驟中用到的主要工具和關(guān)鍵技術(shù)。

3.2? 語音識(shí)別獲取音頻字幕文件

用本文的方法進(jìn)行VR視頻轉(zhuǎn)制，第一步是把多媒體音頻或視頻用語音識(shí)別工具進(jìn)行文本化處理，獲取影音材料的字幕文件。在選擇語音識(shí)別軟件方面我們要以保證語音識(shí)別一定準(zhǔn)確度的情況下同時(shí)方便獲取語音的字幕文件為出發(fā)點(diǎn)。

目前市面上有很多成熟的商用語音識(shí)別軟件，例如科大訊飛、微軟speech sdk等。經(jīng)過對(duì)市面上多款語音識(shí)別軟件進(jìn)行實(shí)測(cè)和效果對(duì)比后，本研究采用YeeCaption這款免費(fèi)智能視頻翻譯軟件。該軟件的智能性體現(xiàn)在能夠自動(dòng)對(duì)語音軸進(jìn)行切分，對(duì)字幕內(nèi)容和語音信息進(jìn)行識(shí)別，最后字幕文件也可以很方便的一鍵導(dǎo)出。同時(shí)這款軟件界面設(shè)計(jì)簡(jiǎn)單明了，功能設(shè)定明確區(qū)分，初學(xué)者也能輕松入手。最重要的是，此軟件音頻轉(zhuǎn)文本的準(zhǔn)確度高、導(dǎo)出的字幕文件包含每一句文本的時(shí)間戳信息，完全符合本研究的需要。

本文以俞敏洪老師經(jīng)典的一分鐘演講《水的精神》為例，演示獲得視頻或音頻字幕文件的過程。

（1）語音切軸獲取影音材料的時(shí)間信息

把視頻或者音頻文件導(dǎo)入YeeCaption中，對(duì)導(dǎo)入音頻進(jìn)行語音切軸操作，把演講者每一句話切分開來，獲取每一句話的時(shí)間信息。如圖2所示，右側(cè)上方框框住的是每一句語音切軸，界面下方左側(cè)框框住的是每一句語音切軸所對(duì)應(yīng)的時(shí)間間隔信息。

（2）進(jìn)行語音識(shí)別字幕，獲取語音的字幕信息

圖3是語音識(shí)別后的結(jié)果，從圖中方框框住的部分我們可以看出，每一句語音切軸出現(xiàn)了字幕文本信息。語音轉(zhuǎn)化成了對(duì)應(yīng)時(shí)間間隔內(nèi)相應(yīng)文字。

（3）導(dǎo)出字幕文件

YeeCaption可以很方便的導(dǎo)出字幕文件。圖4是導(dǎo)出選項(xiàng)中所支持的字幕文件導(dǎo)出形式。

3.3? 自然語言處理獲取文本情感標(biāo)簽

3.3.1? 本文所用獲取文本情感標(biāo)簽方法

以自然語言文本形式描述的信息占總信息資源的80%，對(duì)文本信息進(jìn)行分析處理屬于自然語言處理技術(shù)的研究范疇?，F(xiàn)階段自然語言處理的研究方法主要分為兩類：一類是最近比較火熱的基于數(shù)學(xué)統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法，另一類是基于傳統(tǒng)語法規(guī)則的自然語言處理方法。具體采用哪種方法還是要看實(shí)際的工作需要。

本文提出一種自動(dòng)化的、低成本的VR視頻轉(zhuǎn)制方法，出發(fā)點(diǎn)之一就是要盡量減少人工操作，節(jié)省時(shí)間成本、人力成本。因此本研究采用基于詞典的情感分析方法，針對(duì)句子級(jí)語料進(jìn)行情感分析，提取每一條字幕文本的情感標(biāo)簽。本文針對(duì)句子級(jí)語料而不是針對(duì)篇章級(jí)語料進(jìn)行處理的原因是，語音識(shí)別導(dǎo)出的字幕文件是以每一個(gè)時(shí)間戳對(duì)應(yīng)一行字幕文本的形式呈現(xiàn)的。所以我們的情感分析是以句子級(jí)為單位進(jìn)行處理的。相比于篇章級(jí)的語料處理我們的方法可以進(jìn)一步的降低情感分析的難度。

3.3.2? 基于情感詞典獲取文本情感標(biāo)簽

在大多數(shù)情況下，人們習(xí)慣直接用情感詞來表達(dá)自己的態(tài)度和觀點(diǎn)。例如用“excellent”來表達(dá)一種積極的觀點(diǎn)，而用“poor”來表達(dá)一種是消極的觀點(diǎn)。這種情感表達(dá)式稱為直接情感表達(dá)（direct sentiment expression）。因此我們可以根據(jù)一句話中的情感詞來大致判斷該句話的情感類型。每一個(gè)領(lǐng)域都有各自領(lǐng)域不同的情感詞，而不可能生成一個(gè)完備的適用于所有領(lǐng)域的情感詞典。但是全人類情緒大的分類是一致的，例如人類的情感不外乎喜、怒、哀、樂等。本研究采用[13]中大連理工大學(xué)的中文情感詞匯本體庫作為情感詞典進(jìn)行情感分析。

Ekman是國際上具有廣泛影響力的情感分類庫，總共包含6大類的情感。大連理工大學(xué)的情感詞典本體庫在Ekman的基礎(chǔ)上加入了情感類別“好”，構(gòu)建成了包含七大情感類別（樂、好、怒、哀、懼、惡、驚）21小類別的本體情感庫。本體庫中的每個(gè)情感詞都被分為正向、負(fù)向、中性三個(gè)情感極性，并具有從0到10等不同大小的情感程度值。大連理工大學(xué)的情感詞典本題庫從情感類別、情感強(qiáng)度及極性等方面對(duì)每一個(gè)中文詞匯或者短語進(jìn)行描述完全符合本研究的需求。另外我們還準(zhǔn)備了一個(gè)否定詞表（negation words）詞典，以便對(duì)句子中含有否定詞的情感詞進(jìn)行極性反向處理。

詞典匹配的過程如下：

首先對(duì)句子進(jìn)行分詞、去停用詞處理，獲得只包含主干和核心詞的精簡(jiǎn)句子。

然后將精簡(jiǎn)句子中的每一個(gè)詞去和情感詞典中的每一個(gè)詞進(jìn)行比對(duì)，如果詞典中出現(xiàn)了該詞就記錄下該詞的情感類型、情感極性、情感強(qiáng)度等屬性。依次進(jìn)行下去直到句子中的每一個(gè)詞都進(jìn)行了比對(duì)。

接下來再將精簡(jiǎn)后句子中的每一個(gè)詞去和否定詞表詞典中的詞進(jìn)行對(duì)比，查看句子中是否包含否定詞，以便對(duì)句子的情感極性進(jìn)行反向處理。

3.3.3? 處理字幕文件中的時(shí)間軸標(biāo)簽

打開音頻轉(zhuǎn)化后的字幕文件，我們可以看出每一句文本上面包含一個(gè)文本序號(hào)、一個(gè)時(shí)間軸標(biāo)簽，如圖5中方框框住的部分所示，我們把這三項(xiàng)看成一個(gè)字幕元素。上一小節(jié)中介紹的是對(duì)字幕元素中的文本進(jìn)行自然語言處理提取文本的情感標(biāo)簽。這一節(jié)對(duì)字幕元素中的時(shí)間軸標(biāo)簽進(jìn)行處理，獲得每一句文本出現(xiàn)的時(shí)間差值，最后將 srt格式字幕文件轉(zhuǎn)化為Unity 中可以處理的字幕文件。

時(shí)間軸標(biāo)簽中包含兩個(gè)時(shí)間節(jié)點(diǎn)，每一個(gè)時(shí)間節(jié)點(diǎn)中又包含時(shí)、分、秒、毫秒四個(gè)時(shí)間元素。我們把每一個(gè)時(shí)間節(jié)點(diǎn)都換算成毫秒，計(jì)算兩個(gè)時(shí)間節(jié)點(diǎn)的差值，然后再用差值除以1000換算成秒為單位。這樣就獲得了一段文本在視頻中出現(xiàn)的時(shí)間差值。如圖6中方框框住的是第17句文本在視頻或音頻中持續(xù)的時(shí)間間隔。

每一句文本的情感標(biāo)簽，文本內(nèi)容，出現(xiàn)在視頻中的時(shí)間差值，組成一個(gè)新的字幕元素，如圖6所示每一行就是一個(gè)新的字幕元素。對(duì)原始音頻轉(zhuǎn)化后的字幕文件中的每一個(gè)字幕元素都做以上處理，srt格式字幕文件就轉(zhuǎn)化為了新的Unity 中可以處理的字幕文件。圖6是新的字幕文件的一部分截圖，每一行都是一個(gè)新的字幕元素，字幕元素中的元素項(xiàng)用$符分隔開。每一行的元素項(xiàng)從左到右依次是文本序號(hào)、情感標(biāo)簽、情感強(qiáng)度、文本內(nèi)容、在視頻或音頻中持續(xù)的時(shí)間間隔。

3.4? 情感動(dòng)畫的匹配

3.4.1? 角色動(dòng)畫和場(chǎng)景模型構(gòu)建

在匹配文本、語音和動(dòng)畫之前，需要對(duì)虛擬場(chǎng)景、演講者角色模型、肢體情感動(dòng)畫進(jìn)行構(gòu)建。本研究角色動(dòng)畫采用3DS MAX這款軟件進(jìn)行建模，場(chǎng)景模型在Unity中構(gòu)建。

3DS MAX是目前世界上應(yīng)用最廣泛的三維建模、動(dòng)畫、渲染軟件[14]。使用3DS MAX建模大體上可以分為三個(gè)步驟：①對(duì)于簡(jiǎn)單幾何體，使用3DS MAX內(nèi)置圖形庫可以很方便的建模;對(duì)于復(fù)雜的圖形多采用Nurbs面片建?；蛘逷oly多邊形建模;②對(duì)建好的模型賦予材質(zhì)，所謂材質(zhì)就是模型的外表在3DS MAX中多采用貼圖的方式給模型賦材質(zhì)，貼圖可以采用Photoshop軟件進(jìn)行加工制作;③精細(xì)調(diào)節(jié)，最后要對(duì)模型進(jìn)行精修，包含調(diào)整攝像機(jī)的位置，調(diào)整模型可視角度和反光度，等這一系列操作都完成之后最后把模型渲染輸出成TGA序列圖像格式。

構(gòu)建完成模型和場(chǎng)景之后，接下來的就可以在Unity中對(duì)模型、音頻、字幕、動(dòng)畫進(jìn)行匹配生成VR視頻。關(guān)于拼接視頻，文獻(xiàn)[15]中方案是對(duì)全景圖片的拼接，實(shí)現(xiàn)網(wǎng)絡(luò)視頻的三維全景展示和本文方法有本質(zhì)的區(qū)別。本文是對(duì)視頻元素進(jìn)行處理而非對(duì)視頻中的幀圖片進(jìn)行處理。

為了生動(dòng)有趣的還原音頻中演說場(chǎng)景，我們用《瘋狂動(dòng)物城》中Judy（朱迪）的虛擬形象來代替俞敏洪老師在虛擬場(chǎng)景中進(jìn)行演講。關(guān)于虛擬人物文獻(xiàn)[16]中提到在沉浸式虛擬現(xiàn)實(shí)中，與虛擬人物的交互是最令人信服的一種體驗(yàn)。因?yàn)閰⑴c者和角色共享一個(gè)三維空間，參與者能夠準(zhǔn)確地感知角色的肢體語言?？ㄍㄌ摂M人物構(gòu)建完成之后還需構(gòu)建一個(gè)卡通風(fēng)格的 3D虛擬場(chǎng)景[17]，虛擬化交互將成為一種比較有發(fā)展?jié)摿Φ慕换バ问絒18]。中探討將環(huán)境擴(kuò)展到動(dòng)畫和虛擬現(xiàn)實(shí)的下一代數(shù)字流派。圖7是在3DS MAX中對(duì)Judy模型進(jìn)行建模的示例圖。

給Judy角色模型綁定骨骼，制作演講狀態(tài)中的肢體動(dòng)畫，根據(jù)實(shí)際需要我們定制出演講中表達(dá)情緒的肢體動(dòng)畫，僅作為演示我們給出圖8中四種演講狀態(tài)中的肢體動(dòng)畫效果。

給角色模型綁定骨骼和動(dòng)畫，生成獨(dú)立的動(dòng)畫文件之后就可導(dǎo)入U(xiǎn)nity場(chǎng)景中進(jìn)行文本，音頻，演講者角色模型，肢體情感動(dòng)畫的匹配。我們?cè)赨nity中導(dǎo)入一個(gè)林中小屋場(chǎng)景，導(dǎo)入Judy模型后的效果如圖9所示。

情感標(biāo)簽和角色動(dòng)畫匹配后，角色在Unity場(chǎng)景中的演講狀態(tài)我們也給出部分截圖，效果如圖10所示。

3.4.2? 字幕、音頻、角色、情感動(dòng)畫匹配算法

把字幕文件、音頻文件、角色模型文件、情感動(dòng)畫文件導(dǎo)入到Unity3D游戲引擎中，設(shè)計(jì)算法進(jìn)行匹配，在虛擬場(chǎng)景中還原傳統(tǒng)視頻中的演說場(chǎng)景。

類似于傳統(tǒng)的流媒體視頻，本研究最后生成的VR視頻是一個(gè)包含人物、肢體動(dòng)作、字幕、音頻的完整視頻，而且字幕、語言、肢體動(dòng)作互相匹配。因?yàn)樽帜皇菑恼Z音轉(zhuǎn)化來的所以語音和字幕是一致的，所以匹配算法的關(guān)鍵有兩點(diǎn)，一是要讓字幕和出現(xiàn)該字幕的時(shí)間相一致;二是字幕內(nèi)容和相應(yīng)肢體動(dòng)畫相一致。

時(shí)間和字幕同步的處理方法如下：

本研究使用的方法是借助Unity中的協(xié)程機(jī)制，播放音頻的同時(shí)讓Unity的主程序首先調(diào)用text字幕文件出現(xiàn)一行字幕文本，然后調(diào)用協(xié)程讓主程序等待一段時(shí)間再去調(diào)用text字幕文件中第二行要顯示的字幕文本。這個(gè)協(xié)程等待的時(shí)間就是text字幕文件中字幕文本相應(yīng)行中最后一項(xiàng)的時(shí)間差值。與此同時(shí)，在主程序等待的這段時(shí)間內(nèi)，調(diào)用情感標(biāo)簽和肢體動(dòng)畫文件匹配的算法，使字幕文本的內(nèi)容和肢體動(dòng)作相一致。通過以上方法就做到了語音、字幕、肢體動(dòng)作相匹配。

字幕內(nèi)容和相應(yīng)肢體動(dòng)畫一致的方法如下：

每條動(dòng)畫制作的時(shí)候都有自己的播放時(shí)間即動(dòng)畫自身時(shí)間長度ClipLength。每一段字幕出現(xiàn)也有一個(gè)時(shí)間差值WordTime。即在WordTime時(shí)間內(nèi)，相應(yīng)的動(dòng)畫要播放完，這樣才能保證字幕內(nèi)容和肢體動(dòng)畫相一致。因?yàn)樽帜怀霈F(xiàn)的時(shí)長WordTime是定值，所以只有通過控制動(dòng)畫的播放速度來使字幕內(nèi)容和肢體動(dòng)畫相一致。

動(dòng)畫速度的處理方式有以下三種情況：

1. WordTime=ClipLength? ? Speed=1。

2. WordTime>ClipLength Speed=ClipLength/ WordTime，減慢動(dòng)畫播放速度。

3. WordTime

通過以上三種不同情況的處理，就做到了肢體動(dòng)作動(dòng)畫和字幕內(nèi)容相匹配。

4? ?實(shí)驗(yàn)

4.1? 實(shí)驗(yàn)環(huán)境設(shè)置

本文所提出的VR視頻制作方法，從前期各種轉(zhuǎn)制材料的準(zhǔn)備到后期結(jié)果的呈現(xiàn)，是要依托一些軟硬件設(shè)施的。即使沒有計(jì)算機(jī)相關(guān)專業(yè)知識(shí)的人群，依照本文所提出的方法流程，運(yùn)用VR視頻制作各個(gè)階段的軟硬件設(shè)施，完全可以復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果。下面給出各個(gè)階段所用到的軟硬件設(shè)施。

（1）軟件

提取視頻的音頻操作，本研究使用的是格式工廠這款軟件，這款軟件界面簡(jiǎn)潔、操作方便，可以很容易的提取到所需格式的音頻文件。

音頻的語音識(shí)別文本化處理操作，本研究使用的是YeeCaption這款智能視頻翻譯軟件。這款軟件將繁瑣的視頻字幕翻譯制作最大程度的便捷化，成功實(shí)現(xiàn)從切分時(shí)間軸、字幕（語音）識(shí)別，到字幕翻譯校對(duì)及成品導(dǎo)出的一站式操作。

Srt格式字幕文件的自然語言處理操作，本研究使用的Python3.6.3版本程序語言構(gòu)建流程函數(shù)，自然語言處理庫用的是NLTK庫，句子分詞用的是jieba分詞，情感詞典用的是大連理工大學(xué)信息檢索研究室整理和標(biāo)注中文情感詞匯本體庫。

音頻、字幕、動(dòng)畫的匹配過程是在3D游戲引擎Unity3D中完成的，我們使用的Unity3D軟件的版本是Unity 2017.2.0f3 （64-bit）。

PC操作系統(tǒng)是Win10系統(tǒng)，機(jī)身運(yùn)行內(nèi)存8GB，存儲(chǔ)內(nèi)存500G，處理器是Intel i7處理器。

（2）硬件

制作VR及3D視頻過程中所需硬件設(shè)備為個(gè)人PC， VR及3D視頻完成之后結(jié)果呈現(xiàn)的方式之一是用VR頭顯。本研究結(jié)果呈現(xiàn)運(yùn)用HTC Vive虛擬現(xiàn)實(shí)平臺(tái)。該平臺(tái)配有高清晰頭盔顯示器（HMD）、兩個(gè)運(yùn)動(dòng)控制器和兩個(gè)紅外跟蹤站。本項(xiàng)目在Unity3D中開發(fā)，所有腳本都是用C#語言中完成的。與虛擬環(huán)境的交互主要是通過Vive控制器完成的，控制器有幾個(gè)按鍵可用于交互。此外，制作完成的VR視頻也可以直接在PC上顯示3D視頻，呈現(xiàn)方式并不局限于VR環(huán)境。

（3）參與者

為了對(duì)我們所提出的VR視頻轉(zhuǎn)制方法和最后的視頻呈現(xiàn)效果進(jìn)行評(píng)價(jià)，我們通過發(fā)送電子郵件給首都師范大學(xué)不同專業(yè)背景的學(xué)生來招募實(shí)驗(yàn)志愿者。我們一共選擇了20位志愿者，為了消除性別、年齡差異，我們招募了10名男同學(xué)，10名女同學(xué)，他們的年齡都介于22歲至23之間，所有人的平均年齡為22.28歲。所有志愿者中其中10人宣稱之前體驗(yàn)過虛擬現(xiàn)實(shí)技術(shù)，大多情況下這些體驗(yàn)僅限于體驗(yàn)過虛擬現(xiàn)實(shí)頭盔，或者基于智能手機(jī)的VR盒子。

在本實(shí)驗(yàn)中我們把志愿者分成兩組，為了消除性別差異和對(duì)VR熟悉程度的差異，我們保證兩組人員總數(shù)相同，男女比例相同，對(duì)VR了解情況相一致。

4.2? 實(shí)驗(yàn)流程

1. 對(duì)傳統(tǒng)制作VR視頻的方法進(jìn)行調(diào)研，查詢整理材料，給出傳統(tǒng)方法所花費(fèi)的時(shí)間、財(cái)力、和人力成本數(shù)據(jù)并和我們所提方法的成本進(jìn)行對(duì)比。

2. 讓實(shí)驗(yàn)受試者在VR演示裝備中去觀看轉(zhuǎn)制的視頻，觀看之后填寫調(diào)查問卷，對(duì)視頻沉浸性進(jìn)行評(píng)價(jià)。

4.3? 實(shí)驗(yàn)結(jié)果

4.3.1? VR全景視頻成本

（1）拍攝設(shè)備的價(jià)格花費(fèi)大

國內(nèi)外比較著名的全景相機(jī)品牌有：GoPro Omni、NextVR、Facebook surrond 360、LG 360cam、Samsung Gear 360、DetuTWIN 360、Ricoh THETA S、Nokia OZO、Insta 360，暴風(fēng)魔眼等，部分品牌擁有多種不同型號(hào)相機(jī)，我們只選其中一種進(jìn)行價(jià)格統(tǒng)計(jì)，由于受市場(chǎng)供求關(guān)系影響和商家戰(zhàn)略部署影響，同種品牌同型號(hào)的全景相機(jī)在不同時(shí)間、不同地區(qū)，價(jià)格會(huì)有差異。統(tǒng)計(jì)結(jié)果如表1所示。

（2）時(shí)間成本大，人員動(dòng)用多且復(fù)雜

因VR全景視頻對(duì)于拍攝者及現(xiàn)場(chǎng)拍攝環(huán)境等要求比普通跟拍視頻要高，所以前期準(zhǔn)備工作復(fù)雜，需要的策劃人員溝通人員會(huì)更多，對(duì)有較多經(jīng)驗(yàn)的全景攝影師需求也更大，同時(shí)相比較普通跟拍視頻而言，VR全景視頻的拍攝時(shí)間成本也會(huì)更大。

（3）后期難度高

普通視頻的后期制作主要在剪輯和布置特效兩項(xiàng)之中，而VR全景視頻首先要做的是將不同方位的素材進(jìn)行拼合，還要進(jìn)行畫面的校準(zhǔn)等步驟，使成片塑造的環(huán)境更顯真實(shí)。所以從VR全景視頻后期制作方面來說，也是需要相當(dāng)?shù)臅r(shí)間耗費(fèi)與制作功底。

4.3.2? 動(dòng)捕裝備錄制CG視頻成本

（1）金錢成本大

通過對(duì)各種捕捉設(shè)備的市場(chǎng)行情分析，目前最低成本的小型硬件實(shí)時(shí)捕捉設(shè)備都要萬元以上RMB，而且僅僅是身體運(yùn)動(dòng)捕捉功能部分，而表情、手部，眼睛捕捉等都需要單獨(dú)購買相應(yīng)的設(shè)備，全套購買齊全估計(jì)也要數(shù)十萬RMB，而像Vicon跟MotionAnalysis這樣著名的捕捉公司的最低配置都要100萬以上。部分品牌動(dòng)捕裝備的價(jià)格統(tǒng)計(jì)如表2所示。

（2）人員動(dòng)用多且操作流程復(fù)雜

捕捉設(shè)備包含身體運(yùn)動(dòng)捕捉設(shè)備，表情、手部，眼睛捕捉等相應(yīng)設(shè)備，同時(shí)還需要多角度的控制器定位系統(tǒng)，而這些都需要專業(yè)人員提前進(jìn)行調(diào)試、布置。如圖12中所示，角色演員要穿戴布滿傳感器的設(shè)備，在可定位的區(qū)域內(nèi)活動(dòng)，專業(yè)的技術(shù)人員要實(shí)時(shí)的操控相應(yīng)的軟件進(jìn)行動(dòng)作的捕捉。整個(gè)過程是非常繁雜的，如果設(shè)備某個(gè)部分發(fā)生了故障，設(shè)備調(diào)試也要花費(fèi)很長時(shí)間。

4.3.3? 本文所提VR及3D視頻生成方法成本

我們所提方法不需要全景相機(jī)，不需要?jiǎng)硬堆b備，因此可以很大程度降低金錢成本，同時(shí)也降低了時(shí)間成本和人力成本。只需要針對(duì)已有的音視頻進(jìn)行再次創(chuàng)作就可以生成高質(zhì)量的VR內(nèi)容。在這個(gè)過程中幾乎不花費(fèi)金錢成本，只需要幾款軟件就可以進(jìn)行VR視頻的轉(zhuǎn)制。人力成本方面最多兩個(gè)人就足夠了，一個(gè)人負(fù)責(zé)建模，一個(gè)人負(fù)責(zé)Unity中視頻的拼接。綜合以上VR內(nèi)容生產(chǎn)成本的調(diào)研和分析我們可以得出表3中的結(jié)論。

相較于全景相機(jī)錄制全景視頻的方法、全身動(dòng)捕裝備錄制VR視頻的方法，我們所提出的利用已有音視頻資料生成VR視頻的方法，可以快速、低成本自動(dòng)生成高質(zhì)量VR視頻。

4.3.4? 對(duì)轉(zhuǎn)制VR視頻的效果進(jìn)行評(píng)價(jià)

實(shí)驗(yàn)受試者分A，B兩組。志愿者們首先觀看原視頻，然后體驗(yàn)轉(zhuǎn)制的VR視頻，體驗(yàn)之后針對(duì)“我認(rèn)為轉(zhuǎn)制后的VR視頻和原始視頻相比更有吸引力、沉浸性更強(qiáng)?！眴栴}對(duì)VR視頻的效果進(jìn)行評(píng)價(jià)[19]。中針對(duì)VR環(huán)境下解剖學(xué)領(lǐng)域的空間結(jié)構(gòu)學(xué)習(xí)能力的提升的對(duì)比實(shí)驗(yàn)[20]，中關(guān)于虛擬現(xiàn)實(shí)環(huán)境下條形按鈕和圓形按鈕的對(duì)比實(shí)驗(yàn)，評(píng)價(jià)方法都是采用上面所述的調(diào)查問卷評(píng)價(jià)方法。評(píng)測(cè)效果分5個(gè)等級(jí)從高到底分別是非常同意、同意、中立、不同意、非常不同意。評(píng)測(cè)結(jié)果如下。

由圖13，14中數(shù)據(jù)可以看出A，B兩組橫軸每一項(xiàng)的數(shù)據(jù)差異不是很大，A組中40%的同學(xué)非常同意VR視頻的呈現(xiàn)效果要好于原視頻，同意占比為30%。在B組中也有相似的結(jié)果，同意以上占比為70%。綜合A，B兩組數(shù)據(jù)我們可以看出70%的同學(xué)對(duì)我們所提實(shí)驗(yàn)方法轉(zhuǎn)制的VR視頻呈現(xiàn)效果表示滿意，5%的同學(xué)保持中立，不同意以下占比為25%。

5? 結(jié)語

隨著虛擬現(xiàn)實(shí)技術(shù)和價(jià)格更加親民化的硬件設(shè)備普及，VR視頻內(nèi)容的需求在逐漸增加。但現(xiàn)有的VR視頻的生成方法面臨著制作成本高，創(chuàng)作難的問題，而且對(duì)于過去珍貴的音、視頻資料很難按照VR的傳統(tǒng)生成模式來重新錄制。由此，本文提出一種新穎、低成本的利用已有音視頻資料生成VR視頻的方法。實(shí)驗(yàn)表明，相比于傳統(tǒng)的VR視頻的制作方式，我們提出的方法可以大幅度節(jié)省時(shí)間成本、人力成本、金錢成本。

在將來的工作中，我們將會(huì)繼續(xù)該方面的研究來提高自然語言處理的準(zhǔn)確度、優(yōu)化匹配算法、建立一個(gè)包含更精細(xì)情感分類的肢體動(dòng)畫庫，加入面部表情的情感匹配，使我們的VR視頻制作流程更加簡(jiǎn)潔，生成的VR視頻內(nèi)容更加的真實(shí)、細(xì)膩。我們還將會(huì)研究專門針對(duì)演講、授課的情感分析，由此增強(qiáng)VR視頻的現(xiàn)場(chǎng)感染力。

參考文獻(xiàn)

[1] 楊琪，黃建明. 家居漫游系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 軟件， 2015， 36（1）： 26-31.

[2] 徐雯皓，李忠，蘇鑫昊. 基于 3D 引擎的汶川震前水文變化三維模擬演示系統(tǒng)設(shè)計(jì)[J]. 軟件， 2018， 39（4）： 176-179.

[3] 唐實(shí)，任淑霞，王佳欣，等. 基于虛擬VR技術(shù)的心臟醫(yī)療輔助系統(tǒng)的設(shè)計(jì)與應(yīng)用[J]. 軟件， 2018， 39（6）： 23-25.

[4] 高偉，王昱霖，吳倩蓮，等. 基于VR技術(shù)的教育游戲在英語教學(xué)中的應(yīng)用與發(fā)展前景[J]. 軟件， 2018， 39（5）： 60-65.

[5] 王躍華. 淺析虛擬現(xiàn)實(shí)視頻的發(fā)展和應(yīng)用[J]. 現(xiàn)代電影技術(shù)， 2016（07）： 21-23.

[6] 郭宗明，班怡璇，謝瀾. 虛擬現(xiàn)實(shí)視頻傳輸架構(gòu)和關(guān)鍵技術(shù)[J]. 中興通訊技術(shù)， 2017， 23（06）： 19-23.

[7] 趙樂明子，劉榮. 虛擬現(xiàn)實(shí)視頻市場(chǎng)的問題及對(duì)策研究[J]. 現(xiàn)代商業(yè)， 2018（02）： 39-40.

[8] 董振江，張東卓，黃成，等. 虛擬現(xiàn)實(shí)視頻處理與傳輸技術(shù)[J]. 電信科學(xué)， 2017， 33（08）： 45-52.

[9] Santos， Camilo Telles Pereira and Santos， Celso Alberto Saibel， “5Cam： A Multicamera System for Panoramic Capture of Videos， ” in Proceedings of the 12th Brazilian Symposium on Multimedia and the Web （WebMedia '06）， 2006， pp. 99--107.

[10] 吳遠(yuǎn)志，門濤，羅誼恒，等. 全景微課視頻的設(shè)計(jì)與制作[J]. 電腦迷， 2017（03）： 137-138.

[11] 薛元昕，李鷹. 基于虛擬現(xiàn)實(shí)技術(shù)的課程錄像制作研究與實(shí)現(xiàn)[J]. 煙臺(tái)職業(yè)學(xué)院學(xué)報(bào)， 2011， 17（01）： 48-51.

[12] 張敏. 虛擬現(xiàn)實(shí)VR（影視）內(nèi)容的發(fā)展現(xiàn)狀和瓶頸[J]. 中國廣播電視學(xué)刊， 2017（09）： 64-66.

[13] 徐琳宏，林鴻飛，潘宇，等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào)， 2008，（2）： 180-185.

[14] 徐飛. 利用3DS MAX打造美麗世界——淺談3DS MAX的學(xué)習(xí)與應(yīng)用[J]. 科技咨詢導(dǎo)報(bào)， 2007（10）： 20.

[15] 秦曉軍，黃秋儒. 面向網(wǎng)絡(luò)視頻的三維全景展示技術(shù)[J]. 電視技術(shù)， 2014， 38（19）： 120-122+154.

[16] Gillies， Marco， “Creating Virtual Characters， ” in Proceedings of the 5th International Conference on Movement and Computing， 2018， pp. 22： 1--22： 8.

[17] 曹瑜，郭立萍，杜紅燕，等. 卡通風(fēng)格3D 游戲場(chǎng)景設(shè)計(jì)制作技術(shù)[J]. 軟件， 2015， 36（3）： 22-25.

[18] Hailey， David E. ， ”A Next Generation of Digital Genres： Expanding Eocumentation into Animation and Virtual Reality， ” in Proceedings of the 22Nd Annual International Conference on Design of Communication： The Engineering of Quality Documentation（SIGDOC '04）， 2004， pp. 19--26.

[19] Seo， Jinsil Hwaryoung and Smith， Brian Michael and Cook， Margaret E. and Malone， Erica R. and Pine， Michelle and Leal， Steven and Bai， Zhikun and Suh， Jinkyo， “Anatomy Builder VR： Embodied VR Anatomy Learning Program to Promote Constructionist Learning， ”in Proceedings of the 2017 CHI Conference Extended Abstracts on Human Factors in Computing Systems（CHI EA '17）， 2017， pp. 2070-2075.

[20] Santos， A. and Zarraonandia， T. and D＼'{＼i}az， P. and Aedo， I， “A Comparative Study of Menus in Virtual Reality Environments， ”in Proceedings of the 2017 ACM International Conference on Interactive Surfaces and Spaces（ISS '17）， 2017， pp. 294-299.

軟件2019年7期

軟件的其它文章: 基于ADAMS的差速器建模與運(yùn)動(dòng)仿真分析; 基于Gabor濾波的改進(jìn)虹膜識(shí)別算法; 提升用戶粘度的校友平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn); 基于Aspect帶有CNN注意力機(jī)制的門控卷積網(wǎng)絡(luò)與情感分析; 最長遞增子序列問題研究; 遙感影像重采樣方法實(shí)現(xiàn)與應(yīng)用研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于音視頻的自動(dòng)化低成本VR視頻生成方法研究