近日,網(wǎng)絡(luò)上出現(xiàn)一幕網(wǎng)球名將“費(fèi)德勒” 同“小威廉姆斯”同場(chǎng)競(jìng)技的情景,網(wǎng)球愛好者們紛紛驚掉了下巴。這場(chǎng)男女單打的破天荒對(duì)戰(zhàn),是如何發(fā)生的呢?
原來(lái)是一名來(lái)自斯坦福大學(xué)計(jì)算機(jī)專業(yè)的博士生——張浩天,他和團(tuán)隊(duì)使用 AI 技術(shù)生成了上面的場(chǎng)景。張浩天介紹,該項(xiàng)目的名稱為 Vid2Player,可以讓你操控選手并實(shí)時(shí)生成接近真實(shí)的比賽視頻。除了能讓費(fèi)德勒同小威對(duì)戰(zhàn),它還有很多有趣的功能。
溫網(wǎng)破天荒地被取消,多少球迷斷供,Vid2Player 或許不失為一條新的 “解渴” 路徑。
網(wǎng)球冠軍的弟子
事情的起因很簡(jiǎn)單?!拔覀€(gè)人對(duì)視頻理解與生成非常感興趣,尤其是利用已有的大規(guī)模視頻數(shù)據(jù),比如在 YouTube 平臺(tái),來(lái)解決現(xiàn)實(shí)中遇到的問(wèn)題?!睆埡铺煺f(shuō)。
此前他曾做過(guò)一個(gè)項(xiàng)目,是使用 AI 技術(shù)去分析、理解過(guò)去十年來(lái)美國(guó)主要的三家有線電視網(wǎng)絡(luò)(CNN、FOX News、MSNBC)的視頻數(shù)據(jù)中出現(xiàn)的人物及內(nèi)容。由于是嚴(yán)肅的報(bào)道內(nèi)容,不太適合將視頻生成技術(shù)應(yīng)用其中,這讓他非常遺憾。
所以在立項(xiàng)之初,他就決定挑選一個(gè)適合于做視頻生成的領(lǐng)域,后來(lái)便選中了體育賽事類視頻。原因有三。首先,體育比賽中包含豐富的人類肢體動(dòng)作及與相關(guān)道具的交互,而且運(yùn)動(dòng)員天然遵守比賽規(guī)則,有更強(qiáng)的規(guī)律性及約束性,這非常適合于做視頻生成;其二,這一類素材在網(wǎng)絡(luò)上非常容易獲取;其三,體育賽事的受眾很廣,因此未來(lái)該技術(shù)的應(yīng)用前景更加多元。
至于為什么選擇網(wǎng)球,張浩天笑稱,他的博士導(dǎo)師 Kayvon Fatahalian 在卡內(nèi)基梅隆大學(xué)讀本科階段,曾經(jīng)是美國(guó)大學(xué)生網(wǎng)球聯(lián)賽(NCAA)的男子單打冠軍,是非常優(yōu)秀的運(yùn)動(dòng)員,選擇網(wǎng)球或多或少受他的影響。
Vid2Player 從立項(xiàng)到論文定稿,大概經(jīng)歷了一年時(shí)間。它更多地是基于計(jì)算機(jī)圖形學(xué)來(lái)展開,其中用到的最經(jīng)典的方法是視頻紋理技術(shù),該技術(shù)歷史悠久,可以追溯到 “拳皇” 時(shí)代。張浩天解釋道,根據(jù)用戶指定的輸入,比如想要放一個(gè)“大招”,程序可以選擇對(duì)應(yīng)的視頻片段來(lái)播放,玩家就可以看到他控制的角色做出了對(duì)應(yīng)的動(dòng)作?!拔覀兪褂靡曨l中的已有片段來(lái)呈現(xiàn)展示內(nèi)容,會(huì)讓生成的視頻顯得更加真實(shí)。而假如這個(gè)項(xiàng)目使用純 AI 技術(shù),就意味著運(yùn)動(dòng)員全部由模型通過(guò)神經(jīng)網(wǎng)絡(luò)生成,目前這類技術(shù)尚未成熟,生成的視頻可能存在模糊、動(dòng)作不連貫等問(wèn)題?!?/p>
AI 技術(shù)在 Vid2Player 的應(yīng)用主要是負(fù)責(zé)決策運(yùn)動(dòng)員的行為。AI 會(huì)根據(jù)當(dāng)前雙方球員的位置及球的軌跡等信息,決定運(yùn)動(dòng)員接球的擊打方式、落點(diǎn)以及擊打后運(yùn)動(dòng)員恢復(fù)準(zhǔn)備狀態(tài)的位置。他們根據(jù)原始比賽視頻中運(yùn)動(dòng)員的歷史數(shù)據(jù)為每一名網(wǎng)球名將訓(xùn)練了這樣一個(gè)模型來(lái)負(fù)責(zé)控制角色的行為和規(guī)則。以上兩種技術(shù)分別負(fù)責(zé)運(yùn)動(dòng)員的外觀和行為,再加上一個(gè)掌控全局的網(wǎng)球回合狀態(tài)機(jī)——運(yùn)動(dòng)員擊球前跑位、擊球、擊球后跑位,周而復(fù)始運(yùn)行,一場(chǎng)完整的網(wǎng)球比賽就此生成。
自由 “操控” 網(wǎng)球名將
張浩天說(shuō),為了最終實(shí)現(xiàn) Vid2Player,我們需要對(duì)從網(wǎng)絡(luò)下載的視頻進(jìn)行必要的標(biāo)注工作。首先,預(yù)先逐幀框選出兩個(gè)運(yùn)動(dòng)員的位置,然后標(biāo)注遮罩及姿勢(shì)的關(guān)鍵點(diǎn)。另外,還需要知道球的軌跡,相當(dāng)于在每一幀標(biāo)注出球的位置。這里有兩個(gè)很關(guān)鍵的時(shí)刻——球被運(yùn)動(dòng)員擊打的時(shí)刻和位置、球被擊打出之后,落地反彈的時(shí)刻和位置。最后,還要對(duì)現(xiàn)有視頻中網(wǎng)球場(chǎng)地進(jìn)行三維重建,將 2D 信息轉(zhuǎn)換成 3D 的格式。
值得注意的是,目前每次擊球的時(shí)間都需要人為手工進(jìn)行標(biāo)注。張浩天解釋道,由于擊球的瞬間球速很快,并且球體很小,他們的 AI 暫時(shí)不能很好地定位捕捉,這里的確有待改進(jìn)。除此之外,以上絕大部分的標(biāo)注工作都可以通過(guò)計(jì)算機(jī)模型自動(dòng)生成。包括張浩天在內(nèi)的 Vid2Player 兩名主力成員,本次共處理標(biāo)注了 20 個(gè)小時(shí)左右的網(wǎng)球比賽素材。
此外,為了讓輸出的網(wǎng)球比賽更加貼近真實(shí)場(chǎng)景,他們做了很多的工作:
表現(xiàn)層處理完畢之后,需要加入控制層的邏輯。張浩天說(shuō),之后,你可以像玩游戲一樣實(shí)時(shí)操控一方運(yùn)動(dòng)員,改變他的跑位及擊球位置。Vid2Player 中訓(xùn)練的運(yùn)動(dòng)員模型可以實(shí)現(xiàn)自動(dòng)針對(duì)對(duì)方的弱勢(shì)手、高難度接球、近網(wǎng)的位置截?fù)舻鹊燃夹g(shù)動(dòng)作。
比如下圖,當(dāng)程序的行為模型介入之后,成功“扭曲現(xiàn)實(shí)”,給出更加符合網(wǎng)球策略的擊球方案。加入狀態(tài)機(jī)的邏輯之后,網(wǎng)球賽中的每個(gè)回合都被分解,循環(huán)往復(fù)串行。
在這些基礎(chǔ)之上,可以做一些非常有意思的事情,比如可以編輯已有的網(wǎng)球比賽。有個(gè)例子是費(fèi)德勒在 2019 年溫網(wǎng)決賽痛失賽點(diǎn)的一個(gè)經(jīng)典失誤,利用 Vid2Player 可以改變費(fèi)德勒擊球的落點(diǎn),這一小小的改變足以扭轉(zhuǎn)歷史,讓費(fèi)天王拿下 2019 溫網(wǎng)冠軍!
你還可以改變對(duì)戰(zhàn)雙方的運(yùn)動(dòng)員,前提是該運(yùn)動(dòng)員處于視頻集合當(dāng)中。比如開頭的費(fèi)德勒同小威廉姆斯的同場(chǎng)競(jìng)技,甚至你還可以請(qǐng)費(fèi)德勒自己同自己對(duì)局。如果你愿意,甚至可以錄制一些原始的素材,經(jīng)由 Vid2Player 處理,生成同費(fèi)德勒對(duì)戰(zhàn)的視頻。
應(yīng)用前景
是否考慮未來(lái)將 Vid2Player 應(yīng)用到游戲當(dāng)中,張浩天的回答是:“現(xiàn)在主流的游戲同我們采用完全不同的技術(shù)路線,一般情況下如果游戲廠商要做一款真人網(wǎng)球游戲,他們必須讓運(yùn)動(dòng)員穿著采集器來(lái)建立 3D 模型,而 Vid2Player 目前是以純二維的方式來(lái)解決問(wèn)題?!薄拔覀兏嗟厥菑囊曨l生成的角度,解決了生成真人網(wǎng)球視頻的問(wèn)題。理論上,這個(gè)解決方案也適用于乒乓球和羽毛球的單打比賽中?!薄澳壳?Vid2Player 所能做的其實(shí)比較有限,未來(lái)我們考慮讓它能夠兼容更多種的運(yùn)動(dòng)和模式。拿籃球運(yùn)動(dòng)來(lái)舉例,屆時(shí)我們希望它不再需要人類幫助定義狀態(tài)機(jī),而是讓 AI 自己學(xué)會(huì)區(qū)分不同的狀態(tài),如傳球、投籃、格擋等等。”視頻生成比圖像生成要難得多,張浩天說(shuō)。在圖像生成領(lǐng)域,利用 GAN 已經(jīng)能夠生成很真實(shí)的圖像,如人臉等。
但視頻生成領(lǐng)域,純 AI 的模型還很難生成任意的高像素、逼真的視頻。其原因在于,視頻的復(fù)雜度較圖像要高很多,當(dāng)加入時(shí)間的維度之后,空間大小暴漲。需要無(wú)限的模型容量以及無(wú)限的訓(xùn)練數(shù)據(jù),才可能有一個(gè)通用的 AI 生成視頻模型。他說(shuō),以目前的硬件和算力水平,這個(gè)問(wèn)題尚無(wú)法解決。目前視頻生成領(lǐng)域可以使用 AI 解決換臉的問(wèn)題,原因在于臉部其實(shí)是一個(gè)非常強(qiáng)的約束條件,相比之下,至今還沒有一款公開、通用且成熟的能夠生成人體全身動(dòng)作的 AI 模型。“所以,我們的出發(fā)點(diǎn)不是一個(gè)通用的視頻生成模型,而是專注于生成某領(lǐng)域的視頻模型。Vid2Player 因此而誕生,它其實(shí)融合了兩個(gè)領(lǐng)域的技術(shù),一是視頻生成,二是統(tǒng)計(jì)學(xué)意義上的體育視頻分析。”
張浩天描述道,體育視頻分析的商業(yè)前景廣闊,已經(jīng)有很多公司在做相關(guān)的數(shù)據(jù)挖掘的工作,比如籃球運(yùn)動(dòng)員的罰球命中率、搶籃板數(shù)等就是來(lái)自于此。再比如 Vid2Player 中用到的預(yù)測(cè)網(wǎng)球落點(diǎn)的技術(shù),也是關(guān)鍵、且非常熱門的技術(shù)。“但是此前沒有人將這兩個(gè)領(lǐng)域結(jié)合到一起,某種程度上我們做了一件前人沒做過(guò)的事。希望未來(lái)這項(xiàng)技術(shù)可以應(yīng)用到體育新聞解說(shuō)或體育教學(xué)的可視化中,為受眾提供一種全新的體驗(yàn)?!?/p>
(綜合自網(wǎng)絡(luò))(編輯/萊西)