誰能做成中國(guó)版Sora?
意想不到,選項(xiàng)里出現(xiàn)了快手這家公司。
7月30日,快手視頻生成大模型可靈AI宣布,正式推出全球會(huì)員服務(wù),針對(duì)不同類別會(huì)員,提供相應(yīng)專屬功能。可靈自稱,其為全球首個(gè)用戶可用的真實(shí)影像級(jí)視頻生成大模型。
可靈主打圖生視頻功能,支持用任意靜態(tài)圖像生成5秒視頻,并可為已生成的視頻提供續(xù)寫,延長(zhǎng)視頻至約3分鐘。
“至少不像Sora是‘期貨’?!庇蠥I開發(fā)者如此評(píng)價(jià)。
“這個(gè)產(chǎn)品在我們今天能使用的范疇內(nèi),就是全世界第一,這也是國(guó)產(chǎn)人工智能領(lǐng)域的又一項(xiàng)重大突破?!鲍C豹移動(dòng)董事長(zhǎng)兼CEO傅盛公開站臺(tái)。
3個(gè)多月前,快手創(chuàng)始人兼CEO程一笑放出豪言,有信心半年內(nèi)追上GPT-4的水平。
此前,快手先后發(fā)布通用大語(yǔ)言模型“快意”、文生圖大模型產(chǎn)品“可圖”,反響平平。
眼下,程一笑打出了最得意的一張牌。
一句話描述“可靈”,它是首個(gè)面向用戶開放的、Sora級(jí)文生視頻大模型。
7月4日,在2024世界人工智能大會(huì)上,快手視覺生成與互動(dòng)中心負(fù)責(zé)人萬鵬飛提到,可靈與其他文生視頻大模型相比,最大的差異化在于已經(jīng)面向用戶使用,目前大家普遍反饋比較正向。
可靈開放測(cè)試后,火爆異常,排隊(duì)申請(qǐng)的人數(shù),幾天內(nèi)便破萬。
基于新發(fā)布的圖生視頻功能,用戶上傳一張照片,可靈會(huì)變靜為動(dòng),賦予其5秒的生命力。同時(shí),上傳的圖片可搭配不同的文本指令,令細(xì)節(jié)處理更符合預(yù)期。
例如,使用一張小貓的照片生成視頻,貓的眼睛會(huì)轉(zhuǎn),耳朵輕輕聳動(dòng),呈現(xiàn)live效果。
其文生視頻提示詞的編輯框,初發(fā)布時(shí)限制200個(gè)字符,此次更新后,升級(jí)為500個(gè)字符。同時(shí),允許用戶自由調(diào)節(jié)視頻的縱橫比。
目前可靈每次允許生成5秒視頻,記者注意到,后臺(tái)處理時(shí)間有所延長(zhǎng),從之前的3分鐘拉長(zhǎng)到4分鐘。
作為對(duì)比,據(jù)猜測(cè),Sora生成1分鐘視頻的時(shí)間,超過1個(gè)小時(shí)。
記者輸入“一只橘貓駕駛跑車,穿梭在都市街道”的提示詞,可靈生成的視頻精美,跑車行進(jìn)途中,玻璃上倒映的路旁樹影隨之變換,細(xì)節(jié)處理得到位。
一個(gè)大bug,是橘貓的身體連同方向盤,伸出了擋風(fēng)玻璃外。路兩側(cè)本該行進(jìn)的車輛,都是靜止?fàn)顟B(tài)。
可靈也能識(shí)別英文詞匯,根據(jù)“Superman騎著掃帚,路過月球,穿梭在宇宙”提示詞,生成偏動(dòng)畫風(fēng)格的視頻,出現(xiàn)了超人的背影。
在遠(yuǎn)距離鏡頭里,可靈生成的人物、動(dòng)物全身像,面部模糊。
一位AI創(chuàng)作者使用了兩天可靈,他推測(cè),快手使用了機(jī)器打標(biāo),提示詞對(duì)鏡頭運(yùn)動(dòng)的服從性較差;對(duì)動(dòng)物的服從性較好,以動(dòng)物為主角的片子,效果可能較好。
總體而言,“可靈在某些鏡頭的表現(xiàn),已經(jīng)達(dá)到商用級(jí)別”。
許多AI創(chuàng)作者,以同樣的提示詞,對(duì)比了可靈與Sora的效果?!罢嫒顺悦鏃l”的對(duì)比,尤為出圈,可靈更勝一籌。
“‘吃面條’這個(gè)case其實(shí)很難。手要以某種姿勢(shì)抓著筷子,筷子要把面夾起來,面得抖動(dòng),人要張大嘴,把面吃進(jìn)去咀嚼咬斷,嘴上要沾著油光,實(shí)現(xiàn)起來,挑戰(zhàn)很多?!比f鵬飛表示。
此次升級(jí)還有一大亮點(diǎn),集成文本控制機(jī)制于視頻續(xù)寫中,令用戶能通過自定義提示詞,為每段視頻續(xù)寫。
比如,一個(gè)關(guān)于古堡的視頻片段,用戶可以選擇讓它先“太陽(yáng)落下去,天空變暗”,繼而“太陽(yáng)升起來,天空變亮”,也可以“太陽(yáng)落下去,天空變暗,燈光漸亮”,隨后“燈光亮起,霧氣氤氳”。
碼農(nóng)出身的程一笑,關(guān)注AI多年。
他同快手聯(lián)合創(chuàng)始人宿華初次見面時(shí),二人就圍繞機(jī)器學(xué)習(xí)和人工智能的應(yīng)用,聊了許久。
眼看大模型火熱,程一笑火速排兵布陣。
去年初,快手啟動(dòng)新的AI戰(zhàn)略,組建大模型研發(fā)團(tuán)隊(duì),點(diǎn)將技術(shù)副總裁張迪,擔(dān)任負(fù)責(zé)人,聚焦大語(yǔ)言模型、視覺生成模型、多模態(tài)模型等方向。
視覺生成與互動(dòng)中心(VGI),其負(fù)責(zé)人是帶隊(duì)從0到1研發(fā)可靈的萬鵬飛,向張迪匯報(bào)。
萬鵬飛曾是快手Y-tech AI技術(shù)中心負(fù)責(zé)人,主導(dǎo)了數(shù)字人系列解決方案,如關(guān)小芳IP、快手智播平臺(tái)等。
他在計(jì)算機(jī)視覺領(lǐng)域經(jīng)驗(yàn)豐富,博士畢業(yè)于中國(guó)香港科技大學(xué)ECE系,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)EEIS系,曾是美圖影像研究院負(fù)責(zé)人。
有人上,有人下。
年初,38歲的快手VP王仲遠(yuǎn)離職。
他供職快手3年多,負(fù)責(zé)多媒體內(nèi)容理解部,是快手AI團(tuán)隊(duì)核心人物,離開快手后,轉(zhuǎn)身出任北京智源研究院院長(zhǎng)。
王仲遠(yuǎn)點(diǎn)評(píng)曾經(jīng)的老部下稱,“整個(gè)團(tuán)隊(duì)在萬鵬飛的帶領(lǐng)下,推動(dòng)了快手特效及人像美化技術(shù)的智能化升級(jí)”。
快手還在持續(xù)吸納新鮮血液。例如,VGI的專家研究員王鑫濤,于今年入職快手,參與可靈的研發(fā)。
他的上一份工作在騰訊,做視覺生成(圖像、視頻、3D)相關(guān)的研究工作。
文生視頻大模型,其參數(shù)規(guī)模和所需的算力,是備受關(guān)注的一環(huán)。
有業(yè)內(nèi)人士研究發(fā)現(xiàn),Sora的訓(xùn)練算力需求不高,僅是GPT-4的四分之一,但推理算力需求能達(dá)到GPT-4的1000倍以上。
Sora生成一個(gè)一分鐘左右視頻,大約需要8張A100跑至少3個(gè)小時(shí)。
快手稱,可靈能生成的視頻時(shí)長(zhǎng),最高可達(dá)2分鐘(幀率30fps)。
計(jì)算效率這塊,可靈并沒有采用當(dāng)前行業(yè)主流的DDPM方案,而是使用了傳輸路徑更短的flow模型,作為擴(kuò)散模型基座。
萬鵬飛對(duì)可靈的參數(shù)規(guī)模、訓(xùn)練用卡規(guī)模,三緘其口,表示“不便透露”。
他亦強(qiáng)調(diào),可靈是“非常復(fù)雜、重資源投入、多邊協(xié)作的項(xiàng)目”。
重注文生視頻的程一笑團(tuán)隊(duì),更在意的是,爭(zhēng)奪更多內(nèi)容創(chuàng)作者。
抖音、快手、視頻號(hào),圍繞中國(guó)優(yōu)質(zhì)創(chuàng)作者的“搶人大戰(zhàn)”,從未停歇。AI工具的迭代,有望加速內(nèi)容創(chuàng)作從圖文朝視頻遷移。
“(文生視頻)對(duì)短視頻生態(tài)來說,是巨大的機(jī)會(huì)。未來,快手會(huì)把生成模型和生產(chǎn)者工具結(jié)合起來,幫助創(chuàng)作者降低創(chuàng)作門檻,提升短視頻制作質(zhì)量和效率。”程一笑表示。
在萬鵬飛看來,當(dāng)視頻生成的效果接近拍攝時(shí),將給行業(yè)帶來新挑戰(zhàn)和新機(jī)遇,同時(shí),未來視頻創(chuàng)作者和消費(fèi)者的界限,會(huì)逐漸模糊。
《21CBR》記者注意到,7月初,快手在快影的AI生視頻功能模塊,發(fā)布了內(nèi)測(cè)須知。
至7月末,可靈AI會(huì)員體系即上線,全球會(huì)員共分為三檔,以月卡為例,三檔會(huì)員價(jià)格分別為10美元、37美元和92美元,對(duì)應(yīng)可生成約66個(gè)、300個(gè)和800個(gè)5秒高質(zhì)量視頻,其也提供季卡、半年卡、年卡等多種套餐。
可以預(yù)見的是,可靈的更大動(dòng)作,尚在醞釀。