国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

AI分身進(jìn)化之旅:年內(nèi)將提升交互能力

2019-09-10 07:22
電腦報(bào) 2019年11期
關(guān)鍵詞:陳偉小川搜狗

AI分身技術(shù)的落地應(yīng)用,遠(yuǎn)比人們想象中發(fā)展得要更快。

2018年11月,烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上,以新華社CNC主持人邱浩為原型的AI合成主播首次亮相,引發(fā)公眾極為熱烈的討論。

到了今年2月19日,全球首個AI合成女主播“新小萌”推出時,不僅能坐著播報(bào)新聞,還能站起來,帶著手勢、姿態(tài)等多種肢體動作,讓主播的表達(dá)方式更加多元化。

接下來,在線教育AI公開課老師、客服、教育以及一些娛樂等等方向,都將是AI分身技術(shù)的下一步落地應(yīng)用方向。

24小時工作,且不擔(dān)心出錯

截至目前,入職新華社的AI合成主播,已生產(chǎn)幾千條新聞報(bào)道。參與包括第五屆世界互聯(lián)網(wǎng)大會、首屆進(jìn)博會、2019春運(yùn)、春節(jié)、兩會等若干重要事件的報(bào)道。

在不少媒體看來,一個國家級主流媒體大量運(yùn)用AI合成主播,這項(xiàng)舉動本身具有強(qiáng)烈的象征性意義。包括“今日俄羅斯”電視臺網(wǎng)站、英國Daily Mail、美國Futurism等多家海外媒體,對此進(jìn)行了大幅報(bào)道,并稱“近年來,中國已成為全球領(lǐng)先的人工智能發(fā)展中心之一”。

其實(shí),相比烏鎮(zhèn)互聯(lián)網(wǎng)大會的第一次亮相,AI合成主播技術(shù)已經(jīng)快速升級——讀起新聞聲情并茂的新小萌,就進(jìn)一步采用了“搜狗分身”最新的wavernn波形建模技術(shù),可以實(shí)現(xiàn)逼真的語音合成效果,讓AI聲音更具有真實(shí)情感和表現(xiàn)力。

“我們提供的系統(tǒng),新華社只要每天在想要播報(bào)新聞時,過幾秒鐘生成一個完整的視頻,中文、英文不同類型的新聞視頻就可以馬上出來?!弊鳛樾氯A社AI主播背后的技術(shù)負(fù)責(zé)人,搜狗語音交互技術(shù)中心高級總監(jiān)陳偉,對此感慨頗多。

陳偉透露,通常而言,AI分身技術(shù)需要幾步,第一步通過使用人臉關(guān)鍵點(diǎn)檢測、人臉特征提取、人臉重構(gòu)、唇語識別、情感遷移等多項(xiàng)前沿技術(shù),第二步是結(jié)合語音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練后,生成與真人無異的AI分身模型。

搜狗分身技術(shù)的魅力在于,讓機(jī)器能夠逼真地模擬人類說話時的聲音、嘴唇動作和表情,并且將三者自然匹配,與真人幾乎一致。

在陳偉看來,使用AI主播最大的意義在于解決了新聞播報(bào)領(lǐng)域的效率問題,在建模完成后,編輯人員僅需要輸入文字資料,即可讓AI形象按照文字播報(bào)。無須進(jìn)行二次視頻編輯,AI主播將自動識別語義并配上對應(yīng)音調(diào)及表情?!安?bào)一個新聞一般會有場地、時間、主播本身精力的限制,每天的產(chǎn)出很有限,資源本身又是受限。但AI主播不同,可以工作24h,也不必?fù)?dān)心有錯誤出現(xiàn)。”

以“語言”為核心展開布局

在看似用戶只用輸入文本即可創(chuàng)造AI分身背后,難點(diǎn)攻破并不輕松,比如逼真度。

“逼真度”是團(tuán)隊(duì)衡量AI分身技術(shù)的一個重要指標(biāo)——根據(jù)陳偉的說法,所謂逼真度,就是大家看到的表情、唇語、動作、聲音,最基本的需求是保證表情、聲音和真人完全同步。

“早期是通過人工來評價的,逼真與否也是內(nèi)部產(chǎn)品、算法的同事掃一眼,比較主觀?,F(xiàn)在搜狗在做一些指標(biāo), 通過大量的假設(shè)錄制視頻切一小部分做一個測試集,與真人的相關(guān)視頻做對比。壓縮在一個相同的時間維度下面來看,逐幀對比,整個表情、嘴型、姿態(tài)上面的差異度有多大?!标悅ケ硎?。

“實(shí)際上我們每前進(jìn)一步都很難,比如讓AI主播動起來、擺頭,這一動作都比單純的正面播報(bào)要困難得多。要想做到電影里展示那樣與真人無異,可能還需要5~10年?!标悅ケ硎?,拿AI主播來說,其功能還停留在播報(bào)階段,更多交互功能有待于進(jìn)一步開發(fā)。

陳偉也透露,未來,團(tuán)隊(duì)將會更關(guān)注眼神、挑眉等微表情的自然表達(dá)。在圖像上面要考慮2D+3D混合的技術(shù),在語音基礎(chǔ)上面有更多NLP的能力進(jìn)來,讓AI分身的認(rèn)知能力加強(qiáng)。

事實(shí)上,AI分身背后,伴隨的是搜狗AI多年的研究發(fā)展腳步——根據(jù)記者了解,早在2012年搜狗圍繞感知層面的交互,開始了語音識別相關(guān)研究。

過去幾年來,人工智能成為搜狗產(chǎn)品的賦能原力,搜狗以“語言”為核心展開布局,縱向向技術(shù)天花板不斷突破,提升機(jī)器翻譯技術(shù)的準(zhǔn)確率和智能服務(wù)的深度。與此同時,加大橫向的產(chǎn)業(yè)布局,拓展更為廣闊的應(yīng)用場景,在搜索、社交、旅游、醫(yī)療、法律、翻譯等領(lǐng)域,推動人工智能的產(chǎn)業(yè)化落地。

2016年世界互聯(lián)網(wǎng)大會上,搜狗展示了同聲傳譯,那時候搜狗還沒有上市,但專注于完善語言處理技能已經(jīng)成為其未來戰(zhàn)略之一。2017年世界互聯(lián)網(wǎng)大會上,搜狗掌門人王小川對外界表態(tài):“現(xiàn)在很多人認(rèn)為,語音搜索已經(jīng)足夠方便了,但這還不夠智能?!?/p>

一年后的2018年7月,王小川在香港公布了“搜狗分身”技術(shù)——在現(xiàn)場,王小川展示了一段結(jié)合唇語合成、語音合成、音視頻聯(lián)合建模與深度學(xué)習(xí)技術(shù),可驅(qū)動機(jī)器生成對應(yīng)的唇語圖像與聲音,進(jìn)而輸出統(tǒng)一的音視頻素材。

彼時業(yè)界很少有人會預(yù)料到,如此高逼真的AI合成主播,會如此快與大眾見面,甚至影響沖擊了整個新聞媒體的生產(chǎn)方式。

AI語音應(yīng)用場景考量

客觀而言,目前AI分身的真實(shí)度并未達(dá)到令人恐慌的階段。此外,新華社的AI主播目前主要在單個頻道運(yùn)營,如果想要普及到更大規(guī)模的媒體頻道,高并發(fā)要求將對云端調(diào)度提出一定挑戰(zhàn)。

陳偉表示,目前搜狗提出兩套方案,一套提供公有云服務(wù),另外也支持部署在企業(yè)本地的私有云服務(wù)器上。“我們的服務(wù)在資源占用和實(shí)時性上都能滿足要求?!?/p>

不過,新小萌等AI合成主播的出現(xiàn),絕非只是播報(bào)新聞稿而已。這位美女虛擬主播背后被寄予厚望,搜狗希望在未來將AI語音合成這項(xiàng)技術(shù)個性化,為AI語音賦予各種形象和場景。

在陳偉的預(yù)想中,在“分身”技術(shù)的支持下,視頻制作成本將會大大降低,最終惠及用戶。首要的就是與搜狗現(xiàn)有產(chǎn)品線打通。像在輸入法搜索,包括搜狗AI硬件上面“分身”技術(shù)將如何落地,都正在探討中。

比如在AI老師上,已經(jīng)有項(xiàng)目正在進(jìn)行中。“像公開課這種老師單向輸出的形態(tài),特別適合做AI分身。老師只需要準(zhǔn)備教案和文稿,通過這種方式形成各種教學(xué)視頻,后期加上一些剪輯也可以帶有一定的交互能力。這種比單純的文字教學(xué)效果要好得多。”

此外,法律、醫(yī)療、娛樂等領(lǐng)域,也是搜狗AI分身未來發(fā)力的方向。而在技術(shù)使用的規(guī)范問題上,陳偉如此表示:“搜狗選擇和明確的公司、在明確的領(lǐng)域合作,盡量通過場景圈定技術(shù)的使用范圍,這樣的好處就是不會把技術(shù)濫用?!?/p>

這一切,將建立在搜狗如何將人工智能發(fā)展戰(zhàn)略,延伸到更廣闊的應(yīng)用場景考量上。

對此,王小川曾說:“在AI領(lǐng)域,搜狗在技術(shù)和應(yīng)用層面均取得豐厚成果,奠定了在語音、計(jì)算機(jī)視覺、機(jī)器翻譯和問答等多個賽道上的領(lǐng)先地位。展望2019年,我們會將AI技術(shù)與業(yè)務(wù)深度融合,持續(xù)提升核心競爭力?!?/p>

盡管對于所有人工智能公司而言,在大環(huán)境變化如此快的當(dāng)下,想把AI的故事講得更好,這都并不容易。

王小川對此已有了自己的判斷——那就是以搜狗擅長的語言為核心。今年2月,在發(fā)布完2018年Q4財(cái)報(bào)后,王小川在公司的內(nèi)部信中寫道:日后將強(qiáng)化以語言為核心的AI技術(shù)的積累和探索,保持搜狗技術(shù)領(lǐng)先性的核心優(yōu)勢。

在這一點(diǎn)上,王小川的看法從未變過,在他看來,“語言”是AI的未來,“掌握一種語言就是掌握了一種靈魂”,而語言則是人工智能皇冠上的明珠。無論是百箱大戰(zhàn)中Amazon Echo、Google Home等多款圍繞著語音交互打造的智能音箱,還是會打電話的Google Duplex、會辯論的IBM Projector Debater,都聚焦于讓機(jī)器擁有“語言”這顆明珠。

因此,誰敢妄下斷言,AI分身合成主播,將在教育、法律、娛樂等更多領(lǐng)域,帶來多大的沖擊浪花?

猜你喜歡
陳偉小川搜狗
Making scents of history古法制香,感受非遺魅力
論岸橋機(jī)房無焊接化改進(jìn)的優(yōu)勢
“熱鬧”的動物醫(yī)院
騰訊擬147億元全資收購搜狗
陳偉先生繪畫作品選登
搜狗:牽頭成立AI創(chuàng)新聯(lián)盟
搜狗二季度財(cái)報(bào) 表現(xiàn)不如預(yù)期
搜狗三季度營收同比增長
聆聽幸福
寶寶包包