AI分身進(jìn)化之旅：年內(nèi)將提升交互能力

2019-09-10 07:22

電腦報(bào) 2019年11期

關(guān)鍵詞：陳偉小川搜狗

AI分身技術(shù)的落地應(yīng)用，遠(yuǎn)比人們想象中發(fā)展得要更快。

2018年11月，烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上，以新華社CNC主持人邱浩為原型的AI合成主播首次亮相，引發(fā)公眾極為熱烈的討論。

到了今年2月19日，全球首個AI合成女主播“新小萌”推出時，不僅能坐著播報(bào)新聞，還能站起來，帶著手勢、姿態(tài)等多種肢體動作，讓主播的表達(dá)方式更加多元化。

接下來，在線教育AI公開課老師、客服、教育以及一些娛樂等等方向，都將是AI分身技術(shù)的下一步落地應(yīng)用方向。

24小時工作，且不擔(dān)心出錯

截至目前，入職新華社的AI合成主播，已生產(chǎn)幾千條新聞報(bào)道。參與包括第五屆世界互聯(lián)網(wǎng)大會、首屆進(jìn)博會、2019春運(yùn)、春節(jié)、兩會等若干重要事件的報(bào)道。

在不少媒體看來，一個國家級主流媒體大量運(yùn)用AI合成主播，這項(xiàng)舉動本身具有強(qiáng)烈的象征性意義。包括“今日俄羅斯”電視臺網(wǎng)站、英國Daily Mail、美國Futurism等多家海外媒體，對此進(jìn)行了大幅報(bào)道，并稱“近年來，中國已成為全球領(lǐng)先的人工智能發(fā)展中心之一”。

其實(shí)，相比烏鎮(zhèn)互聯(lián)網(wǎng)大會的第一次亮相，AI合成主播技術(shù)已經(jīng)快速升級——讀起新聞聲情并茂的新小萌，就進(jìn)一步采用了“搜狗分身”最新的wavernn波形建模技術(shù)，可以實(shí)現(xiàn)逼真的語音合成效果，讓AI聲音更具有真實(shí)情感和表現(xiàn)力。

“我們提供的系統(tǒng)，新華社只要每天在想要播報(bào)新聞時，過幾秒鐘生成一個完整的視頻，中文、英文不同類型的新聞視頻就可以馬上出來?！弊鳛樾氯A社AI主播背后的技術(shù)負(fù)責(zé)人，搜狗語音交互技術(shù)中心高級總監(jiān)陳偉，對此感慨頗多。

陳偉透露，通常而言，AI分身技術(shù)需要幾步，第一步通過使用人臉關(guān)鍵點(diǎn)檢測、人臉特征提取、人臉重構(gòu)、唇語識別、情感遷移等多項(xiàng)前沿技術(shù)，第二步是結(jié)合語音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練后，生成與真人無異的AI分身模型。

搜狗分身技術(shù)的魅力在于，讓機(jī)器能夠逼真地模擬人類說話時的聲音、嘴唇動作和表情，并且將三者自然匹配，與真人幾乎一致。

在陳偉看來，使用AI主播最大的意義在于解決了新聞播報(bào)領(lǐng)域的效率問題，在建模完成后，編輯人員僅需要輸入文字資料，即可讓AI形象按照文字播報(bào)。無須進(jìn)行二次視頻編輯，AI主播將自動識別語義并配上對應(yīng)音調(diào)及表情?！安?bào)一個新聞一般會有場地、時間、主播本身精力的限制，每天的產(chǎn)出很有限，資源本身又是受限。但AI主播不同，可以工作24h，也不必?fù)?dān)心有錯誤出現(xiàn)。”

以“語言”為核心展開布局

在看似用戶只用輸入文本即可創(chuàng)造AI分身背后，難點(diǎn)攻破并不輕松，比如逼真度。

“逼真度”是團(tuán)隊(duì)衡量AI分身技術(shù)的一個重要指標(biāo)——根據(jù)陳偉的說法，所謂逼真度，就是大家看到的表情、唇語、動作、聲音，最基本的需求是保證表情、聲音和真人完全同步。

“早期是通過人工來評價的，逼真與否也是內(nèi)部產(chǎn)品、算法的同事掃一眼，比較主觀?，F(xiàn)在搜狗在做一些指標(biāo)，通過大量的假設(shè)錄制視頻切一小部分做一個測試集，與真人的相關(guān)視頻做對比。壓縮在一個相同的時間維度下面來看，逐幀對比，整個表情、嘴型、姿態(tài)上面的差異度有多大?！标悅ケ硎?。

“實(shí)際上我們每前進(jìn)一步都很難，比如讓AI主播動起來、擺頭，這一動作都比單純的正面播報(bào)要困難得多。要想做到電影里展示那樣與真人無異，可能還需要5～10年?！标悅ケ硎?，拿AI主播來說，其功能還停留在播報(bào)階段，更多交互功能有待于進(jìn)一步開發(fā)。

陳偉也透露，未來，團(tuán)隊(duì)將會更關(guān)注眼神、挑眉等微表情的自然表達(dá)。在圖像上面要考慮2D+3D混合的技術(shù)，在語音基礎(chǔ)上面有更多NLP的能力進(jìn)來，讓AI分身的認(rèn)知能力加強(qiáng)。

事實(shí)上，AI分身背后，伴隨的是搜狗AI多年的研究發(fā)展腳步——根據(jù)記者了解，早在2012年搜狗圍繞感知層面的交互，開始了語音識別相關(guān)研究。

過去幾年來，人工智能成為搜狗產(chǎn)品的賦能原力，搜狗以“語言”為核心展開布局，縱向向技術(shù)天花板不斷突破，提升機(jī)器翻譯技術(shù)的準(zhǔn)確率和智能服務(wù)的深度。與此同時，加大橫向的產(chǎn)業(yè)布局，拓展更為廣闊的應(yīng)用場景，在搜索、社交、旅游、醫(yī)療、法律、翻譯等領(lǐng)域，推動人工智能的產(chǎn)業(yè)化落地。

2016年世界互聯(lián)網(wǎng)大會上，搜狗展示了同聲傳譯，那時候搜狗還沒有上市，但專注于完善語言處理技能已經(jīng)成為其未來戰(zhàn)略之一。2017年世界互聯(lián)網(wǎng)大會上，搜狗掌門人王小川對外界表態(tài)：“現(xiàn)在很多人認(rèn)為，語音搜索已經(jīng)足夠方便了，但這還不夠智能?！?/p>

一年后的2018年7月，王小川在香港公布了“搜狗分身”技術(shù)——在現(xiàn)場，王小川展示了一段結(jié)合唇語合成、語音合成、音視頻聯(lián)合建模與深度學(xué)習(xí)技術(shù)，可驅(qū)動機(jī)器生成對應(yīng)的唇語圖像與聲音，進(jìn)而輸出統(tǒng)一的音視頻素材。

彼時業(yè)界很少有人會預(yù)料到，如此高逼真的AI合成主播，會如此快與大眾見面，甚至影響沖擊了整個新聞媒體的生產(chǎn)方式。

AI語音應(yīng)用場景考量

客觀而言，目前AI分身的真實(shí)度并未達(dá)到令人恐慌的階段。此外，新華社的AI主播目前主要在單個頻道運(yùn)營，如果想要普及到更大規(guī)模的媒體頻道，高并發(fā)要求將對云端調(diào)度提出一定挑戰(zhàn)。

陳偉表示，目前搜狗提出兩套方案，一套提供公有云服務(wù)，另外也支持部署在企業(yè)本地的私有云服務(wù)器上。“我們的服務(wù)在資源占用和實(shí)時性上都能滿足要求?！?/p>

不過，新小萌等AI合成主播的出現(xiàn)，絕非只是播報(bào)新聞稿而已。這位美女虛擬主播背后被寄予厚望，搜狗希望在未來將AI語音合成這項(xiàng)技術(shù)個性化，為AI語音賦予各種形象和場景。

在陳偉的預(yù)想中，在“分身”技術(shù)的支持下，視頻制作成本將會大大降低，最終惠及用戶。首要的就是與搜狗現(xiàn)有產(chǎn)品線打通。像在輸入法搜索，包括搜狗AI硬件上面“分身”技術(shù)將如何落地，都正在探討中。

比如在AI老師上，已經(jīng)有項(xiàng)目正在進(jìn)行中。“像公開課這種老師單向輸出的形態(tài)，特別適合做AI分身。老師只需要準(zhǔn)備教案和文稿，通過這種方式形成各種教學(xué)視頻，后期加上一些剪輯也可以帶有一定的交互能力。這種比單純的文字教學(xué)效果要好得多。”

此外，法律、醫(yī)療、娛樂等領(lǐng)域，也是搜狗AI分身未來發(fā)力的方向。而在技術(shù)使用的規(guī)范問題上，陳偉如此表示：“搜狗選擇和明確的公司、在明確的領(lǐng)域合作，盡量通過場景圈定技術(shù)的使用范圍，這樣的好處就是不會把技術(shù)濫用?！?/p>

這一切，將建立在搜狗如何將人工智能發(fā)展戰(zhàn)略，延伸到更廣闊的應(yīng)用場景考量上。

對此，王小川曾說：“在AI領(lǐng)域，搜狗在技術(shù)和應(yīng)用層面均取得豐厚成果，奠定了在語音、計(jì)算機(jī)視覺、機(jī)器翻譯和問答等多個賽道上的領(lǐng)先地位。展望2019年，我們會將AI技術(shù)與業(yè)務(wù)深度融合，持續(xù)提升核心競爭力?！?/p>

盡管對于所有人工智能公司而言，在大環(huán)境變化如此快的當(dāng)下，想把AI的故事講得更好，這都并不容易。

王小川對此已有了自己的判斷——那就是以搜狗擅長的語言為核心。今年2月，在發(fā)布完2018年Q4財(cái)報(bào)后，王小川在公司的內(nèi)部信中寫道：日后將強(qiáng)化以語言為核心的AI技術(shù)的積累和探索，保持搜狗技術(shù)領(lǐng)先性的核心優(yōu)勢。

在這一點(diǎn)上，王小川的看法從未變過，在他看來，“語言”是AI的未來，“掌握一種語言就是掌握了一種靈魂”，而語言則是人工智能皇冠上的明珠。無論是百箱大戰(zhàn)中Amazon Echo、Google Home等多款圍繞著語音交互打造的智能音箱，還是會打電話的Google Duplex、會辯論的IBM Projector Debater，都聚焦于讓機(jī)器擁有“語言”這顆明珠。

因此，誰敢妄下斷言，AI分身合成主播，將在教育、法律、娛樂等更多領(lǐng)域，帶來多大的沖擊浪花？

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

AI分身進(jìn)化之旅：年內(nèi)將提升交互能力