文 管浩
科技顛覆想象。伴隨著人工智能、5G、虛擬現(xiàn)實等新技術融合發(fā)展的浪潮,融合多種AI能力的數(shù)字虛擬人從想象變成了現(xiàn)實。
在2020年上海科技節(jié)閉幕式上,一位身穿紅衣、牛仔短褲的漂亮小姑娘成了主角,她就是“數(shù)字人”小糖。小糖在《人與自然》《科技戰(zhàn)疫》《描繪未來》三個節(jié)目中做了科普講解。親切的聲音、自然的動作,不是真人卻甚似真人,瞬間圈粉無數(shù)。
現(xiàn)身科技節(jié)閉幕式的小糖是卡通人,其數(shù)據(jù)來源是女孩小孫的照片。比如對于小孫的人臉照片,把照片轉(zhuǎn)化成了高度對應的卡通形象。
“你是誰啊?”“我就是你呀?!薄澳憔褪俏??”“是的,我是‘數(shù)字人’小糖,能夠自主學習你的表情,捕捉你的動作,深度學習你的語言。只要給我學習時間,我會跟你越來越像?!痹诳萍脊?jié)閉幕式上,現(xiàn)實世界中的小孫和虛擬世界中的小糖進行了一番對話,當小孫把手放在胸口時,小糖也把手放在了胸口;當她打哈欠時,小糖也打起了哈欠。
數(shù)字人小糖由商湯科技為上??萍脊?jié)特別定制。據(jù)該公司科技產(chǎn)品執(zhí)行總監(jiān)欒青博士介紹,數(shù)字人是一種新的交互模式,可支持遠程接管服務,未來這種由人工智能(AI)、增強現(xiàn)實(AR)等技術催生的“新人類”可用于銀行、商店、博物館等眾多場所,為公眾提供有價值的服務。
欒青介紹道:數(shù)字人是在AI深度學習技術的驅(qū)動下,通過學習大量的真人會話、表情和動作,生成惟妙惟肖的擬人效果。閉幕式上的科普講解員小糖利用的是240個人臉關鍵點檢測跟蹤技術,把照片轉(zhuǎn)化成了高度對應的卡通形象,其轉(zhuǎn)化相對簡單,可通過軟件一鍵完成。如今,公眾也可通過“崽崽ZEPETO”手機軟件、QQ迷你秀體驗這種技術,打造一個屬于自己的卡通數(shù)字人。
但真實數(shù)字人的制作難度更大,因為它的仿真度比卡通人高得多。其實在2020世界人工智能大會上,數(shù)字人導覽員小糖就已經(jīng)亮過相,她也是完全模擬真人,形象來自一位漂亮的上海女演員。數(shù)字人每做一個表情動作,模型師需要對模型進行拓撲、綁定和驅(qū)動。對三維人物模型來說,越高質(zhì)量的數(shù)字人越需要大量的綁定工作,特別是人臉部位的骨骼和肌肉細微變化,可形成上千種表情。
那么,如何讓虛擬數(shù)字人的表情如真人一般更加豐富、細膩、真實呢?研發(fā)人員通過對真人的表情、說話語氣和動作進行了大量三維數(shù)據(jù)采集,利用這些數(shù)據(jù)積累,再借助AI算法和一段時間的深度學習訓練人臉表情,從而打造出一名淑女型數(shù)字人,最終的訓練結果是虛擬數(shù)字人在嘴角眼部的張合幅度、眼神的細微變化、肌肉的輕微顫抖等表情幾乎與真人接近一致?!昂喍灾?,我們先讓人工智能模型學習一個人的音容笑貌,經(jīng)過深度學習,它就能預測這個人在各種情形下的言談舉止。”欒青說。
或許人們已經(jīng)習慣了人臉識別,對自動駕駛也不再感到陌生,但當栩栩如生的數(shù)字人來到大家面前時,總會激起好奇心,猜想它什么時候會成為我們生活和工作的一部分。
但其實,憑借高仿真的人物形象,輔以語音識別和人臉識別等技術,數(shù)字人可以在許多場景替代人工提供重復性服務,并且目前已在國內(nèi)一些銀行、商店、步道等場所落地應用。2019年12月,浦發(fā)銀行聯(lián)合百度共同打造的首位銀行業(yè)數(shù)字員工小浦就已經(jīng)正式上崗。
在銀行網(wǎng)點,數(shù)字人扮演了大堂經(jīng)理角色,為客戶介紹銀行的各項業(yè)務。通過人臉識別,它還能認出重點客戶,為他們提供個性化服務。這些數(shù)字化大堂經(jīng)理都具有自然語言處理能力,可以聽懂客戶的大多數(shù)問題并給予回答。當然,它也有答不上來的時候。此時,它會自動開啟遠程客服,銀行業(yè)務人員可通過語音或文字驅(qū)動數(shù)字人,讓它回答客戶的提問。除了語音或文字,人們用動作和表情也能驅(qū)動數(shù)字人,因為人工智能視覺技術會準確捕捉用戶的人臉和肢體變化。
“數(shù)字人還可支持遠程接管服務?!睓枨嗾f,當網(wǎng)上虛擬客服無法解決實際問題時,數(shù)字人會自動尋找遠程客服,后者可直接通過語音或文字驅(qū)動數(shù)字人,讓它作出相應的回答。它甚至還能“穿越”屏幕—只要有顯示設備,它都可以來到你身邊。
今年新冠肺炎疫情期間,商湯科技還攜手虎牙直播,推出基于數(shù)字人技術的AI數(shù)字醫(yī)生。在線上直播間,通過彈幕聊天這種互動問答的形式,普及大眾較為關切的公共健康知識,提升全民的個人防護意識。
隨著5G時代的來臨,設備成本的降低、傳輸速度的提升、深度學習等算法的優(yōu)化等,數(shù)字人技術將擁有廣泛的應用前景,可以讓很多科幻的場景成為現(xiàn)實。例如《頭號玩家》中的虛擬數(shù)字人走近日常生活,在娛樂、文旅、教育等消費場景中發(fā)揮意想不到的價值:不用去健身房辦理私教課,不用去培訓班上一對多課程,在家實現(xiàn)一對一的真人教學;推動營銷升級,消費者與明星真人親密互動......在新技術浪潮下,數(shù)字人如何與5G、AI、VR等新技術緊密結合,實現(xiàn)技術突破,催生出更多成熟可落地的商業(yè)應用形式,將成為業(yè)內(nèi)關注的焦點。
人工智能技術的思想萌芽其實可以追溯到17世紀,而演變至今,人類對于人工智能的終極想象大多還是會以“人”的形態(tài)呈現(xiàn)。隨著AI技術的不斷進步,未來,也許每個人都可以擁有自己的數(shù)字人,讓它陪伴家人、指引顧客,或是服務客戶,逐步改變我們未來的生活方式,驅(qū)動多種場景提供服務和體驗升級,讓它表達自己的真實想法,成為“人機共生”時代的標志性應用,甚至為社會的發(fā)展帶來變革。