人工智能主播的應用策略

2022-01-01 03:17王夢穎李懷蒼

寧夏師范學院學報 2021年3期

王夢穎，李懷蒼

(昆明理工大學藝術與傳媒學院，云南昆明 650504)

一、人工智能技術在播音主持的應用背景

人工智能的縮寫是AI，它指的是模擬、延伸和拓展人的理論、方法和技術。它包括模擬識別、機器學習、數(shù)據(jù)挖掘等多個分支。人工智能的發(fā)展主要經(jīng)歷了五個階段，以申農為首的科學家共同研究了機器模擬的相關問題，人工智能就此正式誕生。早期的人工智能主要以語言翻譯、證明等研究為主，發(fā)現(xiàn)機器具有模仿人類思維的功能，隨著互聯(lián)網(wǎng)技術的逐漸普及，人工智能已經(jīng)逐步為更多的領域提供了新的方向。在步入互聯(lián)網(wǎng)時代之后，“人工智能”加快了替代手工勞動的步伐，并從基礎的體力勞動層面漸漸轉向創(chuàng)意、創(chuàng)作的層面。2001年，傳媒業(yè)終于迎來了開天辟地的創(chuàng)舉——世界上第一個虛擬主持人阿娜諾娃(Ananova)的誕生。這是一個可播報新聞、體育、天氣等的虛擬播音員，堪比一個真實的有血有肉的主播。此后，日本推出了寺井有紀(Yuki)，中國推出了歌手虛擬主持人阿拉娜(Alana)，美國推出了薇薇安(Vivian)，韓國推出了露西雅(Lusia)。從2D到3D，從只有頭部到擁有全部身體，從只有虛擬人物播報到擁有演播室進行播報，虛擬主持人日漸成熟，被越來越多媒體關注和使用，并引發(fā)了全社會對“主持人要下崗”的擔憂。在2004年，央視CCTV-6頻道推出了國內首位虛擬電視節(jié)目主持人——小龍。它采用三維形象技術，擁有高挑的身材，集合了劉德華、梁朝偉和金城武的“臉部精華”，并單獨主持了《光影周刊》欄目。小龍的上崗，點燃了國內CG技術從電影級走向消費級的星星之火。到2016年，當一位自稱“超級AI”的虛擬主播絆愛在YouTube上首次亮相時，也許誰都沒想到，她會成為照亮“黑暗時代”的第一縷曙光。與早期虛擬主持人不同，絆愛是由真人扮演而成。但從播報狀態(tài)上來看，無論是3D形象，還是語音、動作，絆愛相比早期主持人都明顯更勝一籌。2016年，阿爾法狗(AlphaGo)以1:4打敗圍棋世界冠軍李世石的事實，讓人們意識到，已經(jīng)誕生了幾十年的人工智能，處在了可全面商業(yè)化的臨界點，AI時代正加速到來。同年，科大訊飛、搜狗、百度先后召開發(fā)布會，對外公布語音識別準確率均達到97%?？萍甲悦襟w人闌夕曾說，一旦語音識別的準確率達到99%，那將直接進入產(chǎn)業(yè)爆發(fā)的黎明。巧合的是，這一輪AI虛擬主播熱潮的興起，與AI，特別是語音識別技術的飛躍，幾乎是同步的。到2018年5月，科大訊飛攜手相芯科技打造了虛擬主持人“康曉輝”。這位虛擬主持人有著與真人相似的外形，不僅與央視記者江凱一同主持了《直播長江》安徽篇，還在現(xiàn)場進行了實時互動。同年11月，全球首個“AI合成主播”誕生；在2019年3月全球首個“AI合成女主播”誕生；同年春晚AI虛擬主持人團隊誕生。在這套AI虛擬主播的方案中，只需輸入一段既有的新聞文本，主播就可實時進行播報，且發(fā)音與唇形、面部表情等也完全吻合，無論是看上去還是聽上去，似乎都與真人一模一樣。進入全面AI化，虛擬主播走入千家萬戶。在電影《西蒙妮》中，人們曾描繪過AI虛擬主播的理想形態(tài)：她是一個由計算機虛擬合成的、高度逼真的三維動畫人物。她美得令人無法拒絕，一言一行都與真人一樣，并可以完成一切表演、播報，且不會有任何緋聞，妥妥的一枚“完美代言人”，可以取代人類，且不會出現(xiàn)任何差錯，也不會有負面新聞，這是很多人眼中的完美AI虛擬主播。但之后的十多年，不論是影視業(yè)還是AI虛擬主播行業(yè)，都不得不面對一個現(xiàn)實：虛擬形象“像真人”并不簡單。人工智能能夠靈活運用復雜的大數(shù)據(jù)網(wǎng)絡，對不同的語言和副語言進行解讀，最終創(chuàng)造并穩(wěn)定的輸出所需要的播讀內容。如今的AI主播能夠完成坐著、直立、行走等動作的模擬，完全做到與真人主播的融合。

二、新媒體背景下人工智能主播的應用現(xiàn)狀

(一)形象升級，符合大眾審美

人工智能主播需要進行真人主播人臉識別，并進行個人面部檔案的建立。為了讓人工智能主播高度逼真，新華社與搜狗公司進行了強強聯(lián)合，并以新華社主播邱浩、屈萌為原型，錄制了大量的高質量視頻，通過對邱浩和屈萌的面部文件、照片文件進行掃描分析，形成人臉面像文件面紋編碼(Faceprint)，對人臉面紋進行采集和檢測，將人臉的皮膚色調、面部毛發(fā)、表情姿態(tài)等進行特征提取，并有效識別，系統(tǒng)將人臉有用的信息采集出來。真人主播在高清鏡頭的放大下，不難發(fā)現(xiàn)會有“大小臉”“大小眼”“高低眉”的問題，三庭五眼的分布也更加貼近國人所欣賞的“東方美”，無論是靜態(tài)還是動態(tài)，都不會出現(xiàn)表情崩壞或是五官不對稱的情況。主播吸收了人工智能的這些特點，不管是播報什么新聞，總是能以完美端莊的狀態(tài)出現(xiàn)在大眾面前，給人以美的享受。

(二)無間斷直播，節(jié)約生產(chǎn)成本

在現(xiàn)實生活中，一個主播只能每天工作8小時，人工智能主播卻能實現(xiàn)無間斷直播，只要輸入文本就能自動生成相應視頻，能保持唇形、聲音、神態(tài)的一致，不會有情緒變化，也不會生病，能夠極大地減輕真人主播工作任務，還能節(jié)約生產(chǎn)成本。比如在新華社的客戶端中，可以看到2019年3月2日的最后一條新聞《北京啟動149場線上專場招聘》發(fā)布于23:41:29，而2019年3月3日的第一條新聞《北京：日均出動8.3萬余人保障城市干凈整潔》發(fā)布于00:45:59，無論何時都能在崗位上嚴陣以待。不僅如此，更是在十三屆全國人民代表大會和全國政協(xié)十三屆會議中不間斷地播報最新情況，播報稿件達到了86條，極大地保證了新聞的時效性。讓許多網(wǎng)友紛紛感嘆科技的力量實在是太強大了！甚至有媒體報道除了嘴唇動作稍顯僵硬外，她幾乎可以以假亂真。

(三)強大的學習能力

人工智能主播是通過對真人主播的聲音、唇形等特征學習建模設計而成，換言之，人工智能主播是“克隆”真人主播，并且學習真人主播的動作神態(tài)和播報語調。他們沒有學習過任何播音主持的知識，就能夠達到與真人主播無異的信息傳達效果，甚至在語言方面有著超越真人主播的趨勢。

英文播報素材取自于新華社的英語主播張朝，通過對張朝的音頻進行學習，人工智能主播能夠流利的使用英語播報新聞，極大地擴大了對海外的影響力。不僅在播讀新聞方面能夠很快地掌握有聲語音的表達的技巧，在副語言上也有著不斷地革新，從最開始只能坐在播音臺前播報新聞，通過技術的升級，從臺后走到臺前，能夠站立著播報新聞，還能“手舞足蹈”，運用起肢體語言進行表達，這一切都讓新華社的員工們驚嘆著人工智能主播的強大學習能力，直呼是不是再過不久自己就會失業(yè)了。

以2019年1月10日的《叮咚！請開門，你的年度外賣大單到了》這條新聞為例，“各位宅男、宅女，過去的一年，窩在工位或者床上點外賣是否已經(jīng)成了你的日常？各位吃貨們在外賣單上到底備注了什么？點了這么多外賣，你爸媽知道嗎？”從新聞內容中可以看出，新聞的基調是輕松有趣的，但人工智能主播的播報狀態(tài)還不夠積極，重音方面也存在問題，如“數(shù)據(jù)江湖”應該確定為重音，但“新小浩”的播讀太過于一馬平川，甚至在有些字詞的處理上還略有些僵硬，沒有播出這條新聞的趣味性，不能夠引起受眾的注意，但隨著技術的革新，人工智能主播也在不斷地學習中，現(xiàn)在的人工智能主播不論是有聲表達、肢體動作還是表情等方面都越來越自然，強大的學習能力使其與真人主播的差距越來越小。

三、人工智能主播對傳統(tǒng)主播的影響和挑戰(zhàn)

(一)“AI合成主播”的優(yōu)勢與傳統(tǒng)主播的劣勢

1.社會大眾的需要

隨著技術的不斷發(fā)展，人工智能在生活中應用的越來越廣泛，比如近幾年大眾能接觸到的如“天貓精靈”和“小愛同學”這類的智能音響，以及手機上的語音助手，讓人們感受到了人工智能技術為生活帶來的便利，也對人工智能技術越來越好奇，而人工智能主播無疑是一項新興的產(chǎn)物，當人工智能被“人物化”的時候，人們往往會想人工智能主播長什么樣呢？是否和真人主播一樣？那么大眾到底對“AI主播”持什么樣的態(tài)度，筆者在對近30人的調查后得知，大部分人都對人工智能抱有極大的興趣。以往電視機里的主播往往很難激起人們的興趣，人們也很少會為了主持人而去關注一檔節(jié)目，但人工智能主播的出現(xiàn)卻打破了這一點，激發(fā)了人們對新聞的好奇心，從而進一步擴充了人們對信息傳播的選擇，滿足了人們的心理需求，更是專門開辟了人工智能主播的專題報道。

2.精準的播讀技術

在新聞的播報中，從眼睛看到嘴巴說需要經(jīng)過大腦的有機整合，稍有注意力不集中，或是看錯看漏，便會出現(xiàn)播讀錯誤，這在真人主播中幾乎是無法避免的問題，就連央視的主持人也會出現(xiàn)讀錯字音的現(xiàn)象，在網(wǎng)上瘋傳的《主持人失誤錦集》中就有許多的字音出錯片段，看得眾多網(wǎng)友捧腹不已，觀眾也能理解，畢竟一臺節(jié)目的口播有時多達好幾千字，拗口的地名、人名識讀起來也實屬不易。而在直播節(jié)目中主持人不僅要讀好手里的稿件還要顧及眾多方面，如提詞器的顯示、耳麥中導播的指示、副語言的運用、顯示器的監(jiān)視等，可謂是眼觀六面耳聽八方。一旦哪一方面出現(xiàn)錯誤都可能會使主播的播讀出現(xiàn)卡頓。但人工智能主播只要輸入文本，便能按照既定的文本進行播報，相較真人主播，不會出現(xiàn)字音和語調上的錯誤，并且能對語流音辨識、多音字的識別正確，不會出現(xiàn)讀錯字、卡頓的問題。播報精準，成為人工智能主播的顯著優(yōu)勢。

3.減少節(jié)目制作成本

一檔節(jié)目的誕生不僅需要主播，還需要龐大的制作團隊，如燈光師、攝影師、化妝師等，真人主播在上節(jié)目前需要化妝、備稿，從準備到錄制需要一定的時間，而人工智能主播卻只需要一名工作人員簡單配合即可，提前輸入需要的文本便能自動生成視頻，極大地解放了勞動力，減少了節(jié)目的制作成本。[1]兩會期間當真人主播還需要等前方記者傳回稿件才能出新聞時，人工智能主播使新華社第一時間就能發(fā)出關于兩會新聞最新的解讀。

不僅如此人工智能主播還能一人多用，可以同時“分身”到不同的節(jié)目中，極大的提高了新聞的傳播效率。不計較工資，不間斷的播報，以一敵百的勞動力，這些都是真人主播無法做到的。

(二)人工智能主播的劣勢與傳統(tǒng)主播的優(yōu)勢

1.無法引起情感共鳴

播音員常被稱為連接黨和人民群眾的橋梁，作為橋梁光有播音的技巧不夠，還要使自己的聲音有情感，有溫度。在節(jié)目中播音員常常要做到“以聲傳情”，比如在播報歡天喜地迎新春這樣的新聞，播音員要播報出給人以輕松、愉快的感覺，而在播報一些特殊的新聞，如汶川地震、新冠肺炎時，要播報出給人以莊重、嚴肅的感覺，這一點是需要播音員具備扎實的基本功底，并且經(jīng)過長年累月的訓練才能夠達到。而人工智能主播卻只能機械地播讀新聞內容，雖然沒有出過錯誤，但無論是什么主題的新聞，總會讓人感到千篇一律，無法產(chǎn)生情感共鳴。

播音工作的二度創(chuàng)作，要求主播對稿件進行自我理解，真人主播可以挖掘字里行間的深層語義，對播報內容進行深層次的認知和情感的表達。但是人工智能主播只能通過人工指令對稿件進行語言輸出和口型、表情的匹配。目前的人工智能主播還停留在學習階段，并不具備情感，也不能做到對新聞的感性認知。舉例來說，央視主持人朱廣權常常以他幽默風趣的播報讓觀眾捧腹不已，以2019年的一篇播報為例：“最近的天氣‘凍力’十足，你是不是很懷念溫暖的日子?你想勸天氣重抖擻，天氣卻對你大聲吼，這樣的要求休出口，風雪來了我也抖?！边@一段新聞消息倘若由人工智能主播來播報會大大地降低語言的趣味性，不能使觀眾共情。針對傳統(tǒng)主播來講，人是具有情感的，那么由他抒發(fā)的事物也是具有情感的，不會生搬硬套，能夠與觀眾產(chǎn)生共鳴。

2.不具備應變能力

在錄制節(jié)目時，播音員主持人常常要和現(xiàn)場的觀眾進行互動，從而調動節(jié)目氛圍，激發(fā)自己的播講愿望，這就要求播音員不僅要具備調動氣氛的能力，還要有掌控全場的大局意識，真正的播音員主持人在這里可以發(fā)揮出自己的最大潛能，游走在觀眾與嘉賓之間，適時拋出問題，增加觀眾與嘉賓的互動，即便是出現(xiàn)突發(fā)狀況，基本也能依靠隨機應變的能力帶過。但是人工智能主播只能通過預設好的文本生成播讀內容，很難與觀眾進行互動，即便與觀眾進行互動，如果出現(xiàn)突發(fā)狀況，也難以解決，所以就導致人工智能主播的應用局限性。相對來說，傳統(tǒng)主播更加具有臨場應變能力，能夠處理突發(fā)的狀況，針對事件進行相應的調整，保證新聞事件順利進行。

四、人工智能主播的發(fā)展趨勢以及問題分析

(一)人工智能主播在主持行業(yè)中的發(fā)展趨勢

人工智能主播所使用的人臉三維重建技術和語音識別技術都是未來AI業(yè)界的發(fā)展方向，在媒體市場競爭逐漸加大的背景下，有資本和技術的傳媒集團更青睞于使用技術提升自身在業(yè)界中的影響力。[2]該技術可以應用于以下播報和主持工作。

第一類，重復性高的主持工作，此類工作程序化很強，并且具有一定的話語模板，例如天氣預報的播報。

第二類，人才海選面試，根據(jù)各類比賽的流程分析，參賽人員在比賽初選的時候，流程都基本相似：工作人員將參賽人員的報名回執(zhí)單信息(選手編號、姓名)錄入計算機，人工智能主持人報編號和選手姓名，并且引導選手進行自我介紹、才藝展示。在時間結束后，虛擬主持人提醒時間結束，并暗示評委進行點評，最后提示選手退場。

第三類，簡單的兒童主持播報，此類主持不需要很高的技巧性，并強調趣味性，在兒童主持中具有較高的應用價值。同時虛擬化的主持人對兒童來說較為新穎，且有較大的吸引力。

第四類，風險高的特殊主持，例如一些災難現(xiàn)場的播報或者人類難以到達的地帶，可以利用人工智能技術快速生成播報新聞，代替真人播報。

(二)人工智能主播需要解決的問題

人工智能要想在虛擬化主持中廣泛應用，需要解決以下問題。

第一是隨機應變能力。人工智能主播采取文字錄入、信息處理、音視頻融合、視頻輸出的方式工作，因此僅局限在生硬的念稿層面上，不具有播報的生動性，尤其是其不適合用于突發(fā)情況較多或者現(xiàn)場類的主持播報活動，要想將其應用于虛擬化主持，還要賦予人工智能主播更智能的“大腦”。[3]

第二是恰當?shù)慕涣鲃幼?，要將主持播報展現(xiàn)得更加生動靈活，就要有更為靈活的動作支撐，例如微微蹙眉的動作、微笑等可以給觀眾更具親和力的播報體驗。

第三是與人的情感交流，這一點是擺脫人工智能主播的機器人特點的關鍵，因此需要技術支持，給予系統(tǒng)更加高效的大腦，提升信息處理水平，并且提升機器和真人的自然一致性。

五、結語

新事物的發(fā)展總是要經(jīng)歷由不完善到完善的過程，隨著人工智能等數(shù)字化技術的不斷成熟和廣泛應用，在一些有規(guī)律可循的范圍內，機器可以比人類做得更好，但是在一個沒有先驗知識的，沒有規(guī)律可循的階段，機器還是達不到人類該有的推斷能力。人工智能不會取代人，只會讓我們的生活更便利，AI在教育、醫(yī)療、政法、智慧城市、智能客服等方面，都給我們帶來了一些新的面貌，人工智能給媒體行業(yè)帶來的機遇或者挑戰(zhàn)，使得作為媒體人的我們必須與時俱進。進入新媒體時代，既要拼速度更要拼服務，通過大數(shù)據(jù)的積累，將海量信息利用人工智能，就能很好地應對人類的問題。[4]新媒體的發(fā)展需要一個強大的保護盾，與此同時，隨著智能媒體的更新?lián)Q代，應該正確看待新媒體時代下的人工智能主播發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡