何苑 張洪忠 張爾坤
摘要:當前,自然語言處理(NLP)在傳媒領(lǐng)域已得到廣泛應(yīng)用,成為媒體融合轉(zhuǎn)型的一項重要人工智能技術(shù)。本文梳理了近一年來該技術(shù)在智能傳播領(lǐng)域的應(yīng)用現(xiàn)狀,并從智能信息采集與輸出、視覺內(nèi)容生成與修復(fù)、語音內(nèi)容合成與還原、AI虛擬主播四大應(yīng)用場景出發(fā),對與之相伴而生的問題風險和風控措施進行分析。進一步提出在NLP全方位向傳媒領(lǐng)域滲透的大趨勢下,新聞傳播從業(yè)者既要積極提升自身對新技術(shù)的駕馭能力,也要防范技術(shù)應(yīng)用帶來的問題,以促進智能傳播的健康發(fā)展。
關(guān)鍵詞:智能傳播 自然語言處理 人工智能 技術(shù)風控
自然語言處理(Natural Language Processing,NLP)主要研究如何用計算機來理解人類語言的各種理論和方法,是語言學、人工智能和計算機科學的重要分支。NLP主要在海量輸入數(shù)據(jù)基礎(chǔ)上,通過計算框架來構(gòu)建表現(xiàn)語言能力(Linguistic Competence)和語言應(yīng)用(Linguistic Performance)的模型,并不斷提出優(yōu)化方法,設(shè)計出各種實用的系統(tǒng)和系統(tǒng)評測技術(shù)。NLP技術(shù)涉及語義分析、知識圖譜、機器翻譯、信息檢索和過濾、語音識別和情感分析等不同方面。
當前NLP技術(shù)已在智能傳播領(lǐng)域中得到廣泛應(yīng)用。一方面,NLP的行業(yè)應(yīng)用表現(xiàn)出多技術(shù)融合、集成化創(chuàng)新發(fā)展特征,全方位推動傳媒業(yè)的數(shù)字化、智能化轉(zhuǎn)型;另一方面,正如《2021年斯坦福人工智能指數(shù)報告》中指出的,當前NLP技術(shù)的發(fā)展速度已經(jīng)遠超過了對其進行理解和評估的標準制定速度。然而,該技術(shù)在實踐中也暴露出技術(shù)濫用、算法倫理、數(shù)據(jù)安全、個人隱私泄露等方面的風險問題,引發(fā)行業(yè)、監(jiān)管部門和普通用戶的擔憂。
由此,筆者一方面嘗試對NLP近年來取得的關(guān)鍵性技術(shù)進步及其在智能傳播領(lǐng)域的應(yīng)用現(xiàn)狀進行梳理,尤其是最近一年來在智能信息采集與輸出、視覺內(nèi)容生成與修復(fù)、智能語音內(nèi)容合成與還原、AI虛擬主播等場景中的應(yīng)用拓展;另一方面嘗試對NLP存在的問題風險和現(xiàn)行風控措施進行分析,以期為人們正確看待技術(shù)創(chuàng)新與行業(yè)發(fā)展的關(guān)系提供參考。
2021年來,NLP技術(shù)在實時信息采集、轉(zhuǎn)化和語言處理等領(lǐng)域取得突破性進展。在國外,Meta AI(原Facebook AI)發(fā)布的多語言模型XLS-R可以在英語和其他21種語言之間完成翻譯,使機器翻譯的結(jié)果更接近人工翻譯。英偉達的GauGAN2模型可以按照用戶輸入的簡短關(guān)鍵詞迅速生成相應(yīng)圖像,并根據(jù)文本內(nèi)容的調(diào)整來進行優(yōu)化,實現(xiàn)從自然語言向圖像的智能轉(zhuǎn)換。谷歌也發(fā)布了適用于開放對話情境的LaMDA語言模型,可以更好地理解對話語境,并在未經(jīng)訓練的情況下進入新的對話,突破了以往AI應(yīng)用只能執(zhí)行預(yù)設(shè)的狹義路徑、無法理解情感語義且內(nèi)容重復(fù)率高的局限。
在國內(nèi),NLP技術(shù)與業(yè)務(wù)場景進一步融合,從信息采集、編輯輸出到審核等各個環(huán)節(jié)推動新聞媒體從機器寫作向智能化內(nèi)容生產(chǎn)的實踐升級。首先,智能輔助工具向多功能一體化發(fā)展。科大訊飛公司的“訊飛智能辦公本X2”在2021年兩會期間為新華社記者采訪提供了有力支撐。該設(shè)備不但可以錄音,還可以自動將記者提問和代表作答進行分區(qū),并提取關(guān)鍵內(nèi)容,提升記者輸出稿件的速度。其次,智能一體化平臺推動“人機協(xié)同”的內(nèi)容采編模式成熟。人民日報智慧媒體研究院推出的“智能創(chuàng)作機器人”在兩會期間支持記者獨立完成采訪、拍攝、新聞素材分析和富媒體內(nèi)容創(chuàng)作等工作,并可根據(jù)實時熱點分析突出新聞的亮點。在短視頻、直播領(lǐng)域,快手基于實時流式ASR技術(shù),在大規(guī)模直播和短視頻場景中無縫嵌入了低延遲智能語音輸入法、語音助手、相機實時字幕等功能,既簡化了平臺主播的操作,又提升了受眾的參與感和“臨場感”。
智能內(nèi)容生成技術(shù)在提升信息采集、輸出效率的同時,也給網(wǎng)絡(luò)原創(chuàng)內(nèi)容的著作權(quán)保護帶來了新的風險與挑戰(zhàn),尤其在自媒體的內(nèi)容生產(chǎn)中催生出一條利用NLP技術(shù)手段“洗稿”的灰色產(chǎn)業(yè)鏈。部分互聯(lián)網(wǎng)企業(yè)利用AI洗稿軟件大量抓取網(wǎng)絡(luò)優(yōu)質(zhì)原創(chuàng)內(nèi)容,在經(jīng)過同義替換、文本改寫后迅速形成新的文章發(fā)布出來。隨著NLP技術(shù)的不斷進步,這種侵權(quán)行為已從文本范疇升級到了短視頻領(lǐng)域。此類技術(shù)濫用行為不僅侵害了原創(chuàng)作者的合法權(quán)益,還擾亂了正常的網(wǎng)絡(luò)內(nèi)容創(chuàng)作生態(tài),更增加了對人工智能編創(chuàng)行為進行認定的難度。對此,業(yè)界已嘗試引入智能侵權(quán)檢測算法作為預(yù)防和解決著作權(quán)糾紛的輔助機制,如YouTube的自動化著作侵權(quán)檢測和處理系統(tǒng)、中國版權(quán)協(xié)會版權(quán)監(jiān)測中心采用的版權(quán)內(nèi)容指紋特征比對技術(shù)等。NLP技術(shù)在信息采集與輸出上相對比較成熟,應(yīng)用也較多,如何在規(guī)制層面出臺有針對性的智能內(nèi)容生成工具使用的法律法規(guī)和管理制度還有待進一步加強。
在影視行業(yè),以Deepfake為代表的人臉視頻深度偽造技術(shù)、AI渲染上色等智能視覺技術(shù)的突破也不斷催生出新的業(yè)態(tài)。在國外,Deepfake技術(shù)與AI配音技術(shù)的融合在影視制作領(lǐng)域獲得了新的應(yīng)用賽道,成為新冠肺炎疫情大流行背景下行業(yè)“破局”的重要抓手。2021年,英國公司Flawless針對多語言譯制片中角色唇形不同步的問題推出了可視化工具TrueSync。該應(yīng)用通過AI學習演員頭部3D模型來調(diào)整其面部微表情畫面,解決了傳統(tǒng)影視換臉特效鏡頭資金消耗量大、人力時間成本投入高的問題。加拿大創(chuàng)業(yè)公司Jali Research通過Deepfake技術(shù)和AI配音工具為科幻角色扮演游戲《賽博朋克2077》提供多達10種語言的本地化支持。該應(yīng)用將不同語言的音素準確映射到角色的嘴型上,令游戲角色在語言模式切換后仍能呈現(xiàn)出自然的表情和對話效果,極大地推動了《賽博朋克2077》的海外銷售。
在國內(nèi),AI渲染上色技術(shù)、智能超分算法等計算機視覺技術(shù)開始應(yīng)用在老視頻和圖片修復(fù)中。中央廣播電視總臺央視頻5G新媒體平臺與中國電影資料館綜合采用人機交互式AI上色技術(shù)和傳統(tǒng)影片修復(fù)手法對經(jīng)典電影《永不消逝的電波》進行了黑白轉(zhuǎn)彩色4K修復(fù)。在對原片超過16萬幀的黑白影像進行逐幀修復(fù)后,該片于2021年國慶期間成功登陸院線,令廣大觀眾得以重溫經(jīng)典。西瓜視頻也聯(lián)合火山引擎,運用智能處理AI算法對《哪吒傳奇》、《黑貓警長》等百余部經(jīng)典影片進行了4K修復(fù)。
智能視覺生成技術(shù)在降低行業(yè)成本投入、提升用戶視覺體驗的同時,也引發(fā)了技術(shù)倫理和法律層面的爭議。對Deepfake等技術(shù)的濫用和惡意使用會產(chǎn)生網(wǎng)絡(luò)低俗、色情內(nèi)容;為滿足大規(guī)模數(shù)據(jù)集訓練而進行的人臉識別、表情識別等方法可能在無形中對公民的肖像權(quán)、名譽權(quán)等造成侵害;經(jīng)過惡意偽造的內(nèi)容甚至可能對企業(yè)信譽和媒體公信力等造成不良影響,嚴重時可能導致社會信任、媒體公信力、社會公共安全受到威脅。法律層面,智能偽造視頻/圖像向司法領(lǐng)域的滲透嚴重挑戰(zhàn)了案件事實認定的準確性和裁判結(jié)果的公正性。在國外,許多基于AI換臉技術(shù)的軟件應(yīng)用都成了抹黑公眾人物、激化社會矛盾甚至操縱輿論的技術(shù)推手。在我國,也發(fā)生了網(wǎng)站UP主擅用明星肖像進行AI換臉和視頻二次創(chuàng)作的侵權(quán)事件。這些現(xiàn)象引發(fā)了各界對人工智能技術(shù)濫用個人生物識別信息、威脅社會秩序和安全的擔憂。
對此,各國政府相繼出臺了相關(guān)的監(jiān)管制度,如美國眾議院提出的《深度偽造責任法案》、歐盟的《通用數(shù)據(jù)保護條例》等。在我國,2021年3月,國家互聯(lián)網(wǎng)信息辦公室和公安部牽頭,就部分語音社交軟件的涉“深度偽造”技術(shù)應(yīng)用未履行安全評估程序的問題,對11家企業(yè)進行依法約談,以督促其認真開展安全評估和完善風險防控機制和措施。同時,針對“深度偽造”合成內(nèi)容進行識別、監(jiān)測和反向還原的人工智能工具、平臺等陸續(xù)問世,如美國國防部高級研究計劃局設(shè)立的“媒體鑒證”項目、谷歌公司發(fā)布的深度偽造視頻識別數(shù)據(jù)集、香港科技公司Sense Time聯(lián)合南洋理工大學設(shè)計的人臉偽造測試基準、北京大學與微軟亞洲研究院聯(lián)合推出的深度偽造識別工具Face X-Ray等。上述政策法規(guī)和應(yīng)用均為遏制和防范“深度偽造”技術(shù)的大規(guī)模濫用提供了有力支撐??梢灶A(yù)見,未來與自然語言處理等人工智能技術(shù)相關(guān)的數(shù)據(jù)安全和個人信息安全問題還將繼續(xù)受到重視,相關(guān)法律法規(guī)也將進一步出臺和完善。
2021年,基于NLP的高保真AI合成音效技術(shù)取得突破性進展,賦予了智能語音應(yīng)用更加類人的“聯(lián)想能力”和“推理能力”。在國外,硅谷公司Deepdub嘗試在AI翻譯中使用影視演員的原聲。該公司基于深度學習、信號處理、特征建模、神經(jīng)風格遷移等技術(shù),讓系統(tǒng)對音軌資料中的演員聲音特征進行記錄和學習,以便在新臺詞的多語言翻譯中獲得自然的配音效果。目前,該技術(shù)已經(jīng)應(yīng)用在影片《Every Time I Die》的拉丁美洲西班牙語和葡萄牙語翻譯中,翻譯后的作品將由Netflix面向美洲觀眾播出。
在國內(nèi),小冰公司也發(fā)布了全新的超自然語音技術(shù),使人工智能語音效果可媲美真人聲音。該技術(shù)還突破了人工智能交互主體的單一場景應(yīng)用限制,在2021年9月發(fā)布的社交平臺APP“小冰島”當中,支持不同角色的人物在對話、唱歌等不同場景中進行高度擬人交互。QQ瀏覽器在深度挖掘真人語音中的節(jié)奏、語調(diào)、韻律感等特征后,用StyleTTS合成框架生成了更貼近真人音效的語音內(nèi)容,并應(yīng)用在自帶的“聽書”功能中。喜馬拉雅也對評書表演藝術(shù)大師單田芳的聲音進行了還原和應(yīng)用。
智能語音合成技術(shù)賦予了影視創(chuàng)作和社交機器人等應(yīng)用更生動、逼真的效果,但從法律角度來看,也對社會安全、法律法規(guī)的健全完善和執(zhí)行等帶來了新的挑戰(zhàn)。例如,“語音偽造”向司法領(lǐng)域的滲透正成為一種新的安全威脅。英國媒體2020年就報道了一起妻子企圖利用軟件篡改音頻內(nèi)容,捏造丈夫“暴力”形象以爭取兒童監(jiān)護權(quán)的案件。同時,“聲紋”作為個人重要的生物識別信息之一,其在數(shù)字技術(shù)條件下的可復(fù)制性、可獲得性和可冒用/盜用性也加劇了各界對公民“身份盜竊”風險的擔憂。
在對智能語音合成內(nèi)容的潛在風險應(yīng)對和規(guī)制上,美國主要依據(jù)的是針對深度偽造技術(shù)制定的系列法案(如前文提及的《深度偽造責任法案》、《惡意偽造禁令法案》、《深度偽造報告法案》等);而歐盟則主要借助《通用數(shù)據(jù)保護條例》等現(xiàn)有法律規(guī)范,來針對個人生物識別信息的濫用問題進行回應(yīng)和規(guī)制。在我國,2021年國家網(wǎng)信部門起草的《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例(征求意見稿)》也針對數(shù)據(jù)處理者收集、處理、利用聲紋等個人生物特征的情況提出了新的要求和規(guī)定。網(wǎng)信、公安、反詐中心等監(jiān)管和執(zhí)法部門也聯(lián)合國內(nèi)頭部人工智能技術(shù)企業(yè)、高校和科研機構(gòu),商討推出對智能語音合成技術(shù)濫用有關(guān)問題風險的應(yīng)對之策,如發(fā)展偽造語音檢測技術(shù)、舉辦語音偽造競賽、開展科普活動等。未來,如何從技術(shù)、法律和行政管理等各個方面“齊頭并進”,在促進智能語音技術(shù)創(chuàng)新和應(yīng)用的同時,加快推進公民聲紋信息等隱私信息保護的立法和實施,加強對涉智能語音類應(yīng)用和服務(wù)的監(jiān)管和規(guī)制仍會是學界、業(yè)界和監(jiān)管部門持續(xù)關(guān)注的重要議題。
AI虛擬主播是在人類形象基礎(chǔ)上,利用虛擬圖像、語音識別、深度學習等人工技術(shù)捕捉海量數(shù)據(jù)形成的合成形象,可以根據(jù)給定的數(shù)據(jù)進行擬人化的視頻內(nèi)容演繹。AI虛擬主播是最近兩年媒體邁向人工智能的一個熱點應(yīng)用。
AI虛擬主播多以“數(shù)字人”的身份出現(xiàn)在動畫、影視、游戲和文娛虛擬偶像等場景中。2021年,AI虛擬歌手FN Meka在TikTok發(fā)布的新單曲《Speed Demon》熱度超過真人明星,吸引了超過900萬的粉絲觀看。FN Meka被賦予了個性、獨立、平權(quán)等嘻哈文化特征。他還活躍在各大社交平臺上,積極向用戶分享自己的“業(yè)余生活”。
在我國,AI虛擬主播在社會場景中的應(yīng)用也不斷深化。首先,各大主流媒體和科技公司進一步加大研發(fā)投入。新華社媒體融合生產(chǎn)技術(shù)與系統(tǒng)國家重點實驗室聯(lián)合騰訊互娛NExT Studios打造的數(shù)字人“小諍”就在神州十二號載人飛船發(fā)射期間同時扮演了記者和航天員的角色。在剛剛結(jié)束的2022年北京冬奧會中,央視新聞與百度智能云推出的AI手語主播已全面投入使用,在語音識別、機器翻譯等NLP技術(shù)的支持下為聽障用戶提供手語賽事資訊。其次,AI虛擬主播也被投入到“電商直播帶貨”的商業(yè)場景中,如創(chuàng)壹視頻推出的虛擬美妝達人IP“柳夜熙”、燃麥科技推出的“超寫實數(shù)字人”AYAYI等。截至2021年11月,我國已有10家虛擬偶像技術(shù)供應(yīng)商和運營公司先后獲得資本投資。
一方面,AI虛擬主播的技術(shù)還是以單向信息傳播為主,雖然可以順利執(zhí)行新聞播報等任務(wù),但在網(wǎng)絡(luò)中的雙向信息傳播還有很大缺陷,即不能進行多輪對話和基于語境對話;另一方面,AI虛擬主播在直播帶貨、演藝代言等領(lǐng)域的應(yīng)用也催生了行為主體身份難以界定、監(jiān)管措施無從開展和法律歸責難以認定等一系列新的問題。而在行業(yè)積極利用新技術(shù)逐利的背景下,現(xiàn)行的法律法規(guī)和市場監(jiān)管機制卻仍停留在探索真人主播權(quán)責問題的階段,學界對這一現(xiàn)象的研究也存在較大的空白,或偏向技術(shù)哲學視角。這種“實踐應(yīng)用先行,政策相對滯后,理論有待深化”的現(xiàn)狀亟待引起重視。
首先,自然語言處理技術(shù)在傳媒領(lǐng)域的應(yīng)用還處于初級階段。作為人工智能研究領(lǐng)域的關(guān)鍵技術(shù),NLP正從信息采集與輸出、數(shù)據(jù)整合、語言識別、生產(chǎn)要素創(chuàng)新等不同方面帶動著傳媒業(yè)的數(shù)字化轉(zhuǎn)型。但當前NLP技術(shù)在智能傳播領(lǐng)域的應(yīng)用還處于“初級產(chǎn)業(yè)化階段”,即只調(diào)動了部分運算智能來解決具體問題。據(jù)《2020人工智能中國專利技術(shù)分析報告》顯示,“我國自然語言處理技術(shù)領(lǐng)域?qū)@夹g(shù)布局正處于活躍時期,是創(chuàng)新主體關(guān)注的重點”。也就是說,傳媒業(yè)為NLP技術(shù)提供了大量的使用場景,NLP技術(shù)與傳媒的結(jié)合將在未來一段時間里是我國新技術(shù)的創(chuàng)新突破點。
其次,對NLP技術(shù)在傳媒領(lǐng)域中的應(yīng)用,有擁抱技術(shù)與擔憂技術(shù)兩種矛盾心態(tài),我們該如何看待這兩種形態(tài)?
其一,NLP是人工智能在傳媒領(lǐng)域應(yīng)用最為深入的技術(shù)之一,已經(jīng)成為傳媒業(yè)轉(zhuǎn)型的一項重要構(gòu)成內(nèi)容,并加速度推進著傳媒生態(tài)的變革,這個趨勢是不可逆的。社交機器人、智能語音助手、虛擬主播等已經(jīng)在傳媒業(yè)中廣泛應(yīng)用,與圖形圖像結(jié)合的應(yīng)用也大量出現(xiàn),對于傳媒業(yè)來說,不擁抱NLP等新技術(shù)就意味著要承擔被擠出信息場的風險。5G時代,在計算機算力大幅提升和云計算、物聯(lián)網(wǎng)等關(guān)鍵性技術(shù)保障持續(xù)發(fā)展進步的背景下,基于NLP的智能傳播也將繼續(xù)開拓更多的想象空間,如將視覺問答、視覺扎根對話、圖像字幕等創(chuàng)新技術(shù)融入智能出行、智能家居、數(shù)字健康、藝術(shù)創(chuàng)作等更加廣泛的應(yīng)用場景當中,推動社會生活的數(shù)字化、智能化轉(zhuǎn)型。
其二,NLP技術(shù)的飛速發(fā)展在帶動行業(yè)創(chuàng)新的同時,也引發(fā)了一系列的問題與風險,如何防范NLP技術(shù)應(yīng)用帶來的問題也非常重要,如虛假信息、侵害著作權(quán)、泄露隱私、妨礙司法等問題。對此,社會各界的態(tài)度不一。但僅僅因為技術(shù)存在兩面性和潛在風險便對其報以質(zhì)疑、恐慌甚至全盤否定的態(tài)度并不可取。對傳媒行業(yè)來說,應(yīng)當在充分接觸和了解的基礎(chǔ)上進行應(yīng)用,從規(guī)范性、道德倫理和社會責任等方面著眼,提升自身對新技術(shù)的駕馭能力和數(shù)字治理能力。技術(shù)是一把雙刃劍,在享受技術(shù)便利的同時,如何看待技術(shù)對原有生活方式的改變?如何看待技術(shù)帶來的負面效應(yīng)?這些問題是社會發(fā)展永恒的問題,對NLP技術(shù)也一樣,這是硬幣的兩面,不能因噎廢食。
最后,面對NLP技術(shù)全方位向傳媒領(lǐng)域滲透,新聞傳播行業(yè)從業(yè)者如何應(yīng)對?一是要積極擁抱新技術(shù),不能“談新色變”或產(chǎn)生畏難心理。二是定位清楚新聞傳播從業(yè)者是使用技術(shù)的,不是開發(fā)技術(shù)的,就好比人們只需要及時學會不同汽車的駕駛技術(shù)做運輸,不需要為如何造車擔憂一樣。三是在具體工作中需要及時把握技術(shù)動向,促進技術(shù)邏輯與業(yè)務(wù)邏輯的融合,全面推進行業(yè)的數(shù)字化、智能化轉(zhuǎn)型,善于嘗試新技術(shù)新手段才能有創(chuàng)新和跟上智能傳播的步伐。
作者單位 何苑 河北大學新聞傳播學院
張洪忠 北京師范大學新聞傳播學院
張爾坤 英國格拉斯哥大學
參考文獻
[1]Manaris B.Natural Language Processing:A Human-Computer Interaction Perspective[J].Advances in Computers,1998(08).
[2]廖秉宜,姚金銘,余夢莎.智能媒體的倫理風險與規(guī)制路徑創(chuàng)新[J].中國編輯,2021(02).
[3]劉建.論智能侵權(quán)檢測算法在著作權(quán)保護中的應(yīng)用[J].中國出版,2021(19).
[4]周文柏,張衛(wèi)明,俞能海,等.人臉視頻深度偽造與防御技術(shù)綜述[EB/OL].(2021-10-06)[2022-01-06].http://kns.cnki.net/ kcms/detail/11.2406.TN.20210930.1358.010.html.
[5]李蓉,黃小龍.深度偽造司法滲透的法治風險及應(yīng)對策略[J].青海民族大學學報(社會科學版),2021(04).
[6]李懷勝.濫用個人生物識別信息的刑事制裁思路——以人工智能“深度偽造”為例[J].政法論壇,2020(04).
[7]騰訊網(wǎng).“元宇宙”成新熱潮,10家虛擬偶像公司獲得投資[EB/OL].(2021-11-01)[2022-01-06].https://xw.qq.com/ amphtml/20211101A0CPTB00.
[8]俞金香,呂東岳.網(wǎng)絡(luò)直播營銷廣告代言人侵權(quán)責任的再配置[J].中國政法大學學報,2021(05).
[9]馬立德,程怡,李韜.平臺型媒體對傳播權(quán)力的重構(gòu)與治理之道[J].青年記者,2021(03).
【編輯:沈金萍】