国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

音訊:新華社“語(yǔ)音智能+”采編應(yīng)用矩陣

2020-11-13 03:43李澤魁孫霏劉一聞
中國(guó)傳媒科技 2020年9期
關(guān)鍵詞:音視頻錄音新華社

李澤魁 孫霏 劉一聞

摘? 要:音視頻新聞相比于文字、圖片等新聞?lì)愋?,往往在攜帶信息量、傳播影響力等方面更具優(yōu)勢(shì)。近年來(lái),音視頻新聞數(shù)據(jù)量爆發(fā)式增長(zhǎng)、人工智能理論與技術(shù)創(chuàng)新式發(fā)展,為新聞生產(chǎn)傳播流程與語(yǔ)音智能技術(shù)深度融合創(chuàng)造了無(wú)限可能。本文從媒體智能化升級(jí)探索中,語(yǔ)音智能在多場(chǎng)景應(yīng)用、多語(yǔ)種識(shí)別、多品類終端與強(qiáng)算力支撐等不同角度切入,對(duì)新華社“語(yǔ)音智能+”采編應(yīng)用矩陣“音訊”的相關(guān)工作進(jìn)行了闡述與展望。

關(guān)鍵詞:語(yǔ)音智能;人工智能;新聞生產(chǎn)? ? ? ? ? ? ? ? ? ? ? ? ? 中圖分類號(hào):TN912.3;G210.7? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1671-0134(2020)09-105-04? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.19483/j.cnki.11-4653/n.2020.09.031

本文著錄格式:李澤魁,孫霏,劉一聞.音訊:新華社“語(yǔ)音智能+”采編應(yīng)用矩陣[J].中國(guó)傳媒科技,2020(9):105-107,124.

導(dǎo)語(yǔ)

新華社作為國(guó)家通訊社、世界性現(xiàn)代通訊社,每天24小時(shí)同時(shí)使用十余種語(yǔ)言滾動(dòng)發(fā)稿,權(quán)威、準(zhǔn)確、及時(shí)播發(fā)國(guó)內(nèi)外重要新聞和重大突發(fā)事件。近年來(lái),音視頻素材與稿件的制作需求與日俱增,這既對(duì)音視頻智能化分析技術(shù)提出了更多的挑戰(zhàn),也給相關(guān)技術(shù)的更大空間發(fā)展創(chuàng)造了無(wú)限可能。

從全球范圍看,媒體智能化進(jìn)入快速發(fā)展階段[1]。人工智能技術(shù)正深刻改變著人類社會(huì)生活,改變著世界,同時(shí)也成為突破媒體融合發(fā)展的前沿技術(shù)和體現(xiàn)國(guó)際競(jìng)爭(zhēng)力的關(guān)鍵技術(shù)之一。語(yǔ)音智能技術(shù)作為音視頻智能化處理領(lǐng)域的代表組成部分,新的科研成果也層出不窮。

為進(jìn)一步利用人工智能技術(shù)提升“采編發(fā)供”各階段生產(chǎn)傳播效率,新華社技術(shù)局推出“語(yǔ)音智能+”采編應(yīng)用矩陣(下簡(jiǎn)稱“音訊”)。經(jīng)過(guò)一年多的技術(shù)建設(shè),目前已支持9種國(guó)內(nèi)外語(yǔ)種、8種國(guó)內(nèi)方言的語(yǔ)音智能分析功能,包含移動(dòng)客戶端、PC桌面端、網(wǎng)頁(yè)端以及多款智能硬件等產(chǎn)品形態(tài),全面賦能記者編輯采訪整理、會(huì)議記錄、唱詞制作、稿件校對(duì)及旁白配音等采編場(chǎng)景。同時(shí),音訊業(yè)界領(lǐng)先的智能算法、各具特色的智能終端、自主可控的超級(jí)算力與安全高效的使用體驗(yàn),實(shí)現(xiàn)了移動(dòng)化與智能化下音視頻素材整理與新聞制作效率的大幅提升。

1.語(yǔ)音智能應(yīng)用,加速媒體智能化升級(jí)

1.1 多場(chǎng)景語(yǔ)音智能,賦能采編業(yè)務(wù)

1.1.1 AI實(shí)時(shí)速記,采訪邊說(shuō)邊識(shí)別

時(shí)間性越強(qiáng),新聞的社會(huì)效果就越大。音訊將語(yǔ)音實(shí)時(shí)轉(zhuǎn)寫技術(shù)有效嵌入至新華社采編客戶端中(如圖1所示),可將語(yǔ)音信息實(shí)時(shí)轉(zhuǎn)換成文字,并支持一鍵建稿至新華社采編系統(tǒng)。在實(shí)際采訪過(guò)程中,記者僅需攜帶安裝有客戶端的智能手機(jī),即可實(shí)現(xiàn)“AI錄音筆”與“AI速記本”的效果,進(jìn)一步提高編稿與簽發(fā)時(shí)效。

圍繞PC機(jī)音視頻信息實(shí)時(shí)轉(zhuǎn)寫文字的采編需求,音訊同步推出桌面版應(yīng)用,實(shí)現(xiàn)了PC機(jī)音頻信息的實(shí)時(shí)采錄與轉(zhuǎn)寫等功能(如圖2所示)。該工具不僅能實(shí)現(xiàn)瀏覽器內(nèi)的各種直播、點(diǎn)播音視頻同傳字幕,而且能對(duì)系統(tǒng)播放軟件的音視頻進(jìn)行實(shí)時(shí)轉(zhuǎn)寫,可對(duì)重要報(bào)道中領(lǐng)導(dǎo)人或記者會(huì)的發(fā)言與翻譯內(nèi)容進(jìn)行實(shí)時(shí)記錄與快速整理,有效壓縮稿件生產(chǎn)過(guò)程中錄音整理方面的重復(fù)工作。

1.1.2 AI錄音轉(zhuǎn)寫,素材整理好助手

面對(duì)采訪過(guò)程中收集的大量錄音或視頻素材,記者從中去粗取精,提煉新聞靈感與線索,往往需要反復(fù)回放錄音與核查信息。為此,音訊定制研發(fā)了音視頻語(yǔ)音轉(zhuǎn)錄工具,可支持小時(shí)級(jí)的錄音或視頻文件在數(shù)分鐘內(nèi)的高效轉(zhuǎn)寫,準(zhǔn)確率可達(dá)95%以上,并針對(duì)實(shí)際業(yè)務(wù)場(chǎng)景推出采訪發(fā)音角色分離、口語(yǔ)表達(dá)智能過(guò)濾、視頻唱詞智能切分及SRT字幕導(dǎo)出等采編功能(如圖3所示),可大幅提升采訪素材整理與視頻后期的工作效率。

1.1.3 AI語(yǔ)音互聯(lián),解放雙手更省勁

人機(jī)交互的方式正在因語(yǔ)音輸入而改變,其便捷、快速與個(gè)性化等特點(diǎn)賦予媒體領(lǐng)域更多落地場(chǎng)景。在全國(guó)兩會(huì)前夕,音訊推出了“大屏智能聲控”方案。管理員僅需對(duì)著遙控拾音設(shè)備口述大屏頁(yè)面跳轉(zhuǎn)指令,大屏即可根據(jù)指令內(nèi)容做出切換(如圖4所示),實(shí)現(xiàn)更智能、便捷地大屏操控體驗(yàn)。

1.1.4 AI稿件唱校,機(jī)器輔助讀校審

語(yǔ)音合成技術(shù)即將文字信息轉(zhuǎn)化為聲音信息,使文字化的新聞更加“聲情并茂”。音訊結(jié)合新聞稿件檢校需求推出了“AI唱?!惫δ?,稿件校對(duì)時(shí)可以選擇不同的播放語(yǔ)速、男女聲進(jìn)行智能唱校,同時(shí)支持各個(gè)標(biāo)點(diǎn)符號(hào)、回車換行等字符的朗讀,一定程度上緩解了人工校對(duì)的工作壓力(如圖5所示)。

1.1.5 AI視頻配音,一鍵搞定畫外音

音訊“智能配音工具”則主打音視頻制作需求(如圖6所示)。它具有57位AI配音員,包括9大語(yǔ)種及6種地方方言。該工具操作簡(jiǎn)單,用戶可一鍵合成純正地道的AI配音,也可根據(jù)實(shí)際采編需求修改音色、音調(diào)、語(yǔ)速,甚至可以指定插入圖片與變更多音字的讀法,實(shí)現(xiàn)了方便快捷的視頻多語(yǔ)種配音制作,為視頻新聞創(chuàng)作帶來(lái)無(wú)限可能。

1.2 多語(yǔ)種語(yǔ)音智能,堅(jiān)持內(nèi)外并重

進(jìn)入新時(shí)代,構(gòu)建內(nèi)外并重的體制機(jī)制成為新華社技術(shù)建設(shè)新目標(biāo)之一[2]。音訊近年來(lái)不斷拓寬語(yǔ)音智能技術(shù)的支持語(yǔ)種(如表1所示)。目前已支持中、英、西、法、俄、阿、葡、日、韓語(yǔ)在內(nèi)的9種語(yǔ)種(其中還包括加拿大法語(yǔ)、墨西哥西語(yǔ)等8國(guó)語(yǔ)言變種),廣東話、河南話、四川話等8種國(guó)內(nèi)方言的語(yǔ)音智能處理功能,推動(dòng)對(duì)內(nèi)對(duì)外報(bào)道新聞素材整理與制作效率進(jìn)一步提升。

1.3 多品類定制終端,錄音提質(zhì)增效

“音訊盒子”是基于3D技術(shù)打造、具有自主知識(shí)產(chǎn)權(quán)的智能硬件系列產(chǎn)品,可與電視、固定電話、終端及機(jī)頂盒等設(shè)備外接(如圖7所示),通過(guò)對(duì)音視頻信號(hào)的高保真降噪與極速轉(zhuǎn)碼,實(shí)現(xiàn)音源更精準(zhǔn)的實(shí)時(shí)轉(zhuǎn)寫效果。適合于新聞采訪、新聞發(fā)布會(huì)等業(yè)務(wù)場(chǎng)景,可提高采訪報(bào)道新聞生產(chǎn)效率。

除此之外,音訊還與市面在售的若干款錄音筆硬件實(shí)現(xiàn)“智能互聯(lián)”。圖8是一款具有8麥環(huán)形高保真拾音、數(shù)據(jù)多重保障、智能電池控制等特性的專業(yè)錄音筆,經(jīng)過(guò)新華社技術(shù)人員的研發(fā),目前已實(shí)現(xiàn)了與新華社新采編客戶端的無(wú)線信息傳輸,支持手機(jī)遠(yuǎn)程控制錄音筆啟停、錄音轉(zhuǎn)錄及采編一鍵建稿等功能,滿足了更高品質(zhì)拾音與轉(zhuǎn)寫、安全距離采訪與整理等場(chǎng)景需求,可進(jìn)一步提升采訪智能化體驗(yàn)。

1.4 強(qiáng)算力極致安全,架構(gòu)穩(wěn)若磐石

目前,音訊具有新華社遍布全球各地的龐大采編用戶群體,基礎(chǔ)設(shè)施的自主可控、核心數(shù)據(jù)的存儲(chǔ)傳輸?shù)劝踩匾诧@得尤為重要。為此,音訊圍繞實(shí)際需求打造了“超強(qiáng)算力+智能中臺(tái)+全球加速”的全鏈路一體化系統(tǒng)架構(gòu)。

與市面商業(yè)化產(chǎn)品不同,其核心功能均部署在新華社自主可控的GPU高性能計(jì)算平臺(tái)之上,處理性能大幅提升的同時(shí),也完全保證了數(shù)據(jù)安全;音訊“智能語(yǔ)音中臺(tái)”目前具有強(qiáng)大定制與高擴(kuò)展能力,可通過(guò)靈活開發(fā),滿足新華社不同部門與分社定制化語(yǔ)音智能需求;同時(shí),為保證駐外采編人員的使用體驗(yàn),音訊針對(duì)性實(shí)現(xiàn)全球內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)鏈路加速優(yōu)化,大幅降低了海外訪問延遲,使北美等地區(qū)的使用體驗(yàn)進(jìn)一步提升。

2.產(chǎn)品效能初顯,用戶活躍度口碑高漲

當(dāng)前,音訊產(chǎn)品的用戶已達(dá)數(shù)千人,分布在全球各地。自2019年上線至今,已累計(jì)語(yǔ)音轉(zhuǎn)寫各語(yǔ)種素材超1.9萬(wàn)小時(shí),共計(jì)7.3萬(wàn)余單,平均1小時(shí)錄音僅需9分鐘即可獲得轉(zhuǎn)寫結(jié)果(圖9為轉(zhuǎn)寫工具用戶數(shù)目及轉(zhuǎn)寫單數(shù)月活躍量數(shù)據(jù)示例);另一方面,累計(jì)語(yǔ)音合成超過(guò)4700萬(wàn)字的稿件內(nèi)容,合成時(shí)長(zhǎng)超過(guò)2400小時(shí)。音訊通過(guò)與新華社采編流程打通并融合,為采編人員節(jié)省了大量寶貴的人力與物力,受到了廣泛認(rèn)可。

在2019年一帶一路高峰論壇及中國(guó)國(guó)際進(jìn)口博覽會(huì)等重大報(bào)道期間,音訊多次輔助新華社前后方采編人員素材整理素材,提升各語(yǔ)種出稿效率;亞洲文明交流大會(huì)開幕式的報(bào)道前方,音訊盒子對(duì)領(lǐng)導(dǎo)人講話中文原聲和英文同聲進(jìn)行實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫,在無(wú)英文稿情況下供新華社多個(gè)編輯部參考與發(fā)稿,加快了發(fā)稿時(shí)效;2020年全國(guó)兩會(huì)期間,音訊轉(zhuǎn)寫工具輔助音視頻編輯聽打唱詞,節(jié)省了大量人工拍詞工作;抗擊疫情期間,音訊“智能遠(yuǎn)程錄音”的采訪模式,使記者在采訪錄音與記錄的同時(shí),保證了采訪安全距離,成為疫情相關(guān)報(bào)道的重要助力。

3.融合潛力巨大,媒體智能化未來(lái)可期

近年來(lái),音視頻產(chǎn)業(yè)爆發(fā)式增長(zhǎng),逐漸成為新聞傳播的重要媒介載體。媒體融合發(fā)展的路上,語(yǔ)音智能未來(lái)仍具有很大的應(yīng)用空間。音訊將圍繞采編需求,繼續(xù)在如下方面進(jìn)行更深入的研究,持續(xù)推進(jìn)媒體智能化工作縱深發(fā)展。

3.1增強(qiáng)語(yǔ)音智能應(yīng)用的融合力度

本文所闡述的語(yǔ)音智能的應(yīng)用主要集中在新聞生產(chǎn)系統(tǒng),當(dāng)前新華社技術(shù)局還在對(duì)語(yǔ)音識(shí)別與合成技術(shù)在智能硬件及交互式AR/VR產(chǎn)品等方面的集成應(yīng)用等方面不斷拓展,增強(qiáng)系統(tǒng)實(shí)用性、激發(fā)產(chǎn)品趣味性,將現(xiàn)有技術(shù)更全面地賦能新聞生產(chǎn)傳播各個(gè)流程。

3.2擴(kuò)展語(yǔ)音成熟技術(shù)的應(yīng)用廣度

語(yǔ)音智能的新技術(shù)也日新月異。例如,語(yǔ)音識(shí)別中的聲紋識(shí)別技術(shù),不僅可用于標(biāo)記采訪錄音中更多的講話者,亦可用于權(quán)限認(rèn)證,提升新聞素材整理的便捷性與新聞審核簽發(fā)的安全性;基于語(yǔ)音遷移學(xué)習(xí)、小樣本學(xué)習(xí)等技術(shù)[3],可在數(shù)分鐘內(nèi)實(shí)現(xiàn)個(gè)性化配音角色的快速制作,合成語(yǔ)音的自然度和相似度均可以假亂真;藏語(yǔ)及維語(yǔ)等少數(shù)民族語(yǔ)言語(yǔ)音智能技術(shù),可輔助記者提升采訪溝通與記錄效率。

3.3細(xì)化音視頻的跨媒介檢索粒度

隨著語(yǔ)音轉(zhuǎn)文字技術(shù)準(zhǔn)確度的不斷提升,所有音視頻稿件中的語(yǔ)音內(nèi)容,均可以文字形式予以保存并建立索引,進(jìn)而實(shí)現(xiàn)稿件中語(yǔ)音內(nèi)容的精準(zhǔn)檢索。這樣可大幅提升新聞采編素材的選擇范圍,即使是文字稿件也能廣泛采用視頻同期聲等文字內(nèi)容。

[1]習(xí)近平.加快推動(dòng)媒體融合發(fā)展 構(gòu)建全媒體傳播格局[J].當(dāng)代江西,2019(3): 4-7.

[2]蔡名照.始終履行好黨中央“喉舌”“耳目”職能[J].求是,2016(6):33-34.

[3]俞棟,鄧力.解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐[M].電子工業(yè)出版社,2016.

作者簡(jiǎn)介:李澤魁(1992-),男,山西人,工程師,研究方向:語(yǔ)音識(shí)別、語(yǔ)義分析、圖像處理等領(lǐng)域智能化采編應(yīng)用;孫霏(1981-),女,北京人,高級(jí)工程師,研究方向:語(yǔ)音識(shí)別、視頻標(biāo)引等人工智能技術(shù);劉一聞(1984-),男,湖北人,工程師,研究方向:智能寫作、圖像識(shí)別等領(lǐng)域智能化采編應(yīng)用。

猜你喜歡
音視頻錄音新華社
Funny Phonics
funny phonics
Listen and Choose
聚焦“5G+音視頻”融合發(fā)展 2019中國(guó)音視頻產(chǎn)業(yè)大會(huì)深圳舉辦
廣電總局等三部門聯(lián)合發(fā)布 《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》
Listen and Color
國(guó)家互聯(lián)網(wǎng)信息辦公室等三部門規(guī)范網(wǎng)絡(luò)音視頻信息服務(wù)
青云QingCloud推出音視頻轉(zhuǎn)碼服務(wù)
《新華社烈士傳》再版發(fā)行
新中國(guó)六十華誕大閱兵